大數據環境下的隐私保護-雜誌-人人書

目前，個人數據已成為大數據産業發展的重要基礎資源之一，需求日趨旺盛。而個人數據被濫用和黑市交易的日益猖獗，使隐私保護呼聲日益高漲。面對這一供需矛盾，大數據産業發展亟須完善個人數據的隐私保護。

桑亮博彥多彩數據科技有限公司解決方案高級顧問

數據隐私保護刻不容緩

在大數據發展成為國家戰略的背景下，個人數據已成為重要資源，其使用中面臨的隐私保護問題亟待解決。大數據浪潮洶湧來襲，與互聯網的發明一樣，不僅是信息技術領域的革命，更是在全球範圍啟動透明政府、加速企業創新、引領社會變革的利器。

進入大數據時代，數據的隐私問題包括兩個方面：一方面是個人隐私的保護。随着數據采集技術的發展，在用戶無法察覺的時候就能容易地獲得用戶的個人興趣、習慣、身體特征等隐私信息；另一方面是個人隐私數據在存放、傳輸和使用的過程中，也有被洩露的風險。

美國Facebook公司被認為是目前擁有最多的社交網絡數據的大數據公司。這些擁有大數據的組織，都試圖通過複雜計算來挖掘數據中有價值的信息。其中的隐私保護技術是關鍵。

據報道，通過一款信息收集工具，SkullSecurity的研究人員羅恩·鮑維斯獲取了Facebook用戶公共頁面的數據，而這些用戶沒有修改他們的隐私設置。鮑維斯将這些數據打包成一份2.8GB的内容，并創建BT種子供他人下載，并将其用于建立模型，以精準投放廣告等方式幹預全球多地選舉或公民投票前的民意。Facebook公司承認，8700萬用戶受影響。

在美國參議院相關委員會的聽證會上，紮克伯格承認，在預防Facebook等社交工具被濫用等方面做得還不夠，使其被用來傳播假新聞、仇恨言論、幹涉選舉等等。

由此可見，大數據的分析能力導緻看似簡單的信息可能會被挖掘出其中的隐私，因此面對大數據時代的隐私保護成為新的課題。

個人數據成為重要基礎資源

2012年3月，奧巴馬政府發布了“大數據研究和發展計劃”，旨在提升美國從龐大而複雜的數字資料中提煉真知灼見的能力，以協助科學、工程領域加快創新步伐，強化美國國土安全，轉變教育和學習模式。

2012年5月，英國政府宣布建立世界首個開放數據研究所，旨在從開放數據中尋求産品創新、創業機遇和經濟增長點。在發達國家紛紛将大數據發展上升為國家戰略的背景下，無論是技術還是産業，在大數據領域喪失主動權，都意味着國家安全将在數字空間出現漏洞，國家創新能力将在未來國際競争中落後于人。

我國人口衆多，很多領域都能出現全球最大、最複雜的“數據池”，大數據應用前景十分廣闊。國内不少企業家已經意識到了數據的戰略價值，如阿裡巴巴集團董事局主席馬雲就提出過銷售數據的觀點。而大數據是如何産生的？它的來源主要有哪些呢？大數據的原材料即數據，其來源主要有以下四類。

一是網絡。社交網站以及電子商務網站是大數據的主要來源，服務提供商可以利用這些數據對用戶進行仔細的分析，從而深入了解用戶的需求，提供更加具有針對性的服務，如亞馬遜、京東等電子商務平台提供的商品推薦服務。

二是移動智能終端。通過智能手機、平闆電腦、電子書、PDA、導航儀等移動互聯網終端設備搜集相關信息，可以進行有效的決策，比如交通監控和疏導系統。

三是物聯網終端。分布在不同地理位置上的傳感器以及嵌入物體中的RFID，對所處環境進行感知，不斷生成數據。

四是科研。如在物理研究方面，大型強子對撞機每年積累的新數據量為15PB左右。

顯而易見，數據來源中不少是個人數據。個人數據的大數據分析能直接産生經濟效益，是現階段極為重要的基礎資源。而關于個人數據，按照數據的來源，2011年世界經濟論壇編制的報告将個人數據分為以下三類。

一是自願提供的數據。即用戶自願提供的一系列數據，如微博發表的各種言論及照片、向某些網站注冊時提交的信息等。

二是被觀測到的數據。即用戶在使用信息設施或者軟件時，被記錄和觀察到的一系列行為數據，如上網記錄、購物記錄、搜索記錄等。

三是被推斷的數據。即根據用戶的各種信息推測的個人數據，如個人信用評級、消費需求、購物偏好等。

按照是否涉及隐私，可以将個人數據分為敏感性和非敏感性個人數據。

敏感性個人數據涉及個人隐私，法律給予特殊保護，某些數據會有專門法律進行規制，如個人征信數據。不同的國家對于敏感性數據的劃分有所不同，如歐盟将種族、宗教信仰作為敏感性數據，中國對此沒有特殊規定。

非敏感性個人數據指不涉及個人隐私的數據，一般沒有特殊保護。

圖1大數據的數據主要來源詳解個人隐私數據

主要發達國家在積極部署國家安全的同時，着力加強了對個人隐私的保護。反觀我國大數據領域的發展，面對日益增長的需求，在當前個人數據規制還不健全的情況下，如何保證在當前的大數據時代，用戶隐私不洩露的前提下，提高大數據的利用率，挖掘大數據的價值，是目前大數據研究領域的關鍵問題。

而談到大數據環境下的個人隐私保護，首先需要清楚大數據産生的過程中，哪些個人數據屬于個人隐私數據。個人數據的内容複雜多樣，不勝枚舉，以下以當前頻繁使用的主要數據進行分類。

一是交易數據。交易數據中的用戶賬戶、支付記錄、消費商品記錄及電子賬戶餘額等均為重要的個人數據。

二是電子郵件數據。電子郵件中，用戶隐私數據和商務機密數據較多。不僅可能包括用戶對某一熱點事件的看法，而且可能包括用戶的年齡、愛好和學曆等重要基本信息。

三是社交媒體數據。社交媒體數據則包括了位置信息、行為特征甚至與意識形态相關的重要數據等。這些重要的個人數據不僅蘊涵着較大的商業價值，而且對于經濟組織乃至國家而言，極具戰略性意義。

四是位置信息/數據。随着移動終端的普及并成為生活必需品，個人的位置信息無所遁形，都被移動終端記載下來。

五是醫療信息。世界上不少國家已經應用了電子健康記錄。随着電子健康記錄的逐步推廣，個人的病史、健康狀況、醫療保險等也将成為重要的個人數據。

部分個人數據屬于個人隐私。并非所有個人數據都是隐私。有時候，每個碎片化的個人數據不是隐私，一旦将其組合分析，便涉及個人隐私。

大數據的發展可能使個人隐私無所遁形，以至于國外隐私保護主義者擔憂出現“BigDataisBigBrother”（美國著名小說《1984》中的獨裁者老大哥，随時監控着人們）的情況。隻有解除這一擔憂，才能給大數據發展掃清道路。

圖2個人隐私數據的主要分類用策略性技術保障數據安全

那麼，如何在大數據時代盡量保證個人的隐私數據不被洩露呢？在當前大數據時代中，大家普遍認可的隐私保護技術，主要有k-anonymity（k-匿名化）、l-diversity（l-多樣化）、t-closeness個性化匿名、m-invariance匿名、基于“角色構成”的匿名方法等，這裡我們不再詳細做展開闡述，不論是從隐私保護模型、數據生命周期，還是數據隐私保護技術本身的算法，很多技術性的文章已經詳細介紹了這些隐私保護技術對數據的保護。

行文至此，數據隐私保護的重要性已經不言而喻，如何使用大數據技術進行數據的安全加固，恰當的技術策略更顯得尤為重要。所以，下文将通過5個方面的隐私保護技術進行策略性的說明。

采用數據加密技術保護數據隐私

在考慮大數據發展的同時必須防止數據的丢失。安全問題在信息時代越來越多，對加密技術的靈活性和針對性的要求也越來越高。因此多模透明加密技術就成為最佳選項。這種技術結合了對稱和非對稱算法的優點，在不損失加密質量的同時更加靈活。處理方式越靈活，越有利于為大規模的數據安全提供保障。

此外，在透明加密技術的幫助下，人們幾乎感覺不到大數據的加密。該技術是基于系統内核的，這意味着它将具有更好的兼容性。既然我們要對數據隐私進行保護，那麼保護數據本身就應該是我們考慮的起點，因此我們最好使用加密軟件。針對性強、防護全面的加密軟件像哨兵一樣保護了大數據的發展。對于企業來說，為了保護數據安全，擁有快速檢測數據威脅的能力是非常重要的，目前部分企業已經能夠做到這一點。圖3個人隐私數據技術路線圖重新設計大數據架構層面的安全工具

大數據和關系型數據庫，這二者看似差别甚微，實際上有很大的區别。首先，它們具有不同的實時性，數據量也有差别。其次，它們的分布式架構也不盡相同，而分布式架構正是給安全防護帶來獨特困難的“元兇”。此外，大數據在存儲與查詢時采取與後者不同的模式，此外還需要協調不同網絡會話。在大數據環境中，安全産品中有很多技術已經處于失效狀态，其中包括監視與分析日志、發現數據以及評估漏洞等方面。因此，需要在架構層面上重新設計安全工具，以滿足大數據環境中的安全需要。

加固大數據網絡技術的安全防護

進行大數據應用開發時，将數據結構化是一個好方法。該方法降低了數據處理和分類的難度，同時也方便了數據管理和加密。這樣當發生非法入侵時，系統就可以準确高效地分辨出入侵行為，從而保證了大量數據在使用前不會被破壞。這種方法提高了系統的效率，但本質上并沒有改變數據安全格局。數據結構化已經成為安全模式的發展趨勢。作為當前數據安全模式的常規做法，分層構建需要進一步完善。同時随着網絡攻擊次數的暴增及雲計算造成的攻擊方法隐秘性的增強，現有的端點安全模式已暴露出明顯的弱點，因而使網絡層受到強大的壓力。所以我們應該在維護端點數據安全時重點考慮網絡層。這要求我們在把數據結構化、辨識智能化與本地系統的監控機制結合起來時，隻允許常态數據運行。

提高本地數據層面的安全技術

在大數據時代，數據可以帶來豐厚的經濟收益，這也誘發了許多信息洩露事件，其中很大一部分來自内部。因此，對端點而言，本地安全防護系統看上去完整而成熟了，但實際上相差很大。這就要求調整安全防護思路，在本地安全策略中加入内部監控功能。為防止人為故意破壞，應使用純數據模式。此外還應重視加強各環節的協作。在處理數據時數據調用有很大的風險，要想避免這種風險就要進一步劃分鍊接，改進存儲及緩存方式。

數據存儲作為“終端”，受到了高度的重視，但其安全保護措施仍然需要加強，這樣才能與新的數據模式相适應。這要求完善數據邏輯策略，作用于存儲隔離與調用之間。在大數據領域，隻有少數開發資源被投入到增加安全功能中，而其他功能，例如分析功能、易用性和可升性，占據了大部分資源。

此外還有一個顯著的問題：大多數系統缺乏配套安全産品，而即便是有，也難以應對常見威脅，而且非關系型數據庫、Hadoop等無法包含大多數安全産品，因此企業構建安全策略就極其重要。本地安全策略可能存在許多未知隐患，這就需要企業一邊開發，一邊完善自有系統。

個人層面的數據隐私防護建議

對于個人用戶來說，将數據存放在對方服務器中就意味着一種抵押，由于對方想取用時無須任何申請，用戶對此束手無策，因此也談不上什麼保護隐私。對此有以下幾點建議：

采用匿名IP地址。禁止網站搜集和跟蹤Cookies，不使用不支持DoNotTrack請求的浏覽器。

加密數據。主要針對企業級用戶，對于個人用戶來說，當其将一個私密文件上傳到網絡上，最好在壓縮時設置加密密碼，這無疑讓用戶的數據多了一道屏障。

拒絕不合理的權限要求。這主要是針對手機用戶，現在的手機應用程序，尤其是部分國産軟件不顧用戶的實際需求，所要求的權限超出了其本身的功能範圍。此外，垃圾軟件在後台運行占用硬件資源，嚴重影響手機性能及用戶體驗。

浏覽網頁時使用HTTPS協議。HTTPS協議是可進行加密傳輸、身份認證的網絡協議，比HTTP協議安全，這樣就增強了電腦與服務器之間收發的信息傳輸安全性。

最後，面對大數據應用帶來的創新與隐私保護的兩難選擇，首先梳理國外經驗，調研國民對隐私的态度，再進行隐私保護總體設計，明确隐私保護的價值取向、機制構成及其内在關系，同時建立個人數據隐私洩露舉報機制和個人數據隐私洩露溯源機制。這裡仍然引用作者王忠關于個人隐私數據的技術路線圖（如圖3）作為隐私保護手段的總結。總之，在大數據時代到來以後，隐私洩露會更加嚴重，除非你不上網，否則在技術上無法做到完全的保護。要真正保障每個公民的隐私權和安全，需要靠法律和道德，靠每一個人的良知和社會組織的進步，以及科學技術的發展。

責任編輯：白雲

大數據環境下的隐私保護

熱門書籍

熱門文章