工程學院 楊 華 郭 程
大數(shù)據(jù)安全與隱私保護
工程學院 楊 華 郭 程
大數(shù)據(jù)是當前知識界和產業(yè)界研究的熱點,正影響著人們的生活方式、思維模式及工作習慣。但目前大數(shù)據(jù)在收集、存儲和處理過程中面臨著諸多安全風險。大數(shù)據(jù)所導致的隱私泄密為用戶帶來嚴重困擾。虛假數(shù)據(jù)將導致錯誤或無效的數(shù)據(jù)分析結果。該文分析了大數(shù)據(jù)安全與隱私保護所面臨的技術挑戰(zhàn)。整理了若干技術及最新的進展,指出了在大數(shù)據(jù)引入安全問題的同時,也是解決信息安全問題的有效手段,它為信息安全領域的發(fā)展帶來了新的契機。
大數(shù)據(jù);隱私保護;信息安全
當今,社會信息化和網(wǎng)絡化的發(fā)展導致數(shù)據(jù)爆炸式增長。據(jù)統(tǒng)計,平均每秒有200萬用戶在使用谷歌搜索,F(xiàn)acebook用戶每天共享的東西超過40億,推特每天處理的推特數(shù)量超過3.4個億。
目前,大數(shù)據(jù)已成為繼云計算之后信息技術領域的另一個信息產業(yè)增長點。據(jù)GarTener預測,到2016年全球在大數(shù)據(jù)方面的總花費將達到2320億美元。GarTner將“大數(shù)據(jù)”技術列入2012年對眾多公司和組織機構具有戰(zhàn)略意義的十大技術與趨勢之一。不僅如此,作為國家和社會的主要管理者,各國政府也是大數(shù)據(jù)技術推廣的主要推動者。截至目前,全世界已經(jīng)正式有35個國家和地區(qū)構建了自己的數(shù)據(jù)開放門戶網(wǎng)站。美國政府聯(lián)合6個部門宣布了2億美元的“大數(shù)據(jù)要就與發(fā)展計劃”。在我國,2012年中國通信學會、中國計算機學會等重要學術組織先后成立了大數(shù)據(jù)專家委員會,為我國大數(shù)據(jù)應用和發(fā)展提供學術咨詢。
1.1大數(shù)據(jù)來源與特征
普遍觀點認為,大數(shù)據(jù)是指規(guī)模大且復雜、以至于很難用現(xiàn)有數(shù)據(jù)庫管理工具或主句處理應用來處理數(shù)據(jù)集。大數(shù)據(jù)的常見特點包括大規(guī)模(volume)、高速性(velocity)和多樣性(variety)。根據(jù)來源的不同,大數(shù)據(jù)大致可分為如下:
人們在互聯(lián)網(wǎng)活動以及使用移動互聯(lián)網(wǎng)過程中所產生的各類數(shù)據(jù),包括文字、圖片、視頻等信息。
各類計算機信息系統(tǒng)產生的數(shù)據(jù),以文件、數(shù)據(jù)庫、多媒體等形式存在、也包括審計、日志等自動生成的信息。
各類數(shù)字設備所采集的數(shù)據(jù)。如攝像頭產生的數(shù)字信號、醫(yī)療物聯(lián)網(wǎng)中產生的人的各項特征值、天文望遠鏡所產生的大量數(shù)據(jù)等。
1.2大數(shù)據(jù)分析目標
目前大數(shù)據(jù)分析應用于科學、醫(yī)藥、商業(yè)等各個領域,用途差異巨大。但其目標可以歸納如下:
人們進行數(shù)據(jù)分析由來已久,最初且最重要的目的就是獲得知識、利用知識。由于大數(shù)據(jù)包含大量原始、真實信息,大數(shù)據(jù)分析能夠有效地摒棄個體差異,幫助人們透過現(xiàn)象、更準確地把握事物背后的規(guī)律?;谕诰虺龅闹R,可以更準確地對自然或社會現(xiàn)象進行預測。
個體活動在滿足某些群體特征的同時,也具有鮮明的個性化特征。正如“長尾理論”中那條細長的尾巴那樣,這些特征可能千差萬別。企業(yè)通過長時間、多維度的數(shù)據(jù)積累,可以分析用戶行為規(guī)律,更準確地描繪個體輪廓,為用戶提供更好的個性化產品和服務,以及更準確地廣告推薦。
當前亟需針對前述大數(shù)據(jù)面臨的用戶隱私保護、數(shù)據(jù)內容可信驗證、訪問控制等安全挑戰(zhàn),展開大數(shù)據(jù)安全關鍵技術研究。
2.1數(shù)據(jù)發(fā)布匿名保護技術
對于大數(shù)據(jù)中的結構化數(shù)據(jù)(或稱關系數(shù)據(jù))而言,數(shù)據(jù)發(fā)布匿名保護是實現(xiàn)其隱私保護的核心關鍵技術與基本手段,目前仍處于不斷發(fā)展與完善階段。
2.2社交匿名保護技術
社交網(wǎng)絡產生的數(shù)據(jù)時大數(shù)據(jù)的重要來源之一,同時這些數(shù)據(jù)中包含大量用戶隱私數(shù)據(jù)。截至到2012年10月以前Facebook的用戶成員就達10億。由于社交網(wǎng)絡具有圖結構特征,其匿名保護技術與結構化數(shù)據(jù)有很大不同。社交網(wǎng)絡中典型匿名保護需求為用戶標識匿名與屬性匿名,在數(shù)據(jù)發(fā)布時隱藏了用戶的標識與屬性信息;以及用戶間關系匿名,在數(shù)據(jù)發(fā)布時隱藏用戶間的關系。
大數(shù)據(jù)帶來了新的安全問題,但它自身也是解決問題的重要手段。本文從大數(shù)據(jù)的隱私保護、信任、訪問控制等角度出發(fā),梳理了當前大數(shù)據(jù)安全與隱私保護相關的關鍵技術。但總體上來說,當前國內外針對大數(shù)據(jù)安全與隱私保護的相關研究還不充分。只有通過技術手段與相關政策法規(guī)等相結合,才能更好地解決大數(shù)據(jù)安全與隱私保護問題。
[1]Jung T H,Li X Y,Wan Z G,et al.Privacy preserving cloud data access with multi-authorities[C]//IEEE International Conference on Computer Communication.2013:2625-2633.
[2]BLAZE G,BLEUMER G,STRAUSS M.Divertible protocols and automic Proxy-cryptography [C]//Advances in Cryptology-Eurocrypt.1998:127-144.