方賢進,肖亞飛,楊高明
安徽理工大學計算機科學與工程學院,安徽 淮南 232001
大數(shù)據(jù)及其隱私保護
方賢進,肖亞飛,楊高明
安徽理工大學計算機科學與工程學院,安徽 淮南 232001
在對大數(shù)據(jù)進行發(fā)布或數(shù)據(jù)挖掘的過程中,隱私泄露是人們最關心的問題,但目前關于大數(shù)據(jù)隱私保護的研究還處在初級階段。介紹了有關隱私保護系統(tǒng)的基礎知識,包括數(shù)據(jù)參與角色與數(shù)據(jù)操作的定義,給出了隱私保護系統(tǒng)的數(shù)學描述與隱私度量方法,分析了隱私保護的數(shù)學模型,包括k-匿名模型與差分隱私模型?;仡櫫嘶谖恢梅盏碾[私保護及其應用,總結了大數(shù)據(jù)時代隱私保護的挑戰(zhàn)與機遇,指出了用于改進現(xiàn)有隱私保護方法的研究方向,以滿足大數(shù)據(jù)前所未有的各種計算需求。
大數(shù)據(jù);k-匿名;差分隱私;隱私模型
根據(jù)維基百科的定義,大數(shù)據(jù)(big data)是指一個特殊的數(shù)據(jù)集,其足夠大而復雜,并且傳統(tǒng)的數(shù)據(jù)處理應用軟件不能對它進行有效處理。大數(shù)據(jù)面臨的挑戰(zhàn)包括大數(shù)據(jù)的獲取、存儲、管理、搜索、共享、傳輸、可視化、查詢、更新與信息隱私等。一般來說,大數(shù)據(jù)分析是指預測分析、用戶行為分析或者其他高級數(shù)據(jù)分析方法,并且能夠從數(shù)據(jù)中獲取價值。大數(shù)據(jù)很少是指數(shù)據(jù)集特別大①,毫無疑問大數(shù)據(jù)的容量確實很大,但這并不是大數(shù)據(jù)生態(tài)系統(tǒng)的最具實質性的特性②,正如麥肯錫全球研究所認為“大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模(volume)、快速的數(shù)據(jù)流轉(velocity)、多樣的數(shù)據(jù)類型(variety)和價值密度低(value)四大特征”。
數(shù)據(jù)集的快速增長在某種程度上是因為廉價、大量的信息傳感移動設備、遙感設備、軟件日志、攝像機、麥克風、射頻識別(radio frequency identification,RFID)讀取器、無線傳感網(wǎng)絡設備等采集數(shù)據(jù)的日益增長。從20世紀80年代開始,人均存儲信息容量每40個月大約增加2倍,但截至2012年,每天產生的數(shù)據(jù)量為2.5 EB,包括人們在社交網(wǎng)絡上的聊天記錄、發(fā)出的照片與視頻剪輯、電子文檔、電子郵件、Web沖浪的足跡、在電子商務網(wǎng)站上的各種購物行為(包括用戶的ID、IP地址、搜索的關鍵詞、頁面停留時間、點擊鏈接記錄、對商品的打分、購買商品的記錄等)、電子支付記錄等。另外,在公共場所的攝像頭獲取的視頻、手機定位系統(tǒng)(包括基站和全球定位系統(tǒng)(GPS)定位)留下的路線圖、在各種情況下被錄下的語音、駕車時的GPS 信號、電子病歷檔案、公交刷卡記錄等被動信息也是大數(shù)據(jù)的組成部分。還有各種傳感器設備自動采集的有關溫度、濕度、速度等萬物信息,仍然是大數(shù)據(jù)的組成部分??傊總€人、每種通信和控制類設備,無論它是軟件還是硬件,都是大數(shù)據(jù)之源。
大數(shù)據(jù)挖掘是指在大數(shù)據(jù)集中發(fā)現(xiàn)知識、模式的一種計算過程,涉及人工智能、機器學習、統(tǒng)計分析方法、數(shù)據(jù)庫系統(tǒng)等學科交叉。數(shù)據(jù)挖掘的目標就是從數(shù)據(jù)集中抽取信息,并且將其轉換成可以理解的結構以供未來使用。大數(shù)據(jù)是信息時代的一個重要里程碑,它對人類社會產生了深遠的影響。大數(shù)據(jù)挖掘能夠極大地推進知識、服務以及社會各個領域生產力的發(fā)展。但是,針對大數(shù)據(jù)的數(shù)據(jù)挖掘和機器學習也對個人隱私造成了巨大的威脅。
隨著社交網(wǎng)絡和移動互聯(lián)技術的迅猛發(fā)展,各類數(shù)據(jù)的采集、存儲、分析、發(fā)布變得方便快捷。眾多機構(如醫(yī)療機構、保險公司、電子商務公司、社交網(wǎng)站、電信運營商)發(fā)布行業(yè)數(shù)據(jù)以供研究,各種大數(shù)據(jù)分析公司、大數(shù)據(jù)分析競賽等更是層出不窮。張華平等人[1]根據(jù)1700萬條新浪微博對微博生態(tài)系統(tǒng)進行深度分析,從而掌握了新浪微博用戶的各種宏觀信息,構建了用戶影響力模型,并深入研究了用戶意圖,反映了“大數(shù)據(jù)環(huán)境下無隱私”的狀況;2006年,美國在線租賃公司網(wǎng)飛(Netflix)公司投資100萬美元舉辦了一個為期3年的推薦系統(tǒng)算法競賽,并發(fā)布一些經過匿名化處理的用戶影評數(shù)據(jù)供參賽者測試。來自美國德克薩斯大學奧斯汀分校的兩位研究人員利用該數(shù)據(jù)與公開的互聯(lián)網(wǎng)電影數(shù)據(jù)庫(internet movie database,IMDb)用戶影評數(shù)據(jù)之間的相關性,將網(wǎng)飛公司的一部分匿名用戶與公開的IMDb用戶進行了對應,并獲得了IMDb用戶在Netflix網(wǎng)站上觀看的電影信息(包括涉及敏感題材的影片)[2]。2013年8月,美國通用電氣公司公布了由美國FlightStats公司提供的航空數(shù)據(jù),希望參賽者開發(fā)出能夠實時控制航班飛行路線、速度、高度和管制空域的模型,進而優(yōu)化航班的總體運行效率;美國好事達保險公司提供2005—2007年的保險數(shù)據(jù)(包括具體的汽車情況及每輛車相關的賠償支出次數(shù)和數(shù)量),懸賞1萬美元尋求解決方案,希望更準確地預測汽車傷害索賠,以便優(yōu)化保險定價方案。隨著移動定位服務的流行,阿里巴巴和螞蟻金服逐漸積累了來自用戶和商家的海量線上線下交易數(shù)據(jù)。螞蟻金服的線上到線下(online to offline,O2O)平臺“口碑商家客流量預測系統(tǒng)”③利用用戶瀏覽行為數(shù)據(jù)(用戶ID、商家ID、瀏覽時間)、用戶支付行為數(shù)據(jù)(用戶ID、商家ID、支付時間)、商家特征數(shù)據(jù)(商家ID、城市名、所在位置編號、人均消費、評分、評論數(shù)、門店等級)等為商家提供包括交易統(tǒng)計、銷售分析和銷售建議等在內的定制后端商業(yè)智能服務,為每個商家提供銷售預測?;陬A測結果,商家可以優(yōu)化運營、降低成本,并改善用戶體驗,從而使該系統(tǒng)成為更加智能的商業(yè)平臺,更好地服務社會。
由于數(shù)據(jù)集之間存在相關性,即使將數(shù)據(jù)進行匿名化處理,仍可導致各種敏感或隱私信息的泄漏[3]。而且,用于數(shù)據(jù)分析與數(shù)據(jù)挖掘而發(fā)布的數(shù)據(jù)本身就包含許多個人隱私信息,如健康醫(yī)療數(shù)據(jù)、個人消費習慣以及其他能夠體現(xiàn)個人特征的數(shù)據(jù),這些信息會隨著數(shù)據(jù)集的發(fā)布、共享、挖掘而被泄露[4,5]。對社交網(wǎng)絡數(shù)據(jù)進行鏈接挖掘可以獲得實體更豐富、更準確的信息,發(fā)布與共享社交網(wǎng)絡數(shù)據(jù)會導致隱私泄露,且社交網(wǎng)絡中的隱私信息類型廣泛,潛在的隱私泄露方式更加多樣[6]。刪除數(shù)據(jù)集的標識符屬性(如姓名、ID號等)能在一定程度上保護個人隱私,但一些攻擊案例(如一致性攻擊、合成式攻擊、前景知識攻擊、deFinetti攻擊)表明[7],這種簡單操作遠不足以保證隱私信息的安全。
總之,在數(shù)據(jù)分布(如計數(shù)查詢、直方圖發(fā)布、列聯(lián)表發(fā)布、數(shù)據(jù)立方體、圖數(shù)據(jù)發(fā)布等)、數(shù)據(jù)挖掘(如頻繁項挖掘、回歸、分類等)、機器學習(如電子商務中的推薦系統(tǒng)、預測分析)[8]等領域都可能導致隱私或敏感信息的泄漏,隱私保護、防止敏感信息泄露成為當前面臨的重大挑戰(zhàn)。隱私保護研究的目標就是用修改隱私數(shù)據(jù)的技術,使修改后的數(shù)據(jù)在保護隱私的前提下,最大限度地保留原數(shù)據(jù)的整體信息,即隱私保護后的數(shù)據(jù)必須具有可用性,可以安全發(fā)布或供第三方研究,否則,被發(fā)布的數(shù)據(jù)將毫無價值。同時,隱私保護后的數(shù)據(jù)不會遭受抗匿名化等各種隱私攻擊,即隱私保護后的數(shù)據(jù)具有隱私性。
一個隱私保護系統(tǒng)包括各種參與者角色(participation role)、匿名化操作(anonymization operation)與數(shù)據(jù)狀態(tài)(data status),它們之間的關系如圖1所示。在隱私保護的研究中,有4個數(shù)據(jù)參與者角色[9]。
數(shù)據(jù)生成者(data generator):指那些生成原始數(shù)據(jù)的個體或組織,例如病人的醫(yī)療記錄、客戶的銀行交易業(yè)務。他們以某種方式主動提供數(shù)據(jù)(如發(fā)布照片到社交網(wǎng)絡平臺)或被動提供數(shù)據(jù)給別人(如在電子商務、電子支付系統(tǒng)中留下個人的信用卡交易記錄等)。
圖1 一個隱私保護系統(tǒng)中的數(shù)據(jù)參與角色及其操作
● 數(shù)據(jù)管理者(data curator):指那些收集、存儲、掌握、發(fā)布數(shù)據(jù)的個人或組織。
● 數(shù)據(jù)使用者(data user):指為了各種目的對發(fā)布的數(shù)據(jù)集進行訪問的用戶。
● 數(shù)據(jù)攻擊者(data attacker):指那些為了善意或惡意的目的從發(fā)布的數(shù)據(jù)集中企圖獲取更多信息的人。數(shù)據(jù)攻擊者是一種特殊類型的數(shù)據(jù)使用者。
隱私保護系統(tǒng)中存在3個主要的數(shù)據(jù)操作,包括數(shù)據(jù)收集、匿名化、數(shù)據(jù)傳送。
● 數(shù)據(jù)收集(collecting):指數(shù)據(jù)管理者從不同的數(shù)據(jù)源收集數(shù)據(jù)。
● 匿名化(anonymizing):指數(shù)據(jù)管理者為了發(fā)布數(shù)據(jù)而對收集的數(shù)據(jù)進行匿名化處理。
● 數(shù)據(jù)傳送(communicating):指數(shù)據(jù)使用者對發(fā)布的數(shù)據(jù)集執(zhí)行信息檢索。
隱私保護系統(tǒng)的數(shù)據(jù)集還存在以下3個不同的狀態(tài)。
● 原始狀態(tài)(raw status):指數(shù)據(jù)的原始格式。
● 收集狀態(tài)(collected status):指數(shù)據(jù)已經被接收和處理(如去除噪聲、數(shù)據(jù)變換),并存儲在數(shù)據(jù)管理者的存儲空間中。
● 匿名化狀態(tài)(anonymized status):指數(shù)據(jù)已經通過匿名化操作處理后的狀態(tài)。
由圖1可知,數(shù)據(jù)攻擊者的目標可通過攻擊任何數(shù)據(jù)角色與數(shù)據(jù)操作實現(xiàn)。
一般情況下,將數(shù)據(jù)集中的記錄按照屬性分成4類。
● 明確標識符(explicit identifier):指能清楚地標識個體的唯一屬性,例如身份證號、駕駛證號等。
● 準標識符(quasi-identifier):指當人們將這些標識符與其他輔助信息收集在一起時,可能會重新識別一個個體的屬性的標識符,如年齡、職業(yè)、郵政編碼等。
● 敏感信息(sensitive information):指對手感興趣、期望獲得的信息,例如醫(yī)療記錄中病人所患的“疾病”屬性。
● 其他信息(other information)。
在表1中,駕照ID就屬于明確標識符,而工作、性別與年齡都屬于準標識符,疾病屬于敏感信息。一條記錄的所有準標識符的集合也稱為一個等價類。
本節(jié)重點介紹隱私研究的數(shù)學描述與隱私保護的數(shù)學模型。
為了更好地理解各種隱私保護方法,Yu S[9]提出了隱私研究的數(shù)學模型,該模型如圖2所示。
其中,X={X1,X2, …,Xn}是原始數(shù)據(jù),隱私保護系統(tǒng)或匿名化系統(tǒng)是一個映射函數(shù)F:X→Y,它將X轉換為Y={Y1,Y2,…,Yn},作為期望的輸出。函數(shù)F的目標是盡量保持Y的可用性,并且在一定程度上保護隱私。作為攻擊者,其目標是獲得X′,它是基于發(fā)布數(shù)據(jù)Y計算出來的,并且逼近于X。
隱私保護系統(tǒng)的兩個目標是可用性(utility)與隱私性(privacy),也就是說可用性和隱私性是函數(shù)F的兩個重要約束,既要考慮隱私性,也要考慮可用性,其目標是最小化隱私性泄露、最大化數(shù)據(jù)可用性??捎眯酝ǔS檬д娑龋╠istortion)D進行度量,而隱私性通常用隱私泄漏量(leakage)L標識。設λ表示勒貝格測度(Lebesgue measure),則數(shù)據(jù)失真度D可以表示為D=λ(X,Y),信息泄漏量L可以表示為L=λ(X,Y′)。
有多種方法可以計算D和L,假如用平均均方差(variance)計算失真度D,可以利用式(1)。
其中,E[?]表示X和Y聯(lián)合分布的期望值。
如果用信息論中的互信息(mutualinformation)I[?]度量信息泄漏量L,計算式如式(2)所示。
表1 數(shù)據(jù)表中不同類型標識符示例
圖2 隱私研究的數(shù)學模型
其中,dom(?)表示某一隨機變量的值域。
彭長根等人[10]將信息論中的信息熵(entropy)、平均互信息(mutual information)、條件熵、條件互信息等用于描述隱私保護系統(tǒng)信息源的隱私度量、隱私泄露量、含背景知識的隱私度量及隱私泄露量,據(jù)此提出了隱私保護方法的強度和對手攻擊能力的量化測評方法,為隱私泄露的量化風險評估提供了支撐。
給定失真度閾值D0和信息泄漏閾值L0,一個隱私保護系統(tǒng)的研究目標可以描述為一個優(yōu)化問題,如式(3)所示。
從攻擊者的角度來看,其只是對有關X′={X′1,X′1,…,X′k}的知識感興趣。一般而言,假設X′?X,攻擊者的目標是學習X中與X′相對應的知識。假設攻擊者已擁有X中期望知識X′的背景知識,那么其目標是根據(jù)背景知識學習映射函數(shù)G:YàX′,與防御操作相對應,攻擊者的目標也可描述為類似于式(3)的優(yōu)化問題。
Machanavajjhala等人對k-匿名模型的定義如下:設T={t1,t2,…,tn}為數(shù)據(jù)集D的一個數(shù)據(jù)表,其屬性集為A={A1,A2,…,Am},ti[Aj]表示記錄ti的屬性Aj的值。如果C={C1,C2,…,Ck}?A,那么用T[C]={t[C1],t[C2],…,t[Ck]}表示記錄t在屬性集C上的投影,QI表示一個數(shù)據(jù)表中所有準標識符集合。對一個數(shù)據(jù)表T進行k-匿名化定義,對T中的每個記錄t∈T至少存在k-1個其他記錄ti1,ti2,…,tik-1∈T,并且對所有的C∈QI,滿足t[C]=ti1[C]=ti2[C],…,tik-1[C]。例如,在表1中,準標識符的集合為QI={job,age},表2是進行k-匿名化之后的數(shù)據(jù)(k=2),以確保在數(shù)據(jù)表中的每個準標識符至少有k個記錄與之對應,從而降低重新識別某個特定記錄的概率。
差分隱私(differential privacy)[11]是在2006年提出的有關統(tǒng)計數(shù)據(jù)庫中數(shù)據(jù)記錄的隱私標準與度量,它是一種高強度的隱私保護框架,相關定義如下。
表2 經過k-匿名化處理后的數(shù)據(jù)表(k=2)
定義1 ε-差分隱私(ε-differential privacy):所有的D1、D2為相鄰數(shù)據(jù)集(即它們至多只有一條記錄不同),一個給定的隨機化函數(shù)G,對所有的S∈Ranger(G)(其表示隨機化算法G的輸出范圍),滿足:
也就是說,對于兩個具有最小差別的數(shù)據(jù)集,經過匿名化之后的差異不超過一個給定值eε,參數(shù)ε稱為隱私保護預算(privacy budget),ε越小,隱私保護強度越高。
在差分隱私的框架中,全局敏感度(global sensitivity)是一個非常重要的度量參數(shù),其定義如下。
差分隱私的實現(xiàn)機制有兩種,如果函數(shù)f的輸出是數(shù)值,則采用拉普拉斯機制(Laplace mechanism);如果函數(shù)f的輸出是離散值,則采用指數(shù)機制(exponential mechanism)。
定義3 差分隱私的Laplace機制[12]:對數(shù)據(jù)集D上的操作函數(shù)f:D→Rd,稱隨機算法G(D)=f(D)+η提供了ε-差分隱私保護,
其中,注入的噪聲η要求服從Laplace分布,如式(5)所示。
將式(5)寫成另一種形式為式(6)。
對式(6)中的Laplace分布進行積分,得到累積分布函數(shù)(cumulative distribution function,CDF),如式(7)所示。
根據(jù)式(7)計算逆累積分布函數(shù)得到式(8)。
其中,p是一個0~1.0均勻分布的隨機數(shù),λ稱為噪聲規(guī)模(noise scale)參數(shù),在Laplace機制中,其值滿足λ≥?f/ε就能滿足ε-差分隱私,?f是定義2中函數(shù)f的全局敏感度。噪音規(guī)模λ與?f成正比,與ε成反比,全局敏感度?f越大或隱私保護預算越小,則注入的噪音越大,使得隱私保護強度增強,但結果的可用性下降。
以下為一個差分隱私Laplace機制的例子。假設原始數(shù)據(jù)表為D,是存儲某一地域人群艾滋病(HIV)陽性檢測結果,見表3。
假如函數(shù)f(D)是定義在數(shù)據(jù)集D上的匯總查詢(aggregate query)函數(shù),即f(D)=統(tǒng)計每個省份HIV檢測結果為陽性的人群數(shù)量。顯然,如果直接發(fā)布數(shù)據(jù)表D或直接發(fā)布函數(shù)f(D)的統(tǒng)計結果(見表4)會造成敏感信息的泄漏(即HIV陽性檢測標志),可以利用差分隱私Laplace機制進行隱私保護數(shù)據(jù)發(fā)布。
表3 存儲HIV陽性檢測結果
顯然,函數(shù)f的敏感度為?f=1,取隱私保護預算參數(shù)ε=ln3,則注入噪聲規(guī)模λ=?f/ε=0.910239227,利用式(9)計算注入的噪聲,其中,p為0~1的隨機數(shù)。
一次匯總查詢經過差分隱私Laplace機制保護之后的結果見表5。
使用式(1),采用方差計算失真度(Distortion)=0.693457201943。
再一次匯總查詢經過差分隱私Laplace機制保護之后的結果見表6。
使用式(1),采用方差計算失真度(Distortion)=3.36814378091。可見,隱私保護預算ε越小,噪音規(guī)模λ越大,隱私保護強度增強了,但輸出結果的效用性卻降低了。
表4 對表3進行統(tǒng)計查詢結果
表5 利用差分隱私Laplace機制進行一次計數(shù)查詢的結果
表6 利用差分隱私Laplace機制進行再一次計數(shù)查詢的結果
定義4 差分隱私指數(shù)機制[13]:設隨機算法G的輸入為數(shù)據(jù)集D,輸出為離散值ω∈Ω,Ω是ω的值域。fs(D,ω)為得分函數(shù)(score function),Δfs稱為調節(jié)因子(scaling factor),用于控制隱私保護強度,其值與fs(D,ω)的敏感度有關,ε為隱私保護預算。若算法G以正比于的概率從Ω中選擇輸出ω,則稱算法G實現(xiàn)了ε-差分隱私保護,如式(10)所示。
得分函數(shù)的敏感度Δfs可利用式(11)計算,其中D1、D2為相鄰數(shù)據(jù)集。
以下為差分隱私指數(shù)機制的一個例子。假如要舉辦一場體育項目比賽,供選擇的體育項目為Ω={Soccer,Volleyball,Basketball,Badminton},決策參與者擬通過投票決定哪個體育項目為比賽項目,但要保證決策過程滿足ε-差分隱私保護要求,即每個體育項目的得票數(shù)為敏感信息,不便公開。在此用體育項目的得票數(shù)作為得分函數(shù)fs的值,顯然其敏感度為Δfs=1。按照差分隱私指數(shù)機制,在給定參數(shù)ε值的情況下,計算各體育比賽項目被選中的概率,同時每個體育項目的得票數(shù)得到了保護,見表7。
移動互聯(lián)網(wǎng)、社交網(wǎng)絡、云計算等新興技術的發(fā)展和廣泛使用,使得基于位置服務(locate-based service,LBS)的隱私保護問題越來越嚴重,成為工業(yè)界和學術界廣泛關注的熱點問題。2003年,Beresford A R等人[14]提出位置隱私的概念,開始了對LBS隱私保護的研究;Ghinita G[15]從私有查詢和軌跡匿名兩個方面對位置隱私進行了綜述,但沒有涉及隱私度量和查詢隱私;Krumm J[16]著重評述了匿名、模糊化隱私保護技術和一些利用位置數(shù)據(jù)幾何性質的隱私侵犯算法,但沒有涉及系統(tǒng)結構和查詢隱私;霍崢等人[17]從傳統(tǒng)關系數(shù)據(jù)隱私保護向時空方向拓展的角度對數(shù)據(jù)發(fā)布中的軌跡隱私保護和LBS中的軌跡隱私保護關鍵技術進行了分析和比較,但沒有涉及查詢隱私;Shin X等人[18]總結了LBS通用隱私威脅模型,分析比較了各種LBS隱私保護技術及度量指標。張學軍等人[19]總結了LBS隱私保護關鍵問題、LBS隱私保護系統(tǒng)結構,并探討未來的研究方向。參考文獻[20]針對位置隱私保護研究多基于歐氏空間的不足,提出了路網(wǎng)環(huán)境下連續(xù)KNN查詢方法,該方法以路段交叉點為連續(xù)查詢錨點,將路段上所有用戶的連續(xù)興趣點查詢轉化為等價的必達路段頂點查詢,在保證路段上所有用戶位置隱私的同時,實現(xiàn)用戶K最近鄰興趣點的精確查詢。針對面向路網(wǎng)的隱私保護K近鄰查詢中,保護位置隱私需求引起服務器端處理代價激增,導致保護位置隱私前提下查詢效率與查詢準確性絕對對立問題,參考文獻[21,22]提出支持查詢者對查詢準確性與查詢效率進行偏好調控思想,實現(xiàn)位置查詢服務的安全化和個性化。王璐等人[23]對時空數(shù)據(jù)發(fā)布中的隱式隱私保護進行研究,首次提出并定義時空數(shù)據(jù)中的隱式隱私,并提出保護該隱私的框架,針對框架中的消除步驟提出了基于頻繁移動對象的假數(shù)據(jù)添加算法,并針對其數(shù)據(jù)效用差的缺陷設計了基于圖的假數(shù)據(jù)添加方法,大幅提高了數(shù)據(jù)效用性。參考文獻[19]雖然系統(tǒng)地介紹了LBS隱私保護關鍵問題、LBS隱私保護系統(tǒng)結構、LBS隱私保護度量指標,并詳細闡述和分析各種LBS隱私保護技術、主要LBS隱私保護技術的性能評估,但沒有涉及基于位置服務的隱私保護的數(shù)學描述與數(shù)學模型。
表7 利用差分隱私指數(shù)機制示例
大數(shù)據(jù)是當今計算機科學面臨的新的計算環(huán)境,而隱私保護又是其中極其重要的問題。在大數(shù)據(jù)隱私保護研究中存在諸多問題與挑戰(zhàn)。
● 隱私度量問題。隱私是一個主觀概念,它根據(jù)不同的人、不同的時間變化而變化,因此難以對其定義和度量,它是基礎性和挑戰(zhàn)性問題,不僅需要技術方面的努力,也需要在社會學和心理學方面的研究。
● 隱私保護的理論框架問題。目前有數(shù)據(jù)聚類方法和差分隱私保護理論框架,但由于數(shù)據(jù)聚類隱私保護方法(如k-匿名等)存在局限性,目前在實際應用中采用差分隱私保護。在大數(shù)據(jù)時代能否研究出新的具有開創(chuàng)性的隱私研究理論基礎,將是另一個挑戰(zhàn)。
● 隱私保護算法的可擴展性。目前存在的一些機制和策略處理大的數(shù)據(jù)庫時主要是采用分治法,但是大數(shù)據(jù)的規(guī)模遠比大的數(shù)據(jù)庫要大,設計可擴展性算法實現(xiàn)隱保護也是一個挑戰(zhàn)。
● 數(shù)據(jù)源的異構性。當前可用的隱私保護算法幾乎都是面向同構數(shù)據(jù)(homogeneous data)的,類似于數(shù)據(jù)庫中的記錄,但實際上大數(shù)據(jù)的數(shù)據(jù)源都是異構數(shù)據(jù)(heterogeneous data)。以高效的方式處理異構大數(shù)據(jù)顯然也是未來的挑戰(zhàn)。
● 隱私保護算法的效率。對于體積龐大的大數(shù)據(jù),算法的效率將是大數(shù)據(jù)計算過程中一個重要的因素。
可以預見,未來人們需要改進當前的隱私保護方法,以滿足大數(shù)據(jù)計算中存在的前所未有的需求,再者,期望新的隱私保護框架與機制的出現(xiàn)。本文認為下面的研究方向具有一定的前景,值得隱私保護的研究者投入時間與精力進行研究。
(1)隱私保護的量子計算
量子計算機越來越接近于實際應用,量子計算在信息安全與隱私保護方面能夠提供超乎尋常的功能。當前加密方法的主要優(yōu)點是其時間復雜度,但它對于隱私保護與信息安全的計算是有條件安全。最近提出的基于量子計算模型的測量法為盲計算的實現(xiàn)提供了非常有前景的范例[24],它的主要思想是客戶端授權計算給量子服務器,量子服務器能在無需獲取輸入、輸出與客戶端等任何知識的情況下執(zhí)行計算任務,Braz S等人[25]已實現(xiàn)了這個模型的概念框架,并且展示了盲量子計算的可行性。因此,不僅應該在隱私與安全領域探索量子計算,也應該探索其他領域的量子計算。
(2)將計算機技術與社會科學領域的研究進行集成
有必要將計算技術與社會科學的研究成果與需求進行緊密結合,而且這些工作必須得到相關領域領軍人物的支持,例如那些從事新興的計算心理生理學交叉學科的研究者等④。
(3)開發(fā)新的隱私保護框架
基于數(shù)據(jù)聚類的隱私保護方法(如k-匿名)具有一定的實用性,差分隱私保護框架具有較強的嚴謹性。但是前者易受各種不同類型的攻擊(如“合成式”攻擊等),后者在實際應用中由于計算時間復雜度等問題缺乏靈活性和可行性。因此,有必要結合一系列不同學科理論知識解決目前隱私保護研究中的問題,如用于處理模糊概念的模糊邏輯(fuzzy logic)、用于解決不同方爭論的博弈論(game theory)[26]等。
[1] 張華平, 孫夢姝, 張瑞琦, 等. 微博博主的特征與行為大數(shù)據(jù)挖掘[J]. 中國計算機學會通訊, 2014, 10(6): 36-43.ZHANG H P, SUN M S, ZHANG R Q, et al.Micro-blog blogger's characteristics and behavior big data mining[J].Communications of the CCF, 2014, 10(6):36-43.
[2] 張俊, 蕭小奎. 數(shù)據(jù)分享中的差分隱私保護[J].中國計算機學會通訊, 2014, 10(6): 44-51.ZH AN G J, X IAO X K. D i f f e r e nt i a l privacy protection based on data share[J].Communications of the CCF, 2014, 10(6): 44-51.
[3] 劉雅輝, 張鐵贏, 靳小龍, 等. 大數(shù)據(jù)時代的個人隱私保護[J]. 計算機研究與發(fā)展, 2015,52(1): 229-247.LIU Y H, ZHANG T Y, JIN X L, et al.Personal privacy protection in the era of big data[J]. Journal of Computer Research and Development, 2015, 52(1): 229-247.
[4] 董誠, 林立, 金海, 等. 醫(yī)療健康大數(shù)據(jù):應用實例與系統(tǒng)分析[J]. 大數(shù)據(jù), 2015(2):2015021.DONG C, LIN L, JIN H, et al. Big data in healthcare: applications and system analytics[J]. Big Data Research, 2015(2):2015021.
[5] 俞國培, 包小源, 黃新霆, 等. 醫(yī)療健康大數(shù)據(jù)的種類、性質及有關問題[J]. 醫(yī)學信息學雜志, 2014, 35(6): 9-12.YU G P, BAO X Y, HUANG X T, et al.Medical and health big data: types,characteristics and relevant issues[J].Journal of Medical Intelligence, 2014,35(6): 9-12.
[6] 劉向宇, 王斌, 楊曉春. 社會網(wǎng)絡數(shù)據(jù)發(fā)布隱私保護技術綜述[J]. 軟件學報, 2014, 25(3):576-590.LIU X Y, WANG B, YANG X C. Survey on privacy preserving techniques for publishing social network data[J]. Journal of Software, 2014, 25(3): 576-590.
[7] 熊平, 朱天清, 王曉峰. 差分隱私保護及其應用[J]. 計算機學報, 2014, 37(1): 101-122.XIONG P, ZHU T Q, WANG X F. A survey on differential privacy and applications[J].Chinese Journal of Computers, 2014,37(1): 101-122.
[8] 張嘯劍, 孟小峰. 面向數(shù)據(jù)發(fā)布和分析的差分隱私保護[J]. 計算機學報, 2014, 37(4): 927-949.ZHANG X J, MENG X F. Differential privacy in data publication and analysis[J].Chinese Journal of Computers, 2014,37(4): 927-949.
[9] YU S. Big privacy: challenges and opportunities of privacy study in the age of big data[J]. IEEE Access, 2016(4):2752-2763.
[10] 彭長根, 丁紅發(fā), 朱義杰, 等. 隱私保護的信息熵模型及其度量方法[J]. 軟件學報, 2016,27(8): 1891-1903.PENG C G, DING H F, ZHU Y J, et al.Information entropy models and privacy metrics methods for privacy protection[J].Journal of Software, 2016, 27(8): 1891-1903.
[11] DWORK C. Differential privacy[C]//The 33rd International Colloquium on Automata, Languages and Programming,July 10-14, 2006, Venice, Italy. Venice:Springer-Verlag, 2006: 1-12.
[12] DWORK C, MCSHERRY F, NISSIM K.Calibrating noise to sensitivity in private data analysis[C]// The 3rd Conference on Theory of Cryptography, March 4-7, 2006, New York, USA. New York:Springer, 2006: 265-284.
[13] MCSHERRY F, TALWAR K. Mechanism design via differential privacy[C]//The 48th Annual IEEE Symposium on Foundations of Computer Science, October 21-23, 2007, Providence, USA. New Jersey: IEEE Press, 2007: 94-103.
[14] BERESFORD A R, STAJANO F. Location privacy in pervasive computing[J]. IEEE Pervasive Computing, 2003, 2(1): 46-55.
[15] GHINITA G. Private queries and trajectory anonymization: a dual perspective on location privacy[J]. IEEE Transaction on Data Privacy, 2009, 2(1): 3-19.
[16] KRUMM J. A survey of computational location privacy[J]. Personal and Ubiquitous Computing, 2009, 13(6): 391-399.
[17] HUO Z. A survey of trajectory privacy preserving techniques[J]. Chinese Journal of Computers, 2011, 34(10): 1820-1830.
[18] S H I N K G, J U X, C H E N Z, e t a l.Privacy protection for users of locationb a s e d s e r v i ce s[J]. IEEE W i r e l e s s Communications, 2012, 19(1): 30-39.
[19] 張學軍, 桂小林, 伍忠東. 位置服務隱私保護研究綜述[J]. 軟件學報, 2015, 26(9): 2373-2395.ZHANG X J, GUI X L, WU Z D. Privacy preservation for location-based services:a survey[J]. Journal of Software, 2015,26(9): 2373-2395.
[20] 周長利, 馬春光, 楊松濤. 路網(wǎng)環(huán)境下保護LBS位置隱私的連續(xù)KNN查詢方法[J]. 計算機研究與發(fā)展, 2015, 52(11): 2628-2644.ZHOU C L, MA C G, YANG S T. Location privacy-preserving method for lbs continuous knn query in road networks[J].Journal of Computer Research and Development, 2015, 52(11): 2628-2644.
[21] 倪巍偉, 陳蕭, 馬中希. 支持偏好調控的路網(wǎng)隱私保護k近鄰查詢方法[J]. 計算機學報,2015, 38(4): 884-896.NI W W, CHEN X, MA Z X. Location privacy preserving k nearest neighbor query method on road network in presence of user's preference[J]. Chinese Journal of Computers, 2015, 38(4): 884-896.
[22] 倪巍偉, 陳蕭. 保護位置隱私近鄰查詢中隱私偏好問題研究[J]. 軟件學報, 2016, 27(7):1805-1821.NI W W, CHEN X. User privacy preference support in location privacy-preserving nearest neighbor query[J]. Journal of Software, 2016, 27(7): 1805-1821.
[23] 王璐, 孟小峰. 位置大數(shù)據(jù)隱私保護研究綜述[J]. 軟件學報, 2014, 25(4): 693-712.WANG L, MENG X F. Location privacy preservation in big data era: a survey[J].Journal of Software, 2014, 25(4): 693-712.
[24] GOTTESMAND, CHUANGIL.Demonstrating the viability of universal quantum computation using teleportation and single-qubit operations[J]. Nature,1999, 402(6760): 390-393.
[25] BARZ S, KASHEFI E, BROADBENT A,et al. Demonstration of blind quantum computing[J]. Science, 2012, 335(6066):303-308.
[26] 張伊璇, 何涇沙, 趙斌, 等. 一個基于博弈理論的隱私保護模型[J]. 計算機學報, 2016,39(3): 615-627.ZHANG Y X, HE J S, ZHAO B, et al. A privacy protection model base on game theory[J]. Chinese Journal of Computers,2016, 39(3): 615-627.
Privacy preserving in the age of big data
FANG Xianjin, XIAO Yafei, YANG Gaoming
School of Computer Science and Engineering, Anhui University of Science & Technology,Huainan 232001, China
One of biggest concerns of big data is privacy, especially, in the processing of big data publishing or data mining. However,the study on big data privacy is still at a very early stage. The preliminary knowledge about the definition of roles and operations of privacy system were introduced. The mathematical description and measurement metrics of privacy study was given. The models of privacy preserving were analyzed, including k-anonymity and differential privacy. The current situation of privacy preserving in big data age was reviewed, especially, the privacy preserving based location-based services and its applications were summarized. The challenges and opportunities in the age of big data were summarized.The directions to improve the existing privacy protection methods satisfying the unprecedented computational requirements of big data were pointed out.
big data, k-anonymity, differential privacy, privacy model
s: The National Natural Science Foundation of China (No.61572034,No.61402012)
TP311
A
10.11959/j.issn.2096-0271.2017051
方賢進(1970-),男,博士,安徽理工大學計算機科學與工程學院教授,主要研究方向為網(wǎng)絡與信息安全、智能計算。
肖亞飛(1994-),男,安徽理工大學計算機科學與工程學院碩士生,主要研究方向為隱私保護。
楊高明(1974-),男,博士,安徽理工大學計算機科學與工程學院副教授,主要研究方向為隱私保護。
2017-07-30
國家自然科學基金資助項目(No.61572034,No.61402012)