張建坤,馬永發(fā),謝 蔚
(廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣東 廣州 510006)
隨著移動(dòng)通信和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,世界進(jìn)入了大數(shù)據(jù)時(shí)代。通過對(duì)大量數(shù)據(jù)的采集、處理和分析,從中能準(zhǔn)確高效地提取所需要的信息,極大方便了人們的學(xué)習(xí)、生活。目前,智能手機(jī)、可穿戴設(shè)備、傳感器和其它可視化設(shè)備已經(jīng)將人與事物的地理位置數(shù)據(jù)化,從中可獲得各種各樣的服務(wù)和應(yīng)用,如車載導(dǎo)航、社交軟件的位置共享和簽到,搜索附近的服務(wù)機(jī)構(gòu)和實(shí)時(shí)查詢交通信息等,這些服務(wù)在帶來極大便利的同時(shí)也可能導(dǎo)致隱私泄露。移動(dòng)終端和傳感器能實(shí)時(shí)記錄用戶的位置和移動(dòng)軌跡,并傳入互聯(lián)網(wǎng)和云端,這時(shí)用戶的個(gè)人信息就暴露在互聯(lián)網(wǎng)上[1]。一些服務(wù)商將這些位置數(shù)據(jù)倒賣,不法分子通過這些數(shù)據(jù)推斷出用戶工作角色、年齡、興趣愛好、健康狀況等個(gè)人隱私信息,極大威脅個(gè)人隱私安全。因此,如何保護(hù)好個(gè)人位置信息不被泄露成為急需解決的安全問題。
位置隱私保護(hù)研究很多,如數(shù)據(jù)擾亂[2]、數(shù)據(jù)加密[3-5]、數(shù)據(jù)匿名[6]等隱私保護(hù)技術(shù)。其中k-匿名模型[7-9]由于能保證所發(fā)布數(shù)據(jù)的真實(shí)性與安全性,受到了學(xué)術(shù)界的廣泛關(guān)注[10]。位置大數(shù)據(jù)的隱私保護(hù)技術(shù)有3大類:基于啟發(fā)式隱私度量、基于概率推測和基于隱私信息檢索的位置大數(shù)據(jù)隱私保護(hù)技術(shù)[11],但這些技術(shù)都忽視了基于背景知識(shí)的攻擊。文獻(xiàn)[12]通過將攻擊者所掌握的背景知識(shí)進(jìn)行分類,使用位置混淆隱形機(jī)制取得了隱私和服務(wù)精度的平衡;文獻(xiàn)[13]提出了一種新的上下文感知和非上下文感知差異保密技術(shù),耦合卡爾曼過濾和指數(shù)機(jī)制,確保隱私時(shí)空數(shù)據(jù)安全;文獻(xiàn)[14]研究了一種基于差分的隱私機(jī)制,對(duì)位置數(shù)據(jù)進(jìn)行清洗,獲得了較高的數(shù)據(jù)可用性;文獻(xiàn)[15]提出了“模糊化”查詢數(shù)據(jù)操作,把位置數(shù)據(jù)藏在一個(gè)隱藏的磁盤中,防止位置服務(wù)器查詢到確切位置;文獻(xiàn)[16]開發(fā)了提供隱私保護(hù)策略的分析框架,設(shè)計(jì)衡量移動(dòng)用戶隱私的度量標(biāo)準(zhǔn)(稱為隱私度量),并量化服務(wù)質(zhì)量;文獻(xiàn)[17]將各種基于位置的服務(wù)(LBS)進(jìn)行分類,分析各種隱私泄露類型,提出一種以保護(hù)查詢內(nèi)容為目的的安全方法;文獻(xiàn)[18]提出了LBS群組用戶位置擾亂算法(GPOL),將群組最近鄰查詢轉(zhuǎn)換為群組質(zhì)心的最近鄰查詢,有效抵御了現(xiàn)有交叉攻擊和組合攻擊。上述方法能很好地從服務(wù)云端保證位置隱私安全,但都忽略了攻擊者從相關(guān)非位置數(shù)據(jù)直接或間接地挖掘出個(gè)人敏感信息而導(dǎo)致位置隱私泄露的問題。
差分隱私保護(hù)是一種可以防止攻擊假設(shè)和一定背景知識(shí)攻擊的隱私保護(hù)技術(shù)。通過添加噪聲干擾敏感數(shù)據(jù),輸出中的每條記錄均得到完全相同程度的保護(hù),同時(shí)也保持?jǐn)?shù)據(jù)屬性不變,保證添加噪聲后仍具有統(tǒng)計(jì)性。即使攻擊者已經(jīng)知道除一條記錄外的所有記錄,仍然無法推斷出有關(guān)這條記錄的任何敏感屬性[19]。
定義1 (位置差分隱私)位置數(shù)據(jù)集D和D′存在且僅存在一條記錄相異,隨機(jī)算法M對(duì)D和D′的任意輸出L?Range(M)均滿足公式(1),則稱M滿足ε-位置差分隱私[20]。
Pr[M(D)∈L]≤Pr[M(D′)∈L]eε
(1)
其中,概率Pr[]表示任意兩個(gè)數(shù)據(jù)集經(jīng)過算法M輸出為L的概率;參數(shù)ε為隱私保護(hù)預(yù)算,衡量隱私保護(hù)強(qiáng)度,ε越小隱私保護(hù)程度越高。
定義2 (拉普拉斯噪音機(jī)制[21])對(duì)于任意一個(gè)函數(shù)f:D→Rd,算法Y滿足:
現(xiàn)有位置大數(shù)據(jù)服務(wù)中,一般是把從各渠道采集的與位置數(shù)據(jù)相關(guān)的數(shù)據(jù)集存入云數(shù)據(jù)庫中,用戶通過查詢函數(shù)調(diào)取所需數(shù)據(jù)。基于差分隱私的保護(hù)方法,就是將真實(shí)結(jié)果通過算法K獲得加噪擾動(dòng)后的結(jié)果返回給用戶,此結(jié)果不會(huì)影響整體統(tǒng)計(jì)特性,具體保護(hù)框架如圖1所示。
圖1 差分隱私保護(hù)框架
以上隱私保護(hù)模型關(guān)鍵在于添加一個(gè)合理的噪聲機(jī)制,構(gòu)建差分隱私算法,將加噪后的數(shù)據(jù)結(jié)果返回給用戶。
本文提出的位置差分隱私算法步驟如下:
(1)位置數(shù)據(jù)預(yù)處理。數(shù)據(jù)集包括位置數(shù)據(jù)和與之相關(guān)的非位置數(shù)據(jù),因此需要分開處理。根據(jù)空間分解技術(shù)將空間維度的數(shù)據(jù)分解為基本數(shù)據(jù)集,保留含有位置元素的語義信息。
(2)合理分配隱私預(yù)算。對(duì)數(shù)據(jù)預(yù)處理后的結(jié)果根據(jù)其大小、類型和語義對(duì)隱私預(yù)算ε進(jìn)行合理分配,防止隱私預(yù)算過度消耗使算法失效。
(3)構(gòu)建差分隱私算法K。用差分隱私技術(shù)分別對(duì)不同類別的數(shù)據(jù)添加噪聲,找到最佳噪聲比,保證位置數(shù)據(jù)的服務(wù)質(zhì)量。
(4)安全返回查詢結(jié)果。將分類處理的位置數(shù)據(jù)重組,計(jì)算其統(tǒng)計(jì)特性返回給用戶。
根據(jù)保護(hù)強(qiáng)度選定隱私預(yù)算ε,對(duì)用戶查詢相關(guān)的數(shù)據(jù)集添加噪聲,使之滿足差分隱私要求。其中包括位置數(shù)據(jù)集L={L1,…,LK}和非位置數(shù)據(jù)集D={D1,…,DK},分別添加拉普拉斯噪聲LapNoise擾動(dòng)真實(shí)值,Q為查詢函數(shù)。
差分隱私保護(hù)算法如下:
輸入隱私保護(hù)預(yù)算ε0,位置數(shù)據(jù)集L,非位置數(shù)據(jù)集D,變量i、k、Diff-PrivacyData、T
for Δf≤T
if 數(shù)據(jù)集屬于位置數(shù)據(jù)L∈{L1,…,LK}
RL=LapNoiseQ(L),其中RL為加噪后的結(jié)果,Q(L)為包含查詢需要的位置數(shù)據(jù)
else 數(shù)據(jù)集屬于非位置數(shù)據(jù)D∈{D1,…,DK}
Rd=LapNoiseQ(D),其中Rd為加噪后的結(jié)果,Q(D)為包含查詢需要的非位置數(shù)據(jù)
end if
ifε≤ε0
return Diff-PrivacyData(RL,Rd)
else
return 隱私預(yù)算ε超出范圍
end
考慮到大數(shù)據(jù)背景下位置數(shù)據(jù)體量大、更新速度快的特點(diǎn),敏感屬性數(shù)據(jù)會(huì)隨著時(shí)間的變化影響系統(tǒng)性能,動(dòng)態(tài)數(shù)據(jù)集的敏感度會(huì)發(fā)生改動(dòng),本算法創(chuàng)新加入了一個(gè)敏感度Δf的閾值T。一旦由于數(shù)據(jù)集中目錄的增減、修改導(dǎo)致敏感度超過了閾值,就可對(duì)隱私預(yù)算進(jìn)行可控調(diào)節(jié),實(shí)時(shí)監(jiān)管數(shù)據(jù)的更新信息。
評(píng)估算法性能優(yōu)劣的一個(gè)重要標(biāo)準(zhǔn),就是對(duì)用戶的服務(wù)質(zhì)量也就是用戶查詢返回的結(jié)果是否達(dá)到預(yù)期進(jìn)行評(píng)價(jià)。對(duì)同一查詢函數(shù)Q,敏感數(shù)據(jù)在匿名前后輸出R(Q)和R(Q′)的近似程度表示算法的可用性,近似程度越高表明服務(wù)質(zhì)量越高,誤差越小。誤差SR可定義為兩輸出結(jié)果的一階范數(shù)值SR=‖R(Q)-R′(Q)‖。
對(duì)于位置服務(wù),通常都是連續(xù)查詢Qi∈{Q1…QK…}。定義數(shù)據(jù)可用性參數(shù)滿足:
(2)
當(dāng)匿名發(fā)布數(shù)據(jù)的可用性參數(shù)E低于用戶查詢要求時(shí),可通過調(diào)節(jié)隱私預(yù)算ε保證算法的可用性能,從而獲得算法的高效性、實(shí)用性。
對(duì)本文隱私保護(hù)算法是否可行進(jìn)行驗(yàn)證,實(shí)驗(yàn)環(huán)境:Inter Core i5處理器,2.4GHz的主頻CPU,Win7操作系統(tǒng),程序運(yùn)行環(huán)境為Python2.6.6。針對(duì)實(shí)驗(yàn)所需真實(shí)數(shù)據(jù)集,在數(shù)據(jù)庫GeoLife GPS Trajectories中下載了數(shù)據(jù)集GeoLife,其中包括經(jīng)緯度、地理、城市規(guī)劃等位置數(shù)據(jù),也包括交通方式、生活服務(wù)和社交信息等非位置數(shù)據(jù),完全符合實(shí)驗(yàn)要求。
對(duì)于經(jīng)過匿名算法后的數(shù)據(jù)集Diff-PrivacyData,分析數(shù)據(jù)在發(fā)布前后的誤差和可用性是衡量該算法可行性的最基本標(biāo)準(zhǔn),否則就失去了大數(shù)據(jù)本身的價(jià)值。為了找到數(shù)據(jù)可用性與隱私保護(hù)程度的最佳試配比,在固定ε=0.8的情況下,分析出合理的變換尺度a和數(shù)據(jù)隱私保護(hù)程度的關(guān)系,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 數(shù)據(jù)相對(duì)誤差
圖3 數(shù)據(jù)可用性
圖4 隱私保護(hù)程度
從圖2可以看出,算法前后的輸出誤差和隱私預(yù)算有著緊密聯(lián)系,大致形成一個(gè)波谷形式。在ε=0.8時(shí)數(shù)據(jù)相對(duì)誤差最小,此時(shí)的數(shù)據(jù)準(zhǔn)確性最高。結(jié)合圖2、圖3可以看出,數(shù)據(jù)誤差和可用性是彼此吻合的,數(shù)據(jù)誤差小其可用性就高。圖4顯示變換尺度和隱私保護(hù)程度呈反比。隨著隱私預(yù)算的遞增,差分算法對(duì)數(shù)據(jù)的泛化程度減小,數(shù)據(jù)可用性也隨之增加;但當(dāng)隱私預(yù)算一定時(shí),隨著變換尺度的增加,意味著用戶有較高的匿名要求,隱私保護(hù)的程度卻相對(duì)減弱,因此選擇一個(gè)合適的隱私預(yù)算至關(guān)重要??傮w來看,數(shù)據(jù)可用性和隱私保護(hù)程度都基本保持在80%以上,說明該隱私保護(hù)算法具有較好的穩(wěn)定性。
本文提出一種能有效防止基于背景知識(shí)攻擊的差分隱私算法,引入隨機(jī)噪聲分別對(duì)不同類型的數(shù)據(jù)進(jìn)行擾動(dòng),將加噪后的數(shù)據(jù)準(zhǔn)確返回給用戶,保證了大數(shù)據(jù)的價(jià)值和位置服務(wù)質(zhì)量。實(shí)驗(yàn)結(jié)果表明,該位置隱私保護(hù)算法實(shí)現(xiàn)了數(shù)據(jù)可用性和隱私保護(hù)維度的有效平衡,對(duì)位置大數(shù)據(jù)隱私保護(hù)有一定的研究價(jià)值。與其它匿名隱私保護(hù)模型相比,基于差分隱私的保護(hù)方法能保證高質(zhì)量數(shù)據(jù)運(yùn)用于位置信息服務(wù)系統(tǒng)中,高效處理數(shù)據(jù)的定位、查詢、分析和發(fā)布,是未來隱私保護(hù)數(shù)據(jù)方法的研究方向。