亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向位置大數(shù)據(jù)的差分隱私保護(hù)研究

2018-11-19 11:05:36張建坤馬永發(fā)

軟件導(dǎo)刊 2018年11期

張建坤，馬永發(fā)，謝蔚

(廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院，廣東廣州 510006)

0 引言

隨著移動(dòng)通信和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，世界進(jìn)入了大數(shù)據(jù)時(shí)代。通過對(duì)大量數(shù)據(jù)的采集、處理和分析，從中能準(zhǔn)確高效地提取所需要的信息，極大方便了人們的學(xué)習(xí)、生活。目前，智能手機(jī)、可穿戴設(shè)備、傳感器和其它可視化設(shè)備已經(jīng)將人與事物的地理位置數(shù)據(jù)化，從中可獲得各種各樣的服務(wù)和應(yīng)用，如車載導(dǎo)航、社交軟件的位置共享和簽到，搜索附近的服務(wù)機(jī)構(gòu)和實(shí)時(shí)查詢交通信息等，這些服務(wù)在帶來極大便利的同時(shí)也可能導(dǎo)致隱私泄露。移動(dòng)終端和傳感器能實(shí)時(shí)記錄用戶的位置和移動(dòng)軌跡，并傳入互聯(lián)網(wǎng)和云端，這時(shí)用戶的個(gè)人信息就暴露在互聯(lián)網(wǎng)上[1]。一些服務(wù)商將這些位置數(shù)據(jù)倒賣，不法分子通過這些數(shù)據(jù)推斷出用戶工作角色、年齡、興趣愛好、健康狀況等個(gè)人隱私信息，極大威脅個(gè)人隱私安全。因此，如何保護(hù)好個(gè)人位置信息不被泄露成為急需解決的安全問題。

位置隱私保護(hù)研究很多，如數(shù)據(jù)擾亂[2]、數(shù)據(jù)加密[3-5]、數(shù)據(jù)匿名[6]等隱私保護(hù)技術(shù)。其中k-匿名模型[7-9]由于能保證所發(fā)布數(shù)據(jù)的真實(shí)性與安全性，受到了學(xué)術(shù)界的廣泛關(guān)注[10]。位置大數(shù)據(jù)的隱私保護(hù)技術(shù)有3大類：基于啟發(fā)式隱私度量、基于概率推測和基于隱私信息檢索的位置大數(shù)據(jù)隱私保護(hù)技術(shù)[11]，但這些技術(shù)都忽視了基于背景知識(shí)的攻擊。文獻(xiàn)[12]通過將攻擊者所掌握的背景知識(shí)進(jìn)行分類，使用位置混淆隱形機(jī)制取得了隱私和服務(wù)精度的平衡；文獻(xiàn)[13]提出了一種新的上下文感知和非上下文感知差異保密技術(shù)，耦合卡爾曼過濾和指數(shù)機(jī)制，確保隱私時(shí)空數(shù)據(jù)安全；文獻(xiàn)[14]研究了一種基于差分的隱私機(jī)制，對(duì)位置數(shù)據(jù)進(jìn)行清洗，獲得了較高的數(shù)據(jù)可用性；文獻(xiàn)[15]提出了“模糊化”查詢數(shù)據(jù)操作，把位置數(shù)據(jù)藏在一個(gè)隱藏的磁盤中，防止位置服務(wù)器查詢到確切位置；文獻(xiàn)[16]開發(fā)了提供隱私保護(hù)策略的分析框架,設(shè)計(jì)衡量移動(dòng)用戶隱私的度量標(biāo)準(zhǔn)(稱為隱私度量)，并量化服務(wù)質(zhì)量；文獻(xiàn)[17]將各種基于位置的服務(wù)(LBS)進(jìn)行分類，分析各種隱私泄露類型，提出一種以保護(hù)查詢內(nèi)容為目的的安全方法；文獻(xiàn)[18]提出了LBS群組用戶位置擾亂算法(GPOL)，將群組最近鄰查詢轉(zhuǎn)換為群組質(zhì)心的最近鄰查詢，有效抵御了現(xiàn)有交叉攻擊和組合攻擊。上述方法能很好地從服務(wù)云端保證位置隱私安全，但都忽略了攻擊者從相關(guān)非位置數(shù)據(jù)直接或間接地挖掘出個(gè)人敏感信息而導(dǎo)致位置隱私泄露的問題。

1 差分隱私保護(hù)模型

1.1 相關(guān)背景知識(shí)

差分隱私保護(hù)是一種可以防止攻擊假設(shè)和一定背景知識(shí)攻擊的隱私保護(hù)技術(shù)。通過添加噪聲干擾敏感數(shù)據(jù)，輸出中的每條記錄均得到完全相同程度的保護(hù)，同時(shí)也保持?jǐn)?shù)據(jù)屬性不變，保證添加噪聲后仍具有統(tǒng)計(jì)性。即使攻擊者已經(jīng)知道除一條記錄外的所有記錄，仍然無法推斷出有關(guān)這條記錄的任何敏感屬性[19]。

定義1 (位置差分隱私)位置數(shù)據(jù)集D和D′存在且僅存在一條記錄相異，隨機(jī)算法M對(duì)D和D′的任意輸出L?Range(M)均滿足公式(1)，則稱M滿足ε-位置差分隱私[20]。

Pr[M(D)∈L]≤Pr[M(D′)∈L]eε

(1)

其中，概率Pr[]表示任意兩個(gè)數(shù)據(jù)集經(jīng)過算法M輸出為L的概率；參數(shù)ε為隱私保護(hù)預(yù)算，衡量隱私保護(hù)強(qiáng)度，ε越小隱私保護(hù)程度越高。

定義2 (拉普拉斯噪音機(jī)制[21])對(duì)于任意一個(gè)函數(shù)f：D→Rd，算法Y滿足：

1.2 位置隱私保護(hù)方法流程

現(xiàn)有位置大數(shù)據(jù)服務(wù)中，一般是把從各渠道采集的與位置數(shù)據(jù)相關(guān)的數(shù)據(jù)集存入云數(shù)據(jù)庫中，用戶通過查詢函數(shù)調(diào)取所需數(shù)據(jù)。基于差分隱私的保護(hù)方法，就是將真實(shí)結(jié)果通過算法K獲得加噪擾動(dòng)后的結(jié)果返回給用戶，此結(jié)果不會(huì)影響整體統(tǒng)計(jì)特性，具體保護(hù)框架如圖1所示。

圖1 差分隱私保護(hù)框架

以上隱私保護(hù)模型關(guān)鍵在于添加一個(gè)合理的噪聲機(jī)制，構(gòu)建差分隱私算法，將加噪后的數(shù)據(jù)結(jié)果返回給用戶。

本文提出的位置差分隱私算法步驟如下：

(1)位置數(shù)據(jù)預(yù)處理。數(shù)據(jù)集包括位置數(shù)據(jù)和與之相關(guān)的非位置數(shù)據(jù)，因此需要分開處理。根據(jù)空間分解技術(shù)將空間維度的數(shù)據(jù)分解為基本數(shù)據(jù)集，保留含有位置元素的語義信息。

(2)合理分配隱私預(yù)算。對(duì)數(shù)據(jù)預(yù)處理后的結(jié)果根據(jù)其大小、類型和語義對(duì)隱私預(yù)算ε進(jìn)行合理分配，防止隱私預(yù)算過度消耗使算法失效。

(3)構(gòu)建差分隱私算法K。用差分隱私技術(shù)分別對(duì)不同類別的數(shù)據(jù)添加噪聲，找到最佳噪聲比，保證位置數(shù)據(jù)的服務(wù)質(zhì)量。

(4)安全返回查詢結(jié)果。將分類處理的位置數(shù)據(jù)重組，計(jì)算其統(tǒng)計(jì)特性返回給用戶。

1.3 差分隱私保護(hù)算法

根據(jù)保護(hù)強(qiáng)度選定隱私預(yù)算ε，對(duì)用戶查詢相關(guān)的數(shù)據(jù)集添加噪聲，使之滿足差分隱私要求。其中包括位置數(shù)據(jù)集L={L1,…,LK}和非位置數(shù)據(jù)集D={D1,…,DK}，分別添加拉普拉斯噪聲LapNoise擾動(dòng)真實(shí)值，Q為查詢函數(shù)。

差分隱私保護(hù)算法如下：

輸入隱私保護(hù)預(yù)算ε0，位置數(shù)據(jù)集L，非位置數(shù)據(jù)集D，變量i、k、Diff-PrivacyData、T

for Δf≤T

if 數(shù)據(jù)集屬于位置數(shù)據(jù)L∈{L1,…,LK}

RL=LapNoiseQ(L)，其中RL為加噪后的結(jié)果，Q(L)為包含查詢需要的位置數(shù)據(jù)

else 數(shù)據(jù)集屬于非位置數(shù)據(jù)D∈{D1,…,DK}

Rd=LapNoiseQ(D)，其中Rd為加噪后的結(jié)果，Q(D)為包含查詢需要的非位置數(shù)據(jù)

end if

ifε≤ε0

return Diff-PrivacyData(RL，Rd)

else

return 隱私預(yù)算ε超出范圍

end

1.4 算法性能分析

考慮到大數(shù)據(jù)背景下位置數(shù)據(jù)體量大、更新速度快的特點(diǎn)，敏感屬性數(shù)據(jù)會(huì)隨著時(shí)間的變化影響系統(tǒng)性能，動(dòng)態(tài)數(shù)據(jù)集的敏感度會(huì)發(fā)生改動(dòng)，本算法創(chuàng)新加入了一個(gè)敏感度Δf的閾值T。一旦由于數(shù)據(jù)集中目錄的增減、修改導(dǎo)致敏感度超過了閾值，就可對(duì)隱私預(yù)算進(jìn)行可控調(diào)節(jié)，實(shí)時(shí)監(jiān)管數(shù)據(jù)的更新信息。

評(píng)估算法性能優(yōu)劣的一個(gè)重要標(biāo)準(zhǔn)，就是對(duì)用戶的服務(wù)質(zhì)量也就是用戶查詢返回的結(jié)果是否達(dá)到預(yù)期進(jìn)行評(píng)價(jià)。對(duì)同一查詢函數(shù)Q，敏感數(shù)據(jù)在匿名前后輸出R(Q)和R(Q′)的近似程度表示算法的可用性，近似程度越高表明服務(wù)質(zhì)量越高，誤差越小。誤差SR可定義為兩輸出結(jié)果的一階范數(shù)值SR=‖R(Q)-R′(Q)‖。

對(duì)于位置服務(wù)，通常都是連續(xù)查詢Qi∈{Q1…QK…}。定義數(shù)據(jù)可用性參數(shù)滿足：

(2)

當(dāng)匿名發(fā)布數(shù)據(jù)的可用性參數(shù)E低于用戶查詢要求時(shí)，可通過調(diào)節(jié)隱私預(yù)算ε保證算法的可用性能，從而獲得算法的高效性、實(shí)用性。

2 實(shí)驗(yàn)結(jié)果與分析

對(duì)本文隱私保護(hù)算法是否可行進(jìn)行驗(yàn)證，實(shí)驗(yàn)環(huán)境：Inter Core i5處理器，2.4GHz的主頻CPU，Win7操作系統(tǒng)，程序運(yùn)行環(huán)境為Python2.6.6。針對(duì)實(shí)驗(yàn)所需真實(shí)數(shù)據(jù)集，在數(shù)據(jù)庫GeoLife GPS Trajectories中下載了數(shù)據(jù)集GeoLife，其中包括經(jīng)緯度、地理、城市規(guī)劃等位置數(shù)據(jù)，也包括交通方式、生活服務(wù)和社交信息等非位置數(shù)據(jù)，完全符合實(shí)驗(yàn)要求。

對(duì)于經(jīng)過匿名算法后的數(shù)據(jù)集Diff-PrivacyData，分析數(shù)據(jù)在發(fā)布前后的誤差和可用性是衡量該算法可行性的最基本標(biāo)準(zhǔn)，否則就失去了大數(shù)據(jù)本身的價(jià)值。為了找到數(shù)據(jù)可用性與隱私保護(hù)程度的最佳試配比，在固定ε=0.8的情況下，分析出合理的變換尺度a和數(shù)據(jù)隱私保護(hù)程度的關(guān)系，實(shí)驗(yàn)結(jié)果如圖2所示。

圖2 數(shù)據(jù)相對(duì)誤差

圖3 數(shù)據(jù)可用性

圖4 隱私保護(hù)程度

從圖2可以看出，算法前后的輸出誤差和隱私預(yù)算有著緊密聯(lián)系，大致形成一個(gè)波谷形式。在ε=0.8時(shí)數(shù)據(jù)相對(duì)誤差最小，此時(shí)的數(shù)據(jù)準(zhǔn)確性最高。結(jié)合圖2、圖3可以看出，數(shù)據(jù)誤差和可用性是彼此吻合的，數(shù)據(jù)誤差小其可用性就高。圖4顯示變換尺度和隱私保護(hù)程度呈反比。隨著隱私預(yù)算的遞增，差分算法對(duì)數(shù)據(jù)的泛化程度減小，數(shù)據(jù)可用性也隨之增加；但當(dāng)隱私預(yù)算一定時(shí)，隨著變換尺度的增加，意味著用戶有較高的匿名要求，隱私保護(hù)的程度卻相對(duì)減弱，因此選擇一個(gè)合適的隱私預(yù)算至關(guān)重要?？傮w來看，數(shù)據(jù)可用性和隱私保護(hù)程度都基本保持在80%以上，說明該隱私保護(hù)算法具有較好的穩(wěn)定性。

3 結(jié)語

本文提出一種能有效防止基于背景知識(shí)攻擊的差分隱私算法，引入隨機(jī)噪聲分別對(duì)不同類型的數(shù)據(jù)進(jìn)行擾動(dòng)，將加噪后的數(shù)據(jù)準(zhǔn)確返回給用戶，保證了大數(shù)據(jù)的價(jià)值和位置服務(wù)質(zhì)量。實(shí)驗(yàn)結(jié)果表明，該位置隱私保護(hù)算法實(shí)現(xiàn)了數(shù)據(jù)可用性和隱私保護(hù)維度的有效平衡，對(duì)位置大數(shù)據(jù)隱私保護(hù)有一定的研究價(jià)值。與其它匿名隱私保護(hù)模型相比，基于差分隱私的保護(hù)方法能保證高質(zhì)量數(shù)據(jù)運(yùn)用于位置信息服務(wù)系統(tǒng)中，高效處理數(shù)據(jù)的定位、查詢、分析和發(fā)布，是未來隱私保護(hù)數(shù)據(jù)方法的研究方向。