劉 浪,蔡利平,何文濤,周緒川
(1.西南民族大學信息與現(xiàn)代教育技術(shù)中心,四川 成都 610041;2.西南民族大學計算機系統(tǒng)國家民委重點實驗室,四川 成都 610041)
隨著衛(wèi)星定位[1]、基站定位[2]、Wi-Fi 定位[3]、RFID 定位[4]等技術(shù)的高速發(fā)展,基于定位技術(shù)的服務(wù)受到廣泛應(yīng)用.同時,定位技術(shù)進步所帶來的隱私安全問題也飽受爭議.位置信息作為極度隱私的個人數(shù)據(jù),一旦泄露,惡意攻擊者們可以通過定位數(shù)據(jù)輕而易舉地獲取用戶的運動軌跡,生成用戶畫像,繼而推導出用戶的生活習慣、財富狀況、社會地位、健康狀況等信息,從而誘發(fā)具有高度針對性的違法犯罪行為,后果不堪設(shè)想并且難以防范.因此,位置信息的隱私保護技術(shù)變得尤為重要.
當前位置隱私保護方案主要分為匿名化技術(shù)[5-6]、加密協(xié)議[7-9],以及差分隱私[10]三類.然而,匿名化技術(shù)不足以抵抗背景知識攻擊[11],加密協(xié)議則需要承擔大量的計算和通信成本.差分隱私則需要一個絕對可信的服務(wù)器來收集個人的原始數(shù)據(jù).本地差分隱私(local differential privacy,LDP)的特性可以很好地解決上述問題[12],它在傳統(tǒng)差分隱私的基礎(chǔ)上,將數(shù)據(jù)擾動的操作遷移到了本地端,從而避免了服務(wù)器不可靠而造成的隱私泄露風險.
同時,相較于其他的定位方法,由于其覆蓋廣、交互性強、精度高等特點,基于Wi-Fi 指紋的定位技術(shù)便成為室內(nèi)定位的研究熱點.本文根據(jù)本地差分隱私的特點,結(jié)合室內(nèi)定位場景的應(yīng)用需求,提出了一種基于RAPPOR 算法[13]的室內(nèi)位置隱私保護方法.并設(shè)計相關(guān)實驗證明該方法高效性.
本地化差分隱私可以不信任數(shù)據(jù)收集方,所以它可以為用戶提供比傳統(tǒng)差分隱私更為周密的隱私保護,其嚴格定義如下:
根據(jù)定義1,本地化的差分隱私是對單一的數(shù)據(jù)進行擾動,外界無法通過輸出的擾動值來判定真實值究竟是x 還是x′,并且整個擾動過程都在本地,服務(wù)器方僅考慮如何收集用戶擾動數(shù)據(jù)和進行統(tǒng)計查詢操作,并不涉及用戶原始的隱私關(guān)鍵信息,因而不必擔心服務(wù)器不可靠造成的隱私泄露問題.
指紋定位是一種高精度的定位技術(shù),主要應(yīng)用于室內(nèi)環(huán)境.其主要思路為預(yù)先構(gòu)建好室內(nèi)環(huán)境的無線電地圖,然后在用戶設(shè)備接入室內(nèi)Wi-Fi 時,根據(jù)其自身的無線電特征來匹配預(yù)先構(gòu)建的接入點信息,從而達到高精度的定位效果.Wi-Fi指紋定位方法可以分為離線階段和在線階段兩個部分.離線階段:需要收集室內(nèi)的各個接入點(access point,AP)在預(yù)先設(shè)置好的位置的指紋數(shù)據(jù)(received signal strength indicator,RSSI),稱之為參考點(reference point,RP).在線階段:用戶將從各個AP 收集到的RSSI 信息發(fā)送給服務(wù)器,然后由服務(wù)器將用戶的RSSI 信息和離線階段收集到的信息進行匹配,以此來估計用戶的位置.與其他定位方法相比,指紋識別的主要優(yōu)點是不需要知道距離或角度等物理參數(shù),即可獲取高精度的位置信息.圖1 是Wi-Fi指紋定位方法的示意圖.
圖1 Wi-Fi指紋定位Fig.1 Overview of indoor location fingerprinting
此外,每個RP 處的指紋信息可以表示為:
其中(x, y) 是該參考點RP 的位置坐標,RSSIi∈R是從不同接入點AP 收集到的參考點RP 的指紋信息.
RAPPOR 算法是一種非常具有代表性的頻數(shù)估計方法,在滿足本地差分隱私的前提下可以得到很好的頻數(shù)估計值,Google 的Chrome 瀏覽器早在2014年就開始使用RAPPOR 算法來統(tǒng)計劫持用戶設(shè)置的惡意插件[13].原始的RAPPOR 算法的主要步驟由編碼、永久性隨機響應(yīng)、瞬時性隨機響應(yīng)、上傳四個部分組成.
1.3.1 編碼
通過布隆過濾器(Bloom Filter)[14]將用戶的敏感數(shù)據(jù)的映射成長度為h 的二進制向量B.
1.3.2 永久性隨機響應(yīng)
使用隨機響應(yīng)技術(shù)[15]對編碼數(shù)據(jù)向量B 進行第一次擾動,獲得的擾動結(jié)果記錄為B′并且永久保存,其中擾動的概率應(yīng)滿足:
1.3.3 瞬時性隨機響應(yīng)
與第2 步相似,對B′進行第二次擾動得到向量S,擾動概率滿足:
由于位置信息基本不需要縱向隱私保護,符合One-time RAPPOR 的應(yīng)用條件[13],故可以根據(jù)情況來選擇是否省略瞬時隨機響應(yīng)的操作,本文的實驗部分將會對其進行討論.
1.3.4 聚合
將S 上傳至服務(wù)器,服務(wù)器將所有用戶上傳的擾動向量S 拼接成映射矩陣,然后統(tǒng)計每一位上1 的數(shù)量,最后使用lasso 回歸得到每一位敏感數(shù)據(jù)的頻數(shù)估計.算法過程如圖2所示:
圖2 RAPPOR 算法示意圖Fig.2 RAPOR algorithm process
為方便表示,本文中各個符號的含義由表1 列舉:
表1 符號及其含義Table 1 Notations
在傳統(tǒng)的室內(nèi)定位場景中,用戶需要將其指紋向量發(fā)送到服務(wù)器,服務(wù)器將用戶指紋數(shù)據(jù)與離線數(shù)據(jù)進行匹配,從而得到用戶的準確坐標,這期間很容易產(chǎn)生隱私泄露的問題.
為了保護用戶的位置隱私信息,本文結(jié)合RAPPOR 算法提出了一種適用于室內(nèi)位置隱私數(shù)據(jù)的頻數(shù)估計方法.方法由公共信息、客戶端、服務(wù)器端三個部分組成.
公共信息:首先,服務(wù)器需要利用指紋數(shù)據(jù)將室內(nèi)環(huán)境劃分為L 個不同的區(qū)域.以各個RP 點從AP中收集到的RSSI 信息的作為劃分條件,即對任意不同的RP 點,只要存在M 個相同的最強AP,那么這些RP 應(yīng)該被劃分到同一區(qū)域.
用戶端:用戶首先測量所有可用AP 的RSSI 值,然后找到M 個RSSI 值最強的AP.通過從公共信息中得到的各個RP 信息進行對比,用戶可以確定其相應(yīng)的唯一區(qū)域,使得每個用戶都生成長度為L 的二進制向量Z,即向量Z 僅有一位為1,其余的L-1 位都為0,然后將Z 作為RAPPOR 算法的輸入得到Z*,并將擾動后的向量Z*發(fā)送到服務(wù)器端,其中Z 的取值應(yīng)該滿足:
服務(wù)器端:服務(wù)器收集來自所有用戶的擾動向量Z′,并估計用戶在各個區(qū)域中的人口數(shù)量.算法1 提供了該機制的偽代碼.
算法1.室內(nèi)定位隱私保護模型輸入:隱私預(yù)算ε,公共信息T.輸出:每個區(qū)域的人口頻率.①for each Ui∈U do:②測量從N 個AP 收集到的用戶指紋信息Ri={RSSI1,RSSI2...RSSIN}.③根據(jù)T 和Ri信息確定當前用戶的區(qū)域.④生成長度為L 的位向量Z,如果用戶在j 區(qū),令Z[j]=1,否則為0.⑤將向量Z 作為RAPPOR 算法的輸入,得到輸出Z*.⑥將擾動向量Z*提交至服務(wù)器.⑦End for⑧服務(wù)器將聚合所有的Z*,并且使用lasso 回歸得到每個區(qū)域的頻數(shù)估計.
本文實驗均在Windows10 操作系統(tǒng),Python 3.8版本的環(huán)境下實現(xiàn).為驗證模型的有效性,使用了以下兩個真實數(shù)據(jù)集:1)CWIP 數(shù)據(jù)集:芬蘭Tampere 的一座5 層大樓中收集到的數(shù)據(jù)集,建筑面積約為22 570 m2.包括該數(shù)據(jù)集中有992 個AP 點,4 000余條RSSI 數(shù)據(jù)[16].2)JUIndoorLoc 數(shù)據(jù)集:該公共數(shù)據(jù)集包含一棟4 層建筑中收集到的RSSI 指紋信息[17].本文使用其中一層的數(shù)據(jù),面積約為882 m2,由36 個AP 和1 588 個用戶組成.表2 展示了數(shù)據(jù)集的參數(shù)信息.
表2 數(shù)據(jù)集信息Table 2 Datasets information
同時,為驗證模型效果,本文引入均方根誤差(RMSE)來作為評估指標:
其中Z=(z1,z2...zL)為真實指紋信息,Z′=(z1,z2...zL)為擾動后的指紋信息.
圖3 隱私預(yù)算對估值精度的影響Fig.3 The impact of privacy budgeting on valuation accuracy
通過對比圖3 中的兩幅小圖可以看出,算法在CWIP 數(shù)據(jù)集上的表現(xiàn)明顯要優(yōu)于JUIndoorLoc 數(shù)據(jù)集,這主要是因為區(qū)域數(shù)量之間的差異而導致的.因為CWIP 數(shù)據(jù)集的區(qū)域數(shù)和數(shù)據(jù)量都要更大,根據(jù)本地差分隱私的定義,數(shù)據(jù)規(guī)模越大,其估值的誤差就會越接近理論值.此外,AP 的數(shù)量及其相對位置和環(huán)境特征(即墻壁和其他物體的放置)也會導致估值的誤差.
對于室內(nèi)定位中存在的用戶位置隱私保護的問題,本文對現(xiàn)有位置隱私保護方法進行研究,提出基于本地差分隱私的Wi-Fi指紋定位方案,根據(jù)RSSI信息對室內(nèi)環(huán)境進行區(qū)域劃分,從而使得用戶的位置數(shù)據(jù)滿足RAPPOR 算法的使用條件,使得整個過程能夠滿足本地差分隱私,可以有效地保護用戶的位置數(shù)據(jù).
由于缺少數(shù)據(jù)集的平面圖,所以沒有對室內(nèi)環(huán)境特征對區(qū)域劃分及估值精度的影響進行進一步討論,下一步的工作將圍繞如何更加細致地劃分區(qū)域標準進行展開.