王斌,張磊,張國印
(1. 哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001;2. 佳木斯大學(xué)信息電子技術(shù)學(xué)院,黑龍江 佳木斯 154007)
隨著定位技術(shù)和無線通信技術(shù)的不斷發(fā)展,基于這類技術(shù)的位置服務(wù)已經(jīng)廣泛地深入人們的日常生活當(dāng)中,這種以提交用戶當(dāng)前或一段時(shí)間真實(shí)位置并獲得如導(dǎo)航、興趣點(diǎn)查詢、廣告推送等相關(guān)信息的服務(wù)方式為廣大用戶的日常生活帶來了極大的便利。但是,隨著越來越多地使用這種服務(wù),人們逐漸發(fā)現(xiàn)基于位置的服務(wù)存在著獲取及威脅用戶個(gè)人隱私的情況,這使很多人逐漸減少對其的使用,并很大程度上制約了這種服務(wù)方式和服務(wù)技術(shù)的發(fā)展。
針對隱私泄露問題,很多研究者都提出了自己的觀點(diǎn)。其中,提出最早并影響最深的是 Gruteser等[1]提出的k-匿名觀點(diǎn),該觀點(diǎn)認(rèn)為把用戶的真實(shí)位置與其他至少k-1個(gè)位置共同提交給基于位置服務(wù)的服務(wù)提供商,利用真實(shí)位置與其他用戶位置之間的不確定性來降低攻擊者準(zhǔn)確識(shí)別指定用戶的概率,以此保護(hù)用戶的個(gè)人隱私。隨著該觀點(diǎn)的提出,區(qū)域泛化[2]、位置多樣性[3]、查詢多樣性[4]等相關(guān)觀點(diǎn)被分別提出,并逐漸演化為歐氏空間的快照查詢隱私保護(hù)[5-7]和歐氏空間的連續(xù)查詢隱私保護(hù)[8-9]。但這類方法較難應(yīng)用到真實(shí)環(huán)境當(dāng)中,因?yàn)槿藗冋鎸?shí)活動(dòng)的空間被道路組成的網(wǎng)絡(luò)結(jié)構(gòu)所覆蓋,按照歐氏空間得到的匿名位置可能位于一些不可到達(dá)或者易被攻擊者識(shí)別的區(qū)域,進(jìn)而無法有效地起到泛化用戶真實(shí)位置的目的。因此,研究者又專門針對路網(wǎng)環(huán)境,提出了在該環(huán)境下的連續(xù)查詢隱私保護(hù)方法[10-12]。不過,這些方法或者無法有效地應(yīng)對攻擊者使用的追蹤攻擊,或者在隱私保護(hù)過程中過于追求隱私保護(hù)的效果而對服務(wù)質(zhì)量影響較大。這種情況導(dǎo)致另外一種被稱作mix-zone[13-18]的可抵抗追蹤攻擊并能有效減少對服務(wù)質(zhì)量影響的方法被廣泛研究和應(yīng)用。通常情況下,mix-zone可看作是一個(gè)外部用戶無法獲知任何消息的黑盒區(qū)域,在該區(qū)域中,內(nèi)部用戶可以進(jìn)行信息交互、信息處理等一系列操作,而外部用戶無法通過各種方式獲取任何信息傳遞情況。同時(shí),由于 mix-zone采用的是按照關(guān)鍵位置節(jié)點(diǎn)部署的方式,使2個(gè)連續(xù)節(jié)點(diǎn)之間的用戶未受到各種算法的影響,因此對服務(wù)質(zhì)量的影響相對較弱。綜上,mix-zone的這一系列優(yōu)點(diǎn)使其更適合在路網(wǎng)環(huán)境部署應(yīng)用。
不過,用戶在連續(xù)移動(dòng)并查詢的過程中并非僅僅去掉假名、查詢時(shí)間等有限屬性便可有效地抵抗攻擊者的攻擊行為。按照張磊等[19]的觀點(diǎn),攻擊者可以根據(jù)連續(xù)用戶所表現(xiàn)出的多種屬性進(jìn)行關(guān)聯(lián),進(jìn)而猜測出用戶的連續(xù)位置,分析獲得用戶的隱私信息。盡管在文獻(xiàn)[20-22]中已經(jīng)利用屬性泛化實(shí)現(xiàn)隱私保護(hù),但由于所針對環(huán)境的差異,這些方法并不適合直接應(yīng)用到mix-zone中。針對這個(gè)問題,本文以屬性泛化為基本出發(fā)點(diǎn),從mix-zone構(gòu)成的基本特性考慮,基于同態(tài)加密的基本思想,設(shè)計(jì)并提出了一種基于mix-zone半可信的用戶代理、且用戶屬性信息全程不可獲知的隱私保護(hù)方法,簡稱 AG mix-zone算法?;谠摲椒ǎ琺ix-zone中用戶可秘密計(jì)算獲知泛化后的屬性集合信息,利用泛化后的屬性集合信息在離開mix-zone后表現(xiàn)為用戶屬性,以此令攻擊者無法在非 mix-zone區(qū)域?qū)τ脩魧傩约右躁P(guān)聯(lián)。最后,本文通過安全性分析和實(shí)驗(yàn)驗(yàn)證,證明了本文所提算法的隱私保護(hù)能力及其在實(shí)際部署中的執(zhí)行效率。
mix-zone主要設(shè)計(jì)用來防止攻擊者實(shí)施追蹤攻擊,即通過mix-zone切斷攻擊者對用戶的連續(xù)暴露位置所表現(xiàn)出的用戶信息。但是,由于用戶的屬性彼此之間存在差異,使假名、查詢間隔等有限屬性互換很難隱藏可被攻擊者利用的全部屬性信息,進(jìn)而表現(xiàn)為如圖1所示的可被攻擊者利用的屬性關(guān)聯(lián)模型。圖1中,進(jìn)出mix-zone的移動(dòng)用戶均表現(xiàn)出自身特定的用戶屬性,如用戶ID、查詢頻率、查詢內(nèi)容等,并用三角形、五角形、五邊形等不同圖形來表示。攻擊者可利用這些屬性的相似性對進(jìn)出 mix-zone的用戶加以關(guān)聯(lián),使mix-zone的作用失效。
圖1 未經(jīng)屬性泛化導(dǎo)致的用戶屬性表現(xiàn)
基于上述分析及圖1的觀測比較發(fā)現(xiàn),這種關(guān)聯(lián)的攻擊方式可以表示為用戶可被觀測的全部屬性的相似性比較,因此使用來量化這種相似性,其中,sim(?)表示相似性。設(shè)某一指定被追蹤用戶的屬性為該用戶離開 mixzone之后表現(xiàn)出的屬性為若存在則可認(rèn)為這 2種屬性為同一用戶所表現(xiàn),即進(jìn)出mix-zone的用戶為同一用戶,進(jìn)而攻擊者可對該用戶進(jìn)行持續(xù)追蹤。其中,m為可被識(shí)別的屬性數(shù)量,λ為攻擊者可使用的屬性相似最小閾值。
針對利用用戶表現(xiàn)出的屬性相似性進(jìn)行攻擊的方法,最有效的手段就是進(jìn)行屬性泛化。屬性泛化的基本思想是令所有離開 mix-zone的用戶表現(xiàn)出相似屬性,使攻擊者無法利用進(jìn)出mix-zone的用戶屬性關(guān)聯(lián)來識(shí)別出指定的追蹤用戶。圖2給出了這種思想處理后表現(xiàn)出的屬性泛化結(jié)果。
圖2 經(jīng)過屬性泛化后的用戶屬性表現(xiàn)
從圖2中可以看出,進(jìn)入mix-zone時(shí)表現(xiàn)出不同屬性類型的移動(dòng)用戶,在經(jīng)過mix-zone的處理之后,均表現(xiàn)出五邊形屬性,這使攻擊者無法利用進(jìn)出mix-zone的用戶之間的屬性相似來識(shí)別用戶。形式化表示為其中,n為當(dāng)前mix-zone中的用戶數(shù)量。但是,簡單地通過mix-zone中的用戶彼此之間交換并建立這種相似屬性是不安全的,因?yàn)楣粽呖梢詡窝b成為參與者并被包含在mix-zone區(qū)域內(nèi),進(jìn)而造成交換數(shù)據(jù)被攻擊者獲得從而泄露用戶隱私,因此,需要一種既能夠保障mix-zone中的用戶彼此之間不能獲得相關(guān)信息,同時(shí)又能通過選擇的半可信代理用戶完成相同屬性信息處理的隱私保護(hù)方法?;谶@一思路,本文利用同態(tài)加密的基本特性,分別利用秘密數(shù)據(jù)比較和秘密相似屬性值計(jì)算對屬性泛化的觀點(diǎn)進(jìn)行處理。在整個(gè)屬性泛化的處理過程中,用戶的信息既不會(huì)被代理獲知,也不會(huì)被 mix-zone中參與者所了解,所有用戶僅能獲得最后泛化的屬性均值,并利用該均值實(shí)現(xiàn)離開mix-zone后的用戶屬性泛化。
完成屬性相似計(jì)算的首要問題是在當(dāng)前mix-zone區(qū)域內(nèi)由所有用戶共同選擇一個(gè)半可信代理來完成屬性相似計(jì)算。在各用戶均無法獲知真實(shí)出價(jià)的情況下,由出價(jià)最高的用戶被選為代理。首先代理應(yīng)是如圖3所示的mix-zone內(nèi)成員,以便與用戶進(jìn)行信息交互;其次,代理是在連續(xù)的競標(biāo)過程中勝出的一方,這樣能夠獲得由其他用戶反饋給該用戶的消耗補(bǔ)償。競標(biāo)過程可表現(xiàn)為如圖4所示的分組競標(biāo)價(jià)格比較過程。
圖3 mix-zone中代理與用戶關(guān)系
圖4 mix-zone中分組競標(biāo)價(jià)格比較過程
因此競標(biāo)比較問題可轉(zhuǎn)換為多方的秘密數(shù)據(jù)比較問題,借鑒文獻(xiàn)[23]給出的秘密比較方法,可獲得如下所述的秘密比較處理過程。
假設(shè)當(dāng)前mix-zone中存在的參與者人數(shù)為n,則參與者Pi( 1 ≤i≤n)每人擁有的長度為l bit的代理參選投標(biāo)出價(jià)為轉(zhuǎn)換為二進(jìn)制表示為則出價(jià)可按照以下步驟進(jìn)行比較。
步驟 21P利用自己的公鑰pk1對自身的二進(jìn)制出價(jià)進(jìn)行逐比特加密,得到加密后的信息并向其他n-1個(gè)用戶公開加密后的出價(jià)信息E(b1)。
步驟3 當(dāng)kP收到加密后的出價(jià)E(b1)時(shí),首先利用pkk對自身的出價(jià)進(jìn)行加密,獲得然后計(jì)算
其中,E(l)是l在經(jīng)過全同態(tài)加密后獲得的密文,即將加密后的l位與出價(jià)E(l)的模之間進(jìn)行d進(jìn)位加法,如果其結(jié)果超出l位整數(shù)的表示范圍,則只需去除低于l位的結(jié)果。
在完成上述計(jì)算之后,kP計(jì)算其中,gk表示第k位計(jì)算結(jié)果,表示對應(yīng)的 2個(gè)λ位整數(shù)的進(jìn)位加法,分別表示第i位的計(jì)算結(jié)果和第i位向第i+1位的進(jìn)位;表示的模d進(jìn)位乘法,模d進(jìn)位加法和模d進(jìn)位乘法均按照全同態(tài)加密方案中同態(tài)運(yùn)算步驟加以執(zhí)行,且每次對2個(gè)密文完成加法或乘法運(yùn)算后,執(zhí)行同態(tài)解密操作以降低密文中存在的噪聲。在完成以上操作后,得到發(fā)送給用戶1P。
步驟41P對解密后得到1P將結(jié)果發(fā)送給kP。
通常情況下,用戶在道路環(huán)境下的連續(xù)移動(dòng)過程中可被攻擊者獲得并被識(shí)別的m個(gè)用戶屬性可表示為針對mix-zone中的n個(gè)用戶,可將這種屬性表示為1≤i≤n。屬性模糊的目的就是使mix-zone中的多個(gè)用戶表現(xiàn)出的屬性集合之間存在,即針對任意選擇的2個(gè)用戶ui和其表現(xiàn)出的屬性之間滿足其中,λ為攻擊者不可分辨出的最小閾值。為實(shí)現(xiàn)這種屬性相似計(jì)算,且mix-zone中各用戶(包括所選擇的代理用戶)在計(jì)算過程中無法獲知任何用戶屬性信息,本文修改文獻(xiàn)[24]提供的單輪集合地點(diǎn)計(jì)算的方式,對不同用戶提供的屬性進(jìn)行相似屬性計(jì)算。該計(jì)算過程可表示如下。
代理用戶利用 ElGamal生成公鑰pks=私鑰為sks=α。其中,p是一個(gè)大素?cái)?shù),的發(fā)生器,滿足
步驟1 對于mix-zone中的任意2個(gè)用戶ui和用戶uj分發(fā)和這 4個(gè)私密隨機(jī)數(shù);用戶ui分發(fā)這4個(gè)私密隨機(jī)數(shù),其中,用戶隨機(jī)選擇一個(gè)正整數(shù)滿足并將si保存,其中,||.||表示比特長度。所有mix-zone中的用戶共享一個(gè)通用的正整數(shù)且r滿足
步驟2 將屬性值平均分成兩部分,用戶ui的屬性為用戶uj的屬性為首先,用戶uj計(jì)算密文,具體如下。
然后,用戶uj將密文發(fā)送給用戶ui。當(dāng)收到密文后,用戶ui計(jì)算如下密文。
最后,用戶ui將密文發(fā)送給代理。
步驟 3 代理在從用戶ui處獲得密文后,使用自身的私鑰sks=α對其進(jìn)行解密,并獲得明文表示2個(gè)用戶之間的屬性差異距離。由于有 0≤mij=
步驟4 對于mix-zone中的每一個(gè)用戶,代理計(jì)算mij的平均值然后計(jì)算差異對于每個(gè)差異代理需要計(jì)算r次,獲得對每個(gè)用戶之間的屬性差異iσ,即。在獲得后,代理在其中選擇最小值及其索引k。由于r是正整數(shù),可知kσ是在集合之中的最小值。即計(jì)算后獲得的Ak的屬性值kσ是與mix-zone中所有用戶屬性值最相近的,可以使用該值作為模糊后所有用戶可使用的泛化屬性。在整個(gè)計(jì)算處理過程中,每個(gè)用戶均不知道其他用戶的真實(shí)屬性,而代理僅知道模糊后所有用戶共同使用的泛化屬性值,即在整個(gè)處理過程中沒有用戶屬性信息被其他實(shí)體所獲知。
由于本文所提算法是在屬性相似的思想基礎(chǔ)上,基于同態(tài)加密的處理方法實(shí)現(xiàn)的,該方法既可針對全程追蹤的攻擊者,又可針對參與mix-zone中的偽裝攻擊者,因此,其安全性需要從2個(gè)方面考慮:1) 攻擊者對泛化后的屬性信息準(zhǔn)確猜測的不確定性;2) 算法中所使用的加密算法對參與到mix-zone中的2種用戶(代理和一般用戶)的信息泄露情況。
攻擊者對泛化后屬性猜測的不確定性使用信息熵進(jìn)行度量,即設(shè)攻擊者在離開mix-zone的眾多用戶中,根據(jù)表現(xiàn)出的屬性相似性準(zhǔn)確識(shí)別出追蹤用戶的概率為則攻擊者在眾多離開mix-zone中的用戶中,利用相似性猜測的情況可表示為按照J(rèn)aynes最大熵定理可知,當(dāng)Hi最大時(shí),攻擊者具有最大不確定性,即無法在離開的n個(gè)用戶中準(zhǔn)確地識(shí)別出追蹤用戶。為證明這一點(diǎn),假設(shè)攻擊者掌握的追蹤用戶屬性為在離開mix-zone的n個(gè)用戶中的任意 2個(gè)用戶ui和uj的屬性為和根據(jù)屬性相似,攻擊者可通過計(jì)算來判斷這2個(gè)用戶哪一個(gè)是被追蹤用戶。假設(shè)pu,i和pu,j分別是攻擊者將這2個(gè)用戶與追蹤用戶進(jìn)行相似屬性關(guān)聯(lián)獲得的猜測概率,則有而經(jīng)過屬性泛化,使攻擊者無法通過相似屬性對這2個(gè)用戶進(jìn)行區(qū)分,進(jìn)而有此時(shí)根據(jù)Jaynes最大熵定理可知H取最大值,即攻擊者在n個(gè)用戶中準(zhǔn)確地識(shí)別出追蹤用戶的不確定性最大。
加密算法對用戶信息的披露可以從代理競選和屬性私密計(jì)算兩方面加以分析。在代理競選方面,任意用戶之間只存在競選代理所需要的計(jì)算補(bǔ)償,只有在計(jì)算補(bǔ)償最小的情況下,該用戶才能被選為代理。整個(gè)競選過程中,所有出價(jià)均在加密狀態(tài)下完成,任何用戶均無法獲知其他用戶的出價(jià)。由于代理競選是在n個(gè)用戶中選擇,可能會(huì)出現(xiàn)參與競選用戶共謀獲取其中某一用戶出價(jià)的情況,但僅在的情況下,可猜測獲得出價(jià)排位,但并不能獲知具體出價(jià)。同時(shí),由于mix-zone中的用戶是一種隨機(jī)建立的用戶群組,一方面很難出現(xiàn)全部參與用戶中僅余一個(gè)用戶為待攻擊對象的情況;另一方面,由于代理在屬性泛化的過程中仍不能準(zhǔn)確地獲得待攻擊對象的屬性信息,因此其攻擊投入與收獲不符,即攻擊者很難通過這種方式對待攻擊對象加以攻擊并獲得其隱私信息。
在屬性私密計(jì)算方面,用戶信息的披露程度可以從相似屬性計(jì)算的私密性方面加以分析,即在相似屬性的計(jì)算過程中沒有隱私信息被mix-zone中的其他參與者獲知。對于代理用戶,由于代理需獲得密文并通過自己的私鑰sks解密計(jì)算泛化后的屬性信息,而分別是通過用戶ui和用戶uj的屬性信息經(jīng)過一系列模操作計(jì)算獲取的。在模值(即mod計(jì)算后所取得的結(jié)果)為確定數(shù)的情況下,原始值(即加密前的明文信息)是不確定的,因而代理是不能利用獲得的密文將用戶的屬性信息還原的,即使惡意用戶與代理共謀攻擊也無法還原該信息。
每個(gè)考站考核完畢教師分別根據(jù)考生表現(xiàn)進(jìn)行針對性的點(diǎn)評,并適當(dāng)提問相關(guān)問題,考生能現(xiàn)場對每一站的內(nèi)容查漏補(bǔ)缺,盡量做到評定-治療-病例分析之間的密切聯(lián)系。每個(gè)考生考完一站后必須馬上轉(zhuǎn)移地點(diǎn)進(jìn)行下一站考核,考完三站的考生最后在教室回避,不能與未完成考核的考生有任何交流。
對于除代理外的參與用戶,設(shè)ε為隱私參數(shù),A為攻擊者,B為待攻擊對象,攻擊者對屬性信息的攻擊可轉(zhuǎn)換為A和B之間的博弈在整個(gè)屬性信息泛化處理過程中,假設(shè)A可獲得代理用戶的私鑰sks及B的公開參數(shù)。所有mix-zone中的參與者的屬性信息可表示為A1,A2,… ,An。B執(zhí)行秘密屬性計(jì)算可得到泛化后的屬性信息并將密文及對的索引發(fā)送給A。B再選擇隨機(jī)屬性并隨機(jī)選擇當(dāng)ε=0時(shí),將發(fā)送給A;當(dāng)ε=1時(shí),則將Ar發(fā)送給A。A猜測針對隱私參數(shù)ε的猜測值 {0,1}時(shí),A獲勝。此時(shí)攻擊者在此博弈中的優(yōu)勢可表示為ε′∈ ,當(dāng)且僅當(dāng)由于在整個(gè)過程中,A無法通過有效的手段準(zhǔn)確猜測ε′的取值,進(jìn)而使ε′=ε的概率為隨機(jī)猜測概率,由此可獲得攻擊者的博弈優(yōu)勢即攻擊者不具備優(yōu)勢。因此,可認(rèn)為除代理外的參與用戶無法獲知任意用戶的屬性信息。
基于上述分析,可認(rèn)為本文所提的基于多方安全計(jì)算的屬性泛化的 mix-zone能夠有效地提供隱私保護(hù),且針對不同類型的攻擊者均具有較好的防護(hù)能力。
為了驗(yàn)證本文所提AG mix-zone算法在隱私保護(hù)能力和算法執(zhí)行效率這2個(gè)方面的優(yōu)勢,本文利用BerlinMOD Data Set提供的路網(wǎng)數(shù)據(jù),并隨機(jī)選擇位置生成mix-zone進(jìn)行測試。實(shí)驗(yàn)使用筆記本電腦的處理器為Intel core I7,內(nèi)存為4 GB,操作系統(tǒng)為Windows10,并采用Matlab R2017a作為測試工具進(jìn)行模擬實(shí)驗(yàn)。同時(shí),為進(jìn)一步驗(yàn)證 AG mix-zone算法的優(yōu)勢,在測試的過程中與當(dāng)前的一些同類算法進(jìn)行了比較,參與比較的算法有通過移動(dòng)耽擱泛化查詢間隔時(shí)間的等待忍耐 mix-zone(delay-tolerant mix-zone)[25]、利用 mix-zone變形降低關(guān)聯(lián)程度的偏移mix-zone(shifted mix-zone)[26]、多維 mix-zone授權(quán)的多維 mix-zone(multiple mix-zone)[17]和基于身份驗(yàn)證加密的加密mix-zone(cryptographic mix-zone)[18]。實(shí)驗(yàn)將從隱私保護(hù)能力和算法執(zhí)行效率這2個(gè)方面展開,并且同時(shí)針對規(guī)則mix-zone和不規(guī)則mix-zone進(jìn)行測試比較,以便獲得部署mix-zone的最佳形狀。其中,隱私保護(hù)能力將在屬性泛化后的信息熵度量、泛化后的屬性差異率、進(jìn)出mix-zone用戶的可關(guān)聯(lián)性這3個(gè)方面展開;算法執(zhí)行效率將在規(guī)則mix-zone和不規(guī)則mix-zone狀態(tài)影響下的算法執(zhí)行時(shí)間和隱私保護(hù)成功率等這2個(gè)方面展開。在驗(yàn)證屬性數(shù)量對算法的影響時(shí),將用戶限定在 10個(gè),而在驗(yàn)證用戶數(shù)量對算法的影響時(shí)則將屬性設(shè)定為 15個(gè)。為簡化算法驗(yàn)證過程,整個(gè)實(shí)驗(yàn)中所使用的用戶和屬性數(shù)量均為 1~30。
從圖5中可以看出,除本文所提AG mix-zone算法外,在用戶數(shù)量一定的前提下,其他算法的信息熵均隨屬性數(shù)量的增加而減小。這是由于本文算法主要針對 mix-zone中的用戶利用量化的多屬性相似計(jì)算完成屬性泛化,該方法處理的屬性數(shù)量遠(yuǎn)超過其他算法。相比之下,加密mix-zone由于同樣使用加密手段隱藏屬性,表現(xiàn)要好于其他3種算法。而多維mix-zone表現(xiàn)要好于mix-zone和等待忍耐mix-zone算法,這主要是由于該算法使用多重的mix-zone進(jìn)行重復(fù)覆蓋,在一定程度上提升了屬性隱藏的效率。偏移 mix-zone和等待忍耐 mix-zone由于針對的屬性有限,且未能通過多重覆蓋的方式降低屬性暴露的風(fēng)險(xiǎn),隨屬性增加導(dǎo)致的信息熵取值相對較低,但偏移mix-zone表現(xiàn)要好于等待忍耐mix-zone,這是由于偏移后的mix-zone在一定程度上起到了覆蓋的作用,雖然低于多維mix-zone但要好于等待忍耐mix-zone。
圖5 屬性變化導(dǎo)致的泛化后信息熵曲線
從表1可以看出,5種算法在屬性數(shù)量確定的前提下,信息熵均隨著參與用戶數(shù)量的提升而增長,即攻擊者對屬性泛化后用戶的不確定性在持續(xù)增加。這是由于用戶數(shù)量提升了攻擊者的不確定性,令攻擊者猜測的基數(shù)不斷增長。在5種算法中,AG mix-zone算法能夠取得信息熵最大值,這是由于該算法將所有顯露的用戶屬性均加以泛化,最大程度地減少了攻擊者可利用的屬性。而其他算法中,多維mix-zone使用了多重覆蓋的原理,在多個(gè)不同的 mix-zone中使用大量用戶進(jìn)行多種屬性的泛化處理,其信息熵取值比AG mix-zone算法稍低。加密mix-zone雖然采用加密手段進(jìn)行屬性隱藏,但其所針對的屬性有限,其信息熵低于多維mix-zone。另2種算法中,偏移mix-zone由于偏移性與覆蓋相似,但偏移距離有限,限制了其對屬性的泛化效果。最后,等待忍耐mix-zone由于主要應(yīng)對時(shí)間間隔這一屬性,其對于其他類型的屬性泛化能力有限,導(dǎo)致該算法表現(xiàn)不佳。
從圖6中可以看出,隨著屬性數(shù)量的增加,除本AG mix-zone算法外,其他算法在經(jīng)過處理后用戶表現(xiàn)出的屬性之間仍存在較大差異,且屬性數(shù)量越大這種差異越明顯。由于AG mix-zone算法是針對所有潛在屬性進(jìn)行整體性泛化,因此泛化后的屬性差異并不隨著屬性數(shù)量的增加而產(chǎn)生變化。其他算法則針對有限的屬性加以處理,其處理能力有限,無法對所有屬性展開泛化處理,屬性差異隨著屬性數(shù)量的增加而逐漸變大。
圖6 屬性泛化后的差異
對于進(jìn)出mix-zone用戶的可關(guān)聯(lián)性,本文采用成對熵加以度量,即成對熵取值越高,可關(guān)聯(lián)性越低。從表2可以看出,AG mix-zone算法可取得最高成對熵取值,因?yàn)樵撍惴▽⒂脩糸g的屬性加以泛化,使離開mix-zone的用戶均表現(xiàn)出相似屬性,攻擊者無法將這些用戶中的任意一個(gè)與進(jìn)入mix-zone之前的用戶相關(guān)聯(lián)。而其他4種算法均無法對所有屬性加以處理,進(jìn)而造成攻擊者可通過屬性加以關(guān)聯(lián),致使成對熵取值隨屬性數(shù)量的增加而逐漸降低,即攻擊者可將進(jìn)出mix-zone用戶加以關(guān)聯(lián)的概率增加,用戶存在被攻擊者識(shí)別的風(fēng)險(xiǎn)。
表1 5種算法在不同用戶數(shù)量下的信息熵
圖7 隨用戶數(shù)量變化導(dǎo)致的進(jìn)出mix-zone用戶可關(guān)聯(lián)性差異
從圖8中可以看出,除AG mix-zone算法外,其他算法均隨著屬性數(shù)量的增加,算法執(zhí)行時(shí)間顯著增長。這是由于 AG mix-zone算法采用的是mix-zone中的用戶共同處理相似屬性的方法,這種方法是對所有屬性量化后由代理和用戶之間共同完成的,整個(gè)處理過程不隨著屬性數(shù)量的增加而改變。而其他算法由于針對的屬性種類等方面的限制,使在屬性增加的情況下,算法不得不重復(fù)執(zhí)行或者多次處理,進(jìn)而導(dǎo)致隨著屬性數(shù)量的變化,算法的整體執(zhí)行時(shí)間不斷增加。其中,加密mix-zone和多維 mix-zone由于需要多次執(zhí)行算法以處理更多的屬性,因此執(zhí)行時(shí)間受屬性變化的影響最高,且在超過某一值后,這種變化加劇。而等待忍耐mix-zone和偏移mix-zone算法的執(zhí)行時(shí)間未隨屬性的增加而加劇并不是因?yàn)檫@2種算法很好地解決了重復(fù)執(zhí)行的問題,而是因?yàn)檫@2種算法針對的屬性有限,即使多次重復(fù)也無法有效地處理過多的屬性,因而其執(zhí)行時(shí)間的變化并未表現(xiàn)出急劇上升的情況。
圖8 隨屬性變化的執(zhí)行時(shí)間(規(guī)則的mix-zone)
與規(guī)則 mix-zone下算法隨屬性變化而導(dǎo)致的時(shí)間差異不同,從圖9中可以看出,AG mix-zone算法在不規(guī)則 mix-zone下其執(zhí)行時(shí)間要高于規(guī)則mix-zone,這是因?yàn)樵诓灰?guī)則 mix-zone下,AG mix-zone算法需要更多的時(shí)間來選擇足夠的且通信便利的用戶來進(jìn)行多方安全計(jì)算,通信距離的限制在不規(guī)則mix-zone中表現(xiàn)得更為明顯,因而在一定程度上影響了AG mix-zone算法的表現(xiàn)。其他算法中,偏移mix-zone算法的表現(xiàn)要好于另外3種算法,這是由于該算法主要設(shè)計(jì)為不規(guī)則 mix-zone下的區(qū)域偏移擴(kuò)展,更適于在不規(guī)則mix-zone的條件下部署。
圖9 隨屬性變化的執(zhí)行時(shí)間(不規(guī)則mix-zone)
從表3中可以看出,隨用戶數(shù)量的變化導(dǎo)致的算法執(zhí)行時(shí)間與隨屬性變化導(dǎo)致的執(zhí)行時(shí)間存在較大差異。首先,AG mix-zone算法的執(zhí)行時(shí)間不再保持固定不變,而是隨著人數(shù)的增加逐漸延長。這是由于該算法需要mix-zone內(nèi)用戶進(jìn)行多方安全計(jì)算,而增加的用戶數(shù)量勢必會(huì)導(dǎo)致計(jì)算的輪次或計(jì)算的基數(shù)增大,進(jìn)而導(dǎo)致算法執(zhí)行時(shí)間的延長。以加密為手段的加密mix-zone同樣受到這一影響,其算法執(zhí)行時(shí)間隨mix-zone中用戶數(shù)量的增長而延長。其他4種算法由于僅需建立mix-zone,并在區(qū)域中簡單地對屬性進(jìn)行隱藏或者泛化,處理過程不隨著用戶數(shù)量的增加而更加復(fù)雜,因此在完成基本處理后無論mix-zone中的用戶增加多少,處理時(shí)間保持穩(wěn)定。
與規(guī)則 mix-zone下的用戶數(shù)量變化導(dǎo)致的算法執(zhí)行時(shí)間差異相似,從圖 10中可以看出,AG mix-zone算法的執(zhí)行時(shí)間依舊受用戶數(shù)量的影響較大,且同類以加密為手段的加密mix-zone表現(xiàn)依舊相似。所不同的是多維 mix-zone在不規(guī)則mix-zone的條件下,受影響的程度有所降低,這是由于該算法在不規(guī)則mix-zone的條件下不再需要部署更多重復(fù)性的 mix-zone來實(shí)現(xiàn)屬性隱藏,因此降低了其部署 mix-zone的數(shù)量,間接地導(dǎo)致算法執(zhí)行時(shí)間的下降,但是這種降低較為有限。
圖10 隨用戶數(shù)量變化的算法執(zhí)行時(shí)間(不規(guī)則mix-zone)
從圖11中可以看出,在規(guī)則的 mix-zone中隨著用戶數(shù)量的增加,各算法的執(zhí)行成功率逐漸降低,這是由于所有算法均需要在mix-zone中找到足夠的用戶以滿足當(dāng)前屬性泛化所要求的用戶數(shù)量,當(dāng)不能找到足夠數(shù)量的用戶情況下,算法執(zhí)行失敗。在這些算法中,AG mix-zone算法的執(zhí)行成功率受用戶數(shù)量的影響較小,這是由于該算法通過mix-zone中用戶彼此間的多方安全計(jì)算來完成屬性泛化,算法的執(zhí)行僅需要找到足夠數(shù)量的用戶即可,并不需要對用戶情況加以限制。其他算法中,多維mix-zone算法的執(zhí)行成功率僅次于AG mix-zone算法,這是由于該算法僅需要在用戶數(shù)量不足的情況下重復(fù)或者延伸部署mix-zone通過多重mix-zone來提升算法的執(zhí)行成功率。相比之下,同樣基于加密算法的加密mix-zone的受用戶數(shù)量的影響相對較大,這是由于該算法需要通過尋找具有相似屬性的用戶來完成屬性泛化,因此在很大程度上相似屬性用戶的尋找限制了其執(zhí)行成功率。偏移mix-zone由于通過移動(dòng)方式提升了相似屬性用戶的尋找能力,但是由于對查詢時(shí)間的屬性泛化,使該算法需要設(shè)定等待時(shí)間,而這種等待時(shí)間在很大程度上影響了用戶參與的積極性,造成隨著用戶數(shù)量增加而導(dǎo)致的算法執(zhí)行成功率降低。最后,等待忍耐mix-zone既沒有偏移包含更多用戶的能力,又受到等待時(shí)間的影響,成功率最低。
表3 隨用戶數(shù)量變化的算法執(zhí)行時(shí)間對比(規(guī)則mix-zone)
圖11 隨用戶數(shù)變化的算法執(zhí)行成功率(規(guī)則mix-zone)
不規(guī)則 mix-zone中隨用戶數(shù)量變化導(dǎo)致的算法成功率差異與規(guī)則 mix-zone中算法成功率的差異大體相同,所不同的是不規(guī)則mix-zone的算法成功率更高,進(jìn)而表現(xiàn)為如表4所示的算法成功率整體上升的狀態(tài)。這主要是不規(guī)則mix-zone由于設(shè)計(jì)特性導(dǎo)致其能夠包含更多的用戶在 mix-zone當(dāng)中,相比于規(guī)則mix-zone更多的用戶為屬性泛化提供了更多的選擇,進(jìn)而提升了屬性泛化的算法執(zhí)行成功效率。
從圖12中可以看出,在規(guī)則mix-zone下隨屬性變化導(dǎo)致的算法執(zhí)行產(chǎn)生的成功率差異。AG mix-zone算法的執(zhí)行成功率受屬性變化的影響較小,僅當(dāng)屬性數(shù)量超過某一閾值時(shí)才逐漸表現(xiàn)出成功率的降低,這是由于該算法是通過屬性量化后展開的相似屬性泛化實(shí)現(xiàn)的隱私保護(hù),算法所處理的是屬性共有值而不是單獨(dú)某一個(gè)值,而表現(xiàn)為不受屬性數(shù)量影響的處理過程。而其他算法中,由于是直接對屬性展開泛化,因此在屬性增加的情況下,需要尋找滿足屬性相似的大量用戶,在一定程度上,因?qū)傩詳?shù)量增加而導(dǎo)致的相似屬性用戶尋找的困難造成了算法執(zhí)行成功率的降低。另外,由于多維mix-zone、等待忍耐mix-zone和偏移mix-zone針對的屬性數(shù)量有限,在成功率下降的同時(shí),這3種算法反而表現(xiàn)出平穩(wěn)的下降趨勢,這是由于這3種算法僅針對某些特定屬性,在無法提供所有屬性泛化的情況下,這3種算法僅需完成對所針對屬性的泛化便可完成算法執(zhí)行,因而其下降趨勢有所緩解。
圖12 隨屬性變化的算法執(zhí)行成功率(規(guī)則mix-zone)
與在規(guī)則mix-zone下隨屬性變化的算法執(zhí)行成功率相似,在不規(guī)則mix-zone下,各算法表現(xiàn)出的成功率差異可從如圖 13所示的曲線差異中看出。所不同的是在不規(guī)則mix-zone下,各算法的成功率要高于規(guī)則 mix-zone,這是由于不規(guī)則的mix-zone能夠包含更多的用戶,進(jìn)而為算法執(zhí)行提供了便利,充足的用戶數(shù)量提升了算法的執(zhí)行成功率。
圖13 隨屬性變化的算法執(zhí)行成功率(不規(guī)則mix-zone)
表4 隨用戶數(shù)變化的算法執(zhí)行成功率對比(不規(guī)則mix-zone)
通過上述實(shí)驗(yàn)驗(yàn)證結(jié)果可以看出,本文 AG mix-zone算法比其他同類算法具有更好地隱私保護(hù)能力和算法執(zhí)行效率,因而該算法可更好地應(yīng)用在實(shí)際路網(wǎng)環(huán)境的部署當(dāng)中,有效地保護(hù)了用戶的個(gè)人隱私。
在路網(wǎng)環(huán)境中,mix-zone作為一種有效地防治攻擊者對用戶展開追蹤攻擊的手段被廣泛的研究和應(yīng)用。然而,在現(xiàn)實(shí)使用的過程中,一方面用戶在離開mix-zone區(qū)域后所展現(xiàn)的屬性可被關(guān)聯(lián);另一方面一些潛在的能夠偽裝并加入mix-zone中的偽裝攻擊者可獲得用戶彼此間傳遞的信息。針對這2種存在的問題,本文基于屬性泛化和同態(tài)加密,提出了一種能夠?qū)崿F(xiàn)用戶屬性不可關(guān)聯(lián)且mix-zone中用戶無法獲知彼此真實(shí)信息的隱私保護(hù)方法。該方法通過秘密選擇代理,并由代理完成私密相似屬性計(jì)算,最終實(shí)現(xiàn)離開mix-zone的用戶彼此間的屬性不可關(guān)聯(lián)。為證明本文所提AG mix-zone算法的有效性和算法執(zhí)行效率,在安全性分析中使用了博弈論的觀點(diǎn)對加密手段和泛化效果進(jìn)行了理論證明,同時(shí)在實(shí)驗(yàn)驗(yàn)證中給出了算法在實(shí)際部署中取得的各種效果,并通過與其他 4種算法的比較進(jìn)一步說明本文所提 AG mix-zone算法的優(yōu)勢。盡管本文所提AG mix-zone算法能夠解決mix-zone中存在的固有問題,但是由于所采用的多方安全計(jì)算需要較大的計(jì)算量和計(jì)算處理時(shí)間,AG mix-zone算法在執(zhí)行效率上仍存在較大缺陷,今后的工作將在如何提升執(zhí)行效率方面展開。