虞 娟
(馬鞍山師范高等專科學(xué)校 軟件工程系,安徽 馬鞍山 243000)
隨著科技和互聯(lián)網(wǎng)的不斷發(fā)展,Web網(wǎng)絡(luò)中的海量數(shù)據(jù)成為一筆巨大的財(cái)富。信息化時(shí)代的發(fā)展潮流是利用這些數(shù)據(jù)對(duì)各行各業(yè)的狀態(tài)進(jìn)行分析實(shí)現(xiàn)數(shù)據(jù)共享[1-2]。然而數(shù)據(jù)共享時(shí)對(duì)Web大數(shù)據(jù)進(jìn)行查詢過程中,會(huì)導(dǎo)致個(gè)人隱私泄露的概率加大。因此,Web查詢大數(shù)據(jù)的隱私保護(hù)受到普遍重視[3-4]。
大數(shù)據(jù)的隱私保護(hù)成為研究人員的研究主題。例如周藝華等人提出通過GeoHash算法用字符串代替查詢用戶的位置,并構(gòu)建Trie前綴樹,LBS服務(wù)器在前綴樹的基礎(chǔ)上匹配字符串,然后發(fā)送給用戶,通過此過程保護(hù)用戶信息,但是該方法只保護(hù)查詢用戶的位置信息,并未對(duì)查詢的數(shù)據(jù)進(jìn)行隱私保護(hù)[5]。顧一鳴等人通過預(yù)先緩存機(jī)制實(shí)現(xiàn)連續(xù)查詢數(shù)據(jù)的隱私保護(hù),其可有效處理連續(xù)查詢過程中出現(xiàn)的最大移動(dòng)邊界攻擊問題,通過預(yù)先緩存的方法使得連續(xù)查詢數(shù)據(jù)的時(shí)間關(guān)聯(lián)度降低,增強(qiáng)數(shù)據(jù)隱私保護(hù)水平,但是該種方法隱私保護(hù)過程中未進(jìn)行數(shù)據(jù)冗余的過濾處理,導(dǎo)致數(shù)據(jù)隱私保護(hù)效果大大降低[6]。
混洗差分隱私模型將洗牌者插入大數(shù)據(jù)和數(shù)據(jù)收集者之中,洗牌者接收混入噪聲的數(shù)據(jù),并將其混洗,然后輸送給收集者分析,用戶和大數(shù)據(jù)之間關(guān)聯(lián)性通過洗牌操作切斷,有效地實(shí)現(xiàn)大數(shù)據(jù)的隱私保護(hù)[7]。
因此,本文提出一種基于混洗差分的Web查詢大數(shù)據(jù)隱私保護(hù)方法,保護(hù)查詢大數(shù)據(jù)隱私不被泄露。
在大數(shù)據(jù)環(huán)境的Web查詢系統(tǒng)中,由于一些查詢的數(shù)據(jù)具有關(guān)聯(lián)性,數(shù)據(jù)存在冗余現(xiàn)象。為了減少冗余數(shù)據(jù)量,通過關(guān)聯(lián)性分析刪去關(guān)聯(lián)數(shù)據(jù)[8-9],減少大規(guī)模數(shù)據(jù)的數(shù)據(jù)量。此外在查詢數(shù)據(jù)時(shí),不僅需要提高查詢系統(tǒng)的數(shù)據(jù)處理速度[10],而且需要對(duì)查詢數(shù)據(jù)進(jìn)行隱私保護(hù),綜合以上問題,本文提出基于混洗差分的Web查詢大數(shù)據(jù)隱私保護(hù)方法。
基于混洗差分的Web查詢大數(shù)據(jù)隱私保護(hù)方法包括3個(gè)子模型:基于最大信息系數(shù)的特征選擇模型(MICFS)、并行梯度下降矩陣分解模型(PGMDM)和基于混洗差分的洗牌者多維擾動(dòng)發(fā)布模型。
Web查詢大數(shù)據(jù)隱私保護(hù)過程如下:
(1)查詢數(shù)據(jù)集;
(2)通過MICFS求解數(shù)據(jù)間的相關(guān)性并設(shè)定閾值,將無關(guān)性數(shù)據(jù)構(gòu)建成特征數(shù)據(jù)集;
(3)根據(jù)特征數(shù)據(jù)集構(gòu)建相關(guān)性低的無關(guān)負(fù)載矩陣,通過并行梯度下降矩陣分解模型分解該無關(guān)負(fù)載矩陣;
(4)通過基于混洗差分的洗牌者多維擾動(dòng)發(fā)布模型實(shí)現(xiàn)無關(guān)負(fù)載矩陣的隱私保護(hù);
(5)發(fā)送添加擾動(dòng)后的結(jié)果給查詢者。
1.1 基于最大信息系數(shù)的特征選擇模型的冗余數(shù)據(jù)處理
Web查詢系統(tǒng)具有數(shù)據(jù)量大、查詢次數(shù)多的特點(diǎn),為了提高Web查詢大數(shù)據(jù)查詢的提取速度,依據(jù)用戶的查詢信息構(gòu)建一個(gè)查詢數(shù)據(jù)集。根據(jù)最大信息系數(shù)和啟發(fā)式搜索算法,在該查詢數(shù)據(jù)集里,設(shè)定特征和類別、特征和特征的關(guān)聯(lián)性,將無關(guān)性數(shù)據(jù)構(gòu)建成特征集。利用基于最大信息系數(shù)的特征選擇模型,去掉冗余數(shù)據(jù)。
設(shè)定存在一個(gè)n條樣本的Web查詢大數(shù)據(jù)特征集,用m表示特征數(shù),用c表示類別。特征集表示為:F={f1,f2,…,fm,c}。用MIC(fi,c)表示任意特征fi和類別c的相關(guān)性,且MIC(fi,c)∈[0,1]。MIC(fi,c)值的大小,決定fi和c的相關(guān)性的強(qiáng)弱,其值越大,相關(guān)性越強(qiáng),此時(shí)的fi是強(qiáng)相關(guān)特征;其值越小,相關(guān)性越弱,此時(shí)的fi是弱相關(guān)特征。用MIC(fi,fj)描述fi與fj的相關(guān)性,fi和fj的可替代性隨著MIC(fi,fj)值的增大而增強(qiáng),若MIC(fi,fj)=0,則fi和fj沒有可替代性,二者之間相互獨(dú)立。
利用MICFS對(duì)數(shù)據(jù)集的無關(guān)性處理。該過程通過以下5步實(shí)現(xiàn),流程圖如圖1所示。
(1)在n條樣本的特征F={f1,f2,…,fm,c}中,確定其原始數(shù)據(jù)集D和空集B。
(2)求解該特征集中特征fi和類別c的最大值MIC(fi,c)。
(3)將第(2)步中的最大值當(dāng)作初始變量,D=D-(fi),B=B+(fi)。
(4)通過貪心算法求解出fi和fj中的最大值MIC(fB,fi),將其當(dāng)成下個(gè)候選變量,求解出新候選變量的最大值如式(1)所示。
(1)
(5)重復(fù)操作第(4)步,選定特征的個(gè)數(shù)等于設(shè)定值時(shí)結(jié)束操作,并用選定的特征構(gòu)建數(shù)據(jù)集B。
1.2 基于并行梯度下降矩陣分解模型的Web查詢大數(shù)據(jù)的快速提取
用戶通過Web查詢系統(tǒng)查詢數(shù)據(jù)時(shí),存在數(shù)據(jù)量多以及查詢回合多的問題,是一種批量線性查詢過程。為了進(jìn)一步提高用戶對(duì)Web查詢大數(shù)據(jù)的提取速度,通過融合交替方向乘子法和低秩機(jī)制形成的并行梯度下降矩陣分解模型,將分解后的查詢數(shù)據(jù)無關(guān)負(fù)載矩陣并行處理,減少Web查詢大數(shù)據(jù)的查詢時(shí)間[11-12]。
(2)
(3)
其中,W表示根據(jù)特征數(shù)據(jù)集B構(gòu)建無關(guān)負(fù)載矩陣;將W分解成A和L兩個(gè)矩陣;β表示分解系數(shù)。A是隨著L的更新而更新,式(2)用來計(jì)算A。
并行梯度下降矩陣分解模型以矩陣的特性為基礎(chǔ),將W分解成多個(gè)矩陣,并將這些矩陣分別發(fā)放到各個(gè)節(jié)點(diǎn)上,并完成計(jì)算。矩陣分解過程如圖2所示。
PGMDM主要通過以下幾步完成。
(1)以用戶查詢要求為基礎(chǔ),構(gòu)建初始結(jié)果負(fù)載矩陣。
(2)以通過基于最大信息系數(shù)的特征選擇模型得出關(guān)聯(lián)屬性為依據(jù),初始化查詢數(shù)據(jù)的負(fù)載矩陣,刪去負(fù)載矩陣中有關(guān)聯(lián)的數(shù)據(jù),形成無關(guān)負(fù)載矩陣。
1.3 基于混洗差分的查詢數(shù)據(jù)隱私保護(hù)模型
1.3.1 混洗差分隱私
通過Randomized Response(RR)機(jī)制擾動(dòng)真實(shí)數(shù)據(jù)。本地化差分隱私模型(LDP)利用RR機(jī)制完成自身數(shù)據(jù)擾動(dòng),進(jìn)而實(shí)現(xiàn)Web查詢大數(shù)據(jù)的隱私保護(hù)。RR機(jī)制定義為:已知值域D={1,2,…,d},用戶發(fā)送真實(shí)值概率為p,任意選取值域內(nèi)一個(gè)數(shù)值的概率為q。RR機(jī)制符合如式(4)所示。
(4)
混洗差分隱私將并行梯度下降矩陣分解模型后的無關(guān)負(fù)載矩陣L中的數(shù)據(jù),作為用戶ui的Web查詢數(shù)據(jù),將這些查詢數(shù)據(jù)作為數(shù)據(jù)集[14],ti為ui中的數(shù)據(jù)且ti∈V。所有用戶ui符合εl的本地化差分隱私算法R:V→Y擾動(dòng)vi:yi=R(vi)。受擾動(dòng)后,n個(gè)用戶的擾動(dòng)結(jié)果用O={y1,y2,…,yn}描述,第i個(gè)用戶的擾動(dòng)結(jié)果用yi描述[15],洗牌者對(duì)yi隨機(jī)洗牌操作用S:Yi→Yn描述。以上兩步的結(jié)合用機(jī)制M=R○S描述,M符合(εc,δ)混洗差分隱私。當(dāng)且僅當(dāng)針對(duì)任意數(shù)據(jù)集D和D′(二者之間僅相差一個(gè)用戶數(shù)據(jù)),任意輸出集合Y′?Yn,存在式(5)。
Pr[M(D)∈y′]≤δ+eεc×Pr[M(D′)∈y′]
(5)
在混洗差分隱私模型中,隱私毯子為用戶根據(jù)查詢得到的隨機(jī)答復(fù)。本地化差分隱私模型形成的分布可分解為真實(shí)值分布和隨機(jī)獨(dú)立分布(隱私毯子),此過程叫做隱私毯子分解。式(5)可分解為如式(6)所示。
[RR(v)=y]=γPr[Uni(D)=y]+
(1-γ)PrV(y)
(6)
由于大數(shù)據(jù)中具有多維數(shù)據(jù),維度高與取值域異構(gòu)的多維數(shù)據(jù)導(dǎo)致發(fā)布過程困難,因此本文提出基于混洗差分的洗牌者多維擾動(dòng)發(fā)布模型解決此問題,實(shí)現(xiàn)大數(shù)據(jù)的隱私保護(hù)。
1.3.2 基于混洗差分的洗牌者多維擾動(dòng)發(fā)布模型
混洗差分通過洗牌操作可對(duì)用戶同帶噪數(shù)據(jù)間的關(guān)聯(lián)性進(jìn)行打亂操作,增強(qiáng)數(shù)據(jù)隱私保護(hù)性。因此,通過基于混洗差分的洗牌者多維擾動(dòng)發(fā)布模型,實(shí)現(xiàn)Web查詢大數(shù)據(jù)的隱私保護(hù)。
通過統(tǒng)計(jì)數(shù)據(jù)的頻率分布,收集者以帶噪數(shù)據(jù)維度為基礎(chǔ),并對(duì)其編號(hào),再根據(jù)編號(hào)分組,得出第i個(gè)屬性取值是v的頻率信息如式(7)所示。
(7)
收集者依據(jù)洗牌后的數(shù)據(jù)完成頻率估計(jì),依據(jù)該估計(jì)結(jié)果獲取誤差平方和SSE(sum square error),通過SSE分析擾動(dòng)的web大數(shù)據(jù)發(fā)布結(jié)果。本文提出滿足混洗差分隱私的多維類型數(shù)據(jù)頻率估計(jì)方法,可最大程度降低web大數(shù)據(jù)隱私保護(hù)的消耗,最大程度的確保大數(shù)據(jù)隱私保護(hù)時(shí),發(fā)布的擾動(dòng)數(shù)據(jù)誤差最小,且存在式(8)。
(8)
實(shí)驗(yàn)以某Web網(wǎng)絡(luò)中的查詢數(shù)據(jù)集:Kosarak數(shù)據(jù)集(二進(jìn)制)和Mexico數(shù)據(jù)集(非二進(jìn)制)為實(shí)驗(yàn)對(duì)象,描述數(shù)據(jù)的具體信息如表1所示。
表1 數(shù)據(jù)集
采用本文方法在不同的無關(guān)性系數(shù)情況下,分析Mexico數(shù)據(jù)集和Kosarak數(shù)據(jù)集的無關(guān)性,結(jié)果分別如表2所示。
表2 數(shù)據(jù)集數(shù)據(jù)無關(guān)性分析
通過表1、表2可以看出,經(jīng)過本文方法對(duì)Kosarak和Mexico數(shù)據(jù)集進(jìn)行數(shù)據(jù)無關(guān)處理后,在不同取值的無關(guān)性系數(shù)下,Kosarak和Mexico數(shù)據(jù)集包含的項(xiàng)均顯著減少,說明本文方法有效降低了實(shí)驗(yàn)Web大數(shù)據(jù)集中的冗余數(shù)據(jù),為后續(xù)數(shù)據(jù)隱私保護(hù)提供可靠的基礎(chǔ)。
本次實(shí)驗(yàn)驗(yàn)證本文方法對(duì)Kosarak數(shù)據(jù)集和Mexico數(shù)據(jù)集的隱私保護(hù)能力,實(shí)驗(yàn)改變隱私預(yù)算εc的值,通過誤差平方和(SSE)分析本文方法對(duì)兩種實(shí)驗(yàn)數(shù)據(jù)集中數(shù)據(jù)的混洗擾動(dòng)發(fā)布結(jié)果,結(jié)果如圖3所示。
圖3 隱私保護(hù)結(jié)果
由圖3可以看出,采用本文方法對(duì)Kosarak數(shù)據(jù)集隱私保護(hù)時(shí),在εc<0.2時(shí),隱私數(shù)據(jù)擾動(dòng)發(fā)布的SSE逐漸減小,εc≥0.2時(shí)SSE趨于穩(wěn)定,數(shù)據(jù)擾動(dòng)發(fā)布保護(hù)效果越好。采用本文方法對(duì)Mexico數(shù)據(jù)集進(jìn)行隱私保護(hù)時(shí),在εc<0.4時(shí),隱私數(shù)據(jù)擾動(dòng)發(fā)布的SSE逐漸減小,εc≥0.4時(shí)SSE趨于穩(wěn)定,數(shù)據(jù)擾動(dòng)發(fā)布保護(hù)效果越好。
本文方法對(duì)Mexico數(shù)據(jù)集中包含網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行隱私保護(hù),保護(hù)前后的對(duì)比結(jié)果見圖4。
(a)保護(hù)前
通過圖4實(shí)驗(yàn)結(jié)果可以看出,本文方法可以實(shí)現(xiàn)Web網(wǎng)絡(luò)查詢信息的保護(hù)處理,保護(hù)后的網(wǎng)絡(luò)信息安全性高,不易被非法者窺探。
以保護(hù)后的Web查詢大數(shù)據(jù)隱私被攻擊捕獲概率作為衡量指標(biāo),隨機(jī)選取Mexico數(shù)據(jù)集,測(cè)試該數(shù)據(jù)集在不同查詢數(shù)據(jù)規(guī)模時(shí),Web查詢數(shù)據(jù)在被本文方法保護(hù)前后的被捕獲概率,結(jié)果用圖5描述。
圖5 捕獲概率統(tǒng)計(jì)
分析圖5可以看出,當(dāng)Web查詢數(shù)據(jù)規(guī)模不同時(shí),數(shù)據(jù)隱私被捕獲的概率出現(xiàn)無規(guī)律分布狀態(tài),主要是因?yàn)閃eb網(wǎng)絡(luò)的攻擊類型具有多樣性,導(dǎo)致攻擊捕獲數(shù)據(jù)隱私的概率也呈現(xiàn)出無規(guī)則狀態(tài)。當(dāng)數(shù)據(jù)量相同時(shí),采用本文方法進(jìn)行隱私保護(hù)后數(shù)據(jù)隱私被攻擊捕獲的概率,遠(yuǎn)遠(yuǎn)低于未采用本文方法進(jìn)行隱私保護(hù)的數(shù)據(jù)隱私被捕獲的概率。該結(jié)果說明:本文方法可有效降低Web查詢大數(shù)據(jù)隱私被捕獲的概率。
在Web查詢大數(shù)據(jù)隱私保護(hù)中引入混洗差分的方法,提出基于混洗差分的Web查詢大數(shù)據(jù)隱私保護(hù)方法。該方法通過基于最大信息系數(shù)的特征選擇模型、并行梯度下降矩陣分解模型和基于混洗差分的洗牌者多維擾動(dòng)發(fā)布模型實(shí)現(xiàn)Web查詢大數(shù)據(jù)隱私保護(hù),為Web查詢大數(shù)據(jù)隱私保護(hù)提供一種新方法,未來在查詢大數(shù)據(jù)隱私保護(hù)問題上可大量應(yīng)用本文方法。