姜春峰
(西北大學(xué)現(xiàn)代學(xué)院,西安 710130)
目前大數(shù)據(jù)迅速發(fā)展,對(duì)于提升新一代信息技術(shù)和服務(wù)業(yè)態(tài)具有重要作用。大數(shù)據(jù)需要分布式的體系結(jié)構(gòu),而分布式的數(shù)據(jù)挖掘離不開云存儲(chǔ)和虛擬化的支持[1]。分布式是指通過可擴(kuò)展的體系架構(gòu),將海量數(shù)據(jù)分散到多個(gè)獨(dú)立的機(jī)器上,利用多臺(tái)存儲(chǔ)服務(wù)器分擔(dān)存儲(chǔ)負(fù)荷的計(jì)算技術(shù)。分布式大數(shù)據(jù)已經(jīng)應(yīng)用到多個(gè)行業(yè)和領(lǐng)域,然而在分布式大數(shù)據(jù)的存儲(chǔ)與傳輸過程中,數(shù)據(jù)極易受到惡意用戶的攻擊,導(dǎo)致數(shù)據(jù)出現(xiàn)泄露、丟失等現(xiàn)象,尤其是分布式隱私數(shù)據(jù)[2]。隱私保護(hù)是指對(duì)個(gè)人信息進(jìn)行保護(hù),防止被非法獲取、利用、傳播等,以確保個(gè)人信息的安全和私密性。數(shù)據(jù)加密是指將明文數(shù)據(jù)通過一定的方法和密鑰進(jìn)行處理,轉(zhuǎn)換成特定的加密形式,從而達(dá)到保護(hù)數(shù)據(jù)機(jī)密性的目的。因此,對(duì)數(shù)據(jù)隱私保護(hù)加密控制具有重要意義。
文獻(xiàn)[3]提出了基于同態(tài)加密的DBSCAN聚類隱私保護(hù)方案。根據(jù)數(shù)據(jù)特點(diǎn),考慮數(shù)據(jù)精度和計(jì)算開銷,選擇數(shù)據(jù)預(yù)處理策略,并依據(jù)用戶端與云服務(wù)器之間的協(xié)議,完成密文比較。該方法具有較低的時(shí)間開銷。文獻(xiàn)[4]提出了基于可搜索加密機(jī)制的數(shù)據(jù)庫加密方案。構(gòu)建密態(tài)數(shù)據(jù)庫查詢框架,提出了滿足IND-CKA1安全的數(shù)據(jù)庫加密方案。建立可搜索加密方案中的安全索引,獲取密態(tài)數(shù)據(jù)庫安全索引結(jié)構(gòu),對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行加密。該方法具有一定的有效性。文獻(xiàn)[5]研究了基于差分隱私的醫(yī)療大數(shù)據(jù)隱私保護(hù)模型。在目前醫(yī)療大數(shù)據(jù)隱私保護(hù)技術(shù)的基礎(chǔ)上,闡述差分隱私保護(hù)技術(shù)的基本原理和研究方向,構(gòu)建醫(yī)療大數(shù)據(jù)隱私保護(hù)模型,實(shí)現(xiàn)醫(yī)療大數(shù)據(jù)隱私保護(hù)。該模型具有一定的可行性。文獻(xiàn)[6]提出了基于大數(shù)據(jù)的區(qū)塊鏈數(shù)據(jù)隱私文本智能加密方法。依據(jù)文本加密需求,對(duì)區(qū)塊鏈文本進(jìn)行預(yù)處理,將格柵化大數(shù)據(jù)加密作為目標(biāo),在大數(shù)據(jù)技術(shù)下建立多層級(jí)文本加密模型,實(shí)現(xiàn)區(qū)塊鏈數(shù)據(jù)文本加密。該方法具有較大的實(shí)際應(yīng)用價(jià)值。文獻(xiàn)[7]提出了基于數(shù)據(jù)消冗技術(shù)的隱私大數(shù)據(jù)屬性加密方法。采用Bloom過濾技術(shù),降維處理大數(shù)據(jù),使用hash函數(shù)對(duì)消冗過程中誤判率進(jìn)行計(jì)算,依據(jù)映射位數(shù)組,對(duì)最優(yōu)擴(kuò)列函數(shù)進(jìn)行確定,優(yōu)化ABE加密算法,完成云數(shù)據(jù)的安全共享訪問。該方法具有較高的實(shí)用性。但上述方法仍存在加密和控制效果較差的問題。
屬性分類指的是劃分分布式大數(shù)據(jù)屬性類型的過程,通過對(duì)分布式大數(shù)據(jù)屬性的分類,可以確定大數(shù)據(jù)的隱私保護(hù)等級(jí),從而生成具有針對(duì)性的數(shù)據(jù)加密方案。為此,設(shè)計(jì)了基于屬性分類的分布式大數(shù)據(jù)隱私保護(hù)加密控制模型,挖掘分布式隱私數(shù)據(jù),劃分分布式隱私數(shù)據(jù)屬性類型,利用Logistic混沌映射,生成數(shù)據(jù)隱私保護(hù)密鑰,加密處理隱私數(shù)據(jù)。采用屬性分類技術(shù),控制隱私保護(hù)數(shù)據(jù)訪問進(jìn)程,根據(jù)傳輸協(xié)議約束,實(shí)現(xiàn)分布式大數(shù)據(jù)隱私保護(hù)加密控制,以期能夠提高分布式大數(shù)據(jù)的存儲(chǔ)與傳輸安全。
設(shè)計(jì)的分布式大數(shù)據(jù)隱私保護(hù)加密控制模型,通過數(shù)據(jù)加密和訪問控制兩個(gè)步驟,實(shí)現(xiàn)保護(hù)大數(shù)據(jù)隱私的目的。在分布式大數(shù)據(jù)加密過程中,首先利用屬性分類算法,確定數(shù)據(jù)的隱私保護(hù)等級(jí),從而選擇相應(yīng)的加密強(qiáng)度和方式。在此基礎(chǔ)上,根據(jù)分布式隱私數(shù)據(jù)屬性的分類結(jié)果,設(shè)置用戶的訪問權(quán)限,實(shí)現(xiàn)數(shù)據(jù)的訪問控制。設(shè)計(jì)模型的輸入項(xiàng)為分布式大數(shù)據(jù),輸出項(xiàng)為隱私數(shù)據(jù)的保護(hù)加密結(jié)果以及訪問控制指令,在模型運(yùn)行過程中,設(shè)置屬性類型以及控制協(xié)議作為約束條件。
隱私數(shù)據(jù)主要包括個(gè)人生活安寧權(quán)、個(gè)人生活情報(bào)保密權(quán)、個(gè)人通信保密權(quán)等,以用戶在網(wǎng)絡(luò)環(huán)境中的通信信息為研究對(duì)象。挖掘的隱私數(shù)據(jù)以分布式結(jié)構(gòu)進(jìn)行存儲(chǔ),分布式存儲(chǔ)結(jié)構(gòu)由設(shè)備、虛擬、運(yùn)營(yíng)和業(yè)務(wù)4個(gè)層次組成。設(shè)備層為加密、防火墻等安全技術(shù)提供硬件支持。通過對(duì)大數(shù)據(jù)的分析,為用戶提供從終端到網(wǎng)絡(luò)的全方位的安全保障。虛擬層的作用是對(duì)移動(dòng)終端進(jìn)行虛擬化,以保證用戶的身份認(rèn)證,虛擬化應(yīng)用程序的安全性,以及對(duì)移動(dòng)終端的日志進(jìn)行審核。操作層可以利用虛擬層的功能,來管理虛擬裝置,并進(jìn)行虛擬服務(wù)的配置,從而達(dá)到對(duì)用戶和訪問的控制。而運(yùn)營(yíng)層提供了基于運(yùn)營(yíng)層次的各類存儲(chǔ)和計(jì)算等云計(jì)算服務(wù)。并承擔(dān)數(shù)據(jù)加密,文件加密,病毒檢測(cè),用戶身份驗(yàn)證,訪問控制等功能。隱私大數(shù)據(jù)分布式存儲(chǔ)結(jié)構(gòu)如圖1所示。
圖1 隱私大數(shù)據(jù)分布式存儲(chǔ)結(jié)構(gòu)圖
以挖掘的隱私大數(shù)據(jù)為處理對(duì)象,首先需要對(duì)初始隱私數(shù)據(jù)進(jìn)行歸一化處理,處理結(jié)果如下:
(1)
其中:x0為初始挖掘的隱私數(shù)據(jù),μ和σ對(duì)應(yīng)的是隱私數(shù)據(jù)集的均值和方差。在此基礎(chǔ)上,對(duì)隱私數(shù)據(jù)進(jìn)行分片處理。每一個(gè)分區(qū)都由至少一個(gè)服務(wù)器組成,利用內(nèi)部包含的輔助節(jié)點(diǎn)實(shí)現(xiàn)異步主從式拷貝機(jī)制。其中,主節(jié)點(diǎn)以讀為主,子節(jié)點(diǎn)以寫為主。在這兩種類型的節(jié)點(diǎn)之間,利用操作日志來確保數(shù)據(jù)的一致性。在這兩種類型的節(jié)點(diǎn)之間,會(huì)將所有的操作數(shù)據(jù)和時(shí)間戳都寫到操作日志中,而所有的副節(jié)點(diǎn)都會(huì)對(duì)操作日志進(jìn)行監(jiān)視,以便與主節(jié)點(diǎn)進(jìn)行同步。當(dāng)任意一個(gè)集群服務(wù)器發(fā)生故障時(shí),分布式結(jié)構(gòu)中的隱私大數(shù)據(jù)就會(huì)自動(dòng)變成只讀狀態(tài),這樣可以有效地避免存儲(chǔ)結(jié)構(gòu)在不穩(wěn)定時(shí),由于誤操作而造成初始數(shù)據(jù)信息被更改,也可以避免在配置服務(wù)器節(jié)點(diǎn)之間出現(xiàn)數(shù)據(jù)不一致。當(dāng)某個(gè)配置服務(wù)器出現(xiàn)故障時(shí),并不會(huì)影響到整體存儲(chǔ)結(jié)構(gòu)的運(yùn)行,并可保證挖掘的數(shù)據(jù)能夠成功寫入到分布式存儲(chǔ)結(jié)構(gòu)中。
根據(jù)分布式隱私數(shù)據(jù)特征,判斷數(shù)據(jù)的屬性類型。屬性分類技術(shù)的基本運(yùn)行流程如圖2所示。
圖2 屬性分類技術(shù)流程圖
從圖2中可以看出,屬性分類可以分為5個(gè)環(huán)節(jié),首先利用公式(2)計(jì)算屬性的敏感系數(shù)。
(2)
其中:ηchange和ηUncertainties分別表示的是隱私數(shù)據(jù)變化率及其內(nèi)部不確定因素變化率[5]。根據(jù)公式(2)的計(jì)算結(jié)果,確定當(dāng)前數(shù)據(jù)屬性是否為敏感屬性,若判定數(shù)據(jù)屬性為敏感屬性,則可以直接輸出分類結(jié)果,否則需要提取數(shù)據(jù)信息熵、信息增益、最大信息系數(shù)等特征向量,其中,信息熵和信息增益特征的提取結(jié)果如下:
(3)
其中:nconceal為挖掘的隱私數(shù)據(jù)量,Pi為信息屬于任意屬性的概率,W(X)和W(X∣S)分別對(duì)應(yīng)的是隱私數(shù)據(jù)樣本集合量以及存在S屬性的樣本集合量[6]。同理可以得出隱私數(shù)據(jù)中其他特征的提取結(jié)果。屬性對(duì)于分類的重要性,可以根據(jù)信息增益值來排序,各個(gè)屬性權(quán)重的計(jì)算公式:
ωi=eτgain(i)
(4)
將公式(3)計(jì)算得出的信息增益特征提取結(jié)果代入到公式(4)中,即可得出屬性權(quán)重的計(jì)算結(jié)果。根據(jù)各個(gè)屬性權(quán)重的計(jì)算結(jié)果,對(duì)提取的隱私數(shù)據(jù)特征進(jìn)行融合處理,處理過程如下:
τ=∑ωi·τi
(5)
式中,τi為提取的特征分量。在此基礎(chǔ)上,利用公式(6)計(jì)算隱私數(shù)據(jù)特征與標(biāo)準(zhǔn)屬性類型特征之間的相關(guān)性系數(shù):
(6)
其中:τstandard為設(shè)置的數(shù)據(jù)屬性標(biāo)準(zhǔn)特征,τ為提取的隱私數(shù)據(jù)融合特征,可通過公式(5)計(jì)算得出。若公式(6)的計(jì)算結(jié)果高于閾值λ0,則將對(duì)應(yīng)隱私數(shù)據(jù)與τstandard對(duì)應(yīng)類型劃分成一類,否則需要更換標(biāo)準(zhǔn)屬性類型特征,并重新計(jì)算相關(guān)性系數(shù),直至得出滿足閾值條件的屬性類型為止[7]。按照上述流程,對(duì)挖掘的所有分布式隱私數(shù)據(jù)進(jìn)行屬性分類,完成分布式隱私數(shù)據(jù)屬性類型的劃分工作。
分布式數(shù)據(jù)隱私保護(hù)密鑰由公鑰和私鑰兩部分組成,利用Logistic混沌映射[8-10]迭代產(chǎn)生的二值序列經(jīng)過ySign()閾值函數(shù)轉(zhuǎn)換為二進(jìn)制序列,輸出結(jié)果即為數(shù)據(jù)的隱私保護(hù)公鑰,其中ySign()閾值函數(shù)表達(dá)式如下:
(7)
其中:xn為待加密的分布式隱私數(shù)據(jù)。那么生成的隱私保護(hù)公鑰可以量化表示為:
(8)
其中:n為加密數(shù)據(jù)編號(hào),那么在已知加密數(shù)據(jù)的情況下,利用公鑰生成對(duì)應(yīng)私鑰,即:
kpri=mxnβnmodn2
(9)
式中,β為隨機(jī)數(shù)。將生成的數(shù)據(jù)隱私保護(hù)公鑰分配給多個(gè)通過身份認(rèn)證的用戶,而私鑰主要通過定點(diǎn)傳輸?shù)姆绞椒峙浣o指定用戶[11]。
以挖掘的分布式隱私大數(shù)據(jù)為處理對(duì)象,考慮隱私數(shù)據(jù)屬性的分類結(jié)果,通過匿名化、混沌映射以及同態(tài)加密等步驟,實(shí)現(xiàn)對(duì)隱私數(shù)據(jù)的加密處理,進(jìn)而實(shí)現(xiàn)對(duì)隱私數(shù)據(jù)的保護(hù)。
1.4.1 隱私數(shù)據(jù)匿名化
匿名算法的主要工作是遍歷由屬性泛化層構(gòu)成的泛化格,按照預(yù)定義的屬性泛化層次以及節(jié)點(diǎn)中各屬性所選擇的泛化層次等級(jí),對(duì)其進(jìn)行遍歷,并檢驗(yàn)每個(gè)節(jié)點(diǎn)是否符合對(duì)應(yīng)的匿名原則,再以當(dāng)前節(jié)點(diǎn)的匿名狀態(tài)為依據(jù),對(duì)整個(gè)搜索空間上進(jìn)行修剪,在優(yōu)化設(shè)計(jì)的加密控制模型中,使用k-匿名原則對(duì)節(jié)點(diǎn)進(jìn)行驗(yàn)證[12]。在隱私數(shù)據(jù)匿名化處理過程中,首先需要對(duì)隱私數(shù)據(jù)進(jìn)行泛化切片處理,處理結(jié)果如下:
f(x):{c}→s
(10)
其中:f(x)為隱私數(shù)據(jù)x對(duì)應(yīng)的泛化切片結(jié)果,c表示屬性分類樹中擁有相同父節(jié)點(diǎn)的泛化樹兄弟節(jié)點(diǎn)的最大集合,s為隱私數(shù)據(jù)對(duì)應(yīng)的屬性值。對(duì)泛化后的數(shù)據(jù)記錄進(jìn)行處理,看當(dāng)前泛化的記錄是否符合匿名化閾值,若符合則該泛化切片為可行的泛化結(jié)果。當(dāng)匿名化閾值不符合時(shí),那么這個(gè)泛化就不能被采用[13]。針對(duì)通過匿名驗(yàn)證的隱私數(shù)據(jù)節(jié)點(diǎn),執(zhí)行匿名化轉(zhuǎn)換操作。匿名化轉(zhuǎn)換操作包括3個(gè)部分,路徑尋找算法負(fù)責(zé)建立一條由未被標(biāo)記的節(jié)點(diǎn)構(gòu)成的路徑,路徑審核算法負(fù)責(zé)審查建立路徑上的節(jié)點(diǎn)是否滿足匿名原則,從而找到一個(gè)符合條件的最優(yōu)解決方案,最后一部分是算法整體的外部循環(huán),負(fù)責(zé)遍歷整個(gè)泛化格結(jié)構(gòu),找出既符合相對(duì)匿名原則,又信息損失較小的節(jié)點(diǎn)[14]。第0個(gè)泛化等級(jí)開始遍歷表格中的所有泛化層次,并對(duì)各個(gè)層級(jí)的節(jié)點(diǎn)進(jìn)行列舉,若節(jié)點(diǎn)未被標(biāo)注,就對(duì)其進(jìn)行路徑搜索,將其添加到該路徑中,然后進(jìn)行下一步的檢查;在對(duì)發(fā)現(xiàn)的路徑執(zhí)行完畢路徑檢查算法后,對(duì)于檢查路徑中不滿足k-匿名的節(jié)點(diǎn),從底層節(jié)點(diǎn)出發(fā),依次對(duì)后繼節(jié)點(diǎn)進(jìn)行處理,為未標(biāo)記的后繼節(jié)點(diǎn)建立新的路徑,并對(duì)新的路徑進(jìn)行檢查。最終得出的隱私數(shù)據(jù)匿名化處理結(jié)果如下:
xanonymous=κintensity·Aanonymous·f(x)
(11)
其中:κintensity為匿名強(qiáng)度,Aanonymous為匿名轉(zhuǎn)換矩陣。重復(fù)上述操作,得出分布式隱私大數(shù)據(jù)的匿名化處理結(jié)果。
1.4.2 混沌映射
混沌映射是分布式隱私數(shù)據(jù)的一種加密處理方式,利用Logistic混沌映射原理,得出的分布式隱私數(shù)據(jù)的處理結(jié)果為:
xchaos=xi(α-δxi)
(12)
式中,α為分布式隱私數(shù)據(jù)的增加率,δ為考慮外界因素的映射關(guān)系飽和度[15]。將挖掘的分布式隱私數(shù)據(jù)代入公式(12)中,即可得出混沌映射處理結(jié)果。
1.4.3 同態(tài)加密
同態(tài)加密將分布式隱私數(shù)據(jù)從可讀模式轉(zhuǎn)換成編碼模式,經(jīng)過同態(tài)加密的隱私數(shù)據(jù)智能在解密后進(jìn)行讀取或處理。數(shù)據(jù)的同態(tài)加密原理如圖3所示。
圖3 分布式隱私數(shù)據(jù)同態(tài)加密原理圖
按照?qǐng)D3表示加密原理,利用生成的數(shù)據(jù)隱私保護(hù)密鑰執(zhí)行隱私數(shù)據(jù)的加密操作。在開始加密之前,首先對(duì)數(shù)據(jù)進(jìn)行分解處理,首先確定其上的所有極值點(diǎn),用3次樣條曲線連接所有極大值點(diǎn)形成下包絡(luò)線,將其標(biāo)記為b1,則隱私數(shù)據(jù)的一級(jí)分解結(jié)果為:
xresolve(1)=x-b1
(13)
重復(fù)上述步驟,直到滿足同態(tài)加密操作對(duì)數(shù)據(jù)的分解精度條件。在此基礎(chǔ)上,利用生成的密鑰通過正向或反向得出隱私數(shù)據(jù)的加密結(jié)果,可以量化表示為:
(14)
其中:κencryption為隱私數(shù)據(jù)的加密強(qiáng)度,k(xn)為隱私數(shù)據(jù)密鑰,融合了公鑰和私鑰兩個(gè)部分,xn-1和xn+1為隱私保護(hù)數(shù)據(jù)的前后兩個(gè)相鄰數(shù)據(jù)[16]。在實(shí)際的隱私數(shù)據(jù)同態(tài)加密過程中,根據(jù)數(shù)據(jù)屬性的分類結(jié)果確定參數(shù)κencryption的具體取值。由此完成分布式數(shù)據(jù)的隱私保護(hù)加密處理。
分布式大數(shù)據(jù)隱私保護(hù)架構(gòu)涉及主體包括隱私數(shù)據(jù)主體、服務(wù)運(yùn)營(yíng)商以及數(shù)據(jù)訪問用戶3種角色,其中隱私數(shù)據(jù)主體也就是分布式大數(shù)據(jù)的產(chǎn)生終端,該角色能夠生成隱私保護(hù)數(shù)據(jù),服務(wù)運(yùn)營(yíng)商能夠?yàn)殡[私數(shù)據(jù)的保護(hù)提供技術(shù)支持,實(shí)現(xiàn)訪問用戶的隱私保護(hù)[17]。而數(shù)據(jù)訪問用戶也就是申請(qǐng)?jiān)L問、查詢、調(diào)用隱私數(shù)據(jù)的用戶終端,可通過對(duì)用戶身份的驗(yàn)證,對(duì)數(shù)據(jù)訪問用戶賦予相應(yīng)的訪問權(quán)限。在分布式大數(shù)據(jù)環(huán)境下,考慮隱私保護(hù)數(shù)據(jù)屬性的分類結(jié)果,根據(jù)用戶角色類型對(duì)其訪問權(quán)限進(jìn)行初始化,按照上述加密方式生成公鑰和私鑰。在訪問過程中,用戶向分布式大數(shù)據(jù)端發(fā)送訪問申請(qǐng),通過身份認(rèn)證的用戶可以直接獲得公鑰,而滿足隱私數(shù)據(jù)訪問屬性類型條件的用戶能夠獲得私鑰,用戶利用公鑰和私鑰直接實(shí)現(xiàn)對(duì)隱私數(shù)據(jù)的訪問[18-20]。在用戶訪問過程中,若檢測(cè)出異常操作,則執(zhí)行屬性訪問撤銷操作,定義用戶訪問行為標(biāo)識(shí)符為Iui,則屬性訪問撤銷指令可以表示為:
c=
(15)
其中:h為用戶訪問過程中產(chǎn)生的標(biāo)識(shí)符數(shù)量,k(ui)代表的是用戶在執(zhí)行第i個(gè)訪問環(huán)節(jié)使用的密鑰,s為屬性分類結(jié)果[21-22]。在已知當(dāng)前訪問操作信息的情況下,可以推算出初始操作信息,從而恢復(fù)出Iu0,分布式大數(shù)據(jù)管理終端利用恢復(fù)的Iu0更新密鑰和用戶隱私保護(hù)數(shù)據(jù)的加密,而撤銷屬性權(quán)限的用戶因無法獲取新密鑰不能繼續(xù)訪問接下來的信息,從而在功能上實(shí)現(xiàn)對(duì)該用戶訪問權(quán)限的撤銷。
上述分布式大數(shù)據(jù)隱私保護(hù)加密控制模型的運(yùn)行需要加密策略安全傳輸協(xié)議作為約束條件,具體的協(xié)議運(yùn)行時(shí)序如圖4所示。
圖4 隱私保護(hù)加密傳輸協(xié)議運(yùn)行時(shí)序圖
在圖4表示協(xié)議的約束下,合法用戶可以在分布式大數(shù)據(jù)環(huán)境中進(jìn)行隱私數(shù)據(jù)的緩存,同一用戶無需重復(fù)執(zhí)行身份驗(yàn)證程序,當(dāng)用戶退出系統(tǒng)終止緩存程序[23]。在傳輸協(xié)議的約束下,對(duì)實(shí)時(shí)產(chǎn)生的隱私數(shù)據(jù)進(jìn)行加密與訪問控制,實(shí)現(xiàn)模型的隱私保護(hù)功能。
為了驗(yàn)證設(shè)計(jì)的基于屬性分類的分布式大數(shù)據(jù)隱私保護(hù)加密控制模型的有效性,進(jìn)行模型驗(yàn)證實(shí)驗(yàn)分析。此次實(shí)驗(yàn)分為3個(gè)部分,分別為加密效果測(cè)試、控制效果測(cè)試以及隱私保護(hù)效果測(cè)試。其中,加密效果測(cè)試原理是驗(yàn)證密文與明文之間的相似度,相似度越高證明加密效果越差,無法達(dá)到隱私隱藏與保護(hù)效果??刂菩Ч麥y(cè)試的目的是驗(yàn)證模型是否能夠?qū)崿F(xiàn)對(duì)非法用戶、無授權(quán)用戶的訪問攔截,從而獲取用戶訪問控制的細(xì)粒度,而隱私保護(hù)效果測(cè)試則是在有、無攻擊環(huán)境下,對(duì)存儲(chǔ)的分布式隱私大數(shù)據(jù)的泄露風(fēng)險(xiǎn)以及信息損失進(jìn)行度量,最終通過與基于同態(tài)加密的數(shù)據(jù)隱私保護(hù)加密控制模型(文獻(xiàn)[3]方法)和基于可搜索加密機(jī)制的數(shù)據(jù)隱私保護(hù)加密控制(文獻(xiàn)[4]方法)進(jìn)行對(duì)比,驗(yàn)證設(shè)計(jì)模型的效果。
為了實(shí)現(xiàn)基于屬性分類的分布式大數(shù)據(jù)隱私保護(hù)加密控制模型的開發(fā),并為模型的運(yùn)行提供硬件支持,需要對(duì)其運(yùn)行環(huán)境進(jìn)行配置。需要配置的硬件設(shè)備包括主測(cè)計(jì)算機(jī)、應(yīng)用服務(wù)器和數(shù)據(jù)服務(wù)器。主測(cè)計(jì)算機(jī)設(shè)備選擇Y9000P2022型號(hào)計(jì)算機(jī),以異步雙核設(shè)計(jì)方式配置CPU元件,內(nèi)部集成兩個(gè)Scorpion核心,工作頻率最高達(dá)到2.33 GHz,計(jì)算機(jī)中內(nèi)置的RAM和ROM分別為800 MB和2 GB[24]。應(yīng)用服務(wù)器采用HP微機(jī)服務(wù)器,內(nèi)存為4 GB,硬盤存儲(chǔ)空間為300 GB,應(yīng)用服務(wù)器為分布式大數(shù)據(jù)的處理提供支持。而數(shù)據(jù)庫存儲(chǔ)器用來存儲(chǔ)分布式隱私大數(shù)據(jù),數(shù)據(jù)庫系統(tǒng)采用Oracle9i。從軟件分布來看,分布式大數(shù)據(jù)隱私保護(hù)加密控制模型均在Windows7的64位操作系統(tǒng)下運(yùn)行,編程語言為MATLAB。
選擇UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的Adult數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)來源,數(shù)據(jù)庫中的數(shù)據(jù)內(nèi)容包括:姓名、性別、年齡、教育程度、家庭住址、職業(yè)、婚姻狀況等,初始準(zhǔn)備的隱私保護(hù)數(shù)據(jù)共58 450條,輸入到模型中的數(shù)據(jù)量為45.6 GB。
為了模擬分布式大數(shù)據(jù)的實(shí)際運(yùn)行環(huán)境,模擬對(duì)分布式隱私數(shù)據(jù)的明文攻擊過程,并編寫相應(yīng)的攻擊程序。在已知隱私數(shù)據(jù)中部分明文或密文的情況下,反向推導(dǎo)出分布式隱私數(shù)據(jù)的加密方式,由此生成相應(yīng)密鑰,用戶破解隱私數(shù)據(jù)。實(shí)驗(yàn)中編寫的攻擊程序?yàn)閯?dòng)態(tài)程序,即可以根據(jù)加密隱私數(shù)據(jù)的狀態(tài)調(diào)整攻擊方式與參數(shù),但攻擊程序只能同時(shí)對(duì)一個(gè)數(shù)據(jù)節(jié)點(diǎn)發(fā)起攻擊[25]。按照上述原理,針對(duì)分布式存儲(chǔ)的隱私數(shù)據(jù),利用thalheim編碼工具,實(shí)現(xiàn)分布式大數(shù)據(jù)隱私攻擊程序的編寫。在編寫的攻擊程序的首尾兩端添加強(qiáng)制控制指令,最大程度地保證攻擊程序運(yùn)行狀態(tài)的可控性。
在配置的加密模型運(yùn)行環(huán)境中,利用相應(yīng)的編程語言實(shí)現(xiàn)設(shè)計(jì)的基于屬性分類的分布式大數(shù)據(jù)隱私保護(hù)加密控制模型的開發(fā)。將準(zhǔn)備的隱私保護(hù)數(shù)據(jù)樣本導(dǎo)入其中,在不運(yùn)行攻擊程序的前提下,完成對(duì)數(shù)據(jù)樣本的加密,加密結(jié)果如圖5所示。
圖5 分布式大數(shù)據(jù)隱私保護(hù)加密結(jié)果
在此基礎(chǔ)上,生成多個(gè)模擬用戶節(jié)點(diǎn),并設(shè)置用戶身份與角色,分配用戶權(quán)限,模擬用戶的訪問過程,在模型作用下得出分布式隱私保護(hù)加密數(shù)據(jù)的訪問控制結(jié)果,如圖6所示。
圖6 分布式隱私保護(hù)加密數(shù)據(jù)訪問控制界面
由此完成基于屬性分類的分布式大數(shù)據(jù)隱私保護(hù)加密控制模型的開發(fā)與運(yùn)行任務(wù)。根據(jù)分布式隱私數(shù)據(jù)的動(dòng)態(tài)變化情況,對(duì)加密結(jié)果以及訪問控制指令進(jìn)行實(shí)時(shí)更新。經(jīng)過一段時(shí)間周期后,啟動(dòng)編寫的明文攻擊程序,獲取攻擊工況下隱私數(shù)據(jù)的變化情況,以此作為測(cè)試結(jié)果數(shù)據(jù)。為了驗(yàn)證設(shè)計(jì)模型在性能與效果方面的優(yōu)勢(shì),選擇對(duì)比模型,在相同的開發(fā)環(huán)境下對(duì)同一批隱私數(shù)據(jù)進(jìn)行加密與控制處理。
從加密性能、控制性能、隱私保護(hù)效果3個(gè)方面設(shè)置模型的量化測(cè)試指標(biāo),將明文/密文相似度作為模型加密性能的量化測(cè)試指標(biāo),其數(shù)值結(jié)果如下:
(16)
其中:Xmw和Xciphertext分別表示的是隱私數(shù)據(jù)的明文和密文。模型訪問性能的測(cè)試指標(biāo)設(shè)置為訪問撤銷控制準(zhǔn)確率,該指標(biāo)的測(cè)試結(jié)果為:
(17)
式中,Ncancel和Nabnormal分別為訪問撤銷的用戶數(shù)量以及設(shè)置的異常用戶數(shù)量。另外模型隱私保護(hù)效果的測(cè)試指標(biāo)為隱私泄露風(fēng)險(xiǎn)指數(shù)和隱私數(shù)據(jù)損失量,其中隱私泄露風(fēng)險(xiǎn)指數(shù)的測(cè)試結(jié)果如下:
(18)
其中:φloss為隱私數(shù)據(jù)的損失量,Nmw表示隱私數(shù)據(jù)明文總量,而指標(biāo)隱私數(shù)據(jù)損失量的數(shù)值結(jié)果為:
φloss=Nmw-Njm
(19)
式中,Njm為解密后的隱私數(shù)據(jù),將公式(19)的計(jì)算結(jié)果代入到公式(18)中,即可得出隱私泄露風(fēng)險(xiǎn)指數(shù)的測(cè)試結(jié)果。最終計(jì)算得出明文/密文相似度μ越低,說明模型加密性能越好,訪問撤銷控制準(zhǔn)確率ηvisit越高,證明模型控制性能越好,隱私泄露風(fēng)險(xiǎn)指數(shù)?越低、損失數(shù)據(jù)量φloss越少,說明模型的隱私保護(hù)效果越好。
2.6.1 加密性能測(cè)試
收集初始隱私明文數(shù)據(jù)以及不同模型下輸出的加密結(jié)果,將相關(guān)數(shù)據(jù)代入到公式(16)中,得出模型加密性能的測(cè)試對(duì)比結(jié)果,如圖7所示。
圖7 分布式大數(shù)據(jù)隱私保護(hù)加密性能測(cè)試對(duì)比曲線
從圖7中可以直觀地看出,與兩種對(duì)比模型相比,設(shè)計(jì)模型輸出的加密密文與初始明文之間的相似度更低,由此說明設(shè)計(jì)模型的加密性能較好。
2.6.2 控制性能測(cè)試
統(tǒng)計(jì)訪問分布式隱私數(shù)據(jù)的用戶數(shù)量,通過對(duì)異常數(shù)據(jù)的設(shè)置,確定變量Nabnormal的具體取值,在模型作用下實(shí)時(shí)監(jiān)測(cè)用戶的訪問進(jìn)程數(shù)據(jù),得出反映模型控制性能的測(cè)試結(jié)果,如表1所示。
表1 隱私保護(hù)加密控制模型控制性能測(cè)試數(shù)據(jù)表
將表1中的數(shù)據(jù)代入到公式(17)中得出,兩種對(duì)比模型的平均訪問撤銷控制準(zhǔn)確率分別為87.7%和94.3%,而在設(shè)計(jì)模型的訪問撤銷控制準(zhǔn)確率的平均值為98.9%。由此可知,設(shè)計(jì)模型的控制性能較好。
2.6.3 隱私保護(hù)效果測(cè)試
在有、無攻擊條件下,對(duì)隱私數(shù)據(jù)明文與解密結(jié)果進(jìn)行統(tǒng)計(jì),得出隱私數(shù)據(jù)損失量指標(biāo)的測(cè)試結(jié)果,如表2所示。
表2 隱私數(shù)據(jù)損失量測(cè)試數(shù)據(jù)表
將表2中的數(shù)據(jù)代入到公式(19)中計(jì)算得出,在無攻擊工況下,3個(gè)模型的平均隱私數(shù)據(jù)損失量分別為0.52 GB、0.16 GB和0.04 GB,而在有攻擊工況下,3個(gè)模型隱私數(shù)據(jù)損失量的平均值分別為1.18 GB、0.78 GB和0.18 GB。由此可以看出,在有、無攻擊工況下,設(shè)計(jì)模型的隱私數(shù)據(jù)損失量均較少,設(shè)計(jì)模型的隱私保護(hù)性能較好。另外通過公式(18)的計(jì)算,得出不同模型下隱私泄露風(fēng)險(xiǎn)的測(cè)試對(duì)比結(jié)果,如圖8所示。
圖8 不同模型作用下隱私泄露風(fēng)險(xiǎn)測(cè)試對(duì)比結(jié)果
從圖8中可以看出,在設(shè)計(jì)模型作用下,隱私數(shù)據(jù)的泄露風(fēng)險(xiǎn)更低,綜合隱私數(shù)據(jù)損失量的測(cè)試結(jié)果,表明設(shè)計(jì)模型在隱私保護(hù)效果方面具有明顯優(yōu)勢(shì),能夠有效提高分布式大數(shù)據(jù)的存儲(chǔ)和傳輸安全性。
針對(duì)用戶數(shù)據(jù)的隱私保護(hù)問題,設(shè)計(jì)了基于屬性分類的分布式大數(shù)據(jù)隱私保護(hù)加密控制模型。該模型應(yīng)用屬性分類技術(shù),確定加密等級(jí)與強(qiáng)度,實(shí)現(xiàn)對(duì)分布式大數(shù)據(jù)隱私保護(hù)的最大化。實(shí)驗(yàn)結(jié)果表明,設(shè)計(jì)模型在加密、控制以及隱私保護(hù)方面具有明顯優(yōu)勢(shì),能夠有效提高分布式大數(shù)據(jù)的存儲(chǔ)和傳輸安全性。