劉 東,任海玲
(1.寧夏醫(yī)科大學(xué)理學(xué)院,寧夏 銀川 750004;2.寧夏醫(yī)科大學(xué),寧夏 銀川 750004)
在大數(shù)據(jù)時代,社會中各行各業(yè)的數(shù)據(jù)規(guī)模都呈現(xiàn)出翻倍式的增長趨勢。大數(shù)據(jù)本身是指一種無法在一定的時間范圍中,利用常規(guī)的軟件工具對其進行捕捉、處理以及管理的數(shù)據(jù)集合,需要采用全新的處理方式,這樣才具備更強的洞察發(fā)現(xiàn)力、決策能力,從而獲取多樣化、高增長與海量優(yōu)化的信息資源[1]。大數(shù)據(jù)的主要特點為:真實性、低價值密度、多樣性、高速以及大量五個特點。通過這五個特點可以從理論、技術(shù)以及實踐方面對大數(shù)據(jù)進行分析,其中,理論方面是指對于大數(shù)據(jù)認知的途徑,同樣也是被廣泛認同以及傳播的基線;技術(shù)方面是指怎樣通過某些價值的體現(xiàn);而實踐方面則是大數(shù)據(jù)的最終體現(xiàn)價值手段[2]。
不過隨著大數(shù)據(jù)的使用者越來越多,難免會引起一些不法分子的注意,他們通過入侵或者是一些其它非法手段,利用大數(shù)據(jù)對個人用戶或者企業(yè),甚至是社會、國家等,造成不可挽回的損失,因此,在實現(xiàn)對大數(shù)據(jù)的集中之后,怎么保證網(wǎng)絡(luò)數(shù)據(jù)信息的保密性、可用性以及完整性,已經(jīng)變成目前各個領(lǐng)域需要考慮的核心問題。而按照安全的防護技術(shù)可以分為:大數(shù)據(jù)應(yīng)用訪問控制、大數(shù)據(jù)資產(chǎn)梳理、大數(shù)據(jù)脆弱性檢測、大數(shù)據(jù)脫敏系統(tǒng),大數(shù)據(jù)安全審計等,以現(xiàn)有安全防護手段為基礎(chǔ),楊理皓[3]等提出基于差分隱私機制的位置數(shù)據(jù)隱私保護方法,該方法通過建立多級查詢樹,使用差分隱私的指數(shù)機制來選取訪問頻率高的內(nèi)容項,然后對其進行加噪,實現(xiàn)對位置數(shù)據(jù)隱私的加密保護。分析實驗結(jié)果可知,該方法的數(shù)據(jù)覆蓋面較廣,但是由于數(shù)據(jù)量較大,導(dǎo)致認證時間較長。毛典輝[4]等提出基于DCGAN反饋的深度差分隱私保護方法,該方法在分析差分隱私特點的基礎(chǔ)上,計算深度網(wǎng)絡(luò)中每一層的隱私預(yù)算,在隨機梯度下降計算中添加高斯噪聲,將總體隱私預(yù)算降至最小值,并選取最優(yōu)結(jié)果。實驗結(jié)果表明,該方法能夠?qū)γ舾行暂^高的信息實施隱私保護,但是無法同時處理大量數(shù)據(jù),所需時間較長。
針對現(xiàn)有方法存在的問題,提出一種基于差分隱私的大數(shù)據(jù)安全訪問權(quán)限認證方法,通過該方法保護用戶訪問大數(shù)據(jù)信息安全。
差分隱私主要是利用添加噪聲的方式對起始數(shù)據(jù)進行統(tǒng)計或者擾動轉(zhuǎn)換,以此達到隱藏保護的作用。
給定兩個最多相差一條記錄的數(shù)據(jù)集D1和D2,用f代表隨機算法,rangef代表算法f全部輸出所組成的集合,S代表range(f)的子集。如果算法f要滿足式(1),那么算法f存在ε-差分的隱私性
Pr[f(D1)∈S]≤eε×Pr[f(D2)∈S]
(1)
式中:ε代表隱私保護的預(yù)算,可以表示算法隱私的保護水平,若ε取值越小,那么隱私保護的水平就越高。
拉普拉斯Laplace噪聲機制為差分隱私保護中最常用的方法之一,此機制主要用于數(shù)值型的數(shù)據(jù)隱私保護,將利用拉普拉斯生成的噪聲添加至輸出值內(nèi),完成數(shù)據(jù)差分的隱私保護。
1)相對于隨意的一個函數(shù)f:D→Rd,如果算法Y滿足式(2),那么稱Y可以滿足ε-差分隱私公式為:
Y(D)=f(D)+[Lap1(Δf/ε),…,Lapd(Δf/ε)]
(2)
式中,函數(shù)Lapi(Δf/ε)(1≤i≤d)代表拉普拉斯的密度函數(shù),Δf=maxD1,D2|f(D1)-f(D2)|代表函數(shù)f(D)查詢的敏感度。D1,D2代表不同的數(shù)據(jù)集,d代表查詢的維度[5]。
2)對于隨意的一個函數(shù)f:D→Rd,其算法f全局的敏感性表達式為
Δf=maxf(D1)-f(D2)p
(3)
式中:D1與D2最多相差一條記錄;R代表映射實數(shù)的空間;p代表度量Δf所使用的時間。
經(jīng)過以上所述可知,Laplace機制能夠很好維持數(shù)據(jù)的統(tǒng)計特性,使其更加適合數(shù)值型的聚類分析[6]。
為了驗證算法是否可以滿足差分隱私,要滿足以下的差分隱私組合的特性:并列的組合性以及序列的組合性。
1)給定數(shù)據(jù)庫D和n個隨機算法fi,并且fi能夠滿足εi-差分隱私,則fi(D)序列組合可以滿足ε-差分隱私。
2)將給定的數(shù)據(jù)庫D分成n個完全不相交的子集D={D1,D2,…Dn},如果任意fi能夠滿足ε-差分隱私,那么序列fi在D={D1,D2,…Dn}上面的操作結(jié)果仍然需要滿足ε-差分隱私條件。
權(quán)限涉及到的約束如下所示:
1)登錄時間約束公式為
T1∈(Ts,Te)
(4)
式中,Ts代表初始時間;Te代表結(jié)束時間。登錄的時間段要在初始時間至結(jié)束時間的約束區(qū)間范圍之內(nèi),且登錄的時間不可與初始時間與結(jié)束的時間相等。
2)登錄次數(shù)約束公式為
Nl=[0,Nlt]
(5)
式中,Nlt代表登錄次數(shù)閾值。登錄的次數(shù)要在0次與登錄的次數(shù)閾值約束區(qū)間的范圍之內(nèi),且登錄的次數(shù)可以與0或者是登錄次數(shù)的閾值相等。
3)登錄時間約束公式為
Tln-Tll>Tli
(6)
式(6)表示該次登錄的時間和上一次的登錄時間差要超出登錄的時間閾值。
4)查詢結(jié)果數(shù)約束公式為
Tll=[0,Tln]
(7)
式中,Tln代表查詢結(jié)果個數(shù)閾值。數(shù)據(jù)查詢的結(jié)果個數(shù)要在0次與查詢結(jié)果個數(shù)的閾值約束區(qū)間范圍之內(nèi),且查詢的結(jié)果個數(shù)可以為0或者與查詢結(jié)果個數(shù)閾值相等[7]。
5)查詢時間約束公式為
Nq∈[0,Nqt]
(8)
式中,Nqt代表查詢次數(shù)閾值。查詢的次數(shù)要在0次與查詢的次數(shù)閾值約束區(qū)間的范圍之內(nèi),且查詢的次數(shù)可以為0或者與查詢次數(shù)的閾值相等。
6)查詢次數(shù)約束公式為
Tqn-Tql>Tqi
(9)
式(9)表示該次查詢的時間和上次查詢的時間差要超出查詢的時間閾值。
Tql=Tqn
(10)
該次查詢結(jié)束以后,上一次的查詢時間自動更新成該次查詢的時間[8]。
以大數(shù)據(jù)安全訪問權(quán)限約束條件為基礎(chǔ),設(shè)置大數(shù)據(jù)標(biāo)簽和標(biāo)識,通過對大數(shù)據(jù)擁有者或生產(chǎn)者貼上標(biāo)識,并對訪問大數(shù)據(jù)的對象貼上標(biāo)簽,實現(xiàn)初步認證。
標(biāo)識:主要是數(shù)據(jù)擁有者或者生產(chǎn)者定義的記號,主要用來代表數(shù)據(jù)具有隱私信息的類型。
標(biāo)簽:主要代表被標(biāo)注的對象安全等級,各個標(biāo)簽l全是通過標(biāo)識構(gòu)成的集合,代表被標(biāo)注的實體具有每個隱私的信息類型,為J子集。利用L代表全部標(biāo)簽構(gòu)成的集合L=J。
實體:主要是被標(biāo)簽所標(biāo)注的對象,利用L′代表全部實體集合,將p設(shè)成全部進程形成的集合,L′=p∪D。
大數(shù)據(jù)內(nèi)為各個實體標(biāo)注的標(biāo)簽:進程的標(biāo)簽Lp代表進程p的安全等級,而數(shù)據(jù)標(biāo)簽Ld代表數(shù)據(jù)d的安全等級[9]。
隨意給定兩個標(biāo)簽L1與L2,若L1包含L2(公式L1?L2成立),代表標(biāo)簽L2要比標(biāo)簽L1包括更多隱私的信息標(biāo)識,表示被L2所標(biāo)注實體存在更高隱私性的等級。當(dāng)L1?L2成立時,允許L1標(biāo)簽流向L2標(biāo)簽。
利用符號“→”代表允許實體之間信息的流動,那么以上的規(guī)則的具體公式為
?d,e∈L,L1,L2∈L
Ld=L1∧Le=L2∧L1?L2?d→e
(11)
將標(biāo)識的集合設(shè)成J={x,y,z},即L的形成過程具體如圖1所示。
圖1 具體的形成流程
在圖1內(nèi),最低的安全級別是?,最高的級別是{x,y,z}。
大數(shù)據(jù)的訪問權(quán)限授權(quán)條件屬于數(shù)據(jù)的所有者,數(shù)據(jù)處于特定外部條件時能夠被進程所訪問,因此,利用判定謂詞集合代表方位權(quán)限,全部訪問權(quán)限條件所形成的集合可以利用pc表示。
而對于標(biāo)識t∈J,對數(shù)據(jù)的擁有者或者是生產(chǎn)者設(shè)置的兩種訪問權(quán)限的授權(quán)條件分別為:讀授權(quán)條件t+以及寫授權(quán)條件t-,其中,讀授權(quán)條件t+代表進程讀取存在標(biāo)識是t數(shù)據(jù)能夠滿足的需求,而寫授權(quán)條件t-代表進程消密存在標(biāo)識是t數(shù)據(jù)要滿足的需求。具體需求為[10]:
1)用戶要求必須是本人;
2)簽名要求必須是此用戶的簽名;
3)時間要求必須是特定的時間段。
從進程集合一直到訪問授權(quán)條件的集合關(guān)系?為:
因此,現(xiàn)對于訪問讀授權(quán)條件與寫授權(quán)條件,二者分別有以下規(guī)則:
(12)
(13)
為了能夠更好的表達訪問授權(quán)條件和數(shù)據(jù)流動二者之間的關(guān)系,需要對訪問授權(quán)條件進行以下擴展:
先定義標(biāo)簽的訪問讀授權(quán)條件集合為“+”,相對于隨意的標(biāo)簽l,l+={t+|t∈l}是利用標(biāo)簽l內(nèi)全部隱私類型的標(biāo)識t訪問讀授權(quán)條件構(gòu)成的集合,而定義標(biāo)簽的訪問寫授權(quán)條件集合為“-”,相對于隨意標(biāo)簽l,l-={t-|t∈l}。則存在以下規(guī)則
(14)
(15)
大數(shù)據(jù)所有者經(jīng)過正確設(shè)置t+與t-兩個訪問授權(quán)條件,即可對自身大數(shù)據(jù)完成傳輸以及訪問權(quán)限認證的保護[11]。
為了驗證所提方法的有效性,利用所提方法和基于差分隱私機制的位置數(shù)據(jù)隱私保護方法和基于DCGAN反饋的深度差分隱私保護方法對實體用戶想要訪問的數(shù)據(jù)進行分類分層處理,再給定用戶想要數(shù)據(jù)的文件屬性個數(shù),將其完成分類以后,對比兩種方法占用系統(tǒng)的存儲空間情況,結(jié)果如表1所示。
表1 大數(shù)據(jù)屬性的分類分層空間占用情況
通過表1能夠看出,基于差分隱私機制的位置數(shù)據(jù)隱私保護方法和基于DCGAN反饋的深度差分隱私保護方法對于系統(tǒng)空間的占用要明顯比所提方法大,在大數(shù)據(jù)文件的分類屬性集合增加到50個時,基于差分隱私機制的位置數(shù)據(jù)隱私保護方法要比所提方法高出50%以上,說明現(xiàn)有方法在大數(shù)據(jù)安全訪問權(quán)限認證過程中對空間的損耗嚴重。
具體加密與解密過程如表2所示。
表2 大數(shù)據(jù)加密與加密的計算結(jié)果
通過表2能夠看出,所提方法加密與解密速度要比基于差分隱私機制的位置數(shù)據(jù)隱私保護方法加密與解密速度快,說明所提方法的性能更優(yōu)。
因為主體的用戶訪問個數(shù)逐漸增加,所以設(shè)定數(shù)據(jù)量大小不相等情況,利用所提方法和基于差分隱私機制的位置數(shù)據(jù)隱私保護方法和基于DCGAN反饋的深度差分隱私保護方法對數(shù)據(jù)的訪問權(quán)限時間進行對比,具體訪問權(quán)限的時間曲線如圖2所示。
圖2 數(shù)據(jù)的訪問權(quán)限認證時間對比
通過圖2能夠看出,用戶訪問的數(shù)據(jù)文件大小相等時,采用基于差分隱私機制的位置數(shù)據(jù)隱私保護方法和基于DCGAN反饋的深度差分隱私保護方法的認證訪問權(quán)限時間,要比所提方法的認證訪問時間長,因為訪問的時間變長,會導(dǎo)致大數(shù)據(jù)的安全性降低,因此,通過以上的訪問時間長度比較結(jié)果,證明所提方法對于大數(shù)據(jù)中心的數(shù)據(jù)資源訪問安全性較高,效果良好。
所提方法通過對大數(shù)據(jù)訪問權(quán)限認證的方式保護大數(shù)據(jù)的安全,仿真結(jié)果證明所提方法的大數(shù)據(jù)資源訪問認證效果較好,安全性比較高。不過由于大數(shù)據(jù)技術(shù)未來的發(fā)展空間無限,所以一些不法分子會時刻想要利用大數(shù)據(jù)獲取企業(yè)、個人,甚至是國家的信息,通過這些信息進行一些不法的活動,因此要進一步對大數(shù)據(jù)的訪問安全問題進行研究,提升保護手段。