鄧 偉,許 放,張 濤,艾雪瑞,甄 珍
(北京中電飛華通信有限公司,北京 100000)
隨著互聯(lián)網(wǎng)的發(fā)展以及社會(huì)信息化水平的不斷提升,互聯(lián)網(wǎng)和人們的生活、工作變得密不可分?,F(xiàn)階段,互聯(lián)網(wǎng)敏感信息主要是指危害社會(huì)公共安全的相關(guān)信息,主要涉及思想政治、經(jīng)濟(jì)、社會(huì)、文化等多個(gè)領(lǐng)域。而相關(guān)的恐怖組織利用互聯(lián)網(wǎng)展開相關(guān)攻擊后,一旦互聯(lián)網(wǎng)敏感信息因攻擊而泄露,會(huì)嚴(yán)重?cái)_亂社會(huì)秩序,對(duì)于經(jīng)濟(jì)社會(huì)的安全穩(wěn)定發(fā)展造成不利影響,進(jìn)行互聯(lián)網(wǎng)敏感信息泄露檢測(cè),并有針對(duì)性地設(shè)計(jì)相關(guān)的輿情方案具有重要意義。
針對(duì)互聯(lián)網(wǎng)敏感信息泄露檢測(cè)這一重要研究課題,文獻(xiàn)[1]設(shè)計(jì)了一種基于擴(kuò)展權(quán)限組合的信息泄露檢測(cè)方法。該方法通過獲取互聯(lián)網(wǎng)敏感信息安全規(guī)則集,從多個(gè)特征出發(fā)獲取危險(xiǎn)權(quán)限組合,結(jié)合危險(xiǎn)權(quán)限組合對(duì)于信息泄露情況進(jìn)行判斷,輸出信息泄露檢測(cè)結(jié)果。但是將該方法應(yīng)用至實(shí)際中發(fā)現(xiàn),這種方法存在泄露檢出率較低的問題。文獻(xiàn)[2]設(shè)計(jì)了一種基于局部差分隱私的物聯(lián)網(wǎng)敏感數(shù)據(jù)泄露檢測(cè)與控制方法。該方法通過獲取物聯(lián)網(wǎng)敏感數(shù)據(jù)鏈,結(jié)合數(shù)據(jù)鏈距離估計(jì)結(jié)果與檢索條件獲取敏感數(shù)據(jù)集,根據(jù)泄露檢測(cè)閾值判斷數(shù)據(jù)是否處于泄露狀態(tài),利用局部差分隱私設(shè)計(jì)數(shù)據(jù)加密方法,實(shí)現(xiàn)數(shù)據(jù)泄露控制。但是這一方法存在檢測(cè)任務(wù)完成時(shí)間較長(zhǎng)的問題,整體質(zhì)量較差。
為了彌補(bǔ)傳統(tǒng)方法存在的不足,設(shè)計(jì)基于DBN模型的互聯(lián)網(wǎng)敏感信息泄露檢測(cè)方法。
利用分布式網(wǎng)絡(luò)爬蟲技術(shù)爬取互聯(lián)網(wǎng)網(wǎng)頁(yè)敏感信息,并結(jié)合近鄰策略對(duì)這些信息進(jìn)行分組處理,保證每個(gè)組中所包含的敏感信息數(shù)量至少為k。假設(shè)第G組所包含的敏感信息用{X1,X2,…,Xk} 表示[3-5],互聯(lián)網(wǎng)網(wǎng)頁(yè)Xk中所包含的d維數(shù)據(jù)用表示,則第G組不同類的網(wǎng)頁(yè)敏感信息統(tǒng)計(jì)結(jié)果[6-7]分別用下述公式表示:
該組中敏感信息屬性之間的協(xié)方差通過下述公式計(jì)算得出:
式中,n(G)表示第G組不同類的網(wǎng)頁(yè)記錄統(tǒng)計(jì)記錄個(gè)數(shù),Scij(G)表示第G組所有的敏感信息參量。
根據(jù)敏感信息以及信息屬性之間的協(xié)方差重新構(gòu)造一個(gè)新的信息集合A,以此實(shí)現(xiàn)互聯(lián)網(wǎng)敏感信息捕捉[8-9]。
以互聯(lián)網(wǎng)敏感信息捕捉結(jié)果為基礎(chǔ),對(duì)互聯(lián)網(wǎng)敏感信息集合中的數(shù)據(jù)進(jìn)行去噪處理,以此保證后續(xù)互聯(lián)網(wǎng)敏感信息泄露的檢測(cè)效率與質(zhì)量。
從互聯(lián)網(wǎng)敏感信息集合中隨機(jī)選取出m個(gè)樣本數(shù)據(jù),用S={S1,S2,…,Sm}表示,每選擇出一個(gè)近鄰Si,就按照下述公式構(gòu)造出一個(gè)新的樣本:
式中,rand 表示(0,1)區(qū)間內(nèi)的一個(gè)隨機(jī)常數(shù)。
S和Si之間的歐氏距離通過下述公式計(jì)算得出[10-11]:
式中,xi與yi分別表示S和Si中的一個(gè)n維樣本。
結(jié)合式(5)的計(jì)算結(jié)果,從A中取出距離最近的k個(gè)樣本,從而得到一個(gè)新的互聯(lián)網(wǎng)敏感信息集合A(S),并從A中取出少數(shù)類信息樣本,構(gòu)造另一個(gè)互聯(lián)網(wǎng)敏感信息集合B(S)。B(S)在A(S)中的所占比例通過下述公式計(jì)算得出:
假設(shè)存在一個(gè)互聯(lián)網(wǎng)敏感信息樣本N∈A(S),從這個(gè)數(shù)據(jù)集中隨機(jī)選擇出一個(gè)樣本U∈(B(S)-A(S)∩B(S)),計(jì)算這兩個(gè)數(shù)據(jù)之間的距離。如果Z×DN<DU,則需要將N加入到噪聲數(shù)據(jù)集中,若是該噪聲數(shù)據(jù)集不為空,需要從A中將該數(shù)據(jù)集中去除,完成互聯(lián)網(wǎng)敏感信息去噪處理。
文中以DBN 模型為基礎(chǔ),研究了一種敏感信息泄露檢測(cè)方法,該方法的實(shí)現(xiàn)流程如下:
步驟一:信息編碼和序列化處理
對(duì)于去噪后的互聯(lián)網(wǎng)敏感信息進(jìn)行編碼處理[12-13],具體的公式如下:
式中,s表示操作類型;t表示數(shù)據(jù)記錄量。
將互聯(lián)網(wǎng)敏感信息編碼結(jié)果進(jìn)行序列化處理[14-15],將其轉(zhuǎn)換為一個(gè)數(shù)組作為DBN 模型的訓(xùn)練數(shù)據(jù)。序列化處理過程如下:
式中,x對(duì)象數(shù)量;F表示儲(chǔ)存量。
步驟二:DBN 模型構(gòu)建
深度信念網(wǎng)絡(luò)(DBN)[16]是深度學(xué)習(xí)方法的一種,DBN 由多個(gè)受限玻爾茲曼機(jī)(RBM)堆疊而成,建立的DBN 模型如圖1 所示。
圖1 DBN模型
RBM 由觀察層和潛層組成,這兩層之間的任何單元之間均不存在連接關(guān)系,RBM 組成如圖2 所示。
圖2 RBM組成
觀察層變量v由一組nv個(gè)二值隨機(jī)變量組成,潛層變量h由nh個(gè)二值隨機(jī)變量組成。
步驟三:DBN 模型訓(xùn)練
對(duì)DBN 模型進(jìn)行訓(xùn)練,采用sigmod 函數(shù)計(jì)算出潛層的激勵(lì)值,計(jì)算結(jié)果如下:
將每個(gè)隱元的激勵(lì)值加上該層神經(jīng)元的偏向,神經(jīng)元只能處于開啟狀態(tài)與關(guān)閉狀態(tài),用下述方程組表示:
式中,δ(hj) 表示激勵(lì)函數(shù),e-x表示指數(shù)函數(shù)。通過更新權(quán)重實(shí)現(xiàn)DBN 模型訓(xùn)練,結(jié)果如下:
式中,v(0)、v(1)分別表示將互聯(lián)網(wǎng)敏感信息訓(xùn)練數(shù)據(jù)賦值給觀察層的不同結(jié)果,h(0)、h(1)分別表示將互聯(lián)網(wǎng)敏感信息訓(xùn)練數(shù)據(jù)賦值給潛層的不同結(jié)果,λ表示重構(gòu)次數(shù)。
步驟四:敏感信息泄露檢測(cè)結(jié)果輸出
將互聯(lián)網(wǎng)敏感信息信息編碼和序列化處理輸入至訓(xùn)練好的DBN 模型中,該模型通過提取敏感信息泄露特征以及泄露判斷閾值實(shí)現(xiàn)敏感信息泄露檢測(cè)。
利用DBN 模型提取互聯(lián)網(wǎng)敏感信息泄露特征,具體公式如下:
結(jié)合互聯(lián)網(wǎng)敏感信息泄露特征提取結(jié)果設(shè)計(jì)泄露判斷閾值,該閾值如下:
式中,e表示指數(shù)函數(shù),d表示攻擊者位置參量。
將互聯(lián)網(wǎng)敏感信息訓(xùn)練數(shù)據(jù)輸入至DBN 模型,經(jīng)過DBN 模型迭代處理得出互聯(lián)網(wǎng)敏感信息泄露檢測(cè)結(jié)果,具體如下:
式中,Ti表示序列化數(shù)據(jù)向量,A(x)表示數(shù)據(jù)編碼向量。
為了驗(yàn)證提出的基于DBN 模型的互聯(lián)網(wǎng)敏感信息泄露檢測(cè)方法的有效性進(jìn)行了實(shí)驗(yàn)測(cè)試。設(shè)定實(shí)驗(yàn)環(huán)境如圖3 所示。
圖3 實(shí)驗(yàn)環(huán)境
采用DBN 模型對(duì)互聯(lián)網(wǎng)敏感信息進(jìn)行分解,得到的分解序列如圖4 所示。
圖4 分解序列實(shí)驗(yàn)結(jié)果
通過分解序列確定模態(tài)分量,以此實(shí)現(xiàn)互聯(lián)網(wǎng)敏感信息泄露檢測(cè)。
選用文獻(xiàn)[1]提出的基于擴(kuò)展權(quán)限組合的信息泄露檢測(cè)方法以及文獻(xiàn)[2]提出的基于局部差分隱私的物聯(lián)網(wǎng)敏感數(shù)據(jù)泄露檢測(cè)與控制方法作為實(shí)驗(yàn)對(duì)比方法。探究不同方法的互聯(lián)網(wǎng)敏感信息泄露檢出率,計(jì)算公式如下:
其中,m表示泄露的敏感信息;l表示正常傳輸?shù)臄?shù)據(jù)。
三種方法的互聯(lián)網(wǎng)敏感信息泄露檢出率比較結(jié)果如表1 所示。
表1 檢出率
根據(jù)表1 可知,所提方法的互聯(lián)網(wǎng)敏感信息泄露檢出率高達(dá)99.8%,能夠很好地識(shí)別出互聯(lián)網(wǎng)存在的泄露敏感信息,與實(shí)驗(yàn)對(duì)比方法相比,檢測(cè)能力更佳,更適合應(yīng)用在隱私保護(hù)領(lǐng)域。
三種方法的互聯(lián)網(wǎng)敏感信息泄露檢測(cè)任務(wù)完成時(shí)間比較結(jié)果如圖5 所示。
圖5 檢測(cè)任務(wù)完成時(shí)間
根據(jù)圖5 可知,與實(shí)驗(yàn)對(duì)比方法相比,所提方法的檢測(cè)任務(wù)完成時(shí)間更短,效率更高,可以快速得到互聯(lián)網(wǎng)敏感信息泄露檢測(cè)結(jié)果。
互聯(lián)網(wǎng)敏感信息對(duì)于該領(lǐng)域來(lái)說(shuō)至關(guān)重要,研究敏感信息泄露檢測(cè)方法可以極大提升互聯(lián)網(wǎng)的安全性。因此基于DBN 模型,研究了一種互聯(lián)網(wǎng)敏感信息泄露檢測(cè)方法。經(jīng)實(shí)驗(yàn)表明,所提出的互聯(lián)網(wǎng)敏感信息泄露檢測(cè)方法在檢出率和檢測(cè)任務(wù)完成時(shí)間方面具有良好性能,但該方法在魯棒性方面仍有不足之處,后續(xù)將圍繞此方面進(jìn)行研究。