胡 榮,張洪星,王 強*
(1. 吉利學院智能科技學院,四川 成都 641423;2. 四川師范大學計算機科學學院,四川 成都 610066
網(wǎng)絡(luò)技術(shù)被廣泛應(yīng)用的同時也暴露出安全方面的問題[1,2],大數(shù)據(jù)平臺中存在海量信息,其中的敏感信息如果被不法分子竊取,會對用戶的隱私與財產(chǎn)等方面造成損害。在提高網(wǎng)絡(luò)通信傳輸能力的同時[3],也應(yīng)該確保信息的安全性,因此,大數(shù)據(jù)平臺中敏感信息防竊取問題應(yīng)該得到足夠的重視。
古麗米熱·爾肯[4]等人利用二次加密事項對敏感信息進行防御,在原始加密方案的基礎(chǔ)上,添加訪問控制限制策略,并引入密碼系統(tǒng)等進行改進,實現(xiàn)網(wǎng)絡(luò)敏感信息防竊取。趙毅強[5]等人首先利用節(jié)點分析得出“密鑰門”的精確位置,利用密鑰邏輯模塊得出密鑰門的輸入,破解敏感數(shù)據(jù),從而加強加密的魯棒性,實現(xiàn)網(wǎng)絡(luò)敏感信息防竊取。上述方法在對敏感數(shù)據(jù)實施防竊取的過程中,沒有對大數(shù)據(jù)進行數(shù)據(jù)清洗處理,導致其中的冗余數(shù)據(jù)過多,增加了數(shù)據(jù)計算量,降低了敏感數(shù)據(jù)防竊取效率,存在防竊取執(zhí)行效率低、數(shù)據(jù)吞吐量低的問題。為了解決上述方法中存在的問題,本文提出大數(shù)據(jù)平臺中網(wǎng)絡(luò)敏感信息防竊取算法。
大數(shù)據(jù)平臺中含有大量信息,其中不乏存在一些重復信息以及殘缺信息,為了保證敏感信息的安全性[6],需要對其進行防竊取處理[7],在此之前,可通過對數(shù)據(jù)進行清洗加強防竊取強度。利用前饋型神經(jīng)網(wǎng)絡(luò)構(gòu)建網(wǎng)絡(luò)數(shù)據(jù)清洗模型[8],其模型的示意圖如圖1所示。
圖1 前饋型神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)清洗模型
圖1的組成結(jié)構(gòu)共分為三層,分別為神經(jīng)網(wǎng)絡(luò)的輸入層、隱藏層以及輸出層,神經(jīng)網(wǎng)絡(luò)各層中均存在多個神經(jīng)元節(jié)點,且每個神經(jīng)元之間均是運用權(quán)值Wij進行相連,神經(jīng)網(wǎng)絡(luò)中無論有多少個神經(jīng)元節(jié)點,最終也僅有1個神經(jīng)元輸出,由此得出清洗模型的數(shù)學表達式為
(1)
其中,Oj代表神經(jīng)網(wǎng)絡(luò)中第j個神經(jīng)元節(jié)點的輸出值,Xi代表神經(jīng)元節(jié)點i對神經(jīng)元節(jié)點j的輸入,αj代表神經(jīng)網(wǎng)絡(luò)中第j個神經(jīng)元節(jié)點的閾值,f(netj)代表神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的激勵函數(shù)。
其中,神經(jīng)元激勵函數(shù)的計算公式為
(2)
式中,e代表Sigmoid函數(shù)的因子。
假設(shè)大數(shù)據(jù)平臺內(nèi)信息樣本為p,從神經(jīng)網(wǎng)絡(luò)的輸入層開始計算,此時神經(jīng)網(wǎng)絡(luò)模型中某個樣本的訓練誤差Ep計算公式為
(3)
式中,dpj代表神經(jīng)網(wǎng)絡(luò)輸出層中第j個神經(jīng)元節(jié)點的期望輸出值,Opj代表神經(jīng)網(wǎng)絡(luò)輸出層中第j個神經(jīng)元節(jié)點的實際輸出值。
若目前有p′個實驗樣本,在式(3)的基礎(chǔ)上即可生成神經(jīng)網(wǎng)絡(luò)模型訓練的誤差E,其表達式為
(4)
若目前神經(jīng)網(wǎng)絡(luò)中的輸入和輸出分別為p和q個,此時可得出p維歐氏空間非線性映射到q維歐氏空間的結(jié)果,該結(jié)果可以無限接近于連續(xù)函數(shù)。大數(shù)據(jù)平臺在清洗的過程中,神經(jīng)網(wǎng)絡(luò)的輸出就是需要填補的殘缺數(shù)據(jù),其中神經(jīng)網(wǎng)絡(luò)輸入層和殘缺數(shù)據(jù)的屬性基本一致,隱含層的實際作用是確定殘缺的數(shù)量,神經(jīng)網(wǎng)絡(luò)中的權(quán)值可通過矩陣W表示,矩陣可以直接反映出數(shù)據(jù)清洗[9,10]所需的知識存儲。神經(jīng)網(wǎng)絡(luò)經(jīng)過不斷的訓練實驗樣本得以更新權(quán)值,同時保證輸出結(jié)果無限接近于期望值,當輸出值符合整體要求后,神經(jīng)網(wǎng)絡(luò)開始收斂,此時的權(quán)值可以表示需要清洗數(shù)據(jù)所需的知識存儲,最后在神經(jīng)網(wǎng)絡(luò)中輸入殘缺數(shù)據(jù)的屬性值,得出結(jié)果即為殘缺數(shù)據(jù)需要的填補結(jié)果,從而完成數(shù)據(jù)清洗。
建立大數(shù)據(jù)平臺網(wǎng)絡(luò)敏感信息的加密密鑰協(xié)議[11],以達到實現(xiàn)敏感信息的防竊取目的,在構(gòu)建密鑰協(xié)議的同時[12],引入算術(shù)編碼以及密鑰設(shè)計,生成敏感信息的鏈路層傳輸協(xié)議,同時對密鑰進行重組以及分組轉(zhuǎn)發(fā),在此過程中,編碼序列使用的是Turbo碼,敏感信息傳輸通道示意圖如圖2所示。
圖2 敏感信息傳輸通道示意圖
該模型是通過混沌調(diào)制方法獲取敏感信息的加密傳輸編碼序列,并在模糊混沌密鑰的控制[13]下,計算出t+1時大數(shù)據(jù)平臺敏感信息防竊取的延時D′t+1、編碼序列L′t+1,計算公式分別為
(5)
其中,λ代表大數(shù)據(jù)平臺敏感信息防竊取系數(shù),Ωt+1代表敏感信息傳輸通道的編碼序列,d代表傳輸通道長度,f代表傳輸時間函數(shù)計算公式。
在得出密鑰的過程中,不斷地計算大數(shù)據(jù)平臺中敏感信息的對稱密鑰,利用密鑰的封裝形式生成輸入的安全參數(shù)A(c*),其表達式為
(6)
假設(shè)準備加密的大數(shù)據(jù)平臺敏感信息的長度是n,通過對稱Hash函數(shù)建立敏感信息的特征量[14],分別通過0和1對敏感信息加密進行糾錯,依據(jù)安全參數(shù)A(c*)生成敏感信息密鑰的傳輸協(xié)議,其表達式為
(7)
基于碼元頻次特征分解,生成大數(shù)據(jù)平臺網(wǎng)絡(luò)敏感信息的安全編碼模型,其表達式為
(8)
其中,μSRm代表大數(shù)據(jù)平臺存儲空間中的特征分量,λSRm代表協(xié)方差矩陣,ρ代表大數(shù)據(jù)平臺中網(wǎng)絡(luò)敏感信息的碼元頻次。
根據(jù)以上生成的安全編碼模型并結(jié)合公鑰替換以此設(shè)計出敏感信息的密鑰。
基于替換身份線性標記通信密鑰H2和H3,生成網(wǎng)絡(luò)敏感信息的參數(shù)信息熵H2(x),并利用角色分發(fā)收斂密鑰的方式,獲取私鑰解密收斂密鑰密文Kv(z),其表達式為
(9)
其中,βv(z)代表網(wǎng)絡(luò)敏感信息的加密對稱函數(shù),χv(z)代表高斯分布函數(shù)。
在收斂密鑰的幫助下,更新敏感信息的傳輸序列X,并整理出序列的二項式Sn,其表達式分別為
(10)
根據(jù)以上信息,即可得出敏感信息正態(tài)分布特征量的要求Fy,其表達式為
(11)
利用差分融合分析生成敏感數(shù)據(jù)的標識位置Xi
(12)
根據(jù)敏感信息的標識位置Xi,引入模糊差分信息融合方法,生成基于對稱加密協(xié)議的敏感數(shù)據(jù)完整密鑰,其表達式為:
(13)
根據(jù)防御強度需求,實現(xiàn)密鑰設(shè)計,加強信息的加密傳輸和隱私保護能力。
通過對密鑰的設(shè)計,可以初步完成敏感信息的防竊取,根據(jù)密鑰得出敏感信息的加密方式[15],得到最高強度的敏感信息防御能力。
選取同態(tài)加密方法對敏感信息進行加密[16],同態(tài)加密算法的優(yōu)點是可以對加密數(shù)據(jù)進行一些基礎(chǔ)運算,這種方式得到的運算結(jié)果與明文運算得到的結(jié)果是相同的,因此該方法的特性是不受加密影響完成部分基礎(chǔ)運算。基于該特性,在實際應(yīng)用中可以直接對密文進行相關(guān)處理,加密函數(shù)的同態(tài)性質(zhì)泛指明文a和b需要符合以下兩點要求,其表達式分別為:
(14)
其中,Dec代表解密運算,En代價加密運算,?代表乘法運算,⊕代表加法運算。
同態(tài)加密算法中的全同態(tài)加密算法更為嚴格[17],這種算法在滿足加法和乘法的特性同時。還可以對解密的銘文進行同態(tài)計算,其表達式為
Dec(f(En(m1),En(m2),…,En(mk)))=f(m1,m2,…,mk)
(15)
根據(jù)式(15)得出同態(tài)加密算法的示意圖,如圖3所示。
圖3 同態(tài)加密算法的加密與解密過程
通過信息加密和密鑰就可以達到敏感數(shù)據(jù)加密,即實現(xiàn)網(wǎng)絡(luò)敏感信息的防竊取目的。
為了驗證大數(shù)據(jù)平臺中網(wǎng)絡(luò)敏感信息防竊取算法的整體有效性,現(xiàn)針對本文方法、敏感數(shù)據(jù)訪問防御方法和增強型邏輯下信息防竊取方法,進行防竊取執(zhí)行效率、數(shù)據(jù)吞吐量以及安全性測試,測試結(jié)果如下所示。
使用Hadoop大數(shù)據(jù)平臺作為實驗背景,CPU Inter(R)Xeon E3-1255 v3為3.2GHz/8Mcache,系統(tǒng)為Linux CentOS-7.16,開發(fā)環(huán)境為Eclipse3.8。將其視為Master/Slave架構(gòu),假設(shè)其組成節(jié)點共有4個,其中,Master節(jié)點有1個,Slave節(jié)點有3個。
大數(shù)據(jù)平臺是人們工作中必不可少的工具,在使用過程中會產(chǎn)生大量敏感數(shù)據(jù),為了保證敏感數(shù)據(jù)的安全,網(wǎng)絡(luò)均會對敏感數(shù)據(jù)進行防竊取處理,因為不法分子盜取信息的速度較快,因此防竊取行為必須在產(chǎn)生敏感數(shù)據(jù)的同時進行加密,且加密必須是及時的,所以加密運行時間是判定防竊取算法優(yōu)劣的有效指標。
分別計算三種方法的敏感數(shù)據(jù)加密所需時間,實驗結(jié)果如圖4所示。
圖4 防竊取執(zhí)行效率對比
根據(jù)實驗結(jié)果可知,三種防竊取方法均受數(shù)據(jù)量影響,隨著數(shù)據(jù)量的增大,敏感數(shù)據(jù)防御時間也有所增加,但經(jīng)過對比三種方法的實驗結(jié)果發(fā)現(xiàn),本文方法的防御執(zhí)行效率是三種方法中最高的,這就說明本文方法雖不能完全抵抗常規(guī)影響因素,但可將影響降到最低,從而提高數(shù)據(jù)防御執(zhí)行效率。
眾所周知,經(jīng)過加密后數(shù)據(jù)庫的吞吐量遠遠不如加密之前,因加密的限制會縮小數(shù)據(jù)傳輸信道,從而導致信道吞吐量降低。為了進一步比較三種方法的防御能力,隨機選取5組實驗樣本,并將其標記為樣本編號1~樣本編號5,分別計算出每種防竊取方法下的吞吐量,實驗結(jié)果如圖5所示。
圖5 三種方法加密后數(shù)據(jù)的吞吐量
根據(jù)實驗結(jié)果可知,本文方法的吞吐量始終最高,充分說明本文方法的性能更好。這是因為本文方法對大數(shù)據(jù)平臺中的所有數(shù)據(jù)進行了數(shù)據(jù)清洗處理,將其中的冗余數(shù)據(jù)以及重復數(shù)據(jù)進行清除處理,同時將其中的殘缺數(shù)據(jù)進行填補處理,降低數(shù)據(jù)量的同時也保證數(shù)據(jù)的完整性,從而提升了吞吐量。
分別測試三種方法在不同攻擊類型下的敏感信息防竊取效果,具體通過信息安全系數(shù)進行展示,安全系數(shù)越接近1,說明安全系數(shù)越高。實驗結(jié)果如表1所示。
表1 敏感信息安全性測試結(jié)果
根據(jù)實驗結(jié)果可知,與敏感數(shù)據(jù)訪問防御法和增強型邏輯防竊取法相比,本文方法的敏感信息安全系數(shù)更高,其最高值為0.95,從實驗結(jié)果可再一次證明本文方法可以提升敏感數(shù)據(jù)保護效果。
隨著計算機的普及,大數(shù)據(jù)平臺中的數(shù)據(jù)量呈指數(shù)增長,其中含有大量敏感信息,為了保證數(shù)據(jù)的安全,本文提出大數(shù)據(jù)平臺中網(wǎng)絡(luò)敏感信息防竊取算法,該方法首先對數(shù)據(jù)進行清洗,其次設(shè)計密鑰以及敏感信息編碼,最后在同態(tài)算法下完成數(shù)據(jù)加密,實現(xiàn)網(wǎng)絡(luò)敏感信息防竊取,解決了防竊取執(zhí)行效率低、數(shù)據(jù)吞吐量低以及安全系數(shù)低的問題,加強了網(wǎng)絡(luò)通信安全以及數(shù)據(jù)安全。