李蕊, 潘麗敏, 郝靖偉, 張寒青, 羅森林, 吳倩
(北京理工大學(xué) 信息與電子學(xué)院,北京 100081)
隨著網(wǎng)絡(luò)安全事件的日益頻發(fā)以及社會工程學(xué)等技術(shù)在網(wǎng)絡(luò)攻擊中的廣泛使用,網(wǎng)絡(luò)安全意識淡薄成為信息領(lǐng)域制約社會信息化發(fā)展的主要因素之一[1].
目前,評估網(wǎng)絡(luò)安全意識的方法主要有基于問卷調(diào)查的評估方法、基于機(jī)器學(xué)習(xí)的評估方法和基于模擬攻擊的評估方法等. 基于問卷調(diào)查的評估方法調(diào)查范圍廣、易于統(tǒng)計(jì)分析. 如Kruger等[2]提出的網(wǎng)絡(luò)安全意識評估框架,可用于評估組織成員的網(wǎng)絡(luò)安全意識. 基于機(jī)器學(xué)習(xí)的評估方法普遍使用無監(jiān)督學(xué)習(xí),不依賴標(biāo)簽數(shù)據(jù). 如孫夫雄[3]提出的基于信度分析和聚類算法的網(wǎng)絡(luò)安全意識評估模型,對個(gè)體網(wǎng)絡(luò)安全意識評估為低、中和高三個(gè)層次等. 但是,基于機(jī)器學(xué)習(xí)的評估方法通常難以解釋評估結(jié)果的物理含義,而基于問卷調(diào)查的評估方法使用的數(shù)據(jù)也缺乏客觀性. 與前兩者相比,模擬攻擊方法從行為角度出發(fā),可不依賴主觀調(diào)查信息. 如綠盟公司提出的安全意識評估服務(wù),通過綠盟云平臺給公司的被測試員工發(fā)送釣魚測試郵件,評估公司員工安全意識. 然而模擬攻擊多數(shù)使用欺騙攻擊方法,僅是web應(yīng)用安全的一部分,評估準(zhǔn)確度不足.
針對以上問題,本文提出了一種高準(zhǔn)確度網(wǎng)絡(luò)安全意識個(gè)體量化評估及群體指數(shù)構(gòu)建方法. 該方法利用多源數(shù)據(jù)融合主觀評判和客觀評估,從而提高了個(gè)體網(wǎng)絡(luò)安全意識評估方法的準(zhǔn)確度和客觀性;該方法利用監(jiān)督信息對個(gè)體無標(biāo)簽行為數(shù)據(jù)進(jìn)行客觀評估,從而易于解釋評估結(jié)果的物理含義;同時(shí),通過引入Grubbs來弱化群體中的異常點(diǎn)信息,該方法實(shí)現(xiàn)了對群體網(wǎng)絡(luò)安全意識指數(shù)的科學(xué)計(jì)算,為群體網(wǎng)絡(luò)安全意識評估提供有效方法.
圖1所示為本文所述評估方法的原理圖. 該方法將評估網(wǎng)絡(luò)安全意識分為3個(gè)層次,即個(gè)體網(wǎng)絡(luò)安全意識量化、個(gè)體網(wǎng)絡(luò)安全意識分級和群體網(wǎng)絡(luò)安全意識量化. 該方法首先要完成對問卷安全數(shù)據(jù)、PC終端安全數(shù)據(jù)和移動終端(本文中提到的移動終端皆基于Android操作系統(tǒng))安全數(shù)據(jù)等多源數(shù)據(jù)的采集和預(yù)處理. 過程Ⅰ中,針對預(yù)處理后的問卷安全數(shù)據(jù),該方法使用層次分析法設(shè)定問卷指標(biāo)權(quán)重,使用加權(quán)計(jì)算得到個(gè)體在問卷上的安全得分. 針對預(yù)處理后的PC終端和移動終端安全數(shù)據(jù),該方法基于混合回歸模型得到個(gè)體在PC和移動終端上的安全得分. 過程Ⅱ中,針對問卷、PC和移動終端3個(gè)安全得分,該方法利用改進(jìn)的標(biāo)簽傳播算法對量化后的數(shù)據(jù)分級. 過程Ⅲ中,該方法利用Grubbs準(zhǔn)則構(gòu)建指數(shù)公式計(jì)算群體網(wǎng)絡(luò)安全意識指數(shù).
本文從安全配置、安全操作、安全知識等方面采集了問卷調(diào)查數(shù)據(jù)、PC終端安全數(shù)據(jù)和移動終端安全數(shù)據(jù)等. 其中,基于國民網(wǎng)絡(luò)安全素養(yǎng)評估指標(biāo)體系[4]設(shè)計(jì)了網(wǎng)絡(luò)安全意識調(diào)查問卷. 問卷題目的設(shè)計(jì)以獲取用戶網(wǎng)絡(luò)安全意識的真實(shí)情況為目標(biāo),因此,問卷題目中不使用含褒義或貶義的具有誘導(dǎo)性和傾向性的詞語. 由于采集到的原始數(shù)據(jù)中含有噪聲、空缺值,存在維度過高等問題,需要對原始數(shù)據(jù)進(jìn)行預(yù)處理. 本文采取的預(yù)處理方法包括使用等深分箱法剔除異常值、數(shù)據(jù)標(biāo)準(zhǔn)化、使用均值法補(bǔ)全空缺值和使用包裝法進(jìn)行特征提取等.
個(gè)體網(wǎng)絡(luò)安全意識量化包括兩個(gè)部分,量化問卷安全得分和量化終端安全得分. 通過層次分析法[5]對網(wǎng)絡(luò)安全意識調(diào)查問卷題目設(shè)定權(quán)重,然后利用加權(quán)計(jì)算得到問卷安全得分. 通過德爾菲法[6]分別為預(yù)處理后的PC終端安全數(shù)據(jù)和移動終端安全檢測數(shù)據(jù)設(shè)定分?jǐn)?shù)標(biāo)簽[0-100],然后利用混合線性回歸模型量化得到問卷安全得分. 其中專家模型為支持向量回歸機(jī),門限函數(shù)為BP神經(jīng)網(wǎng)絡(luò)算法,概率加權(quán)函數(shù)為EM算法. 首先利用K-means聚類算法對具有分?jǐn)?shù)標(biāo)簽的終端安全數(shù)據(jù)設(shè)定不具有物理含義的類別標(biāo)簽,然后使用多層感知機(jī)對聚類后帶有標(biāo)簽的終端安全數(shù)據(jù)分類,最后利用支持向量回歸機(jī)得到個(gè)體的終端安全得分. 交替訓(xùn)練專家模型支持向量回歸和門限函數(shù)多層感知機(jī),直到均方誤差σMSE<1為止.
基于個(gè)體網(wǎng)絡(luò)安全意識量化方法可得到特定個(gè)體的網(wǎng)絡(luò)安全意識的問卷安全得分、移動終端安全得分和PC終端安全得分等. 在此基礎(chǔ)上,本文進(jìn)一步提出了基于改進(jìn)標(biāo)簽傳播算法的個(gè)體網(wǎng)絡(luò)安全意識分級方法.
標(biāo)簽傳播算法[7]是一種基于圖的半監(jiān)督學(xué)習(xí)方法,其基本思路是用標(biāo)簽節(jié)點(diǎn)的標(biāo)簽信息去預(yù)測無標(biāo)簽節(jié)點(diǎn)的標(biāo)簽信息. 標(biāo)簽傳播算法存在對標(biāo)簽數(shù)據(jù)的依賴,而網(wǎng)絡(luò)安全意識評估相關(guān)的數(shù)據(jù)源往往沒有標(biāo)簽. 為解決這個(gè)問題,本文提出了一種改進(jìn)的標(biāo)簽傳播算法(rank label propagation,RLP),適用于網(wǎng)絡(luò)安全意識評估.
改進(jìn)的標(biāo)簽傳播算法具體實(shí)現(xiàn)步驟如下.
步驟2設(shè)定監(jiān)督信息即2個(gè)極端標(biāo)簽,監(jiān)督信息1為安全得分全為100分的樣本為最優(yōu)等級,監(jiān)督信息2為安全得分全為0的樣本為最差等級. 隨機(jī)設(shè)定監(jiān)督節(jié)點(diǎn)外的其他節(jié)點(diǎn)的標(biāo)簽;
步驟4在將網(wǎng)絡(luò)安全意識分為最優(yōu)和最差兩類后,選取聚類結(jié)果為網(wǎng)絡(luò)安全意識最差的數(shù)據(jù)進(jìn)行步驟2和步驟3,將網(wǎng)絡(luò)安全意識分為低和中兩類. 然后選取分類結(jié)果為網(wǎng)絡(luò)安全意識最優(yōu)的數(shù)據(jù)進(jìn)行步驟2和步驟3,將網(wǎng)絡(luò)安全意識分為高和較高兩類. 最終得到網(wǎng)絡(luò)安全意識評估的4類輸出. 算法實(shí)現(xiàn)的偽代碼如下.
Algorithm:改進(jìn)的標(biāo)簽傳播算法—RLP(G,n,α,σ)
Input:G=(V,E)-全連接圖,|V|=n-節(jié)點(diǎn)個(gè)數(shù),
σ-高斯函數(shù)帶寬參數(shù),α-平衡參數(shù)
Output:個(gè)體網(wǎng)絡(luò)安全意識等級Label[1…n]
基于E構(gòu)造傳播矩陣T
初始化除監(jiān)督節(jié)點(diǎn)的標(biāo)簽得到矩陣Y
t=0
repeat
A(t+1)=αTA(t)+(1-α)Y;
t=t+1
until迭代收斂至A*=(1-α)(I-αT)-1Y
fori=2 tondo
Label[i]←argmax1≤j≤|y|(A*)ij
ifLabel[i]=1
該節(jié)點(diǎn)構(gòu)建圖G1=(V1,E1)
else
該節(jié)點(diǎn)構(gòu)建圖G2=(V2,E2)
end for
for(v,e)∈G1,G2do
基于e構(gòu)造傳播矩陣T
初始化除監(jiān)督節(jié)點(diǎn)的標(biāo)簽得到矩陣Y
t=0
repeat
A(t+1)=αTA(t)+(1-α)Y
t=t+1
until迭代收斂至A*=(1-α)(I-αT)-1Y
fori=2…ndo
Label[i]←argmax1≤j≤|y|(A*)ij
endfor
endfor
基于個(gè)體網(wǎng)絡(luò)安全意識分級方法可得到特定個(gè)體的網(wǎng)絡(luò)安全意識等級. 在此基礎(chǔ)上,針對多個(gè)個(gè)體構(gòu)成的群體數(shù)據(jù),本文進(jìn)一步提出了群體網(wǎng)絡(luò)安全意識的評估方法. 群體網(wǎng)絡(luò)安全意識量化方法應(yīng)達(dá)到兩個(gè)目標(biāo),弱化群體中的異常點(diǎn)對群體的影響和量化結(jié)果具有單調(diào)性. 其中,單調(diào)性是指群體中等級高的個(gè)體越多,群體網(wǎng)絡(luò)安全意識量化結(jié)果越高,群體中等級低的個(gè)體越多,群體網(wǎng)絡(luò)安全意識量化結(jié)果越低[8-11].
(1)
式中:N為群體網(wǎng)絡(luò)安全意識指數(shù);Normalize為min-max歸一化,指數(shù)范圍為[0,1];NRj為每個(gè)等級的數(shù)量;Rj為網(wǎng)絡(luò)安全意識等級;Wi為權(quán)重,如表1所示,其中β為偏移值.
表1 不同數(shù)據(jù)情況下的權(quán)重值
2.1.1實(shí)驗(yàn)數(shù)據(jù)
采集問卷安全數(shù)據(jù)、PC終端安全數(shù)據(jù)和移動終端安全數(shù)據(jù)等樣本數(shù)據(jù)共1 261組. 通過數(shù)據(jù)預(yù)處理,最終得到可用樣本數(shù)據(jù)984組. PC終端中的特征為UAC狀態(tài)、賬戶啟用數(shù)量、共享文件夾開啟數(shù)量、公共網(wǎng)絡(luò)防火墻是否開啟、專用網(wǎng)絡(luò)防火墻是否開啟、瀏覽器smart screen數(shù)量、防火墻規(guī)則數(shù)量、防火墻開啟類別數(shù)量、用戶密碼永不過期數(shù)量,移動終端中的特征為手機(jī)是否被root、應(yīng)用程序危險(xiǎn)權(quán)限數(shù)量、是否有開機(jī)密碼、敏感信息數(shù)量、麥克風(fēng)權(quán)限賦予數(shù)量、相機(jī)權(quán)限賦予數(shù)量等.
2.1.2評價(jià)指標(biāo)
測試選擇均方誤差MSE作為個(gè)體網(wǎng)絡(luò)安全意識量化方法的評價(jià)指標(biāo). 均方誤差代表真實(shí)數(shù)據(jù)與擬合數(shù)據(jù)之間的差異程度,均方誤差越小,預(yù)測效果越好. 均方誤差定義如式(2)所示為
(2)
2.1.3實(shí)驗(yàn)結(jié)果與分析
將預(yù)處理后的15維984組終端安全特征數(shù)據(jù)和問卷安全數(shù)據(jù)按照80%和20%的比例分成訓(xùn)練集和測試集. 訓(xùn)練集中的數(shù)據(jù)用于進(jìn)行混合回歸模型的構(gòu)建,測試集中的數(shù)據(jù)用于對預(yù)測效果評價(jià). 混合回歸模型中,K-means算法的初始參數(shù)k=2,多層感知機(jī)算法的權(quán)重優(yōu)化器為lb fgs. 設(shè)置兩個(gè)隱藏層:第一層隱藏層有5個(gè)神經(jīng)元,第二個(gè)隱藏層有3個(gè)神經(jīng)元. 隨機(jī)數(shù)生成器的狀態(tài)為1,正則化項(xiàng)參數(shù)為1×10-5,支持向量回歸機(jī)算法選用線性核函數(shù),皆為最優(yōu)參數(shù).
實(shí)驗(yàn)結(jié)果顯示,經(jīng)過10折交叉驗(yàn)證后得到PC終端安全數(shù)據(jù)的MSE誤為4.03,移動終端安全數(shù)據(jù)的MSE誤為7.94,實(shí)驗(yàn)預(yù)測效果較好. 針對某個(gè)個(gè)體的網(wǎng)絡(luò)安全意識量化實(shí)驗(yàn)結(jié)果如圖2所示.
2.2.1實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)為984組經(jīng)過個(gè)體網(wǎng)絡(luò)安全意識量化評分后得到的數(shù)據(jù). 其中包含6維特征變量,分別為問卷安全得分中的網(wǎng)絡(luò)安全知識安全得分、網(wǎng)絡(luò)安全認(rèn)知得分、網(wǎng)絡(luò)法律倫理得分、網(wǎng)絡(luò)安全能力得分、PC終端安全得分以及移動終端安全得分.
2.2.2評價(jià)指標(biāo)
理論上理想情況下將分級算法的結(jié)果映射到直線上,各級之間不存在重疊部分且分布均衡. 因此本文選擇聚類結(jié)果經(jīng)過降維后重疊的數(shù)量ON值(overlapping number)和各類分布的標(biāo)準(zhǔn)差CSD值(class standard deviation)作為評價(jià)指標(biāo).
ON值代表聚類結(jié)果降維后重疊的數(shù)量. ON值越小說明各類重疊的數(shù)量越低,聚類算法區(qū)分不同類別的能力越好. 計(jì)算ON值,首先建立一個(gè)大小為1×984的空矩陣s;接下來分別獲取聚類結(jié)果經(jīng)過降維后得到的類別為低、中、較高、高的數(shù)據(jù)點(diǎn),然后在這些數(shù)據(jù)點(diǎn)在空矩陣中對應(yīng)的位置上加1,最后統(tǒng)計(jì)空矩陣中大于1的數(shù)量.
CSD值代表聚類結(jié)果降維后各類分布的離散程度. CSD值越大說明各類分布的離散程度越高,聚類算法區(qū)分不同類別的能力越好. 其定義如公式(3)(4)所示.
(3)
(4)
式中:N為降維后聚類得到的類別的數(shù)量4;xi為類別i=1,2,3,4映射到直線上的長度;μ為平均值,maxi為降維后類別i中包含的數(shù)據(jù)點(diǎn)坐標(biāo)的最大值;mini為降維后類別i中包含的數(shù)據(jù)點(diǎn)坐標(biāo)的最小值.
2.2.3實(shí)驗(yàn)結(jié)果與分析
分別使用K-means和RLP對經(jīng)過個(gè)體網(wǎng)絡(luò)安全意識量化后數(shù)據(jù)進(jìn)行實(shí)驗(yàn). K-means算法中簇的數(shù)量設(shè)置為4,改進(jìn)的標(biāo)簽傳播算法中折中參數(shù)為1,構(gòu)圖參數(shù)為0.7,皆為最優(yōu)參數(shù). 由于算法的結(jié)果均有一定的隨機(jī)性,因此經(jīng)過多次實(shí)驗(yàn),直至實(shí)驗(yàn)輸出ON值、CSD值的平均值穩(wěn)定為止. 其中使用TSNE降維算法將所有特征映射到直線上.
圖3顯示,本文提出的RLP算法的ON值為113.16,CSD值為11.497,K-means算法的ON為186.96,CSD為28.336. 實(shí)驗(yàn)結(jié)果表明,RLP算法在實(shí)驗(yàn)中ON值和CSD值均比K-means算法小.
2.3.1實(shí)驗(yàn)數(shù)據(jù)
構(gòu)建了11個(gè)不同數(shù)據(jù)粒度、控制變量和變量的數(shù)據(jù)集,如表2. 等級1、2、3、4分別代表個(gè)體網(wǎng)絡(luò)安全意識低、中、較高和高.
2.3.2實(shí)驗(yàn)結(jié)果與分析
使用本文提出的基于Grubbs準(zhǔn)則的群體網(wǎng)絡(luò)安全意識指數(shù)構(gòu)建方法對11個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4. 實(shí)驗(yàn)結(jié)果表明,該方法能夠弱化群體中的異常點(diǎn)對群體的影響且量化結(jié)果具有單調(diào)性.
個(gè)體網(wǎng)絡(luò)安全意識量化評分實(shí)驗(yàn)中,混合回歸模型對終端安全得分預(yù)測均方誤差均不大于10,表明基于混合回歸模型的量化方法預(yù)測效果較好. 個(gè)體網(wǎng)絡(luò)安全意識分級算法對比實(shí)驗(yàn)中,改進(jìn)的標(biāo)簽傳播算法的ON值平均比K-means少60%,CSD值平均比K-means小59.4%,證明了改進(jìn)的標(biāo)簽傳播算法對于個(gè)體網(wǎng)絡(luò)安全意識分級具有更好的效果. 群體網(wǎng)絡(luò)安全意識指數(shù)計(jì)算實(shí)驗(yàn)中,基于Grubbs準(zhǔn)則的群體指數(shù)構(gòu)建方法能夠反映群體網(wǎng)絡(luò)安全意識水平和量化群體內(nèi)部共同意識,證明了該算法能夠?qū)θ后w網(wǎng)絡(luò)安全意識進(jìn)行科學(xué)有效的評估. 表3為網(wǎng)絡(luò)安全意識評估方法功能對比. 對比4種網(wǎng)絡(luò)安全意識評估方法的功能,相對于其他3種方法,本文所述方法皆具有3個(gè)及以上功能上的優(yōu)勢,證明了本文所述方法更加全面、準(zhǔn)確.
表3 網(wǎng)絡(luò)安全意識評估方法功能對比
本文提出了一種高準(zhǔn)確度的網(wǎng)絡(luò)安全意識個(gè)體量化評估及群體指數(shù)構(gòu)建方法,該方法利用多源數(shù)據(jù),融合了主觀評判和客觀評估系統(tǒng)實(shí)現(xiàn)了3個(gè)層次的網(wǎng)絡(luò)安全意識的評估. 實(shí)驗(yàn)結(jié)果表明相對現(xiàn)有方法,該方法更加準(zhǔn)確、客觀,實(shí)現(xiàn)了網(wǎng)絡(luò)安全意識的客觀行為和主觀意識的量化表達(dá),為網(wǎng)絡(luò)安全意識的全面提升和閉環(huán)促進(jìn)提供了技術(shù)方法. 本文的方法同樣存在一些局限,采集到的移動終端和PC終端的數(shù)據(jù)為靜態(tài)行為數(shù)據(jù),未來考慮加入動態(tài)行為數(shù)據(jù),使網(wǎng)絡(luò)安全意識評估方法更加準(zhǔn)確.