高旦, 董斌, 丁小蔚
(浙江華云電力工程設(shè)計咨詢有限公司,浙江,杭州 310000)
伴隨著企業(yè)信息化的飛速普及,各種企業(yè)信息安全問題迎面而來。同時,信息安全問題具有影響范圍廣以及影響程度深等特點[1-2],當(dāng)信息安全出現(xiàn)問題很難解決和控制時,科學(xué)地對企業(yè)信息進(jìn)行風(fēng)險評估,提前做好防范措施具有十分重要的意義。國外對信息安全評估研究已經(jīng)有40多年的歷史,國外專家在早期就已構(gòu)建了國家認(rèn)證機(jī)構(gòu)與風(fēng)險評估認(rèn)證體系,現(xiàn)階段這些技術(shù)已經(jīng)發(fā)展的十分成熟。在國外已有技術(shù)的基礎(chǔ)上,國內(nèi)相關(guān)專家提出了一些較好的研究成果,例如王少英等[3]采用帶有非凸懲罰的SVM模型對影響中小企業(yè)信息的風(fēng)險因素進(jìn)行分析,同時通過LassoSVM完成相關(guān)變量的選擇以及對應(yīng)參數(shù)計算,以此為依據(jù)構(gòu)建信用風(fēng)險評估模型。孟慶勇等[4]對煤礦實施的安全條例進(jìn)行特征轉(zhuǎn)換,構(gòu)建對應(yīng)的關(guān)聯(lián)系數(shù)矩陣。計算危險發(fā)生系數(shù)以及更高等級風(fēng)險發(fā)生的概率,組建安全風(fēng)險評估模型。在上述兩種方法的基礎(chǔ)上,結(jié)合數(shù)據(jù)挖掘技術(shù),提出一種基于數(shù)據(jù)挖掘的企業(yè)信息風(fēng)險評估方法。經(jīng)實驗測試證明,本文方法具有良好的數(shù)據(jù)挖掘能力,同時還能夠有效提升評估效率和評估結(jié)果的準(zhǔn)確性。
灰色建模是進(jìn)行灰色預(yù)測以及灰色決策建模的基礎(chǔ)[5-6],在設(shè)定條件下,主要通過導(dǎo)數(shù)對序列的主要特性進(jìn)行了分析。
當(dāng)序列滿足準(zhǔn)光滑條件時,通過多次累加即可形成對應(yīng)的序列,進(jìn)而構(gòu)建灰色模型,對應(yīng)序列X的表達(dá)式為
X=(x(1),x(2),…,x(n))
(1)
構(gòu)建累差矩陣A和B,獲取以下形式的計算式:
(2)
(3)
采用式(4)表示h個序列n階微分方程對應(yīng)的動態(tài)模型GM(n,h):
(4)
式中,d(n)和tn代表系數(shù)向量,al代表變量。
為了有效對建模的質(zhì)量和系統(tǒng)進(jìn)行分析,對于收集到的初始數(shù)據(jù)進(jìn)行變換和處理,消除量綱以及可比性。
采用關(guān)聯(lián)分析中常用的數(shù)據(jù)變換對齊進(jìn)行歸納處理,具體如式(4):
(5)
式中,M、N以及Nt分別代表不同指標(biāo)集對應(yīng)的下標(biāo)集合。
為了更好完成對灰色關(guān)聯(lián)序列的有效分析[7-8],首先需要構(gòu)建一套相對完成的灰色關(guān)聯(lián)理論體系,同時對關(guān)聯(lián)度進(jìn)行計算,如式(5):
(6)
式中,r(x0,xl)代表關(guān)聯(lián)度,x0(k)代表位移差,xi(k)代表斜率。
灰色聚類分析主要是以灰色關(guān)聯(lián)度為基礎(chǔ)的聚類分析方法,主要將其應(yīng)用于相同因素的合并,促使復(fù)雜的系統(tǒng)變得簡單化。在上述分析的基礎(chǔ)上,將灰色關(guān)聯(lián)分析理論與灰色聚類方法兩者進(jìn)行有效結(jié)合,最終實現(xiàn)企業(yè)信息挖掘[9-10]。
由于企業(yè)信息具有數(shù)量多、處理時效高等特點,假設(shè)采取人工處理,會導(dǎo)致成本和處理時間增加。為了更好實現(xiàn)企業(yè)信息風(fēng)險評估,需要優(yōu)先構(gòu)建企業(yè)信息風(fēng)險評估體系,分析企業(yè)現(xiàn)階段的管理情況,采用數(shù)據(jù)挖掘方法構(gòu)建可量化的數(shù)學(xué)模型。評估指標(biāo)的選取對于評估結(jié)果具有十分重要的意義,因此在選取評估指標(biāo)的過程中,需要結(jié)合我國的國情,制定企業(yè)風(fēng)險評估指標(biāo)需要遵循的首要原則。在備選評估體系指標(biāo)的過程中,主要借助問卷調(diào)查方式。通過匿名問卷調(diào)查的方式征詢我國相關(guān)專家的意見,對獲取的全部意見進(jìn)行歸納、統(tǒng)計、整理和分析,客觀綜合多方專家的意見,最終確定企業(yè)信息風(fēng)險因素。其中,評估指標(biāo)的篩選主要從以下兩個方面進(jìn)行。
(1) 對風(fēng)險要素的篩選
對風(fēng)險要素的篩選主要就是對資產(chǎn)、威脅源與攻擊行為等確定的。通過企業(yè)的實際運行情況確定企業(yè)的資產(chǎn)信息,對企業(yè)的歷史運行狀態(tài)和威脅情況進(jìn)行分析,最終確定危險源以及其他攻擊行為。
(2) 對企業(yè)安全要素組合進(jìn)行篩選
針對企業(yè)而言,除了一些因素可能存在意外,還有一些組合也有可能是不可行的。
優(yōu)先對企業(yè)的經(jīng)營現(xiàn)狀進(jìn)行分析,同時確定建模數(shù)據(jù)的主要來源,對采集到的數(shù)據(jù)依次進(jìn)行預(yù)處理和清洗等操作,詳細(xì)的操作步驟如下。
優(yōu)先清除和建模不存在任何關(guān)聯(lián)的評估指標(biāo),由于源數(shù)據(jù)庫包含的很多指標(biāo)和企業(yè)信息評估并沒有過大的關(guān)聯(lián),所以需要將其在數(shù)據(jù)庫中清除。然后,對剩余的數(shù)據(jù)進(jìn)行格式化統(tǒng)一操作,將其放置在同一服務(wù)器中。對于小部分不滿足需求的數(shù)據(jù),需要進(jìn)行屬性轉(zhuǎn)換。最后,為了有效避免數(shù)據(jù)質(zhì)量問題的形成,需要對全部數(shù)據(jù)進(jìn)行清洗[11]。
為了簡化模型的計算復(fù)雜度,針對全部備選指標(biāo)進(jìn)行分組處理。企業(yè)信息風(fēng)險評估體系的建立為我國企業(yè)的發(fā)展提供了有效的決策信息,整個評估體系主要由9個評估指標(biāo)組成,具體如圖1所示。
圖1 企業(yè)信息風(fēng)險評估體系
在企業(yè)風(fēng)險評估體系中,需要借助三角模糊熵理論有效克服數(shù)據(jù)量不完整問題[12-13],促使評估結(jié)果更加貼合實際,有效提升評估結(jié)果的可靠性和有效性。
正向指標(biāo)主要是指信息安全狀態(tài)以及和指數(shù)值成正比的指標(biāo),即指標(biāo)取值越大,則信息安全狀況就越好,對應(yīng)的正向指標(biāo)打分公式dij為
(7)
式中,j代表評估對象,n代表被評估對象的總數(shù),Vij代表第j個評估對象第i個指標(biāo)的取值。
負(fù)向指標(biāo)主要是指指標(biāo)信息安全狀況和指數(shù)成反比的指標(biāo),同時也說明指數(shù)取值越小,企業(yè)的信息安全性越高。利用式(7)給出負(fù)向指標(biāo)對應(yīng)的打分公式dkj:
(8)
式中,Vkj代表第j個評估對象第k個指標(biāo)的取值。
適中指標(biāo)主要是指評估指標(biāo)值越接近任意規(guī)定數(shù)值越好的指標(biāo)。通過將溫度控制等相關(guān)指標(biāo)設(shè)定為適中指標(biāo),全面提升評估結(jié)果的準(zhǔn)確性。其中,適中指標(biāo)的打分公式dlj如下:
(9)
式中,Vj0代表評估指標(biāo)額的適中值,Vlj代表第j個評估對象第l個指標(biāo)的取值。
最佳區(qū)間指標(biāo)主要是指指標(biāo)值滿足任意特定的合理區(qū)間內(nèi)指標(biāo),可以避免評估結(jié)果的片面性,有效確保評估結(jié)果的準(zhǔn)確性。適中區(qū)間最佳區(qū)間打分公式可以表示為
(10)
式中,fij代表權(quán)數(shù)的取值范圍。
通過三角模糊法確定指標(biāo)權(quán)重值,優(yōu)先設(shè)定三角模糊數(shù)rl,對應(yīng)的隸屬度函數(shù)可以表示為
(11)
式中,aij、bij和cij代表模糊程度。
確定專家評估權(quán)重集E:
E={e1,e2,…,ek}
(12)
當(dāng)模糊權(quán)重確定以后,主要將熵權(quán)和三角模糊兩者進(jìn)行線性組合,構(gòu)建企業(yè)信息風(fēng)險評估模型Rij[14],根據(jù)建立的模型進(jìn)行評估:
(13)
(14)
式中,q1和q2分別代表指標(biāo)最佳區(qū)間的下限和上限。
設(shè)定xij代表第i個被評估企業(yè)的第j個指標(biāo)的觀測數(shù)據(jù),n代表被評估對象的總數(shù),m代表第i個被評估對象的指標(biāo)總數(shù)。對于任意一項指標(biāo)而言,觀測數(shù)據(jù)xij的差異性越大,則說明該項指標(biāo)對系統(tǒng)的作用就比較大。其中,熵主要用來衡量信息的不確定性;當(dāng)熵的取值增加,對應(yīng)的信息量就會降低;反之,則信息量增加。通過熵值法確定指標(biāo)權(quán)數(shù)的具體操作步驟如下所示:
(1) 計算第i個對象和第j個指標(biāo)的特征比重。
(2) 通過熵值計算公式獲取第j個評估指標(biāo)的熵值ej。
根據(jù)以上過程,實現(xiàn)了基于數(shù)據(jù)挖掘的企業(yè)信息風(fēng)險評估。
本文實驗均在一臺操作系統(tǒng)為Windows 10的筆記本電腦中進(jìn)行,利用MATLAB軟件進(jìn)行模型測試。為了驗證所提基于數(shù)據(jù)挖掘的企業(yè)信息風(fēng)險評估的有效性,選取J供電企業(yè)作為測試對象,針對信息安全問題,對專家、企業(yè)管理人員、技術(shù)人員等進(jìn)行采訪和統(tǒng)計,選取企業(yè)資產(chǎn)機(jī)密性、完整性和可用性作為指標(biāo),利用三角模糊法確定指標(biāo)權(quán)重值,包括機(jī)密性指標(biāo)權(quán)重為0.5,完整性指標(biāo)權(quán)重為0.3,可用性指標(biāo)權(quán)重為0.2,基于此,對企業(yè)資產(chǎn)進(jìn)行分類,對其價值進(jìn)行賦值,由此得到下表1。
表1 企業(yè)資產(chǎn)價值及等級表
根據(jù)提上數(shù)據(jù),選取企業(yè)信息的分類精度和企業(yè)信息挖掘平均時間作為測試指標(biāo),利用本文方法對該企業(yè)數(shù)據(jù)進(jìn)行挖掘,測試其數(shù)據(jù)挖掘能力。其中,當(dāng)分類精度在85%以上,信息挖掘平均時間在25 s以下,則說明所提方法具有良好的數(shù)據(jù)挖掘能力。具體實驗測試結(jié)果如圖2、圖3所示。
圖2 企業(yè)信息分類精度測試結(jié)果
分析圖2和圖3中的實驗數(shù)據(jù)可知,本文方法能夠以較短的時間和較高的分類精度完成企業(yè)信息挖掘,充分說明本文方法具有比較好的數(shù)據(jù)挖掘能力。
為了更進(jìn)一步驗證本文方法的評估能力,選取文獻(xiàn)[3]方法和文獻(xiàn)[4]方法作為對比對象,將風(fēng)險事件發(fā)生概率設(shè)定為5個等級,具體如下所示:
(1) 一級(100%~85%);
(2) 二級(84%~70%);
(3) 三級(69%~60%);
(4) 四級(59%~50%);
(5) 五級(49%以下)。
利用表2給出3種評估方法的風(fēng)險評估結(jié)果:
表2 不同方法的評估結(jié)果測試對比
對表1中的實驗數(shù)據(jù)進(jìn)行分析可知,本文方法能夠獲取更加精準(zhǔn)的企業(yè)信息安全風(fēng)險評估結(jié)果。由于在進(jìn)行風(fēng)險評估前期,對企業(yè)內(nèi)的全部信息進(jìn)行深入挖掘,充分掌握各種信息的屬性,有效為后續(xù)的風(fēng)險評估提供一定的數(shù)據(jù)支持,確保評估結(jié)果的準(zhǔn)確性。
以下實驗測試對比3種不同方法的評估效率,具體實驗結(jié)果如圖4所示。
圖4 不同方法的評估效率測試結(jié)果對比
分析圖4中的實驗數(shù)據(jù)可知,本文方法的評估效率明顯優(yōu)于另外兩種方法,更進(jìn)一步驗證了本文方法的優(yōu)越性。
針對傳統(tǒng)方法存在的一系列問題,設(shè)計并提出一種基于數(shù)據(jù)挖掘的企業(yè)信息風(fēng)險評估方法。經(jīng)實驗測試證明,本文方法不僅能夠提升評估結(jié)果的準(zhǔn)確性,同時能夠有效增加評估效率,具有良好的數(shù)據(jù)挖掘能力。本文方法現(xiàn)階段取得了比較滿意的研究成果,但是仍然還存在一定的不足,后續(xù)將對其展開更深層次的研究。