◆李永紅
(河南省外貿學校 河南 450002)
大數據在互聯(lián)網安全防御中的應用與研究
◆李永紅
(河南省外貿學校 河南 450002)
隨著互聯(lián)網的普及和發(fā)展,其已經在很多行業(yè)得到廣泛使用,取得了顯著的應用成效。互聯(lián)網即為人們的工作、學習、生活提供了便捷支撐,同時也帶來了潛在的安全威脅,造成互聯(lián)網應用系統(tǒng)的安全風險非常大,非常容易產生不可估量的經濟損失。同時,互聯(lián)網運行項目的增多,數據量也急劇上升,因此傳統(tǒng)的安全防御技術已經無法支撐當前互聯(lián)網應用和操作需求,亟需采用先進的大數據技術,利用數據挖掘、模式識別從海量的網絡數據中發(fā)掘潛在的病毒和木馬信息,從而可以識別網絡中的安全威脅造成的后果嚴重程度,進而啟動深層次的防御系統(tǒng),及時將安全威脅清除掉,保證網絡正常運行。
大數據;互聯(lián)網;BP神經網絡;支持向量機;K均值
互聯(lián)網技術的快速發(fā)展促進了政企單位普及和使用電子政務、電子商務、智能旅游、在線學習、物流倉儲、智能家居、金融證券等領域的快速發(fā)展,各行各業(yè)已經積累了海量的應用數據資源,并且持續(xù)呈現(xiàn)幾何級數增長,已經使人們從信息資源匱乏的時代過渡到信息豐富時代,有力提升了人們的生活質量和水平[1]。大數據分析技術主要包括兩個關鍵類別,分別是有監(jiān)督分析技術和無監(jiān)督分析技術。有監(jiān)督分析技術包括貝葉斯理論、支持向量機、BP神經網絡;無監(jiān)督分析技術包括密度聚類、信息論、K均值、譜聚類等[3]。
有監(jiān)督分析方法需要充分利用人們的經驗知識,構建一個大數據分析模型,同時針對這個學習模型進行訓練,以便能夠保證大數據分析的精確度;無監(jiān)督學習方法不需要利用任何的經驗知識,系統(tǒng)可以自動的利用統(tǒng)計理論從海量數據中挖掘潛在的有價值信息,自動生成一個個學習模式[4]。BP神經網絡能夠按照統(tǒng)計學規(guī)則,實現(xiàn)誤差逆?zhèn)鞑?,是一種多層次的前饋神經網絡,目前已經在多個機器學習和模式識別領域得到廣泛普及。BP神經網絡通過自學習形成一個強大的支持網絡結構,并且利用當前最為流行的梯度下降方法,不斷地調整網絡的結構、權值和閾值,降低網絡的誤差平方和,準確的提取相關的數據隱含模式信息。數據處理過程中,輸入層可以接收所有數據,并且將這些數據傳輸給中間層的神經元,神經元可以負責數據信息處理、變換,并且能夠根據信息變化能力的需求,改變和整合中間層結構數據流經過識別和處理之后,就可以從中間層分發(fā)到輸出層,這樣就可以完成一次學習過程,將BP神經網絡訓練成為一個準確度非常高的模型,還可以通過誤差梯度下降等修正各個層次的權值,向隱藏層逐級反饋,實現(xiàn)反向傳播和修正,提高數據識別精確度[5]。支持向量機是一種性能強大的數據分析技術,其可以解決樣本數量較少、非線性或高維模式數據分析,比如能夠推廣到函數擬合的其他類型數據分析問題中,可以更好地分析數據、識別模式,用于分類和回歸分析。
目前,互聯(lián)網安全威脅經過多年的增長,已經呈現(xiàn)出爆發(fā)式增長模式,經過我國互聯(lián)網部門的統(tǒng)計和分析,黑客每年發(fā)起的互聯(lián)網病毒、木馬攻擊數以萬億次,截止到2016年底,我國互聯(lián)網應用系統(tǒng)由于安全威脅攻擊產生的損失多達4000億人民幣,金融銀行、證券投資、政府機構等均是互聯(lián)網攻擊的重點,并且互聯(lián)網攻擊呈現(xiàn)出了新型特點,比如安全威脅攻擊更加隱蔽、攻擊渠道更多、病毒木馬潛藏周期更長、攻擊速度也更快。目前,由于金融銀行、政府機構均開始普及信息化系統(tǒng),并且為了提供給更高、更快和更實時的信息系統(tǒng)服務,人們已經開始引入更加先進的光纖接入設備,包括光纖接入終端 ONT、光纖分發(fā)單元ONU、光纖陣列服務器、光纖交換機,同時接入的用戶端設備也包括臺式機、筆記本、智能手機、平板電腦、傳感器、家用電器等,形成了強大的物聯(lián)網、車聯(lián)網等,因此這些軟硬件資源集成在一起時,由于不同的開發(fā)框架和實現(xiàn)技術融合在一起形成了各類型的漏洞,導致互聯(lián)網遭受攻擊的渠道更多。許多互聯(lián)網病毒、木馬采用先進的面向對象、面向過程等技術,這些技術開發(fā)的攻擊威脅更加智能,并且采用了更加正常的偽裝嵌入到正常應用程序和軟件中,因此埋伏的更加隱蔽,不易被殺毒軟件發(fā)現(xiàn)。由于互聯(lián)網采用光纖通信技術,因此一旦某個應用系統(tǒng)遭受到病毒或木馬感染之后,其會首先在互聯(lián)網中得到快速傳播,感染更多的服務器,主機和服務器爆發(fā)嚴重的安全事故,非常容易給網絡帶來嚴重的災難,因此更加容易帶來安全嚴重損失。
因此,利用大數據技術可以構建一個病毒、木馬識別模型,并且針對這個模型進行訓練,提高數據發(fā)現(xiàn)的準確度,數據挖掘利用自學習功能,可以利用互信息距離作為相似性評價和度量指標,采用無監(jiān)督分析模式,通常兩個數據對象的距離越近,這兩個數據對象的相似性就會越大。通常情況下,網絡安全攻擊威脅數據自身都有特別的符號,具有內在的相似性行為和特征,系統(tǒng)可以針對這些數據進行分析和評價,從而不需要指定數據的類別標簽就可以獲取文本內部結構,將數據匯聚在一起,實現(xiàn)病毒和木馬數據挖掘。具體的大數據挖掘模型如圖1所示。
圖1 互聯(lián)網大數據挖掘模塊
目前,互聯(lián)網采用了高速的光纖通信和4G移動通信技術,數據傳輸的速度已經達到千兆網、萬兆網時代,其中病毒和木馬傳輸速度更快,因此互聯(lián)網防御面對更加嚴峻的形勢。本文提出采用先進的大數據挖掘技術構建自動化安全威脅識別技術,實現(xiàn)一個強大的網絡安全系統(tǒng),能夠快速、實時地從系統(tǒng)中發(fā)現(xiàn)潛在的安全威脅數據,這樣就可以提高互聯(lián)網防御性能,提高互聯(lián)網正常運行的性能。
[1]樊璐瑩.基于大數據的網絡安全防御技術及模型[J].計算機光盤軟件與應用,2015.
[2]丁佳.基于大數據環(huán)境下的網絡安全研究[J].網絡安全技術與應用, 2014.
[3]管磊,胡光俊,王專.基于大數據的網絡安全態(tài)勢感知技術研究[J].信息網絡安全, 2016.
[4]魏國.大數據在網絡安全領域的應用研究[J].網絡安全技術與應用,2016.
[5]王勝利.基于大數據聚類算法在網絡安全中的應用[J].網絡安全技術與應用, 2016.