◆楊 銘
(常熟理工學院 江蘇 215500)
在當今社會,隨著計算機技術(shù)的爆炸式發(fā)展,云計算和大數(shù)據(jù)技術(shù)被普遍應(yīng)用,一方面相對于傳統(tǒng)網(wǎng)絡(luò)來講帶來了運算力和存儲空間的巨大提升,用戶可脫離本地計算機將數(shù)據(jù)在云端進行計算和存儲,大大減少了由于用戶本身由于計算機技術(shù)的不足而帶來感染病毒風險。另一方面,由于萬物聯(lián)網(wǎng),網(wǎng)絡(luò)病毒無孔不入,一旦pc機被病毒攻擊,很可能造成不可挽回的損失。
(1)網(wǎng)絡(luò)病毒種類多且變化快
從20世紀第一種蠕蟲病毒由于作者的操作失誤在美國爆發(fā)后,網(wǎng)絡(luò)病毒的發(fā)展就一發(fā)不可控制。如今,網(wǎng)絡(luò)病毒無處不在,電子郵件,安裝包,不良網(wǎng)頁,操作系統(tǒng)和軟件的漏洞,這些都是網(wǎng)絡(luò)病毒入侵的高發(fā)區(qū)。
(2)傳播方式廣泛,擴散快
口令入侵:通過使用網(wǎng)絡(luò)中合法用戶的口令或賬戶登入主機主機進行破壞(首先要破譯用戶口令和賬號)。
WWW欺騙技術(shù):黑客將網(wǎng)站和網(wǎng)頁信息進行篡改,并且將url篡改為黑客的計算機服務(wù)器,當用戶訪問這些網(wǎng)頁時就會被黑客攻擊。
電子郵件攻擊:通過cgi程序或者炸彈軟件來向目標用戶郵箱發(fā)送大量垃圾郵件,占用網(wǎng)絡(luò)流量最終導(dǎo)致癱瘓。根據(jù)2017年MessageLabs的統(tǒng)計結(jié)果顯示,平均每100封電子郵件就會有一封電子郵件包含網(wǎng)絡(luò)病毒。
病毒的傳播速度極快,網(wǎng)絡(luò)中所有客戶端都有被感染的風險。以Morris蠕蟲病毒為例,在短短12小時內(nèi)導(dǎo)致超過6000臺客戶端癱瘓或半癱瘓。
(3)病毒的攻擊原理
第一種方式:攻擊者通過將病毒代碼替換到用戶的某個程序模塊中。此種攻擊方式由于針對性極強,往往會針對某一特定的軟件進行攻擊,所以此種攻擊方式最難防護和檢查,即使檢測出計算機被攻擊也很難徹底清除。
第二種方式:通過將病毒代碼嵌入至源代碼中,此種病毒往往可以直接進行編譯執(zhí)行。形成病毒要執(zhí)行的目標文件。第三種方式為攻擊者將病毒的前后嵌入病毒程序,在執(zhí)行程序之前會觸發(fā)病毒程序的提前運行。最常見的一種則是對計算機的文件程序進行修改,讓計算機部分文件程序喪失原本的功能以破壞計算機的正常運行。
(4)破壞性極強
被病毒感染的計算機會造成網(wǎng)絡(luò)癱瘓,數(shù)據(jù)丟失,機密盜竊等一系列嚴重的后果。甚至會導(dǎo)致計算機完全被對方控制,進一步造成更大的不可挽回的損失。
在如今互聯(lián)網(wǎng)技術(shù)爆炸式發(fā)展的同時,網(wǎng)絡(luò)病毒不斷升級和進化,但是病毒的數(shù)據(jù)特征也較為明顯,數(shù)據(jù)挖掘技術(shù)是今年來計算機技術(shù)的熱門方向,數(shù)據(jù)挖掘則是通過對大量數(shù)據(jù)的總結(jié)和分析歸類出病毒代碼的特征與規(guī)律。相比于傳統(tǒng)的防火墻技術(shù),數(shù)據(jù)挖掘在搜索隱藏在系統(tǒng)內(nèi)部的病毒代碼更有優(yōu)勢。同時在一定程度上能夠彌補防御技術(shù)總是滯后于新病毒的誕生這一無法避免的劣勢。數(shù)據(jù)挖掘能在大量信息中挖掘出計算機系統(tǒng)內(nèi)部的病毒代碼,基于以上條件則是數(shù)據(jù)挖掘技術(shù)對病毒進行識別的基礎(chǔ)。決策樹算法,聚類分析,回歸分析,布爾關(guān)聯(lián)等等一系列的算法都能夠滿足快速對病毒代碼進行識別的要求。病毒的特質(zhì)之一則是在計算機系統(tǒng)能夠無限制的繁衍和自我復(fù)制,或者數(shù)據(jù)類型的更替迭代,基于以上特征則可以快速判斷出一個計算機系統(tǒng)是否已經(jīng)遭到病毒入侵。與此同時,數(shù)據(jù)挖掘技術(shù)也會結(jié)合規(guī)則庫和數(shù)據(jù)庫中對以往病毒的特征記錄進行總結(jié),為主動防御病毒提供更具體的依據(jù)和參數(shù)。在計算機技術(shù)不斷發(fā)展的同時,嘗試用新技術(shù)去解決老問題是一個值得關(guān)注研究方向。而數(shù)據(jù)挖掘技術(shù)解決了一些以往難以克服的難題,所以基于數(shù)據(jù)挖掘技術(shù)的安全系統(tǒng)的研究是一個很重要的研究方向。
(1)數(shù)據(jù)源模塊
數(shù)據(jù)源模塊是計算機通過網(wǎng)絡(luò)將各種數(shù)據(jù)在計算機中保存以提供給后續(xù)模塊進行分析。
物理防治主要采用防蟲網(wǎng)隔離防護,黃板誘殺等措施。生物防治主要采用抗生菌治蟲,阿維菌素防治美洲班潛蠅及螨類,瀏陽霉素和華光霉素防治紅蜘蛛和茶黃螨,苦參等植物源農(nóng)藥防治多種害蟲;抗生素治病,農(nóng)抗120灌根可防治瓜類枯萎病,噴霧可防治瓜類白粉病、番茄早疫病等,武夷菌素防治瓜類黑星病、番茄葉霉病效果較好。黃瓜的霜霉病,番茄的灰霉病可以采用生態(tài)防治法,通過調(diào)節(jié)棚溫的方法控制病害蔓延。
(2)數(shù)據(jù)預(yù)處理模塊
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘進行病毒防御的關(guān)鍵時期。病毒是通過代碼的方式攻擊計算機,所以通過數(shù)據(jù)預(yù)處理,可以將大量的代碼進行篩選,并和病毒庫中的代碼進行比對分析,從而進行排除和防御。同時數(shù)據(jù)預(yù)處理還包括源ip,對病毒ip位置定位。在確定病毒傳播信息后可以對病毒進行封鎖,從而提高防御效率。
(3)規(guī)則庫模塊
規(guī)則庫模塊是數(shù)據(jù)挖掘用于病毒檢測的基礎(chǔ)。規(guī)則庫中所保存的是已知病毒內(nèi)在關(guān)聯(lián)規(guī)律的集合,規(guī)則庫記錄下病毒攻擊終端機時的數(shù)據(jù)規(guī)律和信息規(guī)律以及軌跡規(guī)律,后期進行聚類分析,深度挖掘就可以得到這些病毒的內(nèi)在規(guī)律。并且不斷擴充新病毒的規(guī)律特征,為以后的防御工作增加效率。
(4)數(shù)據(jù)挖掘模塊
此模塊是防御病毒的核心,由事件庫和數(shù)據(jù)挖掘算法組成。數(shù)據(jù)挖掘算法是檢測病毒的關(guān)鍵,計算機的防御決策通過數(shù)據(jù)挖掘算法的結(jié)果來決定。
(5)決策模塊
(1)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中一個重要的組成,數(shù)據(jù)挖掘就是通過算法得出潛在的病毒信息,而關(guān)聯(lián)規(guī)則可以推斷出病毒之間背后的關(guān)聯(lián),結(jié)合發(fā)現(xiàn)的內(nèi)在關(guān)聯(lián)可以根據(jù)某個已知的對象推斷出另一個對象,或者是根據(jù)已知的信息推斷出未知信息。
(2)分類分析
分類分析可以在大量的數(shù)據(jù)集中分類提取一個數(shù)學模型,并依靠分類分析的結(jié)果將數(shù)據(jù)集中的對象進行歸類,歸結(jié)到某個已知的對象類中。從機器學習的角度來講 ,分類分析是基于有引導(dǎo)性的機器學習,基于每個訓(xùn)練樣本被標識,通過學習就可以實現(xiàn)類對象與類標識之間的表達。
(3)聚類分析
聚類分析的主要功能是將各個數(shù)據(jù)按照某種算法進行分析,聚類,遵照特定的方法,特征把數(shù)據(jù)信息分為不同的類別。每個類別之間有明顯的區(qū)別,從而分出多組有代表性特征的類別。有利于引導(dǎo)數(shù)據(jù)庫對病毒的分類,以提供更高的防御效率。
(4)異類分析
異類分析也稱為孤立點分析,孤立點是指數(shù)據(jù)集中存在的小模式數(shù)據(jù),執(zhí)行錯誤或者固有的數(shù)據(jù)變異都可能導(dǎo)致孤立點的產(chǎn)生。在Hswkins對孤立點的定義中指出,孤立點是數(shù)據(jù)集所有數(shù)據(jù)中獨特的數(shù)據(jù),因為它的與眾不同所以常常讓研究者認為這些孤立點的誕生并不是隨機的,而是在完全不同的機制下產(chǎn)生的。孤立點的挖掘具體體現(xiàn)在兩點,一是在確定的數(shù)據(jù)集中找出何種類型的數(shù)據(jù)可以被確定為不一致的數(shù)據(jù);二是尋找出一個高效的方式來挖掘出孤立點。
計算機已經(jīng)深入到我們生活中的每一處。計算機病毒隨著計算機的發(fā)展而越來越復(fù)雜,隨著更多新技術(shù)的誕生,擁有更強大計算力的計算機的投入使用,病毒的防御手段也得到極大發(fā)展。這場矛與盾的對決從未停止,也將會一直繼續(xù)下去。而我們應(yīng)當利用技術(shù)的發(fā)展,突破傳統(tǒng)思維去應(yīng)對挑戰(zhàn)。