亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        幾種網(wǎng)絡(luò)病毒防御系統(tǒng)的數(shù)據(jù)挖掘技術(shù)探討

        2024-02-04 08:01:44李寶密
        黑龍江科學(xué) 2024年2期
        關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

        李寶密

        (朔州師范高等??茖W(xué)校,山西 朔州 036000)

        數(shù)據(jù)挖掘技術(shù)主要包括有監(jiān)督與無監(jiān)督兩類。本研究分析了有監(jiān)督的數(shù)據(jù)挖掘技術(shù),包括分類分析與決策樹分析。針對無監(jiān)督的數(shù)據(jù)挖掘技術(shù)介紹了聚類分析、關(guān)聯(lián)分析、異類分析。探討了基于數(shù)據(jù)挖掘技術(shù)的計算機網(wǎng)絡(luò)病毒防御系統(tǒng)模塊組成,以提高計算機網(wǎng)絡(luò)病毒的防御能力。

        1 有監(jiān)督的數(shù)據(jù)挖掘技術(shù)

        1.1 分類分析

        分類分析是將數(shù)據(jù)庫中的數(shù)據(jù)映射到統(tǒng)計方法或機器學(xué)習(xí)方法等特定的類中,構(gòu)建分類模型,是一個分類過程,即提前規(guī)劃出幾個分類組,做好組別以后,按照個體數(shù)據(jù)具有的特征進行歸納分類,分配到不同組當(dāng)中。輸入信息時可用有序數(shù)組(x,y)做標(biāo)記,表示記錄的集合。有序數(shù)組中,x是具有相同特征的一類數(shù)據(jù)的集合,即屬性,y是這條記錄所屬的類別。

        分析過程的主要任務(wù)是把數(shù)據(jù)庫中的數(shù)據(jù)歸結(jié)整理后再映射到某一特定的類當(dāng)中,整個過程要完成從x到y(tǒng)的映射,后面的數(shù)據(jù)可以根據(jù)這種分類規(guī)則整理。如果將分類分析與啟發(fā)式掃描技術(shù)相結(jié)合進行數(shù)據(jù)分析,良性樣本與惡性樣本的導(dǎo)入需在培訓(xùn)中集中進行,其中屬性集合x為各種程序行為代碼。例如:如果某代碼出現(xiàn)在預(yù)設(shè)的樣本匯編指令序列中,標(biāo)記為1,如果不是,標(biāo)記為0。用Y代表Yes,用N代表No,表示此樣本是否為病毒,由此訓(xùn)練作出分類,建立模型。為判斷該模型是否有效,需利用一個既包括良性樣本又兼有惡性樣本的檢驗集,分析過程中,對數(shù)據(jù)做靜態(tài)分析通常使用支持向量機算法,對數(shù)據(jù)做動態(tài)分析通常使用集成算法。

        1.2 決策樹分析

        決策樹通過構(gòu)建一個問題的層次結(jié)構(gòu)來對測試記錄的屬性進行分類。決策樹的內(nèi)部結(jié)點表示屬性測試條件,枝干表示測試結(jié)果,最后一層葉子結(jié)點表示不同形式的狀態(tài)分配。常用的決策樹分析算法為ID3和C4.5算法[1],這兩種方法都是從下到上建立樹結(jié)構(gòu)并對其進行修剪,簡單實用。決策樹挖掘方法是將數(shù)據(jù)范圍按照數(shù)據(jù)屬性逐級縮小,逐級劃分,判斷條件處理數(shù)據(jù)。運用決策樹方法的關(guān)鍵在于確保系統(tǒng)同時滿足以下條件:建成后不能具有破壞能力;應(yīng)具備復(fù)制和傳播能力;必須具備一定的隱蔽性。這樣系統(tǒng)才能保證萬無一失,為網(wǎng)絡(luò)病毒防御提供更好的保障。

        2 無監(jiān)督的數(shù)據(jù)挖掘技術(shù)

        2.1 聚類分析

        聚類分析是將數(shù)據(jù)以不同特征聚成不同的組,是常用的數(shù)據(jù)處理方法。聚類分析過程是對數(shù)據(jù)進行劃分,根據(jù)特征分成不同的組,要求每個組中的數(shù)據(jù)相似度高,且同組數(shù)據(jù)差異經(jīng)過計算比較為最小。不同組之間的差異通過計算比較為最大,以比較出明顯不同的特征,從而進行分類。使用聚類分析方法處理數(shù)據(jù)的目的是發(fā)現(xiàn)緊密相關(guān)的觀測值組群[2],分析數(shù)據(jù)的疏密特點及全局分布特點,如圖1。

        圖1 聚類分析的三類關(guān)鍵要素Fig.1 Three key elements of cluster analysis

        如果將聚類分析方法、啟發(fā)式掃描技術(shù)、主動防御技術(shù)相結(jié)合,經(jīng)處理得到數(shù)據(jù)的行為代碼可聚集為正常和異常兩類。在異常類組中按照其異常的嚴重程度進行聚類,通過反復(fù)聚類,兩大類行為代碼被準(zhǔn)確分開,使用聚類分析方法得到類組,將其作為未知程序繼續(xù)分類的依據(jù),如表1。

        表1 三種主要的聚類方法比較

        2.2 關(guān)聯(lián)分析

        關(guān)聯(lián)分析又稱為關(guān)聯(lián)挖掘,是在數(shù)據(jù)庫中發(fā)現(xiàn)并找出強關(guān)聯(lián)特征的處理方法。常用A→B的內(nèi)含表達式來表示在數(shù)據(jù)庫中發(fā)現(xiàn)強關(guān)聯(lián)特征的模式,其中A和B代表集合。A和B兩個集合中的數(shù)據(jù)并不是完全沒有聯(lián)系的,而是存在一定的相關(guān)性。其相關(guān)性特點為簡單、時序及因果。一般用支持度(support)和置信度(confidence)來評價特定規(guī)則的強弱[3]。支持度(support)和置信度(confidence)的公式如下:

        support(A→B)=support_count(A∪B)/N

        confidence(A→B)= support_count(A∪B)/ support_count(A)

        關(guān)聯(lián)分析是找到數(shù)據(jù)庫中的關(guān)聯(lián)信息,經(jīng)計算分析出數(shù)據(jù)間的關(guān)聯(lián)規(guī)律。若數(shù)據(jù)擁有較高的支持度(support)和置信度(confidence),說明行為代碼之間存在很強的關(guān)聯(lián)性。支持度表示某個項集在所有數(shù)據(jù)中出現(xiàn)的頻率,而置信度則表示在某項條件發(fā)生時,另一項條件同時發(fā)生的概率。在網(wǎng)絡(luò)病毒檢測中,如果某兩個或多個行為代碼組合(項集A和項集B)的支持度和置信度達到預(yù)設(shè)的報警閾值,表明這些行為代碼之間存在強關(guān)聯(lián)。首先,系統(tǒng)通過導(dǎo)入良性樣本和惡性樣本數(shù)據(jù)進行訓(xùn)練。然后,系統(tǒng)記錄程序運行過程中的所有信息。在數(shù)據(jù)中,每個項都代表一個程序行為。系統(tǒng)檢索某個程序行為在樣本集中出現(xiàn)頻率,根據(jù)信息生成TRUE(1)或FALSE(0)標(biāo)記。關(guān)聯(lián)分析的關(guān)鍵在于識別可能表明安全威脅的敏感行為模式。例如,看似無害但實際上與惡意行為強相關(guān)的行為模式,一旦被檢測到,系統(tǒng)就會向用戶發(fā)出安全警報或采取防御措施刪除危險程序。Apriori算法是執(zhí)行關(guān)聯(lián)分析的常用方法,其基本思想是首先檢索出數(shù)據(jù)庫中所有的頻繁項集,即支持度不低于用戶設(shè)定閾值的項集。接著,基于頻繁項集生成滿足最小置信度要求的強關(guān)聯(lián)規(guī)則。用逐層搜索的迭代方法,找每個k項集需掃描一次數(shù)據(jù)庫,通過剪枝得到頻繁k項集,連接、篩選找到頻繁k+1項集,以此類推,直到無法找到頻繁k+1項集為止,輸出對應(yīng)的頻繁k項集的集合即可[4]。找到所有的頻繁項集后,根據(jù)頻繁項集生成關(guān)聯(lián)規(guī)則,對每個頻繁項集L的非空子集x計算置信度。Confidence(x)≥ minConfidence,則“x→(L-x)”成立。規(guī)則由頻繁項集產(chǎn)生,故每個規(guī)則都自動滿足最小支持度,只有置信度超過用戶設(shè)定的最小置信度閾值的規(guī)則才會被選取并應(yīng)用,如圖2。

        圖2 關(guān)聯(lián)分析Fig.2 Correlation analysis

        2.3 異類分析

        異類分析又稱異類挖掘,也被稱為孤立點分析,主要找出數(shù)據(jù)庫中與常規(guī)數(shù)據(jù)偏離差值較大的數(shù)據(jù),孤立點往往代表非典型或異常行為,與常規(guī)數(shù)據(jù)相比,孤立點可能揭示更高的信息價值。異常分析檢驗方法包括監(jiān)督、非監(jiān)督、半監(jiān)督。一般使用有標(biāo)記的普通樣本信息,在半監(jiān)督異常檢測中找到檢驗集中的異常樣本,發(fā)現(xiàn)異常樣本的類標(biāo)號或計分情況,再使用有標(biāo)記的正常樣本信息。系統(tǒng)運行過程中可先構(gòu)造出一個正常程序的框架,當(dāng)某個程序運行時再與框架進行比較。在基于數(shù)據(jù)挖掘( DataMining)技術(shù)的計算機網(wǎng)絡(luò)病毒防御系統(tǒng)中,工作流程分為幾個關(guān)鍵步驟。首先,識別包含潛在入侵指令的數(shù)據(jù)包,并通過預(yù)處理模塊處理、優(yōu)化數(shù)據(jù)包,以供后續(xù)分析。隨后,應(yīng)用數(shù)據(jù)挖掘技術(shù)從數(shù)據(jù)中提取規(guī)則集,即網(wǎng)絡(luò)病毒特征的集合。待檢測數(shù)據(jù)與此規(guī)則集進行匹配;若匹配度高,系統(tǒng)提示可能存在病毒,并提供手動或自動清除選項。反之,若匹配度低,表明可能遇到未知病毒,系統(tǒng)將啟動警告,并將新病毒特征添加到規(guī)則集中,以增強未來的識別能力。

        3 基于數(shù)據(jù)挖掘技術(shù)的計算機網(wǎng)絡(luò)病毒防御系統(tǒng)的組成模塊

        基于數(shù)據(jù)挖掘技術(shù)的計算機網(wǎng)絡(luò)病毒防御系統(tǒng)包含5個核心模塊:①數(shù)據(jù)源模塊,負責(zé)提供原始數(shù)據(jù)。②預(yù)處理模塊,對原始數(shù)據(jù)進行初步處理。③規(guī)則庫模塊,將數(shù)據(jù)劃分到各種特征的庫中。④數(shù)據(jù)挖掘模塊,尋找未知的模式和規(guī)律。⑤決策模塊,對處理好的數(shù)據(jù)進行決策分析并歸類,為數(shù)據(jù)處理提供依據(jù)。這些模塊相互結(jié)合形成一個數(shù)據(jù)挖掘系統(tǒng)及完善的網(wǎng)絡(luò)病毒防御系統(tǒng)。

        3.1 數(shù)據(jù)源模塊

        數(shù)據(jù)源模塊的主要任務(wù)是使用抓包程序截取網(wǎng)絡(luò)中的原始數(shù)據(jù)包,數(shù)據(jù)包不僅包含通信內(nèi)容,還攜帶了關(guān)于數(shù)據(jù)結(jié)構(gòu)和功能的重要信息,數(shù)據(jù)源模塊的效能直接決定了數(shù)據(jù)挖掘過程的質(zhì)量和效率,因為所有用于后續(xù)分析的數(shù)據(jù)都來源于此。

        3.2 預(yù)處理模塊

        預(yù)處理過程包括連結(jié)資料、資料提純、變量整合、格式轉(zhuǎn)換等。將數(shù)據(jù)包中的數(shù)據(jù)源按IP地址、目標(biāo)IP地址及端口信息等內(nèi)容進行分類、歸納、整理,由此產(chǎn)生的數(shù)據(jù)在很大程度上令數(shù)據(jù)挖掘建模的執(zhí)行效率及執(zhí)行結(jié)構(gòu)發(fā)生變化,可大大提高數(shù)據(jù)的識別度與精準(zhǔn)度。在數(shù)量龐大的初始數(shù)據(jù)中有很多不全面、不統(tǒng)一的數(shù)據(jù),為了便于整合資源,需對數(shù)據(jù)源模塊捕捉的資料信息進行預(yù)處理,優(yōu)化后期數(shù)據(jù)挖掘環(huán)境,提高數(shù)據(jù)挖掘效率。

        3.3 規(guī)則庫模塊

        規(guī)則庫模塊負責(zé)匯總病毒行為特征至規(guī)則集,指導(dǎo)數(shù)據(jù)挖掘模塊工作。通過聚類分析對病毒按照某些屬性進行劃分,準(zhǔn)確識別不同的病毒類型。聚類分析方法能有效完善規(guī)則庫并提供準(zhǔn)確的數(shù)據(jù)支持,有利于分析網(wǎng)絡(luò)病毒特征。該規(guī)則集數(shù)據(jù)庫為數(shù)據(jù)挖掘模塊工作、研究病毒特征、建立防御系統(tǒng)奠定了基礎(chǔ)。

        3.4 數(shù)據(jù)挖掘模塊

        數(shù)據(jù)挖掘(Data Mining)模塊是網(wǎng)絡(luò)病毒防御系統(tǒng)中關(guān)鍵環(huán)節(jié),由事件庫和數(shù)據(jù)挖掘算法構(gòu)成。數(shù)據(jù)源和預(yù)處理模塊提供的數(shù)據(jù)被儲存在事件庫中,然后通過各種優(yōu)化算法進行處理,以揭示數(shù)據(jù)的關(guān)鍵特征和潛在規(guī)律。處理后的數(shù)據(jù)被傳遞到?jīng)Q策模塊,用于進一步的分析和決策制定,從而提高病毒檢測和防御的效率和準(zhǔn)確性。

        3.5 決策模塊

        決策模塊在規(guī)則庫中分析數(shù)據(jù)并對處理好的數(shù)據(jù)與規(guī)則配對,若相似程度很高,計算機執(zhí)行信息中有病毒的命令。如果計算機判斷數(shù)據(jù)包中有病毒風(fēng)險,則對規(guī)則庫中的數(shù)據(jù)發(fā)出指令并及時清除病毒。當(dāng)新病毒出現(xiàn)時,數(shù)據(jù)挖掘成果與規(guī)則庫匹配度較低或完全不匹配,則預(yù)警機制提示有新病毒。規(guī)則庫模塊負責(zé)將相關(guān)數(shù)據(jù)及時歸類到規(guī)則庫,當(dāng)作新的規(guī)則類別以防再次遇到。

        4 結(jié)束語

        近年來,許多互聯(lián)網(wǎng)金融平臺都采用數(shù)據(jù)挖掘技術(shù)來防御計算機網(wǎng)絡(luò)病毒,其中比較傳統(tǒng)的是基于特征碼的病毒檢測技術(shù),而數(shù)據(jù)挖掘技術(shù)在保障數(shù)據(jù)安全方面更具優(yōu)勢。應(yīng)用數(shù)據(jù)挖掘方法可避開龐大的特征碼庫,當(dāng)再次遇到未知病毒時能夠很好地識別。但其需要耗費更多的資源和時間進行數(shù)據(jù)預(yù)處理及數(shù)據(jù)挖掘,因此要發(fā)揮數(shù)據(jù)挖掘技術(shù)優(yōu)勢,配合傳統(tǒng)的殺毒技術(shù),以實現(xiàn)對計算機網(wǎng)絡(luò)病毒的防御。

        猜你喜歡
        數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
        撐竿跳規(guī)則的制定
        “苦”的關(guān)聯(lián)
        數(shù)獨的規(guī)則和演變
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對我國的啟示
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        性一交一乱一透一a级| 中文字幕一区二区综合| 日本免费视频| 夜先锋av资源网站| 久久精品国产精品青草| 日日av拍夜夜添久久免费| 一区二区久久不射av| 亚洲av中文字字幕乱码软件| 亚洲av综合色一区二区| 国产精品av在线| 国产在线精品成人一区二区三区 | 中文 国产 无码免费| 午夜亚洲精品一区二区| 亚洲国产精品一区二区成人片国内| 国产麻豆剧传媒精品国产av| 产国语一级特黄aa大片| 亚洲国产成人久久精品美女av| 久久国产精品婷婷激情| 天天躁日日躁狠狠躁| 欧美在线区| 亚洲av性色精品国产| 亚洲精品国产一二三区| 色狠狠色噜噜av天堂一区| 91精品一区国产高清在线gif| 蜜桃一区二区三区自拍视频| 亚洲精品成人一区二区三区| 大地资源高清在线视频播放| √天堂中文官网8在线| AV中文码一区二区三区| 全亚洲高清视频在线观看| 免费国产黄网站在线观看可以下载| 欧美日韩亚洲国产千人斩| 亚洲一区二区三区天堂av| 精品免费国产一区二区三区四区| 久久99精品国产99久久6男男| www.尤物视频.com| 亚洲精品国产成人久久av盗摄| 欧美成人午夜免费影院手机在线看| 色婷婷欧美在线播放内射| 亚洲av粉色一区二区三区| 三级国产精品久久久99|