亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于欠采樣和多層集成學(xué)習(xí)的惡意網(wǎng)頁(yè)識(shí)別

        2024-03-21 01:57:52王法玉于曉文陳洪濤
        關(guān)鍵詞:分類器網(wǎng)頁(yè)機(jī)器

        王法玉,于曉文,陳洪濤

        (天津理工大學(xué) 計(jì)算機(jī)病毒防治技術(shù)國(guó)家工程實(shí)驗(yàn)室,天津 300384)

        0 引 言

        在開(kāi)展惡意網(wǎng)頁(yè)識(shí)別的研究過(guò)程中,受限于惡意網(wǎng)頁(yè)體量小生命周期短等特點(diǎn),惡意網(wǎng)頁(yè)和良性網(wǎng)頁(yè)樣本往往是不平衡的,尤其是在關(guān)注少數(shù)類問(wèn)題的時(shí)候,分類結(jié)果不均衡會(huì)更加的突出,檢測(cè)結(jié)果會(huì)更傾向于樣本數(shù)量大的類別,導(dǎo)致模型的分類效果下降。因此,對(duì)不平衡數(shù)據(jù)集的惡意網(wǎng)頁(yè)識(shí)別進(jìn)行研究是很有必要的。

        目前,惡意網(wǎng)頁(yè)檢測(cè)技術(shù)主要有3種:①黑名單技術(shù),將惡意網(wǎng)頁(yè)的域名,IP地址等信息保存到數(shù)據(jù)庫(kù),通過(guò)檢索來(lái)判定是否是惡意網(wǎng)頁(yè);②啟發(fā)式檢測(cè)技術(shù),對(duì)大量惡意網(wǎng)頁(yè)進(jìn)行分析并提取不同惡意網(wǎng)頁(yè)之間的相似特征,創(chuàng)建模板,作為啟發(fā)式規(guī)則去檢測(cè)未知的惡意網(wǎng)頁(yè);③基于機(jī)器學(xué)習(xí)的檢測(cè)技術(shù),提取惡意網(wǎng)頁(yè)和良性網(wǎng)頁(yè)存在差異的特征,運(yùn)用機(jī)器學(xué)習(xí)中的分類聚類算法(如SVM、KNN、邏輯回歸、決策樹(shù)等)對(duì)網(wǎng)頁(yè)進(jìn)行檢測(cè)[1-7]。隨著網(wǎng)頁(yè)規(guī)模迅速變大,數(shù)據(jù)集的不平衡性日益明顯[8],黑名單技術(shù)和啟發(fā)式檢測(cè)技術(shù)受限于惡意網(wǎng)頁(yè)的收集和時(shí)效差的缺點(diǎn)難以再勝任惡意網(wǎng)頁(yè)檢測(cè)任務(wù),而數(shù)據(jù)的不平衡性對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)模型的準(zhǔn)確率也提出了嚴(yán)峻的挑戰(zhàn)。

        針對(duì)上述問(wèn)題,結(jié)合處理不平衡數(shù)據(jù)集分類問(wèn)題的方法,本文設(shè)計(jì)了基于欠采樣、代價(jià)敏感和多層集成學(xué)習(xí)的惡意網(wǎng)頁(yè)識(shí)別模型。使用欠采樣處理數(shù)據(jù)樣本,達(dá)到局部數(shù)據(jù)平衡;使用代價(jià)敏感學(xué)習(xí)調(diào)整構(gòu)建第一層集成學(xué)習(xí)模型,通過(guò)權(quán)重和閾值的調(diào)整確保模型的檢測(cè)精度;使用投票方式構(gòu)成第二層集成學(xué)習(xí)模型,保證全局信息的完整性。

        1 相關(guān)知識(shí)

        1.1 處理不平衡數(shù)據(jù)集的方法

        現(xiàn)有的惡意網(wǎng)頁(yè)檢測(cè)模型基本上都是基于平衡分布的樣本,如果數(shù)據(jù)存在嚴(yán)重的不平衡,分類結(jié)果會(huì)更加傾向于樣本數(shù)據(jù)量大的類別,導(dǎo)致分類結(jié)果不均衡。

        提升不平衡數(shù)據(jù)分類問(wèn)題準(zhǔn)確度的常用做法有3種:重采樣技術(shù)、代價(jià)敏感學(xué)習(xí)、特征選擇[9]。重采樣技術(shù)對(duì)數(shù)據(jù)進(jìn)行平衡化處理主要有兩種思路,一種是過(guò)采樣,通過(guò)復(fù)制少數(shù)類,使少數(shù)類樣本與多數(shù)類樣本平衡;另一種是欠采樣,按照少數(shù)類樣本數(shù)量隨機(jī)選取同等數(shù)量的多數(shù)類樣本,從而平衡兩種樣本。采樣技術(shù)近幾年被廣泛用于處理數(shù)據(jù)不平衡問(wèn)題[10,11]。代價(jià)敏感學(xué)習(xí)是為了解決實(shí)際應(yīng)用問(wèn)題中訓(xùn)練數(shù)據(jù)不足、數(shù)據(jù)不平衡而提出的一種自己定義的損失函數(shù)模型,通過(guò)增加約束和權(quán)重條件,使最終輸出結(jié)果向一個(gè)特定的方向偏移[12]。特征選擇則是選取合適的特征子集,來(lái)增加樣本間的區(qū)分度。

        1.2 基本分類模型

        1.2.1 邏輯回歸

        邏輯回歸(logistic regression,LR)是線性模型的一種,實(shí)質(zhì)上是在線性回歸的基礎(chǔ)上,構(gòu)造的一種分類模型。常用Sigmoid函數(shù)δ(Z)=(1+e-Z)-1來(lái)展示,樣本x所屬類別y1的可能性可以表示為

        p(S=1|H)=δ(w*H+b)

        (1)

        1.2.2 支持向量機(jī)

        支持向量機(jī)(support vector machine,常簡(jiǎn)稱為SVM)作為一個(gè)比較復(fù)雜的分類算法,通過(guò)找到一個(gè)分類平面,將數(shù)據(jù)分隔在平面兩側(cè),從而達(dá)到分類的目的,是解決二分類問(wèn)題的常見(jiàn)分類算法,可以解決線性可分和不可分問(wèn)題[13]。

        本文使用的SVM算法采用的核函數(shù)是徑向基核函數(shù)(radial basis function,RBF),又叫高斯核

        (2)

        RBF可以將一個(gè)樣本映射到高緯度空間,決策邊界更為多樣化,與多項(xiàng)式核相比,參數(shù)更容易選擇。

        1.2.3 K近鄰算法

        K近鄰(K-nearest neighbor,KNN)是一種最經(jīng)典的有監(jiān)督學(xué)習(xí)方法,原理是通過(guò)尋找與新樣本最鄰近的K個(gè)樣本判斷該樣本屬于哪一類(根據(jù)K個(gè)樣本中的多數(shù)進(jìn)行劃分)。本文的K近鄰算法使用曼哈頓距離

        (3)

        1.2.4 決策樹(shù)

        決策樹(shù)分類算法(decision tree,DT)由于它具備便于了解、結(jié)構(gòu)可視化、訓(xùn)練樣本需求少、更靈活等特點(diǎn)被廣泛應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域。決策樹(shù)學(xué)習(xí)采用分而治之的策略,通過(guò)貪婪搜索來(lái)識(shí)別樹(shù)中的最佳分割點(diǎn)。決策樹(shù)學(xué)習(xí)通常由特征選擇、決策樹(shù)的生成、決策樹(shù)的修剪構(gòu)成。本文使用C4.5算法,該算法選取節(jié)點(diǎn)的依據(jù)是最大信息增益率,計(jì)算公式為

        (4)

        C4.5算法相較于ID3算法,用信息增益率來(lái)選擇劃分特征,克服了用信息增益選擇的不足,能夠處理具有缺失屬性值的訓(xùn)練數(shù)據(jù),通過(guò)剪枝技術(shù)消除噪聲和孤立點(diǎn)。

        1.2.5 樸素貝葉斯

        樸素貝葉斯(Naive Bayes)是一種有監(jiān)督學(xué)習(xí)算法,通過(guò)衡量標(biāo)簽和特征之間的概率關(guān)系來(lái)對(duì)樣本進(jìn)行預(yù)測(cè),是由基于概率論和數(shù)理統(tǒng)計(jì)的貝葉斯理論演化而來(lái)。通過(guò)條件概率和先驗(yàn)概率可以推出公式

        (5)

        樸素貝葉斯,是在貝葉斯的基礎(chǔ)上,對(duì)條件概率分布做了條件獨(dú)立性的假設(shè)。

        2 特征選取

        特征值的選取是機(jī)器學(xué)習(xí)領(lǐng)域的關(guān)鍵點(diǎn),很多時(shí)候,分類器之間的差異性對(duì)最終任務(wù)的影響是要遠(yuǎn)遠(yuǎn)小于選擇良好特征對(duì)最終結(jié)果的影響[14]。因此我們?cè)谶x取特征值上了做了充足的準(zhǔn)備,包括查閱多方相關(guān)文獻(xiàn)并總結(jié)、分析惡意和良性網(wǎng)頁(yè)的特征分布等。下面是本文選取特征的詳情。

        為了更好訓(xùn)練模型,特征選取應(yīng)該具備:①特征與特征之間要盡可能的相互獨(dú)立,因?yàn)槟P蜆?gòu)建時(shí)大多假設(shè)特征之間是相互獨(dú)立的;②特征覆蓋面要廣泛,從多個(gè)維度對(duì)惡意樣本進(jìn)行描繪;③特征要具備代表性,減少冗余特征的使用。

        基于詞匯的URL特征,在能夠取得較好檢測(cè)效果的同時(shí)又可以保證“輕量級(jí)”。在提取特征時(shí),一條URL可以被分成域名、路徑、查詢參數(shù)、錨點(diǎn)4大部分,每個(gè)部分又分別是由數(shù)字、字母以及特殊符號(hào)構(gòu)成的,根據(jù)特殊字符(例如“/”,“.”,“?”,“=”等)將URL切分為不同的token,就可以將一條URL看作是由一組token組成的向量,從而獲取到更加具體的特征。

        針對(duì)URL整體以及它的每個(gè)部分,分為基于URL整體的特征、基于域名的特征、基于路徑的特征、基于查詢參數(shù)的特征以及基于錨點(diǎn)的特征。其中的“惡意詞出現(xiàn)次數(shù)”特征所統(tǒng)計(jì)的惡意詞是根據(jù)malwaredomains.com下載的惡意域數(shù)據(jù)集統(tǒng)計(jì)出現(xiàn)次數(shù)較多的詞。流行網(wǎng)站名是根據(jù)Alexa排名前500名的網(wǎng)站數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)得到,因?yàn)楹芏鄲阂獯鼍W(wǎng)站會(huì)通過(guò)模仿知名網(wǎng)站來(lái)迷惑用戶。所有特征見(jiàn)表1。

        表1 URL詞匯特征

        3 基于欠采樣和多層集成學(xué)習(xí)的惡意網(wǎng)頁(yè)識(shí)別

        3.1 總體架構(gòu)

        本文提出了一個(gè)在不平衡數(shù)據(jù)集上基于欠采樣和多層集成學(xué)習(xí)的惡意網(wǎng)頁(yè)識(shí)別方法,通過(guò)欠采樣、閾值調(diào)整和多層集成學(xué)習(xí)等方法,針對(duì)存在不平衡的網(wǎng)頁(yè)數(shù)據(jù)集進(jìn)行研究分類。實(shí)驗(yàn)的整體架構(gòu)由網(wǎng)頁(yè)采集、數(shù)據(jù)處理、特征提取、模型訓(xùn)練4個(gè)環(huán)節(jié)構(gòu)成。整體框架如圖1所示。

        圖1 整體框架

        具體步驟可以分為:第一步,數(shù)據(jù)獲取,系統(tǒng)通過(guò)爬蟲(chóng)模塊將需要的樣本進(jìn)行獲?。坏诙?,對(duì)大量數(shù)據(jù)進(jìn)行匯總處理并對(duì)樣本做好標(biāo)簽,之后對(duì)處理完的數(shù)據(jù)按比例劃分成訓(xùn)練集,驗(yàn)證集以及測(cè)試集;第三步,對(duì)樣本進(jìn)行特征提取和計(jì)算;第四步,訓(xùn)練子分類器以及構(gòu)建兩層集成學(xué)習(xí)分類器模型。

        圖2是整體架構(gòu)中的第四步,模型訓(xùn)練過(guò)程的詳細(xì)展示:第一步,將處理過(guò)的數(shù)據(jù)集(去重、做標(biāo)簽等操作)劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集,其中測(cè)試集和驗(yàn)證集根據(jù)欠采樣的采樣方法劃分為5份;第二步,在每份數(shù)據(jù)集上對(duì)5種常規(guī)的基分類器(KNN、SVM、邏輯回歸、樸素貝葉斯、決策樹(shù))進(jìn)行模型訓(xùn)練;第三步,將訓(xùn)練好的模型在驗(yàn)證集上進(jìn)行測(cè)試,對(duì)5個(gè)基分類器的測(cè)試結(jié)果(精確度、準(zhǔn)確度、F1等評(píng)價(jià)標(biāo)準(zhǔn))分別計(jì)算權(quán)重并以文件的形式進(jìn)行保存,留待后續(xù)的集成學(xué)習(xí)使用;第四步,對(duì)測(cè)試集進(jìn)行預(yù)測(cè),進(jìn)行第一次集成學(xué)習(xí),根據(jù)第三步保存的各基分類器以評(píng)價(jià)標(biāo)準(zhǔn)計(jì)算出的權(quán)重進(jìn)行集成,通過(guò)調(diào)整閾值對(duì)測(cè)試集進(jìn)行初步的預(yù)測(cè);第五步,將上一步5組集成學(xué)習(xí)的預(yù)測(cè)結(jié)果通過(guò)Bagging投票的方式進(jìn)行再次集成并輸出最終預(yù)測(cè)結(jié)果。

        圖2 基于欠采樣和多層集成學(xué)習(xí)的惡意網(wǎng)頁(yè)檢測(cè)模型框架

        3.2 欠采樣集成學(xué)習(xí)算法

        集成學(xué)習(xí)的主要思路是將多個(gè)弱分類器通過(guò)某種繼承策略進(jìn)行組合形成一個(gè)集合多個(gè)弱分類器的優(yōu)點(diǎn)的強(qiáng)分類器。欠采樣方法能有效避免樣本不平衡帶來(lái)的分類結(jié)果的偏移[15],缺點(diǎn)是若隨機(jī)丟棄反例,可能會(huì)丟失一些重要信息,存在過(guò)擬合的問(wèn)題。集成學(xué)習(xí)可以有效解決欠采樣存在的問(wèn)題,兩者結(jié)合,能大大提升模型的分類效果。

        欠采樣集成學(xué)習(xí)步驟分為:①根據(jù)少類樣本劃分?jǐn)?shù)據(jù)集。多數(shù)類欠采樣分成多組,少類樣本與其進(jìn)行組合,形成多個(gè)訓(xùn)練集樣本;②將分類器模型在每組樣本集上進(jìn)行訓(xùn)練;③使用集成學(xué)習(xí)方法進(jìn)行集成。目前集成學(xué)習(xí)方法有Bagging、Boosting和Stacking等,本文采用Bagging方法集成,算法步驟如下。

        欠采樣集成學(xué)習(xí)算法

        輸入:

        樣本集:D={d0,d1},d1為惡意樣本集,d0為良性樣本集;

        訓(xùn)練樣本集:T={t0,t1},t1為惡意訓(xùn)練樣本集,t0為良性樣本訓(xùn)練集;

        驗(yàn)證樣本集:V={v0,v1};

        待測(cè)試樣本:c

        子樣本集數(shù)量s;

        子樣本集Di;

        良性訓(xùn)練樣本子集t0i;

        流程:

        (1)Start

        (2)初始化樣本集t1=d1*0.7,t0=d0*0.7,v1=d1*0.15,v0=d0*0.15;

        (3)根據(jù)惡意樣本訓(xùn)練集計(jì)算子樣本集個(gè)數(shù)s=t0/t1;

        (4)構(gòu)建子樣本集Di=t1+t0i,0

        (5)在每組子樣本集上訓(xùn)練5個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)模型;

        (6)考察并保存模型在驗(yàn)證集上的表現(xiàn)accji,preji,F1ji,0

        (7)計(jì)算每個(gè)機(jī)器學(xué)習(xí)模型在各自樣本上的權(quán)重αji,0

        (8)計(jì)算出每組子樣本的集成學(xué)習(xí)預(yù)測(cè)結(jié)果predictj,0

        (9)Bagging判定每個(gè)樣本c的最終結(jié)果

        (10)if ∑0 3

        (11) doc←d1

        (12)else

        (13) doc←d0

        (14)End

        實(shí)驗(yàn)提出一種基于欠采樣和集成學(xué)習(xí)相結(jié)合的算法。在欠采樣集成學(xué)習(xí)模塊,利用欠采樣處理數(shù)據(jù)樣本的思想,將多數(shù)樣本按少數(shù)樣本數(shù)量分成多份,與少數(shù)樣本構(gòu)成多組數(shù)據(jù)集,以供不同基分類器學(xué)習(xí)。該模塊實(shí)現(xiàn)了數(shù)據(jù)集上的局部平衡,之后通過(guò)下一層基于投票的集成學(xué)習(xí)保證全局信息的完整性。整個(gè)模型在保證不丟失重要信息的基礎(chǔ)上消除了不平衡數(shù)據(jù)集對(duì)預(yù)測(cè)結(jié)果的影響。

        3.3 基于權(quán)重和閾值調(diào)整的集成學(xué)習(xí)算法

        傳統(tǒng)機(jī)器學(xué)習(xí)檢測(cè)模型各有優(yōu)缺點(diǎn),應(yīng)對(duì)的場(chǎng)景也存在不同,例如邏輯回歸容易欠擬合,準(zhǔn)確率較低;樸素貝葉斯更適合小規(guī)模數(shù)據(jù);決策樹(shù)容易過(guò)擬合。單一的機(jī)器學(xué)習(xí)模型難以勝任當(dāng)下變化多樣的惡意網(wǎng)頁(yè)檢測(cè),而集成學(xué)習(xí)可以通過(guò)聯(lián)合多個(gè)弱分類器達(dá)到強(qiáng)分類器的效果,“博采眾長(zhǎng)”,彌補(bǔ)單分類器的缺陷。實(shí)驗(yàn)提出了一種基于評(píng)價(jià)標(biāo)準(zhǔn)和閾值調(diào)整的集成學(xué)習(xí)算法,將5種傳統(tǒng)機(jī)器學(xué)習(xí)模型根據(jù)在驗(yàn)證集上的表現(xiàn)進(jìn)行集成,之后通過(guò)調(diào)整閾值來(lái)控制輸出結(jié)果。

        實(shí)驗(yàn)將5種傳統(tǒng)機(jī)器學(xué)習(xí)模型(邏輯回歸、KNN、SVM、決策樹(shù)、隨機(jī)森林)進(jìn)行集成,集成思想是在訓(xùn)練完成后的驗(yàn)證階段通過(guò)計(jì)算評(píng)價(jià)標(biāo)準(zhǔn)(準(zhǔn)確率、召回率、F1等評(píng)價(jià)標(biāo)準(zhǔn))在每個(gè)模型訓(xùn)練集上十折交叉驗(yàn)證的分?jǐn)?shù),然后把該分?jǐn)?shù)相加得到總分?jǐn)?shù),最后將每個(gè)分類器的分?jǐn)?shù)與總分?jǐn)?shù)相比,得到單個(gè)分類器的權(quán)值αji(其中j表示第幾組子樣本,i表示該組中的第幾個(gè)分類器)并進(jìn)行保存,留待集成學(xué)習(xí)模型使用。

        下面是計(jì)算公式,以acc(準(zhǔn)確率)作為計(jì)算權(quán)重的標(biāo)準(zhǔn)為例

        (6)

        (7)

        其中,αj1,αj2,αj3,αj4,αj5分別代表第j組樣本中邏輯回歸、KNN、SVM、決策樹(shù)、樸素貝葉斯的權(quán)重,accji,precisionji,F(xiàn)1ji,recallji表示第j組中某個(gè)模型的準(zhǔn)確率、精確率、F1值以及召回率。通過(guò)式(6)計(jì)算出5個(gè)基分類器的權(quán)重,基分類器的檢測(cè)效果越好,權(quán)重越大。式(7)為預(yù)測(cè)某個(gè)樣本的計(jì)算公式,其中第j個(gè)樣本預(yù)測(cè)結(jié)果等于每個(gè)模型的權(quán)值乘上該模型對(duì)該樣本的預(yù)測(cè)結(jié)果,最終所有測(cè)試樣本都會(huì)得到一個(gè)介于0~1之間的數(shù)值,將其保存留待后續(xù)通過(guò)設(shè)置一個(gè)合適的閾值來(lái)得出檢測(cè)結(jié)果

        D∈y1,predictj>λ

        (8)

        D∈y0,predictj≤λ

        (9)

        如式(8)、式(9)所示,實(shí)驗(yàn)可以控制這個(gè)閾值λ,當(dāng)predictj>λ時(shí)判定為惡意。后續(xù)會(huì)對(duì)不同λ取值做消融實(shí)驗(yàn),來(lái)確定一個(gè)效果最好的λ值。

        綜上所述,本文提出的基于欠采樣多層機(jī)器學(xué)習(xí)模型在不平衡的數(shù)據(jù)集上通過(guò)欠采樣和多層集成學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)相比顯著提升了檢測(cè)效果,使之更加符合當(dāng)前惡意樣本和良性樣本嚴(yán)重失衡的使用環(huán)境。

        4 系統(tǒng)實(shí)驗(yàn)測(cè)評(píng)

        4.1 實(shí)驗(yàn)環(huán)境

        (1)硬件環(huán)境

        CPU:Intel(R) Core i5-8300H;內(nèi)存:DDR4 16 G;硬盤:1 T,7200轉(zhuǎn)/秒。

        (2)開(kāi)發(fā)環(huán)境

        開(kāi)發(fā)操作系統(tǒng):Windows 10旗艦版(64 bit);機(jī)器學(xué)習(xí)開(kāi)源框架:Scikit-learn;開(kāi)發(fā)語(yǔ)言及工具:Python3.8、STL標(biāo)準(zhǔn)模板庫(kù)、Visual Studio2016、PyCharm。

        4.2 實(shí)驗(yàn)樣本劃分及不平衡情況

        4.2.1 用于特征提取的數(shù)據(jù)集

        從malwaredomains.com等惡意域數(shù)據(jù)集收集了26 251條惡意域URL,用來(lái)提取出現(xiàn)頻率較高的惡意詞,作為后續(xù)的數(shù)據(jù)特征。

        從Alexa獲取了世界排名前500的網(wǎng)站,提取出現(xiàn)過(guò)的網(wǎng)站名稱,用來(lái)統(tǒng)計(jì)數(shù)據(jù)集中的URL出現(xiàn)流行網(wǎng)站名次數(shù)。

        4.2.2 訓(xùn)練集、驗(yàn)證集、測(cè)試集

        從kdnuggets上收集到了帶標(biāo)簽(good/bad)的URL數(shù)據(jù)集,共416 350條,用作集成學(xué)習(xí)模型的訓(xùn)練和測(cè)試數(shù)據(jù),其中異常數(shù)據(jù)(bad)71 556條,占比17.19%;正常數(shù)據(jù)(good)344 794條,占比82.81%。

        將全體數(shù)據(jù)劃分為訓(xùn)練集(70%)、驗(yàn)證集(15%)和測(cè)試集(15%),采用隨機(jī)不放回取樣,并且保證每個(gè)集合中惡意和良性樣本占比例相同。標(biāo)簽為“1”表示惡意URL,標(biāo)簽為“0”表示該URL為良性。

        4.2.3 實(shí)驗(yàn)樣本不平衡情況

        本文使用kdnuggets上帶標(biāo)簽的URL數(shù)據(jù)集,對(duì)其進(jìn)行統(tǒng)計(jì)分析后,發(fā)現(xiàn)樣本存在數(shù)據(jù)不平衡問(wèn)題,對(duì)惡意網(wǎng)頁(yè)識(shí)別分類具有一定的負(fù)面影響,良性樣本大約是惡意樣本的5倍,具體分布情況見(jiàn)表2,而這種樣本分布不平衡的現(xiàn)象在惡意網(wǎng)頁(yè)檢測(cè)領(lǐng)域是廣泛存在的。

        表2 數(shù)據(jù)集分布情況

        4.3 評(píng)價(jià)標(biāo)準(zhǔn)

        為了能說(shuō)明一個(gè)系統(tǒng)的檢測(cè)效果,需要一些評(píng)判指標(biāo),對(duì)于二分類問(wèn)題實(shí)驗(yàn)使用TP(真正例)、FP(假正例)、FN(假反例)、TN(真反例)這4個(gè)指標(biāo)進(jìn)行評(píng)估具體見(jiàn)表3。

        表3 評(píng)估標(biāo)準(zhǔn)

        實(shí)驗(yàn)還需要使用以下幾個(gè)指標(biāo)來(lái)全面衡量惡意網(wǎng)頁(yè)檢測(cè)系統(tǒng)的性能,取值0~1之間。公式為

        (10)

        (11)

        (12)

        4.4 實(shí)驗(yàn)結(jié)果與分析

        本文提出的基于欠采樣的多層集成學(xué)習(xí)分類算法在基分類器上依賴5個(gè)傳統(tǒng)的機(jī)器學(xué)習(xí)模型,實(shí)驗(yàn)設(shè)計(jì)了如下方法選出最優(yōu)的集成學(xué)習(xí)參數(shù)以及比較分類效果,找出最合理的處理不平衡數(shù)據(jù)分類的方法。

        (1)欠采樣+多層集成學(xué)習(xí)分類算法(找最優(yōu)閾值):對(duì)多類良性網(wǎng)頁(yè)樣本欠采樣出5組,與惡意網(wǎng)頁(yè)樣本組成新的數(shù)據(jù)集,每組數(shù)據(jù)都對(duì)第一層集成學(xué)習(xí)的5個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,調(diào)整第一層集成學(xué)習(xí)的閾值,找到最優(yōu)的閾值λ。

        (2)完全采樣+多層集成學(xué)習(xí)分類算法:將所有數(shù)據(jù)作為訓(xùn)練樣本和測(cè)試樣本分成5組樣本,第一層集成學(xué)習(xí)的基分類器為5個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)模型。

        (3)欠采樣+多層集成學(xué)習(xí)分類算法:對(duì)多類樣本(良性網(wǎng)頁(yè))欠采樣出5組樣本,與少類樣本組成新的數(shù)據(jù)集,每組數(shù)據(jù)都對(duì)第一層集成學(xué)習(xí)的5個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練。

        (4)過(guò)采樣+多層集成學(xué)習(xí)分類算法:對(duì)少類樣本(惡意網(wǎng)頁(yè))過(guò)采樣,復(fù)制樣本數(shù)量達(dá)到與多類樣本平衡的效果,再對(duì)第一層集成學(xué)習(xí)的5個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練。

        (5)欠采樣+單層集成學(xué)習(xí)分類算法:欠采樣出5組樣本,通過(guò)Bagging得到集成的模型。

        (6)欠采樣+傳統(tǒng)機(jī)器學(xué)習(xí)模型:欠采樣出5組樣本,對(duì)5個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練。

        第一組實(shí)驗(yàn)由上述方法(1)完成,該組實(shí)驗(yàn)?zāi)康氖钦业降谝粚蛹蓪W(xué)習(xí)的最優(yōu)閾值。實(shí)驗(yàn)分別從準(zhǔn) 確 率(acc)、精準(zhǔn)率(precision)和召回率(recall)這3個(gè)維度對(duì)不同分類算法的分類性能進(jìn)行衡量,效果如表4和圖3所示。

        圖3 不同λ取值下集成學(xué)習(xí)檢測(cè)效果

        表4 不同閾值λ下集成學(xué)習(xí)檢測(cè)效果

        表4是基于URL詞匯特征的集成學(xué)習(xí)檢測(cè)效果表(αji依據(jù)acc計(jì)算獲得),通過(guò)調(diào)節(jié)不同的λ閾值,可以得到不同的檢測(cè)效果,實(shí)驗(yàn)中共選取了4個(gè)閾值進(jìn)行了實(shí)驗(yàn)比較,通過(guò)圖3可以看出,隨著閾值變大,模型的Precision是越來(lái)越低的,而Recall則越來(lái)越高,ACC在λ=0.4時(shí)表現(xiàn)最好,之后慢慢下降,這是因?yàn)殚撝翟酱螅讲蝗菀妆慌卸閻阂?。?dāng)閾值λ=0.4時(shí)集成學(xué)習(xí)的綜合性能最好,雖然Recall略低于λ=0.3,Precision低于λ=0.5和λ=0.6,但是具有更好的準(zhǔn)確率,綜合性能也是最好的,所以整個(gè)系統(tǒng)選取λ=0.4作為后續(xù)實(shí)驗(yàn)中集成學(xué)習(xí)的閾值。

        第二組實(shí)驗(yàn)由上述方法的(2)~(4)組成,針對(duì)不平衡數(shù)據(jù)集驗(yàn)證欠采樣在集成學(xué)習(xí)上的有效性。實(shí)驗(yàn)分別通過(guò)完全采樣、欠采樣和過(guò)采樣3種不同處理數(shù)據(jù)的方法對(duì)相同的集成學(xué)習(xí)模型進(jìn)行惡意網(wǎng)頁(yè)分類研究,對(duì)比3種情境下集成學(xué)習(xí)的分類效果,得出最優(yōu)的處理不平衡數(shù)據(jù)集的數(shù)據(jù)處理方法。表5的數(shù)據(jù)對(duì)比可以看出,欠采樣方法的分類效果在準(zhǔn)確率和召回率上要遠(yuǎn)優(yōu)于完全采樣和過(guò)采樣,召回率達(dá)到94.88%,相較于完全采樣和過(guò)采樣的83.86%和81.93%,有著巨大的提升。其原因在于,完全采樣和過(guò)采樣的分類效果更偏向于多數(shù)類,導(dǎo)致檢測(cè)的召回率不盡人意。本實(shí)驗(yàn)設(shè)計(jì)的欠采樣和多層分類器結(jié)合的模型能在保證全局信息完整的基礎(chǔ)上平衡數(shù)據(jù)集,大大提高檢測(cè)模型的召回率,從而提升模型檢測(cè)的準(zhǔn)確率。

        表5 不同采樣方式檢測(cè)效果

        第三組實(shí)驗(yàn)由上述方法(2)、方法(3)、方法(5)、方法(6)組成,該組實(shí)驗(yàn)用來(lái)比較多層集成學(xué)習(xí)模型與單層Bagging集成學(xué)習(xí)模型以及傳統(tǒng)機(jī)器學(xué)習(xí)模型在檢測(cè)效果上的優(yōu)劣,數(shù)據(jù)采集上都使用欠采樣進(jìn)行處理,如表6所示,本文提出的惡意網(wǎng)頁(yè)檢測(cè)方法在檢測(cè)效果上相較于單層Bagging集成學(xué)習(xí)模型表現(xiàn)更好,準(zhǔn)確率、精確率和召回率都要優(yōu)于Bagging集成學(xué)習(xí)模型,這是因?yàn)楸緦?shí)驗(yàn)的基分類器在數(shù)據(jù)集上進(jìn)行了平衡,能更好檢出惡意網(wǎng)頁(yè)。

        表6 不同模型檢測(cè)效果對(duì)比

        表6中5種傳統(tǒng)機(jī)器學(xué)習(xí)模型,表現(xiàn)最好的為決策樹(shù),但由于數(shù)據(jù)的不平衡性,在召回率上表現(xiàn)一般。5種機(jī)器學(xué)習(xí)模型作為基分類器在各種參數(shù)上要低于集成學(xué)習(xí)也符合預(yù)期,進(jìn)一步說(shuō)明了本文提出的集成學(xué)習(xí)模型的有效性。

        通過(guò)上面多組實(shí)驗(yàn)效果對(duì)比,可以得出結(jié)論:針對(duì)不平衡數(shù)據(jù)集,使用欠采樣與集成學(xué)習(xí)相結(jié)合的方法要比傳統(tǒng)單分類機(jī)器學(xué)習(xí)方法性能上要高;采樣方法相同的情況下,多層集成方法的檢測(cè)效果要優(yōu)于單層集成學(xué)習(xí)以及傳統(tǒng)的機(jī)器學(xué)習(xí)方法。本文提出的欠采樣多層集成學(xué)習(xí)模型能夠較好處理數(shù)據(jù)不平衡的惡意網(wǎng)頁(yè)檢測(cè)問(wèn)題。

        5 結(jié)束語(yǔ)

        本文提出了一種基于欠采樣的多層集成學(xué)習(xí)分類方法,來(lái)處理惡意網(wǎng)頁(yè)識(shí)別研究中數(shù)據(jù)不平衡問(wèn)題。方法中先采用欠采樣數(shù)據(jù)處理方法得到多組訓(xùn)練樣本,之后將傳統(tǒng)的5種機(jī)器學(xué)習(xí)模型在驗(yàn)證集上的表現(xiàn)作為權(quán)重構(gòu)建第一層集成學(xué)習(xí)模型,最后通過(guò)Bagging投票方式對(duì)這多個(gè)集成結(jié)果進(jìn)一步集成得到最終的檢測(cè)結(jié)果。最終的檢測(cè)結(jié)果表明,該模型是行之有效的,能夠有效處理不平衡數(shù)據(jù)以及惡意網(wǎng)頁(yè)識(shí)別問(wèn)題。

        猜你喜歡
        分類器網(wǎng)頁(yè)機(jī)器
        機(jī)器狗
        機(jī)器狗
        未來(lái)機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
        無(wú)敵機(jī)器蛛
        国产亚洲精品色婷婷97久久久| 国产一区亚洲欧美成人| 日韩在线中文字幕一区二区三区| 美腿丝袜日韩在线观看| 成人亚洲一区二区三区在线| 欧美人妻精品一区二区三区| 国产成人精品三上悠亚久久| 国产一区二区三区中出| 少妇高潮太爽了在线视频| 亚洲熟女乱色一区二区三区| 国产美女裸身网站免费观看视频 | 成人国产高清av一区二区三区 | av永久天堂一区二区三区| 久久亚洲sm情趣捆绑调教| 国产精品亚洲综合色区丝瓜| 亚洲天堂av一区二区| 国产av无码专区亚洲av毛网站| 中文字幕亚洲无线码在一区| 日韩精品久久不卡中文字幕| 亚洲综合网国产精品一区| 无码毛片视频一区二区本码| 中文AV怡红院| 久久九九精品国产不卡一区| 三年片免费观看影视大全视频 | 日本加勒比东京热日韩| 亚洲国产91高清在线| 日韩精品专区av无码| 中文字幕无码无码专区| av毛片一区二区少妇颜射| 亚洲麻豆视频免费观看| 香港日本三级亚洲三级| 精品人妻少妇一区二区中文字幕| 免费看片的网站国产亚洲| 日本成本人片免费网站| 在线观看免费人成视频| 男女啦啦啦视频在线观看| 人人妻人人澡人人爽人人dvd| www插插插无码免费视频网站| 国产精品一区成人亚洲| 日本一区二区三区视频国产| 边做边流奶水的人妻|