亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法

        2022-11-25 07:26:02陳偉榮
        關(guān)鍵詞:冗余度邊界準(zhǔn)確率

        蔡 穎,陳偉榮

        (中國(guó)電子科技集團(tuán)第二十八研究所 第一研究部,江蘇 南京 210001)

        0 引 言

        異常檢測(cè)作為入侵檢測(cè)技術(shù)中的一個(gè)重要分支,基本思想是先建立正常的行為模式,再通過(guò)計(jì)算待檢測(cè)行為與正常行為模式之間的偏離程度,來(lái)判斷待檢測(cè)行為是否異常。其優(yōu)點(diǎn)是能夠有效地檢測(cè)出新的異常類型,缺點(diǎn)是較難建立精確描述正常行為的模型。目前,異常檢測(cè)算法主要分為基于統(tǒng)計(jì)[1-3]的異常檢測(cè)算法、基于特征選擇[4-6]的異常檢測(cè)算法、基于神經(jīng)網(wǎng)絡(luò)[7-9]的異常檢測(cè)算法和基于數(shù)據(jù)挖掘技術(shù)[10-12]的異常檢測(cè)算法4類。這些傳統(tǒng)的異常檢測(cè)算法往往需要大量的訓(xùn)練數(shù)據(jù)集,且訓(xùn)練數(shù)據(jù)集的質(zhì)量對(duì)算法的效率也具有很大的影響[13]。

        支持向量機(jī)(support vector machine,SVM)是研究小樣本情況下,結(jié)構(gòu)風(fēng)險(xiǎn)最小化的一類新型機(jī)器學(xué)習(xí)方法。傳統(tǒng)的SVM作為有監(jiān)督的學(xué)習(xí)方法通常用于解決分類和預(yù)測(cè)問(wèn)題,但在實(shí)際應(yīng)用中,對(duì)數(shù)據(jù)進(jìn)行標(biāo)簽化需要耗費(fèi)大量的時(shí)間和經(jīng)濟(jì)成本,此外,龐大的訓(xùn)練數(shù)據(jù)集也會(huì)導(dǎo)致算法消耗更多時(shí)間來(lái)建立模型。而主動(dòng)學(xué)習(xí)則能有效減少所需的已標(biāo)記樣本的數(shù)量[14,15]。傳統(tǒng)的主動(dòng)學(xué)習(xí)在選擇策略上,采用了與分類邊界距離最小原則。通常而言,與分類邊界距離越小的樣本,越能影響分類邊界的位置,因此包含的信息量越大。但僅考慮樣本與分類邊界間的距離,而忽視樣本間的冗余,以及候選樣本的代表性,會(huì)降低算法運(yùn)行效率,從而增加不必要的時(shí)間和經(jīng)濟(jì)開(kāi)銷。

        基于上述問(wèn)題,在異常檢測(cè)的應(yīng)用背景下,本文考慮將主動(dòng)學(xué)習(xí)加入到傳統(tǒng)SVM算法中,同時(shí)對(duì)算法的選擇策略進(jìn)行優(yōu)化,進(jìn)而提出了一種基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法。該算法在采樣過(guò)程中,綜合考慮了樣本與分類邊界的距離,以及樣本間的冗余情況,從而使得選取出來(lái)的樣本更加合理。同時(shí),通過(guò)調(diào)整樣本選擇數(shù)量,有效地減少了算法的迭代次數(shù),進(jìn)一步提高了算法效率。

        1 主動(dòng)學(xué)習(xí)

        傳統(tǒng)的SVM算法通過(guò)已標(biāo)記樣本,計(jì)算出能夠?qū)⒉煌瑯颖炯戏指舻淖顑?yōu)超平面,從而獲得分類模型?;趥鹘y(tǒng)SVM的異常檢測(cè)算法,其效果和效率在很大程度上依賴于已標(biāo)記樣本的質(zhì)量和數(shù)量。雖然在機(jī)器學(xué)習(xí)中,往往默認(rèn)更多的數(shù)據(jù)將會(huì)帶來(lái)更高精度的模型,但事實(shí)上,從數(shù)據(jù)質(zhì)量的角度出發(fā),可以認(rèn)為所有數(shù)據(jù)并不都是平等的,即樣本所包含的信息量并非都是相等的,因此并不是所有的樣本都是對(duì)訓(xùn)練有價(jià)值的。與此同時(shí),通過(guò)一定的人工驗(yàn)證和干預(yù)過(guò)程,則可以使得算法兼顧機(jī)器學(xué)習(xí)的速度,和人工分類的準(zhǔn)確度。而主動(dòng)學(xué)習(xí)就是這樣一種思想下的機(jī)器學(xué)習(xí)框架。主動(dòng)學(xué)習(xí)是指通過(guò)一定的選擇策略,從候選樣本集中選擇信息量較大的未標(biāo)記樣本,經(jīng)由專家標(biāo)記后,作為訓(xùn)練樣本來(lái)訓(xùn)練分類模型的過(guò)程。主動(dòng)學(xué)習(xí)使得模型訓(xùn)練成為一個(gè)交互的過(guò)程,從而有效提高了已標(biāo)記樣本的質(zhì)量。

        主動(dòng)學(xué)習(xí)的模型可以表示為:A=(C,Q,S,L,U), 其中C為分類器,Q為選擇策略,S為專家,L為已標(biāo)記樣本集,U為未標(biāo)記樣本集。在主動(dòng)學(xué)習(xí)流程中,首先按照選擇策略Q, 從未標(biāo)記樣本集U中選擇樣本,經(jīng)由專家S標(biāo)記后,加入到已標(biāo)記樣本集L中,然后重新訓(xùn)練分類器C, 并迭代上述過(guò)程直到分類器C的準(zhǔn)確度達(dá)到閾值。主動(dòng)學(xué)習(xí)流程如圖1所示。

        圖1 主動(dòng)學(xué)習(xí)流程

        由上可知,主動(dòng)學(xué)習(xí)和被動(dòng)學(xué)習(xí)的最大區(qū)別在于選擇策略Q的加入,它允許從未標(biāo)注的候選樣本集U中選擇下一個(gè)應(yīng)標(biāo)注的樣本?;趥鹘y(tǒng)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法,充分利用了SVM的分類超平面僅與支持向量有關(guān),而與其它向量無(wú)關(guān)的特質(zhì)。因此,雖然在機(jī)器學(xué)習(xí)中,用于訓(xùn)練模型的數(shù)量規(guī)模越大,得到的模型精度越高,但引入主動(dòng)學(xué)習(xí)后,則可以使用更少的數(shù)據(jù)即達(dá)到與隨機(jī)抽樣相同的精度。而在分類器一致的情況下,采用何種選擇策略是主動(dòng)學(xué)習(xí)效果的關(guān)鍵,即如何選擇新的訓(xùn)練樣本,將直接影響到算法整體的性能。

        2 基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)

        2.1 樣本冗余度

        基于傳統(tǒng)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法,其選擇策略采用了與分類邊界距離最小原則,即每次選擇與分類邊界距離最近的樣本交由專家標(biāo)記。這是因?yàn)闃颖揪嚯x分類邊界越近,其類別不確定性越大,在機(jī)器學(xué)習(xí)的前提下,越容易被算法分錯(cuò)類別。而一旦分錯(cuò),則可能會(huì)導(dǎo)致模型過(guò)擬合或算法收斂變慢。由此可見(jiàn),與分類邊界距離越近的樣本,其包含的信息量越大,越可能改變分類邊界的位置。因此,采用與分類邊界距離最小原則作為選擇策略,可以使得每次選取出來(lái)的樣本,都是候選樣本集U中對(duì)SVM的分類超平面影響最大的樣本。但基于傳統(tǒng)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法,僅以樣本與分類邊界的距離作為選擇策略,在計(jì)算簡(jiǎn)單的同時(shí),也存在著樣本信息冗余和收斂緩慢的問(wèn)題。

        主動(dòng)學(xué)習(xí)在每一輪的迭代中,均選擇了與分類邊界距離最近的樣本,作為待標(biāo)記樣本交由專家標(biāo)記,因此存在相鄰兩次迭代過(guò)程中,選擇的樣本均為同一類別,并且彼此間距離極其相近的情況。在這種情況下,這兩個(gè)樣本雖然均為當(dāng)前迭代輪次中,蘊(yùn)含信息量最大的樣本,但實(shí)際上,兩者間卻極為相似,后者則對(duì)分類邊界的確定影響較小,這會(huì)導(dǎo)致專家待標(biāo)記樣本數(shù)量和算法迭代次數(shù)增多,造成人力和算力的浪費(fèi)。

        因此,為解決相鄰兩次樣本選擇過(guò)程中,相似樣本所帶來(lái)的冗余問(wèn)題,本文引入了冗余度p的概念。對(duì)于未標(biāo)記樣本集U中的每一個(gè)樣本xi, 定義其在算法的第k次迭代過(guò)程中,樣本的冗余度pk(xi) 為

        (1)

        (2)

        式中:Xi,Yi分別表示n維樣本a,b第i維的值。

        通過(guò)理論分析可得,未標(biāo)記樣本xi與分類器C分類邊界的距離越小,xi包含的信息量越大,越應(yīng)該被選取。同時(shí),未標(biāo)記樣本xi在與已標(biāo)記訓(xùn)練樣本集L所含樣本間余弦相似度的平均值越小,xi與L所含樣本的冗余就越小,越應(yīng)該被選取。而由式(1)可知,樣本的冗余度和待選樣本與分類邊界的距離,以及待選樣本與已標(biāo)記樣本間的相似度成正比,符合理論分析結(jié)果。綜上可得,樣本的冗余度越小,樣本的價(jià)值越大,越應(yīng)該被選取。

        此外,傳統(tǒng)主動(dòng)學(xué)習(xí)中,每次僅選擇一個(gè)樣本進(jìn)行標(biāo)記和訓(xùn)練,導(dǎo)致了迭代收斂速度較慢。同時(shí),如果當(dāng)前迭代中僅選擇的一個(gè)樣本存在異常,并不具備當(dāng)前數(shù)據(jù)集的代表性,則會(huì)使得分類邊界偏離預(yù)期,丟失了候選樣本的總體特征。此外,在實(shí)際應(yīng)用過(guò)程中,要求專家逐次對(duì)按照選擇策略Q,從未標(biāo)記樣本集U中選擇出的僅單個(gè)樣本進(jìn)行標(biāo)記,也是難以實(shí)現(xiàn)的。從算法時(shí)間開(kāi)銷和經(jīng)濟(jì)開(kāi)銷的角度考慮,應(yīng)該盡可能減少標(biāo)記輪數(shù)和迭代次數(shù)。因此,本文所提算法將按照樣本的冗余度從低到高,在合適的范圍內(nèi),適當(dāng)增加每輪迭代過(guò)程中樣本的選擇數(shù)量。

        2.2 算法描述

        本文對(duì)基于傳統(tǒng)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法進(jìn)行了選擇策略上的優(yōu)化。傳統(tǒng)算法的選擇策略采用了與分類邊界距離最小原則,而如果相鄰兩輪迭代所選擇的樣本屬于同一類別,并且特征相似,將會(huì)導(dǎo)致分類邊界變化較小,徒增迭代次數(shù)。因此,本文引入了冗余度的概念,以冗余度最小原則作為選擇策略,在計(jì)算樣本與分類邊界距離的前提下,通過(guò)選擇與已訓(xùn)練樣本間相似度更低的樣本,作為待標(biāo)記樣本,并且適當(dāng)增加樣本選擇數(shù)量,以達(dá)到減少算法迭代次數(shù),提高算法運(yùn)行效率的目的。基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法描述如算法1所示。

        算法1:基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法

        輸入:未標(biāo)記樣本集U, 測(cè)試樣本集T, 分類準(zhǔn)確率P, 分類準(zhǔn)確率閾值ω

        輸出:滿足P≥ω的分類器C

        (1)從未標(biāo)記樣本集U中選擇一定量的樣本,并正確標(biāo)記,構(gòu)造初始的已標(biāo)記樣本集L, 且L中正負(fù)樣本至少各含一個(gè)

        (2)利用L訓(xùn)練SVM分類器C

        (3)基于C對(duì)測(cè)試樣本集T進(jìn)行分類,得到分類準(zhǔn)確率P, 若P≥ω, 則跳轉(zhuǎn)到(6),否則跳轉(zhuǎn)到(4)

        (4)計(jì)算U中樣本的冗余度p, 并按p升序選取topN樣本{α1,α2,…,αN}

        (5) 正確標(biāo)注 {α1,α2,…,αN} 后加入L, 跳轉(zhuǎn)到(2)

        (6) 返回C

        3 實(shí)驗(yàn)數(shù)據(jù)處理

        3.1 數(shù)據(jù)源

        本文實(shí)驗(yàn)部分采用的數(shù)據(jù)集為KDD 99,它是1999年美國(guó)國(guó)防部高級(jí)規(guī)劃署(defense advanced research projects age-ncy,DARPA)為知識(shí)發(fā)現(xiàn)與挖掘(knowledge discovery in database,KDD)競(jìng)賽提供的一個(gè)異常檢測(cè)的標(biāo)準(zhǔn)數(shù)據(jù)集。美國(guó)林肯實(shí)驗(yàn)室模擬了一個(gè)典型的美國(guó)空軍網(wǎng)絡(luò)環(huán)境,期間通過(guò)仿真各種用戶類型,以及各類網(wǎng)絡(luò)流量和攻擊手段,收集了9周時(shí)間的TCPdump網(wǎng)絡(luò)連接和系統(tǒng)審計(jì)數(shù)據(jù),從而創(chuàng)建了該數(shù)據(jù)集。這些采集的原始數(shù)據(jù)被分為7周時(shí)間的訓(xùn)練數(shù)據(jù)以及2周時(shí)間的測(cè)試數(shù)據(jù)兩個(gè)部分,其中前者包含約500萬(wàn)條網(wǎng)絡(luò)連接記錄,即TCP數(shù)據(jù)包序列,而后者包含約300萬(wàn)條測(cè)試數(shù)據(jù)[16,17]。

        KDD 99數(shù)據(jù)集中的每一條網(wǎng)絡(luò)連接記錄由41個(gè)特征組成,這41項(xiàng)特征可以分成4大類。其中TCP連接基本特征9種,包含了一些連接的基本屬性,如連接持續(xù)時(shí)間、協(xié)議類型、連接狀態(tài)和傳送的字節(jié)數(shù)等;TCP連接的內(nèi)容特征13種,包含例如登錄失敗次數(shù)、root用戶訪問(wèn)次數(shù)和訪問(wèn)文件次數(shù)等,此類特征包含了網(wǎng)絡(luò)攻擊的內(nèi)容特征;基于時(shí)間的網(wǎng)絡(luò)流量統(tǒng)計(jì)特征9種,包含了當(dāng)前連接記錄與之前一段時(shí)間內(nèi)的連接記錄之間存在的關(guān)系,潛在反映出網(wǎng)絡(luò)攻擊在時(shí)間上的關(guān)聯(lián)性;基于主機(jī)的網(wǎng)絡(luò)流量統(tǒng)計(jì)特征10種,作為基于時(shí)間無(wú)法統(tǒng)計(jì)出的網(wǎng)絡(luò)流量特征的補(bǔ)充。數(shù)據(jù)集的每條網(wǎng)絡(luò)連接記錄具有一個(gè)類別標(biāo)簽,表明該條數(shù)據(jù)是正常(normal)數(shù)據(jù)或攻擊(attack)數(shù)據(jù)[18]。

        為彌補(bǔ)傳統(tǒng)算法的不足,基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法綜合了樣本與分類邊界的距離以及樣本間的相似度,從而引入了冗余度的概念,對(duì)傳統(tǒng)算法的選擇策略進(jìn)行了優(yōu)化。而為了計(jì)算樣本冗余度,首先需要對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)值化和向量化等預(yù)處理,此外,將基于卡方檢驗(yàn)的思想,對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行特征選取,以進(jìn)一步提高算法效率。

        3.2 數(shù)據(jù)預(yù)處理

        3.2.1 數(shù)值化處理

        由于KDD 99數(shù)據(jù)集中存在著非數(shù)值型數(shù)據(jù),因此需要對(duì)非數(shù)值型數(shù)據(jù)進(jìn)行數(shù)值化處理。本文的做法是先確定非數(shù)值型數(shù)據(jù)的取值空間,然后將取值空間中的每一個(gè)取值用互不相同的數(shù)值表示,最后將非數(shù)值型數(shù)據(jù)用對(duì)應(yīng)的數(shù)值進(jìn)行替換。例如:特征protocol_type表示的是連接的協(xié)議類型,它的取值空間為 {TCP,UDP,ICMP} 共3種,則將TCP賦值1、UDP賦值2、ICMP賦值3,最后在原始數(shù)據(jù)中進(jìn)行替換。

        3.2.2 標(biāo)準(zhǔn)化處理

        經(jīng)過(guò)數(shù)值化處理之后的數(shù)據(jù),往往還不能直接用來(lái)進(jìn)行實(shí)驗(yàn)操作。由于數(shù)據(jù)不同特征之間的數(shù)量級(jí)別不同,還需要對(duì)不同量綱的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和歸一化處理。標(biāo)準(zhǔn)化處理是改變一個(gè)變量取值的表示方法,使得變量的變化范圍變換到一個(gè)指定的量程內(nèi)。標(biāo)準(zhǔn)化處理使得不同量綱的特征對(duì)數(shù)據(jù)的影響因素對(duì)等,消除了大數(shù)量級(jí)特征掩蓋小數(shù)量級(jí)特征作用的隱患。

        若AVG表示各特征值的平均值,STAD表示各特征值的平均絕對(duì)誤差,xi表示當(dāng)前特征值,n表示KDD 99數(shù)據(jù)集數(shù)據(jù)量,則數(shù)據(jù)標(biāo)準(zhǔn)化處理步驟如下:

        (1)計(jì)算特征值的平均值

        (3)

        (2)計(jì)算特征值的平均絕對(duì)誤差

        (4)

        (3)計(jì)算標(biāo)準(zhǔn)化后的特征值

        (5)

        3.2.3 歸一化處理

        此處歸一化的目的是讓數(shù)據(jù)壓縮在 [0,1] 范圍內(nèi)。數(shù)據(jù)歸一化處理步驟如下:

        (1)將數(shù)據(jù)的變化范圍限制在 [0,1] 之間,設(shè)定特征值取值上限為Vup=1, 取值下限為Vlow=0;

        (2)將同類特征的特征值歸為同一組;

        (3)確定同一組中特征值取值的最大值Vmax與最小值Vmin;

        (4)對(duì)每一個(gè)取值進(jìn)行歸一化操作

        (6)

        代入數(shù)據(jù)變化范圍設(shè)定,式(6)可以化簡(jiǎn)為

        (7)

        其中,valuei是標(biāo)準(zhǔn)化后的特征值,value′i是經(jīng)過(guò)歸一化處理之后得到的特征值。

        3.2.4 特征選取

        模型的構(gòu)建依賴于數(shù)據(jù)集的特征,但訓(xùn)練集特征維度越高,訓(xùn)練模型的時(shí)間開(kāi)銷也會(huì)隨之增大。此外,高維度特征可能包含的無(wú)關(guān)特征及冗余特征,也會(huì)使得分類器的性能下降。因此通過(guò)特征選取去除無(wú)關(guān)特征及冗余特征,可以有效提高分類器的訓(xùn)練效率。

        本文基于卡方檢驗(yàn)的思想,對(duì)KDD 99數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行特征選取。卡方檢驗(yàn)應(yīng)用在數(shù)據(jù)特征選取當(dāng)中,可以檢驗(yàn)數(shù)據(jù)的特征與數(shù)據(jù)的類別之間的獨(dú)立性。即,首先假定某數(shù)據(jù)特征與數(shù)據(jù)類別之間是無(wú)關(guān)的,然后對(duì)樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)計(jì)算,得到理論值與實(shí)際值的偏差。如果偏差的值小于設(shè)定的閾值,則認(rèn)定該數(shù)據(jù)特征與數(shù)據(jù)所屬類別之間是相互獨(dú)立的,那么在進(jìn)行模型訓(xùn)練時(shí),則可以將該特征刪除;反之,偏差的值大于設(shè)定的閾值,則認(rèn)定該數(shù)據(jù)特征與數(shù)據(jù)所屬類別之間是相關(guān)的,應(yīng)予以保留。本文實(shí)驗(yàn)中,通過(guò)設(shè)定偏差閾值為10,經(jīng)過(guò)特征提取之后,從41個(gè)特征中篩選得到了21個(gè)相關(guān)度和差異性更高的特征,包含連接狀態(tài)(flag)、誤分段數(shù)量(wrong_fragment)、超級(jí)用戶權(quán)限設(shè)置(root_shell)、過(guò)去兩秒內(nèi)目標(biāo)主機(jī)相同的連接中出現(xiàn)SYN錯(cuò)誤的百分比(serror_rate)和前100個(gè)目標(biāo)主機(jī)相同的連接中出現(xiàn)SYN錯(cuò)誤的百分比(dst_host_serror_rate)等,并且保留的21個(gè)特征也已涵蓋了KDD 99數(shù)據(jù)集的4大類特征。

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 實(shí)驗(yàn)設(shè)計(jì)

        本文從KDD 99數(shù)據(jù)樣本集中選取了10 000條數(shù)據(jù)作為訓(xùn)練樣本集,311 029條數(shù)據(jù)作為測(cè)試樣本集。為了更加真實(shí)地模擬網(wǎng)絡(luò)的實(shí)驗(yàn)環(huán)境,實(shí)驗(yàn)中采用了隨機(jī)選取的方法,且樣本集均經(jīng)過(guò)相同的數(shù)據(jù)預(yù)處理步驟進(jìn)行處理。樣本集的數(shù)據(jù)組成情況見(jiàn)表1。

        表1 兩種候選集樣本的組成情況

        為了分析算法的有效性,實(shí)驗(yàn)中分別用基于傳統(tǒng)SVM、基于傳統(tǒng)主動(dòng)學(xué)習(xí)以及本文提出的基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法,在相同條件下進(jìn)行實(shí)驗(yàn),觀察并比較不同算法結(jié)果。其中,基于傳統(tǒng)SVM的異常檢測(cè)算法稱為T-SVM,基于傳統(tǒng)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法稱為AL-SVM,基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法稱為PAL-SVM,并且,在選擇樣本時(shí),T-SVM采用隨機(jī)選取策略,AL-SVM采用傳統(tǒng)選擇策略,本文提出的PAL-SVM采用冗余度策略。實(shí)驗(yàn)中,SVM使用RBF函數(shù)作為核函數(shù),其中設(shè)定參數(shù)gamma=0.5, 參數(shù)C=1000, 初始化時(shí)使用相同的已標(biāo)記訓(xùn)練樣本集L, 并且L中已包含一定量的正常樣本和異常樣本。

        4.2 實(shí)驗(yàn)結(jié)果分析

        在樣本選擇數(shù)量為1的前提下,基于傳統(tǒng)SVM的異常檢測(cè)算法、基于傳統(tǒng)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法、基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法的分類準(zhǔn)確率隨已標(biāo)記樣本數(shù)量變化情況的折線如圖2所示。

        圖2 分類準(zhǔn)確率隨選擇策略的變化

        由圖2中可知,在分類準(zhǔn)確率達(dá)90%時(shí),基于傳統(tǒng)SVM的異常檢測(cè)算法需要已標(biāo)記樣本約3580個(gè),基于傳統(tǒng)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法需要已標(biāo)記樣本約530個(gè),而本文所提的基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法僅需要已標(biāo)記樣本約20個(gè)即可達(dá)到相同的分類準(zhǔn)確率。此外,在達(dá)到收斂后,本文所提的基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法的準(zhǔn)確率約為92.04%,基于傳統(tǒng)SVM的異常檢測(cè)算法的準(zhǔn)確率約為90.88%,基于傳統(tǒng)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法的準(zhǔn)確率約為90.89%,由此可見(jiàn),本文所提算法的準(zhǔn)確率也為三者最優(yōu)。

        結(jié)合實(shí)驗(yàn)結(jié)果分析可得,基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法通過(guò)引入冗余度概念,所選取的樣本相較于傳統(tǒng)算法,所含信息量更大,對(duì)確定分類邊界影響更為顯著,因此在與傳統(tǒng)算法取得相同分類準(zhǔn)確率的前提下,需要的已標(biāo)記樣本數(shù)量更少,可以更好地適用于小樣本情況下的分類問(wèn)題。

        為了驗(yàn)證樣本選擇數(shù)量對(duì)本文所提的基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法性能的影響,在相同樣本集上進(jìn)行了進(jìn)一步實(shí)驗(yàn)。分類準(zhǔn)確率隨樣本選擇數(shù)量的變化結(jié)果見(jiàn)表2。

        表2 分類準(zhǔn)確率隨樣本選擇數(shù)量的變化/%

        以N表示樣本選擇數(shù)量,由表2可知,當(dāng)模型分類準(zhǔn)確率達(dá)90%以上時(shí),若N∈{1,2,3}, 則需要3次迭代,而當(dāng)N∈{4,5,10,20} 時(shí),僅需要2次迭代。由此可知,每次迭代時(shí)樣本選擇數(shù)量越多,模型可以獲得的數(shù)據(jù)特征越多,對(duì)分類邊界的確定越有益。而當(dāng)模型分類準(zhǔn)確率穩(wěn)定在92%以上時(shí),N=5和N=10時(shí)算法所需的迭代次數(shù)最少,均約3次迭代,并且算法的準(zhǔn)確率也均高于其它樣本選擇數(shù)量下的算法準(zhǔn)確率。

        進(jìn)一步,在N=5和N=10時(shí)樣本冗余度隨迭代次數(shù)的變化結(jié)果如圖3所示,其中橫坐標(biāo)表示迭代次數(shù),縱坐標(biāo)表示樣本的冗余度。

        圖3 冗余度隨樣本選擇數(shù)量的變化

        由圖3可知,在算法初期隨著迭代次數(shù)增加,選擇的待標(biāo)記樣本與已標(biāo)記樣本冗余度逐漸減小,表明此時(shí)選擇的待標(biāo)記樣本越具有差異性,對(duì)分類邊界的確定越有價(jià)值。而當(dāng)算法趨于收斂時(shí),樣本冗余度逐漸增大,表明此時(shí)模型的分類邊界已經(jīng)趨于穩(wěn)定,符合理論知識(shí)。同時(shí),當(dāng)N=5時(shí),算法從訓(xùn)練至收斂的過(guò)程中,樣本冗余度隨著迭代次數(shù)增加而逐漸增加。而當(dāng)N=10時(shí),在訓(xùn)練中,其選擇的待標(biāo)記樣本與已標(biāo)記樣本冗余度基本均高于N=5時(shí)的冗余度,表明當(dāng)樣本選擇數(shù)量持續(xù)增大超過(guò)一定的范圍后,待標(biāo)記樣本數(shù)量過(guò)多,并非其中的每一個(gè)樣本都具備差異性,因此導(dǎo)致了樣本冗余度增大。并且當(dāng)N=10時(shí),隨著迭代次數(shù)增加,其樣本冗余度存在忽大忽小的情況,表明此時(shí)選取的待標(biāo)記樣本近乎隨機(jī)抽取的效果。綜上所述,綜合考慮算法的準(zhǔn)確率和訓(xùn)練開(kāi)銷,當(dāng)樣本選擇數(shù)量設(shè)置為5時(shí),本文所提的基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法性能最優(yōu)。

        結(jié)合實(shí)驗(yàn)結(jié)果分析可得,樣本選擇數(shù)量越多,模型穩(wěn)定需要的迭代次數(shù)越少,但當(dāng)樣本選擇數(shù)量過(guò)多時(shí),模型訓(xùn)練的無(wú)用數(shù)據(jù)變多,分類準(zhǔn)確率達(dá)到穩(wěn)定的速度反而變慢。由此可知,在一定范圍內(nèi)增加樣本選擇數(shù)量,能夠有效減少算法迭代次數(shù),提高收斂速度。而當(dāng)樣本選擇數(shù)量超過(guò)一定閾值后,冗余樣本數(shù)量增多,在迭代次數(shù)相差無(wú)幾的情況下,反而會(huì)降低每輪迭代中算法的訓(xùn)練速度,降低算法運(yùn)行效率。

        綜上所述,本文提出基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法,綜合考慮了樣本與分類邊界的距離,通過(guò)定義樣本間的冗余度和調(diào)整樣本選擇數(shù)量,提升了樣本選擇的有效性,減少了迭代次數(shù),并且實(shí)驗(yàn)結(jié)果表明,相較于傳統(tǒng)算法,本文所提算法收斂更快,在達(dá)到相同分類準(zhǔn)確率的前提下,需要的樣本數(shù)量更少,而在算法收斂后,達(dá)到的分類準(zhǔn)確率也更高,因此性能更佳,效果更優(yōu)。

        5 結(jié)束語(yǔ)

        本文提出的基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法,在傳統(tǒng)SVM的基礎(chǔ)上結(jié)合了主動(dòng)學(xué)習(xí)的思想,針對(duì)傳統(tǒng)的選擇策略僅考慮樣本與分類邊界間距離,而導(dǎo)致運(yùn)行效率較低的問(wèn)題,通過(guò)綜合定義樣本間的冗余度和調(diào)整樣本選擇數(shù)量,對(duì)傳統(tǒng)的選擇策略進(jìn)行了改進(jìn)優(yōu)化。實(shí)驗(yàn)結(jié)果表明,本文提出的基于改進(jìn)主動(dòng)學(xué)習(xí)的異常檢測(cè)算法相較于傳統(tǒng)算法所需樣本數(shù)量更少,算法準(zhǔn)確率更高,適當(dāng)增加樣本選擇數(shù)量減少了算法迭代次數(shù),有效地提高了算法的運(yùn)行效率。而針對(duì)本文尚未對(duì)不同大小樣本集的樣本選擇數(shù)量進(jìn)行定量分析的不足,將在后續(xù)研究中進(jìn)一步探明。

        猜你喜歡
        冗余度邊界準(zhǔn)確率
        一種航天測(cè)控冗余跟蹤弧段處理方法
        上海航天(2024年1期)2024-03-08 02:52:28
        拓展閱讀的邊界
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        論中立的幫助行為之可罰邊界
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        上海某基坑工程考慮冗余度的支撐體系設(shè)計(jì)
        山西建筑(2017年29期)2017-11-15 02:04:38
        橋梁設(shè)計(jì)的冗余度分析
        橋梁設(shè)計(jì)的冗余度
        亚洲欧美偷拍视频| 老太婆性杂交视频| 欧美熟妇性xxx交潮喷| 又污又黄又无遮挡的网站| 爆乳日韩尤物无码一区| 99视频一区二区日本| 精品国产粉嫩内射白浆内射双马尾| 成人免费一区二区三区| 白浆出来无码视频在线| 丁香婷婷激情俺也去俺来也| 国产精品一区二区av麻豆日韩| 中文亚洲av片在线观看| 国产婷婷丁香久久综合| 中文字幕人妻少妇久久| 色熟妇人妻久久中文字幕 | 成人免费播放片高清在线观看| 日本一二三区在线观看视频| 久久人人爽人人爽人人片av东京热 | 激情综合丁香五月| 久久99欧美| 黄色三级一区二区三区| 国产一级内射视频在线观看| 亚洲国产成人久久综合下载| 囯产精品无码一区二区三区| 老司机在线免费视频亚洲| 一区二区三区内射美女毛片 | 亚洲丰满熟女乱一区二区三区 | 亚洲黄色av一区二区三区| 蜜桃日本免费看mv免费版| 91免费永久国产在线观看| 亚洲区一区二区三区四| 欧美激情视频一区二区三区免费 | 亚洲av一区二区三区网站| 熟妇高潮一区二区三区在线观看| 日本亚洲色大成网站www久久| 中文字幕一区二区三区人妻精品| 国产愉拍91九色国产愉拍| 亚洲日韩欧美一区、二区| 中文亚洲日韩欧美| 精品国产一区二区三广区| 人人澡人人妻人人爽人人蜜桃麻豆|