亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于聚類與噪聲的網(wǎng)絡(luò)流量分類方法*

        2022-08-11 08:41:06龐興龍朱國勝楊少龍李修遠(yuǎn)
        計算機(jī)工程與科學(xué) 2022年7期
        關(guān)鍵詞:集上分類器標(biāo)簽

        龐興龍,朱國勝,楊少龍,李修遠(yuǎn)

        (湖北大學(xué)計算機(jī)與信息工程學(xué)院,湖北 武漢 430062)

        1 引言

        網(wǎng)絡(luò)流量分類離不開數(shù)據(jù)集的標(biāo)簽,其中監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)最具有代表性,并且具有較高的準(zhǔn)確率。目前大多數(shù)研究人員利用現(xiàn)有的公開數(shù)據(jù)集或者自主采集的數(shù)據(jù)集,經(jīng)過人工周密的標(biāo)記達(dá)到分類的目的,但一般都建立在無噪聲環(huán)境影響的前提下,而現(xiàn)實情況中的網(wǎng)絡(luò)流量通常攜帶或多或少的外部噪聲。研究人員將外部噪聲分為2類:標(biāo)簽噪聲和特征噪聲。標(biāo)簽噪聲是指在分類過程中被用于訓(xùn)練的目標(biāo)標(biāo)簽與數(shù)據(jù)集本身對應(yīng)的標(biāo)簽存在差異,例如,在標(biāo)簽標(biāo)記時將某條數(shù)據(jù)歸屬于其他標(biāo)簽,標(biāo)簽名稱拼寫錯誤等情況都會導(dǎo)致出現(xiàn)標(biāo)簽噪聲;特征噪聲通常指訓(xùn)練集樣本的特征與實際樣本訓(xùn)練特征的差異,例如人為注入的高斯噪聲。以上2種噪聲均會對分類性能造成一定的影響,并且許多科研工作者論證得出標(biāo)簽噪聲造成的影響會更加顯著的結(jié)論。Frénay等人[1]對這一類型的噪聲進(jìn)行了充分的描述,Quinlan[2]對2種噪聲的影響進(jìn)行了分析并得出了類似的結(jié)論:相對于特征噪聲,標(biāo)簽噪聲對分類器的影響更大。因此,本文著重分析標(biāo)簽噪聲問題對分類性能的影響。

        標(biāo)簽噪聲在分類問題中對分類性能具有較大的影響,通常直接表現(xiàn)為分類能力大幅度下降、模型的復(fù)雜度增加和預(yù)測能力下降等。目前對于標(biāo)簽噪聲的處理方法大致歸為2種:(1)標(biāo)簽修復(fù);(2)標(biāo)簽剔除。二者的目的都是減少錯誤標(biāo)簽對分類性能的影響,但本質(zhì)上的區(qū)別在于標(biāo)簽剔除僅僅只是刪除了被認(rèn)為錯誤標(biāo)記的數(shù)據(jù),對于錯誤標(biāo)簽極少且剔除性能較高的算法,會有較好的分類結(jié)果,但通過剔除達(dá)到除噪目的的方法在各種網(wǎng)絡(luò)流量數(shù)據(jù)集上不一定有較好的適用性能,而標(biāo)簽修復(fù)在這種情況下具有更好的通用性。

        2 相關(guān)研究

        目前,對于標(biāo)簽的修復(fù)有2種處理方法:(1)對分類算法本身進(jìn)行提升,如提升算法對噪聲的魯棒性、設(shè)計對標(biāo)簽噪聲不敏感的算法等。文獻(xiàn)[3]提出的自適應(yīng)投票噪聲校正算法,通過考慮潛在標(biāo)簽噪聲的數(shù)量和概率創(chuàng)建多個弱分類器,來精確識別和校正潛在的噪聲標(biāo)簽。Nettleton等人[4]通過對不同分類器在不同噪聲比例下的穩(wěn)定性進(jìn)行對比,評判各個分類器對噪聲的敏感度;Manwani等人[5]探討了分類器的耐噪音學(xué)習(xí),使用有、無噪聲數(shù)據(jù)學(xué)習(xí),使得分類器具有耐噪抗噪性能;Abelln等人[6]提出一種袋裝信條決策樹,來提高帶噪數(shù)據(jù)集的分類性能,并且使用雙變量誤差分解分析驗證了該算法具有較高的性能;Wang等人[7]則提出一種抗噪聲統(tǒng)計流量分類方法,將噪聲消除和可靠性估計技術(shù)引入流量分類中,在構(gòu)建分類器之前,估計剩余訓(xùn)練數(shù)據(jù)的可靠性。通過在2個真實流量數(shù)據(jù)集上的大量分類實驗得出,該方法能夠有效地解決訓(xùn)練數(shù)據(jù)的錯誤標(biāo)注問題。然而,這類算法對于數(shù)據(jù)集標(biāo)簽具有一定的依賴性,當(dāng)標(biāo)簽噪聲數(shù)目較多時,該算法所訓(xùn)練出的分類模型會受到顯著影響。并且由于不同數(shù)據(jù)集自身特性的差異,該算法在各類數(shù)據(jù)集上的表現(xiàn)也存在差異。(2)在數(shù)據(jù)集層面上的修復(fù),這類方法主要作為一種預(yù)處理手段來對數(shù)據(jù)集中帶噪標(biāo)簽進(jìn)行檢測。文獻(xiàn)[8]利用屬性之間以及屬性和類之間的相互依賴性,使用其余屬性和類值預(yù)測該屬性的值。通過識別每個實例中可能存在的噪聲屬性或類,并用更合適的值替換這些值來處理訓(xùn)練數(shù)據(jù)中的噪聲,最終證明了這是一種可行的降噪和矯正方法。Arazo等人[9]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的標(biāo)簽噪聲下的訓(xùn)練方法,將生成的模型用于實現(xiàn)動態(tài)自舉損失,并將這種動態(tài)自舉與混合數(shù)據(jù)增強(qiáng)相結(jié)合,實現(xiàn)了一種非常穩(wěn)健的損失校正方法。

        可以發(fā)現(xiàn),與基于算法層面的方法相比,基于數(shù)據(jù)層面的方法能從根本上改善數(shù)據(jù)集中的噪聲含量,并且在噪聲比例較高情況下能實現(xiàn)標(biāo)簽修復(fù)和分類,具有較高的挑戰(zhàn)性和實用性。本文考慮從噪聲根源出發(fā),致力在數(shù)據(jù)與噪聲標(biāo)簽之間挖掘新的聯(lián)系,對噪聲標(biāo)簽進(jìn)行識別和修復(fù)。

        3 基于標(biāo)簽噪聲修復(fù)的網(wǎng)絡(luò)流量分類方法

        本文將K-means聚類算法和隨機(jī)森林算法相結(jié)合, 提出了基于標(biāo)簽噪聲修復(fù)的網(wǎng)絡(luò)流量分類方法。K-means聚類算法作為典型的無監(jiān)督算法,在沒有可用標(biāo)簽的情況下,參與數(shù)據(jù)集預(yù)處理過程,為訓(xùn)練集訓(xùn)練出相應(yīng)標(biāo)簽集。隨機(jī)森林算法作為少數(shù)較優(yōu)算法,對標(biāo)簽噪聲不敏感[10],能有效提高分類性能,因此本文實驗將采用隨機(jī)森林算法作為最終的分類模型。

        本文方法考慮將權(quán)重值與聚類相結(jié)合,K-means聚類算法作為無監(jiān)督學(xué)習(xí)技術(shù),在分類中不會將標(biāo)簽作為分類的依據(jù),因此在進(jìn)行多次聚類后生成多組聚類的標(biāo)簽,然后調(diào)用CalcWeights算法[11]對聚類生成的多組標(biāo)簽計算權(quán)重,通過簇內(nèi)具有優(yōu)勢值的標(biāo)簽來統(tǒng)計權(quán)重,原理是具有優(yōu)勢值的標(biāo)簽在簇內(nèi)會表現(xiàn)出最優(yōu)的標(biāo)簽類型。然而,CalcWeights算法依賴于訓(xùn)練集樣本標(biāo)簽種類數(shù)目,因此只能處理正確標(biāo)簽被錯誤標(biāo)記情況下的噪聲,而無法識別由于錯誤拼寫出現(xiàn)的新標(biāo)簽類型,這給權(quán)重值計算帶來的影響較大。本文將標(biāo)簽錯誤拼寫同時作為標(biāo)簽噪聲產(chǎn)生的又一特殊情況,并改善了CalcWeights算法無法識別“新標(biāo)簽”的不足。首先對輸入的訓(xùn)練集數(shù)據(jù)進(jìn)行標(biāo)簽類型識別,設(shè)定標(biāo)簽數(shù)量閾值作為評判該標(biāo)簽類型是否為拼寫錯誤的依據(jù)。圖1展示了本文提出的帶噪標(biāo)簽修復(fù)的網(wǎng)絡(luò)流量分類方法的流程圖:本文方法在對訓(xùn)練集進(jìn)行標(biāo)簽類型和數(shù)量的統(tǒng)計后會將標(biāo)簽類型對應(yīng)的數(shù)目與自定義閾值進(jìn)行比較,并更新訓(xùn)練集中的標(biāo)簽和對應(yīng)數(shù)量,再將K-means算法與CalcWeight算法循環(huán)執(zhí)行a次,根據(jù)每次聚類生成的標(biāo)簽分布情況,為標(biāo)簽集賦予權(quán)重累加并輸出最大權(quán)重值對應(yīng)的標(biāo)簽類型,最后將標(biāo)簽集作為隨機(jī)森林算法的輸入。

        Figure 1 Network traffic classification method based on label noise repair圖1 基于標(biāo)簽噪聲修復(fù)的網(wǎng)絡(luò)流量分類方法

        K-means聚類算法是目前應(yīng)用最為廣泛的聚類算法之一,具有算法簡單、容易收斂的特性,目的是將未標(biāo)注的數(shù)據(jù)集通過計算樣本項之間的相似度(也稱為樣本間的距離),按照數(shù)據(jù)內(nèi)部存在的數(shù)據(jù)特征將其劃分為不同的類別,使類內(nèi)數(shù)據(jù)相似,類間數(shù)據(jù)差異大。

        K-means聚類算法的基本流程如算法1所示。

        算法1K-means聚類算法

        輸入:樣本集D={x1,x2,…,xn},聚類的簇數(shù)k。

        輸出:簇劃分結(jié)果C={C1,C2,…,Ck}。

        步驟1從樣本集D中隨機(jī)抽取k個樣本作為聚類的質(zhì)心向量,表示為{μ1,μ2,…,μk}。

        步驟2以下步驟迭代n次:

        (1)初始化各個簇類:Cm≠?,m=1,2,…,k;

        (4)如果所有的k個質(zhì)心向量都不再發(fā)生變化,則聚類過程結(jié)束。

        步驟3輸出簇劃分結(jié)果C={C1,C2,…,Ck}。

        CalcWeights算法是由Nicholson等人[11]提出的,本文根據(jù)該算法原理進(jìn)行調(diào)整,其基本流程如算法2所示。

        算法2CalcWeights算法

        輸入:循環(huán)次數(shù)N,標(biāo)簽類型對應(yīng)數(shù)量num,更新的標(biāo)簽集y1及聚類后的簇C。

        輸出:重新調(diào)整的標(biāo)簽集yw。

        步驟1 forj=0 toNdo//N由數(shù)據(jù)集行數(shù)與設(shè)定的聚類次數(shù)共同決定

        (1)計算第j類標(biāo)簽數(shù)numj在總數(shù)num中的占比:u=numj/num;

        (2)計算縮放因子:multiplier=min (lg(|Cj|),2);

        (3)計算第j簇的標(biāo)簽分布。

        步驟2計算每個數(shù)據(jù)樣本xi(i=1,2,…,n)在各類標(biāo)簽中的權(quán)重結(jié)果,并存放在ins_weights[i]中。

        步驟3將每個數(shù)據(jù)樣本經(jīng)過權(quán)重計算之后選取在各類標(biāo)簽中權(quán)重最大的作為該樣本的標(biāo)簽;

        步驟4輸出最終的標(biāo)簽集合yw。

        4 實驗與結(jié)果分析

        4.1 數(shù)據(jù)集與特征選取

        為了檢驗本文所提方法適用性,本文選取具有代表性的入侵檢測數(shù)據(jù)集NSL-KDD[12]和MOORE[13]進(jìn)行實驗,下面簡單地對2個數(shù)據(jù)集進(jìn)行介紹。

        (1)NSL-KDD數(shù)據(jù)集。

        NSL-KDD數(shù)據(jù)集是由Tavallaee等人[12]從KDDCUP99數(shù)據(jù)集中篩選而得的,作為改進(jìn)的數(shù)據(jù)集,NSL-KDD在特征性能上更具有代表性。

        該數(shù)據(jù)集擁有41維特征向量和1個被標(biāo)記好的樣本數(shù)據(jù)標(biāo)簽,其中有3個特征為字符型特征,分別為:protocol_type、flag和service。表1展示了該數(shù)據(jù)集的特征。

        NSL-KDD數(shù)據(jù)集包括KDDTrain訓(xùn)練集和KDDTrain測試集,由于測試集與訓(xùn)練集的標(biāo)簽類型不相同,為了分析本文方法在帶噪標(biāo)簽下的分類性能,因此只選取測試集作為本文實驗的數(shù)據(jù)集。然而KDDTrain訓(xùn)練集有12種標(biāo)簽類型,每種類型數(shù)據(jù)差異較大,為了保證在注入不同比例噪聲后不影響實驗結(jié)果,選取實例數(shù)大于2 000的標(biāo)簽類型作為本次實驗的對象,如表2所示。在對所選數(shù)據(jù)集進(jìn)行預(yù)處理時,考慮到非數(shù)值型特征之間是否存在關(guān)聯(lián),本文在將其轉(zhuǎn)換為數(shù)值型時使用one-hot編碼,以保留屬性中所攜帶的數(shù)學(xué)性質(zhì),即映射為(1,0,0),(0,1,0)和(0,0,1)的形式,一共有80個特征,最終41維特征向量轉(zhuǎn)換成118維特征。此外,對剩余的38種數(shù)值特征采取標(biāo)準(zhǔn)方法進(jìn)行等比例縮放,轉(zhuǎn)換的公式為x′=(x-u)/σ,其中,x表示原始數(shù)據(jù),u表示均值,σ表示標(biāo)準(zhǔn)差。最后隨機(jī)選取數(shù)據(jù)集中70%的數(shù)據(jù)作為訓(xùn)練集,剩余30%作為測試集。

        Table 1 Characteristics of NSL-KDD dataset表1 NSL-KDD數(shù)據(jù)集特征

        Table 2 Six tag types with more than 2 000 instances表2 6個實例超過2 000的標(biāo)簽類型

        (2)MOORE數(shù)據(jù)集。

        MOORE數(shù)據(jù)集是目前應(yīng)用最為廣泛的網(wǎng)絡(luò)流量分類數(shù)據(jù)集,它是由Moore等人[13]通過高性能網(wǎng)絡(luò)監(jiān)控器采集而得的,采集的數(shù)據(jù)分為10個數(shù)據(jù)流文檔,一共377 526條數(shù)據(jù),如表3所示,是相對較為完善的網(wǎng)絡(luò)流特征集。

        MOORE數(shù)據(jù)集的每種標(biāo)簽類型的數(shù)量比重差異很大,因此為了達(dá)到實驗要求,同樣選取實例數(shù)大于2 000的標(biāo)簽類型作為實驗對象,如表4所示。由于MOORE數(shù)據(jù)集定義了248種網(wǎng)絡(luò)數(shù)據(jù)流特征,為了避免MOORE數(shù)據(jù)集存在冗余現(xiàn)象以及分類相關(guān)性較小的特征,本文經(jīng)過分析該數(shù)據(jù)集的特征,最終選取11種特征屬性作為流量分類的特征,如表5所示。在選取分類特征后,仍然對數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,最后隨機(jī)選取70%的數(shù)據(jù)作為訓(xùn)練集,剩余30%作為測試集。

        Table 3 Ten document information of MOORE dataset表3 MOORE數(shù)據(jù)集10個文檔信息

        Table 5 Features selected in this paper for classification表5 本文選取的用于分類的特征

        4.2 模型評價

        本文將帶噪標(biāo)簽的修復(fù)指標(biāo)作為評判模型分類性能的關(guān)鍵,修復(fù)指標(biāo)包括標(biāo)簽修復(fù)力度、模型輸出結(jié)果質(zhì)量和AUC。其中,標(biāo)簽修復(fù)力度是根據(jù)標(biāo)簽修復(fù)后的新標(biāo)簽與真實標(biāo)簽進(jìn)行相似性對比來判定,本文使用調(diào)整蘭德系數(shù)ARI(Adjusted Rand index)來計算標(biāo)簽修復(fù)力度。調(diào)整蘭德系數(shù)是改進(jìn)了的蘭德系數(shù),調(diào)整蘭德系數(shù)假設(shè)模型的超分布為隨機(jī)模型,即類和簇的劃分為隨機(jī)的,那么各類別和各簇的數(shù)據(jù)點數(shù)目是固定的。模型輸出結(jié)果質(zhì)量是指在校正的數(shù)據(jù)集上訓(xùn)練分類器,并在測試集上進(jìn)行分類預(yù)測而獲得的分類精度。本文在最終分類環(huán)節(jié)采用性能較優(yōu)的隨機(jī)森林分類模型計算分類的質(zhì)量;AUC代表ROC曲線下覆蓋的面積。由于ROC曲線的取值一般在0.5~1.0,值越接近1.0,檢測的真實性就越高。

        4.3 實驗過程

        本文選擇Python作為編程語言,使用jupytyer-lab作為模型訓(xùn)練工具。首先對未添加噪聲的NSL-KDD數(shù)據(jù)集和MOORE數(shù)據(jù)集直接使用隨機(jī)森林進(jìn)行分類。為了防止分類過程中出現(xiàn)欠擬合或過擬合現(xiàn)象,因此使用隨機(jī)森林的學(xué)習(xí)曲線得到最佳n_estimators值,以降低實驗的不合理性。n_estimators是隨機(jī)森林的重要參數(shù),表示森林中基評估器的數(shù)量,即樹的數(shù)量。當(dāng)n_estimators為181時,NSL-KDD數(shù)據(jù)集上的分類達(dá)到99.872%的準(zhǔn)確率;當(dāng)n_estimators為44時,MOORE數(shù)據(jù)集上的分類達(dá)到99.573%的準(zhǔn)確率。隨后在訓(xùn)練集中通過選取10%,20%,30%,40%,50%,55%,60%,65%,70%的數(shù)據(jù)將正確標(biāo)簽類型錯誤標(biāo)注,錯誤標(biāo)注的方式采取將正確標(biāo)簽錯誤分配和標(biāo)簽錯誤拼寫來實現(xiàn)噪聲的注入。隨后將STC (Self-Training Correction)算法[14]、CC (Cluster-based Correction)算法[14]和ADE(Automatic Data Enhancement)算法[15]與隨機(jī)森林算法相結(jié)合與本文方法進(jìn)行對比,并使用上文提到的標(biāo)簽修復(fù)力度、模型輸出結(jié)果質(zhì)量和AUC來評估本本算法的性能。

        4.4 實驗結(jié)果

        (1)標(biāo)簽精度。

        不同算法的標(biāo)簽修復(fù)力度實驗結(jié)果如圖2所示,圖中橫坐標(biāo)代表噪聲比例,縱坐標(biāo)代表算法修復(fù)力,即標(biāo)簽精度,圖2a和圖2b分別代表各算法在NSL-KDD數(shù)據(jù)集和MOORE數(shù)據(jù)集上的修復(fù)情況。將每種噪聲比例下的修復(fù)值繪制成折線,可直觀地看出不同噪聲下各個算法的修復(fù)情況。

        Figure 2 Repair power of each algorithm on NSL-KDD and MOORE with noisy data 圖2 各算法在帶噪數(shù)據(jù)集KSL-KDD 和MOORE上的修復(fù)力

        由圖2a可看出,對比修復(fù)算法STC在噪聲比例不大于20%時具有較強(qiáng)的修復(fù)力,在最佳情況下比本文提出的算法、CC算法和ADE算法,分別高出0.043,0.075和0.030;而在MOORE數(shù)據(jù)集上,則分別高出0.057,0.098和0.023,但當(dāng)噪聲比例大于20%時,噪聲修復(fù)力呈明顯下降趨勢,算法穩(wěn)定性表現(xiàn)較差;當(dāng)噪聲比在20%~55%時,ADE算法、CC算法和本文提出的算法都具有較好的穩(wěn)定性,并且在標(biāo)簽修復(fù)的精確率上本文的算法要比ADE算法和CC算法表現(xiàn)好一些,并在NSL-KDD數(shù)據(jù)集上表現(xiàn)最明顯;當(dāng)噪聲比達(dá)到55%時,4種算法的修復(fù)力度都呈下降趨勢,但整體情況本文算法的修復(fù)力度仍然要高于其他3種算法的。

        (2) 模型輸出結(jié)果質(zhì)量。

        模型輸出結(jié)果質(zhì)量通過使用經(jīng)STC、CC、ADE和本文方法中的修復(fù)算法修復(fù)后的標(biāo)簽作為分類模型的輸入,利用分類器對標(biāo)簽質(zhì)量進(jìn)行預(yù)測。圖3展示了在NSL-KDD數(shù)據(jù)集和MOORE數(shù)據(jù)集上各算法的分類結(jié)果質(zhì)量,圖中橫坐標(biāo)表示當(dāng)前標(biāo)簽所攜帶的噪聲比例,縱坐標(biāo)則表示最終分類準(zhǔn)確率,即模型輸出結(jié)果質(zhì)量。

        Figure 3 Classification results of each algorithm on KSL-KDD and MOORE with noisy data 圖3 各算法在帶噪數(shù)據(jù)集KSL-KDD 和MOORE上的分類性能

        實驗使用隨機(jī)森林分別對帶噪數(shù)據(jù)集與標(biāo)簽被修復(fù)的數(shù)據(jù)集進(jìn)行分類后對比,可看出帶噪數(shù)據(jù)集隨著噪聲比例的增加,分類準(zhǔn)確率呈明顯下降趨勢,表明了標(biāo)簽噪聲對分類器分類性能的危害是較嚴(yán)重的。前文提到,在有噪聲的環(huán)境中,隨機(jī)森林算法對含噪數(shù)據(jù)集具有一定的容忍性,因此本文選用隨機(jī)森林算法作為4種修復(fù)算法的分類器,從理論上可得到較優(yōu)的分類準(zhǔn)確率。從圖3可以看出,當(dāng)噪聲比例不大于20%時,STC算法相比其他3種算法具有更高的分類準(zhǔn)確率;同時可觀察到在NSL-KDD數(shù)據(jù)集上,在噪聲比例達(dá)到15%左右時,本文提出的修復(fù)算法在最終的分類效果上要比ADE算法表現(xiàn)好,但在MOORE數(shù)據(jù)集上,當(dāng)噪聲比例不大于20%時,本文算法的分類性能比ADE算法的要低;當(dāng)噪聲比例大于20%時,STC算法的分類性能呈明顯下降趨勢,并且隨著噪聲比例增大,下降幅度也增加。此時本文提出的修復(fù)算法、CC算法和ADE算法在噪聲比例到達(dá)55%之前都能使修復(fù)后的標(biāo)簽在分類性能上具有較好的穩(wěn)定性。除此之外,本文的修復(fù)算法在標(biāo)簽修復(fù)后的分類準(zhǔn)確率上要高于ADE算法的,在NSL-KDD數(shù)據(jù)集上同樣表現(xiàn)最明顯。而CC算法雖然也使修復(fù)后的標(biāo)簽保持著較好的分類穩(wěn)定性,但在分類性能上略遜于這2種算法的;當(dāng)噪聲比例不小于55%時,4種算法所修復(fù)的標(biāo)簽在最終的分類器性能上都呈下降趨勢。而在帶噪的MOORE數(shù)據(jù)集上,本文提出的修復(fù)算法的分類性能表現(xiàn)較為穩(wěn)定。整體上本文提出的修復(fù)算法在2個數(shù)據(jù)集上的總體性能都優(yōu)于其他3種對比算法。

        (3)AUC。

        AUC指的是每個類型下的ROC曲線所形成的面積大小,由于網(wǎng)絡(luò)流量一般屬于多類別的數(shù)據(jù)集,因此將修復(fù)后的噪聲數(shù)據(jù)直接訓(xùn)練得到的模型的平均AUC值,作為該模型的AUC性能指標(biāo)。圖4展示了4種算法在不同噪聲比例下在2個數(shù)據(jù)集上的AUC指標(biāo)情況。由圖4a可看出,在噪聲比不大于20%時,STC算法的AUC仍然略高于本文算法的AUC,ADE算法的AUC整體低于上述2種算法但高于CC算法的AUC;當(dāng)噪聲比例大于20%時,STC算法的AUC開始呈明顯下降趨勢,此時本文算法相比ADE算法和CC算法有更高的穩(wěn)定性;當(dāng)噪聲比例不小于60%時,4種算法的AUC值都呈下降趨勢,并且在NSL-KDD數(shù)據(jù)集上呈現(xiàn)得較為明顯。

        Figure 4 AUC values of each algorithm on KSL-KDD and MOORE with noisy data 圖4 各算法在帶噪數(shù)據(jù)集KSL-KDD 和MOORE上的AUC值

        (4)運行時間。

        圖5為修復(fù)算法運行的時間對比結(jié)果。從圖中可以清晰地看出,本文所提算法和CC算法在NSL-KDD數(shù)據(jù)集和MOORE數(shù)據(jù)集上所消耗的時間都呈現(xiàn)較好的穩(wěn)定性,計算時間分別在1 s~4 s和在2 s~7 s。STC算法和ADE算法在2個數(shù)據(jù)集上所耗費的時間大體隨著噪聲比例的提升有一定的增加,其中ADE算法在2個數(shù)據(jù)集上的計算時間都高于其他3種算法的,在NSL-KDD數(shù)據(jù)集上耗時最高達(dá)到了256.49 s左右,在MOORE數(shù)據(jù)集上計算耗時達(dá)到88.06 s左右。

        Figure 5 Calculation time of each algorithm on KSL-KDD and MOORE with noisy data 圖5 各算法在帶噪數(shù)據(jù)集KSL-KDD 和MOORE上的計算時間

        由于本文在預(yù)處理階段從NSL-KDD數(shù)據(jù)集和MOORE數(shù)據(jù)集中選取的特征數(shù)量不同,NSL-KDD數(shù)據(jù)集在預(yù)處理后得到118維特征,其中有80維是由原特征中的字符特征轉(zhuǎn)換而得的,MOORE則根據(jù)實驗需求選取11維特征。因此,猜測不同的算法計算耗時可能會受到數(shù)據(jù)集維度的影響,其中,ADE算法受到維度過高時的影響較大,當(dāng)維度減小時,其所耗費的時間也明顯減少;STC算法的計算時間也會根據(jù)維度的減小而減少。但是,無論如何,本文所提出的算法相對其它三者都呈現(xiàn)出更好的穩(wěn)定性,對不同維度的數(shù)據(jù)集具有一定的適應(yīng)性和穩(wěn)定性。

        5 結(jié)束語

        本文提出的基于標(biāo)簽噪聲修復(fù)的網(wǎng)絡(luò)流量分類方法,是根據(jù)不同類型噪聲對采用的權(quán)重算法進(jìn)行改進(jìn),實現(xiàn)對正確標(biāo)簽錯誤標(biāo)記和標(biāo)簽的錯誤拼寫2種情況的標(biāo)簽修復(fù)。本文在2個網(wǎng)絡(luò)流量數(shù)據(jù)集上驗證了本文算法的合理性和穩(wěn)定性,與其他文獻(xiàn)中的標(biāo)簽修復(fù)算法對比結(jié)果表明,本文所提修復(fù)算法能更好地對含不同比例噪聲的數(shù)據(jù)集進(jìn)行修復(fù),并在最終的分類結(jié)果上保持較好的性能,有更好的執(zhí)行效率、穩(wěn)定性、精確度和適應(yīng)性。

        猜你喜歡
        集上分類器標(biāo)簽
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        復(fù)扇形指標(biāo)集上的分布混沌
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        標(biāo)簽化傷害了誰
        基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
        国产女人高潮的av毛片| 品色永久免费| 亚洲中文字幕乱码| 国产亚洲av手机在线观看| 福利利视频在线观看免费| 高潮内射双龙视频| 抽搐一进一出试看60秒体验区 | 亚洲AV无码成人精品区日韩密殿| 国产一区二区三区在线观看黄| 伦伦影院午夜理论片| 精品国产aⅴ无码一区二区| 亚洲国产精品悠悠久久琪琪| 国产三级视频在线观看国产| 99久久99久久精品国产片| 亚洲av永久无码精品一区二区| 日韩欧美第一区二区三区| 少妇人妻精品一区二区三区视| 国色天香社区视频在线| 日韩电影一区二区三区| 久久久精品免费国产四虎| 特级黄色大片性久久久| 黑人巨茎大战俄罗斯美女| 午夜亚洲www湿好大| 国产91精品丝袜美腿在线| 青青草小视频在线播放| 精品国产一区二区三区香蕉| 久久精品伊人无码二区| 在线视频免费自拍亚洲| 美女张开腿黄网站免费| 国产免费午夜a无码v视频| 亚洲亚洲亚洲亚洲亚洲天堂| 熟女一区二区中文字幕| 国产精品久久久久久久妇| 国产精品青草视频免费播放| 最全精品自拍视频在线| 午夜成人理论福利片| 亚洲的天堂av无码| 韩国免费一级a一片在线| 国产91清纯白嫩初高中在线观看| 三级特黄60分钟在线观看| 欧美日韩一区二区三区视频在线观看 |