亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SDN的一體化信息網(wǎng)絡(luò)業(yè)務(wù)流分類策略

        2023-01-31 03:35:38傅穎勛馬東超
        計算機(jī)工程與設(shè)計 2023年1期
        關(guān)鍵詞:分類

        趙 曦,馬 禮,傅穎勛,李 陽,馬東超

        (北方工業(yè)大學(xué) 信息學(xué)院,北京 100144)

        0 引 言

        一體化信息網(wǎng)絡(luò)是一種異構(gòu)網(wǎng)絡(luò),其架構(gòu)如圖1所示,多網(wǎng)融合使其具有復(fù)雜多變的網(wǎng)絡(luò)結(jié)構(gòu)和繁多的業(yè)務(wù)種類,而網(wǎng)絡(luò)的動態(tài)性和缺乏自適應(yīng)性使得對流量的管理與調(diào)度非常困難[1]。實時收集流量信息并進(jìn)行分類是一體化信息網(wǎng)絡(luò)能夠發(fā)揮作用的重要前提,因為流量管理與調(diào)度過程需用到網(wǎng)絡(luò)中的流量信息來當(dāng)作評估網(wǎng)絡(luò)狀況的依據(jù),而不同業(yè)務(wù)對網(wǎng)絡(luò)資源需求的不同使得流量的調(diào)度策略不能一概而論,只有考慮以上這些因素才能保證網(wǎng)絡(luò)用戶的服務(wù)質(zhì)量。因此設(shè)計一種實時業(yè)務(wù)流分類策略,對于保障一體化信息網(wǎng)絡(luò)的服務(wù)質(zhì)量、提高資源利用率有著重要的意義。

        圖1 一體化信息網(wǎng)絡(luò)架構(gòu)

        由于傳統(tǒng)IP網(wǎng)絡(luò)架構(gòu)的底層設(shè)備較為封閉,難以實現(xiàn)路由策略部署[2],無法滿足一體化信息網(wǎng)絡(luò)的流量信息收集與分類需求,因此本文設(shè)計了一種在軟件定義網(wǎng)絡(luò)架構(gòu)下的一體化信息網(wǎng)絡(luò)業(yè)務(wù)流分類系統(tǒng)。軟件定義網(wǎng)絡(luò)的架構(gòu)如圖2所示,具有集中控制、轉(zhuǎn)控分離等特點,該架構(gòu)不僅適用于一體化信息網(wǎng)絡(luò)的流量分類系統(tǒng),而且便于對網(wǎng)絡(luò)進(jìn)行管理與維護(hù)。

        圖2 軟件定義網(wǎng)絡(luò)架構(gòu)

        1 相關(guān)工作

        隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)流量分類作為提升網(wǎng)絡(luò)質(zhì)量的基礎(chǔ)技術(shù),一直是網(wǎng)絡(luò)研究的重點之一。文獻(xiàn)[3]利用軟件定義網(wǎng)絡(luò)架構(gòu)可編程性的特點,在數(shù)據(jù)包發(fā)送的早期對其載荷部分的特征值進(jìn)行分類從而避免加密對深度包檢測技術(shù)的影響。文獻(xiàn)[4]使用深度包檢測技術(shù)進(jìn)行業(yè)務(wù)流分類從而為QoS隊列提供不同優(yōu)先級。上述文獻(xiàn)采用的均是深度包檢測技術(shù)進(jìn)行流量分類,該技術(shù)存在無法識別載荷部分被加密的數(shù)據(jù)包的局限性,即使文獻(xiàn)[4]提出了在數(shù)據(jù)包發(fā)送早期對其載荷部分特征值進(jìn)行分類的方法,但該方法不適用于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、網(wǎng)絡(luò)環(huán)境動態(tài)多變的一體化信息網(wǎng)絡(luò),該類網(wǎng)絡(luò)環(huán)境經(jīng)常有子網(wǎng)的接入導(dǎo)致拓?fù)渥兓?,因此對業(yè)務(wù)流的分類也需要動態(tài)進(jìn)行,深度包檢測技術(shù)一旦錯過業(yè)務(wù)流發(fā)送的早期就無法進(jìn)行分類。

        隨著人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)的分類技術(shù)受到了廣泛的關(guān)注,基于機(jī)器學(xué)習(xí)的業(yè)務(wù)流分類研究也應(yīng)運而生。其中大部分研究基于劍橋大學(xué)Moore教授等[5]使用的網(wǎng)絡(luò)流量實驗數(shù)據(jù)集對分類算法進(jìn)行優(yōu)化。文獻(xiàn)[6]使用K-Means和隨機(jī)森林相結(jié)合的方法從業(yè)務(wù)流特征中對用戶行為進(jìn)行分類。對信息交互、網(wǎng)頁瀏覽、視頻流和背景流進(jìn)行識別且準(zhǔn)確率在97%左右。文獻(xiàn)[7]提出了一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)流量細(xì)粒度分類方法,對10類流媒體業(yè)務(wù)的分類準(zhǔn)確率達(dá)到了93%左右。文獻(xiàn)[8]使用SVM 算法對28種業(yè)務(wù)流進(jìn)行了分類,對單向流和雙向流的分類準(zhǔn)確率達(dá)到了85%左右。文獻(xiàn)[9]提出了基于無監(jiān)督學(xué)習(xí)的流量識別算法,該算法能夠識別不同物聯(lián)網(wǎng)設(shè)備產(chǎn)生的不同業(yè)務(wù)流,分類精度能夠達(dá)到98%左右。文獻(xiàn)[10]提出了一種基于多階段機(jī)器學(xué)習(xí)分類算法的框架,該框架使用從網(wǎng)絡(luò)流量特征中獲得的統(tǒng)計屬性,對每個物聯(lián)網(wǎng)設(shè)備以及一類非物聯(lián)網(wǎng)設(shè)備產(chǎn)生的業(yè)務(wù)流進(jìn)行精確分類。由于Moore等所使用的數(shù)據(jù)集具有249維特征,雖然考慮較多維度的特征能提升分類精度,但是過多的特征維度會導(dǎo)致訓(xùn)練時的計算開銷較大,從而降低模型的訓(xùn)練效率;另一方面特征維度過多會導(dǎo)致訓(xùn)練出的模型復(fù)雜度較大,導(dǎo)致分類效率降低。此外上述文獻(xiàn)大多采用SVM作為待改進(jìn)的分類算法,但SVM算法也存在一些局限性:原始的SVM只能進(jìn)行二分類,當(dāng)需要進(jìn)行多分類時就需要訓(xùn)練多個二分類器,因此當(dāng)數(shù)據(jù)量較大時,訓(xùn)練和分類的計算開銷巨大從而導(dǎo)致訓(xùn)練時間和分類時間較長,難以滿足一體化信息網(wǎng)絡(luò)對業(yè)務(wù)流識別的實時性需求;原始的SVM抗噪聲性能不佳,在流量數(shù)據(jù)存在大量噪聲的一體化信息網(wǎng)絡(luò)環(huán)境下難以準(zhǔn)確分類。一些研究采用CART算法生成決策樹來作為流量的分類模型,文獻(xiàn)[11]提出了一種基于CART算法的異常流量監(jiān)測技術(shù),對4種攻擊類型的流量進(jìn)行分類,準(zhǔn)確率達(dá)到了90%左右。雖然CART算法在分類速度和抗噪性方面均優(yōu)于SVM算法,但是在訓(xùn)練用時方面,CART算法仍然需要耗費大量的時間去尋找決策樹的最優(yōu)分割點。此外CART算法采用“多數(shù)表決”的方法來選擇葉節(jié)點的類別,這也會造成模型對樣本量較小的類別分類準(zhǔn)確率下降。

        因此本文在SDN架構(gòu)下設(shè)計了一種業(yè)務(wù)流收集與分類系統(tǒng),并設(shè)計了基于Fayyad定理改進(jìn)的CART算法,與基于弱分類器系數(shù)和分類誤差率相似度改進(jìn)的Adaboost算法相結(jié)合,設(shè)計分類模型,該模型在滿足一體化信息網(wǎng)絡(luò)業(yè)務(wù)流分類的實時性需求同時仍具有較高的分類準(zhǔn)確率。

        2 基于SDN的一體化信息網(wǎng)絡(luò)業(yè)務(wù)流分類設(shè)計與實現(xiàn)

        本文首先在SDN架構(gòu)下的數(shù)據(jù)平面設(shè)計了流量感知節(jié)點,流量感知節(jié)點通過數(shù)據(jù)平面與控制平面的交互將數(shù)據(jù)平面的流表信息上報給控制平面,隨后設(shè)計了基于Fayyad定理改進(jìn)的CART算法,與基于弱分類器系數(shù)和分類誤差率相似度改進(jìn)的Adaboost算法相結(jié)合的分類模型,并將其部署到了控制平面中,控制平面再將從數(shù)據(jù)平面獲取的流表信息加工成流量特征后輸入到分類模型從而完成業(yè)務(wù)流的分類。

        2.1 流量感知節(jié)點的設(shè)計

        為保障一體化信息網(wǎng)絡(luò)端到端的服務(wù)質(zhì)量,使網(wǎng)絡(luò)管理系統(tǒng)能夠動態(tài)的感知網(wǎng)絡(luò)流量的變化,從而及時作出決策以提高網(wǎng)絡(luò)性能,本文設(shè)計了一種在SDN架構(gòu)下的流量感知節(jié)點。流量感知節(jié)點由數(shù)據(jù)獲取模塊和數(shù)據(jù)加工模塊共同組成,其架構(gòu)如圖3所示,數(shù)據(jù)獲取模塊將邊緣交換機(jī)的原始流量信息匯報給控制平面中的數(shù)據(jù)加工模塊,隨后數(shù)據(jù)加工模塊將原始流量信息加工成流量特征以便分類模型進(jìn)行分類。

        圖3 流量感知節(jié)點架構(gòu)

        數(shù)據(jù)獲取模塊設(shè)計如下:首先控制平面獲取數(shù)據(jù)平面中邊緣交換機(jī)的狀態(tài)信息以確定邊緣交換機(jī)是否在線,隨后對在線的邊緣交換機(jī)發(fā)送數(shù)據(jù)請求以獲取原始流量信息,為了動態(tài)的感知網(wǎng)絡(luò)流量信息,需要持續(xù)的獲取來自邊緣交換機(jī)的原始流量信息,因此本文在控制平面開啟了一個線程以周期性的向邊緣交換機(jī)發(fā)送數(shù)據(jù)請求;邊緣交換機(jī)在收到控制平面發(fā)送的數(shù)據(jù)請求后就會將原始流量信息以報文形式發(fā)送給控制平面。由于直接從交換機(jī)獲取的原始流量信息有限,不滿足分類模型所需的全部特征,所以需要通過數(shù)據(jù)加工模塊對流量信息進(jìn)行加工,以提取分類模型所需的全部特征。

        本文訓(xùn)練的分類模型所使用的流量特征為數(shù)據(jù)包的源端口號和目的端口號、流持續(xù)時長、流的比特速率、流的數(shù)據(jù)包速率、數(shù)據(jù)包的平均大小、數(shù)據(jù)包的平均到達(dá)時間間隔、數(shù)據(jù)包的最大到達(dá)時間間隔、數(shù)據(jù)包的最小到達(dá)時間間隔、數(shù)據(jù)包的到達(dá)時間間隔標(biāo)準(zhǔn)差;數(shù)據(jù)加工模塊獲得以上流量特征的設(shè)計如下:流的源目的端口號、持續(xù)時間可由流表信息直接獲取,由源目的端口號來確定周期前后獲取的流表信息是否為同一條流;流的比特速率可由周期前后比特數(shù)的差除以周期時間獲取,流的數(shù)據(jù)包速率計算同理;流的數(shù)據(jù)包平均大小可由周期內(nèi)流過的比特數(shù)除以數(shù)據(jù)包數(shù)獲取;包的平均到達(dá)時間間隔可由周期時間除以周期內(nèi)流過的數(shù)據(jù)包數(shù)獲取,數(shù)據(jù)包的最大到達(dá)時間間隔、最小到達(dá)時間間隔、到達(dá)時間間隔的標(biāo)準(zhǔn)差可通過篩選多個周期的平均到達(dá)時間間隔獲取。

        2.2 基于排序選擇分割點的CART算法改進(jìn)

        CART算法是一種決策樹算法,其原理是通過基尼系數(shù)或平方誤差最小化準(zhǔn)則來選擇訓(xùn)練樣本中的分割特征值,通過遞歸的在分割特征值處將訓(xùn)練集分成兩個子集來構(gòu)建決策樹。由于CART算法在構(gòu)建決策樹時采用二分遞歸的方法,其構(gòu)建的決策樹為結(jié)構(gòu)簡單的二叉樹,因此具有較強(qiáng)的抗干擾能力和泛化能力,適合在網(wǎng)絡(luò)流量存在較多噪聲的一體化信息網(wǎng)絡(luò)環(huán)境下進(jìn)行業(yè)務(wù)流的分類。CART算法可根據(jù)類別為離散屬性或連續(xù)屬性構(gòu)建分類樹或回歸樹。本文的需求是根據(jù)業(yè)務(wù)類型為流量分類,因此本文選擇CART分類樹作為待改進(jìn)的算法。

        由CART算法構(gòu)建決策樹的原理可知,CART算法在處理連續(xù)型特征屬性時需要計算每個可能的分割點所對應(yīng)的基尼系數(shù),找出其中基尼系數(shù)最小的特征值作為最優(yōu)分割點,例如一個連續(xù)型特征屬性具有N個特征值時就要計算N-1次基尼系數(shù)。當(dāng)訓(xùn)練集的樣本數(shù)據(jù)量大、連續(xù)型特征屬性較多時,原始的CART算法所要考慮的可能分割點數(shù)也會隨之增加,對每一個可能的分割點都計算相應(yīng)的基尼系數(shù)將會帶來巨大的時間開銷,導(dǎo)致最終構(gòu)建分類樹的效率降低,而一體化信息網(wǎng)絡(luò)所產(chǎn)生的流量具有數(shù)據(jù)量大、連續(xù)特征屬性多的特點,因此本文將基于文獻(xiàn)[12]提出的Fayyad邊界點定理對CART算法進(jìn)行改進(jìn)以降低其訓(xùn)練過程中的時間開銷。

        基于Fayyad邊界點定理,本文在CART算法構(gòu)建決策樹時對每一維特征A的每一個可能作為分割點的特征值計算基尼系數(shù)前,首先對樣本按照特征A的特征值進(jìn)行升序排序,計算排序后相鄰兩樣本類別不同時兩樣本所對應(yīng)特征A的特征值的平均值并以該平均值點作為邊界點,在計算完所有特征的邊界點后,只計算邊界點的基尼系數(shù)并找出基尼系數(shù)最小的邊界點作為最優(yōu)分割點。由于基于Fayyad邊界點定理改進(jìn)后的CART算法不再逐一對每維特征的每一個可能作為分割點的特征值進(jìn)行基尼系數(shù)計算,而是只計算邊界點的基尼系數(shù),因此能夠大大縮短計算基尼系數(shù)所造成的的時間開銷,提高決策樹的生成效率,而Fayyad邊界點定理驗證了決策樹的最佳分割點都在邊界點處,所以這種改進(jìn)方法不會降低構(gòu)建的決策樹的分類精度,改進(jìn)后的算法流程如圖4所示。

        圖4 改進(jìn)CART算法流程

        2.3 基于弱分類器系數(shù)和分類誤差率相似度的Adaboost算法改進(jìn)

        由于CART算法在構(gòu)建決策樹時采用以葉節(jié)點中占比最多的樣本類別作為葉節(jié)點類別的方法,這種多數(shù)表決的方法所構(gòu)建的決策樹模型對樣本量較小的類別分類精度很不穩(wěn)定,而一體化信息網(wǎng)絡(luò)環(huán)境復(fù)雜多變,導(dǎo)致業(yè)務(wù)流類別分布不平衡,單純使用CART算法進(jìn)行區(qū)分業(yè)務(wù)流易造成對樣本量較小的業(yè)務(wù)流錯誤分類。Adaboost算法是一種集成學(xué)習(xí)的分類方法,其原理是通過迭代訓(xùn)練多個弱分類器并將它們組合成強(qiáng)分類器以提高分類精度,具體來說就是在每輪迭代中提高那些被上一輪迭代訓(xùn)練的弱分類器錯誤分類樣本的權(quán)重,而降低那些被正確分類的樣本權(quán)重,使沒有被正確分類的樣本在新一輪迭代訓(xùn)練中受到更大的關(guān)注,最終各個弱分類器以投票的方式?jīng)Q定分類結(jié)果,其中誤差率小的弱分類器在投票中有較大的話語權(quán),反之誤差率大的弱分類器在投票中只有較小的話語權(quán)。因此本文將CART算法與改進(jìn)的Adaboost算法結(jié)合,使CART算法能夠重復(fù)學(xué)習(xí)樣本量較小的類別并構(gòu)建多個弱分類模型,通過多個弱分類模型的集成學(xué)習(xí)提高對樣本量較小的類別的分類精度。

        2.3.1 基于弱分類器系數(shù)改進(jìn)Adaboost算法

        原始的Adaboost算法中弱分類器系數(shù)的代表弱分類器在最終投票決定分類結(jié)果中的話語權(quán),其定義如式(1)所示

        (1)

        其中,em表示弱分類器的分類誤差率,由上式可知原始的Adaboost算法在定義弱分類器系數(shù)時僅考慮了弱分類的誤差率em這一因素,但是當(dāng)訓(xùn)練集中存在大量噪聲樣本時,隨著迭代的進(jìn)行和樣本權(quán)重的歸一化原則,已正確分類的樣本權(quán)重將會變得越來越小,噪聲和難分樣本的權(quán)重會越來越大,在兩類樣本權(quán)重急劇變化的情況下新訓(xùn)練出的弱分類器誤差率可能仍然沒有變化,造成性能較差的弱分類器與性能較好的弱分類器在投票時話語權(quán)相同,這樣就會導(dǎo)致最終組合出來的強(qiáng)分類器模型對未知樣本的分類能力不佳。因此本文將從迭代中的弱分類系數(shù)著手對Adaboost算法改進(jìn)。

        本文提出了正確分類樣本權(quán)重分布系數(shù)rm,rm表示第m次迭代時正確分類樣本權(quán)重的累加和,其定義如式(2)所示

        (2)

        其中,m為迭代次數(shù),Gm(xi)為弱分類器對第i個樣本的分類結(jié)果,yi為該樣本的真實類別,Dm(i)為每個正確分類的樣本權(quán)重。由于Adaboost算法在迭代中會提高被錯分了的樣本權(quán)重,降低正確分類的樣本權(quán)重,而歸一化原則使所有樣本的權(quán)重和為1,當(dāng)rm較大時說明被正確分類的樣本數(shù)量較多,僅有少量噪聲樣本未被正確分類;當(dāng)rm較小時說明被錯誤分類的樣本數(shù)量較多或噪聲樣本已經(jīng)被賦予了較大的權(quán)重,因此rm能在一定程度上反映弱分類器的性能好壞,應(yīng)當(dāng)將其考慮到弱分類器的系數(shù)中,以提高性能較好的弱分類器在Adaboost算法最終訓(xùn)練出的強(qiáng)分類器中的話語權(quán),進(jìn)而提高強(qiáng)分類器的泛化能力。改進(jìn)后的弱分類器系數(shù)定義如式(3)所示

        (3)

        2.3.2 基于分類誤差相似度改進(jìn)Adaboost算法

        Adaboost算法的迭代訓(xùn)練過程會產(chǎn)生多個弱分類器,但并不是每個弱分類器都會在最終產(chǎn)生的強(qiáng)分類器中起到作用,由于迭代過程具有一定的隨機(jī)性,因此迭代中可能會產(chǎn)生兩個性能相同的冗余弱分類器,這種冗余弱分類器不僅不會提升最終的強(qiáng)分類器的準(zhǔn)確率,反而會造成多余的計算開銷,使分類效率降低。當(dāng)存在過多的冗余弱分類器的Adaboost模型用于一體化信息網(wǎng)絡(luò)的業(yè)務(wù)流分類時,意味著業(yè)務(wù)流分類無法實時完成,用戶的服務(wù)質(zhì)量需求也就難以保障。因此本文將從刪除迭代中產(chǎn)生的冗余弱分類器著手對Adaboost算法改進(jìn)。

        本文提出了誤差率相似度sij, 具體地定義如下:

        (4)

        其中,sij表示兩個弱分類器之間對錯誤樣本分類的相似程度。sij越高表示兩個弱分類器對相同樣本錯誤分類的概率越高,當(dāng)sij=1時即表示兩個弱分類器完全相同,因此在最后組合的強(qiáng)分類器中發(fā)揮的作用也相同,屬于冗余的弱分類器,對其中一個刪除可減少分類所花費的時間而不會對分類精度造成影響。綜上,只要在迭代中計算分類誤差率時將分類結(jié)果存入矩陣,迭代完成后先通過分類誤差相似度刪除冗余的弱分類器再組合剩下的弱分類器形成強(qiáng)分類器,就可以減小分類過程中的計算開銷,縮短分類所需的時間從而提升分類效率。

        3 實驗結(jié)果與分析

        3.1 實驗環(huán)境及數(shù)據(jù)集

        為驗證本文提出的基于SDN的一體化信息網(wǎng)絡(luò)業(yè)務(wù)流分類技術(shù)的有效性,本文采用文獻(xiàn)[13]提供的數(shù)據(jù)集和UNB提供的兩個公開數(shù)據(jù)集,3個數(shù)據(jù)集都包含了網(wǎng)頁瀏覽、電子郵件、文字聊天、音頻傳輸、視頻傳輸、文件傳輸、語音聊天、P2P共8類常用的網(wǎng)絡(luò)業(yè)務(wù)流數(shù)據(jù),能夠涵蓋一體化信息網(wǎng)絡(luò)所涉及的大部分業(yè)務(wù),其中TimeBasedFeatures數(shù)據(jù)集包含8000個樣本, Darknet數(shù)據(jù)集包含140 000個樣本,VPN數(shù)據(jù)集包含90 000個樣本。為了便于本文設(shè)計的SDN控制器提取業(yè)務(wù)流特征信息,本文選取數(shù)據(jù)包源端口號和目的端口號、流持續(xù)時長、流的比特速率、流的數(shù)據(jù)包速率、數(shù)據(jù)包的平均大小、數(shù)據(jù)包的平均達(dá)到時間間隔、數(shù)據(jù)包的最大到達(dá)時間間隔、數(shù)據(jù)包的最小到達(dá)時間間隔、數(shù)據(jù)包的到達(dá)時間間隔標(biāo)準(zhǔn)差共10維特征進(jìn)行實驗。

        本文的實驗平臺為實驗室的Dell臺式電腦,CPU型號為Intel Core i7-3770,主頻為3.40 GHZ,內(nèi)存為8 GB,搭載的操作系統(tǒng)為Windows7,使用Mininet對SDN架構(gòu)進(jìn)行仿真。

        3.2 結(jié)果分析

        本文選用準(zhǔn)確率、訓(xùn)練時間、分類時間3個指標(biāo)來衡量本文所提出的基于Fayyad邊界點定理改進(jìn)的CART算法與基于弱分類器系數(shù)和分類誤差相似度改進(jìn)的Adaboost算法相結(jié)合的分類算法性能。通過數(shù)據(jù)預(yù)處理在每個數(shù)據(jù)集中隨機(jī)抽取80%作為訓(xùn)練集,剩下20%作為測試集,在對比本文提出的基于Fayyad邊界點定理改進(jìn)的CART算法(以下簡稱改進(jìn)CART算法)、改進(jìn)CART算法與基于弱分類器系數(shù)和分類誤差相似度改進(jìn)的Adaboost算法相結(jié)合的算法、SVM算法、CART算法、CART算法與Adaboost算法相結(jié)合的算法的基礎(chǔ)上采用10次實驗結(jié)果的平均值作為最終實驗結(jié)果進(jìn)行分析。實驗結(jié)果如圖5~圖7所示。

        圖5比較了5種算法的分類精度,其中SVM算法分類精度最低且隨著數(shù)據(jù)集樣本數(shù)量增多下降的最明顯,可以看出SVM算法在處理含有較多噪聲樣本的真實網(wǎng)絡(luò)流量數(shù)據(jù)時性能較差;CART算法對各個數(shù)據(jù)集的分類精度均高于SVM算法,隨著數(shù)據(jù)集樣本數(shù)量增多分類精度也有所下降,但下降的幅度要遠(yuǎn)遠(yuǎn)小于SVM算法,由此可見CART算法對于噪聲樣本的容忍能力要強(qiáng)于SVM; 改進(jìn)CART算法在3個數(shù)據(jù)集的分類精度沒有明顯變化;CART算法與Adaboost算法結(jié)合后,在3個數(shù)據(jù)集的分類精度都有所上升,可見集成學(xué)習(xí)的方法提升了CART算法對于樣本量較小的數(shù)據(jù)的處理性能;將改進(jìn)CART算法與基于弱分類器系數(shù)和分類誤差相似度改進(jìn)的Adaboost算法結(jié)合后,算法的分類精度相較未改進(jìn)的兩種算法結(jié)合又有所上升,可見通過賦予性能更好的弱分類器在最終強(qiáng)分類器中更大的話語權(quán)能夠提升Adaboost算法的分類精度。

        圖5 5種算法的分類準(zhǔn)確率

        圖6比較了5種算法的訓(xùn)練時間,SVM算法訓(xùn)練用時較長,因為其在訓(xùn)練過程中是因為需要訓(xùn)練多個二分類器導(dǎo)致計算開銷較大;原始CART算法的訓(xùn)練用時雖然相較SVM算法有所縮短,但訓(xùn)練的時間仍然較長,這是因為該算法尋找最佳分割點需要對訓(xùn)練集中每一個可能的分割點計算基尼系數(shù);改進(jìn)CART算法的訓(xùn)練用時下降了超過50%,這是由于改進(jìn)后的CART算法只在邊界點中尋找最佳分割點,因此計算開銷大大減少,從而縮短了訓(xùn)練用時;將CART算法與Adaboost算法結(jié)合后的算法訓(xùn)練用時上升幅度較大,已經(jīng)超過了SVM算法的訓(xùn)練用時,由于集成學(xué)習(xí)的方法需要迭代訓(xùn)練多個弱分類器,因此計算開銷相比SVM算法也大大增加;將改進(jìn)CART算法與基于弱分類器系數(shù)和分類誤差相似度改進(jìn)的Adaboost算法結(jié)合后,算法的訓(xùn)練用時相比未改進(jìn)的兩種算法結(jié)合有所下降,這是因為集成學(xué)習(xí)中每個CART弱分類器都只在邊界點處尋找最佳分割點。

        圖6 5種算法的訓(xùn)練時間

        圖7比較了5種算法的分類用時,SVM算法的分類用時最長,由于分類需要經(jīng)過多個二分類器,其分類用時要明顯高于其它幾種算法;CART算法的分類用時較短,因為CART所構(gòu)造的決策樹在分類時只需自根節(jié)點向下比較待分類樣本的特征值與每個節(jié)點的最佳分割點特征值的大小,直到進(jìn)入葉節(jié)點并將葉節(jié)點的標(biāo)簽作為最終的分類結(jié)果;改進(jìn)CART算法的分類用時沒有明顯的變化;將CART算法與Adaboost算法結(jié)合后的分類用時有著明顯的上升,由于集成學(xué)習(xí)的方法在分類時需要多個弱分類器投票決定分類結(jié)果,因此分類用時相較CART算法有所增加;將改進(jìn)CART算法與基于弱分類器系數(shù)和分類誤差相似度改進(jìn)的Adaboost算法結(jié)合后,算法的分類用時相比未改進(jìn)的兩種算法結(jié)合有所下降,可見通過分類誤差相似度剔除冗余弱分類器后能降低Adaboost算法的分類用時。

        圖7 5種算法的分類用時

        4 結(jié)束語

        為解決一體化信息網(wǎng)絡(luò)環(huán)境下流量管理與調(diào)度的問題,使網(wǎng)絡(luò)資源能夠合理分配,本文提出了基于SDN的一體化信息網(wǎng)絡(luò)業(yè)務(wù)流分類策略。針對一體化信息網(wǎng)絡(luò)環(huán)境動態(tài)多變的特點,在SDN架構(gòu)下設(shè)計了流量感知節(jié)點實現(xiàn)實時收集網(wǎng)絡(luò)中的流量信息,并針對一體化信息網(wǎng)絡(luò)流量數(shù)據(jù)量大、連續(xù)特征屬性多、業(yè)務(wù)類別分布不平衡、存在大量噪聲的特點設(shè)計了一種基于Fayyad邊界點定理改進(jìn)CART算法,與基于弱分類器系數(shù)和分類誤差相似度改進(jìn)的Adaboost算法相結(jié)合的分類模型,實驗結(jié)果表明了該模型具有良好的分類性能。

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準(zhǔn)備好了嗎
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        色偷偷偷久久伊人大杳蕉| 婷婷开心五月综合基地| 99热婷婷一区二区三区| 日本不卡在线一区二区三区视频| 亚洲麻豆av一区二区| 免费在线观看视频播放| 亚洲av不卡一区二区三区| 91日韩高清在线观看播放| 男女在线免费视频网站| 91精品国产乱码久久中文| 亚洲欧美乱日韩乱国产| 国产精品嫩草影院AV| 亚洲国产日韩精品综合| 国产一区二区长腿丝袜高跟鞋| 久久国产成人精品av| 国产呦系列呦交| 在线观看免费午夜大片| 美女一级毛片免费观看97| 国产一级自拍av播放| 久久av粉嫩一区二区| 国产亚洲精品综合一区| 免费99精品国产自在在线| 性一交一乱一伦| 精品日韩欧美一区二区三区在线播放| 日本视频一区二区三区在线| 一边做一边喷17p亚洲乱妇50p| 一级免费毛片| 国产91九色视频在线播放| 激情五月婷婷一区二区| 亚洲综合无码无在线观看| 天天爽夜夜爽人人爽曰喷水| 91久久精品一区二区喷水喷白浆| 青青草成人在线免费视频| 国产激情内射在线影院| 久久久久久久国产精品电影| 人妻中文字幕一区二区视频| 亚洲综合在线一区二区三区| 无码 制服 丝袜 国产 另类 | 96中文字幕一区二区| 不卡av电影在线| 手机看片1024精品国产|