尚鳳軍 李賽賽 王 穎 催云帆
(重慶郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 重慶 400000)
應(yīng)用流量識(shí)別技術(shù)可以識(shí)別網(wǎng)絡(luò)中與網(wǎng)絡(luò)流量相對(duì)應(yīng)的應(yīng)用類(lèi)型,然后識(shí)別當(dāng)前占主要帶寬流量的應(yīng)用類(lèi)型。企業(yè)或者校園的網(wǎng)絡(luò)管理者能夠根據(jù)不同的情況適時(shí)調(diào)整干預(yù)關(guān)鍵網(wǎng)絡(luò)流量[1]。然而在真實(shí)的世界中,網(wǎng)絡(luò)流量數(shù)據(jù)最突出的特點(diǎn)就是其隨著時(shí)間快速演化,存在概念漂移的現(xiàn)象,并且隨著不同的地域和網(wǎng)絡(luò)環(huán)境,其協(xié)議類(lèi)型的分布也不一致[2]。利用機(jī)器學(xué)習(xí)進(jìn)行流量分類(lèi)中,原先可以利用的有標(biāo)簽數(shù)據(jù)變得不再可用,與原來(lái)測(cè)試樣本的分布產(chǎn)生語(yǔ)分布上的不同[3],導(dǎo)致這個(gè)假設(shè)通常不成立。由于遷移學(xué)習(xí)沒(méi)有這些假設(shè),可以將遷移學(xué)習(xí)用到應(yīng)用識(shí)別上面來(lái),解決這些在現(xiàn)實(shí)中不成立的問(wèn)題。
針對(duì)測(cè)試集中應(yīng)用流量樣本的分布與訓(xùn)練集中樣本的分布不同的問(wèn)題。對(duì)遷移學(xué)習(xí)中的領(lǐng)域自適應(yīng)動(dòng)態(tài)分布適應(yīng)方法進(jìn)行了改進(jìn),在對(duì)源領(lǐng)域到目標(biāo)領(lǐng)域進(jìn)行知識(shí)的遷移時(shí),不同于以往要么假設(shè)源領(lǐng)域與目標(biāo)領(lǐng)域的邊緣分布不同P(xs)/=P(xt),要么假設(shè)源領(lǐng)域與目標(biāo)領(lǐng)域的條件分布不同P(ys|xs)/=P(yt|xt),有的假設(shè)兩者的差異同時(shí)存在,但是沒(méi)有差異化對(duì)待兩者之間的差異。本文通過(guò)在動(dòng)態(tài)和定量適應(yīng)邊緣分布和條件分布的基礎(chǔ)上添加了定量初始預(yù)估策略,加快了后續(xù)定量參數(shù)的收斂時(shí)間。TrAdaBoost是一種為了解決歸納式遷移學(xué)習(xí)問(wèn)題提出的一種算法,是對(duì)AdaBoost算法的一種改進(jìn),通過(guò)實(shí)例權(quán)重定義策略實(shí)現(xiàn)了知識(shí)的遷移[4,5]。Pan等人[6]在主成分分析PCA的基礎(chǔ)上提出了基于特征的域適應(yīng)遷移學(xué)習(xí)算法TCA。季鼎承等人[7]同時(shí)考慮多個(gè)源領(lǐng)域與目標(biāo)領(lǐng)域的相關(guān)性,進(jìn)而提出了兩種多源學(xué)習(xí)算法:MTrA和TTrA。MTrA算法的思想是源數(shù)據(jù)集有多個(gè)數(shù)據(jù)源,每次迭代的過(guò)程中選取并使用當(dāng)前迭代與目標(biāo)數(shù)據(jù)相關(guān)性最強(qiáng)的數(shù)據(jù)源訓(xùn)練弱分類(lèi)器,通過(guò)迭代細(xì)化策略,進(jìn)而得到強(qiáng)分類(lèi)器[8]。其他多源遷移學(xué)習(xí):唐詩(shī)淇等人[9]提出的遷移學(xué)習(xí)方法(Online Transfer Learning from Multiple Sources based on Local Classification accuracy, LC-MSOTL)從多個(gè)相似的領(lǐng)域遷移知識(shí)。張博等人[10]基于特征映射提出的遷移學(xué)習(xí)方法對(duì)多個(gè)不同領(lǐng)域的相關(guān)性進(jìn)行學(xué)習(xí)從而實(shí)現(xiàn)知識(shí)的遷移。張寧等人[11]提出的K-means-CART使用K均值算法將CART數(shù)擴(kuò)展實(shí)現(xiàn)跨領(lǐng)域的遷移學(xué)習(xí)。洪佳明等人[12]提出的TrSVM是對(duì)SVM進(jìn)行擴(kuò)展,實(shí)現(xiàn)了基于實(shí)例的遷移學(xué)習(xí)。Faddoul等人[13]提出的方法擴(kuò)展C4.5實(shí)現(xiàn)遷移學(xué)習(xí)。Transitive transfer learning利用第三方學(xué)習(xí)到的相似關(guān)系完成知識(shí)的遷移[14],Distant domain TL從多個(gè)中間輔助域中選擇知識(shí)等[15],可以有效地利用多個(gè)領(lǐng)域的知識(shí)。領(lǐng)域自適應(yīng)研究如何利用源領(lǐng)域解決目標(biāo)領(lǐng)域的問(wèn)題,代表成果有cross-domain transfer[16,17],通過(guò)在再生核希爾伯特空間中學(xué)習(xí)一個(gè)領(lǐng)域不變核矩陣,Domain Adaptation Machine[18]等,領(lǐng)域自適應(yīng)會(huì)假設(shè)目標(biāo)領(lǐng)域和源領(lǐng)域在高維空間有相同的條件分布。在動(dòng)態(tài)適應(yīng)遷移學(xué)習(xí)(transfer learning with Dynamic Distribution Adaptation, DDA)[19]中,王晉東等人通過(guò)使用二分類(lèi)器模型的錯(cuò)誤率來(lái)對(duì)域之間的散度距離進(jìn)行計(jì)算。但是沒(méi)有考慮到對(duì)分類(lèi)的確認(rèn)度,并且通過(guò)獲取固定數(shù)量的轉(zhuǎn)換主元來(lái)進(jìn)行后續(xù)的模型訓(xùn)練。
為了解決應(yīng)用流量源領(lǐng)域和目標(biāo)領(lǐng)域分布不同的問(wèn)題,本文提出了目標(biāo)領(lǐng)域半監(jiān)督平衡分布適配算法(Semi-supervised Mobile Terminal Application Distribution Adaptation, SMTADA),更加高效地對(duì)分布不同的目標(biāo)領(lǐng)域流量進(jìn)行分類(lèi)。實(shí)驗(yàn)結(jié)果表明,SMTADA能更加高效地識(shí)別特征分布不同的目標(biāo)領(lǐng)域應(yīng)用流量。
圖1是本文使用遷移學(xué)習(xí)的模式圖。通過(guò)對(duì)知識(shí)的遷移,進(jìn)而來(lái)建立一個(gè)新的可以應(yīng)用到目標(biāo)領(lǐng)域的模型,這樣就可以省去應(yīng)用機(jī)器學(xué)習(xí)時(shí)進(jìn)行人工標(biāo)記的繁重工作。不同于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,遷移學(xué)習(xí)是嘗試將之前已經(jīng)學(xué)習(xí)到的知識(shí)遷移應(yīng)用到目標(biāo)任務(wù)當(dāng)中。
圖1 遷移學(xué)習(xí)模型設(shè)計(jì)
在應(yīng)用中,每條流量數(shù)據(jù)由幾百個(gè)特征來(lái)刻畫(huà),這些特征可以充分地反映刻畫(huà)一條流量數(shù)據(jù),只要選取合適的學(xué)習(xí)方法就可以對(duì)流量數(shù)據(jù)的類(lèi)別進(jìn)行判斷,但是每一條樣本的特征維度很高,存在大量冗余的特征,甚至是相同的特征,這樣的特征對(duì)于模型分類(lèi)的貢獻(xiàn)不大,這些沒(méi)有性能貢獻(xiàn)的特征會(huì)使得算法的時(shí)間開(kāi)銷(xiāo)和空間開(kāi)銷(xiāo)變大,甚至在多個(gè)無(wú)用特征的影響下,不同的特征會(huì)相互干擾影響,導(dǎo)致訓(xùn)練模型的性能大大降低。
正向余量特征刪除法來(lái)對(duì)剩余特征進(jìn)行刪除,存在一個(gè)比較大的問(wèn)題,在進(jìn)行刪除判斷時(shí),計(jì)算出所有剩余判斷特征的信息增益率權(quán)重相關(guān)系數(shù),然后通過(guò)最小最大平均原則的策略刪除增益率權(quán)重相關(guān)系數(shù)大于平均值的特征,最后留下指定數(shù)量的特征。這樣就會(huì)大概率導(dǎo)致最后留下一些相關(guān)性低,但是信息增益也比較低的特征。
本文提出了基于逆向信息增益特征提取和遷移學(xué)習(xí)相結(jié)合的應(yīng)用流量分類(lèi)方法,在特征的刪除策略上,采用逆向特征自刪除策略,與正向余量特征刪除相比,算法復(fù)雜度會(huì)上升,計(jì)算時(shí)間也會(huì)增加,通過(guò)信息增益率權(quán)重和推土機(jī)距離(Earth Mover’s Distance, EMD)優(yōu)先判斷是否刪除排在后面的特征,可以避免正向余量刪除中所存在的問(wèn)題。
將信息增益和相關(guān)系數(shù)相結(jié)合,得到信息增益權(quán)重相關(guān)系數(shù)
可以更加全面立體地反映屬性的重要程度,以及屬性與屬性的冗余度和相關(guān)性。
應(yīng)用間的推土機(jī)Wasserstein距離[20],表示在給定度量空間上度量?jī)蓚€(gè)概率分布之間的距離度量函數(shù)。在最優(yōu)傳輸距離中,指的是把概率分布q轉(zhuǎn)換為p的最小傳輸距離,此最優(yōu)傳輸距離也稱(chēng)為地球移動(dòng)距離、推土機(jī)距離。
也可以被解釋為在將一種概率以一定的概率分布形狀轉(zhuǎn)化為另一種概率分布形狀的過(guò)程中所消耗的最小能量。例如對(duì)于兩個(gè)分布函數(shù)F和G,假設(shè)其隨機(jī)變量為U和V,那么分布函數(shù)F和G之間的距離為
推土機(jī)距離具有很多優(yōu)良的性質(zhì),現(xiàn)在被應(yīng)用到了計(jì)算機(jī)的很多領(lǐng)域,包括非平滑樣本測(cè)試、優(yōu)化擬合、混合模擬分析、圖像處理、降維、生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)、領(lǐng)域自適應(yīng)以及信號(hào)處理中。但是其本身也有一定的缺點(diǎn),例如計(jì)算量較大,不足夠健壯等。
從Ds中 ,按照信息增益的值從小到大,從n~1迭代選擇出特征,對(duì)特征進(jìn)行判斷。例如選擇出了特征Xn,然后將Xn依次與Xn-1~X1進(jìn)行計(jì)算判斷,是否存在可以替代完全特征Xn的特征,如果存在就將特征Xn刪除,如果不存在就保留特征屬性Xn。此策略按照特征的信息增益較小的特征屬性Xn開(kāi)始判斷,優(yōu)先刪除自信息較小的屬性,盡量保留自信息較大的特征屬性。
在判斷是否存在可以完全替代特征Xn的特征時(shí),選用信息增益相關(guān)系數(shù)。首先通過(guò)信息增益公式計(jì)算出特征Xn之 于特征Xn-1的 信息增益Gain(Xn,Xn-1),如果信息增益大于一定的閾值,那么就可以在一定程度上使用特征Xn-1, 來(lái)對(duì)特征Xn進(jìn)行替代。接著使用相關(guān)系數(shù)來(lái)計(jì)算兩者之間的相關(guān)性和兩個(gè)特征序列之間的相關(guān)性,進(jìn)而與上一步的信息增益值結(jié)合,使用信息增益相關(guān)系數(shù)的大小進(jìn)行判斷。
兩者相結(jié)合進(jìn)行判斷,可以更加全面地反映出特征與特征之間的關(guān)系和聯(lián)系,不至于太片面。如果流量特征與特征之間的推土機(jī)距離越小,特征與特征之間的信息增益權(quán)重相關(guān)系數(shù)越大,可以充分說(shuō)明兩者所具有的相互替代性。
然后通過(guò)使用推土機(jī)計(jì)算公式來(lái)對(duì)兩者的概率分布距離進(jìn)行計(jì)算。
算法所需的最大內(nèi)存空間主要受到特征結(jié)合維度和樣本個(gè)數(shù)的影響,分析可以得出算法的空間復(fù)雜度S為O(n×d),即主要受到讀入數(shù)據(jù)集數(shù)據(jù)的影響,基本已經(jīng)是最小的內(nèi)存需要。
通過(guò)使用最大均值差異(Maximum Mean Discrepancy, MMD)[21]來(lái)衡量源領(lǐng)域與目標(biāo)領(lǐng)域之間的距離
由于實(shí)際訓(xùn)練中樣本個(gè)數(shù)是有限的,不會(huì)趨向于無(wú)窮大,遍歷空間中的每一個(gè)樣本,所以通常會(huì)使用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化和結(jié)構(gòu)風(fēng)險(xiǎn)最小化作為基本策略來(lái)估計(jì)期望風(fēng)險(xiǎn)。
結(jié)構(gòu)風(fēng)險(xiǎn)最小化等價(jià)于正則化,是用來(lái)防止過(guò)擬合的產(chǎn)生進(jìn)而提出來(lái)的策略,是在結(jié)構(gòu)風(fēng)險(xiǎn)的基礎(chǔ)上加上了表示模型復(fù)雜度的正則化項(xiàng)或者懲罰項(xiàng)[22]。結(jié)構(gòu)風(fēng)險(xiǎn)的定義為
轉(zhuǎn)換過(guò)程為
以往在對(duì)源領(lǐng)域到目標(biāo)領(lǐng)域進(jìn)行知識(shí)的遷移時(shí),要么假設(shè)源領(lǐng)域與目標(biāo)領(lǐng)域的邊緣分布不同,要么假設(shè)源領(lǐng)域與目標(biāo)領(lǐng)域的條件分布不同,有的假設(shè)兩者的差異同時(shí)存在,但是沒(méi)有差異化對(duì)待兩者之間的差異。為了解決邊緣分布與條件分布不同的問(wèn)題,在動(dòng)態(tài)和定量適應(yīng)邊緣分布與條件分布的基礎(chǔ)上添加了定量初始預(yù)估策略,加快了后續(xù)定量參數(shù)的收斂時(shí)間,增加動(dòng)態(tài)分布適應(yīng)的適用性。
根據(jù)每個(gè)特定的任務(wù)自適應(yīng)地調(diào)整邊緣分布和條件分布之間的重要性,公式化進(jìn)行表示為
聯(lián)合分布適應(yīng)可以通過(guò)圖2進(jìn)行表示分析:
圖2 聯(lián)合分布適應(yīng)方法
通過(guò)變換矩陣Z和參數(shù)μ將邊緣分布和條件分布進(jìn)行動(dòng)態(tài)的聯(lián)合分布適應(yīng)。
通過(guò)使用最大均值差異來(lái)評(píng)估兩個(gè)分布之間的差異,可以將上面的公式轉(zhuǎn)化為
為了使得算法在后面更快地趨于穩(wěn)定收斂,通過(guò)使用一個(gè)二分類(lèi)器,來(lái)預(yù)測(cè)計(jì)算源領(lǐng)域與目標(biāo)領(lǐng)域的邊緣分布差異的大小。使用源領(lǐng)域和目標(biāo)領(lǐng)域的樣本進(jìn)行訓(xùn)練,對(duì)目標(biāo)領(lǐng)域進(jìn)行預(yù)測(cè),得到預(yù)測(cè)概率結(jié)果表,如果源領(lǐng)域與目標(biāo)領(lǐng)域的邊緣分布差異較大,通過(guò)對(duì)概率表進(jìn)行統(tǒng)計(jì),可以得到概率表中正樣本概率的統(tǒng)計(jì)值與負(fù)樣本概率的統(tǒng)計(jì)值差異會(huì)越大;相應(yīng)的,如果源領(lǐng)域與目標(biāo)領(lǐng)域的邊緣概率分布差異較小,那么得到的正樣本概率統(tǒng)計(jì)值與負(fù)樣本概率統(tǒng)計(jì)值差異會(huì)越小,利用這個(gè)法則,可以在進(jìn)行特征適配前,來(lái)計(jì)算μ的初始值
進(jìn)行條件分布距離計(jì)算時(shí),雖然目標(biāo)領(lǐng)域中的樣本沒(méi)有標(biāo)簽,但是可以使用源領(lǐng)域訓(xùn)練出來(lái)的模型進(jìn)行預(yù)測(cè),得到目標(biāo)領(lǐng)域的偽標(biāo)簽,然后通過(guò)逐步迭代,使得偽標(biāo)簽的準(zhǔn)確率逐漸上升。進(jìn)而使得對(duì)條件分布距離的計(jì)算更加準(zhǔn)確。
在BDA算法中在對(duì)特征轉(zhuǎn)換以后,在選擇重要轉(zhuǎn)換特征的過(guò)程中,直接定義了要選取特征的個(gè)數(shù),沒(méi)有考慮到特征值所反映出來(lái)的重要程度,本文通過(guò)特征值的大小來(lái)判斷轉(zhuǎn)換后特征的重要程度,來(lái)動(dòng)態(tài)獲取轉(zhuǎn)換后的特征數(shù)量,避免閾值設(shè)置得過(guò)大而造成弱特征被選取進(jìn)來(lái),違背了特征轉(zhuǎn)換的初衷,也可以避免閾值設(shè)置過(guò)小導(dǎo)致重要特征被丟棄,造成信息豐富度的損失,所帶來(lái)的性能下降和準(zhǔn)確率的下降。定義懸崖式下跌策略,對(duì)出現(xiàn)斷崖式下跌的特征值所對(duì)應(yīng)的特征向量進(jìn)行刪除,刪除策略如圖3所示。
圖3 根據(jù)特征值刪除映射特征向量
在對(duì)映射轉(zhuǎn)換后的主元進(jìn)行選擇的時(shí)候,通過(guò)刪除信息豐富度斷崖式下跌的特征主元可以得到更加合適的主元特征維度,避免特征信息豐富度被削弱或者對(duì)特征信息豐富度提升無(wú)關(guān)的特征存在。
通過(guò)上面的特征主元?jiǎng)討B(tài)確定平衡分布適配方法可以很好的適配,由于目標(biāo)領(lǐng)域中會(huì)出現(xiàn)一些完全不同于源領(lǐng)域的樣本特征,通過(guò)從源領(lǐng)域進(jìn)行知識(shí)的遷移依然無(wú)法實(shí)現(xiàn)很好的分類(lèi)識(shí)別。為了解決這個(gè)難以解決的問(wèn)題,對(duì)目標(biāo)領(lǐng)域進(jìn)行半監(jiān)督的學(xué)習(xí),通過(guò)對(duì)目標(biāo)領(lǐng)域中的部分樣本進(jìn)行標(biāo)注來(lái)實(shí)現(xiàn),流程如圖4所示。
圖4 半監(jiān)督學(xué)習(xí)分布適配模型訓(xùn)練
在現(xiàn)實(shí)中,對(duì)目標(biāo)領(lǐng)域中的所有樣本進(jìn)行標(biāo)注工作量相對(duì)來(lái)說(shuō)是比較大的,但是對(duì)目標(biāo)領(lǐng)域中的部分樣本進(jìn)行標(biāo)注是比較多的實(shí)際情況,所以本文結(jié)合兩種方法的優(yōu)點(diǎn),將針對(duì)目標(biāo)領(lǐng)域中部分樣本有標(biāo)簽的半監(jiān)督平衡分配適應(yīng)算法記為SMTADA(Semisupervised Mobile Terminal Application Distribution Adaptation),如表1。
表1 有標(biāo)簽的半監(jiān)督平衡分配適應(yīng)算法
半監(jiān)督平衡分配適應(yīng)算法不僅提高了算法的適用性,同時(shí)也可以在標(biāo)注工作量較小的情況下,一定程度上提高算法的準(zhǔn)確度。模型的訓(xùn)練數(shù)據(jù)使用源領(lǐng)域的數(shù)據(jù)加上已經(jīng)標(biāo)注的部分目標(biāo)領(lǐng)域數(shù)據(jù)。
通過(guò)引入目標(biāo)領(lǐng)域中1%~20%有標(biāo)簽樣本作為訓(xùn)練集,對(duì)目標(biāo)領(lǐng)域進(jìn)行半監(jiān)督學(xué)習(xí)。
首先使用遷移學(xué)習(xí)中廣泛使用的公開(kāi)視覺(jué)數(shù)據(jù)集:Amazon(A), DSLR(D), Webcam(W),Caltech-256(C),進(jìn)行實(shí)驗(yàn)驗(yàn)證,在SMTADA中選用了20%的帶標(biāo)簽樣本作為輔助訓(xùn)練。公開(kāi)視覺(jué)數(shù)據(jù)集的樣例如圖5所示。
圖5 公開(kāi)視覺(jué)數(shù)據(jù)集
然后將算法應(yīng)用到移動(dòng)應(yīng)用流量識(shí)別上,進(jìn)行試驗(yàn)對(duì)比。本文更多地是注重應(yīng)用流量的分類(lèi),而不是流量的采集,所以采用了劍橋大學(xué)Nprobe項(xiàng)目中的公共的數(shù)據(jù)集,是由Moore等人[23]使用Nprobe網(wǎng)絡(luò)數(shù)據(jù)統(tǒng)計(jì)采集工具獲得。該數(shù)據(jù)集廣泛應(yīng)用于其他各種網(wǎng)絡(luò)流量分類(lèi)方法試驗(yàn)分析中。數(shù)據(jù)集中包含了各種網(wǎng)絡(luò)流量的統(tǒng)計(jì)特征,包括248個(gè)屬性特征和1個(gè)類(lèi)別標(biāo)簽用來(lái)指明流量的類(lèi)型。特征屬性包括服務(wù)端端口、客戶(hù)端端口號(hào)以及各種時(shí)間間隔,是一個(gè)比較全面實(shí)用的分類(lèi)器。數(shù)據(jù)集包括11個(gè)數(shù)據(jù)集合,其中entry1到entry10這10個(gè)數(shù)據(jù)集合是在一天中的不同時(shí)間段獲取到的,最后一個(gè)數(shù)據(jù)集entry12是在12個(gè)月網(wǎng)絡(luò)環(huán)境發(fā)生變化以后進(jìn)行采集的。每個(gè)數(shù)據(jù)集包括12個(gè)類(lèi)別標(biāo)簽,但是不是每個(gè)類(lèi)別都有足夠的樣本用于訓(xùn)練,所以最后留下8個(gè)類(lèi)別,刪除了4個(gè)不適合作為訓(xùn)練分類(lèi)的樣本類(lèi)別標(biāo)簽。
每個(gè)子數(shù)據(jù)集雖然有248個(gè)特征可供使用,但是有部分特征是冗余的,甚至是相同的,因此通過(guò)過(guò)濾式特征選擇算法來(lái)進(jìn)行特征的選擇,減少冗余特征和無(wú)用特征對(duì)后續(xù)模型計(jì)算的影響。
與現(xiàn)階段一些經(jīng)典的傳統(tǒng)方法進(jìn)行了比較,傳統(tǒng)的遷移學(xué)習(xí)方法包括:最近鄰算法(k-Nearest Neighbors, k-NN)、支持向量機(jī)(Supported Vector Machine, SVM)、主成分分析(Principal Component Analysis, PCA)、遷移成分分析(Transfer Component Analysis, TCA)、聯(lián)合分布適配方法(Joint Distribution Adaptation, JDA)、平衡分布適應(yīng)遷移學(xué)習(xí)方法(Balanced Distribution Adaptation for transfer learning, BDA)。
首先將本文提出的SMTADA算法應(yīng)用在視覺(jué)公開(kāi)數(shù)據(jù)集上進(jìn)行試驗(yàn),在目標(biāo)領(lǐng)域中選用20%的帶標(biāo)簽數(shù)據(jù)作為SMTADA中的輔助數(shù)據(jù),實(shí)驗(yàn)的結(jié)果如表2所示。
評(píng)價(jià)指標(biāo)使用準(zhǔn)確率來(lái)表示
其中,TP表示將正類(lèi)預(yù)測(cè)為正類(lèi),F(xiàn)P表示將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)??梢钥吹?,在選用了目標(biāo)領(lǐng)域中20%的帶標(biāo)簽樣本作為輔助訓(xùn)練,使用半監(jiān)督方式以后,算法的預(yù)測(cè)準(zhǔn)確度得到了比較大的提升。在現(xiàn)實(shí)中,目標(biāo)領(lǐng)域中的樣本并不是全部沒(méi)有標(biāo)簽,對(duì)目標(biāo)領(lǐng)域中的部分樣本進(jìn)行標(biāo)注,然后使用本文提出的SMTADA方法可以得到比較好的結(jié)果,實(shí)驗(yàn)結(jié)果如表2所示。
表2 添加20%目標(biāo)領(lǐng)域樣本半監(jiān)督學(xué)習(xí)結(jié)果(%)
為了驗(yàn)證平衡參數(shù)μ對(duì)分類(lèi)結(jié)果的影響,首先從0.1到1對(duì)參數(shù)μ進(jìn)行遍歷,驗(yàn)證邊緣分布和條件分布的不同影響。平衡因子μ對(duì)模型的性能影響如圖6所示。
從圖6可以看出不同的影響因子對(duì)模型的準(zhǔn)確率會(huì)產(chǎn)生不同的影響,可以看出源領(lǐng)域和目標(biāo)領(lǐng)域的邊緣分布和條件分布的確存在分布不同的情況。
圖6 不同參數(shù)μ對(duì)模型的影響
與最新的遷移學(xué)習(xí)方法相比較,在目標(biāo)領(lǐng)域完全沒(méi)有標(biāo)簽的情況下,本文提出的方法在一定程度取得了比較好的結(jié)果。但是在實(shí)際環(huán)境中,可以將目標(biāo)領(lǐng)域數(shù)據(jù)集的部分樣本進(jìn)行標(biāo)注,即使目標(biāo)領(lǐng)域數(shù)據(jù)集很大,對(duì)少量數(shù)據(jù)樣本進(jìn)行標(biāo)注不會(huì)增加太大工作量,讓標(biāo)注的數(shù)據(jù)起到領(lǐng)頭羊的作用,輔助無(wú)標(biāo)簽樣本進(jìn)行分類(lèi)。實(shí)驗(yàn)中使用半監(jiān)督的SMTADA方法達(dá)到了比較好的結(jié)果,相比于無(wú)監(jiān)督的方法得到了比較大的提升。
通過(guò)上面的實(shí)驗(yàn)可以看出本文提出的模型在公開(kāi)數(shù)據(jù)集上取得了比較好的結(jié)果,然后將算法應(yīng)用到應(yīng)用流量識(shí)別上,進(jìn)行試驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。
表3 應(yīng)用流量實(shí)驗(yàn)對(duì)比結(jié)果(%)
在應(yīng)用流量識(shí)別中,首先使用本域的數(shù)據(jù)進(jìn)行訓(xùn)練模型,然后用模型預(yù)測(cè)本域的應(yīng)用流量分類(lèi)準(zhǔn)確率達(dá)到了95%,但是由于概念漂移、新應(yīng)用的不斷產(chǎn)生以及網(wǎng)絡(luò)拓?fù)浜蜁r(shí)間的變化,新的應(yīng)用流量的統(tǒng)計(jì)特征將不再符合訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來(lái)自同一個(gè)特征空間,特征遵循相同的概率分布這一假設(shè)。所以傳統(tǒng)的機(jī)器學(xué)習(xí)算法在不服從這一假設(shè)的情況下,效果并不是很好。而遷移學(xué)習(xí)沒(méi)有這一假設(shè),通過(guò)一定的遷移策略進(jìn)行知識(shí)的遷移,使得模型達(dá)到了比傳統(tǒng)機(jī)器學(xué)習(xí)相對(duì)更好的效果。
然后對(duì)源領(lǐng)域和目標(biāo)領(lǐng)域中的數(shù)據(jù)集進(jìn)行特征選擇,通過(guò)本文提出的應(yīng)用流量逆向特征自刪除策略進(jìn)行特征的選擇選出來(lái)的特征集合為{109, 119,123, 126, 223, 110, 1, 243, 233, 106, 221, 114, 241,115, 22, 231, 122, 165, 111, 155, 162, 169, 163,164, 42, 93, 92, 186, 95, 94, 0},一共31個(gè)特征屬性,通過(guò)表4展示了部分所選特征的含義。
表4 所選特征的部分含義
所選特征用于SMTADA得到結(jié)果如表5所示。
表5 逆向選擇策略所選特征實(shí)驗(yàn)結(jié)果(%)
將選擇出來(lái)的特征應(yīng)用于SMTADA算法中,從圖7可以看出,算法的運(yùn)行時(shí)間縮短了80.2%,由于特征數(shù)量的刪除,導(dǎo)致了部分信息的缺失,平均準(zhǔn)確率比使用全特征時(shí)的準(zhǔn)確率降低了1.12%。但是為后續(xù)的研究以及使用提供了參考價(jià)值。
圖7 特征選取前后所用時(shí)間對(duì)比
考慮應(yīng)用流量特征分布隨著時(shí)間等因素不斷變化問(wèn)題,本文提出了一種基于SMTADA遷移學(xué)習(xí)的應(yīng)用流量分類(lèi)方法。該方法通過(guò)最小化源領(lǐng)域和目標(biāo)領(lǐng)域特征分布之間的平均均值距離構(gòu)造遷移轉(zhuǎn)換矩陣,利用轉(zhuǎn)換遷移矩陣將源領(lǐng)域和目標(biāo)領(lǐng)域特征遷移到同一個(gè)特征子空間中,達(dá)到減小分布距離的目的。實(shí)驗(yàn)結(jié)果表明,提出的方法在一定程度上減小了概念漂移等因素導(dǎo)致的源領(lǐng)域與目標(biāo)領(lǐng)域邊緣分布和特征分布不同導(dǎo)致機(jī)器學(xué)習(xí)預(yù)測(cè)準(zhǔn)確率下降的問(wèn)題。如何進(jìn)行在線(xiàn)遷移學(xué)習(xí),提高遷移過(guò)程的動(dòng)態(tài)特征將作為下一步研究工作。