王家馨,侯韶華
(南京郵電大學(xué),江蘇 南京 210023)
近年來(lái),相干光傳輸技術(shù)取得較大進(jìn)展,通過(guò)對(duì)相互關(guān)聯(lián)參數(shù)(比如,調(diào)制格式,碼元速率等)的微調(diào),使得大量的光纖鏈路可行方案成為可能。在具體的鏈路規(guī)劃部署之前,評(píng)估光纖鏈路的傳輸質(zhì)量是極其重要的一步[1]。
傳統(tǒng)的光路傳輸質(zhì)量評(píng)估使用復(fù)雜分析模型和近似公式[2]。前者能夠非常精確地評(píng)估光路的傳輸質(zhì)量,但其計(jì)算量很大,不能得到推廣。后者因?yàn)橛?jì)算速度快,模型簡(jiǎn)單,被廣泛采用,但引入了較多鏈路冗余,造成資源浪費(fèi)[3]。
機(jī)器學(xué)習(xí)憑借能夠解決耗時(shí)復(fù)雜的非線性分類或回歸問(wèn)題,廣泛應(yīng)用于光網(wǎng)絡(luò)和光通信的各個(gè)方面[4]。機(jī)器學(xué)習(xí)利用已經(jīng)部署光路的歷史測(cè)量數(shù)據(jù)評(píng)估光路的傳輸質(zhì)量,避免了之前兩種傳統(tǒng)方法的缺點(diǎn),能得到傳輸質(zhì)量高精度評(píng)估結(jié)果[1,5]。目前,許多評(píng)估光路傳輸質(zhì)量的方法基于二分類器,如隨機(jī)森林(RF),K近鄰(KNN),支持向量機(jī)(SVM)三種分類器對(duì)光路傳輸質(zhì)量進(jìn)行二分類,SVM獲得最高0.9915分類準(zhǔn)確度[6];KNN,SVM,人工神經(jīng)網(wǎng)絡(luò)(ANN),邏輯回歸算法(LR)分類器對(duì)光路的剩余冗余進(jìn)行二分類,通過(guò)比較準(zhǔn)確率,F(xiàn)1分?jǐn)?shù),得到ANN是獲得最佳泛化能力的模型,兩個(gè)指標(biāo)分?jǐn)?shù)均達(dá)到0.99以上[7]。除了經(jīng)典的機(jī)器學(xué)習(xí)算法,在機(jī)器學(xué)習(xí)中,集成學(xué)習(xí)也是研究的熱點(diǎn)。集成學(xué)習(xí)利用一定的規(guī)則組合不同的學(xué)習(xí)器構(gòu)建具有很強(qiáng)的魯棒性和泛化能力的集成模型,具備高精度評(píng)估光路傳輸質(zhì)量的潛力。本文提出基于不同集成學(xué)習(xí)算法的三分類器。
在網(wǎng)絡(luò)線性拓?fù)渲?,假設(shè)相鄰節(jié)點(diǎn)間是9個(gè)信道,信道間隔為50GHz,符號(hào)速率為32GBaud,噪聲帶寬為32GHz的偏振復(fù)用相干未補(bǔ)償系統(tǒng)[6]。系統(tǒng)采用標(biāo)準(zhǔn)單模光纖(光纖損耗系數(shù)0.22dB/km,非線性系數(shù)1.3 1/w*km,色散系數(shù)21ps^2/km),構(gòu)成等跨度的透明傳輸?shù)耐|(zhì)鏈路[8],摻鉺光纖放大器(EDFA)完全彌補(bǔ)上一個(gè)跨度的損耗,噪聲指數(shù)為5dB,節(jié)點(diǎn)由具有波長(zhǎng)選擇開(kāi)關(guān)(WSS)技術(shù)的可重構(gòu)光分插復(fù)用器構(gòu)成。
由于缺乏真實(shí)的網(wǎng)絡(luò)監(jiān)測(cè)歷史數(shù)據(jù),本文使用文獻(xiàn)[6]中傳輸質(zhì)量評(píng)估工具和上述系統(tǒng)模型生成數(shù)據(jù)。此傳輸質(zhì)量評(píng)估工具是根據(jù)加性高斯白噪聲模型,將光路中總的非線性光信噪比(OSNR)作為關(guān)于信道發(fā)射功率(PTx)和線性噪聲(PASE),非線性(PNLI)貢獻(xiàn)的函數(shù),誤碼率(BER)作為關(guān)于Eb/N0(每比特的能量與噪聲功率譜密度之比)和調(diào)制格式的函數(shù)[9]。
(2)式中,a和d通過(guò)誤碼率與調(diào)制格式的關(guān)系計(jì)算[9]得出,Eb/N0 通過(guò)文獻(xiàn)[6]中公式得出。
生成數(shù)據(jù)集所需的鏈路系統(tǒng)參數(shù)[2]如表1所示:
數(shù)據(jù)集特征選擇鏈路長(zhǎng)度,跨度長(zhǎng)度,調(diào)制格式,數(shù)據(jù)速率,信道發(fā)射功率。數(shù)據(jù)集標(biāo)簽為BER。
基于MATLAB2020a平臺(tái),利用傳輸質(zhì)量評(píng)估工具生成數(shù)據(jù)集。根據(jù)ITU-TG.975.1建議的前向糾錯(cuò)標(biāo)準(zhǔn),preBER 閾值為4*10^(–3)。本文將BER 分為小于4*10^(–5),大于4*10^(–5)且小于4*10^(–3),大于4*10^(–3),分別對(duì)應(yīng)傳輸質(zhì)量?jī)?yōu)良,合格,不合格。通過(guò)對(duì)數(shù)據(jù)集中樣本類別數(shù)量適當(dāng)均衡,得到32991個(gè)樣本,其中8722個(gè)小于4*10^(–5)的樣本,4391個(gè)大于4*10^(–5)且小于4*10^(–3)的樣本,19878 個(gè)大于4*10^(–3)的樣本。
將數(shù)據(jù)集中BER小于4*10^(–5)的樣本標(biāo)簽設(shè)為0,大于4*10^(–5)且小于4*10^(–3)的樣本標(biāo)簽設(shè)為1,大于4*10^(–3)的樣本標(biāo)簽設(shè)為2。分類器的分類過(guò)程如下。首先將數(shù)據(jù)集按比例8∶2隨機(jī)分成訓(xùn)練集和測(cè)試集,然后標(biāo)準(zhǔn)化訓(xùn)練集特征,接著將標(biāo)準(zhǔn)化后的訓(xùn)練集輸入分類器,分類器利用訓(xùn)練集進(jìn)行超參數(shù)網(wǎng)格搜索,最后測(cè)試集輸入具有最好超參數(shù)的分類器,得到預(yù)測(cè)值。
機(jī)器學(xué)習(xí)算法中,集成學(xué)習(xí)擁有重要的地位,選取六個(gè)經(jīng)典集成學(xué)習(xí)算法。
2.2.1 集成學(xué)習(xí)算法[10]
a.投票分類器(Voting Classifier)
硬投票法:聚合不同分類器的預(yù)測(cè),然后票數(shù)最多的結(jié)果作為預(yù)測(cè)類別。一般,投票分類器的準(zhǔn)確率高于集成中最好的分類器。
軟投票法:如果每個(gè)分類器能夠估算出類別的概率,然后計(jì)算出平均概率,那么平均概率高的作為預(yù)測(cè)。
軟投票通常比硬投票獲得更高的精度,因此本文采用軟投票法。
b.隨機(jī)森林(RandomForest)
隨機(jī)森林是決策樹的集成,實(shí)現(xiàn)分類和回歸。在隨機(jī)森林中,許多決策樹同時(shí)被訓(xùn)練,但是每棵樹只接受一個(gè)樣本,并且每個(gè)節(jié)點(diǎn)在確定最佳分裂時(shí)只考慮全部特征的一個(gè)子集。隨機(jī)森林通過(guò)投票決定樣本的預(yù)測(cè)分類。
c.極端隨機(jī)樹(Extra Trees)
極端隨機(jī)樹是由極端隨機(jī)的決策樹組成,由于每個(gè)特征都使用隨機(jī)閾值,所以,生成出的決策樹得更加隨機(jī)。極端隨機(jī)樹與隨機(jī)森林的性能需要通過(guò)交叉驗(yàn)證甚至網(wǎng)格搜索超參數(shù)才能進(jìn)行比較。
d.自適應(yīng)增強(qiáng)(AdaBoost)
AdaBoost:循環(huán)訓(xùn)練分類器,每一次都對(duì)前一次分類器評(píng)估的欠擬合訓(xùn)練示例進(jìn)行關(guān)注,實(shí)例權(quán)重不斷更新,使新的分類器越來(lái)越專注于難纏的問(wèn)題。
本文AdaBoost集成的分類器為單層決策樹。
e.梯度提升(GradientBoosting)
梯度上升與AdaBoost一樣,逐步在集成中添加預(yù)測(cè)器,但不同的是,它是讓新分類器對(duì)前一個(gè)分類器的預(yù)測(cè)值與實(shí)際值的差值進(jìn)行擬合。本文梯度上升分類器使用的基礎(chǔ)分類器為決策樹。
f.極端梯度上升(XGBoost)
XGBoost是梯度提升的優(yōu)化實(shí)現(xiàn),速度快,可移植與可擴(kuò)展。
多分類指標(biāo)分為兩種:
(1)多分類轉(zhuǎn)化成二分類的評(píng)估
a.準(zhǔn)確率(Accuracy),b.宏平均F1,微平均F1,加權(quán)平均F1。(Macro F1,Micro F1,Weighted F1)
(2)直接定義的多分類指標(biāo)
a.Kappa系數(shù),b.海明距離,c.杰卡德相似系數(shù)(jaccrd_similarity_score):根據(jù)平均方式分為jaccrd_macro, jaccrd_micro, jaccrd_weighted。
基于Sklearn機(jī)器學(xué)習(xí)python應(yīng)用程序接口實(shí)現(xiàn)算法調(diào)優(yōu)和訓(xùn)練,測(cè)試,評(píng)估。6種集成學(xué)習(xí)算法進(jìn)行超參數(shù)調(diào)優(yōu)后,得到的模型為:
a.Gamma為0.2,C為2000的高斯核SVM,C為200,penalty為l2的邏輯回歸,500個(gè)估計(jì)器的隨機(jī)森林集成的投票分類器;
b.500個(gè)估計(jì)器,最大深度為20的隨機(jī)森林分類器;
c.500個(gè)估計(jì)器,最大深度為20的極端樹分類器;
d.1500個(gè)估計(jì)器,學(xué)習(xí)率為1的AdaBoost分類器;
e.500個(gè)估計(jì)器,學(xué)習(xí)率為0.01,最大深度為10的梯度上升分類器;
f.91個(gè)估計(jì)器,學(xué)習(xí)率為0.01,最大深度為20,subsample為1,gamma為0.001,min_child_weight為0.01的XGBoost分類器。
3.2.1 集成算法性能比較
圖1和圖2是6種分類器關(guān)于性能指標(biāo)的對(duì)比圖。由圖1可知所有分類器性能分?jǐn)?shù)都在0.89以上,其中投票分類器的所有性能指標(biāo)分?jǐn)?shù)都高于其他分類器,都在0.97以上。投票分類器集成的分類器都是超參數(shù)最優(yōu)的分類器,SVM和KNN經(jīng)過(guò)超參數(shù)調(diào)優(yōu),性能指標(biāo)分?jǐn)?shù)都在0.94以上,由于邏輯回歸的性能指標(biāo)分?jǐn)?shù)低于SVM和KNN很多,最高只有0.90,因此導(dǎo)致投票分類器總體性能稍遜于SVM。實(shí)驗(yàn)表明,只有當(dāng)投票分類器中的性能指標(biāo)分?jǐn)?shù)均衡,投票分類器才能性能指標(biāo)分?jǐn)?shù)高于集成中所有分類器。
圖1 集成算法分類器性能比較
圖2 算法分類器海明距離比較
極端樹分類器與隨機(jī)森林分類器各指標(biāo)柱狀高度相近,極端樹分類器各指標(biāo)分?jǐn)?shù)稍微高于隨機(jī)森林分類器。極端樹分類器性能指標(biāo)分?jǐn)?shù)在0.95以上,隨機(jī)森林分類器在0.94以上。梯度提升分類器與XGBoost分類器各性能指標(biāo)分?jǐn)?shù)一樣,最低為0.94。AdaBoost分類器各性能指標(biāo)分?jǐn)?shù)均低于其他分類器。
圖2海明距離指標(biāo)與圖1指標(biāo)相反,海明距離指標(biāo)分?jǐn)?shù)越接近0,性能越好,越接近于1,性能越差。圖2中分?jǐn)?shù)投票分類器最低,非常接近于0;隨機(jī)森林分類器與極端樹分類器分?jǐn)?shù)很接近,在0.014附近;梯度提升分類器與XGBoost分類器分?jǐn)?shù)為0.175;AdaBoost分類器分?jǐn)?shù)最高,高于投票分類器0.02差值。
分類器性能除了比較性能指標(biāo)系數(shù),還需要比較訓(xùn)練,測(cè)試時(shí)間。
圖3是關(guān)于分類器的訓(xùn)練時(shí)間與預(yù)測(cè)時(shí)間的比較。從圖可見(jiàn),梯度上升分類器的訓(xùn)練時(shí)間最長(zhǎng),隨機(jī)森林分類器的訓(xùn)練時(shí)間最短。在具有相同的性能指標(biāo)情況下,XGBoost分類器的訓(xùn)練時(shí)間比梯度上升分類器短約95秒,測(cè)試時(shí)間短約5秒,表明XGBoost分類器是對(duì)梯度上升分類器的提升優(yōu)化。六種分類器的預(yù)測(cè)時(shí)間最短為XGBoost 0.062秒,最長(zhǎng)為AdaBoost 0.81秒。
結(jié)合圖1,圖2,圖3,投票分類器分類性能指標(biāo)分?jǐn)?shù)最優(yōu),訓(xùn)練時(shí)間中等,預(yù)測(cè)時(shí)間偏短;極端樹分類器與隨機(jī)森林分類器分類性能指標(biāo)分?jǐn)?shù)次優(yōu),訓(xùn)練時(shí)間最短,預(yù)測(cè)時(shí)間較短;梯度上升分類器與XGBoost分類器性能指標(biāo)分?jǐn)?shù)相同,但XGBoost分類器訓(xùn)練和預(yù)測(cè)速度更快;AdaBoost分類器分類性能指標(biāo)分?jǐn)?shù)最低,訓(xùn)練和預(yù)測(cè)時(shí)間都較長(zhǎng)。
圖3 集成學(xué)習(xí)分類器訓(xùn)練與預(yù)測(cè)時(shí)間比較
綜上可知,在光纖鏈路傳輸質(zhì)量多分類評(píng)估時(shí),6種集成學(xué)習(xí)算法中可取的是投票分類器,隨機(jī)森林分類器與極端樹分類器,三種分類器都能得到高性能。
本文提出評(píng)估鏈路傳輸質(zhì)量的6種經(jīng)典集成學(xué)習(xí)算法三分類器并分析兩種類型的多分類指標(biāo)。通過(guò)生成綜合數(shù)據(jù)來(lái)訓(xùn)練分類器,利用多分類指標(biāo)評(píng)估分類器。實(shí)驗(yàn)表明,6種基于集成學(xué)習(xí)算法的三分類器的性能指標(biāo)分?jǐn)?shù)都能達(dá)到0.89以上,漢明距離低于0.03。其中投票分類器,隨機(jī)森林分類器,極端樹分類器在計(jì)算時(shí)間和分類性能達(dá)到很好的平衡。結(jié)果證明,基于集成學(xué)習(xí)算法的三分類器能夠很好地評(píng)估光纖鏈路傳輸質(zhì)量,與二分類器相比較,三分類器對(duì)傳輸質(zhì)量進(jìn)一步分類評(píng)估,滿足現(xiàn)實(shí)傳輸所需的鏈路傳輸質(zhì)量要求。