李菁菁,楊校林,李 俊,馬彤宇,尉書賓
1(中國科學(xué)院 計算機網(wǎng)絡(luò)信息中心,北京 100190)
2(中國科學(xué)院大學(xué),北京 100049)
隨著互聯(lián)網(wǎng)成為社會生產(chǎn)生活所依賴的關(guān)鍵基礎(chǔ)設(shè)施,科研活動也越來越依賴網(wǎng)絡(luò)設(shè)施的深度支持.科研活動需要產(chǎn)生和處理的數(shù)據(jù)規(guī)模急劇增長,對網(wǎng)絡(luò)設(shè)施快速傳輸處理數(shù)據(jù)的需求也不斷提高.例如引力波的發(fā)現(xiàn)就有賴于科學(xué)家們長達(dá)5 個月的觀測和跨洲際高速網(wǎng)絡(luò)對觀測數(shù)據(jù)的采集和傳輸提供強有力支撐,科研活動越來越依賴數(shù)據(jù)、計算和網(wǎng)絡(luò)傳輸?shù)纳疃热诤?海量科研數(shù)據(jù)快速產(chǎn)生,需要科研專用高速網(wǎng)絡(luò)的支持.經(jīng)過多年發(fā)展,國內(nèi)外已建立了較為完善的科研專網(wǎng)長期服務(wù)科研活動,例如美國的ESNET[1]、Internet2[2]、歐洲GEANT[3],國內(nèi)的科研專網(wǎng)有中國科技網(wǎng)CSTNet[4]和中國教育網(wǎng)CERNet[5].我國目前已建成和即將建成的大科學(xué)裝置基礎(chǔ)設(shè)施總量約為55 個左右,隨著大科學(xué)裝置運行活動頻度增加、科學(xué)采樣指標(biāo)的擴(kuò)展和采樣頻率加快,如FAST、BESIII、JUNO、LHAASO、散裂中子源等大科學(xué)裝置每年都將產(chǎn)生PB 級的海量異構(gòu)化數(shù)據(jù)需要快速傳輸和處理,需要更高質(zhì)量、大帶寬、低延遲的科研專網(wǎng)服務(wù)支撐,促進(jìn)我國高能物理、氣象觀測、生物信息、生命科學(xué)、天文聯(lián)測、遙感觀測、高性能網(wǎng)格計算等科學(xué)領(lǐng)域不斷發(fā)展.隨著高速科研專網(wǎng)的建設(shè)和發(fā)展,支持了科研用戶實現(xiàn)從原有的自一級站點獲取數(shù)據(jù)轉(zhuǎn)化為與遍布世界各地的二級站點共享數(shù)據(jù)的戰(zhàn)略轉(zhuǎn)變.網(wǎng)絡(luò)節(jié)點數(shù)量和網(wǎng)絡(luò)流量規(guī)模的急劇膨脹,科研應(yīng)用類型也越來越豐富多樣.傳統(tǒng)的IP 架構(gòu)已無法應(yīng)對高負(fù)載業(yè)務(wù)接入的需求,科研專網(wǎng)正不斷探索向軟件定義網(wǎng)絡(luò)(SDN)等新型架構(gòu)演進(jìn)的可行性,以使網(wǎng)絡(luò)具備更靈活的調(diào)度能力和擴(kuò)展能力.軟件定義網(wǎng)絡(luò)技術(shù)通過數(shù)據(jù)平面和控制平面的分離為網(wǎng)絡(luò)管理控制提供了極大的自由度,而靈活的網(wǎng)絡(luò)控制能力與精準(zhǔn)快速的網(wǎng)絡(luò)鏈路流量預(yù)測能力結(jié)合能為網(wǎng)絡(luò)運行管理提供更進(jìn)一步降低人工干預(yù)需求的可能性.科研專網(wǎng)的鏈路流量預(yù)測對科研觀測傳輸窗口保障、帶寬資源預(yù)留配置、數(shù)據(jù)分發(fā)傳輸調(diào)度等方面起著至關(guān)重要的作用.建立有效的科研專網(wǎng)鏈路流量預(yù)測模型,能在更靈活數(shù)據(jù)轉(zhuǎn)發(fā)控制技術(shù)的輔助下更有效支持鏈路資源調(diào)度的更優(yōu)決策,還可以幫助科研專網(wǎng)動態(tài)評估當(dāng)前鏈路中資源使用情況和網(wǎng)絡(luò)運行狀況、預(yù)測未來流量變化趨勢、對專網(wǎng)鏈路建設(shè)規(guī)劃提供決策輔助以及為科研用戶提供更好的傳輸服務(wù)質(zhì)量.
鏈路流量是當(dāng)前鏈路負(fù)載的一種數(shù)值表征,是鏈路所屬網(wǎng)絡(luò)節(jié)點間流量矩陣的最基本組成單元.鏈路流量預(yù)測的方法是根據(jù)流量特性設(shè)計流量模型以刻畫實際流量的突出特征,用以進(jìn)行研究和分析.預(yù)測模型可以通過輸入歷史流量數(shù)據(jù)然后輸出對未來流量的預(yù)判.流量預(yù)測的本質(zhì)是總結(jié)歷史流量特征,推演未來流量特征的過程.當(dāng)前流量預(yù)測模型研究主要分為線性流量預(yù)測模型和非線性流量預(yù)測模型兩類.常見的線性流量預(yù)測模型有泊松模型[6]、馬爾科夫模型[7]、自回歸模型[8]等.互聯(lián)網(wǎng)發(fā)展早期,網(wǎng)絡(luò)節(jié)點數(shù)量少、規(guī)模小、拓?fù)浜唵?、?yīng)用單一,因此泊松模型等線性模型在此類場景下應(yīng)用取得了一定的成績,但是隨著網(wǎng)絡(luò)流量復(fù)雜度的提高,泊松模型與流量觀察值出現(xiàn)明顯差異.馬爾科夫模型隨著時間尺度的拉大則趨向于一個穩(wěn)定的與初始無關(guān)的狀態(tài),使用馬爾科夫模型僅能對臨近的短時間段流量有效.自回歸模型是時間平穩(wěn)序列預(yù)測模型,在非時間平穩(wěn)序列中則準(zhǔn)確率不高.線性預(yù)測模型的本質(zhì)是刻畫網(wǎng)絡(luò)流量的短相關(guān)特征,短相關(guān)特性是在不同的時間尺度上有不同的特性,但是在長相關(guān)特性上有一定缺陷.隨著網(wǎng)絡(luò)規(guī)模繼續(xù)發(fā)展且流量組成復(fù)雜度增加,學(xué)術(shù)界發(fā)現(xiàn)了流量的自相似性,由此提出了各種非線性流量預(yù)測模型,常見比如有分形布朗運動模型[9]、分形自回歸整合移動平均模型[10]和基于小波的模型[11].分形布朗運動模型能夠完美描述流量的自相似性,但不能描述序列的短相關(guān)性,因此不能對同時具有長相關(guān)性和短相關(guān)性的序列建模.分形自回歸模型可以同時很好地描述流量的長相關(guān)性和短相關(guān)性,但該模型復(fù)雜且參數(shù)較多,計算資源開銷過大.小波分析模型可以突出研究對象的特征,但在選取小波基函數(shù)時需要滿足小波變換系數(shù)之間相互獨立,因此小波基的選取會影響模型的實際效果.隨著機器學(xué)習(xí)的蓬勃發(fā)展,學(xué)術(shù)界利用機器學(xué)習(xí)優(yōu)越的非線性映射能力應(yīng)用于流量預(yù)測領(lǐng)域取得一定的效果,非線性流量模型進(jìn)入了新的發(fā)展階段,比較典型的模型有支持向量機回歸[12]、循環(huán)神經(jīng)網(wǎng)絡(luò)模型[13]等.支持向量機模型通過窮舉搜索和對比實驗進(jìn)行模型尋優(yōu),這在很大程度上會影響支持向量機的泛化能力[14].由于梯度爆炸和梯度消失的存在,RNN 神經(jīng)網(wǎng)絡(luò)不能完美的保持記憶,需要通過引入長期記憶和短期記憶解決梯度爆炸和梯度消失的問題[15,16].
互聯(lián)網(wǎng)系統(tǒng)經(jīng)過多年發(fā)展到當(dāng)前,網(wǎng)絡(luò)鏈路流量的組成更具多樣性和復(fù)雜性,流量特征不再表現(xiàn)為簡單的短相關(guān),以往基于線性流量模型無法很好的描述和適配當(dāng)前網(wǎng)絡(luò)流量特征.當(dāng)前非線性的流量預(yù)測模型未過多考慮不同時刻間的數(shù)據(jù)特征之間的前后關(guān)系,在特定的網(wǎng)絡(luò)場景中,自變量解釋因變量的變化的能力不足,最終影響整個模型的擬合,導(dǎo)致模型效果一般,因此不能滿足復(fù)雜特征的鏈路流量預(yù)測.為了提取流量內(nèi)部的深層細(xì)粒度特征,高效擬合特定網(wǎng)絡(luò)的流量特征,本文針對LSTM 模型加以改進(jìn),提出并實現(xiàn)了一種新的面向科研專網(wǎng)的鏈路流量預(yù)測模型:AE-棧式混合LSTM 模型,該模型由自編碼器、雙向LSTM 模型、單向LSTM 模型和全連接層組成.自編碼器可以壓縮輸入數(shù)據(jù)的特征維度,獲取輸入數(shù)據(jù)中最穩(wěn)定的特征,較大幅度提升了流量特征的提取能力,雙向LSTM 模型學(xué)習(xí)輸入不同時刻數(shù)據(jù)之間的前向聯(lián)系和后向聯(lián)系,構(gòu)建更高級別的特征.通過自編碼器和雙向LSTM 模型的協(xié)同挖掘不同時刻的數(shù)據(jù)特征之間的前后依賴關(guān)系,LSTM 具有單元內(nèi)部的自循環(huán)和隱藏層單元的外循環(huán),可更好適配時間序列的長期依賴性.
自編碼器(AutoEncoder,AE)是一種半監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)的具備表征學(xué)習(xí)能力的神經(jīng)網(wǎng)絡(luò)模型,可以被廣泛應(yīng)用于異常檢測和輸入信息降維.自編碼器模型的功能是將輸入信息作為學(xué)習(xí)目標(biāo),利用反向傳播算法對輸入信息進(jìn)行表征學(xué)習(xí)[17].此模型的關(guān)鍵特點在于輸出維度遠(yuǎn)小于輸入維度,對序列數(shù)據(jù)的降維能力比較強大.自編碼器模型通過約束信息條件讓潛在特征空間中的潛在特征e(x)具有價值屬性,使得中間層從數(shù)據(jù)中發(fā)現(xiàn)更穩(wěn)健信息和更關(guān)鍵特征,防止模型僅僅學(xué)習(xí)輸入與輸出之間的恒等關(guān)系,即是在編碼器層面限制e(x)的特征維度使其小于輸入x的特征維度.自編碼器的這種高強度降維的轉(zhuǎn)換過程必然會使最后的輸出結(jié)果相對于輸入序列而言存在一定的信息損失,形成中間層的有損信息特征表示,但最終解碼器中的輸出特征是同自編碼器的輸入的特征大致相同,因此在編解碼的過程中,序列數(shù)據(jù)會經(jīng)歷高低維度的線性轉(zhuǎn)換或者非線性轉(zhuǎn)換,自編碼器在數(shù)據(jù)經(jīng)歷有損轉(zhuǎn)換和有損恢復(fù)的過程中,能夠?qū)W習(xí)到數(shù)據(jù)中的最重要且穩(wěn)定的特征,同時實現(xiàn)數(shù)據(jù)降噪.
為了解決科研專網(wǎng)鏈路流量的時序數(shù)據(jù)預(yù)測的問題,本文基于自編碼器的基礎(chǔ)模型優(yōu)化設(shè)計了“寬-窄-寬”的網(wǎng)絡(luò)結(jié)構(gòu),通過自監(jiān)督的學(xué)習(xí)方式完成鏈路網(wǎng)絡(luò)流量數(shù)據(jù)的特征轉(zhuǎn)換和特征表示.本文設(shè)計的自編碼器模型具體結(jié)構(gòu)如圖1(a)所示,編碼器由前3 層全連接網(wǎng)絡(luò)組成,解碼器由后2 層全連接網(wǎng)絡(luò)組成,其中每一層全連接網(wǎng)絡(luò)的具體組成結(jié)構(gòu)如圖1(b)所示,包含Batch Norm 層、全連接層和激活層.給定網(wǎng)絡(luò)流量數(shù)據(jù)x={x1,x2,···,xk,···,xn},其中xk為輸入網(wǎng)絡(luò)流量數(shù)據(jù)的第k個維度,給定特征空間H={h1,h2,···,hk,···,hm},其中,m 圖1 自編碼器AE 模型結(jié)構(gòu)圖 LSTM 神經(jīng)網(wǎng)絡(luò)模型是基于循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)的,在處理時間序列數(shù)據(jù)時具有比較好的效果.LSTM神經(jīng)網(wǎng)絡(luò)模型的輸出信息與當(dāng)前時刻的信息、當(dāng)前時刻的期記憶和當(dāng)前時刻細(xì)胞狀態(tài)(長期記憶)決定,因此在序列預(yù)測上得到了廣泛的應(yīng)用.有研究證明,具有多個隱藏層的深層LSTM 體系結(jié)構(gòu)可以構(gòu)建更高級別的序列數(shù)據(jù)特征表示,從而可以更加高效地對序列數(shù)據(jù)進(jìn)行預(yù)測[18].文獻(xiàn)[19]將BiLSTM 作為隱藏層單元來獲取不同時刻數(shù)據(jù)特征之間的前后依賴關(guān)系,進(jìn)而進(jìn)行對交通流量的預(yù)測.科研專網(wǎng)的鏈路流量預(yù)測需要預(yù)測模型更好的捕獲當(dāng)前鏈路流量中的突發(fā)性、周期性和趨勢性的關(guān)鍵特征,同時還需要考慮鏈路流量的內(nèi)部深層細(xì)粒度特征,兼顧不同時刻數(shù)據(jù)特征的前后依賴關(guān)系,為了更好的解決此問題,本文將自編碼器AE、單向LSTM 神經(jīng)網(wǎng)絡(luò)、雙向LSTM 神經(jīng)網(wǎng)絡(luò)和全連接BP 神經(jīng)網(wǎng)絡(luò)組成一種綜合預(yù)測模型,用于挖掘科研專網(wǎng)鏈路流量中的深層顯著重要特征,模型的邏輯結(jié)構(gòu)圖如圖2所示. 圖2中的自編碼器AE 模型的主要作用是對歷史鏈路流量進(jìn)行有損壓縮和有損恢復(fù),進(jìn)而獲得輸入數(shù)據(jù)中最重要和最穩(wěn)定的信息;圖2的雙向LSTM(BiLSTM)層的具體結(jié)構(gòu)如圖3所示,其主要作用是在自編碼器的基礎(chǔ)上,進(jìn)一步學(xué)習(xí)數(shù)據(jù)的前后向依賴關(guān)系,從而構(gòu)建更高級別的特征表示;圖2中的LSTM 網(wǎng)絡(luò)層的主要作用是在已構(gòu)建的數(shù)據(jù)特征之上完成對鏈路流量的預(yù)測;全連接層的主要作用是通過降維的方式輸出預(yù)測結(jié)果,其中添加dropout 層的意義是可以有效緩解過擬合的發(fā)生,在一定程度上達(dá)到正則化的效果. 圖2 AE-棧式混合LSTM 模型邏輯結(jié)構(gòu)示意圖 圖3 雙向LSTM 模型結(jié)構(gòu)示意圖 本文實驗采用的科研專網(wǎng)真實的鏈路流量數(shù)據(jù),數(shù)據(jù)采集來自中國科技網(wǎng)(CSTNet)的全國骨干網(wǎng)真實生產(chǎn)環(huán)境中隨機抽取的某一鏈路關(guān)聯(lián)節(jié)點的SNMP數(shù)據(jù),采集時間周期跨度為315 天.SNMP 協(xié)議是互聯(lián)網(wǎng)工程任務(wù)組(Internet Engineering Task Force,IETF)定義的一套專門用來管理網(wǎng)絡(luò)設(shè)備的網(wǎng)絡(luò)管理協(xié)議.表1為中國科技網(wǎng)的SNMP 數(shù)據(jù)屬性,其中hostId 屬性和hostname 屬性唯一標(biāo)識一臺監(jiān)測機器設(shè)備,portNo屬性標(biāo)識端口號,inFlowValue 屬性是經(jīng)過此設(shè)備端口的上行流量數(shù)目,outFlowValue 屬性是經(jīng)過此設(shè)備端口的下行流量數(shù)目,inPackageValue 屬性是經(jīng)過此設(shè)備端口的下行報文數(shù)目,outPackageValue 屬性是經(jīng)過此設(shè)備端口下的下行報文數(shù)目,datetime 屬性是產(chǎn)生此條SNMP 數(shù)據(jù)的時間點. 表1 中國科技網(wǎng)(CSTNet)的SNMP 數(shù)據(jù)屬性 中國科技網(wǎng)CSTNet的監(jiān)測節(jié)點每5 min 生成一條SNMP 數(shù)據(jù)記錄,因此每天24 h 中產(chǎn)生288 條數(shù)據(jù)記錄.圖4為7 天內(nèi)和2 天內(nèi)的指定鏈路下行流量展示圖,如圖4所示,鏈路流量的特征在局部范圍內(nèi)具有一定的隨機性、突發(fā)性甚至無序性,但是在全局范圍內(nèi)具有一定的周期性、趨勢性和自相似性.在流量區(qū)間內(nèi),0:00–6:00 鏈路實時流量處于下降趨勢,6:00–8:00 網(wǎng)絡(luò)流量總量處于上升趨勢,8:00–21:00 在某個區(qū)間震蕩,21:00–24:00 處于下降趨勢. 圖4 鏈路網(wǎng)絡(luò)流量數(shù)據(jù)展示圖 實驗所采用數(shù)據(jù)均來源于中國科技網(wǎng)骨干網(wǎng)真實生產(chǎn)環(huán)境內(nèi)某鏈路節(jié)點,采集過程符合隱私不可逆脫敏要求,僅提取設(shè)備端口數(shù)據(jù)包轉(zhuǎn)發(fā)的流量計數(shù)信息,不涉及和接觸數(shù)據(jù)包流向信息.經(jīng)過數(shù)據(jù)整理和比對去除了少量異常數(shù)據(jù)點,同時對序列數(shù)據(jù)中的少量缺失值做了完整化處理,本文采用加權(quán)移動平均法對缺失點附近的前3 個時刻和后3 個時刻取值,然后取均值進(jìn)行填充,經(jīng)過數(shù)據(jù)預(yù)處理后,最終投入實驗的鏈路流量數(shù)據(jù)共有90 720 條. 數(shù)據(jù)采集集中后因為覆蓋的維度范圍較大,會使模型收斂時難以獲取全局最優(yōu)解,也會造成部分指標(biāo)忽視,因此類數(shù)據(jù)需要使用進(jìn)行歸一化處理才能使用.本文通過Min-Max 歸一化(Min-Max normalization)對輸入的采集數(shù)據(jù)進(jìn)行處理,對集中的數(shù)據(jù)進(jìn)行特征縮放,確保模型在求得最優(yōu)解過程中比較平緩,更容易收斂到模型的最優(yōu)解.Min-Max 歸一化也叫離差歸一化,具體公式見式(4),該方法沒有假設(shè)數(shù)據(jù)符合某種數(shù)學(xué)分布模型,是對原始數(shù)據(jù)的線性變化,將數(shù)據(jù)映射到[0,1]區(qū)間里. 在本應(yīng)用場景下通過新型預(yù)測模型做目標(biāo)鏈路的流量預(yù)測時,需要確定對預(yù)測模型的輸入和輸出的粒度尺度,也就是確定輸入已獲取的過去多長時間的鏈路流量給預(yù)測模型來期望預(yù)測模型輸出可用的未來多長時間內(nèi)的預(yù)測結(jié)果.根據(jù)科研專網(wǎng)的實際運行需求,一般來說,預(yù)測結(jié)果的預(yù)期一般以一個完整的自然日為通常分析粒度,因此本文需要確定的是如果需要預(yù)測未來一個自然日的鏈路流量,則需要輸入的歷史數(shù)據(jù)的度量應(yīng)為多少為宜.預(yù)測過程的特征選擇模式如圖5所示,圖5中上部的方塊“Model”表示本文提出的AE-棧式混合LSTM 模型.根據(jù)現(xiàn)有采集頻度,一天中目標(biāo)鏈路獲取的SNMP 數(shù)據(jù)有288 條,所以第1–288條是第1 個自然日的鏈路網(wǎng)絡(luò)流量記錄,第289–576條是第2 天的鏈路網(wǎng)絡(luò)流量數(shù)據(jù),以此類推;Seq_1,Seq_2,…,Seq_n表示每一次的預(yù)測,且步長為1.因此需要確定的k值則是所需確認(rèn)的輸入粒度,同時需要確認(rèn)模型中具體的參數(shù)才能使得本文提出的鏈路流量預(yù)測模型實現(xiàn)最優(yōu)的預(yù)測輸出. 圖5 特征選擇模式 本文中自編碼器AE 模型使用“寬-窄-寬”的網(wǎng)絡(luò)結(jié)構(gòu),第1 層網(wǎng)絡(luò)隱藏單元個數(shù)為16,第2 層網(wǎng)絡(luò)隱藏單元個數(shù)為8,第3 層網(wǎng)絡(luò)隱藏單元個數(shù)為4,第4 層網(wǎng)絡(luò)隱藏單元個數(shù)為8,第5 層網(wǎng)絡(luò)隱藏單元個數(shù)為16.其中的輸入?yún)?shù)為歸一化后的前k天的SNMP 數(shù)據(jù)的拼接,拼接方法表示為如下: [In flowt?k,Out flowt?k,Inpackaget?k, Outpackaget?k,···,In flowt?1,Out flowt?1, Inpackaget?1,Outpackaget?1] 自編碼器的輸出結(jié)果為棧式混合LSTM 模型的輸入?yún)?shù),棧式混合LSTM 模型的具體參數(shù)如圖6所示,本模型由BiLSTM 網(wǎng)絡(luò)、LSTM 網(wǎng)絡(luò)、dropout 層,全連接層和激活層共同構(gòu)成.在輸入?yún)?shù)經(jīng)過的BiLSTM中,第1 個LSTM 網(wǎng)絡(luò)設(shè)置了96 個隱藏單元,第2 個LSTM 網(wǎng)絡(luò)設(shè)置了120 個隱藏單元.設(shè)置BiLSTM 網(wǎng)絡(luò)主要是為了進(jìn)一步挖掘目標(biāo)鏈路流量序列數(shù)據(jù)中的深層次高級特征,學(xué)習(xí)輸入序列數(shù)據(jù)的前后依賴關(guān)系;緊隨BiLSTM 網(wǎng)絡(luò)的是一個單向LSTM 網(wǎng)絡(luò),該網(wǎng)絡(luò)設(shè)置了120 個隱藏單元;接著進(jìn)入dropout 層,每次隨機刪掉20%的隱藏神經(jīng)單元,輸出單元不變;最后一層進(jìn)入全連接層經(jīng)過ReLU 激活函數(shù)輸出. 圖6 棧式混合LSTM 結(jié)構(gòu)示意圖 在本文中設(shè)計實驗來確定使用過去多少天的鏈路流量去預(yù)測未來一天的鏈路流量,使用k值表示過去的天數(shù).下文闡述探究k的最優(yōu)值的過程,實驗中使用不同的模型性能評價指標(biāo),梯度下降算法選用Adagrad算法,Adagrad 算法是Duchi 在2011年提出的參數(shù)自適應(yīng)梯度下降算法[20],該算法的主要思想是初始時需要設(shè)定一個全局的學(xué)習(xí)率,接下來會自適應(yīng)且獨立地訓(xùn)練模型中的參數(shù),給偏導(dǎo)數(shù)大的參數(shù)設(shè)置較大的學(xué)習(xí)率,給偏導(dǎo)數(shù)小的參數(shù)設(shè)置較小的學(xué)習(xí)率.為了測試不同的初始學(xué)習(xí)率為模型訓(xùn)練帶來的影響,本文中設(shè)置的初始學(xué)習(xí)率分別有0.001,0.002,0.01,0.02,同時數(shù)據(jù)集按照4:1的比例劃分訓(xùn)練集和測試集.訓(xùn)練過程有300 個epoch,每10 個epoch 在測試集上驗證模型效果. 接下來測試k的取值,將k的取值從2 變化至10,其中RMSE的變化如圖7所示.從圖7中可以明顯看出,當(dāng)k值為4 時,本文的AE-棧式混合LSTM 模型的預(yù)測性能最好,同時也可以看出,模型的預(yù)測性能并不是隨著輸入?yún)?shù)維度的增加而不斷提升,當(dāng)輸入維度增加至一定程度時,模型的預(yù)測性能將不再變化,甚至?xí)儾? 圖7 k 值的取值測試 通過上述實驗過程以及討論分析,本文中的k值確定為4為最優(yōu)解,即確定預(yù)測模型輸入為使用前4 天的鏈路流量,然后模型輸出未來1 天的鏈路流量預(yù)測結(jié)果.當(dāng)k值為4 時,模型訓(xùn)練過程如圖8所示,最終模型在不同學(xué)習(xí)率下的性能指標(biāo)參數(shù)如表2所示,當(dāng)學(xué)習(xí)率為0.001和0.002 時,由于初始學(xué)習(xí)率過小,不會錯過局部最優(yōu)值,但是此時也意味著模型需要花費更多的時間進(jìn)行收斂,圖8中顯示過小的學(xué)習(xí)率并沒有收斂到最優(yōu)值,當(dāng)學(xué)習(xí)率(lr)為0.02 時,模型收斂效果最好. 表2 k=4 時的模型評價指標(biāo) 圖8 k=4 時的不同學(xué)習(xí)率下的RMSE 對比圖 接下來模型設(shè)置參數(shù)k值為4 時,輸入中國科技網(wǎng)采集的真實流量數(shù)據(jù),模型輸出具體的預(yù)測結(jié)果對比觀測值如圖9所示.圖9中展示了未來2 天內(nèi)的鏈路網(wǎng)絡(luò)流量預(yù)測效果,AE-棧式混合LSTM 模型能夠擬合曲線的趨勢走向且流量預(yù)測值比較貼合于流量觀測值. 圖9 k=4 時AE-棧式混合LSTM 模型鏈路流量預(yù)測對比 鏈路流量預(yù)測是回歸類型問題的一種,在訓(xùn)練模型和評價模型的階段,需要一系列可量化的指標(biāo)來評價擬合訓(xùn)練數(shù)據(jù)達(dá)到模型最優(yōu)解和評價該最優(yōu)解下模型的性能.預(yù)測問題多用真實值和預(yù)測值之間的差值指標(biāo)來評價預(yù)測模型的優(yōu)劣,而常見的模型評價指標(biāo)有均方誤差(mean squared error,MSE)、均方根誤差(root mean squared error,RMSE)、平均絕對誤差(mean absolute error,MAE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)、對稱平均絕對百分比誤差(symmetric mean absolute percentage error,SMAPE)和可決系數(shù)(R-squared,R2).相關(guān)標(biāo)準(zhǔn)定義和計算方法如下. 均方誤差:是真實值與預(yù)測值之間誤差平方的期望值,是一種衡量平均誤差較方便的方法,式(5) 是MSE的定義.MSE經(jīng)常被作為損失函數(shù),在模型訓(xùn)練和測試過程中,不斷降低MSE值是模型優(yōu)化的目標(biāo). 均方根誤差:用來衡量真實值與預(yù)測值之間的偏差,其本質(zhì)是均方誤差的算術(shù)平方根,式(6)是RMSE的定義.RMSE經(jīng)常被用來作為模型測試的指標(biāo),RMSE越小,表示模型擬合的越精準(zhǔn). 平均絕對誤差:用來衡量真實值與預(yù)測值之間的偏差絕對值,其定義如式(7)所示,相比均方根RMSE,平均絕對誤差MAE對離群點沒有那么敏感,對誤差樣本懲罰較小.MAE越小,模型越精準(zhǔn). 平均絕對百分比誤差:是一種常見的誤差測量統(tǒng)計方式,其定義如式(8)所示,其本質(zhì)是平均絕對誤差MAE的標(biāo)準(zhǔn)化.MAPE的取值范圍是[0,+∞],MAPE越小,表示模型效果越好,當(dāng)MAPE的值為0 時,表示該模型是完美模型;MAPE越大,表示模型效果越差,當(dāng)MAPE的值等于或超過100%時,表示該模型是劣質(zhì)模型. 對稱平均絕對百分比誤差:MAPE的取值范圍是[0,+∞],對于低預(yù)測,即預(yù)測值低于觀測值的情況,平均絕對百分比誤差MAPE不會超過100%,但是高預(yù)測,即預(yù)測值高于觀測值的情況,MAPE沒有預(yù)測上限.因此MAPE指標(biāo)會對高預(yù)測施加更大的懲罰,即MAPE指標(biāo)更加偏向于預(yù)測不足而不是過度預(yù)測的模型.MAPE是不對稱的,因此引入了能克服不對稱性問題的SMAPE指標(biāo)加以解決,相關(guān)公式如式(9)所示. 可決系數(shù):反映了因變量和自變量的關(guān)聯(lián)程度,也即可決系數(shù)反映了因變量隨自變量變化的可靠程度.上述的衡量方法的缺陷是沒有預(yù)測上限,可決系數(shù)的公式如式(10)所示,它的取值范圍是[0,1].可決系數(shù)R2越大,表示模型效果越好,當(dāng)R2的值為1 時,表示自變量能夠完全解釋關(guān)于因變量的變化;可決系數(shù)R2越小,表示模型效果越差,當(dāng)R2的值為0 時,表示自變量不能解釋關(guān)于因變量的變化. 針對本文提出的新型預(yù)測模型的效果評價,使用了標(biāo)準(zhǔn)LSTM 神經(jīng)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)和Seq2Seq 模型3 種不同類型的模型與之通過實驗進(jìn)行對比驗證,具體過程和結(jié)果分析如下. 標(biāo)準(zhǔn)LSTM 神經(jīng)網(wǎng)絡(luò)設(shè)置了120 個隱藏單元,最后由一個全連接層降維輸出預(yù)測結(jié)果.小波神經(jīng)網(wǎng)絡(luò)為3 層網(wǎng)絡(luò)結(jié)構(gòu),第1 層和第2 層網(wǎng)絡(luò)的隱藏單元數(shù)量均為96,第3 層網(wǎng)絡(luò)的隱藏單元數(shù)量為1,作用為降維輸出結(jié)果,其中激活函數(shù)選用Morlet 母小波基函數(shù),如式(11)所示.Seq2Seq 模型中的RNN 模型具體選用門控神經(jīng)網(wǎng)絡(luò)GRU,其中的GRU 隱藏神經(jīng)單元數(shù)量分別為96和16.對上述3 種模型均使用Adagrad 算法對模型進(jìn)行訓(xùn)練,設(shè)置300 個epoch,每10 個epoch在測試集上驗證模型效果. 本文提出的AE-棧式混合LSTM 模型與小波神經(jīng)網(wǎng)絡(luò)、Seq2Seq 模型和LSTM 模型在同等設(shè)定條件下的驗證實驗結(jié)果按照不同的差值評價指標(biāo)的對比情況如表3所示,結(jié)果顯示在中國科技網(wǎng)的驗證環(huán)境中,同等條件下本文提出的新型預(yù)測模型與其他3 種不同類型的預(yù)測模型相比,按6 種差值指標(biāo)考察結(jié)果均為最優(yōu). 表3 模型性能對比 在R2指標(biāo)上,新模型比小波神經(jīng)網(wǎng)絡(luò)提高了0.14,比LSTM 模型提高了0.21,這表明新模型能夠更好的挖掘鏈路流量的內(nèi)部深層細(xì)粒度特征,特征作為自變量能夠解釋鏈路流量的變化. 在SMAPE指標(biāo)上,新模型相比于LSTM 模型下降了10.88%,說明新模型給出的流量預(yù)測值與流量觀測值之間的殘差較小,流量預(yù)測值更加接近流量觀測值,說明本新模型在科研專網(wǎng)的真實數(shù)據(jù)集上具有更優(yōu)的表現(xiàn). 科研專網(wǎng)主要服務(wù)于各個不同學(xué)科的科研應(yīng)用數(shù)據(jù)傳輸,流量特征相比通用大眾網(wǎng)絡(luò)而言流量特征更具復(fù)雜性,數(shù)據(jù)類型更具多樣性,應(yīng)用面向更具廣泛性,傳輸質(zhì)量要求更具敏感性.現(xiàn)有的預(yù)測模型不能很好地擬合業(yè)務(wù)流量的變化趨勢,針對這種不足,本文提出了一種新型的基于自編碼器的棧式混合LSTM 模型來針對科研專網(wǎng)的鏈路流量進(jìn)行預(yù)測,在國內(nèi)典型的科研專網(wǎng)CSTNet的真實生產(chǎn)網(wǎng)運行數(shù)據(jù)驗證環(huán)境中證明了與標(biāo)準(zhǔn)LSTM、小波模型、Seq2Seq 等其他預(yù)測模型相比較,預(yù)測結(jié)果的精度更優(yōu). 在新型科研范式的推動下,科研數(shù)據(jù)的流量特征仍然會發(fā)生更復(fù)雜的變化,AE-棧式混合LSTM 模型目前還不支持增量訓(xùn)練,后續(xù)工作需要針對此點進(jìn)行改進(jìn).對于科研專網(wǎng)不斷演化的數(shù)據(jù),模型如能進(jìn)一步支持增量訓(xùn)練,使模型根據(jù)新數(shù)據(jù)按照周期自動地進(jìn)行調(diào)整,更新模型相關(guān)參數(shù)時支持增量訓(xùn)練可以節(jié)約更多的時間成本.2.2 AE-棧式混合LSTM 模型設(shè)計
3 模型實證分析
3.1 真實數(shù)據(jù)采集和數(shù)據(jù)集整理
3.2 模型實證過程
3.3 差值評價指標(biāo)
3.4 效果驗證對比分析
4 結(jié)束語