劉穎 羅濤 楊燦
【摘 ?要】
針對復雜多維環(huán)境下彈性網(wǎng)絡資源受到氣象、地形、電磁、時空等環(huán)境影響的問題,提出了一種網(wǎng)絡資源與環(huán)境耦合關系預測技術,主要目的是實現(xiàn)網(wǎng)絡資源與環(huán)境耦合關系預測,提升網(wǎng)絡資源的利用率。通過實測驗證了技術的可行性,滿足實際網(wǎng)絡通信過程中對網(wǎng)絡資源與環(huán)境耦合關系的預測。
【關鍵詞】彈性網(wǎng)絡;網(wǎng)絡資源;環(huán)境耦合
0 ? 引言
在實際網(wǎng)絡通信[1]過程中,由于設備故障、環(huán)境突變等問題,導致環(huán)境感知設備采集到不完整或不準確的數(shù)據(jù),進而引發(fā)網(wǎng)絡資源[2]狀態(tài)的表征結果異常。網(wǎng)絡資源狀態(tài)的表征是否準確,對網(wǎng)絡資源的利用率有很大的影響。
本文針對復雜多維環(huán)境下彈性網(wǎng)絡資源受到氣象、地形、電磁、時空等環(huán)境影響的問題,提出了一種網(wǎng)絡資源與環(huán)境耦合關系預測技術,滿足在實際網(wǎng)絡通信過程中,對網(wǎng)絡資源與環(huán)境耦合關系預測,提升網(wǎng)絡資源的利用率。
在實際網(wǎng)絡通信過程中,環(huán)境感知設備采集到大量不完整或不準確的數(shù)據(jù),迫切需要解決通信信息的清洗與提煉、海量信息智能分析處理等關鍵問題。下面分別從數(shù)據(jù)預處理[3]、預測方法[4]綜述現(xiàn)階段研究現(xiàn)狀。
由于設備故障、環(huán)境突變等問題,導致環(huán)境感知設備采集到不完整或不準確的數(shù)據(jù),所以,需要對缺失值進行填充[5]。在數(shù)據(jù)清洗過程中,經常遇到空值問題。一般可分為兩種空值問題類型:(1)數(shù)值的不完整;(2)數(shù)值為空(即空值)。數(shù)值不完整包括數(shù)據(jù)部分或所屬字段沒有值;空值的定義是實際不存在而空的值。處理方法有:(1)根據(jù)某種規(guī)則推導出某些缺失值;(2)用最小值、中值、最大值、平均值替換缺失值;(3)手動輸入一個可接受范圍內的值等。
目前有很多機器學習算法被用于預測的研究,常見的有K近鄰(KNN, K Nearest Neighbors)[6]、決策樹(DT, Decision Tree)[7]、支持向量機(SVM, Support Vector Machines)[8]等算法。
(1)K-近鄰算法
K-近鄰是測量特征之間的間距進行分類。已知訓練集,對于新的輸入數(shù)據(jù),在訓練集中找到與該數(shù)據(jù)最接近的K個數(shù)據(jù),這K個數(shù)據(jù)的多數(shù)數(shù)據(jù)屬于某一個類,就把該輸入數(shù)據(jù)歸類到這個子類中。如圖1所示:
(2)決策樹
決策樹算法是一種歸納式的學習算法,目的在于從數(shù)據(jù)源中推理和歸納出樹形結構的決策樹表現(xiàn)形式。決策樹的思想是“分而治之”,該算法從一個結點開始,根據(jù)一定的分支標準劃分樣本,一直加入新節(jié)點分割上一次分裂剩下的樣本,直至所有樣本被準確歸類為止。決策樹會訓練模型根據(jù)特征一級級地分裂。而分裂的閾值會根據(jù)訓練的數(shù)據(jù)學習得,最終實現(xiàn)預測。
(3)支持向量機
支持向量機是二分類模型,基本模型是在特征空間上的間距最大的線性分類器,間距最大使它有別于感知機,能較好解決非線性、小樣本以及高維模式識別任務。
1 ? 總體方案
本方案架構示意如圖2所示。首先,通過基于多維模糊映射、服務擴充的方法對原始的不完整參數(shù)集進行預處理;其次,通過基于多維環(huán)境參數(shù)的特征表征方法,對數(shù)據(jù)進行特征構造,以獲得具有更強表征能力的數(shù)據(jù);然后,融合前向選擇、后向選擇、模擬退火[9]的方法對特征進行降維,降低各維度的變量空間及多維表征模型訓練的復雜度;最后,采用基于決策樹的模型訓練方法,對數(shù)據(jù)進行訓練學習預測,實現(xiàn)網(wǎng)絡資源在復雜環(huán)境約束下的精確描述。
1.1 ?預處理階段
針對當前實際網(wǎng)絡通信過程中,由于設備故障、環(huán)境突變等問題,導致環(huán)境感知設備采集到不完整或不準確的數(shù)據(jù),本文提出基于多維模糊映射、服務擴充的缺失值處理的補全方法,能快速準確地補全缺失值,達到提高模型效率的目的。該方法通過多維模糊推理,利用歷史數(shù)據(jù)對缺失的環(huán)境參數(shù)進行預測,完成不完整參數(shù)集向完整參數(shù)集的映射過程。算法流程如圖3所示:
對于一些特定的字段,通過第三方服務進行填充。例如根據(jù)時間、地點查找氣象表填充天氣。通過經緯度定位填充地形。對于這些特殊字段,服務擴充的方式能夠更加精準地填充缺失值。通過氣象服務填充天氣示意圖、通過地形檢索服務填充地形示意圖,如圖4所示:
1.2 ?特征構造階段
為了增強對環(huán)境資源的表征能力,本文提出了基于多維環(huán)境參數(shù)的特征構造方法,從而更準確地學習網(wǎng)絡資源與多維環(huán)境的表征關系。通過對不同的特征進行交叉組合,使得特征之間可以相互聯(lián)系相互作用,從而表達出單一特征所不具有的非線性性。交叉構造特征采用加、減、乘、除、平方、均值、方差等方式進行特征組合。即對于數(shù)值型特征,讓兩兩特征在數(shù)值上進行加法、減法、乘法、除法等運算以及均值、方差等操作。特征構造方法如圖5所示:
1.3 ?特征約簡階段
為了篩選特征構造方法產生的冗余特征,本文提出了基于前向搜索、后向搜索、模擬退火算法融合的特征約簡方法。融合前向搜索、后向搜索方法的各自的優(yōu)點。此外,引入模擬退火機制,該機制有效克服序列搜索算法容易陷入局部最優(yōu)值的缺點。通過融合三種方法,本文增加了特征選擇和特征約簡的有效性,從而保留優(yōu)良的特征。特征約簡流程如圖6所示:
1.4 ?模型訓練階段
為了增強模型的學習能力和泛化能力,本文采用集成學習的方式進行訓練,提出了基于決策樹的集成分類模型構建及訓練方法。由于多維環(huán)境對網(wǎng)絡資源的影響呈現(xiàn)非線性的關系,常規(guī)的擬合方法對多維非線性函數(shù)的預測結果精度較低。針對這一問題,本文采用了決策樹的方法用來學習多維非線性函數(shù)的映射,將資源狀態(tài)表征為多維環(huán)境因素的多元函數(shù)。決策樹認為,物以類聚、人以群分,在特征空間里相近的樣本,那就是一類。如果為每個“類”分配的空間范圍比較小,那么,同一個類內的樣本差異會非常小,以至于看起來一樣。換句話說,如果我們可以將特征空間切分為較小的碎塊,然后為每一個碎塊內的樣本配置一個統(tǒng)一的因變量取值,就有機會做出誤差較小的預測。在本文任務中,每棵決策樹根據(jù)我們提供的發(fā)射凈空角、發(fā)生概率、干擾、海拔等特征,將特征空間切分很多小碎塊,并為這些碎塊提供因變量的取值。通過減小這個預測的取值和真實的取值的誤差來引導優(yōu)化。
2 ? 實驗
2.1 ?數(shù)據(jù)集
在實際網(wǎng)絡通信過程中,記錄了73 478條數(shù)據(jù),數(shù)據(jù)中特征包括發(fā)射點、接收點、發(fā)射點海拔、接收點海拔、發(fā)射凈空角(度)、接收凈空角(度)等,標簽為吞吐率[10]、丟包率、時延[11]。根據(jù)特征分別預測標簽。
數(shù)據(jù)集經過特征構造后,通過隨機采樣的方式將其劃分為訓練集、驗證集、測試集。使用訓練集來訓練模型,通過模型在驗證集上的效果好壞來選擇模型,然后在測試集上對模型方法進行評估[12]。數(shù)據(jù)集組成如圖7所示:
2.2 ?評價指標
均方誤差是最常用的回歸損失函數(shù),它通過衡量“平均誤差”的方式來評價數(shù)據(jù)的變化程度,其值越小,說明預測模型描述實驗數(shù)據(jù)具有更好的精確度。本文的任務中預測吞吐率、丟包率、延時都是回歸任務,所以選取該指標作為本文實驗的評價指標。
2.3 ?實驗流程
實驗流程見圖8所示。實驗步驟如下:
步驟1:載入73 478條數(shù)據(jù);
步驟2:隨機抽取其中的7 259條記錄作為測試集,剩下的66 219條記錄作為訓練集,再在訓練集中抽取7 000條記錄作為驗證集;
步驟3:選取原始特征;
步驟4:通過對多維環(huán)境參數(shù)進行特征構造;
步驟5:采用前向搜索、后向搜索、模擬退火算法融合的特征約簡方法特征約簡;
步驟6:構建基于決策樹的模型;
步驟7:使用驗證集選擇最優(yōu)模型;
步驟8:測試集數(shù)據(jù)輸入模型中進行預測。
2.4 ?性能測試
模型訓練及預測消耗的時間如表1所示:
通過性能測試結果顯示,預測時間小于0.02 s,預測效率高,可實現(xiàn)批量預測。
2.5 ?測試結果
各模型預測的MSE值如表2所示:
均方誤差是測試集的7 259條記錄中預測結果和真實值的均方誤差。其值越接近0,則預測值與真實值的偏差越小。“丟包率(%)”字段的MSE幾乎為0,預測結果幾乎達到了100%的準確率。為了更直接的展示預測效果,預測結果與真實值的擬合圖如圖9、10、11所示。
綠線代表預測值,紅線代表真實值。對于“丟包率”,可以觀察到預測結果與真實結果幾乎完全擬合。
3 ? 結束語
本文針對復雜多維環(huán)境下彈性網(wǎng)絡資源受到氣象、地形、電磁、時空等環(huán)境影響,提供了一種網(wǎng)絡資源與環(huán)境耦合關系預測技術,實現(xiàn)網(wǎng)絡資源在復雜環(huán)境約束下的精確描述,提升網(wǎng)絡資源的利用率。同時MSE測試結果較低,預測結果準確率高,并且在性能測試中,預測時間短,能高效地預測。驗證了一種網(wǎng)絡資源與環(huán)境耦合關系預測技術的可行性,對實際應用具有較強的指導作用。
參考文獻:
[1] ? ?田孝華. 現(xiàn)代軍事通信與通信新技術[J]. 無線通信技術, 1996(3): 54-57.
[2] ? ?于驪,史子博,舒炎泰,等. 調度和擁塞控制相結合的無線網(wǎng)絡資源分配模型[J]. 計算機應用, 2009,29(2): 487-490.
[3] ? ?陳莉,焦李成. 基于混合優(yōu)化算法的數(shù)據(jù)預處理算法Ⅱ[J]. 計算機應用與軟件, 2007,24(3): 22-24.
[4] ? ? 李旭然,丁曉紅. 機器學習的五大類別及其主要算法綜述[J]. 軟件導刊, 2019,18(7): 4-9.
[5] ? Jonathan T O, Gerald A M, Sandrine B. Special online collection: dealing with data[J]. Science, 2011,331(6018): 639-806.
[6] ? ?Cover T M. Rates of convergence for nearest neighbor procedures[C]//Proceedings of the Hawaii International Conference on Systems Sciences. 1968: 413-415.
[7] ? ?Quinlan J R. Induction of decision trees[J]. Machine learning, 1986(1): 81-106.
[8] ? ? 丁世飛,齊丙娟,譚紅艷. 支持向量機理論與算法研究綜述[J]. 電子科技大學學報, 2011,40(1): 2-10.
[9] ? ?潘蔚. 模擬退火算法和應用[J]. 經濟技術協(xié)作信息, 2008(32): 75.
[10] ? 劉凱,章欣. 多跳移動分組無線網(wǎng)絡的吞吐率分析[J]. 西安電子科技大學學報, 2000,27(1): 70-75.
[11] ? 黎文偉,張大方,謝高崗,等. 基于通用PC架構的高精度網(wǎng)絡時延測量方法[J]. 軟件學報, 2006,17(2): 275-284.
[12] ? 范永東. 模型選擇中的交叉驗證方法綜述[D]. 太原: 山西大學, 2013.