朱家鵬 段宇帥
摘 要:傳統(tǒng)的無線傳播模型通常需要根據(jù)經(jīng)驗?zāi)P蛯鞑鼍斑M行劃分。為了解決其在實際應(yīng)用中不夠精確的問題,通過在大量工程參數(shù)中設(shè)計并選用合適的特征參數(shù)作為模型輸入,構(gòu)建基于機器學(xué)習(xí)方法XGBoost的無線傳播預(yù)測模型,實現(xiàn)新環(huán)境下無線信號覆蓋強度的準確預(yù)測。實驗結(jié)果表明,該模型相較于基于長短記憶網(wǎng)絡(luò)(LSTM)、線性回歸方法,預(yù)測均方根誤差最小,為9.101。該方法在預(yù)測精度和模型魯棒性上都較好,對在不同場景下的信道傳播路徑損耗進行準確預(yù)測具有重要意義。
關(guān)鍵詞:集成學(xué)習(xí);無線傳播模型;數(shù)據(jù)分析;特征工程
DOI:10. 11907/rjdk. 192477 開放科學(xué)(資源服務(wù))標識碼(OSID):
中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)008-0035-05
Abstract:Traditional wireless propagation models usually need to divide propagation scenarios based on empirical models. In order to solve the problem that it is not accurate enough in practical application, this paper designs and selects the appropriate feature parameters as input to the model through a large number of engineering parameters. The wireless propagation model based on machine learning XGBoost can accurately predict the wireless signal coverage in the new environment. The experimental results show that compared with the long-short memory network (LSTM) and linear regression method, the predicted root mean square error is 9.101, and the error is the smallest. The method of this paper is good in the accuracy of prediction and the robustness of the model. It is of great significance to accurately predict the channel propagation path loss in different scenarios.
Key Words: integrated learning; wireless propagation model; data analysis; feature engineering
0 引言
隨著5G技術(shù)的長足發(fā)展與逐步普及,高效的網(wǎng)絡(luò)估算以及合理的基站站址選擇,在運營商部署5G網(wǎng)絡(luò)中具有非常重要的意義。無線傳播模型正是通過對目標通信覆蓋區(qū)域內(nèi)的無線電波傳播特性進行預(yù)測,使得小區(qū)覆蓋范圍、小區(qū)間網(wǎng)絡(luò)干擾以及通信速率等指標估算成為可能。由于無線電傳播環(huán)境復(fù)雜、會受到傳播路徑上各種因素的干擾,如建筑物、湖泊、平原等,使電磁波不再以單一方式和路徑傳播而產(chǎn)生復(fù)雜的折射、散射、透射,因此難以建立一個模型實現(xiàn)對不同場景下特定地理位置的實際平均信號接收功率(RSRP)進行準確預(yù)測。
針對不同頻段選擇合適的無線傳播模型,有助于5G通信系統(tǒng)的空口規(guī)劃和硬件選型,使工程師預(yù)測特定站址在實際環(huán)境下的傳播損耗,為網(wǎng)絡(luò)規(guī)劃及優(yōu)化奠定基礎(chǔ)[1]。在無線網(wǎng)絡(luò)規(guī)劃工程中, 傳播模型預(yù)測傳播損耗的準確性從根本上決定了無線網(wǎng)絡(luò)規(guī)劃的合理性[2-3]?,F(xiàn)有無線傳播模型一般可分為:經(jīng)驗?zāi)P汀⒗碚撃P秃透倪M型經(jīng)驗?zāi)P蚚4]。經(jīng)驗?zāi)P涂蓮慕?jīng)驗數(shù)據(jù)中獲取固定的擬合公式,典型模型有Cost 231-Hata[5-6]、Okumura[7]等。理論模型主要根據(jù)電磁波傳播理論,考慮電磁波在空間中的反射、繞射、折射等進行損耗計算,比較有代表性的是Volcano模型[8]。改進型經(jīng)驗?zāi)P屯ㄟ^在擬合公式中引入更多參數(shù)從而為更細分類的場景提供計算模型,典型的有Standard Propagation Model(SPM)[9]。
經(jīng)典計算方法在處理復(fù)雜數(shù)據(jù)和捕獲特征之間的內(nèi)在聯(lián)系方面還存在困難。近年來,隨著機器學(xué)習(xí)的發(fā)展,大數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)技術(shù)獲得了長足進步,并且在語音識別[10]、圖形圖像處理[11-13]、自然語言處理[14]和模式識別 [15-16]領(lǐng)域獲得了不錯效果。正是因為在應(yīng)用過程中的高實用性以及低復(fù)雜性使其與無線通信的緊密結(jié)合成為可能。
為了快速準確實現(xiàn)無線傳播模型的預(yù)測效果,提高新環(huán)境下RSRP精度的準確預(yù)測,本文構(gòu)建了一種基于集成學(xué)習(xí)方法極端梯度提升(XGBoost)的無線信號預(yù)測模型。本文運用數(shù)據(jù)清洗、特征設(shè)計和選擇方法獲取約38萬條數(shù)據(jù)進行模型訓(xùn)練,選取10個相關(guān)指標作為參數(shù)特征。然后通過對特征的編碼、歸一化操作,將特征融合到XGBoost模型中進行訓(xùn)練。該模型采用5折交叉驗證對模型評估并優(yōu)化參數(shù),最后調(diào)用模型參數(shù)預(yù)測新小區(qū)下的RSRP。在相同數(shù)據(jù)集下,與線性回歸方法、長短記憶網(wǎng)絡(luò)(LSTM)方法相比,該模型的擬合效果和預(yù)測性能整體較好,魯棒性更強。
1 集成學(xué)習(xí)方法XGBoost
由集成學(xué)習(xí)方法可以推廣出XGBoost的預(yù)測模型[17],如式(1)所示。
2.2 特征工程
本文選擇決策樹搜索算法用于特征產(chǎn)生過程[18],主要步驟如下:首先構(gòu)建根節(jié)點,將從原始數(shù)據(jù)集提取出的所有特征放在根節(jié)點,選出一個最優(yōu)特征;然后根據(jù)選中的特征將原始數(shù)據(jù)集分成子集,使得每一個子集得到最好的結(jié)果。此時,如果在子集中能夠獲得較好結(jié)果,就將子集分到相應(yīng)的葉子節(jié)點上去。本文選擇的特征參數(shù)如表1所示。
對原始數(shù)據(jù)集進行異常值清洗,本文通過柵格(X,Y)上的地物類型索引(Clutter Index)與柵格(X,Y)上的建筑物高度(Building Height)的相互關(guān)系進行第一步初步處理。表2中列舉了一部分異常數(shù)據(jù)值,小區(qū)發(fā)射機的一些屬性字段省略,例如當?shù)匚锼饕秊?0時,其對應(yīng)的建筑物高度應(yīng)該大于60m,則小于或等于60m的數(shù)據(jù)即為異常數(shù)據(jù)。
數(shù)據(jù)處理除上述方法外,本文通過觀察數(shù)據(jù)集發(fā)現(xiàn)同一個小區(qū)的發(fā)射機相關(guān)屬性信息大體一致,因此可以根據(jù)Altitude、Building Height、Clutter Index 3個特征先實現(xiàn)分組再進行數(shù)據(jù)合并,同時對相應(yīng)的RSRP與Distance取其均值。本文將加粗標示的數(shù)據(jù)進行合并操作,如表3所示。
2.3 模型框架與構(gòu)建
在無線信號傳播過程中,站點工程參數(shù)和目標地理環(huán)境等因素對信號接收強弱有很大影響。為了更好地擬合不同特征參數(shù)與RSRP之間的關(guān)系,尋找設(shè)計合理的特征預(yù)測新環(huán)境下的RSRP,本文搭建了基于XGBoost的算法模型。該算法在每一輪訓(xùn)練結(jié)束后,會降低被正確分類的訓(xùn)練樣本權(quán)重,增大分類錯誤的樣本權(quán)重。多次訓(xùn)練后,一些被錯誤分類的訓(xùn)練樣本會獲得更多關(guān)注,而正確的訓(xùn)練樣本權(quán)重趨近于0,得到多個簡單的分類器,通過對這些分類器進行組合,得到一個最終模型。
考慮到輸入特征數(shù)據(jù)的度量標準不統(tǒng)一,本文使用最大—最小標準化對原始數(shù)據(jù)進行線性變換,如式(12)所示。
其中,minA和maxA分別是屬性A的最大值、最小值,x是A的一個原始值,通過最大—最小標準化映射到區(qū)間[0, 1]的值為[x]。
本文算法流程如圖2所示。首先根據(jù)地物類型名稱編號的含義清洗掉200萬條數(shù)據(jù),再通過對格柵上的海拔高度(Alitude)、小區(qū)站點格柵的地物類索引(Clutter_Index)、格柵上建筑物高度(Building_Height)3個條件進行分組合并數(shù)據(jù),從而得到最終訓(xùn)練數(shù)據(jù)集38萬條。然后選取工程參數(shù)、地圖數(shù)據(jù)和兩者計算的距離共8個指標作為特征,將兩個地物類型索引進行單熱編碼后融合所有特征放入XGBoost模型進行訓(xùn)練預(yù)測。并且,使用5折交叉驗證優(yōu)化模型參數(shù):先選擇較高的學(xué)習(xí)速率(Learning Rate),再選擇對應(yīng)于此學(xué)習(xí)速率的理想決策樹數(shù)量。XGBoost有一個很有用的函數(shù)“cv”,該函數(shù)可以在每一次迭代中使用交叉驗證,并返回理想的決策樹數(shù)量。對于給定的學(xué)習(xí)速率和決策樹數(shù)量,進行決策樹特定參數(shù)調(diào)優(yōu)(max_depth, min_child_weight, gamma, subsample, colsample_bytree)。在確定一棵樹的過程中,可以選擇不同參數(shù),進行xgboost的正則化參數(shù)調(diào)優(yōu)(lambda, alpha)。這些參數(shù)可以降低模型復(fù)雜度,從而提高模型表現(xiàn),最后降低學(xué)習(xí)速率,確定理想?yún)?shù)。最終參數(shù)為樹的深度、學(xué)習(xí)速率、迭代次數(shù)和損失函數(shù)(max_depth=6,learning_rate=0.01,n_estimators=160,objective=“reg:logistic”)。在新的小區(qū)環(huán)境下可以調(diào)用保存的模型直接預(yù)測RSRP值。
2.4 實驗結(jié)果與分析
本文數(shù)據(jù)集需要先自行處理和劃分,然后將其應(yīng)用于算法模型訓(xùn)練及預(yù)測。最終清洗得到38萬條數(shù)據(jù),對其進行可視化,結(jié)果如表4所示??梢钥闯?,距離的標準差最大,距離值震蕩最大。每個小區(qū)內(nèi)的參數(shù)大多數(shù)都相同,不同小區(qū)數(shù)據(jù)集之間才會有很大差異,因此通過觀察這些參數(shù)特征,直觀上距離是主要影響因素。本文將在兩個新的小區(qū)112501和115001預(yù)測RSRP,編號112501小區(qū)測試集有4 548個樣本,編號115001小區(qū)測試集4 463個樣本。
本文基于XGBoost算法模型的特征提取如圖3所示。圖中f0~f9代表依次輸入到表中的特征參數(shù)(如表4所示),條形圖上的數(shù)據(jù)代表重要特征個數(shù)。由圖3可以看出,距離(Distance)是影響RSRP預(yù)測的主要因素,這與當初預(yù)想的相同。此外,兩個小區(qū)預(yù)測后表現(xiàn)的特征重要性先后順序沒變,可以看出本文模型較穩(wěn)定,不會劇烈變化,由此可以推斷該模型泛化能力和準確率均較好。
為驗證基于XGBoost的無線信號預(yù)測模型有更好的泛化性能和在預(yù)測結(jié)果上的優(yōu)勢,本文采用線性回歸[19]和基于LSTM方法[20]進行對比。線性回歸就是擬合一個線性函數(shù),傳統(tǒng)的線性回歸會受因子多樣性和不確定性影響,大量數(shù)據(jù)下表現(xiàn)不佳。而LSTM可以模擬數(shù)據(jù)之間的依賴關(guān)系,本文特征之間沒有特別的時序關(guān)系,故效果會存在局限。本文在清洗出的相同數(shù)據(jù)集上進行訓(xùn)練測試,在表4中對比了LSTM、線性回歸、本文使用的XGBoost模型3種方法的RMSE。結(jié)果表明,本文使用的XGBoost在不同交叉驗證迭代上的訓(xùn)練集的RMSE均最優(yōu)。本文XGBoost在所有網(wǎng)絡(luò)結(jié)構(gòu)中表現(xiàn)最好,因為本文網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地決策出比較重要的特征,懲罰選取的相對次要的特征參數(shù)。
3 結(jié)語
不同環(huán)境因素下信號會受到相應(yīng)干擾,本文算法模型能夠合理利用選擇的特征預(yù)測RSRP并減少干擾,所使用的特征和輸出數(shù)據(jù)有一定可靠性。并且,本文構(gòu)建的基于XGBoost的無線信號預(yù)測模型,在與LSTM和線性回歸方法的比較中表現(xiàn)最優(yōu)。通過對數(shù)據(jù)可視化和實驗結(jié)果的特征重要性分析發(fā)現(xiàn),該模型能夠較為精準并穩(wěn)定地預(yù)測出各小區(qū)的RSRP。同時,本文研究還存在一些不足和改進空間:數(shù)據(jù)合并時對Distance和RSRP取均值可能影響差值較大的數(shù)據(jù);模型還能進一步優(yōu)化,模型融合和距離單調(diào)性都是需要探索的方向,因此未來可考慮融合規(guī)則和特征的特性。
參考文獻:
[1] 楊光, 陳錦浩. 5G移動通信系統(tǒng)的傳播模型研究[J]. 移動通信, 2018, 42(10): 32-37.
[2] 韋再雪,張濤,楊大成. 一種無線網(wǎng)絡(luò)規(guī)劃中的雙斜率傳播模型校正算法[J]. 電子與信息學(xué)報, 2007, 29(10): 132-135.
[3] 朱江,王婷婷,宋永輝,等. 無線網(wǎng)絡(luò)中基于深度Q學(xué)習(xí)的傳輸調(diào)度方案[J]. 通信學(xué)報,2018(4):35-44.
[4] 劉欣. 基于GSM無線網(wǎng)絡(luò)傳播模型的基站發(fā)射功率開場測試研究[J]. 中國無線電, 2014(10): 54-55.
[5] VERMA R, SAINI G. Statistical tuning of Cost-231 Hata model at 1.8 GHz over dense urban areas of Ghaziabad[C]. New Delhi: International Conference on Computing for Sustainable Global Development,2016.
[6] WU H, ZHANG N, WEI Z, et al. Content-aware cooperative transmission in HetNets with consideration of base station height[J]. IEEE Transactions on Vehicular Technology, 2018,67(7): 6048-6062.
[7] 張延華, 段占云, 沈蘭蓀, 等. Okumura-Hata傳播預(yù)測模型的可視化仿真研究[J].電波科學(xué)學(xué)報, 2001,16(1): 89-92.
[8] 方明. Vlcano模型的分析及應(yīng)用[D].上海:復(fù)旦大學(xué), 2008.
[9] LI H, WEI F, FENG X, et al. On improvement to the Shock Propagation Model (SPM) applied to interplanetary shock transit time forecasting[J]. Journal of Geophysical Research Space Physics, 2008, 113(A9):A09101.
[10] HOSHIMI M, NIYADA K. Method and apparatus for speech recognition[J]. Journal of the Acoustical Society of America,2018,109(3): 864.
[11] 白琮, 黃玲, 陳佳楠, 等. 面向大規(guī)模圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化[J].軟件學(xué)報,2018,29(4):137-146.
[12] 高如新, 李雪穎. 雙邊濾波的改進高光去除[J].中國圖象圖形學(xué)報,2018, 23(1):9-17.
[13] PASQUINI C, BOATO G, BOHME R. Teaching digital signal processing with a challenge on image forensics [SP Education][J]. IEEE Signal Processing Magazine, 2019, 36(2): 101-109.
[14] ONE K,KJELL K,GARCIA D, et al. Semantic measures: Using natural language processing to measure, differentiate, and describe psychological constructs[J]. Psychological Methods, 2018, 24(1): 92-115.
[15] SELVACHANDRAN G, GARG H, ALAROUD M, et al. Similarity measure of complex vague soft sets and its application to pattern recognition[J]. International Journal of Fuzzy Systems,2018, 20(6): 1901-1914.
[16] 聶棟棟, 賀悅悅, 馬勤勇. 基于PCA_LDA和協(xié)同表示分類的人臉識別算法[J]. 燕山大學(xué)學(xué)報, 2019,43(2):86-91.
[17] CHEN T, HE T, BENESTY M. XGBoost: extreme gradient boosting[R]. Package Version 0.4-2,2015,.
[18] 陳輝林, 夏道勛. 基于CART決策樹數(shù)據(jù)挖掘算法的應(yīng)用研究[J]. 煤炭技術(shù), 2011, 30(10): 164-166.
[19] 喻一凡, 曾道建, 李峰, 等. 線性回歸的渡船精準定位方法研究[J]. 小型微型計算機系統(tǒng), 2018, 39(7): 234-241.
[20] HOCHREITER S,SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735-1780.
(責(zé)任編輯:孫 娟)