朱金榮,李 揚,鄧小穎,孫 燦
(揚州大學(xué)物理科學(xué)與技術(shù)學(xué)院,江蘇 揚州225002)
隨著5G網(wǎng)絡(luò)逐步發(fā)展,隨之而來的網(wǎng)絡(luò)規(guī)劃和基站鋪設(shè)問題逐漸被重視。為得到城市各小區(qū)內(nèi)網(wǎng)絡(luò)干擾和通信速率等重要指標(biāo),需要采集大量的工程數(shù)據(jù)模型及實際平均信號接收功率(Reference Signal Receiving Power,RSRP)擬合出無線傳播模型。傳統(tǒng)經(jīng)驗?zāi)P投际腔诮?jīng)驗數(shù)據(jù)同時結(jié)合不同的場景,修正公式中的環(huán)境因子獲得特定的擬合公式,其典型代表是Cost 231-Hata模型[1]。這類模型的參數(shù)易得,模型操作難度低,但未考慮城區(qū)中的建筑物阻擋、地貌環(huán)境以及街道分布等因素的影響,因而精確度并不十分理想。
近年來,機器學(xué)習(xí)驅(qū)動的數(shù)據(jù)挖掘技術(shù)獲得了長足的進步,其高實時性以及低復(fù)雜度使得其與無線通信的結(jié)合成為了可能。針對存在的問題,提出基于大數(shù)據(jù)的移動信號傳播模型。數(shù)據(jù)包括基站的工程參數(shù)數(shù)據(jù),地圖數(shù)據(jù)以及真實測得的信號功率值。數(shù)據(jù)覆蓋面廣,因素考慮全面。對數(shù)據(jù)進行充分挖掘,研究影響標(biāo)簽的重要因素,模型采用16層的神經(jīng)網(wǎng)絡(luò)進行仿真計算,深度足夠滿足數(shù)據(jù)內(nèi)在的復(fù)雜映射關(guān)系。實驗結(jié)果表明,建立的模型能有效適應(yīng)各種場景環(huán)境,精確度優(yōu)于傳統(tǒng)經(jīng)驗?zāi)P汀?/p>
移動基站發(fā)射的信號是以電磁波的形式在空間中傳播的,發(fā)射機發(fā)射的無線信號,經(jīng)信道傳輸后到達接收機的天線信號功率表達式如式(1)所示[2]
(1)
其中,r(t)為接收機接收到的信號,Pr為接收端的功率(dBm)。接收端的信號功率值與傳播損耗的關(guān)系如式(2)所示。
PL=Pt-Pr
(2)
式中PL為信號在傳播過程中產(chǎn)生的損耗(dBm),Pt為基站發(fā)射功率,Pr是接收端的信號功率值(RSRP)。因而研究信號的傳播模型的實質(zhì)是計算不同場景下的信號傳播過程中產(chǎn)生的損耗值。
信號在傳播時受多種因素的影響,使得電磁波在從發(fā)射機到達接收機的過程中不是沿單一的路徑傳播,而存在多重信號衰減稱為信號的傳播損耗:由陰影效應(yīng)引起的損耗,由傳輸距離引起的路徑損耗,由多徑傳播引起的損耗等[3]。每條信號的傳播過程具有唯一性,原則上說,一個地區(qū)對應(yīng)一個特定的傳播模型。
總數(shù)據(jù)集共包含4000個小區(qū)的csv文件,每個文件代表一個小區(qū)的數(shù)據(jù),每個小區(qū)有其對應(yīng)的基站。為了便于處理,將小區(qū)的平面圖劃分為5m*5m的柵格,每個柵格的數(shù)據(jù)就生成一個樣本。每個單個樣本用17個屬性和一個標(biāo)簽值來描述。屬性包括:小區(qū)編號,基站所在位置坐標(biāo),基站所在位置海拔高度,基站天線的有效高度,基站周圍建筑物類型,接收點柵格所在位置坐標(biāo),柵格周圍建筑群高度以及地物類型。樣本的標(biāo)簽值為每個柵格實際測得的平均信號功率值。
將數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分,將訓(xùn)練集數(shù)據(jù)進行特征構(gòu)建,采用機器學(xué)習(xí)方法搭建模型,基于訓(xùn)練數(shù)據(jù)計算得到RSRP的預(yù)測值,利用梯度下降法迭代參數(shù)更新網(wǎng)絡(luò)參數(shù)和權(quán)重。最后將訓(xùn)練集數(shù)據(jù)輸入,得到模型的精度評估。因此整個建模過程是基于大數(shù)據(jù)的回歸預(yù)測分析。系統(tǒng)的全部流程如圖1所示。
圖1 系統(tǒng)流程圖
數(shù)據(jù)的精細程度會直接影響模型的好壞,因此對4000個小區(qū)的共1200萬條大數(shù)據(jù)進行預(yù)處理。
樣本中多處屬性是由文本文字描述,且不可丟棄,如地物類型屬性中海洋、湖泊、濕地等屬于非結(jié)構(gòu)化數(shù)據(jù),后期難以進行數(shù)據(jù)挖取特征的工作[4]。此類地形特征數(shù)共19個,選用5位二進制對其進行編碼,如表1所示。
表1 地貌類型數(shù)據(jù)編碼
數(shù)據(jù)清洗包括刪除錯誤值,剔除重復(fù)值,填補缺失值。刪除錯誤值主要針對邏輯上有
錯誤的數(shù)據(jù),減少不必要的干擾[5]。剔除重復(fù)值可以減少模型的計算量,降低成本。填補缺失值的方法包括均值填補和中值填補,實驗證明,采用中值填補的方式更利于最終模型的性能。
方差過濾,同一列屬性的數(shù)據(jù)中,如果方差為0,則認(rèn)為這組數(shù)據(jù)的波動幅度為0,即該屬性對最終模型沒有意義,可以舍去。
數(shù)據(jù)的無量綱化,構(gòu)建數(shù)據(jù)的特征前,需要對其進行無量綱化處理,主要是解決不同量綱屬性對后期輸入模型的過程中產(chǎn)生的差異性。實驗證明,在機器學(xué)習(xí)中,數(shù)據(jù)的無量綱化會使得神經(jīng)網(wǎng)絡(luò)中的代價函數(shù)會以球形輪廓的方式呈現(xiàn),更便于求得最小值,提升模型的運算速度[6]。
特征工程主要是將原始樣本的屬性整合或刪除,找到最能代表標(biāo)簽值的一個或多個特征,避免將所有17個屬性都輸入模型進行訓(xùn)練的情況。
在自由空間中,即傳播過程無環(huán)境因素影響,產(chǎn)生的損耗如式(3)所示[7]
PL=32.44+20logd+20logf
(3)
可知信號傳播的損耗PL與發(fā)射頻率f以及傳播距離d的對應(yīng)log值成線性關(guān)系。
圖2是小區(qū)的三維場景在二維平面的投影,根據(jù)電磁波傳播理論,發(fā)射機與接收機的相對高度在很大程度上決定了信號的傳播路徑。
圖2 發(fā)射機與接收機的幾何圖形
由圖2計算得Δhv的公式如(4)式所示
tan(θMD+θED+h0)
(4)
其中:hb為發(fā)射機高度(m),hc為發(fā)射機站點所在海拔高度(m),h0為接收位置海拔高度(m)。
此外根據(jù)無線通信理論總結(jié)出以下皆為影響信號衰減因素:發(fā)射機的有效高度(hb)、接收機天線的有效高度(hr)、發(fā)射與接收天線所在地的地物類型、發(fā)射機周圍建筑物的高度(hd)以及柵格所在建筑物的高度(he)。
特征選擇是從原始數(shù)據(jù)中挑選出對模型搭建有益處的屬性,一方面為了消除冗余,避免最初的17個屬性全部輸入網(wǎng)絡(luò)的結(jié)果;另一方面挑選出能夠代表標(biāo)簽值的特征,優(yōu)化模型訓(xùn)練過程[8]。
針對單個小區(qū)具體分析數(shù)據(jù)特征與RSRP值的關(guān)系,4000個小區(qū)共1200萬條數(shù)據(jù),采用Person相關(guān)法兩兩計算相關(guān)性,計算公式如式(5)所示
(5)
其中x和y是需要求其相關(guān)性的兩個變量,n為樣本數(shù)。運用以上公式將特征進行相關(guān)性分析降序排列得出的結(jié)果如表2所示。
表2 特征的相關(guān)性排序
表中數(shù)值大小表明相關(guān)程度的高度,數(shù)值正負表明正負相關(guān)。鏈路距離(d)與信號線相對高度Δhv.的相關(guān)性接近于1,因此選擇舍去其一,保留鏈路距離d的特征。最終選擇相關(guān)性最大的前7個特征,包括柵格海拔高度,柵格建筑物高度,柵格所在地物類型,基站載波頻率,發(fā)射機所在柵格地物類型以及基站的海拔高度作為模型的輸入。
考慮到模型輸入的數(shù)據(jù)量大,且自變量與因變量之間的映射關(guān)系復(fù)雜,選擇了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)建立有監(jiān)督的回歸模型。
DNN也稱多層感知機,比單層感知機具有更多的參數(shù),更強的刻畫能力,可以用于描述更加復(fù)雜的問題。網(wǎng)絡(luò)總共包括輸入層、隱藏層和輸出層。輸入層為上文總結(jié)出的7個特征:鏈路距離,接收信號位置海拔高度,柵格建筑物高度,柵格所在地物類型等,因此神經(jīng)網(wǎng)絡(luò)的輸入層節(jié)點數(shù)為7。隱藏層是每個特征所占的權(quán)重(w)加上偏置(b),增加隱藏層數(shù)可以優(yōu)化網(wǎng)絡(luò)訓(xùn)練,但也極易出現(xiàn)“過擬合”的情形,綜合網(wǎng)絡(luò)性能考慮,采用了16層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)[9]。隱藏層的節(jié)點數(shù),要在具備處理信息能力的同時降低計算量,在此采用經(jīng)驗公式來確定數(shù)目。
(6)
其中a表示輸入層的節(jié)點數(shù),n表示當(dāng)前輸入層的節(jié)點數(shù),n表示輸入層的節(jié)點數(shù),c為置于1-10之間的常數(shù)。因為輸入節(jié)點即為上文構(gòu)造的特征數(shù),則式(0)中的a即為特征工程中的維度m,式(6)演變?yōu)槭?7)。
(7)
輸出層節(jié)點數(shù)為1,即為待測數(shù)據(jù)輸入網(wǎng)絡(luò)求解出的預(yù)測RSRP值。完整的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
DNN網(wǎng)絡(luò)的每一層都是全連接的,其每層的原理都是線性的,如式(8)所示。為了增加網(wǎng)非線性,使得每次的計算結(jié)果得以保留加上一個激活函數(shù)σ(z)如式(9)所示。
z=∑wixi+b
(8)
(9)
在Linux系統(tǒng)下運用Python語言,搭建DNN網(wǎng)絡(luò),參數(shù)設(shè)置為:隱含層節(jié)點數(shù)25,學(xué)習(xí)率(learning rate)0.001,迭代次數(shù)10000,訓(xùn)練集參數(shù)(training set)設(shè)置為100,批處理參數(shù)(batch size)設(shè)置200。在完成數(shù)據(jù)清洗和特征工程的步驟以及神經(jīng)網(wǎng)絡(luò)的初步構(gòu)建以后,將樣本數(shù)據(jù)集劃分為8:2訓(xùn)練集與測試集的比例輸入模型進行訓(xùn)練。
訓(xùn)練過程中通過梯度下降算法實現(xiàn)對權(quán)重(w)、偏置(b)的調(diào)整,可以加快模型收斂速度,提高算法的準(zhǔn)確度[10]。原理如式(10)所示。
(10)
其中w是當(dāng)前權(quán)重,?為學(xué)習(xí)率,loss成本函數(shù),wnew是通過梯度下降法更新后的權(quán)重。loss函數(shù)不斷收斂到達一個閾值時表明神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成。
在移動通信的領(lǐng)域內(nèi),良好的弱覆蓋率(Poor coverage recognition rate,PCRR)是保障網(wǎng)絡(luò)質(zhì)量的前提。在本模型中的弱覆蓋判決門限定義為RSRP值低于-103dBm。當(dāng)前LTE的覆蓋考核指標(biāo)的公式如式(11)所示。
(11)
定義學(xué)習(xí)函數(shù)為預(yù)測值與實際值之間的均方誤差根函數(shù)(Root Mean Square Error,MSE),具體計算公式如式(12)所示。
(12)
其中P(i)為樣本數(shù)據(jù)的實測值,(i)為經(jīng)模型計算所得預(yù)測值,N為樣本個數(shù)。將20%數(shù)據(jù)即800個小區(qū)用于檢測模型,以小區(qū)為數(shù)據(jù)輸入單位進行模型測試。選取某小區(qū)200個樣本數(shù)據(jù)進行預(yù)測值與真實值的對比如圖4所示。
圖4 200組數(shù)據(jù)的真實值與預(yù)測值擬合情況
本文將特征構(gòu)建、皮爾森相關(guān)性分析和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合對移動信號的傳播損耗進行建模仿真,得出以下結(jié)論:
1)將各個特征進行相關(guān)性分析,得到發(fā)射點與接收點的鏈路距離,接收點海拔高度以及建筑物高度三個因素為影響信號傳播的主要因素,接收點所在地物類型,發(fā)射機載波頻率,發(fā)射機所在柵格地物類型以及基站的海拔高度等為次要因素。
2)由5.2節(jié)可以看出,模型計算出的RSRP預(yù)測值表現(xiàn)出與真實值相似的跟隨性,測試集輸入的最終均方根得分為9.87,相比于傳統(tǒng)cost-231Hata模型誤差在12左右有了一定的提高;每個小區(qū)的網(wǎng)絡(luò)覆蓋率都達到閾值標(biāo)準(zhǔn),小區(qū)平均覆蓋率為98.24%,表明該神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確度較高,預(yù)測效果相對較好。
但本文將所有的特征類型籠統(tǒng)地輸入網(wǎng)絡(luò)擬合,沒有針對性地深入處理,下一步計劃融合其它算法采用集成學(xué)習(xí)的方式建立更高精度的模型。