王 海,翁晨傲,李 克,駱 曦
(1.北京聯(lián)合大學(xué)智慧城市學(xué)院,北京 100101;2.東南大學(xué)計算機科學(xué)與工程學(xué)院,南京 211189)
電信運營商在運營和維護網(wǎng)絡(luò)時,通常會使用基站信息表(Base Station Almanac,BSA)作為基礎(chǔ)核心維護數(shù)據(jù)。BSA 指一個小區(qū)信息庫,其中包含一個網(wǎng)絡(luò)下的所有小區(qū)基本參數(shù),例如小區(qū)所屬基站類型、基站所在位置、小區(qū)天線參數(shù)(天線方向角、傾角等)和其他必要參數(shù)。其中,天線參數(shù)的準(zhǔn)確設(shè)置對于保障基站覆蓋質(zhì)量具有重要作用。
BSA 中的數(shù)據(jù)主要來自運營商,且不對外開放,因此,很難被第三方獲取。同時,BSA 是動態(tài)變化的,運營商優(yōu)化和擴容網(wǎng)絡(luò)的過程中會不斷調(diào)整BSA 中的參數(shù)。目前,天線參數(shù)采集主要依靠人工上站測量,測量準(zhǔn)確度、效率以及實時性等受人為因素影響較大。隨著5G 的商用部署,網(wǎng)絡(luò)規(guī)模進一步擴大,人工測量的方式局限性較大,迫切需要一種自動化方式進行參數(shù)采集與管理。
本文提出一種基于軟間隔支持向量機(Support Vector Machine,SVM)的基站扇區(qū)方向角檢測方法。以從海量用戶終端上采集到的移動網(wǎng)絡(luò)信息為基礎(chǔ),通過機器學(xué)習(xí)的方法準(zhǔn)確估計基站天線的方向角,從而提高無線網(wǎng)絡(luò)的運維效率。
BSA 一般包括站名、小區(qū)名、站址經(jīng)緯度、小區(qū)標(biāo)識、站型、方向角、俯仰角、站高和覆蓋場景等信息,運營商需要持續(xù)獲取基站信息以更新BSA,同時許多第三方機構(gòu)也需要這些信息來分析用戶的行為以及提供一些個性化的服務(wù)。因此,如何獲取基站工參是一個重要的研究課題。
傳統(tǒng)的BSA 數(shù)據(jù)是由運營商相關(guān)人員人工采集和上報,這種方式采集數(shù)據(jù)的步驟繁瑣,會不可避免地產(chǎn)生測量誤差,進而導(dǎo)致數(shù)據(jù)錯誤,此外,BSA 動態(tài)變化,逐級匯總數(shù)據(jù)導(dǎo)致數(shù)據(jù)的時效性減弱。
BSA 的扇區(qū)方向角、下傾角和站址經(jīng)緯度等工程參數(shù)是影響網(wǎng)絡(luò)覆蓋質(zhì)量的關(guān)鍵。因此,運營商投入了大量的人力和物力來采集與優(yōu)化這些關(guān)鍵工參。
目前,扇區(qū)方向角的檢測主要采取人工現(xiàn)場逐站核查或在天線平臺加裝天饋測試儀表測量的方式,其過程耗時耗力、成本高昂且效率低下。因此,一些研究人員嘗試?yán)闷渌麛?shù)據(jù)源進行非現(xiàn)場方式的方向角估計。
文獻[1]提出基于高斯分布的天線最佳方向角估計算法。首先,從數(shù)據(jù)采集平臺提取終端上報的測量報告(Measurement Report,MR)數(shù)據(jù),由于MR數(shù)據(jù)通常不包含樣本經(jīng)緯度信息,因此需要利用三角測量法定位樣本位置;然后,求解各樣本點與基站的距離以及相對于基站的角度;最后,根據(jù)高斯分布統(tǒng)計并確定扇區(qū)的最佳方向角估計結(jié)果。
文獻[2]基于MR 數(shù)據(jù),采用線性回歸方法估計扇區(qū)方向角。基于傳播模型估算采樣點到基站的距離,根據(jù)樣本分布將覆蓋區(qū)域進行柵格化,取各柵格內(nèi)場強最強的若干采樣點計算其均值,篩選出大于均值的樣本進行線性回歸分析,將不同柵格內(nèi)的樣本擬合成一條直線,從而求解方向角。
高斯方法的假設(shè)前提是天線的部署會對準(zhǔn)用戶主要分布區(qū)域,在扇區(qū)中心方向上的用戶樣本密度最高,這一假設(shè)實際上會因為地理限制(如大型建筑、道路和水面等)而受到影響,因此,該方法實際上會對樣本的空間分布非常敏感從而導(dǎo)致較大誤差。此外,上述方法多基于MR 數(shù)據(jù),而MR 數(shù)據(jù)中采樣點缺乏精確定位信息,從而影響估計結(jié)果的準(zhǔn)確性。
文獻[3]對基于高斯分布的估計方法進行改進,提出一種基于徑向柵格化的方向角估計方法。
隨著智能終端的快速發(fā)展,基于眾包的終端側(cè)測量方法被廣泛研究和應(yīng)用[4-5]。文獻[4]提出這類測量方法,并將其稱為移動眾包感知(Mobile Crowdsensing,MCS),文中將其又進一步分為參與式感知和機會感知兩類。文獻[6]將這類方法稱為群智感知計算。MCS數(shù)據(jù)采集和分析方法[7]在網(wǎng)絡(luò)運維、交通流量控制和大氣環(huán)境質(zhì)量分析等眾多領(lǐng)域都得到了成功應(yīng)用[8-10]。
針對網(wǎng)絡(luò)側(cè)MR 數(shù)據(jù)應(yīng)用于方向角檢測時存在的不足,本文利用MCS 數(shù)據(jù)研究基于機器學(xué)習(xí)的扇區(qū)方向角檢測算法。將通過4G 網(wǎng)絡(luò)MCS 覆蓋數(shù)據(jù)采集平臺所獲得的數(shù)據(jù)作為研究對象,該平臺通過終端系統(tǒng)提供的應(yīng)用程序接口采集用戶的網(wǎng)絡(luò)覆蓋采樣數(shù)據(jù),并在預(yù)先設(shè)定的條件下上傳到采集平臺,采集行為不會干擾用戶使用。采樣數(shù)據(jù)主要包括TAC、eNBID、cellID、經(jīng)度、緯度、場強和信號質(zhì)量等工參信息。
在4G 和5G 移動網(wǎng)絡(luò)中,標(biāo)準(zhǔn)的室外宏基站通常包括3 個扇區(qū)的定向基站,每個扇區(qū)分別采用一幅定向天線覆蓋120°的范圍。在網(wǎng)絡(luò)建設(shè)及規(guī)劃中,一般嚴(yán)格按照設(shè)計參數(shù)對天線的方向角進行設(shè)置和調(diào)整,如果在調(diào)整過程中有偏差,會造成弱覆蓋、重疊覆蓋或越區(qū)覆蓋等問題,從而帶來嚴(yán)重的信號干擾并影響用戶的業(yè)務(wù)使用。
對于定向站小區(qū),以其方向角為中心的扇形區(qū)域可定義為其覆蓋區(qū)域。因為天線的方向圖通常是軸對稱的,方向角位于水平方向圖的對稱軸上,所以扇區(qū)方向角的估計問題可以轉(zhuǎn)化為尋找相鄰小區(qū)邊界的問題。
為了保證用戶在網(wǎng)絡(luò)覆蓋范圍內(nèi)移動時的業(yè)務(wù)連續(xù)性,相鄰小區(qū)的覆蓋邊界需要有一定程度的重合以支持小區(qū)間的切換,此外,電磁波在空間中的傳播隨距離衰減但并不存在硬邊界,相鄰扇區(qū)的覆蓋區(qū)域邊界在實際情況下是一個線性不可分的模糊邊界,無法通過傳統(tǒng)的硬邊界分類器來獲取小區(qū)邊界。因此,方向角估計的核心問題就是尋找最優(yōu)的軟分類邊界。
作為統(tǒng)計學(xué)習(xí)的經(jīng)典算法,VAPNIK 提出的SVM 在解決線性可分的二分類問題時具有優(yōu)異的性能[11]。對于線性不可分問題,文獻[12-13]在SVM的基礎(chǔ)上,通過引入松弛變量和懲罰項提出一種軟間隔SVM。后續(xù)有研究人員針對軟間隔SVM 的核松弛變量、損失函數(shù)和可解釋性等方面存在的不足進行改進[14-16],并在巖礦石分類[17]、乳腺癌分型診斷[18]和建筑物抗震性能評估[19]等多個領(lǐng)域進行應(yīng)用。
本文基于軟間隔SVM 研究方向角估計問題。設(shè)同站下的任意2 個相鄰小區(qū)S1和S2,分別有N1和N2個樣本,這N1+N2=N個樣本構(gòu)成一個訓(xùn)練樣本集D={(x1,y1),(x2,y2),…,(xN,yN)},y∈{-1, +1},其中,樣本的屬性字段僅保留經(jīng)度和緯度,即為2D 屬性空間。標(biāo)記字段取為該樣本所屬小區(qū),如果樣本來自小區(qū)C1,則標(biāo)記為+1,否則為-1。假設(shè)這2 個小區(qū)的邊界為線性可分,則其邊界即為能夠正確劃分上述訓(xùn)練樣本集中正例樣本和反例樣本的線性超平面方程,如下:
因為無線信號在開放空間中傳播的特性,相鄰小區(qū)的樣本會部分落在邊界的對側(cè),即并非所有樣本均滿足如下的約束條件:
所以小區(qū)邊界為軟間隔邊界。尋找最優(yōu)軟間隔劃分超平面即為尋找滿足式(3)的W、b和ξi最優(yōu)值:
式(3)中采用了hinge 損失函數(shù),ξi≥0 稱為松弛變量,其反映樣本違反約束條件的程度,ξi越大表示越寬容。C>0 為一個預(yù)定義的常數(shù),稱為懲罰項。從式(3)可以推斷出,當(dāng)ξi一定時,C越大,對數(shù)據(jù)點的容忍度越高,越不愿意放棄該樣本,相應(yīng)的決策邊界也越小。
此外,還需考慮的一個約束條件是對于共站的各扇區(qū),根據(jù)基站的實際部署方式,其兩兩扇區(qū)邊界均應(yīng)滿足通過基站站址x0的條件,則式(3)可重構(gòu)為:
在式(4)中,ξi就是針對第i個樣本點的分類損失,如果分類正確,則ξi是0。是總誤差,其值越小則代表對訓(xùn)練集的分類越精準(zhǔn)。原則上懲罰系數(shù)C可根據(jù)需要選擇任意正數(shù),C越大表示對于減小誤差的要求越高,甚至不惜使間隔減小,當(dāng)C趨于無窮大時,則不允許出現(xiàn)分類錯誤的樣本,即硬邊界SVM 問題通常會導(dǎo)致過擬合現(xiàn)象。
式(4)仍為一個凸二次規(guī)劃問題,可以直接使用通用優(yōu)化計算包求解,也可以將其轉(zhuǎn)換為對偶問題后利用一些高效算法(如SMO)進行快速求解。為式(4)中的每條約束引入拉格朗日乘子:αi≥0,βi≥0,γ≥0,則式(4)的拉格朗日函數(shù)為:
式(4)的對偶問題可表示為:
對于多扇區(qū)基站而言,本文要解決的問題實際上是多分類問題。SVM 本身是一個二值分類器,在處理多分類問題時,需要構(gòu)造合適的多類分類器。目前的多類分類器構(gòu)造方法主要有直接法[20]和間接法2 類。其中,間接法通過組合多個二分類器來實現(xiàn)多分類器,主要包括OVR(One-Versus-Rest)和OVO(One-Versus-One)2 種。OVO 方法的缺陷在于當(dāng)M越大時該方法需要越多的二分類器,兩者呈二次函數(shù)關(guān)系,當(dāng)M較大時,總訓(xùn)練時間和測試時間相對較長。
多扇區(qū)基站下的多邊界分類問題是OVO 方法的簡化形式,原因是其無需求解所有兩兩扇區(qū)的邊界,而要尋找同一基站下徑向相鄰的兩兩扇區(qū)邊界,即針對M扇區(qū)基站共需構(gòu)造M個二分類器即可。OVO 方法的分類器數(shù)量與OVR 方法相當(dāng),并且不會出現(xiàn)嚴(yán)重的樣本不平衡問題。
若同一基站中不同扇區(qū)下的采樣數(shù)據(jù)嚴(yán)重不均衡,則需要設(shè)置平衡C參數(shù),即對不同類別設(shè)置不同的懲罰系數(shù)C。設(shè)n個樣本x1,x2,…,xn對應(yīng)的標(biāo)簽分別為y1,y2,…,yn。假設(shè)存在標(biāo)簽為y={0,1}的2 類樣本,其中,有m個標(biāo)簽為1的樣本,其他n-m個樣本標(biāo)簽為0。如果給定平衡參數(shù),則通過y的值自動調(diào)整與輸入數(shù)據(jù)中類頻率成反比的權(quán)重,即:
某一類的輸入樣本數(shù)越多,其懲罰項越小,這樣就能有效緩解輸入樣本不均衡所帶來的學(xué)習(xí)偏移問題。
2.2.1 數(shù)據(jù)預(yù)處理
本文方法基于海量用戶終端上實際采集的數(shù)據(jù),具有數(shù)據(jù)量大、時空覆蓋范圍廣、能真實反映基站實際覆蓋等優(yōu)勢。但是,該方法也具有一致性差、定位精度偏低和受噪聲影響等缺點,對方向角估計產(chǎn)生干擾。因此,需要對原始數(shù)據(jù)進行預(yù)處理。首先,直接刪除關(guān)鍵參數(shù)缺失以及場強和信號質(zhì)量等指標(biāo)值溢出的采樣點;其次,同一基站下的采樣數(shù)據(jù)通過歐式距離過濾偏離值。具體地,對于采樣點的重復(fù)值、缺失值,通過添加約束條件來進行篩選。對于由定位錯誤導(dǎo)致采樣點位置偏移從而形成的孤立點,計算每個樣本xi=(xi1,xi2)與基站站址x0=(x01,x02)之間的距離di,若di大于判決門限Td,則該樣本為異常點,將其剔除。本文采用谷歌地圖的近似計算方法,如下:
其中,R=6 378 137 m 為地球半徑。
2.2.2 相鄰扇區(qū)邊界估算
從預(yù)處理后的網(wǎng)絡(luò)覆蓋采樣數(shù)據(jù)集中,根據(jù)eNBID 字段提取同一基站的全部有效采樣數(shù)據(jù),將該基站內(nèi)所有樣本點的經(jīng)、緯度作為屬性集,各樣本對應(yīng)的小區(qū)ID 作為標(biāo)記項。假設(shè)同一基站下有M個小區(qū)(順時針排列,依次記為C0~CM?1),利用2.1 節(jié)方法,通過OVO 線性內(nèi)核的SVM 訓(xùn)練后得到的線性邊界依次為Margin(Ci,Cmod(i+1,M)),i=0~(M?1),即:
圖1 所示為三扇區(qū)基站下經(jīng)過SVM 訓(xùn)練后得到的超平面(實線)及其對應(yīng)的最大間隔平行線(虛線),彩色效果見《計算機工程》官網(wǎng)HTML 版,下同。只需保留3 條過站址的射線,以站址為原點,采樣點數(shù)量較多的區(qū)域方向為射線方向,本文將該過程稱為確定邊界的矢量方向。
圖1 三扇區(qū)基站的SVM 超平面及最大間隔平行線Fig.1 SVM hyperplane and maximum interval parallel line of three sector base station
2.2.3 扇區(qū)方向角計算
在確定相鄰扇區(qū)邊界后,可根據(jù)過站址的邊界垂線兩側(cè)的樣本量分布來確定邊界矢量方向。設(shè)有任意2 個相鄰小區(qū)S1和S2,總樣本量為N,則邊界垂線兩側(cè)的樣本數(shù)Sup和Sdown分別為:
其中,Sup和Sdown取值較大的一側(cè)為邊界矢量V的方向。
取每個小區(qū)與其兩側(cè)相鄰小區(qū)間的邊界矢量間的夾角平分線作為該小區(qū)的張角,取該張角的等分矢量方向和正北方向的夾角為該小區(qū)的方向角。以LTE 網(wǎng)絡(luò)下的方向角估計為例,基于軟間隔SVM 的扇區(qū)方向角估計算法描述如下:
算法1基于軟間隔SVM 的扇區(qū)方向角估計算法
本文利用在上海LTE 網(wǎng)絡(luò)中通過MCS 方法采集的海量終端實測數(shù)據(jù)集,將所提方向角估計算法與高斯方法、徑向柵格化方法進行實驗對比。
為了更好地呈現(xiàn)軟間隔SVM 算法的效果,本文分別選取城區(qū)基站A 和郊區(qū)基站B 進行方向角估算分析,基站的具體信息如表1 所示,2 個基站均為標(biāo)準(zhǔn)的三扇區(qū)基站,樣本量分別為35 007 和74 576。
表1 2 個基站在BSA 中的基本信息Table 1 Basic information of two base stations in BSA
以基站A 為例,訓(xùn)練后所得各扇區(qū)之間的超平面及對應(yīng)的最大間隔平行線如圖2所示,進一步通過式(10)確定扇區(qū)邊界的矢量方向如圖3 所示。從中可以看出,經(jīng)過訓(xùn)練得到的邊界可以較好地區(qū)分各扇區(qū)。
圖2 基站A 各扇區(qū)之間的超平面及對應(yīng)的最大間隔平行線Fig.2 The hyperplane between the sectors of base station A and the corresponding parallel lines with maximum spacing
圖3 基站A 各扇區(qū)之間的矢量邊界Fig.3 Vector boundary between sectors of base station A
分別使用高斯方法、徑向柵格化方法和SVM 方法對以上基站的扇區(qū)方向角進行估計,城區(qū)和郊區(qū)的方向角估計結(jié)果分別如圖4 和圖5 所示,圖中紫色、綠色和紅色樣本點分別來自3 個扇區(qū),顏色深淺代表不同的場強值,黑色三角形為基站站址位置,虛線代表各扇區(qū)之間的實際邊界,綠色箭頭為真實扇區(qū)方向角,藍色、紅色和黃色箭頭分別代表徑向柵格化方法、軟間隔SVM方法和高斯方法對方向角的估計結(jié)果。
圖4 基站A 的方向角估計結(jié)果Fig.4 Azimuth estimation result of base station A
圖5 基站B 的方向角估計結(jié)果Fig.5 Azimuth estimation result of base station B
從圖4 和圖5 可以看出,徑向柵格化方法和軟間隔SVM 方法均表現(xiàn)出優(yōu)越的性能,方向角估計結(jié)果幾乎與實際方向角重合,而高斯方法主要指向最大樣本數(shù)的角度,造成了明顯的誤差。表2 所示為各方法估計的方向角值。從表2 可以看出,對于基站A,各方法對方向角估計的平均誤差從左到右依次為2.3°、6.0°和23.3°,對于基站B,各算法對方向角估計的平均誤差從左到右依次為5°、2.3°和15.3°,通過對比可知,徑向柵格化方法和軟間隔SVM 方法的性能均優(yōu)于高斯方法。
表2 3 種方法的方向角估計值Table 2 Azimuth estimation of three methods(°)
3.2.1 共站扇區(qū)樣本量分布不平衡的影響
由于周圍環(huán)境和數(shù)據(jù)采集時間不同,因此在實際樣本空間中,往往不同扇區(qū)下的樣本量存在較大差異,這會帶來較大誤差。因此,需要控制不同扇區(qū)樣本的權(quán)重,以達到最佳的分類效果。通過式(7)可對樣本不平衡的模型進行訓(xùn)練,并得到較好結(jié)果。以基站B 為例,圖6、圖7 分別為采用平衡C參數(shù)和不采用平衡C參數(shù)的估計結(jié)果,可以看出,紫色樣本小區(qū)與相鄰小區(qū)的邊界受樣本量影響較大,當(dāng)采用平衡C參數(shù)時,小區(qū)分類超平面向樣本量較多的一側(cè)偏移,從而有效降低了樣本量對分類邊界的影響。
圖6 未加入平衡C 參數(shù)的軟間隔分類邊界Fig.6 Soft-margin classification boundary without balanced C parameter
圖7 加入平衡C 參數(shù)的軟間隔分類邊界Fig.7 Soft-margin classification boundary with balanced C parameter
3.2.2 樣本量的影響
以基站B 為例,統(tǒng)計不同樣本量下各方法估算結(jié)果的平均誤差,結(jié)果如表3 所示,通過對比可以看出,隨著樣本量的降低,徑向柵格化方法性能顯著下降,高斯方法也有一定程度的下降,而SVM 方法能夠保持相對穩(wěn)定的準(zhǔn)確率,表明其具有較強的魯棒性。
表3 不同樣本量下3 種方法的方向角估計平均誤差Table 3 Average error of azimuth estimation of three methods under different sample sizes
本文進一步對多個基站下的各方法性能進行統(tǒng)計和對比。為了保證估計效果,統(tǒng)計各基站的樣本量,并剔除樣本量不足4 000 的基站,對符合條件的130 個基站利用3 種估計方法進行實驗對比,各基站的具體估計誤差CDF 分布如圖8 所示。從圖8 可以看出,SVM 方法、高斯方法和徑向柵格化方法的平均估計誤差分別為20.85°、29.03°和24.38°,SVM 方法的評估性能明顯優(yōu)于2 種對比方法。
圖8 多基站下3 種方法的方向角估計誤差CDF 分布Fig.8 CDF distribution of azimuth estimation error of three methods under multi base stations
基站扇區(qū)方向角作為基站信息表的關(guān)鍵參數(shù),對運營商的日常網(wǎng)絡(luò)運維與優(yōu)化具有重要意義。本文提出一種基于軟間隔SVM 的基站方向角估計方法,以提高方向角估計的準(zhǔn)確性,降低對數(shù)據(jù)量的依賴,避免傳統(tǒng)運維中由人工采集與管理數(shù)據(jù)所帶來的時延和誤差,并有效解決第三方無法獲得重要基站工參的問題。實驗結(jié)果表明,該方法通過少量樣本就能得到精度較高的方向角估計結(jié)果。下一步將利用采樣數(shù)據(jù)中除經(jīng)緯度之外的其他屬性信息,尤其是場強和信號質(zhì)量信息,在更高維的屬性空間中實現(xiàn)最優(yōu)邊界估計,從而對估計方法進行優(yōu)化,提高方向角的估計精度。