李 煒,王少軒
(1.陜西國(guó)防工業(yè)職業(yè)技術(shù)學(xué)院電子信息學(xué)院,西安 710300;2.加泰羅尼亞理工大學(xué)計(jì)算機(jī)學(xué)院,巴塞羅那 08034)
隨著LTE技術(shù)的廣泛應(yīng)用,為了給用戶提供優(yōu)質(zhì)服務(wù),電信運(yùn)營(yíng)商面臨著處理大量網(wǎng)絡(luò)數(shù)據(jù)的需要。如何快速準(zhǔn)確分析不同小區(qū)的狀態(tài)、評(píng)估小區(qū)的性能,已成為運(yùn)營(yíng)商首要關(guān)注的問(wèn)題[1]。通常,4G/LTE蜂窩小區(qū)網(wǎng)絡(luò)性能可以用多個(gè)不同的特征來(lái)表征,數(shù)據(jù)挖掘分析技術(shù)為蜂窩小區(qū)大型數(shù)據(jù)集的監(jiān)控和獲取提供了可能。其中,聚類作為一種處理大型數(shù)據(jù)集的常用方法,被廣泛應(yīng)用在工業(yè)、農(nóng)業(yè)、經(jīng)濟(jì)等領(lǐng)域[2],相關(guān)研究也不斷被提出。Barthel提出利用自動(dòng)圖像分類和基于SOM模型的半自動(dòng)圖像語(yǔ)義生成來(lái)改進(jìn)圖像檢索[3]。Schreck等人提出了一種基于SOM的二維屬性值抽象空間的軌跡數(shù)據(jù)可視化聚類分析方法[4],基于SOM通過(guò)選擇兩個(gè)相關(guān)的特征(即上行噪聲和幀錯(cuò)誤率)來(lái)尋找相似的行為單元,從而使移動(dòng)運(yùn)營(yíng)商的優(yōu)化任務(wù)更具成本效益。Savazzi等人提出了一種基于聚類算法的下行空間濾波新方法[5],用于UMTS-FDD蜂窩網(wǎng)絡(luò),使用kmeans算法,盡管成功地對(duì)用戶進(jìn)行了分組,但聚類偏差較大,簡(jiǎn)單網(wǎng)絡(luò)場(chǎng)景計(jì)算時(shí)間超過(guò)1小時(shí)。由于該法僅使用k-means方法,在聚類處理前必須確定聚類數(shù)k,當(dāng)k值不足時(shí),便不能用于分類數(shù)據(jù)[6-8]。當(dāng)輸入數(shù)據(jù)來(lái)自未知的概率分布時(shí),很難為k選擇一個(gè)合適的值。
基于上述背景,本研究嘗試使用SOM算法來(lái)分析LTE無(wú)線接入網(wǎng)的性能,并根據(jù)無(wú)線接入網(wǎng)中的參數(shù)將不同的LTE小區(qū)劃分為不同的簇,以此來(lái)區(qū)分流量較大和流量較小的小區(qū),以助于網(wǎng)絡(luò)優(yōu)化人員更好地進(jìn)行網(wǎng)絡(luò)頻譜資源優(yōu)化、改善用戶體驗(yàn)。
聚類是根據(jù)數(shù)據(jù)之間的相似度將數(shù)據(jù)分成相應(yīng)的類,以此用來(lái)查看數(shù)據(jù)中類似的模式,是一個(gè)將物理或抽象對(duì)象的集合分成由類似的對(duì)象組成的多個(gè)類的過(guò)程。好的聚類方法可以產(chǎn)生高質(zhì)量的聚類結(jié)果,所形成的簇也具有高的內(nèi)部相異性。然而,對(duì)于未標(biāo)記數(shù)據(jù),聚類存在一定的難度。目前,沒(méi)有特定標(biāo)準(zhǔn)的方法來(lái)判定未標(biāo)記聚類的好壞;對(duì)于大量未標(biāo)記數(shù)據(jù)需要人為干預(yù)才能完成適當(dāng)?shù)木垲悺?/p>
SOM(Self Organizing Maps,自組織映射)是人工智能神經(jīng)網(wǎng)絡(luò)中的一種無(wú)監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,一般用于將高維輸入數(shù)據(jù)表示在低維空間中,通常是將數(shù)據(jù)投影到二維神經(jīng)元網(wǎng)格中。
自組織映射不同于其他人工神經(jīng)網(wǎng)絡(luò)之處在于,其采用競(jìng)爭(zhēng)學(xué)習(xí)而不是錯(cuò)誤校正學(xué)習(xí),且使用鄰域函數(shù)來(lái)保持輸入空間的拓?fù)鋵傩?。模型可以分為輸入層和?jìng)爭(zhēng)層兩部分,如圖1所示。輸入層的輸入神經(jīng)元數(shù)量由輸入網(wǎng)絡(luò)中輸入數(shù)據(jù)特征的數(shù)量決定。
圖1 SOM網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
基于此模型,本研究將輸入數(shù)據(jù)設(shè)置為不同的特征,并將這些特征作為訓(xùn)練數(shù)據(jù)集;同時(shí)選取整個(gè)小區(qū)的7種特征。
對(duì)于輸入數(shù)據(jù),將其設(shè)置為一個(gè)n維向量,可表示為X=[x1,x2,...,xn]T。進(jìn)而可將輸入向量設(shè)置為一個(gè)7×62的矩陣,表示含有62個(gè)單元格的靜態(tài)數(shù)據(jù)和7個(gè)特征數(shù)據(jù)。
競(jìng)爭(zhēng)層是由神經(jīng)元按一定方式排列的二維節(jié)點(diǎn)矩陣,它主要用于聚類和高維降維可視化。SOM模型的競(jìng)爭(zhēng)層為二維網(wǎng)格,網(wǎng)格大小設(shè)為p個(gè)節(jié)點(diǎn),記為Y=[y1,y2,...,yn]T。通常,神經(jīng)元選取越多,模擬的性能就越好,但對(duì)于很多神經(jīng)元來(lái)說(shuō)典型的選擇方案可通過(guò)來(lái)計(jì)算。其中s為競(jìng)爭(zhēng)層的神經(jīng)元數(shù)量,N為輸入樣本,即LTE小區(qū)的特征。輸入層的每個(gè)節(jié)點(diǎn)與第j個(gè)競(jìng)爭(zhēng)層神經(jīng)元之間的連接記錄則為Wj=[wj1,xj2,...,xjn]T,其中j=1,2,…,p。
訓(xùn)練過(guò)程最終要在競(jìng)爭(zhēng)層輸出。在這一輸出層中,贏得競(jìng)爭(zhēng)的神經(jīng)元將設(shè)置為1,其余節(jié)點(diǎn)沒(méi)有輸出將被設(shè)置為0。競(jìng)爭(zhēng)的原則是:權(quán)向量神經(jīng)元wq當(dāng)中,距離最接近當(dāng)前輸入X的即為競(jìng)爭(zhēng)的獲勝者??梢杂洖?
SOM訓(xùn)練算法在執(zhí)行之初,先給競(jìng)爭(zhēng)層中每個(gè)神經(jīng)元的每個(gè)權(quán)值向量wi賦一個(gè)初值,然后對(duì)模型進(jìn)行反復(fù)的訓(xùn)練。在每個(gè)訓(xùn)練步驟中,從輸入數(shù)據(jù)集中隨機(jī)選擇一個(gè)樣本向量Xi。通過(guò)計(jì)算原型神經(jīng)元與Xi之間的距離,得到最優(yōu)匹配單元,即最接近Xi的權(quán)向量,匹配單元根據(jù)歐氏距離計(jì)算,公式如下:
最優(yōu)匹配單元及其拓?fù)溧徲虮灰苿?dòng)到更接近輸入向量的位置。此時(shí)神經(jīng)元原型向量更新規(guī)則為:
其中,t是時(shí)間;ρ(t)是學(xué)習(xí)速率,范圍為0~1;hci(t)是鄰域神經(jīng)元,通常是一個(gè)高斯函數(shù)。
設(shè)t=t+1,重復(fù)公式(2)和(3)的運(yùn)算,直到網(wǎng)絡(luò)收斂為止。
基于上述流程,即可應(yīng)用SOM算法來(lái)訓(xùn)練、分析移動(dòng)通信RAN數(shù)據(jù)。
首先要經(jīng)過(guò)多次路測(cè)分析得到一系列數(shù)據(jù),計(jì)算其平均值。在僅考慮下行情況的前提下,選?。浩骄诺蕾|(zhì)量指標(biāo)、數(shù)據(jù)流量、下行平均吞吐量、下行最大吞吐量、PRB(物理資源塊)使用量、各小區(qū)內(nèi)部eNB延遲和RRC丟包率共七種典型特征,用作聚類單元的輸入特征向量。
按照分析目標(biāo)考慮,關(guān)注重點(diǎn)在于SOM訓(xùn)練的數(shù)據(jù),故此在MATLAB工具箱中建立一個(gè)包含16個(gè)map神經(jīng)元的自組織映射,并利用特征數(shù)據(jù)矩陣進(jìn)行訓(xùn)練;將待檢測(cè)的競(jìng)爭(zhēng)神經(jīng)元的輸出位置與輸入特征數(shù)據(jù)的輸出位置做比較,輸出位置越相似,其特征越相似;至此,只需計(jì)算出基于這兩種輸出位置的歐氏距離,距離較近的將被劃分為同一簇。
對(duì)于SOM訓(xùn)練,與每個(gè)神經(jīng)元相關(guān)的權(quán)值向量會(huì)運(yùn)動(dòng)而成為一組輸入向量中心。拓?fù)渲邢噜彽纳窠?jīng)元在輸入空間中也會(huì)相互靠近,因此可在網(wǎng)絡(luò)拓?fù)涞亩S中實(shí)現(xiàn)高維輸入空間的可視化。MATLAB仿真結(jié)果如圖2所示。
圖2 SOM拓?fù)浞抡鎴D
圖中每個(gè)六邊形代表一個(gè)神經(jīng)元,網(wǎng)格是4×4的,因此有16個(gè)神經(jīng)元。每個(gè)輸入向量有7個(gè)特征,所以輸入空間是7維的。權(quán)重向量(聚類中心)屬于這個(gè)空間。
對(duì)SOM領(lǐng)域權(quán)值距離的仿真結(jié)果如圖3所示。圖中,正六邊形代表神經(jīng)元,相鄰神經(jīng)元之間以直線連接。存在連線的區(qū)域以不同顏色標(biāo)識(shí)神經(jīng)元之間的距離。較深顏色代表較大距離,較淺顏色代表較小距離。從中心區(qū)域到左上區(qū)域有一段暗色線段。SOM網(wǎng)絡(luò)將輸入數(shù)據(jù)聚為兩個(gè)不同的組。
圖3 SOM領(lǐng)域權(quán)值距離仿真
為了將輸入向量劃分為不同的簇,使用SOM權(quán)值平面來(lái)可視化SOM拓?fù)浣Y(jié)構(gòu),仿真結(jié)果如圖4所示。圖中顯示了輸入向量的每個(gè)元素的權(quán)重平面,它們是連接每個(gè)輸入到每個(gè)神經(jīng)元的權(quán)重的可視化,顏色越深代表權(quán)重越大。如果兩個(gè)輸入的連接模式非常相似,即可認(rèn)為輸入是高度相關(guān)的。在本例中,輸入2與5,輸入3與4,輸入6與7,都有非常相似的連接,它們之間有很高的相關(guān)性。以輸入2和5為例,兩者分別用來(lái)表示下行鏈路的數(shù)據(jù)流量和物理資源塊使用量。在這兩張圖中,顏色的變化極為相似,都是從左下角到右上角顏色變暗,即是說(shuō)左下角的PRB使用率和數(shù)據(jù)流量都低于右上方的區(qū)域。同樣情況也適用于輸入3(下行鏈路的平均吞吐量)和輸入4(下行鏈路的最大吞吐量)。
對(duì)于輸入6(內(nèi)部eNB延遲)和輸入7(RRC丟包率),性能幾乎相反,即隨著下行鏈路中PRB使用率和數(shù)據(jù)流量的增加,RRC丟包率和eNB延遲會(huì)降低,表明這四個(gè)特征具有很高的相關(guān)性。
剩下的輸入1(信道質(zhì)量指標(biāo))顏色變化不規(guī)則,表明其性能與其他六個(gè)權(quán)重輸入皆不相關(guān)。
圖4 不同特征的權(quán)重圖
圖5顯示了神經(jīng)元在拓?fù)渲械奈恢茫⒈硎玖伺c每個(gè)神經(jīng)元相關(guān)的訓(xùn)練數(shù)據(jù)的數(shù)量。
圖5 測(cè)試數(shù)據(jù)在SOM拓?fù)渖系姆植?/p>
分析一個(gè)時(shí)間序列數(shù)據(jù),與單個(gè)數(shù)據(jù)點(diǎn)不同,需要計(jì)算給定數(shù)據(jù)序列在每個(gè)數(shù)據(jù)簇中出現(xiàn)的頻率或“命中”數(shù)量。一段時(shí)間內(nèi)包含這些比例或“點(diǎn)擊率”的矢量稱為點(diǎn)擊率直方圖,描述一段時(shí)間內(nèi)小區(qū)行為的特征,隨后用于將小區(qū)聚類為行為類似的組。
與任何神經(jīng)元相關(guān)的最大命中數(shù)是11。因此,該集群中有11個(gè)輸入向量。另外可發(fā)現(xiàn),“命中”在拓?fù)渲械姆植寂c圖5中權(quán)重的分布相似。例如,命中11次的神經(jīng)元(又稱小區(qū))具有數(shù)據(jù)量大、同時(shí)使用PRB的特點(diǎn),并且它們的掉話率很低。相鄰的神經(jīng)元(即歐氏距離更近)也有類似的表現(xiàn),例如命中4和6的神經(jīng)元。與之相反的是左下角命中1的神經(jīng)元,其均值和最大吞吐量較低;此外,與命中11次的神經(jīng)元相比,它的掉話率更高。
通過(guò)上述實(shí)驗(yàn)表明利用SOM模型可以有效預(yù)測(cè)區(qū)分小區(qū)類型,幫助移動(dòng)運(yùn)營(yíng)商節(jié)約成本,實(shí)現(xiàn)頻譜資源的優(yōu)化配置。
本研究應(yīng)對(duì)的是LTE網(wǎng)絡(luò)中不斷增長(zhǎng)的終端接入和高基站密度的挑戰(zhàn),利用大數(shù)據(jù)分析刻畫了網(wǎng)絡(luò)性能和終端體驗(yàn)。所建立的SOM神經(jīng)網(wǎng)絡(luò)模型成功地對(duì)LTE小區(qū)進(jìn)行了聚類。實(shí)驗(yàn)證明了SOM用于小區(qū)聚類并發(fā)現(xiàn)相似行為小區(qū)的可能性,將有助于移動(dòng)運(yùn)營(yíng)商節(jié)省更多的運(yùn)營(yíng)成本。在網(wǎng)絡(luò)優(yōu)化中使用大數(shù)據(jù)分析和挖掘,意味著可以通過(guò)一種高度可伸縮的方法來(lái)進(jìn)行網(wǎng)絡(luò)性能調(diào)優(yōu)。利用大數(shù)據(jù)確定感興趣的區(qū)域,對(duì)網(wǎng)絡(luò)運(yùn)營(yíng)而言也具有極高的商業(yè)和實(shí)用價(jià)值。