王曉東
(陜西飛機(jī)工業(yè)責(zé)任有限公司,陜西 漢中,723200)
無(wú)線移動(dòng)網(wǎng)絡(luò)的大規(guī)模建設(shè)保證了網(wǎng)絡(luò)的覆蓋優(yōu)勢(shì),也為未來(lái)的5G大規(guī)模商用鋪平了道路,但龐大的網(wǎng)絡(luò)規(guī)模進(jìn)一步增加了網(wǎng)絡(luò)優(yōu)化的難度。移動(dòng)接入網(wǎng)絡(luò)產(chǎn)生了大量運(yùn)營(yíng)、管理和維護(hù)數(shù)據(jù),在運(yùn)營(yíng)商基于基本網(wǎng)絡(luò)運(yùn)營(yíng)模式的情況下,如何組織、管理有限的無(wú)線網(wǎng)絡(luò)資源變得越發(fā)緊迫,是電信運(yùn)營(yíng)商不可回避的難題。智能網(wǎng)絡(luò)規(guī)劃工具的出現(xiàn)為解決這一問(wèn)題給出了方案,它可以通過(guò)評(píng)估小區(qū)和用戶性能來(lái)實(shí)時(shí)調(diào)整無(wú)線資源的分配。為了解決此類問(wèn)題,移動(dòng)網(wǎng)絡(luò)運(yùn)營(yíng)商也越來(lái)越注重工具和流程的創(chuàng)新,這些工具和流程不僅能夠幫助工程師維護(hù)和優(yōu)化移動(dòng)無(wú)線電網(wǎng)絡(luò),也會(huì)使網(wǎng)絡(luò)更加自治。在這其中,機(jī)器學(xué)習(xí)近來(lái)已成為一項(xiàng)熱門(mén)技術(shù),用于平衡問(wèn)題計(jì)算的復(fù)雜性和準(zhǔn)確性,引起數(shù)學(xué)優(yōu)化界的廣泛關(guān)注[1]。同樣的趨勢(shì)也在無(wú)線通信領(lǐng)域促使研究人員利用機(jī)器學(xué)習(xí)算法來(lái)解決無(wú)線網(wǎng)絡(luò)優(yōu)化的有限資源分配問(wèn)題[2]。
數(shù)據(jù)處理技術(shù)領(lǐng)域的最新發(fā)展為使用機(jī)器學(xué)習(xí)技術(shù)鋪平了道路,也為探索自動(dòng)評(píng)估移動(dòng)網(wǎng)絡(luò)性能的解決方案提供了動(dòng)力[3]?;陉P(guān)鍵性能指標(biāo)評(píng)估網(wǎng)絡(luò)性能的數(shù)據(jù)在無(wú)線移動(dòng)網(wǎng)絡(luò)中被普遍使用。例如,文獻(xiàn)[4]提出了由支持向量機(jī)(SVM)、譜聚類和深度學(xué)習(xí)方法組成的檢測(cè)模型,通過(guò)檢測(cè)異常用戶來(lái)評(píng)估無(wú)線性能,結(jié)果表明譜聚類等傳統(tǒng)機(jī)器方法在異常檢測(cè)中的表現(xiàn)具有更好的性能。此項(xiàng)工作中使用的數(shù)據(jù)有明確的正負(fù)標(biāo)簽,很容易計(jì)算每種算法的準(zhǔn)確性。與此同時(shí),在移動(dòng)通信領(lǐng)域,Lavneet Singh等人[5]通過(guò)對(duì)電信用戶數(shù)據(jù)集的分類,比較了SOM、k-means和層次聚類算法,證明了SOM和kmeans在3G網(wǎng)絡(luò)中的性能優(yōu)于層次聚類算法。此研究的創(chuàng)新之處在于其任務(wù)是使用SOM和k-means算法來(lái)對(duì)蜂窩小區(qū)行為模式進(jìn)行提取,分析LTE蜂窩小區(qū)的性能,同時(shí)對(duì)SOM和k-means集群結(jié)果的質(zhì)量進(jìn)行有效評(píng)估。最后,Santos等人[6]進(jìn)行了一項(xiàng)類似的研究,使用性能指標(biāo)比較了三種聚類算法。研究表明,與使用k-means獲得的結(jié)果相比,使用高斯混合模型期望最大化和基于不同KPI的LTE小區(qū)聚類中的頻譜聚類所獲得的結(jié)果沒(méi)有顯著差異。該方法側(cè)重于比較三種傳統(tǒng)算法,但是其實(shí)驗(yàn)數(shù)據(jù)集維度過(guò)低,不夠貼近現(xiàn)實(shí)生活中的實(shí)際情況。
由于聚類算法的數(shù)據(jù)集取決于小區(qū)的樣本特征數(shù)目,本研究嘗試通過(guò)仿真模擬不同維度的小區(qū)數(shù)據(jù)的聚類來(lái)評(píng)估不同機(jī)器學(xué)習(xí)算法的優(yōu)劣。
SOM是一種無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò),其算法的工作原理是將n維輸入數(shù)據(jù)投影到某些表示上。通過(guò)降低數(shù)據(jù)維度,可以使用視覺(jué)聚類來(lái)獲得直觀的表示[7]。其結(jié)構(gòu)包括一個(gè)向量輸入層和一個(gè)競(jìng)爭(zhēng)輸出層,允許通過(guò)競(jìng)爭(zhēng)層來(lái)可視化輸出[8],使高維數(shù)據(jù)項(xiàng)目表示在低維空間中[9]。
在網(wǎng)絡(luò)中,SOM是一個(gè)單一的神經(jīng)網(wǎng)絡(luò),其N個(gè)節(jié)點(diǎn)呈網(wǎng)格分布,大多數(shù)分布模式是六邊形和矩形。SOM不同于其他人工神經(jīng)網(wǎng)絡(luò),其采用的是競(jìng)爭(zhēng)學(xué)習(xí)而不是錯(cuò)誤校正學(xué)習(xí),同時(shí)使用了鄰域函數(shù)來(lái)保持輸入空間的拓?fù)鋵傩?。在SOM模型中,一個(gè)輸入節(jié)點(diǎn)與其他節(jié)點(diǎn)廣泛連接,相互激勵(lì),其交互強(qiáng)度由連接權(quán)重決定。連接權(quán)重包括輸入層和競(jìng)爭(zhēng)層神經(jīng)元之間的權(quán)重,以及競(jìng)爭(zhēng)輸出層節(jié)點(diǎn)之間的權(quán)重。前者代表神經(jīng)元對(duì)外部輸入的反應(yīng),后者代表神經(jīng)元之間的相互作用。SOM可以根據(jù)外部刺激動(dòng)態(tài)地改變其結(jié)構(gòu),從而形成合適的簇。SOM的拓?fù)浣Y(jié)構(gòu)如圖1所示。
圖1 SOM網(wǎng)絡(luò)拓?fù)鋱D
k-means算法的基本思想是以每個(gè)簇子集中數(shù)據(jù)樣本的均值作為簇的代表點(diǎn)進(jìn)行迭代。該過(guò)程將數(shù)據(jù)集劃分為不同類別,以便進(jìn)行聚類評(píng)估。能量的準(zhǔn)則函數(shù)可以達(dá)到最優(yōu),從而生成每個(gè)簇。簇與簇的間距是緊湊和獨(dú)立的[10]。在迭代過(guò)程中,不斷移動(dòng)聚類集中的對(duì)象,直到獲得理想的聚類集,每個(gè)簇都用類似聚類過(guò)程獲得。使用k-means得到的聚類簇,簇中對(duì)象的相似度很高,不同簇對(duì)象之間的相異程度也很高[11]。
“肘部”方法是通過(guò)擬合k的一系列值來(lái)幫助數(shù)據(jù)科學(xué)家選擇最佳聚類數(shù)。如果折線圖類似于手臂,則“肘部”(對(duì)應(yīng)于曲線上的拐點(diǎn))能很好地表明基礎(chǔ)模型在該點(diǎn)最適合。在可視化器中,“肘部”將用虛線注釋。在聚類分析中,肘部法是一種啟發(fā)式方法,用于確定數(shù)據(jù)集中的聚類數(shù)量。該方法包括將解釋的變化繪制為集群數(shù)量的函數(shù),并選擇曲線的肘部作為要使用的集群數(shù)量。
圖2顯示了一個(gè)肘形圖,用于確定聚類的數(shù)量。X軸表示聚類的數(shù)量,Y軸表示聚類簇內(nèi)的質(zhì)心距離和簇間質(zhì)心距離的比率[12]。質(zhì)心內(nèi)聚類距離也稱為聚類內(nèi)距離,表示聚類內(nèi)樣本到聚類質(zhì)心的距離。相反,簇間距離是兩個(gè)不同簇的質(zhì)心之間的距離。這是兩個(gè)非常重要的無(wú)監(jiān)督學(xué)習(xí)聚類指標(biāo)??捎^察得知,當(dāng)k<4時(shí),曲線迅速下降;當(dāng)k>4時(shí),曲線趨于波動(dòng),最終越來(lái)越穩(wěn)定。
圖2 最佳聚類數(shù)擬合
由此,認(rèn)為拐點(diǎn)4是通過(guò)肘部法獲得的最佳k值。最終,初始聚類最優(yōu)數(shù)目設(shè)置為4,同時(shí)SOM模型的神經(jīng)元數(shù)目也設(shè)置為相同數(shù)值。
在此次仿真實(shí)驗(yàn)中,首先通過(guò)使用不同小區(qū)數(shù)據(jù)作為輸入,其小區(qū)特征是低維度的。例如,CQI(信道質(zhì)量指標(biāo))是下行頻譜效率指標(biāo),它表示從終端測(cè)量的網(wǎng)絡(luò)質(zhì)量,即在某些無(wú)線電條件(干擾條件)下,一個(gè)終端的下行吞吐量的多少。因此,CQI可以準(zhǔn)確地反映具體的無(wú)線電狀況[13]。下行鏈路吞吐量或下行鏈路網(wǎng)絡(luò)吞吐量是從通信信道到終端的成功消息傳遞率。吞吐量通常以每秒兆比特(Mb/s)為單位,有時(shí)以每秒數(shù)據(jù)包或每個(gè)時(shí)隙的數(shù)據(jù)包為單位。如此建模,便能夠探索在數(shù)據(jù)集特征值較低時(shí)小區(qū)特征提取分析的可行性。
SOM和k-means定位質(zhì)心和簇內(nèi)距離(低維特征)實(shí)驗(yàn)數(shù)據(jù)如表1所示。可見(jiàn)當(dāng)兩種算法都聚類為4種不同簇時(shí),SOM小區(qū)聚類的簇內(nèi)質(zhì)心距離比kmeans略微大些。例如,SOM中的集群#1、#2、#3和#4都大于相同的k-means集群。這四個(gè)簇之間的距離差距分別為0.12、0.14、0.02和0.17。與簇內(nèi)小區(qū)集群距離相比,兩種算法簇間距離非常接近。由于簇內(nèi)質(zhì)心距離越短聚類效果越好,可以得出k-means聚類簇內(nèi)的距離更近,聚類效果更好。
表1 定位質(zhì)心和簇內(nèi)距離(低維特征)
k-means聚類的小區(qū)模式描述實(shí)驗(yàn)結(jié)果如表2所示。其中,簇#1和#4的距離幾乎相同,#2和#3也相似,意味著SOM的間距和低維k-means差異不大,即質(zhì)心間距越大,集群性能越好。因此,只能將聚類簇內(nèi)的距離作為評(píng)估標(biāo)準(zhǔn)。
表2 k-means聚類的小區(qū)模式描述
SOM和k-means聚類中心分布情況實(shí)驗(yàn)結(jié)果如圖3所示。圖中可見(jiàn)SOM和k-means簇質(zhì)心在吞吐量和CQI特征內(nèi)的63個(gè)蜂窩小區(qū)樣本中的分布。在SOM聚類的簇#3中,質(zhì)心坐標(biāo)與在k-means算法中的簇#4是相同的。
圖3 聚類中心分布情況
SOM聚類的小區(qū)模式描述實(shí)驗(yàn)結(jié)果如表3所示。比較表2和表3便可發(fā)現(xiàn),k-means聚類簇#3和#4的簇特征類似于SOM聚類簇#3和#2,唯一區(qū)別在于簇#1和#4之間,例如k-means簇#2的特點(diǎn)是下行吞吐量最低。簇#2的CQI跨度很大,覆蓋從0.013到1的區(qū)間,其中包括在相似的下行鏈路吞吐量?jī)?nèi)從低到高的CQI。但在SOM小區(qū)聚類中,簇#4的特征具有最低的CQI和下行鏈路吞吐量。因此可得出結(jié)論,SOM聚類中的簇#4與k-means中的簇#2相似,但k-means聚類的簇#2中樣本已經(jīng)包含了SOM聚類簇#4中的所有樣本。
表3 SOM聚類的小區(qū)模式描述
最終,k-means聚類的簇#1和SOM聚類的簇#1特征也不盡相同。對(duì)于SOM聚類的簇#1,它具有中等CQI和高下行吞吐量。同時(shí),k-means的簇#1具有較高的CQI和中等的下行吞吐量,因此這兩個(gè)簇的特征非常接近。概括來(lái)講,對(duì)比兩種聚類結(jié)果可以發(fā)現(xiàn),在低維特征中,蜂窩小區(qū)模式聚類存在一定的差異,SOM和k-means的聚類結(jié)果大體上相似,但k-means的聚類結(jié)果更直觀。
與上述使用低維蜂窩小區(qū)特征數(shù)據(jù)不同,此處使用高維特征數(shù)據(jù)(即每個(gè)小區(qū)包含29個(gè)特征)來(lái)測(cè)試SOM和k-means的性能。
k-means和SOM之間的距離比較實(shí)驗(yàn)結(jié)果數(shù)據(jù)如表4所示。在第一階段,在k-means和SOM中,簇的平均距離與樣本的平均距離之間的總體差異并不明顯。例如,k-means和SOM中的簇#2和#3相似且更接近。唯一存在巨大差異的是簇#4,分別為0.93和0.53。k-means中不同簇質(zhì)心的平均距離小于SOM。
表4 距離比較(高維特征)
k-means的簇內(nèi)質(zhì)心樣本平均距離以及簇間質(zhì)心的平均距離是相似的,例如,簇#3中這兩個(gè)值分別是0.56和0.64,比較接近。由此可以得出結(jié)論:kmeans可以對(duì)高維數(shù)據(jù)進(jìn)行聚類,但是聚類簇內(nèi)的樣本小區(qū)距離和聚類間距離非常接近。另一方面,SOM的簇質(zhì)內(nèi)和簇間距離上具有良好的性能。因此,對(duì)于高維數(shù)據(jù)集,k-means的聚類效果不盡如人意,較少被研究人員選用。
對(duì)高維特征樣本小區(qū)k-means和SOM聚類結(jié)果對(duì)比情況如表5所示。表中顯示出SOM和kmeans的聚類簇中所包含的小區(qū)數(shù)目。小區(qū)樣本在SOM拓?fù)湎碌姆植记闆r如圖4所示。通過(guò)對(duì)比可發(fā)現(xiàn)此兩種方法在簇#1和#2中的小區(qū)數(shù)相似,分別為12、23和11、21。SOM和k-means之間的小區(qū)數(shù)量之間的唯一區(qū)別是簇#3和#4。
表5 高維特征樣本小區(qū)聚類結(jié)果(小區(qū)數(shù)目)
使用聚類技術(shù)對(duì)真實(shí)LTE蜂窩小區(qū)的網(wǎng)絡(luò)性能進(jìn)行評(píng)估,由于聚類算法的數(shù)據(jù)集取決于小區(qū)的樣本特征數(shù)目,通過(guò)仿真模擬不同維度的小區(qū)數(shù)據(jù)的聚類來(lái)評(píng)估不同機(jī)器學(xué)習(xí)算法的優(yōu)劣。在低維數(shù)據(jù)聚類中,與使用SOM得到的結(jié)果相比,k-means小區(qū)聚類效果要優(yōu)于SOM。但是,與其他高維數(shù)據(jù)集聚類相比,LTE小區(qū)數(shù)據(jù)的KPI特征在高維特征空間中充當(dāng)特征向量,使用SOM進(jìn)行聚類的結(jié)果在小區(qū)聚類中獲得的性能更好,也意味著得到的小區(qū)分類更加精準(zhǔn)。在網(wǎng)絡(luò)優(yōu)化中使用大數(shù)據(jù)分析和挖掘,能夠?qū)崿F(xiàn)在現(xiàn)有的高度可擴(kuò)展的方法上進(jìn)行網(wǎng)絡(luò)性能調(diào)整。通過(guò)聚類的方法高效地利用大數(shù)據(jù),幾乎能夠?qū)崟r(shí)地識(shí)別感興趣的區(qū)域,對(duì)減少蜂窩網(wǎng)絡(luò)運(yùn)營(yíng)商的運(yùn)營(yíng)支出,有重要的參考價(jià)值。