許景淵,張振榮
(1.廣西大學 計算機與電子信息學院,廣西 南寧 530004; 2.北京中網(wǎng)華通設(shè)計咨詢有限公司,北京 100070)
一種基于網(wǎng)格聚類的4G覆蓋價值區(qū)挖掘方法
許景淵1,2,張振榮1
(1.廣西大學 計算機與電子信息學院,廣西 南寧 530004; 2.北京中網(wǎng)華通設(shè)計咨詢有限公司,北京 100070)
傳統(tǒng)基于覆蓋場景的規(guī)劃方法已難以適應4G網(wǎng)絡(luò)精細化規(guī)劃的需求,結(jié)合4G網(wǎng)絡(luò)需求分析及工程實踐,提出了一種基于網(wǎng)格空間聚類的4G網(wǎng)絡(luò)覆蓋價值區(qū)挖掘的評估模型及分析方法。從逆向視角出發(fā),運用網(wǎng)格聚類的方法,理清4G網(wǎng)絡(luò)規(guī)劃中“用戶”、“網(wǎng)絡(luò)”、“業(yè)務(wù)”及“投資”四者的內(nèi)在關(guān)系,盯緊4G目標用戶的消費行為軌跡,建立了各層指標評估體系及評估模型,并在工程實踐中予以驗證,從而為后期4G網(wǎng)絡(luò)精細化規(guī)劃提供有益參考。
網(wǎng)格聚類;4G網(wǎng)絡(luò);價值模型;挖掘評估
近年來,隨著用戶對移動高速數(shù)據(jù)業(yè)務(wù)需求的日益旺盛以及4G網(wǎng)絡(luò)的大規(guī)模部署,“如何優(yōu)選項目,聚焦投資效能,發(fā)現(xiàn)價值區(qū)域,提升用戶感知”成為4G網(wǎng)絡(luò)規(guī)劃面臨的重大難題和課題[1-3]。從需求分析角度來看,作為高速數(shù)據(jù)業(yè)務(wù)承載網(wǎng)的4G網(wǎng)絡(luò),其規(guī)劃方法有別于傳統(tǒng)基于場景顆粒度的規(guī)劃方法,在理清2G/3G網(wǎng)絡(luò)現(xiàn)狀的基礎(chǔ)上,應更為精細化規(guī)劃和部署,同時,還應綜合分析“用戶行為”、“網(wǎng)絡(luò)覆蓋”、“業(yè)務(wù)密度”及“投資效能”等數(shù)據(jù),盯緊4G目標用戶的消費行為軌跡,從而進一步搜尋和挖掘網(wǎng)絡(luò)覆蓋價值區(qū)域,最終做到聚焦投資效能和提升用戶感知。
然而,從海量用戶行為、網(wǎng)絡(luò)指標、業(yè)務(wù)分布等電信大數(shù)據(jù)中找尋4G網(wǎng)絡(luò)覆蓋價值區(qū)域也面臨數(shù)據(jù)繁雜、高維度、難歸約等技術(shù)困難[4,5],“物以類聚,人以群分”,使用基于網(wǎng)格空間聚類方法進行數(shù)據(jù)挖掘和分析不失是一種行之有效地解決思路。該方法常用于組織高維度數(shù)據(jù)分析,并能有效實現(xiàn)高維數(shù)據(jù)的局部化分析,其核心思想是將高維數(shù)據(jù)空間劃分為若干互不相交且具有層次結(jié)構(gòu)的網(wǎng)格單元集,將每個指標對象映射到合適的網(wǎng)格單元中,進而識別和計算每個網(wǎng)格單元中的指標密度,并由指標值大于指定閾值的稠密網(wǎng)格單元形成簇,從而最終進行網(wǎng)格排序和發(fā)現(xiàn)網(wǎng)格價值指標及價值區(qū)域[6-9]。為此,本文從逆向視角出發(fā),理清4G網(wǎng)絡(luò)“用戶”、“網(wǎng)絡(luò)”、“業(yè)務(wù)”及“投資”等四個要素的內(nèi)在關(guān)系,緊盯“用戶感知”、“業(yè)務(wù)能力”、“投資效能”、“價值區(qū)域”等主要目標,提出了一種基于網(wǎng)格空間聚類的4G網(wǎng)絡(luò)覆蓋價值區(qū)挖掘的評估模型,從而有效地解決了這個問題。
1.1 價值模型構(gòu)建
從4G網(wǎng)絡(luò)覆蓋需求角度分析,4G網(wǎng)絡(luò)定位為高速數(shù)據(jù)業(yè)務(wù)承載網(wǎng),可考慮從“用戶”、“網(wǎng)絡(luò)”、“業(yè)務(wù)”和“投資”4個關(guān)聯(lián)層次來進一步定義網(wǎng)絡(luò)的覆蓋價值區(qū)域,其主要體現(xiàn)為“用戶卓越體驗”、“網(wǎng)絡(luò)超越引領(lǐng)”、“業(yè)務(wù)豐富多元”、“成本高效產(chǎn)出”等多層面。緊盯“聚焦投資效能,發(fā)現(xiàn)價值區(qū)域,提升用戶感知”的目標,逐層理清和劃分出“用戶層”、“網(wǎng)絡(luò)層”、“業(yè)務(wù)層”和“投資層”等層次結(jié)構(gòu),對分層指標進行多維度量化、加權(quán)疊加和逐級映射,并將相關(guān)價值屬性映射和聚類到網(wǎng)格系統(tǒng)中,從而挖掘和發(fā)現(xiàn)4G網(wǎng)絡(luò)覆蓋價值區(qū)域,構(gòu)建價值模型如圖1所示。
圖1 4G網(wǎng)絡(luò)覆蓋價值區(qū)域?qū)哟文P?/p>
1.2 價值模型評估
進行4G網(wǎng)絡(luò)覆蓋價值模型評估主要抓住“用戶”和“網(wǎng)絡(luò)”2條主線,緊盯用戶行為分析,即不同特征的用戶群體,在何時、何地(如基站位置、地理區(qū)域等),使用何種終端類型(如4G傾向型終端、非4G傾向型終端等)和資費套餐(如高、中、低價值資費套餐等),發(fā)生了何種業(yè)務(wù)行為(如語音、瀏覽網(wǎng)頁、下載、IM等),產(chǎn)生了多少業(yè)務(wù)量(如話務(wù)量、數(shù)據(jù)流量等);與此同時,重點關(guān)注不同用戶群體分布對應區(qū)域的網(wǎng)絡(luò)覆蓋及業(yè)務(wù)能力(如2G/3G基站分布等),即重點挖掘“用戶分布聚集”、“4G傾向型終端密集”、“高資費套餐集中”及“業(yè)務(wù)量高發(fā)區(qū)域”等高價值覆蓋區(qū)域?qū)镜木W(wǎng)絡(luò)覆蓋、質(zhì)量及業(yè)務(wù)能力,從而構(gòu)建分層次、分梯度、關(guān)系對應的4G網(wǎng)絡(luò)覆蓋價值區(qū),最終根據(jù)價值網(wǎng)絡(luò)分布、覆蓋目標來確定投資規(guī)模及投資節(jié)奏,評估流程如圖2所示。
圖2 網(wǎng)格聚類分析及價值模型評估流程
由圖2可見,價值模型評估流程主要包括“確定分層評估指標體系”、“構(gòu)建關(guān)鍵指標映射關(guān)系”、“指標集數(shù)據(jù)預處理”、“單維度指標疊加分析”、“綜合指標網(wǎng)格化映射及聚類”和“網(wǎng)格化排序及價值區(qū)域發(fā)現(xiàn)”等主要步驟,對各關(guān)鍵流程進一步分析如下。
1.2.1 確定分層評估指標體系
遵循分層次、分梯度、逐層映射的評估思路[10],對應演繹和形成了“用戶指標”、“網(wǎng)絡(luò)指標”、“業(yè)務(wù)指標”、“投資指標”的分層指標體系,以“用戶”和“網(wǎng)絡(luò)”為主線,緊盯“用戶號碼”、“基站LAC+CI號”2個關(guān)鍵映射值,從而確定分層評估指標體系。涉及的指標應統(tǒng)一口徑并從網(wǎng)管系統(tǒng)、營帳系統(tǒng)等等指標系統(tǒng)中提取,形成的主要分層評估指標結(jié)構(gòu)如表1所示。
表1 各主要分層評估指標結(jié)構(gòu)劃分表
1.2.2 構(gòu)建關(guān)鍵指標映射關(guān)系
構(gòu)建一致的關(guān)鍵指標映射關(guān)系是對相關(guān)指標集進行網(wǎng)格化處理和地理化呈現(xiàn)的前提。理清“用戶在何種網(wǎng)絡(luò)下發(fā)生何種業(yè)務(wù)”、“網(wǎng)絡(luò)在何處提供何種業(yè)務(wù)能力”及“提供何種覆蓋水平所需投資成本”等關(guān)鍵指標映射關(guān)系,從而形成“坐標系”、“用戶號碼”、“基站LAC+CI號”等指標一一對應的映射關(guān)系,使得每個指標對象都落入一個網(wǎng)格單元中,網(wǎng)格單元對應的屬性區(qū)間包含該對象的值,構(gòu)造出清晰的網(wǎng)格化處理關(guān)系網(wǎng),為后期指標集數(shù)據(jù)預處理打下良好基礎(chǔ)。
1.2.3 指標集數(shù)據(jù)預處理
通常,從網(wǎng)管系統(tǒng)、營帳系統(tǒng)等異種數(shù)據(jù)源中獲取的指標數(shù)據(jù)很容易受到噪聲、缺失值和不一致數(shù)據(jù)的侵擾,進行指標集數(shù)據(jù)預處理是獲得準確、完整和一致的基礎(chǔ)數(shù)據(jù)[11],提高數(shù)據(jù)質(zhì)量及數(shù)據(jù)挖掘效率的重要步驟,主要流程包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換和數(shù)據(jù)離散化等。
首先,對網(wǎng)管系統(tǒng)、營帳系統(tǒng)等異種數(shù)據(jù)源中獲取的指標數(shù)據(jù)進行數(shù)據(jù)清理,清除數(shù)據(jù)噪聲,糾正不一致數(shù)據(jù),然后,根據(jù)關(guān)鍵指標映射關(guān)系將不同數(shù)據(jù)源統(tǒng)一集成為一個關(guān)系對應的指標集,接著,通過諸如聚集、刪除冗余值或透視等數(shù)據(jù)規(guī)約手段來降低數(shù)據(jù)的規(guī)模,最終,通過數(shù)據(jù)變換和離散化處理使得數(shù)據(jù)更易歸一化處理,自動產(chǎn)生數(shù)據(jù)的概念分層,并構(gòu)成準確、完整和一致的分層指標評估體系。
1.2.4 指標疊加、網(wǎng)格化映射及聚類
經(jīng)過上述流程的處理,可獲得較為有效的指標數(shù)據(jù),接著將進行各層指標的單維度疊加、歸一化處理、網(wǎng)格劃分、網(wǎng)格化映射及數(shù)據(jù)聚類等操作。結(jié)合地理化特征及城市功能區(qū)分布等因素,并綜合考慮“用戶層”、“網(wǎng)絡(luò)層”、“業(yè)務(wù)層”、“投資層”等指標數(shù)據(jù),將目標覆蓋區(qū)在場景顆?;A(chǔ)上進一步細化劃分為互不相交的網(wǎng)格單元,對同維指標進行橫向加權(quán)、異維指標進行縱向歸一化相結(jié)合的方式進行網(wǎng)格指標量化和疊加,最終將各層次指標值映射到網(wǎng)格單元,并以地理化方式進行呈現(xiàn)和網(wǎng)格聚類分析。
1.2.5 網(wǎng)格化排序及價值區(qū)域發(fā)現(xiàn)
綜合上述各環(huán)節(jié)中“用戶行為”、“網(wǎng)絡(luò)能力”、“業(yè)務(wù)分布”、“投資效能”等指標的統(tǒng)一分析、疊加加權(quán)、網(wǎng)格映射及網(wǎng)格聚類,形成了以網(wǎng)格綜合得分形式的網(wǎng)格排序體系,并根據(jù)投資能力和投資節(jié)奏將網(wǎng)格進一步劃分為“價值網(wǎng)格”、“趕超網(wǎng)格”及“潛力網(wǎng)格”,其中價值網(wǎng)格即為4G網(wǎng)絡(luò)“用戶卓越體驗”、“網(wǎng)絡(luò)超越引領(lǐng)”、“業(yè)務(wù)豐富多元”、“成本高效產(chǎn)出”的覆蓋價值區(qū)域。
以某市應用為例,使用MapInfo軟件進行網(wǎng)格劃分、指標疊加、網(wǎng)格映射及網(wǎng)格聚類等應用實踐,分析如下。
2.1 網(wǎng)格劃分
合理的覆蓋區(qū)域劃分可以有效促進投資資源的最優(yōu)化配置[12]。網(wǎng)格顆粒度介于覆蓋場景與站點之間,對點、線、面覆蓋場景的進一步精細化劃分是進行網(wǎng)格化聚類及價值模型挖掘的前提,其中網(wǎng)格劃分思路如下:
①關(guān)注網(wǎng)絡(luò)覆蓋價值區(qū)域,需將覆蓋區(qū)域劃分為有效覆蓋區(qū)域和無效覆蓋區(qū)域,將人跡罕至的高山、河流、湖泊等區(qū)域剔除于網(wǎng)格之外;
②對有效覆蓋區(qū)域,網(wǎng)格應考慮地形地貌、功能特征、人口分布、建筑分布等特征,將無線網(wǎng)絡(luò)傳播環(huán)境類似的區(qū)域劃分為同一個網(wǎng)格,以方便網(wǎng)絡(luò)覆蓋、網(wǎng)絡(luò)質(zhì)量、網(wǎng)絡(luò)容量等指標的分析;
③網(wǎng)格邊界應與現(xiàn)有行政區(qū)劃邊界、城市功能區(qū)邊界、覆蓋場景邊界、市場營銷網(wǎng)格、網(wǎng)絡(luò)優(yōu)化網(wǎng)格等現(xiàn)有網(wǎng)格單元相關(guān)聯(lián),原則上,上級網(wǎng)格應包含下層網(wǎng)格,網(wǎng)絡(luò)網(wǎng)格應為上述網(wǎng)格中最小的劃分單元;
④網(wǎng)格應充分考慮面、線、點覆蓋需求,市區(qū)、縣城及鄉(xiāng)鎮(zhèn)鎮(zhèn)區(qū)等面覆蓋區(qū)域應充分考慮市政規(guī)劃功能區(qū)定位來進一步細化和裂變。
2.2 網(wǎng)格聚類分析
應用上述的價值模型評估流程,對覆蓋區(qū)域的“用戶層”、“網(wǎng)絡(luò)層”、“業(yè)務(wù)層”及“投資層”等指標數(shù)據(jù)進行多維度的疊加處理、網(wǎng)格映射、聚類分析及網(wǎng)格排序,最終獲得4G網(wǎng)絡(luò)覆蓋價值區(qū)域。其中,以2/3G網(wǎng)絡(luò)業(yè)務(wù)層數(shù)據(jù)分析為例,2G網(wǎng)絡(luò)和3G網(wǎng)絡(luò)屬于不同制式的網(wǎng)絡(luò),承載能力及評價指標各不相同,可通過對2G業(yè)務(wù)和3G業(yè)務(wù)的同維指標加權(quán)處理、異維指標歸一化處理,將不同的指標量化并轉(zhuǎn)換業(yè)務(wù)密度,使得每個對象能對應映射到網(wǎng)格中,方便進行網(wǎng)格聚類及地理化呈現(xiàn)處理。以網(wǎng)格A為例:
首先,進行單維度數(shù)據(jù)疊加分析,分別計算2G/ 3G網(wǎng)絡(luò)業(yè)務(wù)密度指標,計算方法如下:
接著,考慮2/3G網(wǎng)絡(luò)業(yè)務(wù)密度指標評估體系不同且采用單位不一致,應歸類為異維指標,為方便進行數(shù)據(jù)統(tǒng)一評估分析,采用歸一化處理手段將相關(guān)業(yè)務(wù)密度指標轉(zhuǎn)換為對應的網(wǎng)格業(yè)務(wù)密度分值形式,以百分制為例,計算方法如下:
然后,通過上述步驟,可獲得各網(wǎng)格統(tǒng)一的指標評估數(shù)據(jù),并對2/3G網(wǎng)絡(luò)中的同維指標進行加權(quán)處理,并考慮4G網(wǎng)絡(luò)作為承載高速數(shù)據(jù)業(yè)務(wù)的發(fā)展趨勢,側(cè)重對數(shù)據(jù)流量指標評估,進一步定義2/3網(wǎng)絡(luò)業(yè)務(wù)密度指標權(quán)重,計算方法如下:
最終獲得各網(wǎng)格業(yè)務(wù)密度綜合得分,并以百分制進行降序,計算方法如下:
網(wǎng)格業(yè)務(wù)綜合得分=2G業(yè)務(wù)密度得分×對應的權(quán)重+ 3G業(yè)務(wù)密度得分×對應的權(quán)重。
2.3 價值網(wǎng)格發(fā)現(xiàn)
綜合分析網(wǎng)格聚類結(jié)果,將綜合指標密度綜合得分進行排序,將網(wǎng)格排序中TOP 30%、30%~60%,60%~100%分別對應劃分為“價值網(wǎng)格”、“趕超網(wǎng)格”和“潛力網(wǎng)格”,劃分結(jié)果如表2所示。
表2 某市網(wǎng)格空間聚類的分析結(jié)果
由此可見,經(jīng)網(wǎng)格空間聚類分析,共挖掘和發(fā)現(xiàn)332個價值網(wǎng)格,占網(wǎng)格總數(shù)的32.02%,其中網(wǎng)格的人口和面積占比僅為14.50%和0.67%,卻承載著某運營商40.51%話務(wù)量和68.00%的數(shù)據(jù)流量,說明該網(wǎng)格覆蓋區(qū)域具有重大發(fā)展前景和投資收益,是4G網(wǎng)絡(luò)覆蓋價值區(qū)域,也是4G網(wǎng)絡(luò)優(yōu)先規(guī)劃和部署的重點區(qū)域。
4G網(wǎng)絡(luò)覆蓋價值區(qū)域的定義、挖掘及發(fā)現(xiàn)是網(wǎng)絡(luò)規(guī)劃的重要工作,本文緊抓“用戶行為”和“網(wǎng)絡(luò)能力”兩條主線,應用網(wǎng)格空間聚類分析方法,構(gòu)建了“用戶”、“網(wǎng)絡(luò)”、“業(yè)務(wù)”和“投資”逐層映射的價值模型及對應的評估流程,并得到了工程實踐的檢驗,為4G網(wǎng)絡(luò)覆蓋價值區(qū)域發(fā)現(xiàn)及后期網(wǎng)絡(luò)規(guī)劃提供了一種有效的解決方案。
[1]陳建剛,肖清華,汪偉.基于客戶感知的無線網(wǎng)絡(luò)選址評估方法[J].移動通信,2012,36(13):36-39.
[2]劉輝,賀肖榮.TD-SCDMA PS域業(yè)務(wù)用戶感知模型的構(gòu)建與應用[J].電視技術(shù),2013,37(7):68-71.
[3]牛憲華,曾柏森.基于用戶感知的WCDMA網(wǎng)絡(luò)深度覆蓋評估研究[J].移動通信,2013,38(8):5-8.
[4]霍成義.面向數(shù)據(jù)提供者的隱私保護訪問控制模型[J].無線電工程,2014,44(2):5-8.
[5]員建廈.基于動態(tài)存儲策略的數(shù)據(jù)管理系統(tǒng)[J].無線電工程,2014,44(11):52-54,62.[6]Han J W,Kamber M,Pei J,等.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2012.
[7]閆光輝,何瑞春.基于神經(jīng)網(wǎng)絡(luò)、網(wǎng)格和密度的聚類方法的設(shè)計[J].蘭州鐵道學院學報(自然科學版),2003,22(1):94-97.
[8]楊毅.一種基于網(wǎng)格優(yōu)化的空間數(shù)據(jù)訪問與存儲研究[J].無線電通信技術(shù),2014,40(6):43-46.
[9]陳慧萍,王煜,王建東.子空間聚類算法的研究新進展[J].計算機仿真,2007,24(3):6-10,34.
[10]魯凱,王遠軍.基于AHP的基站站址資源儲備評估研究[J].郵電設(shè)計技術(shù),2010(12):43-48.
[11]李軍,劉匡虎.一種現(xiàn)代移動通信網(wǎng)絡(luò)話務(wù)場景劃分方法[J].移動通信,2012,36(9):41-44.
[12]程鴻雁,朱晨鳴.LTE FDD網(wǎng)絡(luò)規(guī)劃與設(shè)計[M].北京:人民郵電出版社,2013:302-309.
A Data Mining Method for 4G Value Coverage Region Based on Grid Clustering
XU Jing-yuan1,2,ZHANG Zhen-rong1
(1.College of Computer and Electronic Information,Guangxi University,Nanning Guangxi 530004,China; 2.China Comm Design&Consulting Co.Ltd.,Beijing 100070,China)
The needs of fine planning in 4G network exceeds the capacity of conventional division method based on coverage scene.Based on an analysis of 4G network's requirement and engineering practice,an evaluation model and analysis method for 4G network's value coverage region based on Grid Subspace Clustering are proposed.From the perspective of reverse thinking and by using the method of grid clustering,the internal relationship among user,network,service and investment is clarified;the consuming behavior track of target users is closely observed,then a layered index evaluation system and evaluation model are established;at last,they are verified in an practical engineering project.The proposed method is helpful for discovering the value coverage region in 4G network,and it will play an important role in fine planning.
Grid-based Clustering;4G network;value model;data mining and evaluation
TN929.53
A
1003-3114(2015)05-11-4
10.3969/j.issn.1003-3114.2015.05.03
許景淵,張振榮.一種基于網(wǎng)格聚類的4G覆蓋價值區(qū)挖掘方法[J].無線電通信技術(shù),2015,41(5):11-14.
2015-06-10
許景淵(1985—),男,碩士研究生/工程師,主要研究方向:3G無線網(wǎng)絡(luò)規(guī)劃及網(wǎng)絡(luò)優(yōu)化。張振榮(1976—),男,教授,博士,主要研究方向:光網(wǎng)絡(luò)與光通信技術(shù)。