魯 琳
?
在移動(dòng)通信數(shù)據(jù)分析上孤立點(diǎn)檢測(cè)的研究與應(yīng)用
魯 琳
中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司廣東分公司,廣東 廣州 510627
移動(dòng)通信數(shù)據(jù)最為凸出的特點(diǎn)便是高維度及大規(guī)模,常規(guī)數(shù)據(jù)分析便具有一定的難度,而異常數(shù)據(jù)分析更為困難。因此,分析了孤立點(diǎn)檢測(cè)在移動(dòng)通信數(shù)據(jù)分析中的研究與應(yīng)用,旨在指導(dǎo)實(shí)踐,逐步提高分析的有效性與準(zhǔn)確性。
移動(dòng)通信;數(shù)據(jù)分析;孤立點(diǎn)檢測(cè)
國(guó)外學(xué)者[1]指出,孤立點(diǎn)是與數(shù)據(jù)集中正常數(shù)據(jù)不同的數(shù)據(jù),從聚類(lèi)算法角度出發(fā),孤立點(diǎn)為噪音數(shù)據(jù)。通常,它是由各異機(jī)制引起的,具有一定的現(xiàn)實(shí)意義。孤立點(diǎn)檢測(cè)方法主要有兩種,一種為基于距離檢測(cè)法,主要是對(duì)數(shù)據(jù)對(duì)象間的距離進(jìn)行計(jì)算,以此檢測(cè)孤立點(diǎn)。對(duì)于任何數(shù)據(jù)對(duì)象而言,如果其周?chē)従虞^少,則可視為孤立點(diǎn)范圍,具體方法有基于索引、嵌套循環(huán)算法以及基于單元算法。上述檢測(cè)法存在一定的不足,其均為0(kN2)復(fù)雜度,與數(shù)據(jù)維數(shù)k與數(shù)據(jù)模型N有一定的關(guān)系,未能滿(mǎn)足大規(guī)模數(shù)據(jù)集分析需求,此外,該方法對(duì)用戶(hù)有一定要求,需要提供參數(shù)d,但通常情況下,該參數(shù)確定難度較大。另一種為基于密度檢測(cè)法,其彌補(bǔ)了基于距離檢測(cè)法的不足,通過(guò)觀(guān)察對(duì)象周?chē)芏葘?shí)現(xiàn)的,一旦數(shù)據(jù)對(duì)象周?chē)嬖谳^多的鄰居,則非孤立點(diǎn),而鄰居不足時(shí),則為孤立點(diǎn),為了呈現(xiàn)各數(shù)據(jù)孤立程度,有關(guān)學(xué)者對(duì)孤立程度與周?chē)従悠x程度進(jìn)行了研究,二者保持著緊密聯(lián)系,經(jīng)研究提出了局部孤立因子算法,此外,經(jīng)研究,逐漸提出了基于聚類(lèi)、神經(jīng)網(wǎng)絡(luò)等方法[2]。
2.1 基于劃分檢測(cè)法
根據(jù)移動(dòng)通信數(shù)據(jù)特點(diǎn),本文提出了基于劃分檢測(cè)法,此方法是對(duì)原始數(shù)據(jù)進(jìn)行劃分,借助剪枝策略,剪枝各劃分中的非孤立點(diǎn),隨之形成候選孤立點(diǎn)集,再使用孤立點(diǎn)檢測(cè)技術(shù)進(jìn)行判斷,經(jīng)計(jì)算獲得度量值,明確平衡隸屬度,從而實(shí)現(xiàn)對(duì)異常信號(hào)數(shù)據(jù)點(diǎn)的檢測(cè)。
2.2 孤立點(diǎn)檢測(cè)
在實(shí)際分析中對(duì)候選孤立點(diǎn)距離進(jìn)行計(jì)算,借助相應(yīng)的距離函數(shù)計(jì)算公式,獲得數(shù)據(jù)對(duì)象的基于距離的局部離群因子(LDOF)值,根據(jù)此數(shù)值的大小進(jìn)行排序,同時(shí)充分利用平衡隸屬度,經(jīng)綜合判斷,以此明確是否為孤立點(diǎn)。
在距離函數(shù)方面,使用LDOF度量孤立點(diǎn),通常,LDOF值越大,其越偏離鄰居,其成為孤立點(diǎn)的可能性更大。以數(shù)據(jù)對(duì)象p為例,其LDOF公式為:
在實(shí)際應(yīng)用中面對(duì)海量數(shù)據(jù),所有數(shù)據(jù)集均要計(jì)算LDOF值,在此情況下,計(jì)算復(fù)雜度將明顯增加,可達(dá)到0(N2),為了減少計(jì)算量,需要使用有效的方法,具體為:剪枝非孤立點(diǎn)對(duì)象,再計(jì)算候選孤立點(diǎn),從而提高了計(jì)算效率,減少了用時(shí)。
在平衡隸屬度方面,關(guān)于某一對(duì)象的隸屬函數(shù)構(gòu)造尚無(wú)統(tǒng)一性,實(shí)踐中僅依賴(lài)經(jīng)驗(yàn),即便是同一概念,不同學(xué)者所建立的隸屬函數(shù)各異,主要是因其切入點(diǎn)不同造成的,但對(duì)實(shí)際問(wèn)題的處理效果基本一致。常見(jiàn)的方法如下:統(tǒng)計(jì)法、二元對(duì)比排序法或者專(zhuān)家評(píng)審法,待確定隸屬函數(shù)后,可根據(jù)生活實(shí)踐對(duì)其進(jìn)行改進(jìn)與完善。在分析移動(dòng)通信數(shù)據(jù)過(guò)程中,隸屬函數(shù)判斷可依據(jù)信號(hào)平衡等級(jí)判斷,并根據(jù)通信數(shù)據(jù)具體情況,利用模糊處理法,判斷信號(hào)強(qiáng)弱,具體的公式如下:信號(hào)強(qiáng)度=下行電平-上行電平-參數(shù)X,經(jīng)計(jì)算分析顯示,平衡隸屬度為0.8時(shí)為孤立,對(duì)其進(jìn)行模糊處理,顯示孤立點(diǎn)判斷具有一定的準(zhǔn)確性。
2.3 實(shí)驗(yàn)研究
為了證實(shí)孤立點(diǎn)檢測(cè)法的實(shí)際價(jià)值,將其應(yīng)用于移動(dòng)通信數(shù)據(jù)分析,但其數(shù)據(jù)規(guī)模偏大,并且數(shù)據(jù)呈不均勻分布,從而增加了檢測(cè)難度。實(shí)際研究中以偏離程度較大的數(shù)據(jù)為研究對(duì)象,根據(jù)數(shù)據(jù)特性,利用剪枝法,獲得了與中心偏離,并且稀疏的數(shù)據(jù),將其視為候選孤立點(diǎn)集,此后計(jì)算其LDOF值及平衡隸屬度,并展開(kāi)了專(zhuān)業(yè)分析,進(jìn)而指導(dǎo)了實(shí)際應(yīng)用,如:用戶(hù)投訴問(wèn)題處理、用戶(hù)行為分析等。
2.3.1 選取數(shù)據(jù)
選取某移動(dòng)通信網(wǎng)絡(luò)公司為研究對(duì)象,經(jīng)處理后,保證了數(shù)據(jù)集質(zhì)量,隨機(jī)抽取路測(cè)數(shù)據(jù),其均與平均接受電平(RXLEV)有關(guān),具體屬性有兩個(gè),分別為上行鏈路與下行鏈路,參數(shù)取值為-110~-48 dBm,通信信號(hào)電平數(shù)值被映射到某個(gè)RXLEV值,具體范圍為0~63,在非連續(xù)性發(fā)射環(huán)境下,RXLEV屬性分別FULL與SUB兩種,前者為測(cè)量所用載頻所有時(shí)隙均值,后者為測(cè)量特定通話(huà)時(shí)隙均值,經(jīng)調(diào)查發(fā)現(xiàn),用戶(hù)提交的報(bào)告中FULL缺少準(zhǔn)確性。因此,本研究選用了SUB[4]。
2.3.2 分析結(jié)果
孤立點(diǎn)檢測(cè)主要考慮檢測(cè)時(shí)間、檢測(cè)準(zhǔn)確性,隨機(jī)抽取6組數(shù)據(jù),數(shù)量呈遞增趨勢(shì),分別為10000,15000,30000,50000,75000與100000,其檢測(cè)時(shí)間分別為90.43、17.454、25.743、40.432、52.463、78.354s,與傳統(tǒng)檢測(cè)法相比,孤立點(diǎn)檢測(cè)時(shí)間明顯縮短、檢測(cè)效率大幅度提高,主要是因?qū)嶒?yàn)中使用剪枝策略,減少了計(jì)算量。此外實(shí)驗(yàn)中選取領(lǐng)域中的m個(gè)樣本,經(jīng)孤立點(diǎn)檢測(cè)發(fā)現(xiàn),5、8、10、13、15的準(zhǔn)確率分別為0.67、0.79、0.87、0.86、0.86,此結(jié)果表明,m為10以后,準(zhǔn)確率基本未變,因此,m確定為10。
綜上所述,移動(dòng)通信數(shù)據(jù)分析中僅有少部分為信號(hào)異常數(shù)據(jù),通過(guò)孤立點(diǎn)檢測(cè)法展開(kāi)挖掘分析,提升了檢測(cè)水平,為管理決策奠定了堅(jiān)持基礎(chǔ)。日后實(shí)踐中應(yīng)大力推廣孤立點(diǎn)檢測(cè)法。
[1]張凱書(shū),李志剛,吳慧芳,等.孤立點(diǎn)檢測(cè)在移動(dòng)通信數(shù)據(jù)分析上的研究與應(yīng)用[J].信息系統(tǒng)工程,2014(11):38.
[2]林國(guó)華.時(shí)間序列分析法在移動(dòng)通信數(shù)據(jù)分析中的研究與應(yīng)用[D].廣州:廣東工業(yè)大學(xué),2013.
Research and Application of outlier Detection in Mobile Communication Data Analysis
LuLin
China United Network Communications Limited Guangdong Branch, Guangdong Guangzhou 510627
The most protruding characteristics of mobile communication data is high dimension and large scale, conventional data analysis has a certain degree of difficulty, and abnormal data analysis more difficult. Therefore, this paper analyzes the research and application of outlier detection in mobile communication data analysis, to guide the practice, gradually improve the effectiveness and accuracy of analysis.
mobile communication; data analysis; outlier detection
TP311.13
A
1009-6434(2016)10-0016-02