亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于投影尋蹤的電信網(wǎng)絡(luò)數(shù)據(jù)處理方法

        2016-02-08 03:56:30趙晉明
        電信科學(xué) 2016年12期
        關(guān)鍵詞:高維網(wǎng)絡(luò)管理降維

        趙晉明

        (山西省太原市文通電子有限公司,山西 太原030002)

        一種基于投影尋蹤的電信網(wǎng)絡(luò)數(shù)據(jù)處理方法

        趙晉明

        (山西省太原市文通電子有限公司,山西 太原030002)

        在大數(shù)據(jù)時代,運(yùn)營商采集和處理的數(shù)據(jù)出現(xiàn)了爆炸式增長。與此同時,采集數(shù)據(jù)維度增長使得從數(shù)據(jù)中提取信息的難度大大提高,導(dǎo)致了運(yùn)營商新增的計(jì)算能力并沒有帶來與之匹配的信息處理能力提升。造成這一現(xiàn)象的主要原因在于并非所有維度上都有運(yùn)營商關(guān)心的信息,過高的維度反而帶來額外的噪音。因此,根據(jù)數(shù)據(jù)特性選擇適當(dāng)?shù)木S度十分必要?;谏鲜隹紤],提出了一種基于投影尋蹤的數(shù)據(jù)處理方法,并通過基于實(shí)際網(wǎng)絡(luò)數(shù)據(jù)的對比驗(yàn)證了本文所述方案的有效性。

        網(wǎng)絡(luò)管理;降維;投影尋蹤

        1 引言

        通信網(wǎng)絡(luò)中存在著大量的復(fù)雜事物及現(xiàn)象,網(wǎng)絡(luò)管理人員一直希望通過網(wǎng)絡(luò)參數(shù)的提取來揭示隱藏在這些紛繁復(fù)雜的表象下的現(xiàn)象和客觀規(guī)律。長久以來,網(wǎng)絡(luò)管理者不斷研制新的網(wǎng)絡(luò)管理工具,發(fā)展新的性能測試技術(shù)。對于當(dāng)前的網(wǎng)絡(luò)狀況,可以用來描述小區(qū)語音話務(wù)量、小區(qū)語音質(zhì)量、小區(qū)數(shù)據(jù)等效話務(wù)量、小區(qū)數(shù)據(jù)質(zhì)量、掉線率、語音信道擁塞率、無線接入性、無線利用率等幾十個指標(biāo)。因此,對于每時每刻的網(wǎng)絡(luò)狀況,可以用多變量組成的數(shù)據(jù)細(xì)致地表示。這些數(shù)據(jù),抽象出來就是高維數(shù)據(jù)。這些數(shù)據(jù)提供了網(wǎng)絡(luò)中極其詳細(xì)的信息。但是,數(shù)據(jù)維數(shù)的大幅度提高也給隨后的數(shù)據(jù)處理和分析工作帶來了巨大的困難。

        網(wǎng)絡(luò)管理系統(tǒng)作為一個數(shù)據(jù)處理系統(tǒng),通常需要在輸入數(shù)據(jù)的信息量較高的情況下才能有效工作。而當(dāng)輸入向量維數(shù)過高時,如何尋找有效信息將變得更加困難,導(dǎo)致“維度災(zāi)難”[1,2]——系統(tǒng)計(jì)算量增加而效能無法提升。因此,必須采取一定的措施使系統(tǒng)能夠有效地從數(shù)據(jù)中獲得信息,發(fā)揮出計(jì)算能力的最大效能,這就是“降維”。

        降維的核心思想就是要將輸入數(shù)據(jù)的維數(shù)降低到一個合理的范圍內(nèi),并盡可能多地保留數(shù)據(jù)中的原始信息。對于網(wǎng)絡(luò)管理系統(tǒng)這樣需要處理海量數(shù)據(jù)的系統(tǒng),這種做法不僅是有用的甚至可能是必須的,圖1描述了高維數(shù)據(jù)降維的過程。

        圖1 高維數(shù)據(jù)降維的過程

        在大量的工程實(shí)踐中,很多表面上看是高維、復(fù)雜的問題,實(shí)際可以通過很少的變量(特征向量)來描述,例如人臉識別、語音識別、基因測序等問題。然而,除了個別領(lǐng)域,目前國內(nèi)外對降維的研究更多集中在理論探索,在工程中的具體實(shí)踐還相對較少。英國謝菲爾德大學(xué)的Carreira[3]在對各種降維方法綜合分析研究的基礎(chǔ)上,提出了一種抽象的模型;美國斯坦福大學(xué)的Donoh等人[4]對于高維數(shù)據(jù)空間進(jìn)行了比較深入的研究,獲得了很有指導(dǎo)意義的結(jié)果。國內(nèi)相關(guān)領(lǐng)域的研究還比較少。電信網(wǎng)管系統(tǒng)具有海量的數(shù)據(jù),對這些數(shù)據(jù)的有效處理和準(zhǔn)確分析具有十分重要的實(shí)際意義。本文從電信網(wǎng)管系統(tǒng)的具體需求出發(fā),結(jié)合國內(nèi)外相關(guān)研究成果的思想,提出了一種基于降維思想的數(shù)據(jù)處理方法,提升了數(shù)據(jù)處理過程的準(zhǔn)確性和處理效率。

        2 綜合網(wǎng)管數(shù)據(jù)分析的現(xiàn)狀及問題

        高維空間體現(xiàn)出許多在低維無法想象的特殊性質(zhì),最顯著的就是高維空間中的數(shù)據(jù)分布是“稀疏”的。具體而言,對于任意d維空間Rd,其中半徑為r的球體的空間體積Vd(r)可以表示為:

        這樣的超球體存在一種低維下十分罕見的特性,即其“體積”的大部分存在于表面上,其“表面”與“整體”的體積比例可以寫成:

        于是:

        在這種情況下,對于由網(wǎng)絡(luò)參數(shù)構(gòu)建的高維空間,傳統(tǒng)的多元統(tǒng)計(jì)方法無法得到準(zhǔn)確的結(jié)果,因此對采集到的數(shù)據(jù)進(jìn)行適當(dāng)?shù)慕稻S就十分必要。具體而言,降維的數(shù)學(xué)解釋就是將高維數(shù)據(jù)投影到一個維數(shù)比原數(shù)據(jù)空間小得多的流形上。而降維操作的目標(biāo)就是獲得這一流形的低維坐標(biāo)表示。

        圖2 降維過程的數(shù)學(xué)含義

        在通信網(wǎng)絡(luò)中,由于各種因素的影響,如采樣噪聲、參數(shù)設(shè)計(jì)不合理、人為干擾因素等,使得網(wǎng)絡(luò)采集數(shù)據(jù)中的信息被大量噪音所掩蓋。通常,很多參數(shù)所攜帶的信息遠(yuǎn)小于其引入的噪音,因此,把它們“過濾”掉可以幫助網(wǎng)絡(luò)管理人員更好地提取信息。從實(shí)用的角度來看,對于通信網(wǎng)絡(luò)參數(shù)的降維就是在保留網(wǎng)絡(luò)結(jié)構(gòu)信息的條件下盡可能減少所用參數(shù)的數(shù)量、降低數(shù)據(jù)中的噪音,使網(wǎng)絡(luò)管理系統(tǒng)可以最大程度地實(shí)現(xiàn)對網(wǎng)絡(luò)狀態(tài)的客觀評估。

        3 基于投影追蹤的數(shù)據(jù)分析方法

        在降維的各種方法中,投影尋蹤 (projection pursuit,PP)是用來分析和處理高維數(shù)據(jù),尤其是來自非正態(tài)總體的高維數(shù)據(jù)的一種有效方法。20世紀(jì)70年代初,Kruskal開創(chuàng)性地通過把數(shù)據(jù)投影到低維空間,以極大化某個指示參數(shù)的方式迭代出最佳投影結(jié)構(gòu)的方法。投影追蹤通過將原數(shù)據(jù)“投影”到某幾個信息量最大的線性組合上,使得信息被保留的同時減少了數(shù)據(jù)的維度和數(shù)據(jù)中的噪音。目前,投影追蹤的方法已經(jīng)在多個領(lǐng)域進(jìn)行了有效的推廣,取得了較好的效果。

        1.3 常規(guī)復(fù)習(xí)和基于項(xiàng)目學(xué)習(xí)理論的復(fù)習(xí)之間的差異 兩者對比,在常規(guī)復(fù)習(xí)中教師是中心,學(xué)生只是被動接受知識者,結(jié)果是知識的簡單重復(fù),學(xué)生的機(jī)械操練,尤其是在“二考”復(fù)習(xí)時會使學(xué)生新鮮感喪失、倦怠感陡增、學(xué)習(xí)效率下降,“二考”復(fù)習(xí)變成食之無味棄之可惜的“雞肋”。基于項(xiàng)目學(xué)習(xí)理論的復(fù)習(xí)以學(xué)生為出發(fā)點(diǎn)和落腳點(diǎn),強(qiáng)調(diào)自主探究、合作學(xué)習(xí),以發(fā)展學(xué)生學(xué)科核心素養(yǎng)為目的,著眼于學(xué)生對于知識的內(nèi)化和學(xué)生解決實(shí)際問題能力的提升,真正體現(xiàn)了課程改革的理念。這種復(fù)習(xí)方式克服了以往理綜復(fù)習(xí)和“一考”復(fù)習(xí)中教師對學(xué)生、對知識的絕對控制帶來的弊端,學(xué)生收獲的不僅僅是選考成績的進(jìn)步,更是學(xué)生學(xué)科核心素養(yǎng)的提升。

        在電信網(wǎng)管系統(tǒng)中,可以采集到多種維度的數(shù)據(jù)。這些不同維度數(shù)據(jù)的線性組合通常是接近高斯分布的[5]。從信息的角度來看,高斯分布幾乎全部是噪音。在這種情況下,為了減少噪音,一方面需要減少輸入?yún)?shù)的維度,另一方面需要通過線性變換,將原數(shù)據(jù)映射到信息含量更高的維度上。上述兩方面可以通過采用投影跟蹤來實(shí)現(xiàn)——通過選擇信息量最高的少數(shù)幾個投影方向進(jìn)行坐標(biāo)變換。

        投影追蹤就是實(shí)現(xiàn)上述目標(biāo)的一種數(shù)學(xué)方法,即通過在原始數(shù)據(jù)的不同投影空間上尋找信息量最大的少數(shù)幾個投影方向來降低數(shù)據(jù)的維度。具體來說,假設(shè)網(wǎng)絡(luò)管理系統(tǒng)采集到的d維參數(shù)集為X,則降維的目標(biāo)可以表述為找到最佳映射F→R,假設(shè)所采用的映射方法是線性的,則該映射可以寫為:F=AX,其中A為轉(zhuǎn)換矩陣。這樣,降維的目標(biāo)就是尋找最優(yōu)轉(zhuǎn)化矩陣A,使得X在新坐標(biāo)下表現(xiàn)出更優(yōu)的線性結(jié)構(gòu)。

        尋找最優(yōu)轉(zhuǎn)化矩陣的評價標(biāo)準(zhǔn)為Q(AX),為了簡化運(yùn)算電信網(wǎng)管系統(tǒng)的計(jì)算和管理負(fù)擔(dān),可以采用方差作為評價指標(biāo),即Q(aTX)=Var(aTX)。這樣,對于參數(shù)集X={x1,x2,…, xn},其方差可以寫作:

        這樣,找到最優(yōu)的aTX,得到的就是樣本a散布最大的方向。多元正態(tài)分布線性投影依然是正態(tài)分布,因此如果在某個投影方向上找到與正態(tài)分布差別較大的數(shù)據(jù)集,那它就一定含有更多信息,因此在這個方向上進(jìn)行數(shù)據(jù)進(jìn)行分析可以更快、更精確地挖掘出其中所蘊(yùn)含的信息[6]。因此,這樣一種指標(biāo)也成為信息散度。更精確的說,對于數(shù)據(jù)集f和g,其所對應(yīng)的數(shù)據(jù)散度為:

        投影追蹤就是基于信息的這一性質(zhì),即不斷尋找能反映原高維數(shù)據(jù)信息的投影向量,通過對投影向量的分析來獲得原高維數(shù)據(jù)中的有用信息。更具體地說,對于電信網(wǎng)絡(luò)中的高維數(shù)據(jù),可以采用如下步驟進(jìn)行降維處理。

        步驟1 首先選定正態(tài)分布作為向低維映射的標(biāo)準(zhǔn)。

        步驟2 將原始數(shù)據(jù)在正態(tài)分布上進(jìn)行投影,找到最遠(yuǎn)離正態(tài)分布的投影方向,這一投影方向上包含了最大的有用信息。

        步驟3 將上述投影過程中,與原正態(tài)分布相似度較大的方向上的數(shù)據(jù)刪除,得到新的數(shù)據(jù)集。

        步驟4 對新數(shù)據(jù)集重復(fù)步驟2、步驟3,直到所有的投影方向上得到的映射都遠(yuǎn)離正態(tài)分布,即將原數(shù)據(jù)集中的全部有用信息提取完畢。

        在實(shí)踐中,這一方法可以快速找到最能反映網(wǎng)絡(luò)狀態(tài)的參數(shù),提升網(wǎng)絡(luò)管理人員對網(wǎng)絡(luò)狀態(tài)的理解。另外,投影尋蹤的方法可以將高維數(shù)據(jù)投影到一維子空間,使得可以方便地找到影響網(wǎng)絡(luò)某一性能的最主要因素。這一特性對于網(wǎng)絡(luò)管理工作提供了極大的便利,在下文中將通過基于實(shí)際數(shù)據(jù)的案例對這一過程進(jìn)行詳細(xì)說明。

        4 本文方案的驗(yàn)證與比較

        為了驗(yàn)證本文所提出的電信網(wǎng)管系統(tǒng)中數(shù)據(jù)處理的方法,本文以運(yùn)營商的實(shí)際數(shù)據(jù)為例,對比不同方案的數(shù)據(jù)分析過程得到的效果。原始數(shù)據(jù)為某省會城市10 000個小區(qū)的各項(xiàng)采集參數(shù)。將原始數(shù)據(jù)集進(jìn)行可視化,得到的結(jié)果如圖3所示??梢钥吹剑捎谠紨?shù)據(jù)中的相關(guān)性十分復(fù)雜,無法直接獲得有關(guān)網(wǎng)絡(luò)狀態(tài)的直觀信息。因此,需要對原始高維數(shù)據(jù)進(jìn)行處理,以獲得有關(guān)網(wǎng)絡(luò)性能更加直觀的關(guān)系。

        例如,為了獲得小區(qū)掉線數(shù)量的影響指標(biāo),可以按照本文所述方法對原始數(shù)據(jù)進(jìn)行降維。根據(jù)上文所述過程,基于投影追蹤的方式分析得到影響小區(qū)掉線的主要指標(biāo)及影響因素(投影長度),得到結(jié)果分別為:小區(qū)數(shù)據(jù)流量(1.342)、小區(qū)載頻數(shù)量(0.312)、小區(qū)CPU利用率(0.248)、小區(qū)語音總量(0.219)??梢钥吹?,小區(qū)的數(shù)據(jù)流量是影響小區(qū)掉線率最重要的指標(biāo),其影響顯著遠(yuǎn)超其他指標(biāo)的影響。

        圖3 電信網(wǎng)管系統(tǒng)采集到的原始高維數(shù)據(jù)集

        為了驗(yàn)證這一結(jié)果的有效性,對兩組樣本進(jìn)行分析,其結(jié)果如圖4、圖5所示。其中第一組樣本是相鄰兩個月掉線次數(shù)變化與網(wǎng)絡(luò)流量變化之間的關(guān)系;第二組樣本為相鄰兩個月掉線次數(shù)變化與通話時長變化的關(guān)系。可以看到,對于所選取樣本,掉線與數(shù)據(jù)流量之間存在明顯關(guān)系而與語音通話時長關(guān)系并不明顯,可見,掉線成因的先驗(yàn)判斷可能會給網(wǎng)絡(luò)狀態(tài)的評估帶來很大的不確定性。

        圖4 無線小區(qū)掉線次數(shù)變化與數(shù)據(jù)流量變化的數(shù)據(jù)映射投影

        圖5 無線小區(qū)掉線次數(shù)變化與語音業(yè)務(wù)時長變化的數(shù)據(jù)映射投影

        與此同時,為了驗(yàn)證本文所提方法的實(shí)際性能,本文基于上述樣本對比本文所提出算法與傳統(tǒng)處理高維的聯(lián)機(jī)分析處理(on-line analytical processing,OLAP)方法。其中樣本為市中心高負(fù)載小區(qū),且存在由于CPU負(fù)載過高引起過高掉話次數(shù)的現(xiàn)象。本文將所選小區(qū)分為10組,各自通過上述高維數(shù)據(jù)比較對掉線發(fā)生成因判斷的準(zhǔn)確性,結(jié)果如圖6所示。

        圖6 本文所提方法與OLAP方法的性能比較

        從結(jié)果可以看到,本文所提出的數(shù)據(jù)處理方法有效地提高了數(shù)據(jù)分析的準(zhǔn)確性。對于某一業(yè)務(wù)而言,其質(zhì)量并不完全取決于網(wǎng)絡(luò)參數(shù),但是,通過不斷地對數(shù)據(jù)進(jìn)行分析,可以在很大程度上及時發(fā)現(xiàn)網(wǎng)絡(luò)運(yùn)行中存在的問題。因此,這樣的準(zhǔn)確率已經(jīng)基本可以滿足運(yùn)營商對于網(wǎng)絡(luò)管理的要求,同時也說明本文所提出的分析方法具有一定的適用價值。

        5 結(jié)束語

        對數(shù)據(jù)的處理能力未來將成為運(yùn)營商增強(qiáng)競爭力、提高網(wǎng)絡(luò)管理效率的重要手段。因此,對數(shù)據(jù)的高效分析是運(yùn)營商的重要資產(chǎn)。本文從提升運(yùn)營商的數(shù)據(jù)處理能力的實(shí)際需求出發(fā),提出了基于投影尋蹤實(shí)現(xiàn)降低數(shù)據(jù)維度的有效方法。最后,通過基于實(shí)際數(shù)據(jù)對比驗(yàn)證證明了本文所提出方法的有效性。本文研究成果對未來運(yùn)營商的數(shù)據(jù)使用和分析的相關(guān)研究有著較大的借鑒意義。

        [1]BELLMAN T E.Adaptive control processes[M].Princeton: Princeton University Press,1961.

        [2]MAATEN L J P V D,POSTMA E O,HERIK H J V D. Dimensionality reduction:a comparative review [J].Journal of Machine Learning Research,2007,10(1).

        [3]CARREIRA-PERPINAN M A.Continuous latentvariablemodels for dimensionalityreduction and sequentialdatareconstruction[EB/OL]. (2001-01-29)[2016-11-02].http://xueshu.baidu.com/s?wd= Continuous+Latent+Variable+Models+for+Dimensionality+ Reduction+and+Sequential+Data+Reconstruction&tn =SE_ baiduxueshu_c1gjeupa&cl=3&ie=utf-8&bs=Dimensionality + reduction%3A+a+comparative+review&f=8&rsv_bp=1&rsv_sug2 =1&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D& rsv_n=2.

        [4]DONOHO D L.High dimensional data analysis:the curses and blessings of dimensionality[EB/OL].(2000-01-29)[2016-11-02]. http://xueshu.baidu.com/s?wd=High+dimensional+data+analysis %3A+the+curses+and+blessings+of+dimensionality&tn= SE_baiduxueshu_c1gjeupa&cl=3&ie=utf-8&bs=Continuous+ Latent+Variable+Models+for+Dimensionality+Reduction+and+ Sequential+Data+Reconstruction&f=8&rsv_bp=1&rsv_sug2= 1&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D&rsv_ n=2.

        [5]DIACONIS P,FEREDMNA D.Asymptoticsofgraphical projection pursuit[J].Annals of Statistics,1984,12(3):793-815.

        [6]張維明.數(shù)據(jù)倉庫原理與應(yīng)用 [M].北京:電子工業(yè)出版社, 2002. ZHANG W M.The principle and application ofdata warehouse[M].Beijing:Publishing House of Electronics Industry,2002.

        Data processing method for telecom data based on projection pursuit

        ZHAO Jinming
        Wentong Company Limited,Taiyuan 030002,China

        In the big data era,the data which operator can collect and process is quickly growing.At the same time, due to the high dimension of the data,it is very difficult to extract and process information from them.This makes the waste of the computing capability of operators,even may lead to the decrease of performance due to the growth of the data dimension.The main reason of this phenomenon is that not all dimensions are interested with the information.Therefore,it is necessary to select the appropriate dimensions according to the data characteristics. Based on this,a data processing method based on projection pursuit was proposed.The result demonstrates the effectiveness of the scheme.

        network management,dimension reduction,projection pursuit

        TN915

        A

        10.11959/j.issn.1000-0801.2016322

        2016-11-02;

        2016-12-14

        趙晉明(1973-),男,山西省太原市文通電子有限公司研發(fā)主管,主要研究方向?yàn)榫W(wǎng)絡(luò)管理系統(tǒng)的架構(gòu)和關(guān)鍵算法,具有豐富的理論和工程經(jīng)驗(yàn),為中國移動通信集團(tuán)公司等運(yùn)營商解決了大量運(yùn)維難題,并實(shí)現(xiàn)多項(xiàng)關(guān)鍵技術(shù)突破。

        猜你喜歡
        高維網(wǎng)絡(luò)管理降維
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
        電動汽車充電服務(wù)網(wǎng)絡(luò)管理初探
        基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
        基于EOC通道的SHDSL網(wǎng)絡(luò)管理技術(shù)
        一般非齊次非線性擴(kuò)散方程的等價變換和高維不變子空間
        高維Kramers系統(tǒng)離出點(diǎn)的分布問題
        拋物化Navier-Stokes方程的降維仿真模型
        基于特征聯(lián)合和偏最小二乘降維的手勢識別
        国产精品视频白浆免费看| 日本55丰满熟妇厨房伦| 国产AV无码专区亚洲AV桃花庵| 一级一片内射在线播放| 蜜桃视频国产一区二区| 日本入室强伦姧bd在线观看| 国产欧美日产久久| 国产91精品丝袜美腿在线| 在线天堂av一区二区| 成年女人a毛片免费视频| 猫咪www免费人成网最新网站| 色二av手机版在线| 日本一区二区三区经典视频| 狼狼综合久久久久综合网| 国产mv在线天堂mv免费观看| 亚洲国产成人aⅴ毛片大全| 欧美亚洲韩国国产综合五月天| 经典亚洲一区二区三区| 国产极品美女高潮无套| 中文字幕日韩精品无码内射| 成人无码区免费AⅤ片WWW| 亚洲av无吗国产精品| 久久偷看各类wc女厕嘘嘘偷窃| 色欲av蜜桃一区二区三| 亚洲网站地址一地址二| 绿帽人妻被插出白浆免费观看| 在线观看亚洲av每日更新影片 | 国产尤物精品自在拍视频首页| 免费在线观看亚洲视频| 上海熟女av黑人在线播放| 亚洲毛片αv无线播放一区| 久久精品—区二区三区无码伊人色| 人妻中文字幕一区二区三区| 国产精品无码一区二区三级| 久久久亚洲色| 国产激情一区二区三区在线蜜臀 | 亚洲熟妇无码av另类vr影视| 亚洲熟妇av日韩熟妇av| 蜜桃av人妻精品一区二区三区| 天天夜碰日日摸日日澡性色av| 精品综合久久久久久97超人|