亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種提升樹算法在網(wǎng)絡(luò)故障關(guān)聯(lián)分析中的應(yīng)用*

        2019-02-14 06:15:12趙運(yùn)弢崔文杰左甜甜徐春雨
        火力與指揮控制 2019年12期
        關(guān)鍵詞:分類故障模型

        趙運(yùn)弢,崔文杰,左甜甜,徐春雨

        (1.沈陽理工大學(xué)信息科學(xué)與工程學(xué)院,沈陽 110159;2.東北大學(xué)信息科學(xué)與工程學(xué)院,沈陽 110819)

        0 引言

        隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,人類借助機(jī)器學(xué)習(xí)深入研究數(shù)據(jù)背后的規(guī)律和存在的問題,將人所具有的學(xué)習(xí)能力、分析能力賦能于機(jī)器,代替人類完成重要的智力活動(dòng)和任務(wù),并在許多方面取得了成功[1-2]。與此同時(shí),隨著網(wǎng)絡(luò)空間規(guī)模的日益擴(kuò)大和延伸,其網(wǎng)絡(luò)復(fù)雜度越來越高,網(wǎng)絡(luò)管理者對(duì)網(wǎng)絡(luò)的有效性控制面臨嚴(yán)峻的挑戰(zhàn)。其中,故障診斷和預(yù)測是網(wǎng)絡(luò)管理中的重點(diǎn)和難點(diǎn)所在,如果網(wǎng)絡(luò)的故障不能快速診斷和修復(fù),無論對(duì)民用網(wǎng)絡(luò)還是軍事網(wǎng)絡(luò)都將產(chǎn)生破壞后果。

        目前針對(duì)網(wǎng)絡(luò)故障關(guān)聯(lián)分析模型已有一些研究,他們主要從特征選擇和優(yōu)化分類器模型兩個(gè)方面來研究。文獻(xiàn)[3]提出了基于Gb 信令的GPRS 業(yè)務(wù)的潛在投訴故障預(yù)測方法。主要是從用戶投訴的信令分析入手,歸納信令特征,建立信令特征庫,最后采用決策樹算法作為分類器來預(yù)測用戶投訴行為。文獻(xiàn)[4]利用最小二乘SVM 模型進(jìn)行網(wǎng)絡(luò)故障診斷,并采用粒子群算法對(duì)模型參數(shù)進(jìn)行尋優(yōu),最終建立模型診斷網(wǎng)絡(luò)故障。文獻(xiàn)[5]中將無監(jiān)督的SOM 神經(jīng)網(wǎng)絡(luò)以及有監(jiān)督的BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合,通過SOM 神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練樣本進(jìn)行聚類。文獻(xiàn)[6]提出了基于大數(shù)據(jù)驅(qū)動(dòng)的投訴預(yù)測模型,他們首先在以往預(yù)測模型的數(shù)據(jù)集中加入大量運(yùn)營支持系統(tǒng)數(shù)據(jù),其次運(yùn)用現(xiàn)有機(jī)器學(xué)習(xí)算法自動(dòng)學(xué)習(xí)能描述用戶間關(guān)系的圖特征和特征間的二階組合特征,通過此類特征來提高模型的預(yù)測精度,最后運(yùn)用并行隨機(jī)森林來加快模型運(yùn)行速度。文獻(xiàn)[7]提出了基于深度學(xué)習(xí)的網(wǎng)絡(luò)故障預(yù)測模型,運(yùn)用深層網(wǎng)絡(luò)模型深度置信網(wǎng)絡(luò)來自動(dòng)學(xué)習(xí)用戶特征間的非線性組合特征。文獻(xiàn)[8]將粗糙集理論和BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行結(jié)合用于網(wǎng)絡(luò)故障診斷中。

        本文提出一種基于k-NN 的多分類器提升樹算法,針對(duì)反饋與故障關(guān)聯(lián)分析的弱分類問題,利用k-NN 對(duì)特征向量空間進(jìn)行批量弱分類,并結(jié)合adboost 誤差函數(shù)和迭代算法,通過計(jì)算加權(quán)分類誤差實(shí)現(xiàn)多分類器決策判別,從而實(shí)現(xiàn)基于k-NN 的強(qiáng)分類器,在此基礎(chǔ)之上,建立相應(yīng)的投訴預(yù)測模型,通過預(yù)測結(jié)果可有效降低因故障投訴率與故障率。

        1 基于k-NN 的多分類器提升樹算法

        對(duì)于故障關(guān)聯(lián)分析問題來說,將多個(gè)專家的判斷進(jìn)行綜合所得出的判斷,要比其中任何一個(gè)專家單獨(dú)的判斷好[9]?;趉-NN 的多分類器提升樹方法就是從弱學(xué)習(xí)算法出發(fā),基于k-NN 的隨機(jī)批量進(jìn)行訓(xùn)練學(xué)習(xí),得到一系列弱分類器(又稱為基本分類器),并結(jié)合adboost[10]誤差函數(shù)和迭代算法,實(shí)現(xiàn)多分類器決策判別,然后組合構(gòu)成一個(gè)強(qiáng)分類器。在每一輪訓(xùn)練學(xué)習(xí)的過程中,改變數(shù)據(jù)的權(quán)值或概率分布,提高那些被前一輪弱分類器錯(cuò)誤分類樣本的權(quán)值,而降低那些被正確分類樣本的權(quán)值。因此,沒有得到正確分類的數(shù)據(jù),由于其權(quán)值的加大而受到后一輪的弱分類器的更大關(guān)注。對(duì)于如何將弱分類器組合成一個(gè)強(qiáng)分類器的問題,提升樹方法采取加權(quán)多數(shù)表決的方法。具體地,加大分類誤差率小的弱分類器的權(quán)值,使其在表決中起較大作用,減小分類誤差率大的弱分類器的權(quán)值,使其在表決中起較小的作用。

        給定訓(xùn)練數(shù)據(jù)集為T,

        其中,每個(gè)樣本點(diǎn)由實(shí)例與標(biāo)記組成。實(shí)例xi∈X?RN,標(biāo)記yi∈Y={c1,c2,…,cK},X 是實(shí)例空間,Y 是標(biāo)記集合。其中,N 維向量xi表示為

        對(duì)于傳統(tǒng)的k-NN 算法[9],實(shí)例x 所屬的類y。

        1)根據(jù)給定的距離測度,在訓(xùn)練數(shù)據(jù)集T 中獲得與x 最鄰近的k 個(gè)點(diǎn),涵蓋k 個(gè)點(diǎn)的x 的鄰域記作Nk(x);

        2)在Nk(x)中,根據(jù)分類決策規(guī)則,決定x 的類別y,

        I(yi=cj)為指示函數(shù),表示為

        k-NN 算法其目標(biāo)為構(gòu)造一個(gè)滿足式(3)的強(qiáng)分類器,但是由于k 值的選擇會(huì)對(duì)k-NN 的結(jié)果產(chǎn)生重大影響。k 值如果選擇較小,“學(xué)習(xí)”的近似誤差會(huì)減小,但“學(xué)習(xí)”的估計(jì)誤差會(huì)增大,整體模型變復(fù)雜,容易發(fā)生過擬合;k 值如果選擇較大,“學(xué)習(xí)”的近似誤差會(huì)增大,但“學(xué)習(xí)”的估計(jì)誤差會(huì)減小,模型變得簡單,但會(huì)忽略大量有用信息。在實(shí)際應(yīng)用中,通常采用交叉驗(yàn)證的經(jīng)驗(yàn)方法來選取最優(yōu)k值,構(gòu)建強(qiáng)分類器。

        本文提出一種基于k-NN 的多分類器提升樹算法,先構(gòu)造一個(gè)弱分類器,

        從弱分類器出發(fā),通過“學(xué)習(xí)”訓(xùn)練得到一系列弱分類器,改變訓(xùn)練數(shù)據(jù)權(quán)值分布,構(gòu)建最終分類器,算法步驟主要包括:

        1)根據(jù)L1范式,定義近鄰距離,

        在訓(xùn)練數(shù)據(jù)集T 中,標(biāo)記為yi的分類歸屬于x最鄰近的k 個(gè)點(diǎn),涵蓋k 個(gè)點(diǎn)的x 的鄰域記作;

        2)根據(jù)式(2)~式(4),構(gòu)造初始弱分類器G(mx),弱分類器應(yīng)滿足,

        即,構(gòu)造的弱分類器在鄰域Nk(x)中不為空。

        3)計(jì)算分類器Gm(x)在訓(xùn)練數(shù)據(jù)集上的分類誤差率

        根據(jù)式(2)~式(7),得0<em<1。

        4)計(jì)算Gm(x)的系數(shù)

        5)更新訓(xùn)練數(shù)據(jù)集的權(quán)值

        其中,wm+1,i表示為

        這里,初始化的wm,i為相等權(quán)值,Qm為歸一化因子

        6)并計(jì)算權(quán)值分類誤差

        選擇em+1<em的一個(gè)分類。

        7)構(gòu)建基于線性組合的基本分類器f(x)

        8)重復(fù)4)~7)過程,直到分類器學(xué)習(xí)完畢。

        9)得到最終分類器

        其中,g(x)是分段函數(shù)f(x)的展開式。

        2 實(shí)驗(yàn)結(jié)果與分析

        本文以某市移動(dòng)運(yùn)營網(wǎng)絡(luò)一個(gè)月的反饋工單數(shù)據(jù)與故障數(shù)據(jù)作為研究對(duì)象,投訴列表中共有6 103 個(gè)樣本以及27 個(gè)屬性,刪除取值唯一(如反饋城市)以及取值分散(如客戶姓名)此類屬性后,保留12 個(gè)屬性進(jìn)行探究。利用基于R 語言可視化12 個(gè)屬性之間的關(guān)系,散點(diǎn)圖矩陣如圖1 所示。

        圖1 屬性散點(diǎn)仿真圖矩陣

        相關(guān)系數(shù)在對(duì)角線的上方。在對(duì)角線上,直方圖描繪了每個(gè)特征的取值分布。對(duì)角線下方的散點(diǎn)圖帶有額外的可視化信息。每個(gè)散點(diǎn)圖中呈現(xiàn)橢圓形的對(duì)象稱為相關(guān)橢圓,它提供了一種變量之間是如何密切相關(guān)的可視化信息。位于橢圓中心的點(diǎn)表示x 軸變量的均值和y 軸變量的均值所確定的點(diǎn)。兩個(gè)變量之間的相關(guān)性由橢圓的形狀所表示,橢圓越被拉伸,其相關(guān)性越強(qiáng)。

        指定相關(guān)系數(shù)的值在0.1~0.3 為弱相關(guān),在0.3~0.5 為中相關(guān),超過0.5 為強(qiáng)相關(guān)。因此,篩選掉3 個(gè)與其他高度相關(guān)的屬性,只留下9 個(gè)屬性。同時(shí)刪除錯(cuò)誤數(shù)據(jù)以及空白數(shù)據(jù)達(dá)到對(duì)數(shù)據(jù)的清洗。

        圖2 網(wǎng)絡(luò)/非網(wǎng)絡(luò)原因分析直方圖

        通過對(duì)清洗后的投訴工單做統(tǒng)計(jì)分析,例如對(duì)問題原因?qū)傩缘姆治觯鐖D2、下頁圖3 所示。

        圖3 基于網(wǎng)絡(luò)原因的主屬性分析直方圖

        從條形圖可以直觀地看出問題原因中網(wǎng)絡(luò)原因占主要比例,網(wǎng)絡(luò)原因中“覆蓋盲點(diǎn)”是用戶投訴的主要因素。同樣還能得到其他主要因素:投訴場景中的“農(nóng)村”、“居民區(qū)”,客戶品牌中的“全球通”,客戶級(jí)別中的“三星客戶”。

        通過對(duì)投訴分類的預(yù)測來分析用戶投訴與故障發(fā)生的相關(guān)關(guān)系。對(duì)上述投訴表處理產(chǎn)生的結(jié)果,將處理完成的數(shù)據(jù)集隨機(jī)打亂并分為兩部分:訓(xùn)練集(5 071 條)和測試集(1 000 條),并對(duì)屬性進(jìn)行編碼。通過多次實(shí)驗(yàn),證明“用戶歸屬地”、“工單性質(zhì)”和“網(wǎng)絡(luò)標(biāo)識(shí)”這3 個(gè)屬性區(qū)分效果不明顯,故保留剩下的6 個(gè)屬性,以“投訴分類”作為類標(biāo)簽,利用分類器(提升樹,決策樹,RIPPER,SVM)進(jìn)行分類。

        圖4 分類準(zhǔn)確率對(duì)比

        如圖4 所示當(dāng)測試集分別為600,1 000,1 400時(shí),應(yīng)用4 種代表性分類算法的分類準(zhǔn)確率對(duì)比,可見提升樹的分類準(zhǔn)確率最高。

        通過上述研究,最終將故障劃分為3 類,分別是:基站退服故障、覆蓋盲點(diǎn)、非網(wǎng)絡(luò)原因(客戶主觀原因)。將原始的投訴表按這3 種類型進(jìn)行分割,其中基站退服故障包含1 598 條投訴,覆蓋盲點(diǎn)包含3 337 條投訴,非網(wǎng)絡(luò)原因包含835 條投訴。對(duì)這3 種故障分別通過提升樹進(jìn)行建模分析。

        2.1 基于基站退服的故障分析

        將基于基站退服故障的1 598 條投訴記錄,其中1 498 條作為訓(xùn)練集,100 條作為測試集。通過提升樹對(duì)測試集預(yù)測結(jié)果的交叉校驗(yàn)輸出結(jié)果如圖5所示。

        圖5 基于基站退服交叉校驗(yàn)輸出結(jié)果圖

        正確分類的有87 條,其精度達(dá)到87%。

        2.2 基于覆蓋盲點(diǎn)的故障分析

        對(duì)基于覆蓋盲點(diǎn)投訴的3 337 條投訴記錄,其中2 737 條作為訓(xùn)練集,600 條作為測試集。通過提升樹對(duì)測試集預(yù)測結(jié)果的交叉校驗(yàn)輸出結(jié)果如圖6所示。

        圖6 基于覆蓋盲點(diǎn)的交叉校驗(yàn)輸出結(jié)果圖

        正確分類的有536 條,其精度達(dá)到89.3%。

        2.3 基于非網(wǎng)絡(luò)原因的故障分析

        對(duì)基于非網(wǎng)絡(luò)原因投訴的835 條投訴記錄,其中735 條作為訓(xùn)練集,100 條作為測試集。通過提升樹對(duì)測試集預(yù)測結(jié)果的交叉校驗(yàn)輸出結(jié)果如圖7所示。

        圖7 基于非網(wǎng)絡(luò)原因的交叉校驗(yàn)輸出結(jié)果圖

        正確分類的有79 條,其預(yù)測正確率達(dá)到79%。

        3 結(jié)論

        在網(wǎng)絡(luò)大數(shù)據(jù)的背景下,為了提高因故障反饋分類的準(zhǔn)確率,提出一種基于KNN 多分類器的提升樹算法,采用k 近鄰對(duì)特征向量空間劃分,結(jié)合adboost 誤差函數(shù)和迭代算法,構(gòu)建基于k-NN 的強(qiáng)分類器,實(shí)現(xiàn)基于故障反饋數(shù)據(jù)的決策分類和歸屬判別,并將因故障反饋原因分為3 類:基站退服故障、覆蓋盲點(diǎn)故障、非網(wǎng)絡(luò)原因故障。構(gòu)建3 種反饋故障的預(yù)測模型。通過真實(shí)數(shù)據(jù)實(shí)驗(yàn)分析,該算法能夠有效預(yù)測網(wǎng)絡(luò)運(yùn)行故障,進(jìn)而降低因故障投訴率與故障率。

        猜你喜歡
        分類故障模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        故障一點(diǎn)通
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        奔馳R320車ABS、ESP故障燈異常點(diǎn)亮
        日本一区二区三区综合视频| 国产精品亚洲欧美云霸高清| 日本加勒比东京热日韩| 97久久国产精品成人观看| 一二三四区中文字幕在线| 最近在线更新8中文字幕免费| 亚洲毛片在线播放| 91九色国产在线观看| 国内自拍情侣露脸高清在线| 欧美成人免费全部| 97福利视频| 伊人久久大香线蕉av色婷婷| 精品无码国产自产在线观看水浒传| 亚洲国产成人久久综合电影| 亚洲精品一区网站在线观看| 中文字幕精品人妻丝袜| 77777_亚洲午夜久久多人| 无码国产午夜福利片在线观看 | 欧洲乱码伦视频免费| 亚洲精品国产一区二区免费视频 | 国产一区二区三区我不卡| 中文无码熟妇人妻av在线| 人妻少妇精品无码专区二| 中文字幕一区二区三区久久网站| 在线无码免费看黄网站| 一区二区三区国产色综合| 日韩欧美成人免费观看| 国产精品偷伦视频免费手机播放| av免费观看在线网站| 亚洲乱码国产乱码精华| 亚洲国产综合精品 在线 一区 | 精品国产一区二区三区av天堂| 久久成人国产精品| 亚洲中文字幕无码卡通动漫野外| 久久中文字幕国产精品| 中文字幕人成乱码熟女| 久久夜色精品国产噜噜麻豆| 巨臀中文字幕一区二区| 极品夫妻一区二区三区| 中文有码无码人妻在线| 国产福利姬喷水福利在线观看|