張 華
(福建警察學(xué)院計(jì)算機(jī)與信息安全管理系,福州350007)
光纖通信是利用光網(wǎng)絡(luò)進(jìn)行大數(shù)據(jù)信息傳輸和信息調(diào)度控制的有線帶寬網(wǎng)絡(luò)通信。在采用光纖通信進(jìn)行數(shù)據(jù)傳輸中受到傳輸信道的干擾以及碼間特征擾動等因素的影響,光纖通信產(chǎn)生故障,降低光纖網(wǎng)絡(luò)的輸出準(zhǔn)確性,因此需要對光纖故障進(jìn)行有效挖掘和分類,智能診斷,保障光纖通信的安全穩(wěn)定性和傳輸效率不受干擾。研究光纖通信故障數(shù)據(jù)的分類算法在實(shí)現(xiàn)光纖網(wǎng)絡(luò)的智能故障診斷中具有重要意義[1]。
對光纖網(wǎng)絡(luò)的故障數(shù)據(jù)分類通過數(shù)據(jù)挖掘和特征提取實(shí)現(xiàn)。提取光纖網(wǎng)絡(luò)故障數(shù)據(jù)的關(guān)聯(lián)特征量,采用抗干擾算法進(jìn)行濾波檢測[2],結(jié)合故障數(shù)據(jù)分類進(jìn)行智能診斷,提高光纖網(wǎng)絡(luò)通信的穩(wěn)定性,確保通信質(zhì)量。傳統(tǒng)方法主要有Reverse KNN法、模糊C均值分類方法、支持向量機(jī)分類方法以及BP神經(jīng)網(wǎng)絡(luò)分類方法等。采用機(jī)器學(xué)習(xí)、專家系統(tǒng)、統(tǒng)計(jì)學(xué)等分類模型進(jìn)行數(shù)據(jù)分類[3],提高故障的分類和預(yù)測能力,其中,文獻(xiàn)[4]中提出一種基于ART模型和Kohonen預(yù)測的光纖網(wǎng)絡(luò)故障數(shù)據(jù)分類算法,文獻(xiàn)[5]中提出一種基于模糊C均值數(shù)學(xué)分類方法的光纖網(wǎng)絡(luò)故障數(shù)據(jù)分類技術(shù)。
本文提出一種基于機(jī)器學(xué)習(xí)的光纖故障大數(shù)據(jù)分類算法。首先對采集的光纖網(wǎng)絡(luò)傳輸數(shù)據(jù)進(jìn)行低維度的特征集構(gòu)造,構(gòu)建光纖故障分布大數(shù)據(jù)庫,然后采用層次聚類方法對光纖故障大數(shù)據(jù)進(jìn)行極端隨機(jī)數(shù)分析,對全部的故障樣本進(jìn)行抽樣訓(xùn)練,提取光纖故障大數(shù)據(jù)的關(guān)聯(lián)特征量,結(jié)合K-means算法和最近鄰算法進(jìn)行數(shù)據(jù)聚類中心擾動性分析,將光纖故障大數(shù)據(jù)的特征提取結(jié)果進(jìn)行數(shù)據(jù)分類。仿真實(shí)驗(yàn)分析展示了本文方法在提高光纖故障大數(shù)據(jù)分類能力方面的優(yōu)越性能。
為了實(shí)現(xiàn)光纖故障大數(shù)據(jù)分類,利用模糊粗糙集聚類方法構(gòu)建光纖分布大數(shù)據(jù)庫模型,采用最近鄰優(yōu)先分布式信息挖掘方法進(jìn)行光纖故障大數(shù)據(jù)挖掘,采用自適應(yīng)的關(guān)聯(lián)規(guī)則調(diào)度方法進(jìn)行光纖故障數(shù)據(jù)的特征檢測和信息過濾,融合相關(guān)性檢測方法構(gòu)建光纖網(wǎng)絡(luò)故障數(shù)據(jù)的分布式大數(shù)據(jù)庫模型[6],將數(shù)據(jù)集進(jìn)行向量化處理,在不確定數(shù)據(jù)頻繁項(xiàng)集模式下計(jì)算光纖故障數(shù)據(jù)的頻繁項(xiàng)集,采用期望頻繁項(xiàng)(EFI)與概率頻繁項(xiàng)(PFI)融合分析方法,得到光纖故障分布大數(shù)據(jù)的調(diào)度集函數(shù)
其中,xj(t)表示數(shù)據(jù)集D中的分類信息熵,描述了在第j個聚類中心的樣本子集,lj(t)表示在故障數(shù)據(jù)分類過程中第t代學(xué)習(xí)的樣本集,計(jì)算光纖故障數(shù)據(jù)在第j個聚類中心的輸出標(biāo)簽屬性。采用分裂信息檢測方法分析光纖故障數(shù)據(jù)的統(tǒng)計(jì)特征量[7],結(jié)合標(biāo)量序列分析方法得到故障數(shù)據(jù)的存儲樣本數(shù)據(jù)庫模型
其中,m,n分別是光纖故障數(shù)據(jù)的采樣樣本的類別數(shù)和采樣節(jié)點(diǎn),設(shè)D為不確定數(shù)據(jù)庫,Ti為光纖故障數(shù)據(jù)的分類元素,對海量光纖數(shù)據(jù)采樣的統(tǒng)計(jì)分布概率為pi,采用頻繁項(xiàng)集的挖掘方法得到光纖故障數(shù)據(jù)的分布展開寬度
在上述基礎(chǔ)上,以少量樣本類別數(shù)據(jù)為測試集,采用層次聚類方法對光纖故障大數(shù)據(jù)進(jìn)行極端隨機(jī)數(shù)分析。在模糊層次聚類中心中,數(shù)據(jù)碼元元素t的期望支持度esup(D)大于閾值θ,則稱光纖網(wǎng)絡(luò)故障數(shù)據(jù)分類的屬性元素為一個頻繁項(xiàng),滿足約束條件的所有故障數(shù)據(jù)的分類屬性,元素滿足
對光纖網(wǎng)絡(luò)故障數(shù)據(jù)的聚類結(jié)果進(jìn)行自適應(yīng)調(diào)制,若故障類別元素t滿足有限調(diào)度模式,則稱其為概率頻繁項(xiàng)。
其中,δ為當(dāng)前決策樣本集的關(guān)聯(lián)規(guī)則閾值,PW為可能實(shí)例空間,minsup為流量特征的信息增益率,即元素t出現(xiàn)的最少次數(shù),Ct(ω)表示以ω為統(tǒng)計(jì)特征量的樣本回歸特征量,在實(shí)例空間中計(jì)算新的樣本子集,計(jì)算光纖故障數(shù)據(jù)元素t出現(xiàn)的次數(shù)。根據(jù)信息增益率值從大到小進(jìn)行排序[9],采用頻繁項(xiàng)挖掘方法分析故障概率最大時的閾值δ,再隨機(jī)找到一個點(diǎn)重復(fù)上述步驟??紤]到元素t在整個可能實(shí)例空間中成為頻繁項(xiàng)的概率,得到聚簇中心點(diǎn)匯總輸出
其中,‖x→‖表示x→的范數(shù)。由此實(shí)現(xiàn)對故障數(shù)據(jù)的統(tǒng)計(jì)回歸分析和樣本檢驗(yàn)。
在上述基礎(chǔ)上,進(jìn)行光纖故障大數(shù)據(jù)分類算法的優(yōu)化設(shè)計(jì)。本文提出一種基于機(jī)器學(xué)習(xí)的光纖故障大數(shù)據(jù)分類算法,采用層次聚類方法對光纖故障大數(shù)據(jù)進(jìn)行極端隨機(jī)數(shù)分析,為計(jì)算頻繁項(xiàng)概率,引入光纖故障大數(shù)據(jù)的故障發(fā)生概率和故障數(shù)據(jù)聚類頻次分布概念[10],用它來表示元素t在光纖故障大數(shù)據(jù)庫中出現(xiàn)不同頻次的概率,記為supt(D),則光纖故障大數(shù)據(jù)故障層次聚類的模糊迭代不等式可以轉(zhuǎn)化為
其中,numt(D)為光纖故障大數(shù)據(jù)的類間聚類分析元素t在故障樣本分布數(shù)據(jù)庫中出現(xiàn)的最大次數(shù)。對于supt(D)的計(jì)算,采用大數(shù)據(jù)分類全局搜索方法進(jìn)行故障數(shù)據(jù)分類的動態(tài)規(guī)劃[11],其計(jì)算公式為
其中,pi為第i個光纖故障大數(shù)據(jù)關(guān)聯(lián)規(guī)則分布元素出現(xiàn)在故障判決區(qū)域K中的概率,為前i個光纖故障大數(shù)據(jù)分類屬性元組中t元組出現(xiàn)模糊聚類區(qū)域j次的概率。計(jì)算當(dāng)前故障大數(shù)據(jù)分類窗口所有可能實(shí)例概率,大數(shù)據(jù)分類的模糊學(xué)習(xí)迭代式為
其中,β表示在大數(shù)據(jù)分類全局搜索的關(guān)聯(lián)特征量,故障大數(shù)據(jù)樣本集的第一部分表示元素t在第i個元素上出現(xiàn),即前i-1個故障大數(shù)據(jù)分類屬性元素中t僅出現(xiàn)j-1次的統(tǒng)計(jì)概率,以少量的樣本類別數(shù)據(jù)為測試集,采用層次聚類方法對光纖故障大數(shù)據(jù)進(jìn)行模糊隨機(jī)數(shù)分析,實(shí)現(xiàn)對光纖故障大數(shù)據(jù)層次聚類[12]。
對全部的故障樣本進(jìn)行抽樣訓(xùn)練,提取光纖故障大數(shù)據(jù)的關(guān)聯(lián)特征量[13-15],使用一個四元組結(jié)構(gòu)來描述光纖故障大數(shù)據(jù)的關(guān)聯(lián)特征:,其中,為光纖故障大數(shù)據(jù)在時刻到達(dá)窗口的第j次出現(xiàn)的第i個數(shù)據(jù)元素,為輸出優(yōu)化訓(xùn)練的最優(yōu)概率,(supk1(D),…,supkf(D))為數(shù)據(jù)聚類中心擾動概率分布值,(Tk1,…Tkj)為當(dāng)前窗口元素出現(xiàn)故障的光纖大數(shù)據(jù)頻繁項(xiàng)。采用機(jī)器學(xué)習(xí)算法[16],進(jìn)行故障大數(shù)據(jù)分類,得到機(jī)器學(xué)習(xí)迭代式
DPSWF算法:
輸入:光纖故障大數(shù)據(jù)的不確定數(shù)據(jù)流DS,光纖故障大數(shù)據(jù)的關(guān)聯(lián)樣本閾值minsup,統(tǒng)計(jì)分布概率閾值δ,光纖故障大數(shù)據(jù)采樣的窗口長度W;
輸出:支持向量機(jī)學(xué)習(xí)的頻繁項(xiàng)集合D
1)初始化機(jī)器學(xué)習(xí)的參數(shù)和故障數(shù)據(jù)分類系數(shù)SWF=null,D=null,Pij=0,supki(ω)=0 ;
2)forXij,隨機(jī)找到一個點(diǎn),得到故障大數(shù)據(jù)分類的所有聚簇的中心點(diǎn);
3)按照聚簇交叉計(jì)算其概率Pij;
4)i(f當(dāng)前窗口未滿),采用最近鄰優(yōu)先吸收方法進(jìn)行故障特征重組;
5)更新當(dāng)前窗口所含光纖故障大數(shù)據(jù)的樣本,計(jì)算故障類別的概率分布值supki(ω);
6)計(jì)算從數(shù)據(jù)集中超過頻次閾值的故障大數(shù)據(jù)樣本集,結(jié)合累計(jì)概率分布方法得到統(tǒng)計(jì)特征量為;
7)ifQ≥δ;
8)將機(jī)器學(xué)習(xí)的光纖故障大數(shù)據(jù)樣本加入頻繁項(xiàng)集合D;
9)else;
10)進(jìn)行樣本回歸分析,將故障數(shù)據(jù)存入窗口集合SWF;
11)end;
12)else//窗口已滿;
13)查找過期樣本元素,并刪除;
14)對全部的故障樣本進(jìn)行抽樣訓(xùn)練,更新窗口的概率分布值supki(ω);
15)end;
16)end;
17)返回光纖故障大數(shù)據(jù)的頻繁項(xiàng)集D。
運(yùn)用上述步驟,實(shí)現(xiàn)了光纖故障大數(shù)據(jù)分類算法的改進(jìn)設(shè)計(jì)。
為了測試本文方法在實(shí)現(xiàn)光纖故障大數(shù)據(jù)分類中的性能,進(jìn)行仿真實(shí)驗(yàn)。實(shí)驗(yàn)采用Matlab 7和C++聯(lián)合仿真設(shè)計(jì),光纖網(wǎng)絡(luò)故障大數(shù)據(jù)采樣的樣本規(guī)模為1000Mbit,訓(xùn)練樣本集為1024,數(shù)據(jù)采樣的時間寬度為10s,數(shù)據(jù)采樣的樣本時域波形如圖1所示。
設(shè)置W=1000,minsup=100,δ分別取0.2,0.32,0.25,0.35時進(jìn)行故障數(shù)據(jù)分類識別,設(shè)定光纖故障大數(shù)據(jù)采集的頻次閾值minsup=2,故障大數(shù)據(jù)分布的概率閾值δ=0.3時,故障類別元素4,頻繁項(xiàng)的關(guān)聯(lián)規(guī)則特征挖掘結(jié)果見表1。
圖1 光纖故障大數(shù)據(jù)研究對象樣本
表1 光纖故障大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘結(jié)果
根據(jù)光纖故障大數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘結(jié)果,進(jìn)行光纖故障大數(shù)據(jù)分類,計(jì)算分類概率見表2。
表2 光纖故障大數(shù)據(jù)分類概率
分析表1和表2結(jié)果得知,采用本文方法能有效實(shí)現(xiàn)光纖故障大數(shù)據(jù)分類,對故障大數(shù)據(jù)分類檢測的準(zhǔn)確概率較高,測試對樣本集D1和D2進(jìn)行的數(shù)據(jù)分類的準(zhǔn)確率,得到對比結(jié)果如圖2所示。
圖2 光纖故障大數(shù)據(jù)分類準(zhǔn)確性對比
分析圖2得知,本文方法進(jìn)行光纖故障大數(shù)據(jù)分類的準(zhǔn)確性較高,誤分率較低。
對光纖故障進(jìn)行有效挖掘和分類,結(jié)合光纖故障的類別進(jìn)行智能診斷,可以提高光纖通信的智能診斷能力,保障光纖通信的安全穩(wěn)定性和傳輸效率。本文提出一種基于機(jī)器學(xué)習(xí)的光纖故障大數(shù)據(jù)分類算法,對采集的光纖網(wǎng)絡(luò)傳輸數(shù)據(jù)進(jìn)行低維度的特征集構(gòu)造,構(gòu)建光纖故障分布大數(shù)據(jù)庫,對光纖故障數(shù)據(jù)庫中的異常數(shù)據(jù)特征集采用加權(quán)統(tǒng)計(jì)分析方法進(jìn)行樣本回歸分析;以少量的樣本類別數(shù)據(jù)為測試集,采用層次聚類方法對光纖故障大數(shù)據(jù)進(jìn)行極端隨機(jī)數(shù)分析;對全部的故障樣本進(jìn)行抽樣訓(xùn)練,提取光纖故障大數(shù)據(jù)的關(guān)聯(lián)特征量,結(jié)合K-means算法和最近鄰算法進(jìn)行數(shù)據(jù)聚類中心擾動性分析;將光纖故障大數(shù)據(jù)的特征提取結(jié)果輸入到機(jī)器學(xué)習(xí)器中進(jìn)行數(shù)據(jù)分類,結(jié)合大數(shù)據(jù)融合聚類方法實(shí)現(xiàn)光纖故障大數(shù)據(jù)分類。研究得知,采用本文方法進(jìn)行光纖故障大數(shù)據(jù)分類的準(zhǔn)確性較高,提高故障診斷能力。