摘" 要: 當樣本特征向量交織時,分類很容易出錯。為解決這個問題,提出一種基于Bayes和F?measure的分類器算法。采用替代方法評估分類器的性能正受到關注,特別是對于不平衡的問題。該算法利用F?measure分析不平衡數(shù)據(jù)的分類準確度,將類概率密度函數(shù)引入判據(jù),并采用梯度下降法得到準則函數(shù)。文中將所提出的方法與傳統(tǒng)方法進行比較,實驗結果表明,該方法能夠有效提高識別的準確率和精確度。
關鍵詞: 分類; F?measure; 不平衡數(shù)據(jù); 后驗概率; 準確率; 實驗驗證
中圖分類號: TN02?34" " " " " " " " " " " " " "文獻標識碼: A" " " " " " " " " " " " " 文章編號: 1004?373X(2019)21?0125?05
Abstract: A classifier algorithm based on Bayes and F?measure is proposed to solve the problem that the classification is prone to error when the sample feature vectors are intertwined. The alternative methods used for the performance evaluation of classifiers are receiving increasing attention, especially for unbalanced data classification. The algorithm is used to analyze the classification accuracy of the unbalanced data by means of F?measure. The probability density function is introduced into the criterion, and the gradient descent method is used to obtain criterion function. The proposed method is compared with the traditional ones, in this paper. The experimental results show that the proposed method can effectively improve the accuracy and precision of recognition.
Keywords: classification; F?measure; imbalance data; posterior probability; accuracy rate; experimental verification
0" 引" 言
F?measure又稱為F?Score,是IR(信息檢索)領域的一個評價標準,常用于評價分類模型的好壞,也是作為不同類型預測問題的性能指標,包括二分類、多標簽分類(MLC)以及結構化輸出預測的某些應用,如文本分塊和命名實體識別等。與二分類中的錯誤率和多標簽分類(MLC)中漢明損失等方法相比,F(xiàn)?measure方法在少數(shù)類和多數(shù)類之間都表現(xiàn)出很好的平衡性,因此,在非平衡數(shù)據(jù)的情況下更適合。
傳統(tǒng)的模式識別方法通常需要多個類別的樣本,因此需要設計兩個或多個類別的分類器。構建分類器方法有很多,如貝葉斯[1]、決策樹、人工神經(jīng)網(wǎng)絡[2]、遺傳算法、支持向量機(SVM)[3]遺傳編程、粗糙集[4]、模糊判別等,在這些分類方法中,貝葉斯方法已經(jīng)成為最引人注目的焦點之一,因為它的精度高[5],可以有效地處理不完整的數(shù)據(jù)。然而,當樣本特征向量相互交織時,貝葉斯分類器容易出錯。為了提高貝葉斯分類器的性能,提出一些方法和技術,例如,樹擴張型貝葉斯(TANB)、Generalized Naive Bayes分類器[6]。 TANB算法通過查找屬性之間的依賴關系來減輕樸素貝葉斯中任何屬性之間的獨立性假設。在學習參數(shù)方面,TANB模型比樸素貝葉斯模型面臨更多的困難,特別是在訓練集數(shù)據(jù)較少時。GNB認為整個數(shù)據(jù)集只有一個概率依賴關系,當整個數(shù)據(jù)集單一分布時,GNB性能會更好,但是,當整個數(shù)據(jù)集不是單一分布時,GNB性能較差,近年來,評估措施在分類器分析和設計中起著至關重要的作用。準確率、召回率、精度、F?measure、Kappa、ACU等新的措施已經(jīng)被提出[7]。F?measure被認為是測試有效性的重要措施[8]。由于Bayes和F?measure的優(yōu)勢,本文結合了兩者對不平衡數(shù)據(jù)進行分類。
當大多數(shù)類的輸出數(shù)量遠遠超過其他幾個類時,很難將錯誤的樣本與這幾個類別分開。近年來,研究人員在不平衡問題上做出了很大的努力,并得到了更好的解決方案[9],例如,改變類分布,結合決策成本,在學習過程中用性能測量來替代標準算法的準確性。大多數(shù)方法更適合于平衡域中的分類。
本文提出一種不同的方法來解決這個問題,給出一種基于貝葉斯和F?measure的新的分類器算法。所提出的算法不會改變類的分布和任何決策成本。首先計算后驗概率,當樣本不在混合交叉域時,本文應用Beyes分類器進行分類。其次,當樣本處于混合交叉域時,本文采用新的框架對易錯分類區(qū)進行分類。
1" 在條件分布密度的混合交叉域內的F?measure感知器
當樣本在混合交叉域內時,貝葉斯分類器容易出錯。感知器算法適用于小樣本,它是收斂算法,具有計算簡單、存儲容量小和易于實現(xiàn)等優(yōu)點。F?measure在分類器分析和設計中起著至關重要的作用。F?measure被認為是測試有效性的有效措施。
1.1" F?measure評估標準
當樣本特征相互依存時,分類容易出錯。為了解決這個問題,本文提出一種新的分類算法。
在本文中假設有兩個類[ω+],[ω-],定義[C={ω+,ω-}]為可能類的集合,其中,[ω+]表示為正相關類,[ω-]表示為負相關類。TP(Ttrue Positive)表示類別為[ω+]的樣本被系統(tǒng)正確判定為類別[ω+]的數(shù)量,F(xiàn)N(False Negative)表示類別為[ω+]的樣本被系統(tǒng)誤判定為類別[ω-]的數(shù)量,顯然有[P=]TP+FN;FP(False Positive)表示類別為[ω-]的樣本被系統(tǒng)誤判定為類別[ω+]的數(shù)量,TN(True Negative)表示類別為[ω-]的樣本被系統(tǒng)正確判定為類別[ω-]的數(shù)量,顯然有[N=]FP+TN。
1.2" 普通感知器
由于函數(shù)[f(W)]的數(shù)值解通常只是某種意義上的最優(yōu)解。 定義準則函數(shù),然后在最大或最小的條件下使此準則函數(shù)找到解[f(W)]。梯度下降法確定準則函數(shù)[J(W)],然后選擇初始值[W(1)],迭代公式如下:
當[u(X)gt;0]時,表示樣本正確分類,[W(k+1)=W(k)],無需修改權重;否則,當[u(X)≤0]時,表示樣本錯誤分類,[W(k+1)=W(k)+CX(k)],需要修改權重。普通感知器只考慮調整單個樣本,而不考慮樣本分布的調整。為了解決這個問題,本文提出F?measure感知器算法。
1.3" F?measure的最優(yōu)邊界確定
傳統(tǒng)的貝葉斯分類器是使后驗概率最大化,改進的算法是使F?measure最大化。最大化F?measure等于最小化[E]:
當偏微分方程達到穩(wěn)態(tài)時,式(21)得到滿足。
本文首先計算樣本的后驗概率。如果后驗概率大于閾值,則樣本不在容易出錯的區(qū)域中。如果后驗概率的最大值小于或等于閾值,則樣本處于容易出錯的區(qū)域,然后采用新方法進行分類。對于[n]維空間,樣本由矢量[X=(x1,x2,…,xn)T]表示,識別函數(shù)如下:
矢量的方向主要取決于最大分量的值。負梯度矢量表示最速下降的方向。當梯度矢量為零時,它可以達到函數(shù)的極值。如果[?E?W=0],[E]可以達到極值,得到式(21)的最優(yōu)解。[W(k)]被定義為[W]的第[k]個迭代解,[W(k+1)]是第[k+1]次迭代解。
2" 實驗結果
將本文提出的方法用于齒輪故障診斷,使用100個正常齒輪樣本和30個異常齒輪樣本的不平衡數(shù)據(jù)集。小波包和包絡譜的能譜用于故障診斷。正常齒輪有[100×9]個特征,異常齒輪有[30×9]個特征。去噪后的齒輪故障信號波形如圖1所示。故障信號由3層小波包分解,得到8個頻帶能量,如圖2所示。小波包分解后的能量分布可以清楚地顯示故障信息齒輪,證明故障診斷有用。異常齒輪的包絡譜如圖3所示。
將本文提出的算法與傳統(tǒng)的樸素貝葉斯分類器進行比較。圖4顯示了所提出的算法和傳統(tǒng)的樸素貝葉斯分類器在[β]變化時的魯棒性。表1給出了實驗結果的詳細情況,每個算法執(zhí)行5次。所提出算法的參數(shù)為 [β=1],[C=1]。實驗的收斂速度取決于初始向量[W(1)]和[C]。從表1可以看出,樸素貝葉斯分類器具有差的F?measure、召回率和準確率。本文所提出的算法得到了更好的F?measure,得到了更高的召回率和準確率。由于樣本的特征向量不是完全獨立的,所以本文提出的方法比傳統(tǒng)的樸素貝葉斯分類器具有更高的識別率。
對于實驗驗證,用KEEL數(shù)據(jù)集[10]中提供的公開實際數(shù)據(jù)進行了實驗驗證。對多類數(shù)據(jù)集進行修改以獲得兩類不平衡問題,以便一個或多個類的聯(lián)合成為正類,其余類中的一個或多個類的聯(lián)合被標記為負類。表2給出了實驗研究中使用的不平衡數(shù)據(jù)集的描述。表2中顯示的信息包括:數(shù)據(jù)集名稱(數(shù)據(jù)集);屬性數(shù)(Atts.);樣本數(shù)(Ex.);少數(shù)群體和多數(shù)群體的百分比(%min;%max);不平衡比(IR)。
在研究中,將提出的算法與普通感知器、結合貝葉斯和梯度下降的感知器以及傳統(tǒng)的樸素貝葉斯分類器進行比較。每個算法進行10次交叉驗證。應用95%置信水平的雙尾[t]檢驗系統(tǒng)地比較NB算法、普通感知器算法和結合貝葉斯和梯度下降的感知器算法的分類精度。在圖5中,通過使用5個數(shù)據(jù)集獲得[Fβ]值。所提出的算法具有最好的結果。表3給出詳細實驗結果。實驗結果表明,隨著不平衡數(shù)據(jù)的增加,NB、普通感知器和結合貝葉斯和梯度下降的感知器算法的分類精度逐漸降低。與這三種方法相比,本文提出方法的分類精度最高。雖然提出方法的準確性隨著失衡數(shù)據(jù)的增加而減小,但平均準確率為90.42%。
3" 結" 論
本文提出一種新的分類算法處理不平衡問題,尤其在樣本特征相互依賴時。首先計算后驗概率以判斷樣本是否位于易錯區(qū)域。采用該算法對易于誤分類的樣本進行分類,在研究中,將所提出的算法與傳統(tǒng)的分類器方法進行了比較,實驗結果證明了該方法的優(yōu)越性。
參考文獻
[1] JIANG R, YU J, MAKIS V. Optimal Bayesian estimation and control scheme for gear shaft fault detection [J]. Computers amp; industrial engineering, 2012, 63(4): 754?762.
[2] WU J D, CHAN J J. Faulted gear identification of a rotating machinery based on wavelet transform and artificial neural network [J]. Expert systems with applications, 2009, 36(5): 8862?8875.
[3] BANSAL S, SAHOO S, TIWARI R, et al. Multiclass fault diagnosis in gears using support vector machine algorithms based on frequency domain data [J]. Measurement, 2013, 46(9): 3469?3481.
[4] RAJESWARI C, SATHIYABHAMA B, DEVENDIRAN S, et al. A gear fault identification using wavelet transform, rough set based ga, ann and c4. 5 algorithm [J]. Procedia engineering, 2014, 97: 1831?1841.
[5] LIU H, HAN M. A fault diagnosis method based on local mean decomposition and multi?scale entropy for roller bearings [J]. Mechanism and machine theory, 2014, 75: 67?78.
[6] LARSEN K. Generalized naive Bayes classifiers [J]. ACM SIGKDD explorations news letter, 2005, 7(1): 76?81.
[7] SARAVANAN N, RAMACHANDRAN K I. A case study on classification of features by fast single?shot multiclass PSVM using morlet wavelet for fault diagnosis of spur bevel gear box [J]. Expert systems with applications, 2009, 36(8): 10854?10862.
[8] MATíAS D M, GUZMAN H, MARCELO F, et al. A new framework for optimal classifier design [J]. Pattern recognition, 2013, 46(8): 2249?2255.
[9] SUN Y, WONG A K C, KAMEL M S. Classification of imba?lanced data: A review [J]. International journal of pattern recognition and artificial intelligence, 2009, 23(4): 687?719.
[10] ALCALá J, FERNáNDEZ A, LUENGO J, et al. Keel data?mining software tool: data set repository, integration of algorithms and experimental analysis framework [J]. Journal of multiple?valued logic and soft computing, 2011(17): 255?287.