馬占杰,楊淑瑩
(1.天津理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,天津 300384;2.計(jì)算機(jī)視覺(jué)與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,天津 300384)
F-measure 又稱為F-Score,是IR(信息檢索)領(lǐng)域的一個(gè)評(píng)價(jià)標(biāo)準(zhǔn),常用于評(píng)價(jià)分類模型的好壞,也是作為不同類型預(yù)測(cè)問(wèn)題的性能指標(biāo),包括二分類、多標(biāo)簽分類(MLC)以及結(jié)構(gòu)化輸出預(yù)測(cè)的某些應(yīng)用,如文本分塊和命名實(shí)體識(shí)別等。與二分類中的錯(cuò)誤率和多標(biāo)簽分類(MLC)中漢明損失等方法相比,F(xiàn)-measure 方法在少數(shù)類和多數(shù)類之間都表現(xiàn)出很好的平衡性,因此,在非平衡數(shù)據(jù)的情況下更適合。
傳統(tǒng)的模式識(shí)別方法通常需要多個(gè)類別的樣本,因此需要設(shè)計(jì)兩個(gè)或多個(gè)類別的分類器。構(gòu)建分類器方法有很多,如貝葉斯[1]、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)[2]、遺傳算法、支持向量機(jī)(SVM)[3]遺傳編程、粗糙集[4]、模糊判別等,在這些分類方法中,貝葉斯方法已經(jīng)成為最引人注目的焦點(diǎn)之一,因?yàn)樗木雀遊5],可以有效地處理不完整的數(shù)據(jù)。然而,當(dāng)樣本特征向量相互交織時(shí),貝葉斯分類器容易出錯(cuò)。為了提高貝葉斯分類器的性能,提出一些方法和技術(shù),例如,樹(shù)擴(kuò)張型貝葉斯(TANB)、Generalized Naive Bayes 分類器[6]。 TANB 算法通過(guò)查找屬性之間的依賴關(guān)系來(lái)減輕樸素貝葉斯中任何屬性之間的獨(dú)立性假設(shè)。在學(xué)習(xí)參數(shù)方面,TANB 模型比樸素貝葉斯模型面臨更多的困難,特別是在訓(xùn)練集數(shù)據(jù)較少時(shí)。GNB 認(rèn)為整個(gè)數(shù)據(jù)集只有一個(gè)概率依賴關(guān)系,當(dāng)整個(gè)數(shù)據(jù)集單一分布時(shí),GNB 性能會(huì)更好,但是,當(dāng)整個(gè)數(shù)據(jù)集不是單一分布時(shí),GNB 性能較差,近年來(lái),評(píng)估措施在分類器分析和設(shè)計(jì)中起著至關(guān)重要的作用。準(zhǔn)確率、召回率、精度、F-measure、Kappa、ACU 等新的措施已經(jīng)被提出[7]。F-measure 被認(rèn)為是測(cè)試有效性的重要措施[8]。由于Bayes 和F-measure 的優(yōu)勢(shì),本文結(jié)合了兩者對(duì)不平衡數(shù)據(jù)進(jìn)行分類。
當(dāng)大多數(shù)類的輸出數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)其他幾個(gè)類時(shí),很難將錯(cuò)誤的樣本與這幾個(gè)類別分開(kāi)。近年來(lái),研究人員在不平衡問(wèn)題上做出了很大的努力,并得到了更好的解決方案[9],例如,改變類分布,結(jié)合決策成本,在學(xué)習(xí)過(guò)程中用性能測(cè)量來(lái)替代標(biāo)準(zhǔn)算法的準(zhǔn)確性。大多數(shù)方法更適合于平衡域中的分類。
本文提出一種不同的方法來(lái)解決這個(gè)問(wèn)題,給出一種基于貝葉斯和F-measure 的新的分類器算法。所提出的算法不會(huì)改變類的分布和任何決策成本。首先計(jì)算后驗(yàn)概率,當(dāng)樣本不在混合交叉域時(shí),本文應(yīng)用Beyes分類器進(jìn)行分類。其次,當(dāng)樣本處于混合交叉域時(shí),本文采用新的框架對(duì)易錯(cuò)分類區(qū)進(jìn)行分類。
當(dāng)樣本在混合交叉域內(nèi)時(shí),貝葉斯分類器容易出錯(cuò)。感知器算法適用于小樣本,它是收斂算法,具有計(jì)算簡(jiǎn)單、存儲(chǔ)容量小和易于實(shí)現(xiàn)等優(yōu)點(diǎn)。F-measure 在分類器分析和設(shè)計(jì)中起著至關(guān)重要的作用。F-measure被認(rèn)為是測(cè)試有效性的有效措施。
當(dāng)樣本特征相互依存時(shí),分類容易出錯(cuò)。為了解決這個(gè)問(wèn)題,本文提出一種新的分類算法。
在本文中假設(shè)有兩個(gè)類ω+,ω-,定義C={ω+,ω-}為可能類的集合,其中,ω+表示為正相關(guān)類,ω-表示為負(fù)相關(guān)類。TP(Ttrue Positive)表示類別為ω+的樣本被系統(tǒng)正確判定為類別ω+的數(shù)量,F(xiàn)N(False Negative)表示類別為ω+的樣本被系統(tǒng)誤判定為類別ω-的數(shù)量,顯然有P=TP+FN;FP(False Positive)表示類別為ω-的樣本被系統(tǒng)誤判定為類別ω+的數(shù)量,TN(True Negative)表示類別為ω-的樣本被系統(tǒng)正確判定為類別ω-的數(shù)量,顯然有N=FP+TN。
定義如下參數(shù):
平均精度A(accuracy)反映了分類器系統(tǒng)對(duì)整個(gè)樣本的判定能力:
召回率:
準(zhǔn)確率:
F-measure(F1score orFscore)是準(zhǔn)確率(Precision)和召回率(Recall)的加權(quán)平均值:
P和R指標(biāo)往往出現(xiàn)矛盾的情況,為了綜合考慮,本文利用F-measure 作為適當(dāng)?shù)脑u(píng)估標(biāo)準(zhǔn)。
為了最大化訓(xùn)練分類器的性能,必須找到適當(dāng)?shù)膮^(qū)域Ω+,Ω-。FN,F(xiàn)P,TP,TN 可以通過(guò)以下公式計(jì)算:
式中:A和B是訓(xùn)練數(shù)據(jù)ω+類和ω-類中的個(gè)體數(shù),分布函數(shù)滿足:
由于函數(shù)f(W)的數(shù)值解通常只是某種意義上的最優(yōu)解。 定義準(zhǔn)則函數(shù),然后在最大或最小的條件下使此準(zhǔn)則函數(shù)找到解f(W)。梯度下降法確定準(zhǔn)則函數(shù)J(W),然后選擇初始值W(1),迭代公式如下:
J(W)可以選擇如下:
下一步是求解使J(W)達(dá)到最小解的W。W(k)定義為W的第k個(gè)迭代解,W(k+1)是k+1 次迭代解。
式中C是校正系數(shù)。
假設(shè)α=1/2,方程(11)可以重寫如下:
式(12)可以表示如下:
當(dāng)u(X)>0 時(shí),表示樣本正確分類,W(k+1)=W(k),無(wú)需修改權(quán)重;否則,當(dāng)u(X)≤0 時(shí),表示樣本錯(cuò)誤分類,W(k+1)=W(k)+CX(k),需要修改權(quán)重。普通感知器只考慮調(diào)整單個(gè)樣本,而不考慮樣本分布的調(diào)整。為了解決這個(gè)問(wèn)題,本文提出F-measure感知器算法。
傳統(tǒng)的貝葉斯分類器是使后驗(yàn)概率最大化,改進(jìn)的算法是使F-measure最大化。最大化F-measure等于最小化E:
根據(jù)式(12)~式(14),E表示為:
為了最小化E,可以使用輔助函數(shù)u(x)來(lái)表達(dá)問(wèn)題。當(dāng)x∈Ω+時(shí),u(x)>0;x∈Ω-時(shí),u(x)<0。
方程(18)可以表示如下:
式中H(y)是平滑的單位階躍函數(shù)。式(19)的一階導(dǎo)數(shù)如下:
式中δ(y)是平滑的狄拉克函數(shù)。
u(x)通過(guò)式(21)獲得。梯度下降法用于求解方程(21)。具體來(lái)說(shuō),使用初始化的u0來(lái)求解偏微分方程。
當(dāng)偏微分方程達(dá)到穩(wěn)態(tài)時(shí),式(21)得到滿足。
本文首先計(jì)算樣本的后驗(yàn)概率。如果后驗(yàn)概率大于閾值,則樣本不在容易出錯(cuò)的區(qū)域中。如果后驗(yàn)概率的最大值小于或等于閾值,則樣本處于容易出錯(cuò)的區(qū)域,然后采用新方法進(jìn)行分類。對(duì)于n維空間,樣本由矢量X=(x1,x2,…,xn)T表示,識(shí)別函數(shù)如下:
式中:W0=(w1,w2,…,wn)T是權(quán)重向量。在樣本向量的末尾添加元素1。式(23)可以寫為:
訓(xùn)練過(guò)程獲得權(quán)重向量W,使用梯度下降法計(jì)算W。式(19)可以重寫為:
式(20)可以重寫為:
W通過(guò)迭代計(jì)算獲得:
矢量的方向主要取決于最大分量的值。負(fù)梯度矢量表示最速下降的方向。當(dāng)梯度矢量為零時(shí),它可以達(dá)到函數(shù)的極值。如果可以達(dá)到極值,得到式(21)的最優(yōu)解。W(k)被定義為W的第k個(gè)迭代解,W(k+1)是第k+1 次迭代解。
其中C是校正系數(shù)。
邊界確定的具體步驟如下:
1)權(quán)重向量的初始值為0,W0=W1=W2=…=W9=0。
2) 計(jì)算第k次迭代的結(jié)果,ui[X(k)]=
3)如果δ(WTX)=0,則不需要修改權(quán)重;如果δ(WTX)=1,則需要修改權(quán)重。
式中:
4)返回到步驟2)循環(huán),直到權(quán)重不需要修改。
5)測(cè)試樣品的特性用于計(jì)算式(24)。
6)根據(jù)u(X)的正或負(fù)判斷類別:
將本文提出的方法用于齒輪故障診斷,使用100 個(gè)正常齒輪樣本和30 個(gè)異常齒輪樣本的不平衡數(shù)據(jù)集。小波包和包絡(luò)譜的能譜用于故障診斷。正常齒輪有100×9 個(gè)特征,異常齒輪有30×9 個(gè)特征。去噪后的齒輪故障信號(hào)波形如圖1 所示。故障信號(hào)由3 層小波包分解,得到8 個(gè)頻帶能量,如圖2 所示。小波包分解后的能量分布可以清楚地顯示故障信息齒輪,證明故障診斷有用。異常齒輪的包絡(luò)譜如圖3 所示。
圖1 去噪后故障齒輪的信號(hào)Fig.1 Signal of fault gear after denoising
圖2 3 層小波包分解后的能量分布Fig.2 Energy distribution after decomposition of 3-layer wavelet packet
圖3 故障齒輪的包絡(luò)譜Fig.3 Spectrum envelope of fault gear
將本文提出的算法與傳統(tǒng)的樸素貝葉斯分類器進(jìn)行比較。圖4 顯示了所提出的算法和傳統(tǒng)的樸素貝葉斯分類器在β變化時(shí)的魯棒性。表1 給出了實(shí)驗(yàn)結(jié)果的詳細(xì)情況,每個(gè)算法執(zhí)行5 次。所提出算法的參數(shù)為β=1,C=1。實(shí)驗(yàn)的收斂速度取決于初始向量W(1)和C。從表1 可以看出,樸素貝葉斯分類器具有差的F-measure、召回率和準(zhǔn)確率。本文所提出的算法得到了更好的F-measure,得到了更高的召回率和準(zhǔn)確率。由于樣本的特征向量不是完全獨(dú)立的,所以本文提出的方法比傳統(tǒng)的樸素貝葉斯分類器具有更高的識(shí)別率。
圖4 算法魯棒性對(duì)比Fig.4 Comparison of robustness of algorithm
表1 每個(gè)算法超過(guò)5 次執(zhí)行的性能值Table 1 Performance values for more than 5 times executed by each algorithm%
對(duì)于實(shí)驗(yàn)驗(yàn)證,用KEEL 數(shù)據(jù)集[10]中提供的公開(kāi)實(shí)際數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)驗(yàn)證。對(duì)多類數(shù)據(jù)集進(jìn)行修改以獲得兩類不平衡問(wèn)題,以便一個(gè)或多個(gè)類的聯(lián)合成為正類,其余類中的一個(gè)或多個(gè)類的聯(lián)合被標(biāo)記為負(fù)類。表2 給出了實(shí)驗(yàn)研究中使用的不平衡數(shù)據(jù)集的描述。表2 中顯示的信息包括:數(shù)據(jù)集名稱(數(shù)據(jù)集);屬性數(shù)(Atts.);樣本數(shù)(Ex.);少數(shù)群體和多數(shù)群體的百分比(%min;%max);不平衡比(IR)。
在研究中,將提出的算法與普通感知器、結(jié)合貝葉斯和梯度下降的感知器以及傳統(tǒng)的樸素貝葉斯分類器進(jìn)行比較。每個(gè)算法進(jìn)行10 次交叉驗(yàn)證。應(yīng)用95%置信水平的雙尾t檢驗(yàn)系統(tǒng)地比較NB 算法、普通感知器算法和結(jié)合貝葉斯和梯度下降的感知器算法的分類精度。在圖5 中,通過(guò)使用5 個(gè)數(shù)據(jù)集獲得Fβ值。所提出的算法具有最好的結(jié)果。表3 給出詳細(xì)實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明,隨著不平衡數(shù)據(jù)的增加,NB、普通感知器和結(jié)合貝葉斯和梯度下降的感知器算法的分類精度逐漸降低。與這三種方法相比,本文提出方法的分類精度最高。雖然提出方法的準(zhǔn)確性隨著失衡數(shù)據(jù)的增加而減小,但平均準(zhǔn)確率為90.42%。
表2 不平衡數(shù)據(jù)集的描述Table 2 Description of unbalanced data set
圖5 不同算法的Fβ 值Fig.5 Fβ values of different algorithms
表3 分類精度比較Table 3 Comparison of classification accuracy %
本文提出一種新的分類算法處理不平衡問(wèn)題,尤其在樣本特征相互依賴時(shí)。首先計(jì)算后驗(yàn)概率以判斷樣本是否位于易錯(cuò)區(qū)域。采用該算法對(duì)易于誤分類的樣本進(jìn)行分類,在研究中,將所提出的算法與傳統(tǒng)的分類器方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果證明了該方法的優(yōu)越性。