王景中 易路杰
北方工業(yè)大學(xué)信息工程學(xué)院 北京 100144
樸素貝葉斯分類器是貝葉斯分類中一種最常見(jiàn)且原理簡(jiǎn)單,實(shí)際應(yīng)用很成功的方法。樸素貝葉斯分類器中的“樸素”主要是指假設(shè)各屬性間相互獨(dú)立。在文本分類中,假設(shè)不同的特征項(xiàng)在確定的類別下的條件概率分布相互獨(dú)立,這樣在計(jì)算特征項(xiàng)之間的聯(lián)合分布概率時(shí)可以大大提高分類器的速度。目前,很多文本分類系統(tǒng)都采用貝葉斯分類算法,在郵件分類、電子會(huì)議、信息過(guò)濾等方面都有了廣泛的應(yīng)用。
貝葉斯定理為:設(shè)S為試驗(yàn)E的樣本空間,A為E的事件,B1,B2,…Bn為S的一個(gè)劃分,且有P(A)>0,P(Bi)>0(i=1,2,…n),則有:
貝葉斯文本分類模型是一種基于統(tǒng)計(jì)方法的分類模型,是現(xiàn)有文本分類算法中最有效的方法之一。其基本原理是:通過(guò)樣本數(shù)據(jù)的先驗(yàn)概率信息計(jì)算確定事件的后驗(yàn)概率。在文本分類中的應(yīng)用為:通過(guò)計(jì)算給定文本的特征值在樣本庫(kù)中某一確定類Ci中的先驗(yàn)概率,得出給定文本的特征值屬于Ci類的后驗(yàn)概率,再通過(guò)比較,得出后驗(yàn)概率最大的即為給定文本最可能屬于的類別。因此,貝葉斯類別判別式為:
本文采用布爾表示法描述文本,每個(gè)文本表示為特征矢量(w1,w2,…w),V為特征詞表,為特征詞表總詞數(shù),V=(B1, B2,…B)。特征矢量中的wi={0,1},1表示特征詞表中的第i個(gè)詞出現(xiàn),0表示沒(méi)有出現(xiàn)。
根據(jù)貝葉斯公式:
式中P( Ci)為樣本集中屬于Ci類的概率,為Ci類中給定文本特征詞的概率。
式中P( Ci)的值為每個(gè)類別在樣本集中的頻率,即為樣本集中屬于Ci類的文本數(shù)與樣本集中的總的文本數(shù)的比率。的值計(jì)算比較困難,理論上只有建立一個(gè)足夠大的樣本集才能準(zhǔn)確得到。如何得出的值也是貝葉斯算法的關(guān)鍵,直接影響分類的性能。目前只能通過(guò)估算得出。
由于貝葉斯分類模型的假設(shè),文本特征屬性之間獨(dú)立同分布,因此各屬性聯(lián)合概率等于各屬性概率的乘積,即:
式中P(wj/Ci)為Ci類文本中wj的詞頻與Ci類文本的總詞頻的比率。在本文中P(wj/Ci)的值估算采用下式:
式中Nwj表示特征詞的詞頻,表示類文本數(shù),B(Ci/dk)={0,1},1表示文本dk屬于Ci類,0表示不屬于Ci類。
由Friedman等人提出的TAN(Tree Augmented Naive)樹狀結(jié)構(gòu)模型,使樸素貝葉斯模型獨(dú)立性假設(shè)更符合實(shí)際。在應(yīng)用中的主要思路是采用貝葉斯網(wǎng)絡(luò)中的表示依賴關(guān)系的方法,在其中的各葉節(jié)點(diǎn)之間增加一些必要的邊,用來(lái)表示各屬性變量之間的關(guān)系,從而放寬了樸素貝葉斯中的獨(dú)立性假設(shè)。
樸素貝葉斯理論的獨(dú)立性假設(shè)即要求每個(gè)屬性有且僅有一個(gè)父節(jié)點(diǎn),為類節(jié)點(diǎn)。而 TAN模型中,用節(jié)點(diǎn)表示屬性,通過(guò)有向邊表示屬性間的關(guān)系,把類別屬性作為根節(jié)點(diǎn),其余屬性作為它的子節(jié)點(diǎn)。在具體實(shí)現(xiàn)時(shí)這些增加的邊需滿足兩個(gè)條件,首先,類別變量沒(méi)有父節(jié)點(diǎn)。其次,每個(gè)屬性變量有一個(gè)類變量為父節(jié)點(diǎn)和最多另一個(gè)屬性變量作為其父節(jié)點(diǎn),即
在給定待分類文本中,貝葉斯分類器選擇后驗(yàn)概率最大的CNB為該文本所屬類別,據(jù)(3)式、(4)式得:
式中πwj代表wj的父節(jié)點(diǎn)集。增加有向邊后πwj具有兩種形式:πwj沒(méi)有非類父節(jié)點(diǎn)和πwj有一個(gè)非類父節(jié)點(diǎn)。因此要計(jì)算(6)式就需要估算出三個(gè)值:P(Ci)、P(wj/Ci)、P(wj/Ci,ws)。前兩個(gè)值在上文中已經(jīng)說(shuō)明,而P(wj/Ci,ws)為在Ci類中,ws出現(xiàn)時(shí)wj的概率。因此這里就考慮了兩個(gè)詞之間的關(guān)系。P(wj/Ci,ws)的值等于Ci類文本中出現(xiàn)ws的文本中wj的總詞頻與Ci類中出現(xiàn)ws的文檔的總詞頻的比率。即:
目前,人們最常用的評(píng)價(jià)分類性能的指標(biāo)是查準(zhǔn)率(精確率)和查全率(召回率)。查準(zhǔn)率是指分類器正確判別為該類的測(cè)試樣本數(shù)與分類器判別為該類的測(cè)試樣本總數(shù)的比率。查全率是指分類器正確判別為該類的測(cè)試樣本數(shù)與該類的總測(cè)試樣本數(shù)的比率。以上兩個(gè)指標(biāo)體現(xiàn)了文本分類質(zhì)量的兩個(gè)方面,需要綜合考慮,因此有F1測(cè)試作為綜合評(píng)估指標(biāo)。
實(shí)驗(yàn)選取中文自然語(yǔ)言處理開發(fā)平臺(tái)提供的語(yǔ)料庫(kù)的文章,選擇六類文本進(jìn)行測(cè)試,分別是計(jì)算機(jī)、農(nóng)業(yè)、經(jīng)濟(jì)、藝術(shù)、環(huán)境、政治,共1800篇,每類300篇。其中從每類中選取200篇為訓(xùn)練樣本文檔,余下100篇為測(cè)試文檔。測(cè)試結(jié)果見(jiàn)表1。
表1 實(shí)驗(yàn)結(jié)果
從表1可看出,在所取測(cè)試集中,平均查準(zhǔn)率達(dá)到0.80,平均查全率達(dá)到 0.79,平均F1測(cè)試值達(dá)到 0.79?;具_(dá)到了文本分類的效果。
上述樸素貝葉斯分類算法基本實(shí)現(xiàn)了文本分類,但是還存在著一些問(wèn)題。首先 TAN結(jié)構(gòu)雖然考慮了兩兩屬性間的關(guān)聯(lián),但文本中屬性之間可能存在的其他更多的關(guān)聯(lián)并沒(méi)有考慮到,因此適用范圍還是有一定的局限性。還有在計(jì)算特征詞屬于某一確定的類的概率時(shí),由于訓(xùn)練集的選擇不同,或者訓(xùn)練集不足夠大,這會(huì)有某些不常見(jiàn)的特征詞在訓(xùn)練庫(kù)中不出現(xiàn),而樸素貝葉斯判別式是一個(gè)乘積的值,這樣就會(huì)對(duì)結(jié)果影響很大。這些問(wèn)題在以后的工作中還需要不斷的改進(jìn)。
[1] 陳葉旺,余金山.一種改進(jìn)的樸素貝葉斯文本分類方法[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版).2011.
[2] 陳欣,張菁,李曉光.一種面向中文敏感網(wǎng)頁(yè)識(shí)別的文本分類方法[J].測(cè)控技術(shù).2011.
[3]張玉芳,陳劍敏,熊忠陽(yáng).一種改進(jìn)的貝葉斯文本分類方法[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版).2007.
[4] 史瑞芳.貝葉斯文本分類器的研究與改進(jìn)[J].計(jì)算機(jī)工程與應(yīng)用.2009.
[5] 王瀟,胡鑫,三種分類算法的比較[J].石河子大學(xué)學(xué)報(bào)(自然科學(xué)版).2005.
[6] 石洪波,王志海,黃厚寬.貝葉斯文本分類方法研究[J].山西大學(xué)學(xué)報(bào)[J].2002.
[7] 安艷輝,董五洲,游自英.基于改進(jìn)的樸素貝葉斯文本分類研究[J].河北省科學(xué)院學(xué)報(bào).2007.
[8] 劉沛騫,馮晶晶.一種改進(jìn)的樸素貝葉斯文本分類算法[J].微計(jì)算機(jī)信息.2010.
[9] 梁宏勝,徐建民,成岳鵬.一種改進(jìn)的樸素貝葉斯文本分類方法[J].河北大學(xué)學(xué)報(bào)(自然科學(xué)版).2007.
[10] 余芳,姜云飛.一種基于樸素貝葉斯分類的特征選擇方法[J].2004.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2012年1期