亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于TAN結(jié)構(gòu)的貝葉斯文本分類器研究

2012-08-13 09:19:14王景中易路杰

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2012年1期

王景中易路杰

北方工業(yè)大學(xué)信息工程學(xué)院北京 100144

0 引言

樸素貝葉斯分類器是貝葉斯分類中一種最常見(jiàn)且原理簡(jiǎn)單，實(shí)際應(yīng)用很成功的方法。樸素貝葉斯分類器中的“樸素”主要是指假設(shè)各屬性間相互獨(dú)立。在文本分類中，假設(shè)不同的特征項(xiàng)在確定的類別下的條件概率分布相互獨(dú)立，這樣在計(jì)算特征項(xiàng)之間的聯(lián)合分布概率時(shí)可以大大提高分類器的速度。目前，很多文本分類系統(tǒng)都采用貝葉斯分類算法，在郵件分類、電子會(huì)議、信息過(guò)濾等方面都有了廣泛的應(yīng)用。

1 樸素貝葉斯分類器

1.1 貝葉斯公式介紹

貝葉斯定理為：設(shè)S為試驗(yàn)E的樣本空間，A為E的事件，B1，B2，…Bn為S的一個(gè)劃分，且有P(A)＞0，P(Bi)＞0(i=1，2，…n)，則有：

1.2 貝葉斯文本分類

貝葉斯文本分類模型是一種基于統(tǒng)計(jì)方法的分類模型，是現(xiàn)有文本分類算法中最有效的方法之一。其基本原理是：通過(guò)樣本數(shù)據(jù)的先驗(yàn)概率信息計(jì)算確定事件的后驗(yàn)概率。在文本分類中的應(yīng)用為：通過(guò)計(jì)算給定文本的特征值在樣本庫(kù)中某一確定類Ci中的先驗(yàn)概率，得出給定文本的特征值屬于Ci類的后驗(yàn)概率，再通過(guò)比較，得出后驗(yàn)概率最大的即為給定文本最可能屬于的類別。因此，貝葉斯類別判別式為：

本文采用布爾表示法描述文本，每個(gè)文本表示為特征矢量(w1，w2，…w)，V為特征詞表，為特征詞表總詞數(shù)，V=(B1， B2，…B)。特征矢量中的wi={0，1}，1表示特征詞表中的第i個(gè)詞出現(xiàn)，0表示沒(méi)有出現(xiàn)。

根據(jù)貝葉斯公式：

式中P( Ci)為樣本集中屬于Ci類的概率，為Ci類中給定文本特征詞的概率。

式中P( Ci)的值為每個(gè)類別在樣本集中的頻率，即為樣本集中屬于Ci類的文本數(shù)與樣本集中的總的文本數(shù)的比率。的值計(jì)算比較困難，理論上只有建立一個(gè)足夠大的樣本集才能準(zhǔn)確得到。如何得出的值也是貝葉斯算法的關(guān)鍵，直接影響分類的性能。目前只能通過(guò)估算得出。

由于貝葉斯分類模型的假設(shè)，文本特征屬性之間獨(dú)立同分布，因此各屬性聯(lián)合概率等于各屬性概率的乘積，即：

式中P(wj/Ci)為Ci類文本中wj的詞頻與Ci類文本的總詞頻的比率。在本文中P(wj/Ci)的值估算采用下式：

式中Nwj表示特征詞的詞頻，表示類文本數(shù)，B(Ci/dk)={0，1}，1表示文本dk屬于Ci類，0表示不屬于Ci類。

1.3 TAN結(jié)構(gòu)的貝葉斯文本分類

由Friedman等人提出的TAN(Tree Augmented Naive)樹狀結(jié)構(gòu)模型，使樸素貝葉斯模型獨(dú)立性假設(shè)更符合實(shí)際。在應(yīng)用中的主要思路是采用貝葉斯網(wǎng)絡(luò)中的表示依賴關(guān)系的方法，在其中的各葉節(jié)點(diǎn)之間增加一些必要的邊，用來(lái)表示各屬性變量之間的關(guān)系，從而放寬了樸素貝葉斯中的獨(dú)立性假設(shè)。

樸素貝葉斯理論的獨(dú)立性假設(shè)即要求每個(gè)屬性有且僅有一個(gè)父節(jié)點(diǎn)，為類節(jié)點(diǎn)。而 TAN模型中，用節(jié)點(diǎn)表示屬性，通過(guò)有向邊表示屬性間的關(guān)系，把類別屬性作為根節(jié)點(diǎn)，其余屬性作為它的子節(jié)點(diǎn)。在具體實(shí)現(xiàn)時(shí)這些增加的邊需滿足兩個(gè)條件，首先，類別變量沒(méi)有父節(jié)點(diǎn)。其次，每個(gè)屬性變量有一個(gè)類變量為父節(jié)點(diǎn)和最多另一個(gè)屬性變量作為其父節(jié)點(diǎn)，即

在給定待分類文本中，貝葉斯分類器選擇后驗(yàn)概率最大的CNB為該文本所屬類別，據(jù)(3)式、(4)式得：

式中πwj代表wj的父節(jié)點(diǎn)集。增加有向邊后πwj具有兩種形式：πwj沒(méi)有非類父節(jié)點(diǎn)和πwj有一個(gè)非類父節(jié)點(diǎn)。因此要計(jì)算(6)式就需要估算出三個(gè)值：P(Ci)、P(wj/Ci)、P(wj/Ci,ws)。前兩個(gè)值在上文中已經(jīng)說(shuō)明，而P(wj/Ci,ws)為在Ci類中，ws出現(xiàn)時(shí)wj的概率。因此這里就考慮了兩個(gè)詞之間的關(guān)系。P(wj/Ci,ws)的值等于Ci類文本中出現(xiàn)ws的文本中wj的總詞頻與Ci類中出現(xiàn)ws的文檔的總詞頻的比率。即：

2 實(shí)驗(yàn)結(jié)果

目前，人們最常用的評(píng)價(jià)分類性能的指標(biāo)是查準(zhǔn)率(精確率)和查全率(召回率)。查準(zhǔn)率是指分類器正確判別為該類的測(cè)試樣本數(shù)與分類器判別為該類的測(cè)試樣本總數(shù)的比率。查全率是指分類器正確判別為該類的測(cè)試樣本數(shù)與該類的總測(cè)試樣本數(shù)的比率。以上兩個(gè)指標(biāo)體現(xiàn)了文本分類質(zhì)量的兩個(gè)方面，需要綜合考慮，因此有F1測(cè)試作為綜合評(píng)估指標(biāo)。

實(shí)驗(yàn)選取中文自然語(yǔ)言處理開發(fā)平臺(tái)提供的語(yǔ)料庫(kù)的文章，選擇六類文本進(jìn)行測(cè)試，分別是計(jì)算機(jī)、農(nóng)業(yè)、經(jīng)濟(jì)、藝術(shù)、環(huán)境、政治，共1800篇，每類300篇。其中從每類中選取200篇為訓(xùn)練樣本文檔，余下100篇為測(cè)試文檔。測(cè)試結(jié)果見(jiàn)表1。

表1 實(shí)驗(yàn)結(jié)果

從表1可看出，在所取測(cè)試集中，平均查準(zhǔn)率達(dá)到0.80，平均查全率達(dá)到 0.79，平均F1測(cè)試值達(dá)到 0.79?；具_(dá)到了文本分類的效果。

3 結(jié)束語(yǔ)

上述樸素貝葉斯分類算法基本實(shí)現(xiàn)了文本分類，但是還存在著一些問(wèn)題。首先 TAN結(jié)構(gòu)雖然考慮了兩兩屬性間的關(guān)聯(lián)，但文本中屬性之間可能存在的其他更多的關(guān)聯(lián)并沒(méi)有考慮到，因此適用范圍還是有一定的局限性。還有在計(jì)算特征詞屬于某一確定的類的概率時(shí)，由于訓(xùn)練集的選擇不同，或者訓(xùn)練集不足夠大，這會(huì)有某些不常見(jiàn)的特征詞在訓(xùn)練庫(kù)中不出現(xiàn)，而樸素貝葉斯判別式是一個(gè)乘積的值，這樣就會(huì)對(duì)結(jié)果影響很大。這些問(wèn)題在以后的工作中還需要不斷的改進(jìn)。

[1] 陳葉旺,余金山.一種改進(jìn)的樸素貝葉斯文本分類方法[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版).2011.

[2] 陳欣,張菁,李曉光.一種面向中文敏感網(wǎng)頁(yè)識(shí)別的文本分類方法[J].測(cè)控技術(shù).2011.

[3]張玉芳,陳劍敏,熊忠陽(yáng).一種改進(jìn)的貝葉斯文本分類方法[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版).2007.

[4] 史瑞芳.貝葉斯文本分類器的研究與改進(jìn)[J].計(jì)算機(jī)工程與應(yīng)用.2009.

[5] 王瀟,胡鑫,三種分類算法的比較[J].石河子大學(xué)學(xué)報(bào)(自然科學(xué)版).2005.

[6] 石洪波,王志海,黃厚寬.貝葉斯文本分類方法研究[J].山西大學(xué)學(xué)報(bào)[J].2002.

[7] 安艷輝,董五洲,游自英.基于改進(jìn)的樸素貝葉斯文本分類研究[J].河北省科學(xué)院學(xué)報(bào).2007.

[8] 劉沛騫,馮晶晶.一種改進(jìn)的樸素貝葉斯文本分類算法[J].微計(jì)算機(jī)信息.2010.

[9] 梁宏勝,徐建民,成岳鵬.一種改進(jìn)的樸素貝葉斯文本分類方法[J].河北大學(xué)學(xué)報(bào)(自然科學(xué)版).2007.

[10] 余芳,姜云飛.一種基于樸素貝葉斯分類的特征選擇方法[J].2004.