史琬瑩
摘要 在互聯(lián)網(wǎng)飛速發(fā)展的背景下,面對龐大的數(shù)據(jù),我們急需一種有效的數(shù)據(jù)分類方式,樸素貝葉斯就是在這種情況下得廣泛關(guān)注的。樸素貝葉斯是一種基于條件獨立性和貝葉斯定理的分類方法。本文通過樸素貝葉斯原理,樸素貝葉斯分類流程,模型評估,介紹了如何用樸素貝葉斯方法處理文本分類問題。
[關(guān)鍵詞]樸素貝葉斯 特征選擇 文本分類
1 引言
隨著互聯(lián)網(wǎng)的飛速發(fā)展,海量數(shù)據(jù)注入到通訊設(shè)備中。如此大量的信息就讓信息檢索和數(shù)據(jù)挖掘的重要性更加突出。文本分類作為數(shù)據(jù)挖掘的一部分也逐漸被人們重視起來。其中文本分類的主要內(nèi)容是在預(yù)先給定的類標簽的集合下,根據(jù)文章內(nèi)容,確定它的類別。當(dāng)前比較流行的文本分類方法主要包涵文本的表示,分類方法及效果,評估,這三部分。我們接下來將要通過三個方面來介紹:文本表示,分類器構(gòu)造和分類器評估。
2 樸素貝葉斯原理
樸素貝葉斯是基于條件獨立性和貝葉斯定理的分類方法。
2.1 條件獨立性
條件獨立性是指集合中任意兩個事件均為相互獨立事件,不存在依賴關(guān)系,滿足:
P(XY|Z)=P(X|Z)*P(Y|Z)
(1)
2.2 條件概率
條件概率是指事件x在另一個事件y發(fā)生的條件下,其發(fā)生的概率,可以表示為:
其中,P(X)表示X的先驗概率或者稱為邊緣概率。P(Y|X)表示己知事件x發(fā)生后事件Y發(fā)生的條件概率,也稱Y的后驗概率。
2.3 全概率公式
設(shè)實驗E的樣本空間為S,Y1,…,Yn為S的一個劃分,且P(Yi》O(i=l,2,…,n),則對樣本空間中的任一事件X,恒有
P(X)=∑niP(Yi)P(XIYi)
(3)
2.4 貝葉斯公式
設(shè)Y1,Y2,…,Yn為樣本空間的一個劃分,X為Ω中的任一事件,且P(X)>O,則恒有
3 樸素貝葉斯分類流程
3.1 特征選擇
本文使用TFIDF做特征選擇。TF-IDF是一種用以評測某一個文件或是文件集,在所有語料中重要程度的統(tǒng)計方法,字詞的重要性與其在文件中出現(xiàn)的次數(shù)成正比,與在語料庫中出現(xiàn)的頻率成反比。
詞頻(TF)表示詞語在文件中出現(xiàn)的頻率。為了減小因文件長度造成的誤差,通常以頻率表示這個數(shù)字。
對于在某個特定文件中的文本,它的重要性通??梢员硎緸椋?/p>
文件頻率(DF) DF,表示包含詞語t的文檔個數(shù)。
逆向文件頻率(IDF)用來表示詞語在文件中的普遍程度。用總文件數(shù)與包含該詞語的文件數(shù)目相除,可以得到該詞在文件中的普遍程度。若包含該詞的文件越少,則IDF值越大,則可以說明該詞區(qū)分某一類文件的能力較強。結(jié)算公式為:
在計算得到每個詞匯的TFIDF值以后,按照值的大小進行遞減排序,選出TFIDF值較大的部分詞匯作為特征。
3.2 樸素貝葉斯模型計算流程
樸素貝葉斯模型的計算流程如下所示:
(1)設(shè)x為一個待分類項;
(2)有類別集合C={y1,…ym);
(3)計算P(y1|x),…,P(yn|x);
(4) 如果P(yk|x)=max{P(y1|x),…, P(yn|x}),則x屬于yk。
根據(jù)上述分析,樸素貝葉斯流程如圖1表示。
4 模型評估
4.1 準確率
準確率是最常用的分類指標。就最常見的二分類問題來說,模型的目的是分析出正類和負類。在測試集合中,被正確識別的量,除以測試集中的總量(包括把正樣本識別為負樣本以及把負樣本識別為負樣本的情況)就是準確率。
4.2 精確度和召回率
精確度容易和準確率混為一談。其實,精確度針對的只是預(yù)測正確的樣本中,正樣本的數(shù)量。它可以由預(yù)測正確的樣本中,正樣本的數(shù)量除以模型中所有正樣本的數(shù)量總數(shù)得到。表現(xiàn)為預(yù)測為正的樣本中,真正是正的數(shù)目。
召回率表示對于測試集中的正樣本,分類器能識別出來的概率,它是用預(yù)測正確的正樣本數(shù)目除以測試集中所有的正樣本數(shù)目計算得出的。
4.3 混淆矩陣
混淆矩陣將實際樣本數(shù)和預(yù)測樣本數(shù)放到同一表格中進行分析的方法,是用來計算準確率、精確度、召回率常用的一種方法。對于二類分類問題而言,樣本一般會被標為正類和負類,其中正類是我們關(guān)注的類型。
參考文獻
[1]蘇金樹,張博鋒,徐昕,基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J],軟件學(xué)報,2006,17 (09):1848-1859.
[2]李學(xué)明,李海瑞,薛亮,何光軍,基于信息增益與信息熵的TFIDF算法[J].計算機工程,2012,38 (08):37-40.