亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

樸素貝葉斯方法在文本分類中的運用

2018-02-25 11:54:22史琬瑩

電子技術(shù)與軟件工程 2018年11期

史琬瑩

摘要在互聯(lián)網(wǎng)飛速發(fā)展的背景下，面對龐大的數(shù)據(jù)，我們急需一種有效的數(shù)據(jù)分類方式，樸素貝葉斯就是在這種情況下得廣泛關(guān)注的。樸素貝葉斯是一種基于條件獨立性和貝葉斯定理的分類方法。本文通過樸素貝葉斯原理，樸素貝葉斯分類流程，模型評估，介紹了如何用樸素貝葉斯方法處理文本分類問題。

[關(guān)鍵詞]樸素貝葉斯特征選擇文本分類

1 引言

隨著互聯(lián)網(wǎng)的飛速發(fā)展，海量數(shù)據(jù)注入到通訊設(shè)備中。如此大量的信息就讓信息檢索和數(shù)據(jù)挖掘的重要性更加突出。文本分類作為數(shù)據(jù)挖掘的一部分也逐漸被人們重視起來。其中文本分類的主要內(nèi)容是在預(yù)先給定的類標簽的集合下，根據(jù)文章內(nèi)容，確定它的類別。當(dāng)前比較流行的文本分類方法主要包涵文本的表示，分類方法及效果，評估，這三部分。我們接下來將要通過三個方面來介紹：文本表示，分類器構(gòu)造和分類器評估。

2 樸素貝葉斯原理

樸素貝葉斯是基于條件獨立性和貝葉斯定理的分類方法。

2.1 條件獨立性

條件獨立性是指集合中任意兩個事件均為相互獨立事件，不存在依賴關(guān)系，滿足：

P（XY|Z）=P（X|Z）*P（Y|Z）

（1）

2.2 條件概率

條件概率是指事件x在另一個事件y發(fā)生的條件下，其發(fā)生的概率，可以表示為：

其中，P（X）表示X的先驗概率或者稱為邊緣概率。P（Y|X）表示己知事件x發(fā)生后事件Y發(fā)生的條件概率，也稱Y的后驗概率。

2.3 全概率公式

設(shè)實驗E的樣本空間為S，Y1，…，Yn為S的一個劃分，且P（Yi》O（i=l，2，…，n），則對樣本空間中的任一事件X，恒有

P（X）=∑niP（Yi）P（XIYi）

（3）

2.4 貝葉斯公式

設(shè)Y1，Y2，…，Yn為樣本空間的一個劃分，X為Ω中的任一事件，且P（X）>O，則恒有

3 樸素貝葉斯分類流程

3.1 特征選擇

本文使用TFIDF做特征選擇。TF-IDF是一種用以評測某一個文件或是文件集，在所有語料中重要程度的統(tǒng)計方法，字詞的重要性與其在文件中出現(xiàn)的次數(shù)成正比，與在語料庫中出現(xiàn)的頻率成反比。

詞頻（TF）表示詞語在文件中出現(xiàn)的頻率。為了減小因文件長度造成的誤差，通常以頻率表示這個數(shù)字。

對于在某個特定文件中的文本，它的重要性通?？梢员硎緸椋?/p>

文件頻率（DF） DF，表示包含詞語t的文檔個數(shù)。

逆向文件頻率（IDF）用來表示詞語在文件中的普遍程度。用總文件數(shù)與包含該詞語的文件數(shù)目相除，可以得到該詞在文件中的普遍程度。若包含該詞的文件越少，則IDF值越大，則可以說明該詞區(qū)分某一類文件的能力較強。結(jié)算公式為：

在計算得到每個詞匯的TFIDF值以后，按照值的大小進行遞減排序，選出TFIDF值較大的部分詞匯作為特征。

3.2 樸素貝葉斯模型計算流程

樸素貝葉斯模型的計算流程如下所示：

（1）設(shè)x為一個待分類項;

（2）有類別集合C={y1，…ym）;

（3）計算P（y1|x），…，P（yn|x）;

（4）如果P（yk|x）=max{P（y1|x），…， P（yn|x}），則x屬于yk。

根據(jù)上述分析，樸素貝葉斯流程如圖1表示。

4 模型評估

4.1 準確率

準確率是最常用的分類指標。就最常見的二分類問題來說，模型的目的是分析出正類和負類。在測試集合中，被正確識別的量，除以測試集中的總量（包括把正樣本識別為負樣本以及把負樣本識別為負樣本的情況）就是準確率。

4.2 精確度和召回率

精確度容易和準確率混為一談。其實，精確度針對的只是預(yù)測正確的樣本中，正樣本的數(shù)量。它可以由預(yù)測正確的樣本中，正樣本的數(shù)量除以模型中所有正樣本的數(shù)量總數(shù)得到。表現(xiàn)為預(yù)測為正的樣本中，真正是正的數(shù)目。

召回率表示對于測試集中的正樣本，分類器能識別出來的概率，它是用預(yù)測正確的正樣本數(shù)目除以測試集中所有的正樣本數(shù)目計算得出的。

4.3 混淆矩陣

混淆矩陣將實際樣本數(shù)和預(yù)測樣本數(shù)放到同一表格中進行分析的方法，是用來計算準確率、精確度、召回率常用的一種方法。對于二類分類問題而言，樣本一般會被標為正類和負類，其中正類是我們關(guān)注的類型。

參考文獻

[1]蘇金樹，張博鋒，徐昕，基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J]，軟件學(xué)報，2006，17 （09）：1848-1859.

[2]李學(xué)明，李海瑞，薛亮，何光軍，基于信息增益與信息熵的TFIDF算法[J].計算機工程，2012，38 （08）：37-40.