李詠豪 李倫波
摘要:文本分類問題是自然語言處理中的重要任務(wù)。本文將機(jī)器學(xué)習(xí)中的樸素貝葉斯模型以及Softmax回歸應(yīng)用于自動(dòng)文本分類中,在清華新聞分類語料數(shù)據(jù)集上實(shí)現(xiàn)了基于多項(xiàng)分布與類條件分布假設(shè)實(shí)現(xiàn)了樸素貝葉斯模型,并使用BOOL、TF、IDF、TF-IDF四種特征權(quán)重訓(xùn)練了Softmax回歸模型。最后,將兩種模型在訓(xùn)練集與測(cè)試集上的性能進(jìn)行對(duì)比。
關(guān)鍵詞:樸素貝葉斯;Softmax回歸;自然語言處理;文本分類
中圖分類號(hào):G642? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)28-0131-02
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
A Comparative Study of Naive Bayes and Softmax Regression in Text Classification
LI Yong-hao*, LI Lun-bo
(College of Computer Science and Engineering, Nanjing University of Science & Technology, Nanjing 210094, China)
Abstract: Text classification is an important task in natural language processing. In this paper, the Naive Bayes model and Softmax regression in machine learning are applied to automatic text classification. The naive Bayes model is implemented on the Tsinghua news classified corpus data set based on the assumption of multinomial distribution and class conditional distribution. And the Softmax regression model is trained with four feature weights including BOOL, TF, IDF, and TF-IDF. Finally, we compare the performance of the two models on the training set and the test set.
Key words: naive bayes; softmax regression; natural language processing; text classification
1 引言
自然語言處理中的文本分類指的是給定文檔,將文檔歸為n個(gè)類別中的1個(gè)。文本分類在現(xiàn)實(shí)生活中的用途十分廣泛,比如,將社交媒體中短文按照其討論內(nèi)容分為不同的類別;在情感分析問題中,提取文檔中人物表露的態(tài)度;在郵箱管理中,自動(dòng)區(qū)別垃圾郵件與非垃圾郵件。
文本分類任務(wù)通常由傳統(tǒng)的機(jī)器學(xué)習(xí)模型完成,如支持向量機(jī)[1]、樸素貝葉斯[2],也可由深度學(xué)習(xí)方法[3]實(shí)現(xiàn)。無論哪種統(tǒng)計(jì)學(xué)習(xí)模型,數(shù)據(jù)集對(duì)于模型性能都有著巨大的影響,本文中的模型使用了清華新聞分類語料數(shù)據(jù)集[4],它是根據(jù)新浪RSS訂閱頻道2005年至2011年間的歷史數(shù)據(jù)篩選過濾生成的,包括74萬篇新聞文檔,10余個(gè)類別標(biāo)簽,數(shù)據(jù)集中句子已經(jīng)過準(zhǔn)確的分詞,比如: 他 和 與 他 同輩 的 一 批 科學(xué)家 是 我國 計(jì)算機(jī) 技術(shù) 逼近 國際 先進(jìn) 水平 的 希望 。同時(shí),該數(shù)據(jù)集中包括一系列停用詞,“我”“自己”等停用詞十分常用,反而會(huì)影響新聞分類的精確度。由于數(shù)據(jù)規(guī)模過大,在CPU上訓(xùn)練速度緩慢,所以,在所有類別中,選擇體育、政治、教育、法律、電腦與經(jīng)濟(jì)共6個(gè)主題的數(shù)據(jù),每個(gè)子類中進(jìn)行500條新聞的隨機(jī)抽樣。
2 模型介紹
2.1 樸素貝葉斯
機(jī)器學(xué)習(xí)模型可分為判別式模型與生成式模型。判別式模型對(duì)給定觀測(cè)值的標(biāo)簽的后驗(yàn)概率[p(y|x)]建模,而生成式模型對(duì)觀測(cè)值和標(biāo)簽的聯(lián)合概率[p(x,y)]建模,然后用貝葉斯法則[p(y|x)=p(x,y)/p(x)]進(jìn)行預(yù)測(cè)。樸素貝葉斯模型是一種生成式模型。
樸素貝葉斯采用詞袋表示。在詞袋模型中,不考慮文檔中單詞的位置,詞與詞之間是互相獨(dú)立的,就像將所有詞語裝進(jìn)一個(gè)袋子里一樣。
樸素貝葉斯文本分類的步驟如下:
(1) 計(jì)算先驗(yàn)概率,即[p(y=cj)],每個(gè)樣本對(duì)應(yīng)的先驗(yàn)概率等于所屬類別樣本數(shù)占所有樣本數(shù)目的比例。
(2) 計(jì)算條件概率,令N為文檔個(gè)數(shù),V為詞表大小,[N(ti,x(k))]表示第i個(gè)詞在第k個(gè)文檔中出現(xiàn)的次數(shù),[cj]表示第j個(gè)類別:
[θi|j=Nk=1I(y(k)=cj)N(ti,x(k))+1i'=1VNk=1I(y(k)=cj)N(ti,x(k))+V](多項(xiàng)式分布假設(shè))? ? ?(1)
[μi|j=Nk=1I(y(k)=cj)I(ti∈x(k))+1Nk=1I(y(k)=cj)+2](多變量伯努利假設(shè))? ? ? ?(2)
[μi|j]與[θi|j]表示一個(gè)文檔中的第i個(gè)詞屬于第j個(gè)類別的概率,對(duì)于多項(xiàng)式分布假設(shè),分母為所有文檔總詞數(shù),分子為文檔第i個(gè)詞在第j類所有文檔中出現(xiàn)的總次數(shù);對(duì)于多變量假設(shè),分母為所有文檔中出現(xiàn)過第i個(gè)詞的文檔數(shù)目,分子為第j類所有文檔中有第i個(gè)詞出現(xiàn)的文檔數(shù)目。為了防止零概率問題,需要進(jìn)行拉普拉斯平滑處理。
(3) 計(jì)算后驗(yàn)概率[p(x|y=cj)=i=1V[I(ti∈x)μi|j+I(ti∈x)(1-μi|j)]],去后驗(yàn)概率最大時(shí)對(duì)應(yīng)的類別作為預(yù)測(cè)類別。
2.2 Softmax回歸
Softmax回歸[5]是一種多分類模型,也稱作多類logistic回歸,在NLP中,與最大熵模型是等價(jià)的,Softmax回歸作為一種廣泛使用的分類算法,常常作為深度學(xué)習(xí)分類模型最后一層執(zhí)行分類預(yù)測(cè)。與樸素貝葉斯不同,Softmax模型是一種判別式模型。
模型假設(shè)如下:
[p(y=j|x;θ)=hj(x)=eθTjxk=1CeθThx,j=1,2,…C,where θC=0]? ? ? ?(3)
[p(y=j|x;θ)]表示給定參數(shù)[θ]時(shí),樣本x屬于第j類的概率。值得注意的是,樣本x通過特征權(quán)重法構(gòu)造,對(duì)于每一個(gè)文檔,特征權(quán)重法構(gòu)建一個(gè)詞表,詞表中的每個(gè)詞具有一個(gè)固定的下標(biāo)以及一個(gè)特征值。在使用TF特征(Term Frequency)時(shí),某一文檔的特征向量中對(duì)應(yīng)詞的特征值等于詞在文檔中出現(xiàn)的次數(shù),其他特征權(quán)重方法有BOOL、IDF、TF-IDF等。
Softmax回歸模型使用梯度下降法更新權(quán)重:[?l(θ)?θj'=k=1N(1y(k)=j'-hj'(x(k)))x(k)]。
3 實(shí)驗(yàn)
所有模型中,樸素貝葉斯(多項(xiàng)式分布)在測(cè)試集上的準(zhǔn)確率最高,訓(xùn)練時(shí)間最短。Softmax回歸模型使用TF權(quán)重時(shí),測(cè)試集上的準(zhǔn)確率最高。
樸素貝葉斯(多項(xiàng)式分布)實(shí)驗(yàn)結(jié)果如圖1所示。
樸素貝葉斯(多變量伯努利)[6]實(shí)驗(yàn)結(jié)果如圖2所示。
Softmax(GD+TF)實(shí)驗(yàn)結(jié)果如圖3所示。
Softmax模型對(duì)于訓(xùn)練集的擬合效果更好(準(zhǔn)確率達(dá)到100%),但在測(cè)試集上,樸素貝葉斯分類準(zhǔn)確率更高。我們觀察到Softmax的具體分類準(zhǔn)確率與訓(xùn)練集的文檔數(shù)目存在聯(lián)系,某一類別在訓(xùn)練集中的文檔數(shù)目越多,則測(cè)試集上該類的分類準(zhǔn)確率越高。Softmax模型不需要詞袋假設(shè),適用范圍更廣泛。而在數(shù)據(jù)集較小的文本分類中,樸素貝葉斯模型的速度快、識(shí)別準(zhǔn)確率高。時(shí)間成本上,樸素貝葉斯低于Softmax回歸。原因如下:樸素貝葉斯模型直接統(tǒng)計(jì)得到頻率與概率表格,不需要使用梯度下降進(jìn)行參數(shù)優(yōu)化。
基于多項(xiàng)式假設(shè)的樸素貝葉斯模型準(zhǔn)確率遠(yuǎn)高于多變量假設(shè)。這是因?yàn)樵诙囗?xiàng)式模型的類條件概率計(jì)算中,對(duì)于一個(gè)文檔d,多項(xiàng)式模型中,只有在d中出現(xiàn)過的單詞,才會(huì)參與后驗(yàn)概率計(jì)算。Softmax(bool)模型在本問題中優(yōu)于多變量伯努利模型。
分類準(zhǔn)確率:TF > IDF > BOOL > TF-IDF。BOOL特征權(quán)重具有實(shí)現(xiàn)簡(jiǎn)單,速度快的優(yōu)點(diǎn),但是忽視了詞頻。TF權(quán)重以詞頻度量詞的重要性,詞頻越高,認(rèn)為該詞越重要。對(duì)于大部分詞,詞頻高,說明詞重要。然而,有一些詞(如“方面”、“中國”)在文檔中大量出現(xiàn),此時(shí),詞頻無法有效描述文檔的特征。
4 結(jié)束語
本文將對(duì)樸素貝葉斯模型和Softmax回歸進(jìn)行了對(duì)比研究,并在清華新聞分類語料數(shù)據(jù)集上進(jìn)行了文本分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,從時(shí)間復(fù)雜度來看,樸素貝葉斯低于Softmax回歸,Softmax模型適用范圍較廣。
參考文獻(xiàn):
[1] 岳文應(yīng).基于Doc2Vec與SVM的聊天內(nèi)容過濾[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(7):127-132.
[2] 蘇瑩,張勇,胡珀,等.基于樸素貝葉斯與潛在狄利克雷分布相結(jié)合的情感分析[J].計(jì)算機(jī)應(yīng)用,2016,36(6):1613-1618.
[3] 孫志遠(yuǎn),魯成祥,史忠植,等.深度學(xué)習(xí)研究與進(jìn)展[J].計(jì)算機(jī)科學(xué),2016,43(2):1-8.
[4] 蔡巍,王英林,尹中航.基于網(wǎng)上新聞?wù)Z料的Web頁面自動(dòng)分類研究[J].情報(bào)科學(xué),2010,28(1):124-127,136.
[5] 劉亞沖,唐智靈.基于Softmax回歸的通信輻射源特征分類識(shí)別方法[J].計(jì)算機(jī)工程,2018,44(2):98-102.
[6] 吳皋,李明,周稻祥,等.基于深度集成樸素貝葉斯模型的文本分類[J].濟(jì)南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,34(5):436-442.
【通聯(lián)編輯:唐一東】