馬亞州,張 勇,侯益明,王紫薇
(山西農(nóng)業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,山西 太谷 030801)
2020年,新冠病毒來(lái)勢(shì)洶洶,席卷全球。隨著新型冠狀病毒性肺炎疫情的蔓延,防控工作越來(lái)越艱巨,面臨的問(wèn)題也越來(lái)越嚴(yán)峻。在這沒(méi)有硝煙的“戰(zhàn)場(chǎng)”上,普通民眾能做的就是保護(hù)好自己,因此,能夠正確接收正規(guī)新聞報(bào)道,清楚地認(rèn)清當(dāng)下疫情情勢(shì)和防控措施,才可以更好地保護(hù)自己,對(duì)社會(huì)有所貢獻(xiàn)。
為了能夠快速閱讀到關(guān)于疫情的新聞,本文基于樸素貝葉斯算法來(lái)對(duì)當(dāng)前一些實(shí)時(shí)新聞進(jìn)行分類,將實(shí)時(shí)新聞分為疫情類與非疫情類。該算法用于分類的準(zhǔn)確率較高且有一定使用意義,值得進(jìn)一步研究。
樸素貝葉斯(Naive Bayes,NB)是基于“特征之間是獨(dú)立的”[1]這一樸素假設(shè),應(yīng)用貝葉斯定理的監(jiān)督學(xué)習(xí)算法。對(duì)應(yīng)給定的樣本X的特征向量x1,x2, ...,xm;該樣本X的類別y的概率可以由貝葉斯公式得到:
(1)
特征之間是相互獨(dú)立的,可得:
(2)
在給定樣本的情況下,P(x1,x2, ...,xm)是常數(shù):
(3)
要求得到最終的模型為:
(4)
計(jì)算出新聞分類中用于訓(xùn)練的每個(gè)新聞標(biāo)題的每個(gè)單詞在詞匯表中出現(xiàn)的概率,之后對(duì)于待分類的新聞可分別計(jì)算其屬于兩個(gè)類別的概率,然后比較其大小,最終予以分類[2]。算法流程如圖1所示。
(1)通過(guò)Java爬蟲(chóng)代碼分別從中國(guó)日?qǐng)?bào)網(wǎng)英文版(http://www.chinadaily.com.cn/)、人民網(wǎng)英文版(http://english.peopledaily.com.cn/)、中國(guó)日?qǐng)?bào)英文版(http://europe.chinadaily.com.cn/ )、新浪英文版(http://english.sina.com/ )等各大權(quán)威網(wǎng)站搜集近一個(gè)月以來(lái)的新聞報(bào)道標(biāo)題,從中共篩選得到1 085條關(guān)于新冠疫情的新聞報(bào)道標(biāo)題,從中隨機(jī)選取200條用于測(cè)試錯(cuò)誤率,其余用于訓(xùn)練,另外,選取同樣數(shù)目的其他新聞標(biāo)題也用于訓(xùn)練。將每個(gè)樣本分別單獨(dú)放到一個(gè)文本文檔中,構(gòu)成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集[3]。
(2)訓(xùn)練數(shù)據(jù)時(shí),將所有訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集構(gòu)成一個(gè)詞匯表并且將其向量化,將得到包含所有單詞的單詞表及向量表,如表1所示。
表1 樣本數(shù)量
根據(jù)樸素貝葉斯算法的原理,首先,需要針對(duì)所有樣本集構(gòu)造一個(gè)詞匯表;其次,根據(jù)詞匯表將訓(xùn)練樣本集向量化[4];最后,構(gòu)造一個(gè)帶有兩個(gè)參數(shù)的分類器:訓(xùn)練文檔矩陣和訓(xùn)練類別標(biāo)簽向量。將依次求得在整個(gè)數(shù)據(jù)集中,文檔分別屬于疫情類以及非疫情類的概率、詞匯表中各個(gè)單詞分別在疫情類以及非疫情類的概率,分類流程如圖2所示。
圖2 分類流程
進(jìn)行新聞識(shí)別前,根據(jù)在“構(gòu)造分類器”部分得到的詞匯表將待分類的200個(gè)新聞標(biāo)題向量化[5],各自形成文本文檔。
根據(jù)之前構(gòu)造分類器輸出返回的結(jié)果,可用于對(duì)新聞文檔來(lái)進(jìn)行分類。對(duì)每一個(gè)待分類新聞,首先使用split函數(shù)將其內(nèi)部單詞且分開(kāi),然后去除沒(méi)意義的部分(長(zhǎng)度小于3),之后將該文檔使用于式(3),求出該文檔分別屬于各個(gè)類別的概率,最后取概率大的類別為最終分類類別。將測(cè)試結(jié)果與其真實(shí)類別進(jìn)行比較,若不相等,則分類錯(cuò)誤,錯(cuò)誤次數(shù)加1,錯(cuò)誤率為式(5):
(5)
其中,X為錯(cuò)誤分類的數(shù)據(jù)個(gè)數(shù),N為進(jìn)行測(cè)試的數(shù)據(jù)個(gè)數(shù)??梢缘玫叫侣劮诸惖腻e(cuò)誤率,以此來(lái)評(píng)價(jià)分類的效果。
經(jīng)過(guò)對(duì)隨機(jī)抽取的200條新聞進(jìn)行分類測(cè)試,平均正確率可達(dá)到95.94%,分類準(zhǔn)確率較高,如表2所示。
表2 每一次分類準(zhǔn)確率
將該分類器應(yīng)用于實(shí)際的新聞分類將有實(shí)際意義,使民眾能夠快速接收到關(guān)于新冠肺炎疫情的消息,更好地保護(hù)自己和保護(hù)別人。