亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于樸素貝葉斯的新冠疫情新聞分類研究

2020-10-26 08:55:40馬亞州侯益明王紫薇

無(wú)線互聯(lián)科技 2020年14期

馬亞州，張勇，侯益明，王紫薇

(山西農(nóng)業(yè)大學(xué) 信息科學(xué)與工程學(xué)院，山西太谷 030801)

0 引言

2020年，新冠病毒來(lái)勢(shì)洶洶，席卷全球。隨著新型冠狀病毒性肺炎疫情的蔓延，防控工作越來(lái)越艱巨，面臨的問(wèn)題也越來(lái)越嚴(yán)峻。在這沒(méi)有硝煙的“戰(zhàn)場(chǎng)”上，普通民眾能做的就是保護(hù)好自己，因此，能夠正確接收正規(guī)新聞報(bào)道，清楚地認(rèn)清當(dāng)下疫情情勢(shì)和防控措施，才可以更好地保護(hù)自己，對(duì)社會(huì)有所貢獻(xiàn)。

為了能夠快速閱讀到關(guān)于疫情的新聞，本文基于樸素貝葉斯算法來(lái)對(duì)當(dāng)前一些實(shí)時(shí)新聞進(jìn)行分類，將實(shí)時(shí)新聞分為疫情類與非疫情類。該算法用于分類的準(zhǔn)確率較高且有一定使用意義，值得進(jìn)一步研究。

1 樸素貝葉斯算法

樸素貝葉斯(Naive Bayes，NB)是基于“特征之間是獨(dú)立的”[1]這一樸素假設(shè)，應(yīng)用貝葉斯定理的監(jiān)督學(xué)習(xí)算法。對(duì)應(yīng)給定的樣本X的特征向量x1,x2, ...,xm；該樣本X的類別y的概率可以由貝葉斯公式得到：

(1)

特征之間是相互獨(dú)立的，可得：

(2)

在給定樣本的情況下，P(x1,x2, ...,xm)是常數(shù)：

(3)

要求得到最終的模型為：

(4)

計(jì)算出新聞分類中用于訓(xùn)練的每個(gè)新聞標(biāo)題的每個(gè)單詞在詞匯表中出現(xiàn)的概率，之后對(duì)于待分類的新聞可分別計(jì)算其屬于兩個(gè)類別的概率，然后比較其大小，最終予以分類[2]。算法流程如圖1所示。

2 數(shù)據(jù)準(zhǔn)備

(1)通過(guò)Java爬蟲(chóng)代碼分別從中國(guó)日?qǐng)?bào)網(wǎng)英文版(http://www.chinadaily.com.cn/)、人民網(wǎng)英文版(http://english.peopledaily.com.cn/)、中國(guó)日?qǐng)?bào)英文版(http://europe.chinadaily.com.cn/ )、新浪英文版(http://english.sina.com/ )等各大權(quán)威網(wǎng)站搜集近一個(gè)月以來(lái)的新聞報(bào)道標(biāo)題，從中共篩選得到1 085條關(guān)于新冠疫情的新聞報(bào)道標(biāo)題，從中隨機(jī)選取200條用于測(cè)試錯(cuò)誤率，其余用于訓(xùn)練，另外，選取同樣數(shù)目的其他新聞標(biāo)題也用于訓(xùn)練。將每個(gè)樣本分別單獨(dú)放到一個(gè)文本文檔中，構(gòu)成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集[3]。

(2)訓(xùn)練數(shù)據(jù)時(shí)，將所有訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集構(gòu)成一個(gè)詞匯表并且將其向量化，將得到包含所有單詞的單詞表及向量表，如表1所示。

表1 樣本數(shù)量

3 實(shí)驗(yàn)過(guò)程

3.1 構(gòu)造分類器

根據(jù)樸素貝葉斯算法的原理，首先，需要針對(duì)所有樣本集構(gòu)造一個(gè)詞匯表；其次，根據(jù)詞匯表將訓(xùn)練樣本集向量化[4]；最后，構(gòu)造一個(gè)帶有兩個(gè)參數(shù)的分類器：訓(xùn)練文檔矩陣和訓(xùn)練類別標(biāo)簽向量。將依次求得在整個(gè)數(shù)據(jù)集中，文檔分別屬于疫情類以及非疫情類的概率、詞匯表中各個(gè)單詞分別在疫情類以及非疫情類的概率，分類流程如圖2所示。

圖2 分類流程

3.2 新聞識(shí)別

進(jìn)行新聞識(shí)別前，根據(jù)在“構(gòu)造分類器”部分得到的詞匯表將待分類的200個(gè)新聞標(biāo)題向量化[5]，各自形成文本文檔。

根據(jù)之前構(gòu)造分類器輸出返回的結(jié)果，可用于對(duì)新聞文檔來(lái)進(jìn)行分類。對(duì)每一個(gè)待分類新聞，首先使用split函數(shù)將其內(nèi)部單詞且分開(kāi)，然后去除沒(méi)意義的部分(長(zhǎng)度小于3)，之后將該文檔使用于式(3)，求出該文檔分別屬于各個(gè)類別的概率，最后取概率大的類別為最終分類類別。將測(cè)試結(jié)果與其真實(shí)類別進(jìn)行比較，若不相等，則分類錯(cuò)誤，錯(cuò)誤次數(shù)加1，錯(cuò)誤率為式(5)：

(5)

其中，X為錯(cuò)誤分類的數(shù)據(jù)個(gè)數(shù)，N為進(jìn)行測(cè)試的數(shù)據(jù)個(gè)數(shù)?？梢缘玫叫侣劮诸惖腻e(cuò)誤率，以此來(lái)評(píng)價(jià)分類的效果。

4 結(jié)果分析

經(jīng)過(guò)對(duì)隨機(jī)抽取的200條新聞進(jìn)行分類測(cè)試，平均正確率可達(dá)到95.94%，分類準(zhǔn)確率較高，如表2所示。

表2 每一次分類準(zhǔn)確率

5 結(jié)語(yǔ)

將該分類器應(yīng)用于實(shí)際的新聞分類將有實(shí)際意義，使民眾能夠快速接收到關(guān)于新冠肺炎疫情的消息，更好地保護(hù)自己和保護(hù)別人。