亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樸素貝葉斯的新冠疫情新聞分類研究

        2020-10-26 08:55:40馬亞州侯益明王紫薇
        無(wú)線互聯(lián)科技 2020年14期
        關(guān)鍵詞:詞匯表貝葉斯類別

        馬亞州,張 勇,侯益明,王紫薇

        (山西農(nóng)業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,山西 太谷 030801)

        0 引言

        2020年,新冠病毒來(lái)勢(shì)洶洶,席卷全球。隨著新型冠狀病毒性肺炎疫情的蔓延,防控工作越來(lái)越艱巨,面臨的問(wèn)題也越來(lái)越嚴(yán)峻。在這沒(méi)有硝煙的“戰(zhàn)場(chǎng)”上,普通民眾能做的就是保護(hù)好自己,因此,能夠正確接收正規(guī)新聞報(bào)道,清楚地認(rèn)清當(dāng)下疫情情勢(shì)和防控措施,才可以更好地保護(hù)自己,對(duì)社會(huì)有所貢獻(xiàn)。

        為了能夠快速閱讀到關(guān)于疫情的新聞,本文基于樸素貝葉斯算法來(lái)對(duì)當(dāng)前一些實(shí)時(shí)新聞進(jìn)行分類,將實(shí)時(shí)新聞分為疫情類與非疫情類。該算法用于分類的準(zhǔn)確率較高且有一定使用意義,值得進(jìn)一步研究。

        1 樸素貝葉斯算法

        樸素貝葉斯(Naive Bayes,NB)是基于“特征之間是獨(dú)立的”[1]這一樸素假設(shè),應(yīng)用貝葉斯定理的監(jiān)督學(xué)習(xí)算法。對(duì)應(yīng)給定的樣本X的特征向量x1,x2, ...,xm;該樣本X的類別y的概率可以由貝葉斯公式得到:

        (1)

        特征之間是相互獨(dú)立的,可得:

        (2)

        在給定樣本的情況下,P(x1,x2, ...,xm)是常數(shù):

        (3)

        要求得到最終的模型為:

        (4)

        計(jì)算出新聞分類中用于訓(xùn)練的每個(gè)新聞標(biāo)題的每個(gè)單詞在詞匯表中出現(xiàn)的概率,之后對(duì)于待分類的新聞可分別計(jì)算其屬于兩個(gè)類別的概率,然后比較其大小,最終予以分類[2]。算法流程如圖1所示。

        2 數(shù)據(jù)準(zhǔn)備

        (1)通過(guò)Java爬蟲(chóng)代碼分別從中國(guó)日?qǐng)?bào)網(wǎng)英文版(http://www.chinadaily.com.cn/)、人民網(wǎng)英文版(http://english.peopledaily.com.cn/)、中國(guó)日?qǐng)?bào)英文版(http://europe.chinadaily.com.cn/ )、新浪英文版(http://english.sina.com/ )等各大權(quán)威網(wǎng)站搜集近一個(gè)月以來(lái)的新聞報(bào)道標(biāo)題,從中共篩選得到1 085條關(guān)于新冠疫情的新聞報(bào)道標(biāo)題,從中隨機(jī)選取200條用于測(cè)試錯(cuò)誤率,其余用于訓(xùn)練,另外,選取同樣數(shù)目的其他新聞標(biāo)題也用于訓(xùn)練。將每個(gè)樣本分別單獨(dú)放到一個(gè)文本文檔中,構(gòu)成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集[3]。

        (2)訓(xùn)練數(shù)據(jù)時(shí),將所有訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集構(gòu)成一個(gè)詞匯表并且將其向量化,將得到包含所有單詞的單詞表及向量表,如表1所示。

        表1 樣本數(shù)量

        3 實(shí)驗(yàn)過(guò)程

        3.1 構(gòu)造分類器

        根據(jù)樸素貝葉斯算法的原理,首先,需要針對(duì)所有樣本集構(gòu)造一個(gè)詞匯表;其次,根據(jù)詞匯表將訓(xùn)練樣本集向量化[4];最后,構(gòu)造一個(gè)帶有兩個(gè)參數(shù)的分類器:訓(xùn)練文檔矩陣和訓(xùn)練類別標(biāo)簽向量。將依次求得在整個(gè)數(shù)據(jù)集中,文檔分別屬于疫情類以及非疫情類的概率、詞匯表中各個(gè)單詞分別在疫情類以及非疫情類的概率,分類流程如圖2所示。

        圖2 分類流程

        3.2 新聞識(shí)別

        進(jìn)行新聞識(shí)別前,根據(jù)在“構(gòu)造分類器”部分得到的詞匯表將待分類的200個(gè)新聞標(biāo)題向量化[5],各自形成文本文檔。

        根據(jù)之前構(gòu)造分類器輸出返回的結(jié)果,可用于對(duì)新聞文檔來(lái)進(jìn)行分類。對(duì)每一個(gè)待分類新聞,首先使用split函數(shù)將其內(nèi)部單詞且分開(kāi),然后去除沒(méi)意義的部分(長(zhǎng)度小于3),之后將該文檔使用于式(3),求出該文檔分別屬于各個(gè)類別的概率,最后取概率大的類別為最終分類類別。將測(cè)試結(jié)果與其真實(shí)類別進(jìn)行比較,若不相等,則分類錯(cuò)誤,錯(cuò)誤次數(shù)加1,錯(cuò)誤率為式(5):

        (5)

        其中,X為錯(cuò)誤分類的數(shù)據(jù)個(gè)數(shù),N為進(jìn)行測(cè)試的數(shù)據(jù)個(gè)數(shù)??梢缘玫叫侣劮诸惖腻e(cuò)誤率,以此來(lái)評(píng)價(jià)分類的效果。

        4 結(jié)果分析

        經(jīng)過(guò)對(duì)隨機(jī)抽取的200條新聞進(jìn)行分類測(cè)試,平均正確率可達(dá)到95.94%,分類準(zhǔn)確率較高,如表2所示。

        表2 每一次分類準(zhǔn)確率

        5 結(jié)語(yǔ)

        將該分類器應(yīng)用于實(shí)際的新聞分類將有實(shí)際意義,使民眾能夠快速接收到關(guān)于新冠肺炎疫情的消息,更好地保護(hù)自己和保護(hù)別人。

        猜你喜歡
        詞匯表貝葉斯類別
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        服務(wù)類別
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        巧妙提取英文詞匯表的純英文單詞
        電腦迷(2014年16期)2014-04-29 03:32:41
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
        聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見(jiàn)肉類別
        詞匯表
        情av一区二区三区在线观看| 国产色噜噜| 久久久99久久久国产自输拍| 日本精品一区二区三区试看| 无码色av一二区在线播放 | 欧美丰满熟妇乱xxxxx图片| 国产精品麻豆A啊在线观看 | 国产在视频线精品视频二代| 人妻少妇偷人精品一区二区三区| 国产99视频精品免视看7| 亚洲国产精品久久亚洲精品 | 国产伦精品一区二区三区在线| 在线观看视频日本一区二区 | 巨爆中文字幕巨爆区爆乳| 亚洲伊人成综合网| 草草影院国产| 亚洲97成人精品久久久| 国产卡一卡二卡3卡4乱码| 厨房玩丰满人妻hd完整版视频| 久久精品韩国日本国产| a黄片在线视频免费播放| 国产人妻精品无码av在线| 久久无码一二三四| 一区二区三区在线观看精品视频| 狠狠躁夜夜躁av网站中文字幕| 在线亚洲午夜理论av大片| av中文字幕少妇人妻| 日本av不卡一区二区三区| 国产无套粉嫩白浆在线观看| 色两性网欧美| 精品日本一区二区视频| 国产精品亚洲av三区亚洲| 99精品免费久久久久久久久日本| 色综合999| 国语对白在线观看免费| 久久久久成人片免费观看蜜芽 | 中文字幕免费人成在线网站| 色偷偷噜噜噜亚洲男人| 国产高清a| 人妻精品久久一区二区三区| 少妇厨房愉情理伦bd在线观看|