亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樸素貝葉斯的短文本分類研究

        2018-10-21 19:44:59檀亞寧劉宏玉王子浪
        關(guān)鍵詞:樸素分詞貝葉斯

        檀亞寧 劉宏玉 王子浪

        摘要:自然語言處理是目前智能科學(xué)領(lǐng)域中的一個(gè)非常熱門的方向,文本的分類同樣也是自然語言處理中的一項(xiàng)關(guān)鍵的技術(shù)。隨著深度學(xué)習(xí)發(fā)展,樸素貝葉斯算法也已經(jīng)在文本的分類中取得到了良好的分類效果。本文針對(duì)短文本的分類問題,首先對(duì)短文本數(shù)據(jù)進(jìn)行了預(yù)處理操作,其中包括中文分詞、去除停用詞以及特征的提取,隨后闡明了樸素貝葉斯算法構(gòu)建分類器的過程,最后將樸素貝葉斯算法與邏輯回歸和支持向量機(jī)分類算法的分類效果進(jìn)行了對(duì)比分析,得出樸素貝葉斯算法在訓(xùn)練所需的效率上及準(zhǔn)確率上有較為優(yōu)異的表現(xiàn)。

        關(guān)鍵詞:自然語言處理文本分類機(jī)器學(xué)習(xí)樸素貝葉斯

        引言

        文本分類問題是自然語言處理中的一個(gè)非常經(jīng)典的問題。文本分類是計(jì)算機(jī)通過按照一定的分類標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記的有監(jiān)督學(xué)習(xí)過程。在文本特征工程中,和兩種方法應(yīng)用最為廣泛[1] 。在分類器中,使用普遍的有樸素貝葉斯,邏輯回歸,支持向量機(jī)等算法。其中樸素貝葉斯是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率?;诖?,本文采用基于的特征提取的樸素貝葉斯算法進(jìn)行文本分類,探求樸素貝葉斯算法在短文本分類中的適用性。

        1數(shù)據(jù)預(yù)處理

        1.1中文分詞

        中文分詞是指將一個(gè)漢字序列切分成一個(gè)個(gè)單獨(dú)的詞。中文分詞是中文文本處理的一個(gè)基礎(chǔ)步驟,也是對(duì)中文處理較為重要的部分,更是人機(jī)自然語言交流交互的基礎(chǔ)模塊。在進(jìn)行中文自然語言處理時(shí),通常需要先進(jìn)行中文分詞處理[2] 。

        1.2停用詞處理

        去除停用詞能夠節(jié)省存儲(chǔ)空間和計(jì)算時(shí)間,降低對(duì)系統(tǒng)精度的影響。對(duì)于停用詞的處理,要先對(duì)語料庫進(jìn)行分詞、詞形以及詞性的類化,為區(qū)分需求表述和信息內(nèi)容詞語提供基礎(chǔ)。去停用詞后可以更好地分析文本的情感極性,本文采用廣泛使用的哈工大停用詞表進(jìn)行去停用詞處理。

        1.3特征提取

        文本數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),一般要轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),一般是將文本轉(zhuǎn)換成“文檔-詞頻矩陣”,矩陣中的元素使用詞頻或者。它的計(jì)算為,

        某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個(gè)文件集合中的低詞語頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。

        2模型的建立

        2.1貝葉斯理論

        樸素貝葉斯分類器是一系列以假設(shè)特征之間強(qiáng)(樸素)獨(dú)立下運(yùn)用貝葉斯定理為基礎(chǔ)的簡(jiǎn)單概率分類器[3] 。

        構(gòu)成文本的有意義的單元是詞語,文本的類別和文本出現(xiàn)的詞語是有關(guān)聯(lián)性的。假設(shè)文本可以用一組能表示文本類別的特征詞來表示,可以把這組特征詞定義成文本的特征向量。假設(shè)訓(xùn)練樣本集中有個(gè)不同的類別,,,…,要確定特征向量屬于哪個(gè)類別,只需要計(jì)算每個(gè)類別的條件概率,選取概率值最大的類別作為文本的類別[4] 。根據(jù)貝葉斯定理可得文本分類函數(shù):

        3實(shí)驗(yàn)及結(jié)果分析

        3.1實(shí)驗(yàn)結(jié)果

        經(jīng)過對(duì)比分析不同種類分類器效果,后進(jìn)行十折交叉驗(yàn)證取平均值,實(shí)驗(yàn)結(jié)果如下表。

        3.2結(jié)果分析

        綜合表1中的準(zhǔn)確率和F1值可以看出,樸素貝葉斯模型在準(zhǔn)確率和F1值與邏輯回歸和支持向量機(jī)分類器相比都較高。而且在訓(xùn)練時(shí)間上,樸素貝葉斯在有更為優(yōu)異的表現(xiàn)。

        4結(jié)論

        本文在研究短文本分類方法的基礎(chǔ)上,使用了樸素貝葉斯模型作為分類器,進(jìn)行了文本分類的實(shí)驗(yàn)。通過基于的特征提取,十折交叉驗(yàn)證后取平均值準(zhǔn)確率可以到達(dá)91.95%,F(xiàn)1值為0.91,得到了樸素貝葉斯分類器這一方法在短文本分類上具有較好的適用性的結(jié)果。

        參考文獻(xiàn):

        [1] 孟濤,王誠.基于擴(kuò)展短文本詞特征向量的分類研究[J/OL].計(jì)算機(jī)技術(shù)與發(fā)展.

        [2] 紀(jì)明宇,王晨龍,安翔,牟偉曄.面向智能客服的句子相似度計(jì)算方法[J/OL].計(jì)算機(jī)工程與應(yīng)用.

        [3] 黃勇,羅文輝,張瑞舒.改進(jìn)樸素貝葉斯算法在文本分類中的應(yīng)用[J].科技創(chuàng)新與應(yīng)用.

        [4] 丁月,汪學(xué)明.一種基于改進(jìn)特征加權(quán)的樸素貝葉斯分類算法[J/OL].計(jì)算機(jī)應(yīng)用研究.

        (作者單位:華北理工大學(xué)理學(xué)院)

        猜你喜歡
        樸素分詞貝葉斯
        隔離樸素
        樸素的安慰(組詩)
        他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
        結(jié)巴分詞在詞云中的應(yīng)用
        最神奇最樸素的兩本書
        貝葉斯公式及其應(yīng)用
        值得重視的分詞的特殊用法
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        一種基于貝葉斯壓縮感知的說話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
        亚洲国产精品久久久久久久| 熟女肥臀白浆一区二区| 久久久久亚洲av成人人电影| 久久精品国产亚洲av四虎| 丝袜国产高跟亚洲精品91| 丰满少妇人妻无码超清| 国产视频在线观看一区二区三区| 蜜桃视频一区二区在线观看| 又爽又黄又无遮挡的激情视频| 日韩欧美在线播放视频| 国产性感主播一区二区| 国产成人精品一区二区20p| 99精品国产一区二区| 91av视频在线| 亚洲国产都市一区二区| 久久精品国产亚洲av麻豆会员| 日韩少妇内射免费播放| 日韩精品欧美激情亚洲综合| 国产亚洲av一线观看| 欧美性生交活xxxxxdddd| 国产精自产拍久久久久久蜜 | 国产精品福利久久香蕉中文| aa日韩免费精品视频一| 乱人伦精品视频在线观看| 久久国产色av| 国产精品日韩中文字幕| 激情五月我也去也色婷婷| 狼人香蕉香蕉在线28 - 百度| 久久精品这里只有精品| 偷拍美女一区二区三区视频| 国产极品视觉盛宴| 国产精品 高清 尿 小便 嘘嘘| 国产一区二区三区高清视频| 女同同志熟女人妻二区| 国产精品一区二区无线| 久久无码一一区| 白色月光免费观看完整版| 久久久久国色av免费观看性色| 一本色道久久综合狠狠躁| 日本精品国产1区2区3区| 成人日韩精品人妻久久一区|