亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        并行化改進(jìn)的樸素貝葉斯算法在中文文本分類上的應(yīng)用

        2020-09-04 07:56:10彭子豪
        科學(xué)技術(shù)創(chuàng)新 2020年26期
        關(guān)鍵詞:分類特征文本

        彭子豪 譚 欣

        (湖北第二師范學(xué)院計(jì)算機(jī)學(xué)院,湖北 潛江433100)

        1 概述

        互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,使文本信息的體量乘上了增長的快車。為了有效的對海量文本信息進(jìn)行數(shù)據(jù)挖掘,文本分類成為了研究的熱點(diǎn)。文本分類在新聞主題分類、情感分析、輿情分析和智能信息推薦中都應(yīng)用廣泛。尤其是大數(shù)據(jù)海量文本數(shù)據(jù)而言,對其進(jìn)行高效高精度的文本分類是一個(gè)重要的研究內(nèi)容。樸素貝葉斯算法是公認(rèn)經(jīng)典的分類算法,普遍用于文本分類。樸素貝葉斯最核心的部分是貝葉斯法則,用后驗(yàn)概率和聯(lián)合概率來計(jì)算先驗(yàn)概率。

        文獻(xiàn)[1]在樸素貝葉斯算法文本分類算法中去掉了對先驗(yàn)概率的計(jì)算,并在后驗(yàn)概率的計(jì)算中引入了一個(gè)放大系數(shù),提升了計(jì)算精度。

        文獻(xiàn)[2] 提出一種基于詞向量間余弦相似度的改進(jìn)樸素貝葉斯算法,有效的降低了特征向量的數(shù)據(jù)冗余和計(jì)算復(fù)雜性。

        文獻(xiàn)[3]實(shí)現(xiàn)了基于MapReduce 實(shí)現(xiàn)樸素貝葉斯算法,使在大數(shù)據(jù)量的情況下, 并行化的貝葉斯算法較傳統(tǒng)的貝葉斯算法具有更好的執(zhí)行效率和較高的擴(kuò)展性。在基于樸素貝葉斯的文本分類時(shí),首先需要通過詞頻統(tǒng)計(jì)獲取文本特征,之后利用貝葉斯對屬性以同權(quán)的形式進(jìn)行模型計(jì)算。

        而上述文獻(xiàn)沒有考慮到對于文本屬性而言,不同的屬性在表征類別時(shí)貢獻(xiàn)可能是不同的,而在傳統(tǒng)貝葉斯文本分類方法中,認(rèn)為特征項(xiàng)在分類時(shí)對決策的貢獻(xiàn)相同,對不具有代表性的、噪聲污染的特征和高頻出現(xiàn)特征屬性進(jìn)行同權(quán)處理,導(dǎo)致分類精確度降低。

        為區(qū)分文本單詞特征屬性在分類時(shí)的權(quán)重差異,提升文本大數(shù)據(jù)的分類精度及效率,本文首先利用改進(jìn)的TFIDFCF 算法進(jìn)行文本詞頻統(tǒng)計(jì),獲取不同單詞的詞頻,該算法解決了TFIDF算法在計(jì)算特征詞權(quán)重時(shí)忽略類間關(guān)系的問題。其次將文本特征詞的詞頻統(tǒng)計(jì)結(jié)果,作為樸素貝葉斯模型的屬性特征權(quán)重輸入,進(jìn)行加權(quán)分類。此外為了提高算法對海量大數(shù)據(jù)文本分類的處理能力,基于MapReduce 編程理念,在分布式框架上進(jìn)行改進(jìn)的算法的并行化處理,并通過計(jì)算召回率,精確率,f1-score等對算法性能進(jìn)行評價(jià)。

        實(shí)驗(yàn)結(jié)果表明,本文提出的基于改進(jìn)的TFIDF 詞頻處理及并行框架下的樸素貝葉斯文本分類算法,較傳統(tǒng)方法在分類精度及效率上均有提升。

        2 基于TFIDF 算法的詞頻統(tǒng)計(jì)

        2.1 TFIDF 算法簡介

        2.2 傳統(tǒng)的TFIDF 算法的改進(jìn)

        3 樸素貝葉斯分類算法

        3.1 樸素貝葉斯算法介紹

        樸素貝葉斯的主要思想是在假設(shè)特征在互相條件獨(dú)立的情況下,基于貝葉斯公式用先驗(yàn)概率的值來計(jì)算后驗(yàn)概率。

        3.2 特征加權(quán)文本分類樸素貝葉斯算法

        傳統(tǒng)的樸素貝葉斯算法認(rèn)為所有特征屬性對分類決策的貢獻(xiàn)是相同的。文獻(xiàn)[5]表明,在文本分類中,得冗余的、與分類無關(guān)的、相互影響的以及被噪聲污染的特征和其他特征具有相同的地位,并使得分類的正確性降低。針對傳統(tǒng)的樸素貝葉斯在文本分類上認(rèn)為特征詞貢獻(xiàn)相同,提出了基于TFIDFCF 特征加權(quán)的樸素貝葉斯算法。

        其中Wk,d為特征項(xiàng)Xk詞在d 文本中的TFIDFCF 權(quán)值。將詞頻,逆文檔頻率和類別區(qū)分度兼顧,較好的反應(yīng)了詞語的重要程度。這樣將此權(quán)重加權(quán)到樸素貝葉斯模型中,會(huì)根據(jù)詞的重要程度優(yōu)化樸素貝葉斯假定特征詞都條件獨(dú)立的情況。

        4 MapReduce 實(shí)現(xiàn)并行TFIDFCF 特征加權(quán)貝葉斯算法流程

        4.1 算法實(shí)現(xiàn)流程圖

        算法實(shí)現(xiàn)總體可以分為兩大步驟。第一個(gè)步驟為計(jì)算每個(gè)文章中詞的TFIDFCF 值,第二個(gè)步驟為計(jì)算語料庫中類別出現(xiàn)的概率及每個(gè)詞在每個(gè)類別下的出現(xiàn)的條件概率。最終輸出到NewBayesCalCulateMap 中即可進(jìn)行類別預(yù)測(在實(shí)際預(yù)測中,由于樸素貝葉斯是由先驗(yàn)概率和聯(lián)合概率來估計(jì)后驗(yàn)概率,所以第二步驟在預(yù)測時(shí)不需要計(jì)算,按照訓(xùn)練出來的模型帶入即可)。由于MapReduce 并行計(jì)算框架支持有向圖計(jì)算,按照上面的拓?fù)鋱D進(jìn)行會(huì)進(jìn)行有序的輸入輸出形成MapReduce 鏈。雖然并行計(jì)算提高了計(jì)算的速度,但mapreduce 需要頻繁的落盤,磁盤IO 開銷大。而spark 基于內(nèi)存的運(yùn)算方式可能可以在此基礎(chǔ)上更快。

        MapReduce 實(shí)現(xiàn)并行TFIDFCF 特征加權(quán)貝葉斯算法流程圖

        4.2 實(shí)現(xiàn)算法中需要注意的幾點(diǎn)

        防止下溢出:在實(shí)現(xiàn)貝葉斯公式計(jì)算時(shí)。若進(jìn)行浮點(diǎn)數(shù)運(yùn)算,因?yàn)楦↑c(diǎn)數(shù)精確度不夠,會(huì)導(dǎo)致乘積為零的情況,對改進(jìn)的貝葉斯算法取對后公式如下:

        5 文本分類結(jié)果分析

        為驗(yàn)證算法的可行性,本文選取了清華大學(xué)自然語言處理實(shí)驗(yàn)室THUCNews 新聞文本部分?jǐn)?shù)據(jù)和兩組測試數(shù)據(jù)進(jìn)行分類試驗(yàn);并以傳統(tǒng)貝葉斯文本分類結(jié)果對比對比試驗(yàn),進(jìn)行算法有效性分析。

        THUCNews 新聞文本數(shù)據(jù)分類:

        (1)THUCNews 數(shù)據(jù)介紹

        THUCNews 新聞文本數(shù)據(jù)是根據(jù)新浪新聞RSS 訂閱頻道2005~2011 年間的歷史數(shù)據(jù)篩選過濾生成, 包含74 萬篇新聞文檔,包含14 個(gè)候選分類類別:財(cái)經(jīng)、彩票、房產(chǎn)、股票、娛樂等。本文節(jié)選了7 類每類5000 篇文檔進(jìn)行模型訓(xùn)練和測試。

        (2)實(shí)驗(yàn)步驟

        ①對文本數(shù)據(jù)進(jìn)行分詞。去除停用詞后,通過特征工程提取特征詞,作為詞庫。

        ②根據(jù)詞庫把輸入的文本數(shù)據(jù)轉(zhuǎn)化為詞向量。

        ③訓(xùn)練樸素貝葉斯模型。

        ④基于1.2 介紹的TFIDFCF 算法計(jì)算每篇文章中特征詞的權(quán)重。

        ⑤將TFIDFCF 權(quán)重值加權(quán)到訓(xùn)練好的樸素貝葉斯分類模型中,取計(jì)算出的最大值所屬類別為預(yù)測結(jié)果。

        (3)THUCNews 新聞文本分類結(jié)果分析

        分類預(yù)測結(jié)果對比表

        本文中使用準(zhǔn)確率、召回率、F1-score 三個(gè)指標(biāo)來評估算法效果。

        ①精確率(Precision):分類結(jié)果中正確分類為Ci 的樣本數(shù)占分類結(jié)果中所有分為Ci 類別的樣本數(shù),衡量分類的查準(zhǔn)率

        ②召回率(Recall):分類結(jié)果中正確分類為Ci 的樣本數(shù)占所有Ci 類的樣本數(shù)的比例,衡量分類的查全率

        ③F1-score:在精確率和召回率的基礎(chǔ)上提出了F1 值的概念,來對精確率和召回率進(jìn)行整體評價(jià)

        本文基于如上實(shí)驗(yàn)步驟在并行框架的計(jì)算優(yōu)勢下實(shí)現(xiàn)了這兩種算法,提取了大量特征詞。由于特征詞多,數(shù)據(jù)量大,分類模型都建立的很準(zhǔn)確。實(shí)驗(yàn)結(jié)果表明兩種方法都有很好的文本分類能力。根據(jù)分類結(jié)果對比表可以發(fā)現(xiàn),基于TFIDFCF 特征加權(quán)的樸素貝葉斯算法對于傳統(tǒng)的樸素貝葉斯算法在大部分新聞?lì)悇e中分類效果上有一定提升。

        6 結(jié)論

        在本文中,通過研究,對樸素貝葉斯應(yīng)用在文本分類認(rèn)為特征詞之間相互條件獨(dú)立提出了不同的觀點(diǎn)。首先研究了TFIDFCF 算法,消除了TFIDF 算法在類間的偏差,并加權(quán)到樸素貝葉斯算法模型中。這樣使那些重要的詞相較于傳統(tǒng)的樸素貝葉斯算法擁有更合理的權(quán)重。最后通過實(shí)驗(yàn)結(jié)果表明并行的TFIDFCF 特征加權(quán)的樸素貝葉斯算法是高效,合理,準(zhǔn)確的。

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個(gè)特征
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产亚洲精品福利在线| 国产美女做爰免费视频| 伊人久久大香线蕉综合网站| 亚洲丁香婷婷综合久久小说| 丰满人妻中文字幕乱码| 日本a爱视频二区三区| 亚洲 欧美 国产 制服 动漫| 日本免费人成视频播放| 国产91第一页| 国产免费操美女逼视频| 成人做爰69片免费看网站野花 | 亚洲黄色电影| 胳膊肘上有白色的小疙瘩| 在线观看一区二区中文字幕| 亚洲精品乱码久久久久久中文字幕| 亚洲国产av一区二区三区四区| 在线无码免费看黄网站| 国产亚洲成人精品久久久| 性无码专区无码| 色丁香色婷婷| 国产成人色污在线观看| 久久久免费看少妇高潮| 男女裸交无遮挡啪啪激情试看| 亚洲AV成人无码久久精品四虎| 女同性恋看女女av吗| 亚洲午夜av久久久精品影院色戒| 亚洲va中文字幕无码| 国产一起色一起爱| 国产一区二区三区成人| 丰满岳乱妇一区二区三区| 欧美精品中文| 亚洲大片一区二区三区四区| 久久久久高潮综合影院| 日本高清aⅴ毛片免费| 亚洲人成在线播放a偷伦| 亚洲中文av中文字幕艳妇| 欧美内射深喉中文字幕| 国产精品亚洲午夜不卡| 亚洲精彩av大片在线观看| 女人被爽到高潮视频免费国产| 久久夜色撩人精品国产小说|