亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類

        2020-11-23 07:35:18王彬司楊濤付軍濤
        科技風(fēng) 2020年31期
        關(guān)鍵詞:特征詞

        王彬 司楊濤 付軍濤

        摘 要:本文提出一種基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類方法,目的是利用改進(jìn)的TF-IDF算法提取新聞文本中的特征詞集合,然后計(jì)算每個(gè)特征詞的TF-IDF值,并將TF-IDF值形成特征向量作為貝葉斯算法的輸入來實(shí)現(xiàn)新聞文本的分類。本文隨機(jī)搜集了大量的不同類別的新聞文本進(jìn)行分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該方法對(duì)不同類別的新聞都有較好的分類效果。

        關(guān)鍵詞:新聞分類;TF-IDF;貝葉斯算法;特征詞

        以前,人們主要從電視、報(bào)紙等傳統(tǒng)媒介獲取新聞,通過這種方式獲取的新聞數(shù)量有限,且新聞的受眾群體也不太普遍。隨著科技和網(wǎng)絡(luò)時(shí)代的發(fā)展,電腦和智能手機(jī)等電子設(shè)備的普及,人們獲取新聞的方式逐漸轉(zhuǎn)變?yōu)閺木W(wǎng)絡(luò)上獲取為主。網(wǎng)絡(luò)新聞不僅數(shù)據(jù)量巨大,而且更新和傳播的速度都非常快。海量的網(wǎng)絡(luò)新聞一方面使用戶可獲得的信息量越來越多,極大地推動(dòng)信息的傳遞,但另一方面也使用戶獲取自己感興趣或?qū)ψ约河杏眯畔⒌男式档?。因此,?duì)網(wǎng)絡(luò)新聞加以分類,僅呈現(xiàn)給用戶他們比較感興趣的新聞是一個(gè)值得研究的問題[1]。

        在文本分類領(lǐng)域,統(tǒng)計(jì)學(xué)習(xí)方法是一種被廣泛應(yīng)用的方法。統(tǒng)計(jì)分類方法的基本思想是先將文本分詞,再運(yùn)用一定的規(guī)則將樣本文本轉(zhuǎn)換為特征向量,然后構(gòu)建合適的分類模型,將特征向量作為模型的輸入對(duì)模型進(jìn)行優(yōu)化訓(xùn)練,訓(xùn)練完的模型即可實(shí)現(xiàn)文本的分類。文本分類的方法有很多,目前常用的方法有KNN算法、支持向量機(jī)、貝葉斯算法等。本文將采用一種基于改進(jìn)的TF-IDF和貝葉斯算法的分類方法對(duì)新聞進(jìn)行分類。

        1 基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類

        1.1 改進(jìn)的TF-IDF算法

        TF-IDF算法可以用來評(píng)估一個(gè)字詞對(duì)一個(gè)語料庫或文件集中的一份給定文件中的重要程度。一個(gè)字詞的重要性與它在某份文件中出現(xiàn)的次數(shù)正相關(guān),字詞在文件中出現(xiàn)的次數(shù)越多重要性越大,但同時(shí)與它在語料庫中出現(xiàn)的頻率成負(fù)相關(guān),語料庫中出現(xiàn)的次數(shù)越多,則該字詞的重要性越小[2,3]。因此,TF-IDF值可以用來作為對(duì)新聞文本分類的依據(jù)。

        詞頻(term frequency,TF)指的是一個(gè)字詞在一份給定文件中出現(xiàn)的總的次數(shù)。逆向文件頻率(inverse document frequency,IDF)可以由語料庫中的文件總數(shù)除以包含該字詞的文件數(shù)目,再將得到的商取對(duì)數(shù)獲得。若某一字詞在一個(gè)文件內(nèi)部的詞頻較高,而在整個(gè)語料庫中的詞頻較低,那么這個(gè)字詞對(duì)該文件的重要性比較大。所以,TF-IDF值可以用來過濾常用字詞,僅保留文檔中可以突出文檔特征的字詞。

        傳統(tǒng)的TF-IDF算法是將經(jīng)過分詞的文件作為輸入(可通過結(jié)巴分詞器進(jìn)行分詞,并去除停用詞),輸出是每個(gè)字詞的TF-IDF值,然后將TF-IDF值從大到小排序,取前TOP-N個(gè)字詞作為特征詞用于分類。TF-IDF算法步驟如下:

        步驟1:統(tǒng)計(jì)每個(gè)字詞在文件中出現(xiàn)的次數(shù),計(jì)算字詞的TF值,計(jì)算方法如公式(1)所示。

        2 實(shí)驗(yàn)結(jié)果

        本文隨機(jī)搜集了10類共100000份新聞文本進(jìn)行分類實(shí)驗(yàn),10個(gè)類別分別為體育、軍事、游戲、科技、財(cái)經(jīng)、電影、美食、綜藝、時(shí)尚、情感,每個(gè)類別的新聞樣本各10000份。然后從每個(gè)類別中隨機(jī)抽出7000份作為訓(xùn)練樣本,剩余的3000份作為測(cè)試樣本。最后利用改進(jìn)的TF-IDF和貝葉斯算法的新聞分類方法驗(yàn)證分類效果,各個(gè)類別分類的精確率、召回率和F1值統(tǒng)計(jì)值如下表所示。從統(tǒng)計(jì)值中可見,本文所提的方法對(duì)不同類別的新聞的分類精確率都比較高,較好地實(shí)現(xiàn)了新聞文本分類效果。

        3 結(jié)語

        本文提出了一種基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類方法,并隨機(jī)搜集了大量的體育、軍事、游戲等類別的新聞文本進(jìn)行分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該方法較好地實(shí)現(xiàn)了新聞分類,但如何進(jìn)一步提高新聞分類的精確率,還有待進(jìn)一步研究。

        參考文獻(xiàn):

        [1]劉冬瑤,劉世杰,陳宇星,張文波,周振.新聞文本自動(dòng)分類概述[J].電腦知識(shí)與技術(shù),2017,13(35).

        [2]李春梅.基于TF-IDF的網(wǎng)頁新聞分類的研究與應(yīng)用[J].貴州師范大學(xué)學(xué)報(bào),2015,33(06).

        [3]張?jiān)萍?基于TF-IDF和互信息的推薦算法[J].計(jì)算機(jī)時(shí)代,2019(12).

        [4]楊欣,郭建彬.基于改進(jìn)TF-IDF的百度百科詞語相似度計(jì)算[J].甘肅科學(xué)學(xué)報(bào),2019(2).

        [5]祁小軍,蘭海翔,盧涵宇,丁蕾錠,薛安琪.貝葉斯、KNN和SVM算法在新聞文本分類中的對(duì)比研究[J].電腦知識(shí)與技術(shù),2019,15(25).

        [6]周紅衛(wèi),周宏印.基于向量空間用戶興趣模型的態(tài)勢(shì)情報(bào)信息分發(fā)機(jī)制[J].指揮信息系統(tǒng)與技術(shù),2015,6(6).

        [7]梁珂,李健,陳穎雪,劉志鋼.基于樸素貝葉斯的文本情感分類及實(shí)現(xiàn)[I].智能計(jì)算機(jī)與應(yīng)用,2019(5).

        [8]馮勇,屈渤浩,徐紅艷,王嶸冰,張永剛.融合TF-IDF和LDA的中文FastText短文分類方法[J].應(yīng)用科學(xué)學(xué)報(bào),2019(03).

        [9]曾小芹.基于Python的中文結(jié)巴分析技術(shù)實(shí)現(xiàn)[J].信息與電腦,2019(18).

        作者簡(jiǎn)介:王彬,男,漢族,碩士,研發(fā)工程師,研究方向:自然語言處理。

        猜你喜歡
        特征詞
        基于Simhash改進(jìn)的文本去重算法
        基于類信息的TF-IDF權(quán)重分析與改進(jìn)①
        一種面向財(cái)務(wù)文本分類的TF-IDF改進(jìn)算法
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        OPEN:一個(gè)基于評(píng)論的商品特征抽取及情感分析框架
        基于Word2vec的文檔分類方法①
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        領(lǐng)域詞義關(guān)聯(lián)實(shí)驗(yàn)數(shù)據(jù)獲取的一些方法
        面向文本分類的特征詞選取方法研究與改進(jìn)
        方言特征詞理論與研究方法綜述
        中文字幕一区二区三区四区五区| 国产成人久久精品77777综合| 99国产精品欲av麻豆在线观看| 国语对白免费观看123 | 老师粉嫩小泬喷水视频90| 人人做人人爽人人爱| 成人精品综合免费视频| 91精品啪在线看国产网站| 男女发生关系视频网站| 久久国产在线精品观看| 99精品国产成人一区二区 | 欧美伊人网| 亚洲一区二区精品久久岳| 一区二区三区观看视频在线| 无码a级毛片免费视频内谢| 欧美性猛交xxxx乱大交丰满| 少妇高潮无码自拍| 亚洲视频在线观看一区二区三区| 香港台湾经典三级a视频| 91麻豆精品激情在线观看最新| 国产精品99久久精品女同| 白嫩丰满少妇av一区二区| 国精无码欧精品亚洲一区| 无码av一区在线观看| 91久久香蕉国产熟女线看| 亚洲国产精品无码久久一区二区 | 少妇熟女淫荡丰满| 99精品国产综合久久麻豆| 久久国产精品99精品国产| 亚洲精品国产一二三无码AV| 少妇呻吟一区二区三区| 久久天堂精品一区二区三区四区| 国产成本人片无码免费2020| 老熟妇Av| 国产亚洲3p一区二区| 18精品久久久无码午夜福利 | 国产一区二区三区在线电影| 美女啪啪国产| 亚洲国产日韩综合天堂| 久久久久成人精品无码中文字幕| 亚洲熟女乱色一区二区三区|