亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于貝葉斯算法的中文新聞標(biāo)題分類(lèi)研究

        2024-01-23 00:44:39郭泓
        現(xiàn)代信息科技 2023年23期

        郭泓 等

        尚慶生? 趙薇? 韓運(yùn)龍

        摘? 要:摘要是對(duì)消息的一種高度概括,因此,如何有效地對(duì)摘要進(jìn)行快速、準(zhǔn)確的識(shí)別,是當(dāng)前中文摘要識(shí)別領(lǐng)域的一個(gè)重要課題。文章提出TF-IDF和貝葉斯算法相結(jié)合的新聞分類(lèi)方法,通過(guò)TF-IDF算法提取短文文本中的特征詞集合,捕捉短文文本表達(dá)的語(yǔ)義,并計(jì)算出相應(yīng)的TF-IDF值,將TF-IDF值形成特征向量作為貝葉斯算法的輸入來(lái)實(shí)現(xiàn)新聞文本分類(lèi),最后根據(jù)錯(cuò)誤率對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。試驗(yàn)結(jié)果表明,該方法可以將貝葉斯方法與TF-IDF相結(jié)合,實(shí)現(xiàn)對(duì)信息的快速分類(lèi)。

        關(guān)鍵詞:貝葉斯算法;TF-IDF;新聞分類(lèi)

        中圖分類(lèi)號(hào):TP391? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):2096-4706(2023)23-0089-04

        Research on Chinese News Title Classification Based on Bayesian Algorithm

        GUO Hong, SHANG Qingsheng, ZHAO Wei, HAN Yunlong

        (Lanzhou University of Finance and Economics, Lanzhou? 730101, China)

        Abstract: Abstract is a high level summary of messages, therefore, how to effectively identify abstracts quickly and accurately is an important topic in the current field of Chinese abstract recognition. This paper proposes a news classification method that combines TF-IDF and Bayesian algorithm. Using the TF-IDF algorithm to extract the set of feature words in short text, captures the semantics expressed in the short text, and calculates the corresponding TF-IDF values. The TF-IDF values are formed into feature vectors as input to the Bayesian algorithm to achieve news text classification. Finally, the prediction results are evaluated based on the error rate. The experimental results indicate that this method can combine Bayesian method with TF-IDF to achieve rapid classification of information.

        Keywords: Bayesian algorithm; TF-IDF; news classification

        0? 引? 言

        隨著互聯(lián)網(wǎng)的飛速發(fā)展和普及,大數(shù)據(jù)應(yīng)運(yùn)而生,在傳統(tǒng)媒體、新媒體以及自媒體的理性推動(dòng)下,新聞數(shù)量也呈現(xiàn)出爆發(fā)式增長(zhǎng)趨勢(shì)。在海量的信息環(huán)境下,如何對(duì)合適的信息進(jìn)行信息分類(lèi)是一個(gè)亟待解決的問(wèn)題。消息成為人們掌握當(dāng)前社會(huì)事件的一種主要方式,特別是最近幾年,隨著新聞界數(shù)字化的發(fā)展,以及新聞網(wǎng)站的廣泛應(yīng)用,讓人們“足不出戶(hù),便能知悉世界上所發(fā)生事情”的愿望得到了很好的實(shí)現(xiàn)。在互聯(lián)網(wǎng)上,新聞報(bào)道和評(píng)論等文字信息的數(shù)量迅速增長(zhǎng)。

        在持續(xù)迅猛增加的文字?jǐn)?shù)據(jù)面前,僅憑手工進(jìn)行數(shù)據(jù)的自動(dòng)處理已經(jīng)力不能及。近年來(lái),利用機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)分類(lèi)已經(jīng)成為一種趨勢(shì)。運(yùn)用機(jī)器學(xué)習(xí)技術(shù),可以實(shí)現(xiàn)對(duì)新聞平臺(tái)上海量數(shù)據(jù)的自動(dòng)歸類(lèi),從而提高使用者的搜索速度,改善使用者的閱讀感受。此外,還可以根據(jù)歸類(lèi)結(jié)果,對(duì)有價(jià)值的資訊進(jìn)行深入的剖析和挖掘,從而幫助使用者更好地理解需求,這也是本文的研究?jī)r(jià)值。

        1? 新聞文本數(shù)據(jù)的采集與處理

        1.1? 新聞文本數(shù)據(jù)采集

        通常,文字分類(lèi)模型以事先標(biāo)記好類(lèi)型的語(yǔ)料為練習(xí)集,它是一種有監(jiān)督的學(xué)習(xí),其關(guān)鍵問(wèn)題在于如何選取適當(dāng)?shù)姆诸?lèi)方法,建立分類(lèi)模型。本文采用TF-IDF方法從文本信息中抽取一些有用的信息,然后使用貝葉斯方法對(duì)這些信息進(jìn)行歸類(lèi),并將這些信息整合起來(lái)形成一個(gè)新的信息結(jié)構(gòu)。文本分類(lèi)步驟如下:

        1)預(yù)處理。填補(bǔ)文本中的缺失值,刪除重復(fù)值。

        2)中文分詞。使用Python中的jieba庫(kù)為文本分詞,并去除停用詞。

        3)構(gòu)建詞向量空間。統(tǒng)計(jì)文本詞頻,生成文本的詞向量空間[1]。

        4)權(quán)重策略—TF-IDF方法。使用TF-IDF發(fā)現(xiàn)特征詞,并抽取為反映文檔主題的特征。

        5)分類(lèi)器。使用樸素貝葉斯算法訓(xùn)練分類(lèi)器。

        6)評(píng)價(jià)分類(lèi)結(jié)果?;阱e(cuò)誤率對(duì)分類(lèi)器的測(cè)試結(jié)果進(jìn)行評(píng)價(jià)分析。

        在進(jìn)行文本分析之前,需要準(zhǔn)備相應(yīng)的文本數(shù)據(jù)集。數(shù)據(jù)集的獲取方式是采用網(wǎng)絡(luò)上的公開(kāi)數(shù)據(jù)集。本文數(shù)據(jù)集包含訓(xùn)練集3 306條數(shù)據(jù),測(cè)試集196條數(shù)據(jù)。所有的新聞標(biāo)題分為四類(lèi),分別為女性、體育、文學(xué)出版、校園。

        數(shù)據(jù)集里包含女性新聞數(shù)據(jù)954條,體育類(lèi)數(shù)據(jù)1 337條,文學(xué)出版類(lèi)數(shù)據(jù)766條,校園類(lèi)數(shù)據(jù)249條,保存的是新聞?wù)奈谋尽?/p>

        1.2? 新聞文本數(shù)據(jù)預(yù)處理

        在進(jìn)行文字識(shí)別時(shí),文字預(yù)處理是最普遍也是必不可少的一環(huán)??梢詫⒋嬖诓灰恢滦曰驔](méi)有實(shí)質(zhì)意義的文字予以剔除,并對(duì)切完后的無(wú)效詞語(yǔ)進(jìn)行篩選,從而盡量減少文字噪音對(duì)識(shí)別效果的干擾。同時(shí),該方法還可以減少對(duì)數(shù)據(jù)存儲(chǔ)的消耗,增強(qiáng)其推廣性能。本文對(duì)文字資料的預(yù)處理方法包括文字清理、文字切分和去除廢用詞語(yǔ)等。當(dāng)前,業(yè)內(nèi)普遍使用的切分器有jieba分詞、清華的分詞工具以及斯坦福的分詞包[2]。其中,jieba分詞在詞性標(biāo)注、分詞準(zhǔn)確率、分詞粒度以及分詞表現(xiàn)方面都比較出色,所以本文將jieba應(yīng)用于文本分詞。新聞?lì)}目的數(shù)據(jù)很少,其含義又比較簡(jiǎn)單,所以無(wú)法使用jieba的所有禁用詞匯,我們只對(duì)“呢”“嗎”和“的”等幾個(gè)常用的禁用詞匯進(jìn)行篩選,最大限度剔除停用詞匯。

        所收集到的消息數(shù)據(jù)包含許多js標(biāo)記,還包含主題和文本內(nèi)容等??赡軙?huì)影響文字分析,因此需要對(duì)文字?jǐn)?shù)據(jù)進(jìn)行預(yù)處理。

        清理文字資料是十分有必要的。對(duì)所獲取的信息進(jìn)行文字加工,包括去掉文字中的標(biāo)點(diǎn)符號(hào),文字中英文文字的大、小寫(xiě)統(tǒng)一,清除多余的空白和頁(yè)面上的標(biāo)簽符號(hào)。在試驗(yàn)過(guò)程中,去除了大量的字符、制表、空白、回車(chē)碼等對(duì)試驗(yàn)結(jié)果的影響。文檔中的編碼有些問(wèn)題,所有用errors過(guò)濾錯(cuò)誤,刪除多余的空行與空格。

        本文使用一個(gè)中文的第三方語(yǔ)言程序代碼數(shù)據(jù)庫(kù)——jieba作為切詞。jieba自動(dòng)切分是以中文詞典為基礎(chǔ),通過(guò)一定數(shù)量的中文詞典,判斷漢字間的相關(guān)可能性,選取較高可能性的詞語(yǔ)組合為短語(yǔ),得到自動(dòng)切分的結(jié)論。jieba切分有三種方式,即精確模式、全模式、搜索引擎模式,本文使用三種方式來(lái)切分文本,并且沒(méi)有多余的詞匯[3]。

        經(jīng)過(guò)數(shù)據(jù)清洗、切詞、移除停用詞等操作,數(shù)據(jù)的預(yù)處理得以完成。正如上面顯示的那樣,在禁用詞匯列表中,幾乎沒(méi)有任何特別的符號(hào),都是為下一步準(zhǔn)備合適的數(shù)據(jù)集。預(yù)處理后的數(shù)據(jù)集包含3 303條新聞數(shù)據(jù),其中約有75%的數(shù)據(jù)用于訓(xùn)練,25%的數(shù)據(jù)用于測(cè)試。

        2? 采用TF-IDF算法提取關(guān)鍵詞

        詞頻-逆向文件頻率(Term Frequency–Inverse Document Frequency, TF-IDF)是一種廣泛應(yīng)用于信息檢索(Information Retrieval)與文本挖掘(Text Mining)的加權(quán)技術(shù)。同時(shí),它也是一種在文獻(xiàn)集合或文獻(xiàn)資料中,評(píng)價(jià)特定詞語(yǔ)在文獻(xiàn)中重要性的一種統(tǒng)計(jì)學(xué)方法。它的主要思想是:若一個(gè)詞語(yǔ)在一篇論文中出現(xiàn)的頻率較高,而在其他論文中很少出現(xiàn),那么該詞或詞組就會(huì)被視為有很好的類(lèi)別區(qū)分能力,適用于分類(lèi)[4]。

        詞頻(Term Frequency, TF)是指詞匯出現(xiàn)的頻率,也就是詞匯(關(guān)鍵詞)在一篇文章中出現(xiàn)的次數(shù)??梢赃\(yùn)用如下計(jì)算式來(lái)計(jì)算詞匯的頻率:

        計(jì)算出的TF值通常會(huì)被歸一化,一般是詞頻除以文章總詞數(shù),防止它偏向字?jǐn)?shù)多的長(zhǎng)篇幅文章。

        逆向文件頻率(Inverse Document Frequency, IDF),可以由總文件數(shù)目除以包含該詞語(yǔ)的文件數(shù)目,再將求得的商取對(duì)數(shù)得到。包含詞條的文檔越少,IDF越大,說(shuō)明詞條具有很好的類(lèi)別區(qū)分能力[5]??梢赃\(yùn)用如下計(jì)算式計(jì)算IDF:

        TF-IDF值可由下述計(jì)算式得到:

        TF-IDF = TF×IDF

        由上述關(guān)系式可以看出,某一特定文件內(nèi)的高頻率詞語(yǔ),以及該詞語(yǔ)在整個(gè)文件集合中的低文件頻率,可以產(chǎn)出高權(quán)重的TF-IDF。所以,TF-IDF往往會(huì)篩選出一些常用詞匯,只留下有意義的詞匯。

        在確認(rèn)語(yǔ)料庫(kù)的格式無(wú)誤后,需要對(duì)文本數(shù)據(jù)進(jìn)行文本向量化。文本向量化有兩種方法:CountVectorizer構(gòu)造Ngram詞袋模型以及TfidfVectorizer構(gòu)造TF-IDF特征。

        詞袋模型操作的第一步是切詞,在切詞完成以后,就可以根據(jù)每一個(gè)詞在正文中出現(xiàn)的頻率,獲得正文基礎(chǔ)上詞的特性,假如把每一個(gè)正文中的詞與相應(yīng)的詞頻放在一塊,也就是我們通常所說(shuō)的“向量化”。詞袋模型需要經(jīng)歷分詞(Tokenizing)、統(tǒng)計(jì)修訂詞特征值(Counting)、標(biāo)準(zhǔn)化(Normalizing)過(guò)程。在詞袋模型的“詞匯頻率”一項(xiàng)中,可以獲得一篇文章中全部單詞的頻率,并采用詞匯矢量進(jìn)行表達(dá)[6]。部分詞經(jīng)過(guò)TF-IDF算法的提取,詞頻矩陣如圖1所示。

        3? 基于貝葉斯算法的新聞分類(lèi)

        3.1? 貝葉斯算法簡(jiǎn)介

        貝葉斯分類(lèi)是對(duì)基于貝葉斯原理的一種分類(lèi)方法的泛指。它是一種非常簡(jiǎn)便的方法,其基本思路是:針對(duì)給定的待分類(lèi)器,通過(guò)計(jì)算得到每一個(gè)類(lèi)在給定的待分類(lèi)器中的出現(xiàn)概率,其中最大的就是待分類(lèi)器中的某一個(gè)。貝葉斯算法具有運(yùn)算速度快、泛化能力強(qiáng)等優(yōu)點(diǎn),因此被認(rèn)為是解決此類(lèi)問(wèn)題的不二之選[7]。樸素貝葉斯算法的核心為:

        P(B / A) = P(A / B) P(B) / P(A)

        整個(gè)樸素貝葉斯分類(lèi)分為三個(gè)步驟:

        1)前期工作。主要是為了滿足貝葉斯方法的基本要求,其工作重點(diǎn)是針對(duì)不同的情形,將不同的特征進(jìn)行合理的細(xì)分,再通過(guò)手動(dòng)方式將其中的一部分進(jìn)行歸類(lèi),從而得到一個(gè)訓(xùn)練樣本庫(kù)。以待分類(lèi)器中的全部數(shù)據(jù)為輸入,以特征量和訓(xùn)練樣本為輸出。該步驟是所有天然貝葉斯分類(lèi)中僅有的一個(gè)步驟,它的優(yōu)劣直接關(guān)系到分類(lèi)結(jié)果的優(yōu)劣,而分類(lèi)結(jié)果的優(yōu)劣主要取決于特征屬性的優(yōu)劣以及分類(lèi)結(jié)果的優(yōu)劣[8]。

        2)分類(lèi)器集訓(xùn)。該環(huán)節(jié)的工作是統(tǒng)計(jì)各個(gè)分類(lèi)的發(fā)生頻次,以及對(duì)各個(gè)分類(lèi)的條件概率進(jìn)行估算,最后進(jìn)行統(tǒng)計(jì)。該模型以圖像的特征參數(shù)和學(xué)習(xí)數(shù)據(jù)作為其輸入,以分類(lèi)器作為其輸出[9]。

        3)應(yīng)用階段。在此過(guò)程中,將被識(shí)別對(duì)之間的對(duì)應(yīng)關(guān)系轉(zhuǎn)化為被識(shí)別對(duì)象,這個(gè)步驟也是一個(gè)機(jī)械步驟,通過(guò)編程來(lái)實(shí)現(xiàn)。

        3.2? 新聞分類(lèi)結(jié)果

        在jieba精確模式下,預(yù)測(cè)分類(lèi)的錯(cuò)誤率為9%,jieba全模式下的錯(cuò)誤率為10%,jieba搜索引擎模式下的錯(cuò)誤率為7.5%,分別如圖2、圖3、圖4所示。

        由上圖可知該數(shù)據(jù)集在貝葉斯算法的基礎(chǔ)上,采取jieba搜索引擎模式下的錯(cuò)誤率最低,準(zhǔn)確率最高。

        改變貝葉斯算法中的參數(shù)Alpha,當(dāng)Alpha為0.08時(shí),貝葉斯分類(lèi)錯(cuò)誤率為10%;當(dāng)Alpha為0.04時(shí),貝葉斯分類(lèi)錯(cuò)誤率為9.5%;當(dāng)Alpha為0.01時(shí),貝葉斯分類(lèi)錯(cuò)誤率為9%;當(dāng)Alpha為0.001時(shí),貝葉斯分類(lèi)錯(cuò)誤率為8.5%;Alpha的值越小,貝葉斯分類(lèi)的準(zhǔn)確率越高[10]。

        4? 結(jié)? 論

        首先,通過(guò)對(duì)公共資料來(lái)源的采集和清理,得到有效的信息;其次,使用jieba切分方法來(lái)分割信息,并使用已有的禁用詞語(yǔ)對(duì)文本進(jìn)行分析;最后,通過(guò)對(duì)jieba切分的三種方式來(lái)構(gòu)建詞矢量。實(shí)驗(yàn)結(jié)果表明,TF-IDF構(gòu)建的詞矢量更符合當(dāng)前的信息類(lèi)別,而且在jieba分詞的搜索引擎模式下,貝葉斯方法對(duì)信息類(lèi)別的誤差和正確度都是最小的。本研究還存在幾個(gè)不足之處,比如,公共數(shù)據(jù)集的使用率并不高,由于計(jì)算力等原因,本論文所使用的數(shù)據(jù)只有3 306條,而當(dāng)數(shù)據(jù)擴(kuò)展到30 000條時(shí),最終的效果將會(huì)更顯著。盡管TF-IDF方法簡(jiǎn)便、快捷,但其缺陷在于:

        1)未充分利用特征單詞的空間分布對(duì)區(qū)分度的影響,且單詞位于文件中的不同區(qū)域,其空間分布對(duì)區(qū)別的影響程度也不盡相同。

        2)根據(jù)常規(guī)的TF-IDF公式,有些生疏單詞的ID頻度很高,所以這些生疏單詞很容易被誤當(dāng)作文件關(guān)鍵字。

        3)經(jīng)典詞匯識(shí)別函數(shù)中的識(shí)別函數(shù)僅關(guān)注詞匯與其所使用文字?jǐn)?shù)量的相關(guān)性,而忽視了同一分類(lèi)內(nèi)詞匯識(shí)別函數(shù)的分配。鑒于以上缺點(diǎn),在下一步的實(shí)驗(yàn)中,將會(huì)使用TF-IDF的改進(jìn)算法——TF-IWF算法?;谪惾~斯的自然語(yǔ)言處理方式,盡管簡(jiǎn)單高效,但其對(duì)標(biāo)記的依賴(lài)程度較低,且當(dāng)面對(duì)海量的文本時(shí),會(huì)耗費(fèi)大量的時(shí)間和精力,而基于深度神經(jīng)網(wǎng)絡(luò)的文字識(shí)別則具有顯著的優(yōu)點(diǎn)。在此基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行深入的分析。

        參考文獻(xiàn):

        [1] 王彬,司楊濤,付軍濤.基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類(lèi) [J].科技風(fēng),2020(31):9-10+17.

        [2] 郝洺.中文短文本表示與分類(lèi)方法研究 [D].北京:北京科技大學(xué),2022.

        [3] 彭子豪,譚欣.并行化改進(jìn)的樸素貝葉斯算法在中文文本分類(lèi)上的應(yīng)用 [J].科學(xué)技術(shù)創(chuàng)新,2020(26):176-178.

        [4] ZHANG M H. Applications of Deep Learning in News Text Classification [J/OL].Scientific Programming,2021,2021:(2021-08-05).https://doi.org/10.1155/2021/6095354.

        [5] 葉雪梅.文本分類(lèi)TF-IDF算法的改進(jìn)研究 [D].合肥:合肥工業(yè)大學(xué),2020.

        [6] 李思卓,周蘭江,周楓,等.基于互譯特征詞對(duì)匹配的老-漢雙語(yǔ)句子相似度計(jì)算方法研究 [J].現(xiàn)代電子技術(shù),2019,42(24):79-83+87.

        [7] DENG L,GE Q,ZHANG J,et al. News Text Classification Method Based on the GRU_CNN Model [J/OL].International Transactions on Electrical Energy Systems,2022,2022:(2022-08-31).https://doi.org/10.1155/2022/1197534.

        [8] 阿曼.樸素貝葉斯分類(lèi)算法的研究與應(yīng)用 [D].大連:大連理工大學(xué),2015.

        [9] 徐鳳亞.多層次中文文本分類(lèi)技術(shù)的研究 [D].北京:清華大學(xué),2005.

        [10] 李丹.基于樸素貝葉斯方法的中文文本分類(lèi)研究 [D].保定:河北大學(xué),2011.

        作者簡(jiǎn)介:郭泓(1999—),女,漢族,江西撫州人,碩士研究生在讀,研究方向:數(shù)據(jù)分析與信息處理;尚慶生(1972—),男,漢族,甘肅張掖人,碩士生導(dǎo)師,副教授,博士,研究方向:計(jì)算機(jī)應(yīng)用、機(jī)器學(xué)習(xí)、深度學(xué)習(xí);趙薇(1999—),女,漢族,河北石家莊人,碩士研究生在讀,研究方向:數(shù)據(jù)分析與信息處理;韓運(yùn)龍(1998—),男,滿族,遼寧開(kāi)原人,碩士研究生在讀,研究方向:數(shù)據(jù)分析與信息處理。

        国产日本精品一区二区| 国产手机在线αⅴ片无码观看| 伊人久久网国产伊人| 亚洲一区精品中文字幕| 中文字幕一区二区三区| 无码人妻丰满熟妇啪啪网不卡 | 国产午夜福利久久精品| 婷婷成人基地| 蜜臀aⅴ永久无码一区二区| 日韩女优视频网站一区二区三区 | 中文字幕日韩有码在线| 精品国产一二三产品区别在哪 | 国产精品vⅰdeoxxxx国产| 亚洲永久无码动态图| 青青青伊人色综合久久| 日本黑人亚洲一区二区| 国产一区二区女内射| 久久亚洲道色宗和久久| 一本色道久久88综合亚精品| 青青草精品视频在线播放| 国产激情久久久久影院老熟女免费| 99成人精品| 国产成人av一区二区三区 | 97成人精品| 丝袜美腿诱惑一二三区| 欧美日本精品一区二区三区| 国产自偷自偷免费一区| 老熟女熟妇嗷嗷叫91| 国产精品亚洲一二三区| 一区二区三区中文字幕| 国产手机在线αⅴ片无码| 亚洲国产不卡免费视频| 久久亚洲中文字幕精品一区| 亚洲av无码第一区二区三区| 无码91 亚洲| 国产亚洲av成人噜噜噜他| 无码乱人伦一区二区亚洲一| 久久久久久中文字幕有精品| 草青青视频手机免费观看| 中国无码人妻丰满熟妇啪啪软件| 无码中文字幕色专区 |