亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的文本分類研究

        2021-12-31 01:30:26王迷莉
        科技創(chuàng)新與應(yīng)用 2021年26期
        關(guān)鍵詞:互信息用詞樸素

        王迷莉

        (山東科技大學(xué),山東 泰安 271000)

        科技的發(fā)展,帶動了文本分類技術(shù)的發(fā)展,如今存在著各式各樣用于文本分類的技術(shù),但是最受人青睞的模型之一是樸素貝葉斯分類模型。由于其構(gòu)建較為簡單,同時分類結(jié)果也較為精確,費(fèi)時少但得到的效果是高效的,因此受到了人們的廣泛歡迎。

        現(xiàn)如今隨著人們對文本分類需求的增加,使得它有著良好的發(fā)展前景。本篇文章對中文文本分類的理論分析過程和相關(guān)文本分類方法的理論思想過程等進(jìn)行闡述。此次文章實(shí)驗(yàn)階段作者選取的數(shù)據(jù)是“搜狗實(shí)驗(yàn)室”中的新聞信息數(shù)據(jù),隨后利用python進(jìn)行編程操作,構(gòu)造樸素貝葉斯分類器進(jìn)行新聞文本分類。

        1 研究背景與意義

        時代在進(jìn)步,科技也在進(jìn)步,涌現(xiàn)出了人工智能、機(jī)器學(xué)習(xí)等新興技術(shù),也引起了文本信息在互聯(lián)網(wǎng)中的盛行。但是網(wǎng)絡(luò)中的文本信息大多數(shù)紛繁復(fù)雜,怎樣可以快速高效地提取自己想要的信息?這時就需要借助文本分類技術(shù)來幫助我們更方便地解決此問題。

        文本分類是一種自動分類的方法,它可以事先預(yù)定義類別,然后將未分類的數(shù)據(jù)按照預(yù)定義類別進(jìn)行分類,方便進(jìn)行后續(xù)的操作。文本預(yù)處理也相當(dāng)于一種信息檢索的方法,它可被當(dāng)成檢索系統(tǒng)的前置步驟,可以大大提高查詢的速度和準(zhǔn)確性。而傳統(tǒng)的手工分類技術(shù)存在著工作周期較長、工作效率較低等弊端,因此應(yīng)用統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)的文本分類技術(shù)便應(yīng)運(yùn)而生。

        2 文本分類研究現(xiàn)狀

        2.1 國外研究現(xiàn)狀

        1958年,HP.Luhn開啟了文本分類的先河。他首次提出在文本分類中應(yīng)用詞頻統(tǒng)計的方法,并進(jìn)行了創(chuàng)新。隨后,Maron和Kuhn首次提出文本自動分類,也拉開了文本自動分類作為獨(dú)立研究課題的序幕。

        20世紀(jì)90年代后期,計算機(jī)技術(shù)蓬勃發(fā)展,同時網(wǎng)絡(luò)信息量不斷增長,人們對文本分類的需求日益增長。傳統(tǒng)的手工分類逐漸被淘汰,基于機(jī)器學(xué)習(xí)的文本分類逐漸被人們所發(fā)現(xiàn)并重視,由于此種方法分類的結(jié)果更加精確,分類速度更快,很快便替代了原本的手工分類。

        2.2 國內(nèi)研究現(xiàn)狀

        與國外相比,國內(nèi)對于文本分類研究起步較晚,并且由于語言之間的差異,導(dǎo)致國外的研究成果不能被直接參照。但是通過借鑒國外的文本分類經(jīng)驗(yàn),國內(nèi)的文本分類研究也取得了卓越的成果。1981年,侯漢清教授第一次發(fā)掘了文本分類的應(yīng)用領(lǐng)域。1999年,鄒濤又探索了文本分類中一些十分重要的技術(shù),如相關(guān)模型、特征的提取方法和字典結(jié)構(gòu)等。21世紀(jì)初期,文本分類的研究在國內(nèi)開始呈現(xiàn)直線上升趨勢,一些著名的學(xué)者,如龐劍鋒、周雪忠、宋欣等,都在文本分類的研究上取得了相應(yīng)的學(xué)術(shù)成果。

        文本技術(shù)發(fā)展至今,中文文本分類與機(jī)器學(xué)習(xí)算法相結(jié)合已經(jīng)變得日趨成熟,在人們?nèi)粘I钍褂脮r,文本分類已變得更加方便簡潔。

        2.3 論文的組織安排

        本文的核心內(nèi)容是利用樸素貝葉斯分類器進(jìn)行新聞文本分類。實(shí)驗(yàn)過程中還使用了LDA主題模型。代碼編寫是在python的集成環(huán)境anaconda中。

        第一部分:介紹本論文主題和文本分類的研究背景與實(shí)際意義,分析了國內(nèi)外研究歷程,概述本論文的結(jié)構(gòu)。

        第二部分:介紹了樸素貝葉斯。

        第三部分:介紹了處理的相關(guān)基礎(chǔ)知識與應(yīng)用技術(shù)。

        第四部分:對于樣本數(shù)據(jù)集,編寫相應(yīng)的python代碼進(jìn)行實(shí)驗(yàn)分析。

        第五部分:結(jié)合理論分析和實(shí)驗(yàn)分析對本論文進(jìn)行總結(jié)。

        3 樸素貝葉斯分類器

        3.1 樸素貝葉斯分類器的假設(shè)前提

        樸素貝葉斯分類器有一個假設(shè)前提,即假設(shè)每個特征之間都具有很強(qiáng)的獨(dú)立性。簡而言之,決策結(jié)果中既沒有很大比例的屬性變量,也沒有很小比例的屬性變量。樸素貝葉斯分類是分類算法中較為簡單的算法,“樸素”顧名思義是說該算法的思想真的并不復(fù)雜:在給出的所有待分類項(xiàng)中,我們首先需要逐個算出在此項(xiàng)出現(xiàn)的條件下各個類別出現(xiàn)的概率,比較哪個類別的概率最大,就認(rèn)為此待分類項(xiàng)屬于哪個類別。舉個例子,你看見了一個金發(fā)碧眼的人,心里就可能會猜測是外國人,之所以這樣想是由我們的生活常識給出的答案。為什么不猜測是中國人呢?是因?yàn)橹袊酥泻苌儆薪鸢l(fā)碧眼的人物形象(當(dāng)然并不是沒有),我們猜測他是外國人的原因是,在我們的認(rèn)知范圍中,更加偏向于選擇最大概率的類別,這也和樸素貝葉斯的思想基礎(chǔ)較為相符。利用樸素貝葉斯的思想構(gòu)建樸素貝葉斯分類器,處理文本分類結(jié)果會更加準(zhǔn)確,處理過程也會更加高效,同時算法簡單,模型易于構(gòu)建。

        3.2 樸素貝葉斯的特性

        樸素貝葉斯模型優(yōu)勢較為突出,與其他分類算法相比,它具有扎實(shí)的數(shù)學(xué)理論基礎(chǔ)、可解釋性強(qiáng)和易于實(shí)現(xiàn)的性質(zhì);其次算法復(fù)雜度能用來衡量一個算法的優(yōu)劣程度,樸素貝葉斯擁有較低的算法復(fù)雜度,使得它比機(jī)器學(xué)習(xí)中的其他模型處理過程更為簡單。基本條件概率估計的準(zhǔn)確性和它的特征獨(dú)立性假設(shè)的約束條件是影響最優(yōu)分類的兩個因素。樸素貝葉斯具有較高的實(shí)用性,理論上的錯誤會比較少,因此樸素貝葉斯模型的應(yīng)用較為常見。

        當(dāng)然有優(yōu)勢也就有不足之處。該模型分類的假設(shè)前提是各個屬性相互獨(dú)立,這將會影響到分類的準(zhǔn)確性和效率。但是在實(shí)際應(yīng)用場景中,這個假設(shè)不可能完全成立,因此有眾多研究者嘗試對樸素貝葉斯模型進(jìn)行相應(yīng)的改進(jìn)。

        4 文本預(yù)處理

        首先將所需要的數(shù)據(jù)從網(wǎng)站上下載下來,通過下載搜狐等各大網(wǎng)站共享新聞數(shù)據(jù)集,作為本次項(xiàng)目的測試集和訓(xùn)練集。

        4.1 中文分詞

        何為中文分詞?中文分詞就是找到句子中詞與詞之間的界限,該界限是可以自己加以設(shè)計的,習(xí)慣上稱為邊界標(biāo)記。眾所周知,英文中單詞之間的分隔符號簡單,而在中文中,句子之間的分隔則變得多元化,字、句、段、符號等都可以作為分詞的依據(jù),相比于英文,中文的分詞方式更加紛繁復(fù)雜。

        中文分詞作為文本分類處理過程中的必需步驟,其主要思想就是將一整篇文本利用分詞技術(shù)切分成單個詞或者詞語。因此,在實(shí)驗(yàn)的過程中,訓(xùn)練集和測試集都必須利用分詞工具進(jìn)行分詞處理。

        在本篇文章中使用的分詞工具為結(jié)巴分詞。它利用了機(jī)械分詞的最大正向匹配統(tǒng)計分詞中的語言模型,并對未登入的使用隱馬爾科夫模型,使用Veterbi算法推導(dǎo)計算。

        4.2 去停用詞

        停用詞指的是文章中出現(xiàn)頻率較高但對分類幾乎沒有什么用處的詞語。以中文文本為例,停用詞主要包含以下兩方面:

        (1)經(jīng)常會在各類文本中出現(xiàn),且可能出現(xiàn)在文本中任意地方的詞語。由于這些詞語出現(xiàn)的普遍性,導(dǎo)致看到這些詞也無法得出有效的分類信息,無法分析出這篇文章的主題類別,甚至降低分類的準(zhǔn)確度。所以需要對它們進(jìn)行刪除處理。

        (2)人稱代詞、助詞、介詞和文本符號等也屬于停用詞,如“我”“你”“我們”“你們”“地”“的”“啊”“[]”“Y”、“%”等。在實(shí)驗(yàn)時,我們可以將文本中出現(xiàn)的對分類貢獻(xiàn)度不大的詞語歸結(jié)到停用詞中,需要人為手動加入,然后再引用新的停用詞表進(jìn)行遍歷,刪除文本的停用詞。該過程可以有效節(jié)約內(nèi)存空間、大大減少處理時間和降低計算的復(fù)雜性。

        4.3 特征提取

        本篇文章中進(jìn)行特征提取的主要方法是利用互信息?;バ畔⑹怯糜谠u判兩個特征相關(guān)性的一個屬性,即一個變量與類別之間的相關(guān)性越大,就認(rèn)為該詞屬于重要的特征詞,需要保留下來,反之舍棄。

        互信息常用于自然語言處理,而且也是非常重要的指標(biāo)。在互信息的計算過程中,當(dāng)互信息值越大時,表示詞與類別之間就越相關(guān),就會將該詞作為重要的特征詞保留下來,反之舍棄。

        4.4 特征表示

        經(jīng)過特征提取后保留的文本特征是文本中最重要的特征,但是計算機(jī)并不認(rèn)識,因此需要進(jìn)一步轉(zhuǎn)化為計算機(jī)能識別的向量。目前,文本表示主流的有三種方法,經(jīng)典的One-hot模型、TF-IDF模型和基于深度學(xué)習(xí)的Word2vec模型。TF-IDF模型與One-hot模型相比,可以計算反詞頻概率值;Word2vec模型能解決One-hot模型和TF-IDF模型的維度災(zāi)難和向量稀疏的缺陷,最重要的是Word2vec模型能表示詞語之間的語義。本文綜合考慮各種因素,選用Word2vec模型作為文本向量的表示方法。

        在文本向量化過程中,Word2vec模型一般有CBOW和Skipgram訓(xùn)練模型。CBOW模型的核心思想是利用上下文對中間詞進(jìn)行預(yù)測,即上下文k個詞決定了該詞出現(xiàn)的概率值。Skip-gram模型的核心思想是通過中間詞去預(yù)測上下文,該詞決定上下文k個詞語出現(xiàn)的概率值。通過上述可以知道CBOW模型的核心思想和Skip-gram模型正好相反,一個是通過上下文預(yù)測中間詞,另一個是通過中間詞預(yù)測上下文。

        5 樸素貝葉斯模型

        樸素貝葉斯算法是有監(jiān)督的學(xué)習(xí)算法,在日常生活中通常解決的是分類問題,如新聞文本的分類、是否值得投資、信用等級評定等諸多分類問題。該算法在某些領(lǐng)域分類問題中的效果與決策樹、神經(jīng)網(wǎng)絡(luò)算法效果不相上下。但由于該算法的假設(shè)前提是條件特征獨(dú)立和連續(xù)變量的正態(tài)性,就會影響該算法的精確度。

        5.1 基于樸素貝葉斯新聞分類

        5.1.1 數(shù)據(jù)預(yù)處理

        本小節(jié)將詳細(xì)介紹對新聞文本進(jìn)行獲取及處理的過程,其中新聞文本處理的步驟主要包含了新聞分詞、去停用詞及文本向量化的過程,將得到的數(shù)據(jù)應(yīng)用于樸素貝葉斯模型中。中文分詞與去停用詞是進(jìn)行數(shù)據(jù)預(yù)處理的兩個主要部分,也是進(jìn)行文本分類必不可少的部分。利用python中的jieba分詞工具對數(shù)據(jù)進(jìn)行預(yù)處理,同時將對分類無意義的詞語刪除,如標(biāo)點(diǎn)符號等,來完成去停用詞的操作。

        5.1.2 抽取各類中的特征詞,統(tǒng)計各分類數(shù)量

        我們進(jìn)行預(yù)處理時,利用jieba分詞工具使得預(yù)處理之后的數(shù)據(jù)更加簡潔明了。另外,互信息也是特征項(xiàng)和類別之間相關(guān)程度的體現(xiàn),兩者呈現(xiàn)正相關(guān),是用于評判詞關(guān)聯(lián)統(tǒng)計模型的標(biāo)準(zhǔn)。沒有考慮特征出現(xiàn)的頻率是互信息與期望交叉熵的不同,這樣使得互信息評估函數(shù)不選擇高頻的有用詞而有可能選擇稀有詞作為文本的最佳特征。實(shí)驗(yàn)過程中將新聞中的特征詞提取出來,并且進(jìn)行分類,分類之后我們可以看出各個特征詞的數(shù)量,以便進(jìn)行更好的操作。

        5.1.3 導(dǎo)入LDA主題模型

        LDA主題模型,是人們平時對三層貝葉斯概率模型的另一種叫法。三層結(jié)構(gòu)主要是指單詞、主題和文檔。通俗地說,我們把一篇課文中的每一個單詞都看作以一定概率選擇一個主題,并以一定概率從那個主題中選擇一個單詞的過程。從文檔到主題,從主題到單詞,都遵循多項(xiàng)式分布。利用LDA主題模型我們可以很方便地看出新聞隸屬于哪個主題,可以很好地得到文本的分類結(jié)果。

        5.2 進(jìn)行文本分類

        5.2.1 數(shù)據(jù)準(zhǔn)備

        首先定義相關(guān)的主題,在這次實(shí)驗(yàn)中作者定義了10個標(biāo)簽,分別是汽車、財經(jīng)、科技、健康、體育、教育、文化、軍事、娛樂、時尚。隨后用數(shù)字1-10代表這些主題。將分詞之后的結(jié)果,與定義的結(jié)果進(jìn)行操作,我們可以看出一些詞隸屬于哪些主題,很好地對其進(jìn)行了分類。

        5.2.2 劃分訓(xùn)練集和測試集

        隨后將處理好的數(shù)據(jù)劃分為訓(xùn)練集和測試集,以便于更好地進(jìn)行模型的構(gòu)建。之后使用CountVectorizer轉(zhuǎn)換成向量形式,轉(zhuǎn)換為向量模式后,更有利于數(shù)據(jù)的操作,使結(jié)果也更加準(zhǔn)確。

        5.2.3 結(jié)果分析

        通過給訓(xùn)練集訓(xùn)練模型,最終得到的訓(xùn)練結(jié)果準(zhǔn)確率為0.804。驗(yàn)證測試集對,測試結(jié)果準(zhǔn)確率為0.815,精度較高,說明模型得到了優(yōu)化提升,證明了模型的可行性。

        6 結(jié)束語

        本文詳細(xì)介紹了文本分類的發(fā)展歷程,以及其在現(xiàn)代社會的巨大作用,介紹了貝葉斯模型,以及改進(jìn)后的樸素貝葉斯算法,隨后利用實(shí)驗(yàn)驗(yàn)證了樸素貝葉斯模型在文本分類中的精確性。其次本文以新聞文本作為基礎(chǔ)數(shù)據(jù),詳細(xì)梳理了文本分析、文本表示,主要包含了中文分詞、去停用詞、特征提取和特征表示四個方面,其中Word2vec模型進(jìn)行文本向量化是本文最核心的內(nèi)容,它可以對向量的維度進(jìn)行自定義,從而減少了TF-IDF模型產(chǎn)生的稀疏矩陣所帶來維度災(zāi)難問題。經(jīng)過這次的文本分類研究,對文本分類的發(fā)展有了一個更加清晰的框架和更加深刻的認(rèn)識。

        猜你喜歡
        互信息用詞樸素
        需注意的規(guī)范醫(yī)學(xué)用詞
        強(qiáng)化詩詞用詞的時代性
        中華詩詞(2022年2期)2022-12-31 05:57:58
        隔離樸素
        蒼涼又喧囂:《我與地壇》中的用詞
        樸素的安慰(組詩)
        他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
        最神奇最樸素的兩本書
        寫話妙計之用詞準(zhǔn)確
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        精品日本一区二区三区| 专区国产精品第一页| 日本久久久久| 青青草视频网站免费看| 中文字幕国产精品一二三四五区| 99精品人妻无码专区在线视频区| 天堂sv在线最新版在线| 久久久久久久久中文字幕| 中文字幕亚洲乱码熟女1区2区| 亚洲av丰满熟妇在线播放| 人人爽人人爽人人爽人人片av| 欧美a级在线现免费观看| 亚洲一区二区在线视频,| 亚洲啪啪视频一区二区| 无套内射无矿码免费看黄| 日韩一区二区超清视频| 风流少妇一区二区三区91| 久久精品国产99国产精品澳门| 男女下面进入的视频| 人妻丰满av无码中文字幕| 东京热日本道免费高清| 特黄 做受又硬又粗又大视频| 成人黄色网址| 久久99精品久久久久九色| 精品国产亚洲av高清日韩专区 | 亚洲日韩在线中文字幕综合| 2019最新国产不卡a| 最新国产美女一区二区三区| 日本按摩偷拍在线观看| 极品少妇小泬50pthepon| 免费一区在线观看| 精品国产三级国产av| 无套熟女av呻吟在线观看| 午夜精品久久久久久中宇| av无码特黄一级| 中文字幕一区在线直播| 孕妇特级毛片ww无码内射| 久久久久久久妓女精品免费影院| 国产亚洲一区二区毛片| 国产夫妇肉麻对白| 另类免费视频在线视频二区|