亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機(jī)器學(xué)習(xí)的文本分類(lèi)研究

2021-12-31 01:30:26王迷莉

科技創(chuàng)新與應(yīng)用 2021年26期

王迷莉

（山東科技大學(xué)，山東泰安 271000）

科技的發(fā)展，帶動(dòng)了文本分類(lèi)技術(shù)的發(fā)展，如今存在著各式各樣用于文本分類(lèi)的技術(shù)，但是最受人青睞的模型之一是樸素貝葉斯分類(lèi)模型。由于其構(gòu)建較為簡(jiǎn)單，同時(shí)分類(lèi)結(jié)果也較為精確，費(fèi)時(shí)少但得到的效果是高效的，因此受到了人們的廣泛歡迎。

現(xiàn)如今隨著人們對(duì)文本分類(lèi)需求的增加，使得它有著良好的發(fā)展前景。本篇文章對(duì)中文文本分類(lèi)的理論分析過(guò)程和相關(guān)文本分類(lèi)方法的理論思想過(guò)程等進(jìn)行闡述。此次文章實(shí)驗(yàn)階段作者選取的數(shù)據(jù)是“搜狗實(shí)驗(yàn)室”中的新聞信息數(shù)據(jù)，隨后利用python進(jìn)行編程操作，構(gòu)造樸素貝葉斯分類(lèi)器進(jìn)行新聞文本分類(lèi)。

1 研究背景與意義

時(shí)代在進(jìn)步，科技也在進(jìn)步，涌現(xiàn)出了人工智能、機(jī)器學(xué)習(xí)等新興技術(shù)，也引起了文本信息在互聯(lián)網(wǎng)中的盛行。但是網(wǎng)絡(luò)中的文本信息大多數(shù)紛繁復(fù)雜，怎樣可以快速高效地提取自己想要的信息？這時(shí)就需要借助文本分類(lèi)技術(shù)來(lái)幫助我們更方便地解決此問(wèn)題。

文本分類(lèi)是一種自動(dòng)分類(lèi)的方法，它可以事先預(yù)定義類(lèi)別，然后將未分類(lèi)的數(shù)據(jù)按照預(yù)定義類(lèi)別進(jìn)行分類(lèi)，方便進(jìn)行后續(xù)的操作。文本預(yù)處理也相當(dāng)于一種信息檢索的方法，它可被當(dāng)成檢索系統(tǒng)的前置步驟，可以大大提高查詢(xún)的速度和準(zhǔn)確性。而傳統(tǒng)的手工分類(lèi)技術(shù)存在著工作周期較長(zhǎng)、工作效率較低等弊端，因此應(yīng)用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)便應(yīng)運(yùn)而生。

2 文本分類(lèi)研究現(xiàn)狀

2.1 國(guó)外研究現(xiàn)狀

1958年，HP.Luhn開(kāi)啟了文本分類(lèi)的先河。他首次提出在文本分類(lèi)中應(yīng)用詞頻統(tǒng)計(jì)的方法，并進(jìn)行了創(chuàng)新。隨后，Maron和Kuhn首次提出文本自動(dòng)分類(lèi)，也拉開(kāi)了文本自動(dòng)分類(lèi)作為獨(dú)立研究課題的序幕。

20世紀(jì)90年代后期，計(jì)算機(jī)技術(shù)蓬勃發(fā)展，同時(shí)網(wǎng)絡(luò)信息量不斷增長(zhǎng)，人們對(duì)文本分類(lèi)的需求日益增長(zhǎng)。傳統(tǒng)的手工分類(lèi)逐漸被淘汰，基于機(jī)器學(xué)習(xí)的文本分類(lèi)逐漸被人們所發(fā)現(xiàn)并重視，由于此種方法分類(lèi)的結(jié)果更加精確，分類(lèi)速度更快，很快便替代了原本的手工分類(lèi)。

2.2 國(guó)內(nèi)研究現(xiàn)狀

與國(guó)外相比，國(guó)內(nèi)對(duì)于文本分類(lèi)研究起步較晚，并且由于語(yǔ)言之間的差異，導(dǎo)致國(guó)外的研究成果不能被直接參照。但是通過(guò)借鑒國(guó)外的文本分類(lèi)經(jīng)驗(yàn)，國(guó)內(nèi)的文本分類(lèi)研究也取得了卓越的成果。1981年，侯漢清教授第一次發(fā)掘了文本分類(lèi)的應(yīng)用領(lǐng)域。1999年，鄒濤又探索了文本分類(lèi)中一些十分重要的技術(shù)，如相關(guān)模型、特征的提取方法和字典結(jié)構(gòu)等。21世紀(jì)初期，文本分類(lèi)的研究在國(guó)內(nèi)開(kāi)始呈現(xiàn)直線上升趨勢(shì)，一些著名的學(xué)者，如龐劍鋒、周雪忠、宋欣等，都在文本分類(lèi)的研究上取得了相應(yīng)的學(xué)術(shù)成果。

文本技術(shù)發(fā)展至今，中文文本分類(lèi)與機(jī)器學(xué)習(xí)算法相結(jié)合已經(jīng)變得日趨成熟，在人們?nèi)粘Ｉ钍褂脮r(shí)，文本分類(lèi)已變得更加方便簡(jiǎn)潔。

2.3 論文的組織安排

本文的核心內(nèi)容是利用樸素貝葉斯分類(lèi)器進(jìn)行新聞文本分類(lèi)。實(shí)驗(yàn)過(guò)程中還使用了LDA主題模型。代碼編寫(xiě)是在python的集成環(huán)境anaconda中。

第一部分：介紹本論文主題和文本分類(lèi)的研究背景與實(shí)際意義，分析了國(guó)內(nèi)外研究歷程，概述本論文的結(jié)構(gòu)。

第二部分：介紹了樸素貝葉斯。

第三部分：介紹了處理的相關(guān)基礎(chǔ)知識(shí)與應(yīng)用技術(shù)。

第四部分：對(duì)于樣本數(shù)據(jù)集，編寫(xiě)相應(yīng)的python代碼進(jìn)行實(shí)驗(yàn)分析。

第五部分：結(jié)合理論分析和實(shí)驗(yàn)分析對(duì)本論文進(jìn)行總結(jié)。

3 樸素貝葉斯分類(lèi)器

3.1 樸素貝葉斯分類(lèi)器的假設(shè)前提

樸素貝葉斯分類(lèi)器有一個(gè)假設(shè)前提，即假設(shè)每個(gè)特征之間都具有很強(qiáng)的獨(dú)立性。簡(jiǎn)而言之，決策結(jié)果中既沒(méi)有很大比例的屬性變量，也沒(méi)有很小比例的屬性變量。樸素貝葉斯分類(lèi)是分類(lèi)算法中較為簡(jiǎn)單的算法，“樸素”顧名思義是說(shuō)該算法的思想真的并不復(fù)雜：在給出的所有待分類(lèi)項(xiàng)中，我們首先需要逐個(gè)算出在此項(xiàng)出現(xiàn)的條件下各個(gè)類(lèi)別出現(xiàn)的概率，比較哪個(gè)類(lèi)別的概率最大，就認(rèn)為此待分類(lèi)項(xiàng)屬于哪個(gè)類(lèi)別。舉個(gè)例子，你看見(jiàn)了一個(gè)金發(fā)碧眼的人，心里就可能會(huì)猜測(cè)是外國(guó)人，之所以這樣想是由我們的生活常識(shí)給出的答案。為什么不猜測(cè)是中國(guó)人呢？是因?yàn)橹袊?guó)人中很少有金發(fā)碧眼的人物形象（當(dāng)然并不是沒(méi)有），我們猜測(cè)他是外國(guó)人的原因是，在我們的認(rèn)知范圍中，更加偏向于選擇最大概率的類(lèi)別，這也和樸素貝葉斯的思想基礎(chǔ)較為相符。利用樸素貝葉斯的思想構(gòu)建樸素貝葉斯分類(lèi)器，處理文本分類(lèi)結(jié)果會(huì)更加準(zhǔn)確，處理過(guò)程也會(huì)更加高效，同時(shí)算法簡(jiǎn)單，模型易于構(gòu)建。

3.2 樸素貝葉斯的特性

樸素貝葉斯模型優(yōu)勢(shì)較為突出，與其他分類(lèi)算法相比，它具有扎實(shí)的數(shù)學(xué)理論基礎(chǔ)、可解釋性強(qiáng)和易于實(shí)現(xiàn)的性質(zhì)；其次算法復(fù)雜度能用來(lái)衡量一個(gè)算法的優(yōu)劣程度，樸素貝葉斯擁有較低的算法復(fù)雜度，使得它比機(jī)器學(xué)習(xí)中的其他模型處理過(guò)程更為簡(jiǎn)單?；緱l件概率估計(jì)的準(zhǔn)確性和它的特征獨(dú)立性假設(shè)的約束條件是影響最優(yōu)分類(lèi)的兩個(gè)因素。樸素貝葉斯具有較高的實(shí)用性，理論上的錯(cuò)誤會(huì)比較少，因此樸素貝葉斯模型的應(yīng)用較為常見(jiàn)。

當(dāng)然有優(yōu)勢(shì)也就有不足之處。該模型分類(lèi)的假設(shè)前提是各個(gè)屬性相互獨(dú)立，這將會(huì)影響到分類(lèi)的準(zhǔn)確性和效率。但是在實(shí)際應(yīng)用場(chǎng)景中，這個(gè)假設(shè)不可能完全成立，因此有眾多研究者嘗試對(duì)樸素貝葉斯模型進(jìn)行相應(yīng)的改進(jìn)。

4 文本預(yù)處理

首先將所需要的數(shù)據(jù)從網(wǎng)站上下載下來(lái)，通過(guò)下載搜狐等各大網(wǎng)站共享新聞數(shù)據(jù)集，作為本次項(xiàng)目的測(cè)試集和訓(xùn)練集。

4.1 中文分詞

何為中文分詞？中文分詞就是找到句子中詞與詞之間的界限，該界限是可以自己加以設(shè)計(jì)的，習(xí)慣上稱(chēng)為邊界標(biāo)記。眾所周知，英文中單詞之間的分隔符號(hào)簡(jiǎn)單，而在中文中，句子之間的分隔則變得多元化，字、句、段、符號(hào)等都可以作為分詞的依據(jù)，相比于英文，中文的分詞方式更加紛繁復(fù)雜。

中文分詞作為文本分類(lèi)處理過(guò)程中的必需步驟，其主要思想就是將一整篇文本利用分詞技術(shù)切分成單個(gè)詞或者詞語(yǔ)。因此，在實(shí)驗(yàn)的過(guò)程中，訓(xùn)練集和測(cè)試集都必須利用分詞工具進(jìn)行分詞處理。

在本篇文章中使用的分詞工具為結(jié)巴分詞。它利用了機(jī)械分詞的最大正向匹配統(tǒng)計(jì)分詞中的語(yǔ)言模型，并對(duì)未登入的使用隱馬爾科夫模型，使用Veterbi算法推導(dǎo)計(jì)算。

4.2 去停用詞

停用詞指的是文章中出現(xiàn)頻率較高但對(duì)分類(lèi)幾乎沒(méi)有什么用處的詞語(yǔ)。以中文文本為例，停用詞主要包含以下兩方面：

（1）經(jīng)常會(huì)在各類(lèi)文本中出現(xiàn)，且可能出現(xiàn)在文本中任意地方的詞語(yǔ)。由于這些詞語(yǔ)出現(xiàn)的普遍性，導(dǎo)致看到這些詞也無(wú)法得出有效的分類(lèi)信息，無(wú)法分析出這篇文章的主題類(lèi)別，甚至降低分類(lèi)的準(zhǔn)確度。所以需要對(duì)它們進(jìn)行刪除處理。

（2）人稱(chēng)代詞、助詞、介詞和文本符號(hào)等也屬于停用詞，如“我”“你”“我們”“你們”“地”“的”“啊”“[]”“Y”、“%”等。在實(shí)驗(yàn)時(shí)，我們可以將文本中出現(xiàn)的對(duì)分類(lèi)貢獻(xiàn)度不大的詞語(yǔ)歸結(jié)到停用詞中，需要人為手動(dòng)加入，然后再引用新的停用詞表進(jìn)行遍歷，刪除文本的停用詞。該過(guò)程可以有效節(jié)約內(nèi)存空間、大大減少處理時(shí)間和降低計(jì)算的復(fù)雜性。

4.3 特征提取

本篇文章中進(jìn)行特征提取的主要方法是利用互信息?；バ畔⑹怯糜谠u(píng)判兩個(gè)特征相關(guān)性的一個(gè)屬性，即一個(gè)變量與類(lèi)別之間的相關(guān)性越大，就認(rèn)為該詞屬于重要的特征詞，需要保留下來(lái)，反之舍棄。

互信息常用于自然語(yǔ)言處理，而且也是非常重要的指標(biāo)。在互信息的計(jì)算過(guò)程中，當(dāng)互信息值越大時(shí)，表示詞與類(lèi)別之間就越相關(guān)，就會(huì)將該詞作為重要的特征詞保留下來(lái)，反之舍棄。

4.4 特征表示

經(jīng)過(guò)特征提取后保留的文本特征是文本中最重要的特征，但是計(jì)算機(jī)并不認(rèn)識(shí)，因此需要進(jìn)一步轉(zhuǎn)化為計(jì)算機(jī)能識(shí)別的向量。目前，文本表示主流的有三種方法，經(jīng)典的One-hot模型、TF-IDF模型和基于深度學(xué)習(xí)的Word2vec模型。TF-IDF模型與One-hot模型相比，可以計(jì)算反詞頻概率值；Word2vec模型能解決One-hot模型和TF-IDF模型的維度災(zāi)難和向量稀疏的缺陷，最重要的是Word2vec模型能表示詞語(yǔ)之間的語(yǔ)義。本文綜合考慮各種因素，選用Word2vec模型作為文本向量的表示方法。

在文本向量化過(guò)程中，Word2vec模型一般有CBOW和Skipgram訓(xùn)練模型。CBOW模型的核心思想是利用上下文對(duì)中間詞進(jìn)行預(yù)測(cè)，即上下文k個(gè)詞決定了該詞出現(xiàn)的概率值。Skip-gram模型的核心思想是通過(guò)中間詞去預(yù)測(cè)上下文，該詞決定上下文k個(gè)詞語(yǔ)出現(xiàn)的概率值。通過(guò)上述可以知道CBOW模型的核心思想和Skip-gram模型正好相反，一個(gè)是通過(guò)上下文預(yù)測(cè)中間詞，另一個(gè)是通過(guò)中間詞預(yù)測(cè)上下文。

5 樸素貝葉斯模型

樸素貝葉斯算法是有監(jiān)督的學(xué)習(xí)算法，在日常生活中通常解決的是分類(lèi)問(wèn)題，如新聞文本的分類(lèi)、是否值得投資、信用等級(jí)評(píng)定等諸多分類(lèi)問(wèn)題。該算法在某些領(lǐng)域分類(lèi)問(wèn)題中的效果與決策樹(shù)、神經(jīng)網(wǎng)絡(luò)算法效果不相上下。但由于該算法的假設(shè)前提是條件特征獨(dú)立和連續(xù)變量的正態(tài)性，就會(huì)影響該算法的精確度。

5.1 基于樸素貝葉斯新聞分類(lèi)

5.1.1 數(shù)據(jù)預(yù)處理

本小節(jié)將詳細(xì)介紹對(duì)新聞文本進(jìn)行獲取及處理的過(guò)程，其中新聞文本處理的步驟主要包含了新聞分詞、去停用詞及文本向量化的過(guò)程，將得到的數(shù)據(jù)應(yīng)用于樸素貝葉斯模型中。中文分詞與去停用詞是進(jìn)行數(shù)據(jù)預(yù)處理的兩個(gè)主要部分，也是進(jìn)行文本分類(lèi)必不可少的部分。利用python中的jieba分詞工具對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，同時(shí)將對(duì)分類(lèi)無(wú)意義的詞語(yǔ)刪除，如標(biāo)點(diǎn)符號(hào)等，來(lái)完成去停用詞的操作。

5.1.2 抽取各類(lèi)中的特征詞，統(tǒng)計(jì)各分類(lèi)數(shù)量

我們進(jìn)行預(yù)處理時(shí)，利用jieba分詞工具使得預(yù)處理之后的數(shù)據(jù)更加簡(jiǎn)潔明了。另外，互信息也是特征項(xiàng)和類(lèi)別之間相關(guān)程度的體現(xiàn)，兩者呈現(xiàn)正相關(guān)，是用于評(píng)判詞關(guān)聯(lián)統(tǒng)計(jì)模型的標(biāo)準(zhǔn)。沒(méi)有考慮特征出現(xiàn)的頻率是互信息與期望交叉熵的不同，這樣使得互信息評(píng)估函數(shù)不選擇高頻的有用詞而有可能選擇稀有詞作為文本的最佳特征。實(shí)驗(yàn)過(guò)程中將新聞中的特征詞提取出來(lái)，并且進(jìn)行分類(lèi)，分類(lèi)之后我們可以看出各個(gè)特征詞的數(shù)量，以便進(jìn)行更好的操作。

5.1.3 導(dǎo)入LDA主題模型

LDA主題模型，是人們平時(shí)對(duì)三層貝葉斯概率模型的另一種叫法。三層結(jié)構(gòu)主要是指單詞、主題和文檔。通俗地說(shuō)，我們把一篇課文中的每一個(gè)單詞都看作以一定概率選擇一個(gè)主題，并以一定概率從那個(gè)主題中選擇一個(gè)單詞的過(guò)程。從文檔到主題，從主題到單詞，都遵循多項(xiàng)式分布。利用LDA主題模型我們可以很方便地看出新聞隸屬于哪個(gè)主題，可以很好地得到文本的分類(lèi)結(jié)果。

5.2 進(jìn)行文本分類(lèi)

5.2.1 數(shù)據(jù)準(zhǔn)備

首先定義相關(guān)的主題，在這次實(shí)驗(yàn)中作者定義了10個(gè)標(biāo)簽，分別是汽車(chē)、財(cái)經(jīng)、科技、健康、體育、教育、文化、軍事、娛樂(lè)、時(shí)尚。隨后用數(shù)字1-10代表這些主題。將分詞之后的結(jié)果，與定義的結(jié)果進(jìn)行操作，我們可以看出一些詞隸屬于哪些主題，很好地對(duì)其進(jìn)行了分類(lèi)。

5.2.2 劃分訓(xùn)練集和測(cè)試集

隨后將處理好的數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集，以便于更好地進(jìn)行模型的構(gòu)建。之后使用CountVectorizer轉(zhuǎn)換成向量形式，轉(zhuǎn)換為向量模式后，更有利于數(shù)據(jù)的操作，使結(jié)果也更加準(zhǔn)確。

5.2.3 結(jié)果分析

通過(guò)給訓(xùn)練集訓(xùn)練模型，最終得到的訓(xùn)練結(jié)果準(zhǔn)確率為0.804。驗(yàn)證測(cè)試集對(duì)，測(cè)試結(jié)果準(zhǔn)確率為0.815，精度較高，說(shuō)明模型得到了優(yōu)化提升，證明了模型的可行性。

6 結(jié)束語(yǔ)

本文詳細(xì)介紹了文本分類(lèi)的發(fā)展歷程，以及其在現(xiàn)代社會(huì)的巨大作用，介紹了貝葉斯模型，以及改進(jìn)后的樸素貝葉斯算法，隨后利用實(shí)驗(yàn)驗(yàn)證了樸素貝葉斯模型在文本分類(lèi)中的精確性。其次本文以新聞文本作為基礎(chǔ)數(shù)據(jù)，詳細(xì)梳理了文本分析、文本表示，主要包含了中文分詞、去停用詞、特征提取和特征表示四個(gè)方面，其中Word2vec模型進(jìn)行文本向量化是本文最核心的內(nèi)容，它可以對(duì)向量的維度進(jìn)行自定義，從而減少了TF-IDF模型產(chǎn)生的稀疏矩陣所帶來(lái)維度災(zāi)難問(wèn)題。經(jīng)過(guò)這次的文本分類(lèi)研究，對(duì)文本分類(lèi)的發(fā)展有了一個(gè)更加清晰的框架和更加深刻的認(rèn)識(shí)。