亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的文本分類(lèi)研究

        2021-12-31 01:30:26王迷莉
        科技創(chuàng)新與應(yīng)用 2021年26期
        關(guān)鍵詞:分類(lèi)文本模型

        王迷莉

        (山東科技大學(xué),山東 泰安 271000)

        科技的發(fā)展,帶動(dòng)了文本分類(lèi)技術(shù)的發(fā)展,如今存在著各式各樣用于文本分類(lèi)的技術(shù),但是最受人青睞的模型之一是樸素貝葉斯分類(lèi)模型。由于其構(gòu)建較為簡(jiǎn)單,同時(shí)分類(lèi)結(jié)果也較為精確,費(fèi)時(shí)少但得到的效果是高效的,因此受到了人們的廣泛歡迎。

        現(xiàn)如今隨著人們對(duì)文本分類(lèi)需求的增加,使得它有著良好的發(fā)展前景。本篇文章對(duì)中文文本分類(lèi)的理論分析過(guò)程和相關(guān)文本分類(lèi)方法的理論思想過(guò)程等進(jìn)行闡述。此次文章實(shí)驗(yàn)階段作者選取的數(shù)據(jù)是“搜狗實(shí)驗(yàn)室”中的新聞信息數(shù)據(jù),隨后利用python進(jìn)行編程操作,構(gòu)造樸素貝葉斯分類(lèi)器進(jìn)行新聞文本分類(lèi)。

        1 研究背景與意義

        時(shí)代在進(jìn)步,科技也在進(jìn)步,涌現(xiàn)出了人工智能、機(jī)器學(xué)習(xí)等新興技術(shù),也引起了文本信息在互聯(lián)網(wǎng)中的盛行。但是網(wǎng)絡(luò)中的文本信息大多數(shù)紛繁復(fù)雜,怎樣可以快速高效地提取自己想要的信息?這時(shí)就需要借助文本分類(lèi)技術(shù)來(lái)幫助我們更方便地解決此問(wèn)題。

        文本分類(lèi)是一種自動(dòng)分類(lèi)的方法,它可以事先預(yù)定義類(lèi)別,然后將未分類(lèi)的數(shù)據(jù)按照預(yù)定義類(lèi)別進(jìn)行分類(lèi),方便進(jìn)行后續(xù)的操作。文本預(yù)處理也相當(dāng)于一種信息檢索的方法,它可被當(dāng)成檢索系統(tǒng)的前置步驟,可以大大提高查詢(xún)的速度和準(zhǔn)確性。而傳統(tǒng)的手工分類(lèi)技術(shù)存在著工作周期較長(zhǎng)、工作效率較低等弊端,因此應(yīng)用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)便應(yīng)運(yùn)而生。

        2 文本分類(lèi)研究現(xiàn)狀

        2.1 國(guó)外研究現(xiàn)狀

        1958年,HP.Luhn開(kāi)啟了文本分類(lèi)的先河。他首次提出在文本分類(lèi)中應(yīng)用詞頻統(tǒng)計(jì)的方法,并進(jìn)行了創(chuàng)新。隨后,Maron和Kuhn首次提出文本自動(dòng)分類(lèi),也拉開(kāi)了文本自動(dòng)分類(lèi)作為獨(dú)立研究課題的序幕。

        20世紀(jì)90年代后期,計(jì)算機(jī)技術(shù)蓬勃發(fā)展,同時(shí)網(wǎng)絡(luò)信息量不斷增長(zhǎng),人們對(duì)文本分類(lèi)的需求日益增長(zhǎng)。傳統(tǒng)的手工分類(lèi)逐漸被淘汰,基于機(jī)器學(xué)習(xí)的文本分類(lèi)逐漸被人們所發(fā)現(xiàn)并重視,由于此種方法分類(lèi)的結(jié)果更加精確,分類(lèi)速度更快,很快便替代了原本的手工分類(lèi)。

        2.2 國(guó)內(nèi)研究現(xiàn)狀

        與國(guó)外相比,國(guó)內(nèi)對(duì)于文本分類(lèi)研究起步較晚,并且由于語(yǔ)言之間的差異,導(dǎo)致國(guó)外的研究成果不能被直接參照。但是通過(guò)借鑒國(guó)外的文本分類(lèi)經(jīng)驗(yàn),國(guó)內(nèi)的文本分類(lèi)研究也取得了卓越的成果。1981年,侯漢清教授第一次發(fā)掘了文本分類(lèi)的應(yīng)用領(lǐng)域。1999年,鄒濤又探索了文本分類(lèi)中一些十分重要的技術(shù),如相關(guān)模型、特征的提取方法和字典結(jié)構(gòu)等。21世紀(jì)初期,文本分類(lèi)的研究在國(guó)內(nèi)開(kāi)始呈現(xiàn)直線上升趨勢(shì),一些著名的學(xué)者,如龐劍鋒、周雪忠、宋欣等,都在文本分類(lèi)的研究上取得了相應(yīng)的學(xué)術(shù)成果。

        文本技術(shù)發(fā)展至今,中文文本分類(lèi)與機(jī)器學(xué)習(xí)算法相結(jié)合已經(jīng)變得日趨成熟,在人們?nèi)粘I钍褂脮r(shí),文本分類(lèi)已變得更加方便簡(jiǎn)潔。

        2.3 論文的組織安排

        本文的核心內(nèi)容是利用樸素貝葉斯分類(lèi)器進(jìn)行新聞文本分類(lèi)。實(shí)驗(yàn)過(guò)程中還使用了LDA主題模型。代碼編寫(xiě)是在python的集成環(huán)境anaconda中。

        第一部分:介紹本論文主題和文本分類(lèi)的研究背景與實(shí)際意義,分析了國(guó)內(nèi)外研究歷程,概述本論文的結(jié)構(gòu)。

        第二部分:介紹了樸素貝葉斯。

        第三部分:介紹了處理的相關(guān)基礎(chǔ)知識(shí)與應(yīng)用技術(shù)。

        第四部分:對(duì)于樣本數(shù)據(jù)集,編寫(xiě)相應(yīng)的python代碼進(jìn)行實(shí)驗(yàn)分析。

        第五部分:結(jié)合理論分析和實(shí)驗(yàn)分析對(duì)本論文進(jìn)行總結(jié)。

        3 樸素貝葉斯分類(lèi)器

        3.1 樸素貝葉斯分類(lèi)器的假設(shè)前提

        樸素貝葉斯分類(lèi)器有一個(gè)假設(shè)前提,即假設(shè)每個(gè)特征之間都具有很強(qiáng)的獨(dú)立性。簡(jiǎn)而言之,決策結(jié)果中既沒(méi)有很大比例的屬性變量,也沒(méi)有很小比例的屬性變量。樸素貝葉斯分類(lèi)是分類(lèi)算法中較為簡(jiǎn)單的算法,“樸素”顧名思義是說(shuō)該算法的思想真的并不復(fù)雜:在給出的所有待分類(lèi)項(xiàng)中,我們首先需要逐個(gè)算出在此項(xiàng)出現(xiàn)的條件下各個(gè)類(lèi)別出現(xiàn)的概率,比較哪個(gè)類(lèi)別的概率最大,就認(rèn)為此待分類(lèi)項(xiàng)屬于哪個(gè)類(lèi)別。舉個(gè)例子,你看見(jiàn)了一個(gè)金發(fā)碧眼的人,心里就可能會(huì)猜測(cè)是外國(guó)人,之所以這樣想是由我們的生活常識(shí)給出的答案。為什么不猜測(cè)是中國(guó)人呢?是因?yàn)橹袊?guó)人中很少有金發(fā)碧眼的人物形象(當(dāng)然并不是沒(méi)有),我們猜測(cè)他是外國(guó)人的原因是,在我們的認(rèn)知范圍中,更加偏向于選擇最大概率的類(lèi)別,這也和樸素貝葉斯的思想基礎(chǔ)較為相符。利用樸素貝葉斯的思想構(gòu)建樸素貝葉斯分類(lèi)器,處理文本分類(lèi)結(jié)果會(huì)更加準(zhǔn)確,處理過(guò)程也會(huì)更加高效,同時(shí)算法簡(jiǎn)單,模型易于構(gòu)建。

        3.2 樸素貝葉斯的特性

        樸素貝葉斯模型優(yōu)勢(shì)較為突出,與其他分類(lèi)算法相比,它具有扎實(shí)的數(shù)學(xué)理論基礎(chǔ)、可解釋性強(qiáng)和易于實(shí)現(xiàn)的性質(zhì);其次算法復(fù)雜度能用來(lái)衡量一個(gè)算法的優(yōu)劣程度,樸素貝葉斯擁有較低的算法復(fù)雜度,使得它比機(jī)器學(xué)習(xí)中的其他模型處理過(guò)程更為簡(jiǎn)單?;緱l件概率估計(jì)的準(zhǔn)確性和它的特征獨(dú)立性假設(shè)的約束條件是影響最優(yōu)分類(lèi)的兩個(gè)因素。樸素貝葉斯具有較高的實(shí)用性,理論上的錯(cuò)誤會(huì)比較少,因此樸素貝葉斯模型的應(yīng)用較為常見(jiàn)。

        當(dāng)然有優(yōu)勢(shì)也就有不足之處。該模型分類(lèi)的假設(shè)前提是各個(gè)屬性相互獨(dú)立,這將會(huì)影響到分類(lèi)的準(zhǔn)確性和效率。但是在實(shí)際應(yīng)用場(chǎng)景中,這個(gè)假設(shè)不可能完全成立,因此有眾多研究者嘗試對(duì)樸素貝葉斯模型進(jìn)行相應(yīng)的改進(jìn)。

        4 文本預(yù)處理

        首先將所需要的數(shù)據(jù)從網(wǎng)站上下載下來(lái),通過(guò)下載搜狐等各大網(wǎng)站共享新聞數(shù)據(jù)集,作為本次項(xiàng)目的測(cè)試集和訓(xùn)練集。

        4.1 中文分詞

        何為中文分詞?中文分詞就是找到句子中詞與詞之間的界限,該界限是可以自己加以設(shè)計(jì)的,習(xí)慣上稱(chēng)為邊界標(biāo)記。眾所周知,英文中單詞之間的分隔符號(hào)簡(jiǎn)單,而在中文中,句子之間的分隔則變得多元化,字、句、段、符號(hào)等都可以作為分詞的依據(jù),相比于英文,中文的分詞方式更加紛繁復(fù)雜。

        中文分詞作為文本分類(lèi)處理過(guò)程中的必需步驟,其主要思想就是將一整篇文本利用分詞技術(shù)切分成單個(gè)詞或者詞語(yǔ)。因此,在實(shí)驗(yàn)的過(guò)程中,訓(xùn)練集和測(cè)試集都必須利用分詞工具進(jìn)行分詞處理。

        在本篇文章中使用的分詞工具為結(jié)巴分詞。它利用了機(jī)械分詞的最大正向匹配統(tǒng)計(jì)分詞中的語(yǔ)言模型,并對(duì)未登入的使用隱馬爾科夫模型,使用Veterbi算法推導(dǎo)計(jì)算。

        4.2 去停用詞

        停用詞指的是文章中出現(xiàn)頻率較高但對(duì)分類(lèi)幾乎沒(méi)有什么用處的詞語(yǔ)。以中文文本為例,停用詞主要包含以下兩方面:

        (1)經(jīng)常會(huì)在各類(lèi)文本中出現(xiàn),且可能出現(xiàn)在文本中任意地方的詞語(yǔ)。由于這些詞語(yǔ)出現(xiàn)的普遍性,導(dǎo)致看到這些詞也無(wú)法得出有效的分類(lèi)信息,無(wú)法分析出這篇文章的主題類(lèi)別,甚至降低分類(lèi)的準(zhǔn)確度。所以需要對(duì)它們進(jìn)行刪除處理。

        (2)人稱(chēng)代詞、助詞、介詞和文本符號(hào)等也屬于停用詞,如“我”“你”“我們”“你們”“地”“的”“啊”“[]”“Y”、“%”等。在實(shí)驗(yàn)時(shí),我們可以將文本中出現(xiàn)的對(duì)分類(lèi)貢獻(xiàn)度不大的詞語(yǔ)歸結(jié)到停用詞中,需要人為手動(dòng)加入,然后再引用新的停用詞表進(jìn)行遍歷,刪除文本的停用詞。該過(guò)程可以有效節(jié)約內(nèi)存空間、大大減少處理時(shí)間和降低計(jì)算的復(fù)雜性。

        4.3 特征提取

        本篇文章中進(jìn)行特征提取的主要方法是利用互信息?;バ畔⑹怯糜谠u(píng)判兩個(gè)特征相關(guān)性的一個(gè)屬性,即一個(gè)變量與類(lèi)別之間的相關(guān)性越大,就認(rèn)為該詞屬于重要的特征詞,需要保留下來(lái),反之舍棄。

        互信息常用于自然語(yǔ)言處理,而且也是非常重要的指標(biāo)。在互信息的計(jì)算過(guò)程中,當(dāng)互信息值越大時(shí),表示詞與類(lèi)別之間就越相關(guān),就會(huì)將該詞作為重要的特征詞保留下來(lái),反之舍棄。

        4.4 特征表示

        經(jīng)過(guò)特征提取后保留的文本特征是文本中最重要的特征,但是計(jì)算機(jī)并不認(rèn)識(shí),因此需要進(jìn)一步轉(zhuǎn)化為計(jì)算機(jī)能識(shí)別的向量。目前,文本表示主流的有三種方法,經(jīng)典的One-hot模型、TF-IDF模型和基于深度學(xué)習(xí)的Word2vec模型。TF-IDF模型與One-hot模型相比,可以計(jì)算反詞頻概率值;Word2vec模型能解決One-hot模型和TF-IDF模型的維度災(zāi)難和向量稀疏的缺陷,最重要的是Word2vec模型能表示詞語(yǔ)之間的語(yǔ)義。本文綜合考慮各種因素,選用Word2vec模型作為文本向量的表示方法。

        在文本向量化過(guò)程中,Word2vec模型一般有CBOW和Skipgram訓(xùn)練模型。CBOW模型的核心思想是利用上下文對(duì)中間詞進(jìn)行預(yù)測(cè),即上下文k個(gè)詞決定了該詞出現(xiàn)的概率值。Skip-gram模型的核心思想是通過(guò)中間詞去預(yù)測(cè)上下文,該詞決定上下文k個(gè)詞語(yǔ)出現(xiàn)的概率值。通過(guò)上述可以知道CBOW模型的核心思想和Skip-gram模型正好相反,一個(gè)是通過(guò)上下文預(yù)測(cè)中間詞,另一個(gè)是通過(guò)中間詞預(yù)測(cè)上下文。

        5 樸素貝葉斯模型

        樸素貝葉斯算法是有監(jiān)督的學(xué)習(xí)算法,在日常生活中通常解決的是分類(lèi)問(wèn)題,如新聞文本的分類(lèi)、是否值得投資、信用等級(jí)評(píng)定等諸多分類(lèi)問(wèn)題。該算法在某些領(lǐng)域分類(lèi)問(wèn)題中的效果與決策樹(shù)、神經(jīng)網(wǎng)絡(luò)算法效果不相上下。但由于該算法的假設(shè)前提是條件特征獨(dú)立和連續(xù)變量的正態(tài)性,就會(huì)影響該算法的精確度。

        5.1 基于樸素貝葉斯新聞分類(lèi)

        5.1.1 數(shù)據(jù)預(yù)處理

        本小節(jié)將詳細(xì)介紹對(duì)新聞文本進(jìn)行獲取及處理的過(guò)程,其中新聞文本處理的步驟主要包含了新聞分詞、去停用詞及文本向量化的過(guò)程,將得到的數(shù)據(jù)應(yīng)用于樸素貝葉斯模型中。中文分詞與去停用詞是進(jìn)行數(shù)據(jù)預(yù)處理的兩個(gè)主要部分,也是進(jìn)行文本分類(lèi)必不可少的部分。利用python中的jieba分詞工具對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,同時(shí)將對(duì)分類(lèi)無(wú)意義的詞語(yǔ)刪除,如標(biāo)點(diǎn)符號(hào)等,來(lái)完成去停用詞的操作。

        5.1.2 抽取各類(lèi)中的特征詞,統(tǒng)計(jì)各分類(lèi)數(shù)量

        我們進(jìn)行預(yù)處理時(shí),利用jieba分詞工具使得預(yù)處理之后的數(shù)據(jù)更加簡(jiǎn)潔明了。另外,互信息也是特征項(xiàng)和類(lèi)別之間相關(guān)程度的體現(xiàn),兩者呈現(xiàn)正相關(guān),是用于評(píng)判詞關(guān)聯(lián)統(tǒng)計(jì)模型的標(biāo)準(zhǔn)。沒(méi)有考慮特征出現(xiàn)的頻率是互信息與期望交叉熵的不同,這樣使得互信息評(píng)估函數(shù)不選擇高頻的有用詞而有可能選擇稀有詞作為文本的最佳特征。實(shí)驗(yàn)過(guò)程中將新聞中的特征詞提取出來(lái),并且進(jìn)行分類(lèi),分類(lèi)之后我們可以看出各個(gè)特征詞的數(shù)量,以便進(jìn)行更好的操作。

        5.1.3 導(dǎo)入LDA主題模型

        LDA主題模型,是人們平時(shí)對(duì)三層貝葉斯概率模型的另一種叫法。三層結(jié)構(gòu)主要是指單詞、主題和文檔。通俗地說(shuō),我們把一篇課文中的每一個(gè)單詞都看作以一定概率選擇一個(gè)主題,并以一定概率從那個(gè)主題中選擇一個(gè)單詞的過(guò)程。從文檔到主題,從主題到單詞,都遵循多項(xiàng)式分布。利用LDA主題模型我們可以很方便地看出新聞隸屬于哪個(gè)主題,可以很好地得到文本的分類(lèi)結(jié)果。

        5.2 進(jìn)行文本分類(lèi)

        5.2.1 數(shù)據(jù)準(zhǔn)備

        首先定義相關(guān)的主題,在這次實(shí)驗(yàn)中作者定義了10個(gè)標(biāo)簽,分別是汽車(chē)、財(cái)經(jīng)、科技、健康、體育、教育、文化、軍事、娛樂(lè)、時(shí)尚。隨后用數(shù)字1-10代表這些主題。將分詞之后的結(jié)果,與定義的結(jié)果進(jìn)行操作,我們可以看出一些詞隸屬于哪些主題,很好地對(duì)其進(jìn)行了分類(lèi)。

        5.2.2 劃分訓(xùn)練集和測(cè)試集

        隨后將處理好的數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,以便于更好地進(jìn)行模型的構(gòu)建。之后使用CountVectorizer轉(zhuǎn)換成向量形式,轉(zhuǎn)換為向量模式后,更有利于數(shù)據(jù)的操作,使結(jié)果也更加準(zhǔn)確。

        5.2.3 結(jié)果分析

        通過(guò)給訓(xùn)練集訓(xùn)練模型,最終得到的訓(xùn)練結(jié)果準(zhǔn)確率為0.804。驗(yàn)證測(cè)試集對(duì),測(cè)試結(jié)果準(zhǔn)確率為0.815,精度較高,說(shuō)明模型得到了優(yōu)化提升,證明了模型的可行性。

        6 結(jié)束語(yǔ)

        本文詳細(xì)介紹了文本分類(lèi)的發(fā)展歷程,以及其在現(xiàn)代社會(huì)的巨大作用,介紹了貝葉斯模型,以及改進(jìn)后的樸素貝葉斯算法,隨后利用實(shí)驗(yàn)驗(yàn)證了樸素貝葉斯模型在文本分類(lèi)中的精確性。其次本文以新聞文本作為基礎(chǔ)數(shù)據(jù),詳細(xì)梳理了文本分析、文本表示,主要包含了中文分詞、去停用詞、特征提取和特征表示四個(gè)方面,其中Word2vec模型進(jìn)行文本向量化是本文最核心的內(nèi)容,它可以對(duì)向量的維度進(jìn)行自定義,從而減少了TF-IDF模型產(chǎn)生的稀疏矩陣所帶來(lái)維度災(zāi)難問(wèn)題。經(jīng)過(guò)這次的文本分類(lèi)研究,對(duì)文本分類(lèi)的發(fā)展有了一個(gè)更加清晰的框架和更加深刻的認(rèn)識(shí)。

        猜你喜歡
        分類(lèi)文本模型
        一半模型
        分類(lèi)算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        3D打印中的模型分割與打包
        久久精品国产亚洲av网站| 青青草视频在线免费视频| 亚洲av乱码一区二区三区人人| 老妇高潮潮喷到猛进猛出| 青青草原精品99久久精品66| 久久亚洲AV成人一二三区| 中文字幕 在线一区二区| 色狠狠一区二区三区中文| 水蜜桃精品一二三| 国产精品视频久久久久| 天堂a版一区二区av| 国产日韩厂亚洲字幕中文| 欧美日韩国产码高清综合人成 | 黄片大全视频在线播放| 夜先锋av资源网站| 四虎影视久久久免费| 亚洲中字永久一区二区三区| 日韩性爱视频| 亚洲中文字幕无码久久| 亚洲电影一区二区| av高潮一区二区三区| 国产成人无码精品久久久露脸 | 亚洲熟妇无码av不卡在线播放| 白白青青视频在线免费观看| 久久96日本精品久久久| 少妇高潮喷水久久久影院| 日本亚洲欧美在线观看| 久久人妻精品中文字幕一区二区| 久久久久久久久无码精品亚洲日韩| 亚洲综合色区另类av| 欧美日韩亚洲成色二本道三区| 牛仔裤人妻痴汉电车中文字幕| 少妇被又大又粗又爽毛片久久黑人 | 国产91对白在线观看| 美国黄色av一区二区| 色欲网天天无码av| 久久久久亚洲av无码尤物| 国产伦理自拍视频在线观看| 亚洲中文字幕人妻av在线| 四川少妇大战4黑人| 99在线国产视频|