亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樸素貝葉斯的新聞分類改進(jìn)

        2018-12-21 03:46:58孫子杰
        電子制作 2018年22期
        關(guān)鍵詞:樸素貝葉斯概率

        孫子杰

        (中國人民大學(xué)附屬中學(xué),北京,100080)

        0 引言

        隨著時(shí)代的發(fā)展,信息爆炸一詞早已不再陌生,互聯(lián)網(wǎng)上豐富的信息給人們的生活帶來諸多方便,例如降低了學(xué)習(xí)資料獲取的成本等;與此同時(shí),信息爆炸的負(fù)面性也漸漸的影響著我們的生活,鋪天蓋地的廣告、新聞、信息遠(yuǎn)遠(yuǎn)超出我們的接受范圍,其中充斥著大量的無用甚至虛假信息。從海量的信息中抽取對(duì)自己有用的信息這件事占用了現(xiàn)代人大量的時(shí)間,因此,如何高效的進(jìn)行信息分類成為亟待解決的問題。

        常見的信息呈現(xiàn)方式有視頻、圖片、文本等,本文針對(duì)文本信息進(jìn)行研究。文本分類屬于自然語言處理的范疇,自然語言的處理是現(xiàn)階段研究的熱門難題,而漢語結(jié)構(gòu)的復(fù)雜性和幾千年來漢語中沉淀的人文歷史,讓漢語文本的分類難上加難。

        文本分類作為很常見的熱門難題,自然積累了大量的技術(shù)實(shí)現(xiàn)方法。由于素材和數(shù)據(jù)集可采集性較高,訓(xùn)練集標(biāo)記難度不大,現(xiàn)有的文本分類水平也在不斷跟進(jìn),簡(jiǎn)單來說,文本分來的過程是通過將文章分段、分詞,對(duì)詞語的詞性、詞義等進(jìn)行判斷,以小見大達(dá)到對(duì)整個(gè)文章內(nèi)容進(jìn)行分類。具體分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。

        基于規(guī)則的方法是基于研究人員(例如語言學(xué)家)對(duì)語言的規(guī)律進(jìn)行總結(jié),形成規(guī)則形態(tài)的知識(shí)庫,但是由于語言的復(fù)雜性,導(dǎo)致很難選取一個(gè)規(guī)則覆蓋所有的語言現(xiàn)象,社交媒體不規(guī)范的語言使用習(xí)慣也使得基于規(guī)則的方法效率較低;基于統(tǒng)計(jì)的方法也叫基于機(jī)器學(xué)習(xí)的方法、經(jīng)驗(yàn)主義方法,是一種機(jī)器從語言樣本中自動(dòng)學(xué)習(xí)的方法,其利用統(tǒng)計(jì)技術(shù)或機(jī)器學(xué)習(xí)技術(shù),利用語料庫訓(xùn)練語言模型。傳統(tǒng)機(jī)器學(xué)習(xí)方法往往結(jié)構(gòu)簡(jiǎn)單,執(zhí)行簡(jiǎn)潔,原理明確,對(duì)硬件要求略低,在文本分類問題上更受歡迎。目前,學(xué)界對(duì)自然語言處理有了多種方法,如N元模型,KNN、隱馬爾科夫模型、神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)等等模型。

        樸素貝葉斯算法對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)較好,適合多分類任務(wù)及增量式訓(xùn)練,因此本文從知名的新聞網(wǎng)站上獲取新聞文本數(shù)據(jù)集,運(yùn)用基于樸素貝葉斯的模型進(jìn)行實(shí)驗(yàn),嘗試將近200篇文章分為9個(gè)分類,基于樸素貝葉斯模型,探索了一些對(duì)數(shù)據(jù)平滑技術(shù)的改進(jìn)辦法,通過一些精度調(diào)整,使模型的結(jié)果與實(shí)際情況更加吻合,為文本的分類提供更加優(yōu)質(zhì)的預(yù)測(cè)方法,提高分類的準(zhǔn)確度。

        多次試驗(yàn)的結(jié)果對(duì)比證明了數(shù)據(jù)預(yù)處理的重要性,因此,本文針對(duì)數(shù)據(jù)預(yù)處理做出較詳細(xì)闡述,并根據(jù)漢語文本類數(shù)據(jù)的獨(dú)有性質(zhì),選用流行的可視化庫Matplotlib將文本數(shù)據(jù)可視化,清洗,選擇,歸約等預(yù)處理。在實(shí)驗(yàn)過程中,采用了交叉驗(yàn)證等方法避免過擬合,最終得到一個(gè)較好的預(yù)測(cè)結(jié)果。經(jīng)過檢驗(yàn),本文提供的方法,可以在一定程度上提高對(duì)文本進(jìn)行多分類的穩(wěn)定性和準(zhǔn)確性。

        1 數(shù)據(jù)處理

        ■1.1 介紹數(shù)據(jù)與數(shù)據(jù)預(yù)處理

        數(shù)據(jù)(data)是指對(duì)客觀事物觀察并進(jìn)行記錄的結(jié)果,是對(duì)客觀事物的性質(zhì)、狀態(tài)及相互關(guān)系等進(jìn)行邏輯歸納的物理符號(hào)。顯然,數(shù)據(jù)是一個(gè)抽象概念,其具有規(guī)模和屬性。數(shù)據(jù)規(guī)模是指數(shù)據(jù)的多少,如今大火的“大數(shù)據(jù)”即指規(guī)模極大,非常復(fù)雜的數(shù)據(jù);數(shù)據(jù)屬性是指數(shù)據(jù)所具有的性質(zhì),數(shù)據(jù)具有的性質(zhì)越多,即屬性越多,或稱維度越大,維度過大的數(shù)據(jù)中常包含一些無關(guān)屬性,此時(shí)便需要進(jìn)行數(shù)據(jù)降維處理以達(dá)到篩選的目的。與其他屬性一樣,數(shù)據(jù)也有描述單位,生活中所說的手機(jī)容量,網(wǎng)速等等都應(yīng)用到了數(shù)據(jù)的單位方面的內(nèi)容。

        雜亂的數(shù)據(jù)需要經(jīng)過加工后才能成為信息,那自然就需要在正式計(jì)算前進(jìn)行數(shù)據(jù)預(yù)處理?,F(xiàn)實(shí)世界中的數(shù)據(jù)通常比較雜亂,無法直接進(jìn)行帶入算法計(jì)算,為了提高數(shù)據(jù)分析的最終效果,需要對(duì)原始數(shù)據(jù)進(jìn)行處理。瑕疵數(shù)據(jù)通常產(chǎn)生于輸入時(shí)的遺漏﹑系統(tǒng)默認(rèn)值、人工疏忽、噪聲、設(shè)備/系統(tǒng)故障等等原因。在大量的數(shù)據(jù)中,往往還存在著數(shù)據(jù)缺失和數(shù)據(jù)冗余。數(shù)據(jù)缺失是指某些可能的相關(guān)因素被忽略從而導(dǎo)致分析結(jié)果與實(shí)際出現(xiàn)偏差。數(shù)據(jù)冗余是由于一些不相關(guān)的因素混雜其中,成為干擾因素,對(duì)分析可能會(huì)造成不必要的影響,需要剔除。而大數(shù)據(jù)的作用就是盡可能的搜集齊所有的影響因素,分析數(shù)據(jù)越精煉越好。

        ■1.2 數(shù)據(jù)預(yù)處理的方式

        預(yù)處理形式分為數(shù)據(jù)清理,數(shù)據(jù)集成與變換,數(shù)據(jù)歸約和離散化及概念分層,除此之外,還存在其他可能需要數(shù)據(jù)預(yù)處理的情況,例如數(shù)據(jù)的壓縮存儲(chǔ),數(shù)據(jù)形式的轉(zhuǎn)換和數(shù)據(jù)內(nèi)容的篩選和梳理等。本文詳細(xì)僅介紹數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換與數(shù)據(jù)歸約。

        1.2.1 數(shù)據(jù)清理

        現(xiàn)實(shí)世界的原始數(shù)據(jù)一般是不完整、有錯(cuò)亂的。數(shù)據(jù)清理試圖填充遺漏的值,識(shí)別并消除噪音,并更改數(shù)據(jù)中的不一致為一致。

        處理遺漏值常采用的措施有:忽略此個(gè)元組、人工補(bǔ)充遺漏值、使用全局常量、平均值等填充某個(gè)遺漏值等。

        噪音是指測(cè)量變量的隨機(jī)錯(cuò)誤或偏差。去除噪音需要數(shù)據(jù)平滑技術(shù),包括分箱,聚類,計(jì)算機(jī)和人工檢查結(jié)合,回歸等。分箱是指存儲(chǔ)的值被分布到一些“桶”或箱中,通過考察周圍的值來平滑箱中存儲(chǔ)數(shù)據(jù)的值。聚類是將類似的值組織成群或“聚類”,落在聚類集合之外的值被視為噪聲。計(jì)算機(jī)和人工檢查結(jié)合即計(jì)算機(jī)根據(jù)可能的錯(cuò)誤模式進(jìn)行預(yù)搜索,人工對(duì)錯(cuò)誤模式進(jìn)行檢驗(yàn)。回歸則可以通過讓數(shù)據(jù)適合一個(gè)函數(shù)(如回歸函數(shù))來平滑數(shù)據(jù),如線性回歸,找出擬合兩個(gè)變量的直線,使得一個(gè)變量能夠預(yù)測(cè)另一個(gè)。

        1.2.2 數(shù)據(jù)集成

        數(shù)據(jù)集成是指將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)集合,放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。

        數(shù)據(jù)集成主要根據(jù)數(shù)據(jù)的相關(guān)性進(jìn)行判斷,數(shù)據(jù)相關(guān)性包括強(qiáng)正相關(guān)、弱正相關(guān)、強(qiáng)負(fù)相關(guān)、弱負(fù)相關(guān)、非線性相關(guān)和不相關(guān)。其中,強(qiáng)正相關(guān)是指共同增加或減少,且變化明顯,說明x是y的主要影響因素;弱正相關(guān)是指共同增加或減少,但變化不明顯,說明x是y的影響因素,但不是唯一因素;強(qiáng)負(fù)相關(guān)、弱負(fù)相關(guān)與正相關(guān)相反;非線性相關(guān)是指x、y沒有明顯線性相關(guān)關(guān)系,但有某種非線性相關(guān)關(guān)系,x仍是y的影響因素,不相關(guān)即二者完全無關(guān)。

        1.2.3 數(shù)據(jù)變換

        數(shù)據(jù)變換分為規(guī)范化,數(shù)據(jù)泛化,屬性構(gòu)造,平滑,聚集等。常見的規(guī)范化例如最小–最大規(guī)范化是指將原始數(shù)據(jù)A經(jīng)過線性變換,映射到區(qū)間[new_minA, new_maxA] ,這種映射存在一個(gè)問題,若存在離群點(diǎn),可能影響規(guī)范化,若在規(guī)范化后添加新的數(shù)據(jù),當(dāng)新數(shù)據(jù)落在原數(shù)據(jù)的區(qū)間 [minA, maxA]之外,將導(dǎo)致“越界”錯(cuò)誤。

        數(shù)據(jù)泛化是一個(gè)過程,它將數(shù)據(jù)集從較低的概念層抽象到較高的概念層。泛化的規(guī)則為:存在大量不同值,且屬性值無法概念分層則刪除;存在大量不同值,屬性值可以概念分層,則將屬性值概念分層;存在少量不同值則保留;不存在不同值則刪除。

        1.2.4 數(shù)據(jù)歸約

        大數(shù)據(jù)環(huán)境下數(shù)據(jù)量太大,直接進(jìn)行復(fù)雜的數(shù)據(jù)分析和挖掘效率太低,因此需要更強(qiáng)大的計(jì)算能力,更高效的挖掘方法并且減少數(shù)據(jù)量但并不損失數(shù)據(jù)特征。研究證明,歸約后的數(shù)據(jù)集上的挖掘結(jié)果與原結(jié)果幾乎相同。

        歸約策略包括(1)數(shù)據(jù)立方體聚集:對(duì)數(shù)據(jù)立方體做聚集操作 (2)屬性子集選擇:檢測(cè)并刪除不相關(guān)、弱相關(guān)或冗余的屬性和維,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性得到的原分布(3)維度歸約:數(shù)據(jù)僅有部分的維與挖掘目標(biāo)相關(guān),去掉不相關(guān)的維。屬性維的選擇算法包括向前選擇,向后刪除,二者結(jié)合等(4)數(shù)值歸約: 通過數(shù)值特征代替其他數(shù)據(jù)。

        ■1.3 分析本文所用新聞文本數(shù)據(jù)

        本項(xiàng)目數(shù)據(jù)來自新聞中的各類文章,分為財(cái)經(jīng)、IT、健康、體育、旅游、教育、招聘、文化、軍事九個(gè)種類,本文嘗試將近200篇文章分為以上9個(gè)分類。

        對(duì)于從網(wǎng)站上爬蟲得到的文本數(shù)據(jù),通常帶有html標(biāo)簽,需要去除標(biāo)簽,本文使用Python的BeautifulSoup包進(jìn)行去標(biāo)簽操作。文本分類使用的是詞特征,所以本文選擇jieba中文分詞工具對(duì)文章進(jìn)行分詞,jieba分詞采用動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合,對(duì)于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用Viterbi算法,分詞結(jié)果如圖1所示。

        圖中結(jié)果可以明顯看到有一些對(duì)文章實(shí)際意義無關(guān)的詞,其不具有任何類別表征能力,因此需要停用詞去除,比如“的”、“了”等常見連詞。去掉停用詞后進(jìn)行詞頻統(tǒng)計(jì),詞頻統(tǒng)計(jì)是進(jìn)行特征提取、特征權(quán)值計(jì)算的基礎(chǔ),根據(jù)詞頻統(tǒng)計(jì)去掉最高頻的前100個(gè)詞,此時(shí),數(shù)據(jù)已經(jīng)可以為模型所用。

        圖1

        2 模型引入

        ■2.1 樸素貝葉斯

        樸素貝葉斯算法(Naive Bayes)是有監(jiān)督的學(xué)習(xí)算法,解決的是分類問題,如客戶是否流失、是否值得投資、信用等級(jí)評(píng)定等多分類問題。該算法的優(yōu)點(diǎn)在于簡(jiǎn)單易懂、學(xué)習(xí)效率高、在某些領(lǐng)域的分類問題中能夠與決策樹、神經(jīng)網(wǎng)絡(luò)相媲美。

        但由于該算法以自變量之間的獨(dú)立(條件特征獨(dú)立)性和連續(xù)變量的正態(tài)性假設(shè)為前提,就會(huì)導(dǎo)致算法精度在某種程度上受影響。

        樸素貝葉斯模型基于貝葉斯決策理論,用p1(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別1(圖2中圓點(diǎn)表示的類別)的概率,用p2(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別2(圖2中三角形表示的類別)的概率,那么對(duì)于一個(gè)新數(shù)據(jù)點(diǎn)(x,y),可以用下面的規(guī)則來判斷它的類別:如果p1(x,y)>p2(x,y),那么類別為1;如果p1(x,y)<p2(x,y),那么類別為2。也就是說,我們會(huì)選擇高概率對(duì)應(yīng)的類別。這就是貝葉斯決策理論的核心思想,即選擇具有最高概率的決策。

        圖2

        2.1.1 條件概率與全概率

        條件概率是指事件A在另外一個(gè)事件B已經(jīng)發(fā)生條件下的發(fā)生概率。條件概率表示為:P(A|B),讀作“在B的條件下A的概率”。若只有兩個(gè)事件A,B,那么

        全概率是指,如果A和A’構(gòu)成樣本空間的一個(gè)劃分,那么事件B的概率,就等于A和A’的概率分別乘以B對(duì)這兩個(gè)事件的條件概率之和,即

        2.1.2 貝葉斯推斷

        在學(xué)界,通常把P(A)稱為“先驗(yàn)概率”(Prior probability),即在B事件發(fā)生之前,對(duì)A事件概率的一個(gè)判斷,P(A|B)稱為“后驗(yàn)概率”(Posterior probability),即在B事件發(fā)生之后,對(duì)A事件概率的重新評(píng)估。P(B|A)/P(B)稱為“可能性函數(shù)”(Likelyhood),作為調(diào)整因子,使得預(yù)估概率更接近真實(shí)概率。所以,條件概率可以理解成下面的式子:

        后驗(yàn)概率 = 先驗(yàn)概率×調(diào)節(jié)因子貝葉斯推斷的含義即先預(yù)估一個(gè)“先驗(yàn)概率”,然后加入實(shí)驗(yàn)結(jié)果,看這個(gè)實(shí)驗(yàn)到底是增強(qiáng)還是削弱了“先驗(yàn)概率”,由此得到更接近事實(shí)的“后驗(yàn)概率”。

        2.1.3 樸素貝葉斯模型

        貝葉斯和樸素貝葉斯的概念是不同的,區(qū)別就在于“樸素”二字,樸素貝葉斯對(duì)條件個(gè)概率分布做了條件獨(dú)立性的假設(shè),貝葉斯分類器的基本方法:在統(tǒng)計(jì)資料的基礎(chǔ)上,依據(jù)某些特征,計(jì)算各個(gè)類別的概率,從而實(shí)現(xiàn)分類。

        ■2.2 問題與改進(jìn)

        在實(shí)驗(yàn)中,對(duì)常見的三個(gè)問題進(jìn)行改進(jìn),分別為平滑問題,下溢出問題,和準(zhǔn)確率提升問題。

        平滑問題源于一些需檢測(cè)詞在詞表中未出現(xiàn)導(dǎo)致后驗(yàn)概率為0,這顯然是不合理的,常見的解決方法為拉普拉斯平滑(又稱加一平滑),即規(guī)定出現(xiàn)次數(shù)比真實(shí)次數(shù)多一次,使得未出現(xiàn)的詞組概率不再是0,而是大于0的較小的值,但是,對(duì)所有沒出現(xiàn)過的詞組都增加同樣的頻次,并不合理,對(duì)于量級(jí)較小的數(shù)據(jù),規(guī)定出現(xiàn)次數(shù)比真實(shí)次數(shù)多一次次數(shù)過多,因此,本文選擇效果更好的Add–k平滑,即不再是加1次而是視情況而言加k次,實(shí)驗(yàn)結(jié)果證明,Add–k結(jié)果優(yōu)于Add–1,將分類準(zhǔn)確率由73%提升至81%。

        下溢出問題是由于太多很小的數(shù)相乘造成的,在程序中,在相應(yīng)小數(shù)位置進(jìn)行四舍五入,計(jì)算結(jié)果可能就變成0,為了解決這個(gè)問題,對(duì)乘積結(jié)果取自然對(duì)數(shù),通過求對(duì)數(shù)可以較好的避免下溢出或者浮點(diǎn)數(shù)舍入導(dǎo)致的錯(cuò)誤。

        準(zhǔn)確率的提升選擇Bagging策略,Bagging策略來源于bootstrap aggregation:從樣本集(假設(shè)樣本集N個(gè)數(shù)據(jù)點(diǎn))中重采樣選出Nb個(gè)樣本(有放回的采樣,樣本數(shù)據(jù)點(diǎn)個(gè)數(shù)仍然不變?yōu)镹),在所有樣本上,對(duì)這n個(gè)樣本建立分類器,重復(fù)以上兩步m次,獲得m個(gè)分類器,最后根據(jù)這m個(gè)分類器的投票結(jié)果,決定數(shù)據(jù)屬于哪一類。

        3 結(jié)語

        本實(shí)驗(yàn)選用的樸素貝葉斯模型優(yōu)點(diǎn)較多,樸素貝葉斯模型為生成式模型,通過計(jì)算概率來進(jìn)行分類,可以用來處理多分類問題,其對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)很好,適合多分類任務(wù),適合增量式訓(xùn)練,算法的邏輯也比較簡(jiǎn)單。

        當(dāng)然,在一些情況下它也存在著不足,樸素貝葉斯推斷的常見缺點(diǎn)例如,對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感,由于樸素貝葉斯的“樸素”特點(diǎn),所以會(huì)帶來一些準(zhǔn)確率上的損失和需要計(jì)算先驗(yàn)概率,分類決策存在錯(cuò)誤率等。

        猜你喜歡
        樸素貝葉斯概率
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        隔離樸素
        概率與統(tǒng)計(jì)(一)
        概率與統(tǒng)計(jì)(二)
        樸素的安慰(組詩)
        他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
        最神奇最樸素的兩本書
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        国产91九色免费视频| 色婷婷六月天| 无码伊人66久久大杳蕉网站谷歌 | 日韩精品国产精品亚洲毛片| 亚洲熟妇无码久久精品| 99国内精品久久久久久久| 久久精品一品道久久精品9| 日韩一区二区中文字幕| 未满十八18禁止免费无码网站| 欧美交换配乱吟粗大25p| 日韩人妻无码一区二区三区久久| 日日噜噜夜夜爽爽| 国产人成无码视频在线1000| 中文字幕乱码一区在线观看| 久久无码字幕中文久久无码 | 久久精品国产精品亚洲婷婷| 久久久亚洲熟妇熟女av| 人人爽久久涩噜噜噜av| 国产精品天堂avav在线| 男女动态视频99精品| 亚洲αv在线精品糸列| 成人欧美一区二区三区a片| 亚洲综合色秘密影院秘密影院| 亚洲一区二区三区在线| 中文字幕一区二三区麻豆| 少妇做爰免费视频了| 中文字幕无码免费久久| 亚洲国产av自拍精选| 国产成人精品一区二区20p| 乱人伦中文无码视频在线观看| 国产在线视欧美亚综合| 一本色道久久88加勒比—综合| 久久亚洲av成人无码电影a片| 自拍偷自拍亚洲精品播放| 亚洲精品中文字幕尤物综合 | 国产精品亚洲一区二区极品| 在线播放草猛免费视频| 老妇女性较大毛片| 人妻中出精品久久久一区二| 亚洲成av人片极品少妇| 北条麻妃国产九九九精品视频 |