亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        樸素貝葉斯方法在文本分類中的運用

        2018-02-25 11:54:22史琬瑩
        電子技術(shù)與軟件工程 2018年11期
        關(guān)鍵詞:文本分類特征選擇

        史琬瑩

        摘要 在互聯(lián)網(wǎng)飛速發(fā)展的背景下,面對龐大的數(shù)據(jù),我們急需一種有效的數(shù)據(jù)分類方式,樸素貝葉斯就是在這種情況下得廣泛關(guān)注的。樸素貝葉斯是一種基于條件獨立性和貝葉斯定理的分類方法。本文通過樸素貝葉斯原理,樸素貝葉斯分類流程,模型評估,介紹了如何用樸素貝葉斯方法處理文本分類問題。

        [關(guān)鍵詞]樸素貝葉斯 特征選擇 文本分類

        1 引言

        隨著互聯(lián)網(wǎng)的飛速發(fā)展,海量數(shù)據(jù)注入到通訊設(shè)備中。如此大量的信息就讓信息檢索和數(shù)據(jù)挖掘的重要性更加突出。文本分類作為數(shù)據(jù)挖掘的一部分也逐漸被人們重視起來。其中文本分類的主要內(nèi)容是在預(yù)先給定的類標簽的集合下,根據(jù)文章內(nèi)容,確定它的類別。當(dāng)前比較流行的文本分類方法主要包涵文本的表示,分類方法及效果,評估,這三部分。我們接下來將要通過三個方面來介紹:文本表示,分類器構(gòu)造和分類器評估。

        2 樸素貝葉斯原理

        樸素貝葉斯是基于條件獨立性和貝葉斯定理的分類方法。

        2.1 條件獨立性

        條件獨立性是指集合中任意兩個事件均為相互獨立事件,不存在依賴關(guān)系,滿足:

        P(XY|Z)=P(X|Z)*P(Y|Z)

        (1)

        2.2 條件概率

        條件概率是指事件x在另一個事件y發(fā)生的條件下,其發(fā)生的概率,可以表示為:

        其中,P(X)表示X的先驗概率或者稱為邊緣概率。P(Y|X)表示己知事件x發(fā)生后事件Y發(fā)生的條件概率,也稱Y的后驗概率。

        2.3 全概率公式

        設(shè)實驗E的樣本空間為S,Y1,…,Yn為S的一個劃分,且P(Yi》O(i=l,2,…,n),則對樣本空間中的任一事件X,恒有

        P(X)=∑niP(Yi)P(XIYi)

        (3)

        2.4 貝葉斯公式

        設(shè)Y1,Y2,…,Yn為樣本空間的一個劃分,X為Ω中的任一事件,且P(X)>O,則恒有

        3 樸素貝葉斯分類流程

        3.1 特征選擇

        本文使用TFIDF做特征選擇。TF-IDF是一種用以評測某一個文件或是文件集,在所有語料中重要程度的統(tǒng)計方法,字詞的重要性與其在文件中出現(xiàn)的次數(shù)成正比,與在語料庫中出現(xiàn)的頻率成反比。

        詞頻(TF)表示詞語在文件中出現(xiàn)的頻率。為了減小因文件長度造成的誤差,通常以頻率表示這個數(shù)字。

        對于在某個特定文件中的文本,它的重要性通??梢员硎緸椋?/p>

        文件頻率(DF) DF,表示包含詞語t的文檔個數(shù)。

        逆向文件頻率(IDF)用來表示詞語在文件中的普遍程度。用總文件數(shù)與包含該詞語的文件數(shù)目相除,可以得到該詞在文件中的普遍程度。若包含該詞的文件越少,則IDF值越大,則可以說明該詞區(qū)分某一類文件的能力較強。結(jié)算公式為:

        在計算得到每個詞匯的TFIDF值以后,按照值的大小進行遞減排序,選出TFIDF值較大的部分詞匯作為特征。

        3.2 樸素貝葉斯模型計算流程

        樸素貝葉斯模型的計算流程如下所示:

        (1)設(shè)x為一個待分類項;

        (2)有類別集合C={y1,…ym);

        (3)計算P(y1|x),…,P(yn|x);

        (4) 如果P(yk|x)=max{P(y1|x),…, P(yn|x}),則x屬于yk。

        根據(jù)上述分析,樸素貝葉斯流程如圖1表示。

        4 模型評估

        4.1 準確率

        準確率是最常用的分類指標。就最常見的二分類問題來說,模型的目的是分析出正類和負類。在測試集合中,被正確識別的量,除以測試集中的總量(包括把正樣本識別為負樣本以及把負樣本識別為負樣本的情況)就是準確率。

        4.2 精確度和召回率

        精確度容易和準確率混為一談。其實,精確度針對的只是預(yù)測正確的樣本中,正樣本的數(shù)量。它可以由預(yù)測正確的樣本中,正樣本的數(shù)量除以模型中所有正樣本的數(shù)量總數(shù)得到。表現(xiàn)為預(yù)測為正的樣本中,真正是正的數(shù)目。

        召回率表示對于測試集中的正樣本,分類器能識別出來的概率,它是用預(yù)測正確的正樣本數(shù)目除以測試集中所有的正樣本數(shù)目計算得出的。

        4.3 混淆矩陣

        混淆矩陣將實際樣本數(shù)和預(yù)測樣本數(shù)放到同一表格中進行分析的方法,是用來計算準確率、精確度、召回率常用的一種方法。對于二類分類問題而言,樣本一般會被標為正類和負類,其中正類是我們關(guān)注的類型。

        參考文獻

        [1]蘇金樹,張博鋒,徐昕,基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J],軟件學(xué)報,2006,17 (09):1848-1859.

        [2]李學(xué)明,李海瑞,薛亮,何光軍,基于信息增益與信息熵的TFIDF算法[J].計算機工程,2012,38 (08):37-40.

        猜你喜歡
        文本分類特征選擇
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于貝葉斯分類器的中文文本分類
        基于蟻群智能算法的研究文本分類
        基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
        基于K—means算法的文本分類技術(shù)研究
        文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
        科技視界(2016年24期)2016-10-11 09:36:57
        基于GA和ELM的電能質(zhì)量擾動識別特征選擇方法
        聯(lián)合互信息水下目標特征選擇算法
        基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
        欧美 丝袜 自拍 制服 另类 | 久久熟女少妇一区二区三区| 桃红色精品国产亚洲av| 男女做爰猛烈啪啪吃奶动| 在线免费黄网| 性感人妻一区二区三区| 麻豆最新国产av原创| 男女后进式猛烈xx00动态图片| 欧美自拍区| 精品国产亚洲人成在线观看| 日韩精品熟女中文字幕| 午夜内射中出视频| 天天躁日日躁狠狠躁一区| 国产一区二区在线观看av| 大尺度免费观看av网站| 日本熟妇色xxxxx欧美老妇| 亚洲国产成人AⅤ片在线观看| 男女性生活视频免费网站| 成人国产一区二区三区| 久久av无码精品人妻出轨| 亚洲AV无码乱码一区二区三区| 免费看黄视频亚洲网站| 人妻无码中文字幕| 亚洲色图在线观看视频| 成人一区二区三区蜜桃| 免费a级毛片在线播放| 大陆极品少妇内射aaaaa| 亚洲国产剧情在线精品视| 久久精品亚洲国产av网站| 又粗又硬又大又爽免费视频播放| 手机看片久久国产免费| 精品亚亚洲成av人片在线观看 | 综合久久给合久久狠狠狠97色| 日韩精品中文字幕综合| 丝袜美腿福利一区二区| 久热这里只有精品视频6| 亚洲国产精品久久九色| 日本老熟妇五十路一区二区三区| 比较有韵味的熟妇无码| 久草视频福利| 亚洲中文字幕乱码免费看|