亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        樸素貝葉斯分類算法的設(shè)計(jì)與分析

        2019-05-24 14:13:16王陽(yáng)周云才
        電腦知識(shí)與技術(shù) 2019年11期
        關(guān)鍵詞:文本分類文本挖掘概率分布

        王陽(yáng) 周云才

        摘要:隨著信息技術(shù)的日益發(fā)展,特別是信息技術(shù)應(yīng)用的日漸普及,電子文本信息數(shù)量急劇增加。如何對(duì)這些文本數(shù)據(jù)做有效的管理和高效的利用是目前信息技術(shù)領(lǐng)域所面臨的一項(xiàng)重大挑戰(zhàn)。文本分類是目前對(duì)電子文本進(jìn)行管理的一種常用方法和是基本步驟。目前在信息過(guò)濾、信息檢索、數(shù)字圖書(shū)館等方面對(duì)文本分類是應(yīng)用非常廣泛,同時(shí)需求也在與日俱增。貝葉斯分類算法,由于有貝葉斯理論作為理論支撐,分類過(guò)程可追溯,具有諸多優(yōu)點(diǎn),被眾多文本處理專家所喜愛(ài)?;谪惾~斯方法的分類器的研究和應(yīng)用,目前已經(jīng)是模式識(shí)別和數(shù)據(jù)挖掘等領(lǐng)域的研究熱點(diǎn)。本文主要是對(duì)貝葉斯分類模型進(jìn)行了分析與實(shí)現(xiàn)。

        關(guān)鍵詞:文本挖掘;文本分類;概率分布;貝葉斯分類;分析與實(shí)現(xiàn)

        中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2019)11-0206-03

        1 引言

        文本分類技術(shù)的研究目標(biāo)就是實(shí)現(xiàn)自動(dòng)化的文本分類,用來(lái)到降低分類成本、改善分類效率等目的。作為信息檢索和文本信息管理的技術(shù)基礎(chǔ),文本分類技術(shù)有著非常廣泛的應(yīng)用前景。

        2 國(guó)內(nèi)外研究現(xiàn)狀

        國(guó)內(nèi)文本分類的起步可以認(rèn)為是在1981年,由侯漢清首先對(duì)計(jì)算機(jī)在文獻(xiàn)分類工作中應(yīng)用作了探討。國(guó)內(nèi)的主流高校包括清華大學(xué)在內(nèi)的多個(gè)重點(diǎn)高校都在從事該領(lǐng)域的研究,目前已經(jīng)進(jìn)入到自動(dòng)化分類階段,其中中科院開(kāi)發(fā)的智多星中文文本分類器是目前來(lái)說(shuō)比較好用的中文文本分類器。

        樸素貝葉斯分類器是目前公認(rèn)的一種簡(jiǎn)單有效的概率分類方法,在某些領(lǐng)域中表現(xiàn)出很好的性能。在樸素貝葉斯分類方法中,有一個(gè)“獨(dú)立性假設(shè)”:即實(shí)例的屬性之間是相互獨(dú)立的。在這個(gè)獨(dú)立性假設(shè),使得樸素貝葉斯方法特別適合處理屬性個(gè)數(shù)很多的任務(wù),而文本分類恰恰就是屬于這種多屬性的分類任務(wù)。Friedman等人提出了一種新的樹(shù)狀結(jié)構(gòu)模型TAN(Tree Augmented Naive),其基本思路是通過(guò)對(duì)素貝葉斯中的獨(dú)立性假設(shè)條件進(jìn)行放松,借鑒貝葉斯網(wǎng)中表示依賴關(guān)系的方法擴(kuò)展樸素貝葉斯的結(jié)構(gòu),使得能夠存在屬性間的依賴關(guān)系,但對(duì)其表示依賴關(guān)系的能力進(jìn)行限制,使學(xué)習(xí)模型成為可能。

        3 算法主要簡(jiǎn)介

        3.1思想簡(jiǎn)介

        樸素貝葉斯法(Naive Bayesian Model,NBM)是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類模型方法,和決策樹(shù)模型相比,樸素貝葉斯分類器有著堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ)和比較穩(wěn)定的分類效率。其分類過(guò)程如下:

        (1)將每一個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量d={x1,x2,...,xn}表示,分別是n個(gè)屬性d1,d2,...,dn樣本的n個(gè)度量值。

        3.3.5結(jié)果輸出

        代碼結(jié)果的輸出主要是通過(guò)java集合Collections自帶的sort方法,對(duì)得到的結(jié)果進(jìn)行排序,比較各個(gè)結(jié)果的大小,并對(duì)其進(jìn)行排序,選擇可能性最大的類別進(jìn)行輸出。由于貝葉斯算法的是根據(jù)概率的可能性大小來(lái)選擇所屬類別,根據(jù)貝葉斯算法得到的分類結(jié)果不一定是正確分類,只是可能性最大的分類。

        4 總結(jié)

        簡(jiǎn)單的貝葉斯分類采用簡(jiǎn)單的貝葉斯假設(shè),即假設(shè)一組數(shù)據(jù)中任何兩個(gè)數(shù)據(jù)之間的出現(xiàn)概率計(jì)算都是相互獨(dú)立。簡(jiǎn)單貝葉斯模型在實(shí)際應(yīng)用中,不僅對(duì)貝葉斯網(wǎng)絡(luò)構(gòu)建的復(fù)雜性以指數(shù)級(jí)的速度降低,同時(shí)在諸多領(lǐng)域,在不同于假定條件的情況下,簡(jiǎn)單貝葉斯分類算法也有著極強(qiáng)的魯棒性和高效性。

        本文細(xì)致分析了貝葉斯在文本分類中的應(yīng)用,分析了貝葉斯分類的數(shù)學(xué)模型,以及其中涉及到的關(guān)鍵算法都做了詳細(xì)分析,完成了貝葉斯文本分類的系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。但是由于時(shí)間有限,分類系統(tǒng)還存在有缺陷,例如本系統(tǒng)的文本分類不支持多分類功能,這部分功能在今后的工作中將對(duì)其進(jìn)行持續(xù)性的改進(jìn)。

        參考文獻(xiàn):

        [1]王雙成,苑森森.具有丟失數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)研究[J].軟件學(xué)報(bào),2004,15(7):1042-1048.

        [2]黃解軍,萬(wàn)幼川,潘和平.貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)及其應(yīng)用研究[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2004,29(4):315-318.

        [3]陳劍敏.基于Bayes方法的文本分類器的研究與實(shí)現(xiàn)[J].重慶大學(xué),2007.

        [4]于瑞萍.中文文本分類相關(guān)算法的研究與實(shí)現(xiàn)[J].西北大學(xué),2007.

        [5] 王雙成.混合貝葉斯網(wǎng)絡(luò)隱藏變量學(xué)習(xí)研究[J].計(jì)算機(jī)學(xué)報(bào),2005,28(9):1564-1569.

        [6] 邢永康,馬小平.統(tǒng)計(jì)語(yǔ)言模型綜述[J].計(jì)算機(jī)科學(xué),2003,30(9):22-26.

        [7] 張曉引,岳麗華.改進(jìn)的 Native Bayes方法[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),1999,29(1).

        [8]龐劍峰.基于向量空間模型的自反饋的文本分類系統(tǒng)的研究和實(shí)現(xiàn)[J].中國(guó)科學(xué)院, 2001.

        [9]魯晨光.廣義信息論研究[M].合肥:中國(guó)科技大學(xué)出版社,1993.

        [10]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.

        [11]黃營(yíng)著,吳立德,石崎洋之等.獨(dú)立于語(yǔ)種的文本分類方法[J].中文信息學(xué)報(bào),2010,14(6):1-7.

        [12]卜東波,白碩,李國(guó)杰.聚類/分類中的粒度原理[J].計(jì)算機(jī)學(xué)報(bào),2002,25(8):810-816.

        [13]李榮陸.文本分類及其相關(guān)技術(shù)研究[J].上海復(fù)旦大學(xué),2004,4.

        [14]邊肇棋,張學(xué)工.模式識(shí)別(第二版)[M].北京清華大學(xué)出版社,2000.

        [15]李東,張湘輝.中文軟件漢語(yǔ)分詞研究與應(yīng)用[R].微軟中國(guó)研究開(kāi)發(fā)中心,2002.

        【通聯(lián)編輯:梁書(shū)】

        猜你喜歡
        文本分類文本挖掘概率分布
        離散型概率分布的ORB圖像特征點(diǎn)誤匹配剔除算法
        關(guān)于概率分布函數(shù)定義的辨析
        科技視界(2016年19期)2017-05-18 10:18:46
        基于概率分布的PPP項(xiàng)目風(fēng)險(xiǎn)承擔(dān)支出測(cè)算
        數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
        基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
        基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
        基于貝葉斯分類器的中文文本分類
        從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢(shì)
        基于蟻群智能算法的研究文本分類
        文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
        科技視界(2016年24期)2016-10-11 09:36:57
        日韩在线无| 狠狠色噜噜狠狠狠狠97首创麻豆| 亚洲国产欧美在线观看| 久久久www成人免费无遮挡大片| 最新国产女主播福利在线观看| 精品人妻一区二区视频| 男人的天堂av高清在线| 人妻av乱片av出轨| 国产精品视频一区日韩丝袜| 女同欲望一区二区三区| 亚洲中国精品精华液| 亚洲处破女av日韩精品| 国产妇女乱一性一交| 一区二区三区国产天堂| 脱了老师内裤猛烈进入| 午夜不卡久久精品无码免费| 亚洲欧洲AV综合色无码| 国产乱人伦偷精品视频还看的| 国产三级在线观看不卡| 五月激情综合婷婷六月久久| 中国农村熟妇性视频| 日韩五十路| av资源在线免费观看| 无码中文字幕日韩专区| 色综合无码av网站| 五码人妻少妇久久五码| 国产av剧情刺激对白| 精品少妇人妻av无码专区| 伊人久久大香线蕉在观看| 久久91精品国产91久久跳舞| 内射人妻无套中出无码| 免费国精产品自偷自偷免费看| 在线无码免费看黄网站| 中文字幕有码手机视频| 很黄很色很污18禁免费| 亚洲色自偷自拍另类小说| 亚洲国产精品日韩专区av| 亚洲国产中文字幕在线视频综合| 精品深夜av无码一区二区| 亚洲欧美日韩国产精品网| 日本一区二区三级免费|