亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樸素貝葉斯的Web文本分類及其應(yīng)用

        2017-03-06 20:28:59包小兵
        電腦知識(shí)與技術(shù) 2016年30期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        摘要:Web文本分類在網(wǎng)絡(luò)信息過濾、信息推薦等方面有廣泛的應(yīng)用。介紹了Web文本分類的基本理論與方法,結(jié)合貝葉斯分類算法,對(duì)文本分類語料庫的數(shù)據(jù)進(jìn)行具體的分類實(shí)驗(yàn)并進(jìn)行分析討論,取得了一定的效果。

        關(guān)鍵詞:數(shù)據(jù)挖掘;樸素貝葉斯;文本分類

        中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)30-0220-02

        Web Text Classification and its Application Based on Na?ve Bayesian

        BAO Xiao-bing

        (Chizhou College Department of Mathematics and Computer Science,Chizhou 247000,China)

        Abstract:Web text classification has been widely used in network information filtering, information recommendation and so on.Introduces the basic theory and method of Web text classification,The data of the text classification corpus are classified and analyzed with Bayesian classification algorithm,Achieved a certain effect.

        Keywords:Data mining; Na?ve Bayesian;Text classification

        隨著計(jì)算機(jī)以及互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,對(duì)于擁有海量數(shù)據(jù)的網(wǎng)絡(luò)世界,蘊(yùn)含著巨大潛在價(jià)值的知識(shí),人們迫切需要從這些海量的數(shù)據(jù)中獲取有用的知識(shí)和信息,希望能對(duì)這些海量的數(shù)據(jù)進(jìn)行自動(dòng)分類、組織和管理。而這些知識(shí)有很多是以Web文本的形式存在的,如何自動(dòng)、準(zhǔn)確、高效地進(jìn)行Web文本分類是文本挖掘的重要的研究?jī)?nèi)容之一。

        信息檢索被認(rèn)為是Web文本挖掘的前身,但是位于Internet上的信息,一方面規(guī)模巨大,并且缺乏結(jié)構(gòu)化,對(duì)于這些非結(jié)構(gòu)化或半結(jié)構(gòu)化的復(fù)雜的Web數(shù)據(jù),在做文本分類之前,還需要對(duì)獲取的文本進(jìn)行特征提取和表示,然后再使用文本分類技術(shù)進(jìn)行快速、自動(dòng)的分類。

        本文主要分析和討論了基于樸素貝葉斯(Na?ve Bayesian)方法的Web文本分類的相關(guān)理論,并使用中文自然語言理解平臺(tái)[1]上的文本分類語料庫,進(jìn)行具體的實(shí)驗(yàn)分析。

        1 Web文本分類方法

        1.1 Web文本分類概述

        文本分類是在預(yù)定義的分類體系下,根據(jù)文本的特征,將給定文本歸類的過程,而文本的特征涉及對(duì)文本的理解,因此涉及眾多的學(xué)科領(lǐng)域。Sebastiani用下面的數(shù)學(xué)模型描述文本分類。

        定義函數(shù)[Φ:D×C→{T,F(xiàn)}],其中[D={d1,d1,…,dD}]表示待分類的文本文檔,[C={c1,c1,…,cC}]為預(yù)定義分類體系下的指標(biāo)集。設(shè)[T]和[F]值表示為二元組[],分別表示文本[dj]屬于類[ci]和文本[dj]不屬于類[ci]。在文本分類中涉及兩個(gè)最重要的問題:文本表示與分類器設(shè)計(jì)。那么對(duì)于來自網(wǎng)絡(luò)的Web文本分類系統(tǒng)可以簡(jiǎn)單地表示為圖1。

        1.2 Web文本表示

        Web文本和其他文本類似,由文字、詞語和標(biāo)點(diǎn)符號(hào)組成,要使用計(jì)算機(jī)來表示文本,首先需要選擇一種好的表示方式,并且要求該表示方法能盡可能準(zhǔn)確地反映文本的主題、內(nèi)容和結(jié)構(gòu)等。

        當(dāng)前比較常見的表示方法是由G.Salton等人于60年代末提出的向量空間模型(VSM)。在VSM中,用由特征二元組組成的特征向量表示文本[dj],記為[dj=(t1,ω1j),(t2,ω2j),…,(ts,ωsj)],其中[(tk,ωkj),1≤k≤s]表示特征[tk]的二元組,[ωkj]表示文本[dj]中特征[tk]的權(quán)重,[s]為特征集合的大小。那么對(duì)文本的比較、分類等操作就可以轉(zhuǎn)換成特征向量組間的操作,使問題變得簡(jiǎn)單且易于實(shí)現(xiàn)。

        1.3 Web文本特征選擇及特征權(quán)重計(jì)算方法

        使用VSM模型對(duì)Web文本進(jìn)行文本表示,得到的特征向量維數(shù)一般會(huì)非常高,為提高性能,需要對(duì)特征向量進(jìn)行特征選擇以降維,那么面臨的問題是,應(yīng)該選擇哪些特征,以及應(yīng)該賦予這些特征多大的權(quán)重,以希望經(jīng)約簡(jiǎn)的特征向量更好地體現(xiàn)文本的內(nèi)容、主題等?當(dāng)前比較常見的方法有:信息增益(IG)、卡方、文檔頻度(DF)、互信息(MI)、特征強(qiáng)度(TS)等。本文主要使用文檔頻度的方法進(jìn)行討論,該方法是最基本且最簡(jiǎn)單的一種方法,統(tǒng)計(jì)在多個(gè)文檔中出現(xiàn)特征[tk]的次數(shù),次數(shù)越多的特征被認(rèn)為越關(guān)鍵,故被保留。

        文本特征權(quán)重的計(jì)算方法常見的有布爾權(quán)值、絕對(duì)詞頻(TF)、倒排文檔頻度(IDF)、TF.IDF權(quán)值、熵權(quán)值等,本文使用絕對(duì)詞頻[tfij]衡量文本特征權(quán)重。

        對(duì)于Web文本,在文本表示之前,需要對(duì)文本進(jìn)行分詞。分詞之后的文本詞表中包含很多對(duì)文本特征表示無意義的詞,還需要對(duì)其進(jìn)行約簡(jiǎn),去除虛詞、數(shù)量詞等不能體現(xiàn)文本特征的詞。而對(duì)于重復(fù)出現(xiàn)的詞,會(huì)有兩種情況:一種是通用的名詞、動(dòng)詞,不具特征性,應(yīng)去掉;第二種是恰好能反映文本的特征的詞,應(yīng)該保留,并且統(tǒng)計(jì)記錄其頻數(shù),用VSM模型進(jìn)行表示。然后再使用文本特征選擇及特征權(quán)重計(jì)算方法對(duì)建立的VSM模型進(jìn)行優(yōu)化,得到結(jié)構(gòu)化的數(shù)據(jù),為下一步分類做好準(zhǔn)備。

        2 貝葉斯分類算法基本理論

        貝葉斯分類算法是基于統(tǒng)計(jì)學(xué)的方法,可以預(yù)測(cè)類成員關(guān)系的可能性。實(shí)踐表明貝葉斯分類算法有非常高的準(zhǔn)確率并且計(jì)算速度較快。貝葉斯分類算法基于概率論中的著名的貝葉斯定理[2]。

        定理1設(shè)樣本空間[S],[n]個(gè)互斥事件成為[S]的一個(gè)劃分:[S=A1,A2,…,An],[AiAj=0,i≠j],[X]是[S]中任意一個(gè)事件,則有:

        [P(AiX)=P(XAi)P(Ai)P(X)]

        設(shè)[D]是訓(xùn)練元組集(包含類標(biāo)號(hào)),其中的元組用[n]維向量[X=x1,x2,…,xn]表示,屬性集記為[DA=A1,A2,…,An]。設(shè)有[J]個(gè)類[C1,C2,…,CJ],根據(jù)貝葉斯定理,分類算法將預(yù)測(cè)給定元組[X]屬于的類。分別計(jì)算后驗(yàn)概率[P(CiX)],找到最大值,其中先驗(yàn)概率[P(Ci)]通過學(xué)習(xí)訓(xùn)練元組得到,考慮到[P(X|Ci)]的計(jì)算是復(fù)雜并且開銷非常大的,故做了類條件獨(dú)立的樸素假設(shè),即是

        該分類算法被稱為樸素貝葉斯分類[3](NBC)。

        2.1 Web文本分類數(shù)據(jù)的預(yù)處理

        為實(shí)驗(yàn)的方便,使用中文自然語言理解平臺(tái)[1]由復(fù)旦大學(xué)提供的文本分類語料庫,包含有財(cái)經(jīng)、科技、教育、電腦、房產(chǎn)、人才、汽車、體育、衛(wèi)生、娛樂10個(gè)類別共951個(gè)文本。對(duì)所有的951個(gè)文本的每個(gè)文本分詞,分別生成相應(yīng)的文本詞表,如圖2所示。

        然后進(jìn)行去詞約簡(jiǎn),去除虛詞、數(shù)量詞等不能體現(xiàn)特征的詞,去除那些不具有特征性但卻重復(fù)出現(xiàn)的通用的名詞、動(dòng)詞,記錄反映文本特征的詞及詞頻,每個(gè)文本可以表示成一條VSM模型元組,最終所有的文本處理完成后生成一個(gè)矩陣,稱為詞頻矩陣,最后一列加上類屬性,本實(shí)驗(yàn)詞頻矩陣是[951×13353],如表1所示。再進(jìn)行降維處理,最終的詞頻矩陣部分如表2所示。

        3 應(yīng)用實(shí)驗(yàn)

        3.1 Web文本分類

        為使用貝葉斯算法對(duì)文本分類,首先對(duì)詞頻矩陣進(jìn)行離散化處理,離散化規(guī)則如表3所示。

        最后,對(duì)表2的詞頻矩陣[D951×252]進(jìn)行數(shù)據(jù)離散化處理的結(jié)果如表4所示。

        實(shí)驗(yàn)的硬件平臺(tái):Pentium E2160 1.8GHz處理器,1G內(nèi)存;開發(fā)環(huán)境:Visual Studio 2005,使用盤古分詞[4]的C#開源代碼。使用樸素貝葉斯算法進(jìn)行學(xué)習(xí)、分類,實(shí)驗(yàn)結(jié)果如表5所示。

        實(shí)驗(yàn)表明,對(duì)非訓(xùn)練數(shù)據(jù)的分類準(zhǔn)確性不高,這說明該數(shù)據(jù)集的高稀疏性會(huì)使所構(gòu)建的分類器的泛化能力還不夠好,還有待提高。

        4 結(jié)論

        針對(duì)來自網(wǎng)絡(luò)的Web本文,使用基于樸素貝葉斯的分類算法對(duì)其進(jìn)行自動(dòng)分類,本文做了如下工作:1)概述了Web文本分類的相關(guān)方法以及貝葉斯分類理論;2)通過具體的實(shí)驗(yàn),給出了Web文本分類的詳細(xì)過程,包括分詞、約簡(jiǎn)、降維、訓(xùn)練、分類等,實(shí)驗(yàn)結(jié)果較好;3)針對(duì)高維稀疏數(shù)據(jù)的非訓(xùn)練數(shù)據(jù)分類效果還不夠理想,還有待進(jìn)一步研究。

        參考文獻(xiàn):

        [1] 中文自然語言理解平臺(tái)[DB/OL].http://www.nlp.org.cn/

        [2] 李賢平.概率論基礎(chǔ)[M].北京:高等教育出版社,1997.

        [3] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰譯.北京:機(jī)械工業(yè)出版社,2007:201-206.

        [4] 盤古分詞開源代碼[CP/OL].http://pangusegment.codeplex.com。

        [5] 鄭慶華,劉均,田鋒,等.web知識(shí)挖掘:理論、方法與應(yīng)用[M].2010:3-5.

        [6] 包小兵,翟素蘭,程蘭蘭.基于信息熵加權(quán)的局部離群點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012(7).

        [7] 邵昌昇,樓巍,嚴(yán)利民.高維數(shù)據(jù)中的相似性度量算法的改進(jìn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(2).

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
        亚洲一区毛片在线观看| 91极品尤物国产在线播放| 亚洲一区二区三区久久久| 24小时在线免费av| 国产精品泄火熟女| 熟妇与小伙子matur老熟妇e | 亚洲va在线∨a天堂va欧美va| 精品无吗国产一区二区三区av| 丝袜美腿亚洲综合一区| 80s国产成年女人毛片| 熟女人妻在线视频| 亚洲国产成人AⅤ片在线观看| av在线资源一区二区| 妺妺窝人体色777777| 国产av人人夜夜澡人人爽| 日本一区二区三区中文字幕最新| 丰满人妻被公侵犯的视频 | 亚洲av无码久久精品蜜桃| 五月天国产精品| 国产午夜精品av一区二区三| 黄色av一区二区在线观看| 在线不卡av片免费观看| 波霸影院一区二区| 成人在线观看视频免费播放| 公与淑婷厨房猛烈进出| 亚洲精品久久久无码av片软件| 亚洲精品99久久久久久| 日韩女同在线免费观看| 又粗又黄又猛又爽大片免费| 亚洲人免费| 东京道一本热码加勒比小泽| 国产在线播放一区二区不卡| 亚洲色欲色欲综合网站| 无码人妻精品一区二区三区下载| 日本高清在线播放一区二区| 五月四房播播| 粉嫩少妇内射浓精videos| 韩国美女主播国产三级| 变态调教一区二区三区女同| 国产成人无码一区二区三区在线| 女人的天堂av免费看|