亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于最大熵模型的中文文本層次分類方法

        2015-12-27 06:43:59肖雪
        計算機(jī)與網(wǎng)絡(luò) 2015年9期
        關(guān)鍵詞:子類大類特征選擇

        肖雪

        (重慶電子工程職業(yè)學(xué)院,重慶 401331)

        基于最大熵模型的中文文本層次分類方法

        肖雪

        (重慶電子工程職業(yè)學(xué)院,重慶 401331)

        針對文本信息海量增加的現(xiàn)狀,快速、準(zhǔn)確、全面地獲取有用信息的大規(guī)模信息處理應(yīng)用技術(shù)越來越受到關(guān)注。本文將中文文本分類的類別體系構(gòu)建為層次結(jié)構(gòu),并把最大熵模型引入中文文本的層次分類,該模型用于得到未知事件分布的最大熵。實(shí)驗證明,最大熵模型方法的層次分類性能在很多時候優(yōu)于平面分類,是一種有效的中文文本分類方法。

        文本分類層次分類特征選擇最大熵模型

        1 引言

        在信息技術(shù)不斷發(fā)展的今天,人們身邊的文本量也出現(xiàn)了飛速增長。如何在這海量的文本信息集合中,快速、準(zhǔn)確、全面地找到我們所需要的信息,越來越受到關(guān)注。因此,作為大規(guī)模信息處理重要的應(yīng)用技術(shù)之一,文本分類成為了有效組織和管理文本數(shù)據(jù)的重要方式,顯示了其不可忽視的重要性。文本分類可以看作是一個數(shù)學(xué)上的映射,將未標(biāo)明類別的文本映射到已有的類別。我們通過構(gòu)建分類系統(tǒng)來進(jìn)行分類,構(gòu)建的過程屬于有指導(dǎo)的機(jī)器學(xué)習(xí)。首先給出一些已經(jīng)分類的樣本信息,分類系統(tǒng)根據(jù)這些信息掌握每類樣本的特點(diǎn)和分類規(guī)律,建立適用于所有文本的分類規(guī)則,即“學(xué)習(xí)”的過程;在遇到新的待分類的文本時,分類系統(tǒng)將根據(jù)這些規(guī)則來決定把文本分到哪個類別。

        2 層次分類概述

        目前中文文本分類流程大致按照以下步驟[1]:文本預(yù)處理、特征選擇、特征加權(quán)、訓(xùn)練文本分類器和進(jìn)行分類。要把文本這一有內(nèi)在語義聯(lián)系的的信息集合變?yōu)榭杀挥嬎銠C(jī)表示的形式,G.Salton提出了向量空間模型(Vector Space Model, VSM)。在VSM中,文本被表示為可進(jìn)行數(shù)學(xué)運(yùn)算的向量,向量中的每一項叫做特征項,它可以是該文本里的字、詞、短語等。每個特征項對于文本的重要程度都有所不同,為了區(qū)別開,將對每個特征相賦予一個權(quán)重W,這樣文本可表示為,其中表示第i個特征項的權(quán)重。由于每篇文本的特征項數(shù)量相當(dāng)龐大,有的特征出現(xiàn)的次數(shù)極少,有的特征在每篇文本里面都大量存在,因此需要在文本的原始特征中選擇出對文本最具代表性的特征項。特征選擇的方法很多,一般都是使用某種特征評估函數(shù)對每個特征項打分,最后根據(jù)分值取一定數(shù)量的特征項作為特征集合。常用的特征選擇方法有文檔頻率DF、信息增益IG、互信息MI和χ2統(tǒng)計CHI等等[2]。

        構(gòu)建分類系統(tǒng)所采用的分類算法一般都是針對向量空間模型的數(shù)學(xué)計算,主要有:類中心向量最近距離判別法、樸素貝葉斯[3]、KNN[4]和支持向量機(jī)(SVM)[5]等。

        目前中文文本分類基本都只做一次分類,分類的類別都構(gòu)建在同一個層次,即處于同一個平面類空間,稱為平面分類。在類別數(shù)目比較小、同時類別差別比較大的情況下,平面分類的性能較好。比如當(dāng)類別只有“計算機(jī)”、“體育”和“經(jīng)濟(jì)”時,分類系統(tǒng)能比較容易地判斷包含特征“算法”的文本應(yīng)該屬于哪個類別。

        但實(shí)際情況中,文本集合往往比較復(fù)雜、類別繁多。面對成千上萬的文本,很多文本既具有共性、又有細(xì)微的差別,同時這些文本包含的特征非常相近,對分類起作用的特征往往只是極少數(shù)。在這種情況下,平面分類的性能會受到很大制約,分類的精度將受到干擾而降低。因此,可以考慮在構(gòu)建文本類別時形成層次結(jié)構(gòu),把具有共性的子類別組成一個集合,以樹形結(jié)構(gòu)的形式呈現(xiàn)類別體系。

        層次分類是以層次結(jié)構(gòu)的方式構(gòu)造文本分類的類別系統(tǒng),即把所有類別按照一定的內(nèi)在關(guān)系組織成樹狀結(jié)構(gòu)[6]。在這種結(jié)構(gòu)下,第一層的類別數(shù)量較少而且差異很大,文本的分類比較容易且精確度較高;同一類別結(jié)點(diǎn)下的子類具有大類共性,文本分類時只需要在該大類下的子類別中進(jìn)行區(qū)分,縮小了分類的范圍。這樣的分類方式使文本的定位更準(zhǔn)確,分類時自頂向下逐層分類,提高了分類精度。

        3 最大熵模型

        “熵”本是熱力學(xué)中的概念,由shannon將信息熵引入信息論。信息熵是表征事物復(fù)雜程度的量度,用來度量隨機(jī)出現(xiàn)的事物的不確定性,當(dāng)隨機(jī)變量分布越均勻時,其熵值越大。熵的計算公式如下:

        最大熵原理由E.T.Jaynes提出[7],其原則是在對某個事件不了解的情況下,應(yīng)選擇使它的分布最均勻的模型。因為在已知條件下,熵最大時代表其分布最均勻,隨機(jī)變量的狀態(tài)最不確定,可能最接近它的真實(shí)狀態(tài)。在這種情況下,滿足最大熵的概率分布應(yīng)為:

        那么在文本分類問題中,假設(shè)a是某個類別,b為某個特征,則:

        4 文本層次分類

        將此模型應(yīng)用于中文文本的層次分類中,在每一層均采用最大熵模型,如下:

        ①在第一層忽略子類類別,以所有大類為類別集合進(jìn)行第一次特征選擇;使用第一層的特征集合構(gòu)造出特征函數(shù),建立該層的最大熵模型;使用最大熵模型將文本歸屬為所有大類中的某一大類;

        ②進(jìn)入層次結(jié)構(gòu)第二層時,以該層各大類下的子類為基礎(chǔ)再各進(jìn)行一次特征選擇,并適當(dāng)調(diào)節(jié)特征數(shù)量,得到新的子類特征集合。這時的特征集合與第一層的特征集合相比將有所變化。分別為各大類構(gòu)造特征函數(shù),建立各大類的最大熵模型,用于對文本的子類分類。

        5 實(shí)驗及結(jié)果分析

        實(shí)驗采用最大熵模型的方法,與常規(guī)的平面分類的性能做比較。實(shí)驗語料庫由網(wǎng)絡(luò)收集整理,共計6352篇,其中訓(xùn)練語料和測試語料基本按照1:1的比例劃分。語料分為電腦、教育、經(jīng)濟(jì)、娛樂、衛(wèi)生和體育幾個大類,子類構(gòu)建如表1所示。實(shí)驗中的特征選擇采用IG方法,最大熵模型中的參數(shù)估計使用GIS算法,迭代100次后結(jié)束。分類結(jié)果采用F1測試值。實(shí)驗結(jié)果如表1所示,其中Hier表示基于最大熵模型的層次分類性能,Plane表示平面分類性能。

        表1 最大熵層次分類與平面分類性能比較類別

        根據(jù)表1可以看到,基于最大熵模型的層次分類性能在很多類別上優(yōu)于平面分類性能,比如在“硬件”、“籃球”等子類別。層次分類對大類類別的構(gòu)建較少,文本在進(jìn)行大類分類時的精度較高,在大類下只需要面對該大類的子類別,比直接面對所有子類別來進(jìn)行分類更加容易,所以能提高整體的分類性能。由于最后的分類效果依賴于大類分類的結(jié)果,因此層次分類在在不同大類下的表現(xiàn)具有差異性。

        6 結(jié)束語

        現(xiàn)有的文本分類多是基于向量空間模型的平面分類方式。本文把中文文本分類的類別體系構(gòu)建為層次結(jié)構(gòu),對文本先進(jìn)行大類分類,再分類到子類別。并把最大熵模型引入中文文本的層次分類,該模型用于得到未知事件分布的最大熵。經(jīng)實(shí)驗驗證,最大熵模型方法的層次分類性能在很多時候優(yōu)于平面分類,是一種有效的中文文本分類方法。

        [1]張玉芳,萬斌侯,熊忠陽.文本分類中的特征降維方法研究[J].計算機(jī)應(yīng)用研究,2012,29(7):2541-2543.

        [2]Yiming Yang.An evaluation of statistical approaches to text categorization[J].Inf Retr Boston,1999,1(1):69-90.

        [3]T.Joachims.A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization:Proc.Int.Conf.on Machine Learning,1997[C].Nashville,US:1997:143-151

        [4]Makato Iwayama.A comparison of category search strategies: ACM Conference on Research and Development on Information,1995[C].Washington:ACM Press,1995:273-281. [5]J.T.Y.Kwok.Automated Text Categorization Using Support Vector Machine:Proceedings of the Int.Conf.on Neural Information Processing,1998[C].Japan:1998:347-351.

        [6]SONG Shengli,BAO liang,CHEN ping.Hierarchical text classification and evaluation[J].Xi Tong Gong Cheng Yu Dian Zi Ji Shu/Systems Engineering and Electronics,2010,32(5): 1088-1093.

        [7]N Kamal,L John,M Andrew.Using maximum entropy for text classification[C].In Proceedings of the IJCAI-99 Workshop on Information Filtering.Stockholm,Sweden.1999.

        Hierarchical Text Categorization Methods Based on Maximum Entropy Model

        XIAO Xue
        (Chongqing College of Electronic Engineering,Chongqing 401331,China)

        In view of the present situation of mass text information,the technology of large-scale information processing and application,with which people can obtain useful information quickly,accurately,and comprehensively,draws more and more attention. This paper organizes categories into hierarchical structure according to the certain relations.And the maximum entropy model is introduced to hierarchical text classification and used to obtain the maximum entropy of unknown event distribution.The experiment results show that the hierarchical classification performance of maximum entropy model outperforms that of plane methods,and it is an effective technique for text classification.

        text classification;hierarchical text classification;feature selection;maximum entropy model

        TP391

        A

        1008-1739(2015)09-36-3

        定稿日期:2015-04-12

        猜你喜歡
        子類大類特征選擇
        基于CiteSpace 的中醫(yī)軟堅散結(jié)法的可視化分析
        卷入Hohlov算子的某解析雙單葉函數(shù)子類的系數(shù)估計
        談大類招生背景下音樂教育課程的創(chuàng)新與發(fā)展
        北方音樂(2018年8期)2018-05-14 08:59:19
        關(guān)于對稱共軛點(diǎn)的倒星象函數(shù)某些子類的系數(shù)估計
        化學(xué)學(xué)科大類人才培養(yǎng)研究
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        探究土木工程大類復(fù)合型人才的培養(yǎng)模式
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        基于二元搭配詞的微博情感特征選擇
        国产三级av大全在线爽| 曰韩精品无码一区二区三区| 无码人妻专区一区二区三区| 日本精品一区二区三区试看 | 亚洲一区不卡在线导航| 91色综合久久熟女系列| 国产乱人对白| 真人二十三式性视频(动)| 亚洲欧美久久婷婷爱综合一区天堂| 精品国产色哟av一区二区三区| 久久精品中文字幕无码绿巨人| 大香伊蕉国产av| 国产黑色丝袜在线观看视频| 久久久黄色大片免费看| 成人中文乱幕日产无线码| 老少交欧美另类| 日韩精品中文字幕 一区| 一区二区三区日本伦理| 又色又爽又黄还免费毛片96下载| 99视频在线国产| 亚洲天堂av在线免费看| 国产在线无码精品无码| 99精品热这里只有精品| 国产成人精品日本亚洲直播| 久久国产精品美女厕所尿尿av| 24小时日本在线视频资源| 欧美在线三级艳情网站| 久久精品这里就是精品| 狠狠综合久久av一区二区蜜桃| 深夜福利小视频在线观看| 亚洲无码视频一区:| 一道之本加勒比热东京| 中文字幕人妻中文| 一本大道东京热无码中字| 麻豆国产成人av高清在线| 国产精品麻豆va在线播放| 亚洲碰碰人人av熟女天堂| 一本大道久久精品一本大道久久| 99久久婷婷国产亚洲终合精品| 欧美精品中文字幕亚洲专区| 亚洲欧美日韩精品高清|