亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于LDA和SVM的中文文本分類研究

2016-09-24 01:31:29宋鈺婷徐德華同濟大學(xué)經(jīng)濟與管理學(xué)院上海200092

現(xiàn)代計算機 2016年5期

關(guān)鍵詞：特征詞卡方互信息

宋鈺婷，徐德華（同濟大學(xué)經(jīng)濟與管理學(xué)院，上?！?00092）

基于LDA和SVM的中文文本分類研究

宋鈺婷，徐德華
（同濟大學(xué)經(jīng)濟與管理學(xué)院，上海200092）

0　引言

在龐大的網(wǎng)絡(luò)中，大多數(shù)信息是以文本形式進行存儲的，文本自動分類作為重要的文本挖掘方法，成為目前機器學(xué)習(xí)研究的一個重點。文本自動分類的研究主要包括三個基本步驟：文本預(yù)處理、特征提取和特征權(quán)重計算、分類器構(gòu)造等[1]。

特征空間的高維度是文本分類的一個重要問題，而特征提取是解決特征維度高和稀疏性的關(guān)鍵途徑[2]。因此，本文著重改進特征提取算法。特征提取方法主要有以下四種：文檔頻率（Document Frequency,DF）、互信息（Mutual Information,MI）、信息增益（Information Gain, IG）和卡方統(tǒng)計(CHI)。四種特征提取方法都各有優(yōu)劣，其中主要在于這幾種方法對于低頻詞過度倚重，忽視了詞與文檔自身的關(guān)系[3]。本文選擇卡方統(tǒng)計特征提取方法作為主要研究對象之一。同時，通過LDA（Latent Dirichlet Allocation，LDA）可以解決傳統(tǒng)的文本分類的不足，能夠從語義出發(fā)考慮相似性的度量。并且，支持向量機（Support Vector Machine，SVM）能夠處理高維數(shù)據(jù)，降低稀疏性的影響[4]，是較為合適的文本分類器。因此，本文從語義出發(fā)，提出LDA和SVM相結(jié)合的文本分類算法，將LDA與卡方統(tǒng)計方法相結(jié)合，并與其他三種特征提取方法進行對比，以解決低頻詞問題，最后通過SVM進行分類，實驗結(jié)果證明該算法能夠提高分類精度和分類效果。

1　文本分類相關(guān)研究

1.1特征提取

文本分類是指將文檔自動分組到預(yù)定義的類別中。文本通過文本分類的處理后能夠提高的檢索和使用效率。傳統(tǒng)的文本分類直接通過文本數(shù)據(jù)空間進行表示，但是被抓取的文本通常依賴于高維度的特征空間，這也是文本分類的一個挑戰(zhàn)[6]。特征提取是一種降維的有效方法。特征提取是指從原始數(shù)據(jù)中提取出有效的特征詞，用提取的特征可以表示分類文本。Rogati 和Yang[7]等人對幾種常見的特征提取方法進行改進，實驗證明改進后的MI、IG和CHI分類效果有一定的提高。以下三種特征提取方法將在本文中進行對比實驗。

（1）互信息

互信息是指用來衡量某個特征和特定類別的相關(guān)性，計算出特征詞t和類別C的相關(guān)聯(lián)的信息量?；バ畔]有考慮類間分布和類內(nèi)出現(xiàn)的頻數(shù)等因素，劉海峰等人[8]在此基礎(chǔ)上引入特征項的頻數(shù)信息，提高了特征提取的準(zhǔn)確率。

（2）信息增益

信息增益是指某個特征詞在整個文本分類系統(tǒng)中存在與否的信息量的差值，即指該特征文本分類系統(tǒng)帶來的信息量。信息增益缺乏對于特征項詞頻的考慮，劉慶和[9]等人綜合考慮頻度、分散度和集中度對IG進行了改進，提高了其分類精度。

（3）卡方統(tǒng)計

卡方統(tǒng)計的特征選擇方法常常用于檢測兩個事件的獨立性，可以用來度量詞項t與類別C之間的相關(guān)程度，兩者之間關(guān)系類似于具有一維自由度的Z分布。卡方統(tǒng)計忽略了單一文檔中的出現(xiàn)次數(shù)，僅僅從統(tǒng)計特征的角度進行特征提取。針對此問題，裴英博等人[10]通過去除特征項與類別負(fù)相關(guān)的情況，考慮頻度等因素，改進了卡方統(tǒng)計算法，分類效果得到一定程度的提高。

以上三種特征提取方法均僅考慮特征候選詞出現(xiàn)的文檔數(shù)，過度倚重低頻詞，其改進方法也是通過結(jié)合頻度等因素。Basu等人[11]通過實驗證明了傳統(tǒng)的特征提取方法在處理詞和文檔本身關(guān)系上有很大的不足。因此，在此基礎(chǔ)上，本文從語義角度，提出結(jié)合LDA對傳統(tǒng)卡方統(tǒng)計算法進行改進。

1.2LDA主題模型

LDA模型是由Blei等人在2003年首次提出，也被稱為三層貝葉斯概率模型，包含詞、主題和文檔結(jié)構(gòu)[12]。

它將一篇文檔看作詞向量的集合，其生成過程如下：首先對于一篇文檔d，文檔與主題滿足一個多項式分布，主題與詞匯表中的詞也滿足一個多項式分布，這兩個多項式分布分別帶有超參數(shù)α和B的狄利克雷先驗分布。這樣，對于一篇文檔的構(gòu)成，可以看成是，首先從文檔主題分布θ中抽取一個主題，然后從抽取到的主題所對應(yīng)的詞分布?中抽取一個詞，重復(fù)上述過程N次，即可以構(gòu)成一篇含有N個詞的文章。其概率模型公式如公式（1）所示。

通過LDA，即可以獲得詞在主題上的概率分布（公式2），以及文章在主題上的概率分布（公式3），其中K表示主題數(shù)，Cwk表示詞w被賦予主題k的次數(shù)，Cdk表示文檔d被賦予主題k的次數(shù)。

1.3文本表示方法

在提取特征詞后，需要將文檔用所提取的特征詞來表示。向量空間模型（VSM）是使用較多且效果較好的表示方法之一。在該模型中，文檔空間被看作是由一組正交向量組成的向量空間。若該空間的維數(shù)為n，則每個文檔d可被表示為一個實例特征向量d?={w1，w2，…，wn}。wn指第n個詞在文檔d中的權(quán)重。

本文利用TF-IDF公式來計算詞的權(quán)重。見公式（4）。

其中tfji指的是第i個詞在文檔j中出現(xiàn)的頻數(shù)，dfi指的是包含第i個詞的文檔數(shù)，N指所有文檔總數(shù)。

1.4文本分類器

隨著文本檢索和分類的需求迅速增長，文本自動化分類的研究成果發(fā)展迅速。如今，已經(jīng)有相當(dāng)多的數(shù)據(jù)分類方法和機器學(xué)習(xí)技術(shù)被應(yīng)用到文本分類當(dāng)中，其中包括支持向量機（SVM）、貝葉斯算法、K最近鄰（KNN）、決策樹等分類算法[13]。

支持向量機[14]是由Joachims首先運用到文本分類中，和其他分類算法相比，SVM具有較好的穩(wěn)定性和分類效果[15]。本文采用SVM構(gòu)建分類器。

2　基于LDA和SVM的文本分類

結(jié)合LDA和SVM的中文文本分類流程如下，如圖1所示：

圖1　文本分類流程圖

2.1文本預(yù)處理

本分詞作為中文文本分類的文本預(yù)處理重要的步驟，相比英文文本，中文文本分類需要對沒有空格進行區(qū)分的中文文本進行分詞處理。本文選擇的是由張華平博士帶領(lǐng)團隊研制的ICTCLAS漢語分詞系統(tǒng)。

首先將文本分為訓(xùn)練集和測試集。然后對文本進行分詞、去停止詞等操作，并將處理好的數(shù)據(jù)按照一定格式進行存儲。

2.2結(jié)合LDA主題模型的特征提取

卡方統(tǒng)計、信息增益和互信息都沒有從語義的角度考慮，僅僅從統(tǒng)計的角度來提取特征詞，本文將以卡方統(tǒng)計為例，詳細(xì)描述如何通過結(jié)合主題模型，從語義的角度提取特征詞。

然后選擇形容詞和名詞作為特征詞的候選詞語，利用卡方公式，對某一類別下，例如財經(jīng)類，計算出該類別下所有候選特征詞的卡方值，例如“股票”在財經(jīng)類別下的卡方值。其計算公式見公式（5）：

式中，A表示包含詞項t又屬于分類C的文檔數(shù)目，B表示包含詞項t不屬于分類C的文檔數(shù)目，C表示不包含詞項t但屬于分類C的文檔數(shù)目，D表示既不包含詞項t又不屬于分類C的文檔數(shù)目。N代表所有文檔總數(shù)。

接著，選擇該類下包含該詞次數(shù)最多的文檔，例如在財經(jīng)類下，包含“股票”一詞最多的文檔為Di，采用公式（6）計算“股票”與該文檔Di在主題分布下的關(guān)聯(lián)度。某一詞語和某文本的主題關(guān)聯(lián)度，即該詞能在主題上代表該文本的程度。如果出現(xiàn)多個包含該詞最大數(shù)目相同的文本，則選擇該詞與文本關(guān)聯(lián)度最大的值，作為該詞與該文本的關(guān)聯(lián)度。

接著，把所有包含詞Ti的文檔聚為該類下的一個子類，稱為詞子類C?，其他不包含該詞的文檔稱為非Ti詞子類。對于詞的關(guān)系，可以用剛剛算出的詞與包含該詞次數(shù)最多文檔的關(guān)聯(lián)度近似表示。

那么，詞Ti與類C的主題關(guān)聯(lián)性即可表示為公式（7）。

最后，將語義特征與統(tǒng)計特征（如互信息、信息增益、卡方統(tǒng)計等）相結(jié)合，例如結(jié)合X2值以及基于潛在語義主題的sim值，得出最終X2，如公式（8）所示。

最后根據(jù)這個結(jié)果，找出排名在前即特征值較高的詞，作為某一分類下的特征詞。

2.3特征權(quán)重計算及分類模型

對于特征權(quán)重計算，本文仍然是采用傳統(tǒng)的TFIDF值來表示特征詞的權(quán)重，從而將文檔表示為一組特征向量。

在選出特征詞，并計算出權(quán)重之后，本文采用LIBSVM算法進行文本分類。本文采用的是SVM分類器模型，并將文檔的輸入形式表示為：類別C特征詞1編號：特征詞1權(quán)重特征詞2編號：特征詞2權(quán)重…其核函數(shù)選取的是徑向基內(nèi)核（RBF）。其中特征詞序號來自于選出的所有特征詞的集合，特征值為TF-IDF計算得到的值。LIBSVM讀取訓(xùn)練數(shù)據(jù)得到訓(xùn)練模型，并對測試集進行分類預(yù)測，最終得到分類準(zhǔn)確率。

3　實驗結(jié)果及分析

為了進一步考察改進后方法的效果及效率，本文進行了如下實驗。

3.1實驗收據(jù)

本實驗使用的是搜狗實驗室中文新聞?wù)Z料庫，總共有8個分類，每個分類下有1990篇文檔，其中1590篇用作訓(xùn)練集，400篇用作測試集。如表1所示。

表1　實驗數(shù)據(jù)訓(xùn)練集測試集及類別分布情況

3.2評價指標(biāo)

文本分類中普遍使用的性能評估指標(biāo)有：查全率R（Recall）和查準(zhǔn)率P（Precision），其中查全率為類別C下正確分類文檔數(shù)與C類測試文檔總數(shù)之比，查準(zhǔn)率為正確分類文檔數(shù)與被分類器識別為C類的文檔數(shù)之比。

F-measure，用來衡量的是查全率和查準(zhǔn)率的綜合，以及對它們的偏向程度。

3.3實驗結(jié)果分析

本實驗將LDA分別與卡方統(tǒng)計、互信息和信息增益進行結(jié)合，利用改進后的特征提取方法提取特征詞并將卡方統(tǒng)計與其他兩種特征提取方法的分類效果進行比較。

（1）LDA主題數(shù)K的比較

在訓(xùn)練LDA主題模型時，由于需要先給出主題K的值，因此實驗分別選擇了主題數(shù)為20，30，40，60，80，100，120等進行比較，計算出不同方法與LDA結(jié)合時的分類性能，圖中橫坐標(biāo)為不同的主題數(shù)目，縱坐標(biāo)為F值，選取的特征詞個數(shù)為8000，如圖2所示。

圖2　特征詞個數(shù)為8000，不同主題數(shù)的分類結(jié)果

圖3　主題數(shù)為60，不同特征值維數(shù)的分類結(jié)果

從圖2中可以看出隨著主題數(shù)目的增長，分類性能雖然越來越好，但效果變化并不大。而隨著主題數(shù)目的增長，訓(xùn)練LDA模型所需要的時間卻越來越長，即消耗很大的代價，卻只得到了一點提高。因此綜合考慮，本文選取60作為主題數(shù)目。

（2）特征詞數(shù)目的比較

為了考察選取的特征詞數(shù)目對文本分類效果的影響，本文選取了 400，1600，3200，4000，6400，8000，9600，11200，128000，16000個特征詞進行比較，分別采用chi、chi+lda、ig、ig+lda、mi、mi+lda得出文本分類的性能，見圖4.圖中橫坐標(biāo)為特征詞個數(shù)，縱坐標(biāo)為F值，選取的LDA主題數(shù)為60。

從上圖3可以看出，本文提出的結(jié)合LDA的特征提取算法均比原來的方法分類效果好；另外隨著特征詞個數(shù)的增多，每一種方法的分類性能也有提高，但是當(dāng)特征詞個數(shù)過多時，除了會導(dǎo)致維度災(zāi)難，也可能會因為過多無用的詞或分類特征不明顯的詞被當(dāng)作特征詞，從而導(dǎo)致分類性能下降。所以在分析比較三種方法分別與LDA結(jié)合后的性能時，選取8000作為特征詞的數(shù)目。

（3）三種方法與LDA結(jié)合的比較

本實驗選擇主題數(shù)K為60，特征詞數(shù)為8000，分別計算出chi、chi+lda、ig、ig+lda、mi、mi+lda在不同分類下的查準(zhǔn)率、查全率以及F值，實驗結(jié)果如下表2、3、4所示。

表2　 CHI和LDA結(jié)合分類結(jié)果

表3　 IG和LDA結(jié)合分類結(jié)果

表4　MI和LDA結(jié)合分類結(jié)果

從上面三個表中可以看出，三種特征提取方法在與LDA主題模型結(jié)合后的分類效果都有一定程度的提高，在不同分類下均能有3%到6%的提高。特別是與CHI結(jié)合時分類效果較明顯。因為CHI在選取特征詞時傾向于選取那些詞頻相對較低的詞語，而這些詞在某些分類中并不能很好的代表該類下的特征詞，在與LDA結(jié)合后，由于LDA從語義的角度計算詞的權(quán)重，一定程度上能夠很好地改善CHI低頻詞的選取，從而提高分類的性能。

4　結(jié)語

文本分類涉及到文本表示、相似度計算和算法決策等多種復(fù)雜的技術(shù)，特征選擇在文本分類中具有重要作用。本文研究并改進了傳統(tǒng)的特征選擇方法，結(jié)合LDA主題模型計算出詞和文檔的語義關(guān)系，避免了低頻詞的夸大處理，實驗結(jié)果表明提出的方法對分類效果提高是有效的，卡方統(tǒng)計、信息增益、互信息等結(jié)合LDA后分類效果都有明顯提高。其中卡方統(tǒng)計的分類準(zhǔn)確率提高較為明顯。下一步的研究方向是針對不同的特征提取方法分別設(shè)計出不同的與LDA結(jié)合的算法，以更好地利用LDA進行文本分類；同時在進行特征值計算時，也可以結(jié)合LDA主題信息計算。

[1]Dash M,Liu H.Feature Selection for Classification[J].Intelligent Data Analysis,1997,1(1):131-156.

[2]Yang Y,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization[C].ICML.1997,97:412-420.

[3]代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報,2004,18(1):26-32.

[4]李志清.基于LDA主題特征的微博轉(zhuǎn)發(fā)預(yù)測[J].情報雜志,2015,34(9):158-162.

[5]李鋒剛,梁鈺.基于LDA-WSVM模型的文本分類研究[J].計算機應(yīng)用研究,2015,32(1):21-25.

[6]Wang Z,Qian X.Text Categorization Based on LDA and SVM[C].Computer Science and Software Engineering,2008 International Conference on.IEEE,2008,1:674-677.

[7]Rogati M,Yang Y.High-Performing Feature Selection for Text Classification[C].Proceedings of the Eleventh International Conference on Information and Knowledge Management.ACM,2002:659-661.

[8]劉海峰,姚澤清,蘇展.基于詞頻的優(yōu)化互信息文本特征選擇方法[J].計算機工程,2014,40(7):179-182.

[9]劉慶河,梁正友.一種基于信息增益的特征優(yōu)化選擇方法[J].計算機工程與應(yīng)用,2011,47(12):130-134.

[10]裴英博,劉曉霞.文本分類中改進型 CHI特征選擇方法的研究[J].計算機工程與應(yīng)用,2011,47(4).

[11]Basu T,Murthy C A.Effective Text Classification by a Supervised Feature Selection Approach[C].Data Mining Workshops(ICDMW),2012 IEEE 12th International Conference on.IEEE,2012:918-925.

[12]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].the Journal of Machine Learning Research,2003,3:993-1022.

[13]Sebastiani F.Machine learning in Automated Text Categorization[J].ACM Computing Surveys(CSUR),2002,34(1):1-47.

[14]Chang C C,Lin C J.LIBSVM:A Library for Support Vector Machines[J].ACM Transactions on Intelligent Systems and Technology(TIST),2011,2(3):27.

[15]Joachims T.A Support Vector Method for Multivariate Performance Measures[C].Proceedings of the 22nd International Conference onMachine learning.ACM,2005:377-384.

LDA;CHI;Text Classification;SVM

Research on Chinese Text Classification Based on LDA and SVM

SONG Yu-ting，XU De-hua

（School of Economics and Management，Tongji University，Shanghai 200092）

1007-1423（2016）05-0018-06

10.3969/j.issn.1007-1423.2016.05.004

宋鈺婷（1991-），女，江蘇泰州人，碩士研究生，研究方向為信息管理與信息系統(tǒng)

2016-01-07

2016-02-18

針對中文文本分類中特征提取的語義缺失和低頻詞問題，提出一種基于LDA和SVM的中文文本分類算法，首先將LDA與卡方統(tǒng)計特征提取算法結(jié)合，根據(jù)計算結(jié)果得到Top k個指定數(shù)目的詞項作為特征詞，使用SVM進行分類，并與互信息、信息增益進行對比，結(jié)果分析顯示與主題模型相結(jié)合的卡方統(tǒng)計特征提取方法有更高的分類精度。

LDA；卡方統(tǒng)計；文本分類；SVM

徐德華，男，副教授，碩士生導(dǎo)師，研究方位為管理信息系統(tǒng)、電子商務(wù)

Against the Chinese text classification feature extraction of semantic loss and low frequency words,proposes a text classification algorithm based on LDA and SVM,which describes CHI feature extraction method combining LDA,according to the results obtained Top k items of specified number of lexical items as feature words,uses SVM classification to realize text classification,compares respectively with mutual information and information gain.The results of the analysis proves that combining CHI feature extraction methods with the topic model have higher classification accuracy.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于LDA和SVM的中文文本分類研究

0 引言

1 文本分類相關(guān)研究

2 基于LDA和SVM的文本分類

3 實驗結(jié)果及分析

4 結(jié)語

0　引言

1　文本分類相關(guān)研究

2　基于LDA和SVM的文本分類

3　實驗結(jié)果及分析

4　結(jié)語