亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多約簡Fisher-VSM和SVM的文本情感分類

2016-11-09 01:20:40邢玉娟曹曉麗

計算機應用與軟件 2016年9期

關鍵詞：分類特征文本

邢玉娟　譚　萍　曹曉麗

(蘭州文理學院數(shù)字媒體學院　甘肅蘭州 730000)

基于多約簡Fisher-VSM和SVM的文本情感分類

邢玉娟譚萍曹曉麗

(蘭州文理學院數(shù)字媒體學院甘肅蘭州 730000)

為了提高文本情感分類準確率，提出基于多約簡Fisher向量空間模型和支持向量機的文本情感分類算法。該算法首先采用Fisher判別準則提取TF-IDF特征向量，然后依據(jù)低維文檔向量空間模型間的相似度對文檔進行聚類，減少文檔的數(shù)目。該算法從維度和數(shù)量兩個方面對文檔的向量空間模型進行約簡，以期提高支持向量機的訓練速度和分類性能。仿真實驗結果表明，該算法具有良好的召回率和分類準確率。

文本情感分類Fisher 判別比向量空間模型支持向量機

0　引　言

隨著互聯(lián)網技術的飛速發(fā)展，人們將網絡作為發(fā)表個人觀點、評價產品和服務的平臺，相應的網絡文本評論信息呈爆炸式增長。如何對海量的網絡文本信息進行歸納處理，判定其表達的情感觀點，如肯定和否定，成為當前互聯(lián)網智能信息處理的研究熱點。在電影評論、產品質量與服務評價、社會輿情分析、有害信息過濾、Blog評價、新聞報道評述、股票評論、圖書推薦、敵對信息檢測等領域具有廣闊的應用前景和市場價值[1]。文本情感分類屬于一種文本分類，它是對文本信息進行分析、處理、歸納和推理，從而判定其表達觀點(肯定/否定)的過程。在文本情感分類中，有效情感特征的選擇以及判別算法的設計是關鍵。

基于統(tǒng)計的文本向量空間模型VSM(Vector Space Model)的提出，使得機器學習算法可以廣泛地應用于文本情感分類。多種機器學習算法如支持向量機SVM、經典樸素貝葉斯NBve Bayes)、最大熵ME(Maximum Entropy)等廣泛地應用于文本情感分類。文獻[2]最早采用NB、ME和SVM對Internet上的電影評論文本進行分類，驗證了機器學習算法在文本情感分類中應用的可行性。同時實驗結果表明，SVM具有良好的泛化能力和較高的分類精確率，性能優(yōu)于NB和ME。文獻[3]將形容詞及其修飾詞作為文檔候選特征，建立VSM，并采用SVM進行分類，判斷文檔的正面和負面觀點，獲得了較好的實驗結果。文獻[4]在情感詞典上選擇和加權文檔的情感特征，使用SVM判定情感極性。肖正等[5]采用SVM在基于“詞-文檔”的語義距離向量空間上判定文檔情感極性的分類，獲得較高的分類準確率。楊經等[6]采用SVM并結合詞性特征和語義特征對句子進行情感識別和分類。由此可見，SVM作為典型的機器學習方法在文本情感分類中獲得了成功的應用。

然而，由于文檔的規(guī)模較大，且VSM的初始特征向量的維數(shù)較大，需要大量的存儲資源和較高的計算復雜度，在很大程度上影響了SVM的訓練速度。因此在基于SVM的文本情感分類中，文本特征向量的選擇和約簡直接影響到系統(tǒng)性能。文獻[7]將文檔頻率加權方法和信息增益IG(Information Gain)、互信息 MI(Mutual Information)等特征貢獻評估方法相結合，進行高判別性特征的選擇。文獻[8]提出一種基于多重詞典的特征選擇算法，實驗結果表明，該算法具有良好的性能。Wang等[9]提出一種基于改進的Fisher判別比的文本特征選擇方法，通過計算文本特征項詞頻和布爾值的Fisher判別比來衡量特征項的貢獻程度。然而詞頻和布爾值只反映了特征項在所屬文檔出現(xiàn)的次數(shù)或是否出現(xiàn)，無法衡量特征項在文檔集上的特性。

在以上研究工作的基礎上，本文提出一種基于多約簡Fisher-VSM和SVM的文本情感分類算法。該算法首先采用Fisher判別準則剔除VSM中的冗余和噪聲信息，在特征加權方面采用詞頻-逆文檔頻率法以克服詞頻法和布爾值的缺陷；然后對文檔進行相似性聚類。在保證文本特征向量高判別性的前提下，從文檔VSM的維數(shù)以及數(shù)量兩個方面進行約簡，以期加快SVM的訓練速度，減少SVM的計算復雜度和空間占用，進而提高文本情感分類系統(tǒng)的性能。

1　相關理論

1.1向量空間模型

在向量空間模型VSM[2]中，依據(jù)特征項在所屬文檔中的重要程度，將文檔數(shù)字化為一高維向量，每一個特征項對應向量的一維。如何衡量特征項的重要程度是文檔向量空間模型建立的關鍵。常用的特征項權重計算方法主要有：二值法、絕對詞頻TF(Term Frequency)法、逆文檔頻率IDF(Inverse Document Frequency)法和詞頻-逆文檔頻率TF-IDF(Term Frequency-Inverse Document Frequency)法[10]。二值法是最簡單的權重計算方法，反映特征項是否在文檔中出現(xiàn)；絕對詞頻法主要反映特征項在文檔中出現(xiàn)的次數(shù)，是一種局部文本信息加權方法；逆文檔頻率法反映該特征出現(xiàn)文檔的數(shù)目，是一種全局信息加權方法；TF-IDF法既考慮到了文本信息的局部特性，同時也兼顧了特征項的全局特征[11]，是目前使用最為廣泛的文檔特征加權方法，其計算公式如下：

(1)

其中di表示含有N個文檔的文檔集D={D1,D2,…,DN}中第i篇文本Di的數(shù)字化向量，di=(w1,i,w2,i,…,wn,i)，wji(j=1,2,…,n)表示文檔Di中出現(xiàn)特征項tj的權重，n表示特征項的個數(shù)。

1.2支持向量機

支持向量機[12]是基于結構風險最小化原則在兩類中尋找最優(yōu)分類邊界，在數(shù)據(jù)分類方面顯示了優(yōu)越的性能。它的基本原理是首先通過非線性變換將輸入空間映射到一個高維特征空間，然后根據(jù)核函數(shù)在這個新空間中求取最優(yōu)線性分類平面。支持向量機由于具有較高的分類精確率和召回率，且具有較好的穩(wěn)定性，被廣泛地應用于文本分類中。并且支持向量機的分類超平面有效地克服了特征冗余、樣本分布以及過擬合等因素的影響,具有較好的泛化能力。然而，它在大數(shù)據(jù)集上訓練收斂速度較慢，并需要大量的存儲資源和較高的計算復雜度。采用輸入向量進行SVM的訓練，可得到決策分類函數(shù)：

(2)

(3)

2　多約簡Fisher判別性向量空間模型

文檔的VSM維數(shù)較高，且包含大量的噪聲信息和冗余信息。為了更好地選擇高判別性的低維文檔特征向量，減少相似文檔對分類算法的影響，本文提出多約簡Fisher判別性向量空間模型Fisher-VSM，并采用SVM判定文檔的觀點。本文提出的文本情感分類系統(tǒng)框圖如圖1所示。

圖1　基于多約簡Fisher-VSM和SVM的文本情感分類系統(tǒng)框圖

由圖1可知，本文提出的算法主要包括文檔VSM維度約簡和文檔VSM聚類兩個方面。由于文檔的TF-IDF權特征不僅考慮到特征項在所屬文檔中的特性，同時也兼顧特征項在整體文檔集中的分布情況，具有比二值法、詞頻法和逆文檔頻率法更優(yōu)的分類特性。因此，本文提出采用Fisher 判別準則選擇高判別性的低維的文檔TF-IDF特征。

2.1低維Fisher-VSM

Fisher判別準則[13]的基本原理是通過尋找特征向量的投影空間，使得特征向量在該投影空間的分離度最大。它在去除噪聲特征以及判別性能較差的特征和去除冗余特征方面具有良好的性能[14]。

(4)

(5)

(6)

(7)

則tk的Fisher判別比值為：

(8)

其中：

(9)

(10)

將式(9)和式(10)代入式(8)即可計算特征項tk的Fisher比值，該公式的計算復雜度為O(m+n)。F(tk)值越大，表明該特征項對分類的貢獻越大。因此，可根據(jù)該公式分別對文檔集中的特征項計算其Fisher判別比值，并由大到小排序，選擇值最大的前q個特征項構建文檔Fisher判別性VSM(Fisher-VSM)。

2.2Fisher-VSM聚類

本文在K-均值聚類算法的啟發(fā)下，提出Fisher-VSM聚類算法。該算法在采用Fisher準則得到的約簡向量集上，以文檔間的差異度作為相似文檔的衡量標準，對文檔集進行聚類，以減少文檔集的規(guī)模，進一步加快SVM的訓練速度。同時，為了加快聚類算法的收斂速度，采用粒子群算法[15]全局搜索最優(yōu)聚類中心。本文算法區(qū)別于K-均值聚類算法的優(yōu)點是：原始數(shù)據(jù)集經過了Fisher降維處理，且采用粒子群確定聚類中心，聚類算法收斂速度較快、計算復雜度低。

(11)

在本文的聚類算法中，假設初始化m個粒子群，則第i個粒子的位置為xi=(xi,1,xi,2,…,xi,q)，速度為vi=(vi,1,vi,2,…,vi,q)。種群的個體極值為pi=(pi,1,pi,2,…,pi,q)，全局極值為g=(g1,g2,...,gq)。粒子的速度和位置更新公式為:

vi=ωvi+c1·r1()·(pi-xi)+c2r2()·(g-xi)

(12)

xi=xi+vi

(13)

其中，r1()和r2()是分布在[0，1]之間的隨機數(shù)；c1和c2是加速常數(shù)，本文取值為2；ω為慣性權值，用于平衡全局搜索和局部搜索。

Fisher-VSM聚類算法的具體步驟如下：

Step1設定聚類的類別數(shù)為C，隨機指定C個文檔的Fisher-VSM作為最初聚類中心，將各類的聚類中心作為粒子的初始位置，計算粒子的適應度，初始化粒子速度，反復進行m次，生成m個初始粒子群；Rs=0(s=1,2，…,C)用于記錄屬于當前類別s的文檔的數(shù)目。

Step2將當前位置設置為個體極值位置，當前位置的適應度為個體極值，并根據(jù)各個粒子的個體極值找出全局極值和全局極值位置，調節(jié)ω的值。

Step3根據(jù)式(12)和式(13)更新粒子的位置和速度。

Step4在當前位置對文檔特征向量進行聚類

Step4.2選擇與聚類中心差異度最小的文檔劃分到相應的類中，Rs=Rs+1，重新計算文檔聚類中心模型Ms。

Step5重復執(zhí)行Step2至Step5，直到聚類中心向量不再變化為止。

3　仿真實驗與分析

3.1實驗語料庫

實驗語料庫采用譚松波博士收集整理的中文語料庫中的酒店評論數(shù)據(jù)[16]，隨機選取數(shù)據(jù)中正面和負面各1200篇，總共2400篇評論用于模型的訓練，選取正負各800篇，總共1600篇用于測試。通過ICTCLAS漢語分析系統(tǒng)對所有的語料文本進行分詞，標記詞性，選擇具有較重感情色彩的名詞、形容詞和副詞作為候選特征項。性能衡量標準為分類準確率(CR)、正面查準率(PP)、正面召回率(RP)、負面查準率(PN)、負面召回率(RN)正面綜合準確率(FP)和負面綜合準確率(FN)，計算公式[11]如下：

(14)

(15)

(16)

(17)

(18)

(19)

其中，aP表示正面文本中正確分類的文本數(shù)，aN表示負面文本中正確分類的文本數(shù)；bP表示分類為正面的文本數(shù)，bN表示分類為負面的文本數(shù)；cP表示正面文本數(shù)，cN表示負面文本數(shù)。

3.2實驗結果及分析

實驗1：SVM分類性能測試分析

該實驗測試SVM、經典樸素貝葉斯NB和最大熵三種經典機器學習方法對文本情感分類性能的影響，采用TF-IDF函數(shù)為特征加權。實驗結果如表1和圖2所示。

表1　不同分類算法性能比較

圖2　不同分類算法性能比較

由表1可知，在三種分類算法中，SVM的正確分類準確率最高為88.87%，相比于NB分類準確率提高了13.68%，相比于ME提高了將近25個百分點。因此，SVM在文本情感分類中，具有良好的分類性能。

實驗2:特征權重實驗

該實驗分別采用二值法、詞頻法、IDF法和TF-IDF法對文檔的特征項加權，測試這四種特征加權方法對情感分類的影響，采用SVM判別文本觀點。實驗結果如表2所示。

表2　不同權重特征Fisher特征選擇性能比較

在這四種特征加權方法中，TF-IDF的性能最高，其分類準確率為82.74%，相比于二值法提高了將近20%，相比于詞頻法提高了8.3%，相比于IDF法提高了2.99%。這主要是由于TF-IDF在特征項加權中綜合考慮特征項局部信息和全局信息，而其他三種方法各有偏重，因此分類準確率較低。

實驗3： Fisher特征選擇分析比較

該實驗采用Fisher準則提取低維高判別性TF-IDF特征，標記為tFisher，原始TF-IDF特征標記為tOrginal，進行對比分析，測試Fisher特征選擇對文本情感分類的影響。實驗結果如表3所示。

表3　Fisher特征選擇性能比較

由表3可知：基于Fisher特征選擇的TF-IDF權重特征的各項性能指標均高于原始TF-IDF特征，其FP=89.25%，F(xiàn)N=89.00%，且整體分類準確率達到了89.13%，相比于原始TF-IDF特征分類準確率提高了6.39%。在特征空間維數(shù)約簡方面，原始TF-IDF的維數(shù)為9483， Fisher準則將其約簡為5216，特征維度約簡率為44.7%。因此，F(xiàn)isher準則可以有效地提取低維的高判別性特征向量，提高SVM的分類性能，是一種有效的特征選擇方法。

實驗4：Fisher-VSM聚類算法分析

本實驗主要測試Fisher-VSM聚類算法的性能。首先測試Fisher-VSM在不同聚類數(shù)目K情況下的性能，實驗結果如表4和圖3所示。緊接著將Fisher-VSM聚類算法與原始TF-IDF特征構成的VSM聚類進行對比分析，實驗結果如表5所示。

表4　Fisher-VSM聚類性能分析比較

圖3　Fisher-VSM聚類性能分析比較

聚類算法PP(%)RP(%)FP(%)PN(%)RN(%)FN(%)CR(%)Fisher?VSM(K=1500)93．9892．8193．3992．6393．8293．2293．31VSM(K=1500)86．2480．6083．3279．2485．2182．1182．74

由表4可知，當聚類數(shù)目設置為1500時，系統(tǒng)的分類準確率達到最佳，其分類準確率為93.31%。而隨著聚類數(shù)目的減少，系統(tǒng)的分類性能急劇下降，主要是由于訓練樣本規(guī)模的減少，使得SVM出現(xiàn)訓練不足的問題。然而，若K的值較大，雖然解決了訓練數(shù)據(jù)不足的問題，但是大量相似數(shù)據(jù)的存在，影響了SVM的訓練速度及分類準確率。因此，文檔聚類數(shù)目K=1 500是系統(tǒng)的最佳值。系統(tǒng)的訓練文檔由2400篇減少到了1 500篇，數(shù)目約簡率為37.5%，同時系統(tǒng)的分類準確率相比聚類前提高了4.18%。本文提出的Fisher-VSM聚類算法有助于SVM性能的提高，同時可以有效地節(jié)約存儲空間。

由表5可知，在最優(yōu)聚類數(shù)目K=1500情況下，本文提出的Fisher-VSM聚類算法相比于VSM聚類算法，其分類準確率提高了10.57%。因此，本文提出的聚類算法具有較好的性能。

4　結　語

本文提出一種基于多約簡Fisher-VSM和SVM的文本情感分類算法。借助于TF-IDF權重函數(shù)兼顧文檔特征項局部和全局分布信息的優(yōu)勢，采用Fisher準則選擇高判別性的低維的TF-IDF特征，降低文檔的維度，建立低維Fisher-VSM。根據(jù)Fisher-VSM之間的相似度，對文檔模型進行聚類，從而減少文檔集的數(shù)量。從文檔的維數(shù)及數(shù)量兩個方面的約簡，提高了SVM的分類性能和訓練速度。實驗結果表明，本文提出的算法維度約簡率為44.7%，文檔數(shù)目約簡率為37.5%，其分類準確率為93.31%，是一種可行的高效的文本情感分類算法。高效準確的文本評論觀點的判定，有利于決策支持。本文提出的多約簡文本聚類算法，不僅有利于SVM的訓練，也適用于其他分類方法，期望對機器學習算法在文本情感分類領域的應用有所借鑒。

[1] 樊小超.基于機器學習的中文文本主題分類及情感分類研究[D].南京理工大學，2014.

[2] Pang B,Lee L,Vaithyanathan S.Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,Philadelphia,2002:79-86.

[3] Whitelaw C,Garg N,Argamon S.Using appraisal groups for sentiment analysis[C]//Proceedings of the ACM Conference on Information and Knowledge Management,Bremen(DE),2005:625-631.

[4] 陳培文,傅秀芬.采用SVM方法的文本情感極性分類研究[J].廣東工業(yè)大學學報,2014，31(3):95-101.

[5] 肖正,劉輝,李兵.一種基于語義距離的Web評論SVM情感分類方法[J].計算機科學，2014,41(9):248-252,284.

[6] 楊經,林世平.基于SVM的文本詞句情感分析[J].計算機應用與軟件,2011,28(9):225-228.

[7] 周城,葛斌,唐九陽,等.基于相關性和冗余度的聯(lián)合特征選擇方法[J].計算機科學，2012,39(4):181-184.

[8] 朱艷輝,栗春亮,徐葉強,等.一種基于多重詞典的中文文本情感特征抽取方法[J].湖南工業(yè)大學學報,2011,25(2):42-46.

[9] Wang Suge,Li Deyu,Song Xiaolei,et al.A feature selection method based on improved fisher’s discriminant ratio for text sentiment classification[J].Expert Systems with Applications,2011,38(7):8696-8702.

[10] 孫勁光,馬志芳,孟祥福.基于情感詞屬性和云模型的文本情感分類方法[J].計算機工程,2013,39(12):211-215,222.

[11] 王素格.基于web的評論文本情感分類問題研究[D].上海大學,2008.

[12] 谷文成,柴寶仁,韓俊松.基于支持向量機的垃圾信息過濾方法[J].北京理工大學學報,2013,33(10):1062-1066,1071.

[13] 張璇.基于 Fisher 準則的說話人識別特征參數(shù)提取研究[D].湖南大學,2013.

[14] 王颯,鄭鏈.基于Fisher準則和特征聚類的特征選擇[J].計算機應用,2007,27(11):2812-2813,2840.

[15] 劉靖明,韓麗川,侯立文.基于粒子群的K均值聚類算法[J].系統(tǒng)工程理論與實踐,2005,25(6):54-58.

[16] 譚松波.中文情感挖掘語料-ChnSentiCorp [EB/OL].[2012-08-10].http://www.searchforum.org.cn/tansongbo/corpus-senti.htm.

TEXT SENTIMENT CLASSIFICATION BASED ON MULTI-REDUCED FISHER-VSM AND SVM

Xing YujuanTan PingCao Xiaoli

(School of Digital Media,Lanzhou University of Arts and Science,Lanzhou 730000,Gansu,China)

We propose a novel text sentiment classification algorithm in this paper,it is based on multi-reduced Fisher-VSM and SVM,to improve the accuracy of text sentiment classification.The algorithm first adopts Fisher’s discriminant criterion to extract TF-IDF eigenvector,and then clusters the documents according to the similarity between vector space models of low-dimension documents so as to reduce their numbers.The algorithm makes reduction on vector space model of documents from two aspects of dimensionality and number so as to improve the training speed and classification performance of SVM.Simulation experimental results demonstrate that the proposed algorithm has good recall ratio and classification accuracy.

Text sentiment classificationFisher discriminant ratioVector space model (VSM)Support vector machine (SVM)

2015-04-27。邢玉娟，副教授，主研領域：文本情感分類。譚萍，副教授。曹曉麗，講師。

TP181

10.3969/j.issn.1000-386x.2016.09.070

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多約簡Fisher-VSM和SVM的文本情感分類

0 引 言

1 相關理論

2 多約簡Fisher判別性向量空間模型

3 仿真實驗與分析

4 結 語

0　引　言

1　相關理論

2　多約簡Fisher判別性向量空間模型

3　仿真實驗與分析

4　結　語