劉晨晨 馮旭鵬 胡 楊 劉利軍 黃青松,3* 段成香
1(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 云南 昆明 650500)
基于主題角色的文本情感分類方法
劉晨晨1馮旭鵬2胡 楊1劉利軍1黃青松1,3*段成香4
1(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 云南 昆明 650500)
2(昆明理工大學(xué)教育技術(shù)與網(wǎng)絡(luò)中心 云南 昆明 650500)3(云南省計(jì)算機(jī)應(yīng)用重點(diǎn)實(shí)驗(yàn)室 云南 昆明 650500)4(昆明迪時(shí)科技有限公司 云南 昆明 650000)
傳統(tǒng)文本情感分類方法通常以詞或短語(yǔ)等詞匯信息作為文本向量模型特征,造成情感指向不明和隱藏觀點(diǎn)遺漏的問(wèn)題。針對(duì)此問(wèn)題提出一種基于主題角色的文本情感分類方法。該方法首先提取出文本中的潛在評(píng)價(jià)對(duì)象形成評(píng)價(jià)對(duì)象集,評(píng)價(jià)對(duì)象作為情感句描述的主體能夠很好地保存文本情感信息;然后使用LDA模型對(duì)評(píng)價(jià)對(duì)象集進(jìn)行主題抽取,將抽取出的主題分裂成“正”“負(fù)”兩種特征項(xiàng),將這兩種特征項(xiàng)記為正負(fù)主題角色用于保存文本情感信息;最后,計(jì)算主題角色在文本中的情感影響值并建立主題角色模型。實(shí)驗(yàn)結(jié)果表明,所提方法與傳統(tǒng)方法相比可有效提高主觀性文本情感分類的準(zhǔn)確率。
文本情感分類 潛在評(píng)價(jià)對(duì)象 LDA 主題抽取 主題角色
文本情感分析又稱意見(jiàn)挖掘,簡(jiǎn)單而言,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程[1]。情感信息的分類任務(wù)可大致分為兩種:一種是主、客觀信息的二元分類;另一種是主觀信息的情感分類,包括最常見(jiàn)的褒貶二元分類以及更細(xì)致的多元分類[2]。隨著互聯(lián)網(wǎng)上各種帶有情感色彩的主觀性文本的出現(xiàn),如微博、新聞評(píng)論、博客等,主觀文本的情感分類日益受到研究者的關(guān)注。
主觀文本傾向性分類是基于文本的情感特征的處理過(guò)程,主要有兩種研究思路:基于語(yǔ)義和基于機(jī)器學(xué)習(xí)的方法?;谡Z(yǔ)義的方法通過(guò)將文本中的詞匯傾向值進(jìn)行統(tǒng)計(jì)求和[3],得到文本的情感傾向,主要借助已有的詞典或自然語(yǔ)言知識(shí)庫(kù)擴(kuò)展情感傾向詞典。Turney等[4]提出了一種無(wú)監(jiān)督的學(xué)習(xí)方法,通過(guò)測(cè)試副詞、名詞等單詞的語(yǔ)義傾向性,將文本分為積極和消極兩類;隨后Turney等[5]利用點(diǎn)互信息(PMI)和潛在語(yǔ)義分析(LSA)來(lái)推斷一個(gè)詞的語(yǔ)義傾向;朱嫣嵐等[6]提出了兩種基于HowNet詞典的語(yǔ)義傾向性計(jì)算方法,用來(lái)計(jì)算詞語(yǔ)與褒貶義基準(zhǔn)詞之間的相關(guān)性?;谡Z(yǔ)義的方法通過(guò)計(jì)算出詞語(yǔ)與褒貶義基準(zhǔn)詞的距離得到了詞語(yǔ)的情感值[6],但是這種方法并沒(méi)有考慮詞語(yǔ)本身的情感值對(duì)文本傾向性的影響。
基于機(jī)器學(xué)習(xí)的方法通過(guò)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練得到分類器,使用得到的分類器來(lái)對(duì)新文本進(jìn)行情感分類。Pang等[7]首先采用樸素貝葉斯、最大熵分類和支持向量機(jī)三種機(jī)器學(xué)習(xí)的方法對(duì)電影評(píng)論數(shù)據(jù)進(jìn)行文本傾向性分類;唐慧豐等[8]以不同詞性的詞作為文本表示特征,對(duì)KNN、SVM、中心向量法等文本分類方法,在不同特征數(shù)量和規(guī)模的訓(xùn)練集的情況下進(jìn)行了比較研究;徐軍等[9]將機(jī)器學(xué)習(xí)的方法用于新聞文本情感分類取得了不錯(cuò)的分類性能?;跈C(jī)器學(xué)習(xí)的方法在文本情感分類的應(yīng)用上已取得不錯(cuò)的效果,但是這種方法由于缺乏語(yǔ)義信息大大影響了其分類效果。有學(xué)者針對(duì)上述問(wèn)題在機(jī)器學(xué)習(xí)的基礎(chǔ)上加入語(yǔ)義的方法,提高了分類性能。徐琳宏等[3]通過(guò)計(jì)算詞語(yǔ)與知網(wǎng)中標(biāo)注的情感詞的相似度獲取特征詞,用SVM分類器分析文本的褒貶性,并將副詞對(duì)情感詞傾向性的影響考慮了進(jìn)來(lái),得到了很好的分類效果。胡楊等[10]以向量空間模型為基礎(chǔ),通過(guò)建立情感角色模型,將情感角色對(duì)應(yīng)的傾向值融入模型特征空間,進(jìn)一步提高了分類的精度。但是無(wú)論是基于語(yǔ)義的還是基于機(jī)器學(xué)習(xí)的方法,通常都以詞或短語(yǔ)等詞匯信息作為文本向量模型特征,由于自然語(yǔ)言本身的靈活性和復(fù)雜性,單純使用詞匯信息無(wú)法準(zhǔn)確表達(dá)文本的情感傾向[11]。此外,評(píng)價(jià)對(duì)象作為情感句描述的主體,若忽略其對(duì)文本情感分類的影響,也容易造成情感指向不明和隱藏觀點(diǎn)遺漏的問(wèn)題[12]。
針對(duì)上述問(wèn)題,本文以向量空間模型為基礎(chǔ),提取文本中的潛在評(píng)價(jià)對(duì)象得到評(píng)價(jià)對(duì)象集,使用LDA主題模型對(duì)評(píng)價(jià)對(duì)象集進(jìn)行建模,以評(píng)價(jià)對(duì)象作為特征詞抽取出主題。將抽取出的主題分裂成“正”“負(fù)”兩種并生成主題角色作為文本特征項(xiàng),計(jì)算主題角色在文本中的情感影響值作為特征值的一部分,建立主題角色模型。實(shí)驗(yàn)表明,本文模型在篇章級(jí)文本情感分類中可有效提升分類效果。
評(píng)價(jià)對(duì)象是指某段評(píng)論中所討論的主題,具體表現(xiàn)為評(píng)論文本中評(píng)價(jià)詞語(yǔ)所修飾的對(duì)象[1],分析其在文本句中的情感傾向能夠很好地保存文本情感特征??紤]到文本所表達(dá)的情感傾向必然針對(duì)特定的對(duì)象,一篇文本中可能存在多個(gè)評(píng)價(jià)對(duì)象,對(duì)評(píng)價(jià)對(duì)象集進(jìn)行建??梢暂^為準(zhǔn)確地抽取出與主題最相關(guān)的評(píng)價(jià)對(duì)象,方便在后文中對(duì)文本情感極性進(jìn)行準(zhǔn)確分析。
1.1 潛在評(píng)價(jià)對(duì)象抽取和主題挖掘
文本情感分類中通常將名詞或名詞短語(yǔ)作為候選評(píng)價(jià)對(duì)象。使用分詞工具對(duì)文本進(jìn)行預(yù)處理,包括分詞、去除停用詞和詞性標(biāo)注,抽取文本中的名詞作為潛在評(píng)價(jià)對(duì)象,將從所有文本中抽取出的潛在評(píng)價(jià)對(duì)象合并得到評(píng)價(jià)對(duì)象集 ,使用LDA模型對(duì)評(píng)價(jià)對(duì)象集 進(jìn)行主題挖掘。
LDA模型是由Blei等[13]在2003年提出的一種對(duì)自然語(yǔ)言進(jìn)行建模的生成模型,可以用來(lái)挖掘大規(guī)模文檔集或語(yǔ)料庫(kù)中內(nèi)蘊(yùn)的主題信息。LDA模型如圖1所示。
圖1 LDA圖模型
其中α為文本—主題概率分布θ的超參數(shù),β為主題—特征詞概率分布φ的超參數(shù),M、T、N分別為文本數(shù)、主題數(shù)和一篇文本中的特征詞數(shù),w為觀察到的文本中的特征詞,z為特征詞w的主題分配。通過(guò)對(duì)變量z進(jìn)行Gibbs采樣間接估計(jì)θ和φ:
(1)
(2)
主題抽取完成后,為每個(gè)主題都生成了一個(gè)主題—特征詞分布,選取每個(gè)主題中概率分布排名前m的特征詞作為主題最相關(guān)特征,并表示為所屬各個(gè)主題的概率分布形式如式(3):
Tn=(w1∶φnl,w2∶φn2,…,wm∶φnm)
(3)
其中,wm為與主題Tn最相關(guān)的前m個(gè)特征詞,φnm為主題Tn下詞wm的概率分布,用式(2)計(jì)算。
1.2 主題角色生成和情感值計(jì)算
圖2 主題角色生成示意圖
本節(jié)采用基于語(yǔ)義方法的思想[3]計(jì)算主題角色在文本中的情感影響值,通過(guò)主題特征詞的傾向值來(lái)計(jì)算主題角色在一篇文本中的情感值。考慮特征詞在不同語(yǔ)境中會(huì)有不同的情感傾向,此外,副詞也會(huì)影響特征詞的傾向性和情感強(qiáng)度。例如“藥效并不好”和“藥效非常好”,因?yàn)榉穸ǜ痹~和程度副詞的存在,“藥效”這個(gè)詞在句中表現(xiàn)為不同的情感極性和強(qiáng)度。為使主題特征詞的情感傾向更接近在文本中的真實(shí)情況,計(jì)算其所在句的情感傾向值,并將整句的情感值作為主題特征詞的情感值。
依據(jù)文獻(xiàn)[14]的思想,對(duì)文本按照標(biāo)點(diǎn)符號(hào)進(jìn)行分句,將文本d看作是由一系列句子組成的集合:d={s1,s2,…,sm},其中m為文本d中句子的數(shù)量,每個(gè)句子si看作是由一系列的詞語(yǔ)組成的集合:si={wi,wi+1,…,wi+n-1},其中i代表句子中第一個(gè)詞的位置,n代表句子中詞語(yǔ)的數(shù)量。根據(jù)情感詞匯本體(本文使用大連理工大學(xué)信息檢索研究室的情感詞匯本體[15],并將詞匯本體中的詞語(yǔ)稱作情感詞,詞語(yǔ)情感值記作Sentibility(wi))中的情感詞標(biāo)簽對(duì)文本句子中情感詞的情感極性和情感強(qiáng)度進(jìn)行初始設(shè)置??紤]詞語(yǔ)所在句子的位置權(quán)重,在自然語(yǔ)言處理中文本開(kāi)頭和結(jié)尾兩端的句子具有更高的權(quán)重,句子評(píng)分表達(dá)式定義如下:
Position(sj)=a×pos(sj)2+b×pos(si)+c
(4)
式(4)服從:
其中m表示文本d中句子的數(shù)目,pos(si)表示句子si在文本d中的位置,a、b、c為多項(xiàng)式系數(shù)。同時(shí)考慮否定副詞和程度副詞對(duì)情感詞極性和情感強(qiáng)度的影響,收集否定副詞和程度副詞并為副詞設(shè)定不同等級(jí)的權(quán)值如表1。計(jì)算整句的情感傾向值作為句中特征詞的傾向值,計(jì)算公式如下:
Position(Si))
(5)
其中Sentibility(wi)表示情感詞wi的情感值,m表示句子中情感詞的數(shù)量,n表示句子中否定副詞的個(gè)數(shù),valueadv為程度副詞的權(quán)值。
表1 副詞轉(zhuǎn)折詞權(quán)值映射表
通過(guò)上述操作,每個(gè)主題角色的特征詞在文本中的情感傾向值便可計(jì)算出,同一主題分裂生成的正、負(fù)兩種主題角色在文本d中的情感值便可由式(6)和式(7)計(jì)算得出:
(6)
(7)
其中,SO(wi)為特征詞wi在文本句中的情感值,由式(5)計(jì)算得出;φn,i為特征詞在所屬主題的概率分布;m為主題角色中的特征詞數(shù)量;?d,n為文本d中主題Tn的概率分布。根據(jù)約束域原理[16],對(duì)表達(dá)式進(jìn)行了歸一化處理,使主題角色在文檔中的情感值處于區(qū)間,便于量化分析。表達(dá)式如下:
(8)
1.3 主題角色模型建立和分類框架
主題角色作為保存文本情感的特征項(xiàng),其特征值Fn,d由式(8)得出,最后情感角色模型建立如下:
(9)
其中,n表示正負(fù)主題角色數(shù)量,即主題數(shù),N為語(yǔ)料庫(kù)中的文章數(shù)。通過(guò)上述一系列處理,在正向情感的文本中,正極主題角色在文本中的特征值會(huì)明顯高于負(fù)極主題角色在正向文本中的特征值;相反,在負(fù)向情感的文本中,正極主題角色在文本中的特征值會(huì)明顯小于負(fù)極主題角色在正向文本中的特征值。將待測(cè)文本與訓(xùn)練文本作相同處理進(jìn)行特征提取,從而實(shí)現(xiàn)主觀性文本傾向性分類。
分類的整體框架如圖3所示。結(jié)構(gòu)A通過(guò)LDA模型提取主題及主題—詞分布并建立主題角色模型,訓(xùn)練過(guò)程在正、負(fù)語(yǔ)料集中分別進(jìn)行;結(jié)構(gòu)B針對(duì)新文本在已生成的主題上運(yùn)行LDA模型得到新文本的文本—主題分布,并進(jìn)行特征表示;將結(jié)構(gòu)A和結(jié)構(gòu)B獲得的結(jié)果送入分類器,實(shí)現(xiàn)基于主題角色模型的分類。
圖3 分類框架圖
2.1 實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)選用平衡的中文情感挖掘語(yǔ)料集ChnSentiCorp(http://www.searchforum.org.cn/tansongbo/corpus-senti.htm)。另外,從互聯(lián)網(wǎng)上收集贊美祖國(guó)、贊美和諧社會(huì)等主題的字?jǐn)?shù)規(guī)模在500~1000字的文檔2000篇,收集同等字?jǐn)?shù)規(guī)模的反動(dòng)暴力以及污蔑共產(chǎn)黨等主題的文檔2000篇作為實(shí)驗(yàn)語(yǔ)料。語(yǔ)料均經(jīng)過(guò)抽取轉(zhuǎn)換成統(tǒng)一的文本格式,從中選取正、負(fù)極性的語(yǔ)料各500篇作為測(cè)試集,其余語(yǔ)料作為訓(xùn)練集,本文實(shí)驗(yàn)均在正、負(fù)語(yǔ)料集中分別進(jìn)行。對(duì)語(yǔ)料庫(kù)中的文本進(jìn)行預(yù)處理,包括分詞和去除停用詞,分詞工具使用中科院的中文分詞工具ICTCLAS。
2.2 實(shí)驗(yàn)結(jié)果分析
本文選用情感分類中常用的準(zhǔn)確率和召回率和F-measure作為實(shí)驗(yàn)結(jié)果的衡量標(biāo)準(zhǔn)。統(tǒng)計(jì)被判定為正極性實(shí)際為正極性的文本tt,被判定為正極性實(shí)際為負(fù)極性的文本tn,被判定為負(fù)極性實(shí)際為正極性的文本nt,被判定為負(fù)極性實(shí)際為負(fù)極性的文本nn,計(jì)算式如下:
(10)
(11)
準(zhǔn)確率和召回率是反映分類質(zhì)量的兩個(gè)重要指標(biāo),兩者必須綜合考慮。根據(jù)COAE2014的評(píng)價(jià)指標(biāo),實(shí)驗(yàn)采用F1測(cè)度來(lái)均衡兩方面,定義如下:
(12)
圖4 不同主題數(shù)下的困惑度
從圖4可以看出,隨著主題數(shù)的增加,困惑度呈下降趨勢(shì),當(dāng)主題數(shù)達(dá)到35時(shí),困惑度趨于穩(wěn)定,可以得出此時(shí)模型性能較佳,最優(yōu)主題數(shù)目為35。因此取主題數(shù)目為K=35。
實(shí)驗(yàn)2 為驗(yàn)證式(3)中選取不同數(shù)量的主題特征詞時(shí)的分類性能。本文方法是通過(guò)主題特征詞的情感傾向來(lái)計(jì)算主題角色的特征值,如果主題特征詞的數(shù)量選取不合適則容易造成情感特征遺漏和情感指向不明的問(wèn)題。設(shè)置選取的前m個(gè)主題特征詞的數(shù)量為5~50(間隔為5),暫時(shí)使用SVM分類算法進(jìn)行測(cè)試。由圖4可以看出,當(dāng)特征詞的數(shù)量選取在20附近時(shí),分類效果較佳。設(shè)置特征詞數(shù)量為16~24(間隔為1)繼續(xù)進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如圖5所示,由圖可知,當(dāng)特征詞數(shù)量為22時(shí)分類準(zhǔn)確率最高,于是設(shè)置選取的前m個(gè)主題特征詞數(shù)為22。
圖5 不同特征詞數(shù)下的準(zhǔn)確率
圖6 不同特征詞數(shù)下的準(zhǔn)確率(細(xì)化)
實(shí)驗(yàn)3 為選用不同分類器的分類性能對(duì)比。NaiveBayes(NB)方法非常簡(jiǎn)單,但在文本分類中常常取得令人滿意的效果;k-近鄰(kNN)分類方法是一種非常有效的歸納推理方法;支持向量機(jī)(SVM)方法在文本分類中展現(xiàn)出的良好性能已得到多位學(xué)者的驗(yàn)證,如Pang等[7]在進(jìn)行對(duì)電影評(píng)論的分類任務(wù)時(shí)使用SVM算法的分類效果最佳。kNN中近鄰數(shù)設(shè)置為11~25(間隔2),實(shí)驗(yàn)結(jié)果顯示近鄰數(shù)為17時(shí)實(shí)驗(yàn)效果最優(yōu)。SVM多采用多項(xiàng)式核函數(shù)和徑向基核函數(shù),分別選用兩種核函數(shù)進(jìn)行測(cè)試,使用徑向基核函數(shù)時(shí)表現(xiàn)出了更好地分類性能,徑向基核函數(shù)的形式如式(13)。分別使用參數(shù)設(shè)置為最優(yōu)的NB、kNN、SVM三種分類方法對(duì)語(yǔ)料集進(jìn)行訓(xùn)練,比較三種分類方法在同一語(yǔ)料集下的分類性能,結(jié)果顯示SVM方法的分類準(zhǔn)確率、召回率和F1測(cè)度明顯高于其他兩種方法,所以本文選用SVM分類器,對(duì)于SVM算法的實(shí)現(xiàn)選用工具LibSVM。實(shí)驗(yàn)結(jié)果如表2所示。
(13)
實(shí)驗(yàn)4 為本文方法與傳統(tǒng)情感分類方法的性能對(duì)比。使用本文提出的方法結(jié)合SVM(Local-SVM),使用信息增益提取情感特征結(jié)合SVM(IG-SVM),文獻(xiàn)[10]提出的人工抽取情感角色的方法(ER-SVM)和文獻(xiàn)[17]提出的基于主題的情感向量空間模型(BR)的方法,分別對(duì)語(yǔ)料集進(jìn)行訓(xùn)練,比較4種方法在同樣語(yǔ)料下的分類性能。實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同分類方法的分類性能對(duì)比
由表3可得:1) 在處理同等規(guī)模的語(yǔ)料時(shí),相較于使用SVM算法分類,本文所提方法在準(zhǔn)確率上有較大提高;2) 較傳統(tǒng)的僅使用機(jī)器學(xué)習(xí)的方法,本文所提方法在準(zhǔn)確率和召回率上也有所提高;3) 準(zhǔn)確率和召回率和文獻(xiàn)[10]所提出方法相比雖然略有下降,但是考慮到本文方法不需要人工收集潛在評(píng)價(jià)對(duì)象,且應(yīng)用范圍更廣,損失的準(zhǔn)確率在可接受范圍之內(nèi)。
本文提出的基于主題角色的方法將文本潛在評(píng)價(jià)對(duì)象考慮到文本情感分類中來(lái),采用的主題角色模型很好地保存了文本特征,可以有效發(fā)現(xiàn)文本隱藏情感信息,解決了因情感項(xiàng)指向不明引起的文本情感分類誤判的問(wèn)題,在一定程度上提高了分類的性能。今后的研究工作將繼續(xù)優(yōu)化所提方法的效率,并將該方法推廣應(yīng)用到短文本及跨領(lǐng)域的情況下。
[1] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8): 1834-1848.
[2] 徐琳宏, 林鴻飛,趙晶. 情感語(yǔ)料庫(kù)的構(gòu)建和分析[J]. 中文信息學(xué)報(bào), 2008, 22(1): 116-122.
[3] 徐琳宏, 林鴻飛, 楊志豪. 基于語(yǔ)義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào), 2007, 21(1): 96-100.
[4]TurneyPD,LittmanML.UnsupervisedLearningofSemanticOrientationfromaHundred-Billion-WordCorpus[R].NationalResearchCouncilofCanada, 2002.
[5]TurneyPD,LittmanML.Measuringpraiseandcriticism:inferenceofsemanticorientationfromassociation[J].ACMTransactionsonInformationSystems, 2003, 21(4): 315-346.
[6] 朱嫣嵐, 閔錦, 周雅倩, 等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào), 2006, 20(1): 14-20.
[7]PangB,LeeL,VaithyanathanS.Thumbsup?Sentimentclassificationusingmachinelearningtechniques[C]//ProceedingsoftheACL-02ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Stroudsburg,PA:AssociationforComputationalLinguistics, 2002: 79-86.
[8] 唐慧豐, 譚松波, 程學(xué)旗. 基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J]. 中文信息學(xué)報(bào), 2007, 21(6): 88-94,108.
[9] 徐軍, 丁宇新, 王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類[J].中文信息學(xué)報(bào),2007, 21(6): 95-100.
[10] 胡楊, 戴丹, 劉驪, 等. 基于情感角色模型的文本情感分類方法[J]. 計(jì)算機(jī)應(yīng)用, 2015, 35(5): 1310-1313,1319.
[11] 烏達(dá)巴拉, 汪增福. 一種擴(kuò)展式CRFs的短語(yǔ)情感傾向性分析方法研究[J]. 中文信息學(xué)報(bào), 2015, 29(1): 155-162.
[12] 朱杰. 基于評(píng)價(jià)對(duì)象及其情感特征的中文文本傾向性分類研究[D]. 上海:上海交通大學(xué), 2010.
[13]BleiDM,NgAY,JordanMI.Latentdirichletallocation[J].TheJournalofMachineLearningResearch, 2003, 3: 993-1022.
[14] 林政, 譚松波, 程學(xué)旗. 基于情感關(guān)鍵句抽取的情感分類研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2012, 49(11): 2376-2382.
[15] 徐琳宏, 林鴻飛, 潘宇, 等. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2): 180-185.
[16]EsuliA,SebastianiF.SentiWordNet:Apubliclyavailablelexicalresourceforopinionmining[C]//ProceedingsoftheLREC-06,the5thConferenceonLanguageResourcesandEvaluation,Genova,Italy, 2006: 417-422.
[17] 王磊, 苗奪謙, 張志飛, 等. 基于主題的文本句情感分析[J]. 計(jì)算機(jī)科學(xué), 2014, 41(3): 32-35.
TEXT SENTIMENT CLASSIFICATION METHOD BASED ON TOPIC ROLE
Liu Chenchen1Feng Xupeng2Hu Yang1Liu Lijun1Huang Qingsong1,3*Duan Chengxiang4
1(FacultyofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)2(EducationalTechnologyandNetworkCenter,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)3(YunnanKeyLaboratoryofComputerTechnologyApplications,Kunming650500,Yunnan,China)4(KunmingDiShiTechnologyCo.Ltd,Kunming650000,Yunnan,China)
Traditional text sentiment classification methods usually use vocabulary or phrase as feature of a text vector model which may cause emotion point to unknown or hidden view missing. In order to solve these problems, a text sentiment classification method based on topic role modeling is proposed. The method firstly extracted potential evaluation objects in the text and got the evaluation collection. Then it adopted the LDA model to mining topics for the collection of evaluation objects and divides the topics into two kinds of topic roles with positive polarity and negative polarity. After that, the topic roles would be regarded as feature used to store text emotional information. Finally, it let the tendency value of topic role integrate into feature space to improve the feature weight computation method and establish the topic role model. The experimental results show that the proposed method can efficiently improve the effectiveness and accuracy for text classification compared with other traditional text sentiment classification methods.
Text sentiment classification Potential evaluation objects Latent Dirichlet Allocation (LDA) Topic mining Topic role
2015-11-06。國(guó)家自然科學(xué)基金項(xiàng)目(81360230)。劉晨晨,碩士生,主研領(lǐng)域:機(jī)器學(xué)習(xí),文本情感分析。馮旭鵬,碩士生。胡楊,碩士生。劉利軍,講師。黃青松,教授。段成香,工程師。
TP391
A
10.3969/j.issn.1000-386x.2017.01.028