郝潔,謝珺,蘇婧瓊,續(xù)欣瑩,韓曉霞
(太原理工大學(xué) 信息工程學(xué)院,山西 晉中 030600)
?
基于詞加權(quán)LDA算法的無監(jiān)督情感分類
郝潔,謝珺,蘇婧瓊,續(xù)欣瑩,韓曉霞
(太原理工大學(xué) 信息工程學(xué)院,山西 晉中 030600)
主題情感混合模型可以有效地提取語料的主題信息和情感傾向。本文針對現(xiàn)有主題/情感分析方法主題間區(qū)分度較低的問題提出了一種詞加權(quán)LDA算法(weighted latent dirichlet allocation algorithm,WLDA),該算法可以實(shí)現(xiàn)無監(jiān)督的主題提取和情感分析。通過計(jì)算語料中詞匯與情感種子詞的距離,在吉布斯采樣中對不同詞匯賦予不同權(quán)重,利用每個主題下的關(guān)鍵詞判斷主題的情感傾向,進(jìn)而得到每篇文檔的情感分布。這種方法增強(qiáng)了具有情感傾向的詞匯在采樣過程中的影響,從而改善了主題間的區(qū)分性。實(shí)驗(yàn)表明,與JST(Joint Sentiment/Topic model)模型相比,WLDA不僅在采樣中迭代速度快,也能夠更好地實(shí)現(xiàn)主題提取和情感分類。
情感分類;主題情感混合模型;主題模型;LDA;加權(quán)算法
中文引用格式:郝潔,謝珺,蘇婧瓊,等. 基于詞加權(quán)LDA算法的無監(jiān)督情感分類[J]. 智能系統(tǒng)學(xué)報, 2016, 11(4): 539-545.
英文引用格式:HAO Jie, XIE Jun, SU Jingqiong, et al. An unsupervised approach for sentiment classification based on weighted latent dirichlet allocation[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 539-545.
互聯(lián)網(wǎng)不僅是獲取信息的重要途徑,也是廣大網(wǎng)民表達(dá)觀點(diǎn)和看法的平臺。隨著博客、微博、微信等自媒體的流行,網(wǎng)絡(luò)購物的盛行和網(wǎng)購評價體系的不斷完善,對事件的觀點(diǎn)、對物品的評價等具有情感傾向的文本飛速增長。這些信息對于政府部門的輿情監(jiān)控、企業(yè)的經(jīng)營決策和個人的購買決定都起著至關(guān)重要的作用。然而,這些評價信息數(shù)量巨大、變化迅速,僅依賴人工收集整理不僅成本高,也難以滿足時效性要求。因此文本情感分析受到了學(xué)術(shù)界與工業(yè)界越來越多的關(guān)注[1-2]。
情感分類是文本情感分析的重要組成部分。它是指根據(jù)文本所表達(dá)的含義和情感信息將文本劃分為褒揚(yáng)或貶義兩種或幾種類型,是對文本作傾向性、觀點(diǎn)和態(tài)度的劃分。目前,大多數(shù)情感分類方法都是監(jiān)督模型或半監(jiān)督模型,但標(biāo)記好的語料常常難以獲取,給情感分類造成困難?;谥黝}模型的情感分類,不僅具有無監(jiān)督的優(yōu)勢,也具有較強(qiáng)的可移植性[3]。
Lin 等[4]提出了LSM模型(latent sentiment model),該模型將情感作為主題的特例,認(rèn)為文檔中詞匯的分布與情感有關(guān),從而實(shí)現(xiàn)了文檔的無監(jiān)督情感分類,但無法識別出更細(xì)粒度的情感信息。Titov等[5]提出的MG-LDA模型(multi-grain model)能夠以較細(xì)的粒度提取主題,該算法是一個有監(jiān)督學(xué)習(xí)模型,需要對樣本類別進(jìn)行人工標(biāo)注。TAM(topic-aspect model)[6]和TSM(topic sentiment mixture)[7]能夠無監(jiān)督地抽取文檔的主題和情感信息。但這兩種算法假定主題和情感的分布相互獨(dú)立,忽略了二者的聯(lián)系,也給解釋主題和情感的關(guān)系造成困難。ASUM模型(aspect and sentiment unification model)考慮了主題和情感的相關(guān)性,建立了“句子—主題—詞”的3層模型,有效提取了情感和主題信息,但這種方法將每個句子視為一個文檔,丟失了上下文信息[8]。JST模型(joint sentiment/topic model)是一種可以無監(jiān)督地提取文檔主題和情感信息的4層貝葉斯網(wǎng)絡(luò),但該算法的復(fù)雜度較高,結(jié)果不夠穩(wěn)定[3]。歐陽繼紅等在JST模型的基礎(chǔ)上,提出了多粒度的主題情感混合模型MG-R-JST和MG-JST,該方法同時考慮到文檔和局部兩個粒度的情感主題分布,穩(wěn)定性好,但面臨復(fù)雜度較高的問題[9]。
本文在LDA模型的基礎(chǔ)上,提出了應(yīng)用于主題/情感分析的詞加權(quán)LDA算法(weighted latent dirichlet allocation,WLDA),通過計(jì)算語料中詞匯與情感種子詞的距離,在吉布斯采樣中對各詞區(qū)分對待,利用每個主題下的關(guān)鍵詞判斷主題的情感傾向,進(jìn)而得到每篇文檔的情感分布。實(shí)驗(yàn)表明,WLDA可提取細(xì)粒度情感,并且具有迭代速度快、分類精度高的優(yōu)點(diǎn)。
LDA(latent dirichlet allocation)[10]是一種3層貝葉斯模型,它描述了文檔、主題、詞匯間的關(guān)系。LDA模型自2003年提出以來,已經(jīng)有了諸多的改進(jìn)和變形算法,并在文本分類[11]、信息檢索[12]等領(lǐng)域得到了廣泛應(yīng)用。其圖模型見圖1。
圖1 LDA圖模型[10]Fig.1 Graphical model of LDA[10]
圖1中,各個符號的含義見表1。
表1 LDA符號含義對照表
根據(jù)LDA模型,文檔的產(chǎn)生過程見算法1。
算法1[10]LDA文檔產(chǎn)生過程。
輸入α、β、K;
輸出文檔。
對每個主題k∈[1,K],采樣詞分布φk~Dir(β)
對每篇文檔m∈[1,M]
采樣一個主題分布θm~Dir(α)
對文檔m中的每個詞w
根據(jù)θm采樣一個主題z~Mult(θm)
根據(jù)主題z采樣一個詞w~Mult(φz)其中,隱含變量θ和φ可按式(1)和式(2)估計(jì):
(1)
(2)
LDA模型假設(shè)每個詞都是同等重要的。然而,無論是從信息論或是語言學(xué)來看,該假設(shè)都并不完美。文獻(xiàn)[13]指出高頻停用詞對LDA模型的主題推理有很大影響。然而,對于文本情感分類任務(wù),在去除通常的停用詞后,仍有大量與領(lǐng)域相關(guān)但對情感分類作用較小的詞,具有褒貶傾向的詞匯淹沒其中,而使得LDA模型主題間區(qū)分度較小,分類精度不高。以酒店評價語料為例,大量文檔中都出現(xiàn)有“酒店”、“房間”、“前臺”等詞,這些詞是情感分類時的廣義“停用詞”,若不加以處理,將隨機(jī)散布在各個主題的關(guān)鍵詞當(dāng)中。
由于這些詞與領(lǐng)域相關(guān),無法通過構(gòu)建統(tǒng)一的詞表去除該類詞匯,給主題的提取和情感傾向的劃分造成困難。本文針對情感語料的詞匯分布特點(diǎn),根據(jù)每個詞與情感種子詞的點(diǎn)互信息(point mutual information,PMI)[14],賦予詞匯不同權(quán)重,并將權(quán)值信息融入吉布斯采樣過程,利用每個主題下的關(guān)鍵詞判斷主題的情感傾向,從而實(shí)現(xiàn)文檔的情感分類。整個算法的步驟如圖2所示。
圖2 WLDA算法步驟Fig.2 Road map of WLDA algorithm
點(diǎn)互信息可根據(jù)兩個離散隨機(jī)變量的共現(xiàn)概率度量其相關(guān)性。對于兩個變量x和y,其點(diǎn)互信息:
(3)
顯然,兩個變量共現(xiàn)的概率越大,其PMI值越大。以此為理論基礎(chǔ),文獻(xiàn)[15]根據(jù)某一詞匯與正面情感種子詞和負(fù)面情感種子詞的PMI值度量該詞的情感傾向??紤]到種子詞在語料中的出現(xiàn)可能不均衡,本文對原公式稍加改動,根據(jù)語料中出現(xiàn)的正向和負(fù)向種子詞個數(shù)添加歸一化因子。對于詞w,其權(quán)重定義為
(4)
式中:pos為語料中包含的正面情感種子詞集合,a為正面情感種子詞個數(shù),neg為語料中包含的負(fù)面情感種子詞集合,b為負(fù)面情感種子詞個數(shù)。
p(zi=k|z,w,weight)=
(5)
整個模型的“文檔—主題”分布θ和“主題—詞匯”分布φ可分別按照式(6)和式(7)計(jì)算:
(6)
(7)
與LDA模型類似,此處選取每個主題下φ值最大的S個詞作為該主題的關(guān)鍵詞。定義主題k的情感傾向E(k):
(8)
“文檔-情感”矩陣π表征了文檔的情感分布,其規(guī)模為M×2,由正面情感分布πpos和負(fù)面情感分布πneg組成。其定義見式(9)和式(10):
(9)
(10)
式中:θi為每一篇文檔分配給主題i的概率,πpos和πneg分別是文檔為正面或負(fù)面的概率值,刻畫了每篇文檔的情感分布情況。在后面的實(shí)驗(yàn)中,認(rèn)為文檔d的情感傾向:
E(d)=argmax(πd)
(11)
完整的WLDA算法如下:
算法2基于WLDA的情感分類算法。
輸入待分類文檔,情感種子詞;
輸出情感分類結(jié)果。
For w∈W
按式(4)計(jì)算weight(w)
Repeat
For m∈M
For n∈N
按式(5)采樣每個詞的主題
Until 收斂 or 達(dá)到最大迭代次數(shù)
分別按照式(6)和式(7)計(jì)算θ、φ
For k∈K
For s∈S
按式(8)計(jì)算主題k的情感傾向E(k)
If E(k)>0
π1=π1+θk
If E(k)<0
π2=π2+θk
For m∈M
If πm,1>πm,2
文檔情感為正面
Else
文檔情感為負(fù)面
3.1實(shí)驗(yàn)設(shè)置
語料1為中科院譚松波等收集整理的酒店評論語料,從中隨機(jī)選取帶有正向和負(fù)向情感傾向標(biāo)注的評論各500篇;語料2為從互聯(lián)網(wǎng)爬取的酒店評論11 197篇,包含正向文本5 891篇和負(fù)向文本5 306篇。WLDA和JST 模型的正面和負(fù)面情感種子詞來自知網(wǎng)的《中文情感分析用詞語集》。實(shí)驗(yàn)前,首先對語料進(jìn)行了分詞、去停用詞等預(yù)處理。
WLDA參數(shù)取經(jīng)驗(yàn)值α=50/K,β=0.01,S=100。實(shí)驗(yàn)以LSM和JST兩種經(jīng)典算法作為對比,LSM模型中,選取α=50/K,β=0.01;JST模型參數(shù)設(shè)置與文獻(xiàn)[6]保持一致。3種算法的迭代次數(shù)均為1 000次。
3.2加權(quán)方式對比
表2列舉了部分詞匯在3種加權(quán)方式下的權(quán)重值。
表2 各加權(quán)方式下部分詞匯權(quán)重對比
方法1 PMI已在上文詳述,方法2IDF權(quán)重計(jì)算方法來自文獻(xiàn)[16],方法3的二值化見式(12):
(12)
當(dāng)一個詞的權(quán)重大于1時,表明其作用在采樣中將會被增強(qiáng);小于1時,其重要性降低。若將全部權(quán)重置為1,則為一般的吉布斯采樣。
方法1和方法3均能將“舒適”、“實(shí)惠”等詞賦以較大權(quán)重,將部分沒有情感色彩的詞如“服務(wù)員”、“酒店”等賦以較小權(quán)重,但對于未收錄的情感詞匯如“很臟”、“破”等,方法3表現(xiàn)不佳。方法2將提高出現(xiàn)次數(shù)較少的罕見詞的權(quán)重,而同時降低高頻情感詞和高頻非情感詞的權(quán)重。綜上,3種方法中PMI加權(quán)最適用于本文,故以下實(shí)驗(yàn)中采用的均是PMI加權(quán)方式。
3.3WLDA和LSM模型對比
在主題模型中,通常以各個主題下的關(guān)鍵詞來表征該主題的含義。表3為采用語料1時WLDA與LSM模型的關(guān)鍵詞對比。
表3 WLDA和LSM關(guān)鍵詞
在WLDA中,超過一半的關(guān)鍵詞都具有明顯的情感傾向,如“不錯”、“方便”、“失望”等,使讀者更容易區(qū)分主題的情感傾向;而在LSM模型中,正如上文所提到的,體現(xiàn)情感的詞匯出現(xiàn)較少,而“酒店”、“房間”、“入住”等不能表達(dá)明確情感色彩的詞散布在正面和負(fù)面兩類情感的關(guān)鍵詞中。
表4展示了WLDA和LSM模型對文檔的情感分類精度。在關(guān)鍵詞部分,雖然LSM中涉及的具有情感傾向的詞匯較少,仍可辨別兩類關(guān)鍵詞的正負(fù)情感傾向。但具體到刻畫各個文檔的情感,其精度遠(yuǎn)低于WLDA,可見這類廣義停用詞對模型性能的影響。
表4 WLDA和LSM模型情感分類精度
此處以LSM為對比,說明了詞匯加權(quán)對吉布斯采樣結(jié)果的影響,但由于LSM模型只能將文檔劃分為正面、負(fù)面兩類或正面、負(fù)面、中性三類,無法提取更細(xì)粒度的主題和情感信息,后文的實(shí)驗(yàn)均采用WLDA與JST兩個模型的對比。
3.4WLDA和JST模型的情感分類精度對比
圖3為WLDA和JST模型選取不同主題數(shù)目時,在語料1和語料2下的情感分類精度。
圖3 WLDA和JST模型分類精度對比Fig.3 Sentiment classification accuracy of WLDA and JST
對于語料1和語料2,WLDA不僅在情感分類上均有良好表現(xiàn),受主題數(shù)目選取的影響也比JST模型更小。
3.5WLDA和JST模型的關(guān)鍵詞對比
在語料1中,當(dāng)K=6時,兩種算法的分類精度達(dá)到最高。表5列舉了K=6時,WLDA和JST模型得到的關(guān)鍵詞,并歸納了關(guān)鍵詞的主要內(nèi)容。
表5 WLDA和JST關(guān)鍵詞
可以看到,WLDA得到的關(guān)鍵詞多為單一方面評價,一致性較強(qiáng),易于人的理解。而在JST模型中,部分主題由多個方面的評價組成,如主題2,在15個關(guān)鍵詞中,同時涉及到房間、服務(wù)、餐飲三方面內(nèi)容;主題6 同時涉及房間、服務(wù)、交通三方面內(nèi)容。除此之外,WLDA的關(guān)鍵詞中涵蓋的情感詞匯更豐富,主題的情感傾向也更加突出。與JST模型相比,WLDA得到的各個主題的關(guān)鍵詞語義和情感都更加明晰。
3.6WLDA和JST模型的主題KL距離對比
上文通過關(guān)鍵詞的列舉直觀展示了WLDA的性能,本部分將借助主題與背景主題的平均KL距離定量描述主題的區(qū)分性。其核心思想是一個合理的主題總傾向于在部分文檔集中出現(xiàn),主題在所有文檔中出現(xiàn)的概率越平均,說明該主題越可能為垃圾/非重要主題[17]。極端情況,當(dāng)某個主題在所有文檔中出現(xiàn)的概率都相同,該主題對文檔的區(qū)分能力為零。主題與背景主題的平均KL距離KL_b定義如下:
(11)
表6 WLDA和JST模型中主題與背景主題的平均KL距離
表6展示了WLDA和JST模型主題與背景主題的平均KL距離,其值越大,說明主題與背景主題的距離越遠(yuǎn),主題的可區(qū)分性越強(qiáng)??梢钥吹剑诟鱾€主題數(shù)目下,WLDA的主題區(qū)分能力均優(yōu)于JST模型。
3.7WLDA和JST模型的時間消耗對比
以語料1為例,圖4對比了K=6時WLDA和JST模型不同迭代次數(shù)所需的時間。
圖4 WLDA和JST模型運(yùn)行時間對比Fig.4 Time consumption comparison of WLDA and JST
由于本文算法需要首先計(jì)算詞匯權(quán)重,故吉布斯采樣前的處理時間比JST模型長,但單次迭代速度比JST更快。當(dāng)吉布斯采樣的次數(shù)較小時,JST模型消耗時間更短,然而,隨著采樣次數(shù)的增加,WLDA的時間優(yōu)勢愈發(fā)明顯。另外,對于同一語料庫,取不同K值或其他參數(shù)發(fā)生改變時無需重復(fù)計(jì)算詞匯權(quán)重,故在多次試驗(yàn)中,其平均運(yùn)行時間將比圖3所展示的更短。
本文提出了一種用于情感分類的詞加權(quán)LDA算法,通過度量詞匯與情感種子詞的點(diǎn)互信息,在吉布斯采樣中為不同詞匯賦予不同權(quán)重,并利用每個主題下的關(guān)鍵詞判斷主題的情感傾向,從而實(shí)現(xiàn)文檔的情感分類。實(shí)驗(yàn)表明,WLDA不僅具有無監(jiān)督、可提取細(xì)粒度情感的優(yōu)點(diǎn),而且分類精度較高,在采樣中迭代速度較快。由于WLDA采用的是“詞袋”模型,忽略了詞與詞之間的聯(lián)系,可能會出現(xiàn)局部情感判斷錯誤,因此,如何將詞序信息融入WLDA是下一步的工作重點(diǎn)。
[1]AGARWAL B, PORIA S, MITTAL N, et al. Concept-level sentiment analysis with dependency-based semantic parsing: a novel approach[J]. Cognitive computation, 2015, 7(4): 487-499.
[2]CAMBRIA E. Affective computing and sentiment analysis[J]. IEEE intelligent systems, 2016, 31(2): 102-107.
[3]LIN Chenghua, HE Yulan. Joint sentiment/topic model for sentiment analysis[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. Hong Kong, China: ACM, 2009: 375-384.
[4]LIN Chenghua, HE Yulan, EVERSON R. A comparative study of Bayesian models for unsupervised sentiment detection[C]//Proceedings of the Fourteenth Conference on Computational Natural Language Learning. Stroudsburg, PA, USA: ACM, 2011: 144-152.
[5]TITOV I, MCDONALD R. A joint model of text and aspect ratings for sentiment summarization[C]//Proceedings of Annual Meeting of the Computational Linguistics. Columbus, USA: Association for Computational Linguistics, 2008: 308-316.
[6]PAUL M, GIRJU R. A two-dimensional topic-aspect model for discovering multi-faceted topics[C]//Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence. Atlanta, USA: AAAI, 2010: 545-550.
[7]MEI Qiaozhu, LING Xu, WONDRA M, et al. Topic sentiment mixture: modeling facets and opinions in weblogs[C]//Proceedings of the 16th International Conference on World Wide Web. North Carolina, USA: ACM, 2010: 171-180.
[8]JO Y, OH A H. Aspect and sentiment unification model for online review analysis[C]//Proceedings of the Fourth ACM International Conference on Web Search and Data Mining. Hong Kong, China: ACM, 2011: 815-824.
[9]歐陽繼紅, 劉燕輝, 李熙銘, 等. 基于LDA的多粒度主題情感混合模型[J]. 電子學(xué)報, 2015, 43(9): 1875-1880.
OUYANG Jihong, LIU Yanhui, LI Ximing, et al. Multi-grain sentiment/topic model based on LDA[J]. Acta electronica sinica, 2015, 43(9): 1875-1880.
[10]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. The journal of machine learning research, 2003, 3: 993-1022.
[11]RUBIN T N, CHAMBERS A, SMYTH P, et al. Statistical topic models for multi-label document classification[J]. Machine learning, 2012, 88(1/2): 157-208.
[12]ANDRZEJEWSKI D, BUTTLER D. Latent topic feedback for information retrieval[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, USA: ACM, 2011: 600-608.
[13]WALLACH H M. Topic modeling: beyond bag-of-words[C]//Proceedings of the 23rd International Conference on Machine Learning. New York, USA: ACM, 2006: 977-984.
[14]CHURCH K W, HANKS P. Word association norms, mutual information, and lexicography[J]. Computational linguistics, 1990, 16(1): 22-29.
[15]TURNEY P D, LITTMAN M L. Measuring praise and criticism: inference of semantic orientation from association[J]. ACM transactions on information systems, 2003, 21(4): 315-346.
[16]張小平. 主題模型及其在中醫(yī)臨床診療中的應(yīng)用研究[D]. 北京: 北京交通大學(xué), 2011: 57-58.
ZHANG Xiaoping. Study on topic model and its application to TCM clinical diagnosis and treatment[D]. Beijing: Beijing Jiaotong University, 2011: 57-58.
[17]ALSUMAIT L, BARBARá D, GENTLE J, et al. Topic significance ranking of LDA generative models[C]//Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases. Bled, Slovenia: ACM, 2009: 67-82.
郝潔,女,1992年生,碩士研究生,主要研究方向?yàn)樽匀徽Z言處理、粗糙集。
謝珺,女,1979年生,副教授,主要研究方向?yàn)榱S?jì)算、粗糙集、數(shù)據(jù)挖掘、智能信息處理。
蘇婧瓊,女,1991年生,碩士研究生,主要研究方向?yàn)樽匀徽Z言處理、粒計(jì)算。
An unsupervised approach for sentiment classification based on weighted latent dirichlet allocation
HAO Jie, XIE Jun, SU Jingqiong, XU Xinying, HAN Xiaoxia
(Information Engineering College, Taiyuan University of Technology, Jinzhong 030600, China)
The topic and sentiment unification model can efficiently detect topics and emotions for a given corpus. Faced with the low discriminability of topics in sentiment/topic analysis methods, this paper proposes a novel method, the weighted latent dirichlet allocation algorithm (WLDA), which can acquire sentiments and topics without supervision. The model assigns weights to terms during Gibbs sampling by calculating the distance between seed words and terms, then counts the weights of key words to estimate the sentiment orientation of each topic and obtain the emotional distribution throughout documents. This method enhances the impact of words that convey emotional attitudes and obtains more discriminative topics as a consequence. The experiments show that WLDA, compared with the joint sentiment/topic model (JST), not only has a higher iteration sampling speed, but also gives better results for topic extraction and sentiment classification.
sentiment classification; topic and sentiment unification model; topic model; LDA; weighting algorithm
10.11992/tis.201606007
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160808.0830.020.html
2016-06-02. 網(wǎng)絡(luò)出版日期:2016-08-08.
山西省回國留學(xué)人員科研項(xiàng)目(2015-045,2013-033);山西省留學(xué)回國人員科技活動擇優(yōu)資助項(xiàng)目(2013);山西省自然科學(xué)基金項(xiàng)目(2014011018-2).
謝珺. E-mail:xiejun@tyut.edu.cn.
TP391
A
1673-4785(2016)04-0539-07