黃發(fā)良,李超雄,元昌安,汪 焱,姚志強(qiáng)
(1.福建師范大學(xué)軟件學(xué)院,福建福州 350007;2.廣西師范學(xué)院計(jì)信學(xué)院,廣西南寧 530023)
?
基于TSCM模型的網(wǎng)絡(luò)短文本情感挖掘
黃發(fā)良1,李超雄1,元昌安2,汪 焱1,姚志強(qiáng)1
(1.福建師范大學(xué)軟件學(xué)院,福建福州 350007;2.廣西師范學(xué)院計(jì)信學(xué)院,廣西南寧 530023)
針對網(wǎng)絡(luò)短文本情感挖掘問題,提出一種新的基于LDA和互聯(lián)網(wǎng)短評行為理論的主題情感混合模型TSCM,TSCM模型中的整篇評論中每個句子的主題分布是不同的,TSCM產(chǎn)生詞的流程是先確定詞的情感極性,再確定詞的主題,TSCM考慮了詞與詞之間的聯(lián)系.真實(shí)數(shù)據(jù)集Movie與Amazon上的大量實(shí)驗(yàn)表明,與代表性算法JST、S-LDA、D-PLDA和SAS相比較,TSCM模型能對用戶真實(shí)情感與討論主題進(jìn)行更加有效的分析建模.
情感分析;主題情感混合模型;LDA
電子學(xué)報URL:http://www.ejournal.org.cn DOI:10.3969/j.issn.0372-2112.2016.08.017
以自由開放共享為核心精神的Web 2.0使得用戶成為互聯(lián)網(wǎng)的主角,諸如社交網(wǎng)站、微博和BBS論壇之類的平臺為網(wǎng)民發(fā)表意見和交流情感提供了經(jīng)濟(jì)便捷的渠道.一般來說,用戶在這些平臺上發(fā)表的言論比較簡短卻又飽含著豐富的個人情感.研究如何高效挖掘隱藏于這些魚目混雜的社會媒體網(wǎng)絡(luò)言論中的觀點(diǎn)與情感有助于政府機(jī)構(gòu)、企業(yè)組織與理性個體的管理決策.
網(wǎng)絡(luò)短文本情感挖掘正在吸引著來自人工智能、數(shù)據(jù)挖掘、自然語言處理等不同領(lǐng)域研究者的廣泛關(guān)注[1~3],涌現(xiàn)出的各種算法大致可歸納為三類:有監(jiān)督情感挖掘、無監(jiān)督情感挖掘與半監(jiān)督情感挖掘.有(半)監(jiān)督情感挖掘方法不同程度地利用訓(xùn)練語料來訓(xùn)練生成文本情感分類器,一般具有較高的分類準(zhǔn)確率,但獲取訓(xùn)練樣本的昂貴代價極大地限制此類方法應(yīng)用.因此,以JST[4]、S-LDA[5]與ASUM[6]等為代表的無監(jiān)督情感分類方法近年來備受青睞,此類方法能有效地避免傳統(tǒng)無監(jiān)督情感分類方法具有的情感詞典依賴性缺點(diǎn),能達(dá)到較好的情感識別效果.然而,現(xiàn)有的這些LDA情感主題模型還不能很好地捕獲網(wǎng)絡(luò)短評用戶的真實(shí)情感.
互聯(lián)網(wǎng)社會學(xué)相關(guān)研究表明[7]:互聯(lián)網(wǎng)用戶在對商品、服務(wù)、新聞等對象進(jìn)行評價時,往往會先確定評論的情感極性,然后再對評價對象的各個方面進(jìn)行評價,即先確定情感極性,再確定各個句子主題.
基于上述觀測,本文提出了一個基于LDA和互聯(lián)網(wǎng)短評行為理論的主題情感模型混合TSCM,該模型在綜合考慮互聯(lián)網(wǎng)用戶短評行為習(xí)慣的基礎(chǔ)上利用吉布斯采樣技術(shù)實(shí)現(xiàn)情感與主題挖掘,真實(shí)短評數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該模型能較好地對互聯(lián)網(wǎng)短評進(jìn)行情感與主題挖掘.
基于主題模型的無監(jiān)督情感挖掘主要是通過應(yīng)用LDA主題建模技術(shù)[8]對主觀性文本進(jìn)行學(xué)習(xí)來實(shí)現(xiàn)隱含情感知識的發(fā)現(xiàn).
Mei等[9]提出一個主題情感模型TSM進(jìn)行主題及其相關(guān)情感的演化分析.Titov等[10]應(yīng)用MG-LDA提取評論對象中的各個被評價,然后提出MAS模型對情感進(jìn)行總結(jié),MAS模型要求評論對象的每個方面至少在部分評論中被評價過,然而,這對真實(shí)評論文本數(shù)據(jù)集來說是不實(shí)際的.Dasgupta等[11]提出一種基于用戶反饋的譜聚類技術(shù)進(jìn)行網(wǎng)絡(luò)文本的無監(jiān)督情感分類,聚類分析過程涉及數(shù)據(jù)特征都是具有情感傾向的主題,然而,在該分析過程中需要人為指定最重要的特征維.Lin等提出一種基于LDA模型的JST模型[4],該模型將文本情感標(biāo)簽加入LDA,形成一個包含詞、主題、情感和文檔的四層貝葉斯概率模型.電影評論數(shù)據(jù)集上的實(shí)驗(yàn)表明,JST模型的分類效果要優(yōu)于Pang等的有監(jiān)督分類.觀測到JST模型中的Gibbs采樣推理過程中出現(xiàn)大量“1”的現(xiàn)象,He[12]對LDA模型的目標(biāo)函數(shù)進(jìn)行修改,即:在建立情感先驗(yàn)分布時,應(yīng)用廣義期望標(biāo)準(zhǔn)來表達(dá)情感詞的情感期望.Jo等[6]提出一個與JST類似的情感分類主題模型ASUM,將JST中的主題替換為方面.為了克服JST的不足,Li等[5]提出與JST類似的四層貝葉斯概率模型Dependency-Sentiment-LDA,引入一個轉(zhuǎn)移變量來刻畫單詞之間的情感關(guān)聯(lián)性.Lin等[13]提出JST的變體Reverse-JST,該變體在沒有層次先驗(yàn)知識時與JST是等價的,但在加入情感先驗(yàn)知識時,JST具有更強(qiáng)的主題情感分類能力.Brody等[14]對主題詞進(jìn)行了情感識別,然而沒有建立文檔或句子的情感模型.基于產(chǎn)品評分是與產(chǎn)品某個方面質(zhì)量的優(yōu)劣是相互依賴的,Moghadda等[15,16]提出ILDA模型,通過增加相關(guān)參數(shù)來改進(jìn)LDA,依據(jù)產(chǎn)品的文本評論同時實(shí)現(xiàn)產(chǎn)品屬性方面的提取與評分,同時還提出運(yùn)用bag-of-phrases模型對文本提取主題詞與情感詞的D-PLDA模型.Mukherjee 等[17]提出SAS模型,假設(shè)我們已有待建模語料的種子詞集,然后利用這些種子詞集對aspect詞語進(jìn)行簇分析,進(jìn)而得到文本的aspect詞語與情感詞語.
為了方便說明TSCM模型及其運(yùn)用,對相關(guān)符號進(jìn)行如下約定:α、β與γ分別是(文檔,句子,情感)-主題分布、(情感,主題)-詞語分布與文檔-情感分布的Dir參數(shù),θ、μ與π分別是(文檔,句子,情感)-主題分布、(情感,主題)-詞語分布與文檔-情感分布,z、l與w分別是主題、情感與詞語變量,D、S、W、K、L與V分別是指文檔數(shù)、句子數(shù)、單篇文檔的詞語數(shù)、主題數(shù)、情感數(shù)與文檔詞庫的詞語數(shù).
3.1 主題情感混合模型
“文檔-主題-單詞”三層貝葉斯模型LDA(圖1(a))是通過概率推導(dǎo)來尋找數(shù)據(jù)集的語義結(jié)構(gòu),從而得到文本的主題.該模型假設(shè)文檔是由不同主題組成的且一個主題是單詞集合的概率分布,在此假設(shè)下,文檔單詞的產(chǎn)生可分為兩個階段,首先從文檔-主題分布中選擇一個主題,然后根據(jù)隨機(jī)選擇的主題從主題-單詞分布中選擇一個單詞.
為了彌補(bǔ)LDA情感層的缺失,我們通過在LDA中嵌入情感層構(gòu)造主題情感混合模型TSCM(圖1(b)),在TSCM中,情感標(biāo)簽與文檔關(guān)聯(lián),主題標(biāo)簽與句子關(guān)聯(lián),在此基礎(chǔ)上,主題又與情感標(biāo)簽關(guān)聯(lián),詞語同時與主題和情感標(biāo)簽關(guān)聯(lián).
對于文檔集C={d1,d2,…,dD},與文檔集C對應(yīng)的詞典的大小為V,文檔di是由Wd個單詞組成的序列.TSCM產(chǎn)生文檔集C的過程可簡單歸結(jié)為如下兩個步驟:(1)初始化TSCM模型的先驗(yàn)分布參數(shù)Θ={θ,μ,π},具體地,μ、π與θ分別服從狄利克雷分布Dir(β)、Dir(γ)與Dir(α),其中β是指單詞在文檔集C中出現(xiàn)的先驗(yàn)次數(shù),γ是指情感極性標(biāo)簽在文檔d中出現(xiàn)的先驗(yàn)次數(shù),θ服從Dir(α)分布,α是指主題在文檔d的句子s中出現(xiàn)的先驗(yàn)次數(shù);(2)概率生成文檔集C中的單詞,此生成過程可簡單描述如下:首先從文檔-情感分布πd中選出一個情感標(biāo)簽l,l服從Mul(πd)分布(Mul(*)表示多項(xiàng)分布);接著根據(jù)產(chǎn)生的情感標(biāo)簽l,從(文檔,句子,情感)-主題分布θdsl中選出一個主題z,z服從Mul(θdsl)分布,這里θ與LDA的θ不同,LDA中一篇文檔只有一個θ,而TSCM里一篇文檔里θ的個數(shù)是文檔句子數(shù)與情感極性種類數(shù)的乘積;最后根據(jù)選出的情感l(wèi)與主題z,從(情感,主題)-詞語分布μlz中選擇一個單詞w,w服從Mul(μlz)分布.
3.2 模型推導(dǎo)
TSCM模型利用吉布斯采樣技術(shù)對概率分布進(jìn)行推導(dǎo).為了得到參數(shù)θ,μ與π的分布,我們需要計(jì)算聯(lián)合分布p(zi=z,li=l|z-i,l-i,w),其中z-i與l-i分別是指除了文檔d中第i個詞以外的其他詞的主題與情感極性.對聯(lián)合分布P(w,z,l)=P(w|z,l)P(z,l)=P(w|z,l)P(z|l)P(l)進(jìn)行歐拉展開可得:
(1)
(2)
(3)
其中nl,k,v表示單詞v同時屬于主題k和情感極性l的頻數(shù),nl,k表示所有同時屬于主題k和情感極性l的單詞總的頻數(shù),nd,s,l,k表示在短評d中的第s個句子中主題k屬于情感極性l的頻數(shù),nd,s,l表示屬于情感極性l的主題出現(xiàn)在短評d中的第s個句子中的總頻數(shù),nd,l表示在短評d中情感極性l出現(xiàn)的頻數(shù),nd表示短評d中情感極性標(biāo)簽的總頻數(shù),Γ(*)表示伽馬函數(shù).
根據(jù)上述公式,吉布斯采樣聯(lián)合概率可表示為:
p(zi=z,li=l|z-i,l-i,w)
(4)
參數(shù)Θ={θ,μ,π}的最大似然估計(jì)如下:
(5)
(6)
運(yùn)用TSCM模型進(jìn)行文檔情感極性判定的過程可描述如下:
為了定量分析TSCM的性能,我們選擇代表性情感混合模型JST、S-LDA、D-PLDA、SAS作為比較對象,利用基準(zhǔn)評論數(shù)據(jù)集(Movie,Amazon中的Books,Music,Electronics)分別從情感分類準(zhǔn)確率、主題數(shù)對準(zhǔn)確率的影響與主題提取三方面進(jìn)行分析.
4.1 準(zhǔn)確率分析
各種模型在不同數(shù)據(jù)集上分類準(zhǔn)確率的實(shí)驗(yàn)結(jié)果見圖2.由圖2可以看出:(1)四種模型都在長評論集Movie具有相對較高的分類準(zhǔn)確率(考慮到SAS需要種子詞,而我們的實(shí)驗(yàn)語料只有Movie數(shù)據(jù)集有種子詞,Amazon 數(shù)據(jù)集并沒有種子詞,所以本文只用SAS對Movie數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)),而在短評論集Amazon的分類準(zhǔn)確率相對較低,這說明四種模型在情感分析時都存在著信息量豐富度更大的評論的偏好;(2)和JST、S-LDA、D-PLDA、SAS相比較,除了在數(shù)據(jù)集Music上,TSCM的分類正確率在其他所有的數(shù)據(jù)集上都要明顯高于其他四者,尤其在長評論集上TSCM的優(yōu)勢表現(xiàn)特別突出,即使是數(shù)據(jù)集Music,TSCM在分類正確性上也與模型JST、S-LDA表現(xiàn)相當(dāng)并高于PLDA;(3)對比Movie數(shù)據(jù)集在不同詞典下的準(zhǔn)確率發(fā)現(xiàn),HowNet先驗(yàn)處理方法導(dǎo)致的情感分類準(zhǔn)確率要低于seed先驗(yàn)處理方法,這可能是某些情感詞的HowNet預(yù)定情感極性值與其在Movie中的實(shí)際情感極性值存在差異,從而影響了模型對情感極性的判斷.通過上述分析,不難得出如下結(jié)論:(1)TSCM可以有效地提高網(wǎng)絡(luò)短文本情感極性分類的準(zhǔn)確率;(2)和JST、S-LDA、D-PLDA與SAS相比較,TSCM更適合對較長評論進(jìn)行情感極性分類,同時TSCM也存在種子情感詞的域相關(guān)問題.
4.2 主題數(shù)對準(zhǔn)確率的影響
考慮到TSCM模型的主題情感混合特性,在此對主題數(shù)對情感極性分類準(zhǔn)確率產(chǎn)生的影響展開實(shí)驗(yàn)分析.實(shí)驗(yàn)結(jié)果如圖3所示.由圖3可知,在4個實(shí)驗(yàn)數(shù)據(jù)集中,TSCM的準(zhǔn)確率幾乎在所有不同主題數(shù)下都比JST和S-LDA高,只有極少數(shù)情形(主題數(shù)為5、25的Movie,主題數(shù)為10的Music).這表明了TSCM具有比JST和S-LDA更好的性能.
4.3 主題提取
TSCM能同步進(jìn)行評論的主題和情感分析,本實(shí)驗(yàn)利用TSCM模型從4個數(shù)據(jù)集中分別提取積極情感與消極情感主題詞,并以此來評估提取出的單詞對于判斷情感極性是否有用.實(shí)驗(yàn)結(jié)果如表1所示,在此僅列出出現(xiàn)概率最高的20個單詞.
從表1可以看出,Movie數(shù)據(jù)集中提取的主題詞存在較多的情感詞,比如,積極情感詞good、amaze、pretty等與消極情感詞bad、bore、worst等,積極情感詞中g(shù)ood出現(xiàn)的頻率最高,而消極情感詞中bad與bore出現(xiàn)頻率最高.此外在Movie數(shù)據(jù)集下也提取出與電影有關(guān)的主題詞(如:積極情感下的director、actor應(yīng)是與電影的導(dǎo)演與演員有關(guān)).而從Books、Music和Electronics數(shù)據(jù)集中提取的主題詞則較少出現(xiàn)情感詞,具體地說,在Books中提取的主題詞主要與書名或書的內(nèi)容有關(guān)(如:Fair是描述書里經(jīng)常出現(xiàn)的集市.Whitomb是書中出現(xiàn)的惠特科姆酒店).在Music數(shù)據(jù)集中提取的主題詞主要與樂器、歌名或歌的內(nèi)容有關(guān)(如:Piano、Rain可能是描述韓國鋼琴家李閏珉彈的鋼琴曲kiss the rain.life、woman可能指一些描述女人生活的歌曲).在Electronics數(shù)據(jù)集中提取的主題詞主要是電子產(chǎn)品的品牌、屬性等(HONDA、Nissan都是汽車品牌,而消極情感下的sound、quality則可能是描述一款耳機(jī)的聲音質(zhì)量).由此可見,TSCM提取主題詞對我們理解短評內(nèi)容與短評情感極性都有重要的作用,因而其有效實(shí)現(xiàn)了主題發(fā)現(xiàn)與情感分析的完美結(jié)合.
表1 不同數(shù)據(jù)集中提取的主題詞
隨著Web2.0的快速發(fā)展,人們可以在網(wǎng)上針對現(xiàn)實(shí)事件進(jìn)行評論,挖掘隱藏在這些個性化評論中的情感與觀點(diǎn)能有效輔助用戶個體、企業(yè)組織等的決策行為.針對傳統(tǒng)主題情感混合模型的不足,本文提出了一個新的基于LDA與互聯(lián)網(wǎng)短評行為理論的主題情感混合模型TSCM.實(shí)驗(yàn)表明,TSCM具有良好的網(wǎng)絡(luò)短文本情感分析性能.
[1]Pang B,Lee L.Opinion mining and sentiment analysis[J].Foundations and trends in information retrieval,2008,2(1-2):1-135.
[2]Tang H,Tan S,Cheng X.A survey on sentiment detection of reviews[J].Expert Syst Appl,2009,36(7):10760-10773
[3]呂品,鐘珞,唐琨皓.在線產(chǎn)品評論用戶滿意度綜合評價研究[J].電子學(xué)報,2014,42(4):740-746.
Lv P,Zhong L,Tang K.Customer satisfaction degree evaluation of online product review[J].Acta Electronica Sinica,2014,42(4):740-746(in Chinese)
[4]Lin C,He Y.Joint sentiment/topic model for sentiment analysis[A].Proceedings of CIKM[C].New York:ACM,2009.375-384.
[5]Li F,Huang M,Zhu X.Sentiment analysis with global topics and local dependency[A].Proceedings of AAAI[C].Atlanta:AAAI,2010.1371-1376.
[6]Jo Y,Oh A H.Aspect and sentiment unification model for online review analysis[A].Proceedings of WSDM[C].NY:ACM,2011.815-824.
[7]淘寶評價流程[EB/OL].http://wenku.baidu.com/view/1ea83bd751e79b8969022629.html,2014-08-15.
[8]Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[9]Mei QZ,Ling X,Wondra M,et al.Topic sentiment mixture:Modeling facets and opinions in weblogs[A].Proceedings of WWW[C].New York:ACM,2007.171-180
[10]Titov I,McDonald R.Modeling online reviews with multi-grain topic models[A].Proceedings of WWW[C].NY:ACM,2008.111-120
[11]Dasgupta S,Ng V.Topic-wise,sentiment-wise,or otherwise? Identifying the hidden dimension for unsupervised text classification[A].Proceedings of EMNLP[C].Singapore:ACL 2009.580-589
[12]He Y.Latent Sentiment Model for Weakly-Supervised Cross-lingualSentiment Classification[M].Advances in Information Retrieval.Berlin:Springer,2011.214-225.
[13]Lin C,He Y,Everson R,et al.Weakly supervised joint sentiment-topic detection from text[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(6):1134-1145.
[14]Brody S,Elhadad N.An unsupervised aspect-sentiment model for online reviews[A].Proceedings of ACL[C].Stroudsburg:ACL,2010.804-812.
[15]Moghaddam S,Ester M.ILDA:interdependent LDA model for learning latent aspects and their ratings from online product reviews[A].Proceedings of SIGIR[C].New York:ACM,2011.665-674.
[16]Moghaddam S,Ester M.On the design of LDA models for aspect-based opinion mining[A].Proceedings of CIKM[C].New York:ACM,2012.803-812.
[17]Mukherjee A,Liu B.Aspect extraction through semi-supervised modeling[A].Proceedings of ACL[C].Stroudsburg:ACL,2012.339-348.
黃發(fā)良 男,1975年生于湖南永州.福建師范大學(xué)軟件學(xué)院副教授.研究方向?yàn)閿?shù)據(jù)挖掘、智能信息系統(tǒng).
E-mail:huangfl@fjnu.edu.cn
李超雄 男,1991年生于福建莆田.碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘與知識發(fā)現(xiàn).
Mining Sentiment for Web Short Texts Based on TSCM Model
HUANG Fa-liang1,LI Chao-xiong1,YUAN Chang-an2,WANG Yan1,YAO Zhi-qiang1
(1.FacultyofSoftware,FujianNormalUniversity,Fuzhou,Fujian350007,China;2.SchoolofComputerandInformationEngineering,GuangxiTeachersEducationUniversity,Nanning,Guangxi530023,China)
For sentiment analysis of web short texts,a topic sentiment combining model (TSCM) is proposed based on LDA and web review behavioral theory,which is founded on the assumption that topic distribution of each sentence in a review is unique and different from that of other sentences.Generative process of TSCM is to first determine sentiment orientation of each word and then topic of each sentence in a review while taking word relation into consideration.Extensive experiments on real-world datasets (Movie and Amazon) show that TSCM significantly outperforms JST,S-LDA,D-PLDA and SAS in terms of the accuracy of sentiment classification and topic detection.
sentiment analysis;topic sentiment mixture;latent dirichlet allocation(LDA)
2014-08-25;
2015-03-09;責(zé)任編輯:藍(lán)紅杰
國家自然科學(xué)基金(No.61370078,No.61363037);教育部人文社會科學(xué)研究青年基金項(xiàng)目(No.12YJCZH074);福建省教育廳科技項(xiàng)目 (No.JA13077)
TP273
A
0372-2112 (2016)08-1887-05