李凌霄, 李紹滋,曹冬林
(1.廈門大學 智能科學與技術系,福建 廈門 361005; 2. 廈門大學 福建省仿腦智能系統(tǒng)重點實驗室,福建 廈門 361005)
?
基于多情緒源關聯模型的中文微博情感分析
李凌霄1, 2, 李紹滋1, 2,曹冬林1, 2
(1.廈門大學 智能科學與技術系,福建 廈門 361005; 2. 廈門大學 福建省仿腦智能系統(tǒng)重點實驗室,福建 廈門 361005)
社交媒體信息的爆炸式增長,使得依據其對公眾輿論情感的分析受到越來越多的關注。與傳統(tǒng)文本不同,新浪微博中存在包括情感詞、表情、圖片和視頻等特征在內的多情緒源,本文針對中文社交短文本情感分析中情感詞典時效性問題和多情緒源間的關聯性問題,提出了一種多情緒源關聯模型。該模型考慮微博中的情感詞和表情特征及其之間的關聯關系,在經典的詞典規(guī)則投票方法基礎上,引入多情緒源以及關聯概率,通過概率建模的方式對情感詞和表情兩類情緒源建立關聯模型,實現對微博情感的判別。實驗表明,在6 171條微博數據集中,多情緒源關聯模型分類準確率達到了85.3%,強于包含情感詞和表情的傳統(tǒng)投票模型(83.4%)以及包含同類多特征的SVM方法(82.9%)。
多模態(tài)情感分析;多情緒源;社交媒體;關聯性
中文引用格式:李凌霄,李紹滋,曹冬林. 基于多情緒源關聯模型的中文微博情感分析[J]. 智能系統(tǒng)學報, 2016, 11(4): 546-553.
英文引用格式:LI Lingxiao, LI Shaozi, CAO Donglin. Emotional multi-source correlation model for chinese micro-blog sentiment analysis[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 546-553.
時下,社交媒體正成為人們生活中不可或缺的一部分,通過微博、微信等工具,人們可以隨意發(fā)表對電影、商品的喜惡,對社會事件的個人觀點,甚至對國家政策的看法。如何從包含這些信息的大規(guī)模數據中獲取諸如情感傾向在內的潛在信息,對于產品導向、廣告精確投放、國家輿情控制等領域都具有重要意義,社交信息的數據挖掘與分析正成為研究者們關注的熱門課題。
對英文社交媒體(如Tweet)的情感分析已經有很多進展,分析的方法主要分為有監(jiān)督方法[1-5]和基于詞典或逐點互信息(PMI)[7]的無監(jiān)督方法。而類似針對中文社交媒體的情感分析工作則仍處于起步階段,所使用的方法大都源于英文情感分析方法,但由于社交媒體表現形式的多樣化和中文網絡語境多變性等原因,傳統(tǒng)分類方法仍存在很大改進空間,本文針對目前存在的兩個問題進行建模:
1)情感詞典時效性差,中文新詞的出現更為頻繁,基于統(tǒng)計的方法在短周期內難以判斷其情感;
2)傳統(tǒng)方法未考慮多情緒源之間的關聯。
這里的多情緒源是指微博中可能出現的能夠體現其情感的多種異構特征,如情感詞、表情符號、圖片和視頻等。并且這些情緒源之間存在以下在情感分析上可以進行互補利用的關聯關系:
1)不同情緒源表達的情感強度可能不同,強情緒源可以對弱情緒源進行極性加強;
2)同一情緒下不同情緒源之間存在較強的關聯性,例如在“哈哈”表情下出現正情感詞的概率較大。
根據以上分析,我們提出了一種多情緒源關聯模型,該模型對微博中的情感詞和表情符號兩種情緒源及其之間的關聯進行建模。我們的實驗結果顯示,該模型在微博數據上優(yōu)于經典分類算法,并且該模型具有拓展性,可以繼續(xù)加入諸如圖片和視頻在內的其他情緒源。
文本情感分析近幾年逐漸成為熱門研究課題,其內容主要包括情感極性分析和主客觀分析等,本文主要關注情感極性分析。目前情感極性分析的方法主要分為兩類:有監(jiān)督的分類器學習方法和無監(jiān)督的基于情感詞典或者PMI的方法。
1.1有監(jiān)督方法
有監(jiān)督方法大多通過機器學習技術從文本中選取合適的特征構建分類器,包括樸素貝葉斯、最大熵和支持向量機等,進而對不同情感進行分類。
分類器選擇上,Pang等[1]用以上3種分類器將影評分為正、負兩類極性,引入了一元語法特征、二元語法特征、詞性特征和詞位置特征等8種組合特征,最終使用基于出現與否的一元語法特征SVM分類器效果最好,在其語料集中達到83%的準確率。
特征選擇上,D.Kushal 等[2]對語法規(guī)則、n-gram特征進行了分析;Hatzivassiloglou等[3]使用了情感詞作為特征,對句子級別的情感傾向進行了分析;J.C.Na等[4]對指定詞語和否定短語特征進行了分析。
這類機器學習方法,例如多特征SVM情感分類方法,并未考慮到不同特征之間的關聯關系。
1.2無監(jiān)督方法
無監(jiān)督方法利用文本中帶有情感的詞匯的情感傾向,綜合考慮文本的語法規(guī)則、句法構成等要素對文本進行情感極性的判別,通常采用投票的方法。在該類方法中,主要依靠文本分析,并未關注社交媒體信息中情緒源多并且不同情緒源之間存在關聯性的特點。
基于情感詞方法的基礎是判斷詞的情感,對詞匯的情感判斷方法包括:基于情感詞典、基于監(jiān)督學習[5]和基于種子詞[7-9]的方法等。
常用的中文情感詞典有知網情感分析用詞語集、臺灣大學中文情感極性詞典(NTUSD)和大連理工大學中文情感詞匯本體庫等?;谇楦性~典的方法主要缺陷在于覆蓋面窄、無法包含網絡新詞。
Wilson等[5]提出了一種二步分類的有監(jiān)督方法判斷短語的極性:1)判斷將短語分類為有極性和中性;2)將第1步中得出的有極性短語進一步劃分為4類極性,每一步使用不同的特征進行分類,分類器相同(BoosTexter AdaBoost.HM[6])。最終在其數據集上準確率達到75.9%。
Turney[7]提出了一種判斷單詞情感的方法,通過在大規(guī)模語料集中分別計算目標單詞與正負極性種子詞(正種子詞:excellent;負種子詞:pool)的逐點互信息,將兩個結果進行對比得出目標單詞的情感,最終在其數據集中達到82.8%的準確率,缺點是需要大規(guī)模語料集,運算量大。
此外,Xia H.等[9]研究了英文社交媒體中出現的情感標記信號在無監(jiān)督情感分析中的應用,取得了良好的效果。
1.3中文微博情感極性分析研究現狀
中文微博情感極性分析主要方法來源于上文提及的英文文本情感分析相關方法[10]。
目前,由中國中文信息學會(CIPS)主辦的中文傾向性分析評測(The Fifth Chinese Opinion Analysis Evaluation, COAE)聚集了該領域大量研究成果。COAE評測由2008年開始每年舉辦一次,發(fā)布中文傾向性分析的相關任務,包括情感識別、新詞發(fā)現、觀點句提取和評價對象識別等。表1給出了COAE2013 http://ccir2013.sxu.edu.cn/COAE.aspx 任務1(基于否定句的句子級傾向性分析)的最佳評測結果。
表1 COAE2013任務1最佳評測宏平均結果
最佳結果[11]使用了集成學習的方法,通過多次欠采樣訓練NB、ME、SVM基分類器,通過product rule融合多個基分類器。該方法針對標注數據集較少的情況,提高了分類器的魯棒性和泛化能力。
在中文微博情感分析的多種方法中,SVM方法雖然引入了不同特征,但是認為特征之間相互獨立;基于規(guī)則投票的方法主要依賴情感詞典和語法規(guī)則,也有引入表情符號等情緒源的方法,但未考慮不同情緒源之間的關聯。
此外,謝麗星等[12]提出了基于層次結構的SVM分類方法,選取主題相關特征構建分類器對微博情感進行三分類。通過分句考慮了3類極性的句子數目以及首尾句情感極性,并且依據主題選取了多種特征訓練分類器,在其數據集上達到67.283%的準確率。但通過對我們的6171條微博進行分析發(fā)現,句子數目大于2的微博僅占12%,因此分句對情感分析效果不大。此外由于本文針對沒有主題標簽的微博,因此最終在實驗中選擇文獻[12]中與主題無關的不分句最佳特征SVM以及無關聯多情緒源模型作為對比方法。
多情緒源關聯模型受基于詞典投票的情感分析方法啟發(fā),對包括情感詞在內的多情緒源及其間的關聯進行建模(本文只考慮情感詞和表情兩種情緒源)。因此本章從基于詞典投票的分類模型,到加入表情特征進行改進,近而引入后驗概率聯合建模3個過程來介紹模型的產生原理,最后介紹多情緒源關聯模型的構建方法(算法將微博分為負面、中性和正面3種情感)。
2.1原理框圖
圖1~3分別展示了3種情感分類模型的組成原理,可以看出相比其他兩類模型只考慮單一或者相互獨立的情緒源特征,本文提出的多情緒源關聯模型綜合考慮了不同情緒源及其之間的關聯進行建模,并且在第2.4節(jié)的實驗中證明了這種關聯對于情感分析的作用。
圖1 情感詞投票模型Fig.1 Word voting model
圖2 無關聯模型Fig.2 Uncorrelated model
圖3 多情緒源關聯模型Fig.3 Emotional multi-source correlation model
2.2基于詞典投票的情感分類模型
本節(jié)介紹了傳統(tǒng)方法中基于情感詞典投票的情感分類模型,并對其進行了概率轉換,再依據否定詞和感嘆句對情感詞極性進行了修正。
2.2.1情感詞典概率模型
基于情感詞典的分析方法將情感詞典中標注為正負極性的情感詞作為特征,先對文本進行分詞(本文中涉及的分詞工具使用了中科院計算所開發(fā)的ICTCLAS50分詞系統(tǒng) http://www.ictclas.org/),將正負情感詞在文本中出現次數的差值作為文本正負情感判斷的依據。根據式(1)進行極性投票判斷。
(1)
如果將以上判斷方法用概率模型進行表示,可以得到式(2)。
(2)
2.2.2否定詞和感嘆句分析
針對中文微博里存在否定詞、感嘆句等語法結構的特點,本文對情感詞的極性權值進行了修正。
與文獻[12]中類似,模型對否定詞的出現進行了處理,自定義了24個常用否定詞,如表2所示,將以否定詞為中心,大小為3窗口的中出現的情感詞極性反轉。
表2 自定義否定詞表
感嘆句通常起到的是加強語義的作用,而對于語句的情感影響也會起到類似的加強效果。我們認為出現感嘆句的句子中,情感詞表達效果翻倍,因此使用了最為直接的處理方法,將感嘆句中的情感詞個數在原基礎上乘以2。
2.3無關聯的情感詞和表情模型
很多情況下,單獨使用情感詞難以判斷微博所表達的極性,因此可以通過引入其他情緒源來綜合判斷極性,我們考慮了表情符號作為聯合特征,因為表情和情感詞在微博情感分析中具有如下優(yōu)勢互補的特性。
1)微博中情感詞分布廣泛,一條微博中往往包含多個情感詞。但僅利用情感詞進行情感判別的缺點在于情感詞典時效性差:情感新詞出現較頻繁,但剛出現時數量少,使用基于統(tǒng)計的新詞極性判別方法在新詞出現初始周期內難以對新詞進行識別和判斷。
2)微博上表情符號的使用相對固定,但利用表情進行情感判別的缺點在于一條微博中表情個數不多,同時并非所有微博都包含表情。
此外,經過試驗表明,微博表情特征的以下特點也能夠提升情感分類效果:
1)微博表情對情感的表達比文本更為直接和顯著;例如微博“終于通關了”,文本中并未出現情感詞,僅通過詞典將其判斷為中性情感,加入表情特征后判斷為正面情感。
因此我們對情感詞和表情符號聯合建模,以綜合利用二者在微博情感判斷中的互補優(yōu)勢,和表情特征的自身判別優(yōu)點,具體模型如式(3)~(5)所示:
(3)
(4)
(5)
2.4多情緒源關聯模型
2.3節(jié)模型認為情感詞與表情之間是相互獨立的,沒有考慮情感詞和表情之間的關聯關系,以及這種關系對情感極性判斷的影響,因此這里引入了后驗概率對其進行修正。
表3給出了一個例子,在該例中,雖然出現的情感詞都為正極性,但表情符號卻只有負面表情,通過2.3模型進行判斷,將這條微博錯分成負極性。
表3 無轉折詞的轉折句實例
(6)
(7)
(8)
式中:normal為歸一化因子。
(9)
類似地
(10)
在表3所示的示例中,使用2.3節(jié)中的方法進行極性判斷,結果如下:
Sp-Sn=0.14>0,最終結果為正性(本數據集下,取ωw=1,ωf=1.5)。分類正確的原因是通過“淚”與上述情感詞之間的關聯性,考慮了“淚”與上述情感詞出現情況下,分類為正極性的概率。
多情緒源關聯模型不限于情感詞和表情符號兩個情緒源,可以通過加入更多的情緒源,例如圖片、視頻等,來拓展關聯模型。
3.1實驗數據及驗證方法
上文中提及的COAE評測給出了公共數據集,但由于其數據集中所包含的有表情微博數量十分稀少,不適合測試本方法,因此本文通過新浪微博API爬取微博信息,并對爬取的6 171條微博進行了人工標注,經過統(tǒng)計,微博數據來自社會、電影、電視劇、美食、娛樂八卦、科技等多個領域。
所選擇數據集中正極性微博所占比例偏大,中極性比例偏小,并且含有表情的微博較多(主要分布于電影、電視劇、娛樂八卦和美食等領域),但用于比較的各個分類方法所用數據集相同,不會對結果比較造成影響。
我們所使用的情感詞典為大連理工大學中文情感詞匯本體庫http://ir.dlut.edu.cn/EmotionOntologyDownload.aspx?以及自定義的少量新詞(如坑爹、給力等),一共27 488個(正極性詞13 556個,負極性詞13 932個)。在分詞時,使用ICTCLAS50自定義詞典接口,調用了情感詞典和否定詞典。
模型中,使用表情符號和情感詞進行了聯合建模,表情符號選擇微博常用表情中默認的50個表情符號,如(正性)和(負性)。如表4。
表4 實驗數據極性分布
3.2對比實驗說明
對比實驗1采用文獻[12]中一步三分類最佳特征組合(去除了情感短語和中文是否出現這兩個特征),此外因為本文數據集中的微博包含的多句子情況少,因而不考慮分句的情況進行第2次分類;同時本文的情感極性分析針對無主題標簽的微博,因此不考慮主題特征。在文獻[12]所做的實驗中,url特征與主客觀分類對最終效果有負面影響,因此也不將這兩個因素考慮在內。此外,選用的情感詞典和表情符號、標點符號也與之不同。最終使用的特征表示如表5所示,用詞袋模型(BOW)表示。其中否定詞采用與3.2.2中相同處理方法。對比實驗二采用3.3節(jié)中方法。實驗采用五折交叉驗證。
表5 對比實驗特征表示
3.3實驗結果及分析
分類器說明:
1)關聯模型:多情緒源關聯模型(情感詞、表情關聯建模);
2)NB:樸素貝葉斯模型,所使用的特征與對比實驗一的SVM方法相同,使用BOW表示特征;
3)傳統(tǒng)詞典:傳統(tǒng)的基于情感詞典以及規(guī)則進行投票的方法(2.2中的方法);
4)詞典+表情:傳統(tǒng)基于情感詞典及規(guī)則進行投票的方法,輔以表情特征(2.3中的方法)。
5)SVM:文獻[12]中一步三分類方法。
從表6的實驗結果可以看出,本文提出的多情緒源關聯模型分類效果最佳,達到85.3%,比傳統(tǒng)基于情感詞加表情投票的方法高出了1.9%,比同類多特征SVM高出了2.4%。說明了對情緒源進行關聯性建模,能夠有效提高情感分類效果,表明不同情緒源之間的關聯關系與情感極性也是相關的。缺點在于對情緒源單一的微博(例如無表情的微博)則主要依賴于傳統(tǒng)情感詞典分類方法。
表6 總體結果
注:P、R分別表示準確率(Precision)和召回率(Recall)。
3.4 錯誤分析
本節(jié)中對混合概率模型的錯誤分類樣本進行了分析,研究了造成分類錯誤的原因,如表7所示。
表7 錯誤類別及相關示例
實驗結果表明,在缺乏表情符號特征的微博中分類效果較差,主要原因還是由于當沒有表情特征時,分類器只依賴于情感詞以及簡單規(guī)則進行分類。此外,對轉折句、反諷句等句式的判斷存在不足,原因是微博中很多反諷句式的出現往往是伴隨著網絡新詞出現的,并且沒有明顯的句式標識詞(例如,“這小偷真是太機智了”),使得對反諷句和轉折句的判斷比較困難。
4.4對比分析
通過在同一數據集上對不同模型的實驗表明,多情緒源關聯模型能夠很好地解決基于情感詞判別方法時效性差的問題,并且在分類時綜合考慮了不同情緒源之間的關聯性,提高了分類效果。相對于對比實驗2的普通情感詞和表情建模的方法,多情緒源關聯模型通過引入后驗概率,利用情感詞與表情符號之間的關聯性,加強情感判斷性能。另外,使用對比實驗1中的SVM分類器時,雖然加入了包括表情、否定詞在內的多特征,但認為不同特征之間相互獨立。多情緒源關聯模型所能解決的一些錯分類問題如表8所示。
表8 關聯模型分類正確樣本
新浪微博作為時下最為流行的社交網站之一,不僅是民眾鐘愛的社交工具,更是研究者挖掘數據的天堂,其商業(yè)價值和學術價值都不斷升溫。本文對微博數據挖掘領域的情感分析進行了研究,提出多情緒源關聯模型,針對傳統(tǒng)基于詞典的方法重新進行了關聯性建模,使得分類準確率相比傳統(tǒng)模型(3.3節(jié)模型)提高了1.9%;相比多特征SVM提高了2.4%。但該方法仍是較為簡單的情感分析方法,就方法本身而言,也存在很大的提升空間,可以對以下幾個方面進行改進:
1)拓展模型,引入更多情緒源,包括圖片和視頻等,使模型更適合于微博語境。
2)在概率模型中引入更加復雜的語法規(guī)則分析,例如祈使句式、多重否定、反諷句等;
3)挖掘微博用戶之間的社交網絡關系對情感分析的影響,通過有關聯用戶來參與判斷情感。
[1]PANG Bo, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACM, 2002, 10: 79-86.
[2]DAVE K, LAWRENCE S, PENNOCK D M. Mining the Peanut gallery: opinion extraction and semantic classification of product reviews[C]//Proceedings of the 12th International Conference on World Wide Web. Budapest, HU: ACM, 2003: 519-528.
[3]YU HONG, HATZIVASSILOGLOU V. Towards answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACM, 2003: 129-136.
[4]NA J C, SUI H, KHOO C, et al. Effectiveness of simple linguistic processing in automatic sentiment classification of product reviews[C]//MCILWAINE I C. Knowledge Organization and the Global Information Society: Proceedings of the Eighth International ISKO Conference. Wurzburg, Germany: Ergon Verlag, 2004: 49-54.
[5]WILSON T, WIEBE J, HOFFMANN P. Recognizing contextual polarity in phrase-level sentiment analysis[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACM, 2005: 347-354.
[6]SCHAPIRE R E, SINGER Y. BoosTexter: a boosting-based system for text categorization[J]. Machine Learning, 2000, 39(2/3): 135-168.
[7]TURNEY P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: ACM, 2002: 417-424.
[8]朱嫣嵐, 閔錦, 周雅倩, 等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學報, 2006, 20(1): 14-20.
ZHU Yanlan, MIN Jin, ZHOU Yaqian, et al. Semantic orientation computing based on HowNet[J]. Journal of Chinese information processing, 2006, 20(1): 14-20.
[9]HU Xia, TANG Jiliang, GAO Huiji, et al. Unsupervised sentiment analysis with emotional signals[C]//Proceedings of the 22nd international conference on World Wide Web. Rio de Janeiro, Brazil: ACM, 2013: 607-618.
[10]趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學報, 2010, 21(8): 1834-1848.
ZHAO Yanyan, QIN Bing, LIU Ting. Sentiment analysis[J]. Journal of software, 2010, 21(8): 1834-1848.
[11] 魏現輝, 任巨偉, 何文譯, 等. DUTIR: 中文短文本傾向性分析及要素抽取方法研究[C]//第五屆中文傾向性分析評測研討會論文集. 太原, 2013: 116-129.
WEI Xianhui, REN Juwei, HE Wenyi, et al. DUTIR: method research of sentiment analysis and elements extraction of Chinese short text[C]//Proceedings of the Fifth Chinese Opinion Analysis Evaluation. Taiyuan, 2013: 116-129.
[12]謝麗星, 周明, 孫茂松. 基于層次結構的多策略中文微博情感分析和特征抽取[J]. 中文信息學報, 2012, 26(1): 73-83.
XIE Lixing, ZHOU Ming, SUN Maosong. Hierarchical structure based hybrid approach to sentiment analysis of Chinese micro blog and its feature extraction[J]. Journal of Chinese information processing, 2012, 26(1): 73-83.
李凌霄,男,1990 年生,碩士研究生,主要研究方向為跨媒體輿情分析。
曹冬林,男,1977 年生,博士,廈門大學智能科學與技術系助理教授,主要研究方向為自然語言處理、信息檢索、跨媒體輿情分析、計算機視覺、模式識別。
李紹滋 ,男,1963年生,博士,教授,博士生導師,主要研究方向為人工智能及其應用、計算機視覺與機器學習、運動目標檢測與識別、跨媒體輿情分析等。主持過多項國家、省市級項目研究,獲得省科學技術三等獎兩項,發(fā)表學術論文200余篇,其中:27篇被SCI檢索、171篇EI檢索。
Emotional multi-source correlation model for chinese micro-blog sentiment analysis
LI Lingxiao1, 2, LI Shaozi1, 2, CAO Donglin1, 2
(1. Cognitive Science Department, Xiamen University, Xiamen 361005, China; 2. Fujian Key Laboratory of the Brain-like Intelligent Systems, Xiamen 361005, China)
With the explosion of social media information, sentiment analysis of public opinion is attracting more and more attention. Compared with traditional text, the Sina micro-blog contains a variety of emotional sources, including sentiment words, emoticons, pictures, etc. To solve the problem of the poor timeliness of lexicons in Chinese social short messages and to utilize the correlation between different emotional sources, an emotional multi-source correlation model (EMCM) is proposed to carry out sentiment analysis on a micro-blog. In particular, it takes advantage of the correlation between sentiment words and emoticons. It imports the multi-sources and correlation probabilities, and then builds a correlation model between the two emotional sources, emotional words and emoticons, based on a voting model using sentimental words. Experimental results show that this model achieved an accuracy of 85.3% in 6 171 micro-blogs, higher than either the traditional method based on voting (83.4%) or the SVM method based on similar multi-features (82.9%).
multi-modal sentiment analysis; emotional multi-sources; social media; correlation
10.11992/tis.201605019
網絡出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160808.0830.002.html
2016-05-19. 網絡出版日期:2016-08-08.
國家自然科學基金項目 (61202143, 61305061, 61402386,61572409);福建省自然科學基金項目 (2013J05100).
曹冬林. E-mail:another@xmu.edu.cn.
TP391
A
1673-4785(2016)04-0546-08