孫健 李超琪
摘要:詞語是文本中的情感表達的最小單位,而詞語語義的情感傾向性分析是文本情感分類的基礎。利用中文情感詞構建出一個基礎情感詞典來判斷未知情感詞的情感極性。本文即是在HOWNET情感詞語集的基礎上,利用義原相似度算法,構建了中文基礎情感詞典,并提出以信息融合方法,將此詞典與同濟大學的褒貶詞典進行整合,建立了特定情感詞與特定情感標注以及相應的情感權值的映射關系,實驗結果表明,該方法取得不錯的分類效果。
關鍵詞:中文基礎情感詞典;信息融合;情感權值;情感標注
0引言
隨著互聯網的飛速發(fā)展,尤其Web2.0以及社交媒體的出現,越來越多的互聯網用戶在博客、微博、論壇里發(fā)布主觀性文本。這些主觀性文本可能是用戶對于某個產品或服務的評價,能夠提供企業(yè)以決策參考?;蛘呤枪妼τ谡块T的新出臺的政策的看法,來幫助有關部門了解社會輿情,及時出臺相關調控政策。然而面對每天以指數級的速度增長的Web上的海量的評論信息,單純依靠人工進行收集分析必將是耗時費力的過程,因此,通過計算機來對這些主觀性文本的情感表達設計展開相關研究,即情感分析(亦稱意見挖掘),在近些年里逐漸成為自然語言處理研究領域里的一個熱點,并得到快速發(fā)展。
文本情感分析是指對包含用戶表示的觀點、喜好、情感等的主觀性文本的情感傾向進行數據提取、情感分類以及做出有效的挖掘和分析等過程。其中詞語情感傾向性的判別是文本情感分析的基礎工作,情感詞的極性判別的優(yōu)劣將直接影響情感分析的結果。常用的情感分析技術主要有基于詞典的方法和機器學習的方法。
近年來,研究人員為應對不同的意見挖掘任務,提出相應的詞典,使之應用范圍較小,格式、詞性互不兼容,例如,基于漢語情感詞極性表的產品情感分類,通過極值的正負來判斷客戶產品及其主要特征的喜好或者厭惡。但卻無法得知顧客對于產品具體的感受,例如,驚訝、生氣還是高興?而基于漢語情感標簽的產品情感分類,雖然能對情感詞進行分類,但缺少強度的定量。例如“生氣”與“冒犯”都是屬于憤怒的一類情感標簽,但是兩者的強度,卻明顯呈現出不同,“冒犯”[-0.990]要大于“生氣”[-0.303]。這對于句子級情感傾向性分析有重要意義。
在本文中,主要針對現在大部分的詞典都有的數據集不完整、數據或格式嘈雜等問題,提出以多源信息融合技術將多個詞典進行整合,建立了基于情感權值和情感標注為基礎的中文情感詞典(Sentiment lexicon based polarity scores and emotion labels,SLPE),以獲得單個或單類詞典源所無法獲得的有價值的綜合信息,并最終完成以提高詞典的極性的判斷和深化情感詞的具體情感標注來實現對于產品評論的研究。
1相關工作
目前關于詞典的文本情感分類的研究,國內外已可見到諸多探討,具體論述如下。
中文情感詞典的構建的思路主要分為基于語料統(tǒng)計以及語義詞典等方法,其中,語料統(tǒng)計主要是通過觀察大量語料的特性,找到一些語法模式、語法規(guī)則、語義特征和語言學特性,然后抽取出情感詞并判斷其極性。而語義詞典主要是基于HowNet和同義詞詞林等語義詞典展開。朱嫣嵐等人提出了2種詞匯語義傾向性計算的方法,即基于語義相似度的方法和基于語義相關場的方法。通過計算詞語間的相似程度,對基于HowNet的詞匯語義相似度及其計算方法,解析表述了2個詞語在詞語的褒貶傾向將按照一定的計算法則進行賦值。根據所得的語義傾向度量值判別其褒貶傾向。柳位平等以HOWNET情感詞語集為基準,構建了中文基礎情感詞典,并提出情感詞庫的權值計算方法。
國外方面,Esuli等人研究設計了基于WordNet中的同義詞集(svnset)來構建語義情感詞典SENTIWORDNET:基于每一個同義詞集關聯的注釋(Gloss)的定量分析和向量化表示,通過8個不同的三元分類器組合,對同義詞集進行半監(jiān)督分類,計算同義詞集的正面、中立和負面情感傾向性的評分。3種情感傾向性的評分之和等于1。SENTIWORDNET 3.0是對SENTIWORDNET 1.0的提升.其基于WordNet 3.0版本,并采用隨機游走算法(RandomWalk)優(yōu)化同義詞集3個方面的情感評分。
Joshi等人基于4個基礎詞典開發(fā)了一個Twitter情感分類系統(tǒng),利用信息融合的加權平均法,進行情感值計算。
在已有的研究的基礎上,本文提出一種新的基于信息融合的情感詞典擴建方法,首先對相關語料庫文檔進行挖掘獲得特征值及其關系,綜合使用詞形模板和詞性模板,采用模糊匹配方法對情感詞和情感標注進行模糊建模,最后通過采用支持向量機(SVM)方法分類得出情感詞相應的情感標注。