黃高峰,周學廣,李 娟,劉 華
(1.海軍工程大學a.信息安全系;b.計算機工程系,武漢430033;2.75753部隊,廣州510600)
具有權重因子的細粒度情感詞庫構建方法
黃高峰1a,周學廣1a,李 娟1b,劉 華2
(1.海軍工程大學a.信息安全系;b.計算機工程系,武漢430033;2.75753部隊,廣州510600)
情感詞庫在文本情感分析中發(fā)揮重要作用,但在分析細粒度情感如人類情緒狀態(tài)時卻無法正確區(qū)分。針對該問題,提出一種基于義原相似度計算的細粒度情感詞庫構建方法。對詞語之間的義原相似度進行計算分析,構建7類細粒度情感詞庫,并在此基礎上給出細粒度情感詞在詞庫中的權重計算方法,最終得到7類具有權重值的細粒度情感詞庫。實驗結果表明,應用引入權重的細粒度情感詞庫后,文本情感傾向判別的準確率可提升5%左右。
義原相似度;情緒;細粒度情感;權重計算;權重因子;詞庫構建
目前,中文語言處理領域已經存在一些通用的情感詞庫,它們在文本情感分析中發(fā)揮了重要作用,然而,它們在細粒度情感分析上發(fā)揮的作用還非常不足。主要表現(xiàn)為:已存在的通用情感詞庫主要有正極性詞庫、負極性詞庫等,不論是對句子的情感分析,還是對文檔的情感分析,較多的是側重褒義、貶義還是中立,然而,有時人們更想得到是用戶對于某個主題對象所表現(xiàn)的內心的情緒,比如高興、憂愁、悲傷、憤怒、喜愛等細粒度情感,從而可以提取更為有價值的信息,而這些是傳統(tǒng)詞庫無法做到和區(qū)分的。因此,構建能反映用戶心理狀態(tài)的細粒度情感詞庫顯得尤為必要。
文獻[1]通過分析《知網》的知識描述結構,利用義原的上下位關系計算詞語義原相似度;文獻[2]考慮層次樹的深度、密度及語義路徑等多因素對義元相似度計算影響,對詞匯語義相似度計算進行了改進;文獻[3-5]分別對中文基礎情感詞進行了擴展,并對基準詞的應用進行了相關研究,取得了不錯的效果;文獻[6]利用詞語極性評分進行語句級的觀點抽取。大量文獻提供了文本情感分析的典型方法,但文獻中均未曾提及對細粒度情感詞分類及詞庫構建的相關研究。
本文以義原相似度計算為基礎,提出一種表現(xiàn)人類情緒的細粒度情感詞庫構建方法,并針對詞庫所含詞語設計一種權重值計算方法,從而實現(xiàn)文本中所表現(xiàn)情緒狀態(tài)的準確分類。
人類情感非常豐富,儒家學派把人類情感表述為七情:喜,怒,哀,懼,愛,憎,欲。舉例,表達“喜”的詞語:高興,興奮,快樂,喜悅等;表達“怒”的詞語:憤怒,惱怒,氣憤,憤慨,怒火沖天,大發(fā)雷霆等;表達“愛”的詞語:喜愛,可愛,愛惜,憐憫,憐愛,同情,感激等;表達“欲”的詞語:期望,渴望,期盼,盼望,失望,思念等。這里的七情中的“欲”,實際是對人類“七情六欲”中“六欲”:見欲,聲欲,香欲,味欲,觸欲,意欲的總稱,泛指人類生理需求和欲望,把這些統(tǒng)一歸類為一種人類情感。
相似度是一個數(shù)值,一般取值范圍在[0,1]之間。一個詞語與其本身的語義相似度為1。如果2個詞語在任何上下文中都不可替換,那么其相似度為0。本文通過對情感詞的相似度計算,得出一個能反映其情感傾向強度的權值來區(qū)分細粒度情感詞。知網中詞語相似度是以詞的義原為基礎計算得來。知網中將同類的義原組成一棵層次樹,《知網》中層次結構如圖1所示,因而把義原的相似度計算轉化為義原之間在層次樹中的路徑距離的計算。
圖1 實體類義原層次樹
假設兩個詞語W1,W2的2個義原s1,s2在這個層次體系中的路徑距離為dist(s1,s2),則這兩個義原的義原相似度如式(1)所示。
其中,s1和s2表示兩個不同義項之間的義原;dist(s1,s2)表示它們在義原樹中的距離;?是一個調節(jié)參數(shù),表示相似度為0.5時的兩個詞在義原樹中的距離長度,一般取1.6。一個詞語有時存在多個義原,在計算多義原詞語間的相似度時,取義原之間相似度最大值作為詞語的相似度。對于兩個中文詞語W1,W2,假設它們分別有多個義原,W1的義原m個,分別為s11,s12,…,s1m;W1的義原n個,分別為s21,s22,…,s2n,則它們的相似度計算如式(2)所示。
細粒度情感詞的情感權值大小由這個詞與基準詞的義原相似程度有關,基準詞是指那些表達情感非常明顯、最常用的、具有代表性的詞語。與基準詞聯(lián)系越緊密,則詞語的傾向性越強。因此,可以通過計算細粒度情感詞與基準詞之間的義原相似度來區(qū)分不同的細粒度情感詞匯。
但是,要注意的是相似度的大小表示的是趨近于某種情感的程度而不是情感強度。比如表達“喜”的詞中,詞頻最高的是“高興”一詞,利用上述公式判斷某個詞與“高興”的相似度越大表示該詞越準確地在表達“喜”的情感。再如“喜極而泣”的詞頻就沒有“高興”的詞頻高,但比“高興”所表達的“喜”的情感強度更強。
3.1 種子詞集的生成
若要判別一個詞是否屬于細粒度情感詞,只用一個基準詞進行情感相似度計算所得到的準確性是有限的,這時需要有若干個基準詞構成一個基準詞集,再由基準詞集計算該新詞的相似度值,這樣就能更準確地判斷某個詞語的情感類別,該基準詞集稱為種子詞集。
種子詞的選擇,必須選取若干個表達某類情感強烈且最常用的詞[7]。由《知網》提供的情感分析詞語集對表達7類情感較強烈的詞進行人工篩選[3],再利用搜索引擎對這些詞語的使用條目數(shù)進行統(tǒng)計,該詞語的使用條目數(shù)即認為該詞的詞頻,選取詞頻最高的前n個詞作為備選種子詞,這里的n根據(jù)該類情感詞的高頻常用詞的數(shù)量來定,高頻常用詞的數(shù)量越多n就越大,反之n就越小。再在n個詞中人工進行情感強度判斷,得出較準確的表達該類情感強烈且最常用的m個詞,即為該類細粒度情感種子詞集。一般m≈15% ×n最佳[3]。
3.2 細粒度情感詞庫構建
針對細粒度情感詞庫的構建,本文提出了一種通過情感種子詞集與情緒詞庫進行義原相似度計算,再進行閾值比較并歸類的構建方法,依次可生成7類詞集,具體流程如圖2所示。
圖2 細粒度情感詞庫構建流程
實驗過程如下:
(1)對情緒語料進行分詞、去噪處理。
(2)從詞語庫取出某個詞與7類情感種子詞集分別進行義原相似度計算,按式(2)進行運算。
(3)把運算結果進行閾值比較,閾值范圍的定義為[0.75,1],若相似度在閾值范圍內的詞最終判決屬于細粒度情感詞;若相似度在(0.25,0.75)之間的屬于不確定詞集,進行人工篩選;若相似度在[0,0.25],則最終判決該詞不屬于此類情感詞,直接丟棄。
實驗中需要注意的是情緒語料庫要求盡可能詳盡,能較全面地涵蓋基本情感詞語。
3.3 情感詞權重計算
假設選定用seedi,j代表第j類情感的種子詞,i表示該j類情感種子詞的序號,總數(shù)為Q。情感詞語α在第j類情感的情感傾向值(Sentiment Orientation,SO)用soj(α)′表示,soj(α)′的數(shù)值越大表示其越趨近于j類情感。本文提出計算情感詞語α在第j類情感的情感傾向權值,如式(3)所示。
需要注意區(qū)分的是,這里的情感傾向值同樣是指趨向于該類情感的準確程度而不是指情感強度,傾向值越大表示越準確地趨向于該類情感。即soj(α)′,j=1,2,…,7,在這7類情感中,第j類取到最大值,則soj(α)′代表更準確地趨近于第j類情感。
3.4 情感詞權重值的線性變換
在生成情感權重詞庫的過程中,研究發(fā)現(xiàn)得到的情感詞語的情感權值較小。利用線性變換進行轉換,計算方法如式(4)所示。
其中,soj(α)′是根據(jù)式(3)計算得到的情感權值;soj(α)是規(guī)劃后的情感詞情感權值;soj(α)′min表示式(3)計算出的所有情感權值中的最小值;soj(α)′max為最大值。
為了驗證所構建的細粒度情感權重詞庫的分類效果,本文研究進行了以下實驗。先使用TF-IWF算法,進行微博情感傾向性計算。然后再把細粒度情感權重詞庫得到的情感詞權重值引入TF-IWF算法,再次進行微博情感傾向性加權計算。通過比較前后的準確率,以驗證該方法的有效性。實驗中對7類情感分別進行了權重詞庫的構建,這里僅列舉了3類情感權重詞庫的構建方法,其余的以此類推。實驗結論適用于7類細粒度情感的情感傾向性的分析判斷。
選取由《知網》提供的情感分析詞語集[8](內含正面情感詞836個,負面情感詞1 254個)作為訓練集生成細粒度情感權重詞庫。用3類關鍵詞“令人高興”、“令人恐懼”和“令人傷心”進行Google中文微博相關主題的搜索(http://blogsearch.google.com.cn),按相關性排序[9-10],再從每類排名靠前的微博中選取主題情感傾向明顯的100篇微博進行抓取作為測試集[11],以此來驗證情感詞庫對于微博情感傾向判別的準確率。測試生成的情感權重詞庫部分內容如表1所示。
表1 細粒度情感權重詞庫部分內容
TF-IWF算法比TF-IDF算法的改進之處在于: TF-IWF算法中用特征頻率倒數(shù)的對數(shù)值IWF代替IDF;TF-IWF算法中采用IWF的平方來平衡權重值對特征頻度的倚重[12]。TF-IWF算法如式(5)所示。
(αi)表示特征項αi在訓練文本Dj中的權重,其中,fij表示特征項αi在訓練文本Dj中出現(xiàn)的頻度;ni為特征項αi在訓練集中出現(xiàn)的次數(shù);N為特征項的個數(shù);i表示測試集與情感權重詞庫匹配的詞語的數(shù)量;j表示每類微博的數(shù)量,取1~100。訓練集{Dj}即微博測試集。這里所說的特征項即情感詞,利用式(5)計算得出情感詞的權重值,表示該情感詞在整個訓練集中的權重值。而這個詞在情感權重詞庫中也對應了一個權重值,因此,為了得到更準確的結果,把兩者進行結合,得到該情感詞的最終情感權重值SOj(αi),利用式(6)計算。
soj(αi)表示情感詞αi在j類情感權重詞庫中的權重值。則該微博在j類情感微博中的情感權重值Wj,利用式(7)計算得出。
利用情感詞庫的詞對測試集進行搜索匹配和權重計算,因此情感詞庫中匹配的情感詞總數(shù)量即為特征項的總數(shù)量,定為M。若該微博在第j類情感微博中取得最大值,則該微博歸類為第j類情感微博。
對上述3類情感的微博測試集進行實驗,得到的準確率如表2所示。
表2 3種細粒度情感微博的判斷準確率 %
以上實驗結果表明,單獨用TF-IWF算法進行情感權重判斷的準確率明顯低于引入細粒度情感權重詞庫以后的準確率。TF-IWF算法的準確率受訓練語料庫大小的限制,訓練語料庫越大準確率越高。細粒度情感權重詞庫的引入使情感特征詞不再受訓練語料庫大小的約束,兩者的結合恰好削弱了這種影響,從而使得判斷準確率得到大幅度提升。
本文提出的細粒度情感權重詞庫構建方法,以義原相似度分析為基礎,通過情感基準詞的義原相似度計算獲得初步的細粒度情感詞庫。整個詞庫生成由計算機進行義原相似度的自動運算、比較并結合人工篩選來完成,具有較高的準確性和適應性,可以推廣到其他的文本特征分類領域。構建的細粒度情感權重詞庫,可以利用其權重值來分析計算句子級、篇章級的文本細粒度情感傾向,為進一步研究細粒度情感傾向分析提供了依據(jù)。下一步將對本文方法進行改進和優(yōu)化,并考慮詞語之間義原的深度和區(qū)域密度分布因素,以進一步提高算法準確率。
[1] 劉 群,李素建.基于《知網》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學研討會論文集.臺北:出版者不詳,2002:59-67.
[2] 蔣 溢,丁 優(yōu),熊安萍,等.一種基于知網的詞匯語義相似度改進計算方法[J].重慶郵電大學學報:自然科學版,2009,21(4):533-537.
[3] 柳位平,朱艷輝,栗春亮,等.中文基礎情感詞詞典構建方法研究[J].計算機應用,2009,29(10): 2875-2877.
[4] 張 彬,楊志曉.基于基準詞的文本情感傾向性研究[J].電腦知識與技術,2011,7(8):1881-1885.
[5] 彭學士,孫春華.面向傾向性分析的基于詞聚類的基準詞選擇方法[J].計算機應用研究,2011,28(1): 114-116.
[6] Ku L W,Lo Y S,Chen H H.Using Polarity Scores of Words for Sentence-level Opinion Extraction[C]// Proceedings of the 6th NTCIR Workshop Meeting.Tokyo,Japan:[s.n.],2007:316-322.
[7] 張清亮,徐 健.網絡情感詞自動識別方法研究[J].現(xiàn)代圖書情報技術,2011,(10):25-28.
[8] 董振東,董 強.知網[EB/OL].(2011-06-23).http:// www.keenage.com.
[9] Kang J H,Lerman K,Plangprasopchok A.Analyzing Microblogs with Affinity Propagation[C]//Proceedings of the 1st KDD Workshop on Social Media Analytic.New York,USA:ACM Press,2010:67-70.
[10] Ramage D,Dumais S,Liebling D.Characterizing Microblogs with Topic Models[C]//Proceedings of International AAAI Conference on Weblogs and Social Media.Menlo Park,USA:AAAI Press,2010:130-137.
[11] Kaji N,Kitsuregawa M.Building Lexicon for Sentiment Analysis from Massive Collection of HTML Documents[C]//Proceedings of EMNLP-CoNLL 2007.Prague,Czech:[s.n.],2007:1075-1083.
[12] 宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學出版社,2008.
編輯 金胡考
Construction Method of Fine-grained Emotion Thesaurus with Weight Factor
HUANG Gaofeng1a,ZHOU Xueguang1a,LI Juan1b,LIU Hua2
(1a.Information Security Department;1b.Computer Engineering Department, Naval University of Engineering,Wuhan 430033,China;2.75753 Troops,Guangzhou 510600,China)
Emotion thesaurus plays an important role in the text sentiment analysis,but it is particularly inadequate in the analysis of fine-grained emotions such as human emotions.To solve this problem,this paper presents a fine-grained emotion thesaurus construction method via the calculation of sememe similarity,and finishes the construction of seven sorts of thesaurus.Based on this work,this paper researches on the calculation method of the weight of fine-grained emotion words,and proposes a new weight calculation method of emotion words.Finally,this paper finishes the construction of seven sorts of thesaurus with weight value.Experimental results show that the introduction of the finegrained emotion thesaurus with weights can make the accuracy rate of the text emotional tendencies increased by about 5%.
sememe similarity;emotion;fine-grained emotion;weight calculation;weight factor;thesaurus construction
1000-3428(2014)11-0211-04
A
TP391.1
10.3969/j.issn.1000-3428.2014.11.041
國家自然科學基金資助項目(611100042)。
黃高峰(1979-),男,講師、CCF會員,主研方向:網絡輿情分析,自然語言處理;周學廣,教授;李 娟,副教授、博士研究生;劉 華,工程師、碩士。
2013-12-05
2014-02-10E-mail:huanggaofeng@163.com
中文引用格式:黃高峰,周學廣,李 娟,等.具有權重因子的細粒度情感詞庫構建方法[J].計算機工程,2014, 40(11):211-214.
英文引用格式:Huang Gaofeng,Zhou Xueguang,Li Juan,et al.Construction Method of Fine-grained Emotion Thesaurus with Weight Factor[J].Computer Engineering,2014,40(11):211-214.