顏明陽 閆國梁 李明蘭
1(濟寧學院初等教育學院 山東 曲阜 273100) 2(中訊郵電咨詢設計院有限公司 北京 100000) 3(青島大學數學與統(tǒng)計學院 山東 青島 266071)
Relevant features
情感是一個會影響人的推理、決策制定和交互的重要因素,雖然情感具有主觀性,但會以可推斷的客觀方式出現(xiàn)在文本中。情感分析[1]涉及到自然語言表達的計算研究,以識別語言表達與不同情感(如憤怒、恐懼、悲傷和驚訝等)之間的關聯(lián)[2]。
情緒分析廣泛應用于量化和分類用戶在文本中所表達的意見傾向[3]。如Vytal等[4]在心理學文章中提出了情感理論,同時還提出了兩種情感建模方法,及一些情感分類的特征表示。龔安等[5]提出一種針對評論文本的多特征融合的情感分類算法。該方法能讓機器學習算法更加充分地利用規(guī)則特征,獲得更好的分類性能、進一步提高分類精度。Dash等[6]設計了例如n-gram位置特征和詞性(Part of Speech, POS)標注特征,以擴充用于微博情感分類的通用n-gram。對于微博的情感分類,Milani等[7]證明與基于GPEL的特征相比,基于DSED的特征利用逐點互信息(Point-by-point Mutual Information, PMI)能夠在n-grams上提供顯著收益,但是使用DSED的特征提取的研究被局限在二元分類計數的范圍內。李向前等[8]對商品評論進行情感分析,得到某件商品各個方面的優(yōu)劣情況,從而提出利用三層CRF模型進行情感極性分類及強度分析,融合了詞、詞性、語氣詞、程度詞和評價詞的共現(xiàn)等特征。此外,監(jiān)督式LDA[9](sLDA)能提供更準確的分類建模和詞典生成方式,該方法可以將情感分類作為主題進行建模。
現(xiàn)有的通用情感詞典(General Purpose Emotion Lexicons, GPEL)通過人工操作將Ekman和Plutchik提出的情感類別與詞語關聯(lián)在一起,但是GPEL對傳達情感的詞語所在的上下文背景的建模較差。近期的情感分析研究關注于在特定領域上學習的詞典[10],以及利用此類詞典進行特征提取。然而,情感特征提取[11]局限為使用詞典對文檔中的情感詞進行簡單計數,這個方法很簡單,但未能全面利用詞典知識。
本文擴展了領域特定情感詞典(Domain Specific Emotion Dictionary, DSED)的生成方法,以進行特征提取。所提方法在特征提取中使用了DSED提供的知識,而非簡單的詞語計數。提出的特征提取方法利用DSED捕捉到情感豐富的知識,使用機器學習提取特征將文本分入不同的情感類別。在基準情感分類數據集上,對本文方法提取出的情感特征的有效性進行了比較分析和評價。
本文用于情感分類的特征提取過程如圖1所示。可以看出,所提方法利用在訓練文檔上學習到的DSED知識,提取出基于詞典的特征。詞性標注、情緒詞典和GPEL作為提取情感分類相關特征的外部資源。
圖1 特征提取和情感分類器學習
一個GPEL可表示為Lex(w,j),是每個情感類別的一個詞語列表:
(1)
式中:List(ej)表示與GPEL中第j個情感相對應的詞語列表。與GPEL不同,DSED將詞匯表V中的詞語與一組預定義的情緒E間的關聯(lián)進行量化。對于任何一個給定的詞w,通過詞典計算出該詞語所表達的主導情感e:
(2)
本文使用生成的一元混合模型(UMM)對詞語的情感性和中立性進行聯(lián)合建模,從情感標簽文件的語料庫中習得DSED。對包含情感的詞語和情感中立(背景)詞語混合在一起的真實情感數據進行建模。所提生成模型通過式(3)的形式,來描述隱含著情感et的文檔生成:
(Zw)(1-λet)P(w|N)]c(w,di)
(3)
式中:θet為情感語言模型;N為背景語言模型;λet為混合參數;Zw為二元隱藏變量,表示生成詞語w的語言模型(θet或N);c(w,di)表示詞w在文件di中的出現(xiàn)次數。
使用期望最大化(Expectation Maximization, EM)完成對參數θet和Z的估計,EM通過在E-步驟和M-步驟之間交替迭代地對整個數據(Det,Z)進行最大化。E-步驟和M-步驟分別如下:
E-步驟:
(4)
M-步驟:
(5)
式中:n表示EM迭代次數。EM用于估計與E中的情緒對應的k個混合模型參數。通過使用k個情感語言模型和背景模型N,習得情感詞典UMMlex:
(6)
(7)
式中:k為語料庫中的情感數量;UMMlex是一個|V|×(k+1)矩陣。所提UMM詞典的一個樣例如表1所示。可以看到,非標準的創(chuàng)造性表達在社交媒體上被廣泛用于傳達情感。此類表達常會加強文本的情感性。對這樣的表達進行建模,對于社交媒體情感分析來說至關重要。因此,在文本預處理階段,情感符號(如“:)”)和序連表示(如“好的!!”)被標記為單個詞語,以捕捉其與不同情感之間的關聯(lián)。
表1 UMM詞語-情感詞典的樣例
本文所有基于詞典的特征向量長度均為|E|,|E|表示一個數據集中情感類別的數量。本文考慮以下文檔表示的特征:
(1) 情緒總計數[7](TEC):該特征捕捉一個文檔中與某種情緒相關聯(lián)的詞語數量。給定一個文檔d,其對應的特征向量表示為dTEC,則第j個情感的特征值計算如下:
(8)
式中:I(·)是一個指標函數,當論證為真時,值為1,為假時,值為0;count(w,d)表示文檔d中詞語w的出現(xiàn)次數。TEC表示對詞典指示出的一個詞流行情感語境進行捕捉。然而,并不是所有詞都只關聯(lián)到單個情感。因此,有必要開發(fā)出能夠體現(xiàn)一個詞語與多個情感間關系的特征。
(2) 情緒總強度(TEI):文檔中詞語的情感強度得分之和,本文使用DSED給出的詞語級情感強度得分,以捕捉沿著多個情感概念的文檔情感走向。假設dTEI是與文檔d相對應的特征向量,第j個情感的特征值計算為:
(9)
(3) 最大情感強度(MEI):情緒分析研究表明,情緒色彩較強的術語可以明顯表明文檔的情緒分類。因此,本文考慮了給定文檔中情感色彩強烈的強度得分。具體如下:給定一個文檔d,及其相應的特征向量dMEI,則第j個情感的特征強度值計算為:
(10)
(4) 分級情感計數[12](GEC):本文通過開發(fā)TEC和TEI的變體,對利用高強度情感詞語提取文檔表示特征的理念進行了擴展。由于本文的DSED對每個詞語和情緒集合間的關聯(lián)以概率分布的形式進行了量化,因此強度得分將始終處于區(qū)間[0,1]中。本文將該區(qū)間分為4個分區(qū)間,分別為[0,0.25)、[0.25,0.5)、[0.5,0.75)和[0.75,1]。使用上述三個閾值從DSED中提取出GEC特征。給定一個文檔d,及其相應的特征向量dTEC,則第j個情緒的特征值計算為:
(11)
(5) 分級情感強度(GEI):本文開發(fā)了TEI的變體即GEI,是一個文檔中超過了閾值δ的詞語強度得分之和。給定一個文檔d,及其相應的特征向量dGEI,第j個情感的特征值計算為:
(12)
在提升情感分類性能時本文考慮以下特征:
1) n-grams(n=1):在不同的分類任務,包括情緒分類中使用最標準的語料庫級特征[13]。本文使用二元加權(存在/不存在)以構建特征向量,其有效性已經在文獻[13]中得到了驗證。
2) 詞性(POS)特征:利用該特征對動詞、副詞、名詞和形容詞在文檔中的出現(xiàn)進行建模,使用標準POS標注器完成非社交媒體數據集上的詞性標注,同時使用微博NPL工具進行社交媒體數據集的詞性標注。
3) 上下文特征(CF):雖然標準詞語能夠傳達作者的情感傾向,但額外的表達,例如標點符號和情感符號在社交媒體上經常被用于表達情感[14]。此外,包含情緒的詞語可以表示文本中的情感,并將文本的情感走向從正面情感(例如快樂)轉變?yōu)樨撁媲楦?例如悲傷),反之亦然。因此上下文特征也是一個非常重要的特征,具體涵蓋以下要素:
(1) 大寫單詞:該特征對文檔中所有帶大寫字符的詞語進行計數。
(2) 拉長詞:該特征對帶有兩次、三次或四次重復字符的詞語進行計數。例如單詞“haaappy”。
(3) 標點:社交媒體上使用感嘆號或問號會增強情感。本文加入了對文檔中問號和感嘆號的出現(xiàn)進行建模的兩個特征。
(4) 情感符號:情感符號是捕捉到的面部表情的圖像形式,且在社交媒體上常被用于情感傳達。為此,本文設計了一個二元特征,對文檔中情感符號的存在/不存在進行建模。
(5) 否定詞:雖然在情感分類中否定詞的作用尚未得到大量研究,但因為其在情緒分類中有一定作用,本文納入了一個特征,對文檔中否定詞的出現(xiàn)進行建模。
所提方法利用在訓練文檔上學習到的DSED知識,提取出基于詞典的特征。詞性標注、情緒詞典和GPEL作為提取情感分類相關特征的外部資源。實驗中的“領域特定”指的是新聞標題、微博、博客3個方向領域。
3.1.1新聞標題數據集(SemEval-2007)
該數據集中包含1 250條具有情感類別的新聞標題,用于評價情感和詞匯語義間的聯(lián)系。每個標題均給出了Ekman基本情感的情感評分,得分區(qū)間是[-100,100]。將每個標題得分最高的情感作為類標簽,以此對該數據集進行情感分類。訓練集和測試集中不同情感類別的分布如表2所示。該數據集相對較小,類別分布較為不平衡。該數據集可適用于多種情感分類方法的研究,且數據集易于擴展,貼近實時消息。
表2 新聞標題的情感數據集
3.1.2微博數據集
本文使用文獻[15]所提的微博識別方法,從微博搜索API中采集了280 000條情感性微博作為微博數據集。本文使用該數據集進行情感分類時,進行10次交叉驗證。表3給出了不同情感類別在10次驗證后的平均分布情況??梢钥闯?,該數據集相對較大,情感分布并不均衡。例如,與恐懼、驚訝相比,快樂、悲傷等情感的占比更多。不同文檔表征在這個分類不均衡的數據集上的性能表現(xiàn)是很有研究價值的。
表3 微博情感數據集
3.1.3博客數據集
博客數據集中包含3個注釋者以Ekman基本情感[16]進行注釋后的5 500個博客語句。注釋者之間平均共識率約為0.76。表4給出了5次驗證后不同情感類別的平均分布??梢钥闯?,“快樂”情感在該數據集中占比極高,數據集規(guī)模較小。因此對于占比較小的情感例如恐懼和驚訝等的建模是有挑戰(zhàn)性的。該數據集可用于研究占比較小的情感建模。
表4 博客情感數據集
在比較研究中,本文使用了以下文檔表征:
(1) 基準情感特征;
(2) 使用基準GPEL提取出的TEC特征;
(3) 使用PMI[7]、CRF[8]和sLDA[9]生成的基準DSED中提取出的TEC、TEI、MEI、GEI和GEC特征;
(4) 使用本文所提的DSED提取出的TEC、TEI、GEI和GEC特征;
(5) 通過結合性能最優(yōu)的基線特征和基于詞典的特征得到混合特征。
本文在所有情感分類實驗中均使用了一個多類別SVM分類器,采用的是線性SVM。不同于RBF核的SVM,線性SVM機只需要調節(jié)正則化參數C,起始范圍設為[0.1,10],根據模型表現(xiàn),細化搜索區(qū)間。對于本文,正則化參數C的值設為3.6較為合適。
在所有情感分類任務中,使用F1-得分度量和準確率進行性能評價。
3.3.1基線特征的性能
本文從n-grams開始并遞增式地加入特征組(例如POS)完成基線特征的情感分類實驗?;€特征在4個基準數據集上得到的結果如表5和表6所示??梢钥闯觯琻-grams與詞性(POS)特征的結合未能顯著提升分類性能;POS特征的低效性表明,情感以更隱性的方式表達。
表5 基線特征在不同數據集上的F1得分(%)
表6 基線特征在不同數據集上的準確率(%)
n-grams與上下文特征結合時,性能優(yōu)于n-grams與POS特征的結合。但這一結合的分類性能并非始終優(yōu)于只使用n-grams的情感分類性能。這表明,否定詞等實體的簡單計數不能直接擴展到情感分類任務中,這也證明了語料庫特征的局限性。
3.3.2基于詞典的特征性能
圖2-圖4分別給出了使用基于詞典的特征在SemEval-07、微博和博客數據集上的情感分類結果。可以看出,從DSED提取出的特征顯著優(yōu)于使用GPEL提取出的特征。TEI和MEI特征始終優(yōu)于GEI和GEC特征。該結果符合預期,因為GEI和GEC特征僅利用來自DSED的高強度情感詞語,導致覆蓋率下降。在使用GEI、GEC特征的所有數據集上,當閾值從δ1至δ2再至δ3增加時,得到性能退化的總體趨勢。使用sLDA[9]和CRF[8]的生成性模型不能有效對真實世界情感數據的特點進行建模,影響了提取出的特征質量。雖然在基線方法中PMI[7]性能最優(yōu),但所提的DSED能夠有效捕捉詞語和多個情感之間的關聯(lián),提升文本的特征提取的質量,且能夠在情感詞語和中立詞語之間進行區(qū)分,提升使用詞典知識提取特征的質量。
圖2 在SemEval-07數據集上的總體性能
圖3 在微博數據集上的總體性能
圖4 在博客數據集上的總體性能
3.3.3混合特征性能
混合特征向量是通過結合K維基線特征向量和E維基于詞典的特征向量得到的K+E維特征向量。本文對基線特征和基于詞典的特征相結合的混合特征進行實驗。以博客數據集為例,表7和表8分別給出了使用混合特征情感分類結果的F1得分和準確率??梢钥闯?,本文所提的UMM詞典推導出的特征,在結合n-grams后,總體上性能優(yōu)于僅使用n-grams特征,以及其他的混合特征。此外,博客數據集上驚訝和悲傷情感的分類性能顯著優(yōu)于僅使用n-gram特征,總體F1得分和準確率也較高。這說明了高質量詞典能夠為機器學習分類器提供有效知識,從而近距離捕捉該領域的情感上下文。
表7 混合式特征情感分類的F1得分(%)
表8 混合式特征情感分類的準確率(%)
本文使用領域特定詞典和通用情感詞典對情感特征提取問題進行了研究。所提方法在特征提取中使用了DSED提供的知識,而非簡單的詞語計數。應用了一元語法混合模型,量化情感性詞語和中立性詞語,提取情感特征。實驗結果表明所提DSED知識提取出的特征顯著優(yōu)于從GPEL提取出的特征。此外,所提的特征與現(xiàn)有特征的混合性能顯著優(yōu)于n-gram特征,以及n-gram與基于詞性信息等相結合的混合特征。
高質量詞典能夠為機器學習的分類器提供有效知識,從而更好地捕捉情感上下文。因此,未來本文將進一步研究DSED的優(yōu)化形式。另外,本文還將利用所提DSED知識,開發(fā)用于分析社交論壇(如校園BBS、豆瓣等)中用戶的情感簽名的分類系統(tǒng),預測用戶潛在情感。