戴 敏,朱 珠,李壽山,周國棟
(蘇州大學 計算機科學與技術學院自然語言處理實驗室, 江蘇 蘇州 215006)
?
面向中文文本的情感信息抽取語料庫構建
戴 敏,朱 珠,李壽山,周國棟
(蘇州大學 計算機科學與技術學院自然語言處理實驗室, 江蘇 蘇州 215006)
情感信息抽取是情感分析中的一個重要子任務。雖然該任務已經(jīng)開展有一段時間,但是面向中文文本的情感信息抽取任務研究才剛剛起步。目前中文文本的情感信息抽取面臨的首要困難在于現(xiàn)有的相關中文語料庫還非常有限。為了更好開展中文文本的情感信息抽取研究,該文重點研究了中文語料標注體系,構建一個規(guī)模較大、標注類型豐富的中文情感信息抽取語料庫。除了常見語料庫標注的情感傾向性、評價對象、情感詞等信息外,重點標注了評價對象的省略、無情感詞情感句表達及極性轉移等情況。由語料信息統(tǒng)計可知,該文所指出的特殊現(xiàn)象(例如,評價對象的省略)在中文情感表達中是非常普遍的,開展這方面的研究很有必要。該文所構建的中文文本語料庫將為中文情感信息抽取任務提供語料基礎。
情感分析;情感信息抽??;中文語料庫
隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,愈來愈多的人們從被動接受信息轉變?yōu)橹鲃影l(fā)布信息。互聯(lián)網(wǎng)用戶可以通過處理這些富含情感色彩的文本來了解公眾對于某個產品或某個事件的看法、評價等。但是,隨著這類信息的迅速膨脹,單靠人工方法來處理無疑是非常困難的,情感分析便應運而生了[1-3]。情感分析又稱意見挖掘(Opinion Mining),是借助計算機幫助用戶快速獲取、整理和分析相關評價信息,對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。它包含了一系列的子任務,如主客觀分類、情感傾向性分類、情感信息抽取、情感信息檢索、情感信息歸納等[2]。這些子任務的研究具有廣泛的應用價值和理論研究價值。
情感信息抽取,作為情感分析的一個重要子任務,旨在抽取情感文本中有價值的情感信息,是一種關于細粒度文本的情感分析。該任務在近年來受到了廣大學者的關注,相繼出現(xiàn)了大量的抽取方法[4-7]。而隨著基于監(jiān)督學習的情感信息抽取方法研究的開展,監(jiān)督學習方法表現(xiàn)出了其良好的任務獨立性和抽取性能[8-9]。因此,基于監(jiān)督學習的情感信息抽取方法是情感信息抽取方法研究的一種趨勢[10-11]。而基于監(jiān)督學習的情感信息抽取方法需要依靠大量的人工標注語料作為基礎,因此,語料庫建設問題也成為情感信息抽取任務中的一個重要研究方面。
隨著網(wǎng)絡在中國的普及,越來越多的中文評論文本的出現(xiàn),解決面向中文文本的情感信息抽取任務的需求日益增多。目前,面向中文文本的情感信息抽取任務的研究較少,相應的語料資源較匱乏。因此,建設一個規(guī)模較大的、標注類型豐富的中文情感信息抽取語料庫是目前中文情感信息抽取任務的一個重點。
此外,已有的中英文語料庫所標注的信息都忽視了一些表達特點,而這些情況本身也具有一定的研究價值。如以下例句:
例1 我很喜歡,很好看。
例2 這個電影,哎,都看的睡著了。
例3 前臺服務員態(tài)度不是很好。
三個例句都表達了評論作者的情感傾向,但是較以往處理的情感信息抽取問題有其特殊性。如例句1中,作者所表達的情感傾向是正面的,有著明顯的情感詞“喜歡”,“好看”,但評價對象在句中未有出現(xiàn);例句2中的評價對象為“這個電影”,雖然句子表示了這個電影不好看的含義,但并沒有情感詞出現(xiàn);例句3中由于否定詞“不”的出現(xiàn),整句話的情感傾向相對句中情感表述“好”所表達的情感傾向發(fā)生了翻轉。
本文分別稱這三種現(xiàn)象為評價對象的省略現(xiàn)象、隱含情感及情感極性轉移現(xiàn)象。這三種現(xiàn)象同情感信息抽取任務密切相關,對情感信息抽取任務的完成造成了一定的影響。例如,現(xiàn)有的評價對象抽取方法部分依賴于評價對象與情感詞的關系來幫助抽取評價對象[9-10],若句中無情感詞,一些之前表現(xiàn)良好的特征便不適用了。情感極性轉移現(xiàn)象會使整句的情感傾向相對于情感詞的情感傾向發(fā)生反轉等。而其中評價對象的省略現(xiàn)象也是中文文本的一個非常特殊的表達現(xiàn)象。因此,在建設新的中文情感信息抽取語料庫時,考慮以上的現(xiàn)象是有必要的。本文將面向中文文本標注一個用于情感信息抽取任務的大規(guī)模語料。該語料的特色在于,除了包括了一些傳統(tǒng)的情感信息,例如,評價對象、評價詞等,還包括了評價對象的省略現(xiàn)象、隱含情感及情感極性轉移現(xiàn)象的標注。
本文結構組織如下: 第二部分介紹現(xiàn)有的相關中英文語料庫;第三部分介紹本文提出的語料標注體系;第四部分給出語料庫的部分統(tǒng)計信息;第五部分給出結論。
近年來,為了推動情感分析技術的發(fā)展,國內外一些研究機構組織了一些公共評測,為情感分析的方法研究提供統(tǒng)一的平臺。如國際文本檢索會議TREC Blog Track*http://trec.nist.gov/tracks.html任務、NTCIR*http://research.nii.ac.jp/ntcir/index-en.html的情感分析評測,國內近期的COAE評測[12-14]等。此外,也有研究單位和個人提供了一定規(guī)模的語料,如麻省理工學院(Massachusetts Institute of Technology)的Barzilay等人構建的多角度餐館評論語料等。下面分別介紹一些現(xiàn)有英文語料庫和中文語料庫的情況。
2.1 英文語料庫
DSRC語料是一個較著名的關于情感信息抽取的英文語料,來源于德國達姆施塔特工業(yè)大學(Technische Universit?t Darmstadt)的Ubiquitous Knowledge Processing(UKP)Lab,包含了services和universities兩個領域的234和256篇評論文本。該語料是對評論文本在句子級以及表達級(Expression Level)上的意見相關(Opinion Related)信息的較為詳細標注,其中主觀句標注了四種情感信息類別(觀點持有者、評價對象、修飾詞、評價詞)。文獻[15]詳細描述了DSRC語料的標注規(guī)范。DSRC語料用MMAX2標注工具標注,組織成MMAX2的工程結構。
此外,英文的情感抽取語料還包括Zhuang[7]的影評語料。該語料來源于IMDB,其中包含了對20個不同電影的評論,每個電影抓取了100條評論,共有2 000篇評論文本,去重后有1 829篇影評。相比于DSRC語料而言,該語料標注體系較為簡單。語料以XML的格式組織,以句子為情感標注單元。對于含有評價對象/觀點對(Feature/Opinion pair)的句子(主觀句)作標注。在標注結果中,標注信息用一個四元組表示,分別代表評價對象、評價對象類別、評價詞語和評價的情感極性。
2.2 中文語料庫
相對于英文語料,有關中文情感信息抽取的語料標注起步稍晚了一些。隨著近幾年的迅速發(fā)展,也相繼出現(xiàn)了一些標注語料。
在近幾年的舉辦的COAE(Chinese Opinion Analysis Evaluation)評測[12]中,設置了關于“評價對象”識別的一項評測任務,相應有部分標注語料。在2011發(fā)布的評測語料里面,共包含三個領域,分別是電子、娛樂和財經(jīng)。每個領域有2 000個文檔用于“評價對象”的識別,識別的結果用一個三元組表示,分別是句子中觀點的評價對象、評價短語和對該評價對象的觀點極性。而2012~2013年的評測[13-14]中設置了比較句的識別與要素抽取的任務,此任務分為兩個部分,首先識別句子是否為比較句,然后在識別出的比較句中抽取出比較實體、實體要素及情感傾向性。COAE2012~2013發(fā)布的此項任務的評測語料均包含電子和汽車兩個領域,其中2013的評測語料中每個領域有約500句為比較句,并針對比較句標注其中的比較對象、商品屬性、觀點傾向性等信息。2013年的評測中還加入了微博觀點句要素抽取任務,語料規(guī)模為12 000篇,要求從中識別出觀點句,然后從識別出的句子中抽取相應的評價對象,被評價的產品屬性以及相對應的觀點傾向性。
此外,2012年舉辦的nlp&cc評測為中文微博情感分析任務,評測的對象是面向中文微博的情感分析核心技術,包括觀點句識別、情感傾向性分析和情感要素抽取,相應的有部分標注語料。其中任務三“情感要素抽取”要求找出微博中每條觀點句作者的評價對象,即情感對象,同時判斷針對情感對象的觀點極性。在2012年發(fā)布的評測語料中,包含了十個話題的中文微博語料,每個話題有100個標注文檔。
另一個比較著名的語料是NTCIR 提供的標準測試集,其中中文簡體語料共包含255個文檔,4 877個句子,其中被標為情感句的有1 102個,標注的其他信息包括評價對象、觀點持有者、情感極性。
由此可見,可用于中文情感信息抽取的語料庫規(guī)模較小,且大多僅關注了情感傾向性、評價對象等信息,標注情況簡單。本文將在考慮了前文所述的三種表達情況下,重點標注評價對象的省略現(xiàn)象,構建一個更完整的規(guī)模更大的中文情感信息抽取語料庫。
構建好的情感信息抽取標注語料是實現(xiàn)性能更佳的學習系統(tǒng)的基礎。因此,我們考慮構建一個中文情感信息抽取語料庫。除了標注句子的情感極性,句中出現(xiàn)的評價對象和情感詞,我們還考慮了以下幾種信息: 評價對象和情感詞的對應關系;評價對象的省略現(xiàn)象;情感句中情感詞未出現(xiàn)的情況(隱含情感)及情感極性轉移現(xiàn)象。
本節(jié)將重點介紹標注體系的設計,分為標簽設置和標注過程兩個方面進行闡述。
3.1 語料庫標簽設置
本標注體系共設置了四類標簽來覆蓋上文所提到的標注信息,以篇章為單位進行語料標注。示例文檔給出了一篇已標注完成的語料,其中第二、三兩句分別存在評價對象的指代和省略現(xiàn)象,第四句中存在隱含情感的現(xiàn)象。下面將結合示例詳細闡述本標注體系的標簽設置。
示例文檔:
1.這次我們選擇住在了
第一類標簽: 主要作用為標注句子的情感傾向性。標注位置在句首。標簽表示方法及代表含義如表1所示。例如: 示例中第二、三兩句的情感極性為正面的,因此標注為<+P>。
第二類標簽: 標注評價對象,并為文中出現(xiàn)的評價對象計數(shù), 便于省略和指代現(xiàn)象的表示。標注位置為句中評價對象出現(xiàn)的位置。標簽表示方法及代表含義如表2所示。
表1 句子情感極性標簽的表示和說明
為了便于表示情感詞和評價對象的關系,及評價對象的省略與指代現(xiàn)象,需要對文檔中出現(xiàn)的評價對象依次計數(shù),以標簽中的“tgtNUM”表示。因此表2中三個標簽內的“tgtNUM=n”均表明此評價對象為文中的第n+1個評價對象,如示例最后一句中的“早餐”是整個文本中出現(xiàn)的第三個評價對象,因此tgtNUM=2。而表中的
表2 評價對象標簽的表示和說明
第三類標簽: 作用是標注情感詞,同時以編號指出此情感詞所評價的對象,當評價對象沒有在本句中出現(xiàn)時,便發(fā)生了評價對象的省略情況。當此句中無明顯情感詞時,便為隱含情感。標注位置分別有在句中標注和在句末標注的兩種情況。標簽表示方法及代表含義如表3所示。
這一類標簽以
表3 情感詞標簽的表示和說明
第四類標簽: 標注修飾詞。標簽表示方法及代表含義如表4所示。其中標簽
表4 修飾詞標簽的表示和說明
以上內容詳細介紹了本標注體系設計的四類標簽。標簽可以表示的內容充分覆蓋了本節(jié)開始所提到的計劃標注的信息,并重點標注了評價對象的省略情況,此標注內容也將作為接下來研究的重點。
3.2 語料庫標注流程
本文構建的中文情感信息抽取語料庫的標注過程大致分為兩個部分: 首先進行句子級別的情感傾向性標注;然后對情感句進行細粒度的標注,先后標注評價對象、情感詞和修飾詞。情感句的細粒度標注是本標注體系的重點,標注過程較為繁瑣,工作量大。為便于理解,圖1展示了其中評價對象和情感詞的標注過程。
情感句的細粒度標注過程中,首先需要標注評價對象,第一步要判斷句中是否有評價對象。如果無評價對象出現(xiàn),則表明句中出現(xiàn)了省略現(xiàn)象,留待稍后標注;若出現(xiàn)評價對象,則進行下一步,關注評價對象是否為代詞,若為代詞則需要標注出指代的評價對象實體。
然后標注情感詞,同樣首先判斷句子中是否存在情感詞。如果句中含有情感詞,則進一步尋找情感詞所評價的對象,關注是否存在評價對象的省略現(xiàn)象,以及省略的對象是否在上下文中出現(xiàn);如果句中不含有情感詞,即隱含情感現(xiàn)象,同樣也關注是否存在評價對象的省略現(xiàn)象,省略的對象是否在上下文中出現(xiàn)這些內容,而標注位置在句末。
以上是對本標注體系的標簽設計及標注過程的詳細介紹。由此可以看出,此語料庫重點標注了評價對象的省略,隱含情感及極性轉移等現(xiàn)象。這三種情況能夠影響情感信息抽取的結果,具有一定的研究價值,而其中的評價對象省略現(xiàn)象更是中文文本的一個特有表達,是中文文本的評價對象抽取任務的一個難點。而本文所設計的標注體系為今后的這一類問題提供了標注方法,根據(jù)此體系標注完成的語料庫能夠為中文評價對象的省略現(xiàn)象的進一步研究提供充分的語料資源。
圖1 評價對象和情感詞標注流程
本節(jié)將重點給出本語料庫的相關統(tǒng)計數(shù)據(jù),以此說明本文提出的三類現(xiàn)象在情感文本中的發(fā)生比例,及本語料庫在未來中文情感信息抽取任務方面的應用價值。
在標注過程中,共有兩個標注人員參與標注,并且在標注過程中不斷討論完善標注標準,盡量避免爭議較大的標注。我們采用了Cohen’kappa[16]值作為衡量語料標注一致性的指標,兩個標注人員標注結果的Kappa值為72.62%。
本文將所設計的語料體系應用到三個領域的產品評論語料中,分別是筆記本、賓館和化妝品。為表述方便,將以NB、Hotel、Beauty分別代表筆記本、賓館和化妝品三個領域。標注過程以文檔為單位,保留上下文信息。標注內容反映了以下情感信息:
1. 句子的情感傾向性;
2. 情感句中出現(xiàn)的評價對象;
3. 情感句中出現(xiàn)的情感詞;
4. 情感詞與評價對象的對應關系;
5. 作為評價對象的代詞所指代的實體;
6. 情感句中未出現(xiàn)評價對象的現(xiàn)象,并指出了所省略的評價對象;
7. 情感句中未出現(xiàn)情感詞的現(xiàn)象;
8. 情感詞的修飾詞,重點反映了極性轉移現(xiàn)象。
表5為語料庫的情感傾向性信息統(tǒng)計。NB領域標注了2 000篇文檔,其中褒義句和貶義句各2 015、2 038句;Hotel領域標注了1 000篇文檔,其中褒義句和貶義句各1 171、2 587句;Beauty領域標注了2 000篇文檔,其中褒義句和貶義句各1 518、1 157句。由數(shù)據(jù)可知,我們標注的三個領域的語料含有豐富的帶有情感色彩的文本,這些標注文本可以有效地幫助情感傾向性分類任務。
表5 情感傾向性信息統(tǒng)計
表6統(tǒng)計了評價對象和情感詞的信息。以NB領域為例,2 000個文本中共有5 167個評價對象,評價對象的平均長度為1.76詞/個,平均每個文檔中有2.85個評價對象;共有情感詞6 512個,平均每個文檔中有3.26個情感詞。由表6可以得到其他兩個領域的相關信息。鑒于目前已有的中文情感信息抽取語料庫的局限,這些大量標注文本可以用于中文情感信息抽取任務的研究,尤其是基于監(jiān)督學習的評價對象抽取方法研究。
表6 評價對象及情感詞信息統(tǒng)計
表7反應了本文中所重點提出的三類現(xiàn)象在語料中的出現(xiàn)情況。在NB領域中,含有省略評價對象的句子共1 082句,情感句中未出現(xiàn)情感詞的句子數(shù)為854,出現(xiàn)否定轉移的句子數(shù)為596句,分別占情感句總數(shù)的26.69%、21.07%和14.71%。由此可見,這三種情況在中文表達中較為常見,有值得進一步研究的價值。而本語料庫重點標注了這三種情況,是進行下一步研究的良好的語料基礎。
表7 含有特殊表達的句子數(shù)
由以上統(tǒng)計數(shù)據(jù)可以看出,本文所構建的中文情感信息抽取語料庫不僅能夠為一些常見的中文情感信息抽取子任務如評價對象抽取、評價詞語抽取等提供豐富的語料支持,也為后續(xù)對本文所提到的評價對象的省略、隱含情感及情感極性轉移等現(xiàn)象的研究完成了語料準備。
本文使用了一部分語料進行了評價對象抽取任務的基本實驗。采用Jakob等[9]的方法為模板,即將評價對象抽取建模成序列標注問題,使用條件隨機場模型CRFs實現(xiàn)評價對象的抽取,實驗對于特征部分僅采用詞形和詞性兩個基準特征。其中詞形表示當前單詞的字符串特征,詞性表示當前單詞的詞性標記特征。
在本實驗中,條件隨機場模型的實現(xiàn)采用CRF++,使用默認參數(shù),詞與詞性的窗口大小為3。評價指標采用P(Precision)、R(Recall)、F1(F1-Measure)。訓練集和測試集均為500個句子。表8為三個領域的評價對象抽取實驗結果。
表8 評價對象抽取實驗結果
實驗結果顯示,本文所標注的語料在評價對象抽取任務中已能達到較好的效果,如三個領域的評價對象抽取的Precision值均在70%左右,與英文語料采用相同特征與方法的結果[9]相比較好,可能是由于本文的標注體系較英文語料更完善。
本文設計了一套中文情感信息抽取語料庫的標注體系,除了標注常見的句子情感極性、情感詞、評價對象等信息以外,還重點考慮了情感表達中的評價對象省略、隱含情感及極性轉移等現(xiàn)象。統(tǒng)計結果表明,這幾種情況在中文表達中較為常見,有值得研究的價值。本文通過對三個領域的產品評論語料的標注,為下一步的基于監(jiān)督學習方法的中文信息抽取方法研究提供了一定的基礎。語料中所重點標注的評價對象的省略現(xiàn)象等也將作為后續(xù)工作進行進一步的研究。*本文所述語料將在論文發(fā)表后在實驗室網(wǎng)站公布
[1] Pang B, Lee L. Opinion Mining and Sentiment Analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1-2) :1-135.
[2] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of EMNLP-02. 2002: 79-86.
[3] 宗成慶. 統(tǒng)計自然語言處理[M]. 北京: 清華大學出版社,2008:1-475.
[4] Kim S, Hovy E. Extracting Opinions, Opinion Holders, and Topics Expressed in Online News Media Text[C]//Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text. 2006: 1-8.
[5] Ku L, Liu I, Lee C, et al. H. Sentence-Level Opinion Analysis by CopeOpi in NTCIR-7[C]//Proceedings of NTCIR-7 Workshop. 2008.
[6] Hu M, Liu B. Mining Opinion Features in Customer Reviews[C]//Proceedings of AAAI-2004. 2004: 755-760.
[7] Zhuang L, Jing F, Zhu X. Movie review mining and summarization[C]//Proceedings of CIKM-2006. 2006: 43-50.
[8] Li B, Zhou L, Feng S, et al. A Unified Graph Model for Sentence-based Opinion Retrieval[C]//Proceedings of ACL. 2010:1367-1375.
[9] Jakob N, Gurevych I. Extracting Opinion Targets in a Single and Cross-Domain Setting with Conditional Random Fields[C]//Proceedings of EMNLP-2010. 2010: 1035-1045.
[10] 王榮洋,鞠久朋,李壽山,等. 基于CRFs的評價對象抽取特征研究. 中文信息學報[J],2012,26(2): 56-61.
[11] Li S, Wang R, Zhou G. Opinion Target Extraction using a Shallow Semantic Parsing Framework[C]//Proceedings of AAAI 2012. 2012:1671-1677.
[12] 趙軍,許洪波,黃萱菁,等. 中文傾向性分析評測技術報告[C]//Proceeding of COAE-2008.
[13] 劉康,王素格,廖祥文,等. 第四屆中文傾向性分析評測總體報告[C]//Proceeding of COAE-2012.
[14] 譚松波,王素格,廖祥文,等. 第五屆中文傾向性分析評測總體報告[C]//Proceeding of COAE-2013.
[15] Toprak C., Jakob N., and Gurevych I. Sentence and Expression Level Annotation of Opinions in User-Generated Discourse[C]//Proceedings of ACL-2010. 2010: 575-584.
[16] Cohen. A coefficient of agreement for nominal scales[J]. Educational and Psychological Measurement, 1960:37-46.
Corpus Construction on Opinion Information Extraction in Chinese
DAI Min, ZHU Zhu, LI Shoushan, ZHOU Guodong
(NLP Lab, School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China)
Opinion information extraction (OIE) is an important sub-task in the research on sentiment analysis. Currently, one pressing issue in Chinese OIE is that the Chinese corpus is not readily avalable. This paper focuses on the annotation framework for Chinese OIE, and constrcuts a Chinese corpus containing rich information. Specifically, in additions to the popular elements including sentiment orientation, opinion target and opinion keyword, our corpus contains the information of opinion target ellipsis, the expressing opinion without sentimental words and the sentimental polarity shifting. The statistics show the popularity and necessity of these special points (e.g., opinion target ellipsis) in Chinese texts.
sentiment analysis; opinion information extraction; Chinese corpus
戴敏(1989—),碩士,主要研究領域為自然語言處理。E-mail:dmin.mousse@gmail.com朱珠(1991—),碩士研究生,主要研究領域為自然語言處理。E-mail:zhuzhu0020@gmail.com李壽山(1980—),博士后,教授,主要研究領域為自然語言處理。E-mail:shoushan.li@gmail.com
1003-0077(2015)04-0067-07
2013-07-13 定稿日期: 2013-12-10
國家自然科學基金(61003155,60873150);模式識別國家重點實驗室開發(fā)課題基金
TP391
A