沙有闖,黃存東
(安徽國(guó)防科技職業(yè)學(xué)院信息工程系,安徽六安237011)
情感計(jì)算是文本傾向性分析(Sentiment Classification)的基礎(chǔ),它的目標(biāo)是讓計(jì)算機(jī)能分辨人類的情感和調(diào)性。Peter D Turney等指出,傾向性分析是針對(duì)某篇文章中對(duì)某個(gè)事物(或產(chǎn)品)的評(píng)價(jià)、看法等信息進(jìn)行文本情感分析與挖掘,進(jìn)而得出該文章對(duì)該事物(或產(chǎn)品)的評(píng)價(jià)調(diào)性(即正面、負(fù)面或中性[1])。Tetsuya Nasukawa等的研究表明,文本傾向性分析的主要任務(wù)包括[2]:(1)提取能夠體現(xiàn)文檔情感的關(guān)鍵詞或短語(yǔ);(2)通過(guò)計(jì)算詞語(yǔ)相似度等方法判斷關(guān)鍵詞的傾向性調(diào)性及調(diào)性的強(qiáng)度;(3)通過(guò)文本特征計(jì)算判斷關(guān)鍵詞與文檔主題的關(guān)系。
自20世紀(jì)90年代以來(lái),情感計(jì)算的研究取得了較大的進(jìn)步,其研究方向主要包括基于語(yǔ)義的和基于機(jī)器學(xué)習(xí)的[2]。前者通過(guò)分析每個(gè)詞體現(xiàn)出來(lái)的態(tài)度傾向來(lái)分析文本的情感傾向,并為其賦予相應(yīng)的權(quán)值,最終通過(guò)組合這些傾向值來(lái)計(jì)算語(yǔ)句及文檔的語(yǔ)義傾向。后者是基于已經(jīng)標(biāo)注好的訓(xùn)練集,再使用機(jī)器學(xué)習(xí)的方法構(gòu)建兩個(gè)分類器,分別代表正面訓(xùn)練集和負(fù)面訓(xùn)練集。
知網(wǎng)是一個(gè)以中文(漢語(yǔ))和英文(英語(yǔ))的詞匯所代表的概念為描述對(duì)象,用于描述概念間的關(guān)系和概念屬性間的關(guān)系的自然語(yǔ)言處理系統(tǒng)[3]。知網(wǎng)中最重要的兩個(gè)概念是“概念”和“義原”?!案拍睢笔菍?duì)詞匯語(yǔ)義的一種描述?!傲x原”的作用是描述“概念”,每個(gè)概念都至少有一個(gè)“義原”。知網(wǎng)共有1 500個(gè)義原,這些義原分為10大類,可以分為3組:基本義原用來(lái)描述單個(gè)概念的語(yǔ)義特征;語(yǔ)法義原用于描述詞語(yǔ)的語(yǔ)法特征;關(guān)系義原用來(lái)描述概念和概念之間的關(guān)系。對(duì)實(shí)詞的描述可以由上述的10類義原組成的語(yǔ)義列表構(gòu)成。
情感詞匯是指能夠明顯表達(dá)情感傾向的詞或短語(yǔ)。在知網(wǎng)中,可以根據(jù)詞語(yǔ)的屬性“良”、“莠”來(lái)抽取傾向性詞匯,“良”即褒義詞匯,“莠”即貶義詞匯。抽取出來(lái)的傾向性詞匯可以用于文本傾向性分析。
本文基于知網(wǎng)2007年10月22日發(fā)布的“情感分析用詞語(yǔ)集(beta版)”[3],構(gòu)建計(jì)算文本傾向性的情感詞典。該詞語(yǔ)集共包含中文情感分析用詞語(yǔ)集和英文情感分析用詞語(yǔ)集兩個(gè)版本,每個(gè)版本分別有6個(gè)部分(如表1所示),分別包含“正面情感”詞語(yǔ)、“負(fù)面情感”詞語(yǔ)、“正面評(píng)價(jià)”詞語(yǔ)、“負(fù)面評(píng)價(jià)”詞語(yǔ)、“程度級(jí)別”詞語(yǔ)和“主張”詞語(yǔ)。此詞語(yǔ)集共包含詞語(yǔ)約17 887個(gè)。
表1 情感分析用詞語(yǔ)集構(gòu)成
由于語(yǔ)義層次上的情感傾向不足以準(zhǔn)確表達(dá)文本情感傾向,如“不理想”、“不甚理想”、“比較理想”和“非常理想”這四個(gè)詞語(yǔ)都是關(guān)于正面的情感詞“理想”的,但是其表達(dá)的含義不同,整個(gè)句子的語(yǔ)義傾向性強(qiáng)度也會(huì)發(fā)生不同程度的改變。因此,還應(yīng)增加獨(dú)立的程度副詞詞典,并為不同的程度副詞賦值,以表示文本傾向性強(qiáng)度。具體的程度級(jí)別及賦值如表2所示。
表2 程度副詞及加權(quán)
否定副詞在文本傾向性計(jì)算中是不可或缺的重要因素之一,它直接改變文本的傾向性。如上述的“不喜歡”和“喜歡”具有截然相反的傾向性。具體的否定副詞列表如表3所示。
表3 否定副詞表
本文構(gòu)建了一個(gè)情感計(jì)算模擬系統(tǒng),系統(tǒng)框架結(jié)構(gòu)如圖1所示。本系統(tǒng)將隨機(jī)從互聯(lián)網(wǎng)上抓取的文檔進(jìn)行分詞、標(biāo)注詞性等預(yù)處理后交由情感計(jì)算系統(tǒng)進(jìn)行情感計(jì)算。具體計(jì)算過(guò)程包括以下4個(gè)步驟:
(1)文檔情感詞匯提取,提取能夠代表文檔情感特征的詞匯用于度量文檔情感傾向性;
(2)計(jì)算特征關(guān)鍵詞的傾向性并綜合程度副詞的強(qiáng)度及否定副詞,得出詞語(yǔ)傾向性度量值;
(3)綜合計(jì)算語(yǔ)句級(jí)的語(yǔ)句傾向性度量值;
(4)綜合計(jì)算篇章級(jí)的篇章傾向性度量值。
圖1 情感計(jì)算系統(tǒng)框架結(jié)構(gòu)圖
上述步驟中,詞語(yǔ)傾向性的計(jì)算、語(yǔ)句傾向性計(jì)算及篇章傾向性的計(jì)算需要首先計(jì)算詞語(yǔ)的語(yǔ)義相似度。劉群等[4]利用知網(wǎng)義原樹(shù)中的距離計(jì)算義原相似度,進(jìn)而得出詞語(yǔ)的語(yǔ)義相似度。知網(wǎng)中,若詞語(yǔ)有多種表達(dá)含義,則詞語(yǔ)對(duì)應(yīng)有多個(gè)義原。義原相似度的計(jì)算公式為:
其中:α是正的可變參數(shù);dist(p1,p2)表示義原樹(shù)中的距離。
對(duì)于兩個(gè)關(guān)鍵詞W1、W2,它們的語(yǔ)義相似度通?;谄湓诹x原樹(shù)中的距離來(lái)計(jì)算其相似度。假設(shè)W1包含有n個(gè)義原x1、x2、…,xn,W2包含有m個(gè)義原y1、y2、…、yn,則W1、W2之間的語(yǔ)義相似度為其最大義原相似度,計(jì)算公式如下:
對(duì)于任意一個(gè)詞語(yǔ),可以根據(jù)該詞語(yǔ)情感詞典中種子詞的距離得到其傾向性度量值。其計(jì)算原理是將詞語(yǔ)W與正面情感詞典中的每個(gè)種子詞進(jìn)行比較計(jì)算得到其正面值,再將W與負(fù)面情感詞典中的每個(gè)種子詞進(jìn)行比較計(jì)算出其負(fù)面值,再取其平均值之差,得到該詞語(yǔ)的傾向性度量值。其計(jì)算公式為
其中:n和m分別表示正面詞典與負(fù)面詞典中種子詞的個(gè)數(shù);Pi和Ni分別表示詞典中的某一種子詞。
如果計(jì)算結(jié)果大于0,則表示該詞為正面詞匯,反之,則表示該詞為負(fù)面詞匯。其數(shù)值的大小代表了該詞的情感強(qiáng)度。
詞語(yǔ)的情感強(qiáng)度不僅僅取決于詞語(yǔ)本身的傾向性度量值,更重要的是該詞語(yǔ)前面的程度副詞和否定副詞。例如,“膚淺”的傾向性度量值為-0.67,如果程度副詞為“非常”,其強(qiáng)度就大大增強(qiáng)了,同理,如果在其前面加上否定副詞變?yōu)椤安荒w淺”,其意義則會(huì)發(fā)生了根本性的變化。本文提取每個(gè)關(guān)鍵詞前面的一個(gè)或兩個(gè)副詞,結(jié)合上述的賦值表給出新的詞語(yǔ)傾向性計(jì)算公式:
式中Madv1和Madv2分別表示兩個(gè)副詞的強(qiáng)度值。如果在關(guān)鍵詞的前方遇到否定副詞,則直接將其強(qiáng)度值定義為-1。
否定副詞在文本傾向性計(jì)算中是不可或缺的重要因素之一,它直接改變文本的傾向性。如上述的“不喜歡”和“喜歡”具有截然相反的傾向性。
根據(jù)已建立的情感詞典、程度副詞詞典和否定副詞詞典,能夠快速地計(jì)算出詞語(yǔ)的傾向性,據(jù)此可以得出語(yǔ)句和篇章的文本傾向性度量。將一篇文章分割為若干段落(Paragraph),將段落分割為若干語(yǔ)句(Sentence),將語(yǔ)句分割為若干關(guān)鍵詞(Word),如果該關(guān)鍵詞前方出現(xiàn)一個(gè)或兩個(gè)副詞,則一并提取,作為該情感關(guān)鍵詞的度量因素之一。根據(jù)累加原則,語(yǔ)句級(jí)的傾向性計(jì)算公式為:
式中Wj表示構(gòu)成語(yǔ)句Si的關(guān)鍵詞。語(yǔ)句的傾向性度量值同詞語(yǔ)傾向性度量值一樣,正值表示正面情感,負(fù)值表示負(fù)面情感。
一個(gè)段落有若干語(yǔ)句構(gòu)成,則段落級(jí)的傾向性計(jì)算公式為:
同理,篇章的傾向性計(jì)算公式為:
實(shí)驗(yàn)語(yǔ)料是從互聯(lián)網(wǎng)上隨機(jī)采集的部分網(wǎng)絡(luò)購(gòu)物的用戶評(píng)價(jià),共計(jì)683篇,并進(jìn)行了人工情感分類,其中正面評(píng)價(jià)479篇,負(fù)面評(píng)價(jià)204篇。為了驗(yàn)證情感計(jì)算方法的有效性,本文使用查全率和查準(zhǔn)率作為評(píng)價(jià)依據(jù)。由于文檔的傾向性不只是正面和負(fù)面兩種,還存在某些文檔不具有褒貶性,因此需要設(shè)定一定的區(qū)間閥值對(duì)中性情感文檔進(jìn)行分類。經(jīng)過(guò)試驗(yàn)發(fā)現(xiàn),中性情感區(qū)間設(shè)置的越大,系統(tǒng)查全率越低,查準(zhǔn)率越高。經(jīng)過(guò)多次反復(fù)試驗(yàn),本文認(rèn)為將中性情感的區(qū)間閥值設(shè)置在[-0.6,+0.6]較為合理,作為中性文檔,小于-0.6的作為負(fù)面文檔,大于+0.6的作為正面文檔。實(shí)驗(yàn)結(jié)果如表4所示。
表4 實(shí)驗(yàn)結(jié)果%
本文提出了一種基于知網(wǎng)的情感計(jì)算方法。該方法能夠基于知網(wǎng)構(gòu)建情感詞典,并依據(jù)詞匯的情感程度進(jìn)行加權(quán)計(jì)算其情感傾向。在設(shè)定一個(gè)合理閥值后,能較好的計(jì)算出詞匯和篇章的情感傾向,有較高的查全率和查準(zhǔn)率。下一步的工作集中在優(yōu)化情感詞典的構(gòu)成,進(jìn)一步細(xì)分情感詞匯本身的傾向程度。
[1] Turney P D,Littman M L.Measuring Praise and Criticism:Inference of Semantic Orientation from Association[J].ACM Transactions on Information Systems,2003,21(4):315-346.
[2] Nasukawa T,Yi J.Sentiment analysis:Capturing favorability using natural language processing[C]//Proceedings of the 2nd International Conference on Knowledge Capture(K-CAP).New York:ACM,2003:70-77.
[3] 董振東.知網(wǎng)[CP/OL].[2012-03-24].http://www.keenage.com.
[4] 劉群,李建素.基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算[C]//第三屆漢語(yǔ)慈湖語(yǔ)義學(xué)研討會(huì).臺(tái)北,2002.