謝麗星,周 明,孫茂松
(1.智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室;清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌);清華大學(xué) 計(jì)算機(jī)系,北京100084;2.微軟亞洲研究院,北京100084)
微博,是一種新的信息發(fā)布及社交網(wǎng)絡(luò)平臺(tái)。用戶注冊(cè)微博服務(wù)后,可以關(guān)注名人、結(jié)交朋友,還能隨意發(fā)表、回復(fù)及評(píng)論消息,來記錄生活、分享心情、表達(dá)觀點(diǎn)等。微博自問世以來,迅速吸引了大眾的眼光,蓬勃發(fā)展。以國內(nèi)的新浪微博①Available at http://weibo.com/為例,截止到2011年4月底,用戶數(shù)超過了1.4億。微博正在從各個(gè)方面滲透并影響人們的生活,包括大量的信息傳播、更快的信息發(fā)現(xiàn)、與世界的連接等。
微博消息數(shù)量大,更新快,吸引了一大批學(xué)者對(duì)其進(jìn)行研究。針對(duì)微博的自然語言處理研究已成為當(dāng)前一個(gè)新的研究熱點(diǎn)和前沿課題,而情感分析就是其中一個(gè)熱點(diǎn)話題。情感分析,也被稱為觀點(diǎn)挖掘、觀點(diǎn)分析、主客觀分析等。情感分析的目的是從文本中挖掘用戶表達(dá)的觀點(diǎn)以及情感極性。挖掘用戶觀點(diǎn)意義重大,既能吸引潛在用戶,幫助用戶做決策[1],又能得到產(chǎn)品反饋[2],還能對(duì)政治選舉等重大事件進(jìn)行預(yù)測(cè)。除此以外,情感分析的技術(shù)還有助于自然語言處理領(lǐng)域其他研究方面的發(fā)展,例如,自動(dòng)文本摘要[3]及問答系統(tǒng)[4]等。目前已經(jīng)有許多針對(duì)英文的(即新聞、博客、微博等)情感分析系統(tǒng)相繼問世[5-11]。在情感分析方面,主要使用的技術(shù)分兩大類:一類是采用情感詞典與規(guī)則相結(jié)合的方法,根據(jù)文本中所包含的正向情感詞和負(fù)向情感詞的個(gè)數(shù)來進(jìn)行情感分類;另一類是采用機(jī)器學(xué)習(xí)的方法,選擇文本中的一些特征,標(biāo)注訓(xùn)練集和測(cè)試集,使用樸素貝葉斯(Na?ve Bayes)、最大熵(Max Entropy)、支持向量機(jī)(Support Vector Machine)等分類器來進(jìn)行情感分類。
微博作為一種新型的消息傳遞方式,寫作簡潔,與傳統(tǒng)文本差異較大,主要表現(xiàn)在五個(gè)方面:①主題發(fā)散性。在傳統(tǒng)文本中,文本所涉及的內(nèi)容通常在同一主題下,主題較為集中,通篇會(huì)不斷的提到主題詞。但在微博中,主題較為發(fā)散。例如,這條微博“今天看了青蜂俠。我們后來還一起唱了KTV,真是開心的一天。”該微博中第一句的主題詞是“青蜂俠”,第二句涉及的內(nèi)容與“青蜂俠”無關(guān)。這是主題發(fā)散的表現(xiàn);②省略成分的(主謂賓)。在傳統(tǒng)文本中,用戶使用的語法較為規(guī)范,而在微博中經(jīng)常會(huì)出現(xiàn)省略主語、賓語的現(xiàn)象,例如,“青蜂俠不錯(cuò)!真好看??!”該微博的第二句省略了主語“青蜂俠”;③省略上下文的(上下文隱含在其他的微博信息或者交互的信息中)。在微博中一條微博如果是回復(fù)某一條微博的內(nèi)容,由于是對(duì)話的形式,通常會(huì)省略掉主題。例如,一條微博是“鳳姐真討厭!”另一條回復(fù)該微博的微博是“確實(shí)如此?!边@兩條微博討論的都是“鳳姐”,但是第二條微博省略了“鳳姐”相關(guān)的上下文;④口語化:在微博中用戶經(jīng)常會(huì)使用時(shí)下流行的熱門詞,口語化的詞等,例如,“坑爹”,“神馬”,“不咋地”等;⑤包含鏈接、表情符號(hào)及標(biāo)簽等信息。微博中用戶經(jīng)常分享網(wǎng)頁鏈接,使用表情符號(hào)表征情感,也經(jīng)常給文本打上標(biāo)簽,標(biāo)簽可以反映主題。由于上述差別,使得微博情感分析任務(wù)更為復(fù)雜,也使得傳統(tǒng)文本的分析方法無法適用,例如,傳統(tǒng)文本中通常將一段文本內(nèi)容表達(dá)的情感視為針對(duì)同一主題,但是微博中可能是多主題,使用單一主題的情感分析技術(shù)可能會(huì)造成失誤;同時(shí)微博中口語化的詞較多,如果口語詞表達(dá)了情感,而傳統(tǒng)文本的分析方法無法識(shí)別這類情感,也會(huì)對(duì)情感分析造成影響。因此針對(duì)中文微博的情感分析方面的研究顯得尤為迫切和重要。
在微博情感分析中,目前英文微博相關(guān)的研究已經(jīng)有了一些進(jìn)展,例如,針對(duì)英文微博自身包含的屬性如表情符號(hào),標(biāo)簽(hashtag)等作為特征對(duì)微博進(jìn)行情感分類,而針對(duì)微博的主題發(fā)散性,也有學(xué)者從主題無關(guān)和主題相關(guān)兩方面進(jìn)行分析。但到目前為止,針對(duì)中文微博的研究仍處于起步階段,而中文微博與英文微博有很大不同:英文微博限制用戶的輸入文本不超過140個(gè)字符,這通常是一個(gè)句子,包含7~10個(gè)英文單詞,涉及的主題和情感相對(duì)一致;而中文微博限制用戶的輸入文本不超過140個(gè)中文字符,這可以包含多個(gè)句子,每個(gè)句子涉及的主題可能不同,表達(dá)情感也可能不同。例如,在如下微博中“今天看了青蜂俠,很一般。場(chǎng)面一般,劇情一般。不過杰倫還是那樣帥?!边@條微博前兩句是對(duì)電影“青蜂俠”的負(fù)面評(píng)論,第三句是對(duì)青蜂俠的扮演者的正面評(píng)論,表達(dá)的主題和情感均不同。
本文主要研究中文微博的情感分析。由于此前相關(guān)研究并不多,我們?cè)谘芯恐薪梃b了普通文本情感分析的方法。在普通文本的情感分析方面,主要有兩類任務(wù):主題無關(guān)的情感分析和主題相關(guān)的情感分析。主題無關(guān)的情感分析不需要考慮待分析文本的評(píng)價(jià)對(duì)象,給出一個(gè)情感極性即可;主題相關(guān)的情感分析需要考慮待分析文本的評(píng)價(jià)對(duì)象,給出待分析文本針對(duì)該評(píng)價(jià)對(duì)象的情感極性。受此啟發(fā),本文將從主題無關(guān)和主題相關(guān)兩個(gè)方面抽取特征,并應(yīng)用于基于層次策略的中文微博情感分析。本文通過從新浪微博開放平臺(tái)提供的API①Available at http://open.t.sina.com.cn/wiki/index.php/Trends/statuses抓取一定規(guī)模的數(shù)據(jù),對(duì)中文微博的情感分析進(jìn)行了研究。本文研究的輸入為給定主題詞及中文微博消息,如主題詞:“科比”,中文微波消息:“科比太酷了?。。。圩タ瘢荩蹛勰悖荨保惠敵鰹樵摋l微博消息針對(duì)該主題詞的情感,包括正向情感、負(fù)向情感、中性情感三種。對(duì)于該例,系統(tǒng)輸出為正向情感。針對(duì)中文微博的情感分析,本文采用了二步法,首先引入主題無關(guān)特征,即使用鏈接、表情符號(hào)、情感詞典、情感短語、上下文等特征訓(xùn)練SVM對(duì)中文微博進(jìn)行情感分類;然后進(jìn)一步引入主題相關(guān)的特征,即篩選微博中與主題相關(guān)的句子來進(jìn)一步提升效果。本文主要的貢獻(xiàn)有:①提出了基于層次結(jié)構(gòu)的多策略分析框架;②中文微博特征的研究:研究了鏈接、表情符號(hào)等特征對(duì)于中文微博的有效性;同時(shí)提出了微博消息的句子構(gòu)成特征。
本文的結(jié)構(gòu)組織如下:第二章簡單介紹相關(guān)工作;第三章闡述算法設(shè)計(jì);第四章展示實(shí)驗(yàn)結(jié)果及相關(guān)分析;第五章簡單地討論本文與以往工作的區(qū)別;第六章是結(jié)論及下一步工作。
微博,實(shí)時(shí)提供短消息的播放,作為數(shù)以億計(jì)用戶的日常信息溝通和人際交流的重要工具,已經(jīng)成為互聯(lián)網(wǎng)的新形態(tài)。關(guān)于微博的情感分析已成為時(shí)下熱門話題,一系列研究就此展開。本章節(jié)將從針對(duì)英文的情感分析和針對(duì)中文的情感分析兩方面的研究工作進(jìn)行介紹。
本節(jié)將從從主題無關(guān)的英文情感分析、主題相關(guān)的英文情感分析、英文微博的情感分析三個(gè)方面的研究工作來進(jìn)行介紹。
2.1.1 主題無關(guān)的情感
主題無關(guān)的情感分析是對(duì)指定文本給出情感極性,而不關(guān)心該情感極性所描述的對(duì)象。目前大多數(shù)情感分析方面的研究都是主題無關(guān)的,主要有三種方法:基于詞典的方法、有監(jiān)督的機(jī)器學(xué)習(xí)方法、無監(jiān)督的方法。
基于詞典的方法[12]。這類方法首先需要構(gòu)建一個(gè)情感詞典,主要包括正向情感詞和負(fù)向情感詞。然后利用情感詞典統(tǒng)計(jì)待分析的文本中的正向情感詞的數(shù)目和負(fù)向情感詞的數(shù)目。最后依據(jù)它們的差值來進(jìn)行情感極性的判定,即差值為正即為正向情感,差值為負(fù)為負(fù)向情感,差值為零為中性情感。情感詞典的方法的局限性在于無法解決未登錄詞的問題。
有監(jiān)督的機(jī)器學(xué) 習(xí) 方 法[5,13-14]。這 類 方 法 主 要是使用機(jī)器學(xué)習(xí)的模型,包括樸素貝葉斯(Na?ve Bayes)、最 大 熵 (Max Entropy)、支 持 向 量 機(jī)(Support Vector Machine)等來對(duì)文本進(jìn)行情感分析。Pang等人[5]的研究工作主要是對(duì)電影評(píng)論進(jìn)行情感極性的分類,分為正向情感和負(fù)向情感。該工作首先對(duì)待分析的文本進(jìn)行預(yù)處理,提取出若干特征,包含一元詞特征(unigram)、二元詞特征(bigram)、詞性標(biāo)注、詞的位置信息等,然后使用這些特征來訓(xùn)練模型,選用的方法有樸素貝葉斯、最大熵、支持向量機(jī)。實(shí)驗(yàn)結(jié)果表明,支持向量機(jī)的效果最為理想,且在選用一元詞特征時(shí)取得了最好的準(zhǔn)確率為83%。Li等人[14]對(duì)于評(píng)論數(shù)據(jù),首先提出了用于情感二分類的 Dependency-Sentiment-LDA模型,它在情感分類的時(shí)候不僅考慮了情感詞所表達(dá)的話題語境,而且還考慮了情感詞的局部依賴關(guān)系。然后進(jìn)一步探討了情感多分類問題,提出了一種基于Tensor的評(píng)論分值預(yù)測(cè)方法?;谟斜O(jiān)督學(xué)習(xí)方法精度較高,缺陷是依賴于人工標(biāo)注語料庫,語料庫標(biāo)注存在不一致性問題。
無監(jiān)督的學(xué)習(xí)方法[15-16]。Turney 等人[16]對(duì)于手機(jī)、銀行、電影及旅游目的地相關(guān)的評(píng)論的情感分析工作。他們選定了兩個(gè)基本情感詞(正向詞:excellent,負(fù)向詞:poor),然后他們制定了一些模版來提取短語,使用PMI分別計(jì)算待分析的文本中這些短語與基本正向情感詞的關(guān)聯(lián)度(記為正向關(guān)聯(lián)度)和負(fù)向情感詞的關(guān)聯(lián)度(記為負(fù)向關(guān)聯(lián)度),根據(jù)正向關(guān)聯(lián)度與負(fù)向關(guān)聯(lián)度的差值來判定該文本的情感極性。無監(jiān)督的方法依賴于處理語料的領(lǐng)域范圍,存在著對(duì)基準(zhǔn)情感詞的依賴性問題,正確率較低。
2.2.2 主題相關(guān)的情感分析
主題相關(guān)的情感分析主要包括兩種方法,基于規(guī)則的方法和基于特征(或?qū)傩裕┑姆椒ā?/p>
基于規(guī)則的方法[17-18]。這類方法主要`是對(duì)文本進(jìn)行預(yù)處理,包括詞性標(biāo)注、依存句法分析等,然后針對(duì)形容詞、動(dòng)詞、名詞等制定一些規(guī)則來對(duì)該文本判定情感極性。代表工作為Nasukawa和Yi[17]的工作。
基于特征(屬性)的方法[19]。這類工作除了需要對(duì)文本進(jìn)行情感極性的判定,還需要按照產(chǎn)品的屬性進(jìn)行歸類。代表工作為Hu和Liu[19]針對(duì)用戶對(duì)在線產(chǎn)品的評(píng)論進(jìn)行的情感分析工作。他們的方法主要包含三步。首先識(shí)別出用戶評(píng)論中涉及的產(chǎn)品屬性;其次針對(duì)每個(gè)屬性,得出評(píng)論中包含的正向情感和負(fù)向情感的內(nèi)容;最后將屬性與對(duì)應(yīng)情感極性的內(nèi)容按某種形式輸出。
2.2.3 針對(duì)英文微博的情感分析
對(duì)于微博的情感分析的研究主要是針對(duì)Twitter①Available at twitter.com上的消息Tweets而言的,本節(jié)將從主題無關(guān)和主題相關(guān)兩方面進(jìn)行介紹。
主題無 關(guān) 的 情 感 分 析[10,20-22]。Davidiv等 人[20]使用Tweets中的標(biāo)簽、表情符號(hào)等作為特征,訓(xùn)練了一個(gè)類似KNN的分類器來進(jìn)行情感極性的分類;Barbosa和Feng[10]利用一些網(wǎng)站(即 Twendz、Twitter Sentiment、TweetFeel)對(duì)于 Tweets所提供的情感分析的結(jié)果作為訓(xùn)練數(shù)據(jù),然后選用一些特征,采用二步分類法來對(duì)Tweets進(jìn)行分類,即先對(duì)Tweets進(jìn)行主客觀分類,然后再在被分為主觀的Tweets中進(jìn)行正、負(fù)向情感分類。
主 題 相 關(guān) 的 情 感 分 析。Jiang 等 人[11]對(duì)Tweets的情感分類采用二步分類法,首先對(duì)Tweets進(jìn)行主、客觀分類,然后再對(duì)被分為主觀的Tweets進(jìn)行正、負(fù)向情感分類。與其他工作不同的是,Jiang等人在分類時(shí)除了考慮了主題詞,還對(duì)主題詞進(jìn)行了擴(kuò)展,引入了主題相關(guān)的特征,此外還考慮Tweets間的轉(zhuǎn)發(fā)關(guān)系,采用圖模型的方法提升效果。未使用圖模型之前,系統(tǒng)取得的最好準(zhǔn)確率為66%,引入圖模型之后,系統(tǒng)的準(zhǔn)確率提升到68.3%。
目前針對(duì)中文的情感分析主要集中在NTCIR②Available at http://research.nii.ac.jp/ntcir/和COAE③Available at http://www.ir-china.org.cn/Information.html兩個(gè)評(píng)測(cè)上。
NTCIR是由日本情報(bào)信息研究所于2002年主辦的針對(duì)亞洲語言的跨語言信息檢索評(píng)測(cè)會(huì)議。該評(píng)測(cè)主要包括六項(xiàng)任務(wù),主客觀判別、相關(guān)性判別、觀點(diǎn)持有對(duì)象抽取、觀點(diǎn)評(píng)價(jià)對(duì)象抽取、情感極性判別、問答系統(tǒng)。在NTCIR-08中,針對(duì)繁、簡體中文,在主客觀判別及情感極性判別這兩項(xiàng)任務(wù),評(píng)測(cè)的最好結(jié)果見表1。
表1 NTCIR-08中情感極性判別的最好結(jié)果
COAE由中國中文信息學(xué)會(huì)信息檢索專業(yè)委員會(huì)從2008年開始舉辦。每屆評(píng)測(cè)國內(nèi)外大約有20多家科研單位參加。該評(píng)測(cè)主要包含五項(xiàng)任務(wù),情感詞的識(shí)別及分類、情感句的識(shí)別及分類、觀點(diǎn)句抽取、觀點(diǎn)評(píng)價(jià)對(duì)象抽取、觀點(diǎn)檢索。在COAE-09中,極性判別的最好結(jié)果見表2。
表2 COAE-09中情感極性判別的最好結(jié)果
總的來說,中文的情感分析方法與英文類似,大致有兩種。
① 有監(jiān)督的機(jī)器學(xué)習(xí)方法[23]。Zhao等人[23]基于CRF模型引入“冗余特征”來研究情感分類問題,Zhou等人?;赟VM模型來進(jìn)行主客觀及情感極性分類;
② 組合方法[25]。Li等人[25]研究了該文具體研究四種不同的分類方法在中文情感分類上的應(yīng)用,同時(shí)考慮到不同領(lǐng)域需要選擇不同基分類方法才能獲得更好的分類結(jié)果,采用一種基于Stacking的組合分類方法,用以組合不同的分類方法。
目前針對(duì)中文的情感分析較針對(duì)英文的情感分析無論從資源還是方法上來說都要相對(duì)初步一些。目前中文的情感分析主要存在以下問題。
① 中文需要分詞,分詞錯(cuò)誤會(huì)對(duì)情感分析產(chǎn)生影響,例如,“英雄難過美人關(guān)”中的“難過”;
②中文情感詞典構(gòu)建的難點(diǎn)?,F(xiàn)在很多情感詞典都僅為每個(gè)詞條賦予一種情感極性,但是中文詞較為復(fù)雜,在不同的語境下同樣的詞有不同的含義或情感色彩,如“黑馬”,一般認(rèn)為黑馬是黑色的馬,但在某些語境下比喻實(shí)力難測(cè)的競爭者或出人意料的優(yōu)勝者,含褒義色彩,這使得如何構(gòu)建一個(gè)較好的情感詞典成為一個(gè)問題;
③ 中文存在一些難點(diǎn)目前尚無較好的解決方案,如“反諷”、“褒義貶用”和“貶義褒用”;
④ 中文情感分析主要使用句內(nèi)特征進(jìn)行分析,而句間特征,篇章特征尚未得到充分應(yīng)用;
這章我們將介紹三種方法,分別是基于表情符號(hào)、情感詞典、SVM的層次結(jié)構(gòu)的多策略方法。
本文針對(duì)新浪微博提供的表情符號(hào)進(jìn)行了正、負(fù)向表情符號(hào)的分類,然后對(duì)于待分析的文本,從中提取中正、負(fù)向表情符號(hào),依據(jù)公式(1)進(jìn)行情感極性的分類:
情感詞是情感極性判定中較為重要的考量依據(jù)。本文借鑒了傳統(tǒng)的情感分析的方法,選取了常用的正、負(fù)向情感詞構(gòu)建了情感詞典。在構(gòu)建詞典時(shí),我們只選用了在任何情況下都絕對(duì)表征正、負(fù)向情感的詞,如正向情感詞“喜歡”、負(fù)向情感詞“憎恨”。然后將待分析的文本進(jìn)行了分詞處理,依據(jù)該情感詞典從中提取出正、負(fù)向情感詞,依據(jù)公式(2)進(jìn)行情感極性的分類。
3.3.1 方法介紹
本文提出了基于層次結(jié)構(gòu)的多策略分析框架,見圖1(下頁)。使用的分類工具是SVM(Support Vector Machine),中文名為支持向量機(jī),是由Vapnik等人提出的一種非常有潛力的學(xué)習(xí)技術(shù),是一種基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論的模式識(shí)別方法,主要用于模式識(shí)別領(lǐng)域。本文使用的SVM工具是由臺(tái)灣大學(xué)林智仁 (Chih-Jen Lin)博士等開發(fā)的一套支持向量機(jī)算法庫libsvm①C.-C.Chang and C.-J.Lin.LIBSVM :a library for support vector machines.Available at http://www.csie.ntu.edu.tw/~cjlin/libsvm/.。
表3 中文微博消息包含不同情感極性句子的示例
在前人針對(duì)英文微博的研究工作中,由于英文微博消息文本長度被限制在140個(gè)英文字符,這通常是一個(gè)句子,包含7~10個(gè)英文單詞,因此之前的所有工作都是將一條微博消息當(dāng)做一個(gè)整體來進(jìn)行訓(xùn)練和測(cè)試。通過觀察中文微博數(shù)據(jù)數(shù)據(jù),我們發(fā)現(xiàn)中文微博文本長度被限制在140個(gè)中文字符,它可以包含多個(gè)句子,與英文微博相比語義更豐富,句與句之間的情感極性不盡相同。如表3所示,針對(duì)主題詞“青蜂俠”的微博消息共包含三句,首句的情感極性是負(fù)向情感,第二句是中性情感,第三句是正向情感。如果將不同極性的句子作為一個(gè)整體賦予一種極性,也許會(huì)影響訓(xùn)練效果。因此在使用SVM對(duì)微博消息進(jìn)行文本分類時(shí),基于分句與不分句的考量分為兩大類策略,共四種方法,見圖1(下頁)。
下面我們對(duì)這兩大類策略、四種方法進(jìn)行簡單介紹。
①一步三分類。從微博消息中提取極性分類特征,然后根據(jù)每條微博的正、負(fù)、中性情感標(biāo)簽,直接訓(xùn)練一個(gè)三分類的SVM分類器,對(duì)微博消息三分類;
② 二步分類。先從微博消息中提取主、客觀分類特征,根據(jù)每條微博的主、客觀標(biāo)注情況,訓(xùn)練主、客觀分類的SVM分類器,先對(duì)微博消息進(jìn)行主、客觀分類;然后對(duì)于分為主觀的微博消息,再從微博消息中提取極性分類特征,根據(jù)每條微博的正、負(fù)向情感標(biāo)簽訓(xùn)練正、負(fù)向情感的SVM分類器,進(jìn)一步將主觀的微博消息分為正、負(fù)向情感;
圖1 基于層次結(jié)構(gòu)的多策略情感分析框架
第二類:分句,將一條中文微博消息使用程序自動(dòng)拆分成若干個(gè)句子,然后將針對(duì)每個(gè)句子進(jìn)行訓(xùn)練,有兩類方法。
①句子組成規(guī)則分類。首先使用上述兩種方法中的最佳方法訓(xùn)練SVM分類器得到每一條微博消息中每個(gè)句子的情感極性,然后根據(jù)正、負(fù)向句子的個(gè)數(shù),依據(jù)公式(3)對(duì)微博消息進(jìn)行三分類;
②句子組成SVM分類。首先使用上述兩種方法中的最佳方法訓(xùn)練SVM分類器得到每一條微博消息中每個(gè)句子的情感極性,然后選取微博消息的句子構(gòu)成特征,結(jié)合每條微博的情感極性再次訓(xùn)練SVM,將每條微博進(jìn)行三分類。
3.3.2 主題無關(guān)的特征抽取
選取2016年7月~2018年5月在我院接急診PCI術(shù)治療的急性心肌梗死伴泵衰竭的高?;颊?8例作為研究對(duì)象。入選標(biāo)準(zhǔn):所有患者均符合ST段抬高型心肌梗死(STEMI)診斷標(biāo)準(zhǔn)、泵功能衰竭Killip分級(jí)Ⅱ~Ⅳ級(jí)者;行急診PCI術(shù)者;排除標(biāo)準(zhǔn):腫瘤,肝、腎和血管等嚴(yán)重器質(zhì)性疾病者,有心臟手術(shù)史者。依據(jù)護(hù)理方式差異將其分為試驗(yàn)組和對(duì)照組。其中,試驗(yàn)組男14例,女6例,年齡46~81歲,平均年齡(62.1±3.6)歲;對(duì)照組男21例,女7例,年齡45~80歲,平均年齡(65.1±2.7)歲。
在上一節(jié)中,涉及三類特征,主、客觀分類特征、極性分類特征、微博消息的句子構(gòu)成特征,這里將一一詳述。
(1)主、客觀分類特征(表4)。情感短語特征指的是“有意思”,“沒文化”這類短語,它們的特點(diǎn)是中心詞“意思”和“文化”本身是中性,但是前面出現(xiàn)了“有”、“無”這一類修飾詞就含有極性色彩了。
(2)極性分類特征(表5)。
(3)微博消息的句子構(gòu)成特征(表6)。考慮到中國人書寫文章時(shí)“開門見山”的習(xí)慣,以及“首尾呼應(yīng)”的句式,因此除了考慮正、負(fù)、中性情感句子數(shù)目以外,這里還考慮了首句、尾句的情感極性。
表4 主、客觀分類特征
表5 極性分類特征
表6 微博消息的句子構(gòu)成特征
3.3.3 主題相關(guān)的特征抽取
通過觀察,我們發(fā)現(xiàn)中文微博消息不像電影、產(chǎn)品評(píng)論那樣集中一個(gè)主題討論,微博消息中存在著大量的主題發(fā)散及省略現(xiàn)象。如表7所示,針對(duì)主題詞“將愛情進(jìn)行到底”的微博消息共包含5個(gè)句子。首先句子1和句子2涉及的主題與主題詞“將愛情進(jìn)行到底”無關(guān),這說明該消息存在主題發(fā)散的情況。其次句子3、4、5是針對(duì)主題詞“將愛情進(jìn)行到底”的,除了句子4是明確包含主題詞的,句子3中的“電影”指代的是“將愛情進(jìn)行到底”,句子5中省略了主語“將愛情進(jìn)行到底”,這說明該消息存在省略主題詞的情況。
表7 中文微博消息中的主題發(fā)散及省略示例
因此,在使用微博消息的句子構(gòu)成特征時(shí),在篩選句子的時(shí)候,需要進(jìn)行主題相關(guān)的句子的篩選,具體考慮以下三種情況。
① 僅考慮包含主題詞的句子的情感極性;
② 零指代的情況。對(duì)于微博中的一個(gè)句子,如果它不包含任何名詞性短語和代詞,即認(rèn)為它表達(dá)的情感是針對(duì)上一句的對(duì)象,如上一句包含主題詞,則也應(yīng)該考慮該句的情感極性;
③ 對(duì)于構(gòu)成微博消息的每個(gè)句子,先識(shí)別出句子中的情感詞或情感短語,記為位置i,看在窗口distance個(gè)詞范圍內(nèi),即[i-distance,i+distance]中是否出現(xiàn)主題詞,如出現(xiàn)主題詞則認(rèn)為該句與主題相關(guān)。
本文使用新浪提供的API抓取了影視、名人、產(chǎn)品三個(gè)領(lǐng)域,共六個(gè)主題的數(shù)據(jù),最后每個(gè)主題選取了1 000條微博消息進(jìn)行標(biāo)注,結(jié)果見表8。
評(píng)測(cè)方法選用的是五折交叉驗(yàn)證(five-fold cross-validation)。評(píng)測(cè)指標(biāo)主要使用的是準(zhǔn)確率,即5次迭代正確分類的總數(shù)除以原始數(shù)據(jù)中的元組總數(shù)。
表8 中文微博消息中的主題發(fā)散及省略示例
(1)我們首先對(duì)于三種方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果見表9。
表9 中文微博消息中的主題發(fā)散及省略示例
分析:從表8可以看出,基于SVM的方法效果最好,基于表情符號(hào)的規(guī)則方法略好于基于情感詞典的方法,準(zhǔn)確率均在56%左右。
(2)SVM相關(guān)的實(shí)驗(yàn)
① 方法比較:這里我們對(duì)3.3.1節(jié)中提到的四種方法進(jìn)行比較。從表10可以看出,一步三分類方法要比二步分類方法高出1.5個(gè)百分點(diǎn)。因此在后續(xù)實(shí)驗(yàn)得到句子級(jí)別的情感極性時(shí)采用一步三分類法進(jìn)行訓(xùn)練和測(cè)試。從表11可以看出,采用句子組成SVM分類法效果好于句子組成規(guī)則分類方法。
表10 一步三分類與二步分類的效果比較
表11 句子組成規(guī)則和句子組成SVM分類方法的效果比較
②主題無關(guān)的特征比較。這里我們僅對(duì)極性特征、微博消息的句子構(gòu)成特征進(jìn)行比較分析。對(duì)于極性特征,從表12可以得出兩點(diǎn)結(jié)論:(a)從有效性來看,上下文>情感詞典>表情>情感短語,引入鏈接特征后效果反而變差;(b)最佳特征組合:表情+情感+情感短語+上下文。
表12 極性分類特征的效果比較
對(duì)于微博消息的句子構(gòu)成特征,從表13中可以得出兩點(diǎn)結(jié)論:(a)從有效性來看,三種情感極性句子數(shù)目>尾句情感極性>首句情感極性;(b)最佳特征組合:首句極性+尾句極性+三種情感極性句子數(shù)目。
表13 微博消息的句子構(gòu)成特征的效果比較
綜上所述,在僅考慮主題無關(guān)的特征時(shí),為達(dá)到最佳效果,“最佳組合”為,整體的方法選擇句子組成SVM分類,句子組成特征選擇首句極性特征+尾句極性特征+三種情感極性句子數(shù)目特征;在對(duì)單個(gè)句子進(jìn)行分類時(shí)選擇一步三分類方法,特征選擇表情特征+情感詞典特征+情感短語特征+上下文特征。
我們采用“最佳組合”對(duì)數(shù)據(jù)進(jìn)行了訓(xùn)練測(cè)試,得到結(jié)果見表14。從表14中可以看出,主題無關(guān)的最佳方法的總體準(zhǔn)確率達(dá)到了66.467%。根據(jù)準(zhǔn)確率從高到低排序,各個(gè)領(lǐng)域依次為:名人>影視>產(chǎn)品。通過對(duì)數(shù)據(jù)進(jìn)行分析,我們得到了以下三點(diǎn)原因。
①名人。用戶對(duì)名人發(fā)表觀點(diǎn)的時(shí)候使用的表達(dá)較為單一;
② 影視。用戶關(guān)注的主題更為發(fā)散,如主角、畫面等,分類時(shí)比名人要難;
③ 產(chǎn)品。由于產(chǎn)品包含不同的型號(hào),公司,而且產(chǎn)品的屬性(如屏幕、信號(hào)等)非常多,分類問題更為復(fù)雜。
表14 主題無關(guān)特征最佳組合的效果
同時(shí),針對(duì)主題無關(guān)的實(shí)驗(yàn),我們還進(jìn)行了正、負(fù)、中向情感的精確率和召回率的統(tǒng)計(jì),見表15。表中顯示從評(píng)測(cè)指標(biāo)來看,中性情感>正向情感>負(fù)向情感。這跟標(biāo)注數(shù)據(jù)中各種情感極性的消息數(shù)目比例成正比。
表15 主題無關(guān)特征最佳組合下各種情感的精確率和召回率
進(jìn)一步,我們對(duì)于主題無關(guān)特征最佳組合的錯(cuò)誤類型進(jìn)行了分析,結(jié)果見表16。
表16 主題無關(guān)特征最佳組合下的錯(cuò)誤類型
③主題相關(guān)的特征比較。首先我們考慮僅包含主題詞的句子及零指代的情況,見表17,從中可以看出引入零指代后,效果提升了約0.1%,比主題無關(guān)的最好效果(66.467%)提升了1%左右。
表17 主題相關(guān)特征的效果比較
其次,考慮距離窗口方法,得到圖2。由圖可知,考慮距離窗口在距離為30的時(shí)候最佳,此時(shí)退化到僅包含主題詞的情況。
圖2 不同距離范圍內(nèi)包含主題詞的結(jié)果
最后,我們對(duì)于引入主題相關(guān)特征后的系統(tǒng)進(jìn)行了錯(cuò)誤分析,發(fā)現(xiàn)主要有兩類錯(cuò)誤。
① 包含主題詞的句子表達(dá)的情感未必是針對(duì)該主題詞的情感,如當(dāng)主題詞為“青蜂俠”時(shí),微博消息“致命伴旅比青蜂俠好看多了!”中的“好看”指的是“致命伴旅”;
② 指代情況較豐富,包括省略賓語,如“青蜂俠。我覺得挺好看的?!?;首句省略主語,如“恩恩,不錯(cuò)哦!青蜂俠。”;句子未涉及主題詞,但涉及主題詞的屬性,如“今天去看了青蜂俠。畫面挺炫?!?,“畫面”是電影“青蜂俠”的一個(gè)屬性。
目前針對(duì)中文微博的研究仍處于起步階段,尚未有關(guān)于中文微博情感分析方面的研究工作。本文針對(duì)中文微博的情感分析進(jìn)行了初步探討。與中文傳統(tǒng)文本情感分析工作相比,本文針對(duì)中文微博自身特點(diǎn),相對(duì)于傳統(tǒng)文本考慮將微博的特有屬性如連接、表情符號(hào)等作為特征,同時(shí)考慮了微博中簡單的省略現(xiàn)象,從而更好地進(jìn)行情感分析;與英文微博的情感分析工作相比,由于英文微博通常只有一句,已有工作均將一條微博作為一個(gè)整體賦予情感極性來進(jìn)行訓(xùn)練和測(cè)試,本文考慮到中文微博比英文微博語義更豐富,包含的句子數(shù)目更多,且句與句之間涉及的主題及情感可能不同,分別從微博級(jí)別和句子級(jí)別兩方面來探討了情感分析的效果,實(shí)驗(yàn)結(jié)果證明句子級(jí)別的效果更佳。
近年來,微博在國內(nèi)外強(qiáng)勢(shì)崛起,成為時(shí)下焦點(diǎn)。本文通過使用新浪提供的API抓取一定規(guī)模的微博數(shù)據(jù),并根據(jù)中文微博的特點(diǎn),提出了基于層次結(jié)構(gòu)的多策略情感分析框架,包括考慮分句與不分句的策略,并對(duì)微博的屬性,如鏈接、表情符號(hào)、情感詞典等進(jìn)行了特征選擇。此外,本文還采用基于表情符號(hào)的規(guī)則方法和情感詞典方法進(jìn)行分類。通過比較實(shí)驗(yàn),我們發(fā)現(xiàn)與后兩種方法相比,基于層次結(jié)構(gòu)的多策略情感分析框架可以取得更好的分類效果。其中,在主題無關(guān)特征下取得的最好效果是66.467%,考慮主題相關(guān)特征后取得的最好效果為67.283%。
目前,本系統(tǒng)仍有很大的提升空間。后續(xù),我們將考慮如下工作來進(jìn)一步提升實(shí)驗(yàn)效果。
① 構(gòu)建網(wǎng)絡(luò)用語詞典,針對(duì)這類型的詞,由于無法借助現(xiàn)有的分詞系統(tǒng),需要采用新算法匹配識(shí)別,包括否定轉(zhuǎn)移的處理;
② 更深入地研究主題相關(guān)的特征。例如,考慮引入句法分析及更好的指代消解技術(shù)來處理復(fù)雜的指代情況;
③ 考慮引入社交網(wǎng)絡(luò)關(guān)系或者消息與消息之間的關(guān)系來構(gòu)建圖模型提升結(jié)果。
[1]M.Q. Hu, B. Liu. Mining and Summarizing Customer Reviews[C]//ACM SIGKDD 2004:168-177.
[2]Bo Pang,Lillian Lee.Opinion mining and sentiment analysis[C]//Foundations and Trends in Information Retrieval,2(1-2):1-135.
[3]M.Q. Hu,B.Liu.Opinion Extraction and Summarization on the Web[C]//AAAI06,Boston:1621-1624.
[4]H.Yu,V.Hatzivassiloglou.Towards Answering Opinion Question:Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences[C]//EMNLP'03:129-136.
[5]Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up?sentiment classification using machine learning techniques[C]//ACL'02:79-86.
[6]Bo Pang, Lillian Lee. A sentimental education:Sentiment analysis using subjectivity summarization based on minimum cuts[C]//ACL'04:271-278.
[7]E.Riloff,J. Wiebe.2003.Learning extraction patterns for subjective expressions[C]//EMNLP'03:105-112.
[8]Glance,N.,M.Hurst,K.Nigam,et al.2005.Deriving marketing intelligence from online discussion[C]//SIGKDD'05:419-428.
[9]Wilson,T.,J. Wiebe,P. Hoffmann.2005.Recognizing contextual polarity in phrase-level sentiment analysis[C]//HLT-EMNLP'05:347-354.
[10]Luciano Barbosa, Junlan Feng. 2010. Robust Sentiment Detection on Twitter from Biased and Noisy Data[C]//Coling 2010(poster paper):36-44.
[11]Long Jiang,Mo Yu,Ming Zhou,et al.Targetdependent Twitter Sentiment Classification[C]//ACL 2011.
[12]Lun-Wei Ku,Tung-Ho Wu,Li-Ying Lee,et al.2005.Construction of an Evaluation Corpus for Opinion Extraction[C]//In NTCIR-5Japan,2005:513-520.
[13]S.Dasgupta,V.Ng.Mine the Easy,Classify the Hard:A Semi-Supervised Approach to Automatic Sentiment Classification[C]//ACL'09:701-709.
[14]Fangtao Li, Nathan Liu, Hongwei Jin,et al.Incorporating Reviewer and Product Information for Review Rating Prediction[C]//IJCAI 2011.
[15]V.Hatzivassiloglou,J.Wiebe.Effects of adjective orientation and gradability on sentence subjectivity[C]//COLING'00:299-305.
[16]P.Turney.2002.Thumbs up or thumbs down Semantic Orientate-on Applied to Unsupervised Classification of reviews[C]//ACL'02:417-424.
[17]Tetsuya Nasukawa,Jeonghee Yi.2003.Sentiment Analysis:Capturing Favorability Using Natural Language Processing[C]//Proceedings of the 2nd International Conference on Knowledge Capture:70-77.
[18]Xiaowen Ding,Bing Liu.2007.The Utility of Linguistic Rules in Opinion Mining[C]//SIGIR-2007(poster paper),811-812.
[19]Minqing Hu,Bing Liu.Mining and summarizing customer reviews[C]//KDD-2004 (full paper),Seattle,Washington,USA,Aug 22-25,pp.168-177.
[20]Dmitry Davidiv, Oren Tsur, Ari Rappoport.Enhanced Sentiment Learning Using Twitter Hashtags and Smileys[C]//Coling 2010 (poster paper),pp.241-249.
[21]Alec Go,Richa Bhayani,Lei Huang.2009.Twitter Sentiment Classification using Distant Supervision[R].Technical report,Stanford Digital Library Technologies Project.
[22]Ravi Parikh, Matin Movassate.2009.Sentiment Analysis of User-Generated Twitter Updates using Various Classification Techniques[R].CS224NFinal Report:1-18.
[23]Zhao Jun,Liu Kang,Wang Gen.Adding Redundant Features for CRFs-based Sentence Sentiment Classification[C]//EMNLP 2008:117-126.
[24]Lanjun Zhou,Yunqing Xia,Binyang Li et al.WIAOpinmine System in NTCIR-8MOAT Evaluation[C]//NTCIR-8Workshop Meeting,2010.
[25]李壽山,黃居仁.基于Stacking組合分類方法的中文情感分類研究[J].中文信息學(xué)報(bào),2010,24(5):56-61.