亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于情感句模的文本情感分類方法

2013-10-15 01:37:36徐睿峰吳明芬

中文信息學(xué)報(bào) 2013年5期

陳濤，徐睿峰，吳明芬，劉濱

（1.哈爾濱工業(yè)大學(xué) 深圳研究生院，廣東深圳518055；2.五邑大學(xué) 計(jì)算機(jī)學(xué)院，廣東江門529020）

1 引言

情感（Sentiment）是一種復(fù)雜的生理和心理現(xiàn)象，包括情緒（Emotion）、感覺（Feeling）和心情（Mood）等。它是人類智能的重要特征，是人類生活的重要內(nèi)容。隨著Web 2.0、社交網(wǎng)絡(luò)的興起，越來越多的人通過網(wǎng)絡(luò)分享自己的觀點(diǎn)、體驗(yàn)和心情，包含有情感的文本也越來越多。對文本中蘊(yùn)含的情感和情緒進(jìn)行自動分析正在成為新的研究熱點(diǎn)。這些分析技術(shù)的研究對于大數(shù)據(jù)行業(yè)挖掘文本潛在的情感表達(dá)，發(fā)現(xiàn)用戶興趣與需求，提高服務(wù)質(zhì)量等應(yīng)用領(lǐng)域都具有重要的意義。

目前文本情感分類的典型方法包括：（1）基于關(guān)鍵詞的方法。如Turney［1]等使用詞之間的點(diǎn)式互信息（Point－wise mutual information）和 SO（Semantic orientation）對評論進(jìn)行非監(jiān)督的分類；Kamps［2]等利用 WordNet記錄的信息來分析形容詞的極性；朱嫣嵐［3]等基于HowNet分析詞匯的傾向性進(jìn)行句子傾向性分析。這類方法對分析顯式的、含有情感詞的文本比較有效。（2）基于規(guī)則或常識知識庫的方法，如Hu［4]等使用關(guān)聯(lián)規(guī)則挖掘客戶的主觀評論；姚天昉［5]等使用句法規(guī)則的方法對汽車評論中的情感傾向進(jìn)行挖掘；劉鴻宇［6]等基于句法樹中的路徑對評價(jià)對象進(jìn)行抽??；任巨偉［7]等在陳健美［8]等人的情感常識表示框架基礎(chǔ)上構(gòu)建了二元結(jié)構(gòu)的情感常識庫，進(jìn)行文本情感分析和傾向性分析。這類方法具有一定的分析隱含情感和領(lǐng)域相關(guān)情感文本的能力。（3）基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法。如Bo Pang［9]應(yīng)用樸素貝葉斯、最大熵、支持向量機(jī)SVM（Support Vector Machine）等分類器對電影評論進(jìn)行分類；谷學(xué)靜［10]等利用隱馬爾科夫模型HMM對情感進(jìn)行建模；王根［11]等采用多重冗余標(biāo)記的條件隨機(jī)場分類器，通過求聯(lián)合解碼最優(yōu)，減少了單分類的錯(cuò)誤傳遞；Li［12]等利用多分類器融合的方法改進(jìn)單一分器的效果；李壽山［13]等采用了基于Stacking組合分類方法對分類器進(jìn)行情感傾向分析。這類方法得到了較多的應(yīng)用。

考慮到同類別的情感句往往有相同或者相似的句法和語義表達(dá)模式，本文提出一種基于情感句模的文本情感分類方法。首先，從《現(xiàn)代漢語基本句?！罚?4]中選取與情感表達(dá)相關(guān)的三大類句模，并進(jìn)行人工補(bǔ)充獲得105個(gè)二級分類句模。而后，利用情感標(biāo)注語料，對基礎(chǔ)情感句模無法覆蓋的情感句進(jìn)行分詞、句法分析和依存關(guān)系分析，從中找出句子的核心謂詞和與其直接關(guān)聯(lián)的句子主干詞以及對句子情感有直接影響的其他詞，通過半自動的方法獲取情感表達(dá)句模，從而建立一個(gè)情感句模庫。在情感分類任務(wù)中，將情感句分類問題轉(zhuǎn)換為最相似句模分類和排序，從而實(shí)現(xiàn)情感分類。在NLP＆CC 2013中文微博情緒分類評測數(shù)據(jù)集及RenCECps博客情緒語料［15]進(jìn)行的評估實(shí)驗(yàn)顯示，本文提出的方法對語料多標(biāo)簽情感分類準(zhǔn)確率分別達(dá)到43%和60%，明顯優(yōu)于基于詞語特征的SVM分類器方法，本文提出的基于情感句模的方法可以有效地提高文本情感分類性能。

2 基于情感句模的文本情感分類方法

通過對大量情感句的表達(dá)方式進(jìn)行分析和總結(jié)，可以發(fā)現(xiàn)句子的主要語義往往通過句子的主干來表達(dá)，很多時(shí)候具有相同或者類似主干的句子所表達(dá)的情感也相同。例如，表示喜愛情感的兩個(gè)句子“我喜歡你”與“我愛自然語言處理”具有共同的句子主干“情感的持有者＋表示喜愛的詞語＋情感的對象”。為此，本文引入朱曉亞［16]提出的漢語句模的概念進(jìn)行描述。這里，句模定義為動核結(jié)構(gòu)生成句子時(shí)與句型結(jié)合在一起的語義成分的配置模式，是根據(jù)句子語義平面的特征分出來的類別。上述例子中的句子主干可以用句?！埃几惺拢荆枷矏墼~類＞＜向事＞”來描述，其中“感事”表示情感的主體，“向事”表示情感施加的對象。每一類句模包含對應(yīng)的詞類。在利用句模對情感句表達(dá)方式進(jìn)行分析和總結(jié)的基礎(chǔ)上，本文提出以下假設(shè)：

假設(shè)1：情感句模能夠表達(dá)句子的主要語義。

假設(shè)2：如果句子S能用情感句模M表示（即與該句模匹配），則S與M表達(dá)的情感分類相同。

基于情感句模的文本情感分類方法的基本設(shè)計(jì)思想是：將待分類句子與情感句模進(jìn)行匹配，找出匹配程度最高的句模，句模所屬的情感類別即為此句子的情感分類。

2.1 情感分類及句模庫構(gòu)建

考慮到情感表達(dá)的靈活多樣，因此需要對情感表達(dá)句和對應(yīng)的情感句模進(jìn)行相對精細(xì)的區(qū)分。魯川［14]等人在論文《現(xiàn)代漢語基本句?！分袑⒊Ｒ姷臐h語句模分為26個(gè)大類，122個(gè)二級分類。本文首先從中選擇出與情感表達(dá)有著密切關(guān)系的包括“態(tài)度、感受、思想”3個(gè)大類和14個(gè)二級分類，其中“態(tài)度”大類分為“熱情類、細(xì)心類”等，“感受”大類分為“感知類、感覺類”等，“思想”大類分為“希望類、愿意類”等。從這些分類對應(yīng)的句模庫中抽取了14個(gè)句模和14個(gè)對應(yīng)的詞類構(gòu)成基本情感句模庫。考慮到文獻(xiàn)［14]存在對情感表達(dá)句式覆蓋率有所不足的問題，結(jié)合對大規(guī)模情感語料庫的觀察和分析，本文對上述二級分類進(jìn)行了擴(kuò)展，最終得到對應(yīng)于“態(tài)度”大類的41個(gè)二級分類、對應(yīng)于“感受”大類的48個(gè)二級分類、對應(yīng)于“思想”大類的16個(gè)二級分類。詳細(xì)的分類列表在附錄中給出。

由于基本情感句模庫不能夠覆蓋所有對應(yīng)類別情感句的表達(dá)方式。另一方面，本文新擴(kuò)展出的二級分類無法從現(xiàn)有的《現(xiàn)代漢語基本句?！焚Y源中獲得對應(yīng)的句模。為此，本文提出了一種情感句模的半自動獲取方法，基本過程如下。

（1）從情感語料庫中抽取情感句，利用基本情感句模庫進(jìn)行匹配。對能匹配的句子作為對應(yīng)句模的實(shí)例存儲。對不能匹配的句子，人工標(biāo)注其對應(yīng)的情感二級分類，并繼續(xù)處理。

（2）對這些句子進(jìn)行分詞、句法分析和依存關(guān)系分析。從中找出句子的核心謂詞和與其直接關(guān)聯(lián)的句子主干詞，以及對句子情感有直接影響的其他詞（稱為：附屬詞）。

（3）借助《同義詞詞林》，查找核心謂詞和附屬詞所在的同義詞詞類，用同義詞詞類名代替該核心謂詞和附屬詞。如果這些詞語不屬于任何同義詞詞類，則創(chuàng)建新的詞類。這里，為區(qū)別詞和詞類，將詞類名用尖括號括起來。

（4）參考《現(xiàn)代漢語基本句?！分卸x的語義角色，將句子主干詞抽象成語義角色。這里，為區(qū)別詞和語義角色，將語義角色用尖括號括起來。

（5）將制作好的句模存入句模庫。

下面以例句1“我愛自然語言處理?！闭f明“喜愛類”中句模的構(gòu)建過程：

（1）生成句子的分詞結(jié)果“我／愛／自然／語言／處理／?！保约皩?yīng)的句法分析和依存關(guān)系分析結(jié)果如圖1和圖2所示。結(jié)合句法分析和依存分析結(jié)果，可知例句1的核心謂詞是“愛”，與其直接關(guān)聯(lián)的句子主干詞分別是“我”和“處理”，而“自然”和“語言”則不被視為句子主干。

圖1 例句1依存關(guān)系樹

表1 典型情感句模及其所屬情感分類

圖2 例句1句法樹

（2）在句模庫中查找“愛”是否屬于某個(gè)已知詞類，如果匹配則使用該詞類名代替“愛”；如果無法匹配，則在《同義詞詞林》中查找“愛”的同義詞，在句模庫中創(chuàng)建“喜愛詞類”，并將“愛”和它的同義詞添加到該詞類中。而后用“＜喜愛詞類＞”替代“愛”，此時(shí)例句1的主干為：“我＜喜愛詞類＞處理”。

（3）參考《現(xiàn)代漢語基本句?！分卸x的語義角色，通過將“我”抽象為“感事”，將“處理”抽象為“向事”，則從例句1獲得句模“＜感事＞＜喜愛詞類＞＜向事＞”。

（4）將新句模存入情感句模庫。

按照上述步驟，我們共從約3500個(gè)情感句中獲得了413個(gè)情感句模，表1列舉了一些典型情感句模及其所屬的情感分類，其中中括號里面的詞是可以省略的詞。

2.2 基于情感句模的情感分類算法

2.2.1 分類特征選擇

利用情感分類句模庫，可以將句子的情感分類轉(zhuǎn)換為對情感句模的分類問題，只要找出與待分類

其中，向量w＝［w1，w2，w3，w4]，是對向量f＝［f1，f2，f3，f4]的權(quán)重向量。b為閾值，y＝1表示匹配成功，該句模所屬情感分類記為待分類句子的分類，y＝－1表示不匹配。

例如，例句2“我喜愛信息檢索?！钡暮诵脑~為“喜愛”，查找句模庫得到可能的類別為喜愛類。對應(yīng)喜愛類中的句模1“＜感事＞＜喜愛詞類＞＜向事＞”，其中“＜喜愛詞類＞”包括核心詞“喜愛”，所以f1＝1；句模1中沒有附屬詞匹配，所以f2＝0；句模1的依存關(guān)系樹與句法樹分別如圖3和4所示。依存關(guān)系樹與核心詞連接的邊“SBV”和“VOB”，兩條邊都匹配，所以f3＝2；句法樹中有4個(gè)分支匹配：分別是“ROOT→IP→NP→PN”、“ROOT→IP→VP→ VV”、“ROOT→IP→VP→NP→NN”和“ROOT→IP→PU”，所以f4＝4。因此f＝［1，0，2，4]。類似可以生成其他句模對應(yīng)的f向量。句子匹配程度最高的句模，即可使用句模的情感分類作為此句子的情感分類。本文設(shè)計(jì)和選擇了4種句模匹配特征用于描述句模匹配的相似性。

圖3 句模1依存樹

圖4 句模1句法樹

f1：是否匹配核心詞，匹配則f1＝1，不匹配則為0。

f2：匹配附屬詞個(gè)數(shù)。

f3：匹配依存關(guān)系樹中與核心詞連接的邊的個(gè)數(shù)。

f4：匹配句法樹中從根到葉子節(jié)點(diǎn)的路徑（或稱為句法樹分支）的個(gè)數(shù)。

隨后，使用下面的線性分類器模型結(jié)合上述4種匹配特征進(jìn)行分類：

利用線性分類器分類結(jié)果可得到句模1為最近似句模分類結(jié)果，對應(yīng)的例句2的情感分類結(jié)果可以由句模1的分類“喜愛”獲得。

本文設(shè)計(jì)的基于情感句模的情感分類算法分類成功的標(biāo)準(zhǔn)是至少找到一個(gè)匹配得分超過閾值的句模。每個(gè)情感分類中所有句模的最高得分為該分類的得分，按總得分由高到低對情感分類進(jìn)行排序，分?jǐn)?shù)最高的一個(gè)或多個(gè)分類為最終分類結(jié)果，其他分類作為參考結(jié)果。也就意味著本文的分類方法支持多標(biāo)簽分類。

2.2.2 基于感知機(jī)的權(quán)重參數(shù)優(yōu)化

為提高線性分類器的性能，本文使用感知機(jī)學(xué)習(xí)算法，利用標(biāo)注訓(xùn)練語料對情感分類算法中的權(quán)重參數(shù)w進(jìn)行優(yōu)化。算法偽代碼描述如下：

其中fi是訓(xùn)練語料中第i個(gè)句子匹配特征向量，2.2.1節(jié)中例句1匹配句模1的匹配特征向量fi＝［1，0，2，4]。w 是分類算法的4個(gè)匹配特征的打分權(quán)重向量。zi是期望分類，表示當(dāng)前句模所在情感類與第i個(gè)句子標(biāo)注的情感分類是否相同，相同則zi＝1，不相同則zi＝0，例句1標(biāo)注的情感分類是喜愛類，與句模1所在分類相同，所以zi＝1。training＿set是訓(xùn)練語料對應(yīng)的匹配特征向量t與期望分類z的集合。error＿count記錄變量error不為0的個(gè)數(shù)，當(dāng)訓(xùn)練語料中所有的句子對應(yīng)的error變量值都為0時(shí)程序結(jié)束。ɑ為學(xué)習(xí)因子，取值在0到1之間。

2.2.3 特殊詞語處理

在算法設(shè)計(jì)與分析過程中，發(fā)現(xiàn)以下幾點(diǎn)問題。

（1）不規(guī)則詞問題：一些語料尤其是微博語料中經(jīng)常出現(xiàn)不規(guī)則詞和短語，分類算法無法識別句模庫中沒有的詞。例如，句子：“剛才的拔河比賽，太雞凍了”，句模庫的激動詞類中只有“激動”而沒有“雞凍”。解決辦法是搜集不規(guī)則詞將其添加到詞類庫中。

（2）分詞錯(cuò)誤問題。例如，對“自己是最棒的”的分詞結(jié)果為“自己／是／最／棒／的”，如果能將“最棒的”作為一個(gè)獨(dú)立單元來處理，更有利于根據(jù)關(guān)鍵詞選擇候選分類。解決辦法是將具有明顯情感的短語加入到自定義詞表中作為一個(gè)詞處理。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)使用兩個(gè)領(lǐng)域的語料：語料1為NLP＆CC 2013中文微博情緒識別評測數(shù)據(jù)，簡稱NLP＆CC語料。共包括4000條微博中的13250個(gè)句子，其中情感句4949句，無情感句8301句。情感句共分7類：Anger憤怒、Disgust厭惡、Fear恐懼、Happiness高興、Like喜好、Sadness悲傷、Surprise驚訝。每個(gè)句子最多屬于兩個(gè)情感分類。語料2為RenCECps博客情緒語料，包括1487篇博客短文共34954個(gè)句子，其中情感句32171句，無情感句2783句。情感句共分8類：Sorrow，Anger，Anxiety，Surprise，Hate，Love，Joy，Expect。每個(gè)句子可屬于一個(gè)或多個(gè)情感分類。

實(shí)驗(yàn)使用評估指標(biāo)為：

準(zhǔn)確率：

召回率：

待分類句子的多標(biāo)簽分類結(jié)果中任意一個(gè)標(biāo)簽分類正確，則視為正確分類句。＃system＿correct（emotion＝Y(jié)）是對語料中情感句分類正確的句子數(shù)目，＃system＿proposed（emotion＝Y(jié)）是語料中的情感句總數(shù)，＃gold（emotion＝Y(jié)）是語料中被劃分為情感句的句子數(shù)目。

本文采用的Baseline系統(tǒng)是基于詞語特征SVM分類器的方法。

3.2 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)1 與Baseline系統(tǒng)對比實(shí)驗(yàn)。

Baseline系統(tǒng)使用SVM分類器和詞語特征分別對NLP＆CC微博語料和RenCECps博客情緒語料進(jìn)行分類，具體方法是：對情感句進(jìn)行分詞標(biāo)注詞性后挑選所有的名詞、動詞和形容詞組成一個(gè)詞匯表，以待分類句子中的詞是否在詞匯表中出現(xiàn)以及出現(xiàn)的頻率為特征，隨機(jī)挑選2／3的句子為訓(xùn)練語料，1／3的句子為測試語料，使用SVM Multi－Class工具進(jìn)行訓(xùn)練和測試。Baseline系統(tǒng)和本文提出的分類器獲得的最高準(zhǔn)確率統(tǒng)計(jì)結(jié)果如表2所示。

表2 NLP＆CC微博語料Baseline系統(tǒng)對比實(shí)驗(yàn)結(jié)果

表3 RenCECps博客情緒語料Baseline系統(tǒng)對比實(shí)驗(yàn)結(jié)果

由此可見，基于情感句模的分類算法相比Baseline方法可以達(dá)到較高的準(zhǔn)確率。特別是RenCECps博客情緒語料上可以達(dá)到很高性能，這是由于這個(gè)語料中用詞比較規(guī)范，因此，基于情感句模的分類算法準(zhǔn)確率較高。

實(shí)驗(yàn)2 權(quán)重優(yōu)化影響實(shí)驗(yàn)。

使用2.2.2節(jié)描述的感知機(jī)算法，取α＝0.1，threshold＝0.5，對NLP＆CC語料中情感句進(jìn)行訓(xùn)練，得到w＝［0.6，0.2，0.6，－0.2]，為方便計(jì)算將每個(gè)權(quán)值放大10倍后取整，得到w＝［6，2，6，－2]。分別使用均等權(quán)重、經(jīng)驗(yàn)權(quán)重和感知機(jī)優(yōu)化特征權(quán)重，對NLP＆CC語料中情感句和無情感句進(jìn)行分類，分類結(jié)果如表4所示。

表4 評估特征權(quán)重影響實(shí)驗(yàn)結(jié)果

與均等權(quán)重相比，采用感知機(jī)學(xué)習(xí)算法優(yōu)化特征權(quán)重后，分類算法性能提升了約3%。與經(jīng)驗(yàn)權(quán)重相比，召回率略有上升，準(zhǔn)確率有所下降，F(xiàn)值略微上升。

實(shí)驗(yàn)3 句模數(shù)量與分類準(zhǔn)確度及句模庫對中文情感句的覆蓋率的評估。

對NLP＆CC語料中情感句進(jìn)行分類，統(tǒng)計(jì)與分類正確的情感句匹配頻率最高的10個(gè)句模，如表5所示。

表5 與分類正確情感句匹配頻率最高的10個(gè)句模

進(jìn)一步，分別統(tǒng)計(jì)與分類正確的情感句統(tǒng)計(jì)匹配頻率最高的10個(gè)、20個(gè)、50個(gè)、100個(gè)、150個(gè)句模，以及與它們匹配的句子個(gè)數(shù)，統(tǒng)計(jì)結(jié)果如圖5所示。

圖5中橫坐標(biāo)為高頻句模數(shù)量，實(shí)線圖的縱坐標(biāo)為高頻句模匹配的句子占全部分類正確的情感句的百分比，虛線圖的縱坐標(biāo)為高頻句模匹配的句子占全部情感句的百分比?？梢园l(fā)現(xiàn)前150個(gè)高頻句模匹配了97.6%的分類正確的情感句，覆蓋了絕大多數(shù)分類正確的情感句，對NLP＆CC語料中全部情感句的覆蓋率為40.7%。

此外，分別只使用匹配頻率最高的10個(gè)、20個(gè)、30個(gè)、50個(gè)、100個(gè)、150個(gè)句模對NLP＆CC語料進(jìn)行分類，統(tǒng)計(jì)分類準(zhǔn)確率如圖6所示。

圖5 句模數(shù)量與匹配句子百分比統(tǒng)計(jì)圖

圖6 句模數(shù)量與分類準(zhǔn)確率統(tǒng)計(jì)圖

圖中橫坐標(biāo)為高頻句模的數(shù)量，縱坐標(biāo)為只使用這些句模對NLP＆CC語料中情感句進(jìn)行分類的準(zhǔn)確率?？梢园l(fā)現(xiàn)只使用前10個(gè)高頻句模對NLP＆CC語料7個(gè)分類的分類準(zhǔn)確率為16.6%，只比隨機(jī)分配1／7＝14.3%的概率高2個(gè)百分點(diǎn)。隨著高頻句模數(shù)量的增加，分類準(zhǔn)確率迅速提高。當(dāng)使用前150個(gè)句模時(shí)，分類準(zhǔn)確率為40.7%，與使用全部413個(gè)句模的準(zhǔn)確率43.4%只相差3個(gè)百分點(diǎn)。由此可見，前150個(gè)高頻句模對分類效果起到?jīng)Q定性影響，繼續(xù)增加句模數(shù)量對分類準(zhǔn)確率提高效果不明顯。

實(shí)驗(yàn)4 分類特征、自定義詞表與分類效果關(guān)系實(shí)驗(yàn)。

分別使用以下3種方法進(jìn)行實(shí)驗(yàn)。

方法1：只使用分類算法4個(gè)分類特征中詞級特征f1和f2，對NLP＆CC語料進(jìn)行分類。

方法2：使用全部4個(gè)特征對NLP＆CC語料進(jìn)行分類。

方法3：使用全部4個(gè)特征加自定義詞表對NLP＆CC語料進(jìn)行分類。

分類統(tǒng)計(jì)結(jié)果如表6所示。

表6 實(shí)驗(yàn)4統(tǒng)計(jì)結(jié)果

由表6可知，方法2在方法1的基礎(chǔ)上使用依存關(guān)系特征f3和句法特征f4分類性能提升明顯。方法1效果較差的原因是句模庫中有些同義詞的含義并不能與句模匹配。例如：《同義詞詞林》中“細(xì)心”的同義詞包括“致密”、“逐字逐句”、“細(xì)瞧”、“有心人”等，與細(xì)心類的句模：“＜當(dāng)事＞＜細(xì)心詞類＞”中的“細(xì)心詞類”并不匹配，這些詞在細(xì)心詞類中會降低分類系統(tǒng)的召回率。方法3比方法2多了自定義分詞詞表，分類效果略有提高。這說明自定義詞表能夠提高分類效果，但自定義詞都是針對特定句子的情感表達(dá)手工抽取添加，目前的規(guī)模還不夠，覆蓋范圍有限，對分類效果提升有限。

3.3 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)1至4表明，繼續(xù)增加分類系統(tǒng)的句模數(shù)量和優(yōu)化打分權(quán)重對分類效果提高影響不大。下一步考慮增加新的匹配特征，例如，句模中的語義角色特征等。

實(shí)驗(yàn)過程中發(fā)現(xiàn)下列問題：（1）句模庫中只有情感類句模，沒有無情感類句模。任何與4個(gè)匹配特征中任意1個(gè)匹配的句子都會劃分為情感句，導(dǎo)致無情感句被劃為情感句的概率較高，降低了系統(tǒng)的性能。下一步將考慮優(yōu)化特征匹配得分的閾值或完善三大情感分類以外的基于謂詞的分類，并構(gòu)建相應(yīng)的句模庫。（2）情感分類和句模都是基于謂詞和相應(yīng)規(guī)則構(gòu)建的，對顯式含有情感詞或情感搭配的句子比較有效。而類似“如同觀看一部真正的大片一樣”這樣的句子中，表達(dá)情感的要素是名詞“大片”和它的修飾語“真正的”，比較難用句模匹配的方法劃分情感類別。類比句或比喻句的情感分類是十分困難的，下一步考慮增加相應(yīng)的匹配特征，嘗試結(jié)合基于統(tǒng)計(jì)的方法，提高隱含情感句子的分類效果。

4 結(jié)語

本文設(shè)計(jì)和實(shí)現(xiàn)了一種半自動獲取情感句模的方法，使用句模分類的方法實(shí)現(xiàn)對情感句的分類，在兩個(gè)情感測試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示本文提出的方法可以穩(wěn)定有效地提高文本情感分類性能。目前情感分類的細(xì)致劃分還在繼續(xù)進(jìn)行中，計(jì)劃細(xì)化同義詞詞類和嘗試添加更多匹配特征。另外還將加入基于統(tǒng)計(jì)的情感分類方法，構(gòu)筑相應(yīng)的訓(xùn)練語料和測試語料，提高對隱含情感句子的分類效果。

附錄A.情感句模分類

① 態(tài)度類分為：支持類，反對類，懷疑類，沉默類，耐心類，怨氣類，果斷類，信心類，冒險(xiǎn)類，妥協(xié)類，熱情類，冷淡類，粗暴類，誠懇類，溫柔類，和藹類，客氣類，寬容類，霸道類，謙虛類，細(xì)心類，勤奮類，負(fù)責(zé)類，積極類，謹(jǐn)慎類，粗心類，親密類，團(tuán)結(jié)類，一見如故類，熟悉類，戀愛類，和睦類，疏遠(yuǎn)類，友好類，糾紛類，糾纏類，挑逗類，苛刻類，重視類，嚴(yán)格類，輕視類。共41個(gè)二級分類。

② 感受類分為：吸引類，為榮類，自娛類，為恥類，不知所措類，傷感情類，感知類，記得類，生理感覺類，非生理感覺類，聽到類，偷聽類，看見類，偷看類，知道類，不知道類，發(fā)現(xiàn)類，慚愧類，憤怒類，義憤類，幸災(zāi)樂禍類，敬佩類，羨慕類，感激類，譴責(zé)類，害怕類，喜愛類，溺愛類，討厭類，仇恨類，寬慰類，失望類，擔(dān)憂類，高興類，悲傷類，驚訝類，滿意類，不滿意類，沒耐心類，懊悔類，緊張情緒類，心安類，自豪類，慌張類，眼熟類，耳熟類，眼生類，耳生類。共48個(gè)二級分類。

③ 思想類分為：希望類，自愿類，向往類，思考類，想象類，相信類，鑒別類，主張類，接受類，看待類，信任類，寵信類，看得起類，另眼相看類，想念類，著想類。共16個(gè)二級分類。

［1]Peter D Turney.Thumbs Up or Thumbs Down？Senmantic Orientition Applied to Unsupervised Classification of Reviews［C]／／Proceedings of ACL 2002：417－424.

［2]Kamps J，Marx M，Mokken RJ.Using WordNet to Measure Semantic Orientation of Adjectives.［C]／／Proceedings of LREC.2004：1115－1118.

［3]朱嫣嵐，閔錦，周雅倩，等.基于HowNet的詞匯語義傾向計(jì)算［J].中文信息學(xué)報(bào)，2006，20（1）：14－20.

［4]Hu Minqing，Liu B.Mining Opinion Features in Customer Reviews.［C]／／Proceedings of AAAI 2004：755－760.

［5]姚天昉，聶青陽，李建超，等.一個(gè)用于漢語汽車評論的意見挖掘系統(tǒng).［C]／／中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集.北京：清華大學(xué)出版社，2006：260－280.

［6]劉鴻宇，趙妍妍，秦兵，等.評價(jià)對象抽取及其傾向性分析［J].中文信息學(xué)報(bào)，2010，24（1）：84－89.

［7]任巨偉，楊源，王昊，等.二元情感常識庫建設(shè)及其在文本情感分析中的應(yīng)用［OL].中國科技論文在線，2013，http：／／www.paper.edu.cn／releasepaper／content／201301－158.

［8]陳健美，林鴻飛.中文情感常識知識庫的構(gòu)建［J].情報(bào)學(xué)報(bào)，2009，28（4）：492－498.

［9]Bo Pang，Lillian Lee，Shivakumar Vaithyanathan.Thumbs up？Sentiment Classification using Machine Learning Techniques ［C]／／Proceedings of EMNLP 2002：79－86.

［10]谷學(xué)靜，王志良，劉冀偉，等.基于 HMM的人工心理建模方法的研究［C].第一屆中國情感計(jì)算及智能交互學(xué)術(shù)會議，北京，2003：31－36.

［11]王根，趙軍.基于多重冗余標(biāo)記CRFs的句子情感分析研究［J].中文信息學(xué)報(bào)，2007，21（5）：51－56.

［12]S Li and C Zong，Multi－domain Sentiment Classification［C]／／Proceedings of ACL－HLT 2008：257－260.

［13]李壽山，黃居仁.基于Stacking組合分類方法的中文情感分類研究［J].中文信息學(xué)報(bào)，2010，24（5）：56－61.

［14]魯川，緱瑞隆，董麗萍.現(xiàn)代漢語基本句模［J].世界漢語教學(xué)，2000，54（4）：11－24.

［15]Changqin Quan，F(xiàn)uji Ren.Construction of a Blog E－motion Corpus for Chinese Emotional Expression A－nalysis［C]／／Proceedings of the 2009Conference on Empirical Methods in Natural Language Processing，pages：1446－1454.

［16]朱曉亞，范曉.二價(jià)動作動詞形成的基干句模［J].語言教學(xué)與研究，1999：111－122.