亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于情感句模的文本情感分類方法

        2013-10-15 01:37:36徐睿峰吳明芬
        中文信息學(xué)報(bào) 2013年5期
        關(guān)鍵詞:分類情感方法

        陳 濤,徐睿峰,吳明芬,劉 濱

        (1.哈爾濱工業(yè)大學(xué) 深圳研究生院,廣東 深圳518055;2.五邑大學(xué) 計(jì)算機(jī)學(xué)院,廣東 江門529020)

        1 引言

        情感(Sentiment)是一種復(fù)雜的生理和心理現(xiàn)象,包括情緒 (Emotion)、感覺(Feeling)和心情(Mood)等。它是人類智能的重要特征,是人類生活的重要內(nèi)容。隨著Web 2.0、社交網(wǎng)絡(luò)的興起,越來越多的人通過網(wǎng)絡(luò)分享自己的觀點(diǎn)、體驗(yàn)和心情,包含有情感的文本也越來越多。對文本中蘊(yùn)含的情感和情緒進(jìn)行自動分析正在成為新的研究熱點(diǎn)。這些分析技術(shù)的研究對于大數(shù)據(jù)行業(yè)挖掘文本潛在的情感表達(dá),發(fā)現(xiàn)用戶興趣與需求,提高服務(wù)質(zhì)量等應(yīng)用領(lǐng)域都具有重要的意義。

        目前文本情感分類的典型方法包括:(1)基于關(guān)鍵詞的方法。如Turney[1]等使用詞之間的點(diǎn)式 互信息(Point-wise mutual information)和 SO(Semantic orientation)對評論進(jìn)行非監(jiān)督的分類;Kamps[2]等利用 WordNet記錄的信息來分析形容詞的極性;朱嫣嵐[3]等基于HowNet分析詞匯的傾向性進(jìn)行句子傾向性分析。這類方法對分析顯式的、含有情感詞的文本比較有效。(2)基于規(guī)則或常識知識庫的方法,如Hu[4]等使用關(guān)聯(lián)規(guī)則挖掘客戶的主觀評論;姚天昉[5]等使用句法規(guī)則的方法對汽車評論中的情感傾向進(jìn)行挖掘;劉鴻宇[6]等基于句法樹中的路徑對評價(jià)對象進(jìn)行抽??;任巨偉[7]等在陳健美[8]等人的情感常識表示框架基礎(chǔ)上構(gòu)建了二元結(jié)構(gòu)的情感常識庫,進(jìn)行文本情感分析和傾向性分析。這類方法具有一定的分析隱含情感和領(lǐng)域相關(guān)情感文本的能力。(3)基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法。如Bo Pang[9]應(yīng)用樸素貝葉斯、最大熵、支持向量機(jī)SVM(Support Vector Machine)等分類器對電影評論進(jìn)行分類;谷學(xué)靜[10]等利用隱馬爾科夫模型HMM對情感進(jìn)行建模;王根[11]等采用多重冗余標(biāo)記的條件隨機(jī)場分類器,通過求聯(lián)合解碼最優(yōu),減少了單分類的錯(cuò)誤傳遞;Li[12]等利用多分類器融合的方法改進(jìn)單一分器的效果;李壽山[13]等采用了基于Stacking組合分類方法對分類器進(jìn)行情感傾向分析。這類方法得到了較多的應(yīng)用。

        考慮到同類別的情感句往往有相同或者相似的句法和語義表達(dá)模式,本文提出一種基于情感句模的文本情感分類方法。首先,從《現(xiàn)代漢語基本句?!罚?4]中選取與情感表達(dá)相關(guān)的三大類句模,并進(jìn)行人工補(bǔ)充獲得105個(gè)二級分類句模。而后,利用情感標(biāo)注語料,對基礎(chǔ)情感句模無法覆蓋的情感句進(jìn)行分詞、句法分析和依存關(guān)系分析,從中找出句子的核心謂詞和與其直接關(guān)聯(lián)的句子主干詞以及對句子情感有直接影響的其他詞,通過半自動的方法獲取情感表達(dá)句模,從而建立一個(gè)情感句模庫。在情感分類任務(wù)中,將情感句分類問題轉(zhuǎn)換為最相似句模分類和排序,從而實(shí)現(xiàn)情感分類。在NLP&CC 2013中文微博情緒分類評測數(shù)據(jù)集及RenCECps博客情緒語料[15]進(jìn)行的評估實(shí)驗(yàn)顯示,本文提出的方法對語料多標(biāo)簽情感分類準(zhǔn)確率分別達(dá)到43%和60%,明顯優(yōu)于基于詞語特征的SVM分類器方法,本文提出的基于情感句模的方法可以有效地提高文本情感分類性能。

        2 基于情感句模的文本情感分類方法

        通過對大量情感句的表達(dá)方式進(jìn)行分析和總結(jié),可以發(fā)現(xiàn)句子的主要語義往往通過句子的主干來表達(dá),很多時(shí)候具有相同或者類似主干的句子所表達(dá)的情感也相同。例如,表示喜愛情感的兩個(gè)句子“我喜歡你”與“我愛自然語言處理”具有共同的句子主干“情感的持有者+表示喜愛的詞語+情感的對象”。為此,本文引入朱曉亞[16]提出的漢語句模的概念進(jìn)行描述。這里,句模定義為動核結(jié)構(gòu)生成句子時(shí)與句型結(jié)合在一起的語義成分的配置模式,是根據(jù)句子語義平面的特征分出來的類別。上述例子中的句子主干可以用句?!埃几惺拢荆枷矏墼~類><向事>”來描述,其中“感事”表示情感的主體,“向事”表示情感施加的對象。每一類句模包含對應(yīng)的詞類。在利用句模對情感句表達(dá)方式進(jìn)行分析和總結(jié)的基礎(chǔ)上,本文提出以下假設(shè):

        假設(shè)1:情感句模能夠表達(dá)句子的主要語義。

        假設(shè)2:如果句子S能用情感句模M表示(即與該句模匹配),則S與M表達(dá)的情感分類相同。

        基于情感句模的文本情感分類方法的基本設(shè)計(jì)思想是:將待分類句子與情感句模進(jìn)行匹配,找出匹配程度最高的句模,句模所屬的情感類別即為此句子的情感分類。

        2.1 情感分類及句模庫構(gòu)建

        考慮到情感表達(dá)的靈活多樣,因此需要對情感表達(dá)句和對應(yīng)的情感句模進(jìn)行相對精細(xì)的區(qū)分。魯川[14]等人在論文《現(xiàn)代漢語基本句?!分袑⒊R姷臐h語句模分為26個(gè)大類,122個(gè)二級分類。本文首先從中選擇出與情感表達(dá)有著密切關(guān)系的包括“態(tài)度、感受、思想”3個(gè)大類和14個(gè)二級分類,其中“態(tài)度”大類分為“熱情類、細(xì)心類”等,“感受”大類分為“感知類、感覺類”等,“思想”大類分為“希望類、愿意類”等。從這些分類對應(yīng)的句模庫中抽取了14個(gè)句模和14個(gè)對應(yīng)的詞類構(gòu)成基本情感句模庫。考慮到文獻(xiàn)[14]存在對情感表達(dá)句式覆蓋率有所不足的問題,結(jié)合對大規(guī)模情感語料庫的觀察和分析,本文對上述二級分類進(jìn)行了擴(kuò)展,最終得到對應(yīng)于“態(tài)度”大類的41個(gè)二級分類、對應(yīng)于“感受”大類的48個(gè)二級分類、對應(yīng)于“思想”大類的16個(gè)二級分類。詳細(xì)的分類列表在附錄中給出。

        由于基本情感句模庫不能夠覆蓋所有對應(yīng)類別情感句的表達(dá)方式。另一方面,本文新擴(kuò)展出的二級分類無法從現(xiàn)有的《現(xiàn)代漢語基本句?!焚Y源中獲得對應(yīng)的句模。為此,本文提出了一種情感句模的半自動獲取方法,基本過程如下。

        (1)從情感語料庫中抽取情感句,利用基本情感句模庫進(jìn)行匹配。對能匹配的句子作為對應(yīng)句模的實(shí)例存儲。對不能匹配的句子,人工標(biāo)注其對應(yīng)的情感二級分類,并繼續(xù)處理。

        (2)對這些句子進(jìn)行分詞、句法分析和依存關(guān)系分析。從中找出句子的核心謂詞和與其直接關(guān)聯(lián)的句子主干詞,以及對句子情感有直接影響的其他詞(稱為:附屬詞)。

        (3)借助《同義詞詞林》,查找核心謂詞和附屬詞所在的同義詞詞類,用同義詞詞類名代替該核心謂詞和附屬詞。如果這些詞語不屬于任何同義詞詞類,則創(chuàng)建新的詞類。這里,為區(qū)別詞和詞類,將詞類名用尖括號括起來。

        (4)參考《現(xiàn)代漢語基本句?!分卸x的語義角色,將句子主干詞抽象成語義角色。這里,為區(qū)別詞和語義角色,將語義角色用尖括號括起來。

        (5)將制作好的句模存入句模庫。

        下面以例句1“我愛自然語言處理?!闭f明“喜愛類”中句模的構(gòu)建過程:

        (1)生成句子的分詞結(jié)果“我/愛/自然/語言/處理/?!保约皩?yīng)的句法分析和依存關(guān)系分析結(jié)果如圖1和圖2所示。結(jié)合句法分析和依存分析結(jié)果,可知例句1的核心謂詞是“愛”,與其直接關(guān)聯(lián)的句子主干詞分別是“我”和“處理”,而“自然”和“語言”則不被視為句子主干。

        圖1 例句1依存關(guān)系樹

        表1 典型情感句模及其所屬情感分類

        圖2 例句1句法樹

        (2)在句模庫中查找“愛”是否屬于某個(gè)已知詞類,如果匹配則使用該詞類名代替“愛”;如果無法匹配,則在《同義詞詞林》中查找“愛”的同義詞,在句模庫中創(chuàng)建“喜愛詞類”,并將“愛”和它的同義詞添加到該詞類中。而后用“<喜愛詞類>”替代“愛”,此時(shí)例句1的主干為:“我 <喜愛詞類> 處理”。

        (3)參考《現(xiàn)代漢語基本句?!分卸x的語義角色,通過將“我”抽象為“感事”,將“處理”抽象為“向事”,則從例句1獲得句模“<感事><喜愛詞類><向事>”。

        (4)將新句模存入情感句模庫。

        按照上述步驟,我們共從約3500個(gè)情感句中獲得了413個(gè)情感句模,表1列舉了一些典型情感句模及其所屬的情感分類,其中中括號里面的詞是可以省略的詞。

        2.2 基于情感句模的情感分類算法

        2.2.1 分類特征選擇

        利用情感分類句模庫,可以將句子的情感分類轉(zhuǎn)換為對情感句模的分類問題,只要找出與待分類

        其中,向量w=[w1,w2,w3,w4],是對向量f=[f1,f2,f3,f4]的權(quán)重向量。b為閾值,y=1表示匹配成功,該句模所屬情感分類記為待分類句子的分類,y=-1表示不匹配。

        例如,例句2“我 喜愛 信息 檢索?!钡暮诵脑~為“喜愛”,查找句模庫得到可能的類別為喜愛類。對應(yīng)喜愛類中的句模1“<感事><喜愛詞類><向事>”,其中“<喜愛詞類>”包括核心詞“喜愛”,所以f1=1;句模1中沒有附屬詞匹配,所以f2=0;句模1的依存關(guān)系樹與句法樹分別如圖3和4所示。依存關(guān)系樹與核心詞連接的邊“SBV”和“VOB”,兩條邊都匹配,所以f3=2;句法樹中有4個(gè)分支匹配:分別是“ROOT→IP→NP→PN”、“ROOT→IP→VP→ VV”、“ROOT→IP→VP→NP→NN”和“ROOT→IP→PU”,所以f4=4。因此f=[1,0,2,4]。類似可以生成其他句模對應(yīng)的f向量。句子匹配程度最高的句模,即可使用句模的情感分類作為此句子的情感分類。本文設(shè)計(jì)和選擇了4種句模匹配特征用于描述句模匹配的相似性。

        圖3 句模1依存樹

        圖4 句模1句法樹

        f1:是否匹配核心詞,匹配則f1=1,不匹配則為0。

        f2:匹配附屬詞個(gè)數(shù)。

        f3:匹配依存關(guān)系樹中與核心詞連接的邊的個(gè)數(shù)。

        f4:匹配句法樹中從根到葉子節(jié)點(diǎn)的路徑(或稱為句法樹分支)的個(gè)數(shù)。

        隨后,使用下面的線性分類器模型結(jié)合上述4種匹配特征進(jìn)行分類:

        利用線性分類器分類結(jié)果可得到句模1為最近似句模分類結(jié)果,對應(yīng)的例句2的情感分類結(jié)果可以由句模1的分類“喜愛”獲得。

        本文設(shè)計(jì)的基于情感句模的情感分類算法分類成功的標(biāo)準(zhǔn)是至少找到一個(gè)匹配得分超過閾值的句模。每個(gè)情感分類中所有句模的最高得分為該分類的得分,按總得分由高到低對情感分類進(jìn)行排序,分?jǐn)?shù)最高的一個(gè)或多個(gè)分類為最終分類結(jié)果,其他分類作為參考結(jié)果。也就意味著本文的分類方法支持多標(biāo)簽分類。

        2.2.2 基于感知機(jī)的權(quán)重參數(shù)優(yōu)化

        為提高線性分類器的性能,本文使用感知機(jī)學(xué)習(xí)算法,利用標(biāo)注訓(xùn)練語料對情感分類算法中的權(quán)重參數(shù)w進(jìn)行優(yōu)化。算法偽代碼描述如下:

        其中fi是訓(xùn)練語料中第i個(gè)句子匹配特征向量,2.2.1節(jié)中例句1匹配句模1的匹配特征向量fi=[1,0,2,4]。w 是分類算法的4個(gè)匹配特征的打分權(quán)重向量。zi是期望分類,表示當(dāng)前句模所在情感類與第i個(gè)句子標(biāo)注的情感分類是否相同,相同則zi=1,不相同則zi=0,例句1標(biāo)注的情感分類是喜愛類,與句模1所在分類相同,所以zi=1。training_set是訓(xùn)練語料對應(yīng)的匹配特征向量t與期望分類z的集合。error_count記錄變量error不為0的個(gè)數(shù),當(dāng)訓(xùn)練語料中所有的句子對應(yīng)的error變量值都為0時(shí)程序結(jié)束。ɑ為學(xué)習(xí)因子,取值在0到1之間。

        2.2.3 特殊詞語處理

        在算法設(shè)計(jì)與分析過程中,發(fā)現(xiàn)以下幾點(diǎn)問題。

        (1)不規(guī)則詞問題:一些語料尤其是微博語料中經(jīng)常出現(xiàn)不規(guī)則詞和短語,分類算法無法識別句模庫中沒有的詞。例如,句子:“剛才的拔河比賽,太雞凍了”,句模庫的激動詞類中只有“激動”而沒有“雞凍”。解決辦法是搜集不規(guī)則詞將其添加到詞類庫中。

        (2)分詞錯(cuò)誤問題。例如,對“自己是最棒的”的分詞結(jié)果為“自己/是/最/棒/的”,如果能將“最棒的”作為一個(gè)獨(dú)立單元來處理,更有利于根據(jù)關(guān)鍵詞選擇候選分類。解決辦法是將具有明顯情感的短語加入到自定義詞表中作為一個(gè)詞處理。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)設(shè)置

        本文實(shí)驗(yàn)使用兩個(gè)領(lǐng)域的語料:語料1為NLP&CC 2013中文微博情緒識別評測數(shù)據(jù),簡稱NLP&CC語料。共包括4000條微博中的13250個(gè)句子,其中情感句4949句,無情感句8301句。情感句共分7類:Anger憤怒、Disgust厭惡、Fear恐懼、Happiness高興、Like喜好、Sadness悲傷、Surprise驚訝。每個(gè)句子最多屬于兩個(gè)情感分類。語料2為RenCECps博客情緒語料,包括1487篇博客短文共34954個(gè)句子,其中情感句32171句,無情感句2783句。情感句共分8類:Sorrow,Anger,Anxiety,Surprise,Hate,Love,Joy,Expect。每個(gè)句子可屬于一個(gè)或多個(gè)情感分類。

        實(shí)驗(yàn)使用評估指標(biāo)為:

        準(zhǔn)確率:

        召回率:

        待分類句子的多標(biāo)簽分類結(jié)果中任意一個(gè)標(biāo)簽分類正確,則視為正確分類句。#system_correct(emotion=Y(jié))是對語料中情感句分類正確的句子數(shù)目,#system_proposed(emotion=Y(jié))是語料中的情感句總數(shù),#gold(emotion=Y(jié))是語料中被劃分為情感句的句子數(shù)目。

        本文采用的Baseline系統(tǒng)是基于詞語特征SVM分類器的方法。

        3.2 實(shí)驗(yàn)結(jié)果及分析

        實(shí)驗(yàn)1 與Baseline系統(tǒng)對比實(shí)驗(yàn)。

        Baseline系統(tǒng)使用SVM分類器和詞語特征分別對NLP&CC微博語料和RenCECps博客情緒語料進(jìn)行分類,具體方法是:對情感句進(jìn)行分詞標(biāo)注詞性后挑選所有的名詞、動詞和形容詞組成一個(gè)詞匯表,以待分類句子中的詞是否在詞匯表中出現(xiàn)以及出現(xiàn)的頻率為特征,隨機(jī)挑選2/3的句子為訓(xùn)練語料,1/3的句子為測試語料,使用SVM Multi-Class工具進(jìn)行訓(xùn)練和測試。Baseline系統(tǒng)和本文提出的分類器獲得的最高準(zhǔn)確率統(tǒng)計(jì)結(jié)果如表2所示。

        表2 NLP&CC微博語料Baseline系統(tǒng)對比實(shí)驗(yàn)結(jié)果

        表3 RenCECps博客情緒語料Baseline系統(tǒng)對比實(shí)驗(yàn)結(jié)果

        由此可見,基于情感句模的分類算法相比Baseline方法可以達(dá)到較高的準(zhǔn)確率。特別是RenCECps博客情緒語料上可以達(dá)到很高性能,這是由于這個(gè)語料中用詞比較規(guī)范,因此,基于情感句模的分類算法準(zhǔn)確率較高。

        實(shí)驗(yàn)2 權(quán)重優(yōu)化影響實(shí)驗(yàn)。

        使用2.2.2節(jié)描述的感知機(jī)算法,取α=0.1,threshold=0.5,對NLP&CC語料中情感句進(jìn)行訓(xùn)練,得到w=[0.6,0.2,0.6,-0.2],為方便計(jì)算將每個(gè)權(quán)值放大10倍后取整,得到w=[6,2,6,-2]。分別使用均等權(quán)重、經(jīng)驗(yàn)權(quán)重和感知機(jī)優(yōu)化特征權(quán)重,對NLP&CC語料中情感句和無情感句進(jìn)行分類,分類結(jié)果如表4所示。

        表4 評估特征權(quán)重影響實(shí)驗(yàn)結(jié)果

        與均等權(quán)重相比,采用感知機(jī)學(xué)習(xí)算法優(yōu)化特征權(quán)重后,分類算法性能提升了約3%。與經(jīng)驗(yàn)權(quán)重相比,召回率略有上升,準(zhǔn)確率有所下降,F(xiàn)值略微上升。

        實(shí)驗(yàn)3 句模數(shù)量與分類準(zhǔn)確度及句模庫對中文情感句的覆蓋率的評估。

        對NLP&CC語料中情感句進(jìn)行分類,統(tǒng)計(jì)與分類正確的情感句匹配頻率最高的10個(gè)句模,如表5所示。

        表5 與分類正確情感句匹配頻率最高的10個(gè)句模

        進(jìn)一步,分別統(tǒng)計(jì)與分類正確的情感句統(tǒng)計(jì)匹配頻率最高的10個(gè)、20個(gè)、50個(gè)、100個(gè)、150個(gè)句模,以及與它們匹配的句子個(gè)數(shù),統(tǒng)計(jì)結(jié)果如圖5所示。

        圖5中橫坐標(biāo)為高頻句模數(shù)量,實(shí)線圖的縱坐標(biāo)為高頻句模匹配的句子占全部分類正確的情感句的百分比,虛線圖的縱坐標(biāo)為高頻句模匹配的句子占全部情感句的百分比??梢园l(fā)現(xiàn)前150個(gè)高頻句模匹配了97.6%的分類正確的情感句,覆蓋了絕大多數(shù)分類正確的情感句,對NLP&CC語料中全部情感句的覆蓋率為40.7%。

        此外,分別只使用匹配頻率最高的10個(gè)、20個(gè)、30個(gè)、50個(gè)、100個(gè)、150個(gè)句模對NLP&CC語料進(jìn)行分類,統(tǒng)計(jì)分類準(zhǔn)確率如圖6所示。

        圖5 句模數(shù)量與匹配句子百分比統(tǒng)計(jì)圖

        圖6 句模數(shù)量與分類準(zhǔn)確率統(tǒng)計(jì)圖

        圖中橫坐標(biāo)為高頻句模的數(shù)量,縱坐標(biāo)為只使用這些句模對NLP&CC語料中情感句進(jìn)行分類的準(zhǔn)確率??梢园l(fā)現(xiàn)只使用前10個(gè)高頻句模對NLP&CC語料7個(gè)分類的分類準(zhǔn)確率為16.6%,只比隨機(jī)分配1/7=14.3%的概率高2個(gè)百分點(diǎn)。隨著高頻句模數(shù)量的增加,分類準(zhǔn)確率迅速提高。當(dāng)使用前150個(gè)句模時(shí),分類準(zhǔn)確率為40.7%,與使用全部413個(gè)句模的準(zhǔn)確率43.4%只相差3個(gè)百分點(diǎn)。由此可見,前150個(gè)高頻句模對分類效果起到?jīng)Q定性影響,繼續(xù)增加句模數(shù)量對分類準(zhǔn)確率提高效果不明顯。

        實(shí)驗(yàn)4 分類特征、自定義詞表與分類效果關(guān)系實(shí)驗(yàn)。

        分別使用以下3種方法進(jìn)行實(shí)驗(yàn)。

        方法1:只使用分類算法4個(gè)分類特征中詞級特征f1和f2,對NLP&CC語料進(jìn)行分類。

        方法2:使用全部4個(gè)特征對NLP&CC語料進(jìn)行分類。

        方法3:使用全部4個(gè)特征加自定義詞表對NLP&CC語料進(jìn)行分類。

        分類統(tǒng)計(jì)結(jié)果如表6所示。

        表6 實(shí)驗(yàn)4統(tǒng)計(jì)結(jié)果

        由表6可知,方法2在方法1的基礎(chǔ)上使用依存關(guān)系特征f3和句法特征f4分類性能提升明顯。方法1效果較差的原因是句模庫中有些同義詞的含義并不能與句模匹配。例如:《同義詞詞林》中“細(xì)心”的同義詞包括“致密”、“逐字逐句”、“細(xì)瞧”、“有心人”等,與細(xì)心類的句模:“<當(dāng)事><細(xì)心詞類>”中的“細(xì)心詞類”并不匹配,這些詞在細(xì)心詞類中會降低分類系統(tǒng)的召回率。方法3比方法2多了自定義分詞詞表,分類效果略有提高。這說明自定義詞表能夠提高分類效果,但自定義詞都是針對特定句子的情感表達(dá)手工抽取添加,目前的規(guī)模還不夠,覆蓋范圍有限,對分類效果提升有限。

        3.3 實(shí)驗(yàn)結(jié)果分析

        實(shí)驗(yàn)1至4表明,繼續(xù)增加分類系統(tǒng)的句模數(shù)量和優(yōu)化打分權(quán)重對分類效果提高影響不大。下一步考慮增加新的匹配特征,例如,句模中的語義角色特征等。

        實(shí)驗(yàn)過程中發(fā)現(xiàn)下列問題:(1)句模庫中只有情感類句模,沒有無情感類句模。任何與4個(gè)匹配特征中任意1個(gè)匹配的句子都會劃分為情感句,導(dǎo)致無情感句被劃為情感句的概率較高,降低了系統(tǒng)的性能。下一步將考慮優(yōu)化特征匹配得分的閾值或完善三大情感分類以外的基于謂詞的分類,并構(gòu)建相應(yīng)的句模庫。(2)情感分類和句模都是基于謂詞和相應(yīng)規(guī)則構(gòu)建的,對顯式含有情感詞或情感搭配的句子比較有效。而類似“如同觀看一部真正的大片一樣”這樣的句子中,表達(dá)情感的要素是名詞“大片”和它的修飾語“真正的”,比較難用句模匹配的方法劃分情感類別。類比句或比喻句的情感分類是十分困難的,下一步考慮增加相應(yīng)的匹配特征,嘗試結(jié)合基于統(tǒng)計(jì)的方法,提高隱含情感句子的分類效果。

        4 結(jié)語

        本文設(shè)計(jì)和實(shí)現(xiàn)了一種半自動獲取情感句模的方法,使用句模分類的方法實(shí)現(xiàn)對情感句的分類,在兩個(gè)情感測試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示本文提出的方法可以穩(wěn)定有效地提高文本情感分類性能。目前情感分類的細(xì)致劃分還在繼續(xù)進(jìn)行中,計(jì)劃細(xì)化同義詞詞類和嘗試添加更多匹配特征。另外還將加入基于統(tǒng)計(jì)的情感分類方法,構(gòu)筑相應(yīng)的訓(xùn)練語料和測試語料,提高對隱含情感句子的分類效果。

        附錄A.情感句模分類

        ① 態(tài)度類分為:支持類,反對類,懷疑類,沉默類,耐心類,怨氣類,果斷類,信心類,冒險(xiǎn)類,妥協(xié)類,熱情類,冷淡類,粗暴類,誠懇類,溫柔類,和藹類,客氣類,寬容類,霸道類,謙虛類,細(xì)心類,勤奮類,負(fù)責(zé)類,積極類,謹(jǐn)慎類,粗心類,親密類,團(tuán)結(jié)類,一見如故類,熟悉類,戀愛類,和睦類,疏遠(yuǎn)類,友好類,糾紛類,糾纏類,挑逗類,苛刻類,重視類,嚴(yán)格類,輕視類。共41個(gè)二級分類。

        ② 感受類分為:吸引類,為榮類,自娛類,為恥類,不知所措類,傷感情類,感知類,記得類,生理感覺類,非生理感覺類,聽到類,偷聽類,看見類,偷看類,知道類,不知道類,發(fā)現(xiàn)類,慚愧類,憤怒類,義憤類,幸災(zāi)樂禍類,敬佩類,羨慕類,感激類,譴責(zé)類,害怕類,喜愛類,溺愛類,討厭類,仇恨類,寬慰類,失望類,擔(dān)憂類,高興類,悲傷類,驚訝類,滿意類,不滿意類,沒耐心類,懊悔類,緊張情緒類,心安類,自豪類,慌張類,眼熟類,耳熟類,眼生類,耳生類。共48個(gè)二級分類。

        ③ 思想類分為:希望類,自愿類,向往類,思考類,想象類,相信類,鑒別類,主張類,接受類,看待類,信任類,寵信類,看得起類,另眼相看類,想念類,著想類。共16個(gè)二級分類。

        [1]Peter D Turney.Thumbs Up or Thumbs Down?Senmantic Orientition Applied to Unsupervised Classification of Reviews[C]//Proceedings of ACL 2002:417-424.

        [2]Kamps J,Marx M,Mokken RJ.Using WordNet to Measure Semantic Orientation of Adjectives.[C]//Proceedings of LREC.2004:1115-1118.

        [3]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):14-20.

        [4]Hu Minqing,Liu B.Mining Opinion Features in Customer Reviews.[C]//Proceedings of AAAI 2004:755-760.

        [5]姚天昉,聶青陽,李建超,等.一個(gè)用于漢語汽車評論的意見挖掘系統(tǒng).[C]//中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集.北京:清華大學(xué)出版社,2006:260-280.

        [6]劉鴻宇,趙妍妍,秦兵,等.評價(jià)對象抽取及其傾向性分析[J].中文信息學(xué)報(bào),2010,24(1):84-89.

        [7]任巨偉,楊源,王昊,等.二元情感常識庫建設(shè)及其在文本情感分析中的應(yīng)用[OL].中國科技論文在線,2013,http://www.paper.edu.cn/releasepaper/content/201301-158.

        [8]陳健美,林鴻飛.中文情感常識知識庫的構(gòu)建[J].情報(bào)學(xué)報(bào),2009,28(4):492-498.

        [9]Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up?Sentiment Classification using Machine Learning Techniques [C]//Proceedings of EMNLP 2002:79-86.

        [10]谷學(xué)靜,王志良,劉冀偉,等.基于 HMM的人工心理建模方法的研究[C].第一屆中國情感計(jì)算及智能交互學(xué)術(shù)會議,北京,2003:31-36.

        [11]王根,趙軍.基于多重冗余標(biāo)記CRFs的句子情感分析研究[J].中文信息學(xué)報(bào),2007,21(5):51-56.

        [12]S Li and C Zong,Multi-domain Sentiment Classification[C]//Proceedings of ACL-HLT 2008:257-260.

        [13]李壽山,黃居仁.基于Stacking組合分類方法的中文情感分類研究[J].中文信息學(xué)報(bào),2010,24(5):56-61.

        [14]魯川,緱瑞隆,董麗萍.現(xiàn)代漢語基本句模[J].世界漢語教學(xué),2000,54(4):11-24.

        [15]Changqin Quan,F(xiàn)uji Ren.Construction of a Blog E-motion Corpus for Chinese Emotional Expression A-nalysis[C]//Proceedings of the 2009Conference on Empirical Methods in Natural Language Processing,pages:1446-1454.

        [16]朱曉亞,范曉.二價(jià)動作動詞形成的基干句模[J].語言教學(xué)與研究,1999:111-122.

        猜你喜歡
        分類情感方法
        分類算一算
        如何在情感中自我成長,保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        分類討論求坐標(biāo)
        如何在情感中自我成長,保持獨(dú)立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        日韩亚洲在线一区二区| 欧美日韩久久久精品a片| 国产欧美日韩网站| 日本久久精品国产精品| 日本高清一道本一区二区| 久久9精品区-无套内射无码| 国产黄色免费网站| 国产一区二区三区亚洲精品| 麻神在线观看免费观看| 北条麻妃国产九九九精品视频| 亚洲国产欧美在线成人| 久久精品熟女亚洲av艳妇| 国内偷拍国内精品多白86| 东北少妇不带套对白| 久久精品无码鲁网中文电影| 性色av成人精品久久| 久久久精品亚洲一区二区国产av| 中文 在线 日韩 亚洲 欧美| 国产黑丝在线| 亚洲日本一区二区在线观看| 97cp在线视频免费观看| 老妇女性较大毛片| 激情人妻在线视频| 97女厕偷拍一区二区三区| 99无码精品二区在线视频| 国产av国片精品| 久久精品国产亚洲av成人擦边| 久久丝袜熟女av一区二区| 又色又爽又黄还免费毛片96下载| 日韩专区欧美专区| 国产午夜在线观看视频| 日韩欧美在线综合网另类| 最近中文字幕视频高清| 无码高潮少妇毛多水多水免费 | 日本成人三级视频网站| 国产精品久久中文字幕第一页| 国产高潮国产高潮久久久| 情侣黄网站免费看| 久久这里只精品国产2| 亚洲av综合日韩精品久久| 亚洲欧洲国产成人综合在线|