顧正甲,姚天昉
(1.上海交通大學(xué) 軟件學(xué)院; 2.上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200240)
主觀性文本是相對(duì)于客觀性文本而言的一種自然語(yǔ)言文本表達(dá)形式。它主要描述了作者對(duì)事物、事件、人物等的組織、個(gè)人或群體的想法或看法。這類文本通常出現(xiàn)在互聯(lián)網(wǎng)(如論壇、電子公告、購(gòu)物網(wǎng)站的評(píng)論板塊)報(bào)刊(如讀者意見(jiàn))等媒體上。其中,在文本中包含有表達(dá)意見(jiàn)的語(yǔ)句,即具有褒貶意義成分的語(yǔ)句,我們稱此類文本為意見(jiàn)型主觀性文本。
近年來(lái),對(duì)描述非事實(shí)的主觀性文本處理方面的研究十分活躍,主要的特點(diǎn)是對(duì)基于斷言或評(píng)論的文本進(jìn)行處理。此類文本內(nèi)容包含有個(gè)人、群體、組織等的意見(jiàn)、情感和態(tài)度等。基于主觀性文本的意見(jiàn)挖掘技術(shù)是一種新穎的語(yǔ)言技術(shù),它不僅可以運(yùn)用于自然語(yǔ)言接口、文本分類、文本過(guò)濾、自動(dòng)摘要、自然語(yǔ)言生成、問(wèn)答系統(tǒng)等方面,還可以應(yīng)用于現(xiàn)實(shí)生活中的許多方面,例如,電子商務(wù)、電子學(xué)習(xí)、商業(yè)智能、出版編輯、企業(yè)管理、信息監(jiān)控、民意調(diào)查等。
本文以評(píng)價(jià)性語(yǔ)素的抽取和判定作為研究對(duì)象,利用SBV極性傳遞法定位抽取內(nèi)容,并對(duì)抽取的極性詞的傾向性作出判定。本文提出的ATT鏈算法結(jié)合互信息算法可以非常有效地提高識(shí)別評(píng)價(jià)對(duì)象邊界的正確率,同時(shí)指代消解的引入能夠進(jìn)一步增加評(píng)價(jià)對(duì)象的覆蓋率。本文在對(duì)極性詞進(jìn)行傾向性判別時(shí),充分考慮了不同類型的句子,把一般副詞、貶義副詞、連詞,特別是副詞“太”對(duì)極性的影響作了全面的論述。
SBV極性傳遞法利用句法分析中的依存關(guān)系來(lái)識(shí)別句子的主題、主題與情感描述項(xiàng)的關(guān)系。這種方法在句子比較規(guī)范的條件下,可以通過(guò)識(shí)別依存關(guān)系對(duì),找到句子中謂語(yǔ)的極性,然后再傳遞給主語(yǔ)。同時(shí),通過(guò)謂語(yǔ)動(dòng)詞向賓語(yǔ)中的主題詞傳遞極性。
通過(guò)對(duì)句法分析結(jié)構(gòu)的依存關(guān)系的分析,可以發(fā)現(xiàn)SBV結(jié)構(gòu)可以提供主語(yǔ)和謂語(yǔ)的修飾關(guān)系等信息。在大部分SBV結(jié)構(gòu)中,主語(yǔ)要么是意見(jiàn)的持有者,要么是主題。而謂語(yǔ)部分的詞性可能有兩種情況,一種是形容詞,另一種是動(dòng)詞[1]。
指代是自然語(yǔ)言中一種非常普遍的語(yǔ)言現(xiàn)象,是一個(gè)復(fù)雜綜合的過(guò)程。指代一般可分為兩大類: 回指與共指。本文主要討論的是回指現(xiàn)象。
在篇章中經(jīng)??吹竭@種現(xiàn)象[2],某一個(gè)成分(人物、事物、事件、概念、現(xiàn)象等)被引進(jìn)篇章后,如再次提及,作者有可能重復(fù)使用這個(gè)成分,也可能不再重復(fù)使用這個(gè)成分,而是使用另一個(gè)成分來(lái)指稱前一個(gè)成分,這一前一后兩個(gè)成分之間的關(guān)系我們稱為回指關(guān)系。
按回指的方式分,漢語(yǔ)回指主要有三種: 零形回指(也稱作零照應(yīng)或零指代)、代詞回指和名詞回指。知名學(xué)者如胡壯麟、黃曾陽(yáng)等認(rèn)為零形回指較為反映漢語(yǔ)特點(diǎn)、是漢語(yǔ)偏好使用的形式。Li和Thompson認(rèn)為零形回指的出現(xiàn)頻率最高,分布最廣泛,不受限制,是漢語(yǔ)回指的標(biāo)準(zhǔn)模式[3]。
按回指的表達(dá)形式分,通常有以下幾種表達(dá)形式: (A)同形表達(dá)式;(B)局部同形表達(dá)式;(C)異形表達(dá)式: (1)同義詞(包括異形簡(jiǎn)稱);(2)統(tǒng)稱詞;(3)指代詞;(4)零形式或省略式。
本文采用向心理論[4],對(duì)語(yǔ)料中存在的指代現(xiàn)象進(jìn)行消解處理。在回指中,無(wú)論是同形表達(dá)式、局部同形表達(dá)式或同義詞、統(tǒng)稱詞等均不會(huì)對(duì)評(píng)價(jià)對(duì)象的抽取造成什么影響,所以本文主要討論零形回指、代詞回指這兩種回指形式。
為了便于分析和行文,定義為口語(yǔ)中有語(yǔ)音停頓,書面中有點(diǎn)號(hào)標(biāo)記的主謂結(jié)構(gòu)(含主語(yǔ)或賓語(yǔ)為零形式的情形)。換句話說(shuō),這里講的“句子”,是僅就句法層面而言,不管是否能單獨(dú)表達(dá)滿足交際需要的完整意思,它不同于傳統(tǒng)語(yǔ)法學(xué)中一般的“句子”概念[5]。
通過(guò)對(duì)大量語(yǔ)料的觀察,可以發(fā)現(xiàn),評(píng)價(jià)對(duì)象(也作: 意見(jiàn)目標(biāo))表現(xiàn)的形式不僅僅有原子意見(jiàn)目標(biāo)(Atom opinion target),更多的是以復(fù)合意見(jiàn)目標(biāo)(Compound opinion target)的形式出現(xiàn)。
在語(yǔ)料中,經(jīng)常能觀察到如“燃油的消耗”這樣的“NP+的+VP”結(jié)構(gòu)。陸儉明教授認(rèn)為,這種結(jié)構(gòu)是名詞性結(jié)構(gòu),但不是偏正結(jié)構(gòu),而是由結(jié)構(gòu)助詞‘的’的插入使這種主謂詞組中間所構(gòu)成的另一類‘的’字結(jié)構(gòu),并稱這類結(jié)構(gòu)的中心語(yǔ)是作為名詞性功能標(biāo)記的結(jié)構(gòu)助詞‘的’而不是后面的動(dòng)詞[6]。現(xiàn)在較新的觀點(diǎn)認(rèn)為,“NP+的+VP”的結(jié)構(gòu)是名詞性結(jié)構(gòu),但不是偏正結(jié)構(gòu),也不是“的”字結(jié)構(gòu),而是正偏結(jié)構(gòu)。其中正偏結(jié)構(gòu)是和偏正結(jié)構(gòu)相對(duì)而言的。再稍加觀察,不難發(fā)現(xiàn)“VP+的+NP”、“NP1+的+NP2”、“VP1+的+VP2”等結(jié)構(gòu)也具有這些特點(diǎn)??梢园堰@類結(jié)構(gòu)統(tǒng)一標(biāo)記為“XP1+的+XP2”。由于表達(dá)習(xí)慣及語(yǔ)感順暢等因素,“XP1+的+XP2”中的‘的’經(jīng)常會(huì)被省略。而完整的復(fù)合意見(jiàn)目標(biāo)往往就是由一個(gè)或多個(gè)“XP1+(的)+XP2”的疊加組合而成。
由此可見(jiàn),要尋找的主題詞在更多的情況下是以復(fù)合意見(jiàn)目標(biāo)形式存在的,在上述SBV極性傳遞法中所判別出的主題詞往往是原子意見(jiàn)目標(biāo),或是復(fù)合意見(jiàn)目標(biāo)的一部分,為了在此基礎(chǔ)上進(jìn)一步識(shí)別意見(jiàn)目標(biāo)的真實(shí)邊界,本文將采用ATT鏈算法及互信息算法相結(jié)合的方法來(lái)實(shí)現(xiàn)這一功能。
2.3.1 ATT鏈算法
ATT鏈算法如圖1所示,通過(guò)遍歷句首到原子意見(jiàn)目標(biāo)之間的所有詞,把當(dāng)前詞做為起點(diǎn),遇到ATT和DE關(guān)系時(shí)就沿著ATT鏈繼續(xù)尋找下一個(gè)詞,如果ATT鏈中斷,則從下一個(gè)遍歷詞開始,直至找到滿足鏈尾詞為原子意見(jiàn)目標(biāo)詞為止。滿足這樣要求的第一條ATT鏈即包含了我們要找的最先鏈?zhǔn)自~,從該詞開始至原子意見(jiàn)目標(biāo)結(jié)尾,其間的所有詞即為我們要找的復(fù)合意見(jiàn)目標(biāo)。
其中有一點(diǎn)值得注意的是,量詞有時(shí)候會(huì)位于ATT鏈的鏈?zhǔn)?,在進(jìn)行處理時(shí)需要把這種情況濾除。
圖1 ATT鏈算法
2.3.2 互信息算法
信息論中的互信息是衡量?jī)蓚€(gè)信號(hào)的關(guān)聯(lián)尺度,后來(lái)引申為對(duì)兩個(gè)隨機(jī)變量間的關(guān)聯(lián)程度進(jìn)行統(tǒng)計(jì)描述[7]。該算法分別以原子意見(jiàn)目標(biāo)詞為中心,向前向后依次添加新詞。在添加前,通過(guò)計(jì)算當(dāng)前詞和預(yù)添加詞的互信息量來(lái)判斷這兩個(gè)詞之間的相關(guān)度,然后決定是否添加。
傾向性,又可以被稱為極性、褒貶性,它是意見(jiàn)持有者對(duì)事物或其屬性表達(dá)的一種帶有主觀色彩的喜好或憎惡的情感。極性詞以形容詞或動(dòng)詞為主,還有少量名詞在形容詞化時(shí)也會(huì)帶有感情色彩,例如,“他很紳士。”,但是這種情況在對(duì)人的描寫中較多,而對(duì)于產(chǎn)品評(píng)價(jià)類的語(yǔ)篇中很少出現(xiàn),故本文對(duì)此不作進(jìn)一步討論。
通過(guò)對(duì)原始語(yǔ)料庫(kù)的觀察,本文將情感句分為四類[8],如表1所示。
表1 情感句的類別
針對(duì)第一類和第二類的句子,只要參照SBV極性傳遞法分析的結(jié)果,通過(guò)查找褒貶義詞典來(lái)獲取詞語(yǔ)的傾向性即可做出判斷。在處理第三類句子的時(shí)候,則需要通過(guò)使用上下文信息進(jìn)行判斷,優(yōu)先考慮當(dāng)前的句子與前一句子的極性相同,如果前一句子也不存在明顯的傾向性,則認(rèn)為當(dāng)前句子與后一句的傾向性相同。
對(duì)于前三類情感句,雖說(shuō)通過(guò)查找褒貶義詞典來(lái)獲取詞語(yǔ)傾向性的方法非常簡(jiǎn)單,但是單純使用褒貶義詞典存在以下問(wèn)題。
(1) 由于褒貶義詞典規(guī)模的限制,無(wú)法處理沒(méi)有在詞典中出現(xiàn)的詞語(yǔ);
(2) 如果一個(gè)詞語(yǔ)在不同的情況下可以是褒義詞,也可以是貶義詞,如何判定傾向性。例如,“如此奢華的配置展現(xiàn)出強(qiáng)勁的性能,有點(diǎn)臺(tái)式機(jī)的感覺(jué)了?!边@句中的“奢華”一詞,一般表示“奢侈”、“華麗”。現(xiàn)在多形容有錢人的生活,也形容愛(ài)慕虛榮的人所渴望的生活,多作貶義用。但這例句中卻是用來(lái)表示機(jī)器配置高檔,屬于褒義。
基于問(wèn)題1,目前有以下幾種解決方法。
(1) 首先是對(duì)HowNet的所有情感詞通過(guò)手工標(biāo)注的方法完成傾向性的標(biāo)注工作,同時(shí)從網(wǎng)絡(luò)上選取一定數(shù)量的極性詞語(yǔ),共同組成了具有相當(dāng)數(shù)量褒貶詞的詞庫(kù)。對(duì)于沒(méi)有包含在詞庫(kù)中的新詞,則通過(guò)計(jì)算新詞與詞庫(kù)已有極性詞的傾向相似性來(lái)判斷新詞的傾向性。
(2) 通過(guò)手工選取一定數(shù)量的基準(zhǔn)詞,使用HowNet進(jìn)行語(yǔ)義相似度及語(yǔ)義相關(guān)場(chǎng)的計(jì)算得出新詞與基準(zhǔn)詞間的相似度,從而判斷新詞的語(yǔ)義傾向性。
(3) 使用同義詞詞林,通過(guò)擴(kuò)展基準(zhǔn)詞匯得到更大的極性詞集合。
(4) 使用機(jī)器學(xué)習(xí)等統(tǒng)計(jì)的方法來(lái)獲取詞語(yǔ)的語(yǔ)義傾向性。
基于問(wèn)題(2),首先要關(guān)心的是如何發(fā)現(xiàn)這種褒貶義誤判的情況。通過(guò)觀察3.1節(jié)中的第二類情感句時(shí)可以發(fā)現(xiàn),這類既帶有褒義極性詞又帶貶義極性詞的子句中往往都會(huì)有如“但”、“而”、“卻”之類的轉(zhuǎn)折連詞,它們?cè)谡Z(yǔ)句中起到轉(zhuǎn)換語(yǔ)氣和轉(zhuǎn)折語(yǔ)義的作用,否則整個(gè)子句的語(yǔ)義傾向性是不變的。例如,“如此奢華的配置展現(xiàn)出強(qiáng)勁的性能,有點(diǎn)臺(tái)式機(jī)的感覺(jué)了?!敝小吧萑A”與“強(qiáng)勁”的極性應(yīng)該相同,當(dāng)出現(xiàn)不同時(shí),就知道是發(fā)生了褒貶義誤判的情況了。
其次,在發(fā)現(xiàn)之后如何判斷是哪個(gè)詞誤判就成為當(dāng)前下一步需要解決的問(wèn)題了。這時(shí)分為以下兩種情況。
(1) 當(dāng)句中沒(méi)有“但”、“而”、“卻”等轉(zhuǎn)折連詞,出現(xiàn)句內(nèi)極性詞極性誤判時(shí),就認(rèn)為句子里和前句或后句極性相同的詞的極性判斷是正確的,優(yōu)先考慮與前一句子的極性相同,如果前一句子也不存在明顯的傾向性,則認(rèn)為與后一句的傾向性相同。然后,把極性判斷錯(cuò)誤的詞修正為相同的極性。
(2) 當(dāng)句中有“但”、“而”、“卻”等轉(zhuǎn)折連詞,出現(xiàn)句內(nèi)極性詞極性誤判時(shí),就認(rèn)為第一個(gè)出現(xiàn)的和前句或后句極性相同的詞的極性判斷是正確的,可以考慮與前一句子的極性相同,如果前一句子也不存在明顯的傾向性,則認(rèn)為與后一句的傾向性相同。然后,把極性判斷錯(cuò)誤的詞修正為相反的極性。
對(duì)于不包含極性詞的第四類情感句,又可分為以下兩種類型。
(1) 上下文相關(guān)傾向型。例如,“顯示的延遲時(shí)間很短?!焙汀半姵卮龣C(jī)時(shí)間短?!边@兩句,同樣是“短”字,但在不同的評(píng)價(jià)對(duì)象上下文環(huán)境里,它的傾向性也是不同的。
(2) 語(yǔ)義相關(guān)傾向型。例如,“機(jī)器工作時(shí),聽不到一點(diǎn)噪聲?!焙苊黠@,例句中的“噪聲”一詞為評(píng)價(jià)對(duì)象,但句子中并沒(méi)有任何傾向性的形容詞和動(dòng)詞,這就需要理解其語(yǔ)義后作出進(jìn)一步的判定。
對(duì)于問(wèn)題(1),如“短”這樣的中性形容詞將在后文3.4.2副詞“太”一節(jié)中詳細(xì)討論。
對(duì)于問(wèn)題(2),北大現(xiàn)代漢語(yǔ)教材指出: 感情色彩指詞義所附帶的表示褒貶態(tài)度的色彩。從這一定義我們可以看出詞語(yǔ)的褒貶色彩是一種表示程度很高的情感評(píng)價(jià),這部分詞語(yǔ)在實(shí)際語(yǔ)言中比例并不是很高,大多數(shù)詞語(yǔ)雖然無(wú)法說(shuō)出它的褒貶,但在語(yǔ)言環(huán)境中可以表現(xiàn)出積極或消極(正面或負(fù)面)的情感傾向[9]。
漢語(yǔ)中具有情感評(píng)價(jià)的詞語(yǔ)并不限于形容詞及動(dòng)詞,有時(shí)候名詞也會(huì)有明顯的情感傾向性,并且當(dāng)名詞的褒貶程度較高時(shí),就容易出現(xiàn)本章開始處提到的名詞形容詞化的現(xiàn)象,如“很藝術(shù)”、“很敗筆”等。
連詞為詞匯傾向計(jì)算提供了指示信息,如表2所示,推測(cè)連詞可分為四類,其中并列連詞在句子中表示語(yǔ)氣的連續(xù)與順延,而轉(zhuǎn)折連詞與讓步連詞在句子中都起到轉(zhuǎn)換語(yǔ)氣的作用。
表2 連詞的傾向關(guān)系計(jì)算
連詞可以用來(lái)判別極性詞的傾向性判斷是否存在誤判。除此之外,連詞還能給無(wú)法判斷傾向性的句子提供指示信息,從而對(duì)極性詞作出進(jìn)一步的判斷。
3.4.1 一般程度副詞
跨語(yǔ)言的研究表明,程度性是形容詞的本質(zhì)特征,而性狀的程度是有量級(jí)差別的。量級(jí)的表示,不同的語(yǔ)言采用不同的方式。印歐語(yǔ)系的多數(shù)語(yǔ)言里,形容詞有原級(jí)、比較級(jí)、最高級(jí)的句法形態(tài)標(biāo)記。漢語(yǔ)缺乏嚴(yán)格意義的形態(tài)變化,程度的量級(jí)主要采用性質(zhì)形容詞前加程度副詞的詞匯方式來(lái)表示。
表3中列出了最為常用的副詞,其中無(wú)論是相對(duì)程度副詞還是絕對(duì)程度副詞, 大部分都是用來(lái)加強(qiáng)極性詞的程度,但不會(huì)改變極性詞的傾向性。而有一小部分如“偏”、“過(guò)”、“過(guò)于”、“過(guò)分”、“極端”之類的副詞卻比較特殊,這些副詞都是帶貶義傾向的副詞,一般受這些副詞修飾的極性詞,無(wú)論是褒義的還是貶義的,都會(huì)帶有負(fù)面的傾向性。如“過(guò)分高興”、“過(guò)分失落”。
表3 程度副詞分類
3.4.2 程度副詞“太”
在所有的副詞中,還有一個(gè)比較特殊的副詞“太”,它并不能和所有的形容詞都組成“太”+形容詞的結(jié)構(gòu)。其中,性質(zhì)形容詞可以構(gòu)成“太”+形容詞結(jié)構(gòu),狀態(tài)形容詞不可以構(gòu)成“太”+形容詞結(jié)構(gòu)。
先來(lái)看一下,“太”字在修飾極性詞時(shí)的情況。
“太”在修飾褒義形容詞時(shí),它可以表示過(guò)分,也可以表示程度高,用于贊嘆。其后的褒義形容詞也可分為兩類,如表4所示。
第一類褒義形容詞,一般是同時(shí)屬于“可控形容詞”和“二價(jià)形容詞”,用于表示說(shuō)話人不認(rèn)同的形容詞。第二類褒義形容詞,一般是屬于“不可控形容詞”或“一價(jià)形容詞”,或者是屬于“可控形容詞”或“二價(jià)形容詞”中的一種,表示贊嘆的形容詞。
表4 褒義形容詞分類
通過(guò)對(duì)表4的觀察,可以很明顯地發(fā)現(xiàn),第二類褒義形容詞在評(píng)價(jià)類語(yǔ)篇中出現(xiàn)的頻率更高。究其原因,是因?yàn)榇蟛糠值脑u(píng)價(jià)詞都是“不可控形容詞”,屬于評(píng)價(jià)產(chǎn)品的特有屬性,而第一類褒義形容詞在不使用擬人手法時(shí)一般不用來(lái)修飾物,所以本文主要針對(duì)的是第二類褒義形容詞。在這類形容詞前加上“太”進(jìn)行修飾時(shí),一般用來(lái)表示加強(qiáng)語(yǔ)氣和加深程度的作用。
“太”在修飾貶義詞時(shí)情況較為簡(jiǎn)單,一般都只是加強(qiáng)語(yǔ)氣而不改變其傾向性。
接下來(lái)再來(lái)看一下,“太”字在修飾中性形容詞時(shí)所表示的含義?!疤?中性形容詞,表示惋惜之義。但這只指出了部分中性形容詞在程度副詞“太”后的感情色彩,沒(méi)有涵蓋所有的中性形容詞在“太”后的傾向性。絕大部分的中性形容詞可分成兩大類: 不可控形容詞及可控形容詞[10]。其中前者表示惋惜之義,后者表示不滿與斥責(zé)之義。在產(chǎn)品評(píng)價(jià)類的語(yǔ)篇中,中性形容詞主要是用來(lái)表示客觀事物的性質(zhì)、數(shù)量及屬性的,是屬于不可控形容詞中一類,如表5所示。
3.4.3 “太”字組合
一般副詞“太”與“了”具有以下關(guān)系: 副詞“太”,表示強(qiáng)調(diào)過(guò)分時(shí),后邊的“了”可加可不加,加“了“后有增強(qiáng)感嘆語(yǔ)氣的作用。表示程度高時(shí),一定要有“了”呼應(yīng),否則就會(huì)變成程度過(guò)分之義。加否定程度的“太不”,后而后“了”可加可不加,意義不變,不過(guò)不加“了”時(shí)一般有后話,不是單純的感嘆。
“太不”是一種表示程度極化的組合,一般適用于可控形容詞。在可控形容詞前加“不”,先進(jìn)行否定,而后加“太”,強(qiáng)化感情,這一順序符合漢語(yǔ)表達(dá)的思維習(xí)慣,并且多表示貶義的傾向性。若是修飾不可控形容詞,尤其是在極性反義義場(chǎng)中的詞,根據(jù)反義義場(chǎng)的理論,先加“不”進(jìn)行否定,可直接轉(zhuǎn)換為其反義詞,“太不”這一前綴顯得多余而累贅。例如,“太不短”,一般就可以直接說(shuō)成“太長(zhǎng)”?;谝陨嫌懻?,我們可以認(rèn)為“太不”組合在評(píng)價(jià)性語(yǔ)篇中出現(xiàn)的情況主要是描述人對(duì)產(chǎn)品的主觀感受類的可控形容詞,均應(yīng)呈現(xiàn)貶義傾向。通過(guò)對(duì)實(shí)際語(yǔ)料的觀察,我們也可以得到同樣的結(jié)論。例如,“太不盡如人意”,“太不方便”等。
表5 中性形容詞的類別
本文使用了哈爾濱工業(yè)大學(xué)的語(yǔ)言技術(shù)平臺(tái)(LTP)v2.0版本(加入了v2.0.1的升級(jí)包,LTP的.NET接口)進(jìn)行預(yù)處理。同時(shí)利用知網(wǎng)的情感詞庫(kù)為本文構(gòu)建基準(zhǔn)詞庫(kù),通過(guò)互聯(lián)網(wǎng)及原始語(yǔ)料本身收集一定數(shù)量的與領(lǐng)域相關(guān)的屬性詞匯,人工篩選后把它們加入到LTP分詞擴(kuò)展字典中去,以免分詞的錯(cuò)誤影響到后續(xù)處理的結(jié)果。
在LTP完成預(yù)處理后,本文首先使用SBV極性傳遞法從語(yǔ)料中抽取出評(píng)價(jià)對(duì)象和極性詞,然后利用向心理論[11]進(jìn)行指代消解進(jìn)一步找全評(píng)價(jià)對(duì)象和極性詞,接著通過(guò)ATT鏈算法和互信息算法修正評(píng)價(jià)對(duì)象的邊界。由于這樣得到的候選評(píng)價(jià)對(duì)象集存在一定的噪聲,為此在傾向性判定前先使用詞頻過(guò)濾法、PMI過(guò)濾法及名詞剪枝法對(duì)評(píng)價(jià)對(duì)象集進(jìn)行相應(yīng)的過(guò)濾處理[8]。
在進(jìn)行傾向性判別時(shí),本文采用以下方法。
(1) 對(duì)于每一個(gè)候選情感詞,首先查找情感詞字典。如果存在,則獲取其極性和強(qiáng)度。
(2) 如果沒(méi)有找到,則分別向前和向后查找情感詞,并分別找到與前后情感詞之間的關(guān)聯(lián)詞[12]。
(3) 如果沒(méi)有關(guān)聯(lián)詞出現(xiàn),則利用SO-PMI(semantic orientation-pointwise mutual information)公式計(jì)算候選情感詞的極性[13]。P(Word1& Word2)表示W(wǎng)ord1和Word2同時(shí)出現(xiàn)的概率。依此為基礎(chǔ),計(jì)算一個(gè)新的情感詞與種子情感詞的互信息概率,可以得到該情感詞的極性。
(4) 如果該候選情感詞與其前面或后面的情感詞之間出現(xiàn)了關(guān)聯(lián)詞。首先判斷關(guān)聯(lián)詞的類型,然后分別根據(jù)以下規(guī)則計(jì)算其極性[14]。
? 如果是遞進(jìn)或是并列關(guān)聯(lián)詞,則候選情感詞的極性與情感詞相同;
? 如果是轉(zhuǎn)折詞,則候選情感詞的極性與情感詞相反。
(5) 判斷極性詞前是否受到副詞的修飾,并根據(jù)副詞種類對(duì)其傾向性作出以下修正。
? 如果是一般副詞,則傾向性不變。
? 如果是貶義副詞,則把傾向性修正為貶義傾向性。
? 如果是副詞“太”,則作如下修正:
(1) 如果受修飾的不是中性形容詞,則“太”起到的是加強(qiáng)語(yǔ)氣和加深程度的作用,不改變極性詞的傾向。
(2) 如果受修飾的是中性詞,則“太”表示的是惋惜之義,需要把傾向性修正為貶義。
(3) 判斷是否是“太不”組合,如果是則把當(dāng)前傾向性改為貶義傾向性。
本文測(cè)試時(shí)使用了COAE2008的測(cè)試語(yǔ)料(汽車、筆記本電腦、數(shù)碼相機(jī)和手機(jī)四大類),對(duì)評(píng)價(jià)對(duì)象抽取及傾向性判定方法的有效性進(jìn)行了測(cè)試。采用了COAE2008標(biāo)準(zhǔn)的精確率,覆蓋率,召回率和F值作為評(píng)測(cè)指標(biāo),測(cè)試結(jié)果如表6所示。
表6 評(píng)測(cè)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,四類語(yǔ)料的精確率在覆蓋率中占的比重分布在58.3%~80.0%,還存在一定的上升空間,這說(shuō)明雖然采用本文提出的ATT鏈算法對(duì)提高精確率有很大的幫助,但該算法對(duì)依存關(guān)系的依賴度過(guò)大。同時(shí)筆記本電腦和汽車類語(yǔ)料的召回率要明顯高于另兩類,通過(guò)對(duì)原始語(yǔ)料的觀察不難發(fā)現(xiàn),這兩類語(yǔ)料的文本較為規(guī)范。從而表明本文的方法對(duì)LTP句法分析結(jié)果的依賴度較大,抽取和判定過(guò)程會(huì)受其很大的影響,方法的容錯(cuò)和修正能力不夠,這也是以后需要進(jìn)一步深入研究和改進(jìn)的地方。
感謝: 最后,感謝哈爾濱工業(yè)大學(xué)信息檢索研究室的工作人員以及致力于HowNet開發(fā)的董振東和董強(qiáng)先生,語(yǔ)言技術(shù)平臺(tái)及HowNet是他們智慧和勞動(dòng)的結(jié)晶。在論文的整個(gè)研究過(guò)程中,語(yǔ)言技術(shù)平臺(tái)及HowNet的情感詞庫(kù)都起到了重要的作用。在此謹(jǐn)向他們表示最誠(chéng)摯的謝意。
[1] 姚天昉,婁德成. 漢語(yǔ)語(yǔ)句主題語(yǔ)義傾向分析方法的研究[J],中文信息學(xué)報(bào),2007,21(5): 73-79.
[2] 徐赳赳. 現(xiàn)代漢語(yǔ)篇章回指研究[M]. 北京,中國(guó)社會(huì)科學(xué)出版社,2003.
[3] Li,C.N., S. A. Thompson. Third-person pronouns and zero-anaphora in Chinese discourse[C]//T. Givon(ed.). Syntax and Semantics:Discourse and Syntax,1979(12): 311-335
[4] Walker,M.A.,A.K. Joshi, E. F. Prince. Centering in naturally-occurring discourse: An overview[C]//M.A. Walker,A.K. Joshi & E.F. Prince(eds.),Centering Theory in Discourse,New York,Oxford University Press,1998:1-28.
[5] 王德亮. 漢語(yǔ)長(zhǎng)距離回指的消解策略[C]//第七屆中文信息處理國(guó)際會(huì)議,湖北武漢大學(xué),2007,10.
[6] 陸儉明. 對(duì)“NP+的+VP”結(jié)構(gòu)的重新認(rèn)識(shí)[J],中國(guó)語(yǔ)文,2003,(5).
[7] 李治國(guó),蔡?hào)|風(fēng),周俏麗,等. 在篇章中利用互信息識(shí)別命名實(shí)體的研究[J],沈陽(yáng)航空工業(yè)學(xué)院學(xué)報(bào),2007,24(1): 31,35-37
[8] 劉鴻宇,趙妍妍,秦兵,等. 評(píng)價(jià)對(duì)象抽取及其傾向性分析[J],中文信息學(xué)報(bào),2010,24(1).
[9] Hatzivassiloglou V.,McKeown R.. Predicting the semantic orientation of adjectives[C]//Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics (ACL-97),Madrid,Spain,July 7-12,1997: 174-181.
[10] 王治敏,朱學(xué)鋒,俞士汶.基于現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典的詞語(yǔ)情感評(píng)價(jià)研究[J].中文計(jì)算語(yǔ)言學(xué)期刊,2005,10(4): 581-592.
[11] 陸儉明. 漢語(yǔ)和漢語(yǔ)研究十五講[M],北京大學(xué)出版社,2004.
[12] Walker M.A.,A.K. Joshi, E. F. Prince. Centering in naturally-occurring discourse: An overview[C]//M.A. Walker,A.K. Joshi & E.F. Prince(eds.),Centering Theory in Discourse,New York,Oxford University Press,1998:1-28.
[13] Turney P D. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL-02),Philadelphia,PA,USA,July 6-12,2002: 417-424.
[14] 姚天昉,婁德成. 漢語(yǔ)情感詞語(yǔ)義傾向判別的研究[C]//第七屆中文信息處理國(guó)際會(huì)議,湖北武漢大學(xué),2007,10.