郭 沖,王振宇
(1. 華南理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣東 廣州 510006; 2. 華南理工大學(xué) 軟件學(xué)院,廣東 廣州 510006)
細(xì)粒度意見(jiàn)挖掘(Fine-grained Opinion Mining),又稱為基于特征的意見(jiàn)挖掘(Aspect-oriented Opinion Mining),深入到產(chǎn)品特征層面,能夠提取到評(píng)價(jià)信息中涉及的評(píng)價(jià)對(duì)象、評(píng)價(jià)詞以及對(duì)應(yīng)的評(píng)價(jià)傾向等意見(jiàn)要素,從而為一些實(shí)際應(yīng)用提供必要的細(xì)節(jié)信息。
本文定義了一種用于細(xì)粒度意見(jiàn)挖掘的領(lǐng)域情感本體結(jié)構(gòu),稱為情感本體樹(shù)(Sentiment Ontology Tree, SOT),通過(guò)評(píng)價(jià)搭配抽取算法、評(píng)價(jià)搭配傾向預(yù)測(cè)算法及特征聚合算法三個(gè)主要算法自動(dòng)構(gòu)建這棵情感本體樹(shù),構(gòu)建的本體樹(shù)反映了意見(jiàn)挖掘的成果。
目前,本體概念已經(jīng)應(yīng)用到了意見(jiàn)挖掘的多個(gè)任務(wù)中。Lau[1]提出一種應(yīng)用于意見(jiàn)挖掘的模糊情感本體及其自動(dòng)構(gòu)建方法,重點(diǎn)關(guān)注領(lǐng)域特征、領(lǐng)域情感詞及它們之間的對(duì)應(yīng)關(guān)系的抽取,通過(guò)在人工標(biāo)注的評(píng)論集上進(jìn)行文本情感傾向分類測(cè)試達(dá)到不錯(cuò)的效果。Wei[2]使用情感本體樹(shù)處理評(píng)論信息中的特征層次嵌套關(guān)系及評(píng)論對(duì)象和評(píng)價(jià)詞的對(duì)應(yīng)關(guān)系。Cheng[3]研究了細(xì)顆粒度的情感分析,根據(jù)評(píng)價(jià)對(duì)象的本體概念和語(yǔ)義傾向使用啟發(fā)式規(guī)則選擇評(píng)價(jià)語(yǔ)句。姚天昉[4]使用領(lǐng)域本體抽取語(yǔ)句主題以及主題的屬性,使用句法分析確定語(yǔ)句中每個(gè)主題的極性。史樹(shù)敏[5]提出了一種基于領(lǐng)域本體的指代消解方法。馮淑芳等[6]建立了面向汽車評(píng)論意見(jiàn)挖掘的本體知識(shí)庫(kù),包括評(píng)價(jià)體系、詞匯知識(shí)庫(kù)以及概念關(guān)系。徐琳宏[7]介紹了大連理工大學(xué)信息檢索實(shí)驗(yàn)室的情感詞匯本體。
在細(xì)粒度的意見(jiàn)挖掘中主要有以下問(wèn)題和挑戰(zhàn)。
(1) 如何抽取用戶評(píng)價(jià)信息中的產(chǎn)品特征、評(píng)價(jià)詞及其搭配關(guān)系;
(2) 情感詞的領(lǐng)域依賴性,例如,“機(jī)身圓滑(褒義)”,“他很圓滑(貶義)”;
(3) 情感詞的上下文依賴性,如關(guān)于手機(jī)的評(píng)論中,“高”相對(duì)于“分辨率”來(lái)說(shuō)是褒義,而對(duì)于“耗電量”來(lái)說(shuō)卻是貶義的;
(4) 評(píng)論對(duì)象的層次嵌套關(guān)系,例如,“屏幕”的子特征有“分辨率”與“顯示效果”。
結(jié)合這些問(wèn)題與挑戰(zhàn),本文重點(diǎn)研究了評(píng)價(jià)搭配抽取算法、搭配傾向預(yù)測(cè)算法以及特征聚合算法,構(gòu)建情感本體樹(shù),并應(yīng)用于評(píng)論意見(jiàn)的挖掘之中。根據(jù)在線評(píng)論的特點(diǎn)文中研究的算法是基于統(tǒng)計(jì)與規(guī)則相結(jié)合的方法,并結(jié)合評(píng)論搭配模板進(jìn)行特征的抽取,相比于前人的研究方法保證了準(zhǔn)確率,提高了召回率,另外,基于多知識(shí)源融合的松弛標(biāo)記法很好地處理了情感詞的領(lǐng)域依賴性和上下文依賴性,這一點(diǎn)可以在后面的實(shí)驗(yàn)結(jié)果中得到體現(xiàn);另外,本文中研究的突破點(diǎn)在于基于本體模型構(gòu)建了一種樹(shù)形結(jié)構(gòu)的情感本體樹(shù),用于組織和反映產(chǎn)品特征、評(píng)價(jià)詞、特征與評(píng)價(jià)詞關(guān)聯(lián)關(guān)系(評(píng)價(jià)搭配)以及特征層次嵌套關(guān)系,并用于細(xì)粒度的意見(jiàn)挖掘。
不同于一般意義的本體模型,本文關(guān)注的是產(chǎn)品與特征、特征與評(píng)價(jià)詞等概念間的關(guān)聯(lián)關(guān)系,因此,使用樹(shù)型結(jié)構(gòu)組織這些關(guān)系,稱之為情感本體樹(shù)(Sentiment Ontology Tree, SOT),其結(jié)構(gòu)如圖1所示。
SOT定義為一個(gè)三元組SOT={C,RNTAX,RTAX},其中C表示概念的集合,對(duì)應(yīng)于SOT中的節(jié)點(diǎn),RNTAX表示一種無(wú)分類的關(guān)系集合,比如圖1中的關(guān)聯(lián)(associated)關(guān)系,RTAX表示一種分類關(guān)系的集合,比如圖1中的is-a、kind-of關(guān)系。在傾向性分析時(shí)關(guān)注的是RNTAX集合,也就是產(chǎn)品特征、評(píng)價(jià)詞、特征之間的層次關(guān)系以及與特征與評(píng)價(jià)詞的關(guān)聯(lián)關(guān)系。
圖1 情感本體樹(shù)結(jié)構(gòu)
SOT的自動(dòng)構(gòu)建過(guò)程如圖2所示,主要包括評(píng)價(jià)搭配抽取、搭配傾向預(yù)測(cè)和特征聚合三個(gè)部分。下文中分別討論每個(gè)部分的具體過(guò)程。
圖2 SOT自動(dòng)構(gòu)建過(guò)程
本文抽取的細(xì)粒度意見(jiàn)要素包括產(chǎn)品特征、評(píng)價(jià)詞、特征與評(píng)價(jià)詞的關(guān)聯(lián)關(guān)系以及評(píng)價(jià)強(qiáng)度。
5.1 基于先驗(yàn)知識(shí)的模板匹配算法
本文提出一種統(tǒng)計(jì)和規(guī)則相結(jié)合的抽取算法——基于先驗(yàn)知識(shí)的模板匹配算法來(lái)進(jìn)行意見(jiàn)中的特征抽取。結(jié)合統(tǒng)計(jì)與規(guī)則方法的優(yōu)點(diǎn),使用統(tǒng)計(jì)方法獲取的高頻特征短語(yǔ)作為規(guī)則方法的先驗(yàn)知識(shí),在保證規(guī)則方法準(zhǔn)確率的同時(shí),提高抽取的召回率。
5.1.1 基于統(tǒng)計(jì)的高頻特征短語(yǔ)抽取
本文使用經(jīng)典的Apriori算法從評(píng)論集中挖掘高頻名詞和名詞短語(yǔ)作為候選特征。然而,并不是所有的高頻候選短語(yǔ)都是產(chǎn)品特征,本文引入三條規(guī)則過(guò)濾候選集。
(1) 緊密度過(guò)濾
假設(shè)f是一個(gè)候選短語(yǔ),它包含了n個(gè)詞,如果句子s包含f并且其中的n個(gè)詞的出現(xiàn)順序?yàn)閣1,w2,…,wn, 如果任意兩個(gè)相鄰詞wi和wi+1之間
小于3個(gè)詞距離,且wi和wi+1之間只包括連詞和助詞,就認(rèn)為f在s中是緊密的;如果m個(gè)句子包含了f,而且f在其中至少兩個(gè)句子中是緊密的,就認(rèn)為f是緊密的。
(2) 冗余過(guò)濾
候選短語(yǔ)c的單純支持度定義為包含短語(yǔ)c同時(shí)不包含c的超集的語(yǔ)句數(shù)。凡是單純支持度小于3的候選短語(yǔ)都不是合格的候選特征。
(3) 特殊字符過(guò)濾
為了提高特征抽取的準(zhǔn)確率,本文總結(jié)了80個(gè)不能成為特征詞的特殊字符和詞語(yǔ),部分詞語(yǔ)如表1所示。
表1 特殊字符舉例
5.1.2 引入先驗(yàn)知識(shí)的評(píng)價(jià)搭配抽取模板
引入高頻特征先驗(yàn)知識(shí)的評(píng)價(jià)搭配模板如表2所示。我們使用“asp”標(biāo)記統(tǒng)計(jì)方法獲取的高頻特征知識(shí),并將其加入到名詞短語(yǔ)的擴(kuò)展形式中,例如,“拍攝/v 效果/n”被標(biāo)記為“拍攝效果/asp”。
基于先驗(yàn)知識(shí)的模板匹配算法流程如圖3所示。
表2 評(píng)價(jià)搭配模板
續(xù)表
說(shuō)明:表中評(píng)價(jià)模式并不能概括所有的評(píng)價(jià)搭配,例如,“外觀、分辨率都很不錯(cuò)”這種情況就只能抽取出“分辨率很不錯(cuò)”,這就需要對(duì)語(yǔ)料庫(kù)進(jìn)行研究,進(jìn)而不斷補(bǔ)充評(píng)價(jià)模式。
圖3 基于先驗(yàn)知識(shí)的模板匹配算法流程
5.2 評(píng)價(jià)搭配傾向性預(yù)測(cè)算法
對(duì)于抽取到的評(píng)價(jià)搭配,需要判斷其情感傾向(褒義、貶義、中性)以及極性強(qiáng)度。本節(jié)首先介紹一個(gè)弱監(jiān)督的傾向預(yù)測(cè)算法KC(Keyword Classifier,KC)[1]和無(wú)監(jiān)督的分類算法松弛標(biāo)記法(Relaxation Labeling, RL)。使用改進(jìn)的松弛標(biāo)記法,即基于多知識(shí)源融合的松弛標(biāo)記法,完成搭配傾向預(yù)測(cè)。
5.2.1 KC算法
KC算法根據(jù)評(píng)價(jià)搭配在褒義文本和貶義文本中出現(xiàn)的條件概率預(yù)測(cè)其傾向性,其中褒義文本和貶義文本由互聯(lián)網(wǎng)資源的自然標(biāo)注性判斷,如圖4所示。
KC值的計(jì)算公式如式(1)(2)。
圖4 來(lái)自泡泡網(wǎng)的用戶關(guān)于手機(jī)的評(píng)論
5.2.2 基于多知識(shí)源融合的松弛標(biāo)記法
本文根據(jù)KC算法的結(jié)果以及三個(gè)通用情感詞典對(duì)松弛標(biāo)記法進(jìn)行改進(jìn),即基于多知識(shí)源融合的松弛標(biāo)記法,主要改進(jìn)之處在RL初始化以及鄰居關(guān)系兩個(gè)地方。
在每次迭代中,RL使用更新方程更新每個(gè)評(píng)價(jià)搭配的標(biāo)記概率。在第m次迭代中,使用q(t,L)(m)表示支持函數(shù),P(l(t)=L)(m)表示評(píng)價(jià)搭配t標(biāo)記為標(biāo)簽L∈{褒義,貶義,中性}的概率,P(l(t)=L)(m+1)表示更新之后的標(biāo)記概率值,則更新方程如式(3)所示。
其中,L′∈{褒義,貶義,中性},α>0是一個(gè)用于控制迭代收斂速度的經(jīng)驗(yàn)值。
對(duì)于一個(gè)評(píng)價(jià)搭配t,支持函數(shù)q(t,L)(m)計(jì)算第m次迭代中在t的鄰居集合N作用下標(biāo)記L的概率。使用Ak={(tj,Lj)|tj∈N},0 假設(shè)t的各個(gè)鄰居的標(biāo)記相互獨(dú)立,式(4)可以寫(xiě)成式(5)。 1) RL初始化 RL初始化的工作是計(jì)算每個(gè)評(píng)價(jià)搭配的初始標(biāo)記概率,即P(l(t)=L)(0)。 KC算法把評(píng)價(jià)搭配集合S分為三個(gè)部分: 褒義評(píng)價(jià)搭配集合Spos、貶義搭配集合Sneg和中性搭配集合Sneutral。 對(duì)于Spos中的評(píng)價(jià)搭配: 對(duì)于Sneg中的評(píng)價(jià)搭配: 本文認(rèn)為Spos與Sneg集合中的標(biāo)記結(jié)果是準(zhǔn)確的,由式(3)可知,在后續(xù)的迭代過(guò)程中,Spos與Sneg中的評(píng)價(jià)搭配的標(biāo)記概率將保持不變。 對(duì)于Sneutral中的評(píng)價(jià)搭配,使用的情感詞典包括《知網(wǎng)》情感詞典、臺(tái)灣大學(xué)的情感極性詞典以及一個(gè)網(wǎng)絡(luò)用語(yǔ)情感詞典。Sneutral中的評(píng)價(jià)搭配的初始標(biāo)記概率計(jì)算如下: 若評(píng)價(jià)搭配的評(píng)價(jià)詞在情感詞典中,則: P(l(t)=L)(0) 其中,P(l(t)=L)(0)的概率值0.8,0.1均是對(duì)應(yīng)的經(jīng)驗(yàn)值。 若評(píng)價(jià)搭配的評(píng)價(jià)詞不在情感詞典中,則: 其中,|·|表示集合元素?cái)?shù),表示Sneutral中評(píng)價(jià)詞在標(biāo)簽為L(zhǎng)的情感詞典中的元素集合。 2) 鄰居關(guān)系 本文定義評(píng)價(jià)搭配之間的鄰居關(guān)系如下。 (1) 并列關(guān)系 “(拍照效果)其實(shí)挺好的,而且(電池)在安卓機(jī)中算是很耐用的了?!?/p> 其中,<拍照效果,好>和<電池,耐用>之間是并列關(guān)系,所以可以認(rèn)為它們有相同的情感傾向; (2) 轉(zhuǎn)折關(guān)系 “(配置)不高,但是(系統(tǒng))流暢” 其中,<配置,不高>和<系統(tǒng),流暢>之間是轉(zhuǎn)折關(guān)系,所以可以認(rèn)為它們有相反的情感傾向; (3) 鄰近關(guān)系 如果兩個(gè)相鄰的評(píng)價(jià)搭配即不屬于并列關(guān)系,也不屬于轉(zhuǎn)折關(guān)系,稱二者之間的關(guān)系為鄰近關(guān)系。具有鄰近關(guān)系的評(píng)價(jià)搭配很有可能有相同的情感傾向,例如, “(上網(wǎng))很不錯(cuò)。(電池)也很好,物流也很給力?!?/p> (4) 相似關(guān)系 產(chǎn)品特征關(guān)系: 本文使用編輯距離[8]計(jì)算產(chǎn)品特征間的相似度,如果相似度大于閾值,則是相似的; 評(píng)價(jià)詞關(guān)系: 根據(jù)《知網(wǎng)》語(yǔ)義相似度[8]判斷評(píng)價(jià)詞之間的相似關(guān)系。 “(拍照效果)很好” vs “(顯示效果)不錯(cuò)” 兩個(gè)評(píng)價(jià)搭配之間的相似關(guān)系由對(duì)應(yīng)產(chǎn)品特征之間的關(guān)系和評(píng)價(jià)詞之間的關(guān)系共同決定。在上面的例子中,通過(guò)編輯距離計(jì)算相似度判定 “拍照效果”與“顯示效果”是相似的,而“好”與“不錯(cuò)”通過(guò)知網(wǎng)相似度計(jì)算判定為相似關(guān)系,則兩個(gè)評(píng)價(jià)搭配就是相似的。在兩個(gè)評(píng)價(jià)搭配中產(chǎn)品特征相似的情況下,評(píng)價(jià)搭配之間的關(guān)系與評(píng)價(jià)詞之間的關(guān)系一致。 使用T表示關(guān)系集R中的一種關(guān)系類型,即T∈R,NT表示通過(guò)關(guān)系T與t相連的鄰居集合。Ak,T表示NT中元素的一個(gè)標(biāo)記序列,則Ak=UTAk,T。P(l(t)=L|Ak)(m)表示為式(10)。 對(duì)于每一種關(guān)系T,定義特征函數(shù)fT(t,L,Ak,T)表示P(l(t)=L|Ak,T),式(10)演化為式(11)。 假設(shè)NT中各元素的標(biāo)記在給定l(t)的情況下相互獨(dú)立,根據(jù)貝葉斯法則,在第m次迭代中特征函數(shù)如式(13)所示。 fT(t,L,Ak,T)(m) 其中,P(Lj|l(t)=L)表示,如果tj與t通過(guò)關(guān)系T連接,且t的標(biāo)記為L(zhǎng)的情況下tj的標(biāo)記為L(zhǎng)j的概率。本文假設(shè)這個(gè)概率值只與T、L和Lj有關(guān),而與評(píng)價(jià)搭配tj和t無(wú)關(guān)。對(duì)于三元組(T,L,Lj)(L,Lj∈{褒義,貶義,中性}),本文定義了狀態(tài)轉(zhuǎn)移矩陣表示其狀態(tài)轉(zhuǎn)移關(guān)系。表3列出了并列關(guān)系下的轉(zhuǎn)移矩陣, 基于多知識(shí)源融合的松馳標(biāo)記法流程如圖5所示。 表3 并列關(guān)系狀態(tài)轉(zhuǎn)移矩陣 圖5 基于多知識(shí)源融合的松弛標(biāo)記法流程圖 情感本體樹(shù)中的特征分兩層: Feature層和Subfeature層。特征聚合的目的是完成二者之間的層次關(guān)系構(gòu)建,即將待征f分類到Feature層特征集I={i}的過(guò)程。有一類在線評(píng)論,其中用戶對(duì)產(chǎn)品的特征分別作出評(píng)價(jià),如圖6所示。利用這種自然標(biāo)注性,可以使用KC算法分類特征。 圖6 來(lái)自IT168的用戶關(guān)于手機(jī)的評(píng)論 對(duì)于不存在于語(yǔ)料庫(kù)中的特征,我們使用PMI(Pointwise Mutual Information)算法進(jìn)行分類,如式(15)至(16)。 特征聚合算法的流程如圖7所示。 圖7 特征聚合算法流程圖 本實(shí)驗(yàn)使用COAE2011任務(wù)3的評(píng)測(cè)數(shù)據(jù)集,并且采用相同的評(píng)價(jià)方式。任務(wù)3的數(shù)據(jù)集包括電子產(chǎn)品、影視娛樂(lè)、金融證券三個(gè)領(lǐng)域各2 000篇在線評(píng)論文本。評(píng)價(jià)指標(biāo)有準(zhǔn)確率、召回率、F1,以及對(duì)應(yīng)的宏平均指標(biāo),其中F1是首要指標(biāo)。 實(shí)驗(yàn)采用一個(gè)基于規(guī)則與統(tǒng)計(jì)的算法Moghaddam(2010)[9],以及COAE2011中在相應(yīng)任務(wù)中取得最好結(jié)果的算法(COAE2011 best)與本文算法進(jìn)行對(duì)比。COAE2011分兩個(gè)部分展示了任務(wù)3的實(shí)驗(yàn)結(jié)果: 第一是特征和評(píng)價(jià)詞抽取實(shí)驗(yàn);第二是搭配關(guān)系抽取與傾向性預(yù)測(cè)實(shí)驗(yàn)。本文中的基于先驗(yàn)知識(shí)的模板匹配方法完成評(píng)價(jià)搭配的抽取,基于多知識(shí)源融合的松弛標(biāo)記法完成評(píng)價(jià)搭配傾向預(yù)測(cè)。為了與COAE2011統(tǒng)一,本文將實(shí)驗(yàn)結(jié)果分成同樣兩個(gè)部分展示,在下文的描述中使用“本文算法”指代以上兩個(gè)算法。另外,基于先驗(yàn)知識(shí)的模板匹配方法有基于規(guī)則與基于統(tǒng)計(jì)和規(guī)則相結(jié)合兩個(gè)版本,下文中如無(wú)特別指出,“本文算法”均指基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法。 7.1 在線評(píng)論語(yǔ)料庫(kù) 語(yǔ)料庫(kù)包括來(lái)自手機(jī)之家、泡泡網(wǎng)、中關(guān)村手機(jī)頻道、手機(jī)中國(guó)、IT168中網(wǎng)友關(guān)于手機(jī)的評(píng)論文本21 530篇(褒義和貶義文本各占一半),以及來(lái)自新浪、網(wǎng)易等門(mén)戶網(wǎng)站的手機(jī)評(píng)測(cè)文章51 228篇。 使用本文算法從語(yǔ)料庫(kù)中抽取了1 912個(gè)特征短語(yǔ)、858個(gè)評(píng)價(jià)詞、4 054個(gè)<特征,評(píng)價(jià)詞>關(guān)聯(lián)關(guān)系(3 434個(gè)褒義搭配、620個(gè)貶義搭配),通過(guò)特征聚合算法完成特征層次關(guān)系構(gòu)建,并將以上知識(shí)以情感本體樹(shù)的形式保存。在處理實(shí)驗(yàn)文本的過(guò)程中,如果發(fā)現(xiàn)特征與評(píng)價(jià)詞存在近鄰關(guān)系并在知識(shí)庫(kù)中有搭配關(guān)系,則抽取評(píng)價(jià)搭配。另外,領(lǐng)域情感知識(shí)庫(kù)也為基于多知識(shí)源融合的松弛標(biāo)記法提供了重要的領(lǐng)域知識(shí)。 7.2 特征和評(píng)價(jià)詞抽取實(shí)驗(yàn) 實(shí)驗(yàn)結(jié)果如表4~7所示。 表4 特征抽取結(jié)果 7.3 評(píng)價(jià)搭配抽取與傾向性預(yù)測(cè)實(shí)驗(yàn) 實(shí)驗(yàn)結(jié)果如表8、表9所示。 表5 特征抽取宏平均結(jié)果 表6 評(píng)價(jià)詞抽取結(jié)果 表7 評(píng)價(jià)詞抽取宏平均結(jié)果 表8 評(píng)價(jià)搭配抽取、搭配傾向預(yù)測(cè)實(shí)驗(yàn)結(jié)果 表9 評(píng)價(jià)搭配抽取、搭配傾向預(yù)測(cè)宏平均結(jié)果 7.4 實(shí)驗(yàn)結(jié)果分析 從表4、表6、表8可以看到,本文算法表現(xiàn)明顯優(yōu)于Moghaddam(2010)和COAE2011的算法。由于Moghaddam(2010)只統(tǒng)計(jì)了特征短語(yǔ)的規(guī)則,使用鄰近特征的形容詞作為評(píng)價(jià)詞,而且是應(yīng)用于英文文本的,所以效果最差。在電子產(chǎn)品領(lǐng)域,本文算法的兩個(gè)版本中,基于統(tǒng)計(jì)和規(guī)則結(jié)合的方法比只使用規(guī)則的方法的特征抽取結(jié)果的F1高出將近1個(gè)百分點(diǎn),證明了基于先驗(yàn)知識(shí)的模板匹配算法的有效性。COAE2011評(píng)測(cè)以宏平均作為主要指標(biāo),表5、表7、表9列出的宏平均也表明本文算法的效果明顯。 在電子產(chǎn)品領(lǐng)域上本文算法表現(xiàn)最好,在影視娛樂(lè)和金融證券領(lǐng)域,雖然本文算法的F1值高于COAE2011 best,但是算法準(zhǔn)確率卻略低于后者。這主要是因?yàn)楸疚氖褂玫脑诰€評(píng)論語(yǔ)料庫(kù)是由手機(jī)評(píng)論文本組成的,與影視娛樂(lè)和金融證券領(lǐng)域差別較大。 本文定義了一種應(yīng)用于細(xì)粒度意見(jiàn)挖掘的情感本體樹(shù),并提出其自動(dòng)構(gòu)建方法。在細(xì)粒度意見(jiàn)要素抽取上,通過(guò)分析基于統(tǒng)計(jì)和基于規(guī)則方法的優(yōu)缺點(diǎn),提出基于先驗(yàn)知識(shí)的模板匹配算法抽取評(píng)價(jià)搭配;使用改進(jìn)的松弛標(biāo)記法——基于多知識(shí)源的松弛標(biāo)記法預(yù)測(cè)搭配傾向性。在COAE2011評(píng)測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)證明了本文算法的有效性,同時(shí)說(shuō)明了領(lǐng)域情感知識(shí)對(duì)細(xì)粒度意見(jiàn)挖掘的重要作用,也證明了解決評(píng)價(jià)詞的領(lǐng)域依賴性是十分必要的。 [1] Lau R Y K, Lai C C L, Ma J, et al. Automatic domain ontology extraction for context-sensitive opinion mining[J]. Proceedings of ICIS 2009, 2009: 35-53. [2] Wei W, Gulla J A. Sentiment learning on product reviews via sentiment ontology tree[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 404-413. [3] Cheng X. Automatic topic term detection and sentiment classification for opinion mining[D]. Master Thesis. Saarbrücken, Germany: The University of Saarland, 2007. [4] 姚天昉, 聶青陽(yáng), 李建超, 等. 一個(gè)用于漢語(yǔ)汽車評(píng)論的意見(jiàn)挖掘系統(tǒng) [C]//中文信息處理前沿進(jìn)展-中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集. 北京: 清華大學(xué)出版社, 2006: 260-281. [5] 史樹(shù)敏, 黃河燕. 基于領(lǐng)域本體的指代消解策略研究 (英文)[C]//中國(guó)計(jì)算技術(shù)與語(yǔ)言問(wèn)題研究——第七屆中文信息處理國(guó)際會(huì)議論文集. 2007. [6] 馮淑芳, 王素格. 面向觀點(diǎn)挖掘的汽車評(píng)價(jià)本體知識(shí)庫(kù)的構(gòu)建[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2011,(5): 45-48. [7] 徐琳宏, 林鴻飛, 潘宇, 等. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2):180-185. [8] 劉群, 李素建. 基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J]. 中文計(jì)算語(yǔ)言學(xué), 2002, 7(2): 59-76. [9] Moghaddam S, Ester M. Opinion digger: an unsupervised opinion miner from unstructured product reviews[C]//Proceedings of the 19th ACM international conference on Information and knowledge management. ACM, 2010: 1825-1828.6 特征聚合算法
7 實(shí)驗(yàn)結(jié)果與分析
8 總結(jié)