亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向細(xì)粒度意見(jiàn)挖掘的情感本體樹(shù)及自動(dòng)構(gòu)建

2013-04-23 07:38:43王振宇

中文信息學(xué)報(bào) 2013年5期

郭沖，王振宇

(1. 華南理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣東廣州 510006; 2. 華南理工大學(xué) 軟件學(xué)院，廣東廣州 510006)

1 引言

細(xì)粒度意見(jiàn)挖掘(Fine-grained Opinion Mining)，又稱為基于特征的意見(jiàn)挖掘(Aspect-oriented Opinion Mining)，深入到產(chǎn)品特征層面，能夠提取到評(píng)價(jià)信息中涉及的評(píng)價(jià)對(duì)象、評(píng)價(jià)詞以及對(duì)應(yīng)的評(píng)價(jià)傾向等意見(jiàn)要素，從而為一些實(shí)際應(yīng)用提供必要的細(xì)節(jié)信息。

本文定義了一種用于細(xì)粒度意見(jiàn)挖掘的領(lǐng)域情感本體結(jié)構(gòu)，稱為情感本體樹(shù)(Sentiment Ontology Tree, SOT)，通過(guò)評(píng)價(jià)搭配抽取算法、評(píng)價(jià)搭配傾向預(yù)測(cè)算法及特征聚合算法三個(gè)主要算法自動(dòng)構(gòu)建這棵情感本體樹(shù)，構(gòu)建的本體樹(shù)反映了意見(jiàn)挖掘的成果。

2 相關(guān)工作

目前，本體概念已經(jīng)應(yīng)用到了意見(jiàn)挖掘的多個(gè)任務(wù)中。Lau[1]提出一種應(yīng)用于意見(jiàn)挖掘的模糊情感本體及其自動(dòng)構(gòu)建方法，重點(diǎn)關(guān)注領(lǐng)域特征、領(lǐng)域情感詞及它們之間的對(duì)應(yīng)關(guān)系的抽取，通過(guò)在人工標(biāo)注的評(píng)論集上進(jìn)行文本情感傾向分類測(cè)試達(dá)到不錯(cuò)的效果。Wei[2]使用情感本體樹(shù)處理評(píng)論信息中的特征層次嵌套關(guān)系及評(píng)論對(duì)象和評(píng)價(jià)詞的對(duì)應(yīng)關(guān)系。Cheng[3]研究了細(xì)顆粒度的情感分析，根據(jù)評(píng)價(jià)對(duì)象的本體概念和語(yǔ)義傾向使用啟發(fā)式規(guī)則選擇評(píng)價(jià)語(yǔ)句。姚天昉[4]使用領(lǐng)域本體抽取語(yǔ)句主題以及主題的屬性，使用句法分析確定語(yǔ)句中每個(gè)主題的極性。史樹(shù)敏[5]提出了一種基于領(lǐng)域本體的指代消解方法。馮淑芳等[6]建立了面向汽車評(píng)論意見(jiàn)挖掘的本體知識(shí)庫(kù)，包括評(píng)價(jià)體系、詞匯知識(shí)庫(kù)以及概念關(guān)系。徐琳宏[7]介紹了大連理工大學(xué)信息檢索實(shí)驗(yàn)室的情感詞匯本體。

3 問(wèn)題與挑戰(zhàn)

在細(xì)粒度的意見(jiàn)挖掘中主要有以下問(wèn)題和挑戰(zhàn)。

(1) 如何抽取用戶評(píng)價(jià)信息中的產(chǎn)品特征、評(píng)價(jià)詞及其搭配關(guān)系；

(2) 情感詞的領(lǐng)域依賴性，例如，“機(jī)身圓滑(褒義)”，“他很圓滑(貶義)”；

(3) 情感詞的上下文依賴性，如關(guān)于手機(jī)的評(píng)論中，“高”相對(duì)于“分辨率”來(lái)說(shuō)是褒義，而對(duì)于“耗電量”來(lái)說(shuō)卻是貶義的；

(4) 評(píng)論對(duì)象的層次嵌套關(guān)系，例如，“屏幕”的子特征有“分辨率”與“顯示效果”。

結(jié)合這些問(wèn)題與挑戰(zhàn)，本文重點(diǎn)研究了評(píng)價(jià)搭配抽取算法、搭配傾向預(yù)測(cè)算法以及特征聚合算法，構(gòu)建情感本體樹(shù)，并應(yīng)用于評(píng)論意見(jiàn)的挖掘之中。根據(jù)在線評(píng)論的特點(diǎn)文中研究的算法是基于統(tǒng)計(jì)與規(guī)則相結(jié)合的方法，并結(jié)合評(píng)論搭配模板進(jìn)行特征的抽取，相比于前人的研究方法保證了準(zhǔn)確率，提高了召回率，另外，基于多知識(shí)源融合的松弛標(biāo)記法很好地處理了情感詞的領(lǐng)域依賴性和上下文依賴性，這一點(diǎn)可以在后面的實(shí)驗(yàn)結(jié)果中得到體現(xiàn)；另外，本文中研究的突破點(diǎn)在于基于本體模型構(gòu)建了一種樹(shù)形結(jié)構(gòu)的情感本體樹(shù)，用于組織和反映產(chǎn)品特征、評(píng)價(jià)詞、特征與評(píng)價(jià)詞關(guān)聯(lián)關(guān)系(評(píng)價(jià)搭配)以及特征層次嵌套關(guān)系，并用于細(xì)粒度的意見(jiàn)挖掘。

4 情感本體樹(shù)

不同于一般意義的本體模型，本文關(guān)注的是產(chǎn)品與特征、特征與評(píng)價(jià)詞等概念間的關(guān)聯(lián)關(guān)系，因此，使用樹(shù)型結(jié)構(gòu)組織這些關(guān)系，稱之為情感本體樹(shù)(Sentiment Ontology Tree, SOT),其結(jié)構(gòu)如圖1所示。

SOT定義為一個(gè)三元組SOT={C,RNTAX,RTAX}，其中C表示概念的集合，對(duì)應(yīng)于SOT中的節(jié)點(diǎn)，RNTAX表示一種無(wú)分類的關(guān)系集合，比如圖1中的關(guān)聯(lián)(associated)關(guān)系，RTAX表示一種分類關(guān)系的集合，比如圖1中的is-a、kind-of關(guān)系。在傾向性分析時(shí)關(guān)注的是RNTAX集合，也就是產(chǎn)品特征、評(píng)價(jià)詞、特征之間的層次關(guān)系以及與特征與評(píng)價(jià)詞的關(guān)聯(lián)關(guān)系。

圖1 情感本體樹(shù)結(jié)構(gòu)

SOT的自動(dòng)構(gòu)建過(guò)程如圖2所示，主要包括評(píng)價(jià)搭配抽取、搭配傾向預(yù)測(cè)和特征聚合三個(gè)部分。下文中分別討論每個(gè)部分的具體過(guò)程。

圖2 SOT自動(dòng)構(gòu)建過(guò)程

5 細(xì)粒度意見(jiàn)要素抽取算法

本文抽取的細(xì)粒度意見(jiàn)要素包括產(chǎn)品特征、評(píng)價(jià)詞、特征與評(píng)價(jià)詞的關(guān)聯(lián)關(guān)系以及評(píng)價(jià)強(qiáng)度。

5.1 基于先驗(yàn)知識(shí)的模板匹配算法

本文提出一種統(tǒng)計(jì)和規(guī)則相結(jié)合的抽取算法——基于先驗(yàn)知識(shí)的模板匹配算法來(lái)進(jìn)行意見(jiàn)中的特征抽取。結(jié)合統(tǒng)計(jì)與規(guī)則方法的優(yōu)點(diǎn)，使用統(tǒng)計(jì)方法獲取的高頻特征短語(yǔ)作為規(guī)則方法的先驗(yàn)知識(shí)，在保證規(guī)則方法準(zhǔn)確率的同時(shí)，提高抽取的召回率。

5.1.1 基于統(tǒng)計(jì)的高頻特征短語(yǔ)抽取

本文使用經(jīng)典的Apriori算法從評(píng)論集中挖掘高頻名詞和名詞短語(yǔ)作為候選特征。然而，并不是所有的高頻候選短語(yǔ)都是產(chǎn)品特征，本文引入三條規(guī)則過(guò)濾候選集。

(1) 緊密度過(guò)濾

假設(shè)f是一個(gè)候選短語(yǔ)，它包含了n個(gè)詞，如果句子s包含f并且其中的n個(gè)詞的出現(xiàn)順序?yàn)閣1,w2,…,wn, 如果任意兩個(gè)相鄰詞wi和wi+1之間

小于3個(gè)詞距離,且wi和wi+1之間只包括連詞和助詞，就認(rèn)為f在s中是緊密的；如果m個(gè)句子包含了f,而且f在其中至少兩個(gè)句子中是緊密的，就認(rèn)為f是緊密的。

(2) 冗余過(guò)濾

候選短語(yǔ)c的單純支持度定義為包含短語(yǔ)c同時(shí)不包含c的超集的語(yǔ)句數(shù)。凡是單純支持度小于3的候選短語(yǔ)都不是合格的候選特征。

(3) 特殊字符過(guò)濾

為了提高特征抽取的準(zhǔn)確率，本文總結(jié)了80個(gè)不能成為特征詞的特殊字符和詞語(yǔ)，部分詞語(yǔ)如表1所示。

表1 特殊字符舉例

5.1.2 引入先驗(yàn)知識(shí)的評(píng)價(jià)搭配抽取模板

引入高頻特征先驗(yàn)知識(shí)的評(píng)價(jià)搭配模板如表2所示。我們使用“asp”標(biāo)記統(tǒng)計(jì)方法獲取的高頻特征知識(shí)，并將其加入到名詞短語(yǔ)的擴(kuò)展形式中，例如，“拍攝/v 效果/n”被標(biāo)記為“拍攝效果/asp”。

基于先驗(yàn)知識(shí)的模板匹配算法流程如圖3所示。

表2 評(píng)價(jià)搭配模板

續(xù)表

說(shuō)明：表中評(píng)價(jià)模式并不能概括所有的評(píng)價(jià)搭配，例如,“外觀、分辨率都很不錯(cuò)”這種情況就只能抽取出“分辨率很不錯(cuò)”，這就需要對(duì)語(yǔ)料庫(kù)進(jìn)行研究，進(jìn)而不斷補(bǔ)充評(píng)價(jià)模式。

圖3 基于先驗(yàn)知識(shí)的模板匹配算法流程

5.2 評(píng)價(jià)搭配傾向性預(yù)測(cè)算法

對(duì)于抽取到的評(píng)價(jià)搭配，需要判斷其情感傾向(褒義、貶義、中性)以及極性強(qiáng)度。本節(jié)首先介紹一個(gè)弱監(jiān)督的傾向預(yù)測(cè)算法KC(Keyword Classifier，KC)[1]和無(wú)監(jiān)督的分類算法松弛標(biāo)記法(Relaxation Labeling, RL)。使用改進(jìn)的松弛標(biāo)記法，即基于多知識(shí)源融合的松弛標(biāo)記法，完成搭配傾向預(yù)測(cè)。

5.2.1 KC算法

KC算法根據(jù)評(píng)價(jià)搭配在褒義文本和貶義文本中出現(xiàn)的條件概率預(yù)測(cè)其傾向性，其中褒義文本和貶義文本由互聯(lián)網(wǎng)資源的自然標(biāo)注性判斷，如圖4所示。

KC值的計(jì)算公式如式(1)(2)。

圖4 來(lái)自泡泡網(wǎng)的用戶關(guān)于手機(jī)的評(píng)論

5.2.2 基于多知識(shí)源融合的松弛標(biāo)記法

本文根據(jù)KC算法的結(jié)果以及三個(gè)通用情感詞典對(duì)松弛標(biāo)記法進(jìn)行改進(jìn)，即基于多知識(shí)源融合的松弛標(biāo)記法，主要改進(jìn)之處在RL初始化以及鄰居關(guān)系兩個(gè)地方。

在每次迭代中，RL使用更新方程更新每個(gè)評(píng)價(jià)搭配的標(biāo)記概率。在第m次迭代中，使用q(t,L)(m)表示支持函數(shù)，P(l(t)=L)(m)表示評(píng)價(jià)搭配t標(biāo)記為標(biāo)簽L∈{褒義，貶義，中性}的概率，P(l(t)=L)(m+1)表示更新之后的標(biāo)記概率值，則更新方程如式(3)所示。

其中，L′∈{褒義，貶義，中性}，α>0是一個(gè)用于控制迭代收斂速度的經(jīng)驗(yàn)值。

對(duì)于一個(gè)評(píng)價(jià)搭配t，支持函數(shù)q(t,L)(m)計(jì)算第m次迭代中在t的鄰居集合N作用下標(biāo)記L的概率。使用Ak={(tj,Lj)|tj∈N},0

假設(shè)t的各個(gè)鄰居的標(biāo)記相互獨(dú)立，式(4)可以寫(xiě)成式(5)。

1) RL初始化

RL初始化的工作是計(jì)算每個(gè)評(píng)價(jià)搭配的初始標(biāo)記概率，即P(l(t)=L)(0)。

KC算法把評(píng)價(jià)搭配集合S分為三個(gè)部分：褒義評(píng)價(jià)搭配集合Spos、貶義搭配集合Sneg和中性搭配集合Sneutral。

對(duì)于Spos中的評(píng)價(jià)搭配：

對(duì)于Sneg中的評(píng)價(jià)搭配：

本文認(rèn)為Spos與Sneg集合中的標(biāo)記結(jié)果是準(zhǔn)確的，由式(3)可知，在后續(xù)的迭代過(guò)程中，Spos與Sneg中的評(píng)價(jià)搭配的標(biāo)記概率將保持不變。

對(duì)于Sneutral中的評(píng)價(jià)搭配，使用的情感詞典包括《知網(wǎng)》情感詞典、臺(tái)灣大學(xué)的情感極性詞典以及一個(gè)網(wǎng)絡(luò)用語(yǔ)情感詞典。Sneutral中的評(píng)價(jià)搭配的初始標(biāo)記概率計(jì)算如下：

若評(píng)價(jià)搭配的評(píng)價(jià)詞在情感詞典中，則：

P(l(t)=L)(0)

其中，P(l(t)=L)(0)的概率值0.8,0.1均是對(duì)應(yīng)的經(jīng)驗(yàn)值。

若評(píng)價(jià)搭配的評(píng)價(jià)詞不在情感詞典中，則：

其中，|·|表示集合元素?cái)?shù)，表示Sneutral中評(píng)價(jià)詞在標(biāo)簽為L(zhǎng)的情感詞典中的元素集合。

2) 鄰居關(guān)系

本文定義評(píng)價(jià)搭配之間的鄰居關(guān)系如下。

(1) 并列關(guān)系

“(拍照效果)其實(shí)挺好的，而且(電池)在安卓機(jī)中算是很耐用的了?！?/p>

其中，<拍照效果，好>和<電池，耐用>之間是并列關(guān)系，所以可以認(rèn)為它們有相同的情感傾向；

(2) 轉(zhuǎn)折關(guān)系

“(配置)不高，但是(系統(tǒng))流暢”

其中，<配置，不高>和<系統(tǒng)，流暢>之間是轉(zhuǎn)折關(guān)系，所以可以認(rèn)為它們有相反的情感傾向；

(3) 鄰近關(guān)系

如果兩個(gè)相鄰的評(píng)價(jià)搭配即不屬于并列關(guān)系，也不屬于轉(zhuǎn)折關(guān)系，稱二者之間的關(guān)系為鄰近關(guān)系。具有鄰近關(guān)系的評(píng)價(jià)搭配很有可能有相同的情感傾向，例如，

“(上網(wǎng))很不錯(cuò)。(電池)也很好，物流也很給力?！?/p>

(4) 相似關(guān)系

產(chǎn)品特征關(guān)系：本文使用編輯距離[8]計(jì)算產(chǎn)品特征間的相似度，如果相似度大于閾值，則是相似的；

評(píng)價(jià)詞關(guān)系：根據(jù)《知網(wǎng)》語(yǔ)義相似度[8]判斷評(píng)價(jià)詞之間的相似關(guān)系。

“(拍照效果)很好” vs “(顯示效果)不錯(cuò)”

兩個(gè)評(píng)價(jià)搭配之間的相似關(guān)系由對(duì)應(yīng)產(chǎn)品特征之間的關(guān)系和評(píng)價(jià)詞之間的關(guān)系共同決定。在上面的例子中，通過(guò)編輯距離計(jì)算相似度判定 “拍照效果”與“顯示效果”是相似的，而“好”與“不錯(cuò)”通過(guò)知網(wǎng)相似度計(jì)算判定為相似關(guān)系，則兩個(gè)評(píng)價(jià)搭配就是相似的。在兩個(gè)評(píng)價(jià)搭配中產(chǎn)品特征相似的情況下，評(píng)價(jià)搭配之間的關(guān)系與評(píng)價(jià)詞之間的關(guān)系一致。

使用T表示關(guān)系集R中的一種關(guān)系類型，即T∈R，NT表示通過(guò)關(guān)系T與t相連的鄰居集合。Ak,T表示NT中元素的一個(gè)標(biāo)記序列，則Ak=UTAk,T。P(l(t)=L|Ak)(m)表示為式(10)。

對(duì)于每一種關(guān)系T,定義特征函數(shù)fT(t,L,Ak,T)表示P(l(t)=L|Ak,T)，式(10)演化為式(11)。

假設(shè)NT中各元素的標(biāo)記在給定l(t)的情況下相互獨(dú)立，根據(jù)貝葉斯法則，在第m次迭代中特征函數(shù)如式(13)所示。

fT(t,L,Ak,T)(m)

其中，P(Lj|l(t)=L)表示，如果tj與t通過(guò)關(guān)系T連接，且t的標(biāo)記為L(zhǎng)的情況下tj的標(biāo)記為L(zhǎng)j的概率。本文假設(shè)這個(gè)概率值只與T、L和Lj有關(guān)，而與評(píng)價(jià)搭配tj和t無(wú)關(guān)。對(duì)于三元組(T,L,Lj)(L,Lj∈{褒義，貶義，中性})，本文定義了狀態(tài)轉(zhuǎn)移矩陣表示其狀態(tài)轉(zhuǎn)移關(guān)系。表3列出了并列關(guān)系下的轉(zhuǎn)移矩陣，基于多知識(shí)源融合的松馳標(biāo)記法流程如圖5所示。

表3 并列關(guān)系狀態(tài)轉(zhuǎn)移矩陣

圖5 基于多知識(shí)源融合的松弛標(biāo)記法流程圖

6 特征聚合算法

情感本體樹(shù)中的特征分兩層： Feature層和Subfeature層。特征聚合的目的是完成二者之間的層次關(guān)系構(gòu)建，即將待征f分類到Feature層特征集I={i}的過(guò)程。有一類在線評(píng)論，其中用戶對(duì)產(chǎn)品的特征分別作出評(píng)價(jià)，如圖6所示。利用這種自然標(biāo)注性，可以使用KC算法分類特征。

圖6 來(lái)自IT168的用戶關(guān)于手機(jī)的評(píng)論

對(duì)于不存在于語(yǔ)料庫(kù)中的特征，我們使用PMI(Pointwise Mutual Information)算法進(jìn)行分類，如式(15)至(16)。

特征聚合算法的流程如圖7所示。

圖7 特征聚合算法流程圖

7 實(shí)驗(yàn)結(jié)果與分析

本實(shí)驗(yàn)使用COAE2011任務(wù)3的評(píng)測(cè)數(shù)據(jù)集，并且采用相同的評(píng)價(jià)方式。任務(wù)3的數(shù)據(jù)集包括電子產(chǎn)品、影視娛樂(lè)、金融證券三個(gè)領(lǐng)域各2 000篇在線評(píng)論文本。評(píng)價(jià)指標(biāo)有準(zhǔn)確率、召回率、F1，以及對(duì)應(yīng)的宏平均指標(biāo)，其中F1是首要指標(biāo)。

實(shí)驗(yàn)采用一個(gè)基于規(guī)則與統(tǒng)計(jì)的算法Moghaddam(2010)[9]，以及COAE2011中在相應(yīng)任務(wù)中取得最好結(jié)果的算法(COAE2011 best)與本文算法進(jìn)行對(duì)比。COAE2011分兩個(gè)部分展示了任務(wù)3的實(shí)驗(yàn)結(jié)果：第一是特征和評(píng)價(jià)詞抽取實(shí)驗(yàn)；第二是搭配關(guān)系抽取與傾向性預(yù)測(cè)實(shí)驗(yàn)。本文中的基于先驗(yàn)知識(shí)的模板匹配方法完成評(píng)價(jià)搭配的抽取，基于多知識(shí)源融合的松弛標(biāo)記法完成評(píng)價(jià)搭配傾向預(yù)測(cè)。為了與COAE2011統(tǒng)一，本文將實(shí)驗(yàn)結(jié)果分成同樣兩個(gè)部分展示，在下文的描述中使用“本文算法”指代以上兩個(gè)算法。另外，基于先驗(yàn)知識(shí)的模板匹配方法有基于規(guī)則與基于統(tǒng)計(jì)和規(guī)則相結(jié)合兩個(gè)版本，下文中如無(wú)特別指出，“本文算法”均指基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法。

7.1 在線評(píng)論語(yǔ)料庫(kù)

語(yǔ)料庫(kù)包括來(lái)自手機(jī)之家、泡泡網(wǎng)、中關(guān)村手機(jī)頻道、手機(jī)中國(guó)、IT168中網(wǎng)友關(guān)于手機(jī)的評(píng)論文本21 530篇(褒義和貶義文本各占一半)，以及來(lái)自新浪、網(wǎng)易等門(mén)戶網(wǎng)站的手機(jī)評(píng)測(cè)文章51 228篇。

使用本文算法從語(yǔ)料庫(kù)中抽取了1 912個(gè)特征短語(yǔ)、858個(gè)評(píng)價(jià)詞、4 054個(gè)<特征，評(píng)價(jià)詞>關(guān)聯(lián)關(guān)系(3 434個(gè)褒義搭配、620個(gè)貶義搭配)，通過(guò)特征聚合算法完成特征層次關(guān)系構(gòu)建，并將以上知識(shí)以情感本體樹(shù)的形式保存。在處理實(shí)驗(yàn)文本的過(guò)程中，如果發(fā)現(xiàn)特征與評(píng)價(jià)詞存在近鄰關(guān)系并在知識(shí)庫(kù)中有搭配關(guān)系，則抽取評(píng)價(jià)搭配。另外，領(lǐng)域情感知識(shí)庫(kù)也為基于多知識(shí)源融合的松弛標(biāo)記法提供了重要的領(lǐng)域知識(shí)。

7.2 特征和評(píng)價(jià)詞抽取實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果如表4～7所示。

表4 特征抽取結(jié)果

7.3 評(píng)價(jià)搭配抽取與傾向性預(yù)測(cè)實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果如表8、表9所示。

表5 特征抽取宏平均結(jié)果

表6 評(píng)價(jià)詞抽取結(jié)果

表7 評(píng)價(jià)詞抽取宏平均結(jié)果

表8 評(píng)價(jià)搭配抽取、搭配傾向預(yù)測(cè)實(shí)驗(yàn)結(jié)果

表9 評(píng)價(jià)搭配抽取、搭配傾向預(yù)測(cè)宏平均結(jié)果

7.4 實(shí)驗(yàn)結(jié)果分析

從表4、表6、表8可以看到，本文算法表現(xiàn)明顯優(yōu)于Moghaddam(2010)和COAE2011的算法。由于Moghaddam(2010)只統(tǒng)計(jì)了特征短語(yǔ)的規(guī)則，使用鄰近特征的形容詞作為評(píng)價(jià)詞，而且是應(yīng)用于英文文本的，所以效果最差。在電子產(chǎn)品領(lǐng)域，本文算法的兩個(gè)版本中，基于統(tǒng)計(jì)和規(guī)則結(jié)合的方法比只使用規(guī)則的方法的特征抽取結(jié)果的F1高出將近1個(gè)百分點(diǎn)，證明了基于先驗(yàn)知識(shí)的模板匹配算法的有效性。COAE2011評(píng)測(cè)以宏平均作為主要指標(biāo)，表5、表7、表9列出的宏平均也表明本文算法的效果明顯。

在電子產(chǎn)品領(lǐng)域上本文算法表現(xiàn)最好，在影視娛樂(lè)和金融證券領(lǐng)域，雖然本文算法的F1值高于COAE2011 best，但是算法準(zhǔn)確率卻略低于后者。這主要是因?yàn)楸疚氖褂玫脑诰€評(píng)論語(yǔ)料庫(kù)是由手機(jī)評(píng)論文本組成的，與影視娛樂(lè)和金融證券領(lǐng)域差別較大。

8 總結(jié)

本文定義了一種應(yīng)用于細(xì)粒度意見(jiàn)挖掘的情感本體樹(shù)，并提出其自動(dòng)構(gòu)建方法。在細(xì)粒度意見(jiàn)要素抽取上，通過(guò)分析基于統(tǒng)計(jì)和基于規(guī)則方法的優(yōu)缺點(diǎn)，提出基于先驗(yàn)知識(shí)的模板匹配算法抽取評(píng)價(jià)搭配；使用改進(jìn)的松弛標(biāo)記法——基于多知識(shí)源的松弛標(biāo)記法預(yù)測(cè)搭配傾向性。在COAE2011評(píng)測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)證明了本文算法的有效性，同時(shí)說(shuō)明了領(lǐng)域情感知識(shí)對(duì)細(xì)粒度意見(jiàn)挖掘的重要作用，也證明了解決評(píng)價(jià)詞的領(lǐng)域依賴性是十分必要的。

[1] Lau R Y K, Lai C C L, Ma J, et al. Automatic domain ontology extraction for context-sensitive opinion mining[J]. Proceedings of ICIS 2009, 2009: 35-53.

[2] Wei W, Gulla J A. Sentiment learning on product reviews via sentiment ontology tree[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 404-413.

[3] Cheng X. Automatic topic term detection and sentiment classification for opinion mining[D]. Master Thesis. Saarbrücken, Germany: The University of Saarland, 2007.

[4] 姚天昉, 聶青陽(yáng), 李建超, 等. 一個(gè)用于漢語(yǔ)汽車評(píng)論的意見(jiàn)挖掘系統(tǒng) [C]//中文信息處理前沿進(jìn)展-中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集. 北京: 清華大學(xué)出版社, 2006: 260-281.

[5] 史樹(shù)敏, 黃河燕. 基于領(lǐng)域本體的指代消解策略研究 (英文)[C]//中國(guó)計(jì)算技術(shù)與語(yǔ)言問(wèn)題研究——第七屆中文信息處理國(guó)際會(huì)議論文集. 2007.

[6] 馮淑芳, 王素格. 面向觀點(diǎn)挖掘的汽車評(píng)價(jià)本體知識(shí)庫(kù)的構(gòu)建[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2011,(5): 45-48.

[7] 徐琳宏, 林鴻飛, 潘宇, 等. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2):180-185.

[8] 劉群, 李素建. 基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J]. 中文計(jì)算語(yǔ)言學(xué), 2002, 7(2): 59-76.

[9] Moghaddam S, Ester M. Opinion digger: an unsupervised opinion miner from unstructured product reviews[C]//Proceedings of the 19th ACM international conference on Information and knowledge management. ACM, 2010: 1825-1828.