亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向細(xì)粒度意見(jiàn)挖掘的情感本體樹(shù)及自動(dòng)構(gòu)建

        2013-04-23 07:38:43王振宇
        中文信息學(xué)報(bào) 2013年5期
        關(guān)鍵詞:褒義細(xì)粒度本體

        郭 沖,王振宇

        (1. 華南理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣東 廣州 510006; 2. 華南理工大學(xué) 軟件學(xué)院,廣東 廣州 510006)

        1 引言

        細(xì)粒度意見(jiàn)挖掘(Fine-grained Opinion Mining),又稱為基于特征的意見(jiàn)挖掘(Aspect-oriented Opinion Mining),深入到產(chǎn)品特征層面,能夠提取到評(píng)價(jià)信息中涉及的評(píng)價(jià)對(duì)象、評(píng)價(jià)詞以及對(duì)應(yīng)的評(píng)價(jià)傾向等意見(jiàn)要素,從而為一些實(shí)際應(yīng)用提供必要的細(xì)節(jié)信息。

        本文定義了一種用于細(xì)粒度意見(jiàn)挖掘的領(lǐng)域情感本體結(jié)構(gòu),稱為情感本體樹(shù)(Sentiment Ontology Tree, SOT),通過(guò)評(píng)價(jià)搭配抽取算法、評(píng)價(jià)搭配傾向預(yù)測(cè)算法及特征聚合算法三個(gè)主要算法自動(dòng)構(gòu)建這棵情感本體樹(shù),構(gòu)建的本體樹(shù)反映了意見(jiàn)挖掘的成果。

        2 相關(guān)工作

        目前,本體概念已經(jīng)應(yīng)用到了意見(jiàn)挖掘的多個(gè)任務(wù)中。Lau[1]提出一種應(yīng)用于意見(jiàn)挖掘的模糊情感本體及其自動(dòng)構(gòu)建方法,重點(diǎn)關(guān)注領(lǐng)域特征、領(lǐng)域情感詞及它們之間的對(duì)應(yīng)關(guān)系的抽取,通過(guò)在人工標(biāo)注的評(píng)論集上進(jìn)行文本情感傾向分類測(cè)試達(dá)到不錯(cuò)的效果。Wei[2]使用情感本體樹(shù)處理評(píng)論信息中的特征層次嵌套關(guān)系及評(píng)論對(duì)象和評(píng)價(jià)詞的對(duì)應(yīng)關(guān)系。Cheng[3]研究了細(xì)顆粒度的情感分析,根據(jù)評(píng)價(jià)對(duì)象的本體概念和語(yǔ)義傾向使用啟發(fā)式規(guī)則選擇評(píng)價(jià)語(yǔ)句。姚天昉[4]使用領(lǐng)域本體抽取語(yǔ)句主題以及主題的屬性,使用句法分析確定語(yǔ)句中每個(gè)主題的極性。史樹(shù)敏[5]提出了一種基于領(lǐng)域本體的指代消解方法。馮淑芳等[6]建立了面向汽車評(píng)論意見(jiàn)挖掘的本體知識(shí)庫(kù),包括評(píng)價(jià)體系、詞匯知識(shí)庫(kù)以及概念關(guān)系。徐琳宏[7]介紹了大連理工大學(xué)信息檢索實(shí)驗(yàn)室的情感詞匯本體。

        3 問(wèn)題與挑戰(zhàn)

        在細(xì)粒度的意見(jiàn)挖掘中主要有以下問(wèn)題和挑戰(zhàn)。

        (1) 如何抽取用戶評(píng)價(jià)信息中的產(chǎn)品特征、評(píng)價(jià)詞及其搭配關(guān)系;

        (2) 情感詞的領(lǐng)域依賴性,例如,“機(jī)身圓滑(褒義)”,“他很圓滑(貶義)”;

        (3) 情感詞的上下文依賴性,如關(guān)于手機(jī)的評(píng)論中,“高”相對(duì)于“分辨率”來(lái)說(shuō)是褒義,而對(duì)于“耗電量”來(lái)說(shuō)卻是貶義的;

        (4) 評(píng)論對(duì)象的層次嵌套關(guān)系,例如,“屏幕”的子特征有“分辨率”與“顯示效果”。

        結(jié)合這些問(wèn)題與挑戰(zhàn),本文重點(diǎn)研究了評(píng)價(jià)搭配抽取算法、搭配傾向預(yù)測(cè)算法以及特征聚合算法,構(gòu)建情感本體樹(shù),并應(yīng)用于評(píng)論意見(jiàn)的挖掘之中。根據(jù)在線評(píng)論的特點(diǎn)文中研究的算法是基于統(tǒng)計(jì)與規(guī)則相結(jié)合的方法,并結(jié)合評(píng)論搭配模板進(jìn)行特征的抽取,相比于前人的研究方法保證了準(zhǔn)確率,提高了召回率,另外,基于多知識(shí)源融合的松弛標(biāo)記法很好地處理了情感詞的領(lǐng)域依賴性和上下文依賴性,這一點(diǎn)可以在后面的實(shí)驗(yàn)結(jié)果中得到體現(xiàn);另外,本文中研究的突破點(diǎn)在于基于本體模型構(gòu)建了一種樹(shù)形結(jié)構(gòu)的情感本體樹(shù),用于組織和反映產(chǎn)品特征、評(píng)價(jià)詞、特征與評(píng)價(jià)詞關(guān)聯(lián)關(guān)系(評(píng)價(jià)搭配)以及特征層次嵌套關(guān)系,并用于細(xì)粒度的意見(jiàn)挖掘。

        4 情感本體樹(shù)

        不同于一般意義的本體模型,本文關(guān)注的是產(chǎn)品與特征、特征與評(píng)價(jià)詞等概念間的關(guān)聯(lián)關(guān)系,因此,使用樹(shù)型結(jié)構(gòu)組織這些關(guān)系,稱之為情感本體樹(shù)(Sentiment Ontology Tree, SOT),其結(jié)構(gòu)如圖1所示。

        SOT定義為一個(gè)三元組SOT={C,RNTAX,RTAX},其中C表示概念的集合,對(duì)應(yīng)于SOT中的節(jié)點(diǎn),RNTAX表示一種無(wú)分類的關(guān)系集合,比如圖1中的關(guān)聯(lián)(associated)關(guān)系,RTAX表示一種分類關(guān)系的集合,比如圖1中的is-a、kind-of關(guān)系。在傾向性分析時(shí)關(guān)注的是RNTAX集合,也就是產(chǎn)品特征、評(píng)價(jià)詞、特征之間的層次關(guān)系以及與特征與評(píng)價(jià)詞的關(guān)聯(lián)關(guān)系。

        圖1 情感本體樹(shù)結(jié)構(gòu)

        SOT的自動(dòng)構(gòu)建過(guò)程如圖2所示,主要包括評(píng)價(jià)搭配抽取、搭配傾向預(yù)測(cè)和特征聚合三個(gè)部分。下文中分別討論每個(gè)部分的具體過(guò)程。

        圖2 SOT自動(dòng)構(gòu)建過(guò)程

        5 細(xì)粒度意見(jiàn)要素抽取算法

        本文抽取的細(xì)粒度意見(jiàn)要素包括產(chǎn)品特征、評(píng)價(jià)詞、特征與評(píng)價(jià)詞的關(guān)聯(lián)關(guān)系以及評(píng)價(jià)強(qiáng)度。

        5.1 基于先驗(yàn)知識(shí)的模板匹配算法

        本文提出一種統(tǒng)計(jì)和規(guī)則相結(jié)合的抽取算法——基于先驗(yàn)知識(shí)的模板匹配算法來(lái)進(jìn)行意見(jiàn)中的特征抽取。結(jié)合統(tǒng)計(jì)與規(guī)則方法的優(yōu)點(diǎn),使用統(tǒng)計(jì)方法獲取的高頻特征短語(yǔ)作為規(guī)則方法的先驗(yàn)知識(shí),在保證規(guī)則方法準(zhǔn)確率的同時(shí),提高抽取的召回率。

        5.1.1 基于統(tǒng)計(jì)的高頻特征短語(yǔ)抽取

        本文使用經(jīng)典的Apriori算法從評(píng)論集中挖掘高頻名詞和名詞短語(yǔ)作為候選特征。然而,并不是所有的高頻候選短語(yǔ)都是產(chǎn)品特征,本文引入三條規(guī)則過(guò)濾候選集。

        (1) 緊密度過(guò)濾

        假設(shè)f是一個(gè)候選短語(yǔ),它包含了n個(gè)詞,如果句子s包含f并且其中的n個(gè)詞的出現(xiàn)順序?yàn)閣1,w2,…,wn, 如果任意兩個(gè)相鄰詞wi和wi+1之間

        小于3個(gè)詞距離,且wi和wi+1之間只包括連詞和助詞,就認(rèn)為f在s中是緊密的;如果m個(gè)句子包含了f,而且f在其中至少兩個(gè)句子中是緊密的,就認(rèn)為f是緊密的。

        (2) 冗余過(guò)濾

        候選短語(yǔ)c的單純支持度定義為包含短語(yǔ)c同時(shí)不包含c的超集的語(yǔ)句數(shù)。凡是單純支持度小于3的候選短語(yǔ)都不是合格的候選特征。

        (3) 特殊字符過(guò)濾

        為了提高特征抽取的準(zhǔn)確率,本文總結(jié)了80個(gè)不能成為特征詞的特殊字符和詞語(yǔ),部分詞語(yǔ)如表1所示。

        表1 特殊字符舉例

        5.1.2 引入先驗(yàn)知識(shí)的評(píng)價(jià)搭配抽取模板

        引入高頻特征先驗(yàn)知識(shí)的評(píng)價(jià)搭配模板如表2所示。我們使用“asp”標(biāo)記統(tǒng)計(jì)方法獲取的高頻特征知識(shí),并將其加入到名詞短語(yǔ)的擴(kuò)展形式中,例如,“拍攝/v 效果/n”被標(biāo)記為“拍攝效果/asp”。

        基于先驗(yàn)知識(shí)的模板匹配算法流程如圖3所示。

        表2 評(píng)價(jià)搭配模板

        續(xù)表

        說(shuō)明:表中評(píng)價(jià)模式并不能概括所有的評(píng)價(jià)搭配,例如,“外觀、分辨率都很不錯(cuò)”這種情況就只能抽取出“分辨率很不錯(cuò)”,這就需要對(duì)語(yǔ)料庫(kù)進(jìn)行研究,進(jìn)而不斷補(bǔ)充評(píng)價(jià)模式。

        圖3 基于先驗(yàn)知識(shí)的模板匹配算法流程

        5.2 評(píng)價(jià)搭配傾向性預(yù)測(cè)算法

        對(duì)于抽取到的評(píng)價(jià)搭配,需要判斷其情感傾向(褒義、貶義、中性)以及極性強(qiáng)度。本節(jié)首先介紹一個(gè)弱監(jiān)督的傾向預(yù)測(cè)算法KC(Keyword Classifier,KC)[1]和無(wú)監(jiān)督的分類算法松弛標(biāo)記法(Relaxation Labeling, RL)。使用改進(jìn)的松弛標(biāo)記法,即基于多知識(shí)源融合的松弛標(biāo)記法,完成搭配傾向預(yù)測(cè)。

        5.2.1 KC算法

        KC算法根據(jù)評(píng)價(jià)搭配在褒義文本和貶義文本中出現(xiàn)的條件概率預(yù)測(cè)其傾向性,其中褒義文本和貶義文本由互聯(lián)網(wǎng)資源的自然標(biāo)注性判斷,如圖4所示。

        KC值的計(jì)算公式如式(1)(2)。

        圖4 來(lái)自泡泡網(wǎng)的用戶關(guān)于手機(jī)的評(píng)論

        5.2.2 基于多知識(shí)源融合的松弛標(biāo)記法

        本文根據(jù)KC算法的結(jié)果以及三個(gè)通用情感詞典對(duì)松弛標(biāo)記法進(jìn)行改進(jìn),即基于多知識(shí)源融合的松弛標(biāo)記法,主要改進(jìn)之處在RL初始化以及鄰居關(guān)系兩個(gè)地方。

        在每次迭代中,RL使用更新方程更新每個(gè)評(píng)價(jià)搭配的標(biāo)記概率。在第m次迭代中,使用q(t,L)(m)表示支持函數(shù),P(l(t)=L)(m)表示評(píng)價(jià)搭配t標(biāo)記為標(biāo)簽L∈{褒義,貶義,中性}的概率,P(l(t)=L)(m+1)表示更新之后的標(biāo)記概率值,則更新方程如式(3)所示。

        其中,L′∈{褒義,貶義,中性},α>0是一個(gè)用于控制迭代收斂速度的經(jīng)驗(yàn)值。

        對(duì)于一個(gè)評(píng)價(jià)搭配t,支持函數(shù)q(t,L)(m)計(jì)算第m次迭代中在t的鄰居集合N作用下標(biāo)記L的概率。使用Ak={(tj,Lj)|tj∈N},0

        假設(shè)t的各個(gè)鄰居的標(biāo)記相互獨(dú)立,式(4)可以寫(xiě)成式(5)。

        1) RL初始化

        RL初始化的工作是計(jì)算每個(gè)評(píng)價(jià)搭配的初始標(biāo)記概率,即P(l(t)=L)(0)。

        KC算法把評(píng)價(jià)搭配集合S分為三個(gè)部分: 褒義評(píng)價(jià)搭配集合Spos、貶義搭配集合Sneg和中性搭配集合Sneutral。

        對(duì)于Spos中的評(píng)價(jià)搭配:

        對(duì)于Sneg中的評(píng)價(jià)搭配:

        本文認(rèn)為Spos與Sneg集合中的標(biāo)記結(jié)果是準(zhǔn)確的,由式(3)可知,在后續(xù)的迭代過(guò)程中,Spos與Sneg中的評(píng)價(jià)搭配的標(biāo)記概率將保持不變。

        對(duì)于Sneutral中的評(píng)價(jià)搭配,使用的情感詞典包括《知網(wǎng)》情感詞典、臺(tái)灣大學(xué)的情感極性詞典以及一個(gè)網(wǎng)絡(luò)用語(yǔ)情感詞典。Sneutral中的評(píng)價(jià)搭配的初始標(biāo)記概率計(jì)算如下:

        若評(píng)價(jià)搭配的評(píng)價(jià)詞在情感詞典中,則:

        P(l(t)=L)(0)

        其中,P(l(t)=L)(0)的概率值0.8,0.1均是對(duì)應(yīng)的經(jīng)驗(yàn)值。

        若評(píng)價(jià)搭配的評(píng)價(jià)詞不在情感詞典中,則:

        其中,|·|表示集合元素?cái)?shù),表示Sneutral中評(píng)價(jià)詞在標(biāo)簽為L(zhǎng)的情感詞典中的元素集合。

        2) 鄰居關(guān)系

        本文定義評(píng)價(jià)搭配之間的鄰居關(guān)系如下。

        (1) 并列關(guān)系

        “(拍照效果)其實(shí)挺好的,而且(電池)在安卓機(jī)中算是很耐用的了?!?/p>

        其中,<拍照效果,好>和<電池,耐用>之間是并列關(guān)系,所以可以認(rèn)為它們有相同的情感傾向;

        (2) 轉(zhuǎn)折關(guān)系

        “(配置)不高,但是(系統(tǒng))流暢”

        其中,<配置,不高>和<系統(tǒng),流暢>之間是轉(zhuǎn)折關(guān)系,所以可以認(rèn)為它們有相反的情感傾向;

        (3) 鄰近關(guān)系

        如果兩個(gè)相鄰的評(píng)價(jià)搭配即不屬于并列關(guān)系,也不屬于轉(zhuǎn)折關(guān)系,稱二者之間的關(guān)系為鄰近關(guān)系。具有鄰近關(guān)系的評(píng)價(jià)搭配很有可能有相同的情感傾向,例如,

        “(上網(wǎng))很不錯(cuò)。(電池)也很好,物流也很給力?!?/p>

        (4) 相似關(guān)系

        產(chǎn)品特征關(guān)系: 本文使用編輯距離[8]計(jì)算產(chǎn)品特征間的相似度,如果相似度大于閾值,則是相似的;

        評(píng)價(jià)詞關(guān)系: 根據(jù)《知網(wǎng)》語(yǔ)義相似度[8]判斷評(píng)價(jià)詞之間的相似關(guān)系。

        “(拍照效果)很好” vs “(顯示效果)不錯(cuò)”

        兩個(gè)評(píng)價(jià)搭配之間的相似關(guān)系由對(duì)應(yīng)產(chǎn)品特征之間的關(guān)系和評(píng)價(jià)詞之間的關(guān)系共同決定。在上面的例子中,通過(guò)編輯距離計(jì)算相似度判定 “拍照效果”與“顯示效果”是相似的,而“好”與“不錯(cuò)”通過(guò)知網(wǎng)相似度計(jì)算判定為相似關(guān)系,則兩個(gè)評(píng)價(jià)搭配就是相似的。在兩個(gè)評(píng)價(jià)搭配中產(chǎn)品特征相似的情況下,評(píng)價(jià)搭配之間的關(guān)系與評(píng)價(jià)詞之間的關(guān)系一致。

        使用T表示關(guān)系集R中的一種關(guān)系類型,即T∈R,NT表示通過(guò)關(guān)系T與t相連的鄰居集合。Ak,T表示NT中元素的一個(gè)標(biāo)記序列,則Ak=UTAk,T。P(l(t)=L|Ak)(m)表示為式(10)。

        對(duì)于每一種關(guān)系T,定義特征函數(shù)fT(t,L,Ak,T)表示P(l(t)=L|Ak,T),式(10)演化為式(11)。

        假設(shè)NT中各元素的標(biāo)記在給定l(t)的情況下相互獨(dú)立,根據(jù)貝葉斯法則,在第m次迭代中特征函數(shù)如式(13)所示。

        fT(t,L,Ak,T)(m)

        其中,P(Lj|l(t)=L)表示,如果tj與t通過(guò)關(guān)系T連接,且t的標(biāo)記為L(zhǎng)的情況下tj的標(biāo)記為L(zhǎng)j的概率。本文假設(shè)這個(gè)概率值只與T、L和Lj有關(guān),而與評(píng)價(jià)搭配tj和t無(wú)關(guān)。對(duì)于三元組(T,L,Lj)(L,Lj∈{褒義,貶義,中性}),本文定義了狀態(tài)轉(zhuǎn)移矩陣表示其狀態(tài)轉(zhuǎn)移關(guān)系。表3列出了并列關(guān)系下的轉(zhuǎn)移矩陣, 基于多知識(shí)源融合的松馳標(biāo)記法流程如圖5所示。

        表3 并列關(guān)系狀態(tài)轉(zhuǎn)移矩陣

        圖5 基于多知識(shí)源融合的松弛標(biāo)記法流程圖

        6 特征聚合算法

        情感本體樹(shù)中的特征分兩層: Feature層和Subfeature層。特征聚合的目的是完成二者之間的層次關(guān)系構(gòu)建,即將待征f分類到Feature層特征集I={i}的過(guò)程。有一類在線評(píng)論,其中用戶對(duì)產(chǎn)品的特征分別作出評(píng)價(jià),如圖6所示。利用這種自然標(biāo)注性,可以使用KC算法分類特征。

        圖6 來(lái)自IT168的用戶關(guān)于手機(jī)的評(píng)論

        對(duì)于不存在于語(yǔ)料庫(kù)中的特征,我們使用PMI(Pointwise Mutual Information)算法進(jìn)行分類,如式(15)至(16)。

        特征聚合算法的流程如圖7所示。

        圖7 特征聚合算法流程圖

        7 實(shí)驗(yàn)結(jié)果與分析

        本實(shí)驗(yàn)使用COAE2011任務(wù)3的評(píng)測(cè)數(shù)據(jù)集,并且采用相同的評(píng)價(jià)方式。任務(wù)3的數(shù)據(jù)集包括電子產(chǎn)品、影視娛樂(lè)、金融證券三個(gè)領(lǐng)域各2 000篇在線評(píng)論文本。評(píng)價(jià)指標(biāo)有準(zhǔn)確率、召回率、F1,以及對(duì)應(yīng)的宏平均指標(biāo),其中F1是首要指標(biāo)。

        實(shí)驗(yàn)采用一個(gè)基于規(guī)則與統(tǒng)計(jì)的算法Moghaddam(2010)[9],以及COAE2011中在相應(yīng)任務(wù)中取得最好結(jié)果的算法(COAE2011 best)與本文算法進(jìn)行對(duì)比。COAE2011分兩個(gè)部分展示了任務(wù)3的實(shí)驗(yàn)結(jié)果: 第一是特征和評(píng)價(jià)詞抽取實(shí)驗(yàn);第二是搭配關(guān)系抽取與傾向性預(yù)測(cè)實(shí)驗(yàn)。本文中的基于先驗(yàn)知識(shí)的模板匹配方法完成評(píng)價(jià)搭配的抽取,基于多知識(shí)源融合的松弛標(biāo)記法完成評(píng)價(jià)搭配傾向預(yù)測(cè)。為了與COAE2011統(tǒng)一,本文將實(shí)驗(yàn)結(jié)果分成同樣兩個(gè)部分展示,在下文的描述中使用“本文算法”指代以上兩個(gè)算法。另外,基于先驗(yàn)知識(shí)的模板匹配方法有基于規(guī)則與基于統(tǒng)計(jì)和規(guī)則相結(jié)合兩個(gè)版本,下文中如無(wú)特別指出,“本文算法”均指基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法。

        7.1 在線評(píng)論語(yǔ)料庫(kù)

        語(yǔ)料庫(kù)包括來(lái)自手機(jī)之家、泡泡網(wǎng)、中關(guān)村手機(jī)頻道、手機(jī)中國(guó)、IT168中網(wǎng)友關(guān)于手機(jī)的評(píng)論文本21 530篇(褒義和貶義文本各占一半),以及來(lái)自新浪、網(wǎng)易等門(mén)戶網(wǎng)站的手機(jī)評(píng)測(cè)文章51 228篇。

        使用本文算法從語(yǔ)料庫(kù)中抽取了1 912個(gè)特征短語(yǔ)、858個(gè)評(píng)價(jià)詞、4 054個(gè)<特征,評(píng)價(jià)詞>關(guān)聯(lián)關(guān)系(3 434個(gè)褒義搭配、620個(gè)貶義搭配),通過(guò)特征聚合算法完成特征層次關(guān)系構(gòu)建,并將以上知識(shí)以情感本體樹(shù)的形式保存。在處理實(shí)驗(yàn)文本的過(guò)程中,如果發(fā)現(xiàn)特征與評(píng)價(jià)詞存在近鄰關(guān)系并在知識(shí)庫(kù)中有搭配關(guān)系,則抽取評(píng)價(jià)搭配。另外,領(lǐng)域情感知識(shí)庫(kù)也為基于多知識(shí)源融合的松弛標(biāo)記法提供了重要的領(lǐng)域知識(shí)。

        7.2 特征和評(píng)價(jià)詞抽取實(shí)驗(yàn)

        實(shí)驗(yàn)結(jié)果如表4~7所示。

        表4 特征抽取結(jié)果

        7.3 評(píng)價(jià)搭配抽取與傾向性預(yù)測(cè)實(shí)驗(yàn)

        實(shí)驗(yàn)結(jié)果如表8、表9所示。

        表5 特征抽取宏平均結(jié)果

        表6 評(píng)價(jià)詞抽取結(jié)果

        表7 評(píng)價(jià)詞抽取宏平均結(jié)果

        表8 評(píng)價(jià)搭配抽取、搭配傾向預(yù)測(cè)實(shí)驗(yàn)結(jié)果

        表9 評(píng)價(jià)搭配抽取、搭配傾向預(yù)測(cè)宏平均結(jié)果

        7.4 實(shí)驗(yàn)結(jié)果分析

        從表4、表6、表8可以看到,本文算法表現(xiàn)明顯優(yōu)于Moghaddam(2010)和COAE2011的算法。由于Moghaddam(2010)只統(tǒng)計(jì)了特征短語(yǔ)的規(guī)則,使用鄰近特征的形容詞作為評(píng)價(jià)詞,而且是應(yīng)用于英文文本的,所以效果最差。在電子產(chǎn)品領(lǐng)域,本文算法的兩個(gè)版本中,基于統(tǒng)計(jì)和規(guī)則結(jié)合的方法比只使用規(guī)則的方法的特征抽取結(jié)果的F1高出將近1個(gè)百分點(diǎn),證明了基于先驗(yàn)知識(shí)的模板匹配算法的有效性。COAE2011評(píng)測(cè)以宏平均作為主要指標(biāo),表5、表7、表9列出的宏平均也表明本文算法的效果明顯。

        在電子產(chǎn)品領(lǐng)域上本文算法表現(xiàn)最好,在影視娛樂(lè)和金融證券領(lǐng)域,雖然本文算法的F1值高于COAE2011 best,但是算法準(zhǔn)確率卻略低于后者。這主要是因?yàn)楸疚氖褂玫脑诰€評(píng)論語(yǔ)料庫(kù)是由手機(jī)評(píng)論文本組成的,與影視娛樂(lè)和金融證券領(lǐng)域差別較大。

        8 總結(jié)

        本文定義了一種應(yīng)用于細(xì)粒度意見(jiàn)挖掘的情感本體樹(shù),并提出其自動(dòng)構(gòu)建方法。在細(xì)粒度意見(jiàn)要素抽取上,通過(guò)分析基于統(tǒng)計(jì)和基于規(guī)則方法的優(yōu)缺點(diǎn),提出基于先驗(yàn)知識(shí)的模板匹配算法抽取評(píng)價(jià)搭配;使用改進(jìn)的松弛標(biāo)記法——基于多知識(shí)源的松弛標(biāo)記法預(yù)測(cè)搭配傾向性。在COAE2011評(píng)測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)證明了本文算法的有效性,同時(shí)說(shuō)明了領(lǐng)域情感知識(shí)對(duì)細(xì)粒度意見(jiàn)挖掘的重要作用,也證明了解決評(píng)價(jià)詞的領(lǐng)域依賴性是十分必要的。

        [1] Lau R Y K, Lai C C L, Ma J, et al. Automatic domain ontology extraction for context-sensitive opinion mining[J]. Proceedings of ICIS 2009, 2009: 35-53.

        [2] Wei W, Gulla J A. Sentiment learning on product reviews via sentiment ontology tree[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 404-413.

        [3] Cheng X. Automatic topic term detection and sentiment classification for opinion mining[D]. Master Thesis. Saarbrücken, Germany: The University of Saarland, 2007.

        [4] 姚天昉, 聶青陽(yáng), 李建超, 等. 一個(gè)用于漢語(yǔ)汽車評(píng)論的意見(jiàn)挖掘系統(tǒng) [C]//中文信息處理前沿進(jìn)展-中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集. 北京: 清華大學(xué)出版社, 2006: 260-281.

        [5] 史樹(shù)敏, 黃河燕. 基于領(lǐng)域本體的指代消解策略研究 (英文)[C]//中國(guó)計(jì)算技術(shù)與語(yǔ)言問(wèn)題研究——第七屆中文信息處理國(guó)際會(huì)議論文集. 2007.

        [6] 馮淑芳, 王素格. 面向觀點(diǎn)挖掘的汽車評(píng)價(jià)本體知識(shí)庫(kù)的構(gòu)建[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2011,(5): 45-48.

        [7] 徐琳宏, 林鴻飛, 潘宇, 等. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2):180-185.

        [8] 劉群, 李素建. 基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J]. 中文計(jì)算語(yǔ)言學(xué), 2002, 7(2): 59-76.

        [9] Moghaddam S, Ester M. Opinion digger: an unsupervised opinion miner from unstructured product reviews[C]//Proceedings of the 19th ACM international conference on Information and knowledge management. ACM, 2010: 1825-1828.

        猜你喜歡
        褒義細(xì)粒度本體
        “明目張膽”原是褒義
        Abstracts and Key Words
        融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
        細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
        對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
        基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
        支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        “點(diǎn)”的覺(jué)醒
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        免费无遮挡无码永久视频| bbbbbxxxxx欧美性| 日本一区二三区在线中文| 美女视频在线观看亚洲色图| 午夜精品久久久久久毛片| 国内精品一区二区三区| 丰满少妇人妻无码超清| 久久老熟女一区二区三区福利| 高潮抽搐潮喷毛片在线播放| 欧美性大战久久久久久久| 亚洲va欧美va人人爽夜夜嗨| av国产自拍在线观看| 婷婷综合另类小说色区| 亚洲欧美日韩综合久久久| 亚洲国产日韩欧美高清片a| 国产一区二区三区不卡视频| 国产欧美成人一区二区a片| 人妻av一区二区三区精品| 国产日产亚洲系列av| 亚洲av毛片在线免费看| 国产精品理论片| 国产视频导航| 中文字幕一区二区三在线| 文字幕精品一区二区三区老狼| 精品国产一区av天美传媒| 小12箩利洗澡无码视频网站| 亚洲综合中文一区二区| 麻豆国产精品va在线观看不卡| 亚洲av无码男人的天堂在线| 国产精品毛片99久久久久| 国产一区二区av免费观看| 免费无码又黄又爽又刺激| 在线人妻无码一区二区| 国产女主播大秀在线观看| 色综合久久久无码中文字幕| 久久精品国产亚洲av高清色欲| 亚洲av国产大片在线观看| 懂色av一区二区三区尤物 | av草草久久久久久久久久久 | 熟女人妻一区二区三区| 久久天天躁狠狠躁夜夜躁2014|