亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于三層過(guò)濾的評(píng)價(jià)對(duì)象抽取

        2016-12-19 02:59:21牛振東劉沙
        關(guān)鍵詞:置信度關(guān)聯(lián)度關(guān)聯(lián)

        牛振東, 劉沙

        (1.北京理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,北京 100081;2.北京市海量語(yǔ)言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心,北京 100081)

        ?

        基于三層過(guò)濾的評(píng)價(jià)對(duì)象抽取

        牛振東1,2, 劉沙1

        (1.北京理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,北京 100081;2.北京市海量語(yǔ)言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心,北京 100081)

        針對(duì)互聯(lián)網(wǎng)中的產(chǎn)品評(píng)論信息,提出一種三層過(guò)濾的評(píng)價(jià)對(duì)象抽取方法. 該方法采用一個(gè)自舉式的抽取算法在評(píng)論文本中得到候選的評(píng)價(jià)對(duì)象和情感詞;利用評(píng)價(jià)對(duì)象與情感詞之間的關(guān)聯(lián)度對(duì)候選詞進(jìn)行關(guān)聯(lián)置信度計(jì)算,提取關(guān)聯(lián)置信度高的評(píng)價(jià)對(duì)象以提高識(shí)別的準(zhǔn)確率;引入一個(gè)不相關(guān)的平行領(lǐng)域?qū)κS嗟暮蜻x詞進(jìn)行領(lǐng)域置信度計(jì)算,挖掘低頻的評(píng)價(jià)對(duì)象. 3個(gè)公開(kāi)數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果表明該方法能夠顯著地提高評(píng)價(jià)對(duì)象的識(shí)別效果.

        評(píng)價(jià)對(duì)象抽?。磺楦性~;關(guān)聯(lián)置信度;領(lǐng)域置信度

        評(píng)價(jià)對(duì)象抽取旨在識(shí)別評(píng)論句中的目標(biāo)實(shí)體,是意見(jiàn)挖掘任務(wù)中的熱點(diǎn)問(wèn)題[1-3]. 評(píng)價(jià)對(duì)象是指一個(gè)評(píng)論句中描述的產(chǎn)品屬性或者組成部分,情感詞是用來(lái)修飾評(píng)價(jià)對(duì)象,并且能夠表達(dá)一定情感傾向的詞. 評(píng)價(jià)對(duì)象和情感詞在評(píng)論文本的情感判定、摘要生成等任務(wù)中起著至關(guān)重要的作用.

        很多研究者利用評(píng)價(jià)對(duì)象經(jīng)常存在的語(yǔ)法句式作為模板在評(píng)論句中抽取評(píng)價(jià)對(duì)象[2-4]. 然而,互聯(lián)網(wǎng)中的真實(shí)數(shù)據(jù)內(nèi)容不規(guī)范,存在大量的語(yǔ)法錯(cuò)誤,簡(jiǎn)單的句法結(jié)構(gòu)不能很好地界定評(píng)價(jià)對(duì)象. Bo Wang[5]和Hai Zheng等[6]根據(jù)評(píng)價(jià)對(duì)象以及情感詞在評(píng)論文本中的分布特征作為關(guān)聯(lián)度,用已識(shí)別的詞來(lái)抽取未識(shí)別詞. 基于統(tǒng)計(jì)的方法在識(shí)別高頻詞的同時(shí)也引入了大量的噪音詞匯,準(zhǔn)確率較差. 為了改善這種情況,Lei Zhang[3],Liheng Xu[7]和Kang Liu等[8]通過(guò)置信度計(jì)算,剔除了一部分噪音,但這些方法依然無(wú)法有效識(shí)別頻率較低的評(píng)價(jià)對(duì)象.

        綜上所述,規(guī)則的方法因?yàn)樵u(píng)論句語(yǔ)法的隨意性導(dǎo)致識(shí)別的準(zhǔn)確率和召回率較低,而統(tǒng)計(jì)的方法在低頻詞中的識(shí)別效果較差. 單一的特征和方法無(wú)法有效地解決評(píng)價(jià)對(duì)象抽取任務(wù),因此,本文綜合考慮評(píng)論文本的句法特征、評(píng)價(jià)對(duì)象和情感詞的分布特征和關(guān)聯(lián)特征、評(píng)價(jià)對(duì)象的領(lǐng)域性特征等,采用3層過(guò)濾的方法逐步將評(píng)價(jià)對(duì)象從評(píng)論文本的其它詞中分離出來(lái).

        多種特征和方法的結(jié)合使用能夠彌補(bǔ)單一方法的缺陷,增強(qiáng)評(píng)價(jià)對(duì)象與其它詞的區(qū)分效果. 在第1層過(guò)濾中,將規(guī)則的方法與統(tǒng)計(jì)的方法綜合起來(lái),既利用特定的依存關(guān)系句型來(lái)識(shí)別評(píng)價(jià)對(duì)象,也采用了評(píng)價(jià)對(duì)象與情感詞的分布特征來(lái)抽取語(yǔ)法不規(guī)范的評(píng)論句中的評(píng)價(jià)對(duì)象;在第2層過(guò)濾中,根據(jù)評(píng)價(jià)對(duì)象與情感詞的關(guān)聯(lián)度,利用PageRank算法對(duì)抽取的候選詞集合進(jìn)行關(guān)聯(lián)置信度計(jì)算,只保留那些關(guān)聯(lián)置信度較高的評(píng)價(jià)對(duì)象以提高識(shí)別的準(zhǔn)確率;在第3層過(guò)濾中,通過(guò)一個(gè)平行領(lǐng)域?qū)κS嗟暮蜻x詞進(jìn)行領(lǐng)域置信度計(jì)算,挖掘那些頻率低但有很強(qiáng)領(lǐng)域性特征的評(píng)價(jià)對(duì)象.

        1 3層過(guò)濾的評(píng)價(jià)對(duì)象抽取

        1.1 自舉式的評(píng)價(jià)對(duì)象與情感詞抽取

        自舉式的抽取過(guò)程利用幾個(gè)評(píng)價(jià)對(duì)象種子詞在評(píng)論文本中不斷地抽取新的評(píng)價(jià)對(duì)象和情感詞. 本文采用評(píng)價(jià)對(duì)象之間的關(guān)聯(lián)關(guān)系和評(píng)價(jià)對(duì)象與情感詞之間的關(guān)聯(lián)關(guān)系作為已識(shí)別詞與未識(shí)別詞之間的關(guān)聯(lián)依據(jù). 當(dāng)評(píng)論篇章或句子中兩個(gè)詞之間的關(guān)聯(lián)關(guān)系滿足設(shè)定的規(guī)則,并且其中一個(gè)詞是已識(shí)別的詞,那么另一個(gè)詞將會(huì)被抽取. 算法的具體執(zhí)行步驟如下所示.

        ① 定義評(píng)論文本集合為C,評(píng)論文本中所有的名詞和名詞詞組作為待選評(píng)價(jià)對(duì)象集合TC、所有的形容詞作為待選情感詞集合OC,評(píng)價(jià)對(duì)象種子集合為S,算法最終要得到的評(píng)價(jià)對(duì)象集合T以及情感詞集合O. 初始時(shí),T←S,O← ?.

        ② 遍歷C中的每一個(gè)句子,如果當(dāng)前句子中的兩個(gè)名詞的依存關(guān)系屬于規(guī)則集R中的依存類(lèi)型,并且其中一個(gè)名詞已存在于集合T中,那么將另一個(gè)名詞添加到T(如果這個(gè)名詞不存在于T中),同時(shí)在TC中移除該名詞.

        ③ 遍歷OC中每一個(gè)詞,如果當(dāng)前詞w與T中任意一個(gè)評(píng)價(jià)對(duì)象之間的關(guān)聯(lián)度A超過(guò)閾值lto,那么將w加入到O(如果w不存在于O中),同時(shí)在OC中移除詞w.

        ④ 遍歷TC中每一個(gè)詞,如果當(dāng)前詞w與O中任意一個(gè)情感詞之間的關(guān)聯(lián)度A超過(guò)閾值lto,那么將w加入到T(如果w不存在于T中),同時(shí)在TC中移除詞w.

        ⑤ 如果本次迭代后,沒(méi)有新的詞加入到T或O中,那么算法停止,否則跳轉(zhuǎn)到步驟②.

        在評(píng)價(jià)對(duì)象之間的關(guān)聯(lián)關(guān)系度量中,利用Guang Qiu[2]等制定的名詞之間的并列依存關(guān)系R31與R32作為評(píng)價(jià)對(duì)象抽取的規(guī)則集R.R31是直接并列關(guān)系,在一個(gè)句子中,如果兩個(gè)名詞存在如“conj”等的并列關(guān)系,那么稱這兩個(gè)名詞滿足R31.R32是間接并列關(guān)系,在一個(gè)句子中,如果兩個(gè)名詞分別與同一個(gè)詞有依存關(guān)系,并且這兩種依存類(lèi)型相同,那么稱這兩個(gè)詞滿足R32.

        在評(píng)價(jià)對(duì)象和情感詞之間的關(guān)聯(lián)關(guān)系度量中,采用似然測(cè)試比(LRT)來(lái)表示評(píng)價(jià)對(duì)象與情感詞之間的關(guān)聯(lián)度A. 似然測(cè)試比(LRT)是一種基于二項(xiàng)分布的關(guān)聯(lián)模型[6],具體定義如式(1)所示.

        (1)

        式中:

        L(a,b,p)=alg p+blg(1-p);

        p1=k1/(k1+k3);p2=k2/(k2+k4);

        p0=(k1+k3)/(k1+k2+k3+k4);

        k1代表兩個(gè)詞w1和w2在評(píng)論文本中共同出現(xiàn)的篇章數(shù);k2=fr(w1)-k1;k3=fr(w2)-k1,fr(w)表示詞w在評(píng)論文本中出現(xiàn)的篇章數(shù);k4=N-k1-k2-k3;N為評(píng)論文本總的篇章數(shù). 似然測(cè)試比越大證明兩個(gè)詞的關(guān)聯(lián)度越高.k2k3

        1.2 關(guān)聯(lián)置信度計(jì)算

        通過(guò)自舉式的評(píng)價(jià)對(duì)象和情感詞抽取,得到了評(píng)價(jià)對(duì)象集合T和情感詞集合O作為候選詞集合. 為了在候選詞集合中挖掘出更加準(zhǔn)確的評(píng)價(jià)對(duì)象,本節(jié)對(duì)候選詞進(jìn)行關(guān)聯(lián)置信度計(jì)算,選擇關(guān)聯(lián)置信度高的詞作為最終的評(píng)價(jià)對(duì)象. 關(guān)聯(lián)置信度由評(píng)價(jià)對(duì)象與情感詞之間的關(guān)聯(lián)度通過(guò)傳播而累積形成的用于描述評(píng)價(jià)對(duì)象和情感詞真實(shí)性的分?jǐn)?shù). 本文借鑒PageRank[9]的思想來(lái)計(jì)算評(píng)價(jià)對(duì)象與情感詞的關(guān)聯(lián)置信度.

        首先對(duì)抽取的候選評(píng)價(jià)對(duì)象集合T和候選情感詞集合O進(jìn)行建模,構(gòu)建一個(gè)帶有權(quán)重的連接圖G=(V,E,W). 節(jié)點(diǎn)集合V包含評(píng)價(jià)對(duì)象和情感詞節(jié)點(diǎn),邊集合E包含評(píng)價(jià)對(duì)象和情感詞之間的關(guān)聯(lián)關(guān)系,W表示關(guān)聯(lián)關(guān)系的權(quán)重,如圖1所示.

        評(píng)價(jià)對(duì)象和情感詞實(shí)體內(nèi)的分?jǐn)?shù)是關(guān)聯(lián)置信度,每個(gè)詞的出度邊權(quán)重是該詞與被連接詞之間的關(guān)聯(lián)度在該詞與所有詞關(guān)聯(lián)度中占有的份額. 每個(gè)詞的出度邊權(quán)重之和為1. 本文不考慮評(píng)價(jià)對(duì)象之間的關(guān)聯(lián)度以及情感詞之間的關(guān)聯(lián)度,因此,任何兩個(gè)評(píng)價(jià)對(duì)象以及任意兩個(gè)情感詞之間沒(méi)有邊存在.

        根據(jù)評(píng)價(jià)對(duì)象與情感詞的連接圖,構(gòu)建候選詞鄰接矩陣H,如式(2)所示.

        (2)

        Eto是評(píng)價(jià)對(duì)象與情感詞的關(guān)聯(lián)矩陣,每一個(gè)元素用[Eto]ij來(lái)表示,通過(guò)式(3)計(jì)算為

        (3)

        式中:LRT(w1,w2)為兩個(gè)詞之間的測(cè)試似然比值;ti為T(mén)中第i評(píng)價(jià)對(duì)象;oj為O中第j個(gè)情感詞.

        Eot是情感詞與評(píng)價(jià)對(duì)象的關(guān)聯(lián)矩陣,每一個(gè)元素用[Eot]ij來(lái)表示,通過(guò)式(4)計(jì)算為

        (4)

        定義評(píng)價(jià)對(duì)象和情感詞的關(guān)聯(lián)置信度矩陣I,如式(5)所示為

        (5)

        其中c(w)是詞w的關(guān)聯(lián)置信度. 每一個(gè)評(píng)價(jià)對(duì)象和情感詞的初始關(guān)聯(lián)置信度為1,

        I=[1 1 … 1].

        這里采用迭代法對(duì)關(guān)聯(lián)置信度矩陣進(jìn)行更新,迭代過(guò)程如式(6)所示.

        Ik+1=HIk.

        (6)

        算法收斂后,得到了每一個(gè)評(píng)價(jià)對(duì)象和情感詞的關(guān)聯(lián)置信度c(w),然后對(duì)評(píng)價(jià)對(duì)象按照關(guān)聯(lián)置信度進(jìn)行排序,選擇前k1個(gè)關(guān)聯(lián)置信度最大的詞作為最終評(píng)價(jià)對(duì)象.

        1.3 領(lǐng)域置信度計(jì)算

        在1.2節(jié)中,通過(guò)計(jì)算每一個(gè)評(píng)價(jià)對(duì)象的關(guān)聯(lián)置信度,選擇前k1個(gè)排名最高的詞添加到最終的評(píng)價(jià)對(duì)象集合. 然而,在剩下關(guān)聯(lián)置信度較低的候選詞集合中,仍然存在一部分真實(shí)的評(píng)價(jià)對(duì)象因?yàn)槌霈F(xiàn)頻率低等原因沒(méi)有能夠得到高的關(guān)聯(lián)置信度,從而被遺留在候選集合中. 為了有效挖掘這些低頻的評(píng)價(jià)對(duì)象,本節(jié)引入領(lǐng)域置信度的概念,通過(guò)一個(gè)平行領(lǐng)域作為參照,對(duì)剩余的候選評(píng)價(jià)對(duì)象計(jì)算領(lǐng)域置信度,再抽取排名最高的前k2個(gè)評(píng)價(jià)對(duì)象.

        在相似度較小的兩個(gè)領(lǐng)域中,產(chǎn)品的特征屬性往往不同. 如表1所示,“screen protector”、“earbud”等詞雖然在MP3領(lǐng)域中出現(xiàn)頻率不高,但相對(duì)Car領(lǐng)域而言差別顯著,這種領(lǐng)域?qū)S性~更可能是評(píng)價(jià)對(duì)象.

        表1 評(píng)價(jià)對(duì)象在不同領(lǐng)域中的分布頻率

        Tab.1 Distribution frequency of opinion targets in different domains

        評(píng)價(jià)對(duì)象MP3領(lǐng)域Car領(lǐng)域style17881648screenprotector8810earbud504

        頻繁共現(xiàn)熵[10]用來(lái)表達(dá)一個(gè)詞在兩個(gè)領(lǐng)域的分布情況,如式(7)所示.

        (7)

        式中:Ps(w)與Pt(w)分別代表詞語(yǔ)w在本領(lǐng)域與目標(biāo)領(lǐng)域中的分布概率,在本文中,采用分布頻率來(lái)表示分布概率;α和β是平滑因子,為了防止出現(xiàn)0值的情況.

        頻繁共現(xiàn)熵f(w)的值越大,說(shuō)明一個(gè)詞w在兩個(gè)領(lǐng)域中出現(xiàn)得越平均. 領(lǐng)域度是用來(lái)衡量一個(gè)詞在本領(lǐng)域的獨(dú)特性. 一個(gè)詞的領(lǐng)域度越大,則頻繁共現(xiàn)熵越小. 一個(gè)詞w的領(lǐng)域度函數(shù)d(w)計(jì)算如式(8)所示為

        (8)

        領(lǐng)域置信度綜合考慮評(píng)價(jià)對(duì)象與情感詞的關(guān)聯(lián)置信度及評(píng)價(jià)對(duì)象本身的領(lǐng)域度兩個(gè)因素,如式(9)所示.

        (9)

        式中:c′(w)為詞w的領(lǐng)域置信度;c(w)為詞w的關(guān)聯(lián)置信度;λ為權(quán)重因子,當(dāng)λ=1時(shí),即不考慮領(lǐng)域度因素的影響,而當(dāng)λ=0時(shí),即只考慮領(lǐng)域度因素,而不考慮該詞在本領(lǐng)域中與情感詞之間的關(guān)聯(lián)關(guān)系.

        根據(jù)領(lǐng)域置信度對(duì)剩余的候選評(píng)價(jià)對(duì)象重新排序,最終再選擇排名最高的k2個(gè)評(píng)價(jià)對(duì)象補(bǔ)充到最終的評(píng)價(jià)對(duì)象集合中.

        2 實(shí)驗(yàn)數(shù)據(jù)及評(píng)測(cè)標(biāo)準(zhǔn)

        實(shí)驗(yàn)數(shù)據(jù)采用3個(gè)公開(kāi)領(lǐng)域的數(shù)據(jù)集,這些數(shù)據(jù)分別是從amazon、tripadvisor等網(wǎng)站中爬取的真實(shí)數(shù)據(jù),包含MP3和Hotel*http://sifaka.cs.uiuc.edu/~wang296/Data/index.html領(lǐng)域數(shù)據(jù)集以及Car*http://www.kavita-ganesan.com/entity-ranking-data領(lǐng)域數(shù)據(jù)集. 在實(shí)驗(yàn)中,首先利用OpenNLP*http://opennlp.apache.org/cgi-bin/download.cgi工具對(duì)每一個(gè)評(píng)論文本進(jìn)行分句;其次,采用Standford NLP*http://nlp.stanford.edu/software/corenlp.shtml工具對(duì)每個(gè)評(píng)論句子進(jìn)行分詞,詞性標(biāo)注,詞干化處理以及依存句法分析. 對(duì)于名詞詞組的識(shí)別問(wèn)題,采用C-value[11]方法來(lái)抽取名詞詞組. 數(shù)據(jù)集規(guī)模如表2所示.

        表2 數(shù)據(jù)集統(tǒng)計(jì)

        本實(shí)驗(yàn)利用準(zhǔn)確率(P),召回率(R)和F1值(F)3個(gè)指標(biāo)來(lái)評(píng)測(cè)實(shí)驗(yàn)結(jié)果.

        3 實(shí)驗(yàn)結(jié)果分析

        3.1 對(duì)比實(shí)驗(yàn)

        采用3個(gè)非監(jiān)督的評(píng)價(jià)對(duì)象抽取方法作為對(duì)比. Hu[1]通過(guò)Apriori算法找尋最頻繁項(xiàng),是一種基于統(tǒng)計(jì)頻率的方法. DP[2]是一種雙向傳播算法,利用制定的依存規(guī)則抽取評(píng)價(jià)對(duì)象. Boot[6]是一種自舉式的方法,利用LRT和LSA作為評(píng)價(jià)對(duì)象與情感詞之間的關(guān)聯(lián)度抽取評(píng)價(jià)對(duì)象. F3L是本文方法.

        實(shí)驗(yàn)結(jié)果如表3所示. 基于規(guī)則的方法DP準(zhǔn)確率較高,這是因?yàn)镈P定義的規(guī)則和模式比較嚴(yán)格,滿足這種規(guī)則的評(píng)價(jià)對(duì)象真實(shí)性比較強(qiáng). 然而,評(píng)論文本內(nèi)容隨意,語(yǔ)法不規(guī)范,因此DP的方法召回率較低. 相對(duì)而言,Hu和Boot的方法抽取頻繁的評(píng)價(jià)對(duì)象得到了較高的召回率,但是因?yàn)槿狈ο闰?yàn)知識(shí)導(dǎo)致準(zhǔn)確率較低. 這個(gè)觀察也證明了本文將統(tǒng)計(jì)和規(guī)則的方法結(jié)合起來(lái)的必要性.

        表3 不同的抽取方法的實(shí)驗(yàn)結(jié)果

        自舉式方法Boot取得了高召回率,但是準(zhǔn)確率仍然較低,這是因?yàn)樵谧耘e式方法中,一些錯(cuò)誤的識(shí)別詞會(huì)影響到后面的執(zhí)行過(guò)程,這種錯(cuò)誤會(huì)隨著迭代的進(jìn)行進(jìn)一步擴(kuò)大. 本文方法相對(duì)于Boot而言首先增加了關(guān)聯(lián)置信度計(jì)算的步驟,衡量了每一個(gè)候選詞作為評(píng)價(jià)對(duì)象的可能性,并且選擇關(guān)聯(lián)置信度最高的詞作為最終的評(píng)價(jià)對(duì)象,抽取準(zhǔn)確率顯著提高.

        其次,在召回率方面,本文提出的領(lǐng)域置信度計(jì)算方法挖掘出頻率較低,但是領(lǐng)域性較強(qiáng)的評(píng)價(jià)對(duì)象,從而提高了評(píng)價(jià)對(duì)象抽取的召回率.

        本文方法對(duì)比Hu、DP、Boot的方法在準(zhǔn)確率、召回率和F1值的評(píng)測(cè)結(jié)果上均有明顯優(yōu)勢(shì),從而驗(yàn)證了本方法的有效性. 表4展示了每個(gè)領(lǐng)域的評(píng)價(jià)對(duì)象抽取結(jié)果,以關(guān)聯(lián)置信度最高的5個(gè)評(píng)價(jià)對(duì)象為例.

        表4 評(píng)價(jià)對(duì)象抽取結(jié)果示例

        3.2 參數(shù)對(duì)抽取效果的影響實(shí)驗(yàn)

        本階段實(shí)驗(yàn)主要研究參數(shù)對(duì)抽取結(jié)果的影響. 本文涉及到的參數(shù)包含1.1節(jié)方法中評(píng)價(jià)對(duì)象與情感詞之間的關(guān)聯(lián)度閾值lto,1.2節(jié)方法中抽取的評(píng)價(jià)對(duì)象數(shù)量k1,1.3節(jié)方法抽取的評(píng)價(jià)對(duì)象個(gè)數(shù)k2以及平衡因子λ. 本實(shí)驗(yàn)在3個(gè)領(lǐng)域中均抽取800個(gè)評(píng)價(jià)對(duì)象,因此設(shè)定參數(shù)k2=800-k1. 本實(shí)驗(yàn)用F值表示評(píng)價(jià)對(duì)象抽取效果.

        圖2展示了抽取結(jié)果F值隨著評(píng)價(jià)對(duì)象與情感詞之間的關(guān)聯(lián)度閾值變化的曲線圖. 從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn)lto在20~40之間取得了最好效果. MP3領(lǐng)域在閾值35上取得了最高F值75.03%;Hotel領(lǐng)域在閾值30上取得了最高F值70.66%;Car領(lǐng)域在閾值20上取得了最高F值73.10%.

        圖3展示了抽取結(jié)果F值隨著k1變化的曲線圖.k1在500~600之間取得了最好的效果,其中:MP3領(lǐng)域在550上取得了最高F值75.03%;Hotel領(lǐng)域在570上取得了最高F值70.66%;Car領(lǐng)域在620上取得了最高F值73.10%. 從該實(shí)驗(yàn)中可以看出在500~600之前,函數(shù)呈遞增的趨勢(shì). 這個(gè)現(xiàn)象表明在評(píng)論文本中存在一部分通用的評(píng)價(jià)對(duì)象,例如“樣式”、“外觀”等. 這部分詞如果按照領(lǐng)域置信度排序會(huì)因?yàn)轭I(lǐng)域度值較小而排名靠后,從而被移除. 當(dāng)k1取值超過(guò)500~600的區(qū)間時(shí)函數(shù)又呈相對(duì)明顯的下降趨勢(shì),這是因?yàn)殡S著k1的增長(zhǎng),利用關(guān)聯(lián)置信度篩選得到的評(píng)價(jià)對(duì)象增多,利用領(lǐng)域置信篩選得到的評(píng)價(jià)對(duì)象減少,由于缺乏對(duì)領(lǐng)域度因素的分析,導(dǎo)致抽取效果下降.

        圖4展示了抽取結(jié)果F值隨著λ變化的曲線圖.λ在0.3~0.4之間取得了最好的效果,其中:MP3領(lǐng)域與Car領(lǐng)域在0.3上取得了最高F值,分別為75.03%和73.10%;Hotel領(lǐng)域在 0.4上取得了最高F值70.66%.λ為平衡因子,代表了領(lǐng)域度因素在領(lǐng)域置信度計(jì)算中所占有的比重. 當(dāng)λ超過(guò)0.3~0.4范圍后,呈平穩(wěn)趨勢(shì)發(fā)展. 這個(gè)現(xiàn)象說(shuō)明了領(lǐng)域度因素在低頻評(píng)價(jià)對(duì)象中占有了非常重要的影響,甚至在不考慮評(píng)價(jià)對(duì)象在本領(lǐng)域中的關(guān)聯(lián)置信度(λ=1.0)時(shí),效果也依然優(yōu)秀(73.0%,69.9%,71.9%).

        3.3 領(lǐng)域?qū)Ρ葘?shí)驗(yàn)

        本階段實(shí)驗(yàn)主要比較在不同平行領(lǐng)域參照下評(píng)價(jià)對(duì)象的抽取效果. 由表5的對(duì)比結(jié)果可以發(fā)現(xiàn),利用不同的平行領(lǐng)域參照得到的抽取結(jié)果差別不大. MP3領(lǐng)域利用Hotel領(lǐng)域參照得到了75.03%的F值,而通過(guò)Car領(lǐng)域參照得到了74.36%的F值,兩者相差0.67%. 同理,Car領(lǐng)域通過(guò)MP3和Hotel參照的差異為0.38%,Hotel通過(guò)MP3與Car參照的差異為1.02%. 這種差異主要是由領(lǐng)域之間的相關(guān)性引起. 在MP3領(lǐng)域中,通過(guò)Hotel參照的效果優(yōu)越于通過(guò)Car領(lǐng)域,這是因?yàn)镸P3領(lǐng)域與Car領(lǐng)域之間的相同點(diǎn)相對(duì)于Hotel領(lǐng)域更多. 直觀地看,MP3與Car都是物品,存在“材料”,“外觀”等方面的相同評(píng)價(jià)對(duì)象,而對(duì)于Hotel領(lǐng)域而言,評(píng)論的核心在于用戶體驗(yàn),與MP3領(lǐng)域的交集比較小,因此利用Hotel領(lǐng)域參照的效果更好. 同理在Hotel領(lǐng)域中,通過(guò)MP3領(lǐng)域參照的效果優(yōu)越于Car領(lǐng)域. 因此,利用盡可能不相干的領(lǐng)域參照會(huì)達(dá)到更好的抽取效果.

        表5 不同平行領(lǐng)域抽取結(jié)果

        4 結(jié) 論

        本文提出了一個(gè)3層過(guò)濾的評(píng)價(jià)對(duì)象抽取方法,在不需要任何標(biāo)注數(shù)據(jù)的情況下,能夠完成對(duì)評(píng)論文本中評(píng)價(jià)對(duì)象的抽取. 該方法首先利用一個(gè)自舉式框架,利用評(píng)價(jià)對(duì)象之間,評(píng)價(jià)對(duì)象與情感詞之間的關(guān)聯(lián)關(guān)系,迭代抽取候選評(píng)價(jià)對(duì)象和情感詞;其次,對(duì)候選的評(píng)價(jià)對(duì)象和情感詞計(jì)算關(guān)聯(lián)置信度,抽取關(guān)聯(lián)置信度高的評(píng)價(jià)對(duì)象. 最后,對(duì)剩余的關(guān)聯(lián)置信度低的評(píng)價(jià)對(duì)象進(jìn)行領(lǐng)域置信度的計(jì)算,挖掘出現(xiàn)頻率低,但領(lǐng)域性較強(qiáng)的評(píng)價(jià)對(duì)象. 實(shí)驗(yàn)表明,本文方法的抽取結(jié)果具有較高的準(zhǔn)確率和召回率,優(yōu)于現(xiàn)有的抽取方法.

        [1] Hu M, Liu B. Mining opinion features in customer reviews[J]. AAAI, 2004,4(4):755-760.

        [2] Qiu G, Liu B, Bu J, et al. Opinion word expansion and target extraction through double propagation[J]. Computational Linguistics, 2011,37(1):9-27.

        [3] Zhang L, Liu B, Lim S H, et al. Extracting and ranking product features in opinion documents[C]∥Proceedings of the 23rd International Conference on Computational Linguistics. Posters: Association for Computational Linguistics, 2010:1462-1470.

        [4] Zhuang L, Jing F, Zhu X Y. Movie review mining and summarization[C]∥Proceedings of the 15th ACM International Conference on Information and Knowledge Management. Bavaria: ACM, 2006:43-50.

        [5] Wang B, Wang H. Bootstrapping both product features and opinion words from Chinese customer reviews with cross-inducing[C]∥Proceedings of IJCNLP. Hyderabad: Asian Federation of Natural Language Processing, 2008:289-295.

        [6] Hai Z, Chang K, Cong G. One seed to find them all: mining opinion features via association[C]∥Proceedings of the 21st ACM International Conference on Information and Knowledge Management. Orlando: ACM, 2012:255-264.

        [7] Liu K, Xu L, Zhao J. Opinion target extraction using word-based translation model[C]∥Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island: Association for Computational Linguistics, 2012:1346-1356.

        [8] Xu L, Liu K, Lai S, et al. Mining opinion words and opinion targets in a two-stage framework[C]∥Proceedings of ACL. Sofia: Association for Computation Linguistics, 2013:1764-1773.

        [9] Page L. Computational linguistics the page rank citation ranking: bringing order to the web[EB/OL].[1998-09-01].http:∥www.db.stanford.edu/~backrub/pageranksub.ps.

        [10] Tan S, Cheng X, Wang Y, et al. Adapting naive bayes to domain adaptation for sentiment analysis[M]∥Advances in Information Retrieval. Berlin, Heidel-berg: Springer, 2009:337-349.

        [11] Frantzi K, Ananiadou S, Mima H. Automatic recognition of multi-word terms:. the c-value/nc-value method[J]. International Journal on Digital Libraries, 2000,3(2):115-130.

        (責(zé)任編輯:劉芳)

        Opinion Targets Extraction with a Three-Level Filter

        NIU Zhen-dong1,2, LIU Sha1

        (1.School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China; 2.Beijing Engineering Research Center of Massive Language Information Processing and Cloud Computing Application, Beijing 100081, China)

        A three-level filter method was proposed to extract the opinion targets for product reviews on the Internet. In the first level, a bootstrapping framework was adopted to extract candidate opinion targets and opinion words from opinion texts. In the second level, the association between the opinion target and opinion word was used to estimate the association confidence of every candidate opinion target and candidate opinion word. The opinion targets with high association confidence were extracted to improve recognition accuracy. In the third level, an uncorrelated domain was adopted to calculate the domain confidence of every opinion target in the rest set which was for mining the opinion targets of low frequency. The experimental results on three public datasets demonstrate the effectiveness of the proposed approach.

        opinion targets extraction; opinion word; association confidence; domain confidence

        2014-08-20

        國(guó)家自然科學(xué)基金資助項(xiàng)目(61370137)

        牛振東(1968—),男,教授,博士生導(dǎo)師,E-mail:zniu@bit.edu.cn.

        TP 391

        A

        1001-0645(2016)11-1154-06

        10.15918/j.tbit1001-0645.2016.11.011

        猜你喜歡
        置信度關(guān)聯(lián)度關(guān)聯(lián)
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
        奇趣搭配
        基于灰色關(guān)聯(lián)度的水質(zhì)評(píng)價(jià)分析
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        基于灰關(guān)聯(lián)度的鋰電池組SOH評(píng)價(jià)方法研究
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        基于灰色關(guān)聯(lián)度的公交線網(wǎng)模糊評(píng)價(jià)
        河南科技(2014年16期)2014-02-27 14:13:25
        廣義區(qū)間灰數(shù)關(guān)聯(lián)度模型
        如何看色黄视频中文字幕| 日本在线看片免费人成视频1000| 国产内射性高湖| 人妻无码∧V一区二区| 人日本中文字幕免费精品| 妺妺跟我一起洗澡没忍住 | 久久中文精品无码中文字幕| 久久久久久久综合日本| 蜜桃传媒免费观看视频| 98色婷婷在线| 妓院一钑片免看黄大片| 天天插天天干天天操| 97成人精品在线视频| 领导边摸边吃奶边做爽在线观看| 欧美疯狂性xxxxxbbbbb| 国产成人精品cao在线| 丰满少妇被爽的高潮喷水呻吟| 亚洲国产欧美在线观看| 欧美做受视频播放| 风流少妇一区二区三区| 丰满少妇在线播放bd| 久久精品免费一区二区三区| 亚洲AV成人无码国产一区二区| 蜜桃视频一区二区三区| 国产亚州精品女人久久久久久 | 丰满人妻一区二区三区精品高清| 久久国产精品亚洲婷婷片| 无码粉嫩虎白一线天在线观看 | 中文字幕大乳少妇| 亚洲国产精品情侣视频| 亚洲av不卡一区二区三区| 99久久久精品免费香蕉| 亚洲av区一区二区三区| 337p粉嫩日本欧洲亚洲大胆| 老熟妇高潮喷了╳╳╳| 人妻丰满少妇一二三区| 精品福利一区二区三区蜜桃| 先锋影音av最新资源| 久久亚洲国产精品123区| 国语对白精品在线观看| 国产另类人妖在线观看|