亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于級聯(lián)模型的中文情感要素抽取

        2016-12-08 05:45:11王亞珅黃河燕劉全超
        電子學(xué)報 2016年10期
        關(guān)鍵詞:持有者級聯(lián)介詞

        王亞珅,黃河燕,馮 沖,劉全超

        (北京理工大學(xué)計算機學(xué)院北京市海量語言信息處理與云計算應(yīng)用工程技術(shù)研究中心,北京 100081)

        ?

        基于級聯(lián)模型的中文情感要素抽取

        王亞珅,黃河燕,馮 沖,劉全超

        (北京理工大學(xué)計算機學(xué)院北京市海量語言信息處理與云計算應(yīng)用工程技術(shù)研究中心,北京 100081)

        隨著社交媒體的發(fā)展及成熟,每天在互聯(lián)網(wǎng)環(huán)境中都會產(chǎn)生大量的用戶評論信息.抽取評價短語、評價對象和觀點持有者等情感要素,已經(jīng)成為了中文觀點挖掘和情感分析的重要先決任務(wù).針對中文情感要素抽取任務(wù),本文提出了一個統(tǒng)計和規(guī)則相結(jié)合的級聯(lián)模型,主要貢獻(xiàn)包括:(1)針對汽車領(lǐng)域評論信息,構(gòu)建情感要素標(biāo)注語料庫和相關(guān)詞典;(2)對于以往研究較少關(guān)注的中文評價短語,本文詳細(xì)分析闡述其定義和分類;(3)結(jié)合統(tǒng)計和規(guī)則,分別針對評價短語和情感要素提出級聯(lián)抽取策略.實驗結(jié)果充分證明了該級聯(lián)模型的有效性,相比較于其它基于規(guī)則的情感要素抽取算法有效提升了召回率,同時為后續(xù)社交媒體情感分析任務(wù)提供了有力的支持.

        信息抽取;情感要素;評價短語;評價對象;觀點持有者

        1 引言

        情感分析(Sentiment Analysis)和觀點挖掘(Opinion Mining)[1,2]旨在根據(jù)文本的話題或者情感極性來判斷產(chǎn)生該內(nèi)容的用戶的觀點和態(tài)度;而情感要素(Evaluation Element)抽取則是其一項重要的先決任務(wù),不僅直接決定了后續(xù)任務(wù)的效果,而且在實際應(yīng)用中有著巨大的需求.借鑒文獻(xiàn)[3]中提出的“評價表達(dá)式(Appraisal Expression)”概念,本文所研究的中文“情感要素”包括評價短語(Evaluation Phrase,EP)、評價對象(Comment Target,CT)和觀點持有者(Opinion Holder)等三部分(三元組如下所示),并設(shè)計級聯(lián)模型完成對上述三者的抽取.

        情感要素=〈評價短語,評價對象,觀點持有者〉

        目前學(xué)界尚無對“評價短語”的權(quán)威定義,文獻(xiàn)[4]曾將其粗略定義為“連續(xù)出現(xiàn)的一組評價詞語”,文獻(xiàn)[5]和文獻(xiàn)[6]分別提出過類似的概念“Appraisal Groups”和“Evaluative Expression”.在上述研究基礎(chǔ)之上,本文將“評價短語”定義為:針對某特定評價對象,表達(dá)一種觀點態(tài)度和情感傾向的連續(xù)的詞語組合.評價短語富含情感信息,能夠提供有價值的特征以服務(wù)于后續(xù)的情感分析任務(wù),而且可以作為結(jié)果直接提供給用戶,為用戶展示豐富的“全景式”信息,進(jìn)而幫助用戶全面理解相關(guān)產(chǎn)品(服務(wù))或者事件.

        協(xié)同利用基于統(tǒng)計抽取策略和基于規(guī)則抽取策略的各自優(yōu)勢,并綜合考慮語料標(biāo)注的難易程度,我們將“評價短語”分成“簡單結(jié)構(gòu)評價短語”和“復(fù)雜結(jié)構(gòu)評價短語”兩類,并實施“先易后難”的級聯(lián)抽取策略:先抽取“簡單結(jié)構(gòu)評價短語”,在此基礎(chǔ)之上抽取“復(fù)雜結(jié)構(gòu)評價短語”,而最終的“評價短語”由這兩部分抽取結(jié)果共同組成.其中,“簡單結(jié)構(gòu)評價短語”主要是指程度副詞和情感詞語(主要是形容詞和名詞)的詞語組合(包含使用連詞或者頓號連接的情況),該類評價短語一般結(jié)構(gòu)簡單而且在文本中出現(xiàn)的位置比較固定(主要集中在定語、狀語和補語等位置),例如“非常方便”和“及其無聊”等.

        先前大量的相關(guān)工作只關(guān)注形如“簡單結(jié)構(gòu)評價短語”的短語甚至只關(guān)注單個情感詞語,而很少關(guān)注結(jié)構(gòu)復(fù)雜的短語[3,5,7].但是此類結(jié)構(gòu)復(fù)雜的評價短語往往富含情感信息(例如介詞短語能夠表達(dá)比較關(guān)系).本文主要研究括號短語、介詞短語和副詞短語等三類“復(fù)雜結(jié)構(gòu)評價短語”,并分別制定了抽取規(guī)則.

        真正對文本情感分析有幫助的不是單獨的評價短語,而是評價短語和評價對象的組合[3,7](即“評價搭配”[8]);此外,增加觀點持有者信息,有助于對進(jìn)行觀點歸類和摘要[9].因此,本文以抽取得到的評價短語為核心,采用級聯(lián)模型抽取情感要素三元組:〈評價短語,評價對象,觀點持有者〉.例如下述示例中,抽取的情感要素三元組為〈出色的,外形設(shè)計,專家〉.

        本研究所提出的級聯(lián)模型主要關(guān)注產(chǎn)品評論信息中的情感要素抽取,但是也同樣適用于其他類型文本的分析.該級聯(lián)模型的流程如圖1所示:(1)對輸入文本進(jìn)行分句、分詞和詞性標(biāo)注等預(yù)處理;(2)基于條件隨機場模型抽取簡單結(jié)構(gòu)評價短語;(3)基于簡單結(jié)構(gòu)評價短語抽取結(jié)果,應(yīng)用規(guī)則抽取復(fù)雜結(jié)構(gòu)評價短語,進(jìn)而得到最終的評價短語抽取結(jié)果;(4)對于抽取得到的“評價短語”,基于規(guī)則定位和抽取其對應(yīng)的評價對象(評價對象詞典和情感詞典等資源可以根據(jù)應(yīng)用需求輔助使用[10]),構(gòu)成“評價搭配”<評價短語,評價對象>;(5)對于抽取得到的“評價搭配”,通過識別觀點指示動詞,完成對觀點持有者的抽取,構(gòu)成最終抽取結(jié)果:情感要素三元組<評價短語,評價對象,觀點持有者>.(圖1中實線箭頭指向為數(shù)據(jù)流動方向)

        2 相關(guān)工作

        文獻(xiàn)[5]認(rèn)為情感分析的基本單元應(yīng)該是評價短語而非單個詞語;在這種思路的啟發(fā)下,一系列算法和模型被提出[6,11,12].但是上述研究所涉及的評價短語只屬于本文提及的“簡單結(jié)構(gòu)評價短語”范疇而不涉及復(fù)雜結(jié)構(gòu).目前主流的評價對象抽取方法分為非監(jiān)督學(xué)習(xí)方法和基于機器學(xué)習(xí)的有監(jiān)督抽取方法[7,12],圍繞特征選擇問題,條件隨機場模型在評價對象抽取中廣受青睞[13].對于“評價搭配”抽取任務(wù)[8],早期研究一般將這項任務(wù)分為兩個步驟:首先獲取情感句中的評價對象,然后評價對象附近窗口為k的范圍內(nèi)定位評價詞語[14].隨后,部分研究者將對評價對象和評價詞語的識別合并為一個獨立的任務(wù),提出了基于規(guī)則(或模板)的方法來識別評價搭配,其中句法分析結(jié)果被廣泛用于構(gòu)造規(guī)則[4,7,15].雖然此類方法使得識別準(zhǔn)確率得到提高,但是由于模板或者規(guī)則需要手工制定,召回率受限.

        3 數(shù)據(jù)描述

        雖然本文提出的級聯(lián)模型可以被應(yīng)用于處理不同種類的觀點信息文本,但是本文研究重點關(guān)注產(chǎn)品評論信息,并應(yīng)用該模型抽取汽車領(lǐng)域用戶評論信息中的情感要素.目前尚無公開的中文汽車評論信息標(biāo)注語料庫,因此我們從2012年至2013年的騰訊汽車*http://auto.qq.com/、網(wǎng)易汽車*http://auto.163.com/和鳳凰汽車*http://auto.ifeng.com/等汽車門戶網(wǎng)站爬取和標(biāo)注專家測評文章和用戶評論信息來構(gòu)建中文汽車評論信息語料庫.該語料庫目前已部分公開*http://hlipca.org/index.php/2014-12-09-02-55-58/2014-12-09-02-56-24/49-chineseevaluationphrase,詳情如表1所示(其中,#×表示×的數(shù)量).

        表1 中文汽車情感要素語料庫

        為了方便表述,本文作如下概念定義:

        分句 一個完整的句子(以句號、問號等終止符號作為結(jié)尾)被所包含的所有標(biāo)點符號成多個“分句”.本文以分句為基本單位抽取評價短語;而構(gòu)建情感要素三元組的時候,則在整個句子中進(jìn)行掃描和匹配相關(guān)要素.

        詞性序列 分詞后,一個或者連續(xù)幾個(可包含連詞)具有相同詞性的詞語構(gòu)成“詞性序列”.例如,分句“將內(nèi)飾打造得更加典雅奢華”中下劃線部分即為一個“形容詞序列”.

        窗口-R 分詞后,包含當(dāng)前詞語、當(dāng)前詞語前面R個詞語和當(dāng)前詞語后面R個詞語的詞語序列.本文使用中科院計算所漢語詞性標(biāo)注集,本文章節(jié)4和章節(jié)5中規(guī)則表達(dá)式中的符號說明如表2.

        表2 規(guī)則表達(dá)式中相關(guān)符號說明

        此外,為了提升抽取準(zhǔn)確率以及充分支持本文模型的跨領(lǐng)域應(yīng)用,我們構(gòu)造了評價對象詞典和觀點指示動詞(Opinion-Bearing Verb)詞典*http://hlipca.org/index.php/2014-12-09-02-55-58/2014-12-09-02-56-24/49-chineseevaluationphrase.

        4 基于級聯(lián)模型的情感要素抽取

        本章節(jié)基于級聯(lián)模型[16,17],抽取中文情感要素:評價短語,評價對象以及評價短語.“級聯(lián)模型”的優(yōu)勢在于:(1)各模塊的輸出相互作用關(guān)聯(lián),模型最終輸出結(jié)果是各模塊輸出結(jié)果的有機融合,反映了各模塊特征,因此級聯(lián)模型比較適用于元組抽取(Tuple Extraction);(2)一個模塊的變化(如信息更新)會直接影響下一模塊,所以模塊之間的數(shù)據(jù)流是“一體化”動態(tài)更新,因此級聯(lián)模型能夠確保最終輸出結(jié)果反映局部的信息更新.

        4.1 基于條件隨機場模型的簡單結(jié)構(gòu)評價短語抽取

        條件隨機場模型[18]能夠高效捕獲輸入文本的關(guān)聯(lián)特征和識別序列邊界,并最大程度地降低標(biāo)記偏執(zhí)問題,被廣泛應(yīng)用于序列標(biāo)注任務(wù);而簡單結(jié)構(gòu)評價短語具有構(gòu)成簡單、位置固定等特點,因此本文將簡單結(jié)構(gòu)評價短語的抽取問題轉(zhuǎn)換成為序列標(biāo)注問題,并使用條件隨機場模型完成該任務(wù).條件隨機場模型所用特征模板主要包含3條特征(如表3所示),其中wi和pi分別表示當(dāng)前詞語(第i個詞語)及其詞性.

        表3 用于識別簡單結(jié)構(gòu)評價短語的條件隨機場模型的特征模板

        4.2 基于規(guī)則的復(fù)雜結(jié)構(gòu)評價短語抽取

        本章節(jié)基于有限狀態(tài)機(Finite State Automaton,FSA)思想,設(shè)計三種復(fù)雜結(jié)構(gòu)評價短語規(guī)則:括號短語(Parenthesis Phrase)規(guī)則、介詞短語(Preposition Phrase)規(guī)則和副詞短語(Adverb Phrase)規(guī)則.同時,本文賦予這三種規(guī)則很強的可擴展性,以便根據(jù)應(yīng)用需求靈活改變規(guī)則.

        4.2.1 括號短語規(guī)則

        考慮到括號中的內(nèi)容一般起到解釋說明的作用,并且往往包含有價值的評論信息,我們抽取這部分內(nèi)容作為評價短語.括號內(nèi)容緊鄰所修飾內(nèi)容(位于修飾內(nèi)容的右側(cè)),所以其所對應(yīng)的評價對象一般是其左側(cè)的名詞序列.

        4.2.2 介詞短語規(guī)則

        簡單結(jié)構(gòu)介詞短語往往表示處所或者狀態(tài),一般不會表達(dá)情感傾向;但是,如果與其后的補語相結(jié)合構(gòu)成復(fù)雜結(jié)構(gòu)介詞短語(特別是在評論信息中常見的表示“比較”意義的復(fù)雜結(jié)構(gòu)介詞短語)之后,便可以傳遞一定情感信息.

        對于每個分句,我們從右至左搜索介詞:每搜索到一個介詞,分析其右側(cè)文本是否匹配下述規(guī)則,如果匹配,則合并該介詞連同其右側(cè)符合規(guī)則的內(nèi)容,并抽取為評價短語;繼續(xù)向左進(jìn)行搜索并重復(fù)上述過程,直至分句搜索完畢.本文共總結(jié)了8個基本的介詞短語規(guī)則:

        規(guī)則1 p+n+EP

        規(guī)則描述 如果介詞右側(cè)順序出現(xiàn)名詞序列和標(biāo)注為EP的短語,則合并該介詞和這些詞語成為一個短語,并將詞性重新標(biāo)注為EP.

        規(guī)則示例 外觀/n上/f將/d會/v比/p傳祺/nz轎車/n硬朗/EP從該分句中抽取的復(fù)雜結(jié)構(gòu)評價短語為“比傳祺轎車硬朗”.

        其它基本介詞短語規(guī)則見表4.

        表4 其它基本介詞短語規(guī)則

        上述基本規(guī)則可以通過如下方法進(jìn)行擴展:

        (1)上述規(guī)則中的名詞序列可以被代詞序列所替換(或者附加),規(guī)則依然成立.

        (2)上述規(guī)則可以通過加入形容詞序列或者標(biāo)注為EP的短語來構(gòu)造更加復(fù)雜的規(guī)則.例如,對于規(guī)則3,在名詞序列前加入標(biāo)注為EP的短語,規(guī)則依然成立:p+n+v → p+EP+n+v.

        (3)某些中文詞語,例如“相比”“對比”等,能夠表達(dá)“比較(對比)”關(guān)系,因此介詞短語規(guī)則中的“介詞(標(biāo)記為p)”可以替換成為這些詞語,規(guī)則依然成立.

        4.2.3 副詞短語規(guī)則

        實際應(yīng)用中,副詞可以修飾動詞、形容詞,甚至整個句子.其中,情態(tài)副詞(例如“究竟”“簡直”等)和程度副詞(例如“非?!薄昂堋钡?,往往引導(dǎo)富含情感信息的短語,所以能夠指示觀點持有者的態(tài)度.

        本文主要關(guān)注上述副詞做謂語和補語的情況.類似于上述介詞短語的構(gòu)造方式,我們通過從右至左搜索分句,判斷所出現(xiàn)的每一個副詞右側(cè)的文本是否匹配相關(guān)副詞短語規(guī)則.本文共總結(jié)了6個基本的副詞短語規(guī)則:

        規(guī)則2 d+v+EP

        規(guī)則描述 如果副詞右側(cè)順序出現(xiàn)動詞序列和標(biāo)注為EP的短語,則合并該副詞和這些詞語成為一個短語,并將詞性重新標(biāo)注為EP.

        規(guī)則示例 內(nèi)飾/nz還/d算/v樸素大方/EP

        從該分句中抽取的復(fù)雜結(jié)構(gòu)評價短語為“還算樸素大方”.

        其它基本副詞短語規(guī)則見表5,同樣可以參照上一章節(jié)的擴展方法對基本副詞短語規(guī)則進(jìn)行擴展.

        表5 其它基本副詞短語規(guī)則

        4.3 基于規(guī)則的評價對象抽取

        在前述“評價短語”抽取結(jié)果的基礎(chǔ)上,本章節(jié)抽取其所對應(yīng)的“評價對象”,構(gòu)成“評價搭配”〈評價短語,評價對象〉.以每個被抽取的評價短語為中心,我們使用“評價對象構(gòu)建規(guī)則”來定位和構(gòu)建名詞序列作為評價對象候選;然后使用“評價對象抽取規(guī)則”從這些候選中挑選出真正與該評價短語配對的對象作為最終的評價對象.此外,也可以根據(jù)應(yīng)用需求引入評價對象詞典篩選環(huán)節(jié)[10].

        評價對象構(gòu)建規(guī)則 文獻(xiàn)[3]曾選取距離評價對象最近的形容詞作為其對應(yīng)的評價詞語,我們通過考察大規(guī)模產(chǎn)品服務(wù)類評論信息語料也發(fā)現(xiàn):與某個評價短語配對的評價對象往往是其左側(cè)(或者右側(cè))最近的名詞序列.因此,對于某個評價短語,我們分別向左和向右掃描文本并構(gòu)建距離其最近的名詞序列,作為評價對象候選.例如“專家/d認(rèn)為/vo,/wd飛思/nz擁有/v了/ule出色的/EP外形/n設(shè)計/vn.”中,以評價短語“出色的”為中心,向左和向右分別定位和構(gòu)建了名詞序列“飛思”和“外形設(shè)計”作為評價對象候選:

        評價對象抽取規(guī)則 我們使用下述規(guī)則(表6)來從評價對象候選中挑選出最終的評價對象.

        表6 其他評價對象抽取規(guī)則

        所以,上述示例中的兩個評價對象候選中,只有“外形設(shè)計”符合規(guī)則,被保留.至此,我們得到了該示例中的“評價搭配”〈出色的,外形設(shè)計〉.

        4.4 基于規(guī)則的觀點持有者抽取

        在前述“評價搭配”抽取結(jié)果的基礎(chǔ)上,本章節(jié)抽取其所對應(yīng)的“觀點持有者”,構(gòu)成最終抽取結(jié)果:“情感要素”三元組〈評價短語,評價對象,觀點持有者〉.通過對大量評論語料進(jìn)行調(diào)研,我們發(fā)現(xiàn):人名和機構(gòu)名等命名實體經(jīng)常出現(xiàn)在觀點持有者的位置上,而且觀點持有者往往與觀點指示動詞共現(xiàn).因此,本文對于觀點持有者的抽取策略是基于觀點指示動詞的位置的,而且我們更多關(guān)注的是連續(xù)分句之間的觀點持有者是否發(fā)生變化.

        首先,如果分句中出現(xiàn)觀點指示動詞,則說明觀點持有者可能發(fā)生變化,否則認(rèn)為跟前一分句的觀點持有者相同;然后,固定該觀點指示動詞并向前文進(jìn)行文本掃描,定位和構(gòu)建距離最近的命名實體(或名詞序列),作為觀點持有者候選;最后,我們利用相關(guān)規(guī)則來判斷觀點持有者候選是否正確(例如,如果介詞“據(jù)”出現(xiàn)潛在觀點持有者的左側(cè),則表示抽取成功).上文示例中,“認(rèn)為”是觀點指示動詞,其左鄰的名詞序列“專家”即為觀點持有者.至此,我們通過級聯(lián)模型得到了該示例中的“情感要素”三元組〈出色的,外形設(shè)計,專家〉.

        5 實驗和結(jié)果分析

        本章節(jié)中,我們使用章節(jié)3所描述的語料來驗證本文提出的級聯(lián)模型的性能.采用10-折交叉驗證的方式分配訓(xùn)練集和測試集,記錄10次實驗結(jié)果的均值于相關(guān)圖表中.實驗中,我們使用NLPIR漢語分詞系統(tǒng)2014*http://ictclas.nlpir.org/newsdownloads?DocId=389完成中文分詞和詞性標(biāo)注任務(wù),使用CRF++version 0.53*http://crfpp.googlecode.com/svn/trunk/doc/index.html完成針對簡單結(jié)構(gòu)評價短語抽取的條件隨機場模型的訓(xùn)練和測試任務(wù).

        5.1 評價指標(biāo)

        本文使用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F-值(F-measure,F)作為評價指標(biāo)對簡單結(jié)構(gòu)評價短語、復(fù)雜結(jié)構(gòu)評價短語、評價短語和情感要素三元組等測評對象的抽取結(jié)果進(jìn)行測評.

        (1)

        (2)

        (3)

        其中,N1表示測試集所含測評對象的個數(shù),N2表示本文算法抽取的測評對象的個數(shù),N3表示抽取結(jié)果中抽取正確的對象的個數(shù),β取值為1.此外,考慮到短語覆蓋文本范圍較大的問題,在評價短語抽取測評中,我們引入下述三種不同的測評粒度[11](其中后兩種統(tǒng)稱“松弛匹配”):

        精確匹配(又稱“嚴(yán)格匹配”) 只有抽取結(jié)果嚴(yán)格匹配標(biāo)準(zhǔn)結(jié)果,該抽取結(jié)果才被認(rèn)為是正確的.

        部分匹配 如果抽取結(jié)果包含標(biāo)準(zhǔn)結(jié)果,該抽取結(jié)果即可被認(rèn)為是正確的.

        范圍部分匹配 如果抽取結(jié)果和標(biāo)準(zhǔn)結(jié)果有重合部分,則將重合部分所占比重加入到N3

        5.2 實驗結(jié)果

        中文評價短語抽取實驗的結(jié)果如表7所示.正如前文分析,簡單結(jié)構(gòu)評價短語的構(gòu)成規(guī)律性強、邊界明確,因此即使是在“精確匹配”這種嚴(yán)苛的測評標(biāo)準(zhǔn)下,簡單結(jié)構(gòu)評價短語的抽取也擁有很高的準(zhǔn)確率和召回率.

        表7 中文評價短語抽取結(jié)果

        表7同時也反應(yīng)出,復(fù)雜結(jié)構(gòu)評價短語和評價短語在“精確匹配”測評策略下的性能并不理想,這是因為其復(fù)雜且多變的內(nèi)部結(jié)構(gòu)導(dǎo)致很難準(zhǔn)確識別其所轄文本的范圍和邊界.所以,本文使用“部分匹配”策略作為“評價短語”的主要的測評標(biāo)準(zhǔn),并且與相關(guān)工作文獻(xiàn)[6]和文獻(xiàn)[11]進(jìn)行對比(如表8所示).

        表8 本文模型與其他算法對于“評價短語”抽取的實驗結(jié)果對比

        本文提出的級聯(lián)模型對情感要素抽取結(jié)果(采用“部分匹配”策略)如表9所示.實驗結(jié)果顯示,本文模型對于觀點持有者抽取的準(zhǔn)確率較高,而對于情感要素抽取的F-值也突破了70%.此外,文獻(xiàn)[15]中針對“具有修飾關(guān)系的詞對”的任務(wù)與本文情感要素抽取任務(wù)十分相似,因此我們復(fù)現(xiàn)了該工作.對比實驗顯示,作為以往基于規(guī)則抽取算法的典型代表,文獻(xiàn)[15]雖然取得了較高的準(zhǔn)確率,但是召回率存在欠缺;而本文模型將召回率提升了20.12%,而且在時間消耗方面遠(yuǎn)優(yōu)于文獻(xiàn)[15].此外,考慮到本文算法所抽取的評價短語更加復(fù)雜,而且有助于產(chǎn)品(服務(wù))信息的直觀展示,因此本文模型在海量信息處理領(lǐng)域還是具有很大的應(yīng)用價值.

        表9 中文情感要素抽取結(jié)果及對比

        5.3 實驗結(jié)果分析

        本文方法的召回率和F值相比較于基線算法(包括傳統(tǒng)基于規(guī)則的方法)有了一定提升,主要原因有如下幾點:

        (1)本研究針對“評論信息中情感要素抽取”,目的明確、應(yīng)用性強,而且級聯(lián)模型中相關(guān)規(guī)則的設(shè)計均基于對中文評論信息扎實的語法、句法分析(特別是各要素之間關(guān)系),所以,在平衡規(guī)則復(fù)雜度和計算復(fù)雜度前提下,本研究設(shè)計的規(guī)則比傳統(tǒng)規(guī)則更有針對性、更加精確.

        (2)傳統(tǒng)基于規(guī)則的抽取算法,在匹配規(guī)則時往往采用“字符連續(xù)出現(xiàn)”的匹配模式,導(dǎo)致以往方法的召回率較低;而本研究在匹配規(guī)則時,基于有限狀態(tài)機思想,采取“詞性序列順序出現(xiàn)”的匹配模式,進(jìn)而有效提升召回率.

        (3)借力于級聯(lián)模型的“聯(lián)動機制”,本研究所抽取的評價短語、評價對象和觀點持有者分別處于級聯(lián)模型中相連通的不同模塊中(圖1),因此本文模型能夠?qū)θ哧P(guān)系以及句子結(jié)構(gòu)進(jìn)行更加清晰的刻畫.

        (4)多策略平衡.通過減少特征種類和數(shù)量,實現(xiàn)“質(zhì)量策略”和“速度策略”的平衡,進(jìn)而保證系統(tǒng)整體效率;充分發(fā)揮“統(tǒng)計策略”和“規(guī)則策略”各自優(yōu)勢,實現(xiàn)統(tǒng)計和規(guī)則互補.

        6 總結(jié)

        本文著重對中文情感要素中的“評價短語”概念進(jìn)行了詳細(xì)的定義和闡述,并且構(gòu)建了相關(guān)的語料庫.面向海量中文信息處理需求,通過研究不同情感要素的語法和結(jié)構(gòu)特征,本文設(shè)計了統(tǒng)計和規(guī)則相結(jié)合的級聯(lián)模型來抽取用戶評論語料中的評價短語、評價對象和觀點持有者.實驗結(jié)果充分證明了該級聯(lián)模型的有效性,相比較于其它基于規(guī)則的情感要素抽取算法有效提升了召回率;此外,本研究相關(guān)內(nèi)容已經(jīng)在部署在實際應(yīng)用中,并取得了良好的實踐效果.

        [1]Pang B,Lee L.Opinion mining and sentiment analysis Foundations and trends in information retrieval[J].Foundations & Trends in Information Retrieval,2008,2(1-2):459-526.

        [2]Liu B.Sentiment analysis and opinion mining[J].Synthesis Lectures on Human Language Technologies,2012,5(1):1-167.

        [3]Bloom K,Garg N,Argamon S.Extracting appraisal expressions[A].Proceedings of Human Language Technologies:2007 Annual Conference of the North American Chapter of the Association for Computational Linguistics[C].New York:ACL Press,2007.308-315.

        [4]趙妍妍,秦兵,車萬翔,劉挺.基于句法路徑的情感評價單元識別[J].軟件學(xué)報,2011,22(5):887-898.

        ZHAO Yan-yan,QIN Bing,CHE Wan-xiang,LIU Ting.Appraisal expression recognition based on syntactic path[J].Journal of Software,2011,22(5):887-898.(in Chinese)

        [5]Whitelaw C,Garg N,Argamon S.Using appraisal groups for sentiment analysis[A].Proceedings of 14thACM International Conference on Information and Knowledge Management[C].New York,USA:ACM Press,2005.625-631.

        [6]Nakagawa T,Kawada T,Inui K,Kurohashi S.Extracting subjective and objective evaluative expressions from the Web[A].Proceedings of 2nd International Symposium on Universal Communication[C].Osaka,Japan:IEEE Press,2008.251-258.

        [7]Popescu A M,Etzioni O.Extracting product features and opinions from reviews[A].Proceedings of Human Language Technology:2005 Conference on Empirical Methods in Natural Language Processing[C].Vancouver,Canada:ACL Press,2005.339-346.

        [8]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010,21(8):1834-1848.

        ZHAO Yan-yan,QIN Bing,LIU Ting.Sentiment analysis[J].Journal of Software,2010,21(8):1834-1848.(in Chinese)

        [9]宋銳,洪莉,林鴻飛.基于ChunkCRF的觀點持有者識別及其在觀點摘要中的應(yīng)用[J].小型微型計算機系統(tǒng),2009,30(7):1462-1466.

        SONG Rui,HONG Li,LIN Hong-fei.Chunk-CRF-based opinion holder identification and application to opinion summarization[J].Journal of Chinese Computer Systems,2009,30(7):1462-1466.(in Chinese)

        [10]Nakagawa T,Inui K,Kurohashi S.Dependency tree-based sentiment classification using CRFs with hidden variables[A].Proceedings of Human Language Technologies:2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics[C].Los Angeles,USA:ACL Press,2010.786-794.

        [11]Wang Y,Kazama J,Kawada T,Torisawa K.Chinese evaluative information analysis[A].Proceedings of 24thInternational Conference on Computational Linguistics[C].Mumbai,India:ACM Press,2012.2773-2788.

        [12]侯敏,滕永林,陳毓麒.評價短語的傾向性分析研究[J].中文信息學(xué)報,2013,27(6):103-109.

        HOU Min,TENG Yong-Lin,CHEN Yu-qi.Research on orientation analysis of opinion phrases[J].Journal of Chinese Information Processing,2013,27(6):103-109.(in Chinese)

        [13]王榮洋,鞠久朋,李壽山,周國棟.基于CRFs的評價對象抽取特征研究[J].中文信息學(xué)報,2012,26(2):56-61.

        WANG Rong-yang,JU Jiu-ming,LI Shou-shan,ZHOU Guo-dong.Feature engineering for CRFs based opinion target extraction[J].Journal of Chinese Information Processing,2012,26(2):56-61.(in Chinese)

        [14]Hu M Q,Liu B.Mining and summarizing customer reviews[A].Proceedings of 2004 ACM SIGKDD International Conference on Knowledge Discovery & Data Mining[C].New York:ACM Press,2004.168-177.

        [15]姚天昉,等.一個用于漢語汽車評論的意見挖掘系統(tǒng)[A].中國中文信息學(xué)會.中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C].北京:中國中文信息學(xué)會,2006.260-281.

        YAO Tian-fang,et al.An opinion mining system for chinese automobile reviews[A].Proceedings of the 25thAnnual Conference of CIPS[C].Beijing:Chinese Information Processing Society of China,2006.260-281.(in Chinese)

        [16]趙巍,等.連續(xù)字符識別的級聯(lián)HMM訓(xùn)練算法[J].計算機學(xué)報,2007,30(12):2142-2150.

        ZHAO Wei,et al.Cascaded HMM training algorithm for continuous character recognition[J].Chinese Journal of Computers,2007,30(12):2142-2150.(in Chinese)

        [17]李本陽,等.基于單層標(biāo)注級聯(lián)模型的篇章情感傾向分析[J].中文信息學(xué)報,2012,26(4):3-8+20.

        LI Ben-yang,et al.Single-label cascaded model for document sentiment analysis[J].Journal of Chinese Information Processing,2012,26(4):3-8+20.(in Chinese)

        [18]Lafferty J,McCallum A,Pereira F.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[A].Proceedings of 18thInternational Conference on Machine Learning[C].Williamstown,MA,USA:ACM Press,2001.282-289.

        王亞珅 男,1989年出生,北京理工大學(xué)計算機科學(xué)與技術(shù)專業(yè)博士研究生,主要研究領(lǐng)域為社交網(wǎng)絡(luò)分析和信息檢索.

        E-mail:yswang@bit.edu.cn

        黃河燕(通訊作者) 女,1963年出生,北京理工大學(xué)計算機學(xué)院教授、博士生導(dǎo)師,主要研究領(lǐng)域為語言信息智能處理、社交網(wǎng)絡(luò)、文本大數(shù)據(jù)分析處理及云計算.

        E-mail:hhy63@bit.edu.cn

        Chinese Evaluation Element Extraction Based on Cascaded Model

        WANG Ya-shen,HUANG He-yan,FENG-Chong,LIU Quan-chao

        (BeijingEngineeringResearchCenterofHighVolumeLanguageInformationProcessingandCloudComputingApplications,SchoolofComputer,BeijingInstituteofTechnology,Beijing100081,China)

        With the development of social media,massive reviews are generated by users every day.The extraction of evaluation elements,including evaluation phrase,comment target and opinion holder,is an important pre-task of Chinese opinion mining and sentiment analysis.This paper proposes an efficient method for extracting Chinese evaluation elements based on cascaded model and mainly makes three contributions:(i) to implement and evaluate the method,we construct an original annotated corpus for Chinese evaluation elements of automobile;(ii) we provide specific definition and classification of Chines evaluation phrase;(iii) combing statistic method and rule-based method,we present cascaded strategy for extraction of evaluation phrase and evaluation elements,respectively.According to the experiment results,the proposed method performs well,and effectively improve the recall compared with other rule-based algorithm.Meanwhile it contributes greatly to our subsequent tasks,such as sentiment analysis of social media.

        information extraction;evaluation element;evaluation phrase;comment target;opinion holder

        2015-02-11;

        2015-06-26;責(zé)任編輯:馬蘭英

        國家重點基礎(chǔ)研究發(fā)展計劃(973計劃)資助項目(No.2013CB329605,No.2013CB329303);國家自然科學(xué)基金(No.61132009,No.61201351)

        TP391.1

        A

        0372-2112 (2016)10-2459-07

        ??學(xué)報URL:http://www.ejournal.org.cn

        10.3969/j.issn.0372-2112.2016.10.025

        猜你喜歡
        持有者級聯(lián)介詞
        介詞和介詞短語
        介詞不能這樣用
        級聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
        電子制作(2016年15期)2017-01-15 13:39:09
        最低密度冰:水的第18種晶形
        新天地(2016年3期)2016-05-30 10:48:04
        基于級聯(lián)MUSIC的面陣中的二維DOA估計算法
        財政部:央企紅利轉(zhuǎn)社保可緩解養(yǎng)老金繳費壓力
        時代金融(2015年28期)2015-10-16 01:58:21
        LCL濾波器在6kV級聯(lián)STATCOM中的應(yīng)用
        電測與儀表(2014年1期)2014-04-04 12:00:34
        H橋級聯(lián)型STATCOM的控制策略研究
        電測與儀表(2014年1期)2014-04-04 12:00:28
        看圖填寫介詞
        国产三级黄色大片在线免费看| 黄色毛片视频免费| 亚洲AV无码成人精品区日韩密殿| 中文字幕亚洲高清精品一区在线| 第一次处破女18分钟高清| 欧美日韩色另类综合| 无码久久流水呻吟| 国产网红一区二区三区| 一区二区三区美女免费视频| 日产无人区一线二线三线乱码蘑菇| 亚洲综合欧美在线| 亚洲视频精品一区二区三区| 大香焦av一区二区三区| 人妻无码一区二区视频| 国产AV无码专区亚洲AV桃花庵| 精品av一区二区在线| 国产精品久久久天天影视| 999久久久无码国产精品| 亚洲日产无码中文字幕| 少妇人妻精品一区二区三区视| 欧美亚洲一区二区三区| 国产内射在线激情一区| 尤物yw午夜国产精品视频| 国产色av一区二区三区| 国产精品无码v在线观看| 日韩AV不卡六区七区| 日本一区二区三区的免费视频观看 | 人妻少妇不满足中文字幕| 伊人久久综合狼伊人久久| 欧美亚洲精品suv| 国产在线观看免费观看| 中文字幕人妻系列一区尤物视频| 日本久久精品视频免费| 亚洲欧美精品suv| 国产成人综合久久久久久| 日本精品少妇一区二区| 日本va欧美va精品发布| 在线免费黄网| 午夜精品人妻中字字幕| 五月天激情电影| 妇女性内射冈站hdwwwooo|