亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向中文微博的評價對象與評價詞語聯(lián)合抽取

        2016-08-09 01:09:35劉全超黃河燕
        電子學報 2016年7期
        關鍵詞:語義對象詞語

        劉全超,黃河燕,馮 沖

        (北京理工大學計算機學院,北京 100081)

        面向中文微博的評價對象與評價詞語聯(lián)合抽取

        劉全超,黃河燕,馮沖

        (北京理工大學計算機學院,北京 100081)

        深入挖掘微博內(nèi)容中評價對象與評價詞語的詞法特征、句法特征、語義特征以及相對位置特征,提出評價對象與評價詞語的序列化聯(lián)合抽取模型.進一步結(jié)合微博間轉(zhuǎn)發(fā)關系特性提出基于轉(zhuǎn)發(fā)關系的聯(lián)合抽取優(yōu)化算法.并與相關算法進行實驗對比,對實驗結(jié)果進行了綜合分析,證明了方法的可行性和優(yōu)越性.

        觀點挖掘;信息抽取;社交網(wǎng)絡;評價對象;評價詞語;微博

        1 引言

        觀點信息抽取是情感分析的最底層任務,其目的是獲取情感評論文本中有意義的信息單元,如觀點持有者(opinion holder)、評價對象(opinion target)、評價詞語(opinion-bearing word)等情感要素.目前的已有工作主要是利用監(jiān)督和無監(jiān)督機器學習算法實現(xiàn).無監(jiān)督方法主要是利用詞頻統(tǒng)計或規(guī)則實現(xiàn)評價對象和評價詞語抽取,如Hu等人[1]、Popescu等人[2]、Zhang等人[3]以及劉等人[4~8],他們認為評價對象往往是名詞或名詞短語,而評價詞語往往是形容詞,并且評價對象與評價詞語之間具有評價關系.如果一個詞是一個評價對象,則與之具有評價關系的形容詞很可能就是一個評價詞語;反之,如果一個詞是一個評價詞語,則與之具有評價關系的名詞、名詞短語很可能就是一個評價對象.他們將研究重點放在了評價關系發(fā)現(xiàn),進而實現(xiàn)情感要素的抽取.目前相比較無監(jiān)督方法而言,有監(jiān)督學習方法取得較好性能.Wilson等人[9,10]提出基于分類器方法來抽取評價詞語并進一步判定其情感傾向性,但此類基于分類器的抽取方法,是獨立的抽取評價詞語或評價對象,缺乏評價對象和評價詞語之間的類別對應關系.Jin等人[11]提出基于隱馬爾科夫模型的序列標注算法來抽取評價對象和評價詞語,并給出情感傾向性.此方法考慮了句子間的序列關系,但馬爾科夫模型是產(chǎn)生式模型,并不適合于充分利用數(shù)據(jù)的高維特征.

        后來不少研究者發(fā)現(xiàn),情感要素的組合搭配對情感分析有著更直接的幫助.趙等人[12]利用二元評價搭配進行了情感極性消歧的任務.呂等人[13]利用評價對象和評價詞之間的修飾關系進行了在線產(chǎn)品評論用戶滿意度綜合評價研究.另外正確抽取評價對象、評價詞和它們之間的對應關系,可以生成便于用戶閱讀的基于評價對象和評價詞語的文章摘要[14].

        當前評價搭配抽取既是熱點也是難點,尤其是非受限領域微博內(nèi)容.在傳統(tǒng)媒體中,如新聞類型的報道中進行觀點持有者抽取是有意義的,因為不同的媒體擁有不同的觀點信息.然而面對微博這種新媒體是沒有必要進行觀點持有者抽取的,因為發(fā)帖者往往是觀點持有者,所以本文我們重點進行了面向微博的評價對象和評價詞語的聯(lián)合抽取研究,即抽取微博內(nèi)容中的二元評價搭配結(jié)構(gòu)<評價對象,評價詞語>.通過分析和研究,我們將該任務看作是序列化標注任務,提出多特征融合的評價搭配抽取算法,并結(jié)合微博的傳播特性對該算法進行了優(yōu)化.將實驗結(jié)果與施[15]的方法進行了實驗對比,并對實驗結(jié)果進行了綜合分析.

        2 條件隨機場模型

        2.1條件隨機場原理

        條件隨機場(Conditional Random Fields,CRFs)模型是由Lafferty等人[16]于2001年,在最大熵模型和隱馬爾科夫模型的基礎上,提出的一種判別式概率無向圖學習模型,是一種用于標注和切分有序數(shù)據(jù)的條件概率模型.較簡單且最常用的CRFs模型是一階鏈式結(jié)構(gòu)模型,如圖1所示,(a)與(b)均是CRFs模型的圖表示模型,著色節(jié)點表示觀察節(jié)點,未著色節(jié)點表示狀態(tài)節(jié)點.

        若用X=(x1,x2,…,xn)表示一個觀察序列,Y=(y1,y2,…,yn)表示為狀態(tài)(標注)序列,則在給定一個觀察序列的情況下,一階鏈式結(jié)構(gòu)的CRFs模型定義為:

        (1)

        其中Y是字符串的標記序列,X是待標記的字符,fk(yt-1,yt,X,t)是一個任意的特征函數(shù),λk是對應的特征函數(shù)的權重,而Z(X)是歸一化因子,使得上式成為概率分布,其中

        (2)

        CRFs最早是針對序列數(shù)據(jù)分析提出的,本文使用一階鏈式結(jié)構(gòu)CRFs模型來描述句子中單詞出現(xiàn)的序列化結(jié)構(gòu)關系,將評價對象和評價詞語的聯(lián)合抽取任務看作是序列標注任務.目前基于CRFs模型的主要系統(tǒng)實現(xiàn)有CRF、FlexCRF*http://sourceforge.net/projects/flexcrfs/以及CRF++,我們采用著名的條件隨機場開源工具包CRF++0.58*http://code.google.com/p/crfpp/downloads/list,它是目前綜合性能最佳的CRFs工具之一.其使用過程大概分為四個步驟:(1)數(shù)據(jù)預處理,包括數(shù)據(jù)清洗和生成CRF++所規(guī)定的數(shù)據(jù)格式;(2)生成特征模板(template-file);(3)訓練;(4)測試.工具包CRF++0.58使用之前,必須將訓練和測試數(shù)據(jù)轉(zhuǎn)換成其所規(guī)定的數(shù)據(jù)格式,并事先指定特征模板(template-file),該文件描述了訓練和測試時用到的特征情況.實驗過程中可以設計多種類型的特征模板進行實驗操作,數(shù)據(jù)格式以及特征模板請參考CRF++官方網(wǎng)站http://crfpp.sourceforge.net/.

        2.2特征模板

        CRF++是一個泛用的工具,使用時必須事先指定一個特征模板.我們在實驗過程中設計了三種類型的特征模板:T0、T1和T2.我們將T0設為實驗所用的CRF++默認模板,具體如圖2所示.其中,“#”后面的部分屬于注釋內(nèi)容.

        圖2默認模板T0

        為了對比不同特征模板對實驗性能的影響,我們又設計了特征模板T1和T2.T1中將T0中上下文信息的條件項去掉,只保留T0中當前詞的各個特征,即U02:%x[0,0],U12:%x[0,1],U22:%x[0,2],U32:%x[0,3]和U42:%x[0,4],生成新模板T1,如圖3所示.特征模板T2充分考慮了特征信息的組合信息,在T0的基礎上,針對特征列表(Token/POS/DDR/SRL/WD)設計了一個新模板T2,增加了如圖4所示的特征組合信息.

        圖3特征模板T1

        圖4模板T2中增加的特征組合信息

        3 基于統(tǒng)計方法觀點信息聯(lián)合抽取

        句子的序列化結(jié)構(gòu)關系,對評價對象及其評價詞語的標簽類別判斷有直接的幫助.在獲得評價對象與評價詞語的詞法特征、句法特征、語義特征以及相對位置特征后,利用一階鏈式結(jié)構(gòu)的條件隨機場模型,來描述句子中評價對象與評價詞語出現(xiàn)的序列化結(jié)構(gòu)關系,實現(xiàn)面向微博句子級的評價對象和評價詞語的聯(lián)合抽取.

        3.1詞法特征抽取

        (1)詞匯特征.詞匯(token)是自然語言中最小的有意義的構(gòu)成單位,在信息抽取和情感分析方面具有十分重要的作用.然而在中文中,“詞”是沒有清晰地界限的[17],分詞便成為了觀點信息抽取的首要工作.微博自媒體的出現(xiàn)伴隨著大量的未登錄詞和網(wǎng)絡用語,因此在觀點信息抽取過程中,對未登錄詞和網(wǎng)絡用語的識別十分重要.本文重點在文本分詞后的評價對象抽取過程,對分詞系統(tǒng)不做深入研究,所以直接采用哈工大社會計算與信息檢索研究中心提供的語言技術平臺(Language Technology Platform,LTP)開源工具包*https://github.com/HIT-SCIR/ltp進行微博內(nèi)容分詞.LTP提供了一整套自底向上的豐富而且高效的中文語言處理模塊,主要包括分詞、詞性標注、命名實體識別、依存句法分析以及淺層語義標注等中文自然語言處理技術.LTP的分詞模塊是基于機器學習框架、且模型中融入了用戶詞典策略,使得LTP分詞模塊可以很便捷地加入新詞信息,利于微博分詞,且對網(wǎng)絡用語識別具有較好的效果,如“屌絲”、“斑竹”等網(wǎng)絡用語.

        在評價對象與評價詞語的聯(lián)合抽取過程中,使用詞匯特征訓練測試CRFs模型得出預測結(jié)果,從而避免了因識別詞而導致的錯誤,詞匯特征的選用能使聯(lián)合抽取達到不錯的效果.

        (2)詞性特征

        詞性也叫詞類,是根據(jù)一個詞的本意及在短語或句子中的作用劃分的,主要用來描述一個詞在上下文中的作用.詞性標注(Part-of-Speech tagging,POS tagging)是指對句子中的每個詞指派一個合適的詞性,即確定每個詞是動詞、副詞、形容詞、名詞或其他詞性的過程,又稱為詞類標注.LTP詞性標注模塊中使用支持向量機[18]進一步提升了詞性標注的準確率,并針對數(shù)據(jù)稀疏問題,特別是分詞階段的新詞,引入了漢字特有的偏旁部首特征進一步提高了詞性標注的泛化能力.本文采用LTP進行微博內(nèi)容詞性標注.如“比亞迪是非常節(jié)能的”LTP詞性標注結(jié)果為“比亞迪/nh是/v非常/d節(jié)能/v的/u./wp”.

        詞性特征表明了一個詞在句子中的作用.評價對象往往是名詞或名詞短語(如比亞迪/nh),評價詞語則通常是形容詞或動詞(如節(jié)能/v),利用詞性信息訓練測試CRFs模型測試評價對象與評價詞語的聯(lián)合抽取,能夠取得較好的效果.

        3.2句法特征抽取

        依存句法分析是指將一個線性序列的句子轉(zhuǎn)化為一棵結(jié)構(gòu)化的依存分析樹,通過依存弧上的關系標記反映句子中詞匯之間在句法上的語義相關聯(lián)的搭配關系.如“酒店位置很不錯,交通很方便,是一個不錯的酒店.”,其依存句法分析結(jié)果如圖5所示.其中“位置”與“不錯”、“交通”與“方便”均有主謂關系(SBV),“不錯”與“酒店”有定中關系(ATT).由此可見,評價對象和評價詞語之間往往存在著直接依存關系(Direct Dependency Relation,DDR),這種句法特征有利于評價對象和評價詞語的聯(lián)合抽取.

        利用依存句法分析進行評價對象抽取,其核心思想是:在句子依存句法分析結(jié)果中,首先依據(jù)情感詞典定位評價詞語,其次以評價詞為中心尋找恰當?shù)囊来骊P系,最后在依存關系中獲得評價對象.如圖5所示例句,獲得評價詞語“不錯”、“方便”以及SBV、ATT依存關系后即可得到評價對象“位置”、“交通”以及“酒店”.

        句法特征抽取的任務是從句法分析結(jié)果中抽取出合適的依存關系特征信息,主要抽取的依存關系有主謂關系(SBV)、動賓關系(VOB)以及定中關系(ATT).每條微博的LTP依存句法分析返回結(jié)果中,每個詞的句法信息占一行,每一行獨占三列:第一列為依存句法分析的孩子節(jié)點信息,由“節(jié)點名+下劃線+詞ID”組成;第二列為依存句法分析的父親節(jié)點信息,由“節(jié)點名+下劃線+詞ID”組成,如果沒有父親節(jié)點,則由“-1”表示;第三列為具體的依存句法分析關系.句與句的信息之間用兩個換行分割.

        3.3語義特征抽取

        語義分析是根據(jù)句子的句法結(jié)構(gòu)和句中詞匯的詞義,推導出能夠反映句子意義的某種形式化表示,對句子進行語義分析有利于評價對象和評價詞語的聯(lián)合抽取.語義角色標注(Semantic Role Labeling,SRL)是目前語義分析的一種主要實現(xiàn)方式,采用“謂語動詞-角色”的結(jié)構(gòu)形式,即針對給定謂語動詞,標注句子中某些短語承擔的語義角色,每一個語義角色被賦予一定的語義含義.

        通過對微博數(shù)據(jù)集的人工統(tǒng)計分析發(fā)現(xiàn),評價對象往往會擔任某個謂語動詞的語義角色——施事者或受事者,因此利用SRL語義特征能夠較好地捕捉評價對象.仍然采用LTP進行語義角色標注.LTP中核心的語義角色為A0-5六種,A0通常表示動作的施事者,A1通常表示動作的受事者,A2-5根據(jù)謂語動詞不同會有不同的語義含義.評價對象抽取過程中只考慮施事者(A0)和受事者(A1).如“比亞迪是非常節(jié)能的”,其SRL標注圖示如圖6所示.句中“比亞迪”是謂詞“是”和“節(jié)能”的施事者(A0),從而獲得帶有評價詞的二元評價搭配<比亞迪,節(jié)能>.

        評價對象抽取核心思想:在句子SRL標注結(jié)果微博集中,首先定位謂詞(動詞、名詞等)是評價詞的SRL標注,以謂詞為中心尋找當前句中的施事者(A0)作為評價對象,施事者不存在時選取受事者(A1)作為評價對象.

        在語義角色標注過程中,施事者或受事者有時包含多個詞匯,我們選取其中的名詞作為SRL標注結(jié)果.在例句“酒店位置很不錯,交通很方便,是一個不錯的酒店.”中,名詞“酒店”和“位置”均標為A0,如圖7所示.

        謂語動詞的語義角色信息對評價對象抽取有著重要的作用,我們的任務是從SRL標注句子中抽取出合適的語義角色特征信息,主要抽取的角色類型有施事者(A0)、受事者(A1)以及謂詞信息(PRD).每條微博的LTP語義角色標注返回結(jié)果中,每個謂詞的語義角色信息獨占一行,如果一個句子中有多個謂詞,那么占用多行,且行與行之間用換行分割,句與句之間用兩個換行分割.

        3.4相對位置特征

        在用自然語言文本表達觀點時,句子中評價對象與評價詞語的距離(Word Distance,WD)往往是比較近的,尤其是對于內(nèi)容短小、撰寫不規(guī)范的微博來說,當句法特征和語義特征不存在時,位置特征尤為重要.Yi等人[19]以及Hu等人[20]曾利用依存關系特征進行產(chǎn)品評論中評價對象的識別,然而Jakob等人[21]為了防止評價對象和評價詞語不存在依存關系而遺漏信息,進一步使用了相對位置信息作為CRFs模型的另一特征.

        評價對象經(jīng)常出現(xiàn)在評價詞的前邊或者后邊,為了防止詞法特征、句法特征以及語義特征不存在時而漏掉評價對象信息,進而利用評價對象與評價詞的相對位置特征作為CRFs模型的另一特征,實現(xiàn)微博中評價對象與評價詞語的聯(lián)合抽取.

        4 基于轉(zhuǎn)發(fā)關系的聯(lián)合抽取優(yōu)化

        微博有兩個主要功能:一方面是認識更多的人,另一方面是維系當前的朋友關系.《2014年中國社交類應用用戶行為研究報告》*http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/調(diào)查結(jié)果顯示,微博的分享/轉(zhuǎn)發(fā)信息功能使用比例高達66.6%.其中,新浪微博用戶對微博主要功能的使用率較高,60.3%的新浪微博用戶主動分享/轉(zhuǎn)發(fā)信息.另據(jù)實驗室兩位人員分別用自己的新浪賬戶統(tǒng)計,均發(fā)現(xiàn)超過70%的微博擁有轉(zhuǎn)發(fā)關系.

        微博內(nèi)容短小、簡潔,常含有隱性評價對象,不利于評價搭配<評價對象,評價詞語>抽取.通過對帶有轉(zhuǎn)發(fā)關系的微博統(tǒng)計分析,發(fā)現(xiàn)利用微博間轉(zhuǎn)發(fā)關系可以克服這一難點.來自新浪網(wǎng)頁的微博示例如圖8所示.用戶“Gary713”發(fā)布原始博文“杰出科學家余凱將來我校做作報告”,而用戶“Toby-BIT”對其進行了轉(zhuǎn)發(fā)并發(fā)布“威武”博文表示對原始博文內(nèi)容的認同.根據(jù)第3部分的描述可知原始博文存在評價搭配<科學家余凱,杰出>,轉(zhuǎn)發(fā)微博同樣存在評價搭配<科學家余凱,威武>.

        帶有轉(zhuǎn)發(fā)關系的微博提供了更加豐富的信息,一般來說,“轉(zhuǎn)發(fā)”往往意味著對原始微博內(nèi)容以及用戶觀點的贊同,所以我們做出如下假設,其中評價對象記作OT,評價詞記作OW.

        假設當轉(zhuǎn)發(fā)微博只含有評價詞OW時,計算OW與原始微博評價搭配中OWi的語義相似度,取得maxSim(OW,OWi)時的OTi作為轉(zhuǎn)發(fā)微博中OW的評價對象,即.

        評價詞的語義相似度計算采用Hownet API*http://www.keenage.com/html/e-index.html實現(xiàn).Hownet通過用一系列的義原,利用某種知識描述語言來描述一個概念,而這些義原通過上下位關系組織成一個樹狀義原層次體系.對于兩個評價詞語OW1和OW2,如果OW1有n個義元(概念):S11,S12,…,S1n,OW2有m個義元(概念):S21,S22,…,S2m,我們規(guī)定,OW1和OW2的語義相似度為各個概念相似度中的最大值,即:

        (3)

        通過基于轉(zhuǎn)發(fā)關系的隱性評價對象抽取,進而提高評價搭配聯(lián)合識別的性能.

        5 實驗及其結(jié)果分析

        5.1數(shù)據(jù)集及人工標注

        是實驗數(shù)據(jù)由兩部分組成.一部分來自CCF TCCI主辦的“自然語言處理與中文計算會議(NLP&CC)”提供的標注數(shù)據(jù)集,標記為DataSet-1.包含四個話題:“毀容案”、“Ipad”、“抗日神劇”以及“科比”,共405條微博消息.這些數(shù)據(jù)集中擁有轉(zhuǎn)發(fā)關系的微博較少,所以我們依據(jù)第4部分描述的70%原則,人工對405條中的280條內(nèi)容較接近的微博添加了一層轉(zhuǎn)發(fā)關系“forward”,即微博間只存在一次轉(zhuǎn)發(fā).保留標注為“opinionated=Y”的602句主觀句用于CRF模型訓練與測試,并將標注為“target-word”的詞語和評價詞典(來自文獻[22])作為分詞系統(tǒng)的用戶詞典,分詞后生成評價搭配<評價對象,評價詞語>用于實驗性能評估,最終獲得806個標注結(jié)果.另一部分數(shù)據(jù)集來自新浪微博.為了擴充實驗數(shù)據(jù)規(guī)模以及轉(zhuǎn)發(fā)關系的真實性,爬取話題為“iphone5”和“袁隆平”的2200條微博,具有多層轉(zhuǎn)發(fā)關系.通過人工去除只有表情符號、圖片或超鏈接的微博,保留其中較完整的2000條微博,標記為DataSet-2.人工標注其中的評價搭配<評價對象,評價詞語>,且包含了轉(zhuǎn)發(fā)微博的評價搭配,如標注圖8中示例,會有<科學家余凱,杰出>、<科學家余凱,威武>.對于標注有爭議的評價搭配暫不保留,最終獲得3632個標注結(jié)果.

        5.2數(shù)據(jù)預處理

        實驗前對實驗數(shù)據(jù)進行預處理,定義如下過濾規(guī)則使微博內(nèi)容更加規(guī)整:

        規(guī)則1:對微博內(nèi)容按照轉(zhuǎn)發(fā)關系“//”進行劃分,并且使微博內(nèi)容順序翻轉(zhuǎn),這樣保證轉(zhuǎn)發(fā)微博是基于原始微博進行分析的;

        規(guī)則2:對微博內(nèi)容中用戶名進行刪除,即刪除“@+用戶名”結(jié)構(gòu),且刪除如“http://t.cn/h87oy”等超鏈接;

        規(guī)則3:對連續(xù)出現(xiàn)多個標點符號情況,如“。。。。。?!?,“?。。?!”等,采用第一個標點符號進行替換,并去除微博內(nèi)容中的表情符號;

        規(guī)則4:對于微博內(nèi)容中含有“#話題#”的情況,則把“話題”直接作為候選評價對象;

        經(jīng)過上面的規(guī)則預處理,在結(jié)構(gòu)上進行了調(diào)整,利于微博內(nèi)容進行更加深入的分析.

        5.3實驗設置

        實驗采用有監(jiān)督學習方法,為避免過學習或欠學習狀態(tài)發(fā)生,我們采用5折交叉驗證,即隨機將數(shù)據(jù)集分成5份,取其中4份訓練用,另一份測試用,重復5次,最后取平均值.實驗中的正確率、召回率和F值均是5折交叉驗證的結(jié)果.

        另外,把602句標注訓練集分成大小不同的數(shù)據(jù)集合,分別進行5折交叉驗證以觀察數(shù)據(jù)規(guī)模不同條件下的實驗結(jié)果差異性,并進一步驗證不同的特征模板對實驗性能的影響.

        5.4標注集

        利用CRF模型進行訓練和測試過程中,需要將數(shù)據(jù)轉(zhuǎn)換為CRF++所需要的數(shù)據(jù)格式,共六列,分別代表了詞匯特征、詞性特征、句法特征、語義特征、相對位置特征以及標注結(jié)果.其中如果最后一列的標記過于復雜,容易導致特征稀疏現(xiàn)象,所以設計了相對簡單的標注集,如表1所示.在標注結(jié)果序列中如果有出現(xiàn)連續(xù)相同標注,我們則判定其為同一對象.

        表1 標注集及相關說明

        以“剛/BG在/BG網(wǎng)上/BG看到/BG iphone5/OT概念機/OT,/BG忒/BG漂亮/OW !/BG”為例,通過標注我們可以清楚地分析出這句評論中的評價搭配.

        5.5實驗結(jié)果

        發(fā)掘微博中評價對象和評價詞間的多種特征,改進CRF模型的特征模板,結(jié)合微博轉(zhuǎn)發(fā)關系特性進行句子級的評價對象與評價詞語聯(lián)合抽取,我們做了三組實驗.

        (1)基準系統(tǒng)

        Hu等人[20]認為詞性是判斷情感信息的重要依據(jù),采用詞法特征作為我們的基準系統(tǒng).實踐中經(jīng)過多次實驗,發(fā)現(xiàn)當特征模板中特征窗口大小為2時整體性能表現(xiàn)較好,所以實驗中特征窗口閾值均為2.由于基準系統(tǒng)只考慮詞匯特征和詞性特征,故將默認模板T0中其他特征信息刪掉,如DDR、SRL、WD等特征信息.

        我們對DataSet-1中的602句主觀句和405條微博以及DataSet-2分別進行了實驗,在同一默認模板T0、不同規(guī)模數(shù)據(jù)集條件下進行了5折交叉驗證,實驗結(jié)果如表2所示.

        從表2可知,當隨著數(shù)據(jù)規(guī)模不斷增大時,聯(lián)合抽取的整體性能也在不斷遞增.另外,實驗結(jié)果中正確率均要比召回率好一些,這說明在聯(lián)合抽取過程中,漏掉了一些評價搭配,需要我們引入更多特征信息進行進一步挖掘.

        實驗暫不考慮評價搭配與句子觀點傾向性的關系,即評價搭配既可以出現(xiàn)在觀點句中,也可以出現(xiàn)在非觀點句中.如非觀點句“因此蘋果向物流公司提供最可觀的費用”中即存在評價搭配<費用,可觀>.為了驗證轉(zhuǎn)發(fā)關系在聯(lián)合抽取過程中的作用,需要對DataSet-1中602句觀點句以外的其它335句非觀點句進行評價搭配標注,最終獲得895個標注結(jié)果.然后對DataSet-1中的405條微博和DataSet-2中的2000條微博進行實驗,有無轉(zhuǎn)發(fā)關系的實驗結(jié)果如表3所示.

        表2 602句主觀句實驗結(jié)果

        表3 有無轉(zhuǎn)發(fā)關系的實驗對比結(jié)果

        從表3可知,微博間的轉(zhuǎn)發(fā)特征對評價對象和評價詞語的聯(lián)合抽取有著重要的作用.這種轉(zhuǎn)發(fā)關系對DataSet-1的效果不明顯而對DataSet-2的效果卻顯著,并且DataSet-2的抽取結(jié)果整體性能(F值為69%)不如DataSet-1的效果好.我們?nèi)斯し治鰧Ρ攘薉ataSet-1和DataSet-2兩個數(shù)據(jù)集,導致這種現(xiàn)象的主要原因是因為DataSet-1數(shù)據(jù)集經(jīng)過人工處理,且其間的轉(zhuǎn)發(fā)關系是人工隨機添加,缺乏內(nèi)容上的銜接,而DataSet-2是來自新浪微博的原始數(shù)據(jù),內(nèi)容連貫.然而,這卻是造成DataSet-2無轉(zhuǎn)發(fā)關系時聯(lián)合抽取性能較低的主要原因.

        (2)引入句法特征、語義特征、位置特征后的系統(tǒng)實驗

        在基準系統(tǒng)基礎之上,我們逐步引入句法特征、語義特征、位置特征,進行多特征融合的聯(lián)合抽取實驗.句法特征是布爾型特征,指示當前詞與評價詞語是否有直接的SBV、VOB或ATT依存關系,有直接的依存關系記為1,否則為0.語義特征是識別出事件的施事者和受事者,保留最小語義角色單元的Arg0和Arg1兩種信息.相對位置特征是布爾型特征,指示句子中與評價詞語距離最近的名詞或名詞短語.按照CRF模型處理文件的格式要求,將句法特征、語義特征、位置特征處理后的結(jié)果添加到CRF模型訓練與測試文件中進行實驗.

        此次實驗中,將默認特征模板T0復原,按照下述Rule-X規(guī)定,依次恢復其它特征信息,對去除轉(zhuǎn)發(fā)關系的DataSet-1和DataSet-2進行多特征融合的聯(lián)合抽取實驗對比,結(jié)果如表4所示.為了書寫方便,內(nèi)容簡潔,我們做了如下規(guī)定以表相應特征組合:

        Rule-1:Token+POS;

        Rule-2:Token+POS+DDR;

        Rule-3:Token+POS+DDR+SRL;

        Rule-4:Token+POS+DDR+SRL+WD.

        從表4中可以看出詞法特征、句法特征、語義特征以及位置特征對聯(lián)合抽取性能的影響.總體來說,基于多特征融合的聯(lián)合抽取性能要好于我們的基準系統(tǒng),也說明CRFs模型過度依賴于特征,特征選取的好與壞直接影響到識別效果.不過實驗過程中,在加入DDR特征后,性能反而略低于基準系統(tǒng),經(jīng)過分析聯(lián)合抽取結(jié)果發(fā)現(xiàn),主要錯誤出現(xiàn)在評價對象的精確識別方面,即評價對象的邊界識別影響了算法性能,這主要是由以下兩個方面原因造成的:一方面是評價對象本身的構(gòu)成較為復雜,組成不規(guī)范,例如訓練語料中標注的評價對象是“黃渤的肢體”,而我們往往得到的卻是“肢體”.另一方面是由分詞帶來的噪音.因此,如何解決復雜結(jié)構(gòu)短語以及分詞的糾錯是我們今后研究的主要改進方向.

        表4 多特征融合的聯(lián)合抽取實驗結(jié)果

        同時我們進行了基于轉(zhuǎn)發(fā)關系特性的聯(lián)合抽取性能優(yōu)化實驗,將帶轉(zhuǎn)發(fā)關系的DataSet-1和DataSet-2數(shù)據(jù)集在Rule-4特征選擇下,進行實驗對比,結(jié)果如表5所示.

        表5 基于轉(zhuǎn)發(fā)特性的性能優(yōu)化實驗結(jié)果

        從表5可知,在Rule-4特征情況下,轉(zhuǎn)發(fā)關系仍然起到了積極作用,而且對DataSet-2的實驗效果有了比較大程度的提高.再次證明轉(zhuǎn)發(fā)關系特性在微博觀點信息聯(lián)合抽取中的重要作用.從DataSet-1和DataSet-2的數(shù)據(jù)構(gòu)成來說,基于轉(zhuǎn)發(fā)關系的性能優(yōu)化不僅僅依賴于選取的微博特征,還依賴于擁有共同關注點的微博用戶群體.

        (3)不同特征模板條件下的系統(tǒng)實驗

        通過上述(1)和(2)的實驗我們發(fā)現(xiàn),總體來說CRFs模型中引入某一個獨立特征信息均使整體性能有一定程度的提高.那么是否特征的組合信息又會同獨立的特征信息一樣,對微博觀點信息聯(lián)合抽取起到積極作用呢?我們對帶有轉(zhuǎn)發(fā)關系的DataSet-1和DataSet-2進行了最優(yōu)特征模板選擇實驗,即在相同的數(shù)據(jù)條件、不同特征模板下進行,具體實驗結(jié)果如圖9所示.

        圖9顯示,模板T0和模板T2在召回率指標上十分接近,但在準確率指標上模板T2要優(yōu)于模板T0.而模板T1的性能最差,因為我們在設計特征模板T1時沒有考慮特征的上下文信息,在設計特征模板T0和T2時考慮了上下文信息,由于詞語所處的特征上下文的類別標簽、以及特征信息組合的類別標簽對目標詞類別標簽的判斷具有十分重要作用,所以模板T0和T2的實驗結(jié)果也相對更好.說明特征的組合信息同樣會對微博觀點信息的聯(lián)合抽取起到積極作用.

        另外,我們在F值綜合指標上,與施[15]的算法進行了實驗對比,即在相同的數(shù)據(jù)條件下,采用不同特征進行的實驗對比.F值計算如下:

        (4)

        施用到Token+POS+SRL特征及其相應的特征模板,記作Algorithm-1.我們采用Token+POS+DDR+SRL+WD特征以及模板T2,記作Algorithm-2.對DataSet-1中602句觀點句進行實驗,實驗結(jié)果如圖10所示.

        綜合分析圖10中的實驗結(jié)果,本文算法的綜合指標性能要好于施的算法,說明在CRFs模型中往往多個特征的綜合應用效果會更好,也再次證明CRFs模型比較依賴于特征選取.

        (4)與其他評價搭配抽取算法對比實驗

        我們對基于轉(zhuǎn)發(fā)關系的評價搭配抽取性能進行了驗證,并與Popescu等人[23]和姚等人[24]的評價搭配抽取方法進行了對比.Popescu等人利用MINIPAR parser手工構(gòu)建了10條依存句法抽取規(guī)則來獲取隱性評價搭配,姚等人同樣利用依存句法分析總結(jié)出六組“上行路徑”和“下行路徑”匹配規(guī)則來識別評價搭配.

        對比實驗過程中我們構(gòu)建了SBV、VOB、ATT、ADV、APP、COO、DE、DI、DEI、IC十組規(guī)則,分別表示語法關系主謂、動賓、定中、狀中、同位、并列、“的”字結(jié)構(gòu)、“地”字結(jié)構(gòu)、“得”字結(jié)構(gòu)和獨立分句等,并對數(shù)據(jù)集DataSet-2使用了統(tǒng)一的情感詞典和網(wǎng)絡用語庫資源,在文獻[24]方法驗證過程中并未使用本體知識,實驗結(jié)果如下表6所示.

        表6 評價搭配抽取算法對比實驗結(jié)果

        從上表6實驗結(jié)果可以看出,基于轉(zhuǎn)發(fā)關系的評價搭配聯(lián)合抽取性能達到了最優(yōu),盡管Popescu和姚的工作融入了較多對評價對象和評價詞語之間深層關系的挖掘,但是由于匹配規(guī)則的制定存在過多的人工參與,且對微博的覆蓋率較低,Popescu和姚的方法并不能有效識別出微博中隱性評價對象的評價搭配關系.

        6 結(jié)論

        本文創(chuàng)新點在于,提出一種多特征融合的中文微博觀點信息聯(lián)合抽取方法,并進一步利用微博轉(zhuǎn)發(fā)關系特性對抽取結(jié)果進行了優(yōu)化,在同類算法對比實驗中取得了較好的效果.將面向非受限領域微博內(nèi)容的觀點信息聯(lián)合抽取看作是序列標注任務,這樣做有以下三個益處:第一,相較于隱馬爾科夫模型來說,CRF模型不需要嚴格的獨立性假設條件,可以容納任意的上下文信息,特征設計比較靈活.由于識別用戶生成內(nèi)容中的評價對象和評價詞語是一項比較復雜的任務,與其關聯(lián)的因素也有很多,例如詞匯原型、詞性、所扮演的語義角色以及詞的情感先驗等等.標記序列的分布條件屬性,可以讓CRF模型很好的擬和現(xiàn)實數(shù)據(jù),在這些數(shù)據(jù)中,標記序列的條件概率信賴于觀察序列中非獨立的、相互作用的特征.第二,可以充分利用評價對象和評價詞語之間的句法關系、語義關系和位置關系.在序列標注模型中評價對象和評價詞語的抽取不是獨立的,因此可以有效利用它們之間的關系來提升系統(tǒng)的性能.第三,序列標注模型能有效利用句子的語言學結(jié)構(gòu),CRF模型是概率圖模型的一種,它可以利用概率圖的結(jié)構(gòu)有效表達句子的語言學結(jié)構(gòu),充分利用句子的語言學結(jié)構(gòu)提升系統(tǒng)的性能.

        [1]Hu M,Liu B.Mining opinion features in customer reviews[A].Proceedings of the Nineteenth National Conference on Artificial Intelligence[C].AAAI,2004.4(4):755-760.

        [2]Popescu A M,Nguyen B,Etzioni O.OPINE:Extracting product features and opinions from reviews[A].Proceedings of HLT/EMNLP on Interactive Demonstrations[C].ACL,2005.32-33.

        [3]Zhang L,Liu B,Lim S H,et al.Extracting and ranking product features in opinion documents[A].Proceedings of the 23rd International Conference on Computational Linguistics:Posters[C].ACL,2010.1462-1470.

        [4]Liu K,Xu L,Zhao J.Opinion target extraction using word-based translation model[A].Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning[C].ACL,2012.1346-1356.

        [5]Xu L,Liu K,Lai S,et al.Mining opinion words and opinion targets in a two-stage framework[A].Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics[C].ACL,2013.1764-1773.

        [6]Xu L,Liu K,Lai S,et al.Walk and learn:a two-stage approach for opinion words and opinion targets co-extraction[A].Proceedings of the 22nd International Conference on World Wide Web Companion[C].International World Wide Web Conferences Steering Committee,2013.95-96.

        [7]Liu K,Xu L,Zhao J.Extracting opinion targets and opinion words from online reviews with graph co-ranking[A].Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics[C].ACL,2014.314-324.

        [8]Liu K,Xu L,Zhao J.Co-extracting opinion targets and opinion words from online reviews based on the word alignment model[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(3):636-650.

        [9]Wilson T,Wiebe J,Hoffmann P.Recognizing contextual polarity in phrase-level sentiment analysis[A].Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing[C].Vancouver,British Columbia,Canada:ACL,2005.347-354.

        [10]Wilson T,Wiebe J,Hoffmann P.Recognizing contextual polarity:An exploration of features for phrase-level sentiment analysis[J].Computational Linguistics,2009.35(3):399-433.

        [11]Jin W,Ho H H,Srihari R K.Opinion miner:a novel machine learning system for web opinion mining and extraction[A].Proceedings of KDD’2009[C].KDD,2009.1195-1204.

        [12]Zhao Y,Qin B,Liu T.Collocation polarity disambiguation using web-based pseudo contexts[A].Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning[C].ACL,2012.160-170.

        [13]呂品,鐘珞,唐琨皓.在線產(chǎn)品評論用戶滿意度綜合評價研究[J].電子學報,2014,42(4):740-746.

        Lv P,Zhong L,Tang K H.Customer satisfaction degree evaluation of online product review[J].Acta Electronica Sinica,2014,42(4):740-746.(in Chinese)

        [14]莊麗.評論性信息挖掘研究[D].北京:清華大學,2007.

        Zhuang L.Studies on review mining[D].Beijing:Tsinghua University,2007.

        [15]施寒瀟.細粒度情感分析研究[D].蘇州:蘇州大學,2013.

        Shi H X.Research on fine-graind sentiment analyis[D].Suzhou:Soochow University,2013.

        [16]Lafferty JD,McCallum A,Pereira FCN.Conditional random fields:probabilistic models for segmenting and labeling sequence data[A].Proceedings of ICML’2001[C].ICML,2001.282-289.

        [17]黃昌寧,趙海.中文分詞十年回顧[J].中文信息學報,2007,21(3):8-19.

        [18]劉挺,車萬翔,李正華.語言技術平臺[J].中文信息學報,2012,25(6):53-62.

        [19]Yi J,Nasukawa T,Bunescu R,Niblack W.Sentiment analyzer:Extracting sentiments about a given topic using natural language processing techniques[A].Third IEEE International Conference on Data Mining (ICDM 2003)[C].IEEE,2003.427-434.

        [20]Hu M,Liu B.Mining and summarizing customer reviews[A].Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].ACM,2004.168-177.

        [21]Jakob N,Gurevych I.Extracting opinion targets in a single-and cross-domain setting with conditional random fields[A].Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics[C].ACL,2010.1035-1045.

        [22]劉全超,黃河燕,馮沖.基于多特征微博話題情感傾向性判定算法研究[J].中文信息學報,2014,28(4):123-131.

        [23]Popescu A M,Etzioni O.Extracting product features and opinions from reviews[A].Natural Language Processing and Text Mining[M].London:Springer,2007.9-28.

        [24]姚天昉,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統(tǒng)[A].中文信息處理前沿進展-中國中文信息學會二十五周年學術會議論文集[C].北京:清華大學出版社,2006.260-281.

        劉全超男,1982年生于河北,博士研究生,主要研究方向為情感計算、信息抽取.

        黃河燕女,1963年生于湖南,教授,博士生導師,主要研究領域為自然語言處理、機器翻譯.

        Co-Extracting Opinion Targets and Opinion-Bearing Words in Chinese Micro-Blog Texts

        LIU Quan-chao,HUANG He-yan,FENG Chong

        (Department of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081,China)

        Using lexical,syntactic,semantic and relative position features to extract opinion pairs in micro-blog,we put forward the co-extracting model,and then give co-extracting opinion pairs optimization algorithm based on forwarding between micro-blogs.According to the experimental results,our two-stage approach greatly improves the performances of co-extracting opinion pairs.

        opinion mining;information extraction;social network;opinion target;opinion-bearing word;micro-blog

        2015-01-29;

        2015-07-02;責任編輯:李勇鋒

        國家973重點基礎研究發(fā)展計劃(No.2013CB329605)

        TP391

        A

        0372-2112 (2016)07-1662-09

        ??學報URL:http://www.ejournal.org.cn

        10.3969/j.issn.0372-2112.2016.07.021

        猜你喜歡
        語義對象詞語
        神秘來電
        睿士(2023年2期)2023-03-02 02:01:09
        容易混淆的詞語
        找詞語
        語言與語義
        攻略對象的心思好難猜
        意林(2018年3期)2018-03-02 15:17:24
        詞語欣賞
        基于熵的快速掃描法的FNEA初始對象的生成方法
        “上”與“下”語義的不對稱性及其認知闡釋
        區(qū)間對象族的可鎮(zhèn)定性分析
        一枚詞語一門靜
        无遮无挡爽爽免费毛片| 五月婷婷开心五月激情| 久久久久久夜精品精品免费啦| 亚洲第一页综合图片自拍| 四虎影视国产在线观看精品| 蜜桃av多人一区二区三区| 久久日本视频在线观看| 天堂а在线中文在线新版| 国产精品亚洲av无人区一区香蕉| 国产成+人欧美+综合在线观看| 精品国产亚洲AⅤ麻豆| 中文字幕一区二区人妻痴汉电车 | 精品一级一片内射播放| 国产一区二区三区在线电影| 中文在线√天堂| 一区二区三区中文字幕有码| 91久久综合精品久久久综合| 精品www日韩熟女人妻| 97国产免费全部免费观看| 久久无人码人妻一区二区三区| 亚洲一区二区三区中国| 日韩亚洲av无码一区二区三区| 久久国产成人午夜av影院| 亚洲永久精品日韩成人av| 国产激情视频在线观看的| 国内精品久久久久久久影视麻豆| 国产美女av一区二区三区| 亚洲人成网站色在线入口口| 国产三级精品三级在线观看| 亚洲精品亚洲人成在线下载 | 国产乱人伦偷精品视频还看的| 日产精品久久久一区二区| 五十路熟妇亲子交尾| 热热久久超碰精品中文字幕| 亚洲视频网站大全免费看| 射死你天天日| 亚洲欧美香港在线观看三级片 | 国产精品久久久三级18| 无码国产精品一区二区高潮| 无码免费午夜福利片在线| 日本亚洲系列中文字幕|