盧 玲,楊 武,劉 旭,李 言
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400050)
基于實(shí)體情感演化置信網(wǎng)的觀點(diǎn)檢測(cè)方法
盧 玲,楊 武*,劉 旭,李 言
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400050)
(*通信作者電子郵箱yw@cqut.edu.cn)
社交網(wǎng)絡(luò)評(píng)論文本存在評(píng)論主題缺失或情感特征缺失的問題,無(wú)法保證觀點(diǎn)檢測(cè)的性能, 對(duì)此提出了建立實(shí)體情感演化貝葉斯置信網(wǎng)的方法。通過提取名詞、動(dòng)賓短語(yǔ)、動(dòng)名詞復(fù)合型定中結(jié)構(gòu)短語(yǔ)三種域相關(guān)實(shí)體,提取域相關(guān)情感特征,用可變關(guān)聯(lián)強(qiáng)度作為網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的約束條件,建立2階依賴擴(kuò)展貝葉斯網(wǎng)絡(luò),刻畫實(shí)體、觀點(diǎn)及情感特征的依賴關(guān)系, 再通過實(shí)體及情感特征對(duì)觀點(diǎn)極性進(jìn)行推斷。實(shí)驗(yàn)在自然語(yǔ)言處理與中文計(jì)算2016(NLP&CC2016)評(píng)測(cè)訓(xùn)練數(shù)據(jù)集的F值平均達(dá)70.8%,F(xiàn)AVOR和AGAINST兩類正確率分別比僅包含情感特征的貝葉斯網(wǎng)絡(luò)分類方法提高4.1個(gè)百分點(diǎn)和3.1個(gè)百分點(diǎn)。在5個(gè)Target評(píng)論測(cè)試集上的平均Micro-F為62.3%,優(yōu)于該評(píng)測(cè)的平均水平。
觀點(diǎn)檢測(cè);貝葉斯網(wǎng)絡(luò);域相關(guān)實(shí)體;網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí);定中結(jié)構(gòu)
隨著微博、博客等社交網(wǎng)絡(luò)平臺(tái)的快速發(fā)展,越來越多人通過網(wǎng)絡(luò)發(fā)表評(píng)論。這些評(píng)論信息數(shù)量巨大、形式多樣,其中蘊(yùn)含大量個(gè)人觀點(diǎn),對(duì)其進(jìn)行分析,能為商家、政府部門等[1]提供決策依據(jù),因此觀點(diǎn)檢測(cè)研究被廣泛關(guān)注。觀點(diǎn)檢測(cè)通過自然語(yǔ)言處理及機(jī)器學(xué)習(xí)方法,運(yùn)用觀點(diǎn)提取、極性分析等技術(shù)獲得分析結(jié)果。目前研究者已在該領(lǐng)域展開了大量工作。
從觀點(diǎn)檢測(cè)的語(yǔ)料看,現(xiàn)有研究有域獨(dú)立和域相關(guān)兩種。域獨(dú)立指測(cè)試集與訓(xùn)練集可來自不同領(lǐng)域。Yang等[2]用影評(píng)、商品評(píng)論語(yǔ)料等進(jìn)行跨域?qū)W習(xí),對(duì)50個(gè)不同主題觀點(diǎn)檢測(cè)的精度高于平均值40%~60%。Seki等[3]將商品評(píng)論語(yǔ)料用于產(chǎn)品主題的觀點(diǎn)檢測(cè),獲得了良好性能,但在政治領(lǐng)域的性能較差。域相關(guān)指檢測(cè)方法僅適用于特定領(lǐng)域。Owsley等[4]證明了由于人們?cè)诓煌虻某S迷~匯不同,觀點(diǎn)檢測(cè)性能因領(lǐng)域不同存在很大差異。Na等[5]的研究表明,建立基于特定域的詞典可以提高檢測(cè)性能。總體來看,域相關(guān)方法性能更優(yōu),但犧牲了適用范圍[6]?,F(xiàn)有觀點(diǎn)檢測(cè)常被視為情感分析問題,主要方法有自然語(yǔ)言處理方法和機(jī)器學(xué)習(xí)的方法。自然語(yǔ)言方法通過分析自然語(yǔ)言結(jié)構(gòu)進(jìn)行極性判斷。Hu等[7]以名詞和名詞詞組為特征詞,提取特征詞周圍的形容詞為觀點(diǎn)內(nèi)容。Liu等[8]先提取形容詞、動(dòng)詞等,再運(yùn)用“左側(cè)關(guān)系”提取相應(yīng)特征詞。基于機(jī)器學(xué)習(xí)的方法多將觀點(diǎn)檢測(cè)視為分類問題,常見模型如樸素貝葉斯、支持向量機(jī)等,均被用于觀點(diǎn)檢測(cè)。觀點(diǎn)極性判別策略有定性和定量?jī)煞N。Hu等[9]及Kim等[10]根據(jù)積極詞和消極詞的數(shù)量對(duì)極性進(jìn)行定性判別,Esuli等[11]在判斷主觀詞極性的同時(shí)進(jìn)行了定量評(píng)價(jià)。
總體來看,雖然觀點(diǎn)檢測(cè)領(lǐng)域已展開了大量研究,但社交網(wǎng)絡(luò)平臺(tái)的用戶廣泛參與性使觀點(diǎn)表達(dá)形式日趨多樣,推動(dòng)社交網(wǎng)絡(luò)文本語(yǔ)義發(fā)生演化,使現(xiàn)有研究面臨新的問題。例如一般認(rèn)為客觀句不包含觀點(diǎn),但客觀句同樣可以包含觀點(diǎn)。如對(duì)“俄羅斯在敘利亞的反恐行動(dòng)”話題的評(píng)論句“這是以反恐的名義在實(shí)行戰(zhàn)爭(zhēng)”,該句是客觀句,其中并未出現(xiàn)話題,但表達(dá)了對(duì)話題的消極觀點(diǎn)。另外有情感極性的文本未必包含觀點(diǎn),如話題“IphoneSE”的評(píng)論句“我只是喜歡新手機(jī)的感覺而已”,雖然具有積極情感,但不表達(dá)對(duì)“IphoneSE”的任何觀點(diǎn)。說明用情感分析方法進(jìn)行觀點(diǎn)檢測(cè),在面對(duì)語(yǔ)義更為豐富的社交網(wǎng)絡(luò)文本時(shí)還存在不足。
本文對(duì)特定話題的網(wǎng)絡(luò)評(píng)論文本進(jìn)行觀點(diǎn)檢測(cè),觀點(diǎn)包括支持(FAVOR)和反對(duì)(AGAINST)兩類。文本存在話題缺失或情感特征缺失的問題,其評(píng)論的話題可能未出現(xiàn),可能有情感特征但無(wú)觀點(diǎn),或有觀點(diǎn)但不針對(duì)話題,對(duì)此,將研究重點(diǎn)放在如何根據(jù)非情感特征推斷話題觀點(diǎn)。本文提出構(gòu)建實(shí)體情感演化置信網(wǎng)的方法,通過提取域相關(guān)實(shí)體和情感特征,構(gòu)建貝葉斯置信網(wǎng),刻畫觀點(diǎn)與實(shí)體、情感特征的依賴關(guān)系,進(jìn)而對(duì)話題觀點(diǎn)進(jìn)行推斷。
基于情感分析的檢測(cè)方法常根據(jù)情感特征推斷觀點(diǎn)極性。由于社交網(wǎng)絡(luò)公共事件頻發(fā),評(píng)論人群體多樣,觀點(diǎn)表達(dá)方式多樣,許多非情感特征的名詞、動(dòng)詞在特定語(yǔ)境中產(chǎn)生了情感極性。如話題“春節(jié)放鞭炮”,有如下FAVOR類評(píng)論:
1)“兄弟姐妹搶著貼春聯(lián)、放鞭炮?!?/p>
2)“這是我國(guó)的傳統(tǒng)民俗?!?/p>
句1)中名詞性實(shí)體“春聯(lián)”表達(dá)了積極極性,間接表達(dá)了對(duì)話題的支持觀點(diǎn);句2)中未出現(xiàn)情感詞,但名詞性實(shí)體“傳統(tǒng)民俗”表達(dá)了對(duì)“春節(jié)放鞭炮”的積極極性,間接表達(dá)了對(duì)話題的支持觀點(diǎn)。可見在特定事件背景下,一系列名詞性實(shí)體、動(dòng)名詞短語(yǔ)演化產(chǎn)生了情感的內(nèi)涵。評(píng)論者表達(dá)觀點(diǎn)并非一定用情感詞,用實(shí)體表達(dá)觀點(diǎn)的語(yǔ)言形式已非常普遍。如“這又是一個(gè)官二代事件”,通過名詞性實(shí)體“官二代”表達(dá)了AGAINST觀點(diǎn)。本文對(duì)5個(gè)話題的FAVOR和AGAINST評(píng)論提取名詞實(shí)體。先去除話題中的實(shí)體,再分別去除兩類的前10個(gè)高頻共現(xiàn)實(shí)體,得到按詞頻降序排列的部分中頻實(shí)體如表1所示。
可見實(shí)體與話題觀點(diǎn)有顯著共現(xiàn)關(guān)系,當(dāng)話題缺失時(shí),通過評(píng)論中的實(shí)體也能推斷話題觀點(diǎn)。即判斷對(duì)事件A的觀點(diǎn),但評(píng)論者從未提及A,則通過評(píng)論者談及的事件B及對(duì)B的觀點(diǎn),可間接推斷對(duì)A的觀點(diǎn)。其中事件B由于在事件A下產(chǎn)生了情感的內(nèi)涵,本文將其稱為從事件演化產(chǎn)生情感內(nèi)涵的實(shí)體,對(duì)其進(jìn)行抽取,可用于話題觀點(diǎn)檢測(cè)。
從事件演化產(chǎn)生情感內(nèi)涵的實(shí)體應(yīng)對(duì)事件具有強(qiáng)烈的相關(guān)性或指代性,除名詞外,部分短語(yǔ)的相關(guān)性也較好。如話題“俄羅斯在敘利亞的反恐行動(dòng)”中,短語(yǔ)“土耳其……分子”常表達(dá)對(duì)土耳其的消極觀點(diǎn),間接表達(dá)了對(duì)話題的積極態(tài)度。因此本文提取的實(shí)體包括三類:名詞(n)、動(dòng)賓短語(yǔ)(Verb-OBject structure, VOB)、定中結(jié)構(gòu)短語(yǔ)(ATTributive-centered structure, ATT)。ATT是中心-邊緣圖式結(jié)構(gòu)[12],由定語(yǔ)修飾中心語(yǔ)構(gòu)成。本文提取的定中結(jié)構(gòu)是名詞復(fù)合型定中短語(yǔ),包括名詞詞組和動(dòng)詞+名詞詞組。對(duì)其他定語(yǔ)為形容詞、代詞等定中短語(yǔ),認(rèn)為其定語(yǔ)部分對(duì)事件的指代性不足,不予提取。用哈爾濱工業(yè)大學(xué)的語(yǔ)言技術(shù)平臺(tái)(Language Technology Platform, LTP)進(jìn)行句法依存分析及詞性標(biāo)注,本文抽取的部分實(shí)體如表2所示。
表1 實(shí)體與觀點(diǎn)共現(xiàn)情況Tab. 1 Co-occurrence of entities and stance
表2 實(shí)體及其詞性構(gòu)成Tab. 2 Entities and part of speech
表2中定中短語(yǔ)“中國(guó)@對(duì)立面”,其中心詞為“對(duì)立面”,定語(yǔ)為“中國(guó)”,是名詞復(fù)合型結(jié)構(gòu)。對(duì)定中短語(yǔ)“這@一只@土雞”,其中心詞為名詞“土雞”,而“這”“一只”是非動(dòng)詞性限定詞,則對(duì)該定中短語(yǔ)不予提取,僅提取其名詞中心詞“土雞”。
為保證檢測(cè)準(zhǔn)確率,本文抽取的實(shí)體是同一話題中的域相關(guān)實(shí)體。對(duì)任一文本d={t1,t2,…,tm},其中ti為d的詞項(xiàng)。用哈爾濱工業(yè)大學(xué)LTP進(jìn)行句法依存分析及詞性標(biāo)注。其中ti.depdence為ti所處的依存關(guān)系,ti.parent為ti的依存詞的編號(hào),tparent為ti的依存詞,實(shí)體entity的抽取如算法1所示。
1)令實(shí)體集E={?} 2)for eachtiindentity=tiifti是名詞 ifti.depdence= ‘ATT’parent=ti.parentdoentity=entity.contact(‘@’).contact(tparent)parent=tparent.parentwhiletparent.depdence= ‘ATT’ iftparent.depdence= ‘VOB’entity=tparent.contact(‘@’).contact(entity) endif ‘VOB’E=E∪{entity} endif ‘ATT’ ifti.depdence= ‘VOB’parent=ti.parententity=tparent.contact(‘@’).contact(entity)E=E∪{entity} endif ‘VOB’E=E∪{entity} endif endfor
算法首先檢索文本中的名詞,再以名詞為中心,獲取其依存關(guān)系為ATT或VOB關(guān)系中的相關(guān)詞,連接形成實(shí)體。如句子“放鞭炮的記憶留在腦海中?!币来骊P(guān)系如圖1所示。
圖1 文本的依存關(guān)系示例Fig. 1 Sample of text dependence relationship
抽取的實(shí)體為:鞭炮,記憶,腦海,放@鞭炮,放@鞭炮@記憶,腦海@中。算法中所有詞或短語(yǔ),在實(shí)體抽取前均先判定是否為情感詞,將情感詞作為情感特征,不作為實(shí)體進(jìn)行抽取。
貝葉斯網(wǎng)絡(luò)(Bayesian Network,BN)也叫置信網(wǎng)(Belief Net),它通過一些變量的信息獲取其他概率信息,是對(duì)不確定性進(jìn)行建模的有效工具[13]。BN的拓?fù)浣Y(jié)構(gòu)如圖2所示。其中節(jié)點(diǎn)v1、v2為x的父節(jié)點(diǎn),v3、v4為x的子節(jié)點(diǎn),弧表示節(jié)點(diǎn)間的直接依賴關(guān)系[14],弧上的權(quán)值是關(guān)聯(lián)到每個(gè)節(jié)點(diǎn)的條件概率,描述了依賴關(guān)系的強(qiáng)弱。
圖2 貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)Fig. 2 Topological structure of Bayesian network
用v=(vp,vc) 表示非x節(jié)點(diǎn)的狀態(tài)值,P(x|vp) 表示父節(jié)點(diǎn)狀態(tài)為vp時(shí)x的條件概率,P(vc|x)表示x對(duì)其子節(jié)點(diǎn)狀態(tài)vc的條件概率,節(jié)點(diǎn)x的置信度P(x|v)是指給定v時(shí),非x節(jié)點(diǎn)與x的相關(guān)概率,如式(1)[15]所示:
P(x|v)∝P(vc|x)P(x|vp)
(1)
(2)
將BN用于分類時(shí),網(wǎng)絡(luò)以類別為根,所有特征均為根的子節(jié)點(diǎn)。分類是根據(jù)子節(jié)點(diǎn)的狀態(tài)計(jì)算根的置信度,取置信度最大的狀態(tài)為分類結(jié)果。如忽略特征間的依賴,對(duì)子節(jié)點(diǎn)作獨(dú)立性假設(shè),則根據(jù)式(2)推斷根的置信度,就是樸素貝葉斯分類。為了合理利用特征間的依賴信息以改善分類性能,Sahami[16]提出了k階依賴擴(kuò)展的貝葉斯分類器(k-Dependence Bayesian network classifier,KDB),即每個(gè)特征節(jié)點(diǎn)除根節(jié)點(diǎn)外,至多還可以有k個(gè)非根父節(jié)點(diǎn)。
對(duì)觀點(diǎn)檢測(cè)問題,待測(cè)文本話題缺失或情感特征缺失可能影響檢測(cè)性能??紤]觀點(diǎn)、實(shí)體、情感特征間存在形如〈觀點(diǎn),實(shí)體〉、〈觀點(diǎn),情感特征〉、〈情感特征,實(shí)體〉的依賴關(guān)系,用貝葉斯網(wǎng)絡(luò)刻畫這種關(guān)系,可在部分特征缺失時(shí)仍能推斷觀點(diǎn)極性,因此本文提出構(gòu)建貝葉斯置信網(wǎng)進(jìn)行觀點(diǎn)檢測(cè)。以觀點(diǎn)為根,作為類別節(jié)點(diǎn),其余實(shí)體、情感特征為根的子節(jié)點(diǎn)。對(duì)子節(jié)點(diǎn)間的依賴關(guān)系,綜合考慮分類正確率和效率[17],本文進(jìn)行2階依賴擴(kuò)展,由此得到圖3所示2階依賴擴(kuò)展貝葉斯網(wǎng)絡(luò),將其稱為實(shí)體情感演化置信網(wǎng)(Entity-emotion Evolution Belief Net, EEBN)。其中根節(jié)點(diǎn)x為觀點(diǎn),EN={n1,n2,…,nm}為實(shí)體特征集,EM={e1,e2,…,ek}為情感特征集,弧表示節(jié)點(diǎn)間的依賴關(guān)系。EEBN可根據(jù)EN和EM節(jié)點(diǎn)共同推斷x的狀態(tài),在情感特征缺失或話題缺失時(shí)保證觀點(diǎn)檢測(cè)的召回率。另外,對(duì)特征節(jié)點(diǎn)進(jìn)行2階依賴擴(kuò)展,充分利用特征間的依賴信息,可在一定程度上提高分類性能。
圖3 實(shí)體情感演化置信網(wǎng)Fig. 3 Entity-emotion evolution belief net
為適度簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu),在考慮特征節(jié)點(diǎn)依賴關(guān)系時(shí),對(duì)情感特征進(jìn)行獨(dú)立性假設(shè)。對(duì)任一特征節(jié)點(diǎn)f,其非根弧頭節(jié)點(diǎn)為fp,二者具有實(shí)體-實(shí)體(Entity by Entity, E-E),或?qū)嶓w-情感特征(Entity by Emotion, E-EM)依賴,描述如下:
1)E-E依賴:fp∈ENandf∈EN
2)E-EM依賴:(fp∈ENandf∈EM) or (fp∈EMandf∈EN)
即EEBN只存在實(shí)體間、實(shí)體和情感特征間的依賴。如圖2中實(shí)體特征n1入度為3,其非根父節(jié)點(diǎn)ek為情感特征,nm為實(shí)體特征;情感特征e1入度為3,其非根父節(jié)點(diǎn)為n1、n2均為實(shí)體特征。
對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí),文獻(xiàn)[18]提出了一種基于KDB的連接強(qiáng)度權(quán)重方法。設(shè)置連接強(qiáng)度weight,在計(jì)算特征對(duì)互信息時(shí),僅考慮大小為weight的窗口內(nèi)共現(xiàn)的特征對(duì),但其weight的設(shè)置具有較大的啟發(fā)式特征。本文運(yùn)用文獻(xiàn)[18]方法學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。由于文本中實(shí)體和情感特征多點(diǎn)出現(xiàn),難以對(duì)連接強(qiáng)度設(shè)置較好的經(jīng)驗(yàn)值,對(duì)此本文提出了可變連接強(qiáng)度的方法,對(duì)EEBN的兩種依賴分別設(shè)置連接強(qiáng)度,具體如下:
1)E-E強(qiáng)度:由于全文的實(shí)體都基于特定話題產(chǎn)生,其間均存在不同強(qiáng)度的關(guān)聯(lián),因此將E-E依賴的連接強(qiáng)度置為全文長(zhǎng)度;
2)E-EM強(qiáng)度:由于情感多基于實(shí)體產(chǎn)生,實(shí)體與情感特征距離越近,其關(guān)系越緊密,因此將E-EM依賴的連接強(qiáng)度置為一個(gè)句子的長(zhǎng)度。
令觀點(diǎn)類別為X,實(shí)體集為EN,情感特征集為EM,特征集F=EN∪EM={f1,f2,…,fs},其中fi為F的1個(gè)特征項(xiàng)。對(duì)特征對(duì)(fi,fj)的連接強(qiáng)度互信息MIweight(fi,fj|X),計(jì)算時(shí)只考慮全文范圍內(nèi)共現(xiàn)的實(shí)體對(duì),及共現(xiàn)在同一句子內(nèi)的實(shí)體、情感特征對(duì)。本文貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)如算法2所示:
2)sortForder byMI(fi,X)1<=i<=sdesc
其中weight根據(jù)fi和fj的特征類別,分別為E-E強(qiáng)度或 E-EM強(qiáng)度,由此得到特征對(duì)互信息矩陣
4)初始化貝葉斯網(wǎng)絡(luò)N={X}
5)重復(fù)以下步驟,直到N包括F中所有節(jié)點(diǎn):
①選擇一個(gè)節(jié)點(diǎn)fm,滿足如下2個(gè)條件:
c1:fm?N
c2: foreachfn∈Nandn≠m
MI(fn,X) ②N=N∪{fm},添加一條由X指向fm的弧 ③添加最多k條不重復(fù)的由fj指向fm的弧,其中fj滿足如下3個(gè)條件: c1:fj∈N c2:fj與fm存在E-E或E-EM依賴 c3:foreachfn∈Nandn≠jandn≠mMIweight(fn,fm|X) 6)根據(jù)網(wǎng)絡(luò)N計(jì)算全概率表 對(duì)EEBN的情感特征節(jié)點(diǎn),由于本文重點(diǎn)討論如何利用域相關(guān)實(shí)體提高檢測(cè)性能,故對(duì)情感特征結(jié)構(gòu)不作詳述。本文采用的結(jié)構(gòu)為否定副詞+情感詞。 實(shí)驗(yàn)語(yǔ)料來自自然語(yǔ)言處理與中文計(jì)算2016(Natural Language Processing & Chinese Computing 2016, NLP&CC2016)評(píng)測(cè)。訓(xùn)練集包含5個(gè)話題,每個(gè)話題分別有FAVOR和AGAINST兩類評(píng)論各300條。以每個(gè)話題評(píng)論的75%用于訓(xùn)練,25%用于測(cè)試,用哈爾濱工業(yè)大學(xué)LTP進(jìn)行依存關(guān)系分析,用正確率(Precision, P)、召回率(Recall, R)、F值為評(píng)價(jià)指標(biāo)。以只包含情感特征的BN為Baseline1;包含實(shí)體及情感特征、但沒有依賴擴(kuò)展的BN為EEBN0;包含實(shí)體及情感特征、且有2階依賴擴(kuò)展的BN為EEBN2。為觀察引入實(shí)體特征的有效性,各訓(xùn)練集均保留提取的全部實(shí)體及情感特征,表3所示為5個(gè)話題上的平均測(cè)試結(jié)果。 從表3可以看出, EEBN0比Baseline1的兩類正確率分別提高4.1個(gè)百分點(diǎn)和3.1百分點(diǎn),F(xiàn)值分別提高2.6百分點(diǎn)和2.8百分點(diǎn),整體性能優(yōu)于Baseline1,表明本文的實(shí)體特征對(duì)觀點(diǎn)具有較好的指代性,可緩解話題或情感特征缺失時(shí)觀點(diǎn)無(wú)法召回的問題。EEBN2的兩類F值平均達(dá)0.708 3,其整體測(cè)試性能最優(yōu),但EEBN2的召回率比EEBN0無(wú)顯著提高。對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)方法,分別以KDB方法的2階網(wǎng)絡(luò)為Baseline2、以文獻(xiàn)[18]方法的2階網(wǎng)絡(luò)為Baseline3(連接強(qiáng)度權(quán)重設(shè)為20[18]),與EEBN2對(duì)比測(cè)試結(jié)果如表4所示。 表3 不同方法觀點(diǎn)檢測(cè)結(jié)果對(duì)比 %Tab. 3 Comparison of opinion detection results of different methods % 表4 不同方法建立的網(wǎng)絡(luò)結(jié)構(gòu)有效性對(duì)比 % Tab. 4 Comparison of network structure effectiveness of different methods % 可見EEBN2由于只考慮實(shí)體與情感特征的依賴,從一定程度減少了計(jì)算復(fù)雜度,并保持了分類性能。雖然其召回率無(wú)顯著提高,但正確率及F值均優(yōu)于Baseline2、Baseline3,表明本文用可變連接強(qiáng)度約束特征依賴性的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)方法是有效的??傮w來看,本文提出的EEBN檢測(cè)可以在保持召回率的同時(shí)提高檢測(cè)正確率。分析EEBN2召回率無(wú)顯著提高的原因,EEBN2加入特征依賴信息,用連接強(qiáng)度權(quán)重約束特征的關(guān)聯(lián)強(qiáng)度,通過改善網(wǎng)絡(luò)結(jié)構(gòu)有效性提高了檢測(cè)正確率,但其更強(qiáng)調(diào)特征的共現(xiàn)性,因此制約了召回率的提高。另外,由于本文抽取的是域相關(guān)實(shí)體,因此訓(xùn)練集大小及訓(xùn)練樣本質(zhì)量也是制約召回率的重要因素。本文方法參加了NLP&CC2016評(píng)測(cè),對(duì)5個(gè)話題的3 000條評(píng)論文本進(jìn)行觀點(diǎn)檢測(cè),表5為對(duì)5個(gè)話題的平均檢測(cè)性能,本文方法與評(píng)測(cè)結(jié)果的比較。 表5 NLP&CC2016評(píng)測(cè)結(jié)果Tab. 5 Results of NLP&CC2016 evaluation 在評(píng)測(cè)的16組測(cè)試結(jié)果中,兩類平均F值為60.4%,最高為71.1%,應(yīng)用本文方法的F值達(dá)62.3%,兩類各自的F值也均優(yōu)于評(píng)測(cè)的平均水平,從一定程度上表明了本文方法的有效性。 針對(duì)網(wǎng)絡(luò)評(píng)論文本在主題或情感特征缺失時(shí)的觀點(diǎn)檢測(cè)問題,提出了基于實(shí)體情感演化置信網(wǎng)的檢測(cè)方法。通過構(gòu)建實(shí)體情感演化置信網(wǎng),用特征與觀點(diǎn)及特征間的依賴關(guān)系,推斷觀點(diǎn)極性,并設(shè)置可變連接強(qiáng)度作為網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的約束條件,在簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí)提高其有效性。實(shí)驗(yàn)表明,本文提取的實(shí)體與觀點(diǎn)極性具有較好的相關(guān)性,可從一定程度提高情感特征缺失,或有情感、無(wú)觀點(diǎn)文本的觀點(diǎn)檢測(cè)性能,在保證召回率的同時(shí)提高檢測(cè)正確率。在NLP&CC2016評(píng)測(cè)中,本文方法在5個(gè)話題上的測(cè)試性能均達(dá)到或優(yōu)于評(píng)測(cè)平均水平,也從一定程度上表明了本文方法的有效性。 實(shí)際上,除本文抽取的實(shí)體外,實(shí)體特征還可能有更多的結(jié)構(gòu),有必要學(xué)習(xí)和發(fā)現(xiàn)更多與觀點(diǎn)相關(guān)的語(yǔ)法特征。另外,網(wǎng)絡(luò)結(jié)構(gòu)方面,本文的E-E、E-EM依賴是基于人工對(duì)大量訓(xùn)練樣本的分析提出的,具有一定的啟發(fā)式特征。后續(xù)將在提高網(wǎng)絡(luò)結(jié)構(gòu)的正確性以及將單一網(wǎng)絡(luò)擴(kuò)展為多網(wǎng)絡(luò)的組合決策模型方面,展開進(jìn)一步研究。 References) [1] RAYMOND N, PATRICIA C, DENILSON B, et al. Perspectives on business intelligence[R]. Ontario: University of Waterloo, 2013. [2] YANG H, LUO S, CALLAN J. Knowledge transfer and opinion detection in the TREC2006 blog track[EB/OL].[2016-06-20].http://trec.nist.gov/pubs/trec15/papers/cmu.blog.final.pdf. [3] SEKI K, UEHARA K. Adaptive subjective triggers for opinionated document retrieval[C]// Proceedings of the 2nd ACM International Conference on Web Search and Data Mining. New York: ACM, 2009:25-33. [4] OWSLEY S, SOOD S, HAMMOND K. Domain specific affective classification of documents[C]// Proceedings of AAAI Symposium on Computational Approaches to Analysing Weblogs. Menlo Park, CA: AAAI, 2006:181-183. [5] NA S, LEE Y, NAM S, et al. Improving opinion retrieval based on query-specific sentiment Lexicon[C]// Proceedings of the 31th European Conference on IR Research on Advances in Information Retrieval. Berlin: Springer-Verlag, 2009:734-738. [6] 陳旻,朱凡微,吳明暉,等. 觀點(diǎn)挖掘綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版), 2014,48(8):1461-1472.(CHEN M, ZHU F W, WU M H, et al. Survey of opinion mining[J]. Journal of Zhejiang University (Engineering Science), 2014,48(8):1461-1472.) [7] HU M Q, LIU B. Mining opinion features in customer reviews[C]// Proceedings of the 19th National Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2004:755-760. [8] LIU L Z, LYU Z X. Extract produce features in Chinese Web for opinion mining [J]. Journal of Software, 2013, 8(3):627-632. [9] HU M Q, LIU B. Mining and summarizing customer reviews[C] // Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2004:168-177. [10] KIM S, HOVY E. Determining the sentiment of opinions[C]// Proceedings of the 20th International Conference on Computational Linguistics. Stroudsburg: ACL, 2004: Article No. 1367. [11] ESULI A, SEBASTIANI F. SentiWordNet: a publicly available lexical resource for opinion mining[C]// Proceedings of the 5th International Conference on Language Resources and Evaluation. Genoa: European Language Resources Association, 2006:417-422. [12] 余淼淼,張濤.《荀子》中的定中結(jié)構(gòu)詞匯及短語(yǔ)分析[J].大眾文藝,2008(10):66-67.(YU M M, ZHANG T. Analysis of attributive centered structure vocabulary and phrase in "Xunzi"[J].Art and Literature for the Masses,2008(10):66-67.) [13] KOLLER D, FRIEDMAN N. Probabilistic graphical models: principles and techniques [M]. Cambridge: MIT Press, 2009:50-51. [14] 肖蒙,張友鵬.小數(shù)據(jù)集條件下的多態(tài)系統(tǒng)貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2015, 42(4): 253-257.(XIAO M, ZHANG Y P. Parameters learning of Bayesian networks for multistate system with small sample [J]. Computer Science, 2015, 42(4): 253-257.) [15] DUDA R O, HART P E, STORK D G. Pattern Classification[M]. New York: John Wiley & Sons, 2003:46-47. [16] SAHAMI M. Learning limited dependence Bayesian classifiers[C]// Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. New York: ACM, 1996:335-338. [17] 張劍飛,劉克會(huì),杜曉昕.基于k階依賴擴(kuò)展的貝葉斯網(wǎng)絡(luò)分類器集成學(xué)習(xí)算法[J]. 東北師大學(xué)報(bào)(自然科學(xué)版), 2016,48(1):65-71.(ZHANG J F, LIU K H, DU X X. Ensemble learning basek-dependence Bayesian network classifiers[J]. Journal of Northeast Normal University (Nature Science Edition), 2016,48(1):65-71.) [18] 郭泗輝,樊興華. 一種改進(jìn)的貝葉斯網(wǎng)絡(luò)短文本分類算法[J]. 廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2010,28(3):140-143.(GUO S H, FAN X H. An improved short text classification algorithm based on Bayesian network[J]. Journal of Guangxi Normal University (Natural Science Edition), 2010,28(3):140-143.) This work is partially supported by the Scientific and Technological Research Program of Chongqing Municipal Education Commission (KJ1500903)。 LU Ling, born in 1975, M.S., associate professor. Her research interests include machine learning, information retrieval. YANG Wu, born in 1965, M.S., professor. His research interests include machine learning, information retrieval. LIU Xu, born in 1997, B.S. candidate. His research interests include machine learning, parallel computing. LI Yan, born in 1996, B.S. candidate. His research interests include machine learning, information retrieval. Stance detection method based on entity-emotion evolution belief net LU Ling, YANG Wu*, LIU Xu, LI Yan (CollegeofComputerScienceandEngineering,ChongqingUniversityofTechnology,Chongqing400050,China) To deal with the problem of stance detection of Chinese social network reviews which lack theme or emotion features, a method of stance detection based on entity-emotion evolution Bayesian belief net was proposed in this paper. Firstly, three types of domain dependent entities, including noun, verb-object phrase and verb-noun compound attributive centered structure were extracted. The domain-related emotion features were extracted, and the variable correlation strength was used as a constraint on the learning of the network structure. Then the 2-dependence Bayesian network classifier was constructed to describe the dependence of entity, stance and emotion features. The stance of reviews was deducted from combination condition of entities and emotion features. Experiments were tested on Natural Language Processing & Chinese Computing 2016 (NLP&CC2016). The experimental results show that the average micro-F reaches 70.8%, and average precision of FAVOR and AGAINST increases by 4.1 percentage points and 3.1 percentage points over Bayesian network classification method with emotion features only respectively. The average micro-F on 5 target data sets of evaluation reaches 62.3%, which exceeds average level of the evaluation. stance detection; Bayesian Network (BN); domain dependent entity; network structure learning; attributive-centered structure 2016-09-30; 2016-12-22。 基金項(xiàng)目:重慶市教委科學(xué)技術(shù)研究項(xiàng)目(KJ1500903)。 盧玲(1975—),女,重慶人,副教授,碩士,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、信息檢索; 楊武(1965—),男,重慶人,教授,CCF會(huì)員,主要研究方向:信息檢索、機(jī)器學(xué)習(xí); 劉旭(1997—),男,河北石家莊人, CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、并行計(jì)算; 李言(1996—),男,重慶人, CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、信息檢索。 1001-9081(2017)05-1402-05 10.11772/j.issn.1001-9081.2017.05.1402 TP391.1 A3 實(shí)驗(yàn)結(jié)果及分析
4 結(jié)語(yǔ)