亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        領(lǐng)域相關(guān)的漢語情感詞典擴展

        2015-04-14 07:50:42宋佳穎賀宇付國宏
        中文信息學報 2015年6期
        關(guān)鍵詞:情感評價

        宋佳穎,賀宇,付國宏

        (黑龍江大學計算機科學技術(shù)學院,黑龍江哈爾濱150080)

        1 引言

        隨著Web2.0的興起和社會媒體的迅速發(fā)展,情感分析(亦稱意見挖掘)已成為自然語言處理研究的一個熱點,并在近年得到快速的發(fā)展,出現(xiàn)不同的情感分析系統(tǒng)。但這些系統(tǒng)在大規(guī)模開放應用時依然面臨情感詞典覆蓋度[1-2]、動態(tài)極性識別[3-6]和領(lǐng)域適應性[7-11]等挑戰(zhàn)。一方面,詞語極性是句子情感分類的基礎(chǔ)。因此,大多數(shù)句子情感分類系統(tǒng)一般都帶有一個情感詞典以幫助確定詞語極性[12]。但事先構(gòu)造的情感詞典很難覆蓋開放意見文本中的所有情感詞語。另一方面,許多情感詞語或短語在不同的上下文或領(lǐng)域中呈現(xiàn)不同的極性。例如,在分屬汽車和手機兩個不同領(lǐng)域的評價“油耗高”和“屏幕分辨率高”中,情感詞“高”分別表達負向和正向情感極性;而在“噪音大”和“駕駛空間大”兩個例子中,它們雖同屬汽車領(lǐng)域且使用同一個情感詞“大”,但因其修飾不同的汽車屬性而表達了不同的情感傾向性。因此,情感詞典擴展,特別是領(lǐng)域和上下文相關(guān)的動態(tài)極性詞語的識別和擴展近年來開始引起人們的廣泛關(guān)注[1-11]。

        本文在前人工作基礎(chǔ)上,融合意見要素正規(guī)化信息,改進PolarityRank算法,提出一種面向產(chǎn)品評價文本的領(lǐng)域相關(guān)的漢語情感詞典擴展方法。為此,我們首先采用條件隨機場[13](conditional random fields,CRFs)序列標注方法識別意見句中的產(chǎn)品屬性和評價等意見要素。而后綜合考慮共現(xiàn)詞頻和詞間距離等特征從意見句中進一步抽取屬性-評價對。為了減少詞典擴展的復雜性和噪聲,我們還分別采用Jaccard系數(shù)以及修飾詞、否定詞縮減規(guī)則對抽取的屬性及其評價進行了正規(guī)化。最后,改進基于連接圖的PolarityRank算法擴展極性詞典,使其適用于中文產(chǎn)品評論,從而提升詞典擴展效果。

        本文的組織結(jié)構(gòu)如下:第二節(jié)是相關(guān)研究的總結(jié);第三節(jié)詳細介紹領(lǐng)域相關(guān)的情感詞典擴展方法;第四節(jié)給出本文的實驗結(jié)果及分析;最后一節(jié)是結(jié)論和展望。

        2 相關(guān)研究

        意見要素抽取往往作為情感詞典構(gòu)造和擴展的預處理,其主要任務(wù)是從給定的意見文本中抽取組成意見的要素,包括評價對象及其屬性、評價詞等。典型的意見要素抽取方法主要有規(guī)則方法[14]、基于依存知識的方法[14-15]和機器學習方法[3-4]。Hu和Liu[11]首先利用關(guān)聯(lián)規(guī)則挖掘的方法從產(chǎn)品評論中抽取高頻的名詞及短語作為屬性,擴展已有屬性周邊名詞作為低頻屬性,這種方法由于規(guī)則限定,結(jié)果的召回率不佳。Zhang等[14]以屬性詞典和評價詞詞典為基礎(chǔ),利用依存關(guān)系匹配抽取屬性-評價對。Jakob和Gurevych[16]在CRFs框架下探討了領(lǐng)域內(nèi)和跨領(lǐng)域產(chǎn)品屬性抽取。此外,Wang等[17]以評價詞詞典為基礎(chǔ),采用自舉迭代策略,依據(jù)上下文關(guān)聯(lián)度獲取屬性及其評價詞。

        情感詞典自動擴展研究目前主要圍繞詞典覆蓋度和動態(tài)情感極性獲取兩個問題展開,并形成各具特色的擴展方法[16,18]。Kanayama和Nasukawa[1]將句內(nèi)同現(xiàn)信息和跨句子的同現(xiàn)信息結(jié)合來學習詞和短語的極性,從而構(gòu)造領(lǐng)域相關(guān)的詞典。這種方法強烈依賴于已知的種子情感詞,對于種子詞典不包含的未知情感詞,缺少抽取能力。Qiu等[2]采用雙重繁殖算法利用屬性-情感詞關(guān)系來擴展情感詞典。為了獲取上下文相關(guān)的動態(tài)極性知識,Esuli和Sebastiani[3]利用詞典中詞語的解釋來確定詞語的關(guān)聯(lián)關(guān)系,并以此構(gòu)建詞語網(wǎng)絡(luò),進而通過連線權(quán)重來確定詞語的極性。Wilson等[5]深入分析了影響詞語動態(tài)極性的各種因素,并嘗試在短語層面融合各種特征解決詞語動態(tài)極性問題。此外,Wu和Wen等[6]研究了漢語形容詞的極性消歧問題。雖然這些方法主要關(guān)注動態(tài)極性詞所在的局部上下文,忽視了相關(guān)的領(lǐng)域,因而不能識別領(lǐng)域相關(guān)的情感極性詞。領(lǐng)域相關(guān)的動態(tài)極性詞識別對意見挖掘系統(tǒng)的領(lǐng)域移植至關(guān)重要。為此,Andreevskaia和Bergler[7]、Tan等[8]和呂韶華等人[9]分別從不同角度探討了情感分類系統(tǒng)跨領(lǐng)域移植問題。Klebanov[19]將復述技術(shù)應用于詞典擴展,采用了早期的一種基于樞軸的復述生成技術(shù),對英法雙語平行語料經(jīng)過翻譯得到對應短語作為復述資源完成詞典擴展,通過文本的極性分類對詞典進行了評估,但由于缺乏領(lǐng)域針對性,該詞典無法發(fā)揮最大效用。Yu[20]對已知情感極性的文本進行分析,并不構(gòu)建初步的種子情感詞典,而是通過統(tǒng)計的方法抽取出一些詞語作為情感特征詞,此工作對文本的質(zhì)量要求較高。此外,為了領(lǐng)域動態(tài)極性詞的極性判定問題,Cruz等人[21]以屬性-評價對為單位,提出基于PageRank[22]的隨機游走排列算法PolarityRank,并用連詞結(jié)構(gòu)作為橋梁從未加工的意見語料對種子詞典進行擴展。本文以PolarityRank算法為基礎(chǔ),面向產(chǎn)品評價文本展開漢語領(lǐng)域動態(tài)極性詞典擴展研究。與Cruz等人[21]的研究不同,本文改進PolarityRank算法連接圖構(gòu)圖方式以適應漢語的特點,同時融合產(chǎn)品屬性及其評價的正規(guī)化信息,以減少詞典擴展的噪聲,進而提高詞典擴展質(zhì)量。

        3 情感詞典擴展方法

        3.1 情感詞典擴展任務(wù)

        在本文研究中,情感詞典擴展的任務(wù)是在種子詞典基礎(chǔ)上,從特定領(lǐng)域的產(chǎn)品評價文本中自動抽取未知情感詞語及其屬性,并根據(jù)改進的PolarityRank算法確定相應的情感極性,從而完成相應詞條的構(gòu)造。如圖1所示,本文的情感詞典擴展系統(tǒng)主要包括以下四個模塊。

        (1)預處理模塊的主要任務(wù)是對給定的產(chǎn)品評價文本進行分詞和詞性標注,為后續(xù)的意見要素識別和抽取做準備。為了提高詞法分析的可靠性,本文采用基于語素的分詞和詞性標注一體化的系統(tǒng)[23]完成預處理任務(wù)。

        (2)意見要素識別模塊的主要任務(wù)是在詞法分析基礎(chǔ)上識別產(chǎn)品屬性及其評價等產(chǎn)品意見的主要要素。本文將這一問題視作序列標注問題,并采用條件隨機域方法完成這一任務(wù)。

        圖1 詞典擴展流程圖

        (3)屬性-評價對匹配/合成模塊的任務(wù)是從抽取的屬性和評價中根據(jù)其在意見句中的共現(xiàn)關(guān)系判斷他們是否形成修飾關(guān)系。存在修飾關(guān)系的屬性-評價對實際上是情感詞典潛在的一個擴展詞條。

        (4)屬性-評價對正規(guī)化模塊的任務(wù)是對屬性-評價對中存在的大量互為復述關(guān)系的屬性詞及其評價分別進行正規(guī)化處理,為同一詞意的詞確定一致化標準,從而獲取更多的屬性-評價對情感極性,降低詞典擴展的難度。

        (5)基于PolarityRank的情感詞典擴展模塊的任務(wù)是將步驟(4)正規(guī)化后的屬性評價對作為候選詞條,構(gòu)造相應的無向連接圖,并通過迭代確定相應的情感極性。

        值得注意的是動態(tài)極性詞在不同的領(lǐng)域或不同的上下文中可能呈現(xiàn)不同的情感極性。例如,詞典詞語“高”是一個典型的漢語動態(tài)極性詞語,在“配置-高”中,“配置”表示手機產(chǎn)品的一個屬性,“高”是關(guān)于該屬性的一個評價詞,表示正向情感極性;而在“油耗-高”中,“油耗”是汽車產(chǎn)品的一個屬性,此處的“高”具有負向情感極性。為了確定地描述情感詞語的動態(tài)極性,本文情感詞典的詞條結(jié)構(gòu)為<eval,attr,polar,domain>。其中,eval代表評價詞,attr代表產(chǎn)品屬性,polar代表情感極性,domain代表所在領(lǐng)域標記。產(chǎn)品屬性attr可以是相應產(chǎn)品的某一部分、組件或性能指標。情感極性polar∈{-1,1},其中,-1表示負面(negative)極性,1表示正面(positive)極性。

        下文3.2~3.6節(jié)將分別介紹圖1所示的詞典擴展各模塊的基本原理。

        3.2 意見要素識別

        在詞典擴展中,意見要素識別的主要任務(wù)是識別給定意見句子中的屬性及相應的評價。本文把意見要素識別看作是一個序列標注問題,鑒于條件隨機場模型在解決序列標注問題時的良好表現(xiàn),我們以詞作為序列標注的基本單位,應用條件隨機場框架完成屬性、評價詞的識別。

        如圖2所示,每個意見要素在標注中獲得一個形如x-y的標記。其中,x代表相應詞語在所在意見要素的位置標記,y代表意見要素類別標記??紤]到詞典擴展的實際,本文定義三種意見要素類別標記,即{A,E,O},分別用來表示產(chǎn)品屬性、評價和非意見要素詞語。至于位置標記,本文采用常見的四標記體系,即{S,B,M,E},分別表示單個詞語構(gòu)成的意見要素和意見要素首詞、中間詞和尾詞。此外,在四標記SBME基礎(chǔ)上,本文還引入一個標記I表示意見要素首個中間詞,形成五標記體系SBIME,以提高意見要素標注性能。

        圖2 意見要素標注樣例

        考慮到屬性及其評價的長度,在意見要素序列標注中我們選取當前詞語前后五個詞語窗口內(nèi)詞形和詞性以及相應的一元、二元和三元上下文特征來構(gòu)造特征模板。

        3.3 屬性-評價對合成

        給定一個意見句,它可能蘊含多條意見信息,即一個意見句子可能有多個屬性-評價對。屬性-評價對合成的任務(wù)是從意見句子潛在的多個屬性和評價組合中抽取合適的屬性-評價對。如式(1)所示,為了簡化問題,本文在意見要素標注基礎(chǔ)上,考慮屬性和評價的共現(xiàn)頻度及其距離來確定屬性attr和評價eval匹配的可能性。

        其中,Count(attr,eval)表示屬性attr和評價詞eval在所有產(chǎn)品評論中的共現(xiàn)頻率,Distance(attr,eval)表示在對應句中的屬性和評價詞之間的字數(shù),實際應用時為防止分母為0,對Distance進行了加0.05的調(diào)整,對于中間含有標點符號的情況做了加4的調(diào)整。P(attr,eval)實際上反映了當前的屬性和評價詞匹配成對的可能性。對于同一屬性的每個候選屬性-評價對,我們選取其中P值最大的作為正確的屬性-評價匹配對。

        3.4 屬性-評價對正規(guī)化

        由于用戶生成的意見文本行文比較自由,屬性共指和評價復述現(xiàn)象比較普遍。加之,在分詞和意見要素標注時,評價詞語邊界確定存在不一致的現(xiàn)象。因此,在情感詞典擴展前有必要對屬性和評價進行正規(guī)化,以進一步提高詞典擴展的質(zhì)量。為了簡化問題,本文分別采用Jaccard系數(shù)和規(guī)則方法來分別進行屬性和評價的正規(guī)化。

        (1)屬性正規(guī)化

        由于存在多個屬性詞表示相同意見對象的情況,例如,“屏幕分辨率”和“分辨率”,“油耗”、“耗油”和“耗油量”等,如果這些屬性詞搭配了相同的評價詞,則可以看作是同意的屬性評價對,我們可將其進行一致化處理,從而降低詞典擴展的難度,減少未知極性詞條的數(shù)量。因此我們用式(2)所示的Jaccard系數(shù)計算屬性詞間的相似度,以獲取產(chǎn)品屬性的同意屬性詞簇,為屬性詞生成互為復述的屬性詞集合,選擇集合中在評價文本中出現(xiàn)頻率最高的屬性詞作為標準,對其他屬性詞進行一致化處理。

        其中,mxk表示字符k在短語x中出現(xiàn)的總次數(shù),myk則表示字符k在短語y中出現(xiàn)的總次數(shù)。通過多組實驗為相似度判定確定閾值。

        (2)評價正規(guī)化

        針對抽取得到評價詞切分不規(guī)范及含有冗余信息的現(xiàn)象,我們采用下面規(guī)則處理評價信息。

        Rule 1 由于抽取得到的一些極性詞前面還含有修飾詞,這為后續(xù)的詞典擴展帶來不利的影響,例如,非常硬→硬,有點高→高,這兩個詞對的左右兩邊實際表示了相同的評價意義。在詞典擴展階段,由于抽取得到的很多評價短語含有冗余的修飾部分,會造成連接圖中大量的同類節(jié)點無法合并,這將直接影響情感預測結(jié)果。因此,我們在擴展前先對所有極性詞進行修飾詞的過濾,以達到正規(guī)化的效果。本文過濾的修飾詞包含收集所得的程度副詞、肯定副詞和少量語氣副詞共76個。因而實驗階段構(gòu)建連接圖時,可以有效地減少邊數(shù),從而提高極性預測精度。

        Rule 2 由于抽取得到的極性詞有些還被否定詞所修飾,這種情況也會對極性判定和詞典擴展產(chǎn)生干擾,我們又用八個否定前綴依次對極性詞進行過濾,對去除否定修飾的極性詞再次查找已知詞典,從而獲得更多的已知極性的屬性-評價對,減小詞典擴展的任務(wù)難度。

        3.5 種子詞典

        我們根據(jù)訓練部分的極性信息,得到初始的種子情感詞典,即其中的屬性-評價對詞條都含有對應的情感極性,本節(jié)任務(wù)是完成對測試語料中的詞條的極性預測,從而實現(xiàn)情感詞典的擴展。從訓練語料中抽取得到領(lǐng)域內(nèi)動態(tài)情感詞,汽車領(lǐng)域22個,手機領(lǐng)域20個,在詞典擴展時要對兩類極性詞分別考慮。

        3.6 PolarityRank

        Cruz等人[21]所提出的PolarityRank算法主要用連詞結(jié)構(gòu)作為橋梁來進行情感詞典擴展。然而,漢語產(chǎn)品評價文本中連詞結(jié)構(gòu)并不多見,通常有關(guān)聯(lián)關(guān)系的特征就會出現(xiàn)在同一個短句中。為此,我們對PolarityRank算法進行了改進,通過詞語共現(xiàn)關(guān)系及詞頻構(gòu)建無向連接圖,以適合漢語特性。情感詞典擴展步驟具體如下:

        · 根據(jù)訓練語料和測試語料中的屬性-評價對在評論語句中的共現(xiàn)關(guān)系,構(gòu)建無向圖,出現(xiàn)在同一句評價中的兩個屬性-評價對可以連接成一條邊,屬性-評價對為節(jié)點。構(gòu)建初始圖時,靜態(tài)評價詞和動態(tài)評價詞沒有區(qū)別,在簡化圖階段,節(jié)點合并時兩者的判定會有差別。靜態(tài)評價詞節(jié)點只要評價詞相同就算作相同節(jié)點,動態(tài)評價詞節(jié)點需要對應評價和屬性都完全相同才可以看作是相同節(jié)點。共現(xiàn)頻率作為邊的權(quán)重,節(jié)點合并后邊的權(quán)重也會有相應增加。

        ·未知極性節(jié)點初始極性為0,根據(jù)對每個點計算得到的PR值為節(jié)點更新極性,從而完成對無向圖的節(jié)點極性更新。

        ·迭代計算每個點的PR值直到?jīng)]有新的節(jié)點極性值產(chǎn)生,完成詞典擴展。這里,節(jié)點vi的PR+(vi)和PR-(vi)值可分別采用式(3)和式(4)計算。

        式中,d是一個自定參數(shù),本文采用PageR-ank[22]推薦的0.85。e+i代表與當前節(jié)點vi關(guān)聯(lián)的極性為正的節(jié)點個數(shù),e-i代表與vi關(guān)聯(lián)的極性為負的節(jié)點個數(shù),E(vi)表示與vi相連的邊集,pji表示節(jié)點vi和節(jié)點vj形成的邊的權(quán)重。

        PR+(vi)和PR-(vi)值可分別作為vi所代表的評價詞為正向極性詞、負向極性詞的可能性概率值。由式(3)、式(4)可以看出,每個節(jié)點的極性計算都會考察關(guān)聯(lián)的所有節(jié)點的極性,這也是共現(xiàn)策略的重要應用。節(jié)點vi的極性Polarity(vi)可由以下三條規(guī)則確定。

        (1)若PR+>PR-,Polarity(vi)=1;

        (2)若PR+<PR-,Polarity(vi)=-1;

        (3)若PR+=PR-,Polarity(vi)=0。

        圖3給出詞典擴展算法的偽碼描述。該算法的基本思想為:每次迭代將新得到極性的屬性評價對作為已知詞條,繼續(xù)下一輪計算,直到獲得極性的屬性-評價對不再增加為止。

        圖3 詞典擴展算法

        4 實驗結(jié)果與分析

        為了驗證上述方法的有效性,我們構(gòu)建一個領(lǐng)域相關(guān)的情感詞典擴展系統(tǒng),并分別應用于汽車和手機兩種產(chǎn)品評論的情感極性分析。本節(jié)將給出相應的實驗結(jié)果及其分析。

        4.1 實驗數(shù)據(jù)

        如表1所示,本文實驗所用語料來自汽車、手機兩個領(lǐng)域的網(wǎng)絡(luò)用戶評價并進行了意見要素的標注,標注內(nèi)容包括意見對象、產(chǎn)品屬性、評價和屬性-評價對對應的情感極性。意見要素標注形式如圖4所示。

        表1 實驗語料統(tǒng)計信息

        圖4 實驗語料標注樣例

        表2給出了測試語料中未知極性詞語的統(tǒng)計信息。

        表2 測試語料中未知極性詞語統(tǒng)計

        4.2 屬性評價詞抽取結(jié)果

        為了驗證意見要素標注性能對詞典擴展質(zhì)量可能產(chǎn)生的影響,我們測試了不同標記下不同領(lǐng)域的意見要素標注效果。本實驗的測試指標為精確率(Precision,P)、召回率(Recall,R)和F-測度(F)。結(jié)果如表3所示。

        表3 意見要素標注結(jié)果

        從表3的結(jié)果可以看出:五標記系統(tǒng)在兩個領(lǐng)域的抽取結(jié)果都明顯優(yōu)于相應的四標記系統(tǒng)。因此,后續(xù)的實驗均采用五標記系統(tǒng)抽取所得的屬性和評價詞。對汽車和手機兩個領(lǐng)域測試語料中所識別的屬性和評價進一步采用3.3節(jié)的匹配原則,分別得到687和1 135個屬性-評價對。

        4.3 情感詞典擴展結(jié)果

        為了考察不同因素對情感詞典擴展的影響,我們在實際情感詞典擴展測試中設(shè)計了以下五組實驗。

        實驗1 應用3.6節(jié)的詞典擴展算法直接預測測試語料中未知極性詞的極性;

        實驗2 針對人工標注的測試語料中的各個屬性-評價對(金標數(shù)據(jù)),應用3.6節(jié)的詞典擴展算法判定屬性-評價對極性;

        實驗3 先用3.4節(jié)的屬性正規(guī)化方法對所有屬性進行標準化處理,再用3.6節(jié)詞典擴展算法預測測試語料中未知極性詞的極性;

        實驗4 先用3.4節(jié)的屬性正規(guī)化方法對所有屬性進行標準化處理以及評價正規(guī)化規(guī)則1過濾修飾詞,再應用3.6節(jié)詞典擴展算法預測測試語料中未知詞極性;

        實驗5 先通過3.4節(jié)的屬性正規(guī)化方法標準化屬性詞,再用評價正規(guī)化規(guī)則1為極性詞過濾修飾詞,用規(guī)則2過濾否定詞,最后應用3.6節(jié)算法擴展詞典。

        詞典擴展的構(gòu)圖階段在實驗1時共得到汽車領(lǐng)域?qū)傩裕u價對節(jié)點3 292個,邊數(shù)為2 417條。手機領(lǐng)域節(jié)點4 019個,邊數(shù)為1 414條,而經(jīng)過正規(guī)化后實驗5的汽車領(lǐng)域邊數(shù)減少為2 213條,手機領(lǐng)域的邊數(shù)減少為1 279條,有效合并了相同意見節(jié)點。屬性一致化時本著使盡可能多的有共指關(guān)系的屬性能被識別的原則,確定3.4節(jié)的相似度計算閾值為0.5。評測部分采用常用指標準確率(P)、召回率(R)和F-測度(F),為了考察對兩類極性詞詞典的擴展效果,首先對動態(tài)極性和靜態(tài)極性詞進行了分別評測,然后對合并的極性詞典完成評測。實驗結(jié)果如表4和表5所示。

        表4 汽車領(lǐng)域詞典擴展結(jié)果

        表5 手機領(lǐng)域詞典擴展結(jié)果

        從表4和表5的實驗結(jié)果可以看出:(1)對比實驗1、3、4和5的結(jié)果,經(jīng)過正規(guī)化處理后,兩個領(lǐng)域的極性詞典擴展性能均得到較大提高;(2)同等條件下,實驗2的擴展性能優(yōu)于相應的實驗1的結(jié)果,這說明意見要素識別以及屬性-評價對匹配性能直接影響到詞典擴展性能。此外,同等條件下,手機領(lǐng)域的詞典擴展結(jié)果優(yōu)于汽車領(lǐng)域,其原因可能是汽車評價文本質(zhì)量本身較差,相應的意見要素識別性能較低(表3),從而導致最后的詞典擴展性能不佳。

        4.4 擴展的情感詞典對情感極性分類的影響

        為了進一步說明領(lǐng)域詞典擴展對情感分析的影響,我們從上述兩個領(lǐng)域的語料中隨機抽取1 000句,并采用以下三組不同的詞典進行句子級情感極性分類測試。

        詞典一 知網(wǎng)(HowNet)+臺灣大學(NTUSD)+ 清華大學(漢語情感詞極值表);

        詞典二 詞典一+本文構(gòu)建的靜態(tài)情感詞典(4.3節(jié)實驗5);

        詞典三 詞典二+本文構(gòu)建的動態(tài)情感詞典(4.3節(jié)實驗5)。

        注意:本實驗的情感極性分類采用簡單的基于詞袋模型的分類方法,通過詞典中的情感詞給各句打分,完成極性判定。實驗結(jié)果如表6所示。

        表6 采用不同詞典時的情感極性分類結(jié)果

        表6的實驗結(jié)果顯示:加入擴展的領(lǐng)域靜態(tài)情感詞語后,雖然極性分類的精確度稍有下降,但在召回率和F值方面都有顯著的提高,這從側(cè)面說明增加情感詞典的覆蓋度有助于提高情感極性分類的召回率和整體性能。相比于加入擴展的領(lǐng)域靜態(tài)詞語,在加入擴展的動態(tài)情感詞語后,情感極性分類的召回率和F-值提升幅度更為明顯,這進一步驗證了領(lǐng)域情感詞典對于領(lǐng)域相關(guān)的情感分析和意見挖掘的重要意義。

        5 結(jié)論與展望

        針對漢語產(chǎn)品評論的特點,本文融合意見要素正規(guī)化信息,提出一種面向漢語產(chǎn)品評價的基于PolarityRank的領(lǐng)域相關(guān)的情感詞典擴展方法。在汽車和手機兩個領(lǐng)域的產(chǎn)品評價語料上的實驗結(jié)果表明意見要素標注以及正規(guī)化直接影響到情感詞典的質(zhì)量。相應的句子情感極性分類實驗表明引入擴展的領(lǐng)域相關(guān)的情感詞語可以有效提高情感分類性能。

        雖然本文實驗取得預期結(jié)果,證明了領(lǐng)域相關(guān)的情感詞典對于漢語情感分析的意義。但由于本文研究的重點限制,所采取的意見要素正規(guī)化、屬性-評價對抽取和情感極性分類方法均比較簡單,不夠系統(tǒng),可能影響到情感詞典擴展性能。在將來的研究中,我們將系統(tǒng)探索上述這些問題,同時擴大語料規(guī)模和領(lǐng)域范圍,以進一步提高領(lǐng)域相關(guān)的情感詞典擴展性能。

        [1] H Kanayama,T Nasukawa.Fully automatic lexicon expansion for domain-oriented sentiment analysis[C]//Proceedings of EMNLP'06,2006:355-363.

        [2] G Qiu,B Liu,J Bu,C Chen.Opinion word expansion and target extraction through double propagation[J].Computational Linguistics,2011,37(1):9-27.

        [3] A Esuli,F(xiàn) Sebastiani.Determining the semantic orientation of terms through gloss classification[C]//Proceedings of the CIKM'05,2005:617-624.

        [4] 王榮洋,鞠久鵬,李壽山,周國棟.基于CRFs的評價對象抽取特征研究[J].中文信息學報,2012,26(2):56-61.

        [5] T Wilson,J Wiebe,P Hoffmann.Recognizing contextual polarity:An exploration of features for phraselevel sentiment analysis[J].Computational Linguistics,2009,35(3):399-434.

        [6] Y Wu,M Wen.Disambiguating dynamic sentiment ambiguous adjectives[C]//Proceedings of COLING'10,2010:1191-1199.

        [7] A Andreevskaia,S Bergler.When specialists and generalists work together:Overcoming domain dependence in sentiment tagging[C]//Proceedings of ACL '08,2008:290-298.

        [8] S Tan,G Wu,H Tang and X Cheng.A novel scheme for domain-transfer problem in the context of sentiment analysis[C]//Proceedings of CIKM'07,2007:979-982.

        [9] 呂韶華,楊亮,林鴻飛.基于SimRank的跨領(lǐng)域情感傾向性分析算法研究[J].中文信息學報,2012,26(6):38-44.

        [10] A Ismail,S Manandhar.Bilingual lexicon extraction from comparable corpora using in-domain terms[C]//Proceedings of COLING'10,2010:481-489.

        [11] M Hu,B Liu.Mining opinion features in customer reviews[C]//Proceedings of AAAI'04,2004:755-760.

        [12] 傅向華,劉國,郭巖巖,郭武彪.中文博客多方面話題情感分析研究[J].中文信息學報,2013,27(1):47-55.

        [13] J Lafferty,A McCallum,F(xiàn) Pereira.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of ICML'01,2001:282-289.

        [14] L Zhang,F(xiàn) Jing,X Zhu.Movie review mining and summarization[C]//Proceedings of CIKM'06.2006:43-50.

        [15] 劉鴻宇,趙妍妍,秦兵,劉挺.評價對象抽取及其傾向性分析[J].中文信息學報,2010,24(1):84-88.

        [16] N Jakob,I Gurevych.Using anaphora resolution to improve opinion target identification in movie reviews[C]//Proceedings of ACL'10,2010:263-268.

        [17] B Wang,H Wang.Bootstrapping both product features and opinion words from Chinese customer reviews with cross-inducing[C]//Proceedings of IJCNLP'08,2008:289-295.

        [18] 李壽山,李逸薇,黃居仁,蘇艷.基于雙語信息和標簽傳播算法的中文情感詞典構(gòu)建方法[J].中文信息學報,2013,27(6):75-81.

        [19] B Klebanov,N Madnani,J Burstein.Using Pivot-Based Paraphrasing and Sentiment Profiles to Improve a Subjectivity Lexicon for Essay Data[J].TACL,2013,1:99-110.

        [20] H Yu,Z Deng,S Li.Identifying Sentiment Words Using an Optimization-based Model without Seed Words[C]//Proceedings of ACL'13.2013:855-859.

        [21] F Cruz,J Troyano,F(xiàn) Ortega,et al.Automatic expansion of feature-level opinion lexicons[C]//Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis,2011:125-131.

        [22] L Page,S Brin,R Motwani,et al.The PageRank citation ranking:bringing order to the web[J].1999-66:Stanford Digital Library Technologies Project.

        [23] G Fu,C Kit,J Webster.Chinese word segmentation as morpheme-based lexical chunking[J].Information Sciences,2008,178(9):2282-2296.

        猜你喜歡
        情感評價
        SBR改性瀝青的穩(wěn)定性評價
        石油瀝青(2021年4期)2021-10-14 08:50:44
        中藥治療室性早搏系統(tǒng)評價再評價
        如何在情感中自我成長,保持獨立
        被情感操縱的人有多可悲
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長,保持獨立
        情感移植
        基于Moodle的學習評價
        關(guān)于項目后評價中“專項”后評價的探討
        亚洲熟妇中文字幕日产无码| 亚洲日韩国产一区二区三区在线| 人妻 日韩精品 中文字幕| 亚洲国产精品国语在线| 中文字幕亚洲精品高清| 国产三a级三级日产三级野外| 特级a欧美做爰片第一次| 欧美一级色图| 极品少妇一区二区三区四区| 91自拍视频国产精品| 久久超碰97人人做人人爱| 99视频这里有精品| 日本成人三级视频网站| 青青草免费手机视频在线观看| 最新精品国偷自产在线| 亚洲国产午夜精品乱码| 最新日本免费一区二区三区| 日本精品一区二区三区福利视频 | 先锋影音最新色资源站 | 一区二区三区在线观看日本视频| 国产性虐视频在线观看| 亚洲av无码专区亚洲av伊甸园| 午夜精品久久久| 亚洲精品一区二区三区蜜臀| 亚洲av网一区二区三区| 熟妇人妻无乱码中文字幕| 久久中文字幕日韩精品| 日本二区三区在线免费| 蜜臀av色欲a片无码精品一区| 国产精品香蕉在线观看| 精品一区二区三区中文字幕在线| 久久精品国产av麻豆五月丁| 亚洲avav天堂av在线网爱情| 亚洲黄色尤物视频| 亚洲成熟中老妇女视频| 免费人妻无码不卡中文字幕系| 亚洲成a人片在线观看久| 免费高清日本一区二区| 亚洲人成网站在线播放2019| 野外性史欧美k8播放| 国产精品国产三级国产av主|