亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大規(guī)模中文實體情感知識的自動獲取

        2018-09-18 09:18:56陳文亮
        中文信息學報 2018年8期
        關(guān)鍵詞:排序情感

        盧 奇, 陳文亮

        (1. 蘇州大學 計算機科學與技術(shù)學院,江蘇 蘇州 215006; 2. 軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇 蘇州 215006)

        0 引言

        情感分析的目的是讓計算機理解人類情感,它是自然語言處理(NLP)的一個重要研究方向[1-3]。情感分析可以應用于信息抽取、輿情分析等任務中。目前用于情感分析的資源大都是情感詞典,其中英文情感詞典有SentiWordNet、LIWC、ANEW、MPQA等,中文情感詞典有《學生褒貶義詞典》、知網(wǎng)的《情感分析用詞語集》、臺灣大學的《情感詞典》[4]、清華大學的《情感詞典》[5]以及北京大學的《情緒詞典》[6]等。這些情感詞典對情感分析提供了幫助,提高了分析性能。但是僅僅利用情感詞典收錄的情感詞進行實體觀點的傾向性分析效果通常欠佳。

        隨著智能互聯(lián)網(wǎng)時代的到來,人們的需求發(fā)生了變化,人們開始大量使用移動設備對自己的購物、旅游等活動發(fā)表自己的看法和評論。這些評論的數(shù)目增長速度非常快,很多網(wǎng)站的評論數(shù)目達到千萬量級或者更多。由于數(shù)量巨大,用戶在瀏覽時會遇到很大困難。在為用戶提供評論的總結(jié)性摘要過程中,評論描述的實體、屬性或者對象的情感分析變得尤為重要[7]。為了便于描述,下文統(tǒng)一用“對象”來表示實體、屬性。例如,在購物網(wǎng)站上,某款型號電腦的好評率只能給用戶一個大致的印象,還不能提供足夠信息幫助客戶決定是否購買。消費者根據(jù)自己的需求,更想了解這款電腦各個方面的具體評價總結(jié)。電腦的重要特性包括屏幕、電池、CPU、內(nèi)存、散熱等多個方面的性能都會影響客戶判斷。從購物網(wǎng)站的大量評論中自動抽取現(xiàn)有消費者對商品各個方面的褒貶觀點將為潛在用戶提供很大的幫助。因此,從評論中挖掘具體某個對象的消費者觀點是一個非常有意義的研究課題。

        但是,在評論中一個句子同時存在多個對象和多個情感詞,使得自動挖掘?qū)ο蟮南M者觀點變得很困難。在挖掘過程中如果有實體或?qū)傩郧楦斜磉_組合詞典,將會幫助歧義消解。在本文中,情感表達組合采用二元對的方式表達: 對象—觀點詞,例1給出了幾個情感表達組合的二元對。

        例1“價格—高”、“性價比—高”、“食物—精致”、“長城—雄偉”

        構(gòu)建情感表達組合的另一個原因在于: 很多特定的觀點詞只能用于特定的對象。比如“壯觀”“壯闊”形容風景類對象,“鮮美”“肥美”形容食物類對象。因此,如果有大量正確的情感表達組合作為情感資源,將對特定對象的情感分析提供很大的幫助?;谶@個目的,本文主要研究從語料中提取情感表達組合,建立用于情感分析的詞典資源。

        本文的工作分為三步: 情感表達組合候選集的獲取、情感表達組合的排序、情感表達組合的提煉。在候選集獲取階段,我們通過詞性匹配來抽取情感表達組合的候選集,并且保留情感表達組合和模式之間的關(guān)系結(jié)構(gòu)。由于中文表達的多樣性,這些候選集包含著大量錯誤和噪聲。因此本文的難點是如何從大量的候選組合中將正確的情感表達組合挑選出來。針對這個困難,我們從兩方面著手: (1)排序: 在排序階段,我們通過二部圖排序算法利用情感表達組合和模式之間的關(guān)系結(jié)構(gòu)進行排序,同時對模式進行必要的調(diào)整。(2)提煉: 我們利用排序階段得到的排序結(jié)果靠前的情感表達組合作為參考標準?;谡Z義的相似性,通過本文提出的提煉算法在排序靠后的結(jié)果里進行提煉,獲得更多的情感表達組合。實驗結(jié)果表明,二部圖排序算法能很好地對情感表達組合進行高質(zhì)量排序。同時,提煉過程又彌補了二部圖排序算法的一些缺點,進一步成功提取出正確率90%以上的情感表達組合。

        1 相關(guān)工作

        1.1 情感詞典構(gòu)建

        本文工作是為了建立用于情感分析的詞典資源。目前,情感資源構(gòu)建工作主要以情感詞典為主。Esuli等[8]和Baccianella等[9]以WordNet為基礎(chǔ)構(gòu)建了SentiWordNet。首先從幾個褒貶詞通過二元關(guān)系擴展詞語得到種子詞集,然后用褒貶種子詞集和中性種子詞集來訓練三分類器,之后通過分類器對WordNet中所有詞集標記情感傾向,最后通過隨機游走模型分別對得到的褒貶詞集進行情感傾向性調(diào)整,直到最終收斂。這是從詞義關(guān)系上構(gòu)建情感詞典。Turney[10]利用點對互信息來計算短語的褒貶程度。在此基礎(chǔ)上,Banea等[11]計算新的候選詞情感得分后,利用相似性度量、過濾并保留與原始種子集最相似的新詞集。這兩者都是基于同現(xiàn)關(guān)系來構(gòu)建情感詞典。Hatzivassiloglou等[12]在兩千多萬篇新聞語料上,以形容詞作為候選詞,利用連詞構(gòu)建詞語間的相互關(guān)系,將相近詞語聚成簇,通過簇內(nèi)已知的情感詞來判斷整個簇的情感傾向。該方法對數(shù)據(jù)量要求大,利用句法關(guān)系構(gòu)建情感詞典,適合大規(guī)模語料。Kanayama和Nasukawa[13]擴展了Hatzivassiloglou的方法,提出了句子內(nèi)部和句子之間的情感關(guān)聯(lián)性思想。他們認為連續(xù)的若干句子往往具有相同的情感傾向,如果其中一個句子含有情感詞,那么連接它的句子也會含有情感詞,并具有相同的情感極性。這種方法在上下文句子中沒有情感詞的情況下召回率會大大降低。Qiu等人[14-15]沿襲了Kanayama和Nasukawa的工作,他們利用評價詞和評價對象的關(guān)系抽取情感詞并判斷其極性,提出了雙重傳播(double propagation)[16]的思想,這種bootstraping的思想聯(lián)合了抽取評價詞和評價對象。他們借助依存句法、POS標注、parser結(jié)果來分析評價詞和評價對象之間的關(guān)系,再根據(jù)定義的八條規(guī)則迭代擴展情感詞集。這種方法大大增加了召回率,但在詞典擴展的過程中由于引入了噪聲導致準確率不夠高,另外這種方法不適合處理網(wǎng)絡上一些非正式的文本。Agathangelou等人[17]在總結(jié)研究學者的經(jīng)典方法后構(gòu)建了一個多步的方法,同時利用連詞和雙重傳播的方法抽取情感詞,并利用一些語言學模式進行詞語的極性消歧。

        此類方法優(yōu)點是比較簡單,針對性強,能夠抽取特征領(lǐng)域的情感詞;缺點在于較耗時,人工定義規(guī)則也相對有局限性,可擴展性差,在處理網(wǎng)絡上的那些非正式文本時利用語法信息往往會產(chǎn)生很多錯誤。此外,目前情感詞典構(gòu)建工作都局限于構(gòu)建單一的情感詞。沒有將對象和情感詞作為一個整體的“情感知識”進行這種二元對情感詞典構(gòu)建工作。

        1.2 基于對象的情感分析

        和本文另一種類似的相關(guān)工作屬于評價對象和評價詞的抽取工作。李智超[18]將形容詞作為觀點詞,利用模式匹配規(guī)則抽取屬性詞(即對象),對未登錄詞通過“上下文熵”法進行挑選,在特定領(lǐng)域的語料有較好的效果,但是需要人工干預。Popescu[19]構(gòu)建了一個信息抽取系統(tǒng)OPINE,通過名詞和具有一定區(qū)分的符號間的點互信息值獲得產(chǎn)品特征,利用人工構(gòu)建的10條規(guī)則識別觀點詞。劉鴻宇等[20]利用句法分析結(jié)果獲取候選評價對象,結(jié)合PMI算法和名詞剪枝算法對候選評價對象進行篩選。然后分析情感句句型并歸納分析規(guī)則,使用無指導的方法完成評價對象在情感句中的傾向性判斷。Zhuang等[21]采用WordNet、電影知識和標注訓練數(shù)據(jù)等生成關(guān)鍵詞列表,利用規(guī)則獲得對象和觀點對。Kobayashi等[22]利用文本挖掘技術(shù),提出了一種半自動快速收集評價表達的方法。Somprasertsri等[23]和王素格等[24]在句法信息和語義信息的基礎(chǔ)上,提出了一種采用依存關(guān)系提取情感表達組合的方法。

        基于對象的情感分析結(jié)果可以作為本文任務的第一步——構(gòu)建候選集合。由于缺乏人工標注語料,我們采用無監(jiān)督方法,即基于pattern方法。目前基于對象的情感詞識別任務的識別結(jié)果正確率都不是很高,所以本文想通過大規(guī)模語料中的不同句子之間的約束關(guān)系來尋找不同的對象之間的情感詞的差異性。

        2 情感表達組合的獲取

        2.1 情感表達組合候選集的獲取

        2.1.1 對象—觀點對抽取

        本文利用詞性信息來尋找對象和觀點詞的候選。對象的詞性集合:N= {n,ns,vn,nz,s,nr},其中n=名詞、ns=地名、vn=動名詞、nz=其他專名、s=處所詞,nr=人名。觀點詞的詞性選擇和其他研究者[10,18]的做法一致,以形容詞為判斷標準:S={a},其中a=形容詞。

        抽取實例如圖1所示。在抽取時,我們將每句話中詞性滿足集合N的對象{名氣,性價比}添加到列表N_list中,將詞性滿足集合S的觀點詞{大,高}添加到列表S_list中。該句中情感表達組合的最大組合數(shù)為2×2=4。然后,將對象和觀點詞的中間詞串作為pattern添加到對應情感表達組合的pattern列表里。

        圖1 情感表達組合的抽取實例

        為了更準確地反映情感表達組合和pattern之間的映射關(guān)系,我們做了以下處理。在例2和例3中都有pattern{的}。但例2中的“漂亮”修飾“花朵”,而例3中“具體”卻不修飾“訂單”,而是修飾后面的“情況”。在這兩句中,“的”的作用不同。例2中句子的形式是“觀點詞+pattern+對象”,而例3卻是“對象+pattern+觀點詞”。若不加以區(qū)分,那么這兩句的pattern被認為是同樣的“的”,這和實際情況不符。所以在抽取時,我們用(+,-)代表方向,將“對象+pattern+觀點詞”形式的pattern記作pattern-;而“觀點詞+pattern+對象”形式的pattern記作pattern+,對pattern做更細致的區(qū)分。

        例2漂亮_a 的_uj 花朵_n

        例3訂單_n 的_uj 具體_a 使用_v 情況_n

        在整個抽取過程中,我們還統(tǒng)計情感表達組合二元對被pattern匹配的具體次數(shù),即“二元對—pattern—匹配次數(shù)”形式。圖1中抽取后得到的結(jié)構(gòu)如下,在實際抽取過程中,隨著“性價比不高”出現(xiàn)得越多,則其對應的次數(shù)也隨之增加:

        [名氣—大]—— 挺- ——1

        [名氣—高]—— 挺大但是性價比不- ——1

        [性價比—大]—— 但是+ ——1

        [性價比—高] —— 不- ——1

        2.1.2 情感表達組合的調(diào)整

        例4簡陋_a 的_uj 硬件_n 和_c 粗糙_a 的_uj 服務水平_n

        在2.1.1中得到的情感表達組合和pattern的關(guān)系結(jié)構(gòu)中,存在一些常見噪聲。例4給出了一個典型的情況,該句中有兩個對象{硬件,服務水平}和兩個觀點詞{簡陋,粗糙}。按照前面的抽取規(guī)則,我們會得到以下結(jié)構(gòu):

        [硬件—簡陋]—— 的+ ——1

        [硬件—粗糙]—— 和- ——1

        [服務水平—粗糙] —— 的+ ——1

        [服務水平—簡陋]—— 的硬件和粗糙的+ ——1

        由于“和”這樣的pattern屬于很常見的噪聲,會影響2.2排序算法中的效果。故而,我們將并列連詞的pattern去除,例如,和,又,而且,而等。并且根據(jù)2.1.1中給出的實例,由于“觀點詞+‘的’+對象”屬于合理情況,而“對象+‘的’+觀點詞”屬于較常出現(xiàn)的噪聲,因此我們?nèi)コ藀attern“的-”保留“的+”。至于“的硬件和粗糙的”這種出現(xiàn)次數(shù)顯然較少的pattern可以通過排序算法很容易剔除,因此不需要額外處理。另外,考慮到自動分詞會導致詞性標注中存在些許典型的錯誤,對文本進行分析后,我們采用了黑名單詞典的方法去除了“時候,人,免費,美”這些較頻繁的非對象詞語。

        2.2 情感表達組合的排序

        在2.1中,我們抽取了大量的情感表達組合作為候選集。本文獲取候選集方法比較簡單,但是我們的主要目的是盡可能地獲取更多的候選集合,為后續(xù)排序提供候選。候選集包含對象觀點二元對pair和pattern之間的映射關(guān)系。但是,這些映射關(guān)系有很多的錯誤。為此,我們設計了新的排序算法來挑選情感表達組合。排序算法借鑒了Page-Rank[25]算法的核心思想進行以下兩個假設:

        (1) 如果一個pair可以被很多pattern多次匹配,那么說明這個pair比較重要,其分數(shù)相對較高;

        (2) 如果一個pattern可以被很多分數(shù)較高的pair匹配,那么該pattern的分數(shù)也會相應地提高。

        2.2.1 二部圖排序算法

        2.1中我們獲得了情感表達組合和pattern之間的映射關(guān)系,如圖2所示,該關(guān)系是一種二部圖結(jié)構(gòu)。我們可以將這種關(guān)系結(jié)構(gòu)轉(zhuǎn)化成矩陣的形,如圖3所示。Zhang等[26]通過服務和應用之間的二部圖關(guān)系對其進行排序,得到了很好的排序結(jié)果。我們借鑒這種排序算法,同樣利用這種映射關(guān)系對情感表達組合進行排序。

        圖2 二部圖模型,pair和pattern的關(guān)系

        圖3 結(jié)構(gòu)關(guān)系轉(zhuǎn)化為矩陣

        二部圖排序算法的矩陣迭代計算方式,如式(1)所示。

        式(1)中,B是圖3中轉(zhuǎn)化得到的關(guān)系矩陣,A和C是一維矩陣。C代表情感表達組合二元對的分數(shù)矩陣,初始化矩陣向量全為1。A是pattern對應的分數(shù)矩陣。期間,每一次矩陣運算結(jié)束都要對A或C的結(jié)果進行標準化處理,保證Ci和Ci+1具有相同的總分數(shù)。最終,通過式(1)進行迭代運算直至Ci和Ci+1近似收斂,此時可得到每一個情感表達組合的分數(shù)以及pattern的分數(shù)。實際上,把式(1)中兩個式子結(jié)合起來,迭代形式和PageRank算法等效,即:

        norm:

        式(3)中,X是需要標準化處理的矩陣,N是X矩陣的維度,即標準化后X矩陣的總分。式(3)對矩陣X進行標準化處理,使得每一維分數(shù)按照所占的比例重新分配分數(shù),分數(shù)之和為N。之所以這樣標準化處理,是因為實際中矩陣維度很高。如果控制總分數(shù)和為1,則語料之間不具備可比性,因為每一維度平均被分配的分數(shù)不同。隨著規(guī)模越大,每一維被分配的分數(shù)會變低。在同一個收斂闕值情況下,維度越高,直觀上收斂速度越快,但是收斂越不可靠。

        圖4 Ai =B·Ci示意圖

        2.3 情感表達組合的提煉

        2.2中通過二部圖排序算法得到了情感表達組合的排序結(jié)果。經(jīng)過對結(jié)果的采樣分析,排序靠前的情感表達組合正確率較高,但是二部圖排序算法在召回方面有一定的缺陷。排序完成后,依然存在一些正確的二元對被排在了靠后的位置,比如例5。

        例5[杜鵑花—燦爛] —— 盛開的+ —— 1

        [杜鵑花—燦爛] —— 開得很- —— 1

        該情感表達組合有兩個pattern分別代表了“燦爛盛開的杜鵑花”以及“杜鵑花開得很燦爛”。由于該二元對出自旅游語料,而整個語料中涉及花的評論很少,導致了“開得很”這個pattern出現(xiàn)次數(shù)較少。經(jīng)過統(tǒng)計該pattern在語料中僅僅出現(xiàn)16次,在迭代中獲得的分數(shù)較低。因此僅包含該pattern的二元對分數(shù)遠低于其他二元對,導致了“杜鵑花 燦爛”排名較低。反之,在一個關(guān)于花的評論語料中進行情感表達組合的抽取并排序后,“開得很”這個pattern的分數(shù)會因為映射到更多的二元對使得分數(shù)變高,這樣就能成功將和花有關(guān)的情感表達組合排序靠前。同時,只要有其他的評價花朵的pair識別出來后,如“牡丹—燦爛”或者“杜鵑花—鮮艷”,那么我們自然而然地想到利用二部圖排序算法本身得到的高質(zhì)量抽取結(jié)果,并利用pair之間的相似性進行提取。

        基于這樣的原因,我們有必要在排序靠后的結(jié)果中進行提煉,進一步將正確的情感表達組合抽取出來?;诖?,我們提出兩個假設: (1)某個對象的觀點詞具有一定的語義相似性;(2)某個觀點詞描述的對象也具有一定的語義相似性。比如對象“長城”,它所擁有的觀點詞有“雄偉”“壯觀”“宏偉”等。同理,觀點詞“繁茂”一般形容“林木”“灌木”這些。這些對象或觀點詞語義相似度很高,我們可以利用這一點來進行提煉。在語義相似度計算上,我們使用了Google的word2vec[注]http://radimrehurek.com/gensim/models/word2vec.html模型[27]。

        2.3.1 算法描述

        算法 1 情感表達組合提煉算法

        算法1中,OK_list和NO_list是根據(jù)對排序結(jié)果抽樣檢查進行劃分。根據(jù)抽樣檢查結(jié)果,我們以前10%作為合格部分,后90%作為不合格待提煉部分。對每份數(shù)據(jù)固定10%劃分可以實現(xiàn)整個抽取過程的自動化。但是由于語料質(zhì)量的差異,也可以統(tǒng)計正確率后再對語料進行合理的劃分。實現(xiàn)算法之前事先利用word2vec模型將語料訓練成model文件。確定相似度分數(shù)score后開始提煉,將最終scorens和scoresn都滿足score的pair保留為結(jié)果,類似于取交集的過程。

        3 實驗結(jié)果與分析

        3.1 實驗數(shù)據(jù)

        本實驗使用了三種語料: 新聞語料來源于GIGAword[注]https://catalog.ldc.upenn.edu/LDC2011T13,餐館語料來自大眾點評,旅游語料來自攜程,其中餐館語料和旅游語料是用戶評論文本。我們對語料進行預處理: 句子切分、分詞、詞性標注。表1是語料的相關(guān)統(tǒng)計數(shù)據(jù)以及候選對抽取的結(jié)果統(tǒng)計。從表中可以看出候選對的規(guī)模較為龐大,但是經(jīng)過檢查后發(fā)現(xiàn)正確率不高。

        表1 語料規(guī)模及抽取數(shù)量

        3.2 實驗結(jié)果

        我們的實驗過程主要分成三個步驟: 情感表達組合候選集的獲?。磺楦斜磉_組合的排序;情感表達組合的提煉。表2、表3分別展示了2.2排序和2.3提煉兩個階段實驗的正確率統(tǒng)計結(jié)果。所有統(tǒng)計數(shù)據(jù)都經(jīng)過兩名研究生參與評價,各抽取樣例50個,取平均值。若正確率統(tǒng)計結(jié)果差距超過4%,則重新抽取并進行正確率統(tǒng)計。

        表2 二部圖排序后正確率統(tǒng)計

        表2展示了排序?qū)嶒灲Y(jié)果,其中M%~N%表示排序后的結(jié)果分布。實驗結(jié)果表明,本文提出的二部圖排序算法能有效地對情感表達組合進行排序。在表2中,三種語料中前10%的情感表達組合都達到了90%以上的正確率,隨排序往后其正確率也隨之降低。由于二部圖排序算法效果表現(xiàn)優(yōu)秀,后60%正確率才開始大幅度下降,故不再按10%作為劃分標準,而是以30%為一組進行統(tǒng)計。旅游語料相比較另外兩個語料質(zhì)量較好,在前30%的結(jié)果都保持了較高的正確率,故而在實驗2.3中只對其后70%的結(jié)果進行提煉,新聞和餐館語料都是對后90%的結(jié)果進行提煉。

        續(xù)表

        表3中第一欄“>K”表示取相似度K以上的值時對應的正確率統(tǒng)計。從結(jié)果中可以看出,新聞語料區(qū)別于用戶評論語料,正確率下降得最快。當相似度平均分低于0.25時,正確率開始有明顯的降低,此時提煉出情感表達組合有17 198個。餐館語料平均相似度在0.2以上保持了較好的正確率,有情感表達組合52 204個。攜程和餐館都屬于評論語料,和餐館提煉效果相似,在均分0.2以上保持了較高的正確率,但是語料規(guī)模相對較小,只有5 264個情感表達組合。

        我們構(gòu)建了兩種Baseline進行對比: (1)Baseline1: 使用情感表達組合候選集直接作為系統(tǒng)結(jié)果; (2)Baseline2: 按照情感表達組合的出現(xiàn)次數(shù)高低進行排序作為系統(tǒng)結(jié)果。二部圖排序和Baseline2的對比如表4所示。

        表4 二部圖排序和Baseline2的對比(P@N)

        由于獲得的結(jié)果數(shù)量較大,我們無法計算召回率和F值。在實驗中,我們使用了信息檢索的評價方法P@N進行評測。我們分別計算P@10、P@50、P@100和P@200結(jié)果。在表4的結(jié)果中,可以很明顯地看出二部圖排序算法可以提供更好的結(jié)果。此外,我們對錯誤結(jié)果進行了分析,餐館和旅游語料的三處錯誤是由分詞和詞性錯誤引起。而新聞語料是由于其領(lǐng)域的句式復雜度引起,如“基礎(chǔ)-平等”。由于新聞語料中較為頻繁的出現(xiàn)句式“在xxx的基礎(chǔ)上平等地xxx”,導致了{pair: “基礎(chǔ)—平等”,patt: “上”}的比例很高,在算法迭代中獲得了較高的分數(shù)。

        接著我們進一步擴大評價的范圍。表5展示了Baseline1、Baseline2及二部圖排序算法的對比結(jié)果,其中Baseline1是對整個候選集隨機選取樣本進行正確率評估。從旅游語料的三個區(qū)間結(jié)果上看,基于詞頻的排序Baseline2在10%之后正確率開始趨于Baseline1,這說明詞頻和正確率還是存在一定的正相關(guān)性。從表中我們還可以看出,二部圖排序算法比Baseline2可以更好地進行排序。此外,我們還將二部圖排序和Baseline2相應區(qū)間的集合進行了比較,來計算它們之間的不同,在表5中用“集合差占比”表示。在“集合差占比”一欄中,在0%~10%區(qū)間,兩者之間的集合差別在50%左右,這說明二部圖排序算法可以將大量正確的低頻情感表達組合排在較前位置。

        表5 二部圖排序和Baseline1、Baseline2的對比(P@N%)

        最終,我們得到了正確率90%以上的新聞情感表達組合的二元對13.7萬個,餐館二元對14.5萬個,旅游二元對3.2萬個,共計31.4萬個。但是從表3提煉的數(shù)量上來看,雖然保證了正確率,可是在剩下的結(jié)果中依然存在一些情感表達組合未抽取出來。

        此外,由于我們的數(shù)據(jù)量較為龐大,50個抽取樣本可能不足以精確地評估二部圖排序算法的好壞,我們在攜程的數(shù)據(jù)集上進行了4次抽樣統(tǒng)計,來檢測正確率偏移情況,結(jié)果如表6所示。

        表6 旅游語料中隨機采樣50個樣本對正確率統(tǒng)計的影響

        從表6可以看出,在前20%正確率偏移較小,從20%往后,正確率偏移現(xiàn)象開始逐漸明顯,這說明對于排序靠后的結(jié)果,50個統(tǒng)計量不夠精確。但是由于我們的目的是獲取高正確率的情感表達組合,在前30%的結(jié)果中,50個統(tǒng)計量足夠體現(xiàn)二部圖排序算法的排序結(jié)果。

        3.3 實驗分析

        3.3.1 算法描述

        在排序?qū)嶒炛校琾air分數(shù)變化以1E-7作為收斂狀態(tài)值。圖5中記錄了從第一次迭代開始情感表達組合二元對的收斂情況。從中可以看出語料規(guī)模越大,收斂速度越快,三個語料的迭代曲線都是單調(diào)遞減。但在收斂過程中并不是一直平穩(wěn)地下降,期間三個語料都出現(xiàn)了在趨于穩(wěn)定時陡然下降的情況。這是因為pair和pattern的映射關(guān)系導致了部分pair出現(xiàn)一種“抱團”現(xiàn)象。擁有相同pattern的pair,它們的變化幅度相同,形成了一個小集體。當新的一組pair分數(shù)變化開始小于1E-7后,立刻從不穩(wěn)定狀態(tài)變成了穩(wěn)定狀態(tài),這就出現(xiàn)了圖中曲線在穩(wěn)定前發(fā)生的驟降現(xiàn)象。

        圖5 迭代過程中收斂示意圖

        3.3.2 Pattern排序結(jié)果展示

        圖6給出了三個數(shù)據(jù)集排序后前20個pattern的對比。從圖中可以看出,兩種用戶評論語料(餐館、旅游)經(jīng)過排序后,前20個pattern的排序結(jié)果非常相似。兩種用戶評論的語料展現(xiàn)了很強的相關(guān)性,它們之間相同的pattern在圖中用線標示出來。在前20個pattern中,有13個相同。由于新聞語料的風格和前兩種用戶評論的語料不一致,相同的pattern只有“的+”、“不-”和“是-”三個,在圖中用方框圈出。

        圖6 pattern最終收斂后的前20個結(jié)果

        3.3.3 抽取結(jié)果展示

        從表7抽取出的情感表達組合中,分別展示了三個數(shù)據(jù)集上的對象樣例各20個。描述這些對象的觀點詞修飾正確,將對象的主要特點都成功體現(xiàn)出來。當然,其中也存在些許錯誤,比如“洪水 高”。一般“高”形容水位,形容洪水的量詞以“大”為主。“洪水 高”排名高的原因是語料中出現(xiàn)多次“洪水水位高”,從而導致水位被作為分數(shù)較高的pattern使得“洪水 高”這個pair獲得了較高的分數(shù)。

        表7 情感表達組合抽取樣例

        續(xù)表

        4 小結(jié)

        本文提出了一種從大規(guī)模文本語料中自動獲取情感知識詞典的方法。在本文方法中,我們通過二部圖排序算法可以獲得較高正確率的二元對,再通過語義之間的約束進一步提取更多的表達組合。該方法的主要特點是: 可以基于語料自動生成,不需要人工干預設置種子詞或者pattern就可以獲得正確率很高的情感表達組合?;趯ο蟮那楦蟹治鐾蕾嚧罅康耐獠抠Y源以及人工制定的抽取規(guī)則,而本文所提的方法以語料為單位,通過一個完整的大規(guī)模語料得到的對象情感詞結(jié)構(gòu)關(guān)系進行有效的排序以及提煉,并且不需要任何外部資源和人工干預,自動化構(gòu)建情感知識對。實驗結(jié)果表明,本文所提方法能有效地獲取情感表達組合。本文得到的結(jié)果已經(jīng)放在Github[注]https://github.com/rainarch/SentiBridge上。

        本文方法還可以從多個角度進行改進。首先由于使用的三個語料缺少極性標注,所以抽取的情感表達組合沒有標注對應的情感傾向極性,此項內(nèi)容可以作為下一階段的工作繼續(xù)研究?;趯ο蟮那楦性~分析已經(jīng)有了大量的有監(jiān)督方法研究,后續(xù)我們也會人工標注相關(guān)語料構(gòu)建有監(jiān)督系統(tǒng)來改進候選集合獲取方法。其次,抽取的實體或?qū)傩灾g具有一定關(guān)系以及情感觀點詞之間的網(wǎng)絡關(guān)系,為建立一個專門用于情感分析的情感知識圖譜提供了可能。

        猜你喜歡
        排序情感
        排排序
        排序不等式
        如何在情感中自我成長,保持獨立
        被情感操縱的人有多可悲
        恐怖排序
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        節(jié)日排序
        如何在情感中自我成長,保持獨立
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        青青草视频在线观看色| 青青草综合在线观看视频| 日韩精品一区二区三区四区视频| 亚洲熟女少妇一区二区三区青久久| 亚洲成a人v欧美综合天堂| 国产让女高潮的av毛片| 亚洲av无码国产精品久久| 男人扒开添女人下部免费视频| 国产精品天天在线午夜更新| 黄 色 人 成 网 站 免 费| 中文字幕无码高清一区二区三区| 青青草手机在线免费视频| 91九色最新国产在线观看| 久久99精品久久久久麻豆| 精品少妇爆乳无码av无码专区| 成人欧美在线视频| 国产一区二区三区日韩精品| 国语对白福利在线观看| 真实国产乱子伦精品视频| 九九视频在线观看视频6| 国产亚洲精品性爱视频| 免费在线亚洲视频观看| 欧洲多毛裸体xxxxx| 香蕉人妻av久久久久天天| 日本一区二区亚洲三区| 中文字幕av人妻少妇一区二区 | 亚洲国产av精品一区二| 人妻熟妇乱又伦精品视频| 人人狠狠综合久久亚洲| 最近日韩激情中文字幕| 欧美成人精品福利在线视频| 人妻少妇偷人精品视频| 人人鲁人人莫人人爱精品| 亚洲男人第一av网站| 少妇爽到爆视频网站免费| 蜜臀av一区二区三区免费观看| 日本公与熄乱理在线播放| 草草影院国产| 亚洲精品中文字幕不卡| 成人av鲁丝片一区二区免费| 亚洲欧美日韩综合久久久|