亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        極性相似度計算在詞匯傾向性識別中的應(yīng)用

        2010-07-18 03:11:58宋樂何婷婷王倩聞彬
        中文信息學(xué)報 2010年4期
        關(guān)鍵詞:語義詞匯情感

        宋樂,何婷婷,王倩,聞彬

        (1.華中師范大學(xué)計算機科學(xué)與技術(shù)系,湖北武漢430079)

        (2.國家語言資源監(jiān)測與研究中心網(wǎng)絡(luò)媒體分中心,湖北武漢430079)

        1 引言

        自上個世紀(jì)80年代以來,互聯(lián)網(wǎng)信息與日俱增。如何在短時間內(nèi)獲取大量客體(人物、事件、產(chǎn)品等)的評價信息,就成了迫切需要研究的課題。

        在這一背景下,文本的傾向性分析是當(dāng)前自然語言文本處理領(lǐng)域的研究熱點,并且在市場預(yù)測分析、民意調(diào)查、智能導(dǎo)購、大眾評論等諸多領(lǐng)域有著廣闊的應(yīng)用空間和發(fā)展前景。此外,文本傾向性分析也為文本分類、信息抽取、自動摘要等自然語言處理技術(shù)提供了新的研究思路。

        心理學(xué)研究[1]表明,詞匯和人類情感之間的關(guān)系是可度量的,獨立的詞匯或短語的語義傾向?qū)τ趥鬟_人類情感是重要的。由此可見,詞匯的傾向性識別是文本傾向性研究的基礎(chǔ)。

        詞匯的傾向性識別主要有兩類方法——統(tǒng)計方法和語義方法[2]。統(tǒng)計方法主要是基于機器學(xué)習(xí),利用文檔集中詞匯間的共現(xiàn)關(guān)系來計算詞匯的傾向性。早在 1997年,Hatzivassilog lou和 M cKeown就嘗試使用連接形容詞的連詞的語言學(xué)約束來判斷所連接的兩個形容詞表達的感情是否一致,然后用聚類方法來獲得表示情感傾向的兩個形容詞類[3]。在2003年,Peter D.Turney和M ichael L.Littman[4]使用的點互信息(PM I-IR)方法利用了搜索引擎提供的“NEAR”操作,來估計詞匯與具有強烈傾向意義的種子詞集合的關(guān)聯(lián)程度,以此作為計算該詞傾向性的依據(jù)。同年,Yu和 Hatzivassiloglou[5]挑選出若干極性較強的形容詞(情感詞)構(gòu)建一個種子詞集合,通過計算新詞和種子集合中的詞的共現(xiàn)概率來判斷新詞的語義傾向。語義方法主要是基于一個現(xiàn)存的本體知識庫,如英文的WordNet和中文的How Net,通過計算待估詞與選定的基準(zhǔn)詞的語義距離,進而判斷待估詞的傾向性。2002年,Kamps等[6]正是利用WordNet的同義結(jié)構(gòu)圖計算待估詞與所選基準(zhǔn)詞的語義距離來得到其傾向性。在中文方面,復(fù)旦大學(xué)的朱嫣嵐等[7]在2006年提出的基于How Net的詞匯語義傾向性計算方法,利用詞語間的相似度來計算詞的褒貶程度。

        本文介紹了一種基于極性相似度計算的詞匯傾向性識別方法,該方法首先利用 How Net中的“良”,“莠”極性義原計算出未定詞與基準(zhǔn)詞間的極性相似度,然后得出詞匯的極性值,從而識別出其極性傾向。我們在第一屆中文傾向性分析評測比賽中使用了此方法,評測表明此方法能夠有效地提高詞匯傾向性識別的準(zhǔn)確率。

        2 詞匯的極性相似度計算

        2.1 極性相似度的引入

        《知網(wǎng)》(How Net)[8]的結(jié)構(gòu)化特點,為漢語詞匯語義的相似度計算[9]提出了新的思路和方法。傳統(tǒng)意義上的相似度主要反映的是詞語語義的相似程度,也可以理解為兩個詞語在不同上下文環(huán)境中可以互相替換使用,而不改變句法語義結(jié)構(gòu)的程度。劉群等[10]提出了一種詞匯語義相似度計算方法。雖然這種語義相似度能夠反映詞語在句法結(jié)構(gòu)上的相似程度,但卻很難體現(xiàn)詞匯在極性程度上的相似性,如表 1、2 所示。

        由表1、2可以看出:詞性相同而極性不同的詞語相似度很大,但詞性不同而極性相同的詞語,相似度則非常的小。使用語義相似度計算方法來識別詞匯傾向性效果很不理想,如表1中“好”和“壞”的相似度竟然接近1,而表2中“好”和“優(yōu)點”的相似度卻近似為0。

        表1 相同詞性的詞匯語義相似度

        表2 不同詞性的詞匯語義相似度

        為此,我們提出了詞語極性相似度的概念。所謂詞語的極性相似度就是指兩個詞在褒貶情感強度上的相似程度。另外,在復(fù)雜的漢語詞匯中有這樣兩類詞,一類詞在不同語境中可能具有情感色彩,也可能是中性的,我們稱之為弱極性詞。另一類詞在不同語境中可能具有褒貶兩極,這一類詞被稱為褒貶兩性詞。極性相似度對這兩類詞的識別也有一定的效果。

        圖1 H ow Net中弱極性詞和褒貶兩性詞的表示

        2.2 義項間極性相似度計算

        在How Net中,每一個詞語都用一個或多個義項組成,要計算詞語間的相似度,首先要計算詞語義項間的極性相似度。然后通過義項相似度得到詞語間的極性相似度。

        劉群等[10]將義原分成四大類:第一基本義原,其他基本義原,關(guān)系義原,符號義原,然后根據(jù)不同種類的義原分別用不同的算法求取義原間的相似度,最后得到兩個義項間的相似度。

        但我們發(fā)現(xiàn),在H ow Net中有這樣兩個義原:“desired/良”和“undesired/莠”。它們對詞匯的極性傾向具有重要的意義。而在傳統(tǒng)語義相似度計算中這兩個義原被作為其他基本義原組合到集合中進行相似度計算,并且只配給了一個次要權(quán)重。這就在很大程度上降低了這兩個代表情感傾向的義原的重要性。為此我們提出了極性相似度計算的新方法:

        首先,除了上面提到的四種義原之外,我們將“desired/良”和“undesired/莠”作為一種新的義原—極性義原。具有極性義原的義項稱為極性義項。極性義原間的相似度表示為Sim*(s1,s2),我們規(guī)定相同極性義原的相似度為1,不同的為0。

        其次,為了增加極性義原在相似度計算中的比重,我們將極性義原相似度和第一基本義原相似度結(jié)合起來再乘以最大權(quán)重。這樣即可以擴大極性義原的作用,又可以在一定程度的保存詞語間的語義相似性。

        最后,我們得到了詞匯義項間的極性相似度公式:

        其中,Sim*(s1,s2)為極性義原相似度。Simi(s1,s2)為其他義原相似度 。β1,β2,β3,β4是通過實驗得出的調(diào)整參數(shù)。

        2.3 詞語間的極性相似度計算

        How Net詞語義項可以分為三種:具有“desired/良”義原的褒極性義項、具有“undesired/莠”義原的貶極性義項、沒有極性義原的義項。

        如果未定詞只有一種義項,我們?nèi)×x項間相似度的最大值作為詞語的極性相似度。

        其中Sa1…ak為詞Wa的多個義項,Sb1…bk為詞 Wb的多個義項。

        但How Net中大量的詞語具有兩種以上的義項,比如前面所說的弱極性詞和褒貶兩性詞。取義項相似度的最大值作為兩個詞語間相似度的方法,在一定上下文中,很難具有說服性的。理想方法是利用上下文語境先進行詞義排歧,確定詞語所表達的準(zhǔn)確義項,再將適合這個概念的義項極性相似度作為詞語的相似度。在這里,我們采用了一種基于共現(xiàn)思想的方法來考慮在具體語境中的義項相似度選擇,從而得出詞語間的極性相似度。

        首先我們假設(shè)未定詞W x(至少具有兩種義項)、確定極性的基準(zhǔn)詞Wb(基準(zhǔn)詞選取在How Net中只有一種極性義項的詞。即Wb具有唯一極性義項Sb)。

        算法步驟:

        (1)將W x的多個義項分別組成兩種集合:具有“desired/良”義原的褒義項集合C+x,具有“undesired/莠”義原的貶義項集合Cx-。然后分別計算這兩個集合與Sb的義項間的極性相似度SimO+(,Sb)和SimO-(C-x,Sb)(集合中的多個義項間相似度取最大值)。

        (2)我們選取一個長度大小為K的窗口在訓(xùn)練語料集的所有文檔中移動。窗口中的每對詞語我們都認(rèn)為是共現(xiàn)的,其共現(xiàn)強度與距離成反比。這樣我們就能計算出共現(xiàn)詞語的相關(guān)度:

        其中,N(W1,k,W2)為詞語W1和W2在相關(guān)文檔集合中K窗口內(nèi)距離為k時的共現(xiàn)次數(shù)(k

        這樣,我們就能算出未定詞W x與基準(zhǔn)詞Wb在訓(xùn)練語料中的相關(guān)度Re l(Wx,Wb)。

        (3)我們?nèi)《ㄒ粋€相關(guān)度閾值RT。

        如果Re l(Wx,Wb)>RT,我們認(rèn)為在訓(xùn)練語料中未定詞Wx與基準(zhǔn)詞Wb具有很大的相關(guān)性。那么:若Wb為褒義,則W x與Wb的詞語間極性相似度取它們褒極性義項相似度:SimO+(,Sb)。若Wb為貶義,則取貶極性義項相似度:SimO-(,Sb)。

        如果Re l(Wx,Wb)

        3 詞匯的極性值計算

        詞匯間的極性相似度反映出了詞匯褒貶的情感強度。設(shè)想一下,如果能確定未定詞與具有強烈褒貶傾向詞之間的相似程度,就能識別出未定詞的情感傾向?;谶@樣的設(shè)想,我們首先在How Net中選取了基準(zhǔn)詞,這些基準(zhǔn)詞都只有一種極性義項。然后我們將未定詞分別與這些基準(zhǔn)詞在具體語境中計算極性相似度。最后,我們使用下面的公式計算出未定詞的極性值:

        其中,褒義基準(zhǔn)詞為Pi,貶義基準(zhǔn)詞為 N j,未定詞為W。SimO(W,Pi)和SimO(W,Nj)指的是未定詞W與褒、貶基準(zhǔn)詞之間的極性相似度。

        4 實驗與分析

        4.1 實驗語料

        在第一屆中文傾向性分析評測(COAE2008)比賽中。Task1(中文情感詞的識別)和Task 2(中文情感詞的褒貶分析)兩個任務(wù)是在39 976篇文檔中識別出表達觀點傾向性的詞語,并判斷詞語的褒貶極性,結(jié)果按置信度降序排列??紤]到需要在一定上下文語境中識別褒貶情感詞,因此我們使用了詞語的極性相似度計算方法。

        4.2 基準(zhǔn)詞選擇

        表達情感強烈的詞基本上是形容詞、名詞兩類。所以我們選擇了How Net中的這兩類詞作為基準(zhǔn)詞,并且要求這些基準(zhǔn)詞的全部義項都只有一種極性,這樣的詞就不會具備弱極性詞和褒貶兩性詞的特點。比如褒義基準(zhǔn)詞有:健康/ADJ、快樂/ADJ、優(yōu)秀/ADJ、好感/N等。貶義基準(zhǔn)詞有不良/ADJ、虛假/ADJ、腐敗/ADJ、缺陷/N 等。

        4.3 實驗結(jié)果與分析

        首先我們在實驗基礎(chǔ)上確定義項相似度計算公式(公式(1))的參數(shù)取值為:

        然后,我們對比計算3部分未定詞的傳統(tǒng)語義相似度和極性相似度,如下表3所示。其中極性值Ⅰ使用傳統(tǒng)的語義相似度計算,而極性值Ⅱ基于詞語的極性相似度。

        從表3中分析可知,極性值Ⅰ幾乎沒有褒貶區(qū)分度,中性詞“過去”的極性值大于褒義詞“純潔”,而中性詞“購銷”的極性值確比貶義詞“壞”還小。這樣就很難取出一個閾值將褒貶詞分開,而基于極性相似度計算出的極性值Ⅱ卻有明顯的區(qū)分。

        表3 基于兩種相似度的極性值對照表

        經(jīng)過大量實驗,我們最終將閾值取為 4.1和-4.1。即極性值小于等于-4.1的為貶義詞,大于等于4.1為褒義詞,在兩者之間的為中性詞。

        最后,我們在第一屆中文傾向性分析評測(COAE2008)比賽中 Task1、Task2的最終評測結(jié)果(見表4、5,其中Best是所有參加評測單位中的最好結(jié)果,Median是平均水平)。充分體現(xiàn)了這種方法對具體語言環(huán)境下的詞匯傾向性判別的具有很好的效果。

        表4 COAE2008 Task1評測結(jié)果

        表5 COAE2008 Task2評測結(jié)果

        從Task1和Task 2的評測結(jié)果中我們可以很明顯的看出,各項指標(biāo)均高于平均結(jié)果。其中Task1中前1 000詞語的的準(zhǔn)確率((P@1000))達到了最好結(jié)果0.984。而且判斷正確的情感詞個數(shù)也達到了3 025。

        評測結(jié)果說明,我們的方法在詞匯級傾向性判別中有不錯的表現(xiàn)。但是,我們所提出的方法在詞語的召回率上還不夠高,也就是在詞語識別的個數(shù)上還不夠多。這主要是因為有些詞(特別是動詞)在通常情況下是中性的,但在具體環(huán)境中卻有可能表現(xiàn)出一些情感傾向,比如“下降”,“上升”之類的詞語,如果說“飛機正在下降”,這時的“下降”是中性的,但如果說“觀看《**》電影的人數(shù)在下降”,這里的“下降”就透露出了對這部電影的貶義傾向性評價了。而這一類的詞,是影響我們召回率的主要因素之一。

        5 總結(jié)和進一步工作

        本文所提出的方法利用《知網(wǎng)》計算詞匯的極性相似度,然后獲得具有褒貶傾向的詞匯度量值(即極性值),最后通過閾值來區(qū)分詞匯的極性傾向。實驗結(jié)果表明,極性相似度的引入大大提高了詞匯極性的區(qū)分程度,從而很大程度上提高了判斷的準(zhǔn)確率。

        但是文中所提到的算法仍然有許多值得商榷和改進的地方。我們今后的工作主要在下面兩個方面加以改進。

        首先,詞匯間極性相似度的雖然提高識別詞匯極性的準(zhǔn)確性,但在一定程度上卻降低了詞匯間句法語義的相似性。如何在兩者之間找到一個合適的平衡點,或者說,如何最大程度的反映詞匯間的情感強度相似性,同時又不會太大的犧牲詞匯的句法語義相似度,是我們還需要對方法進行改進的重要方面之一。

        其次,在具體語義環(huán)境中,如何選取詞匯的義項相似度將對判斷的準(zhǔn)確性有著重要影響。為此,這個方面也是我們今后研究的重點。

        [1] M.M.Bradley,and P.J.Lang.A ffective Norms for Eng lish W ords(ANEW):Stimu li,Instruction M anual and A ffective Ratings[R]//Technical report C-1,Gainesville,FL.The Center for Research in Psychophysio logy,University of Florida,Florida,USA:1999.

        [2] 姚天昉,程希文,徐飛玉,漢思?烏思克爾特,王睿.文本意見挖掘綜述[J],中文信息學(xué)報,2008,5(3):71-80.

        [3] Vasileios Hatzivassilog lou and Kath leen R.M cKeown.Predicting the semantic orientation o f adjectives[C]//Proceedings of the of the Association for Computational Linguistics and the8thCon ferenceof the European Chap ter of the ACL C,1997:174-181.

        [4] Peter D.Turney and M ichael L.Littman.Measuring p raise and criticism:Inference of semantic orientation from association[J].ACM T ransactions on Information System s,2003,21(4):315-346.

        [5] Yu H,H atzivassiloglou V.Towards answ ering opinion questions:separating facts from opinions and identifying the polarity of opinion sentences[C]//M.Co llins and M.Steedman(eds):Proc.of the EMNLP-03:The 8thConference on Empirical Methods in Natural Language Processing,Sapporo,Japan,July,11-12.2003:129-136.

        [6] J.Kamps,M.Marx,R.J.Mokken and M.D.Rijke.Using WordNet tomeasure semantic orientation o f adjectives[C]//Proceedings of LREC-04,4thInternational Conference on Language Resources and Evaluation,Lisbon,2004:1115-1118.

        [7] 朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德.基于 How Net的詞匯語義傾向計算[J].中文信息學(xué)報,2006,20(1):14-20.

        [8] HowNet R.HowNet's H ome Page[DB/OL].http://www.keenage.com.

        [9] 李峰,李芳.中文詞語語義相似度計算-基于知網(wǎng)2000[J],中文信息學(xué)報,2007,21(1):99-105.

        [10] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[C]//第三屆漢語詞匯語義學(xué)研討會,臺北,2002.

        猜你喜歡
        語義詞匯情感
        本刊可直接用縮寫的常用詞匯
        如何在情感中自我成長,保持獨立
        一些常用詞匯可直接用縮寫
        語言與語義
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        本刊可直接用縮寫的常用詞匯
        如何在情感中自我成長,保持獨立
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        亚州少妇无套内射激情视频| 成人免费a级毛片无码片2022| 久久伊人最新网址视频| 黄片视频免费在线观看国产| 色欲av永久无码精品无码蜜桃| 亚洲人成网线在线播放va蜜芽| 少妇性饥渴无码a区免费| 中文字幕精品久久久久人妻红杏ⅰ | 在线亚洲午夜理论av大片| 午夜福利视频合集1000| 狠狠色狠狠色综合| 免费无码黄动漫在线观看| 一区二区无码中出| 亚洲成Av人片不卡无码观看| 精品亚洲不卡一区二区| 国产一区二区三区涩涩涩| 日本女同av在线播放| 久久精品国产亚洲av性瑜伽| 日本边添边摸边做边爱| 尤物在线精品视频| 免费人成在线观看视频播放| 中文在线√天堂| 91爱爱视频| 人妻少妇精品一区二区三区| 精品久久人妻一区二区| 亚洲美女毛片在线视频| 国产精品天干天干综合网| 久久久久亚洲av片无码下载蜜桃| 亚洲av无码乱观看明星换脸va | 熟妇人妻av中文字幕老熟妇| 国产AV无码专区亚洲AⅤ| 91国在线啪精品一区| av网址大全在线播放| 国产一区二区三区精品乱码不卡| 麻豆91蜜桃传媒在线观看| 和黑人邻居中文字幕在线| 亚洲综合色自拍一区| 亚洲无码一二专区| 久久无码中文字幕东京热| 精品国产a毛片久久久av| 亚洲色图在线免费观看视频|