亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        WEB文本情感傾向性分析研究綜述

        2014-04-29 00:00:00周俊臣趙暉

        摘 要:主要針對文本情感傾向性分析近年來的研究進(jìn)行總結(jié)。首先介紹主客觀文本分析的內(nèi)容,接著從詞語級、短語級、句子級、篇章級,介紹了文本情感傾向分析近些年的一些技術(shù)和研究,對其各自的優(yōu)缺點(diǎn)進(jìn)行概括。最后對文本情感傾向性分析進(jìn)行總結(jié),提出對未來研究的想法。

        關(guān)鍵詞:文本情感傾向性分析流程;主客觀文本分析;文本情感傾向性分析

        中圖分類號:TP391.1

        文本情感分類是分析和處理帶有情感色彩的主觀性文本,歸納總結(jié)并推理出主觀文本的情感傾向性。文本情感分類的主要目的是能讓計(jì)算機(jī)自動識別主觀性文本的情感傾向性及其強(qiáng)度,因此引申出了它的研究點(diǎn)[1]:文本的主客觀分類;文本的情感傾向性分析;文本的情感強(qiáng)度分類。前者容易理解,就是內(nèi)容描述的主客觀性分類,而后兩者則為褒貶性傾向與情感表述強(qiáng)弱程度的分類判別。文本情感傾向性分析實(shí)質(zhì)上是將文本分為積極、否定或者中性情感,通過分析、分類和歸納大量主觀性文本的情感傾向,提取出人們對事物的總體看法。本文就是針對以往的文本情感分類工作,考慮國內(nèi)外最新進(jìn)展,對文本主客觀分類和傾向性分析研究現(xiàn)狀進(jìn)行概括和展望。

        1 主客觀性文本分析

        通常的文本中,存在大量的客觀性文本和主觀性文本??陀^性文本是一種對個人、事物或事件不帶有感情色彩的一種客觀性描述;主觀性文本主要描述人、群體或者組織對事物、人物、事件等的想法或看法。主觀性文本是文本情感傾向分析的主要對象,因此,對文本事先進(jìn)行主客觀文本識別非常重要,能夠有效地縮小分析范圍,提高分析速度和精確度。

        在主觀句識別中,較簡單的方法是通過對各種形容詞的分析、識別,來判斷句子的主客觀性,這可以看作識別主觀性句子最基本的思路,但往往還不夠。對于主客觀句子識別,比較常用的辦法就是結(jié)合詞性標(biāo)注,利用貝葉斯分類器進(jìn)行分類,除此類方法外,有人提出了基于半監(jiān)督自訓(xùn)練的句子主觀性分類,嘗試決策樹模型作為選擇度量方法,并結(jié)合樸素貝葉斯分類器,在MPQA語料庫中進(jìn)行試驗(yàn),取得了不錯的效果。

        姚天昉等人從一些特殊的特征角度考察了主客觀文本,如標(biāo)點(diǎn)符號、人稱代詞、數(shù)字等,從而總結(jié)出七條主觀線索。文獻(xiàn)[2]在此基礎(chǔ)上分別采用主觀線索和主觀模式的方法來提取主觀句子,最后又將兩種方法相結(jié)合來提取主觀句子。并針對相同測試語料進(jìn)行對比,結(jié)果表明,主觀線索與主觀模式相結(jié)合的方法是合理有效的。通過分析微博文本的表述特點(diǎn),提取一些主客觀線索特征,以特征詞和主客觀線索做語義特征,2-POS模式為語法特征,采用樸素貝葉斯練的分類器分別研究它們對分類結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明,特征選取上,同時考慮語義特征和語法結(jié)構(gòu)特征的分類效果比僅考慮一種特征時要好。

        總之,主觀性文本識別主要以情感詞為主,利用各種文本特征表示方法和分類器進(jìn)行分類識別,該方法關(guān)鍵在于分類器和特征的選取。

        2 文本情感傾向性分析方法

        文本情感傾向性分析,就是對說話人的態(tài)度(或稱觀點(diǎn)、情感、語氣)進(jìn)行分析,也就是對文本中的主觀性信息進(jìn)行分析。文本情感傾向分析的研究大致可以分成四個級別:詞語級、短語級、句子級、篇章級。下面就對其各部分進(jìn)行總結(jié)。

        2.1 詞語情感傾向性分析

        詞語級情感分析的研究對象主要是帶有情感色彩的詞語,以動詞、副詞和形容詞為主。其中,除部分詞語的褒貶性可以通過查詞典的方式得到之外,其余詞語的傾向性都無法直接獲得。目前主要有以下幾種方法:

        (1)無監(jiān)督機(jī)器學(xué)習(xí)方法。這種方法與第一種方法類似,也是假設(shè)己經(jīng)有一些已知極性的詞語作為種子詞,不同的是,第一種方法是以詞典信息為依據(jù)判斷,而這種方法是根據(jù)詞語在語料庫中的共現(xiàn)情況判斷其聯(lián)系緊密程度?;诖怂枷?,采用逐點(diǎn)分析方法SO-PMI,其理論假設(shè)是根據(jù)自然語言文本里的一個現(xiàn)象:語義傾向性越相似的兩個詞,在同一篇文檔中共現(xiàn)的概率越大。由于該假設(shè)是基于英文之上,不能直接用于中文的情感計(jì)算,在對中文文本特點(diǎn)分析的基礎(chǔ)上,結(jié)合語義和數(shù)據(jù)挖掘的相關(guān)理論,對逐點(diǎn)分析方法SO-PMI進(jìn)行了改進(jìn),提出了一種新型的情感傾向計(jì)算模型,判別準(zhǔn)確率可達(dá)80%以上。

        (2)基于語料庫的學(xué)習(xí)方法。該方法首先對情感傾向分析語料庫進(jìn)行手工標(biāo)注。在這些標(biāo)注語料的基礎(chǔ)上,利用詞與詞的統(tǒng)計(jì)特征、共現(xiàn)關(guān)系、搭配關(guān)系或者語義關(guān)系,判斷詞語的情感傾向性。這類方法的優(yōu)點(diǎn)是能簡單明了的分析情感,缺陷是需要大量的人工標(biāo)注,人工干涉語料因素很大。

        (3)利用詞語之間的關(guān)聯(lián)詞及依存關(guān)系。關(guān)聯(lián)詞可分為3種類型:遞進(jìn)、并列和轉(zhuǎn)折,利用關(guān)聯(lián)詞判斷其前后詞的情感傾向。A.Gammerma借助于DeParser對句子進(jìn)行句法分析,得到詞與詞之間的依存關(guān)系及候選詞的否定詞和強(qiáng)調(diào)詞,以此來修正候選詞的原極性。

        2.2 短語情感傾向性分析

        短語情感傾向性分析是建立在詞語情感傾向性分析基礎(chǔ)上的,短語是詞和詞按照一定方式組合起來的語言單位,它的意義不僅包括內(nèi)部各詞的語義,還有各詞之間的組合方式,因此根據(jù)短語內(nèi)部各詞的語義和詞之間的結(jié)構(gòu)信息來確定短語的傾向性。

        在文本情感分類領(lǐng)域,最早使用短語模式的是Turney,他使用PMI-IR的方法計(jì)算待分析的短語與兩個類別的基準(zhǔn)詞的相似度來計(jì)算短語的傾向性。在選擇短語模式時,H.Takamura建立潛在變量模型對“名詞+形容詞”模式的短語進(jìn)行傾向分類,同時說明短語的情感不是對詞的情感的簡單累計(jì),該模型對短語的分類準(zhǔn)確率達(dá)82%。而從語法及語義的角度對詞語的動態(tài)詞匯層面進(jìn)行分析,從而確定短語模式,同時在研究文本情感時,提出了基于短語模式的文本情感傾向識別算法,實(shí)現(xiàn)文本的情感分類。在特征提取上,C.Whitelaw等從文本中提取諸如“very good”和“not terrible funny”之類的形容詞和修飾短語的特征評價(jià)組,并對其進(jìn)行分析獲取其傾向性。而Faye Baron和Graeme Hirst將抽取與傾向性比較強(qiáng)的詞匯的搭配作為傾向性分析的特征,以提高文本情感分類的效率。

        2.3 句子情感傾向性分析

        句子情感傾向性分析的對象是上下文中的語句,主要任務(wù)就是對語句中的主觀信息進(jìn)行分析和提取,得到與情感傾向性相關(guān)的要素,并利用這些要素進(jìn)行傾向性分析,本文第二部分已經(jīng)介紹過主客觀句分類的相關(guān)方法。

        基于無監(jiān)督的句子級情感分析,主要通過詞匯之間的極性確定句子情感極性,其基本思想:利用同義詞-反義詞關(guān)系,得到情感詞匯及其情感傾向,然后由句子中占優(yōu)勢的情感詞匯的情感傾向決定該句子的極性。在該思想基礎(chǔ)上,提出了一種基于漢語情感詞詞表的加權(quán)線性組合的句子情感分類方法。該方法通過已有的五種資源構(gòu)建了中文情感詞詞表,并采用加權(quán)線性組合的句子情感分類方法對句子進(jìn)行情感類別判斷。同樣,提出了一種基于情感詞語義加權(quán)的句子情感傾向性分析方法,該方法采用遺傳學(xué)基因的思想。首先確定情感詞的靜態(tài)顯性,界定情感詞的轄域,然后構(gòu)建情感詞分析器,在情感詞轄域內(nèi)針對可以影響情感詞情感傾向性的各種類型的因素進(jìn)行分析,得出最終的情感詞情感傾向,進(jìn)而采用相應(yīng)句式的分析方法得出整個句子的情感傾向性。

        基于有監(jiān)督的句子級情感分析,首先提取候選句子的情感特征,其包括情感詞、詞序列和句型等,然后訓(xùn)練情感句分類模型,最后預(yù)測候選句的極性。Wang等選取形容詞和副詞作為特征,提出了基于啟發(fā)式規(guī)則與貝葉斯分類技術(shù)相融合的分析句子情感傾向性方法,大大提高了分類效果。Kim在n-grams模型的基礎(chǔ)上引入位置和評價(jià)詞兩個重要特征進(jìn)行句子級別的情感傾向性分析。D.Davidov等以詞、語言模型、標(biāo)點(diǎn)符號和固定搭配為情感特征,采用K最鄰近法分析句子的情感極性,但這也造成了句子情感特征稀疏嚴(yán)重的問題。學(xué)者們通過對有監(jiān)督學(xué)習(xí)方法的研究發(fā)現(xiàn):關(guān)鍵特征、特征選取、特征融合選擇的好壞,是決定其分類效果的關(guān)鍵因素。

        對于分類方法選擇上,將基于規(guī)則的情感分類方法、有監(jiān)督的分類方法和機(jī)器學(xué)習(xí)的分類方法結(jié)合起來,產(chǎn)生一種新的混合型分類方法,實(shí)驗(yàn)結(jié)果顯示,該方法比單一分類方法能夠提高分類效率。D.J Rodríguez提出了一種新的半監(jiān)督多維情感分類器,這種方法與原先NB和SVM方法不J同之處在于能將不同的目標(biāo)變量聯(lián)接到相同的分類工作中,以便利用它們之間的潛在的統(tǒng)計(jì)關(guān)系,而NB和SVM僅是一維分類器只能預(yù)測單目標(biāo)變量。此外,為了能在上下文中利用大量無標(biāo)記的信息,他們將多維分類框架模型應(yīng)用到半監(jiān)督領(lǐng)域,實(shí)驗(yàn)結(jié)果表明半監(jiān)督多維分類方法勝過一般的分類方法,并且還能提高識別率。

        2.4 篇章情感傾向性分析

        篇章情感傾向性分析是對文檔中關(guān)于某一主題的觀點(diǎn)、看法進(jìn)行情感傾向性判斷。目前,基于傳統(tǒng)機(jī)器學(xué)習(xí)算法的篇章情感傾向性分析研究是當(dāng)前文本挖掘領(lǐng)域中的一個研究熱點(diǎn)。

        基于無監(jiān)督的篇章級情感分析與句子級情感分析相似,都是根據(jù)詞匯之間的極性確定情感極性。例如M.Taboada等提出基于詞典的篇章情感分析模型,即情感極性計(jì)算器。該模型使用標(biāo)注了情感極性的詞典,并且結(jié)合副詞和否定詞分析詞匯的情感極性。A.L Maas等提出將詞匯之間語義相似信息同詞匯情感信息相結(jié)合的方法,利用連續(xù)的和多維的情感信息分析篇章情感。

        基于有監(jiān)督的篇章級情感分析模型,在特征選擇和提取方面,A.Abbasi等首先利用信息增益抽取部分特征組成特征集合,然后利用遺傳算法從該特征集合中選取最有用的特征,最后訓(xùn)練SVM模型并預(yù)測篇章情感傾向。同時,A.Abbasi等還針對整合n元特征時噪聲、不相關(guān)和冗余屬性的問題,提出基于規(guī)則的多變量特征選擇模型,即特征關(guān)系網(wǎng)絡(luò)。該模型考慮了語義信息并且利用了n元特征之間的語法關(guān)系,可以整合異構(gòu)的n元特征來提高情感分類精度。

        3 結(jié)束語

        本文從詞語級別的特征,到短語級特征,到句子級的特征,再到文本篇章級別的特征,介紹了近年來在文本情感傾向分析中人們提出了不同的方法,這些方法思想上有些是彼此相聯(lián)的。但在這些方法中,還沒有哪一種能夠完美地解決文本情感傾向識別這一問題。所以今后還應(yīng)進(jìn)一步深入研究具體問題,將問題細(xì)化、具體化,繼續(xù)尋找更有針對性、更簡捷方便的識別方法。我認(rèn)為在如下幾個方面值得考慮:上下文對文本情感傾向性分析的影響。相同的詞語、句子處于不同的語境下會有不同的傾向性極性,針對此要深入分析上下文,研究語法、句法等相關(guān)作用。語義理解。文本情感傾向性分析本質(zhì)上也屬于自然語言處理的范疇,需要對文本內(nèi)容進(jìn)行深入理解,如何引入更多的語言知識和認(rèn)知知識也是值得考慮的方向。多領(lǐng)域文本情感傾向性分析。在特征分析及分類器的使用上,如何使單一領(lǐng)域的分類方法能在其它領(lǐng)域使用上有相同的效果,這也是值得研究的。

        參考文獻(xiàn):

        [1]黃萱菁,張奇,吳苑斌.文本情感傾向分析[J].中文信息學(xué)報(bào),2011,25(6):118-126.

        [2]Neviarouskaya A,Prendinger H, Ishizuka M.SentiFul:A Lexicon for Sentiment Analysis[J].Affective Computing,IEEE Transactions on,2011,2(1):22-36.

        作者簡介:周俊臣(1988-),男,河南信陽人,碩士研究生,研究方向:人工智能。趙暉(1972-),男,云南大理人,教授,博士,研究方向:人工智能、模式識別。

        作者單位:新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊 830046

        基金項(xiàng)目:具有表現(xiàn)力的維吾爾語可視語音合成技術(shù)研究(61261037)。

        人妻免费黄色片手机版| 国产精品无码一区二区在线观一 | 少妇人妻综合久久中文字幕| 国产农村妇女毛片精品久久| 少妇内射高潮福利炮| 亚洲A∨无码国产精品久久网| 狠狠色欧美亚洲综合色黑a| 中文字幕视频二区三区| 自拍视频在线观看国产| 欧美又大又硬又粗bbbbb| 国模无码一区二区三区| 国产精品美女久久久久| 亚洲成在人线久久综合| 亚洲国产综合专区在线电影| 久久五月精品中文字幕| 日韩人妻免费视频一专区| 插鸡网站在线播放免费观看| 国产av一区二区三区传媒| 无码人妻品一区二区三区精99| 亚洲免费av电影一区二区三区| 五码人妻少妇久久五码| 少妇人妻精品一区二区三区视 | 国产AV秘 无码一区二区三区| 中文字幕一区二区在线看| 男女av免费视频网站| 欧美成人精品a∨在线观看| 美女视频黄的全免费视频网站| 欧美一片二片午夜福利在线快| 国产精品激情综合久久| 一区二区三区在线观看视频| 日韩精品在线一二三四区 | 99久久99久久精品免观看| 国产精品亚洲av无人区二区| 一本久道竹内纱里奈中文字幕| 久久99国产综合精品| 99久久亚洲精品无码毛片| 国产精品一区二区久久乐下载 | 国产一毛片| 久久亚洲一区二区三区四区五| 免费国产自拍在线观看| 亚洲a∨国产av综合av下载|