亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征融合的語句級(jí)情感傾向性研究

        2020-11-09 07:29:18王磊
        計(jì)算機(jī)時(shí)代 2020年10期

        王磊

        摘? 要: 針對(duì)語句級(jí)的情感傾向性研究多數(shù)是利用情感詞典、語言學(xué)知識(shí)和機(jī)器學(xué)習(xí)等方法,其研究范圍也限定于所分析的句子中。但是,整篇文章的上下文對(duì)語句情感傾向的判別影響巨大。文章利用主題特征來識(shí)別語句中情感詞的情感傾向強(qiáng)度,通過計(jì)算詞語的主題概率,將主題信息轉(zhuǎn)化為情感先驗(yàn)信息,并融合否定詞、程度副詞和連接詞等語法特征,提出一個(gè)基于特征融合的語句級(jí)情感傾向識(shí)別方法,對(duì)文本中語句的多標(biāo)記情感傾向進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,該方法在語句情感傾向識(shí)別上取得了令人滿意的效果。

        關(guān)鍵詞: 情感分析; 主題特征; 特征融合; 情感傾向

        中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2020)10-19-04

        Abstract: At present, there have been lots of researches on sentence sentiment orientation, most of them involve the use of emotional lexicon, language knowledge and machine learning, with the scope limited to the sentence analyzed. However, the whole context has great effects on sentence sentiment orientation recognition. In this paper, the topic features are used to adjust the emotion orientation intensity of the emotional words in sentences, the topic information is transformed into emotional prior information by calculating word topic probability, with the fusion of some grammar features, such as negation, degree adverb and conjunction, thus putting forward a sentence sentiment orientation recognition method with the fusion of multiple features for identification of the multi-label sentiment orientation of sentences. Experimental results show that this method achieves satisfactory effects in recognizing sentiment polarity of words.

        Key words: sentiment analysis; topic feature; feature fusion; sentiment polarity

        0 引言

        隨著電子商務(wù)與網(wǎng)絡(luò)社交的迅速發(fā)展,互聯(lián)網(wǎng)上涌現(xiàn)出大量文本信息,如博客、微博、時(shí)事評(píng)論和購物點(diǎn)評(píng)等。這些文本基本都由若干帶有情感色彩的語句構(gòu)成,這些語句在一定程度上表達(dá)了人們對(duì)客觀事物的喜好或反映了個(gè)體當(dāng)時(shí)的情感、情緒。因此,語句級(jí)情感傾向分析研究得到國內(nèi)外許多學(xué)者的關(guān)注,也為段落或短文本級(jí)情感傾向分析甚至為篇章級(jí)情感傾向分析提供幫助。

        詞或短語是詞語情感分析的研究對(duì)象,而在上下文環(huán)境中的語句則是語句級(jí)情感分析的研究對(duì)象。語句情感分析不僅僅只是識(shí)別語句的情感傾向,還包括對(duì)語句中各種主觀性信息的分析與提取。Hu和Liu[1]利用WordNet的同義與反義關(guān)系,識(shí)別詞語的情感傾向,并將語句中情感傾向占優(yōu)勢(shì)的情感傾向作為語句的情感傾向。Yang[2]等人將上下文語句融入條件隨機(jī)場(chǎng)模型中,提出一種基于上下文語境的情感分析方法。Narayanan[3]等人針對(duì)條件句進(jìn)行了情感分析研究。趙妍妍[4]等融合文本間與文本內(nèi)的因素,來提供語句情感分析精度。大連理工宋銳等[5]人對(duì)中文比較句進(jìn)行研究,并采用CRF模型進(jìn)行情感分類。

        本文將語句的情感傾向分析問題作為研究重點(diǎn),將上下文中的主題特征引入語句的多標(biāo)記情感傾向判別中,并融合否定詞、程度副詞和連接詞等語法特征,提出一個(gè)多特征融合的語句情感傾向識(shí)別方法。

        1 基于情感詞的語句情感分析

        針對(duì)語句情感傾向識(shí)別問題,最簡(jiǎn)單、最常用的方法是基于規(guī)則的情感詞求和分析方法,該方法也常常應(yīng)用于篇章級(jí)情感傾向分析研究中?;谝?guī)則的情感詞求和分析方法的基本思想[6]是:將語句中情感詞或情感短語進(jìn)行加權(quán)求和,如果某類情感的情感詞越多,情感強(qiáng)度越大,求和后,該類情感的累加值就越大,則語句具有該類情感的可能性就越高。

        利用基于規(guī)則的情感詞求和方法來識(shí)別語句或篇章的情感傾向,方法簡(jiǎn)單,并能取得不錯(cuò)的識(shí)別效果。但是,該方法存在以下兩點(diǎn)不足。

        ⑴ 特征單一:僅僅利用到語句中的情感詞或情感短語,其他詞語都被忽略。

        ⑵ 語句結(jié)構(gòu)無法分析:對(duì)復(fù)雜句等句法結(jié)構(gòu)復(fù)雜的語句,該方法就凸顯出其不足。

        2 多特征融合的語句情感分析

        2.1 基本框架

        本文提出的多特征融合的語句情感傾向分析方法框架如圖1所示,虛線表示部分為訓(xùn)練過程,其目的是構(gòu)建多標(biāo)記情感傾向分類器。該方法的重點(diǎn)是抽取語句中的多種特征,并用這些特征來表示相應(yīng)語句。從圖1框架可以看出,特征抽取過程離不開各類詞典,如情感詞典、否定詞詞典、連詞詞典等。同時(shí),語句句法特征在一定程度上也影響語句的情感。

        2.2 情感向量空間模型

        為了精確識(shí)別語句的多標(biāo)記情感傾向,我們盡可能的從語句或文本中抽取大量的特征,用于語句情感傾向分析過程。在對(duì)語句進(jìn)行分詞、詞性標(biāo)注、中性詞和停用詞去除后,僅保留語句中的情感詞。

        在Ren-CECps中文情感語料庫[7]中,每個(gè)情感詞都標(biāo)注了情感傾向及情感強(qiáng)度,抽取該語料庫訓(xùn)練數(shù)據(jù)中的所有情感詞構(gòu)建情感詞典,并將情感詞典應(yīng)用于語句情感傾向分析中。

        依據(jù)“BOW”模型,將語句看作一個(gè)由情感詞組成的情感詞集合,則語句可以表示為如下形式:

        2.3 基于主題的情感向量空間模型

        在一篇文章中,語句的情感傾向應(yīng)該由最能反映文本主題的核心情感詞來決定。本文將主題特征引入語句的情感傾向判別過程中,利用主題特征來調(diào)整情感詞語的情感強(qiáng)度,進(jìn)而調(diào)整語句的情感傾向及強(qiáng)度。

        隱含狄列克雷分布LDA是Blei等人[8]在2003年提出,是一個(gè)“文本-主題-詞”的三層貝葉斯生成式模型。隨后Griffiths等[9]對(duì)主題-詞的概率分布也引入一個(gè)超參數(shù)使其服從Dirichlet分布,從而得到一個(gè)完整的生成模型。

        LDA模型的參數(shù)個(gè)數(shù)只與主題數(shù)和詞語數(shù)有關(guān),而與語料庫大小無關(guān),適合于處理大規(guī)模語料庫。

        將潛在主題特征融入語句情感傾向判別過程中,針對(duì)文檔[D]引入LDA模型,得到[T]個(gè)隱含主題[T={t1,t2,…,tT}]以及主題-詞的概率分布[φ],利用“文本-主題-詞”之間的概率分布來識(shí)別符合文本主題特征的情感詞。從[T]個(gè)隱含主題中找出概率權(quán)重最大的主題[tm],將其應(yīng)用于語句情感傾向判別公式⑶中,得到含有主題特征的語句情感傾向判別公式,公式表示如下:

        2.4 語句情感傾向分析

        在一個(gè)語句中,除去情感詞語外,還會(huì)包含其他有意義的詞語,這些詞語會(huì)影響甚至改變語句的情感傾向。為了更好的識(shí)別語句情感傾向,我們進(jìn)一步從語句中提取一些附加特征,用于語句情感傾向判別。這些附加特征是:否定特征、程度特征和轉(zhuǎn)折特征。

        ⑴ 否定特征

        否定特征是語句中一個(gè)重要的語法特征,否定詞可以改變請(qǐng)轄域范圍內(nèi)情感詞語的情感傾向,從而改變語句的情感[10-12]。否定詞的轄域一般是從否定詞后開始直至句尾,修飾對(duì)象一般直接位于否定詞后面。否定詞的選擇將直接影響語句情感傾向的識(shí)別,我們基于HowNet詞典構(gòu)建否定詞詞典。

        在本文語句情感傾向識(shí)別任務(wù)中,我們采用鄰近原則,即否定詞僅僅修飾其后的第一個(gè)情感詞語。本章直接采用一種相對(duì)簡(jiǎn)單的處理規(guī)則,調(diào)節(jié)被否定詞修飾的情感詞語的情感傾向強(qiáng)度,從而改變語句的情感傾向。

        當(dāng)情感詞wi前存在奇數(shù)個(gè)否定詞時(shí),情感詞wi的情感傾向強(qiáng)度發(fā)生變化;當(dāng)情感詞wi前沒有否定詞或存在偶數(shù)個(gè)否定詞時(shí),情感詞wi的情感傾向強(qiáng)度不變。

        ⑵ 程度特征

        在副詞中有一類特別的副詞就是程度副詞,一般修飾動(dòng)詞和形容詞。程度詞語不能改變所修飾的情感詞語的情感傾向,但會(huì)影響情感詞語的情感強(qiáng)度,主要表現(xiàn)在增強(qiáng)或減弱所修飾情感詞語的情感強(qiáng)度。

        依據(jù)HowNet詞典中中文程度級(jí)別詞語整理出一個(gè)程度詞典,共含有140個(gè)程度副詞。為每一個(gè)程度副詞設(shè)定相應(yīng)的等級(jí),等級(jí)取值為2、3、4、5。

        ⑶ 轉(zhuǎn)折特征

        理解語句的結(jié)構(gòu)關(guān)系將有助于語句情感傾向的判別。根據(jù)語句結(jié)構(gòu)特征,中文語句一般可以分為簡(jiǎn)單句和復(fù)合句。簡(jiǎn)單句的情感傾向識(shí)別相對(duì)簡(jiǎn)單,可以直接利用前面介紹的方法進(jìn)行識(shí)別。復(fù)合句比較復(fù)雜。

        復(fù)合句子之間的主從關(guān)系可以分為并列關(guān)系、因果關(guān)系和轉(zhuǎn)折關(guān)系。對(duì)于并列關(guān)系的復(fù)合句,子句之間關(guān)系平等,表達(dá)的情感傾向也保持一致。因果關(guān)系的復(fù)合句反映子句之間的因果關(guān)系,子句之間情感傾向保持一致,但情感傾向強(qiáng)度存在差異。對(duì)于蘊(yùn)含轉(zhuǎn)折關(guān)系的復(fù)合句,子句之間表達(dá)相互矛盾或截然相反的意義,導(dǎo)致子句之間的情感傾向完全相反,整個(gè)語句的情感傾向由最后一個(gè)子句的情感傾向所決定。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本章實(shí)驗(yàn)數(shù)據(jù)主要來自三個(gè)數(shù)據(jù)集,其中兩個(gè)是中科院譚松波提供的中文情感挖掘語料,使用其中去重后正負(fù)類各2000篇的酒店類評(píng)論語料和去重后正負(fù)各2000篇的圖書評(píng)論語料,句子的情感傾向?yàn)檎?fù)2類;另一個(gè)是Ren-CECps中文情感語料庫,語句的情感傾向分為8類,針對(duì)語句進(jìn)行多標(biāo)記情感傾向識(shí)別。上述數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示。

        本文主要進(jìn)行兩類實(shí)驗(yàn),一個(gè)實(shí)驗(yàn)是利用酒店評(píng)論語料和圖書評(píng)論語料,來識(shí)別語句情感的正負(fù)性,屬于一個(gè)情感傾向單標(biāo)記分類問題研究;另一個(gè)實(shí)驗(yàn)是在Ren-CECps語料庫中識(shí)別語句的多個(gè)情感傾向,屬于情感傾向多標(biāo)記分類問題研究。

        在實(shí)驗(yàn)中,將傳統(tǒng)詞袋模型判別語句情感傾向方法記作BOW,將主題特征融入語句情感傾向識(shí)別的方法記作TM,將多種特征融合進(jìn)行語句情感傾向識(shí)別方法記作Combine。

        3.2 實(shí)驗(yàn)結(jié)果

        ⑴ Tan數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        針對(duì)該實(shí)驗(yàn),從酒店評(píng)論語料中隨機(jī)選擇20條語句構(gòu)成一個(gè)文本,共生成200篇短文本。同理,對(duì)圖書評(píng)論語料進(jìn)行同樣操作,生成200篇短文本。將400篇酒店與圖書評(píng)論文本作為實(shí)驗(yàn)一的數(shù)據(jù)集,隨機(jī)選取300篇作為訓(xùn)練數(shù)據(jù),100篇作為測(cè)試數(shù)據(jù)。預(yù)處理階段采用ICTCLAS對(duì)數(shù)據(jù)集進(jìn)行分詞和詞性標(biāo)注。情感詞典采用HowNet情感詞(2090個(gè))和HowNet評(píng)價(jià)詞(6846個(gè))構(gòu)成基本情感詞典,去除其中的單字情感詞。

        將文本主題特征應(yīng)用于語句情感傾向性識(shí)別過程中,圖2反映了語句情感傾向識(shí)別正確率與主題特征之間的關(guān)系。

        從圖2中可以看出,在兩個(gè)數(shù)據(jù)集中,當(dāng)主題數(shù)量從1增加到10時(shí),情感傾向識(shí)別正確率提高最快,隨后正確率增長緩慢。當(dāng)主題數(shù)量處于30以上時(shí),語句情感傾向識(shí)別正確率都不再提高,甚至有時(shí)會(huì)下降。同時(shí),我們看到,基于Ren-CECps語料數(shù)據(jù)的多標(biāo)記情感傾向識(shí)別正確率高于Tan語料數(shù)據(jù)的單標(biāo)記情感傾向識(shí)別。分析數(shù)據(jù)集特點(diǎn)后,認(rèn)為主要原因是在Ren-CECps數(shù)據(jù)集中,文本中語句關(guān)系更緊密,主題特征更加突出,對(duì)情感詞作用較大,而Tan數(shù)據(jù)集中文本是從原始語料中隨機(jī)抽取生成的,可能構(gòu)成文本的若干語句之間在主題特征上毫無關(guān)系,從而導(dǎo)致主題特征作用不明顯。

        ⑵ Ren-CECps數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        在實(shí)驗(yàn)中,對(duì)Ren-CECps語料庫進(jìn)行多標(biāo)記語句情感傾向判別。Ren-CECps中文情感語料庫中每個(gè)語句的情感傾向被標(biāo)記為驚訝,悲傷,喜愛,高興,憎恨,期待,焦慮,生氣8類情感類別的一個(gè)子集。選取Ren-CECps中文情感語料庫中1000篇文本作為數(shù)據(jù)集,去除數(shù)據(jù)中少量中性情感的句子,從中隨機(jī)選取800篇作為訓(xùn)練數(shù)據(jù),200篇作為測(cè)試數(shù)據(jù)。從訓(xùn)練數(shù)據(jù)中抽取情感詞語構(gòu)建實(shí)驗(yàn)所需的情感詞典。利用LDA模型進(jìn)行主題特征發(fā)現(xiàn)。

        針對(duì)Ren-CECps數(shù)據(jù)集,我們進(jìn)行以下兩個(gè)語句多標(biāo)記情感傾向識(shí)別實(shí)驗(yàn)。

        ⑴ 正確識(shí)別語句多標(biāo)記情感傾向中的任何一個(gè)。

        ⑵ 正確識(shí)別語句多標(biāo)記情感傾向中強(qiáng)度最高的情感傾向。

        在實(shí)驗(yàn)⑴中,采用宏平均和微平均值來對(duì)比BOW、TM和Combine方法識(shí)別語句多標(biāo)記情感傾向效果,如表2所示。

        表2表明,主題特征對(duì)于文中語句情感傾向識(shí)別影響較大,融入主題特征后,情感傾向識(shí)別效果有明顯提高。同時(shí),當(dāng)輔助特征也融入語句情感傾向識(shí)別后,情感傾向識(shí)別效果又進(jìn)一步提高,說明這些輔助特征也是影響語句情感傾向識(shí)別的因素。

        在實(shí)驗(yàn)⑵中,采用宏平均F1、微平均F1、宏平均正確率和微平均正確率來衡量三種方法在識(shí)別情感強(qiáng)度最高的情感傾向中的效果,如表3所示。

        表3表明,主題特征在與情感傾向強(qiáng)度有關(guān)的情感識(shí)別過程中發(fā)揮重要作用,多特征融合方法也取得了較好的實(shí)驗(yàn)效果。對(duì)比實(shí)驗(yàn)⑴發(fā)現(xiàn),宏平均正確率和微平均正確率都有所下降,這說明識(shí)別語句多標(biāo)記情感傾向中的一類或幾類情感傾向相對(duì)容易,但識(shí)別情感強(qiáng)度最高的情感相對(duì)困難。

        3.3 實(shí)驗(yàn)結(jié)果分析

        對(duì)于語句情感傾向識(shí)別問題,借助詞袋模型,通過情感詞語來識(shí)別語句的情感傾向,但無論在Tan語料或Ren-CECps語料中語句情感傾向識(shí)別效率都很一般。在此基礎(chǔ)上,將主題特征融入語句情感傾向判別中,判別效果獲得了較大提高。否定詞、程度副詞和連接詞等輔助特征的應(yīng)用,識(shí)別效果獲得進(jìn)一步提高。實(shí)驗(yàn)結(jié)果說明情感詞語、主題特征、否定詞、程度副詞和連接詞等特征有助于語句情感傾向識(shí)別,因此本文提出的多特征融合的語句情感傾向分析方法是有效的。

        對(duì)于語句情感傾向識(shí)別中產(chǎn)生的錯(cuò)誤,可能引起的原因有以下四點(diǎn):

        ⑴ 情感詞語的情感傾向及強(qiáng)度判斷錯(cuò)誤。

        ⑵ 否定詞作用范圍判斷不準(zhǔn)確。

        ⑶ 部分連接詞無法識(shí)別,從而導(dǎo)致語句情感傾向判別錯(cuò)誤。

        ⑷ 人類情感具有主觀性和復(fù)雜性,一種情感的產(chǎn)生往往會(huì)引發(fā)產(chǎn)生另一種情感,不同情感傾向之間存在一定的依賴關(guān)系。

        4 結(jié)束語

        本文分析了語句的多標(biāo)記情感傾向識(shí)別問題,提出一種多特征融合的語句情感傾向識(shí)別方法,充分利用情感詞語、主題特征和其他輔助特征來識(shí)別語句多標(biāo)記情感傾向。

        在語句情感分析研究中,語句的情感傾向主要分為褒貶兩類。近年來,有學(xué)者意識(shí)到情感的復(fù)雜性,僅僅用褒貶兩類情感傾向無法完全描述全部情感傾向,開始研究多標(biāo)記情感傾向問題。研究方法主要有基于詞典方法和基于語料方法,前者需要構(gòu)建豐富的情感詞典,利用該詞典來識(shí)別語句情感傾向,后者借鑒機(jī)器學(xué)習(xí)方法,利用語料的統(tǒng)計(jì)信息來識(shí)別語句情感傾向。本文將詞典信息和語料統(tǒng)計(jì)信息相結(jié)合,從而吸取兩種方法的優(yōu)點(diǎn),實(shí)現(xiàn)語句多標(biāo)記情感傾向識(shí)別。

        本文研究一般語句的多標(biāo)記情感傾向識(shí)別問題,但文本中也存在很多特殊語句,如否定句、條件句、比較句等。特殊語句往往都蘊(yùn)含一些自身特有的特征信息,這些特征有助于識(shí)別特殊語句的情感傾向。特殊語句的多標(biāo)記情感傾向識(shí)別將是未來研究的一個(gè)熱點(diǎn)問題,值得進(jìn)一步探索和研究。

        參考文獻(xiàn)(References):

        [1] Hu M, Liu B. Mining and summarizing customer reviews.Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA: ACM,2004:168-177

        [2] YangBishan, Cardie Claire. Context-aware learning for?sentence-level sentiment analysis with posterior regularization. Proceedings of the ACL 2014, Baltimore, ACL, 2014:325-335

        [3] Narayanan R, Liu B, Choudhary A. Sentiment analysis of conditional sentences. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Stroudsburg,PA,USA:ACL,2009:180-189

        [4] ZhaoYanyan, Qin Bing, Liu Ting. Integrating Intra- and Inter- document Evidences for Improving Sentence Sentiment Classification.ACTA AUTOMATICA SINICA,2010.36(10):1417-1425

        [5] 宋銳,林鴻飛,常富洋.中文比較句識(shí)別及比較關(guān)系抽取[J].中文信息學(xué)報(bào),2009.23(2):102-107

        [6]? Hu M, Liu B. Mining and summarizing customer reviews.Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA: ACM,2004:168-177

        [7]? Quan C, Ren F. A blog emotion corpus for emotional expression analysis in Chinese. Computer Speech and Language,2010.24(4):726-749

        [8] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation.?Journal of Machine Learning Research,2003.3:993-1022

        [9] Griffths T L, Steyvers M. Finding scientific topics.?Proceedings of the National Academy of Sciences of the United States of America,2004.101(1):5228-5235

        [10] LillianeHaegeman.The Syntax of Negation. Cambridge Press, New York,1995.

        [11] 陳莉,李寶倫,潘海華.漢語否定詞“不”的句法地位[J].語言科學(xué),2013.12(4):337-348

        [12] Ren Fuji, Quanchangqin. Automatic annotation of word emotion in sentences based on ren-cecps.Proceedings of the 9th International Conference on Language Resources and Evaluation, Malta,2010.

        亚洲欧美日韩高清专区一区| 久久婷婷五月综合色高清| 国产饥渴的富婆一凶二区 | 国产午夜福利av在线麻豆| av一区二区在线免费观看| 极品粉嫩嫩模大尺度无码视频 | 最近中文字幕国语免费| 又黄又爽又色的视频| 欧美三级免费网站| 精品国产又大又黄又粗av| 女同欲望一区二区三区| 巨爆中文字幕巨爆区爆乳| 亚洲成av人的天堂在线观看| av无码天堂一区二区三区| 久久丫精品国产亚洲av| 亚洲自拍另类欧美综合| 无码AV午夜福利一区| 国产精品黄页免费高清在线观看| 麻豆国产av在线观看| 亚洲熟女www一区二区三区| 极品美女扒开粉嫩小泬| 国产精品自拍首页在线观看| 青青草视频网站在线观看| s级爆乳玩具酱国产vip皮裤| 欧美激情五月| 国产麻豆成人精品av| 欧洲美熟女乱又伦av影片| 久久久久99精品成人片试看| 综合图区亚洲另类偷窥| 少妇我被躁爽到高潮在线影片| 久久亚洲精品国产亚洲老地址| 国产精品麻豆欧美日韩ww| 在线精品无码一区二区三区| 国产高清女人对白av在在线| 日本久久久精品免费免费理论| 国产亚洲综合一区二区三区| 蜜桃视频无码区在线观看| 国产精品亚洲A∨天堂| 一二三四在线观看韩国视频| 亚洲理论电影在线观看| 无码中文字幕色专区|