亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙語(yǔ)信息和神經(jīng)網(wǎng)絡(luò)模型的情緒分類(lèi)方法

        2019-09-23 07:07:04李壽山
        關(guān)鍵詞:英文分類(lèi)情緒

        張 璐, 殷 昊, 李壽山

        (蘇州大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室 江蘇 蘇州 215006)

        0 引言

        隨著社交網(wǎng)絡(luò)的迅速發(fā)展,越來(lái)越多的用戶(hù)傾向于在以微博為代表的社交媒體中表達(dá)自己的觀(guān)點(diǎn)或情感,每天數(shù)以?xún)|計(jì)的微博文本涉及時(shí)事政治、社會(huì)熱點(diǎn)、科技、娛樂(lè)等生活的方方面面.為了挖掘與分析這些海量的具有潛在價(jià)值的信息,情感分析正漸漸發(fā)展成為自然語(yǔ)言處理中的熱點(diǎn)研究[1].

        情感分析又稱(chēng)意見(jiàn)挖掘、觀(guān)點(diǎn)分析等,是通過(guò)計(jì)算機(jī)幫助用戶(hù)快速獲取、整理互聯(lián)網(wǎng)上的海量主觀(guān)評(píng)價(jià)信息,對(duì)帶有情感色彩的主觀(guān)性文本進(jìn)行分析、處理、歸納和推理的過(guò)程[2].文本情緒分類(lèi)是情感分析的一項(xiàng)基本任務(wù),該任務(wù)旨在根據(jù)文本表達(dá)的個(gè)人情緒(高興、傷心、憤怒等)對(duì)文本進(jìn)行自動(dòng)分類(lèi)[3].由于用戶(hù)之間本身存在著喜好、立場(chǎng)、出發(fā)點(diǎn)等諸多方面的差異,因此對(duì)生活中的各種事件和現(xiàn)象所表現(xiàn)出的情緒和態(tài)度也會(huì)有很顯著的差異.迄今為止,文本情緒分析已經(jīng)被應(yīng)用在多個(gè)領(lǐng)域,比如股票市場(chǎng)[4]、在線(xiàn)聊天[5]以及新聞分類(lèi)[6]等.

        傳統(tǒng)的情緒分類(lèi)方法通常需要充足的人工標(biāo)注語(yǔ)料,但是到目前為止,與情緒相關(guān)的公共語(yǔ)料庫(kù)相對(duì)匱乏,獲得這樣的標(biāo)注數(shù)據(jù)費(fèi)時(shí)費(fèi)力.社交文本還存在文本較短、信息量較少等問(wèn)題.考慮到已有的文本情緒分類(lèi)方法都是基于單語(yǔ)語(yǔ)料,我們嘗試?yán)梅g語(yǔ)料對(duì)語(yǔ)料庫(kù)進(jìn)行擴(kuò)充,并為情緒分類(lèi)提供更多的信息量.

        例1源文本: 今天大甩賣(mài)!我們?nèi)ス浣职伞?/p>

        翻譯文本:There′s a big sale on today! Let′s go shopping.

        例2源文本:To show off! This Gundam model looks nice.

        翻譯文本:來(lái)炫耀!這個(gè)高達(dá)模型看起來(lái)不錯(cuò).

        由于中文微博情緒語(yǔ)料庫(kù)的匱乏,例1中的“大甩賣(mài)”沒(méi)有在訓(xùn)練集中出現(xiàn),那么它很難被正確分類(lèi),但是如果我們把它翻譯成英文“big sale”,這樣我們就可以利用英文Twitter情緒語(yǔ)料中的信息來(lái)彌補(bǔ)這一點(diǎn).類(lèi)似地,例2中的“show off”沒(méi)有在訓(xùn)練集中出現(xiàn),但是如果我們把它翻譯成中文“炫耀”,那么就可以利用中文微博情緒語(yǔ)料中的信息增加信息量.

        我們提出了一種基于雙語(yǔ)信息和神經(jīng)網(wǎng)絡(luò)模型的情緒分類(lèi)方法,同時(shí)利用中文微博語(yǔ)料和英文Twitter語(yǔ)料對(duì)模型進(jìn)行訓(xùn)練.首先,利用機(jī)器翻譯工具分別對(duì)兩種源語(yǔ)言語(yǔ)料進(jìn)行翻譯,得到相應(yīng)的翻譯語(yǔ)料;其次,將相應(yīng)語(yǔ)言的語(yǔ)料進(jìn)行合并擴(kuò)充,得到兩組不同語(yǔ)言類(lèi)型的語(yǔ)料;最后,將文本分別使用源語(yǔ)言和翻譯語(yǔ)言進(jìn)行特征表示,建立雙通道LSTM模型融合兩組特征,構(gòu)建情緒分類(lèi)器.

        1 相關(guān)工作

        目前,針對(duì)社交媒體的文本情感分析方法研究大都面向情感極性(正面、負(fù)面)[7],而細(xì)粒度的情緒分類(lèi)方法研究還比較缺乏.

        早期的一些研究利用規(guī)則來(lái)判別情緒類(lèi)別,Kozareva等[8]基于統(tǒng)計(jì)方法,利用上下文詞語(yǔ)與情緒關(guān)鍵詞的共現(xiàn)關(guān)系對(duì)文本進(jìn)行情緒分類(lèi).一般而言,情緒分類(lèi)會(huì)被定義為一個(gè)機(jī)器學(xué)習(xí)問(wèn)題.Tokuhisa等[9]提出了一種面向數(shù)據(jù)的方法,推斷對(duì)話(huà)系統(tǒng)中說(shuō)話(huà)者表達(dá)的情緒.Beck等[10]提出了一個(gè)基于多任務(wù)高斯過(guò)程的方法對(duì)情緒進(jìn)行分類(lèi).Bhowmick等[11]利用多標(biāo)簽K近鄰分類(lèi)技術(shù)對(duì)新聞句子進(jìn)行分類(lèi).Das等[12]利用弱勢(shì)語(yǔ)言(孟加拉語(yǔ))博客語(yǔ)料進(jìn)行情緒分類(lèi),首先對(duì)句子的詞匯進(jìn)行6類(lèi)情緒分類(lèi),再通過(guò)詞匯的情緒類(lèi)別來(lái)判斷句子的情緒.Li等[13]提出利用句子的標(biāo)簽因子圖和上下文標(biāo)簽因子圖進(jìn)行句子級(jí)的情緒分類(lèi),很好地解決了數(shù)據(jù)稀疏和情緒多標(biāo)簽問(wèn)題.Xu等[14]提出了一種由粗粒度到細(xì)粒度的分析策略,通過(guò)整合相鄰句子的轉(zhuǎn)移概率來(lái)重新定義情緒的類(lèi)別.Yang等[15]介紹了一種基于情緒的主題模型為預(yù)先定義的情緒構(gòu)建了一個(gè)特定領(lǐng)域的詞典.

        以上這些情緒分類(lèi)方法都需要利用充足的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型,但是在很多情況下,獲得這樣的標(biāo)注數(shù)據(jù)費(fèi)時(shí)費(fèi)力.有些研究通過(guò)半監(jiān)督方法來(lái)解決這個(gè)問(wèn)題,Liu等[6]提出了一種協(xié)同學(xué)習(xí)算法,利用未標(biāo)注數(shù)據(jù)中的信息提升情緒分類(lèi)的性能.Li等[16]提出了一個(gè)雙視圖標(biāo)簽傳播算法,將源文本和回復(fù)文本分別看作兩個(gè)視圖.

        2 基于雙語(yǔ)信息和神經(jīng)網(wǎng)絡(luò)模型的情緒分類(lèi)方法

        傳統(tǒng)的情緒分類(lèi)方法都是基于單語(yǔ)語(yǔ)料進(jìn)行,雖然情緒分類(lèi)研究已開(kāi)展多年,但是情緒語(yǔ)料庫(kù)的構(gòu)建工作相對(duì)較少,可用于研究的情緒語(yǔ)料庫(kù)也比較缺乏[17].對(duì)于情緒分類(lèi)任務(wù)來(lái)說(shuō),標(biāo)注語(yǔ)料將會(huì)耗費(fèi)大量的人力物力,并且各個(gè)情緒類(lèi)別的樣本分布很不平衡,影響情緒分類(lèi)的性能.

        2.1 機(jī)器翻譯

        為了同時(shí)利用中文微博語(yǔ)料和英文Twitter語(yǔ)料,我們用機(jī)器翻譯工具(http:∥fanyi.baidu.com/translate)對(duì)源語(yǔ)料進(jìn)行翻譯得到翻譯語(yǔ)料,即將中文微博語(yǔ)料翻譯得到英文微博語(yǔ)料;英文Twitter語(yǔ)料翻譯得到中文Twitter語(yǔ)料.圖1的機(jī)器翻譯模塊展示了訓(xùn)練過(guò)程中機(jī)器翻譯的流程.

        2.2 基于雙語(yǔ)信息和神經(jīng)網(wǎng)絡(luò)模型的情緒分類(lèi)方法

        為了能夠充分利用雙語(yǔ)信息,我們提出了一種基于多通道LSTM神經(jīng)網(wǎng)絡(luò)的情緒分類(lèi)方法.我們將源語(yǔ)料和翻譯語(yǔ)料進(jìn)行合并,得到兩組不同語(yǔ)言類(lèi)型的語(yǔ)料,即將中文微博語(yǔ)料與中文Twitter語(yǔ)料合并得到中文混合語(yǔ)料,英文Twitter語(yǔ)料與英文微博語(yǔ)料合并得到英文混合語(yǔ)料.我們將分類(lèi)文本分別使用中文、英文進(jìn)行特征表示,使用LSTM[18]神經(jīng)網(wǎng)絡(luò)提取隱層特征,所用公式為

        hChinese=LSTM(TChinese),

        (1)

        hEnglish=LSTM(TEnglish).

        (2)

        圖1 基于雙語(yǔ)信息和神經(jīng)網(wǎng)絡(luò)模型的情緒分類(lèi)方法Fig.1 The approach to emotion classification based on bilingual information and neural model

        其中:TChinese和TEnglish分別代表中文和英文特征表示.

        在模型的merge層中,我們將上述兩組隱層特征進(jìn)行特征融合,具體融合公式為

        hmerge=hChinese⊕hEnglish,

        (3)

        其中:⊕表示向量逐元素相加或者向量拼接.本文對(duì)兩種融合方式都進(jìn)行了探索.

        在情緒分類(lèi)模塊中,我們將融合特征hmerge作為全連接層的輸入,為了緩解過(guò)擬合,全連接層使用了Relu激活函數(shù),具體公式為

        hdense=Relu(Wdense·hmerge+bdense),

        (4)

        其中:Wdense和bdense分別是全連接層的權(quán)重和偏置.Relu激活函數(shù)能夠?qū)⑿∮?的值全部置0,具有引導(dǎo)適度稀疏,緩解過(guò)擬合的作用.模型的最后是Softmax層,用來(lái)輸出分類(lèi)概率,所用公式為

        p(y|TChinese,TEnglish)=Softmax(Wo·hdense+bo),

        (5)

        其中:Wo和bo是輸出層的權(quán)重和偏置;p(y|TChinese,TEnglish)是當(dāng)前樣本的分類(lèi)概率.

        我們選用交叉熵?fù)p失函數(shù)作為模型的損失函數(shù),其公式為

        (6)

        其中:N是訓(xùn)練樣本的數(shù)目;C是目標(biāo)類(lèi)別的數(shù)目;yj表示屬于第j個(gè)類(lèi)別的概率;l是正則化系數(shù);θ代表所有參數(shù).我們采用Adam優(yōu)化算法[19]對(duì)參數(shù)進(jìn)行更新.

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)設(shè)置

        本實(shí)驗(yàn)使用的中文語(yǔ)料來(lái)自新浪微博,由NLP&CC-2013中文微博情緒分析評(píng)測(cè)提供,英文語(yǔ)料來(lái)自Twitter,由SemEval-2018 Task 1: Affect in Tweets 提供.中文語(yǔ)料對(duì)應(yīng)7個(gè)情緒類(lèi)別,分別是高興、喜好、憤怒、悲傷、恐懼、厭惡和驚訝,樣本數(shù)量分別為1 460、2 203、669、1 173、148、1 392、362.英文語(yǔ)料對(duì)應(yīng)4個(gè)情緒類(lèi)別,分別是憤怒、恐懼、高興和悲傷,樣本數(shù)量分別為1 901、2 452、1 816、1 733.對(duì)于中文語(yǔ)料,由于恐懼情緒的樣本數(shù)量太少,根據(jù)其樣本數(shù)生成測(cè)試集得到的實(shí)驗(yàn)結(jié)果具有較大的偶然性,因此我們選取第二少類(lèi)別(驚訝情緒)樣本數(shù)的20%(即362*20%≈72)作為各情緒類(lèi)別的測(cè)試樣本數(shù).訓(xùn)練樣本則從各類(lèi)別的剩余樣本中抽取.對(duì)于英文語(yǔ)料,我們分別從各個(gè)類(lèi)別中選取200個(gè)樣本作為測(cè)試集,剩余樣本都作為訓(xùn)練集.由于中英文語(yǔ)料類(lèi)別不一致,所以我們僅對(duì)類(lèi)別相同的部分進(jìn)行擴(kuò)充.

        我們首先使用復(fù)旦大學(xué)發(fā)布的分詞工具FudanNLP對(duì)中文語(yǔ)料進(jìn)行分詞,英文語(yǔ)料則按空格進(jìn)行切分,然后使用word2vec訓(xùn)練詞的分布式表示,詞向量維度設(shè)置為100.實(shí)驗(yàn)中使用的分類(lèi)算法包括最大熵和LSTM神經(jīng)網(wǎng)絡(luò),其中最大熵使用Mallet機(jī)器學(xué)習(xí)工具包,LSTM神經(jīng)網(wǎng)絡(luò)使用深度學(xué)習(xí)框架Keras,LSTM層的輸出維度為256,全連接層的輸出維度為128,迭代次數(shù)為20.我們采用正確率和F1值作為衡量分類(lèi)性能的評(píng)價(jià)指標(biāo).

        3.2 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證基于雙語(yǔ)信息的情緒分類(lèi)方法的有效性,我們實(shí)現(xiàn)了以下幾種情緒分類(lèi)方法.

        1) 基準(zhǔn)方法+最大熵(Baseline_maxent).直接使用源語(yǔ)言的訓(xùn)練集訓(xùn)練最大熵分類(lèi)器,對(duì)相應(yīng)語(yǔ)言類(lèi)型的測(cè)試集進(jìn)行測(cè)試.

        2) 基準(zhǔn)方法+LSTM(Baseline_lstm).直接使用源語(yǔ)言的訓(xùn)練集訓(xùn)練LSTM分類(lèi)器,對(duì)相應(yīng)語(yǔ)言類(lèi)型的測(cè)試集進(jìn)行測(cè)試.

        3) 語(yǔ)料庫(kù)擴(kuò)充+最大熵(CorpusExp_maxent).通過(guò)機(jī)器翻譯對(duì)中英文語(yǔ)料進(jìn)行翻譯,從而實(shí)現(xiàn)訓(xùn)練語(yǔ)料的擴(kuò)充.使用擴(kuò)充后的訓(xùn)練集訓(xùn)練最大熵分類(lèi)器,對(duì)相應(yīng)語(yǔ)言的測(cè)試集進(jìn)行測(cè)試.

        4) 語(yǔ)料庫(kù)擴(kuò)充+LSTM(CorpusExp_lstm).通過(guò)機(jī)器翻譯對(duì)中英文語(yǔ)料進(jìn)行翻譯,從而實(shí)現(xiàn)訓(xùn)練語(yǔ)料的擴(kuò)充.使用擴(kuò)充后的訓(xùn)練集訓(xùn)練LSTM分類(lèi)器,對(duì)相應(yīng)語(yǔ)言的測(cè)試集進(jìn)行測(cè)試.

        5) 基于雙語(yǔ)信息的情緒分類(lèi)方法:隱層拼接(Bilingual-concat).使用本文提出的基于雙語(yǔ)信息的情緒分類(lèi)方法,其中隱層向量通過(guò)拼接方式融合.

        6) 基于雙語(yǔ)信息的情緒分類(lèi)方法:隱層相加(Bilingual-sum).使用本文提出的基于雙語(yǔ)信息的情緒分類(lèi)方法,其中隱層向量通過(guò)按位相加方式融合.

        圖2比較了幾種情緒分類(lèi)方法在中文測(cè)試集和英文測(cè)試集上的情緒分類(lèi)性能.通過(guò)比較Baseline-maxent和Baseline-lstm以及CorpusExp_maxent和CorpusExp_lstm,我們發(fā)現(xiàn)LSTM分類(lèi)器的性能整體上略?xún)?yōu)于最大熵分類(lèi)器.

        圖2 中文和英文測(cè)試集上不同情緒分類(lèi)方法的性能比較Fig.2 The results of different classification methods on weibo and Twitter

        為了驗(yàn)證通過(guò)機(jī)器翻譯實(shí)現(xiàn)語(yǔ)料擴(kuò)充對(duì)分類(lèi)性能的影響,我們比較了語(yǔ)料庫(kù)擴(kuò)充方法與基準(zhǔn)方法(Baseline_maxent和CorpusExp_maxent以及Baseline_lstm和CorpusExp_lstm).在中文測(cè)試集上,正確率分別提高了0.6%和1%;在英文語(yǔ)料上,正確率分別提高了1.5%和2.4%.上述數(shù)據(jù)表明,通過(guò)翻譯語(yǔ)料擴(kuò)充訓(xùn)練樣本能夠一定程度上提高情緒分類(lèi)的性能.

        為了驗(yàn)證使用雙語(yǔ)信息對(duì)情緒分類(lèi)性能的影響,我們比較了基于雙語(yǔ)信息的情緒分類(lèi)方法和語(yǔ)料庫(kù)擴(kuò)充+LSTM方法(CorpusExp_lstm)的實(shí)驗(yàn)性能.在中文測(cè)試集上,當(dāng)隱層向量拼接融合(Bilingual-concat)時(shí),正確率提高了2.8%;當(dāng)隱層向量按位相加融合(Bilingual-sum)時(shí),正確率提高了3%.在英文測(cè)試集上,當(dāng)隱層向量拼接融合(Bilingual-concat)時(shí),正確率提高了1.2%;當(dāng)隱層向量按位相加融合(Bilingual-sum)時(shí),正確率提高了1.4%.以上數(shù)據(jù)表明,融合文本的雙語(yǔ)信息能夠增加文本的信息量,提高情緒分類(lèi)性能.

        最后,我們比較了基于雙語(yǔ)信息的情緒分類(lèi)方法與基準(zhǔn)方法+LSTM方法(Baseline_lstm)的實(shí)驗(yàn)性能.在中文測(cè)試集上,當(dāng)隱層向量拼接融合(Bilingual-concat)時(shí),正確率提高了3.8%;當(dāng)隱層向量按位相加融合(Bilingual-sum)時(shí), 正確率提高了4%.在英文測(cè)試集上,當(dāng)隱層向量拼接融合(Bilingual-concat)時(shí),正確率提高了3.6%;當(dāng)隱層向量按位相加融合(Bilingual-sum)時(shí), 正確率提高了3.8%.實(shí)驗(yàn)結(jié)果表明,我們提出的基于雙語(yǔ)信息的情緒分類(lèi)方法既能夠通過(guò)機(jī)器翻譯擴(kuò)充訓(xùn)練樣本,又能夠增加單個(gè)文本的分類(lèi)信息,不管在中文測(cè)試集還是英文測(cè)試集上都能夠顯著提高情緒分類(lèi)的性能,充分驗(yàn)證了該方法的有效性.

        此外,為了更細(xì)致地比較各情緒分類(lèi)方法的性能,我們分析了以上幾種情緒分類(lèi)方法在各情緒類(lèi)別上的F1值,如表1和表2所示.從表1和表2中可以看出,基于雙語(yǔ)信息的情緒分類(lèi)方法在各情緒類(lèi)別的F1值上總體是有提升的.從F1值的宏平均也可以看出,基于雙語(yǔ)信息的情緒分類(lèi)方法在使用隱層拼接融合和按位相加融合時(shí),分類(lèi)性能都明顯優(yōu)于其他方法.

        表1 中文語(yǔ)料上各情緒類(lèi)別的F1值Tab.1 The F1 scores of different classification methods on weibo

        表2 英文語(yǔ)料上各情緒類(lèi)別的F1值Tab.2 The F1 scores of different classification methods on Twitter

        4 結(jié)論

        本文針對(duì)文本情緒分類(lèi)任務(wù)中已標(biāo)注樣本不足和分類(lèi)文本較短、信息量少的問(wèn)題,提出了一種基于雙語(yǔ)信息的情緒分類(lèi)方法.該方法既能夠通過(guò)機(jī)器翻譯擴(kuò)充語(yǔ)料,又能夠融合分類(lèi)文本的中英文特征表示,增加分類(lèi)文本的信息.實(shí)驗(yàn)結(jié)果表明,該方法能夠充分利用訓(xùn)練樣本,不管在微博語(yǔ)料還是Twitter語(yǔ)料上的性能都明顯優(yōu)于傳統(tǒng)方法.

        在下一步工作中,我們將探索中文與其他語(yǔ)言(德語(yǔ)、日語(yǔ)等)的融合,以此來(lái)驗(yàn)證我們方法的有效性.此外,我們可以實(shí)現(xiàn)基于多語(yǔ)信息的情緒分類(lèi)方法,將多組不同語(yǔ)言領(lǐng)域的語(yǔ)料融合,同時(shí)提升各語(yǔ)言領(lǐng)域的情緒分類(lèi)性能.

        猜你喜歡
        英文分類(lèi)情緒
        分類(lèi)算一算
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        小情緒
        小情緒
        小情緒
        教你一招:數(shù)的分類(lèi)
        英文摘要
        英文摘要
        英文摘要
        69天堂国产在线精品观看| 男女啪动最猛动态图| 国产国语熟妇视频在线观看| 精品囯产成人国产在线观看| 精品在线视频免费在线观看视频 | 国产亚洲第一精品| 青青草国产成人99久久| 中国免费av网| 国产熟女自拍av网站| 无码人妻丰满熟妇区bbbbxxxx| 国产95在线 | 欧美| 欧美中出在线| 手机在线观看亚洲av | 中文字幕人妻熟女人妻| 亚洲有码转帖| 男女高潮免费观看无遮挡 | 国产精品美女久久久网av| 丰满岳妇乱一区二区三区| 亚洲五月激情综合图片区| 如何看色黄视频中文字幕| 精品极品一区二区三区| 成人影片麻豆国产影片免费观看| 国产精品538一区二区在线| 国产熟妇搡bbbb搡bb七区| 国产伦码精品一区二区| 国产情侣亚洲自拍第一页| 麻豆精品国产精华液好用吗| 亚洲国产18成人中文字幕久久久久无码av | 一区二区三区中文字幕有码| 国产精品一区二区av不卡| 欧洲熟妇色xxxx欧美老妇多毛 | 天天躁日日躁狠狠躁欧美老妇| 亚洲伊人久久大香线蕉综合图片| 午夜精品一区二区三区av免费| 中文字幕亚洲五月综合婷久狠狠| 国产欧美一区二区精品久久久| 久久福利青草精品免费| 日本午夜一区二区视频| 东京热加勒比久久精品| 国产av麻豆mag剧集| 四虎影院在线观看|