亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多跳推理的篇章情感分析模型?

        2021-07-16 14:05:12敏,班浩,趙
        電子器件 2021年3期
        關(guān)鍵詞:層級(jí)文檔注意力

        朱 敏,班 浩,趙 力

        (1.常州信息職業(yè)技術(shù)學(xué)院電子工程學(xué)院,江蘇 常州 213164;2.東南大學(xué)信息科學(xué)與工程學(xué)院,江蘇 南京 210096)

        互聯(lián)網(wǎng)的快速發(fā)展使得社交媒體成為用戶表達(dá)意見的重要渠道,因此有效挖掘用戶評(píng)論的情感信息具有十分重要的應(yīng)用價(jià)值[1]。情感分析任務(wù)根據(jù)粒度不同分為篇章情感分析、句子情感分析和方面級(jí)情感分析,篇章情感分析的目的是評(píng)估文檔整體的情感傾向或情感等級(jí)。傳統(tǒng)的情感分析方法通常是利用N 元文法模型(N-grams)將文檔表示成稀疏特征向量,然后再基于支持向量機(jī)(SVM)等分類方法完成情感傾向或等級(jí)的預(yù)測。近年來隨著深度學(xué)習(xí)理論的發(fā)展,神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)文檔稠密特征表示的應(yīng)用逐漸成熟,其中使用最為廣泛的是卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)[2]。前者能夠?qū)W習(xí)到文本中的關(guān)鍵詞等局部不變性特征,但不能有效利用單詞的順序信息,而且無法解決文本數(shù)據(jù)的長程依賴問題,因此僅適用于短文本和句子情感分析任務(wù)[3]。后者由于處理序列數(shù)據(jù)的特性,因此適用于長文本和篇章情感分析任務(wù)[4]。

        根據(jù)語言學(xué)的組合性原理[5],篇章語義信息的產(chǎn)生表現(xiàn)為由詞到句、再由句到篇的層級(jí)結(jié)構(gòu),相同的單詞和句子在不同語境下有可能表達(dá)不同甚至相反的語義。因此對(duì)于篇章情感分析,將文檔簡單地看作是單詞序列處理是不合適的。為了能夠更好地理解文檔整體的語義信息,所構(gòu)建的情感分析模型也應(yīng)該需要適應(yīng)這種層級(jí)結(jié)構(gòu)。

        本文提出一種融合多跳機(jī)制的篇章情感分析模型[6],既考慮了層級(jí)結(jié)構(gòu),又充分挖掘上下文語句之間的潛在語義影響,在IMDB 和Yelp 公開評(píng)論數(shù)據(jù)集上取得了優(yōu)于當(dāng)前最新模型的結(jié)果。

        1 篇章情感分析

        篇章情感分析任務(wù)的目的是確定輸入文檔的整體情感傾向或情感等級(jí),也可以認(rèn)為是特殊的文檔分類任務(wù),因此文本特征需要能夠反映出篇章整體語義信息以及情感傾向。常用的文本特征提取流程包括詞袋特征、詞頻逆文檔頻率特征以及卡方等特征選擇方法,再根據(jù)數(shù)據(jù)特性和應(yīng)用場景選擇合適的分類方法,訓(xùn)練出良好性能的分類器模型。Alm[7]使用監(jiān)督學(xué)習(xí)方法探討了基于文本的情感預(yù)測。Cheng[8]研究了詞語級(jí)和句子級(jí)的情感分析,首先利用機(jī)器學(xué)習(xí)方法學(xué)習(xí)具有情感屬性的詞語,然后在這個(gè)基礎(chǔ)上通過樸素貝葉斯方法識(shí)別句子情感極性。Lakkaraju[9]對(duì)特征和情感主題建立一個(gè)聯(lián)合的概率模型,該模型以監(jiān)督的方式對(duì)評(píng)論中的特征和意見建模從而得到一個(gè)生成模型。

        近年來,深度學(xué)習(xí)在自然語言處理的應(yīng)用逐漸深入[10]。Socher[11]提出了遞歸神經(jīng)網(wǎng)絡(luò)識(shí)別文本所具有的情感類別。Kim[12]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的文本情感分析模型,實(shí)驗(yàn)證實(shí)簡單的卷積神經(jīng)網(wǎng)絡(luò)模型能夠在情感分析任務(wù)中取得不錯(cuò)的分類性能。循環(huán)神經(jīng)網(wǎng)絡(luò)被設(shè)計(jì)來處理序列數(shù)據(jù),因此基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型廣泛用于自然語言處理任務(wù),包括篇章情感分析、閱讀理解等。Lai[13]提出循環(huán)卷積網(wǎng)絡(luò),首先使用雙向循環(huán)網(wǎng)絡(luò)得到每個(gè)單詞的上下文相關(guān)向量表示,再結(jié)合單詞本身向量表示通過最大池化得到句子表示,進(jìn)而通過全連接層得到文本的情感傾向。Tang[14]首先提出從單詞組合得到句子的特征表示,再從句子組合得到文檔整體的特征表示,最終得到篇章情感傾向性的GatedRNN模型。需要指出的是,這種方法雖然考慮到了篇章層級(jí)結(jié)構(gòu),但不能高效捕捉到同一文檔中不同句子之間的語義關(guān)聯(lián)信息,也限制了模型效果的提升?;谘h(huán)網(wǎng)絡(luò)的注意力機(jī)制在自然語言處理中最早應(yīng)用于機(jī)器翻譯[15],實(shí)質(zhì)在解碼輸出時(shí)為每個(gè)時(shí)間步的隱藏向量表示計(jì)算權(quán)重,因?yàn)樵诜g目標(biāo)語言時(shí),源語言不同單詞的對(duì)當(dāng)前時(shí)刻目標(biāo)單詞的貢獻(xiàn)是不同的。對(duì)注意力權(quán)重的可視化表明這種假設(shè)的合理性與正確性。Du[16]調(diào)研了基于循環(huán)網(wǎng)絡(luò)的注意力機(jī)制在文本分類任務(wù)的應(yīng)用,在NLPCC2014 和Reuters 文本分類數(shù)據(jù)集上取得了優(yōu)于基線模型的效果,證明了注意力機(jī)制應(yīng)用于文本分類和情感分析的可行性。受Tang[14]考慮篇章層級(jí)結(jié)構(gòu)的啟發(fā),Yang[17]提出層級(jí)注意力機(jī)制模型HAN,在單詞層級(jí)的注意力機(jī)制得到句子表示,在句子層級(jí)的注意力機(jī)制得到篇章表示。在IMDB、Amazon 和Yelp 數(shù)據(jù)集上的結(jié)果表明所提出模型的優(yōu)越性,并且通過注意力權(quán)重的可視化分析,對(duì)篇章整體情感傾向有貢獻(xiàn)的單詞,相應(yīng)的權(quán)重會(huì)較大,因此具有一定的可解釋性,得到了廣泛應(yīng)用。

        2 多跳推理網(wǎng)絡(luò)

        多跳網(wǎng)絡(luò)也叫記憶網(wǎng)絡(luò),最初提出用來解決閱讀理解任務(wù)[6]。具體內(nèi)容是給定一段文本描述,然后提出相關(guān)的問題,閱讀理解模型要根據(jù)問題從文本描述中找出相應(yīng)的回答。顯然模型需要具備從文本描述和問題推理出相應(yīng)回答的能力。多跳網(wǎng)絡(luò)設(shè)計(jì)為模擬這個(gè)推理過程,包括記憶單元和推理單元。其中,記憶單元是存儲(chǔ)文本描述和問題的隱藏特征,推理單元是根據(jù)問題從記憶單元中查詢答案。記憶單元和推理單元具體的實(shí)現(xiàn)均由神經(jīng)網(wǎng)絡(luò)完成,不過其中最關(guān)鍵的是,文本描述和問題的隱藏特征是被存儲(chǔ)在記憶單元中,因此可以多次訪問進(jìn)而實(shí)現(xiàn)多次推理。面對(duì)復(fù)雜問題,有可能需要從文本中多次推理才能對(duì)答案實(shí)現(xiàn)精準(zhǔn)定位,因此多跳網(wǎng)絡(luò)可以模擬閱讀理解任務(wù)中的多次推理過程,這也是其名字的由來。

        在篇章情感分析任務(wù)的層級(jí)注意力機(jī)制模型[17]中,研究者觀察到注意力權(quán)重會(huì)集中在對(duì)情感傾向有貢獻(xiàn)的情感詞匯和程度詞匯中。但對(duì)篇章整體而言,經(jīng)常會(huì)存在某些句子表達(dá)的情感傾向和整體傾向不一致的情況,因此注意力權(quán)重集中在某些句子會(huì)造成對(duì)整體情感傾向的錯(cuò)誤判斷。為解決這個(gè)問題,需要平衡好篇章中不同情感傾向句子之間的關(guān)系。因此考慮將篇章情感分析轉(zhuǎn)化為閱讀理解問題,使用多跳網(wǎng)絡(luò)可以對(duì)篇章中所有句子進(jìn)行多次推理,從而充分均衡不同情感傾向句子對(duì)篇章整體情感傾向的影響。

        圖1 所示為用于篇章情感分析的多跳網(wǎng)絡(luò)模型,以兩次推理作為示例。首先使用GRU 在單詞層級(jí)上得到句子的向量表示。這里沒有使用注意力機(jī)制,一方面是因?yàn)楸苊饽P瓦^分關(guān)注某些情感傾向性很強(qiáng)的單詞,從而考慮篇章整體;另一方面是減小模型運(yùn)算復(fù)雜度。GRU 單元包括遺忘門zt和重置門rt:

        圖1 多跳網(wǎng)絡(luò)結(jié)構(gòu)

        式中:xt表示GRU 第t時(shí)間步的輸入,ht-1表示GRU第t-1 時(shí)間步的隱層輸出;Wz和Uz分別表示GRU遺忘門zt中xt和ht-1的權(quán)重矩陣,bz表示偏置;Wr和Ur分別表示GRU 重置門rt中xt和ht-1的權(quán)重矩陣,br表示偏置;Wr和Ur分別表示GRU 當(dāng)前時(shí)刻輸入信息中xt和ht-1的權(quán)重矩陣,bh表示偏置,~ht表示當(dāng)前時(shí)刻的輸入信息,ht表示當(dāng)前時(shí)刻的輸出。

        在得到句子的向量表示hi后,使用注意力機(jī)制來平衡不同句子之間的關(guān)系以及對(duì)篇章整體情感傾向的貢獻(xiàn):

        式中:us表示用于計(jì)算注意力權(quán)重的查詢向量,αi表示對(duì)應(yīng)每個(gè)時(shí)間步隱藏向量即每個(gè)句子的注意力權(quán)重,v表示篇章的特征向量。

        如果不考慮多跳結(jié)構(gòu),則再經(jīng)過全連接層可以預(yù)測輸出整體的情感傾向。但對(duì)于篇幅較長的文檔,常常包含情感傾向不同于整體情感傾向的句子,而且不同上下文之間還存在情感傾向的相互影響,因此就要考慮多跳結(jié)構(gòu)。具體來說就是在已經(jīng)得到篇章向量vt-1的基礎(chǔ)上,再使用另一GRU 網(wǎng)絡(luò)并且狀態(tài)初始化為上一輪次的篇章向量,重新為每個(gè)句子計(jì)算注意力權(quán)重,得到當(dāng)前輪次的篇章向量vt。

        此外,考慮到在單詞層級(jí)得到句子向量表示過程中,并未使用注意力機(jī)制,其原因是避免模型過度學(xué)習(xí)到某些較強(qiáng)傾向性句子的情感特征而忽略篇章整體。但同時(shí)也為防止模型在單詞層級(jí)不能學(xué)習(xí)到有效的句子表示,考慮使用位置編碼,包含不同單詞對(duì)句子情感傾向的貢獻(xiàn),位置編碼權(quán)重對(duì)句子所包含單詞的詞向量加權(quán)后與GRU 得到的句子向量拼接起來,作為句子特征的增強(qiáng):

        式中:d表示詞向量某一維度,D為預(yù)設(shè)詞向量維度,表示第t個(gè)句子的第j個(gè)單詞的詞向量,M表示句子長度。

        3 實(shí)驗(yàn)結(jié)果與分析

        本文選擇的篇章情感分析數(shù)據(jù)集為公開的IMDB 影視評(píng)論數(shù)據(jù)集、Yelp-13、Yelp-14 飯店評(píng)論數(shù)據(jù)集,其中訓(xùn)練集、驗(yàn)證集和測試集劃分與Tang[14]相同。各數(shù)據(jù)集統(tǒng)計(jì)信息見表1。

        表1 數(shù)據(jù)集統(tǒng)計(jì)信息

        數(shù)據(jù)預(yù)處理過程使用NLTK 工具進(jìn)行切分句子和分詞,構(gòu)建詞表時(shí)僅保留詞頻超過100 的單詞。模型性能的評(píng)估使用指標(biāo)為準(zhǔn)確率,即正確分類數(shù)據(jù)占所有數(shù)據(jù)的百分比。模型在訓(xùn)練過程中超參數(shù)訓(xùn)練輪次設(shè)置為50 次,當(dāng)且僅當(dāng)本輪次訓(xùn)練模型在驗(yàn)證集上取得當(dāng)前最好結(jié)果時(shí)保存模型參數(shù),訓(xùn)練結(jié)束則加載驗(yàn)證集上表現(xiàn)最好的模型在測試集上進(jìn)行預(yù)測。批次樣本數(shù)據(jù)量選擇為64,詞向量維度選擇為300,使用預(yù)訓(xùn)練好的Glove 詞向量[18]。訓(xùn)練過程中的dropout 正則概率設(shè)置為0.5,L2 正則權(quán)值設(shè)置為0.2,并且僅對(duì)全連接層神經(jīng)網(wǎng)絡(luò)的權(quán)重施加L2 正則。訓(xùn)練模型所使用機(jī)器為Windows 系統(tǒng),顯卡型號(hào)為NVIDIA GTX1060,運(yùn)行內(nèi)存為8G。實(shí)驗(yàn)結(jié)果如表2 所示。

        表2 實(shí)驗(yàn)結(jié)果

        對(duì)所提出的多跳網(wǎng)絡(luò)模型以及位置編碼增強(qiáng)的模型進(jìn)行對(duì)比實(shí)驗(yàn),選擇的基線模型包括:

        (1)Average 表示將文檔中所有單詞的詞向量取平均,作為篇章整體的向量表示,然后經(jīng)過全連接網(wǎng)絡(luò)預(yù)測輸出情感類別或傾向;

        (2)TextCNN 將整篇文檔視為長序列,使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文檔情感分類。寬度為[3,4,5]的卷積核各128 個(gè),卷積結(jié)果經(jīng)最大池化后再經(jīng)過全連接網(wǎng)絡(luò)進(jìn)行預(yù)測輸出;

        (3)TextRNN 同樣將整篇文檔視為長序列,使用循環(huán)神經(jīng)網(wǎng)絡(luò)GRU 對(duì)文檔情感分類;

        (4)TextRNN+Att 在TextRNN 的基礎(chǔ)上,使用注意力機(jī)制對(duì)文檔情感分類;

        (5)GatedRNN 考慮文檔層級(jí)結(jié)構(gòu),使用GRU先在單詞層級(jí)得到句子向量表示,再在句子層級(jí)得到文檔向量表示進(jìn)而完成分類;

        (6)HAN 考慮文檔層級(jí)結(jié)構(gòu),在單詞層級(jí)和句子層級(jí)使用基于注意力機(jī)制的GRU 得到相應(yīng)表示進(jìn)而完成分類。

        由實(shí)驗(yàn)結(jié)果可知,適于處理序列數(shù)據(jù)的循環(huán)網(wǎng)絡(luò)性能要好于卷積網(wǎng)絡(luò);使用注意力機(jī)制可提高實(shí)驗(yàn)結(jié)果準(zhǔn)確率;考慮文檔層級(jí)結(jié)構(gòu)的模型表現(xiàn)優(yōu)于不考慮層級(jí)結(jié)構(gòu)的模型;多跳推理結(jié)構(gòu)可以改善層級(jí)結(jié)構(gòu)模型的實(shí)驗(yàn)結(jié)果,但隨著跳數(shù)越多表現(xiàn)不升反降,可能的原因時(shí)出現(xiàn)過擬合,而且訓(xùn)練時(shí)間也明顯變長;位置編碼對(duì)多跳推理結(jié)構(gòu)的影響不是很明顯。在三種篇章情感分類數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提出的多跳推理情感分析模型是合理且有效的。

        4 結(jié)論

        本文引入閱讀理解中的多跳結(jié)構(gòu),用來解決篇章情感分析模型過分關(guān)注某些情感詞匯和不能很好建模不同句子,尤其是情感傾向不同于文檔整體傾向的句子之間的語義關(guān)聯(lián)和影響的問題。在所選擇的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了多跳結(jié)構(gòu)的有效性。但本文所提出的模型仍存在一些缺點(diǎn),引入多跳結(jié)構(gòu)增加了模型復(fù)雜度,而且跳數(shù)越多訓(xùn)練時(shí)間明顯變長。未來的研究為在保持多跳結(jié)構(gòu)的同時(shí),進(jìn)一步降低模型復(fù)雜度,在不損失模型性能的前提下,加快訓(xùn)練時(shí)間。

        猜你喜歡
        層級(jí)文檔注意力
        讓注意力“飛”回來
        有人一聲不吭向你扔了個(gè)文檔
        軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
        基于軍事力量層級(jí)劃分的軍力對(duì)比評(píng)估
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        A Beautiful Way Of Looking At Things
        任務(wù)期內(nèi)多層級(jí)不完全修復(fù)件的可用度評(píng)估
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        亚洲蜜桃视频在线观看| 国产成人无码av在线播放dvd| 国产成人乱色伦区小说| 日韩精品成人一区二区在线观看 | 国内视频一区| 国产精品卡一卡二卡三| 日本中文字幕在线播放第1页| 视频一区精品自拍| av成人资源在线观看| 国产精品一区二区三久久不卡| 无码不卡av东京热毛片| 国产丝袜在线精品丝袜不卡| 亚洲一本之道高清在线观看| 日本熟女中文字幕在线| av国产传媒精品免费| 久久国产劲暴∨内射| 2021国产最新在线视频一区| 熟女人妻一区二区中文字幕| 中文字幕av久久亚洲精品| av无码天堂一区二区三区| 人妻无码AⅤ不卡中文字幕| 亚洲乱熟妇一区二区三区蜜桃| 国产免码va在线观看免费| 88国产精品视频一区二区三区 | 久久精品一区二区三区不卡牛牛 | 黄片亚洲精品在线观看| 丝袜人妻一区二区三区| 极品少妇被猛的白浆直喷白浆| 亚洲 欧美精品suv| 久久综合网天天 | 日韩十八禁在线观看视频| 日韩av天堂一区二区| 永久黄网站色视频免费看| 亚洲人成电影在线无码| 色哟哟精品中文字幕乱码| 国产国产精品人在线视| 全免费a级毛片| 中文字幕一区二区三区在线不卡| av在线播放一区二区免费| 中文字幕亚洲综合久久菠萝蜜| 豆国产95在线 | 亚洲|