亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多通道特征和自注意力的情感分類方法?

        2021-11-09 05:51:50李衛(wèi)疆余正濤
        軟件學(xué)報(bào) 2021年9期
        關(guān)鍵詞:分類特征文本

        李衛(wèi)疆,漆 芳,余正濤

        (昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)

        隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的方法成為主流,被廣泛地應(yīng)用于自然語(yǔ)言處理(NLP)領(lǐng)域中.與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)在情感分析上表現(xiàn)得更為優(yōu)秀,其不需要建立情感詞典.深度學(xué)習(xí)能夠自動(dòng)捕捉從數(shù)據(jù)本身到高層更為復(fù)雜的語(yǔ)義映射,在性能上體現(xiàn)出比以往方法更好的效果.遞歸自動(dòng)編碼器[1,2]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[3?5]和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[6,7]是目前在情感分析任務(wù)中常見(jiàn)的深度學(xué)習(xí)模型.

        雖然這些神經(jīng)網(wǎng)絡(luò)模型在情感分類任務(wù)中取得了巨大的成功,但依然存在著一些缺陷:

        首先,忽略了情感分析任務(wù)中現(xiàn)有的語(yǔ)言知識(shí)和情感資源,不能充分地利用這些情感特征信息;其次,語(yǔ)言知識(shí)(如情感詞匯、否定詞和程度副詞等),在神經(jīng)網(wǎng)絡(luò)模型中未被充分使用.Chen 等人[8]提出了一種結(jié)合情感詞典和卷積神經(jīng)網(wǎng)絡(luò)的情感分類方法(WFCNN),主要是利用情感詞典中的詞條對(duì)文本中的詞語(yǔ)進(jìn)行抽象表示,再使用卷積神經(jīng)網(wǎng)絡(luò)提取抽象詞語(yǔ)的序列特征.該方法中的情感特征依賴于人工整理的情感詞典,使用的特征單一,難以正確的表達(dá)每個(gè)詞在句子中的重要程度,無(wú)法充分利用情感分析任務(wù)中語(yǔ)言知識(shí)和情感特征信息;并且該方法使用的CNN 濾波器的詞容量有限的,不能捕捉到遠(yuǎn)距離依賴,無(wú)法獲得句子中非相鄰詞之間的語(yǔ)義關(guān)系.LSTM 可以通過(guò)對(duì)句子的順序建模來(lái)解決這個(gè)限制.Qian 等人[9]提出了句級(jí)標(biāo)注訓(xùn)練的LSTM 模型,對(duì)情感詞匯、否定詞和程度副詞等現(xiàn)有的語(yǔ)言規(guī)則進(jìn)行建模,能夠有效地利用語(yǔ)言學(xué)規(guī)則,實(shí)驗(yàn)也取得了較好的結(jié)果.但是,該模型需要大量的人力來(lái)建立強(qiáng)度正則化器.

        另外,在深度學(xué)習(xí)中,很多的NLP 任務(wù)都可以看作是一個(gè)序列建模任務(wù)(sequence modeling).而序列模型存在一個(gè)問(wèn)題:無(wú)論輸入的文本序列的長(zhǎng)度為多少,最終都會(huì)將這個(gè)文本序列解碼成為某一個(gè)特定的長(zhǎng)度向量.如果設(shè)定的向量長(zhǎng)度過(guò)短,那么會(huì)造成輸入文本信息丟失,最后會(huì)導(dǎo)致文本誤判.Pei 等人[10]針對(duì)這個(gè)問(wèn)題提出了一種將詞性注意力機(jī)制和LSTM 相結(jié)合的網(wǎng)絡(luò)模型,利用注意力矩陣計(jì)算出給定詞句的注意力特征.實(shí)驗(yàn)結(jié)果表示:在一定的維度內(nèi),該模型能夠取得較好的情感分類效果;但是,當(dāng)文本映射的維度超過(guò)了閾值,分類的準(zhǔn)確率會(huì)隨著向量維度的提升而降低.Liu 等人[11]提出了一種具有注意機(jī)制和卷積層的雙向LSTM 文本分類模型,用來(lái)解決文本的任意序列長(zhǎng)度問(wèn)題,以及文本數(shù)據(jù)的稀疏問(wèn)題.

        針對(duì)以上問(wèn)題,本文提出了一種基于多通道特征和自注意力的雙向LSTM 情感分類方法(MFSA-BiLSTM),模型由兩部分組成:多通道特征和自注意力機(jī)制(self-attention).首先,本文對(duì)情感分析任務(wù)中現(xiàn)有的語(yǔ)言知識(shí)和情感資源進(jìn)行建模,將輸入文本句子中的詞向量與詞性特征向量,位置特征向量和依存特征向量三者進(jìn)行結(jié)合形成不同的特征通道向量作為BiLSTM 輸入,讓模型從不同的角度去學(xué)習(xí)句子中的情感特征信息,挖掘句子中不同方面的隱藏信息.然后,將這3 個(gè)特征通道向量與3 個(gè)BiLSTM 的輸出向量進(jìn)行結(jié)合,再利用自注意力模型來(lái)發(fā)現(xiàn)句子中的重要信息,并對(duì)這些重要信息進(jìn)行重點(diǎn)關(guān)注加強(qiáng).本文采用的自注意力是注意力的一種特殊情況.與傳統(tǒng)的注意力機(jī)制不同的是,自注意機(jī)制能夠減少對(duì)外部信息的依賴,無(wú)視詞與詞之間的距離,直接計(jì)算依賴關(guān)系,學(xué)習(xí)每個(gè)詞對(duì)句子情感傾向的權(quán)重分布,重點(diǎn)關(guān)注以及加強(qiáng)句子中的情感特征,可以使模型學(xué)習(xí)到更多的隱藏特征信息.本文的主要貢獻(xiàn)如下.

        (1)本文經(jīng)過(guò)研究發(fā)現(xiàn),對(duì)情感分類任務(wù)中特有的語(yǔ)言知識(shí)和情感資源進(jìn)行建??梢栽鰪?qiáng)分類效果.本文通過(guò)在序列BiLSTM 模型上建立多個(gè)特征通道向量輸入來(lái)解決這個(gè)問(wèn)題;

        (2)提出了一種自注意力機(jī)制.將多特征向量和BiLSTM 模型的隱藏輸出層相結(jié)合,為不同詞賦予不同的情感權(quán)重.能夠有效地提高了情感極性詞的重要程度,充分挖掘文本中的情感信息;

        (3)同時(shí),在本文提出的MFSA-BiLSTM 模型基礎(chǔ)上,本文提出了用于文檔級(jí)文本分類任務(wù)的MFSABiLSTM-D 模型;

        (4)在句級(jí)和文檔級(jí)據(jù)集上驗(yàn)證了本文提出MFSA-BiLSTM 模型和MFSA-BiLSTM-D 模型在情感分析任務(wù)中的有效性.

        1 相關(guān)工作

        1.1 用于情感分析的語(yǔ)言知識(shí)

        在情感分析任務(wù)中,語(yǔ)義知識(shí)和情感資源,例如情感詞匯、否定詞語(yǔ)(不、從不)、程度詞(非常、絕對(duì)地)等等,能夠在很大程度上提高分類效果.因此,很多研究者嘗試從語(yǔ)言知識(shí)和情感資源中設(shè)計(jì)出更好的特征來(lái)提高情感分析的分類性能.Tang 等人[12]將生成具有情感特定詞嵌入(SSWE)的特征拿來(lái)訓(xùn)練SVM 的分類模型.Huang 等人[13]將情感表情符號(hào)與微博用戶性格情緒特征納入到圖模型LDA 中實(shí)現(xiàn)微博主題與情感的同步推導(dǎo),并在LDA 中加入了情感層與微博用戶關(guān)系參數(shù)[14],利用微博用戶關(guān)系與微博主題來(lái)學(xué)習(xí)微博的情感極性.Vo 等人[15]在情感詞典中添加表情特征用來(lái)自動(dòng)構(gòu)建文本,對(duì)Twitter 文本進(jìn)行情感分析.另外,還有一些關(guān)于從社交數(shù)據(jù)以及多種語(yǔ)言[16]中自動(dòng)構(gòu)建情感詞典的研究.Teng 等人[17]提出了一種基于簡(jiǎn)單加權(quán)和上下文敏感詞典的方法,使用RNN 來(lái)學(xué)習(xí)情感強(qiáng)度,強(qiáng)化和否定詞匯情感,從而構(gòu)成句子的情感價(jià)值.將方面信息、否定詞、短語(yǔ)情感強(qiáng)度、解析樹(shù)及其組合應(yīng)用到模型中以改進(jìn)其性能.

        但是眾所周知,標(biāo)準(zhǔn)RNN 會(huì)在其梯度下產(chǎn)生爆炸和消失狀態(tài).長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[6,7]是一種以長(zhǎng)短期記憶單元為隱藏單元的RNN 結(jié)構(gòu),能夠有效地解決梯度消失和梯度爆炸問(wèn)題.此外,LSTM 還考慮了詞序列之間的順序依賴關(guān)系,可以捕捉遠(yuǎn)距離的依賴,也可以捕獲近距離的依賴.Tai 等人[18]提出一種將記憶細(xì)胞和門引入樹(shù)形結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型Tree-LSTM.Qian 等人[9]提出了語(yǔ)言規(guī)則化的LSTM 模型(LR-Bi-LSTM),其中,情感詞匯、否定詞和強(qiáng)度詞都被認(rèn)為是句級(jí)情感分析的一個(gè)模型.Zhang 等人[19]提出一種基于批評(píng)學(xué)習(xí)和規(guī)則優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)的情感分析,由基于特征的預(yù)測(cè)器、基于規(guī)則的預(yù)測(cè)器和批評(píng)學(xué)習(xí)網(wǎng)絡(luò)這3 個(gè)關(guān)鍵部分組成.其中,對(duì)于負(fù)極性規(guī)則和句子結(jié)構(gòu)規(guī)則,模型需要人工去整理一個(gè)額外的情感詞典(否定詞和轉(zhuǎn)折詞).

        與文獻(xiàn)[9,17]相同的是,本文提出的MFSA-BiLSTM 模型同樣是對(duì)情感詞匯,否定詞和強(qiáng)度詞等語(yǔ)言知識(shí)進(jìn)行了建模.不同的是:MFSA-BiLSTM 模型對(duì)這些語(yǔ)言知識(shí)進(jìn)行建模,形成不同的特征通道,讓BiLSTM 從不同的角度去學(xué)習(xí)句子中的特征信息;并且不需要大量的人工來(lái)建立強(qiáng)度正則化器[9]和整理一個(gè)額外的情感詞典(否定詞和轉(zhuǎn)折詞)[19],也不需要依賴解析樹(shù)結(jié)構(gòu)[17]以及昂貴的短語(yǔ)級(jí)注釋的模型[18].

        1.2 用于情感分類的注意力

        目前,注意力機(jī)制已經(jīng)成為一種選擇重要信息以獲取優(yōu)異結(jié)果的有效方法.注意力機(jī)制最早是在計(jì)算機(jī)視覺(jué)領(lǐng)域提出來(lái)的,目的是模仿人類的注意力機(jī)制,給圖像不同的局部賦予不同的權(quán)重.

        Bahdanau 等人[20]在機(jī)器翻譯任務(wù)上使用了注意力機(jī)制,是第一個(gè)將注意力機(jī)制應(yīng)用到了NLP 領(lǐng)域.Ma 等人[21]提出了一種基于隱藏狀態(tài)的注意機(jī)制模型,該模型從上下文和方面交互式地學(xué)習(xí)注意力.Wang 等人[22]提出了基于注意的LSTM 用于方面層面的情感分類與文獻(xiàn)[23]中提出的基于內(nèi)容注意的方面情感分類模型,關(guān)鍵思想都是向注意力機(jī)制添加方面信息.Liang 等人[24]提出一種基于多通道注意力卷積神經(jīng)網(wǎng)絡(luò)模型,用于特定目標(biāo)情感分析.Guan 等人[25]使用的注意力機(jī)制直接從詞向量的基礎(chǔ)上學(xué)習(xí)每個(gè)詞對(duì)句子情感傾向的權(quán)重分步,能夠?qū)W習(xí)到增強(qiáng)情感分類效果的詞語(yǔ).Zhou 等人[26]提出的一種基于注意力的LSTM 網(wǎng)絡(luò)和Vaswani 等人[27]提出的自注意力和多頭注意力模型,都是用來(lái)解決跨語(yǔ)言的情感分類任務(wù).Lin 等人[28]使用自注意力機(jī)制學(xué)習(xí)LSTM 網(wǎng)絡(luò)中句子的詞嵌入,在情感分類任務(wù)上取得了較好的結(jié)果.Wang 等人[29]提出一種基于RNN 的情緒分類膠囊,使用了注意力機(jī)制來(lái)構(gòu)建膠囊表示.Liu 等人[11]提出了一種具有注意機(jī)制和卷積層的雙向LSTM 文本分類模型,使用注意力對(duì)BiLSTM 隱層輸出的信息進(jìn)行不同的關(guān)注,解決文本的任意序列長(zhǎng)度問(wèn)題以及文本數(shù)據(jù)的稀疏問(wèn)題.

        與文獻(xiàn)[11]中利用LSTM 前一刻輸出的隱含狀態(tài)與當(dāng)前時(shí)刻輸入的隱藏狀態(tài)進(jìn)行對(duì)齊方式的注意力不同的是,MFSA-BiLSTM 模型使用的是直接對(duì)當(dāng)前輸入自適應(yīng)加權(quán)的自注意力機(jī)制,無(wú)視詞與詞之間的距離,直接計(jì)算依賴關(guān)系,學(xué)習(xí)一個(gè)句子的內(nèi)部結(jié)構(gòu).

        2 基于多通道特征和自注意力的雙向LSTM 模型(MFSA-BiLSTM)

        本文提出的模型總體架構(gòu)如圖1所示.形式上是以一個(gè)文本中詞為單位,形成一個(gè)詞序列:{x1,x2,…,xn},每個(gè)詞都通過(guò)已訓(xùn)練好的詞向量映射成一個(gè)多維連續(xù)值的向量wi,1≤i≤n.再將句子序列中的詞向量拼接,得到整個(gè)句子序列的詞向量矩陣,表示為:Wd=w1⊕w2⊕…⊕wn,維度為d.模型不直接使用詞向量Wd作為BiLSTM 的輸入,而是以詞向量為基礎(chǔ)分別與詞性特征向量,位置值向量和依存句法向量進(jìn)行組合形成不同的通道(見(jiàn)第2.1節(jié)),目的是為了讓模型從不同角度去學(xué)習(xí)情感特征信息,充分地挖掘句子中的隱藏信息.

        Fig.1 Architecture of the MFSA-BiLSTM圖1 MFSA-BiLSTM 的體系結(jié)構(gòu)

        如圖1所示,BiLSTM 提取了3 個(gè)通道特征輸入的特征信息,分別經(jīng)過(guò)層歸一化得到VLN,再通過(guò)自注意力機(jī)制來(lái)學(xué)習(xí)一個(gè)加權(quán)矩陣Satt對(duì)原來(lái)的VLN進(jìn)行加權(quán),為不同詞賦予了不同的情感權(quán)重,從而進(jìn)行情感分類.具體設(shè)計(jì)將在以下小節(jié)中介紹,MFSA-BiLSTM 的算法如下所示.

        Algorithm 1.MFSA-BiLSTM 算法.

        Input:使用后文公式(1)~公式(3),將詞向量Wd、詞性向量Tagm、位置值向量Posl和依存句法向量Parp構(gòu)造成多通道特征輸入;

        Output:返回pk,其中,k為任務(wù).

        2.1 多通道特征

        本文中的多通道特征由整個(gè)數(shù)據(jù)集中的詞向量Wd、詞性特征向量Tagm、位置值向量Posl和依存句法向量Parp構(gòu)成.

        ?詞性特征向量.利用HowNet 情感集合,對(duì)輸入的句子中詞語(yǔ)重新標(biāo)注詞性.通過(guò)詞性標(biāo)注,讓模型去學(xué)習(xí)對(duì)情感分類有重要影響的詞語(yǔ).其中,重點(diǎn)對(duì)特殊的情感詞進(jìn)行標(biāo)注:程度副詞(如非常、極其)、正面/負(fù)面評(píng)價(jià)詞(如好、不好)、正面/負(fù)面情感詞(喜歡、失望)和否定詞(如不、從不).與詞向量Wd操作一樣,使ti∈Tagm,其中,ti為第i個(gè)詞性特征向量,m是詞性向量的維度;

        ?位置值向量.在句子中,詞與詞之間的位置往往隱藏著重要信息,同一個(gè)詞語(yǔ)出現(xiàn)在不同的位置,可能表達(dá)著不同的情感信息.將每個(gè)位置值映射成一個(gè)多維的連續(xù)值向量pi∈Posl,其中,pi為第i個(gè)位置特征向量,l是位置特征向量的維度;

        ?依存句法向量.依存句法分析是通過(guò)分析語(yǔ)言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu).通過(guò)對(duì)輸入的句子進(jìn)行句法分析,確定句子的句法結(jié)構(gòu)和句子中詞匯之間的依存關(guān)系,可以讓模型在更大程度上學(xué)習(xí)情感分析任務(wù)中現(xiàn)有的語(yǔ)言知識(shí),挖掘更多的隱藏情感信息.將每個(gè)句法特征映射成一個(gè)多維連續(xù)值向量parseri∈Parp,其中,parseri為句子s中第i個(gè)詞的句法特征,p是句法特征向量的維度.

        接著,本文以詞向量為基礎(chǔ),與詞性特征向量,位置值向量和依存句法向量進(jìn)行兩兩結(jié)合,形成3 個(gè)通道作為網(wǎng)絡(luò)模型的輸入.讓模型從不同角度去學(xué)習(xí)句子中不同方面的情感特征信息,挖掘句子中不同角度的隱藏信息.在實(shí)驗(yàn)中,本文使用一種簡(jiǎn)單行向量方向拼接操作:

        2.2 長(zhǎng)短期記憶網(wǎng)絡(luò)和層歸一化

        長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[6,7]是對(duì)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的改進(jìn).在LSTM 中,隱藏狀態(tài)ht和存儲(chǔ)器單元ct是之前的ht?1和ct?1和輸入向量Wt的函數(shù).每個(gè)位置(ht)的隱藏狀態(tài)只考慮前向,而不考慮后向,形式如下:

        Fig.2 Bidirectional LSTM network structure圖2 雙向LSTM 網(wǎng)絡(luò)結(jié)構(gòu)

        雙向LSTM[30]考慮前向和后向,學(xué)習(xí)兩個(gè)方向的信息,能夠更好地捕捉雙向的語(yǔ)義依賴,如圖2所示.雙向LSTM 是使用兩個(gè)LSTM 沿著序列的兩個(gè)方向(前向和后向)掃描,并將兩個(gè)LSTM 的隱藏狀態(tài)串聯(lián)起來(lái)表示每個(gè)位置,前向和后向的LSTM 分別表示為

        其中,gLSTM與公式(4)中的相同,兩個(gè)LSTM 中的參數(shù)是共享的.整個(gè)句子的表示形式是,其中,n是句子詞語(yǔ)的總個(gè)數(shù).在位置t表示為,這是前向LSTM 和后向LSTM 隱藏狀態(tài)的級(jí)聯(lián).通過(guò)這種方式,可以同時(shí)考慮前向和后向上下文.

        接下來(lái),本文使用文獻(xiàn)[31]提出的層歸一化來(lái)計(jì)算隱藏層中神經(jīng)元的求和輸入的均差和方差,目的是穩(wěn)定LSTM 網(wǎng)絡(luò)中隱藏動(dòng)態(tài),防止模型過(guò)擬合.在層歸一化中,本文對(duì)每個(gè)BiLSTM 隱藏層ht的每一個(gè)神經(jīng)元賦予它們自己的自適應(yīng)偏差和增益.層中的所有隱藏單元共享同樣的歸一化項(xiàng)μ和σ,形式如下:

        其中,H為隱藏單元數(shù)量,⊙為兩個(gè)向量之間的元素乘法,g和b定義為與th′相同維度的偏差和增益參數(shù).則BiLSTM 所有隱藏層狀態(tài)的輸出為公式(10),其中,VLN維度為n×H:

        2.3 自注意力機(jī)制

        注意力機(jī)制最早是在圖像處理領(lǐng)域提出來(lái)的,目的是為了在模型訓(xùn)練時(shí),重點(diǎn)關(guān)注某些特征信息.常規(guī)的注意力機(jī)制做法是利用LSTM 最后一個(gè)隱藏層的狀態(tài),或者是利用LSTM 前一刻輸出的隱層狀態(tài)與當(dāng)前輸入的隱藏狀態(tài)進(jìn)行對(duì)齊.采用直接對(duì)當(dāng)前輸入自適應(yīng)加權(quán)的自注意力,更合適用于情感分析任務(wù)中.

        如表1所示,本文以詞性特征為例對(duì)句子級(jí)MR數(shù)據(jù)集樣例進(jìn)行了分析.在樣例中的情感詞(如impressively)能夠體現(xiàn)出句子的情感傾向.為了加強(qiáng)這些情感詞在分類時(shí)的作用,本文使用自注意力機(jī)制來(lái)學(xué)習(xí)一個(gè)句子的內(nèi)部結(jié)構(gòu),重點(diǎn)加強(qiáng)句子中帶有情感的特征信息.

        Table 1 Analysis of key words in MR data samples表1 MR 數(shù)據(jù)樣本關(guān)鍵詞分析

        圖3 是Rwt通道的自注意力,其中,Rwp通道的VLN2和Rwpa通道的VLN3作為額外輔助權(quán)值參與了Rwt通道的自注意力權(quán)重矩陣watt1的計(jì)算:

        在上述公式中,PVLN,Itpp和Lnor為分別為自輔助矩陣、初始注意矩陣和額外輔助矩陣.L,L1,L2和L3分別是維度大小為H,3×H+m+1,H+m和m的權(quán)重,使用softmax進(jìn)行歸一化操作.然后,用自注意力權(quán)重watt1對(duì)BiLSTM的隱藏狀態(tài)VLN1進(jìn)行加權(quán),即加權(quán)后的注意力特征向量Ove1:

        與計(jì)算Rwt通道的注意力特征向量一樣,得到Rwp和Rwpa通道的注意力特征向量為Ove2和Ove3.情感分析本質(zhì)上是一個(gè)分類問(wèn)題,所以在模型的最后,將3 個(gè)通道的注意力特征向量進(jìn)行融合得到Satt,再利用softmax函數(shù)對(duì)其進(jìn)行分類.如下:

        其中,wc為權(quán)重矩陣,bc為偏置.在模型訓(xùn)練的過(guò)程中,本文使用交叉熵作為損失函數(shù),且在模型參數(shù)上面使用權(quán)重衰減來(lái)對(duì)參數(shù)進(jìn)行正則化.損失函數(shù)表示如下:

        其中,D為訓(xùn)練數(shù)據(jù)集大小,C為數(shù)據(jù)的標(biāo)簽數(shù),p為預(yù)測(cè)的情感類別,y為實(shí)際類別,λ||θ||2為L(zhǎng)2 正則項(xiàng),λ為L(zhǎng)2 正則化超參數(shù),θ為模型中的參數(shù)集.本文中使用時(shí)序反向傳播算法(back propagation)來(lái)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新.

        Fig.3 Self-Attention structure of Rwt圖3 Rwt 通道的自注意力結(jié)構(gòu)

        2.4 MFSA-BiLSTM-D模型

        在情感分類任務(wù)中,句子級(jí)文本的平均長(zhǎng)度不超過(guò)100(SL<100),見(jiàn)后文表2.文本中的每個(gè)詞可能具有一定的特征意義,會(huì)對(duì)分類結(jié)果產(chǎn)生影響.本文提出的MFSA-BiLSTM 模型,充分學(xué)習(xí)了每個(gè)詞語(yǔ)在句子中的語(yǔ)言特征信息,并且重點(diǎn)關(guān)注加強(qiáng)這些特征信息.因此,MFSA-BiLSTM 模型在句子級(jí)文本分類任務(wù)上效果顯著(見(jiàn)后文表4).然而,在平均長(zhǎng)度超過(guò)100(SL≥100)的文檔級(jí)文本中,每個(gè)文本存在著多個(gè)句子,每個(gè)句子可能具有不同的情感傾向.所以,影響整個(gè)文檔的分類效果是每個(gè)句子,而不是每個(gè)詞語(yǔ).

        針對(duì)這一問(wèn)題,Le 等人[32]提出了從句子和文檔中學(xué)習(xí)分布式特征表示的無(wú)監(jiān)督算法;Tang 等人[33]提出了將文檔中每個(gè)用戶和產(chǎn)品的文本偏好矩陣和表示向量引入CNN 情感分類;Xu 等人[34]提出了一種緩存LSTM模型,用來(lái)捕獲長(zhǎng)文本中的整體語(yǔ)義信息;Chen 等人[35]在LSTN 上使用了單詞和句子級(jí)別的平均池層.

        在本文中,若直接用MFSA-BiLSTM 模型對(duì)文檔級(jí)文本分類,會(huì)因?yàn)闊o(wú)法準(zhǔn)確地獲取文檔中情感特征而導(dǎo)致分類效果不好(見(jiàn)后文表5).因此,本文在MFSA-BiLSTM 模型基礎(chǔ)上,針對(duì)文檔級(jí)文本分類任務(wù)提出了MFSA-BiLSTM-D 模型(見(jiàn)圖4).與文獻(xiàn)[32,35]一樣,MFSA-BiLSTM-D 方法也是先訓(xùn)練得到句子表示,再得到文檔表示.如圖 4(左)所示,模型將文檔Doc.劃分成為句子序列[S1,S2,…,Sm],其中,m為句子個(gè)數(shù);再將句子Si(1≤i≤m)劃分為一系列單詞{xi1,xi2,…,xin},其中,n表示為Si的長(zhǎng)度.根據(jù)第2.1 節(jié)對(duì)詞進(jìn)行特征向量化,形成3個(gè)通道;然后使用MFSA-BiLSTM 模型學(xué)習(xí)文檔中每個(gè)句子的詞語(yǔ)情感,得到文檔中每個(gè)句子表達(dá)向量Sattj(1≤j≤m);接著,將Doc.中的所有句子表達(dá)DS=[Satt1,Satt2,…,Sattm],送入如圖4(右)所示的模型進(jìn)行訓(xùn)練.經(jīng)過(guò)層歸一化之后,計(jì)算句子自注意力權(quán)重矩陣wsatt:

        其中,VSLN為BiLSTM 的隱藏輸出;L1和L2分別是維度大小為HS+m和m的權(quán)重,HS為隱藏單元個(gè)數(shù).最后得到加權(quán)后的注意力特征向量Osve:

        最后,使用softmax函數(shù)對(duì)其進(jìn)行分類.

        Fig.4 Architecture of MFSA-BILSTM-D圖4 MFSA-BiLSTM-D 的體系結(jié)構(gòu)

        3 實(shí)驗(yàn)與分析

        在本節(jié)中,本文在5 個(gè)真實(shí)數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn),展示了實(shí)驗(yàn)細(xì)節(jié),評(píng)估了模型的性能并分析了結(jié)果.

        3.1 數(shù)據(jù)集

        (1)MR:MR 是一個(gè)二分類的電影評(píng)論數(shù)據(jù)集,包括10 662 個(gè)樣本,分別為5 331 個(gè)正面和5 331 個(gè)負(fù)面;

        (2)SST-5:SST-5 是一個(gè)五分類數(shù)據(jù)集,是由斯坦福解析器在11 855 個(gè)句子的解析樹(shù)中解析的227 376 個(gè)短語(yǔ)級(jí)細(xì)粒情感分類.本文在SST-5 數(shù)據(jù)集上分別對(duì)句子級(jí)和基于短語(yǔ)級(jí)注釋的句子級(jí)上進(jìn)行訓(xùn)練,使用句子級(jí)中的測(cè)試數(shù)據(jù)進(jìn)行測(cè)試;

        (3)SST-2:在SST-5 的數(shù)據(jù)集上進(jìn)行整理(刪除中性評(píng)論,非常積極和積極的評(píng)論被標(biāo)記為積極,消極和非常負(fù)面的評(píng)論被標(biāo)記為消極),得到二分類數(shù)據(jù)集SST-2.本文在使用了短語(yǔ)級(jí)注釋的SST-2 數(shù)據(jù)集上進(jìn)行訓(xùn)練,使用句子級(jí)中的測(cè)試數(shù)據(jù)進(jìn)行測(cè)試;

        (4)YELP3:來(lái)自2013年Yelp 數(shù)據(jù)集挑戰(zhàn)的評(píng)論數(shù)據(jù)集.每個(gè)評(píng)論的情緒極性是1 星~5 星;

        (5)IMDB:IMDB 是一個(gè)電影評(píng)論數(shù)據(jù)集,包括84 919 個(gè)電影評(píng)論,范圍從1~10.

        其中,MR,SST-5 和SST-2 是句子級(jí)數(shù)據(jù)集(SL<100),YELP3 和IMDB 是文檔級(jí)數(shù)據(jù)集(SL≥100).表2 顯示了詳細(xì)數(shù)據(jù)集的統(tǒng)計(jì),其中,C是目標(biāo)類的數(shù)量,SL是樣本的平均長(zhǎng)度,SD表示文檔中句子的平均數(shù)量,DS是數(shù)據(jù)集的大小,WS表示詞匯量大小,Test是測(cè)試集的大小.

        Table 2 Datasets for sentiment classification表2 情感分類的數(shù)據(jù)集

        3.2 數(shù)據(jù)預(yù)處理與超參數(shù)設(shè)置

        本文使用Stanford CoreNLP 工具對(duì)表2 的5 個(gè)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行分詞、詞性標(biāo)注和依存句法分析.本文采用Pennington 等人[36]提出的Glove 向量作為單詞嵌入的初始設(shè)置,其中每個(gè)詞向量為300 維,詞典大小為1.9MB.本文對(duì)5 個(gè)實(shí)驗(yàn)數(shù)據(jù)集中的未登錄詞,使用均勻分布U(?0.05,0.05)來(lái)隨機(jī)初始化.在整個(gè)實(shí)驗(yàn)中,詞向量維度為300,詞性特征為30,位置特征為25,依存句法特征為25.訓(xùn)練過(guò)程本文使用AdaDelta 梯度下降算法.所有數(shù)據(jù)集的dropout rate 均設(shè)為0.5.本文選擇在測(cè)試數(shù)據(jù)集上表現(xiàn)最佳的結(jié)果作為最終表現(xiàn).模型在不同數(shù)據(jù)集上參數(shù)設(shè)置見(jiàn)表3.

        Table 3 Optimal hyper-parameter configuration for five datasets表3 5 個(gè)數(shù)據(jù)集的最佳超參數(shù)配置

        3.3 模型對(duì)比分析

        將本文提出的兩個(gè)模型分別與基準(zhǔn)方法進(jìn)行了比較,以驗(yàn)證本文提出的方法的有效性.基準(zhǔn)方法可以分為3 組,如下所示.

        1.一般基本模型

        ?SVM[37]:支持向量機(jī);

        ?CNN[3]:使用預(yù)訓(xùn)練過(guò)的詞嵌入的卷積神經(jīng)網(wǎng)絡(luò)模型;

        ?RNN[1]:循環(huán)神經(jīng)網(wǎng)絡(luò);

        ?RNTN[2]:基于張量特征函數(shù)的情感樹(shù)庫(kù)上語(yǔ)義組合的遞歸深度神經(jīng)網(wǎng)絡(luò);

        ?LSTM/BiLSTM:長(zhǎng)短期記憶網(wǎng)絡(luò)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò);

        ?SSWE+SVM[12]:首先生成特定于情感的詞嵌入來(lái)組成文檔表示,然后訓(xùn)練SVM 分類器;

        ?Paragraph-Vec[32]:從句子和文檔中學(xué)習(xí)分布式特征表示的無(wú)監(jiān)督算法;

        2.句子級(jí)網(wǎng)絡(luò)模型

        ?Tree-LSTM[18]:將記憶細(xì)胞和門引入樹(shù)形結(jié)構(gòu)的長(zhǎng)期短期記憶神經(jīng)網(wǎng)絡(luò)模型;

        ?NCSL[17]:將句子的情感分?jǐn)?shù)視為句子中先前得分的加權(quán)和,其中,權(quán)重由神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到;

        ?LR-Bi-LSTM[9]:語(yǔ)言規(guī)則化的LSTM;

        ?RNN-capsule[29]:基于RNN 的情緒分類膠囊模型;

        ?Capsule-B[38]:基于CNN 的句子分類膠囊模型;

        ?AC-BiLSTM[11]:具有注意機(jī)制和卷積層的雙向LSTM 文本分類模型;

        ?CL+CNN[19]:一種基于關(guān)鍵學(xué)習(xí)情緒分析的正則卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化應(yīng)用模型;

        3.文檔級(jí)網(wǎng)絡(luò)模型

        ?RNTN+RNN:用RNTN 表示每個(gè)句子,并將句子表示輸入RNN;然后對(duì)RNN 的隱藏向量進(jìn)行平均,得到用于情緒分類的文檔表示;

        ?UPNN(CNN)[33]:UPNN 將每個(gè)用戶和產(chǎn)品的文本偏好矩陣和表示向量引入 CNN 情感分類,UPNN(CNN no UP)只使用CNN,不考慮用戶和產(chǎn)品信息;

        ?CIFG-LSTM/CIFG-BLSTM[39]:耦合輸入忘記門LSTM 和BLSTM,分別表示為CIFG-LSTM 和CIFGBLSTM.結(jié)合了LSTM 的輸入和遺忘門,與標(biāo)準(zhǔn)LSTM 相比需要更少的參數(shù);

        ?CLSTM[34]:緩存 LSTM 模型用來(lái)捕獲長(zhǎng)文本中的整體語(yǔ)義信息.這兩種變體包括正則型和雙向B-CLSTM;

        ?NSC[35]:使用單詞和句子級(jí)別的平均池層.NSC+LA 使用本地上下文捕獲語(yǔ)義信息作為注意機(jī)制.

        對(duì)比表4 中句子級(jí)文本(MR,SST-5 和SST-2)的實(shí)驗(yàn)結(jié)果.前14 種方法的結(jié)果從文獻(xiàn)[9,11,18,19]中引用.從表4 中可以看出,MFSA-BiLSTM 在大多數(shù)基準(zhǔn)數(shù)據(jù)集上取得了比其他方法更好的結(jié)果.在上述14 種方法中,本文提出的方法優(yōu)于除MR 之外的所有數(shù)據(jù)集的其他基線.SST-5 和SST-2 數(shù)據(jù)集上的MFSA-BiLSTM 結(jié)果分別為49.7%,51.8%和89.7%.觀察到:與3 種基于CNN 的方法(CNN,Capsule-B 和CL+CNN)相比,MFSA-BiLSTM在兩個(gè)數(shù)據(jù)集上給出了更好的結(jié)果,說(shuō)明本文使用的基于LSTM 的方法比基于CNN 的方法更適合此任務(wù);同時(shí),與兩種都對(duì)語(yǔ)言知識(shí)進(jìn)行建模的LR-Bi-LSTM 方法和NCSL 方法相比,MFSA-BiLSTM 方法的分類效果要更好,表明了本文提出對(duì)現(xiàn)有語(yǔ)言知識(shí)進(jìn)行建模,生成不同的特征通道,讓模型從不同角度的去學(xué)習(xí)句子中的情感特征信息的方法的有效性.與使用了注意力機(jī)制的AC-BiLSTM 方法相比,本文使用的自注意力可以獲得更好的性能.與依賴短語(yǔ)級(jí)注釋的Tree-LSTM 方法相比(當(dāng)僅使用句子級(jí)進(jìn)行訓(xùn)練時(shí),其性能會(huì)下降2.9%),MFSABiLSTM 方法不依賴于解析樹(shù),在使用了短語(yǔ)級(jí)注釋和沒(méi)有使用短語(yǔ)級(jí)注釋的SST-5 上的分類效果相差不大.另外,CL+CNN 方法在二分類MR 數(shù)據(jù)集上是唯一一個(gè)達(dá)到84.3%的方法.但是,本文提出的方法與CL+CNN 的結(jié)果沒(méi)有顯著差異.同時(shí),從表4 還可以看出,基于深度學(xué)習(xí)方法的性能優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法.

        Table 4 Experimental results of sentence-level sentiment classification accuracy表4 句子級(jí)情感分類準(zhǔn)確性的實(shí)驗(yàn)結(jié)果

        對(duì)比表5 中文檔級(jí)文本(YELP3 和IMDB)的實(shí)驗(yàn)結(jié)果.前13 種方法的結(jié)果從文獻(xiàn)[33?35]中引用.

        Table 5 Experimental results of document-level sentiment classification accuracy表5 文檔級(jí)情感分類準(zhǔn)確性的實(shí)驗(yàn)結(jié)果

        從表5 中可以看出,本文提出的MFSA-BiLSTM-D 方法比兩個(gè)數(shù)據(jù)集上的其他基線獲得了更好的結(jié)果(63.8%和48.9%).與同樣先是訓(xùn)練得到句子表示再得到文檔表示的RNTN+RNN 方法、Paragraph-Vec 方法、NSC 方法和NSC+LA 相比,MFSA-BiLSTM-D 方法取得了更好的分類效果.這表明了本文提出的方法的有效性.同時(shí),與改變LSTM 模型的內(nèi)部存儲(chǔ)的CIFG-LSTM,CIFG-BLSTM,CLSTM 和B-CLSTM 相比,MFSA-BiLSTM-D方法具有可行性.另外,從表5 中可以看出:對(duì)于文檔文本數(shù)據(jù)集(YELP3 和IMDB),本文提出的MFSA- BiLSTMD 方法結(jié)果更優(yōu)于句級(jí)MFSA-BiLSTM 方法.這表明了MFSA-BiLSTM-D 的方法比MFSA-BiLSTM 方法更適合此任務(wù).MFSA-BiLSTM-D 能夠很好地捕獲文檔級(jí)文本的情感傾向.

        3.4 自注意力機(jī)制和語(yǔ)言特征的影響

        MFSA-BiLSTM 包括兩個(gè)部分,即自注意力機(jī)制和多通道語(yǔ)言特征.對(duì)于MFSA-BiLSTM,應(yīng)該證明所有成分均可用于最終結(jié)果.在本節(jié)中,我們將進(jìn)行一組實(shí)驗(yàn)來(lái)評(píng)估自注意力和多通道語(yǔ)言特征分別對(duì) MFSABiLSTM 和MFSA-BiLSTM-D 兩個(gè)模型性能的影響.由于MFSA-BiLSTM 不依賴于解析樹(shù),在使用了短語(yǔ)級(jí)注釋過(guò)的和沒(méi)有使用短語(yǔ)級(jí)注釋過(guò)的SST-5 上的分類效果相差不大.因此,為了統(tǒng)一分析,在后面所有實(shí)驗(yàn)中,對(duì)于SST-5 數(shù)據(jù)集,本文只使用了短語(yǔ)注釋過(guò)的SST-5 數(shù)據(jù)集.

        (1)自注意力的影響

        本文提出的詞自注意力權(quán)重是由初始注意矩陣Itpp、自輔助矩陣PVLN和額外輔助矩陣Lnor這3 個(gè)部分構(gòu)成(見(jiàn)圖3).為了揭示自注意力對(duì)模型的影響,在實(shí)驗(yàn)過(guò)程中保留了模型的語(yǔ)言特征部分.本文在5 個(gè)數(shù)據(jù)集上對(duì)MFSA-BiLSTM 和MFSA-BiLSTM-D 兩個(gè)模型分別進(jìn)行自注意力權(quán)重調(diào)節(jié)實(shí)驗(yàn).觀察到結(jié)果見(jiàn)表6 和表7.

        Table 6 Accuracy for MFSA-BiLSTM with different self-attention weights表6 不同自注意權(quán)重下MFSA-BiLSTM 的精度

        Table 7 Accuracy for MFSA-BiLSTM-D with different self-attention weights表7 不同自注意權(quán)重下MFSA-BiLSTM-D 的精度

        從表6 和表7 可以看出,完全不使用詞注意力機(jī)制的MF-BiLSTM 和MF-BiLSTM-D 分類效果明顯不如使用了詞自注意力機(jī)制的MFSA-BiLSTM(noItpp)和MFSA-BiLSTM-D(noItpp)模型.這意味著自注意力對(duì)我們的方法有一定的影響.通過(guò)調(diào)節(jié)自注意力的權(quán)重,可以觀察到:計(jì)算自注意力權(quán)重的初始注意矩陣Itpp、自輔助矩陣PVLN和額外輔助矩陣Lnor,對(duì)MFSA-BiLSTM 和MFSA-BiLSTM-D 的性能有很大的影響.另外,在使用了完整自注意力權(quán)重的情況下,MFSA-LSTM(all)的分類效果明顯不如MFSA-BiLSTM(our model).可見(jiàn),BiLSTM 能夠比LSTM 更好地解決序列建模任務(wù).同時(shí),擁有完整自注意力權(quán)重的MFSA-BiLSTM(our model)和MFSA-BiLSTMD(our model)可獲得最佳結(jié)果.它證明了自注意力中所有成分對(duì)于MFSA-BiLSTM 和MFSA-BiLSTM-D 的最終結(jié)果都是有用的.

        (2)不同語(yǔ)言特征的影響

        本文提出的多通道語(yǔ)言特征包括Rwp(由詞向量和位置值組成),Rwpa(由詞向量和句法組成)和Rwt(由詞向量和詞性向量組成)(如圖1所示).為了揭示語(yǔ)言特征對(duì)模型的影響,本文在5 個(gè)數(shù)據(jù)集上對(duì)MFSA-BiLSTM 和MFSA-BiLSTM-D 這兩個(gè)模型分別進(jìn)行了語(yǔ)言特征調(diào)節(jié)實(shí)驗(yàn).

        從表8 和表9 可以看出:隨著語(yǔ)言特征的添加,模型的復(fù)雜度越來(lái)越高,模型的性能起伏比較大,但是模型的總體性能隨著語(yǔ)言特征的添加呈上升趨勢(shì).使用3 個(gè)通道的MFSA-BiLSTM 和MFSA-BiLSTM-D 比只使用了詞特征的模型的分析提升了1.8%~4.4%,其中,Rwt和Rwpa在性能提升方面起著關(guān)鍵性的作用.這證明了多通道語(yǔ)言特征可以進(jìn)一步提高M(jìn)FSA-BiLSTM 和MFSA-BiLSTM-D 的性能.

        Table 8 Accuracy for MFSA-BiLSTM with different linguistic feature表8 語(yǔ)言特征下MFSA-BiLSTM 的準(zhǔn)確性

        Table 9 Accuracy for MFSA-BiLSTM-D with different linguistic feature表9 不同語(yǔ)言特征下MFSA-BiLSTM-D 的準(zhǔn)確性

        3.5 向量大小和不同詞嵌入的影響

        從語(yǔ)言特征調(diào)節(jié)實(shí)驗(yàn)中,得出了在詞向量的基礎(chǔ)上,詞性特征與句法特征在分類效果上起著關(guān)鍵性作用.因此,在這一小節(jié)對(duì)詞性特征、句法特征以及詞向量進(jìn)行了進(jìn)一步分析.

        在圖5 和圖6 中展示了具有不同維度詞性特征和句法特征大小的MFSA-BiLSTM 和MFSA-BiLSTM-D 模型性能.本文使用以下集合中的向量大小{10,20,25,30,50,100,200}.從圖5 可以看出:當(dāng)詞性向量大小變化時(shí),模型在MR,SST-2,YELP3 和IMDB 這4 個(gè)數(shù)據(jù)集都呈現(xiàn)上升的趨勢(shì).當(dāng)詞性向量>30 時(shí),模型在MR 和SST-2 數(shù)據(jù)集上出現(xiàn)了波動(dòng);并且隨著維度的增加,分類準(zhǔn)確率呈現(xiàn)下降趨勢(shì).在YELP3 和IMDB 數(shù)據(jù)集上,模型性能趨于穩(wěn)定.如圖6所示:當(dāng)句法向量>25 時(shí),模型性能趨于穩(wěn)定.因此,選擇適合的詞性向量和句法向量維度大小可以獲得更好的結(jié)果.

        Fig.5 Influence of parts-of-speech features in different dimensions圖5 詞性特征在不同維度上的影響

        Fig.6 Influence of dependency parsing features in different dimensions圖6 句法特征在不同維度上的影響

        在圖7 中展示了MFSA-BiLSTM 和MFSA-BiLSTM-D 兩個(gè)模型在不同維度下和不同初始詞嵌入下的性能.本文使用以下集合中的向量大小{50,100,150,200,300},并設(shè)置預(yù)訓(xùn)練和隨機(jī)兩種初始詞嵌入.注意,模型中所有單元的尺寸也會(huì)隨之變化.從表7 中可以看出:在所有數(shù)據(jù)集上,使用預(yù)訓(xùn)練的詞嵌入向量的MFSA- BiLSTM 和MFSA-BiLSTM-D 比使用隨機(jī)字嵌入向量的MFSA-BiLSTM 和MFSA-BiLSTM-D 效果更好.當(dāng)向量大小變化時(shí),使用預(yù)訓(xùn)練的詞嵌入向量模型的性能都呈現(xiàn)穩(wěn)定上升的趨勢(shì);而使用隨機(jī)詞嵌入向量的模型在向量>150 時(shí),開(kāi)始出現(xiàn)波動(dòng).與隨機(jī)詞嵌入向量相比,預(yù)訓(xùn)練詞嵌入向量具有明顯的優(yōu)勢(shì).

        Fig.7 Influence of different word embedding and vector size圖7 不同的詞嵌入和向量大小的影響

        3.6 不同文本長(zhǎng)度的影響

        在序列模型中,會(huì)將輸入文本序列解碼為某一個(gè)特定的長(zhǎng)度向量,若向量的長(zhǎng)度設(shè)定過(guò)短,可能會(huì)造成文本信息的丟失,導(dǎo)致文本理解出現(xiàn)偏差.針對(duì)這一問(wèn)題.本小節(jié)在電影評(píng)論數(shù)據(jù)集(MR)進(jìn)行了文本長(zhǎng)度調(diào)節(jié)實(shí)驗(yàn).

        在實(shí)驗(yàn)中,根據(jù)電影評(píng)論數(shù)據(jù)集(MR)可視化(如圖8(左)所示).設(shè)定文本長(zhǎng)度為15~60,間隔為5.在LSTM,BiLSTM,MF-BiLSTM(無(wú)自注意力機(jī)制,有多通道特征)和本文提出的MFSA-BiLSTM 等4 個(gè)序列模型上進(jìn)行了實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如圖8(右)所示:當(dāng)文本長(zhǎng)度小于35 時(shí),LSTM,BiLSTM 和MF-BiLSTM 這3 個(gè)模型的分類性能急速下降;當(dāng)文本長(zhǎng)度大于35 時(shí),LSTM,BiLSTM 和MF-BiLSTM 這3 個(gè)模型的分類性能較平緩或呈緩慢上升趨勢(shì).本文提出的MFSA-BiLSTM 模型的分類性能總體較穩(wěn)定呈平緩趨勢(shì),當(dāng)文本長(zhǎng)度大于50 時(shí),MFSA-BiLSTM模型的分類性能呈下降趨勢(shì).

        因此,經(jīng)實(shí)驗(yàn)分析可以看出:本文提出的MFSA-BiLSTM 模型,在文本長(zhǎng)度調(diào)節(jié)過(guò)程中的分類效果相差并不是很大.原因是MFSA-BiLSTM 模型中的自注意力是由自輔助矩陣、初始注意矩陣和額外輔助矩陣這3 部分組成,其中,初始注意矩陣能夠在一定程度考慮到文本長(zhǎng)度.但是,當(dāng)文本長(zhǎng)度超過(guò)一定閾值時(shí),由于數(shù)據(jù)稀疏問(wèn)題,MFSA-BiLSTM 模型的分類性能會(huì)受到影響.

        Fig.8 Movie Review(MR)dataset visualization(left)and accuracy of different text lengths(right)圖8 電影評(píng)論數(shù)據(jù)集(MR)可視化(左)和不同文本長(zhǎng)度下的精度(右)

        4 案例分析與自注意力可視化

        4.1 案例分析

        為了進(jìn)一步分析本文提出的模型相對(duì)于BiLSTM(無(wú)自注意力,無(wú)多通道特征),MF-BiLSTM(無(wú)自注意力機(jī)制,有多通道特征),WFCNN(使用了情感序列特征的CNN)以及LR-Bi-LSTM(使用了語(yǔ)言特征的LSTM)等模型的優(yōu)勢(shì),本文使用經(jīng)過(guò)訓(xùn)練的MFSA-BiLSTM,BiLSTM,MF-BiLSTM,WFCNN 和LR-Bi-LSTM 預(yù)測(cè)幾個(gè)具體的樣例來(lái)進(jìn)行分析.由于MFSA-BiLSTM-D 是在MFSA-BiLSTM 上提出的,因此,在本節(jié),本文只對(duì)MFSA-BiLSTM進(jìn)行分析.

        如表10 樣例分類結(jié)果所示.

        Table 10 Analysis of typical sample cases表10 典型樣例分析

        對(duì)于樣例3,情感詞不是單獨(dú)起作用的,而是通過(guò)詞序列結(jié)合句子的上下語(yǔ)義表達(dá)出整個(gè)句子的情感.由于WFCNN 提取的特征是局部相鄰詞之間的特征,因此出現(xiàn)誤分類.BiLSTM 雖然具有強(qiáng)大的上下文語(yǔ)義捕捉能力,但是樣例3 具有大量的正負(fù)面情感詞,由于對(duì)特殊的情感詞并沒(méi)有進(jìn)行處理,從而出現(xiàn)了誤分類.而MFSABiLSTM,LR-Bi-LSTM 和MF-BiLSTM 這3 個(gè)模型充分利用了語(yǔ)言知識(shí),不僅有強(qiáng)大的上下文語(yǔ)義捕捉能力,并能根據(jù)上下語(yǔ)義對(duì)文本中的情感詞進(jìn)行程度加強(qiáng),因此能夠正確分類.對(duì)于樣例1 和樣例2,這種帶有“however”“but”轉(zhuǎn)折詞的文本,LR-Bi-LSTM 并沒(méi)有分類成功.原因是LR-Bi-LSTM 模型的調(diào)節(jié)器具有局限性,它沒(méi)有考慮句子的依賴關(guān)系,而直接對(duì)整個(gè)文本的情感詞進(jìn)行強(qiáng)度調(diào)節(jié).MF-BiLSTM,能夠根據(jù)句子結(jié)構(gòu)、詞的位置和詞性特征對(duì)一些帶有轉(zhuǎn)折詞的文本進(jìn)行正確的分類(樣例1),但當(dāng)遇到分類情感特征不明顯且?guī)мD(zhuǎn)折的文本時(shí),會(huì)分類錯(cuò)誤(樣例2).而本文提出的MFSA-BiLSTM 在MF-BiLSTM 模型上增加了自注意力,通過(guò)自注意加權(quán),加強(qiáng)文本中的情感,使情感特征信息特征更加突出.因此,本文提出的MFSA-BiLSTM 模型可以分類成功.

        4.2 自注意力可視化

        本文在圖9 中可視化了MR 數(shù)據(jù)的測(cè)試集中的兩個(gè)案例,來(lái)解釋MFSA-BiLSTM 的多通道自注意力是如何工作的.顏色深度表示相應(yīng)單詞的重要程度.顏色越深,單詞越重要.Ove1、Ove2、Ove3分別表示為文本經(jīng)過(guò)3 個(gè)通道自注意的得分向量.其中,圖9(a)的極性是正面,MFSA-BiLSTM 模型預(yù)測(cè)為正面;圖9(b)的極性是正面,MFSABiLSTM 模型預(yù)測(cè)為負(fù)面.

        Fig.9 Three channel features self-attention visualization圖9 3 個(gè)通道特征自注意可視化

        如圖9所示,圖9(a)是一個(gè)帶有“but”子句的樣例,樣例的極性由“but”引導(dǎo)的句子決定.可以觀察到,Ove1的注意力得分向量突出了“flawed”和“engrossing”兩個(gè)情感比較明顯的詞.對(duì)于Ove2的注意力得分向量,借助了位置信息以及詞性和句法信息作為輔助,突出了“engrossing”,同時(shí)沒(méi)有分散無(wú)關(guān)詞的注意力.對(duì)于Ove3的注意力得分,借助了句子中的句法以及詞性和位置作為輔助,對(duì)“but”進(jìn)行了轉(zhuǎn)折加強(qiáng),并影響到了“engrossing”,所以“engrossing”比“flawed”的顏色深一點(diǎn).故MFSA-BiLSTM 能夠?qū)永M(jìn)行正確預(yù)測(cè).圖9(b)同樣是一個(gè)帶有“but”子句的樣例.一般來(lái)說(shuō),在沒(méi)指定目標(biāo)詞的情況下,樣例的極性由“but”引導(dǎo)的句子決定.從整個(gè)樣例來(lái)說(shuō),該樣例的極性是負(fù)面的.但是在這個(gè)樣例中,存在“film”和“book”兩個(gè)目標(biāo)詞,以“film”為樣例目標(biāo)詞,那么樣例則判為正面.若以“book”為樣例目標(biāo)詞,那么樣例則判為負(fù)面.然而,該樣例是屬于MR 數(shù)據(jù)集,MR 是一個(gè)電影評(píng)論數(shù)據(jù)集,因此,該樣例要以“film”為目標(biāo)詞,判為正面.如圖可見(jiàn),MFSA-BiLSTM 并沒(méi)有考慮以“film”目標(biāo)詞為預(yù)測(cè)中心,而是從句子結(jié)構(gòu)出發(fā),重點(diǎn)關(guān)注了“but”后面的子句,進(jìn)行了錯(cuò)誤的判斷.

        4.3 錯(cuò)誤分析

        為了更好地理解本文提出模型的局限性,本文對(duì)MFSA-BiLSTM 模型所產(chǎn)生的誤差進(jìn)行了分析.具體來(lái)說(shuō),本文從MR 電影評(píng)論數(shù)據(jù)集的測(cè)試集中隨機(jī)選擇了50 個(gè)被MFSA-BiLSTM 錯(cuò)誤預(yù)測(cè)的實(shí)例,揭示了分類錯(cuò)誤的幾個(gè)原因.可以將其分為以下兩種.

        ?第1 種,MFSA-BiLSTM 無(wú)法對(duì)存在多個(gè)目標(biāo)詞的文本進(jìn)行正確的預(yù)測(cè).例如對(duì)于一個(gè)句子“intriguing and beautiful film,but those of you who read the book are likely to be disappointed.”,會(huì)因?yàn)闊o(wú)法確定目標(biāo)詞是“film”還是“book”,本文提出的模型會(huì)直接根據(jù)句子的結(jié)構(gòu)、位置以及詞性,以“but”后面的“book”為目標(biāo)詞進(jìn)行預(yù)測(cè),從而出現(xiàn)誤判;

        ?第2 種,當(dāng)文本長(zhǎng)短相差過(guò)大,會(huì)造成多通道特征稀疏,影響自注意力權(quán)重的分布,從而影響分類效果.

        5 總結(jié)和未來(lái)工作

        本文提出了一個(gè)具有自注意力機(jī)制和多通道特征的雙向LSTM 模型(MFSA-BiLSTM).該模型由自注意力機(jī)制和多通道特征兩部分組成.先對(duì)情感分析任務(wù)中現(xiàn)有的語(yǔ)言知識(shí)和情感資源進(jìn)行建模,生成不同的特征通道作為模型的輸入,再利用BiLSTM 來(lái)充分的獲得這些有效的情感資源信息.最后使用自注意力機(jī)制對(duì)這些重要信息進(jìn)行重點(diǎn)關(guān)注加強(qiáng),提高分類精度.此外,本文在MFSA-BiLSTM 模型上,針對(duì)文檔級(jí)文本分類任務(wù)提出了MFSA-BiLSTM-D 模型.該模型將文本中的句子進(jìn)行分割,再分別使用MFSA-BiLSTM 模型進(jìn)行特征學(xué)習(xí)得到句子特征信息.在5 個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),用來(lái)評(píng)估本文提出的方法的性能.實(shí)驗(yàn)結(jié)果表明:在大多數(shù)情況下,MFSA-BILSTM 和MFSA-BILSTM-D 模型比一些最先進(jìn)的基線方法分類更好.

        未來(lái)的工作重點(diǎn)是注意力機(jī)制的研究和文檔級(jí)文本特定目標(biāo)分類任務(wù)的網(wǎng)絡(luò)模型體系結(jié)構(gòu)的設(shè)計(jì).未來(lái)的工作主要包括以下幾個(gè)部分:(1)利用其他注意機(jī)制進(jìn)一步完善本文提出的方法;(2)針對(duì)文檔級(jí)文本特定目標(biāo)分類任務(wù),設(shè)計(jì)了一種新的注意機(jī)制和網(wǎng)絡(luò)模型;(3)將本文的方法應(yīng)用到實(shí)際應(yīng)用中.

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲av精二区三区日韩| 最新国产成人综合在线观看| 另类人妖在线观看一区二区| 中文字幕一二三四五六七区| 欧美成人看片一区二区三区尤物 | 国语精品视频在线观看不卡| 99久久婷婷国产精品综合| 久久久久亚洲av综合波多野结衣| 中国xxx农村性视频| 久久亚洲av成人无码软件| 极品少妇高潮在线观看| 在线观看免费无码专区| 亚洲 高清 成人 动漫| 娇妻粗大高潮白浆| 精品亚洲国产日韩av一二三四区| 日本少妇浓毛bbwbbwbbw| 国产麻无矿码直接观看| 日本熟妇中文字幕三级| 精品女厕偷拍视频一区二区| 国产农村熟妇videos| 天天av天天爽无码中文| 中文字幕在线一区乱码| 久久精品国产亚洲av蜜点| 痉挛高潮喷水av无码免费| 天天狠天天透天干天天| 中文字幕视频一区二区| 小说区激情另类春色| 嫩草影院未满十八岁禁止入内| av大片在线无码永久免费网址| 久久精品一区二区三区蜜桃| 亚洲啪av永久无码精品放毛片| 日韩欧美中文字幕公布| 日韩男女av中文字幕| 日韩亚洲欧美久久久www综合| 国产肉体ⅹxxx137大胆| 日韩极品视频在线观看免费| 亚洲精品一区二区三区52p| 精品国产午夜理论片不卡| 中国精品视频一区二区三区| 午夜免费观看一区二区三区| 亚洲成av人的天堂在线观看|