亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合關(guān)鍵對象識別與深層自注意力的Bi-LSTM情感分析模型

        2021-03-21 05:11:52吳旭輝
        關(guān)鍵詞:關(guān)鍵語義文本

        李 磊,吳旭輝,劉 繼

        (新疆財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,烏魯木齊 830012)

        1 引 言

        從在線評論中提煉出的情感信息在網(wǎng)絡(luò)輿情導(dǎo)控、商品營銷、產(chǎn)品和服務(wù)提升等方面具有重要的應(yīng)用價(jià)值,針對微博評論、第3方電商平臺上的反饋評價(jià)等短文本進(jìn)行情感分析,是近年來的一個(gè)研究熱點(diǎn).同一條評論文本往往涉及所描述對象的不同屬性或方面(本文簡稱為評價(jià)對象),如關(guān)于酒店的評論“環(huán)境還算可以,特別劃算”,具體的評價(jià)對象就包括“環(huán)境”和“價(jià)格”,已細(xì)化為酒店的不同屬性.此外,“價(jià)格”并沒有直接出現(xiàn)在評論中,是由上下文語義推斷得知,屬于評論中的隱式對象.基于屬性的情感分析是細(xì)粒度情感分類任務(wù),不僅不同對象的情感語義不會(huì)完全一致,而且評論整體的情感傾向與特定對象的情感傾向也可能不同.

        在線評論短文本的典型特點(diǎn)是句法結(jié)構(gòu)不規(guī)范、主觀性較強(qiáng)、用詞隨意性強(qiáng),而深度學(xué)習(xí)方法無需依賴人工標(biāo)注的特征工程,基于多層非線性變換的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以實(shí)現(xiàn)對文本的抽象和學(xué)習(xí),所以此類神經(jīng)網(wǎng)絡(luò)模型在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用[1].目前的情感分類模型主要以卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)為基礎(chǔ)構(gòu)建.因細(xì)粒度情感分析更加關(guān)注對特定評價(jià)對象的情感態(tài)度,所以在神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制,可有效捕獲評論中與對象相關(guān)的情感語義表達(dá),提升情感分類性能[2].從研究方法上看,近期的相關(guān)工作主要圍繞輸入序列建模、網(wǎng)絡(luò)模型設(shè)計(jì)、注意力機(jī)制改進(jìn)等幾個(gè)方面展開,而且大部分研究僅針對事先標(biāo)注的對象推斷文本內(nèi)容的情感傾向,從而驗(yàn)證優(yōu)化后的模型在細(xì)粒度情感分析上的性能提升.

        在實(shí)際應(yīng)用中,首先要識別文本中的評價(jià)對象,并考慮評論者對不同對象在關(guān)注程度上的差異,以及不同情感之間的相關(guān)性和合成性,需綜合局部來判斷整體評論的情感傾向性.本文基于CNN實(shí)現(xiàn)關(guān)鍵評價(jià)對象的抽取和識別,利用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)提取上下文特征信息,通過強(qiáng)化關(guān)鍵對象語義信息和引入自注意力機(jī)制來增強(qiáng)模型的性能,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性.

        2 相關(guān)研究

        2.1 評價(jià)對象的提取與識別

        文本中的評價(jià)對象可分為顯式和隱式兩種[3].直接出現(xiàn)在評論文本中的對象屬性即為顯式對象,通常是高頻率出現(xiàn)的名詞或名詞詞組,基于詞頻的抽取方法是提取顯式評價(jià)對象的常用方法.基于語法規(guī)則的方法可有效抽取低頻屬性,但對人工設(shè)計(jì)特征的依賴性較大.將機(jī)器學(xué)習(xí)與上述方法相結(jié)合來提取對象屬性,也取得了較好的效果[4].

        隱式對象不出現(xiàn)在文本中,但可根據(jù)上下文語義推斷出具體屬性,對此類對象的識別可提高情感分析的精度[5].顯式對象及相應(yīng)情感詞的抽取結(jié)果是識別隱式對象的基礎(chǔ),大部分研究的基本思想是:挖掘?qū)傩灶惻c意見簇的關(guān)聯(lián)性,構(gòu)建穩(wěn)健的“屬性-情感觀點(diǎn)”匹配規(guī)則,再以情感詞為線索,依據(jù)規(guī)則識別隱式評價(jià)對象.在屬性分類、情感詞典構(gòu)建、關(guān)聯(lián)規(guī)則挖掘、相似度計(jì)算等方面的改進(jìn),有助于提升隱式對象的識別效果[6].此外,支持向量機(jī)(SVM)、條件隨機(jī)場(CRF)、CNN等模型的運(yùn)用也為識別工作提供了新的思路[7].

        2.2 基于對象的情感分析

        深度學(xué)習(xí)模型獨(dú)立于專家知識和語料庫,在命名實(shí)體識別、語義角色標(biāo)注、詞性標(biāo)注等研究領(lǐng)域表現(xiàn)出良好的性能,也逐步應(yīng)用于對象層面的情感分析.CNN可以接收平行輸入的語句,通過卷積處理提取最重要的句法和語義特征,基于CNN可完成對象抽取、特定對象判定及細(xì)粒度層面上的情感分析[8].而RNN在處理序列信息上更具優(yōu)勢,其記憶能力可捕獲上下文的依存關(guān)系,應(yīng)用更為廣泛[9,10].

        在神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制,可使模型關(guān)注特定對象的相關(guān)信息,有助于提升模型的性能表現(xiàn).Wang等[11]基于LSTM隱藏層的輸出進(jìn)行注意力學(xué)習(xí),并強(qiáng)化了特定對象在文本特征提取和注意力權(quán)重計(jì)算中的作用.石磊等[12]利用自注意力機(jī)制提煉上下文特征,并將其補(bǔ)充到Tree-LSTM模型的輸入序列中.梁斌等[13]同時(shí)關(guān)注對象信息、詞性和詞語位置,用3種注意力機(jī)制增強(qiáng)CNN對特定對象情感極性的識別.支淑婷等[14]在基于Bi-LSTM構(gòu)建的網(wǎng)絡(luò)模型中,加入位置、內(nèi)容和類別注意力機(jī)制來學(xué)習(xí)多特征信息.

        很多研究工作使用的實(shí)驗(yàn)數(shù)據(jù)集已事先標(biāo)注了顯式對象,但沒有考慮存在隱式評價(jià)對象的情況.多重注意力機(jī)制雖然可以從不同角度關(guān)注不同的特征信息,但不同注意力之間的關(guān)系難以把握.與單層注意力學(xué)習(xí)方式相比,深層注意力機(jī)制可更有效地聚焦于關(guān)鍵信息,提升文本分類效果[15].此外,在判斷評論文本的整體情感傾向性時(shí),現(xiàn)有研究大多基于對象層面的情感得分進(jìn)行某種形式的加總處理[16],但判定結(jié)果對得分匯總機(jī)制的依賴性較大.

        由于評論者的偏好不同,對不同評價(jià)對象的預(yù)期和重視程度也不同,所以整體情感傾向并非細(xì)粒度層面上情感觀點(diǎn)的簡單匯總,而在很大程度上取決于評論者對重點(diǎn)關(guān)注對象的評價(jià).本文提出了一種融合關(guān)鍵評價(jià)對象識別和深層自注意力的Bi-LSTM模型.從屬性角度出發(fā),構(gòu)建不同對象類的評論詞集,基于CNN卷積處理結(jié)果來提取或識別評論中的關(guān)鍵評價(jià)對象.以融合了關(guān)鍵對象信息的詞向量序列作為輸入,使用共享權(quán)重的Bi-LSTM理解和提煉整條評論特征信息,在模型的輸入層和隱藏層輸出結(jié)果上均引入自注意力機(jī)制,提升情感分類性能.

        3 模 型

        3.1 基于CNN的關(guān)鍵對象識別

        3.1.1 對象類評論詞集的構(gòu)建

        電商平臺通常會(huì)對在線評論內(nèi)容進(jìn)行分類匯總,提煉出主要評價(jià)方面,本文據(jù)此確定評價(jià)對象類,并將類別詞記為:A1,A2,…,Aj.類別詞是對評價(jià)對象的高度抽象和概括,而短文本評論大多僅涉及同一類對象的局部或從屬屬性,因此需要從評論中獲取充足的指示對象詞,以擴(kuò)充對象類信息.在對評論文本進(jìn)行分詞、刪除無用字符、去停用詞、標(biāo)注詞性的預(yù)處理后,篩選出名詞或名詞短語構(gòu)成候選對象詞集,基于Word2Vec計(jì)算對象類別詞與候選對象詞的相似度,并據(jù)此對候選對象詞進(jìn)行分類,得到每個(gè)對象類的對象詞集.

        Tang等的研究表明,對象詞附近的詞語對于情感分類準(zhǔn)確率的影響較大[17],同時(shí)考慮到語義表達(dá)的完整性,因此本文始終按標(biāo)點(diǎn)符號切分并提取句子片段.以評論文本中的對象詞為中心提取子句,構(gòu)成與對象類對應(yīng)的子句集合Bi(i=1,2,…,j).其次,基于Bi挖掘與對象詞最常匹配的情感詞.在文本預(yù)處理的基礎(chǔ)上,保留名詞、動(dòng)詞、形容詞(或形容詞短語)、副詞,先用關(guān)聯(lián)規(guī)則的Apriori算法挖掘出與每個(gè)對象詞最常匹配的情感詞,主要包括:形容詞、形容詞短語、動(dòng)詞.考慮到程度副詞對情感強(qiáng)度的影響,再利用點(diǎn)互信息(PMI)挖掘與形容詞有修飾搭配關(guān)系的程度副詞:

        (1)

        其中,P(word1 &word2)表示word1和word2同時(shí)出現(xiàn)的概率,P(word1)、P(word2)分別表示word1、word2單獨(dú)出現(xiàn)的概率.結(jié)合同義詞林,最終篩選出每個(gè)對象類的評論詞集RVi={ni個(gè)對象詞,mi個(gè)程度副詞,ki個(gè)情感詞}(i=1,2,…,j).

        3.1.2 關(guān)鍵對象識別

        CNN可接收平行化輸入的文本信息,通過卷積操作獲取文本的N-Gram特征,適合對文本整體語義的建模.Du[18]從數(shù)學(xué)上證明了卷積運(yùn)算結(jié)果就是一種對句子中不同成分的關(guān)注信號,反映了不同詞語在整體語義場景下的重要性.本文基于CNN卷積層輸出挖掘核心情感詞,進(jìn)一步識別評論文本的關(guān)鍵評價(jià)對象,具體過程如圖1所示.

        對于長度為n的短文本s={w1,w2,…,wn},將每個(gè)詞wi映射為一個(gè)多維連續(xù)值詞向量xi,所有的詞向量構(gòu)成一個(gè)詞向量矩陣E∈Rd×|V|,其中d為詞向量維度,|V|為詞典大小,即數(shù)據(jù)集包含的所有詞的數(shù)量.本文用CNN提取特征信息,使用大小為k×d的卷積核對輸入E進(jìn)行h次卷積操作,卷積層的輸出結(jié)果記為:C1,C2,…,Ch,其中Ci∈Rn.求均值進(jìn)行平滑,向量C中的數(shù)值反映了每個(gè)詞語的重要性:

        圖1 基于CNN的關(guān)鍵對象識別Fig.1 Key opinion target recognition based on CNN

        (2)

        基于向量C,按式(3)定位核心情感詞:

        (3)

        其中,which.max(·),which.min(·)分別返回最大值和最小值的位置,即為核心情感詞在句子中的位置.以核心情感詞為中心,抽取句子片段,若該子句中包含對象詞,則關(guān)鍵評價(jià)對象是顯式對象,抽出相應(yīng)的對象詞.若子句中不包含對象詞,則認(rèn)為是隱式評價(jià)對象的情況,按式(4)計(jì)算子句與每個(gè)對象類評論詞集之間的余弦相似度:

        (4)

        上式中,sg和rvi分別表示子句和對象類評論詞集在多維連續(xù)實(shí)值空間上的映射.最大相似度對應(yīng)的對象類就是識別出的隱式評價(jià)對象,并將對象詞設(shè)定為對象類別詞Ai.

        3.2 深層自注意力機(jī)制

        注意力機(jī)制可優(yōu)化情感分類任務(wù),使模型更多關(guān)注與特定對象相關(guān)的情感信息.本文基于CNN卷積層抽取的特征信息,使用多層感知器(MLP)進(jìn)行自注意力的學(xué)習(xí),并在特征信息上拼接關(guān)鍵對象詞向量,以增強(qiáng)關(guān)鍵對象在學(xué)習(xí)過程中的作用.

        (5)

        ?

        (6)

        (7)

        (8)

        上式中,W(1)∈Rr×2d,W(2),…,W(l-1)∈Rr×r,W(l)∈R1×r是權(quán)重矩陣,b(1),…,b(l-1)∈Rr,b(l)∈R,是偏置向量,均通過訓(xùn)練得到.αi是每個(gè)詞在整體語義場景下的注意力權(quán)重.

        3.3 情感分類模型

        在以上模型的基礎(chǔ)上,本文提出融合關(guān)鍵對象識別與深層自注意力的Bi-LSTM模型,整體模型結(jié)構(gòu)如圖2所示,主要包括以下3個(gè)部分:

        1)用CNN平行接收短文本的詞向量矩陣,基于卷積層輸出的處理結(jié)果識別關(guān)鍵評價(jià)對象,并進(jìn)行深層自注意力的學(xué)習(xí).

        2)在短文本的詞向量序列上拼接關(guān)鍵對象信息,應(yīng)用注意力機(jī)制后,輸入到Bi-LSTM中學(xué)習(xí)評論文本整體情感特征信息.

        3)對Bi-LSTM的隱狀態(tài)向量序列再次應(yīng)用注意力機(jī)制,獲得優(yōu)化調(diào)整后的特征表示,輸入softmax分類器中進(jìn)行情感分類.

        圖2 融合關(guān)鍵對象識別與深層自注意力的Bi-LSTM模型Fig.2 Bi-LSTM with key opinion target recognition and deeper self-attention

        3.3.1 輸入層

        詞向量矩陣E只是輸入文本在低維、連續(xù)實(shí)值空間上的映射,不包含其它額外信息.研究表明,在神經(jīng)網(wǎng)絡(luò)模型的詞嵌入層拼接對象信息,可有效提升情感分類效果[11].先對每個(gè)詞向量拼接關(guān)鍵對象信息,以增強(qiáng)輸入數(shù)據(jù)的語義信息;再將注意力權(quán)重賦予每個(gè)詞向量,使模型在編碼階段能主動(dòng)關(guān)注與情感觀點(diǎn)關(guān)系密切的數(shù)據(jù)信息,結(jié)果如式(9)所示.

        (9)

        其中,E*∈R2d×|V|,是Bi-LSTM的輸入序列.

        3.3.2 雙向LSTM層

        與CNN相比,LSTM可對文本的順序特征進(jìn)行有效建模,在一定程度上保留對上下文的記憶.使用一個(gè)共享權(quán)重的雙向LSTM神經(jīng)網(wǎng)絡(luò),可以分別學(xué)習(xí)文本中的正向語義信息和逆向語義信息.兩個(gè)LSTM對輸入數(shù)據(jù)E*進(jìn)行編碼處理后,分別生成了前向和反向的特征向量矩陣Hf∈Rdh×n和Hb∈Rdh×n,其中dh表示單向LSTM隱藏層輸出的向量維度.連接正、反兩個(gè)方向的隱狀態(tài)向量矩陣,即為Bi-LSTM生成的文本特征向量矩陣Hs∈R2dh×n,如式(10)-式(12)所示.

        (10)

        (11)

        (12)

        LSTM單元提取特征信息時(shí)傾向于重視近期輸入,無法很好地捕捉到文本中相對距離較遠(yuǎn)的情感詞與關(guān)鍵對象之間的潛在聯(lián)系.故將深層自注意力再次應(yīng)用到Bi-LSTM的隱狀態(tài)向量序列上,進(jìn)一步優(yōu)化從評論文本提取的特征信息,按式(13)進(jìn)行加權(quán)求和后,得到最終輸出的情感特征向量h*.

        (13)

        3.3.3 模型訓(xùn)練

        本文使用一個(gè)softmax函數(shù)接收Bi-LSTM網(wǎng)絡(luò)的輸出,來獲得待分類文本情感極性的結(jié)果,如式(14)所示,其中W為權(quán)重矩陣,b為偏重向量.

        y=softmax(Wh*+b)

        (14)

        模型的訓(xùn)練采用端到端的反向傳播算法,損失函數(shù)采用交叉熵代價(jià)函數(shù).同時(shí)為了避免過擬合問題,加入了 L2 正則項(xiàng).通過最小化損失函數(shù)來優(yōu)化模型,完成情感分類任務(wù):

        (15)

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)及評價(jià)指標(biāo)

        數(shù)據(jù)集采用中科院計(jì)算所譚松波教授提供的酒店評論語料,共包括10000條評論,已標(biāo)注的好評為7000條、差評為3000條.以數(shù)據(jù)集為訓(xùn)練語料庫,用jieba對評論文本進(jìn)行分詞和詞性標(biāo)注,詞向量用Word2Vec的skip-gram訓(xùn)練得到;同一評論詞集中的詞語不僅在句法結(jié)構(gòu)上有較強(qiáng)的關(guān)聯(lián)性,而且在語義內(nèi)容上有相同的主旨,故使用Doc2Vec的DBOW訓(xùn)練得到對象類評論詞集和句子片段的向量表示.在已標(biāo)注數(shù)據(jù)集上采用五折交叉驗(yàn)證進(jìn)行多次實(shí)驗(yàn),盡可能降低隨機(jī)性對實(shí)驗(yàn)結(jié)果的影響.

        本文使用精確率P(Precision)、召回率R(Recall)、F值(F-measure)對實(shí)驗(yàn)結(jié)果進(jìn)行評價(jià),相關(guān)計(jì)算方法如式(16)-式(18)所示.

        (16)

        (17)

        (18)

        其中,TP(True Positive)表示預(yù)測正確的正向類別數(shù);FP(False Positive)、FN(False Negative)表示預(yù)測錯(cuò)誤的正向類別數(shù)和負(fù)向類別數(shù).

        4.2 實(shí)驗(yàn)參數(shù)設(shè)置

        通過對比不同參數(shù)值的實(shí)驗(yàn)結(jié)果后,設(shè)定詞、詞集和子句向量均為100維的連續(xù)值.在CNN中使用多種窗寬的卷積核進(jìn)行卷積操作,其中窗寬大小分別為3、4、5,每種卷積核的個(gè)數(shù)均為100.訓(xùn)練過程采用Adadelta更新規(guī)則,其它參數(shù)如表1所示.

        表1 模型參數(shù)設(shè)置Table 1 Model parameter setting

        4.3 對比實(shí)驗(yàn)設(shè)置

        將本文提出的融合關(guān)鍵對象識別與深層自注意力的Bi-LSTM模型與典型的神經(jīng)網(wǎng)絡(luò)模型在相同環(huán)境下進(jìn)行對比實(shí)驗(yàn),以驗(yàn)證本文模型的有效性:

        1)CNN模型:李慧等[19]提出的算法,完善了對象詞的識別和抽取,并給對象詞賦予一定的權(quán)重,將處理后的文本詞向量矩陣輸入CNN,進(jìn)行情感分類.

        2)Bi-LSTM:標(biāo)準(zhǔn)的雙向LSTM模型,可以分別學(xué)習(xí)句子中的正向語義信息和逆向語義信息,獲取詞語間的依賴關(guān)系.

        3)TC-LSTM:Tang等[9]提出的方法,把對象詞向量與句子中的每個(gè)詞向量進(jìn)行拼接,用LSTM提取特定對象的前后語境信息,使得兩個(gè)方向上的語義特征均用于情感分類.

        4)ATAE-LSTM:Wang 等[11]提出的情感分析模型,在LSTM的輸入層拼接對象詞向量,基于隱藏層輸出進(jìn)行注意力學(xué)習(xí),并且強(qiáng)調(diào)了對象信息在學(xué)習(xí)過程的重要性.

        5)character-SATT-BiLSTM:吳小華等[20]等提出的算法,使用字向量對評論文本進(jìn)行向量化表示,結(jié)合自注意力與Bi-LSTM對短文本進(jìn)行情感分類.

        6)SA-BiLSTM-SA:在Bi-LSTM的輸入序列和隱狀態(tài)輸出序列上使用深層自注意力機(jī)制,但沒有拼接關(guān)鍵評價(jià)對象.

        7)SAAE-BiLSTM-SA:本文提出的短文本情感分析模型,關(guān)鍵對象識別、深層自注意力機(jī)制與Bi-LSTM神經(jīng)網(wǎng)絡(luò)的結(jié)合.

        4.4 實(shí)驗(yàn)結(jié)果分析

        對關(guān)鍵評價(jià)對象的識別是優(yōu)化情感分類任務(wù)的一個(gè)有效機(jī)制,基于SemEval 2014 Task4中的Laptop和Restaurant數(shù)據(jù)集,驗(yàn)證關(guān)鍵對象識別方法的有效性.上述2個(gè)數(shù)據(jù)集中,已標(biāo)注了評價(jià)對象和評論針對該對象的情感傾向,滿足方法驗(yàn)證的基本條件.在Laptop測試集上,對評價(jià)對象的識別準(zhǔn)確率為85.74%,在Restaurant測試集上,則達(dá)到88.83%,表明本文方法對關(guān)鍵評價(jià)對象的識別效果較好.

        對于酒店評論語料,根據(jù)攜程網(wǎng)對住客點(diǎn)評的信息匯總,確定了設(shè)施、環(huán)境、價(jià)格、服務(wù)、交通、位置和餐飲7個(gè)評價(jià)對象類,由此擴(kuò)充構(gòu)建的對象類評論詞集概況如表2所示.各對象類評論詞集語義明確,除個(gè)別程度副詞外,對象詞或情感詞均沒有在不同的評論詞集中重復(fù)出現(xiàn).

        表2 對象類評論詞集概況Table 2 Summary of commentary word set for target classes

        表3列示了關(guān)鍵評價(jià)對象的識別樣例.在實(shí)驗(yàn)數(shù)據(jù)集中,關(guān)鍵對象為隱式的評論占18.96%,基于CNN的卷積處理結(jié)果,可較好地提取或識別關(guān)鍵評價(jià)對象.由于CNN的卷積輸出較好地區(qū)分了文本中不同成分的重要程度,在此基礎(chǔ)上增強(qiáng)關(guān)鍵對象的語義信息,作為自注意力學(xué)習(xí)過程的輸入,可以更好地挖掘出與評論文本情感觀點(diǎn)最為相關(guān)的信息.

        本文模型與其它對比模型分別在相同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4所示(1)本文使用的實(shí)驗(yàn)數(shù)據(jù)與文獻(xiàn)[19]相同,故表4直接引用了其評價(jià)指標(biāo)的計(jì)算結(jié)果..盡管完善了對象詞抽取工作,并在輸入層矩陣融入對象特征權(quán)重,但該權(quán)重僅從詞頻角度反映對象詞的重要性,而且卷積神經(jīng)網(wǎng)絡(luò)在處理序列信息上不具優(yōu)勢,所以在7個(gè)模型中CNN的分類效果不太理想.Bi-LSTM比CNN在精確率、召回率和F1值上均有一定提升,說明句子的上下文語義信息在情感分類過程中有重要作用.TC-LSTM對輸入詞向量序列拼接了對象信息,并以對象詞為中心,同時(shí)提取其前文信息和后文信息用于情感分類.該方法的核心思想與Bi-LSTM類似,但是把句子的語義割裂為左右兩個(gè)部分,在分類性能上僅比Bi-LSTM略有提升.ATAE-LSTM既拼接了特定對象詞向量,又引入了注意力機(jī)制,分類效果比Bi-LSTM有進(jìn)一步提升,但該模型僅從一個(gè)方向?qū)ξ谋镜男蛄刑卣鹘?,其注意力?quán)重是基于隱藏層輸出的單層學(xué)習(xí)結(jié)果,故效果提升并不明顯.

        表3 關(guān)鍵評價(jià)對象識別樣例Table 3 Examples of key opinion target recognition

        表4 不同模型的情感分類性能比較Table 4 Comparison of emotion classification performance of different models

        character-SATT-BiLSTM在字級別上構(gòu)建文本輸入序列,使用基于單層自注意力機(jī)制的Bi-LSTM進(jìn)行情感分類,與TC-LSTM和ATAE-LSTM相比,有較大的性能提升.SA-BiLSTM-SA使用本文提出的深層注意力機(jī)制,并在Bi-LSTM的輸入層和隱藏層輸出上進(jìn)行權(quán)重調(diào)整,其精確率、召回率和F1值達(dá)到了92.4%、92.31%和92.35%,比character-SATT-BiLSTM分別提升了0.75%、1.68%和1.21%.這一方面說明注意力機(jī)制可以讓模型重點(diǎn)學(xué)習(xí)關(guān)鍵情感信息,從而有效提升分類效果,另一方面也表明本文提出的深層自注意力機(jī)制優(yōu)于一般注意力機(jī)制.

        從圖3看,基于CNN的特征提取結(jié)果,隨著層數(shù)的增加,MLP可獲得更加準(zhǔn)確的句子內(nèi)部關(guān)鍵特征,學(xué)習(xí)遠(yuǎn)距離依賴性也更有效,因此通過多層網(wǎng)絡(luò)結(jié)構(gòu)可不斷調(diào)優(yōu)與關(guān)鍵對象相關(guān)的注意力特征.本文模型在MLP的層數(shù)為4時(shí),分類效果最好.同時(shí)采取拼接關(guān)鍵對象詞向量和注意力機(jī)制后,SAAE-BiLSTM-SA的性能表現(xiàn)繼續(xù)有所提升,3個(gè)評價(jià)指標(biāo)的數(shù)值均達(dá)到93%以上,表明在輸入序列增強(qiáng)關(guān)鍵對象語義信息有助于提高情感分類效果.

        圖3 MLP不同層數(shù)對模型性能的影響Fig.3 Effect of MLP layers on model performance

        實(shí)驗(yàn)結(jié)果表明,對于短文本的情感分類任務(wù),SAAE-BiLSTM-SA整體上優(yōu)于其它代表性的深度學(xué)習(xí)模型,驗(yàn)證了本文模型的有效性.基于CNN的關(guān)鍵評價(jià)對象識別大大減少了對人工標(biāo)注和外部知識的依賴,在Bi-LSTM中融入深層自注意力機(jī)制和關(guān)鍵對象信息,可更好地對整體語義和對象相關(guān)語義同時(shí)建模,顯著提升模型的分類性能.

        5 結(jié) 論

        本文提出了一種融合關(guān)鍵評價(jià)對象識別和深層自注意力的Bi-LSTM模型,能在細(xì)粒度層面上快速識別關(guān)鍵評價(jià)對象,并判斷短評論文本的情感傾向性.基于CNN對文本的卷積處理結(jié)果識別關(guān)鍵評價(jià)對象,進(jìn)而通過MLP實(shí)現(xiàn)自注意力學(xué)習(xí);利用Bi-LSTM獲得更加豐富的句子上下文語境信息,在此過程中增強(qiáng)關(guān)鍵對象在整體語義中的作用,引入注意力機(jī)制不斷調(diào)優(yōu)模型對不同情感特征的關(guān)注程度.實(shí)驗(yàn)結(jié)果驗(yàn)證了該模型在短文本情感分類上的有效性.未來研究可考慮結(jié)合句法分析來優(yōu)化關(guān)鍵對象的識別算法,在注意力學(xué)習(xí)過程中補(bǔ)充外部有效信息,提升注意力分布的精確性,并在模型學(xué)習(xí)的不同階段對注意力進(jìn)行動(dòng)態(tài)更新,更準(zhǔn)確地實(shí)現(xiàn)情感語義提取.

        猜你喜歡
        關(guān)鍵語義文本
        高考考好是關(guān)鍵
        語言與語義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        獲勝關(guān)鍵
        NBA特刊(2014年7期)2014-04-29 00:44:03
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        生意無大小,關(guān)鍵是怎么做?
        中國商人(2013年1期)2013-12-04 08:52:52
        亚洲va欧美va| 国产视频激情在线观看| 国产精华液一区二区三区| 精品少妇一区二区三区免费观| 欧美日韩中文国产一区发布 | 国内永久福利在线视频图片| 激情偷乱人成视频在线观看| 午夜亚洲www湿好大| 无码AV大香线蕉伊人久久| 人妻秘书被社长浓厚接吻| 亚洲精品乱码久久久久久 | 东京热加勒比久久精品| 天堂网www资源在线| 十八岁以下禁止观看黄下载链接 | 亚洲熟女一区二区三区不卡| 日韩a级精品一区二区| 中国老熟女重囗味hdxx| 午夜无码大尺度福利视频| 亚洲伊人久久综合精品| 国产一区二区三区在线大屁股| 欧美激情一区二区三区成人| 欧美黑吊大战白妞| 亚州AV无码乱码精品国产| 亚洲中文字幕有综合久久| 少妇被粗大的猛进69视频| 无码日韩精品一区二区免费暖暖 | 麻豆国产人妻欲求不满谁演的| 久久99久久99精品免观看女同| 亚洲综合中文一区二区| 青青草在线免费视频播放| 国产精品久久777777| 99在线播放视频| 日本高清免费播放一区二区| 富婆猛男一区二区三区| 特黄特色的大片观看免费视频| 亚洲aⅴ无码日韩av无码网站| 亚洲三区av在线播放| 欧美做受又硬又粗又大视频| 亚洲精品成人区在线观看| 成人国产在线观看高清不卡| 99久久婷婷国产精品网|