亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合共現(xiàn)網(wǎng)絡(luò)的方面級(jí)情感分析研究

        2023-10-30 08:57:58孫天偉楊長(zhǎng)春顧曉清談國(guó)勝
        關(guān)鍵詞:句法注意力標(biāo)簽

        孫天偉,楊長(zhǎng)春,顧曉清,談國(guó)勝

        常州大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,江蘇 常州 213164

        情感分析[1]中對(duì)在線評(píng)論進(jìn)行細(xì)粒度情感分析的任務(wù)叫作方面級(jí)情感分析(aspect based sentiment analysis,ABSA)。換言之,它的目標(biāo)是在于將一句評(píng)論中的方面詞提取出來(lái),進(jìn)行一個(gè)或者多個(gè)方面的情感極性分析。舉個(gè)簡(jiǎn)單的例子:“the food is good,but service is bad”,這句話中出現(xiàn)了兩個(gè)情感詞:good 和bad,但是這兩個(gè)極性相反的詞匯,是對(duì)兩個(gè)詞匯進(jìn)行評(píng)價(jià),good對(duì)應(yīng)food,bad 對(duì)應(yīng)service。如果僅僅對(duì)一句話進(jìn)行情感極性分析是不夠的,不正確的。因此提出了方面級(jí)情感分析,以此用來(lái)更嚴(yán)謹(jǐn),更綜合地分析評(píng)論。

        關(guān)于方面級(jí)情感分析的研究,國(guó)內(nèi)外已開(kāi)展了很久。早期的研究人員使用傳統(tǒng)的方法來(lái)獲取情感特征[2],比如支持向量機(jī)(support vector machine,SVM)是根據(jù)語(yǔ)義特征、情感字典等信息來(lái)進(jìn)行情感分類任務(wù)。然而,傳統(tǒng)方法的局限性造成了例如泛化能力差、訓(xùn)練耗時(shí)耗力、性能瓶頸無(wú)突破等問(wèn)題。

        后來(lái)隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)的模型被應(yīng)用到方面級(jí)情感分析任務(wù)上并且取得較好的結(jié)果。如Nguyen等人[3]提出的PhraseRNN(phrase recursive neural network)模型,它將句子的依賴關(guān)系和組成樹(shù)都融入ac-count,在分類任務(wù)上取得良好成果。之后注意力機(jī)制在NLP(natural language processing)領(lǐng)域獲得廣泛的關(guān)注,為更好地關(guān)聯(lián)上下文信息,Bahdanau 等人[4]首次將注意力機(jī)制應(yīng)用于NLP 領(lǐng)域中。Tang 等人[5]提出的深層記憶神經(jīng)網(wǎng)絡(luò),構(gòu)建多個(gè)注意力層來(lái)獲取方面詞的上下文關(guān)聯(lián)信息。Wang 等人[6]提出基于雙層注意力機(jī)制的LSTM(long short-term memory)模型,通過(guò)融合注意力機(jī)制,并加入注意力權(quán)重參數(shù)。Ma等人[7]使用結(jié)合注意力機(jī)制的交互網(wǎng)絡(luò)獲取方面詞與上下文之間的關(guān)系和權(quán)重。將注意力機(jī)制融入進(jìn)神經(jīng)網(wǎng)絡(luò)的方法在方面級(jí)情感分析上取得不俗的效果,但上述所提到的模型都沒(méi)有考慮句子間的句法依賴關(guān)系,例如:“So beautiful was the dress but ugly skirt”,根據(jù)注意力機(jī)制,顯然對(duì)dress而言,觀點(diǎn)詞ugly比beautiful更接近,使得ugly與dress兩個(gè)詞關(guān)系更加密切。因此這導(dǎo)致了注意力機(jī)制在注意力權(quán)重計(jì)算方面很難得到合適的數(shù)值。

        隨著圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)的廣泛應(yīng)用,有學(xué)者將其與句法依賴關(guān)系相結(jié)合運(yùn)用到方面級(jí)情感分類任務(wù)中,Zhang 等人[8]利用圖神經(jīng)網(wǎng)絡(luò)通過(guò)句法依賴關(guān)系來(lái)獲取信息。Jindian等人[9]使用句法依賴關(guān)系,提出基于語(yǔ)法距離和語(yǔ)法距離權(quán)重的方法。Rakhlin 等人[10]使用圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)學(xué)習(xí)每個(gè)節(jié)點(diǎn)的特征,再融合注意力機(jī)制構(gòu)建模型。Xue 等人[11]考慮文本中多個(gè)方面詞的情況,提出了一種可以考慮不同方面詞之間的情感聯(lián)系的方面級(jí)情感模型。雖然句法依賴關(guān)系與圖神經(jīng)網(wǎng)絡(luò)相結(jié)合的做法已經(jīng)取得了一定的效果,但這些方法所使用的句法依賴關(guān)系對(duì)單詞之間的關(guān)系表達(dá)都有欠缺,特別是對(duì)詞匯間的共現(xiàn)依賴關(guān)系。

        句法學(xué)[12]中認(rèn)定句法關(guān)系有三種,位置關(guān)系,替代關(guān)系和共現(xiàn)關(guān)系。本文所提到的共現(xiàn)關(guān)系是指一個(gè)句子或句子級(jí)中的某個(gè)特定組合是由集合中的詞匯與該集合的另一詞類或集合的詞組成而成。簡(jiǎn)單來(lái)說(shuō),一般人們認(rèn)為,在一篇文章中出現(xiàn)的兩個(gè)人物之間一定具有某種關(guān)聯(lián)。將這一定義應(yīng)用到方面級(jí)情感分析上,一條評(píng)論中的兩個(gè)詞之間可能會(huì)有某種關(guān)聯(lián),這種關(guān)聯(lián)是通過(guò)統(tǒng)計(jì)足夠多的相關(guān)領(lǐng)域評(píng)論后,若兩個(gè)詞在一條評(píng)論里同時(shí)出現(xiàn)的頻率高于一定值,那這兩個(gè)詞就有共現(xiàn)關(guān)系,譬如這樣一條評(píng)論:The restaurant is okay,nothing special。將它交給現(xiàn)有的工具處理,restaurant將和okay相關(guān)聯(lián),但是nothing 和special 與restaurant 之間就不會(huì)有太多的依賴關(guān)系,這就產(chǎn)生錯(cuò)誤的分析。如果將共現(xiàn)網(wǎng)絡(luò)考慮進(jìn)去,nothing special 將會(huì)以一個(gè)共現(xiàn)詞匯對(duì)的形式進(jìn)行分析,這樣nothing special 就會(huì)作為第二個(gè)觀點(diǎn)詞與restaurant產(chǎn)生依賴關(guān)系。

        綜上所述,本文提出了一種融合共現(xiàn)網(wǎng)絡(luò)的模型,將其應(yīng)用在方面級(jí)情感分類任務(wù)中。在句法依賴關(guān)系上,以方面詞作為焦點(diǎn),利用單詞共現(xiàn)關(guān)系作為輔助信息重構(gòu)句法依賴關(guān)系,再采用詞嵌入方法將句法依賴標(biāo)簽映射為向量。其次利用關(guān)系圖注意力網(wǎng)絡(luò)聚合鄰域范圍內(nèi)單詞的特征信息,再通過(guò)多頭注意力層將標(biāo)簽信息與關(guān)系信息相融合,獲得最終的分類情感特征。為了評(píng)價(jià)本文的模型,本文選擇使用三個(gè)公開(kāi)數(shù)據(jù)集,其中兩個(gè)是SemEval 2014 任務(wù)中的Restaurant 和Laptop 數(shù)據(jù)集,還有一個(gè)是Twitter數(shù)據(jù)集對(duì)模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文模型的準(zhǔn)確率與F1值均有提升。

        本文貢獻(xiàn)如下:

        (1)利用相關(guān)算法分析出單詞共現(xiàn)信息,在以方面詞為焦點(diǎn)對(duì)象的前提下,重新定義句法依賴關(guān)系標(biāo)簽以及句法依賴結(jié)構(gòu),以彌補(bǔ)原始句法依賴關(guān)系忽視方面詞與共現(xiàn)詞匯對(duì)之間句法關(guān)系的缺點(diǎn)。

        (2)使用關(guān)系圖注意力網(wǎng)絡(luò)聚合領(lǐng)域間的單詞信息,再將依賴關(guān)系向量與依賴標(biāo)簽向量相結(jié)合,通過(guò)多頭注意力層實(shí)現(xiàn)情感分類。

        1 相關(guān)工作

        方面級(jí)情感分析是情感分析領(lǐng)域的一個(gè)分支任務(wù),近些年來(lái)神經(jīng)網(wǎng)絡(luò)在文本領(lǐng)域迅速發(fā)展,尤其是文本分類,情感分析領(lǐng)域。Kim[13]為解決句子級(jí)分類任務(wù),利用卷積神經(jīng)網(wǎng)絡(luò)模型。Kaljahi等人[14]為解決情感分類問(wèn)題,使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory network,Bi-LSTM)。Kombrink 等人[15]提出層次化RNN用于文本分類。Peng等人[16]結(jié)合Bi-LSTM與2 個(gè)DNN 構(gòu)建了一個(gè)混合架構(gòu)模型。但隨著模型的疊加,當(dāng)文本過(guò)長(zhǎng)并且網(wǎng)絡(luò)模型過(guò)深時(shí),會(huì)導(dǎo)致計(jì)算時(shí)間過(guò)長(zhǎng),計(jì)算量大等問(wèn)題,并且文本過(guò)長(zhǎng)導(dǎo)致模型不能捕捉到較遠(yuǎn)的意見(jiàn)詞與方面詞之間的情感聯(lián)系,注意力機(jī)制應(yīng)運(yùn)而生。Wang 等人[6]將LSTM 模型融合注意力模型。Tang等人[5]提出具有多跳注意力(Multi-hop)和外部記憶的記憶網(wǎng)絡(luò)模型。Ma 等人[7]提出一種方面詞與上下文交互的注意力神經(jīng)網(wǎng)絡(luò)模型。Fan等人[17]提出多粒度注意力網(wǎng)絡(luò)模型,用于情感細(xì)粒度分類任務(wù)。Wei等人[11]提出了一種基于CNN 和門(mén)控機(jī)制的模型,可以根據(jù)門(mén)控機(jī)制,通過(guò)給定的aspect 選擇性地輸出情感特征,并且模型可以并行訓(xùn)練,收斂速度快。之后隨著預(yù)訓(xùn)練語(yǔ)言模型在自然語(yǔ)言領(lǐng)域內(nèi)的應(yīng)用,如谷歌的預(yù)訓(xùn)練語(yǔ)言模型Bert[18],在方面級(jí)情感分析上也取得不錯(cuò)的效果。

        方面級(jí)情感分析對(duì)句法關(guān)系更為關(guān)注,最近圖神經(jīng)網(wǎng)絡(luò)與句法依賴關(guān)系相結(jié)合的方法取得了不錯(cuò)的效果。Zhang等人[8]提出使用圖卷積神經(jīng)網(wǎng)絡(luò)從句法依賴關(guān)系學(xué)習(xí)特征表示,并融合其他類型的特征用于方面級(jí)情感分析任務(wù)上。之后在圖卷積網(wǎng)絡(luò)的基礎(chǔ)上提出圖卷積記憶網(wǎng)絡(luò),更好地利用文本中單詞之間的句法信息。Zhang 等人[19]提出全局詞匯圖的想法,將全局詞匯圖與層次句法圖相融合,以此來(lái)處理詞匯間不同關(guān)系。Wang等人[20]提出R-GAT(relational graph attention network)模型,利用句法依賴關(guān)系重構(gòu)的方法,將方面詞作為root,提出新的n:con關(guān)系替代原來(lái)的依賴關(guān)系,加強(qiáng)與方面詞語(yǔ)法距離相近單詞的重要性,運(yùn)用多層圖注意力網(wǎng)絡(luò)結(jié)果取平均的方式,學(xué)習(xí)到最終的情感特征向量。其依賴樹(shù)結(jié)構(gòu)如圖1所示。

        圖1 R-GAT模型的依賴樹(shù)結(jié)構(gòu)Fig.1 Dependency tree structure of R-GAT model

        本文的模型是基于R-GAT 模型的改進(jìn),不同于RGAT模型,本文的模型著重于依賴樹(shù)的重構(gòu),在R-GAT的基礎(chǔ)上,修改原先模型的剪枝算法,補(bǔ)充定義句法依賴標(biāo)簽,補(bǔ)充共現(xiàn)詞匯對(duì)與方面詞之間的依賴關(guān)系。通過(guò)在多個(gè)數(shù)據(jù)集上實(shí)驗(yàn)證明,本文提出的方法取得更高的準(zhǔn)確率。

        2 融合共現(xiàn)網(wǎng)絡(luò)的模型

        本文模型由文本嵌入層、句法重構(gòu)層、關(guān)系圖注意力網(wǎng)絡(luò)層、多頭注意力層,情感分類層五個(gè)層組合而成,模型結(jié)構(gòu)圖如圖2 所示,假設(shè)句子由n個(gè)單詞組成,則句子可以表示為s={w1,w2,…,wn},方面詞為{wt,wt+1,…,wt+k-1},其中t表示方面詞在句子中的開(kāi)始位置,k表示方面詞的個(gè)數(shù),t+k-1 表示結(jié)束位置。

        圖2 模型的框架圖Fig.2 Frame diagram of model

        2.1 文本嵌入層

        傳統(tǒng)的NLP鄰域中進(jìn)行詞向量表示一般有兩大類:全局矩陣分解方法(例如LSA[21])和局部上下文窗口方法(例如skip-gram[22]),但這兩類方法都有明顯的缺陷。全局矩陣分解方法不是最優(yōu)的向量空間結(jié)構(gòu),而局部上下文窗口方法很少利用語(yǔ)料庫(kù)的統(tǒng)計(jì)數(shù)據(jù),因?yàn)樗鼈冊(cè)趩为?dú)的局部上下文窗口上訓(xùn)練,而不是在全局共現(xiàn)計(jì)數(shù)上訓(xùn)練。

        本文利用Glove[23]模型來(lái)獲取句子中每個(gè)單詞的詞向量,與全局矩陣分解方法和局部上下文窗口方法不同,Glove不對(duì)單個(gè)上下文窗口進(jìn)行訓(xùn)練,而是只訓(xùn)練詞與詞構(gòu)建的共現(xiàn)矩陣中的非零元素,這一做法有效地利用了統(tǒng)計(jì)信息。

        2.2 句法重構(gòu)層

        一個(gè)句子的句法結(jié)構(gòu)表示為句法依賴關(guān)系,單詞之間通過(guò)有向邊與依賴關(guān)系標(biāo)簽表示。利用句法分析工具獲得每個(gè)句子的原始句法依賴關(guān)系,例如句子“The restaurant is okay,nothing special”,處理后結(jié)果如圖3所示。

        圖3 重構(gòu)前的句法依賴關(guān)系Fig.3 Syntactic dependencies before refactoring

        為了彌補(bǔ)初始句法樹(shù)的不足,本文將共現(xiàn)網(wǎng)絡(luò)融入句法樹(shù)的重構(gòu)中,按照句法關(guān)系認(rèn)為,句子中兩個(gè)單詞同時(shí)出現(xiàn)的頻率若大于等于n(n為超參數(shù)),則這兩個(gè)詞匯間有著共現(xiàn)依賴關(guān)系。與工具得到的初始句法依賴關(guān)系相比,不同點(diǎn)在于,不光保留方面詞與詞匯之間的關(guān)系,而且考慮那些共現(xiàn)依賴權(quán)重大的詞匯,即對(duì)于共現(xiàn)頻率大于n的詞匯對(duì)可以保留。通過(guò)共現(xiàn)算法得到“nothing”與“special”之間存在共現(xiàn)關(guān)系,重構(gòu)后的依賴樹(shù)如圖4所示。

        圖4 重構(gòu)后的句法依賴關(guān)系Fig.4 Reconstructed syntactic dependencies

        同時(shí)給出重構(gòu)前后的詞匯圖進(jìn)行對(duì)比,其中acomp為形容詞的補(bǔ)充,amod 為形容詞,dep 表示二者有依賴關(guān)系。圖5(a)中nothing special 之間無(wú)特殊依賴關(guān)系,圖5(b)中經(jīng)過(guò)共現(xiàn)網(wǎng)絡(luò)處理后,nothing 和special 由于存在共現(xiàn)關(guān)系,因此二者之間產(chǎn)生依賴關(guān)系。根據(jù)圖4所示,將二者句法依賴關(guān)系定義為tog。

        圖5 重構(gòu)前后的詞匯圖對(duì)比Fig.5 Comparison of vocabulary diagrams before and after refactoring

        本文在獲取句法依賴關(guān)系集合R之后,利用重構(gòu)句法依賴關(guān)系算法,對(duì)原始句法依賴關(guān)系R進(jìn)行重新構(gòu)造,同時(shí)構(gòu)建共現(xiàn)詞匯對(duì)列表T,并且刪除語(yǔ)法距離過(guò)遠(yuǎn)的句法依賴關(guān)系標(biāo)簽,保留T中權(quán)重值大的依賴標(biāo)簽,給予共現(xiàn)關(guān)系更多的重要性,重構(gòu)句法依賴關(guān)系算法流程如下所示:

        算法1重構(gòu)句法依賴關(guān)系算法

        其中構(gòu)造共現(xiàn)詞列表的算法如下所示:

        算法2構(gòu)建共現(xiàn)詞列表

        2.3 關(guān)系圖注意力網(wǎng)絡(luò)層

        為聚合鄰域內(nèi)所有節(jié)點(diǎn)的信息,圖注意網(wǎng)絡(luò)基于圖神經(jīng)網(wǎng)絡(luò),引入多頭注意力機(jī)制,通過(guò)不斷地迭代方式來(lái)更新每個(gè)節(jié)點(diǎn)的表示向量,實(shí)現(xiàn)鄰域內(nèi)節(jié)點(diǎn)的權(quán)重分配功能。公式如下所示:

        圖注意力網(wǎng)絡(luò)可以聚合某個(gè)節(jié)點(diǎn)的鄰域節(jié)點(diǎn)的信息,并沿句法依賴路徑來(lái)更新此節(jié)點(diǎn)的向量表示,如圖6所示。

        圖中以句子“the restaurant is okay,nothing special”為例,使用圖注意力網(wǎng)絡(luò)沿著句法依賴路徑更新單詞向量,并結(jié)合注意力層輸出的句法依賴關(guān)系標(biāo)簽權(quán)重參數(shù),最后將更新后的詞向量與文本向量交互融合,得到最終的向量作為情感分類層的輸入。

        2.4 多頭注意力層

        圖注意力網(wǎng)絡(luò)可以根據(jù)句法依賴關(guān)系更新單詞向量表示,但是并沒(méi)有考慮句法依賴標(biāo)簽的作用,因此在關(guān)系圖注意力網(wǎng)絡(luò)層中,拼接單詞向量時(shí)結(jié)合注意力機(jī)制模塊,將重要的單詞和依賴關(guān)系標(biāo)簽分配更高的權(quán)重值,如圖7所示,使得模型更加關(guān)注權(quán)重。計(jì)算公式如下:

        圖7 多頭注意層Fig.7 Multi-head attention layer

        hti表示依賴標(biāo)簽向量,hri表示依賴關(guān)系向量。

        2.5 情感分類層

        方面級(jí)情感分析與一般情感分析一樣,屬于多分類任務(wù),情感分類層的輸入為關(guān)系圖注意力網(wǎng)絡(luò)層的輸出hα,每個(gè)情感標(biāo)簽的概率為p,計(jì)算公式如下所示:

        其中,Wp和bp為可訓(xùn)練參數(shù),result ∈{積極,中立,消極}。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集

        本文選取三個(gè)數(shù)據(jù)集,分別是Dong[24]等人構(gòu)建的Twitter 評(píng)論數(shù)據(jù)集和SemEval2014[25]數(shù)據(jù)集,其中SemEval2014 分別為Restaurant 數(shù)據(jù)集與Laptop 數(shù)據(jù)集。三個(gè)數(shù)據(jù)集都是自然語(yǔ)言處理任務(wù)中的細(xì)粒度情感分析論文中廣泛使用的公開(kāi)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集中都包含若干評(píng)論文本,每條評(píng)論語(yǔ)句中包含有著多個(gè)方面詞以及相對(duì)應(yīng)的情感類型。設(shè)置三種情感極性:積極,中立和消極。數(shù)據(jù)集詳細(xì)信息如表1所示。

        表1 數(shù)據(jù)集統(tǒng)計(jì)Table 1 Dataset statistics

        3.2 評(píng)價(jià)指標(biāo)與目標(biāo)函數(shù)

        本文的評(píng)價(jià)指標(biāo)選擇準(zhǔn)確率、F1 值以及訓(xùn)練每個(gè)epoch所花費(fèi)的時(shí)間,標(biāo)準(zhǔn)交叉熵?fù)p失用作目標(biāo)函數(shù)。

        其中,N表示文本數(shù)量,c表示真實(shí)的情感極性,c表示預(yù)測(cè)的情感極性。θ表示可訓(xùn)練參數(shù)。

        3.3 超參數(shù)設(shè)置

        訓(xùn)練優(yōu)化器使用Adam優(yōu)化算法,為避免梯度爆炸或者消失,設(shè)定梯度最大范數(shù)為1.0。Learning rate設(shè)置為10-3。句法依賴關(guān)系標(biāo)簽嵌入選擇Word2Vec。為防止模型出現(xiàn)過(guò)擬合的狀況,設(shè)置Dropout 值設(shè)置為0.1,隨機(jī)種子設(shè)置為2 022,激活函數(shù)為Relu。

        3.4 基準(zhǔn)模型

        采用一些用于情緒分析的主流模型進(jìn)行比較,優(yōu)化器等參數(shù)設(shè)置與本文模型一致,所采用的基準(zhǔn)模型有:

        (1)AS-GCN[24],該模型建立圖卷積網(wǎng)絡(luò),利用句法信息和單詞依存來(lái)構(gòu)建句子依賴樹(shù)。結(jié)合注意力機(jī)制與卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。

        (2)Bi-LSTM[14],雙向長(zhǎng)短期記憶網(wǎng)絡(luò),在情感分析領(lǐng)域應(yīng)用廣泛。

        (3)GAT[25],圖注意力網(wǎng)絡(luò)是對(duì)圖上的每個(gè)節(jié)點(diǎn)都進(jìn)行注意力運(yùn)算,再將鄰域內(nèi)的節(jié)點(diǎn)加權(quán)求和。

        (4)R-GAT[20],關(guān)系圖注意力網(wǎng)絡(luò)是對(duì)GAT 模型的改進(jìn),以方面詞為根節(jié)點(diǎn),考慮方面詞與觀點(diǎn)詞關(guān)系,并且對(duì)解析樹(shù)進(jìn)行篩選,減少計(jì)算成本。

        (5)GCAE[18],一種基于CNN和門(mén)控機(jī)制的模型,可以根據(jù)門(mén)控機(jī)制,通過(guò)給定的aspect選擇性地輸出情感特征,并且模型可以并行訓(xùn)練,收斂速度快。

        (6)Bi-GCN[19],構(gòu)建全局詞匯圖,與句法圖相結(jié)合,以區(qū)分不同類型的依賴關(guān)系和詞匯對(duì)。

        3.5 實(shí)驗(yàn)結(jié)果與分析

        對(duì)比實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)如表2 所示,模型以準(zhǔn)確率(Accuracy)與F1值作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果顯示本文模型在三個(gè)數(shù)據(jù)集上的準(zhǔn)確率均高于其他基準(zhǔn)模型。F1值雖然在Laptop 數(shù)據(jù)集上略低于R-GAT 模型,但差距不大。這是因?yàn)橐环矫鍸aptop數(shù)據(jù)集的數(shù)據(jù)量少,而共現(xiàn)網(wǎng)絡(luò)是基于數(shù)據(jù)集構(gòu)建的共現(xiàn)詞匯列表,數(shù)據(jù)量越多,共現(xiàn)關(guān)系構(gòu)建得越精準(zhǔn)。另一方面,共現(xiàn)關(guān)系是無(wú)向的,它是對(duì)依賴關(guān)系的補(bǔ)強(qiáng),若數(shù)據(jù)集情感標(biāo)注準(zhǔn)確,情感詞顯著,增加共現(xiàn)關(guān)系能增強(qiáng)精準(zhǔn)度。通過(guò)分析數(shù)據(jù)集,Laptop數(shù)據(jù)集相較于其他兩個(gè)數(shù)據(jù)集中有更多的隱式情感的樣本,這些樣本沒(méi)有明確情感詞,因此需要外部判定。但在訓(xùn)練Laptop數(shù)據(jù)集時(shí),由于數(shù)據(jù)量的匱乏,構(gòu)建出的共現(xiàn)詞匯列表缺乏完整性和精準(zhǔn)度,從而導(dǎo)致F1值下降。從表2實(shí)驗(yàn)結(jié)果可以看出,訓(xùn)練時(shí)間方面,Bi-LSTM 的訓(xùn)練時(shí)間最長(zhǎng),本文模型在與其余算法的訓(xùn)練時(shí)間相當(dāng)。雖然本文模型需要計(jì)算是否存在共現(xiàn)依賴關(guān)系,以及結(jié)合依賴關(guān)系和依賴標(biāo)簽,通過(guò)多頭注意力層輸出情感特征,但這不會(huì)明顯增加訓(xùn)練時(shí)間成本。這一實(shí)驗(yàn)結(jié)果表明了本文算法的實(shí)用性。

        通過(guò)分析,Bi-LSTM模型考慮輸出與輸入的上下文狀態(tài),充分聯(lián)系了上下文,但是對(duì)于方面級(jí)情感分類任務(wù),因?yàn)椴荒芸紤]方面詞的因素,所以效果不佳。ASGCN模型是面向方面級(jí)情感的模型,其思想就是先用LSTM 獲取詞序的上下文信息得到的輸出接入一個(gè)多層圖卷積結(jié)構(gòu),通過(guò)屏蔽掉非方面詞再反饋給LSTM,結(jié)果可證明,方面級(jí)情感分析性能更好。GCAE模型是基于CNN 與門(mén)控機(jī)制的,它是對(duì)注意力網(wǎng)絡(luò)的一種改進(jìn),通過(guò)門(mén)控機(jī)制對(duì)不同方面有選擇性地輸出情感特征,并且由于CNN 沒(méi)有時(shí)間依賴,門(mén)控機(jī)制也獨(dú)立,因此模型可以并行計(jì)算,時(shí)間成本相應(yīng)減少。Bi-GCN 是通過(guò)構(gòu)建全局詞匯圖與句法圖相融合,可以處理不同的依賴關(guān)系,結(jié)果證明,全局詞匯圖的構(gòu)建對(duì)模型性能是有提升的,但由于詞匯圖與句法圖需要協(xié)同工作,計(jì)算復(fù)雜度提升,時(shí)間成本耗費(fèi)高。GAT模型是圖注意力網(wǎng)絡(luò),它將輸入圖的所有節(jié)點(diǎn)都進(jìn)行注意力的計(jì)算,不依賴于圖的結(jié)構(gòu),對(duì)節(jié)點(diǎn)歸納的計(jì)算任務(wù)很優(yōu)異,但是缺點(diǎn)在于完全丟棄了圖結(jié)構(gòu)這個(gè)特征,最后的效果會(huì)大打折扣,其次由于GAT是逐頂點(diǎn)計(jì)算,因此所需要的運(yùn)算成本非常高昂。R-GAT是在GAT模型的基礎(chǔ)上提出了一種面向方面級(jí)的樹(shù)結(jié)構(gòu),充分考慮圖結(jié)構(gòu)特征,可以看出這種做法是很有效的,它相比GAT 構(gòu)建的依賴樹(shù)而言,R-GAT面對(duì)方面詞所采取的是一個(gè)方面詞構(gòu)建一棵獨(dú)立的依賴樹(shù)。并且與GAT將觀點(diǎn)詞作為根節(jié)點(diǎn)構(gòu)建依賴關(guān)系不同的是,R-GAT是將目標(biāo)方面詞作為根節(jié)點(diǎn),向外擴(kuò)展依賴關(guān)系。結(jié)果證明,R-GAT 的性能更加優(yōu)異,說(shuō)明面向方面詞構(gòu)建依賴關(guān)系是更有效的。

        本文模型的準(zhǔn)確率在三個(gè)數(shù)據(jù)集上均高于R-GAT模型,分別提高了0.72、0.94、1.30 個(gè)百分點(diǎn)。因?yàn)樵家蕾嚇?shù)的構(gòu)造忽視了詞匯對(duì)之間的共現(xiàn)依賴關(guān)系,而共現(xiàn)關(guān)系在NLP領(lǐng)域中是個(gè)很重要的思想,它表示了兩個(gè)詞匯在所給文本范圍內(nèi),同時(shí)出現(xiàn)的概率。由于這種共現(xiàn)概率,因此認(rèn)為這兩個(gè)詞匯之間是有著很強(qiáng)的依賴關(guān)系。而不光GAT 還是R-GAT 模型構(gòu)建依賴關(guān)系的時(shí)候,都忽視了共現(xiàn)關(guān)系,它們二者更多地關(guān)注于觀點(diǎn)詞,與方面詞有直接依賴關(guān)系的詞匯,對(duì)于其他詞匯的關(guān)注很少。本文所考慮的是挖掘那些未考慮的詞匯之間的關(guān)系,通過(guò)反復(fù)實(shí)驗(yàn)發(fā)現(xiàn),若將共現(xiàn)關(guān)系融入模型,可以挖掘更深層次的依賴關(guān)系。以“the restaurant is okay,nothing special”再舉例,GAT 和R-GAT 會(huì)將其構(gòu)建成“restaurant”與“okay”,“restaurant”與“nothing”以及“restaurant”和“special”三種依賴關(guān)系,模型會(huì)把okay作為情感極性詞,導(dǎo)致情感分類成積極。而本文模型會(huì)將“nothing”與“special”之間構(gòu)建聯(lián)系,使二者成為一組詞匯對(duì)。在依賴關(guān)系方面,除了剛剛提到的三種關(guān)系之外還補(bǔ)充了“restaurant”和“nothing special”之間的關(guān)系。再通過(guò)多頭注意力層,給予共現(xiàn)關(guān)系一定的權(quán)重,使得模型能夠正確把例句分類成消極情感。實(shí)驗(yàn)結(jié)果和理論邏輯均可證明,這種方法對(duì)模型的性能帶來(lái)的影響是優(yōu)異的。

        本文提出將共現(xiàn)網(wǎng)絡(luò)融入模型,重構(gòu)句法依賴關(guān)系以及依賴標(biāo)簽,為驗(yàn)證共現(xiàn)網(wǎng)絡(luò)對(duì)模型的影響以及共現(xiàn)網(wǎng)絡(luò)閾值的設(shè)置是否會(huì)產(chǎn)生影響。首先要考慮數(shù)據(jù)集的應(yīng)用,通過(guò)分析發(fā)現(xiàn),Restaurant、Laptop 以及Twitter數(shù)據(jù)集中所包含的句子總量相差不大,因此以Twitter數(shù)據(jù)集為例,做了對(duì)比實(shí)驗(yàn),如圖8所示。

        圖8 共現(xiàn)網(wǎng)絡(luò)閾值實(shí)驗(yàn)Fig.8 Co-existing network threshold experiment

        N表示共現(xiàn)網(wǎng)絡(luò)的閾值,即詞匯對(duì)的共現(xiàn)頻率大于等于N,None 表示沒(méi)有結(jié)合共現(xiàn)網(wǎng)絡(luò),由圖可知,當(dāng)N=3 時(shí),模型的性能最優(yōu),當(dāng)N≥3 時(shí),由于閾值的增加,保留的共現(xiàn)依賴關(guān)系分支將會(huì)減少,閾值越高造成重構(gòu)后的依賴關(guān)系與重構(gòu)前的差距縮小,這會(huì)導(dǎo)致模型性能的降低。當(dāng)模型不融入共現(xiàn)網(wǎng)絡(luò)時(shí),由圖可知,模型性能下降明顯。由于共現(xiàn)詞列表是根據(jù)數(shù)據(jù)集而產(chǎn)生的,因此如果數(shù)據(jù)集的數(shù)據(jù)量發(fā)生變化,則N所設(shè)的值也會(huì)隨之改變,但對(duì)于本文所采用的三個(gè)數(shù)據(jù)集而言,N=3 的效果最好。綜上所述,本文選擇閾值為3的共現(xiàn)網(wǎng)絡(luò)。

        為驗(yàn)證注意力層是否會(huì)對(duì)模型性能造成影響,本文將模型的注意力層分別替換成全連接層,單注意力層(傳統(tǒng)的注意力機(jī)制)以及多頭注意力層,以Twitter數(shù)據(jù)集為例,進(jìn)行對(duì)比實(shí)驗(yàn),如圖9所示。

        圖9 注意力層對(duì)模型的影響Fig.9 Effect of attention layer on model

        由圖可知,單注意力頭層因?yàn)闆](méi)有運(yùn)用到依賴標(biāo)簽,只考慮依賴關(guān)系向量,與使用全連接層相比,有提升但是效果不大,二者平均準(zhǔn)確率相差不超過(guò)0.5%。經(jīng)過(guò)分析,這與方面級(jí)情感分類任務(wù)有關(guān),雖然剪枝過(guò)程中會(huì)剪掉與方面詞距離過(guò)遠(yuǎn)的關(guān)系,對(duì)于方面詞相關(guān)的內(nèi)容給予更多的權(quán)重,但是很多句子中會(huì)有多個(gè)方面詞,每個(gè)方面詞都有自己的依賴關(guān)系,這將導(dǎo)致句子中更多的詞匯都給予注意力,因此與全連接相比,會(huì)有不大的提升。而多頭注意力層,是結(jié)合依賴關(guān)系向量與依賴標(biāo)簽向量,對(duì)一些重要的依賴標(biāo)簽,例如本文所提到的共現(xiàn)關(guān)系標(biāo)簽,給予更高的權(quán)重。結(jié)果證明,多頭注意力層對(duì)實(shí)驗(yàn)性能提升明顯。

        3.6 消融實(shí)驗(yàn)

        為了測(cè)試不同句法分析器對(duì)實(shí)驗(yàn)最終結(jié)果的影響,進(jìn)行了消融實(shí)驗(yàn)。由表3可知。使用Biaffine分析器會(huì)得到更高的情感分類準(zhǔn)確率。

        表3 不同解析器的實(shí)驗(yàn)Table 3 Experiments with different parsers 單位:%

        為驗(yàn)證不同詞向量對(duì)準(zhǔn)確率的影響,分別采用Word2vec 和Bert 進(jìn)行消融實(shí)驗(yàn),并且以Twitter 數(shù)據(jù)集為例,統(tǒng)計(jì)訓(xùn)練時(shí)間。實(shí)驗(yàn)結(jié)果如表4所示,Bert模型的效果很好,但復(fù)雜度太高,所以訓(xùn)練時(shí)間成本太高。本文模型采用的Glove 詞向量與Word2vec 相比,效果更好,并且訓(xùn)練所用的時(shí)間更少,這是因?yàn)橐环矫鍳love利用了全局信息,因此訓(xùn)練時(shí)收斂更快,另一方面Glove詞向量事先統(tǒng)計(jì)了語(yǔ)料庫(kù)里固定窗口內(nèi)的詞共現(xiàn)頻次,與Word2vec 通過(guò)滑動(dòng)窗口提取特征相比,更符合本文模型中結(jié)合共現(xiàn)算法的思路。Word2vec 與Glove 的效果沒(méi)有太大區(qū)別,但由于Glove的復(fù)雜度與數(shù)據(jù)集規(guī)模無(wú)關(guān),有更好的適用性,并且操作時(shí)利用了共現(xiàn)思想,綜上所示,本文采用Glove詞向量。

        表4 不同詞向量的實(shí)驗(yàn)Table 4 Experiments with different word vectors

        4 結(jié)束語(yǔ)

        本文提出了融合共現(xiàn)網(wǎng)絡(luò)的圖神經(jīng)網(wǎng)絡(luò)模型,該模型的創(chuàng)新點(diǎn)在于重構(gòu)句法依賴關(guān)系,添加共現(xiàn)依賴關(guān)系。首先通過(guò)Glove模型獲取語(yǔ)義特征,結(jié)合重構(gòu)后句法依賴關(guān)系,通過(guò)圖注意力網(wǎng)絡(luò)聚合每一個(gè)單詞節(jié)點(diǎn)的鄰域單詞節(jié)點(diǎn)的語(yǔ)義信息,再將句法依賴標(biāo)簽與句法依賴關(guān)系融合交互,通過(guò)多頭注意力層得到與方面詞相關(guān)的情感語(yǔ)義特征,最終實(shí)現(xiàn)情感分類。

        本文使用SemEval2014 的Restaurant、Laptop 數(shù)據(jù)集和Twitter 評(píng)論數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果顯示,最高準(zhǔn)確率分別達(dá)到78.66%、74.19%、73.97%,均比當(dāng)前主流模型的指標(biāo)優(yōu)異。

        在未來(lái)工作中,將考慮制作全局詞匯圖與模型相結(jié)合。同時(shí)發(fā)現(xiàn)現(xiàn)有主流模型對(duì)局部特征沒(méi)有充分考慮,接下來(lái)會(huì)研究模型結(jié)合局部特征強(qiáng)化模塊。

        猜你喜歡
        句法注意力標(biāo)簽
        讓注意力“飛”回來(lái)
        句法與句意(外一篇)
        述謂結(jié)構(gòu)與英語(yǔ)句法配置
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車(chē)迷(2018年11期)2018-08-30 03:20:32
        句法二題
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        詩(shī)詞聯(lián)句句法梳理
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        標(biāo)簽化傷害了誰(shuí)
        女女同女同一区二区三区| 婷婷丁香五月激情综合| 欧美牲交a欧美牲交aⅴ| 国产成人午夜精华液| 亚洲精品成人片在线观看| 免费va国产高清不卡大片| 国产一区二区三区探花| 91精品国产91综合久久蜜臀 | 女同恋性吃奶舌吻完整版| 亚洲无线一二三四区手机| 日日躁夜夜躁狠狠躁超碰97| 免费一级欧美大片久久网| 日本女同av在线播放| 虎白女粉嫩粉嫩的18在线观看| 免费成人电影在线观看| 国内女人喷潮完整视频| 中文字幕精品一区二区2021年| 四月婷婷丁香七月色综合高清国产裸聊在线 | 91九色成人蝌蚪首页| 99久久久无码国产精品6| 中国一 片免费观看| 亚洲AⅤ樱花无码| 高清中文字幕一区二区三区| 日本精品一区二区三区福利视频| 亚洲国产精品日韩av不卡在线| 亚洲精品无码不卡av| 日本韩国三级aⅴ在线观看| 人妻少妇偷人精品久久人妻| 日韩av天堂一区二区三区在线| 久久精品99国产精品日本| 国产精品∧v在线观看| 久久久久亚洲av无码专区桃色| 国产激情久久久久久熟女老人| 天堂麻豆精品在线观看| 大陆老熟女自拍自偷露脸| 四虎影视免费观看高清视频| 国产亚洲精品A在线无码| 亚洲av有码精品天堂| av天堂亚洲另类色图在线播放 | 国产我不卡在线观看免费| 精品国产一区二区三区色搞|