亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        嵌入不同鄰域表征的方面級(jí)情感分析模型

        2023-02-03 03:01:24竇全勝
        計(jì)算機(jī)應(yīng)用 2023年1期
        關(guān)鍵詞:單詞情感信息

        劉 歡,竇全勝,2*

        (1.山東工商學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 煙臺(tái) 264005;2.山東省高等學(xué)校協(xié)同創(chuàng)新中心:未來(lái)智能計(jì)算,山東 煙臺(tái) 264005)

        0 引言

        隨著科技的發(fā)展,社交網(wǎng)絡(luò)變得日益繁榮,如何從海量文本信息中挖掘用戶(hù)所表達(dá)的情感,即文本情感分析,引起學(xué)者們的廣泛關(guān)注,成為自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的研究熱點(diǎn)。情感分析可分為文檔級(jí)、語(yǔ)句級(jí)和方面級(jí)三類(lèi):文檔級(jí)和語(yǔ)句級(jí)情感分析分別將整篇文檔或文檔中的具體句子作為分析對(duì)象,常用于產(chǎn)品評(píng)價(jià)[1]、影評(píng)[2]等場(chǎng)景的文本內(nèi)容情感識(shí)別;方面級(jí)情感分析(Aspect-Based Sentiment Analysis,ABSA)將句子中的單詞或短語(yǔ)(通常稱(chēng)之為“方面”(Aspect))作為分析對(duì)象,判斷其在特定上下文中的情感極性[3]。

        本質(zhì)上,三類(lèi)情感分析屬不同粒度的分類(lèi)問(wèn)題,與文檔級(jí)和語(yǔ)句級(jí)情感分析相比,方面級(jí)情感分析的粒度更細(xì),通過(guò)語(yǔ)句或文檔中不同方面的情感極性,可以更細(xì)膩分析句子或文檔所蘊(yùn)含的不同情感。方面級(jí)情感極性依賴(lài)于上下文語(yǔ)境,同一方面在不同上下文語(yǔ)境中的情感極性未必相同。例如,在以下兩個(gè)例句:“It is a great size and amazing Windows 8 included!”和“Lastly,Windows 8 is annoying.”中都包含方面“Windows 8”,在第一個(gè)例句中,其情感極性是積極的,而在第二個(gè)例句中卻是消極的。同時(shí),在同一上下文中,不同方面的情感極性也未必相同??疾煲韵抡Z(yǔ)句:“The food,though served with bad service,is actually great”,句中方面“food”的情感極性是積極的,而方面“service”則是消極情感。從以上兩個(gè)例子可以看出,方面情感極性與方面詞所處的上下文及相應(yīng)語(yǔ)法結(jié)構(gòu)高度相關(guān),如何在模型中利用這些信息進(jìn)行有效表征,對(duì)分析結(jié)果有著重要影響。

        隨著深度學(xué)習(xí)的發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的方面級(jí)情感分析已經(jīng)成為研究的主流,常用的方法通常以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4]、長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[5]和門(mén)控遞歸單元(Gated Recursive Unit,GRU)[6]等為基礎(chǔ),可以將先前模型處理的信息傳遞到后續(xù)處理中。事實(shí)證明,這類(lèi)模型對(duì)于一些簡(jiǎn)單的時(shí)序任務(wù)是有效的,但很難有效捕捉復(fù)雜自然語(yǔ)句內(nèi)在的句法結(jié)構(gòu)和相應(yīng)的鄰域信息,而這些信息往往是決定方面情感極性的關(guān)鍵。

        本文提出一種嵌入不同鄰域表征(Embedding Different Neighborhood Representation,EDNR)的方面級(jí)情感分析模型,在BiGRU 編碼基礎(chǔ)上,加入鄰域表征融合層(Neighborhood Representation Fusion Layer,NRF)。通過(guò)對(duì)方面詞上下文的短距離約束獲得方面詞的鄰域信息,同時(shí)構(gòu)造并利用依存句法樹(shù),提取評(píng)論語(yǔ)句的句法信息,以縮短方面詞與描述詞之間的距離。融合這兩個(gè)模塊得到的鄰域信息以提高情感分析模型的分類(lèi)性能。在5 個(gè)數(shù)據(jù)集上的結(jié)果表明,本文方法的分類(lèi)性能有明顯提高,其中在14Lap 數(shù)據(jù)集獲得的準(zhǔn)確率和F1 值分別為77.08%和73.41%,相較于以往研究中的聚合圖卷積網(wǎng)絡(luò)-最大值函數(shù)(Aggregated Graph Convolutional Network-MAX,AGCN-MAX)模型提高了2.47 和2.83 個(gè)百分點(diǎn)。

        1 相關(guān)工作

        情感分析是NLP 領(lǐng)域的重要研究?jī)?nèi)容,作為情感分析中最具挑戰(zhàn)的問(wèn)題,方面級(jí)情感分析一直廣受關(guān)注。研究初期的代表性工作包括:Han 等[7]提出了一種新的特定領(lǐng)域情感詞典生成方法和一個(gè)基于詞典的情感分析框架,該框架使用所提出的特定領(lǐng)域情感詞典生成方法生成特定領(lǐng)域情感詞典。Chen 等[8]在已有情感詞典基礎(chǔ)上,利用主題模型獲取新詞并擴(kuò)充情感詞典,在情感分析任務(wù)中的幾個(gè)測(cè)試數(shù)據(jù)集上,使用擴(kuò)充后情感詞典的分析結(jié)果有了不同程度的性能提升。早期方法多以情感詞典為基礎(chǔ),通過(guò)模式匹配或傳統(tǒng)機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)情感分類(lèi),但由于自然語(yǔ)言上下文結(jié)構(gòu)復(fù)雜,構(gòu)建相對(duì)完備的情感詞典并不容易,同時(shí),在某一領(lǐng)域數(shù)據(jù)上構(gòu)建的情感詞典無(wú)法適用于其他領(lǐng)域,制約了這些方法在現(xiàn)實(shí)中的應(yīng)用。

        近年來(lái),深度學(xué)習(xí)被廣泛應(yīng)用在NLP 領(lǐng)域,取得了令人矚目的效果。方面級(jí)情感分析的深度模型通常以LSTM 網(wǎng)絡(luò)為基礎(chǔ),代表性工作如下。

        1.1 基于LSTM的方面情感分析模型

        Tang 等[9]將給定的目標(biāo)方面視為特征,提出基于目標(biāo)依賴(lài)的長(zhǎng)短期記憶(Target-Dependent LSTM,TD-LSTM)神經(jīng)網(wǎng)絡(luò)和基于目標(biāo)關(guān)聯(lián)的長(zhǎng)短期記憶(Target-Connection LSTM,TC-LSTM)神經(jīng)網(wǎng)絡(luò),該方法將目標(biāo)方面與上下文特征連接起來(lái)進(jìn)行方面級(jí)情感分析,獲得了比LSTM 更好的實(shí)驗(yàn)結(jié)果。Ruder 等[10]提出了一種層次雙向LSTM(Hierarchical Bidirectional LSTM,H-LSTM)分析模型,單詞嵌入被輸入到句子級(jí)雙向LSTM 中,前向和后向LSTM 的最終狀態(tài)與方面嵌入連接在一起。在每一個(gè)時(shí)間步,LSTM 正向和反向的輸出被串聯(lián)并饋送到最后一層,該層輸出情緒的概率分布。

        從結(jié)果上可知,這類(lèi)模型可以對(duì)含有序列信息的句子進(jìn)行有效表達(dá),但句子不是簡(jiǎn)單序列,影響方面情感極性的關(guān)鍵點(diǎn)并不一定是離方面詞較近的上下文特征。

        1.2 基于注意力機(jī)制的方面情感分析模型

        在最近研究中,注意力機(jī)制也常被用于情感分析任務(wù)中以改善基于LSTM 模型的不足,將注意力集中在句子的關(guān)鍵部分可在一定程度上增強(qiáng)句子表達(dá)能力。Ma 等[11]提出了一種交互式注意力網(wǎng)絡(luò)(Interactive Attention Network,IAN),使用兩個(gè)注意力網(wǎng)絡(luò)以獲得正確判斷方面級(jí)情感極性的重要特征。Tang 等[12]提出了深度記憶網(wǎng)絡(luò)模型,該模型包括具有共享參數(shù)的多個(gè)計(jì)算層,每個(gè)層是基于上下文和位置的注意力機(jī)制模塊,在推斷某個(gè)方面的情感極性時(shí),捕捉并利用該方面上下文信息,進(jìn)而提高情感極性決策的準(zhǔn)確性。李苑等[13]提出基于注意力的卷積-遞歸神經(jīng)網(wǎng)絡(luò)模型,以解決詞語(yǔ)在不同上下文中的差異問(wèn)題。

        基于注意力機(jī)制的方面情感模型可以關(guān)注給定目標(biāo)的特征信息,針對(duì)不同目標(biāo)可以有效調(diào)整神經(jīng)網(wǎng)絡(luò)的最優(yōu)參數(shù)。然而由于高度關(guān)注給定目標(biāo)自身信息,這類(lèi)模型通常無(wú)法對(duì)長(zhǎng)度較短的自然語(yǔ)句進(jìn)行有效判別。

        1.3 基于卷積神經(jīng)網(wǎng)絡(luò)的方面情感分析模型

        針對(duì)上述注意力模型的不足,Xue 等[14]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和門(mén)控機(jī)制的網(wǎng)絡(luò)模型,其門(mén)控Tanh-ReLU 單元(Gated Tanh-ReLU Unit,GTRU)可以根據(jù)給定方面或?qū)嶓w選擇性地輸出情感特征,該架構(gòu)比現(xiàn)有模型中使用的注意力層簡(jiǎn)單。劉全等[15]提出一個(gè)深度分層網(wǎng)絡(luò)模型,通過(guò)區(qū)域CNN 獲得句子的時(shí)序關(guān)系,運(yùn)用分層LSTM 獲取句子內(nèi)部之間的關(guān)系,以提高模型分類(lèi)結(jié)果。趙亞歐等[16]提出了一種融合詞嵌入和多尺度CNN 的情感分析模型,采用預(yù)訓(xùn)練的字符向量初始化ELMo(Embeddings from Language Models)嵌入層,并利用多尺度卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征進(jìn)行深層提取。

        對(duì)于長(zhǎng)度較短的語(yǔ)句,這類(lèi)基于CNN 的方面情感分析模型可有效提取局部特征,并運(yùn)用多種方法將方面信息嵌入到句子表示中,但是卻容易忽略句子的句法結(jié)構(gòu),即當(dāng)方面詞與其情感描述詞相距較遠(yuǎn)時(shí),很難確定其情感極性。

        1.4 基于其他方法的方面情感分析模型

        針對(duì)上述問(wèn)題,現(xiàn)有的其他情感分析模型引入了語(yǔ)句的語(yǔ)法信息或其他輔助信息。主要工作有:Sun 等[17]為判斷方面詞的情感極性,構(gòu)造針對(duì)方面詞的輔助句,將方面級(jí)情感分析任務(wù)轉(zhuǎn)換為句子對(duì)分類(lèi)任務(wù),利用BERT(Bidirectional Encoder Representations from Transformers)模型并進(jìn)行微調(diào),在數(shù)據(jù)集SentiHood 和SemEval2014 Task 4 上取得較好的結(jié)果。針對(duì)現(xiàn)有方法難以有效捕捉長(zhǎng)距離的依賴(lài)性,Zhao等[18]提出聚合圖卷積網(wǎng)絡(luò)(Aggregated Graph Convolutional Network,AGCN)以增強(qiáng)目標(biāo)節(jié)點(diǎn)的表示能力。AGCN 引入了均值聚合函數(shù)和最大聚合函數(shù)來(lái)更新節(jié)點(diǎn)的特征表示,并采用注意力機(jī)制來(lái)獲得不同節(jié)點(diǎn)的依賴(lài)信息。在中文和英文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,AGCN 的分類(lèi)結(jié)果優(yōu)于其他基于GCN 的模型。

        受上文啟發(fā),本文提出嵌入不同鄰域表征(EDNR)的方面級(jí)情感分析模型:結(jié)合將近鄰策略和CNN 捕捉方面鄰域信息,并引入語(yǔ)法信息,通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)獲取句法鄰域信息。將這兩種鄰域信息融合后,運(yùn)用屏蔽機(jī)制,與隱層輸出向量做注意力機(jī)制,即可預(yù)測(cè)方面情感極性。

        2 EDNR模型

        不妨用S=s1s2…sn表示由n個(gè)單詞構(gòu)成的任意自然語(yǔ)句,其中si(i=1,2,…,n) 為S中的第i個(gè)單詞,且句子中一段連續(xù)且具有單一具體語(yǔ)義的單詞子串A=sk…sk+m(m≥0)被稱(chēng)為方面(Aspect)。S的低維嵌入記,其中dim是詞向量的嵌入維度。

        利用自然語(yǔ)言處理庫(kù)spaCy 容易獲得S的語(yǔ)法分析樹(shù)TreeS,例如句子“The food,though served with bad service,is actually great.”的語(yǔ)法樹(shù)如圖1 所示。

        圖1 依存關(guān)系示例Fig.1 Example of dependency

        在TreeS中,稱(chēng)與單詞si對(duì)應(yīng)節(jié)點(diǎn)相連接邊的個(gè)數(shù)di為節(jié)點(diǎn)si的度,由TreeS容易獲得語(yǔ)句S的語(yǔ)法鄰接矩陣WS=中任意元素由下式定義:

        顯然WS與S語(yǔ)法結(jié)構(gòu)有關(guān),它反映的是S中任意兩個(gè)單詞si與sj在語(yǔ)法層面上的聯(lián)系,與單詞在句中的位置無(wú)直接關(guān)系。

        WS為語(yǔ)句S的語(yǔ)法鄰接矩陣,稱(chēng)κS為S的信息評(píng)估系數(shù)。由式(2)可知,κS系數(shù)可用來(lái)評(píng)估語(yǔ)句中上下文信息或語(yǔ)法依賴(lài)信息對(duì)方面情感極性的影響。

        上述所得語(yǔ)句S的低維嵌入E和關(guān)系矩陣WS作為EDNR 的輸入,利用BiGRU 獲得語(yǔ)句的序列化信息表示,通過(guò)融合方面局部信息和語(yǔ)法結(jié)構(gòu)上的信息特征,獲取方面詞在不同層面的鄰域信息,最終可獲得S中某一具體方面A的情感極性分布概率。EDNR 模型整體架構(gòu)如圖2 所示,由信息表示層、鄰域表征融合層、特征提取層和決策輸出層構(gòu)成。以下就EDNR 模型每個(gè)層次結(jié)構(gòu)細(xì)節(jié)及信息處理過(guò)程進(jìn)行描述。

        2.1 信息表示層

        EDNR 模型的信息表示層采用雙向門(mén)控循環(huán)單元(Bidirectional Gated Recurrent Unit,BiGRU)將低維詞嵌入向量[e1,e2,…,en]進(jìn)行序列化表示,并將得到的特征向量H傳遞給鄰域表征融合層進(jìn)行下一步處理。

        2.2 鄰域表征融合層

        在方面情感分析任務(wù)中,僅依靠上下文信息不能滿(mǎn)足分析的需要,自然語(yǔ)句通常具有更加復(fù)雜結(jié)構(gòu),判斷方面情感極性的關(guān)鍵點(diǎn)是捕捉語(yǔ)句中描述方面的單詞特征,本文的EDNR 模型不僅考慮方面鄰域的特征信息,同時(shí)融合句子在語(yǔ)法結(jié)構(gòu)中相鄰節(jié)點(diǎn)的鄰域特征,獲取了方面詞在物理層面和語(yǔ)法結(jié)構(gòu)上的鄰域依賴(lài)信息,提高了文本的特征表達(dá)能力。鄰域表征融合層包括方面鄰域表征模塊和語(yǔ)法鄰域表征模塊,處理過(guò)程如下:

        2.2.1 方面鄰域表征模塊

        方面鄰域表征(Aspect Neighborhood Representation,ANR)模塊是利用CNN 提取句子更深層的局部特征信息,將信息表示層的輸出特征H輸入到CNN 之前,先對(duì)其使用近鄰策略(Nearest Neighbor Strategy,NeNS),以捕捉方面鄰域信息,使得離方面詞較近的關(guān)鍵信息可獲得較大的權(quán)重,具體實(shí)施細(xì)則如下所示。

        設(shè)語(yǔ)句S=其 中A=sk…sk+m為方面,則S中任意非方面詞si(i?[k,k+m])對(duì)A的影響權(quán)值ui可通過(guò)式(4)計(jì)算:

        通過(guò)近鄰策略可得到方面詞與其他詞位置關(guān)系的權(quán)重大小,且將其與表示層特征信息進(jìn)行融合,即如下所示:

        其中:hi為BiGRU 模型編碼后的輸出表示;符號(hào)*表示乘積運(yùn)算;vi是使用近鄰策略后的特征向量表示。

        在使用近鄰策略得到方面詞與上下文單詞的相對(duì)位置編碼后,利用CNN 進(jìn)一步抽取得到的特征信息,計(jì)算公式如式(6)所示:

        該模塊不僅使用近鄰策略獲取方面詞與上下文之間的位置關(guān)系,且利用CNN 模型提取更深層的特征信息,以提高方面情感極性的分類(lèi)結(jié)果。

        2.2.2 語(yǔ)法鄰域表征模塊

        若僅依賴(lài)方面鄰域信息并不能解決語(yǔ)句中方面詞與其描述詞相距較遠(yuǎn)的情況,因而語(yǔ)法鄰域表征(Syntax Neighborhood Representation,SNR)模塊利用依存句法樹(shù)為語(yǔ)句生成相應(yīng)鄰接矩陣WS,可有效縮短方面詞和其描述詞之間的距離,且使用l層GCN 對(duì)文本數(shù)據(jù)進(jìn)行表示。

        GCN 將BiGRU 輸出H和S的鄰接矩陣WS作為網(wǎng)絡(luò)輸入,在第l=0 層時(shí),圖卷積網(wǎng)絡(luò)輸入的節(jié)點(diǎn)信息為=hj,則第l+1 層的第i個(gè)神經(jīng)元的輸出由式(7)確定:

        其中:Wl是參數(shù)矩陣是第l層第j個(gè)神經(jīng)元的輸出表示;bl是偏置項(xiàng);φ(·)是一個(gè)非線(xiàn)性激活函數(shù);GCN 最終輸出G=

        語(yǔ)法鄰域表征模塊是通過(guò)依存句法樹(shù)獲取評(píng)論語(yǔ)句的語(yǔ)法信息,且將生成的鄰接矩陣作為GCN 的輸入,并捕捉單詞在語(yǔ)法結(jié)構(gòu)上的鄰域信息。

        將兩個(gè)模塊的輸出表示進(jìn)行點(diǎn)積操作,點(diǎn)積可用于測(cè)量方面A和句子中其他單詞si的語(yǔ)義相關(guān)性,如式(8)所示:

        由式(8)得兩個(gè)模塊融合后的特征向量為λ=[λ1;λ2;…;λn],λ融合句子中給定方面詞的鄰域信息和單詞的語(yǔ)法結(jié)構(gòu)信息。

        令1A為與方面詞A相關(guān)的位置標(biāo)記向量,且滿(mǎn)足如下定義:

        為了減少非方面詞對(duì)情感分析任務(wù)的影響,在得到λ之后,加入Mask 機(jī)制,以屏蔽掉非方面詞的隱藏狀態(tài)向量,如式(10)所示:

        鄰域表征融合層融合ANR 模塊和SNR 模塊捕捉的文本信息,并使用一個(gè)位置標(biāo)記向量,避免非方面詞的相關(guān)信息影響方面情感極性的判斷。

        2.3 特征提取層

        特征提取層使用注意力機(jī)制,并為句子中每個(gè)單詞設(shè)置相應(yīng)的注意力權(quán)重使所產(chǎn)生的向量γt從隱藏狀態(tài)向量H中提取與方面詞A語(yǔ)義相關(guān)的重要信息,如式(11)是每個(gè)單詞注意力權(quán)重的計(jì)算公式。

        其中τt是計(jì)算后每個(gè)單詞的注意力權(quán)重,最終的向量表示如式(12)所示。

        由式(12)可知,ht是信息表示層的編碼輸出,f是EDNR模型中特征提取層的最終表示。

        2.4 決策輸出層

        決策輸出層將最終文本表示f輸入到Softmax 函數(shù)進(jìn)行分類(lèi),如式(13)所示,即可得到評(píng)論語(yǔ)句中所對(duì)應(yīng)目標(biāo)方面情感極性的輸出。

        本文的損失函數(shù)由訓(xùn)練時(shí)預(yù)測(cè)和真實(shí)標(biāo)簽分布的交叉熵定義,如式(14)所示。

        其中:N為數(shù)據(jù)集樣本量;C為標(biāo)簽數(shù)量;yiμ是真實(shí)標(biāo)簽;為情感極性預(yù)測(cè)的結(jié)果。

        上述是對(duì)EDNR 模型的整體結(jié)構(gòu)描述,其中鄰域表征融合層提取文本中給定方面詞的不同鄰域信息,旨在提高方面級(jí)情感分析模型的分類(lèi)結(jié)果。下面在5 個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以驗(yàn)證EDNR 模型的有效性。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集

        將EDNR 模型在5 個(gè)公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),其中14Lap 和14Rest 來(lái)自SemEval 2014 task 4[19],15Rest 和16Rest分別來(lái)自SemEval 2015 task 12[20]和SemEval 2016 task 5[21],第5 個(gè)是Twitter 數(shù)據(jù)集[22]。5 個(gè)數(shù)據(jù)集的統(tǒng)計(jì)情況如表1 所示。這些數(shù)據(jù)集主要用于細(xì)粒度情感分析,大體可分為三個(gè)領(lǐng)域的用戶(hù)評(píng)論數(shù)據(jù),其中每一條評(píng)論數(shù)據(jù)包括評(píng)論語(yǔ)句、目標(biāo)方面項(xiàng)和其目標(biāo)方面對(duì)應(yīng)的情感極性。情感極性主要分為積極的(Positive)、消積的(Negative)和中立的(Neutral),可在數(shù)據(jù)樣本中用1、-1 和0 進(jìn)行表示。

        表1 數(shù)據(jù)集按類(lèi)別標(biāo)簽分類(lèi)的分布情況Tab.1 Distribution of datasets classified by class labels

        3.2 參數(shù)設(shè)置和評(píng)價(jià)指標(biāo)

        文中使用300d GloVe[23]預(yù)訓(xùn)練模型初始化單詞嵌入,實(shí)驗(yàn)參數(shù)設(shè)置如表2 所示。由表2 可知,隱藏狀態(tài)向量的維數(shù)設(shè)置為300,批量大小設(shè)置為32;本文采用Adam 對(duì)模型進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)置為0.001;Dropout 層丟失率設(shè)置為0.6;將迭代次數(shù)設(shè)置為50,并在隨機(jī)初始化的情況下進(jìn)行5 次相同的實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)結(jié)果計(jì)算測(cè)試集上所有指標(biāo)的平均最大值。

        表2 參數(shù)設(shè)置Tab.2 Parameter setting

        本文選取正確率(Accuracy,Acc)和F1 值(F1)作為評(píng)價(jià)指標(biāo),正確率是指預(yù)測(cè)正確的樣本數(shù)與總樣本數(shù)的比值,F(xiàn)1值可以對(duì)模型進(jìn)行綜合衡量。具體計(jì)算如下所示:

        其中:Ttrue指預(yù)測(cè)正確的樣本數(shù),Ssum指總的樣本數(shù);pre表示精度,即預(yù)測(cè)為正例的樣本中實(shí)際也是正例的比例;rec表示召回率,即預(yù)測(cè)的樣本中有多少個(gè)正例被預(yù)測(cè)為是正例的比例。

        為研究GCN 層數(shù)對(duì)情感分析任務(wù)的影響,在Twitter 和14Lap 數(shù)據(jù)集上根據(jù)正確率和F1 值確定GCN 在EDNR 模型的合理層數(shù),實(shí)驗(yàn)結(jié)果如圖3 所示。

        從圖3 可知,實(shí)驗(yàn)設(shè)置GCN 層數(shù)范圍從1 到10,當(dāng)l為3時(shí),這兩個(gè)數(shù)據(jù)集在指標(biāo)正確率和F1 值上均達(dá)到最大值,即EDNR 模型獲得最佳性能。當(dāng)l較小時(shí),這兩個(gè)指標(biāo)都呈現(xiàn)緩慢增長(zhǎng)的趨勢(shì),但模型可能無(wú)法獲得更加全面的語(yǔ)句信息;當(dāng)l>3 時(shí),這兩個(gè)指標(biāo)都呈現(xiàn)出下降趨勢(shì),主要原因可能是由于模型層數(shù)增多、參數(shù)量增大而變得難以訓(xùn)練或出現(xiàn)過(guò)擬合現(xiàn)象。

        圖3 GCN層數(shù)對(duì)EDNR模型的影響Fig.3 Influence of GCN layers on EDNR model

        3.3 實(shí)驗(yàn)結(jié)果及分析

        3.3.1 消融實(shí)驗(yàn)及分析

        為了驗(yàn)證EDNR 模型中每個(gè)組成部分對(duì)情感分析任務(wù)的有效性,在5 個(gè)數(shù)據(jù)集上進(jìn)行相應(yīng)的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。其中:“BA”表示本文模型去掉NRF 層的基線(xiàn)模型;“+SNR”表示基于BA 模型添加SNR 模塊;“+ANR”代表基于BA 模型添加ANR 模塊。

        表3 消融模型在5個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%Tab.3 Comparison of experimental results of ablation models on five datasets unit:%

        由表3 可知,相較于其他3 個(gè)模型,EDNR 模型的正確率和F1 值有明顯提高。在數(shù)據(jù)集14Lap 上,添加SNR 模塊后的模型正確率提升了4.78 個(gè)百分點(diǎn),F(xiàn)1 值提升了5.87 個(gè)百分點(diǎn),表明SNR 模塊將語(yǔ)句的語(yǔ)法信息與GCN 結(jié)合,可以捕捉單詞在特定語(yǔ)境中的依存關(guān)系,以獲得更好的句子表示。添加ANR 模塊后,在數(shù)據(jù)集14Rest、15Rest、14Lap 和Twitter上,該模型的正確率和F1 值都有所提高,而在數(shù)據(jù)集16Rest上有所下降,這表明模塊ANR 對(duì)于數(shù)據(jù)集中包含較多的目標(biāo)方面詞與情感描述詞相近的句子,可以充分捕捉方面詞鄰近語(yǔ)境的特征信息,且近鄰策略對(duì)判斷目標(biāo)方面的情感極性也產(chǎn)生一定的重要影響,而對(duì)于數(shù)據(jù)集16Rest 中的語(yǔ)句可能對(duì)方面詞的鄰域特征信息不夠敏感,導(dǎo)致正確率和F1 值有所下降。EDNR 模型將模塊SNR 和模塊ANR 的表征信息進(jìn)行融合,以有效提取方面和語(yǔ)句在句法結(jié)構(gòu)中的鄰域信息,提升文本表達(dá)能力,提高方面級(jí)情感分析模型的分類(lèi)結(jié)果。

        3.3.2 對(duì)比實(shí)驗(yàn)及分析

        在5 個(gè)不同數(shù)據(jù)集上進(jìn)行情感分析任務(wù)的實(shí)驗(yàn)中,將以下所列基線(xiàn)模型與本文的EDNR 模型進(jìn)行對(duì)比實(shí)驗(yàn),以正確率與F1 值作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表4 所示。

        表4 不同模型在5個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%Tab.4 Comparison of experimental results of different models on five datasets unit:%

        1)TD-LSTM[9]:在細(xì)粒度情感分析任務(wù)中,將單詞按語(yǔ)序輸入到模型中,利用兩個(gè)LSTM 分別對(duì)方面的左側(cè)和右側(cè)上下文進(jìn)行建模,以預(yù)測(cè)給定方面的情感極性。

        2)TNet-LF(Transformation Networks-Lossless Forwarding)[24]:利用雙向LSTM 模型進(jìn)行上下文的表示,并實(shí)現(xiàn)一種上下文保存變換(Context-Preserving Transformation,CPT)機(jī)制來(lái)獲得特定方面的單詞表示,以保存和加強(qiáng)語(yǔ)境信息,并使用CNN獲得句子表示。

        3)IAN[11]:將詞嵌入作為輸入,利用兩個(gè)LSTM 網(wǎng)絡(luò)對(duì)目標(biāo)方面和句子上下文進(jìn)行特征表示,然后分別使用目標(biāo)方面對(duì)上下文和上下文對(duì)目標(biāo)方面的注意力機(jī)制,捕獲重要特征信息,最終通過(guò)Softmax 函數(shù)預(yù)測(cè)情感極性。

        4)MemNet[12]:引入深度記憶網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)注意力機(jī)制,以學(xué)習(xí)上下文單詞與方面詞的相關(guān)性,并根據(jù)最后的輸出表示預(yù)測(cè)情感傾向。

        5)BERT-pair-QA-M[17]:將方面級(jí)情感分析轉(zhuǎn)換為句子對(duì)分類(lèi)任務(wù),并對(duì)預(yù)訓(xùn)練模型BERT 進(jìn)行微調(diào),提高模型的分類(lèi)結(jié)果。

        6)AGCN[18]:引入兩個(gè)聚合函數(shù)來(lái)表示節(jié)點(diǎn)的鄰域信息,并使用注意力機(jī)制捕獲節(jié)點(diǎn)之間的依賴(lài)關(guān)系。其中,兩種聚合函數(shù)分別為均值(MEAN)聚合函數(shù)和最大(MAX)聚合函數(shù)。

        實(shí)驗(yàn)分析如下:

        1)與性能較優(yōu)的模型TNet-LF 相比,在數(shù)據(jù)集14Lap 上,EDNR 模型的正確率提升了2.47 個(gè)百分點(diǎn),F(xiàn)1 值提升了3.27 個(gè)百分點(diǎn),表明EDNR 模型中將不同鄰域信息融合后對(duì)情感分析任務(wù)的有效性。

        TD-LSTM 模型可以提取與語(yǔ)序高度相關(guān)的上下文信息,但在方面級(jí)情感分析任務(wù)中缺乏判斷方面情感極性的關(guān)鍵內(nèi)容信息。TNet-LF 模型在可以獲得雙向語(yǔ)序信息的BiLSTM 基礎(chǔ)上,加入了給定方面的特征表示,并使用CNN 提取方面的顯著特征,但未能考慮到語(yǔ)法信息對(duì)于判斷方面級(jí)情感極性的影響。EDNR 模型提出的鄰域表征融合層可有效解決上述問(wèn)題,而且從實(shí)驗(yàn)數(shù)據(jù)中可知,本文的EDNR 模型在5 個(gè)公共數(shù)據(jù)集上的正確率和F1 值都取得了比上述兩個(gè)模型更好的結(jié)果。

        2)在5 個(gè)公共數(shù)據(jù)集上,EDNR 比MemNet 模型和IAN 模型在正確率上高了2.01~6.44 個(gè)百分點(diǎn),在F1 值上提高了1.99~16.62 個(gè)百分點(diǎn),而模型MemNet 和IAN 的正確率和F1值不相上下。

        MemNet 模型將目標(biāo)方面與它的上下文的單詞嵌入做注意力機(jī)制,關(guān)注方面詞在單詞嵌入向量中的重要特征。IAN模型通過(guò)LSTM 分別用來(lái)獲取目標(biāo)方面和上下文的注意力權(quán)重,以獲得一個(gè)交互注意網(wǎng)絡(luò),提高模型分類(lèi)結(jié)果。這類(lèi)模型特別關(guān)注方面詞的上下文信息,能在一定程度上取得較好效果,但無(wú)法應(yīng)對(duì)目標(biāo)方面和描述詞較遠(yuǎn)的句子或者語(yǔ)句較短的情況。本文的EDNR 模型將不同層面的鄰域信息進(jìn)行融合,并與隱層向量做注意力機(jī)制來(lái)進(jìn)行情感分類(lèi),表明了不同鄰域信息對(duì)方面級(jí)情感分析任務(wù)的有效性。

        3)由表4 可知,與模型BERT-pair-QA-M、AGCN-MEAN 和AGCN-MAX 相 比,EDNR 模型在數(shù)據(jù)集14Rest、16Rest 和Twitter 上獲得了最優(yōu)的結(jié)果,相較于次優(yōu)結(jié)果正確率提高了0.29~0.65 個(gè)百分點(diǎn),F(xiàn)1 值提高了0.32~1.4 個(gè)百分點(diǎn)。BERT-pair-QA-M 模型在數(shù)據(jù)集15Rest 和14Lap 相較于次優(yōu)結(jié)果正確率提升了1.13~1.27 個(gè)百分點(diǎn),F(xiàn)1 值提升了0.15~2.41 個(gè)百分點(diǎn),驗(yàn)證了BERT-pair-QA-M 模型和本文EDNR模型在方面級(jí)情感分析任務(wù)中的有效性。BERT-pair-QA-M構(gòu)造了一個(gè)輔助句,并微調(diào)BERT 模型來(lái)提取語(yǔ)句的深層特征信息,但由表5 可知,相較于其他模型,該模型擁有最高的參數(shù)量,這會(huì)導(dǎo)致預(yù)訓(xùn)練模型需要更高的硬件設(shè)備和內(nèi)存,也會(huì)在訓(xùn)練中花費(fèi)較長(zhǎng)時(shí)間,而本文EDNR 模型參數(shù)量少,且在方面級(jí)情感分析任務(wù)中取得了較好的結(jié)果。在數(shù)據(jù)集Twitter 上,AGCN-MEAN 模型的F1 值獲得了次優(yōu)結(jié)果。模型AGCN-MAX 在數(shù)據(jù)集15Rest 的正確率獲得次優(yōu)結(jié)果。在數(shù)據(jù) 集14Rest、14Lap 和16Rest 上,模型EDNR 相較于模 型AGCN-MEAN 和模型AGCN-MAX 取得了較優(yōu)的實(shí)驗(yàn)結(jié)果??偟膩?lái)說(shuō),模型EDNR 與模型AGCN-MEAN 和AGCN-MAX 的整體性能相當(dāng)。

        表5 不同模型在數(shù)據(jù)集15Rest上的參數(shù)量大小對(duì)比Tab.5 Comparison of parameter sizes of different models on dataset 15Rest

        3.3.3κS系數(shù)對(duì)模型的特征評(píng)價(jià)

        為了研究上述信息評(píng)估系數(shù)(κS)對(duì)EDNR 模型和去掉GCN 后模型正確率的影響。15Rest 的測(cè)試集中,本文根據(jù)每個(gè)樣本的鄰接矩陣計(jì)算出κS系數(shù),并設(shè)置8 個(gè)區(qū)間,求得每個(gè)區(qū)間的中位數(shù),使其為橫坐標(biāo)刻度,且為每個(gè)區(qū)間隨機(jī)挑選10 個(gè)樣本,計(jì)算樣本正確率的平均值,實(shí)驗(yàn)結(jié)果如圖4所示。

        圖4 中,隨κS系數(shù)增長(zhǎng),折線(xiàn)圖為樣本在EDNR 模型和去掉GCN 后模型上的正確率變化情況,柱狀圖則是兩條折線(xiàn)的數(shù)值差距。由圖4 可知:當(dāng)κS系數(shù)比較小時(shí),刪除GCN后的模型正確率較低,與EDNR 模型的正確率數(shù)值差距較大;而當(dāng)κS系數(shù)較大時(shí),兩個(gè)模型的正確率數(shù)值幾乎相近。由此可得,κS系數(shù)較小時(shí),評(píng)論語(yǔ)句的語(yǔ)法信息對(duì)于判斷情感極性的正確與否影響較大;而當(dāng)κS系數(shù)較大時(shí),情感極性的判斷更多依賴(lài)于語(yǔ)句的上下文信息。

        圖4 κS系數(shù)對(duì)不同模型的影響Fig.4 Influence of κS coefficient on different models

        4 結(jié)語(yǔ)

        在情感分析任務(wù)中,某些評(píng)價(jià)語(yǔ)句的描述詞與方面詞的距離不定,導(dǎo)致判斷情感極性時(shí),可能會(huì)將方面與不相關(guān)的特征信息關(guān)聯(lián)起來(lái),難以捕獲有效信息。針對(duì)上述問(wèn)題,本文提出了一種嵌入不同鄰域表征的方面級(jí)情感分析模型。模型中利用鄰域表征融合層來(lái)獲取方面和句法鄰域信息,并通過(guò)注意力機(jī)制捕捉文本數(shù)據(jù)的關(guān)鍵信息,提高了方面級(jí)情感分析模型性能。實(shí)驗(yàn)結(jié)果表明,EDNR 模型在5 個(gè)數(shù)據(jù)集上確實(shí)能夠提高情感分析任務(wù)的性能。在今后的工作中,可將特定領(lǐng)域的相關(guān)信息作為外部知識(shí)嵌入到本文方法中,進(jìn)一步提高模型的分類(lèi)性能。

        猜你喜歡
        單詞情感信息
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        單詞連一連
        情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        看圖填單詞
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        看完這些單詞的翻譯,整個(gè)人都不好了
        展會(huì)信息
        單詞拾趣
        国产中文aⅴ在线| 亚洲国产精彩中文乱码av| 国产尤物av尤物在线观看| 国产内射合集颜射| 国产欧美日本亚洲精品一5区| 成熟的女人毛茸茸色视频| 人妻在卧室被老板疯狂进入| 亚洲国产成人久久一区www| 人妖精品视频在线观看| 日韩午夜三级在线视频| 精品国产品香蕉在线| 精品无码中文字幕在线| 日本免费一区二区三区在线看| 日韩视频午夜在线观看| 欧洲美熟女乱又伦av影片| 精品人妻人人做人人爽| 伊人婷婷色香五月综合缴激情 | 欧美真人性做爰一二区| baoyu网址国产最新| 国内嫩模自拍偷拍视频| 7m精品福利视频导航| 麻豆第一区MV免费观看网站| 狼人av在线免费观看| 国产精品一区二区三区免费视频| 亚洲精品美女久久久久久久| 免费一区啪啪视频| 久久精品国产亚洲av热东京热| 欧美伦费免费全部午夜最新| 精品成人乱色一区二区| 国产自产拍精品视频免费看| 国产一区二区三区av免费| 国产av麻豆mag剧集| 国产成人无码A区在线观| 国产一区二区三区精品成人爱| 欧洲美女熟乱av| 男女性高爱潮免费观看| 激情人妻网址| 成人偷拍自拍视频在线观看| 少妇无码av无码专区线| 2021精品综合久久久久| 国产一区二区三区青青草|