王郅翔,劉 淵
1.江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院,江蘇無(wú)錫214122
2.江南大學(xué)江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇無(wú)錫214122
隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,網(wǎng)絡(luò)強(qiáng)國(guó)的建設(shè)取得了歷史性成就,根據(jù)2021 年第48 次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[1]指出,我國(guó)網(wǎng)絡(luò)購(gòu)物用戶規(guī)模達(dá)8.12億,占整體網(wǎng)民用戶的80.3%。在此基礎(chǔ)上,更加人性化、智能化的篩選和推送服務(wù)成為當(dāng)下軟件的主流,文本情感分類(lèi)的研究因此變得火熱。文本情感分析是指利用自然語(yǔ)言處理和文本挖掘技術(shù),對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理和抽取的過(guò)程[2]。情感傾向分析是文本情感分析的核心工作,是指對(duì)包含主觀信息的文本進(jìn)行情感傾向判斷[3]。在傳統(tǒng)的情感文本分類(lèi)任務(wù)中,主要采取基于機(jī)器學(xué)習(xí)方法,同時(shí)在文本預(yù)處理階段,預(yù)處理方法如:One-hot、TF-IDF和N-gram等,主要存在著嵌入矩陣稀疏的問(wèn)題,并且隨著詞匯量的增多而變得冗長(zhǎng),其特征表達(dá)的能力不夠精確,不利于后續(xù)研究工作的開(kāi)展。隨著詞嵌入(word embedding)概念的提出,文本的表達(dá)迎來(lái)了新的階段,Mikolov等[4]在2013年提出的Word2vec詞向量訓(xùn)練工具,Penmington等[5]在2014年提出了Glove詞向量,兩者都解決了詞向量表達(dá)的稀疏性的問(wèn)題,使得文本的表達(dá)能力上升了一個(gè)臺(tái)階。伴隨著計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展,各種在圖形圖像領(lǐng)域中的經(jīng)典模型被嘗試應(yīng)用到自然語(yǔ)言處理領(lǐng)域,以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)為代表的神經(jīng)網(wǎng)絡(luò)及其各種網(wǎng)絡(luò)變體在文本領(lǐng)域的應(yīng)用變得廣泛起來(lái)。Kim[6]在2014 年首次將CNN 融入到文本分類(lèi)任務(wù)中,通過(guò)不同大小的卷積核提取特征并進(jìn)行融合,取得了較好的效果。2017年,谷歌的研究人員提出以自注意力機(jī)制為核心的Transformer[7],在此基礎(chǔ)上,研究人員開(kāi)始將注意力機(jī)制應(yīng)用到CNN 和RNN 等神經(jīng)網(wǎng)絡(luò)框架中,并在各個(gè)研究層面中取得了較好的效果。例如:Wang 等[8]將長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)與注意力機(jī)制相結(jié)合,顯著提升了模型在方面級(jí)情感分析領(lǐng)域的效果,趙宏等[9]將BERT 與層次化Attention 相結(jié)合,通過(guò)雙向GRU 網(wǎng)絡(luò)得到句子和文章的表示,并結(jié)合注意力機(jī)制探究模型在微博情感分析領(lǐng)域內(nèi)的應(yīng)用,趙亞南等[10]將CNN 與多頭注意力機(jī)制相結(jié)合,探究了金融領(lǐng)域內(nèi)的情感傾向??偟膩?lái)看,以神經(jīng)網(wǎng)絡(luò)為核心的模型和框架不斷推陳出新,為自然語(yǔ)言處理發(fā)展提供新的動(dòng)力。
當(dāng)下,主流的情感分析模型想要提升分類(lèi)效果,往往把目光聚焦在提升神經(jīng)網(wǎng)絡(luò)模型性能上,卻忽略了原始文本的重要性。因此,本文提出了一種基于文本摘要提取的雙路情感分析模型BLAT(Bi-LSTM-Attention-TextCNN),該模型主要包括以下幾個(gè)特點(diǎn):
(1)對(duì)原始文本進(jìn)行凝練,減少預(yù)處理過(guò)程中信息的流失,將其作為基本輸入,可以起到數(shù)據(jù)增強(qiáng)的作用。
(2)采用加性注意力機(jī)制代替Transformer 的自注意力機(jī)制,提高模型的并行計(jì)算效率和泛化能力。
(3)采用雙路網(wǎng)絡(luò)并行的方式提取特征,最終提高分類(lèi)準(zhǔn)確率。
文本摘要提取的目標(biāo)是將整個(gè)長(zhǎng)文本,通過(guò)歸納的方式,將原文凝練成可以概括主要內(nèi)容的一段文字。文本摘要技術(shù)最早應(yīng)用于金融數(shù)據(jù)分析和法律判決文書(shū)領(lǐng)域,起到輔助決策和提取關(guān)鍵信息的作用,例如,齊甜方等[11]將文本摘要技術(shù)和情感挖掘技術(shù)相融合對(duì)股票價(jià)格趨勢(shì)進(jìn)行預(yù)測(cè)。文本摘要生成方法主要分為抽取式摘要生成和生成式摘要兩種,抽取式主要是對(duì)原文信息進(jìn)行提煉,這種方法產(chǎn)生的摘要通常會(huì)保留源文章的顯著信息,有著正確的語(yǔ)法[12],而生成式方法能夠在建立完整語(yǔ)義時(shí),避免信息的冗余,兩種文本摘要方法各有千秋。但是BLAT 模型面對(duì)不同長(zhǎng)度的文本時(shí)需要對(duì)原文進(jìn)行較大程度的還原,并不需要提取額外的語(yǔ)義,故引入抽取式摘要生成方法,對(duì)長(zhǎng)度過(guò)長(zhǎng)和較為冗余的文本進(jìn)行摘要提取的工作,并將其作為一路特征輸入到模型中。
Transformer 已經(jīng)在多個(gè)任務(wù)中證明了其在自然語(yǔ)言處理領(lǐng)域內(nèi)的成功,由于Self-Attention 獨(dú)特的機(jī)制,能夠讓文本信息之間建立直接的聯(lián)系,因而相較于循環(huán)神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)特征能力較強(qiáng)。但是,Transformer 的主要問(wèn)題是對(duì)于長(zhǎng)文本的訓(xùn)練速度會(huì)發(fā)生指數(shù)級(jí)增長(zhǎng),為緩解這一問(wèn)題,2019年,Yang等提出基于Transformer架構(gòu)的Transformer-XL[13]和XLNet[14],其核心架構(gòu)便是經(jīng)典的注意力機(jī)制。其中,Transformer-XL主要采用了相對(duì)位置編碼器的方式,解決了輸入文本長(zhǎng)度受限的問(wèn)題,而XLNet 主要采取集成Transformer-XL 的方式,引入片循環(huán)機(jī)制,解決了長(zhǎng)依賴的關(guān)系問(wèn)題,大幅度提升了計(jì)算速度。2021 年Wu 等提出Fastformer[15],屬于Transformer的一種變體,通過(guò)采用加性注意力(additiveattention)機(jī)制的方式,對(duì)全局特征進(jìn)行提取,相較于主流的Transformer 結(jié)構(gòu)達(dá)到了當(dāng)下最好的性能,其每層使用的參數(shù)量也更少,計(jì)算的復(fù)雜度更是達(dá)到了線性量級(jí),能夠顯著縮短訓(xùn)練時(shí)間。其中,注意力機(jī)制內(nèi)部采用了權(quán)值共享的方式,能夠有效地避免模型過(guò)擬合。因此,根據(jù)情感文本結(jié)構(gòu)句式多變,文本長(zhǎng)度不一的特點(diǎn),引入Fastformer中的加性注意力機(jī)制代替Transformer中的自注意機(jī)制,以達(dá)到提升模型性能和泛化能力的目的。
基于深度學(xué)習(xí)的單路特征提取分類(lèi)模型已經(jīng)有了很多研究進(jìn)展,并且在廣泛的數(shù)據(jù)實(shí)驗(yàn)中證明了其有效性。例如:Xiao等[16]利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)與詞嵌入相結(jié)合的方法,對(duì)中文文本情感進(jìn)行研究。隨著單路模型應(yīng)用場(chǎng)景的不斷豐富,模型提升的效果瓶頸也隨之展露,需要性能更加優(yōu)秀的模型才能滿足對(duì)于指標(biāo)的需求。然而在雙路模型領(lǐng)域,田喬鑫等[17]使用Word2vec和Glove詞向量作為文本輸入的區(qū)別,提出了CNN+Attention 和BiGRU+Attention 雙路并行的模型對(duì)情感分析領(lǐng)域進(jìn)行研究。萬(wàn)俊杰等[18]采用BERT詞嵌入作為文本特征輸入,提出了雙通道的BCBLA 模型。兩者都取得了較好的效果,目前雙路模型雖然都是采取不同詞嵌入方式作為文本特征輸入的區(qū)別,并沒(méi)有重視對(duì)于原始文本信息的提取,但是也都印證了雙路模型在情感分析領(lǐng)域內(nèi)的有效性。
在此背景下,本文提出將Bi-LSTM與Fastformer的加性注意力機(jī)制融合作為其模型的單路特征提取網(wǎng)絡(luò),并選取TextCNN作為二路特征提取網(wǎng)絡(luò),利用三種不同的特征提取方法提取文本特征并做融合,從而達(dá)到進(jìn)一步提升模型對(duì)文本情感識(shí)別的效果。
BLAT模型由以下幾個(gè)部分組成:
(1)詞嵌入層:將文本信息進(jìn)行預(yù)處理的工作,對(duì)原文進(jìn)行摘要提取,使用Word2vec 詞向量工具得到雙路文本向量。
(2)特征提取層:將詞嵌入層得到的兩個(gè)文本向量輸入到雙路模型中,同時(shí)利用不同的網(wǎng)絡(luò)進(jìn)行特征提取。
(3)輸出預(yù)測(cè)層:將提取到的兩個(gè)文本特征進(jìn)行融合,使用Softmax分類(lèi)器得到最終分類(lèi)結(jié)果。
模型的具體結(jié)構(gòu)如圖1所示。
圖1 BLAT結(jié)構(gòu)圖Fig.1 Structure diagram of BLAT
當(dāng)下主流的、可選擇的預(yù)訓(xùn)練詞向量有Word2vec、Glove 和BERT。Word2vec 和Glove 的主要差別在于訓(xùn)練過(guò)程中使用了不同的目標(biāo)函數(shù)和權(quán)重函數(shù),在文獻(xiàn)[17]的實(shí)驗(yàn)結(jié)果中表現(xiàn)差別不大,同一模型使用這兩者詞向量在準(zhǔn)確率上的誤差保持在0.1%左右。而B(niǎo)ERT 模型是按字劃分的,輸入到BERT中的詞組依舊會(huì)轉(zhuǎn)化成以字符為基本單位,由于模型在詞嵌入層增加了分詞的操作,為提取到更多文本序列內(nèi)容,故選擇Word2vec作為詞嵌入工具。
在得到文本向量過(guò)程中,首要的就是預(yù)處理工作,由于文本噪聲干擾較大,需剔除不符合邏輯的符號(hào)。對(duì)于抽取式摘要生成,本文引入Liu 等[19]在微博摘要生成中提到的方法,首先計(jì)算出單個(gè)詞語(yǔ)在文章中的TF-IDF(詞頻-逆文檔頻率),通過(guò)對(duì)文本中單個(gè)詞語(yǔ)的TF-IDF進(jìn)行累加初步得到句子的權(quán)重,并對(duì)整體句子權(quán)重歸一化,可以定義單個(gè)句子的權(quán)重。接著選取第一個(gè)句子作為主旨句,通過(guò)余弦相似度計(jì)算,得到單個(gè)句子的相似度權(quán)重,并且通過(guò)位置信息,得到位置權(quán)重。最后通過(guò)三個(gè)權(quán)重進(jìn)行加權(quán)計(jì)算,并進(jìn)行降序排序,最終按照自己劃分的比例作為其摘要提取的內(nèi)容。如果原文本長(zhǎng)度過(guò)小,無(wú)法抽取,則采用原文本作為句向量的表達(dá)。
對(duì)于單路預(yù)處理完成的文本則可以表示為L(zhǎng)={x1,x2,…,xn},通過(guò)分詞操作后,超過(guò)定義長(zhǎng)度的部分進(jìn)行截?cái)嗵幚?,長(zhǎng)度不足的部分則進(jìn)行補(bǔ)零操作,最終得到文本矩陣。本詞嵌入層權(quán)重使用Word2vec知乎中文詞向量包,詞向量維度為d,那么最終單路詞嵌入層矩陣可以表示為[w1,w2,…,wn],w∈R1×d。
通過(guò)上述操作,雙路模型的輸入分別定義為input1和input2,最終輸入到雙路特征提取層中。
2.2.1 Bi-LSTM+Attention層
由于文本脈絡(luò)承上啟下,結(jié)構(gòu)上具有順序性的特點(diǎn),循環(huán)神經(jīng)網(wǎng)絡(luò)非常適合作為其主要的特征提取模塊。其中,LSTM 作為最經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò),極大地緩解了RNN 存在的梯度消失和梯度爆炸的問(wèn)題。在LSTM模型中,主要有輸入門(mén)it、遺忘門(mén)ft、記憶單元Ct和輸出門(mén)Ot,對(duì)于上一時(shí)間步長(zhǎng)t-1,其細(xì)胞狀態(tài)表示為Ct-1,隱藏狀態(tài)可以表示為ht-1,其各個(gè)參數(shù)之間的狀態(tài)關(guān)系可以表示為:
其中,Wf、Wi、WO為權(quán)重矩陣,bf、bi、bO為偏置項(xiàng),Sigmoid為激活函數(shù),LSTM內(nèi)部結(jié)構(gòu)如圖2所示。
圖2 LSTM結(jié)構(gòu)圖Fig.2 Structureof LSTM
Bi-LSTM 網(wǎng)絡(luò)由前向和后向的LSTM 神經(jīng)網(wǎng)絡(luò)構(gòu)成,兩者都同時(shí)連接輸出層,通過(guò)不同順序的文本交互,可以有效地捕捉文本語(yǔ)義信息的關(guān)聯(lián),其輸出是蘊(yùn)含著不同順序的文本特征。
為了進(jìn)一步得到關(guān)鍵文本的語(yǔ)義關(guān)聯(lián),將Bi-LSTM層輸出后的內(nèi)容輸入到加性注意力機(jī)制中,加性注意力機(jī)制的內(nèi)部結(jié)構(gòu)圖如圖3所示。
圖3 加性注意力結(jié)構(gòu)圖Fig.3 Structureof additive attention
加性注意力機(jī)制具體的操作是生成的Q,K,V∈RN×d矩陣,其分別包含了不同的qi,ki,vi,i∈N,對(duì)于全局查詢向量q的生成,引入計(jì)算權(quán)重αi,并與qi相乘進(jìn)行匯總,具體的權(quán)重和全局查詢向量的生成方法如下:
使用element-wise相乘的方法可以有效反映出兩個(gè)向量之間的線性關(guān)系[20],因此將全局查詢向量q與ki進(jìn)行交互,定義為pi,同時(shí)引入權(quán)重βi,通過(guò)與矩陣q相同的方法生成全局矩陣k,公式如下所示:
此時(shí),已經(jīng)得到蘊(yùn)含上下文信息的k矩陣,同樣使用element-wise相乘的方法得到最終的關(guān)系矩陣ui,并將ui輸入到線性變換層進(jìn)而與查詢向量qi相加得到其最終輸出特征Oi,將其得到的全局特征定義為Of=[o1,o2,…,oN]∈RN×d,公式如下:
本路特征提取工作已經(jīng)結(jié)束,最終的輸出是混合著文本信息的特征向量Of。
2.2.2 TextCNN特征提取層
卷積神經(jīng)網(wǎng)絡(luò)主要通過(guò)卷積核實(shí)現(xiàn)對(duì)局部關(guān)鍵信息的提取,由于使用的卷積核大小不同,其提取到的特征也具有多樣化的特點(diǎn)。TextCNN作為CNN網(wǎng)絡(luò)的一種,主要應(yīng)用在文本領(lǐng)域,與CNN的主要區(qū)別是使用了與詞嵌入維度相同大小的卷積核。完整的TextCNN 內(nèi)部結(jié)構(gòu)主要分為卷積層、池化層、全連接層和輸出層,由于需要進(jìn)行特征融合的操作,此路特征提取模型需要舍棄輸出層,其主要的結(jié)構(gòu)描述如下:
(1)卷積層有三個(gè)不同的過(guò)濾器,用來(lái)提取不同的文本特征,其計(jì)算公式如下:
其中,f為激活函數(shù),wi(x,y)為對(duì)應(yīng)的第i個(gè)節(jié)點(diǎn)過(guò)濾器輸入的權(quán)重,cx,y為輸入節(jié)點(diǎn)()x,y的取值,bi為偏置項(xiàng),最終的hi是卷積層的輸出。
(2)池化層主要起到降維的效果,減少計(jì)算量,防止過(guò)擬合,采用的是最大池化操作。
(3)全連接層主要是對(duì)三個(gè)不同的過(guò)濾器提取到的特征進(jìn)行拼接得到特征向量,本文將輸出文本特征向量定義為T(mén)f。
輸出層主要是對(duì)Bi-LSTM-Attention層中的特征向量Of和TextCNN 層中的特征向量Tf進(jìn)行融合并使用Softmax函數(shù)得到最終的情感結(jié)果,其公式如下:
其中,Wf和bf為權(quán)重和偏置項(xiàng),結(jié)果P為情感傾向。
本實(shí)驗(yàn)在Windows10環(huán)境下運(yùn)行,采用的編程語(yǔ)言是Python3.8,IDE 為Pycharm2020,CPU 為Intel?CoreTMi7-8750H 2.20 GHz,內(nèi)存24 GB,采用的深度學(xué)習(xí)框架為T(mén)ensorflow 2.7.0。
實(shí)驗(yàn)使用的數(shù)據(jù)集是中文電商評(píng)論數(shù)據(jù)集,其中包含了6 000條中科院譚松波博士所提供的中文酒店評(píng)論數(shù)據(jù)集(Tan Songbo Hotel Review),以及由在電商平臺(tái)搜集的各類(lèi)商品評(píng)價(jià)。正負(fù)樣本各15 000條,數(shù)據(jù)集詳細(xì)信息如表1所示。
表1 數(shù)據(jù)集信息統(tǒng)計(jì)Table 1 Information of dataset
(1)摘要提取能夠提煉出原文關(guān)鍵信息,對(duì)于文本較長(zhǎng)的評(píng)論,可以避免由于截?cái)嗖僮鲝亩绊懻Z(yǔ)義的丟失。值得注意的是,文本的摘要提取是以句號(hào)為分界的,因此面對(duì)數(shù)據(jù)數(shù)據(jù)集中不一定正確的標(biāo)點(diǎn)格式,如果一個(gè)句子只有一個(gè)句號(hào)結(jié)尾,摘要的提取并不會(huì)成功。因此采取的方式是將所有的逗號(hào)替換成句號(hào),確保方法最大限度地融入到模型中。
摘要提取樣例如表2所示。
表2 摘要提取樣例表Table 2 Abstract extraction example table
(2)正負(fù)樣本中包含了大量的無(wú)用信息,為了避免影響模型效果,需要進(jìn)行對(duì)文本進(jìn)行數(shù)據(jù)清洗。本實(shí)驗(yàn)采用jieba 中文分詞工具包進(jìn)行操作,在分詞完成之后則進(jìn)行去除停用詞的操作,以減少無(wú)用信息對(duì)于文本的影響。本實(shí)驗(yàn)采用哈工大中文停用詞,對(duì)數(shù)據(jù)進(jìn)行操作,處理樣例表如表3所示。
表3 文本處理樣例表Tbale 3 Text processing sample table
根據(jù)文本分類(lèi)的常用指標(biāo),本文決定采取準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)和F1(F1-score)。
本文的實(shí)驗(yàn)結(jié)果除了受到網(wǎng)絡(luò)模型結(jié)構(gòu)的影響之外,實(shí)驗(yàn)參數(shù)的設(shè)置也會(huì)對(duì)模型結(jié)果產(chǎn)生影響,因此參數(shù)設(shè)置也需要規(guī)范化處理,整體設(shè)置如表4所示。
表4 實(shí)驗(yàn)參數(shù)表Table 4 Experimental parameter table
為了證明其模型的有效性,并且考慮到文本結(jié)構(gòu)的特點(diǎn),以及情感分析任務(wù)的一些特點(diǎn),選取以下幾個(gè)模型作為BLAT模型的對(duì)比實(shí)驗(yàn),主要對(duì)比的方向?yàn)椋海?)驗(yàn)證BLAT 模型相較于當(dāng)下主流模型的分類(lèi)效果;(2)與目前的雙路情感分析模型進(jìn)行對(duì)比,選取BCBLA 模型和GCDA模型中的主要結(jié)構(gòu)進(jìn)行驗(yàn)證分析。
對(duì)比的模型分別為:
(1)Bi-LSTM[16]:采用雙向的LSTM 網(wǎng)絡(luò)提取前后文之間的信息特征。
(2)單層Fastformer[15]:采用單層加性注意力機(jī)制做分類(lèi),觀察其分類(lèi)效果。
(3)單層Transformer[7]:采用單層注意力機(jī)制做分類(lèi),用來(lái)與加性注意力做對(duì)比效果。
(4)LSTM+Attention[8]:將LSTM網(wǎng)絡(luò)獲取的文本特征輸入到注意力機(jī)制中捕捉關(guān)鍵信息。
(5)TextCNN[6]:采用三個(gè)不同大小的特征提取器,提取文本局部特征并作融合。
(6)DPCNN:采用深層次的,不同的固定位置卷積核提取文本中鄰接詞信息。
(7)CNN+Attention[10]:采用卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制的方法提取網(wǎng)絡(luò)特征。
(8)BCBLA[18]:雙通道的模型,為保證模型效率的一致性,使用原有結(jié)構(gòu),但用Word2vec詞向量代替BERT詞向量做對(duì)比。
(9)GCDA[17]:雙路特征提取模型,該模型主要使用Glove 詞向量和Word2vec 詞向量作為文本雙路輸入的區(qū)別,在對(duì)比實(shí)驗(yàn)中延續(xù)其模型思想。
對(duì)比模型和本文所提出的BLAT 模型的實(shí)驗(yàn)結(jié)果如表5所示。
表5 實(shí)驗(yàn)結(jié)果Table 5 Experimental results單位:%
從表5 的實(shí)驗(yàn)結(jié)果可以看到,BLAT 模型在準(zhǔn)確率和F1 上分別達(dá)到了92.26%和92.37%,相較于單路模型,能夠有較為出色的效果,相較于雙路特征提取模型也有了一些提升。對(duì)比經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)Bi-LSTM,在準(zhǔn)確率上提升了3.66 個(gè)百分點(diǎn),相較于TextCNN 和DPCNN在準(zhǔn)確率上分別提升2.36和3.9個(gè)百分點(diǎn),相較于融入了注意力機(jī)制的CNN 網(wǎng)絡(luò)在準(zhǔn)確率和F1 指標(biāo)上分別提升1.43 和1.61 個(gè)百分點(diǎn)。由于BLAT 模型由三種不同的特征提取方式組成,能夠提取到較為豐富的文本信息,因而導(dǎo)致準(zhǔn)確率的大幅提升。
在雙路網(wǎng)絡(luò)模型的表現(xiàn)方面,由于BCBLA 模型與GCDA模型都是雙路特征提取模型,相較于單路模型也有著較好的效果,同時(shí)從側(cè)面也印證了雙路特征提取模型的有效性。由于兩者對(duì)原始文本主要采用不同的詞嵌入作為文本輸入的區(qū)別,沒(méi)用重視對(duì)于原始文本的凝練,從而忽視了長(zhǎng)文本在輸入時(shí),由于截?cái)嗖僮鞫鴮?dǎo)致潛在的關(guān)鍵語(yǔ)義流失,因而在準(zhǔn)確率上BLAT模型相較于BCBLA 模型在和GCDA 模型在準(zhǔn)確率上分別提升了1.06和0.93個(gè)百分點(diǎn)。其中F1指標(biāo)相較于雙路模型均達(dá)到較為出色的效果,分別提升了0.81和1.01個(gè)百分點(diǎn),能夠說(shuō)明BLAT模型在雙路模型方面具有一定的優(yōu)越性。
3.5.1 雙路并行方式對(duì)模型的影響
由于雙路網(wǎng)絡(luò)模型都是由單路網(wǎng)絡(luò)模型組網(wǎng)形成,故主要選取提取特征效果更好的單路模型進(jìn)行驗(yàn)證對(duì)比,主要是以注意力機(jī)制為核心的模型,一些模型的實(shí)驗(yàn)結(jié)果已在表5中體現(xiàn),故選擇的模型如下:
(1)Bi-GRU+Attention:GCDA 的單路特征提取模型,采用雙向GRU 網(wǎng)絡(luò)提取特征并利用注意力機(jī)制提取上下文關(guān)聯(lián)。
(2)Bi-Attention:使用雙層注意力機(jī)制進(jìn)行特征提取。
(3)TextCNN+Attention:采用卷積核寬度同詞向量維度一致的卷積網(wǎng)絡(luò)和注意力機(jī)制提取特征。
(4)Bi-LSTM+Fastformer:BLAT模型中的單路提取網(wǎng)絡(luò)。
(5)BLAT(無(wú)摘要):使用雙路網(wǎng)絡(luò)并行的方式,不使用摘要提取的方法。
對(duì)比模型的實(shí)驗(yàn)結(jié)果如表6所示。
表6 對(duì)比實(shí)驗(yàn)結(jié)果Table 6 Comparison of experimental results單位:%
從表6 中可以看出,單路模型通過(guò)增加注意力機(jī)制的方式,能夠使得原模型在準(zhǔn)確率上有一些提升,例如:Bi-LSTM+Fastformer相較于表5中的Bi-LSTM和Fastformer在準(zhǔn)確率上分別提升了1.96和1.20個(gè)百分點(diǎn),融合了注意力機(jī)制的TextCNN 相較于單一的TextCNN模型在準(zhǔn)確率和F1指標(biāo)上分別提升0.86和0.51個(gè)百分點(diǎn)。
盡管增加注意力機(jī)制和更換網(wǎng)絡(luò)的方法能夠使得模型識(shí)別能力有所上升,但是依然出現(xiàn)了瓶頸,如Bi-GRU和Bi-LSTM同屬于循環(huán)神經(jīng)網(wǎng)絡(luò),并且Trasnformer和Fastformer 都為注意力機(jī)制,其分別組網(wǎng)的模型Bi-GRU+Attention 和BiLSTM+Fastformer 在表6 中準(zhǔn)確率上的表現(xiàn)相差0.05 個(gè)百分點(diǎn),F(xiàn)1 指標(biāo)相差0.25 個(gè)百分點(diǎn),相對(duì)能夠說(shuō)明其在提升效果上受到一定限制。而B(niǎo)LAT 模型通過(guò)雙路并行的方式,其結(jié)果能夠相較于BiLSTM+Fastformer和表5中的TextCNN在準(zhǔn)確率上分別提升0.77和1.43個(gè)百分點(diǎn),相較于表6中的Bi-GRU+Attention、Bi-Attention 模型能夠在準(zhǔn)確率上分別提升0.82、0.59個(gè)百分點(diǎn)。由于BLAT模型二路特征提取中,使用的是面向文本領(lǐng)域的卷積網(wǎng)絡(luò),提取到的特征能夠有效地區(qū)別于循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制所提取的內(nèi)容,模型融合后的特征也更加得精確和豐富,其結(jié)果也能夠相對(duì)說(shuō)明雙路并行的方法能夠有效提升模型識(shí)別效果。
3.5.2 文本摘要對(duì)模型識(shí)別效果的影響
關(guān)于雙路模型的效果,BCBLA 和GCDA 模型中在其各自的文章中已經(jīng)驗(yàn)證說(shuō)明,故本文著重對(duì)比關(guān)于摘要提取方法的有效性,本實(shí)驗(yàn)采取使用相同的詞向量嵌入方法并選取BCBLA 模型和GCDA 模型進(jìn)行驗(yàn)證,并使用本文提出的摘要提取方法做雙路特征輸入進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表7所示。
表7 摘要提取對(duì)比結(jié)果Table 7 Abstract extract comparison results單位:%
從表7 中可以看出,在雙路模型整體表現(xiàn)方面,BLAT模型達(dá)到了比較好的效果,BCBLA和BLAT模型在準(zhǔn)確率上的表現(xiàn)類(lèi)似,是否使用摘要提取方法在準(zhǔn)確率上分別相差0.06和0.13個(gè)百分點(diǎn),而GCDA模型是否使用摘要提取方法在準(zhǔn)確率上和BCBLA模型相差0.47和0.34個(gè)百分點(diǎn),相較于BLAT模型在準(zhǔn)確率方面分別相差0.53和0.47個(gè)百分點(diǎn),但從總體上來(lái)說(shuō),相較于表5、表6中的單路模型依舊達(dá)到了較好效果。
得益于摘要提取方法的融入,不同的雙路模型在其各項(xiàng)評(píng)判指標(biāo)在中的表現(xiàn)均有所提升,其中:使用了摘要提取的GCDA 模型相較于無(wú)摘要的方法在準(zhǔn)確率和F1指標(biāo)上分別提升了0.87和1.19個(gè)百分點(diǎn),相較于表5中GCDA 模型中所使用Glove 和Word2vec 的詞向量做區(qū)別雙路特征的方法在準(zhǔn)確率上提升了0.4 個(gè)百分點(diǎn)。而有摘要提取的BCBLA模型相較于無(wú)摘要的方法在準(zhǔn)確率和F1指標(biāo)上分別提升了1和0.68個(gè)百分點(diǎn),使用了摘要提取方法的BLAT 在準(zhǔn)確率和F1 指標(biāo)上分別提升0.93 和0.77 個(gè)百分點(diǎn)。三個(gè)模型效果的提升能夠反映出文本摘要方法的融入使得模型在單句情感傾向的判別上更為準(zhǔn)確,同時(shí)也證明了通過(guò)凝練文本原始特征的方式可以有效提升模型分類(lèi)效果。
3.5.3 加性注意力機(jī)制對(duì)模型訓(xùn)練時(shí)間的影響
為了驗(yàn)證Fastformer中的加性注意力機(jī)制對(duì)訓(xùn)練效果的影響,選取當(dāng)下情感分類(lèi)模型中主流的自注意力機(jī)制Transformer與Fastformer進(jìn)行對(duì)比,實(shí)驗(yàn)設(shè)計(jì)采用兩者的注意力機(jī)制對(duì)數(shù)據(jù)集進(jìn)行單獨(dú)做分類(lèi),實(shí)驗(yàn)數(shù)據(jù)共計(jì)30 000 條,在設(shè)定Batch_size為256,注意力頭參數(shù)設(shè)置為8 的情況下,實(shí)驗(yàn)選取Word2vec 中的key_to_index組成一維向量做句子的輸入。觀察每批次下,不同輸入長(zhǎng)度時(shí),Transformer 與Fastformer 對(duì)訓(xùn)練時(shí)間的影響,其實(shí)驗(yàn)記錄如表8所示。
表8 每批次訓(xùn)練時(shí)間Table 8 Training time of each batch
從表8 中可以看出,F(xiàn)astformer 相較于Transformer有一定的優(yōu)越性,兩者雖然都是隨著輸入長(zhǎng)的增長(zhǎng)而變化,在運(yùn)算時(shí)間方面,加性注意力機(jī)制始終比自注意力機(jī)制能夠達(dá)到較好的效果。其中,當(dāng)輸入長(zhǎng)度為512時(shí),F(xiàn)astformer 的計(jì)算速度僅為T(mén)ransformer 的1/3,能夠大幅度減少訓(xùn)練時(shí)間,兩者整體的運(yùn)行時(shí)間實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 總訓(xùn)練時(shí)間Fig.4 Total training time
從圖4 中可以看出,在輸入長(zhǎng)度為64 的情況下,兩者訓(xùn)練時(shí)間不會(huì)有太大差距。然而隨著文本輸入長(zhǎng)度的增長(zhǎng),Transformer 訓(xùn)練時(shí)間的曲線斜率開(kāi)始逐漸增加,并增長(zhǎng)到一個(gè)較大的范圍。相反,F(xiàn)astformer的曲線斜率處于相對(duì)平緩的狀態(tài),緩解了由于文本長(zhǎng)度增長(zhǎng)而出現(xiàn)的訓(xùn)練時(shí)間倍增的問(wèn)題,將此模塊融入到BLAT模型中,對(duì)于訓(xùn)練效果的提升也是有幫助的,由于模型對(duì)于不同的輸入長(zhǎng)度在實(shí)際訓(xùn)練中為提取到更豐富的特征,需要更改網(wǎng)絡(luò)參數(shù),故本實(shí)驗(yàn)將LSTM 網(wǎng)絡(luò)單元數(shù)跟隨文本輸入長(zhǎng)度進(jìn)行同步變換,并設(shè)置為相同個(gè)數(shù)。觀察BLAT模型使用不同的注意力機(jī)制在每Batch下的訓(xùn)練時(shí)間變化,如表9所示。
表9 BLAT模型每批次訓(xùn)練時(shí)間Table 9 Training time of eachbatch of BLAT model
從表9 中可以看出,當(dāng)輸入長(zhǎng)度為64、128 時(shí),由于文本長(zhǎng)度較短的緣故,整體的計(jì)算效率差距不大且較為迅速,但使用加性注意力機(jī)制在運(yùn)算時(shí)間上的運(yùn)算效率相較于Transformer為基礎(chǔ)的自注意力機(jī)制模型能夠分別減少15.1、18.3 個(gè)百分點(diǎn),而當(dāng)文本長(zhǎng)度增長(zhǎng)到256時(shí),使用加性注意力機(jī)制的模型能夠在每一批次計(jì)算上減少632 ms,相較于Transformer為基礎(chǔ)的BLAT模型能夠在運(yùn)算時(shí)間上減少24.2 個(gè)百分點(diǎn)。將此模塊替換到模型之中,結(jié)合本文提出的所提出的摘要提取方法,BLAT 模型能夠在面對(duì)中長(zhǎng)度文本數(shù)據(jù)時(shí),能夠留意到一些關(guān)鍵信息并且提取到較為豐富的文本內(nèi)容,其訓(xùn)練時(shí)間相較于Transformer 為基礎(chǔ)的模型能夠在大epoch上的訓(xùn)練時(shí)間有一定程度上的縮減,因而本文提出的BLAT模型具有較強(qiáng)的泛化能力和一定的優(yōu)越性。
由于模型使用了不同的注意力機(jī)制和方法,除模型參數(shù)設(shè)置和注意力機(jī)制外,模型的訓(xùn)練效果主要受到摘要提取比例、分詞和詞向量維度這三點(diǎn)的影響。三者都對(duì)模型的訓(xùn)練產(chǎn)生了至關(guān)重要的影響,對(duì)于模型的最終準(zhǔn)確率的影響也較大,下文將進(jìn)行詳細(xì)說(shuō)明。
3.6.1 摘要提取比例的影響
摘要提取工作主要分為兩部分,一是選擇摘要提取權(quán)重,二是確定摘要提取比例。由于文本具有順序性的特點(diǎn)并且詞語(yǔ)中生僻詞TF-IDF 值會(huì)比較高,這些因素對(duì)于文本的提取效果都會(huì)產(chǎn)生影響,故本模型給予相同的權(quán)重。摘要提取的比例不宜過(guò)少或過(guò)多,過(guò)少會(huì)只提取到一兩句信息,導(dǎo)致后續(xù)真正主旨句的缺失,過(guò)多則會(huì)引入額外的語(yǔ)義特征,導(dǎo)致歧義,給模型驗(yàn)證增加干擾。故本實(shí)驗(yàn)設(shè)置在相同的摘要提取權(quán)重下,驗(yàn)證不同的摘要提取比例對(duì)于實(shí)驗(yàn)結(jié)果的影響,考慮到文本提取比例不宜過(guò)低,因此選擇的提取比例分別為0.2、0.3、0.4、0.5,這樣可以避免提取到的句子過(guò)于冗長(zhǎng),并為真正主旨句的提取留有空間。其實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 摘要提取比例的影響Fig.5 Effect of abstract extraction ratio
從圖5中可以看出,摘要提取的比例對(duì)模型訓(xùn)練產(chǎn)生了不可忽視的影響,當(dāng)提取比例在0.2時(shí),模型的準(zhǔn)確率相較于無(wú)摘要的方法下降了,這是由于過(guò)少的摘要提取比例會(huì)喪失真正的主旨句,提取到一些無(wú)關(guān)緊要的句子,并給模型增加了干擾特征。而隨著提取比例的增加到0.4,模型的準(zhǔn)確率都是上升的趨勢(shì),并達(dá)到極大值,伴隨著句子提取比例的增加,其提取凝煉出來(lái)的文本也變得全面從而引發(fā)準(zhǔn)確率的上升。而當(dāng)摘要提取比例為0.5 時(shí),模型的準(zhǔn)確率略有下降,過(guò)多地提取會(huì)使得額外語(yǔ)義信息的引入,因此摘要提取的比例設(shè)置0.4 為最佳。
3.6.2 分詞和詞向量維度的影響
文本的處理方式,可以選擇單個(gè)字符成句也可以選擇詞組成句。如果選擇詞組,則需要對(duì)文本進(jìn)行分詞處理,最常用的工具是jieba分詞中的精確模式,將文本切分為由名詞,動(dòng)詞、形容詞等組成的單個(gè)詞語(yǔ)。此方法相較于單個(gè)字符能夠提取更加豐富的語(yǔ)義,缺點(diǎn)是比較依賴給定好的的語(yǔ)義,不能解決一詞多義的問(wèn)題。但由于單個(gè)字符成句過(guò)程中,在實(shí)際理解可以通過(guò)不同方式的斷句,產(chǎn)生不一樣的語(yǔ)義,對(duì)于動(dòng)名詞的判斷常常也難以識(shí)別,因而選擇分詞的方法相較于單個(gè)字符成句能夠在一定程度上緩解語(yǔ)義缺失的問(wèn)題。
對(duì)于分詞完成的句子,則要轉(zhuǎn)化成整體的文本向量,詞向量的維度選擇也會(huì)對(duì)模型訓(xùn)練效果產(chǎn)生至關(guān)重要的影響,維度過(guò)大的詞向量在現(xiàn)實(shí)應(yīng)用中對(duì)于模型的時(shí)間和空間復(fù)雜度影響都過(guò)高。故本實(shí)驗(yàn)選取的維度分別為100、200、300,且為了避免由于自身樣本不夠全面從而訓(xùn)練產(chǎn)生的誤差,選擇騰訊AI Lab 中文詞嵌入語(yǔ)料庫(kù)中所訓(xùn)練完備的詞向量做對(duì)比實(shí)驗(yàn)分析,提供的詞向量維度分別為100和200。通過(guò)驗(yàn)證分詞和不同維度的詞向量對(duì)于模型最終訓(xùn)練效果的影響,實(shí)驗(yàn)的結(jié)果如圖6所示。
圖6 BLAT模型的準(zhǔn)確率變化Fig.6 Accuracy change of BLAT model
從圖6可以看出,預(yù)處理方式和詞向量維度的選擇都會(huì)對(duì)模型效果產(chǎn)生不可忽略的影響。在分詞選擇的角度,選擇分詞的方法在100維、200維、300維的詞向量最終的準(zhǔn)確率上相較于不分詞的方式分別提升了0.86、1.13、1.17 個(gè)百分點(diǎn),通過(guò)此方法,能夠?qū)⒕渲械拇蟛糠謩?dòng)詞、名詞等關(guān)鍵信息截取出來(lái),形成一個(gè)單獨(dú)的詞向量進(jìn)而組成文本矩陣,相較字符成句既能提取到一些語(yǔ)義的關(guān)鍵信息,又可以通過(guò)將字符變?yōu)樵~組的方式縮短整體的輸入的長(zhǎng)度,從而側(cè)面減少由于截?cái)嗖僮鞯膸?lái)的影響。
在詞向量維度方面,模型的訓(xùn)練結(jié)果都是隨著維度的增加而呈現(xiàn)出遞增的趨勢(shì),其中在300 維的時(shí)候,模型的整體效果達(dá)到最好,選擇分詞和不分詞的方法相較于100 維的詞嵌入在準(zhǔn)確率上分別提升了1.20 和0.89個(gè)百分點(diǎn),相較于200 維的詞嵌入分別提升0.7 和0.66個(gè)百分點(diǎn)。由此可以推斷出,更長(zhǎng)的詞向量維度,其訓(xùn)練時(shí)形成的特征也更加精確,能夠幫助提升文本向量在計(jì)算機(jī)中的表達(dá)效果,進(jìn)而改進(jìn)模型最終的訓(xùn)練精度。
3.6.3 不同注意力機(jī)制對(duì)模型訓(xùn)練結(jié)果的影響
Fastformer 和Transformer 對(duì)文本單獨(dú)做分類(lèi)的效果已經(jīng)在表5中有所顯示,加性注意力機(jī)制顯示的效果較好,在準(zhǔn)確率上相較于Transformer 能夠提升0.54 個(gè)百分點(diǎn),為了驗(yàn)證兩者對(duì)BLAT 模型訓(xùn)練效果的影響,實(shí)驗(yàn)設(shè)置BLAT模型使用不同的注意力機(jī)制,其實(shí)驗(yàn)結(jié)果如表10所示。
表10 不同注意力的訓(xùn)練效果Table 10 Training effect of different attention
從表10中可以看出,BLAT模型使用不同注意力的表現(xiàn)相差不大,在準(zhǔn)確率上相差0.13個(gè)百分點(diǎn)。由此可以推斷出,在準(zhǔn)確率的提升方面,F(xiàn)astformer具有一定程度上的優(yōu)勢(shì),但經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)后的特征注入注意力機(jī)制后,對(duì)于訓(xùn)練結(jié)果的影響會(huì)被縮小,在網(wǎng)絡(luò)模型中的作用會(huì)回歸注意力機(jī)制本身,但從整體上來(lái)說(shuō),使用Fastformer的效果更佳。
本文提出了一種基于文本摘要提取的雙路情感分析模型,通過(guò)對(duì)文本信息進(jìn)行抽取,與原始的文本形成兩路特征作為輸入,同時(shí)融合了卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)與Fastformer三種不同的特征提取方法對(duì)情感傾向進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,BLAT 模型具有一定的優(yōu)越性。
文本的摘要提取有助于提高文本分類(lèi)的準(zhǔn)確率,接下來(lái)的主要工作思路是加強(qiáng)對(duì)于方面級(jí)情感分析領(lǐng)域的研究,通過(guò)對(duì)文本信息的進(jìn)一步凝練,總結(jié)出更加切合方面級(jí)領(lǐng)域的特征摘要,并更換較為前沿的網(wǎng)絡(luò)模型和詞向量模型,驗(yàn)證本文提出思路的有效性。