韓建勝 陳 杰 陳 鵬 劉 杰 彭德中
(四川大學(xué)計(jì)算機(jī)學(xué)院(軟件學(xué)院) 四川 成都 610065)
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)民可以更加便捷地發(fā)表自己對某一事件的看法和評論所接受到的服務(wù)。這些帶有情感色彩的評論信息表達(dá)了人們不同類型的情感傾向。然而由于網(wǎng)絡(luò)中評論數(shù)據(jù)規(guī)模龐大,單純依靠人力難以從大量文本中分析出用戶的情感傾向,所以需要通過自動化的方式來進(jìn)行文本分析。文本情感分析就是這樣一種能幫助我們從文本中挖掘用戶情感信息,識別文本的情感極性或強(qiáng)度的自動化方法。近年來,深度學(xué)習(xí)在文本情感分析任務(wù)中展現(xiàn)出了巨大的潛力。文獻(xiàn)[1]利用長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)在多種不同任務(wù)上進(jìn)行模型訓(xùn)練,以此提高模型編碼層的特征提取能力,然后具體分析情感數(shù)據(jù)進(jìn)行模型參數(shù)調(diào)整,得到相應(yīng)的情感分類輸出。文獻(xiàn)[2]在LSTM的基礎(chǔ)上引入了注意力機(jī)制,通過關(guān)注文本中被評論的對象、評論詞等能夠體現(xiàn)情感色彩和傾向的詞來實(shí)現(xiàn)針對具體對象的細(xì)粒度情感分析。因?yàn)檠h(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)計(jì)算上的串行性使得模型計(jì)算速度較慢,而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)不僅有較好的并行性,計(jì)算速度快,而且具有提取文本n-gram特征的能力,所以有不少研究者將CNN引入到情感分析任務(wù)中。文獻(xiàn)[3]利用卷積神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行特征提取,通過不同大小的卷積核提取不同類型的n-gram特征,然后將所有提取到的特征信息融合到一起進(jìn)行情感分類。文獻(xiàn)[4]通過卷積和動態(tài)最大值池化提取文本序列中相隔較遠(yuǎn)的詞之間的語義關(guān)系,以獲得文本中的長期依賴,達(dá)到更加全面的提取文本中的特征信息來對文本進(jìn)行情感分析的目的。文獻(xiàn)[5]在使用卷積神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行建模的過程中,考慮了文本序列中詞的順序關(guān)系,對時(shí)間卷積網(wǎng)絡(luò)進(jìn)行了適當(dāng)改進(jìn),使用了非線性、非連續(xù)卷積對文本進(jìn)行特征提取,然后使用提取到的特征信息對文本進(jìn)行情感計(jì)算。
卷積神經(jīng)網(wǎng)絡(luò)因計(jì)算速度快而被大家推崇,但是基于卷積神經(jīng)網(wǎng)絡(luò)的情感分析模型中,多數(shù)模型沒有考慮到文本序列中詞出現(xiàn)順序的影響。少數(shù)模型考慮了詞的前向順序,即文本中先出現(xiàn)的詞對后面出現(xiàn)的詞的影響,用單向時(shí)間卷積(Temporal Convolutional Networks,TCN,Uni-TCN)[6]提取文本特征信息,忽略了后面的詞對前面的詞的影響。因?yàn)槲谋拘蛄泻蟪霈F(xiàn)的詞會對之前出現(xiàn)的詞在詞共現(xiàn)的角度存在統(tǒng)計(jì)學(xué)意義,所以單向時(shí)間卷積網(wǎng)絡(luò)不足以捕捉文本序列中全部的特征信息。針對這一問題,本文提出使用雙向時(shí)間卷積網(wǎng)絡(luò)(Bidirectional Temporal Convolutional Networks,Bi-TCN)提取文本特征,并通過將兩個方向上的語義特征融合,得到綜合信息之后再對文本進(jìn)行情感分析,并在4個中文數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)證明,雙向時(shí)間卷積網(wǎng)絡(luò)比單向時(shí)間卷積網(wǎng)絡(luò)具有更強(qiáng)的情感分析能力。
傳統(tǒng)提取文本信息分析情感傾向的方法主要利用先驗(yàn)知識,人工設(shè)計(jì)出能夠識別情感傾向的詞典,然后根據(jù)情感詞對文本進(jìn)行定量的分析。這種方法主要包括兩類:基于規(guī)則、詞典和基于傳統(tǒng)機(jī)器學(xué)習(xí)。
基于規(guī)則、詞典的情感分析方法,利用統(tǒng)計(jì)信息和點(diǎn)互信息對文本進(jìn)行規(guī)則定義,或者通過給文檔中的情感詞、否定詞以及程度副詞的不同組合打分,按照分?jǐn)?shù)大小判別文本的情感傾向。
基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,如支持向量機(jī)(Support Vector Machine,SVM)[7]、樸素貝葉斯模型(Na?ve Bayesian Model,NBM)[7]等,利用文本的詞頻逆文本率(Term Frequency-Inverse Document,TF-IDF)作為特征進(jìn)行情感分析模型訓(xùn)練,再利用訓(xùn)練好的模型識別文本的情感類別。
深度學(xué)習(xí)在情感分析任務(wù)上的表現(xiàn),大多數(shù)網(wǎng)絡(luò)模型都以循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)為基本結(jié)構(gòu)對文本進(jìn)行特征提取,然后依據(jù)提取到的特征向量對文本進(jìn)行情感分類。文獻(xiàn)[8]在基本的網(wǎng)絡(luò)模型中加入了層級注意力機(jī)制,分別實(shí)現(xiàn)了詞的注意力和句子的注意力,使文本中對情感體現(xiàn)具有重要作用的關(guān)鍵詞和關(guān)鍵句子得到關(guān)注?,F(xiàn)有的模型除了結(jié)構(gòu)的不同之外,使用的文本特征粒度也有所不同。文獻(xiàn)[3,9]使用詞特征對文本進(jìn)行序列建模,文獻(xiàn)[10-11]利用字特征對文本進(jìn)行分析,文獻(xiàn)[12-14]則將字和詞特征結(jié)合起來,使文本特征提取更加全面,更有利于文本情感傾向的分析和判斷。此外,文獻(xiàn)[8]利用句子粒度特征對文本進(jìn)行情感分析,也取得了較好的效果。
時(shí)間卷積網(wǎng)絡(luò)利用卷積計(jì)算來對有時(shí)間依賴的任務(wù)進(jìn)行序列建模。如給定輸入序列x0,x1,…,xn,共n+1個詞,需要預(yù)測輸出序列y0,y1,…,yn,每一時(shí)刻的輸出yt都僅取決于該時(shí)刻之前的一些xt,即:
yt=f(xt-k+1,xt-k+2,…,xt)
(1)
式中:f為變換函數(shù);k為卷積核的大小,當(dāng)t-k+1小于0時(shí),xt-k+1即為序列的填充值。時(shí)間卷積網(wǎng)絡(luò)有不同的實(shí)現(xiàn)方式和不同的應(yīng)用場景。為了能更好地表達(dá)文本序列,文獻(xiàn)[5]通過非線性不連續(xù)卷積對文本進(jìn)行特征提取,在文本情感分析任務(wù)中達(dá)到了較好的效果。文獻(xiàn)[15]利用層級時(shí)間卷積對視頻序列進(jìn)行動作分割和識別。文獻(xiàn)[6]結(jié)合序列數(shù)據(jù)本身的特點(diǎn)以及深層網(wǎng)絡(luò)模型容易發(fā)生退化的因素,將空洞因果卷積[16]和殘差結(jié)構(gòu)[17]融合,構(gòu)建了一個由空洞因果卷積和殘差連接組成的新的時(shí)間卷積網(wǎng)絡(luò),并在文本分類、文本語義推理等多種序列建模任務(wù)中取得較好的成績。
時(shí)間卷積網(wǎng)絡(luò)中,卷積的因果性質(zhì)主要通過因果卷積實(shí)現(xiàn)。當(dāng)卷積核大小為k時(shí),卷積計(jì)算每一時(shí)刻的輸出僅依賴當(dāng)前的輸入和之前k-1個輸入,而不涉及之后的信息。在具體網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)上,為了能夠使輸入與卷積計(jì)算輸出在維度上保持一致,需要在輸入序列的左邊進(jìn)行k-1個零值向量填充。
因果卷積僅能在卷積核大小的范圍內(nèi)提取文本序列中的連續(xù)的n-gram特征,無法獲得距離較遠(yuǎn)的內(nèi)容。為使卷積的感受野變大獲得長期依賴,文獻(xiàn)[6,16]使用空洞卷積作為因果卷積的基本結(jié)構(gòu)??斩淳矸e隔一定的空洞數(shù)對序列進(jìn)行采樣計(jì)算,在功能上與將部分卷積值進(jìn)行歸零相似?;蛘咄ㄟ^擴(kuò)大卷積核后將部分卷積核的權(quán)值置零也能得到相同的結(jié)果,但是在效率上空洞卷積執(zhí)行的速度更快,效率更高。
殘差結(jié)構(gòu)[17]將輸入x與經(jīng)過非線性變換后的F(x)進(jìn)行求和,形成短路連接:
H=x+F(x)
(2)
這種結(jié)構(gòu)能在深層網(wǎng)絡(luò)中較好地?cái)M合輸入發(fā)生的變化,使網(wǎng)絡(luò)中的參數(shù)不隨網(wǎng)絡(luò)的深度增加而難以優(yōu)化。因?yàn)門CN感受野的擴(kuò)大部分依賴于卷積網(wǎng)絡(luò)層的疊加,而殘差連接可以在網(wǎng)絡(luò)層數(shù)不斷增加的情況下抑制網(wǎng)絡(luò)模型訓(xùn)練可能出現(xiàn)的梯度消失現(xiàn)象。
在深度學(xué)習(xí)的研究中,對序列進(jìn)行單向建模在大多數(shù)情況下往往不如雙向建模對序列的特征捕獲更加充分、語義信息表達(dá)更完整?;谶@個理念,有很多的基礎(chǔ)模型都使用雙向計(jì)算機(jī)制對文本序列進(jìn)行計(jì)算。文獻(xiàn)[18]在LSTM基礎(chǔ)上提出了Bi-LSTM對文本進(jìn)行特征提取,以彌補(bǔ)單向LSTM隨著序列長度的增加記憶能力減弱造成的影響。通過實(shí)驗(yàn)驗(yàn)證,在現(xiàn)有的很多任務(wù)上Bi-LSTM的效果要優(yōu)于LSTM。此外,文獻(xiàn)[19]以多頭注意力[20]作為基本結(jié)構(gòu)提出了對文本進(jìn)行雙向建模的BERT(Bidirectional Encoder Representations from Transformers)預(yù)訓(xùn)練模型,并在多項(xiàng)自然語言處理任務(wù)中超躍基于單向多頭注意力的GPT(Generative Pre-Training)[21]。由此可見,對文本序列進(jìn)行雙向建模能夠綜合地提取文本的特征信息,更有利于文本的推理和分析。普通時(shí)間卷積網(wǎng)絡(luò)對文本按照時(shí)間順序進(jìn)行單向卷積計(jì)算,每一個時(shí)間步上的語義計(jì)算僅利用了當(dāng)前時(shí)刻和之前時(shí)刻的信息,即每一個詞的編碼信息僅包含之前的語義信息。而在文本中,詞的語義很可能與這個詞之后的信息有很大的關(guān)聯(lián),后面的文本信息可能使文本整體語義發(fā)生變化。在這種情況下,單向時(shí)間卷積網(wǎng)絡(luò)忽略了后文的信息,不能夠很好地使每一個詞的語義信息足夠全面得表達(dá),限制了文本整體語義特征的獲取。本文針對這一情況,提出了雙向時(shí)間卷積網(wǎng)絡(luò)(Bidirectional Temporal Convolutional Network,Bi-TCN),對文本進(jìn)行前向和后向特征提取,再將兩個方向上的最后一個時(shí)刻的特征信息線性變換后進(jìn)行融合,得到文本整體語義信息的綜合表達(dá),并在此基礎(chǔ)上對文本進(jìn)行情感分析。Bi-TCN模型整體架構(gòu)如圖1所示。
圖1 Bi-TCN模型結(jié)構(gòu)圖
本文使用fastText[22]對文本進(jìn)行詞向量預(yù)訓(xùn)練,得到所有詞匯的稠密詞向量表達(dá)。該方式訓(xùn)練的詞向量不僅能夠較好地表達(dá)一個詞的多種詳細(xì)特征,體現(xiàn)出詞與詞之間的相似度和關(guān)聯(lián)性,還能在情感分類中,對于每一個詞屬于的情感類別進(jìn)行預(yù)判,幫助模型對文本進(jìn)行情感分析。
對給定一個句子分詞之后的序列S={x0,x1,…,xn}進(jìn)行詞嵌入的時(shí)候,本文將每一個詞xn通過嵌入矩陣Ww轉(zhuǎn)化成固定的詞向量ew。
ew=(Ww)Tnword
(3)
式中:Ww∈RNword×Dd;nword表示詞在詞匯表中的one-hot編碼;Nword表示詞匯表中詞的數(shù)量;Dd表示每一個詞向量的維度。通過詞嵌入,文本序列就被映射成為向量序列。
空洞因果卷積層通過一維空洞卷積在序列的左側(cè)進(jìn)行填充,對序列從左向右進(jìn)行卷積計(jì)算,實(shí)現(xiàn)前向特征提取。然后將原序列翻轉(zhuǎn),按照前向的計(jì)算方式對翻轉(zhuǎn)后的序列進(jìn)行后向卷積計(jì)算。每一次空洞因果卷積計(jì)算后,都將參數(shù)進(jìn)行層級歸一化[23],然后通過激活函數(shù)ReLU進(jìn)行非線性計(jì)算。將原始輸入與非線性計(jì)算之后的結(jié)果進(jìn)行殘差連接。這一個整體就構(gòu)成了一個空洞因果卷積模塊。
si=Conv(Mi×Kj+bi)
(4)
{s0,s1,…,sn}=LayerNorm({s0,s1,…,sn})
(5)
{s0,s1,…,sn}=ReLU({s0,s1,…,sn})
(6)
式中:si是i時(shí)刻卷積計(jì)算得到的狀態(tài)值;Mi為該時(shí)刻卷積計(jì)算的詞的矩陣;Kj為第j層的卷積核;bi為偏置;{s0,s1,…,sn}是序列經(jīng)過一次完整的卷積計(jì)算后的編碼。經(jīng)過多個因果卷積層的堆疊,擴(kuò)大卷積的感受野,使文本的特征提取更加完整,獲得文本序列的高層語義信息。
(7)
(8)
式中:Wn×m是線性變換參數(shù)矩陣,前向計(jì)算和后向計(jì)算的參數(shù)不同,維度一致;n為變換前語義向量的維度;m為變換后的維度。
(9)
利用融合后的特征信息h來進(jìn)行情感分類,通過Softmax分類器輸出文本所屬情感類別的概率分布。
prob=softmax(hW2m×c+b)
(10)
式中:W2m×c為參數(shù)矩陣;c是情感分類的類別;b為偏差,其維度也是c。
本文在文獻(xiàn)[7]整理的酒店評論數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集包含10 000篇文檔,共有積極(正)和消極(負(fù))兩種極性的情感類別。所有的文檔構(gòu)成了4個不同的子集:ChnSentiCorp-Htl-ba-2000,ChnSentiCorp-Htl-ba-4000,ChnSentiCorp-Htl-ba-6000,ChnSentiCorp-Htl-ba-10000。每一個子集的情感類別數(shù)具體分布如表1所示。為了簡化表示,本文將以上4個數(shù)據(jù)集依次表示為corp-1,corp-2,corp-3,corp-4。
表1 酒店評論數(shù)據(jù)集
本文對文本數(shù)據(jù)主要做了兩個方面的預(yù)處理工作,如表2所示。
表2 數(shù)據(jù)預(yù)處理
(1) 將文本中的繁體中文轉(zhuǎn)化為簡體中文。
(2) 利用結(jié)巴分詞(https://pypi.org/project/jieba/)工具對文本進(jìn)行分詞。
在實(shí)驗(yàn)過程中,我們發(fā)現(xiàn)Bi-TCN模型存在易受卷積層數(shù)、卷積核大小和空洞因子這三個參數(shù)的影響而發(fā)生不收斂的現(xiàn)象。當(dāng)卷積層數(shù)少,并且卷積核較小時(shí),利用卷積計(jì)算進(jìn)行特征提取的感受野不夠?qū)?,不能捕捉文本的長期依賴,不足以提取足夠的特征進(jìn)行情感分析而使得模型不收斂。而層數(shù)過多,卷積核過大,受空洞因子的影響會使卷積的感受野超過文本本身長度,這既增加了不必要的計(jì)算,也會使模型出現(xiàn)過擬合。故本文就這三個參數(shù)對Bi-TCN在中文情感分析任務(wù)上的影響進(jìn)行了對比實(shí)驗(yàn)。
4.3.1卷積層數(shù)
實(shí)驗(yàn)固定卷積核大小為7,空洞因子為層數(shù)的兩倍,保持其他參數(shù)不變的情況下,改變卷積層數(shù)對模型進(jìn)行訓(xùn)練,得到的實(shí)驗(yàn)結(jié)果如圖2所示。實(shí)驗(yàn)表明,隨著卷積層數(shù)的增加,模型的泛化能力逐漸提高,而層數(shù)過多則會導(dǎo)致性能有所降低??梢钥闯?,當(dāng)卷積層數(shù)為4時(shí),實(shí)驗(yàn)效果最好,此時(shí)可以計(jì)算得到模型的長期依賴最長距離為79。當(dāng)卷積層數(shù)為5時(shí),最長依賴為127,此時(shí)需要進(jìn)行126個值填充,由底層向上層傳播時(shí)就會引入很多的噪聲,使模型的擬合能力和泛化能力都下降。而本實(shí)驗(yàn)中的文本長度最長為140個詞,模型層數(shù)越多,最高層感受野就會超過這個長度,模型學(xué)習(xí)的對象就偏離了數(shù)據(jù)本身,故在測試集上的表現(xiàn)就會變差。
圖2 卷積層數(shù)對Bi-TCN分析結(jié)果影響
4.3.2卷積核大小
固定卷積層數(shù)為4,空洞因子為2n,通過改變卷積核的大小來研究卷積核的變化對模型性能的影響,實(shí)驗(yàn)結(jié)果如圖3所示??梢钥闯觯矸e核大小為7時(shí)模型表現(xiàn)較好。卷積核的取值決定了模型n-gram特征包含的詞的數(shù)量。當(dāng)卷積核較小時(shí),一次卷積計(jì)算所能囊括的關(guān)聯(lián)性較少,不足以提取詞與詞之間的關(guān)系,故隨著卷積核的增大,模型的準(zhǔn)確率會上升。當(dāng)卷積核過大時(shí),可能會將無關(guān)信息納入卷積計(jì)算,增加噪聲,破壞模型對文本規(guī)律的學(xué)習(xí),所以卷積核越大,模型的性能反而會降低。
圖3 卷積核大小對Bi-TCN分析結(jié)果影響
4.3.3空洞因子
本輪實(shí)驗(yàn)保持卷積層數(shù)為4、卷積核為7不變,探究空洞因子對模型的影響??斩匆蜃又衝∈{0,1,2,3},當(dāng)n=0時(shí),默認(rèn)空洞因子為1。通過實(shí)驗(yàn),得到不同的空洞因子的實(shí)驗(yàn)結(jié)果如表3所示。根據(jù)空洞因子,結(jié)合卷積層數(shù)和卷積核大小,計(jì)算每一個模型中卷積計(jì)算的最長依賴,發(fā)現(xiàn)最長依賴距離超過并接近整個序列長度的一半時(shí)表現(xiàn)較好(所有實(shí)驗(yàn)中,固定序列最長值為140)。而長期依賴距離越大,會使模型性能下降。實(shí)驗(yàn)數(shù)據(jù)中,大多數(shù)句子長度都集中在90詞以下,并不需要過長的長度依賴,否則會使模型擬合一些噪聲,出現(xiàn)過擬合問題。
實(shí)驗(yàn)中,利用fastText方法預(yù)訓(xùn)練詞向量和字向量,維度為300,每一個批次大小為64,空洞因果卷積層數(shù)為4,卷積核大小為7,空洞因子為2n,Adam優(yōu)化器學(xué)習(xí)率為0.002,dropout為0.25,句子長度統(tǒng)一為140個詞。
本文用8種方法在酒店評論數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)對比:
(1) SVM(支持向量機(jī))。利用文本的TF-IDF特征構(gòu)建SVM模型進(jìn)行實(shí)驗(yàn)。
(2) NBM(樸素貝葉斯模型)。利用文本的TF-IDF特征構(gòu)建NBM模型進(jìn)行實(shí)驗(yàn)。
(3) Bi-LSTM。通過LSTM神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行前向和后向語義特征提取,并將兩個方向的最終狀態(tài)融合,再根據(jù)融合后的綜合信息進(jìn)行情感計(jì)算。
(4) COCNN。文獻(xiàn)[26]提出了一種改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型,利用雙通道的字和詞特征進(jìn)行情感分析。
(5) CNN。利用多核卷積對文本進(jìn)行多種類型的特征提取,然后將多個特征進(jìn)行融合,以此進(jìn)行情感分析。
(6) Uni-TCN。單向時(shí)間卷積網(wǎng)絡(luò),僅對文本進(jìn)行單向多層因果卷積計(jì)算,使用序列中最后一個時(shí)刻的狀態(tài)作為最終語義進(jìn)行情感分析。
(7) Bi-TCN(雙向時(shí)間卷積網(wǎng)絡(luò))。即本文模型。
本文對比多種模型進(jìn)行實(shí)驗(yàn),以模型在數(shù)據(jù)集上進(jìn)行10折交叉驗(yàn)證的準(zhǔn)確率為模型評價(jià)結(jié)果,具體實(shí)驗(yàn)結(jié)果如表4所示。其中(c)表示以字為特征的模型的實(shí)驗(yàn)結(jié)果。
表4 對比實(shí)驗(yàn)結(jié)果
由表4的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),傳統(tǒng)機(jī)器學(xué)習(xí)算法中,樸素貝葉斯模型(NBM)的分類效果不如支持向量機(jī)(SVM)好。因?yàn)樵诖罅繑?shù)據(jù)分類情境下,文本中的詞并不是獨(dú)立存在的,詞和詞之間具有一定的相關(guān)性,而NBM將文本中的每一個詞看作條件獨(dú)立,這就忽略了詞之間的互相影響,而SVM則會將文本特征進(jìn)行全面的衡量和計(jì)算。
對比傳統(tǒng)方法和神經(jīng)網(wǎng)絡(luò)方法,總體上神經(jīng)網(wǎng)絡(luò)方法要優(yōu)于傳統(tǒng)方法。傳統(tǒng)方法SVM和NBM利用文本的TF-IDF特征來進(jìn)行情感分類,其特征具有較大的稀疏性。而神經(jīng)網(wǎng)絡(luò)使用稠密的詞向量來對每一個詞進(jìn)行特征表達(dá),特征更加豐富。
將Bi-TCN和其他模型相比,在4個數(shù)據(jù)集上的實(shí)驗(yàn)效果而言,Bi-TCN的準(zhǔn)確率要優(yōu)于Bi-LSTM。從訓(xùn)練速度上來說,基于卷積計(jì)算的Bi-TCN要比Bi-LSTM模型具有更高的并行能力,模型的訓(xùn)練和測試都要快很多。相比COCNN和CNN,這兩個模型都使用了字和詞的特征對文本進(jìn)行建模,而Bi-TCN僅僅使用了詞特征,就達(dá)到了領(lǐng)先的效果,說明了Bi-TCN具有較強(qiáng)的序列建模能力。對比Bi-TCN和Uni-TCN,分別用字向量和詞向量訓(xùn)練了Uni-TCN和Bi-TCN,結(jié)果表明,用字特征訓(xùn)練的效果不如詞特征好,因?yàn)閺脑~匯表而言,字特征數(shù)量較少,而詞特征的數(shù)量相對較多,特征更為豐富。此外,就單獨(dú)使用字特征、詞特征,Bi-TCN在數(shù)據(jù)集上的實(shí)驗(yàn)效果也要比Uni-TCN好??傮w上,Bi-TCN在4個數(shù)據(jù)集上的準(zhǔn)確率相比Uni-TCN分別提高了 2.5%、0.25%、2.33%和2.5%,從而證實(shí)了Bi-TCN對文本序列的建模能力更強(qiáng),提高了情感分類效果。
除了通過情感分析任務(wù)中的實(shí)驗(yàn)結(jié)果將Bi-TCN與Uni-TCN進(jìn)行對比,本文還根據(jù)兩個模型在訓(xùn)練過程中的表現(xiàn)進(jìn)行了性能比較。在實(shí)驗(yàn)過程中,發(fā)現(xiàn)Bi-TCN對文本進(jìn)行情感分析時(shí),第一個輪次訓(xùn)練得到的準(zhǔn)確率總是比Uni-TCN更高。而且在之后的訓(xùn)練過程中,Bi-TCN對過擬合的抵抗性更強(qiáng),總體能達(dá)到的效果更優(yōu)越(如圖4所示)。這就說明了雙向時(shí)間卷積網(wǎng)絡(luò)在對文本建模的過程中,對文本中關(guān)鍵特征的提取更加全面,模型的收斂速度更快。
圖4 Bi-TCN和Uni-TCN實(shí)驗(yàn)結(jié)果
針對現(xiàn)有的時(shí)間卷積網(wǎng)絡(luò)模型對文本序列的單向性計(jì)算不能完全捕獲文本的語義表達(dá)的問題,本文提出了雙向時(shí)間卷積網(wǎng)絡(luò)的中文情感分析方法。通過對文本序列進(jìn)行前向和后向的多層空洞因果卷積計(jì)算,將兩個方向上最后一個時(shí)間步的語義向量分別通過線性變化后進(jìn)行融合,使用兩個方向上的綜合信息對文本進(jìn)行情感分類。通過對影響雙向時(shí)間卷積網(wǎng)絡(luò)性能的參數(shù)進(jìn)行實(shí)驗(yàn)對比,確定了卷積層數(shù)、卷積核大小和空洞因子的參數(shù)值。在中文情感分析數(shù)據(jù)上的對比實(shí)驗(yàn)表明,本文方法能夠提取更為豐富的文本特征,有效提高情感分析的效果。