李重霖,李明軒,謝卓亨,張楚其,陳珂
(1.廣東石油化工學(xué)院 自動(dòng)化學(xué)院,廣東 茂名 525000;2.廣東石油化工學(xué)院 計(jì)算機(jī)學(xué)院,廣東 茂名 525000)
基于方面的情感分類是情感分析領(lǐng)域的細(xì)粒度子任務(wù),也是一個(gè)深層次的情感分析任務(wù)[1-3]。與一般情感分析不同,基于方面的情感分類旨在推測特定目標(biāo)詞在不同語境下的情感極性。同一個(gè)句子,針對不同的目標(biāo)可能會出現(xiàn)完全相反的情感極性?;谏窠?jīng)網(wǎng)絡(luò)的方法在情感分析中已經(jīng)得到廣泛應(yīng)用,取得了較好的性能。注意力機(jī)制在關(guān)系分類、機(jī)器翻譯等相關(guān)領(lǐng)域中具有優(yōu)異的表現(xiàn)性能[4,5]。同時(shí),注意力機(jī)制能很好地與神經(jīng)網(wǎng)絡(luò)相結(jié)合,在基于方面的情感分類中獲得更好的結(jié)果。然而,這些方法只能在訓(xùn)練模型時(shí)專注于方面本身,忽略了目標(biāo)詞語對句子的影響,且無法在整個(gè)語料中提取該方面的重要信息。
一般來說,同一個(gè)語料中表達(dá)相似觀點(diǎn)的句子具有相同的情感極性,因此同一語料中不同句子之間的關(guān)系,對于基于方面的情感分類很重要。例如,一些短句沒有任何明顯的情感詞來預(yù)測極性,僅僅考慮獨(dú)立句子就很難預(yù)測這些句子的情感極性,而語境關(guān)系可以用來處理這些情況。
基于此,本文提出了一種層次化的區(qū)域性CNN-LSTM模型,在訓(xùn)練過程中考慮分區(qū)域和句子層面的注意力,同時(shí)利用句子內(nèi)部和句子間的關(guān)系。分層區(qū)域CNN旨在通過獲取接收的多個(gè)區(qū)域來搜索句子之間的關(guān)系,并且新的分層輸入能夠在整個(gè)搜索中提取方面的長距離依賴性。分層LSTM體系結(jié)構(gòu)由單詞級別和句子級別LSTM組成。單詞級別的LSTM可以接收單詞級別的順序輸入和注意力,集中考查句子的不同方面即不同的目標(biāo)。句子級別LSTMs能夠通過從分層區(qū)域CNN接收的連續(xù)輸入來獲取句子級別的注意力,用以表達(dá)句子在整個(gè)評論中的重要關(guān)系信息。
本文提出的CNN-LSTM模型,主要考慮關(guān)注單詞級和句子級的情感信息,充分利用更多豐富的句子和整個(gè)語料的特征信息。模型分4部分:(1)區(qū)域CNN:接收幾個(gè)不同區(qū)域的上下文輸入。(2)分層輸入層:向分層CNN輸入與語料嵌入矩陣。(3)合并層:將語料信息與區(qū)域CNN輸出的功能相結(jié)合。(4)分層LSTM:利用單詞級和句子級的注意力來獲得更深入的信息,來自句子內(nèi)部和句子間的關(guān)系。
給定一個(gè)句子s= {w1,w2,...,t,...,wn},其中t是句子中的一個(gè)目標(biāo),句子中有0個(gè)或多個(gè)目標(biāo)對應(yīng)不同的方面。每個(gè)方面由一個(gè)實(shí)體和一個(gè)屬性組成,例如FOOD#QUALITY,基于方面的情感分類旨在預(yù)測句子中不同方面的情感極性。對于每個(gè)方面,生成一個(gè)嵌入a∈Rm的m維表示方面,其中a是實(shí)體和屬性嵌入的平均值。
區(qū)域CNN是針對輸入長文本任務(wù)的CNN的改進(jìn),根據(jù)目標(biāo)將語料的每個(gè)句子劃分為一個(gè)或多個(gè)區(qū)域。本文的區(qū)域CNN主要受區(qū)域CNN-LSTM長文本情感分析模型的啟發(fā)。對于評論中的每個(gè)句子,都非常注意目標(biāo)和目標(biāo)周圍的單詞,例如s={w1,w2,...,t1,...,t2,...,wn},句子中有兩個(gè)目標(biāo),根據(jù)目標(biāo)將這個(gè)句子分成兩個(gè)區(qū)域。對于每個(gè)區(qū)域,都會將該區(qū)域的長度切斷或填充到目標(biāo)上,并將其作為輸入提供給區(qū)域CNN。由于s={w1,w2,...,wn}是一個(gè)沒有任何目標(biāo)詞的句子,可以直接將它切割或填充到長度為h的區(qū)域。
在Semeval2016任務(wù)5的兩種語言的4個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。每個(gè)數(shù)據(jù)集包含一系列客戶評論語料,每個(gè)評論包含幾個(gè)句子和方面,其統(tǒng)計(jì)信息見表1。本文刪除了沒有超出任務(wù)范圍的方面的句子。
表1 數(shù)據(jù)集統(tǒng)計(jì)信息
在實(shí)驗(yàn)中,使用Glove初始化英文的詞向量和中文的Leipzig Corpora Collection。并使用了300維的單詞向量,在CNN中分別設(shè)置了3,4,5個(gè)具有100個(gè)特征映射的窗口。訓(xùn)練所有模型的最小批量為32,退出率為0.5,L2正則化權(quán)重為0.001,以及采用Ada Grad的更新規(guī)則。區(qū)域長度設(shè)為50,并且對中文數(shù)據(jù)進(jìn)行細(xì)分。
將本文模型與幾種典型模型進(jìn)行比較,其中包括ATT-CNN,LSTM,ATT-LSTM,HP-LSTM。
(1)RCNN-LSTM模型。該模型為本文構(gòu)建的模型,沒有在CNN架構(gòu)中使用分層輸入層,不能考慮整個(gè)評論中方面的長距離依賴性。(2)HRCNN-LSTM模型。該模型為本文的完整模型,它能夠在整個(gè)預(yù)測過程中捕捉深度依賴的方面。(3)ATT-CNN模型?;谧⒁饬Φ腃NN模型,主要在語句對建模方面有較好的性能,本文使用類似的模型來接收單詞嵌入和方面嵌入,以便能夠關(guān)注預(yù)測中的方面。(4)LSTM模型。標(biāo)準(zhǔn)的LSTM,沒有加入針對方面的注意力,無法準(zhǔn)確推斷同一句中不同方面的情感極性。(5)ATT-LSTM模型?;谧⒁饬Φ腖STM模型,可以集中關(guān)注句子的不同方面。該模型實(shí)現(xiàn)了方面級別情感分類,但使用獨(dú)立句子作為輸入并嵌入額外的方面向量。(6)HP-LSTM模型。一個(gè)能夠利用句子內(nèi)部和句子間關(guān)系的層次LSTM模型,這個(gè)模型考慮了方面和整個(gè)評論之間的關(guān)系。
在不同領(lǐng)域數(shù)據(jù)集上,采用本文的RCNN-LSTM和HRCNN-LSTM模型及幾種基于神經(jīng)網(wǎng)絡(luò)的模型進(jìn)行基于方面的情感分類的二元預(yù)測(正面和負(fù)面),其準(zhǔn)確性見表2。
表2 二元預(yù)測準(zhǔn)確率 %
由表2可知,本文模型在所有領(lǐng)域數(shù)據(jù)集上的二元預(yù)測準(zhǔn)確率超過其他模型。相對于二元預(yù)測的結(jié)果,本文模型比其他基于神經(jīng)網(wǎng)絡(luò)的模型具有更好的性能,表明本文方法的有效性。此外,與RCNN-LSTM相比,使用分層輸入層的HRCNN-LSTM在所有數(shù)據(jù)集上的準(zhǔn)確性有所提高,揭示了CNN分層輸入在本文方法中是有效的。
本文采用了基于目標(biāo)劃分的兩種策略:一是根據(jù)目標(biāo)將評論的每個(gè)句子分成幾個(gè)區(qū)域;二是將一個(gè)單獨(dú)的句子作為數(shù)據(jù)集的一個(gè)區(qū)域,通過兩種策略驗(yàn)證本文基于目標(biāo)劃分區(qū)域方法的有效性?;谀繕?biāo)劃分區(qū)域,采用本文的兩種模型在不同長度區(qū)域內(nèi)測試其準(zhǔn)確率,其結(jié)果如圖1所示。圖1中,TAR為根據(jù)目標(biāo)劃分評論區(qū)域,DIR為使用單個(gè)句子作為區(qū)域。
圖1 本文模型具有不同長度區(qū)域的分類準(zhǔn)確率
由圖1可知,HRCNN-LSTM和RCNN-LSTM在基于目標(biāo)劃分區(qū)域方面比直接使用單個(gè)句子作為區(qū)域的效果更好。這表明了根據(jù)目標(biāo)劃分區(qū)域是必要的。
采用HRCNN-LSTM(本文模型)、ATT-LSTM和HP-LSTM在餐館數(shù)據(jù)集上進(jìn)行預(yù)測,其結(jié)果見表3。
表3 典型樣例分析
表3中例1是一個(gè)短句,沒有任何明顯的情感詞匯,ATT-LSTM模型的獨(dú)立句子分類器預(yù)測了一個(gè)錯(cuò)誤的標(biāo)簽,而HP-LSTM和HRCNN-LSTM通過捕獲評論的上下文關(guān)系識別正確。表3中例2是一個(gè)模棱兩可的句子,ATT-LSTM和HP-LSTM都不能推斷模糊句子,而本文模型卻揭示了正確的答案。例2在同一評論的其他句子中仍然可以表現(xiàn)出情感極性,表明提取某個(gè)方面的遠(yuǎn)距離依賴性的意義。對于例3和例4中給出的多方面和模糊句子,本文HRCNN-LSTM能夠有效地區(qū)分不同方面的情感極性。
本文提出了一個(gè)層次化區(qū)域性的CNN-LSTM,并采用一個(gè)基于方面的情感分類的CNN層次化輸入層。該模型能夠通過分層體系結(jié)構(gòu)在整個(gè)評論中提取方面的長距離依賴性,并通過探索單詞級和句子級關(guān)注來捕獲句子的內(nèi)部和相互關(guān)系。通過對SemEval-2016基于方面的情感分類任務(wù)的多個(gè)領(lǐng)域數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證了本文模型的有效性。