李衛(wèi)疆, 唐 銘,余正濤
(1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
情感分析是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程[1]。隨著深度學(xué)習(xí)近年來的研究與發(fā)展,使用基于深度學(xué)習(xí)的方法進(jìn)行情感分析已經(jīng)成為了研究的主流。相較于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,基于深度學(xué)習(xí)的方法在情感分析上表現(xiàn)得更加優(yōu)秀。深度學(xué)習(xí)能夠自動(dòng)獲取從數(shù)據(jù)本身到高層抽象的語(yǔ)義映射,在最終的結(jié)果上表現(xiàn)更好。此外,相較于傳統(tǒng)機(jī)器學(xué)習(xí)方法而言,深度學(xué)習(xí)方法不需要對(duì)數(shù)據(jù)集樣本進(jìn)行過多的處理。目前,在情感分析分支上最常見的深度學(xué)習(xí)方法主要包括: 卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM),以及長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的變形(Bi-LSTM,GRU)等。
雖然使用神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分類的任務(wù)取得了顯著成效,但依然存在以下不足: 在基于深度學(xué)習(xí)的情感分類任務(wù)中,通常都假定了數(shù)據(jù)集中不同類別間的樣本是平衡的(data-balanced)[2-3]。這樣的假設(shè)存在一個(gè)問題: 對(duì)于競(jìng)賽類的數(shù)據(jù)集,樣本經(jīng)過預(yù)處理,類別間較為平衡,訓(xùn)練出的模型效果好。但是在真實(shí)數(shù)據(jù)集中,多數(shù)類樣本與少數(shù)類樣本之間差異較大,同樣的模型在真實(shí)數(shù)據(jù)集中對(duì)少數(shù)類樣本的分類效果不理想。少數(shù)類樣本會(huì)被誤分到多數(shù)類樣本中,造成誤判。
殷昊等[2]提出了一種對(duì)數(shù)據(jù)進(jìn)行重采樣的多通道LSTM模型,對(duì)不平衡樣本進(jìn)行隨機(jī)欠采樣,使樣本數(shù)達(dá)到平衡后再進(jìn)行訓(xùn)練。該方法使神經(jīng)網(wǎng)絡(luò)不依賴于多數(shù)類樣本,取得了較好的實(shí)驗(yàn)結(jié)果。但該模型的通道數(shù)不確定,需要人工進(jìn)行調(diào)試。陳志等[3]提出了一種對(duì)類別標(biāo)簽重賦權(quán)的CNN模型(weight_CNN),通過引入一個(gè)與該標(biāo)簽下所有樣本總數(shù)成反比的參數(shù)對(duì)CNN的誤差函數(shù)進(jìn)行了改進(jìn)。該方法降低了多數(shù)類樣本的權(quán)重,使得少數(shù)類樣本更加容易被檢測(cè)到,犧牲了多數(shù)類樣本的分類精度。
針對(duì)以上問題,本文提出了使用多通道雙向GRU神經(jīng)網(wǎng)絡(luò)和再平衡損失的情感分類方法,本模型由兩部分組成: 多通道的采樣方式融合與損失的再平衡(re-balance)。首先,本文對(duì)訓(xùn)練集中的樣本分別進(jìn)行保留原始樣本,隨機(jī)欠采樣(random under-sampling)處理和隨機(jī)過采樣(random over-sampling)處理,將處理后的樣本作為三個(gè)BiGRU通道的輸入,使模型充分利用不同采樣方式的優(yōu)點(diǎn)且不需要人工規(guī)定通道數(shù)。然后再根據(jù)每一個(gè)通道的各類別樣本數(shù)進(jìn)行損失函數(shù)的再賦權(quán)處理。與傳統(tǒng)再平衡方法不同的是,本文基于有限覆蓋原理評(píng)估樣本對(duì)整體分類效果的貢獻(xiàn),使每一個(gè)參與訓(xùn)練的樣本都能對(duì)損失的計(jì)算提供同等的貢獻(xiàn)。避免分類對(duì)樣本不均情況的依賴,可以使模型訓(xùn)練更加均衡。
本文的主要工作如下:
(1) 提出了隨機(jī)過采樣和隨機(jī)欠采樣相結(jié)合的多通道神經(jīng)網(wǎng)絡(luò),通過平衡類別間的樣本數(shù)來解決神經(jīng)網(wǎng)絡(luò)對(duì)多數(shù)類樣本有明顯依賴性的問題。
(2) 在分類器中引入了一種損失再平衡方法。將每一部分樣本對(duì)分類的貢獻(xiàn)進(jìn)行了平衡,緩解了經(jīng)過重采樣后模型訓(xùn)練的過擬合問題,解決了新加入樣本在學(xué)習(xí)過程中的貢獻(xiàn)遞減問題。
(3) 提出的模型在不同的數(shù)據(jù)集上進(jìn)行了驗(yàn)證,G-mean指標(biāo)與整體分類準(zhǔn)確率得到了較大的提升,證明所提出模型在各大數(shù)據(jù)集上的有效性和準(zhǔn)確性。
本部分將介紹當(dāng)前對(duì)于情感分類特別是對(duì)基于方面(aspect)的情感分類研究與目前對(duì)于樣本不平衡的相關(guān)研究。
目前情感分類使用的方法以深度學(xué)習(xí)為主,其中使用的深度學(xué)習(xí)框架包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)等。Kim[4]首次將 CNN 應(yīng)用到文本分類任務(wù)中。Mikolov等[5]提出了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),相較于CNN,RNN具有上下文語(yǔ)義捕捉能力,能夠?qū)⒂洃泝?nèi)容應(yīng)用到當(dāng)前情景下,并且支持變長(zhǎng)樣本的輸入。Zhu等[6]提出使用長(zhǎng)短時(shí)記憶(long short term memory,LSTM),這是RNN的變種,考慮了詞序列之間順序依賴關(guān)系,能夠很好地解決長(zhǎng)時(shí)、長(zhǎng)距離依賴問題。以上框架已成為情感分類任務(wù)中的主流基礎(chǔ)框架模型。近年來的研究主要集中于對(duì)神經(jīng)網(wǎng)絡(luò)中的輸入向量和輸入通道數(shù)的改進(jìn)。學(xué)者們發(fā)現(xiàn)在文本中加入方面(aspect)信息能夠有效提升模型預(yù)測(cè)的準(zhǔn)確率。Wang等[7]在傳統(tǒng)的LSTM模型中引入了方面詞嵌入和自注意力機(jī)制,提出了ATAE_LSTM,該方法能將一個(gè)句子中的不同方面的情感進(jìn)行劃分。Tang等[8]將文本處理分為目標(biāo)詞左側(cè)文本和目標(biāo)詞右側(cè)文本,在左側(cè)文本上使用正向LSTM,右側(cè)文本上使用反向LSTM,分別學(xué)習(xí)句子的情感信息,解決了文本與目標(biāo)詞之間語(yǔ)義關(guān)系的建立問題。Ma等[9]提出了在神經(jīng)網(wǎng)絡(luò)外部引入共識(shí)知識(shí)的策略來進(jìn)行方面詞的識(shí)別。Wang等[10]認(rèn)為解決方面級(jí)(aspect-level)情感分類的關(guān)鍵在于如何將方面詞的檢測(cè)與情感分類更加有效地結(jié)合起來,據(jù)此他們提出AS-Capsule模型,該方法將文本與方面詞進(jìn)行膠囊嵌入層、編碼層和注意力層的共享,有效地將方面詞檢測(cè)與情感分類結(jié)合起來,提高了分類準(zhǔn)確率。Shams等[11]將目光聚集于“方面詞/情感詞”對(duì),提出了一種無(wú)監(jiān)督的方面級(jí)情感分類模型。該方法首先識(shí)別文本,確定其所屬領(lǐng)域,然后使用最大期望算法得出文本中的情感詞所屬方面的概率,最后計(jì)算“方面詞/情感詞”對(duì)的概率,得出預(yù)測(cè)結(jié)果。
目前的情感分類方法基本上都是假設(shè)樣本間的數(shù)據(jù)是平衡的,關(guān)于不平衡樣本的情感分類研究比較缺乏。
與文獻(xiàn)[8-9]相同的是,本文的模型同樣將方面(aspect)信息納入到分類考慮的范疇,與它們不同的是,本文考慮了多分類數(shù)據(jù)的分布情況,使用多通道對(duì)數(shù)據(jù)進(jìn)行重采樣與損失再平衡處理,能夠讓模型關(guān)注到數(shù)據(jù)集級(jí)別上的情感分布信息。
目前關(guān)于情感分類的研究都做了如下假設(shè): 數(shù)據(jù)集中各情感類別的樣本數(shù)是平衡的。實(shí)際上,在真實(shí)數(shù)據(jù)集中,類別間的數(shù)據(jù)是不平衡的,如SemEval競(jìng)賽數(shù)據(jù)集,其多數(shù)類與少數(shù)類的樣本數(shù)之比達(dá)到了3:1,這個(gè)情況在其他真實(shí)數(shù)據(jù)集(如微博數(shù)據(jù)集)中更加明顯,因?yàn)槿藗冊(cè)谀骋粫r(shí)間段會(huì)傾向于對(duì)某一特定產(chǎn)品發(fā)表大量相似情感的看法,這會(huì)導(dǎo)致分類結(jié)果偏向于多數(shù)類樣本,少數(shù)類的分類效果無(wú)法達(dá)到預(yù)期。目前,對(duì)于類別不平衡樣本的分類主要有基于采樣方式的方法和基于分類器優(yōu)化的方法?;诓蓸臃绞降姆椒ㄖ饕羞^采樣、欠采樣與混合采樣方法。Chawla等[12]提出了SMOTE方法。Ramentol等[13]提出將模糊粗糙集的編輯技術(shù)應(yīng)用于過采樣中,該方法提高了少數(shù)類的分類正確率。
基于分類器優(yōu)化的方法又稱代價(jià)敏感學(xué)習(xí)方法,其主要思想是通過對(duì)損失函數(shù)的權(quán)重進(jìn)行重新分配來實(shí)現(xiàn)總體誤分最小化。Chan等[14]提出了一種cost-based sampling方法,該方法通過代價(jià)來重新定義少數(shù)類樣本采樣的比例。Elkan等[15]開創(chuàng)性地提出了一種損失再平衡(e-balance)技術(shù),該技術(shù)將代價(jià)敏感問題看成優(yōu)化問題,通過調(diào)整訓(xùn)練數(shù)據(jù)集中數(shù)據(jù)實(shí)例的分布來解決代價(jià)敏感分類問題。Cui等[16]根據(jù)數(shù)據(jù)分布的長(zhǎng)尾特性提出了一種新的re-balance方法,該方法根據(jù)每一次訓(xùn)練所取的數(shù)據(jù)中的有效樣本數(shù)對(duì)損失進(jìn)行一個(gè)重新調(diào)整。
以上關(guān)于不平衡樣本的處理方法都是在傳統(tǒng)算法上進(jìn)行的改進(jìn),然而近年來基于深度學(xué)習(xí)的模型中對(duì)于不平衡樣本的處理較少,數(shù)據(jù)不平衡導(dǎo)致的分類效果對(duì)多數(shù)類樣本的依賴給神經(jīng)網(wǎng)絡(luò)的訓(xùn)練帶來了極大的挑戰(zhàn)。因此研究如何改善不平衡樣本的依賴問題成為了一個(gè)重要的研究方向。
在情感分類和類別不平衡的分類這兩個(gè)問題上,學(xué)者們分別進(jìn)行了大量的研究,但針對(duì)不平衡樣本的情感分類研究卻很少。殷昊等[2]提出使用隨機(jī)欠采樣的方法對(duì)不平衡數(shù)據(jù)進(jìn)行重采樣處理,得到多組數(shù)據(jù)輸入到多通道LSTM網(wǎng)絡(luò)中進(jìn)行情感分類。Xiao等[17]首先在平衡數(shù)據(jù)集上對(duì)CNN模型進(jìn)行訓(xùn)練,將訓(xùn)練好的模型遷移到不平衡數(shù)據(jù)集,同時(shí)對(duì)不平衡數(shù)據(jù)集進(jìn)行欠采樣,使數(shù)據(jù)集平衡。Cao等[18]提出了一種基于邊界最小化損失的方法對(duì)不平衡樣本進(jìn)行分類。該方法取代了傳統(tǒng)的交叉熵?fù)p失,同時(shí)加入了一個(gè)訓(xùn)練表,使得模型推遲對(duì)損失權(quán)重的更新,使其更加注重關(guān)鍵信息。
以上方法主要是針對(duì)不平衡樣本的其中一方面進(jìn)行改進(jìn),而沒有考慮同時(shí)從樣本重采樣與損失再平衡解決不平衡樣本的分類問題。本文擬從這兩方面同時(shí)改進(jìn)模型。
與文獻(xiàn)[2]相同的是,本文提出的模型同樣對(duì)數(shù)據(jù)進(jìn)行了再平衡處理,與其不同之處主要有以下三點(diǎn): ①本文提出的模型在進(jìn)行數(shù)據(jù)重采樣時(shí),并不是對(duì)整體數(shù)據(jù)集進(jìn)行重采樣,而是在取每一批時(shí),對(duì)小部分不平衡數(shù)據(jù)同時(shí)進(jìn)行過采樣與欠采樣,如此一來,本文所使用的多通道是穩(wěn)定的三通道模型(三個(gè)通道分別為原始數(shù)據(jù)、過采樣數(shù)據(jù)、欠采樣數(shù)據(jù)),避免了隨機(jī)超參數(shù)n的使用。②本文考慮到在取每一批時(shí)只使用一次欠采樣帶來的信息缺失的影響,于是加入了過采樣步驟,使過采樣與欠采樣相互制約。③本文所提出的模型除了使用重采樣方式對(duì)數(shù)據(jù)進(jìn)行平衡,還加入了損失再平衡學(xué)習(xí),重新平衡了每一個(gè)數(shù)據(jù)對(duì)整體學(xué)習(xí)效果的影響。
本文提出的模型整體架構(gòu)如圖1所示,在形式上,模型先對(duì)每一個(gè)batch的數(shù)據(jù)分別進(jìn)行過采樣與欠采樣處理,然后再通過已經(jīng)訓(xùn)練完畢的詞向量映射到一個(gè)多維的連續(xù)向量空間中,經(jīng)過拼接之后形成了完整句子的詞向量矩陣W,其中原始樣本、過采樣與欠采樣后的詞向量矩陣分別表示為:
W1=w1⊕w2⊕…⊕wn,W2=w1⊕w2⊕...⊕wm,W3=w1⊕w2⊕...⊕wt。但本文不單獨(dú)采用詞向量矩陣,而是將詞向量與方面詞向量進(jìn)行拼接后作為輸入。這是由于在近年來的情感分類研究中,方面詞成為了一個(gè)較為重要的特征。在現(xiàn)實(shí)情況中,一個(gè)句子可能包含了多個(gè)方面詞,而針對(duì)每一個(gè)方面詞會(huì)存在不同的情感極性。這就使得方面級(jí)別的情感分類相較于傳統(tǒng)分類更加貼近實(shí)際。其中經(jīng)過詞嵌入處理后的詞向量為Wr∈Rn×s,方面詞向量為Wa∈Rn×t。本文從文獻(xiàn)[7-8]所提出的方法得到靈感,將方面詞向量與詞向量進(jìn)行拼接得到神經(jīng)網(wǎng)絡(luò)的輸入,如式(1)所示。
圖1 多通道GRU體系結(jié)構(gòu)
其中,Wn×(s+t)為整體詞嵌入矩陣,其維度與每個(gè)通道所提取的樣本數(shù)一致,Wrn×s為經(jīng)過預(yù)處理的詞嵌入向量,Wan×t為方面詞嵌入向量。
隨機(jī)采樣的基本思想是: 在采樣過程中隨機(jī)復(fù)制少數(shù)類樣本(隨機(jī)過采樣)和隨機(jī)刪除多數(shù)類樣本(隨機(jī)欠采樣),最終達(dá)到需要的樣本數(shù)。
由算法1可以看出,經(jīng)隨機(jī)過采樣后的訓(xùn)練集會(huì)存在大量的重復(fù)樣本,這會(huì)導(dǎo)致在訓(xùn)練過程中對(duì)某些樣本的重復(fù)訓(xùn)練,可能會(huì)造成訓(xùn)練過擬合,從而降低分類準(zhǔn)確率。
算法1
由算法2可以看出,經(jīng)隨機(jī)欠采樣后的訓(xùn)練集缺失了部分樣本,可能會(huì)導(dǎo)致信息丟失,從而降低分類準(zhǔn)確率。
為了平衡不同采樣方式產(chǎn)生的不足,提高分類器性能,本文提出了一種基于多通道的雙向GRU分類模型。該方法同時(shí)應(yīng)用隨機(jī)過采樣與隨機(jī)欠采樣對(duì)每一批次樣本數(shù)進(jìn)行平衡,并將過采樣與欠采樣后的平衡樣本分別輸入到不同的通道中,最終聯(lián)合原始樣本形成一個(gè)三通道的神經(jīng)網(wǎng)絡(luò)模型,以此來平衡不同采樣方式所帶來的的局限。
算法2
具體的操作如下: 首先將訓(xùn)練集樣本復(fù)制兩份,其中原始樣本作為第一個(gè)通道的輸入。根據(jù)該原始樣本使用隨機(jī)過采樣得到一個(gè)新的訓(xùn)練集,將其作為第二個(gè)通道的輸入。同理,根據(jù)原始樣本使用隨機(jī)欠采樣得到另一新的訓(xùn)練集,將其作為第三個(gè)通道的輸入。以此,構(gòu)成了三通道神經(jīng)網(wǎng)絡(luò)的輸入。
RNN具有很強(qiáng)的序列建模能力,在句子中可以捕捉到詞語(yǔ)的長(zhǎng)期依賴信息,在自然語(yǔ)言處理的任務(wù)中廣泛應(yīng)用于文本的語(yǔ)義建模。GRU 按時(shí)間步處理輸入序列,每個(gè)時(shí)間步輸入除了前時(shí)刻輸入還有前一刻的狀態(tài)。相較于LSTM網(wǎng)絡(luò),GRU網(wǎng)絡(luò)把LSTM中的遺忘門和輸入門用更新門來替代。這使得GRU網(wǎng)絡(luò)的參數(shù)更少,用起來更方便。
本文假設(shè)當(dāng)前文本與之前和之后的文本都有關(guān)聯(lián),選用單向GRU網(wǎng)絡(luò)無(wú)法學(xué)習(xí)到當(dāng)前文本與之后文本的關(guān)系。所以,本實(shí)驗(yàn)采用雙向GRU(BiGRU)模型來訓(xùn)練樣本,如圖2所示。
圖2 雙向門控單元循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
雙向GRU網(wǎng)絡(luò)的前向與后向在t時(shí)刻的輸出由式(2)、式(3)計(jì)算:
該式表示t時(shí)刻的輸出由前向輸出和后向輸出拼接構(gòu)成。其中ht∈R2h。最終雙向GRU網(wǎng)絡(luò)由T個(gè)時(shí)刻構(gòu)成,則最終的隱層語(yǔ)義編碼表示如式(5)所示。
但是,直接應(yīng)用隱層輸出易導(dǎo)致模型過擬合。本文使用文獻(xiàn)[19]所提出的層歸一化方法計(jì)算每一輪訓(xùn)練中所有輸入的均值和差,然后進(jìn)行歸一化操作以穩(wěn)定神經(jīng)網(wǎng)絡(luò)中的隱層向量,防止模型過擬合。在層歸一化中,使用“協(xié)變量變換”的方法對(duì)BiGRU網(wǎng)絡(luò)中隱藏層的神經(jīng)元hi,i=1,2,…,n賦予自適應(yīng)偏差與增益。在整個(gè)隱藏層中,所有神經(jīng)元共用同一套歸一化參數(shù):μ,σ,其歸一化操作計(jì)算如式(6)~式(8)所示。
最終,經(jīng)過層歸一化后的隱層向量如式(9)所示。
其中,h′i,i=1,2,…,n為經(jīng)過層歸一化后i時(shí)刻的隱層向量輸出。H′∈Rn×H。
本文考慮在損失函數(shù)層面根據(jù)每一次訓(xùn)練的數(shù)據(jù)及其鄰域中包含的預(yù)測(cè)信息對(duì)損失進(jìn)行一個(gè)重新調(diào)整,而不是單純地將每一個(gè)數(shù)據(jù)點(diǎn)的預(yù)測(cè)結(jié)果作為損失。
根據(jù)以上思想,當(dāng)有N個(gè)樣本時(shí),其構(gòu)成的樣本空間為N個(gè)數(shù)據(jù)點(diǎn)及其包含的鄰域,但該樣本空間的樣本量在實(shí)際操作中難以計(jì)算,故引入有效樣本數(shù)En來表示該樣本空間的理論樣本量,其中n表示樣本類別數(shù)。
根據(jù)有限覆蓋原理(有限個(gè)樣本能夠完全覆蓋住整個(gè)樣本空間),當(dāng)樣本數(shù)足夠大時(shí),使用有限個(gè)樣本能夠覆蓋整個(gè)樣本空間。
當(dāng)有一個(gè)新樣本加入到樣本空間中時(shí),本文使用覆蓋操作來計(jì)算新的有效樣本數(shù)。覆蓋操作基于以下假設(shè): 進(jìn)行覆蓋的新樣本,在樣本空間上只存在被樣本空間覆蓋和未被覆蓋兩種情況。令已被覆蓋的概率為p,則未被覆蓋的概率為1-p。因此,一個(gè)新樣本x被已有的樣本空間所覆蓋的概率如式(10)所示。
本文參考了Cui[21]的方法,使用有效樣本數(shù)對(duì)空間進(jìn)行覆蓋。該方法引入超參數(shù)β,對(duì)有效樣本數(shù)En進(jìn)行劃分。其有效樣本數(shù)計(jì)算如式(11)、式(12)所示。
首先證明有效樣本數(shù)En的計(jì)算公式。
假設(shè)樣本類別為n-1時(shí)上式成立,則當(dāng)類別數(shù)為n時(shí),根據(jù)所提出的假設(shè),新取樣本被已取樣本形成的樣本空間覆蓋的概率如式(13)所示。
則此時(shí)
將n-1時(shí)成立的有效樣本數(shù)En-1帶入式(11)得:
由此有效樣本數(shù)公式得證。
下面證明超參數(shù)β的計(jì)算公式。
證明2由等比數(shù)列的計(jì)算如式(16)所示。
該式表明第i個(gè)樣本對(duì)有效樣本數(shù)的貢獻(xiàn)為βi-1,根據(jù)有限覆蓋理論,當(dāng)n→∞時(shí),有效樣本數(shù)無(wú)限趨近于樣本數(shù),則樣本數(shù)可接下式計(jì)算:
經(jīng)過變換可得:
由此,超參數(shù)β的計(jì)算公式得證。
其中,L(p,y)為一般的損失計(jì)算。
在每一通道訓(xùn)練結(jié)束后,最終會(huì)得到三個(gè)預(yù)測(cè)向量Y1、Y2、Y3,由于采用了不同的采樣策略,而且在采樣過程中通道間的預(yù)測(cè)結(jié)果并不與通道同序,本研究中擬將三部分預(yù)測(cè)結(jié)果進(jìn)行拼接融合。其表現(xiàn)形式如式(21)所示。
其形式化表現(xiàn)如圖3所示。
圖3 拼接融合層示意圖
本文在SemEval 2014 restaurant數(shù)據(jù)集與SemEval 2014 laptop數(shù)據(jù)集下進(jìn)行了實(shí)驗(yàn)。本節(jié)闡述了實(shí)驗(yàn)細(xì)節(jié),對(duì)模型性能進(jìn)行了評(píng)估,并分析了結(jié)果。
實(shí)驗(yàn)數(shù)據(jù)集分布如表1所示。
SemEval 2014 laptop: 本數(shù)據(jù)集是一個(gè)三分類的競(jìng)賽數(shù)據(jù)集,總共包括1 462個(gè)訓(xùn)練樣本,411個(gè)測(cè)試樣本,在訓(xùn)練樣本中,消極類、中性類和積極類樣本個(gè)數(shù)分別為987、460、866。在測(cè)試樣本中,消極類、中性類和積極類樣本個(gè)數(shù)分別為 341、169、128。
SemEval 2014 restaurant: 本數(shù)據(jù)集是一個(gè)三分類競(jìng)賽數(shù)據(jù)集,總共包括1 978個(gè)訓(xùn)練樣本,600個(gè)測(cè)試樣本,在訓(xùn)練樣本中,消極類、中性類和積極類樣本個(gè)數(shù)分別為2164、633、805。在測(cè)試樣本中,消極類、中性類和積極類樣本個(gè)數(shù)分別為728、196、196。
表1 實(shí)驗(yàn)數(shù)據(jù)集分布
(b) 各數(shù)據(jù)集的測(cè)試數(shù)據(jù)分布
本文在對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理時(shí)去掉了數(shù)據(jù)集中的沖突(conflict)分類的數(shù)據(jù)來進(jìn)行實(shí)驗(yàn)。
本文使用NLTK包對(duì)所取的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分詞和方面詞提取。本文使用了Penninaton等[20]提出的GloVe向量對(duì)單詞進(jìn)行初始向量嵌入,每個(gè)單詞的詞嵌入向量維度為300。對(duì)于未登錄詞,使用滿足均勻分布U(-0.01,0.01)的隨機(jī)向量來進(jìn)行初始化。詞向量與方面詞向量的維度均為300。所有數(shù)據(jù)集的dropout rate均為0.5。不同數(shù)據(jù)集的其他超參數(shù)設(shè)置如表2所示。
本文將提出的模型與基準(zhǔn)模型進(jìn)行了對(duì)比,以驗(yàn)證本文所提出模型的有效性。其中基準(zhǔn)方法如下:
表2 各數(shù)據(jù)集下的最佳超參數(shù)配置
(1) 基礎(chǔ)模型
CNN[4]: 使用預(yù)訓(xùn)練得到詞嵌入的卷積神經(jīng)網(wǎng)絡(luò)。
RNN[5]: 循環(huán)神經(jīng)網(wǎng)絡(luò)。
LSTM[6]: 長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)。
BiLSTM[21]: 雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)。
GRU[22]: 門控單元循環(huán)神經(jīng)網(wǎng)絡(luò)。
(2) 基于方面的模型
ATAE_LSTM[7]: 在輸入層與隱層向量中加入方面詞向量嵌入后使用注意力機(jī)制的長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)。
TD_LSTM[8]: 在目標(biāo)詞前后分別使用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的模型。
TC_LSTM[8]: 在文本上拼接方面詞,并在目標(biāo)詞前后文使用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的模型。
(3) 基于不平衡數(shù)據(jù)集的模型
Weighted_CNN[3]: 在CNN的誤差函數(shù)中引入標(biāo)簽權(quán)重函數(shù),對(duì)誤差函數(shù)進(jìn)行改進(jìn)。
UnderS+LSTM[2]: 使用隨機(jī)欠采樣構(gòu)成5個(gè)通道的輸入后使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)訓(xùn)練。
不同于以往的情感分類模型,本文提出的模型關(guān)注了不同類別下的分類效果,因此,本文所使用的評(píng)價(jià)指標(biāo)除了準(zhǔn)確率外,還使用了每一個(gè)分類別下的準(zhǔn)確率和G-mean評(píng)價(jià)指標(biāo)。
各類別準(zhǔn)確率:
其中,Ni為第i類的樣本數(shù),I()為計(jì)分函數(shù),表示若分類正確(即預(yù)測(cè)值與真實(shí)值一致)則計(jì)1,否則計(jì)0。
使用各類別的分類精度這一評(píng)價(jià)指標(biāo)可以看出模型針對(duì)每一類樣本的分類情況。對(duì)于不平衡情感分類任務(wù)來說,需要判斷模型分類結(jié)果是否依賴于多數(shù)類樣本的分類效果。如果只使用整體分類精度的話則無(wú)法進(jìn)行判斷,而使用各類別分類精度可以直觀得出結(jié)論。故選擇此評(píng)價(jià)指標(biāo)。
G-mean的定義如式(23)所示。
G-mean測(cè)度計(jì)算了n個(gè)類別間樣本預(yù)測(cè)精度的幾何均值,若其中一類分類效果好,而其他類別分類效果欠佳,則G-mean測(cè)度值必然偏小,只有當(dāng)各類別精度較接近時(shí)G-mean測(cè)度才可達(dá)到峰值。
在不平衡情感分類任務(wù)中,由于類別間樣本數(shù)量不同,各類別的分類情況也不盡相同,因此需要G-mean指標(biāo)來評(píng)價(jià)各類別分類的差異情況,以此衡量模型的優(yōu)劣。實(shí)驗(yàn)結(jié)果如表3所示。
表3 各數(shù)據(jù)集下的情感分類準(zhǔn)確率與G-mean值
(b) laptop數(shù)據(jù)集下的各類別準(zhǔn)確率、全局準(zhǔn)確率與G-mean
續(xù)表
表3中的所有實(shí)驗(yàn)結(jié)果均在同一環(huán)境下得出??梢钥闯?,本文提出的模型在restaurant和laptop數(shù)據(jù)集中取得了91%與89%的準(zhǔn)確率,且G-mean值也高于其他方法,其G-mean值分別為0.907 3、0.909 5。本文模型與基于方面的模型相比,各分類準(zhǔn)確率更高,說明了本文融合的多通道混合采樣與損失再平衡方法讓模型更加關(guān)注少數(shù)類樣本,同時(shí)對(duì)多數(shù)類樣本的學(xué)習(xí)影響較低。與基于不平衡數(shù)據(jù)集的模型相比,本文提出的模型的G-mean值更高,這表明同時(shí)融合混合采樣與損失再平衡的方法在不平衡樣本上不同類別之間的差異性更小。
本文提出的模型包括兩個(gè)部分,使用隨機(jī)采樣部分和re-balance部分,本節(jié)將對(duì)這兩部分分別進(jìn)行實(shí)驗(yàn)來驗(yàn)證其有效性。具體來說,本節(jié)將對(duì)模型中各組成部分分別進(jìn)行實(shí)驗(yàn)。本文進(jìn)行驗(yàn)證的數(shù)據(jù)集為SemEval 2014 restaurant和SemEval 2014 laptop,所使用的數(shù)據(jù)集皆已去除conflict分類。
3.5.1 不同采樣方式與損失再平衡的影響
本文提出的模型主要包含了以下兩方面: 隨機(jī)過采樣與隨機(jī)欠采樣相結(jié)合的策略、基于隨機(jī)覆蓋的再平衡損失策略。本文在兩個(gè)數(shù)據(jù)集上討論了這兩部分的影響,其結(jié)果如表4所示。
通過對(duì)表4的分析,可以看出:
(1) 從G-mean評(píng)價(jià)指標(biāo)出發(fā)。本文所提出的模型的G-mean值達(dá)到了所有模型的最高值,其中restaurant數(shù)據(jù)集為0.907 3,laptop數(shù)據(jù)集為0.909 5,均超過了0.9,這說明本文提出的模型在各類別上分類效果更加均衡; 只使用損失再平衡策略的模型在G-mean上的波動(dòng)最小,這是由于其有限覆蓋原理保證了各樣本貢獻(xiàn)的一致性。
表4 不同采樣方式下模型的準(zhǔn)確率與G-mean值
(b) Laptop數(shù)據(jù)集下的準(zhǔn)確率與G-mean值
(2) 從全局分類準(zhǔn)確率出發(fā),只使用多通道進(jìn)行情感分類的模型在全局準(zhǔn)確率上達(dá)到最佳。這是因?yàn)橹夭蓸雍蟮臉颖驹黾恿藬?shù)據(jù)量且類間平衡,模型在一個(gè)更接近理想狀態(tài)的條件下進(jìn)行訓(xùn)練,故全局準(zhǔn)確率更高。但其對(duì)樣本分布更加敏感,模型在面對(duì)不同數(shù)據(jù)分布的數(shù)據(jù)集時(shí)表現(xiàn)不穩(wěn)定。本文所提出的模型在全局準(zhǔn)確率下雖不如多通道的模型,但差距不大,在restaurant數(shù)據(jù)集上相差0.005 9,在laptop數(shù)據(jù)集上相差0.012 2,這樣的差距在實(shí)際分類任務(wù)中是可以接受的;
3.5.2 不同采樣率對(duì)分類效果的影響
圖4 不同采樣率下的模型G-mean值
3.5.3 不同超參數(shù)β的影響
本文使用的損失再平衡策略中存在超參數(shù)β,根據(jù)文獻(xiàn)[21]所提出的思想,超參數(shù)的設(shè)置應(yīng)在集合{0.9,0.99,0.999,0.999 9}中,本文對(duì)集合中的參數(shù)進(jìn)行結(jié)果驗(yàn)證。其結(jié)果如表5所示。
表5 不同超參數(shù)取值下的模型準(zhǔn)確率與G-mean
(b) laptop數(shù)據(jù)集下超參數(shù)變化后的準(zhǔn)確率與G-mean
從表5可以看出,在β取不同的值時(shí),模型的G-mean呈現(xiàn)一個(gè)波動(dòng)趨勢(shì)。其中,在β=0.999 9時(shí),兩個(gè)數(shù)據(jù)集中G-mean測(cè)度均達(dá)到最大值,但是對(duì)每一類分類的準(zhǔn)確率來說,當(dāng)β=0.999 9時(shí),正類(少數(shù)類)產(chǎn)生了過擬合。為避免模型過擬合,應(yīng)當(dāng)根據(jù)不同的數(shù)據(jù)情況選取合適的超參數(shù)。在本文驗(yàn)證的數(shù)據(jù)集中,restaurant數(shù)據(jù)集應(yīng)取β=0.9,laptop數(shù)據(jù)集應(yīng)取β=0.99。
本文提出了一個(gè)混合采樣和損失再平衡相結(jié)合的多通道雙向GRU模型。該模型由混合重采樣形成的多通道網(wǎng)絡(luò)和基于有限覆蓋原理的損失再平衡分類器兩部分組成。首先對(duì)數(shù)據(jù)樣本進(jìn)行隨機(jī)欠采樣、隨機(jī)過采樣操作,使各類別數(shù)據(jù)達(dá)到基本平衡,然后連同原始樣本生成三個(gè)通道作為神經(jīng)網(wǎng)絡(luò)的輸入。利用BiGRU網(wǎng)絡(luò)對(duì)輸入的樣本進(jìn)行序列建模,獲得其中的情感信息。最后使用損失再平衡策略對(duì)損失函數(shù)進(jìn)行再平衡處理,平衡新老樣本間對(duì)分類的貢獻(xiàn),緩解樣本貢獻(xiàn)的衰減問題,提高模型的穩(wěn)定性與準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,模型能夠有效提高各類別的分類精度,緩解分類對(duì)多數(shù)類樣本的依賴情況,比當(dāng)前最先進(jìn)模型分類效果要好。
未來工作的重點(diǎn)是對(duì)樣本集的采樣設(shè)計(jì)和損失再平衡的改進(jìn)設(shè)計(jì)。①在采樣方面,本文使用了較為簡(jiǎn)單的隨機(jī)采樣技術(shù),在未來將考慮優(yōu)化采樣方法來保持樣本的多樣性與維持樣本分布。②再平衡策略的假設(shè)是: 樣本被已有樣本空間完全覆蓋或完全在樣本空間外。未來計(jì)劃根據(jù)樣本分布情況對(duì)假設(shè)條件進(jìn)行改進(jìn),使其更符合實(shí)際情況。③將本文提出的方法應(yīng)用到實(shí)際工作中。