張志武 薛娟 陳國蘭
DOI:10.3969/j.issn.1008-0821.2021.10.009
[中圖分類號]TP391;G203 [文獻(xiàn)標(biāo)識碼]A [文章編號]1008—0821(2021)10—0075—08
隨著社交網(wǎng)絡(luò)和移動互聯(lián)網(wǎng)對人們?nèi)粘I钣绊懙牟粩嗌钊?,人們?xí)慣于在線瀏覽事物評論信息和發(fā)表留言,而這些評論中往往包含有用戶的情感和觀點(diǎn)信息。大數(shù)據(jù)時(shí)代,這些互聯(lián)網(wǎng)觀點(diǎn)數(shù)據(jù)急劇增長,對它們的情感分析與數(shù)據(jù)挖掘引起越來越多的學(xué)者的關(guān)注。情感分析是通過分析評論語句或文檔中的情感詞語和表達(dá),來預(yù)測評論觀點(diǎn)的情感極性。傳統(tǒng)的基于詞典和基于機(jī)器學(xué)習(xí)的情感分析是假設(shè)不同情感極性類別的樣本是均衡分布的,而現(xiàn)實(shí)的網(wǎng)絡(luò)語料中,不同類別的語料樣本的數(shù)目有時(shí)相差很大。這種樣本分布的類別不平衡性往往導(dǎo)致傳統(tǒng)的機(jī)器學(xué)習(xí)方法的性能下降,甚至分類模型失效。隨著大數(shù)據(jù)的出現(xiàn),類別不平衡數(shù)據(jù)的情感分類又重新成為數(shù)據(jù)挖掘領(lǐng)域具有挑戰(zhàn)性的實(shí)際問題。
類別不平衡問題是機(jī)器學(xué)習(xí)領(lǐng)域的經(jīng)典研究課題。通常的不平衡數(shù)據(jù)情感分析是先進(jìn)行采樣不平衡處理,然后利用機(jī)器學(xué)習(xí)方法對數(shù)據(jù)進(jìn)行模型訓(xùn)練與預(yù)測分類。本文針對二類情感極性分類問題,基于長短期記憶(Long Shon Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò),提出一種LSTM深度學(xué)習(xí)框架下自適應(yīng)不平衡數(shù)據(jù)情感分析方法。針對低度不平衡數(shù)據(jù)集,先對少數(shù)類進(jìn)行過采樣,然后利用LSTM直接進(jìn)行深度學(xué)習(xí)訓(xùn)練,最后用訓(xùn)練好的模型進(jìn)行情感分類;針對高度不平衡數(shù)據(jù)集,先對多數(shù)類進(jìn)行多組欠采樣,并分別與少數(shù)類樣本組合成多組平衡的訓(xùn)練數(shù)據(jù)集,然后分別對每組訓(xùn)練數(shù)據(jù)學(xué)習(xí)一個LSTM模型,在情感分類預(yù)測時(shí)通過集成學(xué)習(xí)獲得最終情感極性。本文的創(chuàng)新點(diǎn)在于利用LSTM深度網(wǎng)絡(luò)具備學(xué)習(xí)長期依賴關(guān)系的特性,提高情感分析性能;同時(shí),針對訓(xùn)練數(shù)據(jù)集的不平衡程度,自適應(yīng)采用相應(yīng)的不平衡處理方法與集成學(xué)習(xí)模型。
1相關(guān)工作
1.1情感分類
傳統(tǒng)的情感分類研究主要以二類情感極性分類為主,即將情感數(shù)據(jù)極性分為積極情感和消極情感兩種類型,研究方法包括基于詞典的方法、基于機(jī)器學(xué)習(xí)的方法以及混合方法?;谠~典的方法以通用情感詞典和特定領(lǐng)域情感詞典為主要依據(jù),同時(shí)根據(jù)評論數(shù)據(jù)的句法結(jié)構(gòu)設(shè)計(jì)情感極性判斷規(guī)則。Hu M等提出將形容詞作為情感詞建立情感詞典,利用WordNet網(wǎng)絡(luò)中形容詞同義詞集和反義詞集來預(yù)測形容詞的情感極性,進(jìn)而判斷整個評論的情感極性。Pang B等率先運(yùn)用機(jī)器學(xué)習(xí)方法解決評論文檔的二元情感分類,并在電影評論情感分類問題上對比了不同特征組合與不同機(jī)器學(xué)習(xí)方法的實(shí)驗(yàn)效果。Fang J等將評論中Unigrams特征詞的詞典信息融入語句特征向量中,然后使用支持向量機(jī)(SVM)分類器進(jìn)行語句級的情感分類。張志武提出基于譜聚類的跨領(lǐng)域遷移學(xué)習(xí),用于不完備數(shù)據(jù)的產(chǎn)品評論情感分析。隨著互聯(lián)網(wǎng)評論數(shù)據(jù)規(guī)模的與日俱增,基于大數(shù)據(jù)的深度學(xué)習(xí)技術(shù)被越來越多地應(yīng)用于情感分析領(lǐng)域。Kim Y應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型對語句級隋感分類問題進(jìn)行研究。Irsoy O等將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)應(yīng)用于意見表達(dá)抽取任務(wù)的自然語言分析。Tang D等運(yùn)用門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)(Gate RecurrentUnit,GRU)進(jìn)行短文本情感分類。Zhu X等提出使用長短期記憶網(wǎng)絡(luò)LSTM序列模型來解決情感分類問題,將評論語句建模成詞序列來捕捉其長依賴關(guān)系。梁軍等在基于樹結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)上擴(kuò)展了LSTM模型,并利用詞語間的關(guān)聯(lián)性構(gòu)建情感極性轉(zhuǎn)移模型。吳鵬等在財(cái)經(jīng)微博文本情感分類中,基于認(rèn)知情感評價(jià)模型建立情感規(guī)則,并對文本進(jìn)行情感標(biāo)注,利用LSTM模型進(jìn)行深度學(xué)習(xí)訓(xùn)練,進(jìn)而實(shí)現(xiàn)海量微博數(shù)據(jù)的情感分類。Wu O等提出一種帶區(qū)分的標(biāo)簽標(biāo)注策略和詞語極性翻轉(zhuǎn)模型,利用兩級LSTM網(wǎng)絡(luò)構(gòu)建情感分類器。
1.2類別不平衡學(xué)習(xí)
常用的類別不平衡學(xué)習(xí)方法有樣本采樣、單類別分類、代價(jià)敏感學(xué)習(xí)、集成學(xué)習(xí)、主動學(xué)習(xí)等方法。在樣本采樣方法中,增加少數(shù)類樣本的方法稱為過采樣,減少多數(shù)類樣本的方法稱為欠采樣,它們的目的都是使采樣后的不同類樣本的數(shù)據(jù)分布趨向均衡。針對類別不平衡的中文語料,王中卿等提出一種基于數(shù)據(jù)欠采樣和多分類器集成學(xué)習(xí)系統(tǒng)進(jìn)行中文情感分類。Li S等提出了基于聚類的分層欠采樣框架和平滑策略,解決真實(shí)情感分類的數(shù)據(jù)與特征分布不平衡問題。Ghosh K等利用微博平臺研究了類不平衡問題對情感分析的影響,對少數(shù)類進(jìn)行過采樣不平衡處理,并用支持向量機(jī)和樸素貝葉斯兩種分類器進(jìn)行情感分類。Yan Y等基于概念之間的關(guān)聯(lián)關(guān)系.提出一種兩階段的分類框架,以提高不平衡數(shù)據(jù)的分類準(zhǔn)確性。殷昊等通過欠采樣獲得多組平衡訓(xùn)練語料,對每組語料訓(xùn)練一個LSTM模型,最后融合多個LSTM模型進(jìn)行情緒分類預(yù)測。肖連杰等對不平衡數(shù)據(jù)集中的多數(shù)類進(jìn)行模糊C-均值聚類欠采樣,并與少數(shù)類樣本構(gòu)成平衡訓(xùn)練數(shù)據(jù),最后在類平衡的數(shù)據(jù)集上進(jìn)行集成學(xué)習(xí)和數(shù)據(jù)分類。陳志等針對不平衡文本數(shù)據(jù),在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,將類別標(biāo)簽權(quán)重引入到損失函數(shù)中,增強(qiáng)少數(shù)類對模型參數(shù)的代價(jià)敏感性,從而減小類不平衡對文本分類的影響。
2模型構(gòu)建
本文設(shè)計(jì)的深度學(xué)習(xí)框架下自適應(yīng)類別不平衡數(shù)據(jù)情感分析模型如圖1所示。首先,對網(wǎng)絡(luò)語料進(jìn)行必要的數(shù)據(jù)預(yù)處理,包括分詞、停用詞去除、詞語向量表示以及根據(jù)情感極性設(shè)置情感分類標(biāo)簽;其次,將每條評論詞匯向量轉(zhuǎn)化為相應(yīng)的矩陣,制作成適合于深度學(xué)習(xí)模型的數(shù)據(jù)集;再次,根據(jù)數(shù)據(jù)集中的類別不平衡程度,自適應(yīng)地選擇不同的采樣方法和深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,如果不平衡程度低,則對少數(shù)類樣本進(jìn)行過采樣,采樣至與多數(shù)類樣本數(shù)目相等,然后與多數(shù)類一起組成類別平衡的訓(xùn)練數(shù)據(jù)集,再進(jìn)行一次LSTM深度學(xué)習(xí)訓(xùn)練,如果不平衡程度高,則對多數(shù)類樣本進(jìn)行多組欠采樣,每次采樣至與少數(shù)類樣本數(shù)目相等,然后分別與少數(shù)類一起組成多組平衡的訓(xùn)練數(shù)據(jù)集,對每組數(shù)據(jù)集進(jìn)行LSTM深度學(xué)習(xí)訓(xùn)練;最后,進(jìn)行情感分類預(yù)測,當(dāng)訓(xùn)練集的不平衡程度低時(shí),測試數(shù)據(jù)直接在訓(xùn)練好的LSTM模型上進(jìn)行分類預(yù)測,當(dāng)訓(xùn)練集的不平衡程度高時(shí),先對多個LSTM模型的測試輸出進(jìn)行集成學(xué)習(xí),然后輸出最后的分類預(yù)測結(jié)果。
2.1情感語料數(shù)據(jù)處理
在進(jìn)行情感分析深度學(xué)習(xí)訓(xùn)練之前,需要對訓(xùn)練語料進(jìn)行一定的預(yù)處理。網(wǎng)絡(luò)評論情感語料首先經(jīng)過jieba中文分詞庫分詞,將對分類影響不大的停用詞和高頻詞剔除,提取語料文檔的情感詞匯。為了適應(yīng)機(jī)器學(xué)習(xí)算法,需要把數(shù)據(jù)輸入轉(zhuǎn)換成固定長度的特征向量。Google公司的開源Word2Vec模型可以將詞匯從高維特征空間映射到一個嵌入的低維特征空間,同時(shí)保留詞向量間的空間位置關(guān)系。在訓(xùn)練學(xué)習(xí)中,采用Python的Gensim包中集成的Word2Vec進(jìn)行詞向量的訓(xùn)練,維度值固定為200維,因此每條評論數(shù)據(jù)最終都轉(zhuǎn)化為200維的向量。在設(shè)置二元情感分類標(biāo)簽時(shí),采用0nehot編碼向量作為標(biāo)簽向量,分別用[0,1]和[1,0]表示消極評論和積極評論。根據(jù)訓(xùn)練評論數(shù)據(jù)的情感極性,分別設(shè)置相應(yīng)的情感分類標(biāo)簽向量。
2.2自適應(yīng)不平衡采樣
網(wǎng)絡(luò)語料往往是情感類別不平衡的,而且不同的領(lǐng)域和平臺的不平衡程度差異較大。對這種語料直接采用傳統(tǒng)的機(jī)器學(xué)習(xí)情感分類方法進(jìn)行情感分析會造成分類結(jié)果向多數(shù)類偏倚。如果統(tǒng)一采用簡單的過采樣不平衡處理有時(shí)會造成過擬合現(xiàn)象,而統(tǒng)一采用簡單的欠采樣不平衡處理有時(shí)又會損失較多的樣本信息。因此,根據(jù)訓(xùn)練語料數(shù)據(jù)集中的類別不平衡程度,采取自適應(yīng)地選擇不同的采樣策略,并為后續(xù)階段的深度學(xué)習(xí)訓(xùn)練模型提供不同形式的平衡訓(xùn)練數(shù)據(jù)。
當(dāng)不平衡程度低(多數(shù)類樣本數(shù)量小于少數(shù)類樣本數(shù)量的3倍)時(shí),處理策略是對少數(shù)類樣本進(jìn)行過采樣,采樣至與多數(shù)類樣本數(shù)量相等,然后與多數(shù)類一起組成平衡的訓(xùn)練數(shù)據(jù)集,輸入到后續(xù)的LSTM深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練學(xué)習(xí)。最流行的過采樣方法是綜合少數(shù)類過采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE),它的工作方式是在特征空間中選擇較近的少數(shù)類樣本示例,在它們之間進(jìn)行插值,從而產(chǎn)生額外的新樣本。由于SMOTE對每個少數(shù)類樣本產(chǎn)生相同數(shù)目的新樣本,所以采用一種SMOTE變體方法——自適應(yīng)合成采樣(Adaptive Synthetic Sampling,ADASYN)方法,它利用樣本分布來自動決定每個少數(shù)類樣本需要產(chǎn)生多少個合成樣本,近鄰的多數(shù)類樣本越多則產(chǎn)生的合成樣本越多。
當(dāng)不平衡程度高(多數(shù)類樣本數(shù)量大于等于少數(shù)類樣本數(shù)量的3倍)時(shí),處理策略則是對多數(shù)類樣本進(jìn)行多次有放回欠采樣,每次欠采樣的數(shù)量與少數(shù)類樣本數(shù)量相等,形成多個相互獨(dú)立的訓(xùn)練子集,然后分別與少數(shù)類一起組成多組平衡的訓(xùn)練數(shù)據(jù)集,分別輸入到后續(xù)的多個LSTM深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練與集成學(xué)習(xí)。雖然每個子集的數(shù)量少于總體樣本數(shù),但集成后的總信息量損失并不多。
2.3 LSTM模型與訓(xùn)練
LSTM深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的變體,它是在RNN基礎(chǔ)上增加了3個控制信息流動的門單元。LSTM神經(jīng)網(wǎng)絡(luò)通過門控制的方式,丟棄近距離不重要信息,同時(shí)增強(qiáng)長距離重要信息,使得網(wǎng)絡(luò)中的記憶單元具備記憶功能,可以利用歷史信息學(xué)習(xí)長期依賴關(guān)系,同時(shí)避免了反向傳播過程中的梯度消失和爆炸問題。由于其性能優(yōu)越,在很多機(jī)器學(xué)習(xí)與人工智能應(yīng)用中得到廣泛運(yùn)用,因此,本文采用LSTM深度學(xué)習(xí)模型進(jìn)行情感分析訓(xùn)練與分類預(yù)測。
單個的LSTM網(wǎng)絡(luò)單元結(jié)構(gòu)如圖2所示,遺忘門ft決定節(jié)點(diǎn)有多少信息會被遺忘,輸入門it決定有多少信息可以流進(jìn)節(jié)點(diǎn),輸出門ot決定節(jié)點(diǎn)內(nèi)有多少信息被輸出。ct-1表示從前一個單元傳遞來的記憶信息,ht-1表示前一個單元的輸出,xt表示當(dāng)前的輸入向量,ct表示當(dāng)前單元的記憶,ht表示當(dāng)前單元的輸出。信息在LSTM神經(jīng)網(wǎng)絡(luò)單元內(nèi)部流動經(jīng)歷3個階段:
1)遺忘門決定忘記信息。這個階段主要是對上一個節(jié)點(diǎn)單元傳過來的輸入ht-1進(jìn)行選擇性忘記,它是通過一個Sigmoid輸出層遺忘門實(shí)現(xiàn)的,它使單元狀態(tài)中的每一個輸出值介于0和1之間,越接近于0表示越應(yīng)該丟棄,越接近于1表示越應(yīng)該保留。遺忘門的作用是度量循環(huán)過程中每一個單元的相對重要程度,其計(jì)算公式如下:
2)輸入門選擇更新記憶信息。輸入門用于對單元狀態(tài)進(jìn)行更新。首先,將前一個單元的輸出ht-1和當(dāng)前單元的輸入xt信息傳遞到Sigmoid函數(shù)中去得到it,將其值調(diào)整到0~1之間來決定哪些信息需要更新;其次,還要將前一個單元的輸出ht-1和當(dāng)前單元的輸入xt信息傳遞到tanh函數(shù)中去,創(chuàng)建一個新的候選值向量得到gt,里面包含可添加到新的狀態(tài)單元的信息;最后,將前一單元傳遞的記憶信息ct-1與ft相乘用來表示遺忘信息,將it與gt相乘作為新的備選信息,用這兩部分之和一起對單元狀態(tài)進(jìn)行更新。這一過程計(jì)算公式如下:
3)輸出門選擇輸出信息。首先用Sigmoid層來決定要輸出的單元狀態(tài)的相關(guān)信息ot,然后用tanh函數(shù)處理單元狀態(tài),得到一個-1~1之間的值,最后將兩部分信息相乘,得到要輸出的部分ht,計(jì)算公式如下:
在實(shí)際訓(xùn)練學(xué)習(xí)過程中,搭建LSTM模型過程如下:
第一,訓(xùn)練詞向量,提取語料特征。利用Py-thon的Gensim包中集成的Word2Vec進(jìn)行詞向量訓(xùn)練,將詞語映射成200維向量,并做去停用詞、去除亂碼預(yù)處理。
第二,生成訓(xùn)練與測試數(shù)據(jù)集。根據(jù)不同平衡率的實(shí)驗(yàn)要求,從特征提取后的語料中選擇相應(yīng)的比例數(shù)據(jù)生成積極類和消極類訓(xùn)練數(shù)據(jù)集以及測試集的數(shù)據(jù)。
第三,定義LSTM的計(jì)算過程。用TensorFlow來實(shí)現(xiàn)LSTM,隱藏層網(wǎng)絡(luò)輸出維度為128,輸出層節(jié)點(diǎn)數(shù)為2,學(xué)習(xí)率設(shè)置為0.01,每批次傳入訓(xùn)練數(shù)據(jù)大小為16。定義損失函數(shù)Loss和優(yōu)化器Optimizer。
第四,將數(shù)據(jù)傳人定義模型的占位符,開始參數(shù)訓(xùn)練,設(shè)定迭代次數(shù)為20000次,訓(xùn)練結(jié)束后保存模型參數(shù)。
2.4集成學(xué)習(xí)
在類別不平衡程度較高的情況下,模型自適應(yīng)地采用將多數(shù)類樣本進(jìn)行多組欠采樣,并分別與少數(shù)類樣本構(gòu)成平衡的訓(xùn)練樣本集,然后進(jìn)行多組LSTM訓(xùn)練學(xué)習(xí),每組LSTM模型相當(dāng)于集成學(xué)習(xí)中一個弱分類器。由于基學(xué)習(xí)器采用的是LSTM深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器,這種不穩(wěn)定學(xué)習(xí)算法對訓(xùn)練集十分敏感,采用多組欠采樣方式實(shí)現(xiàn)數(shù)據(jù)樣本擾動可以增強(qiáng)基學(xué)習(xí)器之間的多樣性,因此,集成學(xué)習(xí)采用Bagging法(又稱裝袋法),既能降低方差,又能提高訓(xùn)練穩(wěn)定性。多組LSTM基學(xué)習(xí)器還可以并行學(xué)習(xí)訓(xùn)練。
當(dāng)需要進(jìn)行分類預(yù)測時(shí),測試樣本先在每一個訓(xùn)練好的LSTM基學(xué)習(xí)器上分別進(jìn)行分類預(yù)測,然后通過集成學(xué)習(xí)的投票法策略,對所有基學(xué)習(xí)器的分類結(jié)果進(jìn)行統(tǒng)計(jì),將出現(xiàn)次數(shù)最多的預(yù)測類別作為最終的分類結(jié)果。
3實(shí)驗(yàn)與結(jié)果分析
3.1實(shí)驗(yàn)數(shù)據(jù)集
本文選取搜狗實(shí)驗(yàn)室提供的網(wǎng)絡(luò)評論語料作為情感分析詞向量的實(shí)驗(yàn)語料(搜狗實(shí)驗(yàn)室網(wǎng)絡(luò)語料URL地址:http:∥www.sogou.com/labs/resource/list_yuliao.php)。語料庫中包含圖書評論、酒店評論、電子產(chǎn)品評論等,其中積極評論有10673條,消極評論有10428條,表1給出了語料集合的部分樣例。實(shí)驗(yàn)在原始語料庫上,分別針對實(shí)驗(yàn)研究的低度和高度兩種類別不平衡程度,選擇積極類評論與消極類評論的比例分別為3:1和7:1。
3.2買驗(yàn)結(jié)果
為了驗(yàn)證本文選擇的LSTM深度學(xué)習(xí)框架和不平衡處理方法的有效性,實(shí)驗(yàn)采用情感分類中常用的準(zhǔn)確率作為評價(jià)指標(biāo),由于本文研究的是不平衡數(shù)據(jù)的二類分類問題,實(shí)驗(yàn)中還選取了不平衡數(shù)據(jù)二元分類常用的綜合指標(biāo)F1值作為評價(jià)指標(biāo)。具體實(shí)驗(yàn)分成了3種情形進(jìn)行對比和分析:
1)LSTM方法與典型的深度學(xué)習(xí)方法在不平衡數(shù)據(jù)上的情感分析對比實(shí)驗(yàn)。
2)LSTM框架下不平衡處理方法的對比實(shí)驗(yàn)。
3)LSTM情感分析有效性驗(yàn)證。
3.2.1深度學(xué)習(xí)類別不平衡情感分析方法對比
為了驗(yàn)證深度學(xué)習(xí)方法在類別不平衡數(shù)據(jù)上的情感分析性能,本文選取典型的深度學(xué)習(xí)方法:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和門控循環(huán)單元(Gate Recurrent Unit,GRU)神經(jīng)網(wǎng)絡(luò)與本文采用的LSTM方法進(jìn)行對比。為了體現(xiàn)對比實(shí)驗(yàn)的公平性,實(shí)驗(yàn)中所有方法采用統(tǒng)一的不平衡數(shù)據(jù)處理:當(dāng)不平衡程度低時(shí),對少數(shù)類樣本進(jìn)行隨機(jī)過采樣;當(dāng)不平衡程度高時(shí),對多數(shù)類樣本進(jìn)行多次有放回欠采樣。
表2給出了高低兩種不平衡率情況下的深度學(xué)習(xí)方法在準(zhǔn)確率與F1值評價(jià)指標(biāo)上的對比實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果看,在低不平衡率和高不平衡率兩種情況下,卷積神經(jīng)網(wǎng)絡(luò)CNN性能最差,循環(huán)神經(jīng)網(wǎng)絡(luò)RNN性能較差,門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)GRU性能較好,長短期記憶神經(jīng)網(wǎng)絡(luò)LSTM性能最好,GRU與LSTM在低度不平衡情況下性能比較接近。具體來看,最低的準(zhǔn)確率是CNN方法在高度不平衡情況下取得的,其值為0.7001,同時(shí)它的F1值也是最低,其值為0.4419;最高的準(zhǔn)確率是LSTM方法在高度不平衡情況下取得的,其值為0.9349,最高的F1值是LSTM方法在低度不平衡情況下取得的,其值為0.8556。相對其他的深度學(xué)習(xí)方法,LSTM在準(zhǔn)確率指標(biāo)上至少提升4.09%((0.9276-0.8897)/0.9276),在F1值指標(biāo)上至少提升9.29%((0.8221-0.7457)/0.8221)。
3.2.2 LSTM框架下不平衡處理方法對比
為了驗(yàn)證LSTM框架下情感分析在不同不平衡處理情況下的實(shí)驗(yàn)性能,本文設(shè)計(jì)了5種數(shù)據(jù)不平衡處理情況下的基于LSTM的情感分類方法:
1)完全訓(xùn)練+LSTM方法,未對不平衡訓(xùn)練集做平衡化處理,直接用全部數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),利用LSTM進(jìn)行深度學(xué)習(xí)訓(xùn)練和分類預(yù)測。
2)隨機(jī)過采樣+LSTM方法,對少數(shù)類樣本進(jìn)行隨機(jī)過采樣,并與多數(shù)類樣本組合成平衡的訓(xùn)練數(shù)據(jù),再利用LSTM進(jìn)行深度學(xué)習(xí)訓(xùn)練和分類預(yù)測。
3)隨機(jī)欠采樣+LSTM方法,對多數(shù)類樣本進(jìn)行隨機(jī)欠采樣,并與少數(shù)類樣本組合成平衡的訓(xùn)練數(shù)據(jù),再利用LSTM進(jìn)行深度學(xué)習(xí)訓(xùn)練和分類預(yù)測。
4)隨機(jī)欠采樣+多通道LSTM,這是文獻(xiàn)[18]的方法,對多數(shù)類樣本進(jìn)行多組隨機(jī)欠采樣,并與少數(shù)類樣本組合成多組平衡的訓(xùn)練數(shù)據(jù),分類器使用多通道LSTM神經(jīng)網(wǎng)絡(luò)。
5)自適應(yīng)采樣+LSTM方法,這是本文提出的方法,根據(jù)數(shù)據(jù)集不平衡程度自適應(yīng)選擇不同的采樣不平衡處理和訓(xùn)練預(yù)測框架。
圖3和圖4分別比較了低不平衡率和高不平衡率兩種情況下的不同方法在準(zhǔn)確率指標(biāo)上的對比實(shí)驗(yàn)結(jié)果,表3給出了這兩種情況下F1值指標(biāo)上的對比實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出:
1)所有經(jīng)過不平衡處理后的LSTM方法性能都優(yōu)于未經(jīng)不平衡處理完全訓(xùn)練的LSTM方法。
2)隨機(jī)欠采樣和隨機(jī)過采樣方法在不同平衡率下各有優(yōu)劣。
3)隨機(jī)采樣多通道LSTM方法在低不平衡率情況下,由于通道較少,性能優(yōu)勢不明顯。
4)自適應(yīng)采樣LSTM在不同平衡率下采用不同的采樣策略和學(xué)習(xí)策略,能保持很好的性能優(yōu)勢,總體性能最優(yōu),相對未經(jīng)平衡化處理的完全訓(xùn)練LSTM方法準(zhǔn)確率至少提升22.82%((0.9526-0.7756)/0.7756),F(xiàn)1值至少提升96.64%((0.8426-0.4285)/0.4285),相對其他經(jīng)過平衡化處理的LSTM方法性能準(zhǔn)確率至少提升5.77%((0.9526-0.9006)/0.9006),F(xiàn)1值至少提升23.89%((0.8426-0.6801)/0.6801)。
3.2.3 LSTM情感分析有效性驗(yàn)證
為了驗(yàn)證LSTM深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練收斂性和有效性,在LSTM的迭代訓(xùn)練過程中統(tǒng)計(jì)了損失函數(shù)和預(yù)測準(zhǔn)確率。圖5給出了LSTM深度學(xué)習(xí)網(wǎng)絡(luò)在訓(xùn)練過程中不同迭代次數(shù)下的損失值Loss和預(yù)測準(zhǔn)確率Accuracy的變化曲線。從損失值曲線和準(zhǔn)確率曲線可以看出,LSTM在迭代過程中,隨著迭代次數(shù)的不斷增加,損失函數(shù)值逐漸減少,而準(zhǔn)確率在不斷上升。準(zhǔn)確率隨迭代次數(shù)的變化趨勢是開始時(shí)準(zhǔn)確率增加較快,后期的增長速率趨于平緩,逐漸趨向于1;損失函數(shù)值開始時(shí)減少速度快,后期減少速度放慢,并逐漸趨向于0。
3.3結(jié)果分析
1)典型深度學(xué)習(xí)方法在類別不平衡數(shù)據(jù)上的對比分析。
從對比實(shí)驗(yàn)結(jié)果來看,性能從低到高的方法依次是CNN、RNN、GRU和LSTM。而這4種方法的復(fù)雜程度也與這個順序一致。CNN是具有深度結(jié)構(gòu)的包含卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò),常用于視覺數(shù)據(jù)之類的空間特征數(shù)據(jù),如圖像識別。將情感分析的文本數(shù)據(jù)中的每個詞語表示成一個列向量,將一條評論文本看成是多個詞語列向量組成的二維數(shù)據(jù)時(shí),CNN方法可以進(jìn)行情感分析。傳統(tǒng)RNN是序列模型,常用于文本數(shù)據(jù)分析,RNN的單元數(shù)比較多,梯度被近期單元的梯度主導(dǎo),導(dǎo)致模型對長期的依賴關(guān)系不敏感,因此會出現(xiàn)梯度消失和梯度爆炸問題。而LSTM利用門機(jī)制解決了梯度消失問題,與此同時(shí),LSTM利用細(xì)胞狀態(tài)保存長期記憶,結(jié)合門機(jī)制對信息進(jìn)行過濾,實(shí)現(xiàn)了對長期記憶的控制。GRU作為LSTM的一種變體,相對于LSTM而言參數(shù)更少、收斂更快,性能與LSTM接近,實(shí)驗(yàn)結(jié)果表明,LSTM性能略優(yōu)于GRU。總體來看,帶門控單元的RNN比傳統(tǒng)的RNN性能表現(xiàn)更好。
2)LSTM框架下不平衡處理方法對比分析。
在LSTM深度學(xué)習(xí)框架下,所有經(jīng)過不平衡處理后的方法的性能均優(yōu)于未經(jīng)不平衡處理完全訓(xùn)練的LSTM方法,這是因?yàn)閿?shù)據(jù)分布不平衡影響了機(jī)器學(xué)習(xí)的性能.通常這種情況下機(jī)器學(xué)習(xí)會向多數(shù)類產(chǎn)生偏倚,經(jīng)過平衡化處理后,不平衡性的影響得到一定程度的糾正,因此性能得到提升。簡單的隨機(jī)欠采樣和隨機(jī)過采樣方法在不同平衡率下各有優(yōu)劣,這說明選擇機(jī)器學(xué)習(xí)方法時(shí)應(yīng)在采樣信息損失與數(shù)據(jù)分布影響之間進(jìn)行平衡。將隨機(jī)采樣方法與多通道LSTM方法結(jié)合,進(jìn)行不平衡數(shù)據(jù)情感分析,在低不平衡率情況下,由于產(chǎn)生通道較少,性能優(yōu)勢不明顯。針對數(shù)據(jù)的不平衡程度,在不同平衡率下采用不同的采樣策略和學(xué)習(xí)策略,自適應(yīng)采樣LSTM方法能保持很好的性能優(yōu)勢,這表明機(jī)器學(xué)習(xí)對輸入數(shù)據(jù)的質(zhì)量與分布有較強(qiáng)的依賴性,機(jī)器學(xué)習(xí)的總體性能除了與方法模型有關(guān)外,還與輸入數(shù)據(jù)特性和數(shù)據(jù)預(yù)處理密切相關(guān)。
3)LSTM應(yīng)用于情感分析的有效性分析。
在LSTM深度學(xué)習(xí)的迭代優(yōu)化過程中,優(yōu)化器的優(yōu)化目標(biāo)是使預(yù)測值與真實(shí)值之間的損失最小,在不斷的迭代訓(xùn)練過程中,損失函數(shù)值逐漸減少,同時(shí)準(zhǔn)確率在不斷上升。實(shí)驗(yàn)驗(yàn)證結(jié)果顯示訓(xùn)練過程中預(yù)測準(zhǔn)確率一直上升,直至趨于平穩(wěn),偶有波動,說明訓(xùn)練時(shí)也有過擬合情況,但LSTM的學(xué)習(xí)性能總體是很穩(wěn)定的。LSTM深度學(xué)習(xí)網(wǎng)絡(luò)由于采用門機(jī)制,解決了梯度消失問題,同時(shí)也簡化了調(diào)參的復(fù)雜度,門機(jī)制還具有特征過濾功能,豐富了自然語言處理中的向量的表示信息,在情感分析任務(wù)中是有效的方法模型。
4結(jié)語
本文針對不平衡數(shù)據(jù)的情感分析,在深度學(xué)習(xí)框架下,設(shè)計(jì)了一個自適應(yīng)的類別不平衡數(shù)據(jù)情感分析處理框架,分別對低不平衡率數(shù)據(jù)集進(jìn)行自適應(yīng)合成采樣或?qū)Ω卟黄胶饴蕯?shù)據(jù)集進(jìn)行有放回欠采樣,然后相應(yīng)地進(jìn)行一次LSTM深度學(xué)習(xí)訓(xùn)練或多組并行LSTM深度學(xué)習(xí)訓(xùn)練,以及單獨(dú)預(yù)測分類或集成學(xué)習(xí)預(yù)測分類。在真實(shí)的網(wǎng)絡(luò)語料上的實(shí)驗(yàn)表明,本文提出的方法能自適應(yīng)地處理不同程度的不平衡數(shù)據(jù),充分利用LSTM具備學(xué)習(xí)長期依賴關(guān)系的特性,提高了不平衡數(shù)據(jù)情感分析性能。未來的改進(jìn)工作中,將探索不同的類別不平衡學(xué)習(xí)方法,優(yōu)化采樣技術(shù),將代價(jià)敏感學(xué)習(xí)技術(shù)與主動學(xué)習(xí)技術(shù)融入不平衡數(shù)據(jù)情感分析中,以進(jìn)一步提升情感分類方法的性能。多類別不平衡情感數(shù)據(jù)分析和情感強(qiáng)度分析也是未來研究工作的主要方向。
(責(zé)任編輯:孫國雷)