深度學(xué)習(xí)框架下類別不平衡數(shù)據(jù)情感分析

2021-10-21 03:10:43張志武薛娟陳國蘭

現(xiàn)代情報(bào) 2021年10期

張志武　薛娟　陳國蘭

DOI：10.3969/j.issn.1008-0821.2021.10.009

[中圖分類號]TP391;G203 [文獻(xiàn)標(biāo)識碼]A [文章編號]1008—0821（2021）10—0075—08

隨著社交網(wǎng)絡(luò)和移動互聯(lián)網(wǎng)對人們?nèi)粘Ｉ钣绊懙牟粩嗌钊?，人們?xí)慣于在線瀏覽事物評論信息和發(fā)表留言，而這些評論中往往包含有用戶的情感和觀點(diǎn)信息。大數(shù)據(jù)時(shí)代，這些互聯(lián)網(wǎng)觀點(diǎn)數(shù)據(jù)急劇增長，對它們的情感分析與數(shù)據(jù)挖掘引起越來越多的學(xué)者的關(guān)注。情感分析是通過分析評論語句或文檔中的情感詞語和表達(dá)，來預(yù)測評論觀點(diǎn)的情感極性。傳統(tǒng)的基于詞典和基于機(jī)器學(xué)習(xí)的情感分析是假設(shè)不同情感極性類別的樣本是均衡分布的，而現(xiàn)實(shí)的網(wǎng)絡(luò)語料中，不同類別的語料樣本的數(shù)目有時(shí)相差很大。這種樣本分布的類別不平衡性往往導(dǎo)致傳統(tǒng)的機(jī)器學(xué)習(xí)方法的性能下降，甚至分類模型失效。隨著大數(shù)據(jù)的出現(xiàn)，類別不平衡數(shù)據(jù)的情感分類又重新成為數(shù)據(jù)挖掘領(lǐng)域具有挑戰(zhàn)性的實(shí)際問題。

類別不平衡問題是機(jī)器學(xué)習(xí)領(lǐng)域的經(jīng)典研究課題。通常的不平衡數(shù)據(jù)情感分析是先進(jìn)行采樣不平衡處理，然后利用機(jī)器學(xué)習(xí)方法對數(shù)據(jù)進(jìn)行模型訓(xùn)練與預(yù)測分類。本文針對二類情感極性分類問題，基于長短期記憶（Long Shon Term Memory，LSTM）神經(jīng)網(wǎng)絡(luò)，提出一種LSTM深度學(xué)習(xí)框架下自適應(yīng)不平衡數(shù)據(jù)情感分析方法。針對低度不平衡數(shù)據(jù)集，先對少數(shù)類進(jìn)行過采樣，然后利用LSTM直接進(jìn)行深度學(xué)習(xí)訓(xùn)練，最后用訓(xùn)練好的模型進(jìn)行情感分類;針對高度不平衡數(shù)據(jù)集，先對多數(shù)類進(jìn)行多組欠采樣，并分別與少數(shù)類樣本組合成多組平衡的訓(xùn)練數(shù)據(jù)集，然后分別對每組訓(xùn)練數(shù)據(jù)學(xué)習(xí)一個LSTM模型，在情感分類預(yù)測時(shí)通過集成學(xué)習(xí)獲得最終情感極性。本文的創(chuàng)新點(diǎn)在于利用LSTM深度網(wǎng)絡(luò)具備學(xué)習(xí)長期依賴關(guān)系的特性，提高情感分析性能;同時(shí)，針對訓(xùn)練數(shù)據(jù)集的不平衡程度，自適應(yīng)采用相應(yīng)的不平衡處理方法與集成學(xué)習(xí)模型。

1相關(guān)工作

1.1情感分類

傳統(tǒng)的情感分類研究主要以二類情感極性分類為主，即將情感數(shù)據(jù)極性分為積極情感和消極情感兩種類型，研究方法包括基于詞典的方法、基于機(jī)器學(xué)習(xí)的方法以及混合方法?；谠~典的方法以通用情感詞典和特定領(lǐng)域情感詞典為主要依據(jù)，同時(shí)根據(jù)評論數(shù)據(jù)的句法結(jié)構(gòu)設(shè)計(jì)情感極性判斷規(guī)則。Hu M等提出將形容詞作為情感詞建立情感詞典，利用WordNet網(wǎng)絡(luò)中形容詞同義詞集和反義詞集來預(yù)測形容詞的情感極性，進(jìn)而判斷整個評論的情感極性。Pang B等率先運(yùn)用機(jī)器學(xué)習(xí)方法解決評論文檔的二元情感分類，并在電影評論情感分類問題上對比了不同特征組合與不同機(jī)器學(xué)習(xí)方法的實(shí)驗(yàn)效果。Fang J等將評論中Unigrams特征詞的詞典信息融入語句特征向量中，然后使用支持向量機(jī)（SVM）分類器進(jìn)行語句級的情感分類。張志武提出基于譜聚類的跨領(lǐng)域遷移學(xué)習(xí)，用于不完備數(shù)據(jù)的產(chǎn)品評論情感分析。隨著互聯(lián)網(wǎng)評論數(shù)據(jù)規(guī)模的與日俱增，基于大數(shù)據(jù)的深度學(xué)習(xí)技術(shù)被越來越多地應(yīng)用于情感分析領(lǐng)域。Kim Y應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）模型對語句級隋感分類問題進(jìn)行研究。Irsoy O等將循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）應(yīng)用于意見表達(dá)抽取任務(wù)的自然語言分析。Tang D等運(yùn)用門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)（Gate RecurrentUnit，GRU）進(jìn)行短文本情感分類。Zhu X等提出使用長短期記憶網(wǎng)絡(luò)LSTM序列模型來解決情感分類問題，將評論語句建模成詞序列來捕捉其長依賴關(guān)系。梁軍等在基于樹結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)上擴(kuò)展了LSTM模型，并利用詞語間的關(guān)聯(lián)性構(gòu)建情感極性轉(zhuǎn)移模型。吳鵬等在財(cái)經(jīng)微博文本情感分類中，基于認(rèn)知情感評價(jià)模型建立情感規(guī)則，并對文本進(jìn)行情感標(biāo)注，利用LSTM模型進(jìn)行深度學(xué)習(xí)訓(xùn)練，進(jìn)而實(shí)現(xiàn)海量微博數(shù)據(jù)的情感分類。Wu O等提出一種帶區(qū)分的標(biāo)簽標(biāo)注策略和詞語極性翻轉(zhuǎn)模型，利用兩級LSTM網(wǎng)絡(luò)構(gòu)建情感分類器。

1.2類別不平衡學(xué)習(xí)

常用的類別不平衡學(xué)習(xí)方法有樣本采樣、單類別分類、代價(jià)敏感學(xué)習(xí)、集成學(xué)習(xí)、主動學(xué)習(xí)等方法。在樣本采樣方法中，增加少數(shù)類樣本的方法稱為過采樣，減少多數(shù)類樣本的方法稱為欠采樣，它們的目的都是使采樣后的不同類樣本的數(shù)據(jù)分布趨向均衡。針對類別不平衡的中文語料，王中卿等提出一種基于數(shù)據(jù)欠采樣和多分類器集成學(xué)習(xí)系統(tǒng)進(jìn)行中文情感分類。Li S等提出了基于聚類的分層欠采樣框架和平滑策略，解決真實(shí)情感分類的數(shù)據(jù)與特征分布不平衡問題。Ghosh K等利用微博平臺研究了類不平衡問題對情感分析的影響，對少數(shù)類進(jìn)行過采樣不平衡處理，并用支持向量機(jī)和樸素貝葉斯兩種分類器進(jìn)行情感分類。Yan Y等基于概念之間的關(guān)聯(lián)關(guān)系.提出一種兩階段的分類框架，以提高不平衡數(shù)據(jù)的分類準(zhǔn)確性。殷昊等通過欠采樣獲得多組平衡訓(xùn)練語料，對每組語料訓(xùn)練一個LSTM模型，最后融合多個LSTM模型進(jìn)行情緒分類預(yù)測。肖連杰等對不平衡數(shù)據(jù)集中的多數(shù)類進(jìn)行模糊C-均值聚類欠采樣，并與少數(shù)類樣本構(gòu)成平衡訓(xùn)練數(shù)據(jù)，最后在類平衡的數(shù)據(jù)集上進(jìn)行集成學(xué)習(xí)和數(shù)據(jù)分類。陳志等針對不平衡文本數(shù)據(jù)，在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中，將類別標(biāo)簽權(quán)重引入到損失函數(shù)中，增強(qiáng)少數(shù)類對模型參數(shù)的代價(jià)敏感性，從而減小類不平衡對文本分類的影響。

2模型構(gòu)建

本文設(shè)計(jì)的深度學(xué)習(xí)框架下自適應(yīng)類別不平衡數(shù)據(jù)情感分析模型如圖1所示。首先，對網(wǎng)絡(luò)語料進(jìn)行必要的數(shù)據(jù)預(yù)處理，包括分詞、停用詞去除、詞語向量表示以及根據(jù)情感極性設(shè)置情感分類標(biāo)簽;其次，將每條評論詞匯向量轉(zhuǎn)化為相應(yīng)的矩陣，制作成適合于深度學(xué)習(xí)模型的數(shù)據(jù)集;再次，根據(jù)數(shù)據(jù)集中的類別不平衡程度，自適應(yīng)地選擇不同的采樣方法和深度學(xué)習(xí)模型進(jìn)行訓(xùn)練，如果不平衡程度低，則對少數(shù)類樣本進(jìn)行過采樣，采樣至與多數(shù)類樣本數(shù)目相等，然后與多數(shù)類一起組成類別平衡的訓(xùn)練數(shù)據(jù)集，再進(jìn)行一次LSTM深度學(xué)習(xí)訓(xùn)練，如果不平衡程度高，則對多數(shù)類樣本進(jìn)行多組欠采樣，每次采樣至與少數(shù)類樣本數(shù)目相等，然后分別與少數(shù)類一起組成多組平衡的訓(xùn)練數(shù)據(jù)集，對每組數(shù)據(jù)集進(jìn)行LSTM深度學(xué)習(xí)訓(xùn)練;最后，進(jìn)行情感分類預(yù)測，當(dāng)訓(xùn)練集的不平衡程度低時(shí)，測試數(shù)據(jù)直接在訓(xùn)練好的LSTM模型上進(jìn)行分類預(yù)測，當(dāng)訓(xùn)練集的不平衡程度高時(shí)，先對多個LSTM模型的測試輸出進(jìn)行集成學(xué)習(xí)，然后輸出最后的分類預(yù)測結(jié)果。

2.1情感語料數(shù)據(jù)處理

在進(jìn)行情感分析深度學(xué)習(xí)訓(xùn)練之前，需要對訓(xùn)練語料進(jìn)行一定的預(yù)處理。網(wǎng)絡(luò)評論情感語料首先經(jīng)過jieba中文分詞庫分詞，將對分類影響不大的停用詞和高頻詞剔除，提取語料文檔的情感詞匯。為了適應(yīng)機(jī)器學(xué)習(xí)算法，需要把數(shù)據(jù)輸入轉(zhuǎn)換成固定長度的特征向量。Google公司的開源Word2Vec模型可以將詞匯從高維特征空間映射到一個嵌入的低維特征空間，同時(shí)保留詞向量間的空間位置關(guān)系。在訓(xùn)練學(xué)習(xí)中，采用Python的Gensim包中集成的Word2Vec進(jìn)行詞向量的訓(xùn)練，維度值固定為200維，因此每條評論數(shù)據(jù)最終都轉(zhuǎn)化為200維的向量。在設(shè)置二元情感分類標(biāo)簽時(shí)，采用0nehot編碼向量作為標(biāo)簽向量，分別用[0，1]和[1，0]表示消極評論和積極評論。根據(jù)訓(xùn)練評論數(shù)據(jù)的情感極性，分別設(shè)置相應(yīng)的情感分類標(biāo)簽向量。

2.2自適應(yīng)不平衡采樣

網(wǎng)絡(luò)語料往往是情感類別不平衡的，而且不同的領(lǐng)域和平臺的不平衡程度差異較大。對這種語料直接采用傳統(tǒng)的機(jī)器學(xué)習(xí)情感分類方法進(jìn)行情感分析會造成分類結(jié)果向多數(shù)類偏倚。如果統(tǒng)一采用簡單的過采樣不平衡處理有時(shí)會造成過擬合現(xiàn)象，而統(tǒng)一采用簡單的欠采樣不平衡處理有時(shí)又會損失較多的樣本信息。因此，根據(jù)訓(xùn)練語料數(shù)據(jù)集中的類別不平衡程度，采取自適應(yīng)地選擇不同的采樣策略，并為后續(xù)階段的深度學(xué)習(xí)訓(xùn)練模型提供不同形式的平衡訓(xùn)練數(shù)據(jù)。

當(dāng)不平衡程度低（多數(shù)類樣本數(shù)量小于少數(shù)類樣本數(shù)量的3倍）時(shí)，處理策略是對少數(shù)類樣本進(jìn)行過采樣，采樣至與多數(shù)類樣本數(shù)量相等，然后與多數(shù)類一起組成平衡的訓(xùn)練數(shù)據(jù)集，輸入到后續(xù)的LSTM深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練學(xué)習(xí)。最流行的過采樣方法是綜合少數(shù)類過采樣技術(shù)（Synthetic Minority Oversampling Technique，SMOTE），它的工作方式是在特征空間中選擇較近的少數(shù)類樣本示例，在它們之間進(jìn)行插值，從而產(chǎn)生額外的新樣本。由于SMOTE對每個少數(shù)類樣本產(chǎn)生相同數(shù)目的新樣本，所以采用一種SMOTE變體方法——自適應(yīng)合成采樣（Adaptive Synthetic Sampling，ADASYN）方法，它利用樣本分布來自動決定每個少數(shù)類樣本需要產(chǎn)生多少個合成樣本，近鄰的多數(shù)類樣本越多則產(chǎn)生的合成樣本越多。

當(dāng)不平衡程度高（多數(shù)類樣本數(shù)量大于等于少數(shù)類樣本數(shù)量的3倍）時(shí)，處理策略則是對多數(shù)類樣本進(jìn)行多次有放回欠采樣，每次欠采樣的數(shù)量與少數(shù)類樣本數(shù)量相等，形成多個相互獨(dú)立的訓(xùn)練子集，然后分別與少數(shù)類一起組成多組平衡的訓(xùn)練數(shù)據(jù)集，分別輸入到后續(xù)的多個LSTM深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練與集成學(xué)習(xí)。雖然每個子集的數(shù)量少于總體樣本數(shù)，但集成后的總信息量損失并不多。

2.3 LSTM模型與訓(xùn)練

LSTM深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的變體，它是在RNN基礎(chǔ)上增加了3個控制信息流動的門單元。LSTM神經(jīng)網(wǎng)絡(luò)通過門控制的方式，丟棄近距離不重要信息，同時(shí)增強(qiáng)長距離重要信息，使得網(wǎng)絡(luò)中的記憶單元具備記憶功能，可以利用歷史信息學(xué)習(xí)長期依賴關(guān)系，同時(shí)避免了反向傳播過程中的梯度消失和爆炸問題。由于其性能優(yōu)越，在很多機(jī)器學(xué)習(xí)與人工智能應(yīng)用中得到廣泛運(yùn)用，因此，本文采用LSTM深度學(xué)習(xí)模型進(jìn)行情感分析訓(xùn)練與分類預(yù)測。

單個的LSTM網(wǎng)絡(luò)單元結(jié)構(gòu)如圖2所示，遺忘門f_t決定節(jié)點(diǎn)有多少信息會被遺忘，輸入門i_t決定有多少信息可以流進(jìn)節(jié)點(diǎn)，輸出門o_t決定節(jié)點(diǎn)內(nèi)有多少信息被輸出。c_t-1表示從前一個單元傳遞來的記憶信息，h_t-1表示前一個單元的輸出，x_t表示當(dāng)前的輸入向量，c_t表示當(dāng)前單元的記憶，h_t表示當(dāng)前單元的輸出。信息在LSTM神經(jīng)網(wǎng)絡(luò)單元內(nèi)部流動經(jīng)歷3個階段：

1）遺忘門決定忘記信息。這個階段主要是對上一個節(jié)點(diǎn)單元傳過來的輸入h_t-1進(jìn)行選擇性忘記，它是通過一個Sigmoid輸出層遺忘門實(shí)現(xiàn)的，它使單元狀態(tài)中的每一個輸出值介于0和1之間，越接近于0表示越應(yīng)該丟棄，越接近于1表示越應(yīng)該保留。遺忘門的作用是度量循環(huán)過程中每一個單元的相對重要程度，其計(jì)算公式如下：

2）輸入門選擇更新記憶信息。輸入門用于對單元狀態(tài)進(jìn)行更新。首先，將前一個單元的輸出h_t-1和當(dāng)前單元的輸入x_t信息傳遞到Sigmoid函數(shù)中去得到i_t，將其值調(diào)整到0～1之間來決定哪些信息需要更新;其次，還要將前一個單元的輸出h_t-1和當(dāng)前單元的輸入x_t信息傳遞到tanh函數(shù)中去，創(chuàng)建一個新的候選值向量得到g_t，里面包含可添加到新的狀態(tài)單元的信息;最后，將前一單元傳遞的記憶信息c_t-1與f_t相乘用來表示遺忘信息，將i_t與g_t相乘作為新的備選信息，用這兩部分之和一起對單元狀態(tài)進(jìn)行更新。這一過程計(jì)算公式如下：

3）輸出門選擇輸出信息。首先用Sigmoid層來決定要輸出的單元狀態(tài)的相關(guān)信息o_t，然后用tanh函數(shù)處理單元狀態(tài)，得到一個-1～1之間的值，最后將兩部分信息相乘，得到要輸出的部分h_t，計(jì)算公式如下：

在實(shí)際訓(xùn)練學(xué)習(xí)過程中，搭建LSTM模型過程如下：

第一，訓(xùn)練詞向量，提取語料特征。利用Py-thon的Gensim包中集成的Word2Vec進(jìn)行詞向量訓(xùn)練，將詞語映射成200維向量，并做去停用詞、去除亂碼預(yù)處理。

第二，生成訓(xùn)練與測試數(shù)據(jù)集。根據(jù)不同平衡率的實(shí)驗(yàn)要求，從特征提取后的語料中選擇相應(yīng)的比例數(shù)據(jù)生成積極類和消極類訓(xùn)練數(shù)據(jù)集以及測試集的數(shù)據(jù)。

第三，定義LSTM的計(jì)算過程。用TensorFlow來實(shí)現(xiàn)LSTM，隱藏層網(wǎng)絡(luò)輸出維度為128，輸出層節(jié)點(diǎn)數(shù)為2，學(xué)習(xí)率設(shè)置為0.01，每批次傳入訓(xùn)練數(shù)據(jù)大小為16。定義損失函數(shù)Loss和優(yōu)化器Optimizer。

第四，將數(shù)據(jù)傳人定義模型的占位符，開始參數(shù)訓(xùn)練，設(shè)定迭代次數(shù)為20000次，訓(xùn)練結(jié)束后保存模型參數(shù)。

2.4集成學(xué)習(xí)

在類別不平衡程度較高的情況下，模型自適應(yīng)地采用將多數(shù)類樣本進(jìn)行多組欠采樣，并分別與少數(shù)類樣本構(gòu)成平衡的訓(xùn)練樣本集，然后進(jìn)行多組LSTM訓(xùn)練學(xué)習(xí)，每組LSTM模型相當(dāng)于集成學(xué)習(xí)中一個弱分類器。由于基學(xué)習(xí)器采用的是LSTM深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器，這種不穩(wěn)定學(xué)習(xí)算法對訓(xùn)練集十分敏感，采用多組欠采樣方式實(shí)現(xiàn)數(shù)據(jù)樣本擾動可以增強(qiáng)基學(xué)習(xí)器之間的多樣性，因此，集成學(xué)習(xí)采用Bagging法（又稱裝袋法），既能降低方差，又能提高訓(xùn)練穩(wěn)定性。多組LSTM基學(xué)習(xí)器還可以并行學(xué)習(xí)訓(xùn)練。

當(dāng)需要進(jìn)行分類預(yù)測時(shí)，測試樣本先在每一個訓(xùn)練好的LSTM基學(xué)習(xí)器上分別進(jìn)行分類預(yù)測，然后通過集成學(xué)習(xí)的投票法策略，對所有基學(xué)習(xí)器的分類結(jié)果進(jìn)行統(tǒng)計(jì)，將出現(xiàn)次數(shù)最多的預(yù)測類別作為最終的分類結(jié)果。

3實(shí)驗(yàn)與結(jié)果分析

3.1實(shí)驗(yàn)數(shù)據(jù)集

本文選取搜狗實(shí)驗(yàn)室提供的網(wǎng)絡(luò)評論語料作為情感分析詞向量的實(shí)驗(yàn)語料（搜狗實(shí)驗(yàn)室網(wǎng)絡(luò)語料URL地址：http：∥www.sogou.com/labs/resource/list_yuliao.php）。語料庫中包含圖書評論、酒店評論、電子產(chǎn)品評論等，其中積極評論有10673條，消極評論有10428條，表1給出了語料集合的部分樣例。實(shí)驗(yàn)在原始語料庫上，分別針對實(shí)驗(yàn)研究的低度和高度兩種類別不平衡程度，選擇積極類評論與消極類評論的比例分別為3：1和7：1。

3.2買驗(yàn)結(jié)果

為了驗(yàn)證本文選擇的LSTM深度學(xué)習(xí)框架和不平衡處理方法的有效性，實(shí)驗(yàn)采用情感分類中常用的準(zhǔn)確率作為評價(jià)指標(biāo)，由于本文研究的是不平衡數(shù)據(jù)的二類分類問題，實(shí)驗(yàn)中還選取了不平衡數(shù)據(jù)二元分類常用的綜合指標(biāo)F1值作為評價(jià)指標(biāo)。具體實(shí)驗(yàn)分成了3種情形進(jìn)行對比和分析：

1）LSTM方法與典型的深度學(xué)習(xí)方法在不平衡數(shù)據(jù)上的情感分析對比實(shí)驗(yàn)。

2）LSTM框架下不平衡處理方法的對比實(shí)驗(yàn)。

3）LSTM情感分析有效性驗(yàn)證。

3.2.1深度學(xué)習(xí)類別不平衡情感分析方法對比

為了驗(yàn)證深度學(xué)習(xí)方法在類別不平衡數(shù)據(jù)上的情感分析性能，本文選取典型的深度學(xué)習(xí)方法：卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）和門控循環(huán)單元（Gate Recurrent Unit，GRU）神經(jīng)網(wǎng)絡(luò)與本文采用的LSTM方法進(jìn)行對比。為了體現(xiàn)對比實(shí)驗(yàn)的公平性，實(shí)驗(yàn)中所有方法采用統(tǒng)一的不平衡數(shù)據(jù)處理：當(dāng)不平衡程度低時(shí)，對少數(shù)類樣本進(jìn)行隨機(jī)過采樣;當(dāng)不平衡程度高時(shí)，對多數(shù)類樣本進(jìn)行多次有放回欠采樣。

表2給出了高低兩種不平衡率情況下的深度學(xué)習(xí)方法在準(zhǔn)確率與F1值評價(jià)指標(biāo)上的對比實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果看，在低不平衡率和高不平衡率兩種情況下，卷積神經(jīng)網(wǎng)絡(luò)CNN性能最差，循環(huán)神經(jīng)網(wǎng)絡(luò)RNN性能較差，門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)GRU性能較好，長短期記憶神經(jīng)網(wǎng)絡(luò)LSTM性能最好，GRU與LSTM在低度不平衡情況下性能比較接近。具體來看，最低的準(zhǔn)確率是CNN方法在高度不平衡情況下取得的，其值為0.7001，同時(shí)它的F1值也是最低，其值為0.4419;最高的準(zhǔn)確率是LSTM方法在高度不平衡情況下取得的，其值為0.9349，最高的F1值是LSTM方法在低度不平衡情況下取得的，其值為0.8556。相對其他的深度學(xué)習(xí)方法，LSTM在準(zhǔn)確率指標(biāo)上至少提升4.09%（（0.9276-0.8897）/0.9276），在F1值指標(biāo)上至少提升9.29%（（0.8221-0.7457）/0.8221）。

3.2.2 LSTM框架下不平衡處理方法對比

為了驗(yàn)證LSTM框架下情感分析在不同不平衡處理情況下的實(shí)驗(yàn)性能，本文設(shè)計(jì)了5種數(shù)據(jù)不平衡處理情況下的基于LSTM的情感分類方法：

1）完全訓(xùn)練+LSTM方法，未對不平衡訓(xùn)練集做平衡化處理，直接用全部數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，利用LSTM進(jìn)行深度學(xué)習(xí)訓(xùn)練和分類預(yù)測。

2）隨機(jī)過采樣+LSTM方法，對少數(shù)類樣本進(jìn)行隨機(jī)過采樣，并與多數(shù)類樣本組合成平衡的訓(xùn)練數(shù)據(jù)，再利用LSTM進(jìn)行深度學(xué)習(xí)訓(xùn)練和分類預(yù)測。

3）隨機(jī)欠采樣+LSTM方法，對多數(shù)類樣本進(jìn)行隨機(jī)欠采樣，并與少數(shù)類樣本組合成平衡的訓(xùn)練數(shù)據(jù)，再利用LSTM進(jìn)行深度學(xué)習(xí)訓(xùn)練和分類預(yù)測。

4）隨機(jī)欠采樣+多通道LSTM，這是文獻(xiàn)[18]的方法，對多數(shù)類樣本進(jìn)行多組隨機(jī)欠采樣，并與少數(shù)類樣本組合成多組平衡的訓(xùn)練數(shù)據(jù)，分類器使用多通道LSTM神經(jīng)網(wǎng)絡(luò)。

5）自適應(yīng)采樣+LSTM方法，這是本文提出的方法，根據(jù)數(shù)據(jù)集不平衡程度自適應(yīng)選擇不同的采樣不平衡處理和訓(xùn)練預(yù)測框架。

圖3和圖4分別比較了低不平衡率和高不平衡率兩種情況下的不同方法在準(zhǔn)確率指標(biāo)上的對比實(shí)驗(yàn)結(jié)果，表3給出了這兩種情況下F1值指標(biāo)上的對比實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出：

1）所有經(jīng)過不平衡處理后的LSTM方法性能都優(yōu)于未經(jīng)不平衡處理完全訓(xùn)練的LSTM方法。

2）隨機(jī)欠采樣和隨機(jī)過采樣方法在不同平衡率下各有優(yōu)劣。

3）隨機(jī)采樣多通道LSTM方法在低不平衡率情況下，由于通道較少，性能優(yōu)勢不明顯。

4）自適應(yīng)采樣LSTM在不同平衡率下采用不同的采樣策略和學(xué)習(xí)策略，能保持很好的性能優(yōu)勢，總體性能最優(yōu)，相對未經(jīng)平衡化處理的完全訓(xùn)練LSTM方法準(zhǔn)確率至少提升22.82%（（0.9526-0.7756）/0.7756），F(xiàn)1值至少提升96.64%（（0.8426-0.4285）/0.4285），相對其他經(jīng)過平衡化處理的LSTM方法性能準(zhǔn)確率至少提升5.77%（（0.9526-0.9006）/0.9006），F(xiàn)1值至少提升23.89%（（0.8426-0.6801）/0.6801）。

3.2.3 LSTM情感分析有效性驗(yàn)證

為了驗(yàn)證LSTM深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練收斂性和有效性，在LSTM的迭代訓(xùn)練過程中統(tǒng)計(jì)了損失函數(shù)和預(yù)測準(zhǔn)確率。圖5給出了LSTM深度學(xué)習(xí)網(wǎng)絡(luò)在訓(xùn)練過程中不同迭代次數(shù)下的損失值Loss和預(yù)測準(zhǔn)確率Accuracy的變化曲線。從損失值曲線和準(zhǔn)確率曲線可以看出，LSTM在迭代過程中，隨著迭代次數(shù)的不斷增加，損失函數(shù)值逐漸減少，而準(zhǔn)確率在不斷上升。準(zhǔn)確率隨迭代次數(shù)的變化趨勢是開始時(shí)準(zhǔn)確率增加較快，后期的增長速率趨于平緩，逐漸趨向于1;損失函數(shù)值開始時(shí)減少速度快，后期減少速度放慢，并逐漸趨向于0。

3.3結(jié)果分析

1）典型深度學(xué)習(xí)方法在類別不平衡數(shù)據(jù)上的對比分析。

從對比實(shí)驗(yàn)結(jié)果來看，性能從低到高的方法依次是CNN、RNN、GRU和LSTM。而這4種方法的復(fù)雜程度也與這個順序一致。CNN是具有深度結(jié)構(gòu)的包含卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò)，常用于視覺數(shù)據(jù)之類的空間特征數(shù)據(jù)，如圖像識別。將情感分析的文本數(shù)據(jù)中的每個詞語表示成一個列向量，將一條評論文本看成是多個詞語列向量組成的二維數(shù)據(jù)時(shí)，CNN方法可以進(jìn)行情感分析。傳統(tǒng)RNN是序列模型，常用于文本數(shù)據(jù)分析，RNN的單元數(shù)比較多，梯度被近期單元的梯度主導(dǎo)，導(dǎo)致模型對長期的依賴關(guān)系不敏感，因此會出現(xiàn)梯度消失和梯度爆炸問題。而LSTM利用門機(jī)制解決了梯度消失問題，與此同時(shí)，LSTM利用細(xì)胞狀態(tài)保存長期記憶，結(jié)合門機(jī)制對信息進(jìn)行過濾，實(shí)現(xiàn)了對長期記憶的控制。GRU作為LSTM的一種變體，相對于LSTM而言參數(shù)更少、收斂更快，性能與LSTM接近，實(shí)驗(yàn)結(jié)果表明，LSTM性能略優(yōu)于GRU。總體來看，帶門控單元的RNN比傳統(tǒng)的RNN性能表現(xiàn)更好。

2）LSTM框架下不平衡處理方法對比分析。

在LSTM深度學(xué)習(xí)框架下，所有經(jīng)過不平衡處理后的方法的性能均優(yōu)于未經(jīng)不平衡處理完全訓(xùn)練的LSTM方法，這是因?yàn)閿?shù)據(jù)分布不平衡影響了機(jī)器學(xué)習(xí)的性能.通常這種情況下機(jī)器學(xué)習(xí)會向多數(shù)類產(chǎn)生偏倚，經(jīng)過平衡化處理后，不平衡性的影響得到一定程度的糾正，因此性能得到提升。簡單的隨機(jī)欠采樣和隨機(jī)過采樣方法在不同平衡率下各有優(yōu)劣，這說明選擇機(jī)器學(xué)習(xí)方法時(shí)應(yīng)在采樣信息損失與數(shù)據(jù)分布影響之間進(jìn)行平衡。將隨機(jī)采樣方法與多通道LSTM方法結(jié)合，進(jìn)行不平衡數(shù)據(jù)情感分析，在低不平衡率情況下，由于產(chǎn)生通道較少，性能優(yōu)勢不明顯。針對數(shù)據(jù)的不平衡程度，在不同平衡率下采用不同的采樣策略和學(xué)習(xí)策略，自適應(yīng)采樣LSTM方法能保持很好的性能優(yōu)勢，這表明機(jī)器學(xué)習(xí)對輸入數(shù)據(jù)的質(zhì)量與分布有較強(qiáng)的依賴性，機(jī)器學(xué)習(xí)的總體性能除了與方法模型有關(guān)外，還與輸入數(shù)據(jù)特性和數(shù)據(jù)預(yù)處理密切相關(guān)。

3）LSTM應(yīng)用于情感分析的有效性分析。

在LSTM深度學(xué)習(xí)的迭代優(yōu)化過程中，優(yōu)化器的優(yōu)化目標(biāo)是使預(yù)測值與真實(shí)值之間的損失最小，在不斷的迭代訓(xùn)練過程中，損失函數(shù)值逐漸減少，同時(shí)準(zhǔn)確率在不斷上升。實(shí)驗(yàn)驗(yàn)證結(jié)果顯示訓(xùn)練過程中預(yù)測準(zhǔn)確率一直上升，直至趨于平穩(wěn)，偶有波動，說明訓(xùn)練時(shí)也有過擬合情況，但LSTM的學(xué)習(xí)性能總體是很穩(wěn)定的。LSTM深度學(xué)習(xí)網(wǎng)絡(luò)由于采用門機(jī)制，解決了梯度消失問題，同時(shí)也簡化了調(diào)參的復(fù)雜度，門機(jī)制還具有特征過濾功能，豐富了自然語言處理中的向量的表示信息，在情感分析任務(wù)中是有效的方法模型。

4結(jié)語

本文針對不平衡數(shù)據(jù)的情感分析，在深度學(xué)習(xí)框架下，設(shè)計(jì)了一個自適應(yīng)的類別不平衡數(shù)據(jù)情感分析處理框架，分別對低不平衡率數(shù)據(jù)集進(jìn)行自適應(yīng)合成采樣或?qū)Ω卟黄胶饴蕯?shù)據(jù)集進(jìn)行有放回欠采樣，然后相應(yīng)地進(jìn)行一次LSTM深度學(xué)習(xí)訓(xùn)練或多組并行LSTM深度學(xué)習(xí)訓(xùn)練，以及單獨(dú)預(yù)測分類或集成學(xué)習(xí)預(yù)測分類。在真實(shí)的網(wǎng)絡(luò)語料上的實(shí)驗(yàn)表明，本文提出的方法能自適應(yīng)地處理不同程度的不平衡數(shù)據(jù)，充分利用LSTM具備學(xué)習(xí)長期依賴關(guān)系的特性，提高了不平衡數(shù)據(jù)情感分析性能。未來的改進(jìn)工作中，將探索不同的類別不平衡學(xué)習(xí)方法，優(yōu)化采樣技術(shù)，將代價(jià)敏感學(xué)習(xí)技術(shù)與主動學(xué)習(xí)技術(shù)融入不平衡數(shù)據(jù)情感分析中，以進(jìn)一步提升情感分類方法的性能。多類別不平衡情感數(shù)據(jù)分析和情感強(qiáng)度分析也是未來研究工作的主要方向。

（責(zé)任編輯：孫國雷）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度學(xué)習(xí)框架下類別不平衡數(shù)據(jù)情感分析