亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Stacking融合深度學(xué)習(xí)模型和傳統(tǒng)機器學(xué)習(xí)模型的短文本情感分類研究

2018-03-30 03:26:38周青松范興容

無線互聯(lián)科技 2018年24期

周青松范興容

摘要：短文本情感分類是一種面向主觀信息分類的文本分類任務(wù)，具有重要的研究價值和廣泛的應(yīng)用前景，如旅游景區(qū)口碑評價、輿情跟蹤、產(chǎn)品聲譽分析等。為了提高短文本情感分類準(zhǔn)確率，文章提出了一種基于Stacking融合深度學(xué)習(xí)模型和傳統(tǒng)機器學(xué)習(xí)模型的短文本情感分類方法。該方法從短文本數(shù)據(jù)集分別提取TFIDF和Word2Vec特征，并作為傳統(tǒng)機器學(xué)習(xí)模型和深度學(xué)習(xí)模型的輸入，再基于Stacking技術(shù)將多個基分類器（包括Logistic，Passive Aggressive，Ridge，SVC，SVR等傳統(tǒng)機器學(xué)習(xí)模型和深度學(xué)習(xí)文本分類模型TextRCNN）的分類結(jié)果進行融合處理，得到短文本情感分類的最終結(jié)果。該方法采用LightGBM作為Stacking最后一層的分類器，基于旅游景區(qū)網(wǎng)絡(luò)評論數(shù)據(jù)集進行了驗證。實驗結(jié)果表明，該方法能夠獲得比最好基分類方法更好的分類效果，而且對積極、中性和消極三類情感文本的平均分類準(zhǔn)確率達到了71.02%。

關(guān)鍵詞：短文本；情感分類；TFIDF；Word2Vec；Stacking

情感分析是一個新的研究領(lǐng)域，也是自然語言處理的經(jīng)典任務(wù)，一般文本情感分析是將文本分為3類：積極、中性、消極，對海量數(shù)據(jù)進行三分類。通過對用戶輸入的評論進行情感分析，進行情感傾向性判斷，可以用于旅游景區(qū)口碑評價、輿情跟蹤、產(chǎn)品聲譽分析等領(lǐng)域，也能為相關(guān)企業(yè)提供有力的決策支持。而且情感分析也可以應(yīng)用在chatbot或者智能客服領(lǐng)域，實時監(jiān)控用戶情感變化，當(dāng)用戶情感波動過大時，便可切換成人工客服，減少人工勞動成本。

1 已有研究

國內(nèi)外研究者們在文本情感分類方面做了大量研究。文獻[1]使用信息增益對高維文本進行特征降維，并據(jù)此提出了一種語義優(yōu)化理解和機器學(xué)習(xí)相結(jié)合的方法。文獻[2]利用TFIDF提取特征，并直接輸入支持向量機（Support Vector Machine，SVM）以得到分類結(jié)果。文獻[3]提出一種基于語義理解的文本情感分類方法，在情感詞識別中引入了情感義原，通過賦予概念情感語義，重新定義概念的情感相似度，得到詞語情感語義值。文獻[4]提出一種多層網(wǎng)絡(luò)H-RNN-CNN，用于處理中文文本情感分類任務(wù)。該文獻將文本按句子進行劃分，引入句子層作為中間層，以改善文本過長帶來的信息丟失等問題，而且模型中使用循環(huán)神經(jīng)網(wǎng)絡(luò)建模詞語序列和句子序列，并通過卷積神經(jīng)網(wǎng)絡(luò)識別跨語句的信息。文獻[5]提出了基于卷積神經(jīng)網(wǎng)絡(luò)算法的產(chǎn)品特征提取及情感分類模型，該模型采用卷積神經(jīng)網(wǎng)絡(luò)進行短文本評論情感分類，以情感分類標(biāo)簽標(biāo)注相應(yīng)評論中提取的產(chǎn)品特征詞，并利用詞向量對產(chǎn)品特征詞聚類。文獻[6]提出TextRCNN做文本分類，其效果優(yōu)于CNN和RNN。

就評論數(shù)據(jù)而言，數(shù)據(jù)集中包含了大量的冗余信息，而且存在一些噪音數(shù)據(jù)（如部分用戶給予好的評價文本，但卻給出了差評的標(biāo)簽），這些訓(xùn)練數(shù)據(jù)很容易給模型引入較大的誤差，從而導(dǎo)致傳統(tǒng)的機器學(xué)習(xí)方法很難取得滿意的分類準(zhǔn)確率。相比之下，基于深度學(xué)習(xí)的文本情感分類模型通過對語義的理解能夠更容易識別出語句中的反話。

針對此，本文提出了一種基于Stacking融合深度學(xué)習(xí)模型和傳統(tǒng)機器學(xué)習(xí)模型的短文本情感分類方法，以充分發(fā)揮各個模型的優(yōu)勢，以進一步提高短文本情感分類準(zhǔn)確率。

2 短文本情感分類模型

2.1 數(shù)據(jù)預(yù)處理流程

本模型數(shù)據(jù)輸入主要由TFIDF特征以及Word2Vec向量組成，根據(jù)深度模型和傳統(tǒng)機器學(xué)習(xí)模型的特點分別輸入文本的TFIDF特征和由文獻[7]提出的Word2Vec向量。

2.2 基分類器

2.2.1 傳統(tǒng)機器學(xué)習(xí)模型

本文采用的傳統(tǒng)機器學(xué)習(xí)模型包括分類和回歸兩類模型[8]?？紤]到TFIDF特征具有高維稀疏性，本文所選模型以線性模型為主。

具體所采用的模型描述如下。

（1）分類模型：Passive Aggressive Classifier，Linear SVC和Ridge Classifier。

（2）回歸模型：Logistic Regression，Ridge Regression，Passive Aggressive Regression，SVM（L2正則項）和Linear SVR。

2.2.2 深度學(xué)習(xí)文本分類模型

本文采用文獻[6]提出的深度學(xué)習(xí)文本分類模型TextRCNN，其結(jié)構(gòu)框圖如圖1所示。TextRCNN通過前向和后向RNN得到每個詞的前向和后向表達，讓一個詞的詞向量的表達含義更為精確，且綜合了一個詞的上下文的含義。

在TextRCNN參數(shù)選取上，輸入的Word2Vec詞向量維數(shù)為300維，考慮到評論數(shù)據(jù)具有簡短的特性，故最大詞數(shù)設(shè)為150，不足的部分補零即可，字典設(shè)置為1萬個詞，前向和后向LSTM的神經(jīng)元個數(shù)設(shè)置為256，全連接層神經(jīng)元為128，最后輸出層大小為3，激活函數(shù)為softmax函數(shù)。此外，在訓(xùn)練時batch_size設(shè)為512，epoch設(shè)為50，添加early_stop以保證結(jié)果收斂為最優(yōu)。

2.3 融合模型

本文采用文獻[9]所述的Stacking方案對基分類器進行融合處理，如圖2所示。需要說明的是所有基分類器輸出的結(jié)果作為特征輸入第二層分類模型（lightGBM）中。具體地，其融合過程的基本原理是在基分類器上對訓(xùn)練數(shù)據(jù)做n則交叉驗證（本文取n=5），設(shè)總訓(xùn)練集為M個，總測試集為N個，先從訓(xùn)練集拿出四折作為訓(xùn)練數(shù)據(jù)，另外一折作驗證數(shù)據(jù)，用四折訓(xùn)練好的模型去預(yù)測另外一則驗證數(shù)據(jù)，得到概率結(jié)果為Pi（i=1，2，3，…，n）。同時，用此模型去預(yù)測測試集會得到Ti（i=1，2，3，…，n），最后測試集輸出結(jié)果為T =，拼接訓(xùn)練集與測試集結(jié)果為[P1，P2，…，Pn，T]。如果基分類器采用分類模型則最后生成一組（M+N）×k維向量（k為分類類別數(shù)）；如果基分類器為回歸模型則生成（M+N）×1維向量。

3 實驗設(shè)計與結(jié)果分析

3.1 實驗環(huán)境與數(shù)據(jù)集

本文所采用的實驗環(huán)境為Python3.6，旅游景區(qū)網(wǎng)絡(luò)評論數(shù)據(jù)集通過爬蟲技術(shù)從互聯(lián)網(wǎng)旅游網(wǎng)站上對景區(qū)的評論文本采集獲得。該數(shù)據(jù)集包含130 085條評論和評分，其中1代表積極，2代表中性，3代表消極。部分原始數(shù)據(jù)，如圖3所示。

3.2 評價指標(biāo)

考慮到實際用途即是分析語句情感偏向，本文采用短文本情感分類準(zhǔn)確率，公式描述如下：

Accuracy = P/Q

其中，P表示測試集中短文本情感預(yù)測正確的個數(shù)，Q表示測試集中短文本的總樣本個數(shù)。

3.3 實驗設(shè)計及結(jié)果分析

3.3.1 數(shù)據(jù)清洗

由于是短評論，標(biāo)點符號對于情感的偏向影響很大，所以本文直接未去掉停用詞，并采用jieba分詞進行中文文本分詞。分詞過后的部分樣本數(shù)據(jù)，如圖4所示。

3.3.2 數(shù)據(jù)集劃分

本文將原始數(shù)據(jù)中80%劃分為訓(xùn)練集，其余作為測試集。

3.3.3 基分類器模型與融合模型的短文本情感分類結(jié)果分析

如表1所示，本文提出的融合方法具有最高的分類準(zhǔn)確率（71.02%）。進一步地，由于所選TextRCNN基分類器模型未采用過深的網(wǎng)絡(luò)結(jié)構(gòu)，該融合方法的運行速率高。

4 結(jié)語

為提高短文本情感分類準(zhǔn)確率，文本提出了一種基于Stacking融合深度學(xué)習(xí)模型和傳統(tǒng)機器學(xué)習(xí)模型的短文本情感分類方法。該方法根據(jù)Stacking融合算法將多個基分類器（即Logistic，Ridge，SVC，SVR等傳統(tǒng)機器學(xué)習(xí)模型和深度學(xué)習(xí)文本分類模型TextRCNN）的分類結(jié)果進行融合處理。本文將數(shù)據(jù)集旅游網(wǎng)站評論數(shù)據(jù)分為訓(xùn)練集和測試集，采用五則交叉驗證算法分別訓(xùn)練基分類器，并對基分類器模型和融合模型的短文本情感分類結(jié)果進行了對比分析。實驗結(jié)果表明，本文提出的融合方法能夠提高短文本情感分類的準(zhǔn)確率，最高達到71.02%，充分驗證了本方法的有效性。

[參考文獻]

[1]徐健鋒，許園，許元辰，等.基于語義理解和機器學(xué)習(xí)的混合的中文文本情感分類算法框架[J].計算機科學(xué)，2015（6）：61-66.

[2]樊康新.基于SVM的網(wǎng)絡(luò)文本情感分類系統(tǒng)的研究與設(shè)計[J].計算機時代，2015（12）：34-37.

[3]聞彬，何婷婷，羅樂，等.基于語義理解的文本情感分類方法研究[J].計算機科學(xué)，2010（6）：261-264.

[4]羅帆，王厚峰.結(jié)合RNN和CNN層次化網(wǎng)絡(luò)的中文文本情感分類[J].北京大學(xué)學(xué)報（自然科學(xué)版），2018（3）：459-465.

[5]李杰，李歡.基于深度學(xué)習(xí)的短文本評論產(chǎn)品特征提取及情感分類研究[J].情報理論與實踐，2018（2）：143-148.

[6]LAI S W，XU L H，LIU K，et al.Recurrent convolutional neural networks for text classification[C].Beijing：National Laboratory of Pattern Recognition（NLPR）Institute of Automation，Chinese Academy of Sciences，2015（333）：2267-2273.

[7]GOLDBERG Y，LEVY O.word2vec Explained： deriving Mikolov et al.s negative-sampling word-embedding method[M].Los Alamos：Eprint Arxiv，2014.

[8]張潤，王永濱.機器學(xué)習(xí)及其算法和發(fā)展研究[J].中國傳媒大學(xué)學(xué)報（自然科學(xué)版），2016（2）：10-18，24.

[9]GHORBANI A A，OWRANGH K.Stacked generalization in neural networks： generalization on statistically neutral problems[C].Washington：International Joint Conference on Neural Networks，2001.

無線互聯(lián)科技2018年24期

無線互聯(lián)科技的其它文章: 反滲透膜自動清洗設(shè)備上位監(jiān)控系統(tǒng)設(shè)計; 智能控制系統(tǒng)在砂石骨料行業(yè)中的應(yīng)用; 萬用表測定三極管3個電極的方法研究; 某公司1000MW機組深度調(diào)峰的操作實踐; 網(wǎng)頁設(shè)計中計算機圖像處理技術(shù)應(yīng)用探討; 基于移動互聯(lián)網(wǎng)社交平臺的大學(xué)生電商創(chuàng)業(yè)現(xiàn)狀