亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于L-STM模型的中文情感分類

2018-11-17 01:26:10王景中龐丹丹

計(jì)算機(jī)工程與設(shè)計(jì) 2018年11期

王景中，龐丹丹

(北方工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院，北京 100144)

0 引言

情感分類是情感分析的具體任務(wù)，通過(guò)分析統(tǒng)計(jì)帶主觀傾向性文本，明晰發(fā)表者關(guān)于某事物態(tài)度，同時(shí)把文本區(qū)別成正、負(fù)情感極性。在電子商務(wù)蓬勃發(fā)展的網(wǎng)絡(luò)環(huán)境下，產(chǎn)品的評(píng)論數(shù)據(jù)已經(jīng)成為商家提高產(chǎn)品及服務(wù)質(zhì)量的重要數(shù)據(jù)來(lái)源。這些評(píng)論中包含用戶對(duì)產(chǎn)品各方面的情感傾向，對(duì)其進(jìn)行情感分類不僅可以幫助生產(chǎn)廠商和銷售商通過(guò)反饋信息來(lái)提高產(chǎn)品質(zhì)量、改善服務(wù)、提高競(jìng)爭(zhēng)力，還可為潛在消費(fèi)者提供網(wǎng)購(gòu)指導(dǎo)。文本情感分類能夠根據(jù)給定的文本數(shù)據(jù)自動(dòng)的判別出用戶觀點(diǎn)的情感極性[1]，具有非常重要的學(xué)術(shù)研究及實(shí)際應(yīng)用價(jià)值，也受到廣大學(xué)術(shù)研究者及商家、企業(yè)的關(guān)注。結(jié)合現(xiàn)狀來(lái)看，主要包含基于規(guī)則的、基于機(jī)器學(xué)習(xí)的、基于深度學(xué)習(xí)的3類情感分類研究。

上述分類方法主要通過(guò)向量空間模型完成特征表示，也就是把文本結(jié)構(gòu)化轉(zhuǎn)變成向量形式來(lái)計(jì)算，而把詞當(dāng)作文本特征后，會(huì)造成特征高維情況，一旦訓(xùn)練次數(shù)有所失誤，高維數(shù)據(jù)更可能引起過(guò)擬合問(wèn)題，文本分類器泛化能力隨之下降。本文基于張量空間模型，將文本數(shù)據(jù)映射到空間內(nèi)，同時(shí)完成相關(guān)計(jì)算，面對(duì)以上情況時(shí)，有助于降低過(guò)擬合可能性。除此之外，利用支持張量機(jī)(STM)、LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)造出L-STM算法模型，科學(xué)設(shè)置超平面參數(shù)，由此減少計(jì)算期間迭代次數(shù)，加快文本訓(xùn)練速度。實(shí)驗(yàn)結(jié)果表明，L-STM模型較傳統(tǒng)文本分類模型具有更高的分類準(zhǔn)確率。本文創(chuàng)新點(diǎn)與意義如下：利用張量空間模型使文本數(shù)據(jù)張量化，有助于規(guī)避高維數(shù)據(jù)過(guò)擬合現(xiàn)象；基于STM算法提出L-STM算法模型，有效減少了求解最優(yōu)解的迭代次數(shù)，進(jìn)而縮短了文本的訓(xùn)練時(shí)間；3組實(shí)驗(yàn)結(jié)果表明本文方法的有效性、可行性。

1 相關(guān)技術(shù)

1.1 Word2Vec

引入詞向量的目的是將語(yǔ)言中的詞進(jìn)行數(shù)學(xué)化，即將詞轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的形式，從而可通過(guò)各種算法完成自然語(yǔ)言處理任務(wù)。文獻(xiàn)[2]介紹了一種經(jīng)典的詞向量表示方法One-hot repre-sentation，但其缺點(diǎn)是維度過(guò)高且不能很好的表達(dá)詞與詞之間的語(yǔ)義關(guān)系。

Word2Vec[3]作為Google于2013年開源的工具包，重點(diǎn)在于獲得word vector，它高效、容易使用，只需進(jìn)行相應(yīng)訓(xùn)練，便能將文本數(shù)據(jù)轉(zhuǎn)變成K維向量數(shù)據(jù)。這種算法不僅能獲取語(yǔ)境信息、壓縮信息規(guī)模，還提供CBOW (continuous bag of words model)和Skip-gram(continuous skip-gram model)語(yǔ)言模型，且CBOW、Skip-gram全部擁有輸入/輸出層與映射層，兩者訓(xùn)練過(guò)程大體相似。

word embedding訓(xùn)練階段，由于Skip-gram模型具備高效、準(zhǔn)確等優(yōu)點(diǎn)，故而得到普遍利用。詳細(xì)結(jié)構(gòu)如圖1所示。

圖1 Skip-gram模型

若給定一個(gè)需要訓(xùn)練的詞序列W1、W2、…、Wn，那么Skip-gram模型的目標(biāo)就是最大化概率取log的平均值即使式(1)最大

(1)

式中：c值的大小與模型的訓(xùn)練效果成正比，即c值越大，效果更理想，然而訓(xùn)練時(shí)間也會(huì)相應(yīng)延長(zhǎng)[4]；對(duì)于文本分類而言，僅用保證訓(xùn)練語(yǔ)料庫(kù)與窗口大小C符合要求，便能快速獲得更理想詞向量。

現(xiàn)階段，word embedding常用于POS、Tagging[5]、中文分詞、情感分類等方面，實(shí)用效果非常顯著。

1.2 張量理論

定義1 高維空間中向量自身拓展即為張量，N階張量是指A∈RI1×I2×…×IN，A中的元素用ai1,i2,…,iN表示，其中1≤in≤IN，1≤n≤N。

定義2n模式積：張量和矩陣的n模式積是指S∈RI1×I2×…IK與矩陣E∈RIN×J的n模式積表示為S?E，可得新張量Β∈RI1×I2×…In-1×In×…×Ik，B∈S?E值即為一N-1階張量。

定義3 秩一分解：如果一K階張量可表示成K個(gè)向量外積，那么此向量又叫做秩一分解。也就是

S=∏(1)*∏(2)*…*∏(K)
si1,i2,…ik=πi1πi2…πik

(2)

1.3 支持張量機(jī)問(wèn)題描述

(3)

借鑒SVM最大化分類間隔的思想，引入松弛變量c和懲罰因子ξi(1≤i≤M)，得到等價(jià)的優(yōu)化問(wèn)題如下

(4)

為了求解上式的最優(yōu)化問(wèn)題，引入拉格朗日乘子αi≥0,ki≥0(1≤i≤N)。則其拉格朗日函數(shù)數(shù)為

(5)

(6)

(7)

(8)

(9)

1.4 LSTM神經(jīng)網(wǎng)絡(luò)

LSTM[8]是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)，不僅能夠解決RNN的梯度消失問(wèn)題[9]，還能學(xué)習(xí)長(zhǎng)期的依賴關(guān)系。LSTM模型用存儲(chǔ)單元替代常規(guī)的神經(jīng)元，而每個(gè)存儲(chǔ)單元是與一個(gè)輸入門、一個(gè)輸出門和一個(gè)跨越時(shí)間步驟無(wú)干擾送入自身的內(nèi)部狀態(tài)(Cell)相關(guān)聯(lián)的，如圖2所示。

圖2 LSTM模型

Cell狀態(tài)是LSTM神經(jīng)網(wǎng)絡(luò)的關(guān)鍵，它類似一個(gè)傳送帶可以直接在整個(gè)鏈上運(yùn)行，只有一些少量的線性交互且信息在上面流傳不易改變。

2 基于L-STM模型的情感分類系統(tǒng)

2.1 整體架構(gòu)

結(jié)合實(shí)際情況考慮，本次選擇半監(jiān)督學(xué)習(xí)方式，首先需要完成相關(guān)數(shù)據(jù)集(帶標(biāo)簽)預(yù)處理，并利用Skip-gram模型直接訓(xùn)練word embedding；其次，把數(shù)據(jù)由向量變換為張量形式，同時(shí)當(dāng)作L-STM模型輸入，經(jīng)計(jì)算分析獲取最優(yōu)解；最后利用決策函數(shù)明確文本分類情況，簡(jiǎn)單來(lái)看，決策函數(shù)值大于或小于零時(shí)，文本級(jí)別分別是正和負(fù)?；炯軜?gòu)如圖3所示。

圖3 情感分類流程

2.2 數(shù)據(jù)轉(zhuǎn)換模塊

此次模型輸入選擇張量數(shù)據(jù)，有助于降低數(shù)據(jù)高維與過(guò)擬合可能性。以下是向量數(shù)據(jù)張量化步驟：

(1)預(yù)處理完成時(shí)需進(jìn)行有效整理，借此得到文本向量數(shù)目是n，并以TF-IDF對(duì)這些向量進(jìn)行加權(quán)表示。

(3)數(shù)據(jù)轉(zhuǎn)化。結(jié)合當(dāng)前映射方式來(lái)看，基本包含如下兩步：第一，遵照相應(yīng)規(guī)則進(jìn)行特征排序；第二，遵照相應(yīng)規(guī)律將所有特征向量填充至矩陣。本文按照特征詞相關(guān)文檔頻率來(lái)排序，然后按給定順序?yàn)閺埩扛魈卣魈畛湎鄳?yīng)內(nèi)容，而末尾不足位可補(bǔ)0。轉(zhuǎn)換情況參如圖4所示。

圖4 數(shù)據(jù)轉(zhuǎn)化

2.3 L-STM模型算法描述

L-STM模型算法流程如圖5所示。

圖5 L-STM模型算法流程

算法描述：

(10)

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)平臺(tái)選擇Intel Corei7 8 GB內(nèi)存PC機(jī)，基于Ubuntu/Linux系統(tǒng)環(huán)境通過(guò)Matlab工具編寫全部代碼，張量計(jì)算方面需要使用Matlab Tensor Toolbox，SVM借助LIBSVMS來(lái)實(shí)現(xiàn)。

3.2 實(shí)驗(yàn)數(shù)據(jù)

為檢驗(yàn)該方法對(duì)于中文情感分類有無(wú)實(shí)用性，這里將專家已標(biāo)注文本集作為測(cè)試數(shù)據(jù)，完成測(cè)試分析。根據(jù)中文情感文本語(yǔ)料庫(kù)現(xiàn)狀可知，我國(guó)常用數(shù)據(jù)來(lái)自于兩方面：其一,COAE內(nèi)部40 000份文本；其二，中科院譚松波博士團(tuán)隊(duì)綜合匯總所得語(yǔ)料。本次數(shù)據(jù)集采用該團(tuán)隊(duì)有關(guān)酒店評(píng)論[10]情感語(yǔ)料開展實(shí)驗(yàn)，由4000份已標(biāo)注評(píng)論文本集取得1800個(gè)文本，褒義、貶義分別有900個(gè)，在此基礎(chǔ)之上，隨機(jī)選取3次構(gòu)造3組實(shí)驗(yàn)數(shù)據(jù)集，具體情況參見表1。

表1 3組實(shí)驗(yàn)數(shù)據(jù)集

3.3 情感分類評(píng)價(jià)指標(biāo)

針對(duì)文本分類質(zhì)量，本次通過(guò)查準(zhǔn)率、查全率、F值進(jìn)行評(píng)價(jià)，關(guān)于查準(zhǔn)率、查全率，分別表示準(zhǔn)確判定成某類的文本數(shù)和判定成該類的文本總數(shù)、實(shí)際為該類的文本總數(shù)之比，關(guān)于F值，可全面反映總體指標(biāo)

3.4 Word2vec參數(shù)調(diào)整

參數(shù)設(shè)置與模型訓(xùn)練關(guān)系密切，由于各項(xiàng)參數(shù)調(diào)整會(huì)給訓(xùn)練速度與詞向量質(zhì)量帶來(lái)各種影響。前面1.1節(jié)指出，當(dāng)訓(xùn)練語(yǔ)料庫(kù)非常大時(shí)，通過(guò)有效調(diào)整窗口大小C便能得到更高質(zhì)word embedding?？紤]到這一點(diǎn)，這里選擇ARR(adjusted ratio of ratios)算法[11]設(shè)置word2vec模型窗口，由此討論C與訓(xùn)練用時(shí)、文本情感分類準(zhǔn)確率間對(duì)應(yīng)關(guān)系。從式(11)來(lái)看，SR代表模型分類準(zhǔn)確率，T代表訓(xùn)練用時(shí)。對(duì)于分類準(zhǔn)確率與訓(xùn)練時(shí)間重要性評(píng)價(jià)，必須利用AccD這項(xiàng)參數(shù)完成，為確保二者獲得同樣重視，這里把AccD值設(shè)定成1%

(11)

由word2vec調(diào)參實(shí)驗(yàn)來(lái)看，為進(jìn)一步保證分類準(zhǔn)確率，采用15種評(píng)論數(shù)據(jù)分類分析，具體情況參見表2。

表2 15種評(píng)論數(shù)據(jù)集

圖6主要利用word2vec模型完成評(píng)論數(shù)據(jù)分類工作，結(jié)合圖例不難發(fā)現(xiàn)，各種窗口大小下分類準(zhǔn)確率有所區(qū)別，如果將word2vec模型窗口大小設(shè)定成20，那么能實(shí)現(xiàn)最高準(zhǔn)確率，無(wú)論窗口過(guò)大還是過(guò)小，分類準(zhǔn)確率必定受到影響，故而需要結(jié)合實(shí)際情況來(lái)處理，促使結(jié)果更加理想。

圖6 窗口大小-準(zhǔn)確率

圖7主要按照式(11)求解所得各種窗口大小對(duì)應(yīng)ARR值，結(jié)合圖例不難發(fā)現(xiàn)，如果ARR值最大，窗口大小是20。換言之，將窗口設(shè)定成20后，可快速獲取更高質(zhì)word embedding。

圖7 窗口大小-ARR值

3.5 實(shí)驗(yàn)結(jié)果與分析

針對(duì)基于張量空間的L-STM模型，本次通過(guò)3組實(shí)驗(yàn)判斷其實(shí)用價(jià)值，第一組主要測(cè)試同一分類模型SVM內(nèi)文本數(shù)據(jù)向量化、張量化對(duì)應(yīng)分類性能，然后以macroF1、microF1進(jìn)行分類準(zhǔn)確率評(píng)價(jià)，為提高本次實(shí)驗(yàn)合理性，促使結(jié)果更加準(zhǔn)確，各組數(shù)據(jù)都進(jìn)行50次實(shí)驗(yàn)，再求出每組數(shù)據(jù)平均值，具體情況參見表3。

表3 文本表示形式對(duì)分類結(jié)果的影響

根據(jù)表3進(jìn)行說(shuō)明，通過(guò)表中結(jié)果不難發(fā)現(xiàn)，同一測(cè)試數(shù)據(jù)、分類模型下，對(duì)比文本數(shù)據(jù)張量化、向量化不難發(fā)現(xiàn)，前者分類能力更加強(qiáng)大。

第二組主要測(cè)試L-STM、STM模型最大迭代次數(shù)和測(cè)試精度間關(guān)系，詳情參如圖8所示。

圖8 迭代次數(shù)與測(cè)試精度關(guān)系

結(jié)合圖8進(jìn)行說(shuō)明，通過(guò)圖例分析不難發(fā)現(xiàn)，隨著迭代次數(shù)持續(xù)增加，STM和L-STM測(cè)試精度不斷提高。在同一迭代次數(shù)條件下，L-STM、STM測(cè)試精度及其升高幅度相比，前者更高，由此驗(yàn)證在模型參數(shù)滿足收斂條件前提下，前者用時(shí)較短，訓(xùn)練較快。

第三組主要測(cè)試不同向量描述形式以不同分類模型處理所得分類結(jié)果，若文本描述成向量形式，采用典型SVM分類模型，若描述成張量形式，依次通過(guò)STM與L-STM模型開展實(shí)驗(yàn)分析工作，結(jié)果見表4。

根據(jù)表4進(jìn)行說(shuō)明，通過(guò)各評(píng)價(jià)指標(biāo)不難發(fā)現(xiàn)，L-STM與SVM、STM模型相比，分類性能更加出色，由此能夠證明，本次實(shí)現(xiàn)的基于張量空間的L-STM模型各方面比較優(yōu)異，無(wú)論從分類準(zhǔn)確率亦或訓(xùn)練時(shí)間來(lái)看，均好于其它模型。

表4 分類結(jié)果情況

4 結(jié)束語(yǔ)

本文基于STL框架把支持張量機(jī)應(yīng)用于情感分類領(lǐng)域，然后將文本數(shù)據(jù)張量化作為L(zhǎng)-STM模型輸入，通過(guò)連續(xù)優(yōu)化與迭代，可得參數(shù)最優(yōu)解，再以決策函數(shù)為前提明確文本情感極性。這種方法優(yōu)勢(shì)明顯，一方面可維護(hù)文本數(shù)據(jù)結(jié)構(gòu)信息，另一方面可預(yù)防傳統(tǒng)向量模型學(xué)習(xí)期間過(guò)擬合問(wèn)題，不僅如此，L-STM模型在STM模型基礎(chǔ)上融入LSTM神經(jīng)網(wǎng)絡(luò)，可以讓STM模型所得向量序列完成更高等級(jí)優(yōu)化，由此降低參數(shù)最優(yōu)解計(jì)算期間迭代次數(shù)，節(jié)省文本訓(xùn)練時(shí)間，最后采用3組實(shí)驗(yàn)進(jìn)行分析，表明情感分類方面L-STM模型更合理、更準(zhǔn)確、更強(qiáng)大。