亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遷移學(xué)習(xí)的分層注意力網(wǎng)絡(luò)情感分析算法

        2018-12-14 05:30:46曲昭偉王曉茹
        計算機應(yīng)用 2018年11期
        關(guān)鍵詞:編碼器準(zhǔn)確率向量

        曲昭偉,王 源,王曉茹

        (1.北京郵電大學(xué) 網(wǎng)絡(luò)技術(shù)研究院,北京 100876; 2. 北京郵電大學(xué) 計算機學(xué)院,北京 100876)(*通信作者電子郵箱wyuan@bupt.edu.cn)

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和社交網(wǎng)絡(luò)的普及,越來越多的用戶選擇在社交網(wǎng)站上發(fā)表自己的觀點,產(chǎn)生了大量的評論信息,這些評論信息表達(dá)了用戶的情感色彩和情感傾向性,因此,通過對評論文本進(jìn)行情感分析可以判斷評論文本中的情感取向,應(yīng)用于市場分析以及相關(guān)產(chǎn)品推薦上。

        1 相關(guān)工作

        文本情感分析又稱為觀點挖掘,利用自然語言處理、文本分析等方法對帶有情感色彩的文本進(jìn)行分析、處理、推理和歸納[1]。

        情感分析方法主要有基于情感詞典匹配的方法以及基于機器學(xué)習(xí)的方法。隨著深度學(xué)習(xí)逐漸成為自然語言處理領(lǐng)域研究熱點,利用深度學(xué)習(xí)的方法解決情感分析問題的技術(shù)飛速發(fā)展[2]。在自然語言處理領(lǐng)域,例如循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)等深度神經(jīng)網(wǎng)絡(luò)在處理情感分析問題時具有明顯優(yōu)勢。長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)可以捕捉到評論語句中的長期依賴關(guān)系,從整體上理解文本的情感語義,與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)相比,RNN更適合處理序列信息。Li等[3]研究了樹結(jié)構(gòu)的LSTM網(wǎng)絡(luò);Cho等[4]提出了門循環(huán)單元(Gated Recurrent Unit, GRU),與LSTM網(wǎng)絡(luò)相比,具有更少的參數(shù);Ravanelli等[5]將一種加權(quán)循環(huán)單元應(yīng)用于語音識別領(lǐng)域,實驗結(jié)果證明該結(jié)構(gòu)具有較好的語音識別效果。

        近年來,遷移學(xué)習(xí)逐漸成為數(shù)據(jù)挖掘領(lǐng)域的研究重點,即將從源領(lǐng)域?qū)W習(xí)到的模型或思想應(yīng)用于目標(biāo)領(lǐng)域。在計算機視覺領(lǐng)域,在大規(guī)模圖像分類數(shù)據(jù)集(ImageNet)上訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)[6]可以用作其他模型中的組成部分,并在一系列任務(wù)上得到出色的結(jié)果。Zhuang等[7]提出一種基于雙編碼層自編碼器的監(jiān)督表示的遷移學(xué)習(xí)方法;Tan等[8]探究了以一種稱為遠(yuǎn)程域遷移學(xué)習(xí)的新型遷移學(xué)習(xí)問題,在目標(biāo)域與源域完全不同的情況下實現(xiàn)遷移學(xué)習(xí);Long等[9]提出了深度適配網(wǎng)絡(luò)的深度遷移學(xué)習(xí)方法;吳斌等[10]針對古代詩歌等短文本的情感分析問題提出一種基于特征擴(kuò)展的遷移學(xué)習(xí)模型。

        在文本情感分析問題中,利用Word2Vec[11]和GloVe[12]等模型進(jìn)行無監(jiān)督訓(xùn)練得到的詞向量遷移到自然語言處理任務(wù)中能夠提高模型的性能,但是這類無監(jiān)督訓(xùn)練得到的詞向量無法準(zhǔn)確代表上下文關(guān)系[13],該問題也限制了分類模型的準(zhǔn)確率。針對以上問題,本文提出一種基于遷移學(xué)習(xí)的分層注意力神經(jīng)網(wǎng)絡(luò)(Transfer Learning based Hierarchical Attention Neural Network, TLHANN)的情感分析方法,利用機器翻譯模型編碼器生成的詞的分布式表示與GloVe模型訓(xùn)練的詞向量相結(jié)合作為情感分析算法的輸入,準(zhǔn)確表示文本語境關(guān)系,并采用最小門單元(Minimal Gate Unit, MGU)[14]簡化算法結(jié)構(gòu),經(jīng)過大量實驗證明了本文算法的分類準(zhǔn)確率比傳統(tǒng)算法有較大提升。

        2 基于遷移學(xué)習(xí)的文本情感分析算法

        2.1 訓(xùn)練LSTM編碼器

        由于機器翻譯任務(wù)的數(shù)據(jù)集遠(yuǎn)大于其他自然語言處理任務(wù),本文提出的情感分析算法的第一部分是利用英語-德語翻譯任務(wù)訓(xùn)練一個LSTM編碼器。這一步驟的目的是為了得到可以應(yīng)用于文本情感分析的輔助的隱藏向量,從而提高情感分析算法的性能。這些輸出的隱藏向量與GloVe訓(xùn)練的詞向量相結(jié)合,作為情感分析部分的輸入。

        (1)

        (2)

        (3)

        (4)

        根據(jù)全局注意力模型[14],可變長度的對齊向量χt可以表示為:

        (5)

        (6)

        其中ct定義為源隱藏狀態(tài)的加權(quán)平均。最后輸出單詞的分布表示為:

        (7)

        經(jīng)過上述機器翻譯任務(wù)的訓(xùn)練之后,本文得到了一個雙向LSTM編碼器,利用這個編碼器得到新句子的隱藏向量,將它與傳統(tǒng)的GloVe向量相結(jié)合,如圖1所示。

        對于輸入序列w,后續(xù)情感分析模型的輸入x如式(8)所示:

        (8)

        圖1 將利用機器翻譯任務(wù)訓(xùn)練的編碼器遷移到情感分類任務(wù)中

        2.2 情感分析任務(wù)

        基于Yang等[16]提出的模型,本文采用的情感分析算法具有分層結(jié)構(gòu),分為單詞層和句子層。在每一層,使用一種簡化的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)單元——最小門單元(MGU)。MGU只有一個門單元——遺忘門,將輸入(重置)門合并入了遺忘(更新)門,結(jié)構(gòu)圖如圖2所示。在t時刻,MGU計算當(dāng)前的狀態(tài)為:

        (9)

        遺忘門控制上一時刻記憶的遺忘程度以及附加多少新信息,MGU的遺忘門的表示為:

        ft=σ(Wf+Ufht-1+bf)

        (10)

        (11)

        圖2 最小門單元結(jié)構(gòu)

        本文采用的是一種分層的情感分析算法,結(jié)構(gòu)如圖3所示。在單詞層,將翻譯任務(wù)訓(xùn)練得到的隱藏向量與GloVe向量相結(jié)合作為模型的輸入,并采用MGU網(wǎng)絡(luò)來模擬句子的語義表示。

        (12)

        (13)

        (14)

        (15)

        然后得到句子表示:

        (16)

        圖3 TLHANN算法結(jié)構(gòu)

        得到了句子層的表示si之后,利用相同方式獲得文檔層的表示:

        hi=MGU(si);i∈[1,m]

        (17)

        同樣,不同的句子對判別文檔的情感極性所起到的作用也有差異,因此,在句子層也采用注意力機制,并引入句子層的上下文向量vs,如式(18)~ (20)所示:

        vi=tanh(Wshi+bs)

        (18)

        (19)

        (20)

        d是最終得到的文檔表示,而上下文向量vs被隨機初始化并通過訓(xùn)練過程學(xué)習(xí)得到。

        上文得到的d總結(jié)了文檔中句子的所有信息,因此可以將它作為文檔情感分類的特征。使用一個多層感知器可以得到:

        (21)

        然后使用softmax層得到不同情感等級的概率分布:

        (22)

        其中:pc是情感等級是c的概率,C是情感等級數(shù)。

        本文使用黃金情感分布和模型預(yù)測的情感分析的交叉熵誤差作為損失函數(shù):

        (23)

        (24)

        3 實驗與分析

        3.1 數(shù)據(jù)集及實驗設(shè)置

        在進(jìn)行機器翻譯任務(wù)時使用了兩個數(shù)據(jù)集,分別為WMT2016的Multi30k數(shù)據(jù)集和IWSLT2016年的機器翻譯任務(wù)數(shù)據(jù)集,其中Multi30k的訓(xùn)練集由30 000個描述圖像的句子對組成,IWSLT2106的機器翻譯數(shù)據(jù)集訓(xùn)練集由209 772個句子對組成。在訓(xùn)練LSTM編碼器時,使用the CommonCrawl-840B GloVe 模型生成英語詞向量,得到300維的詞向量,這里的LSTM網(wǎng)絡(luò)的隱藏層隱藏單元數(shù)設(shè)置為300。訓(xùn)練時采用隨機梯度下降算法,學(xué)習(xí)率以1開始,當(dāng)驗證復(fù)雜度首次提高時,每個周期將學(xué)習(xí)率減半,Dropout均為0.2。在Multi30k數(shù)據(jù)集上訓(xùn)練的機器翻譯模型在測試集上的BLEU(BiLingual Evaluation Understudy)分?jǐn)?shù)為37.6,在IWSLT2106版本的機器翻譯數(shù)據(jù)集上訓(xùn)練得到的模型在測試集上的BLEU分?jǐn)?shù)為24.7。

        對于情感分析任務(wù),使用4個數(shù)據(jù)集:IMDB、IMDB2、Yelp2013和Yelp2014。數(shù)據(jù)集的詳細(xì)信息見表1,將數(shù)據(jù)集按8 ∶1 ∶1的比例分為training、development、testing集。

        表1 實驗數(shù)據(jù)集的統(tǒng)計信息

        本文使用兩個常用的模型評價指標(biāo):準(zhǔn)確率(Accuracy)和均方根誤差(Root Mean Square Error, RMSE),其中準(zhǔn)確率用來評價情感分析算法的表現(xiàn),RMSE用來衡量預(yù)測的情感級別和真實值的偏差。Accuracy和RMSE的公式如下:

        Accuracy=T/N

        (25)

        (26)

        其中:GRi是真實的情感等級,PRi是預(yù)測的情感等級,G是GRi與PRi相等的文檔數(shù),N是總文檔數(shù)。本文設(shè)置情感分析算法中MGU隱藏單元數(shù)為300,注意力機制中的單詞、句子上下文向量為300維。使用development集來調(diào)超參數(shù)并且使用Adadelta在訓(xùn)練中更新參數(shù)。

        3.2 實驗結(jié)果及分析

        本節(jié)分別將本文提出的基于遷移學(xué)習(xí)的分層注意力神經(jīng)網(wǎng)絡(luò)的情感分析方法與未引入遷移學(xué)習(xí)的方法包括SSWE (Sentiment-Specific Word Embeddings)+ SVM(Support Vector Machine)[17]、LSTM+ UPA(User Product Attention)[18]、LSTM+CBA(Cognition Based Attention)[19]進(jìn)行對比。其中SSWE+SVM利用特殊的情感詞嵌入,采用SVM分類器進(jìn)行情感分析;LSTM+UPA方法利用LSTM網(wǎng)絡(luò)結(jié)合注意力機制進(jìn)行情感分析;LSTM+CBA方法利用基于視覺追蹤數(shù)據(jù)的注意力機制的LSTM網(wǎng)絡(luò)進(jìn)行分析。實驗結(jié)果如表2和表3,其中表2為以上四種方法的分類準(zhǔn)確率, 文所提算法的分類準(zhǔn)確率與LSTM+CBA算法和SVM算法相比分別平均提升了8.7%及23.4%,表3為四種方法的均方根誤差值。從實驗結(jié)果可以看出,對于同樣的情感分析數(shù)據(jù)集,本文方法具有更高的分類準(zhǔn)確率和更小的誤差。

        表2 四種方法的分類準(zhǔn)確率對比

        表3 四種方法的分類均方根誤差對比

        另外,比較了在遷移學(xué)習(xí)部分中,用于訓(xùn)練LSTM編碼器的機器翻譯數(shù)據(jù)量對后續(xù)情感分析任務(wù)的影響,實驗結(jié)果如表4所示。實驗結(jié)果表明,翻譯數(shù)據(jù)集越大,將得到的LSTM編碼器遷移到情感分析任務(wù)時,對于算法性能的提升越大;也就是說,用于訓(xùn)練LSTM編碼器的機器翻譯數(shù)據(jù)集越大,將該編碼器遷移到情感分析任務(wù)中時,生成的分布式表示能夠更好地體現(xiàn)句子上下文關(guān)系,對于文本情感極性的預(yù)測更有幫助。

        表4 與隨機初始化詞向量相比本文算法的準(zhǔn)確率提升效果 %

        為了說明注意力機制的作用,在4個數(shù)據(jù)集上比較了本文的基于遷移學(xué)習(xí)的分層注意力神經(jīng)網(wǎng)絡(luò)(Transfer Learning based Hierarchical Attention Neural Network, TLHANN)與不引入注意力機制——基于遷移學(xué)習(xí)的分層神經(jīng)網(wǎng)絡(luò)(Transfer Learning based Hierarchical Neural Network, TLHNN)的性能,實驗結(jié)果如表5所示。從表5中可以看出,在情感分析算法中引入注意力機制能提升算法的性能,在IMDB、Yelp2013、Yelp2014和IMDB2數(shù)據(jù)集上的分類準(zhǔn)確率分別提升了4.0%、2.0%、2.3%以及10.6%。

        表5 注意力機制對于分類模型的影響(分類準(zhǔn)確率)

        4 結(jié)語

        本文針對情感分析問題提出了一個基于遷移學(xué)習(xí)的分層注意力神經(jīng)網(wǎng)絡(luò)(TLHANN)算法。首先利用機器翻譯任務(wù)訓(xùn)練一個LSTM編碼器,將其遷移到情感分析任務(wù)中用來生成分布式表示作為神經(jīng)網(wǎng)絡(luò)的輸入,并采用簡化的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),減少了模型參數(shù)數(shù)量。經(jīng)過大量實驗驗證了該算法在不同的數(shù)據(jù)集上的出色表現(xiàn)。研究其他自然語言處理任務(wù)對于情感分析問題的可遷移性并提高分類準(zhǔn)確率將成為下一步工作的重點。

        猜你喜歡
        編碼器準(zhǔn)確率向量
        向量的分解
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        聚焦“向量與三角”創(chuàng)新題
        基于FPGA的同步機軸角編碼器
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        向量垂直在解析幾何中的應(yīng)用
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        欧美最猛性xxxx| 中文不卡视频| 国产91第一页| 国产91精品清纯白嫩| 亚洲精品久久视频网站| 国产成人精品久久亚洲高清不卡| 在线视频观看免费视频18| 国产精品白浆一区二小说| 丰满人妻一区二区乱码中文电影网 | 国产啪亚洲国产精品无码| 国产chinese男男gay视频网| 国内精品国产三级国产av另类| 亚洲视频一区二区三区免费 | 国产午夜精品一区二区三区不卡| 国产偷国产偷亚洲欧美高清| 丰满人妻无奈张开双腿av| 人妻精品久久一区二区三区| 欧洲乱码伦视频免费| 特级做a爰片毛片免费看无码| 精品亚洲国产探花在线播放| 女同av免费在线播放| 中文字幕亚洲视频一区| 亚洲 欧美 日韩 国产综合 在线| 8ⅹ8x擦拨擦拨成人免费视频 | 无码日韩精品一区二区免费暖暖| 亚洲av成人无码精品电影在线| 五十路熟女一区二区三区| 日产精品一区二区免费| 蜜桃传媒免费在线观看| 精品综合久久久久久888蜜芽| 深夜福利小视频在线观看| 国产成人亚洲合集青青草原精品 | 加勒比亚洲视频在线播放| 中文字幕女同人妖熟女| 婷婷色香五月综合缴缴情 | 少妇高潮惨叫喷水在线观看| 国产三级国产精品三级在专区| 一区二区三区国产精品麻豆| 帅小伙自慰videogay男男| 中国xxx农村性视频| 欧美成人网视频|