亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BiGRU 和注意力機制的多標(biāo)簽文本分類模型

        2020-03-05 06:06:34饒竹一張云翔
        現(xiàn)代計算機 2020年1期
        關(guān)鍵詞:注意力標(biāo)簽向量

        饒竹一,張云翔

        (深圳供電局有限公司,深圳518001)

        0 引言

        情感識別是自然語言處理重要課題之一。在互聯(lián)網(wǎng)高度發(fā)達的今天,人們通過微博、新聞網(wǎng)站、論壇等線上發(fā)表言論。這些言論的發(fā)表,篇幅不定,詞匯量不限且沒有嚴(yán)格的語法規(guī)則,具有較強的主觀傾向。其中,負面言論是急需關(guān)注的重要課題,若無法正確對言論情感進行識別,就無法及時阻止網(wǎng)絡(luò)暴力的發(fā)生,防范危害到個人乃至企業(yè)信譽的行為。同時,正確的言論情感識別能夠幫助政府了解民眾意見,企業(yè)聆聽用戶聲音。在這樣的背景下,電網(wǎng)相關(guān)的網(wǎng)絡(luò)文本情感識別就具有很高的研究意義。

        文本的情感識別主要基于兩種方法:情感極性詞典和傳統(tǒng)機器學(xué)習(xí)方法,其中包括對情感資源的構(gòu)建、語句分割、特征信息提取、質(zhì)量分析等[1]。網(wǎng)絡(luò)時代的到來促進許多新詞匯的誕生,對基于情感極性詞典的情感分類模型有著很大的影響,現(xiàn)有的情感極性詞典有限,且模型無法有效識別新近產(chǎn)生的單詞或流行詞。Manek 和Shenoy 使用傳統(tǒng)的機器學(xué)習(xí)算法來分析評論的情感。他們主要從準(zhǔn)確率以及F 值上比較樸素貝葉斯,ME 和SVM 的性能。結(jié)果表明,支持向量機具有最好的分類效果,隨著深度學(xué)習(xí)研究的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在自然語言處理中有著出色的表現(xiàn)[2]。Kim 使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)解決情感識別問題,取得了良好的效果[3]。Santos 使用深度卷積神經(jīng)網(wǎng)絡(luò)來分析文本包含的情感,Irsoy 證明長短期記憶網(wǎng)絡(luò)(LSTM)作為一種遞歸神經(jīng)網(wǎng)絡(luò)模型,也是一種解決文本情感識別的有效方法[4]。Bahdanau 將最初應(yīng)用于機器翻譯的注意力模型用于NLP 中[5]。Qu 和Wang 提出了一種基于分層注意網(wǎng)絡(luò)的情感分析模型,較傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)效果有著較大的改善[6]。田生偉等人將雙向LSTM 與注意力機制相結(jié)合,在維吾爾語時序事件上的識別取得了不錯的效果[7]。張玉環(huán)等人則將GRU 與LSTM 相結(jié)合,使得文本情感分類模型能在短時間內(nèi)達到較高的準(zhǔn)確率[8]。成璐使用注意力機制和BiLSTM 構(gòu)建的的神經(jīng)網(wǎng)絡(luò)模型,對用戶評論文本進行情感分析,使用Bi-LSTM 提取詞向量中的文本特征,再放入注意力機制層突出文本分類中的重點信息[9]。

        針對上述問題,提出了一種基于BiGRU 和注意力機制的多標(biāo)簽文本分類模型。BiGRU 模型是基于BiLSTM 模型的改進,將LSTM 模塊替換為GRU,在保證分類準(zhǔn)確度的情況下大大提高了網(wǎng)絡(luò)的訓(xùn)練速度。注意力機制的使用使得神經(jīng)網(wǎng)絡(luò)可以聚焦于對分類效果有提升的重要信息,相比LSTM 進一步提高了分類的準(zhǔn)確度。除此之外,我們使用了預(yù)訓(xùn)練的詞向量和遷移學(xué)習(xí)技術(shù),進一步縮短了訓(xùn)練時間并獲得了更好的詞向量表示,可以用于電網(wǎng)相關(guān)的網(wǎng)絡(luò)文本情感識別。

        1 算法實現(xiàn)

        1.1 雙向長短時記憶網(wǎng)絡(luò)

        BiLSTM 是普通RNN 的一種延伸[10],RNN 與普通神經(jīng)網(wǎng)絡(luò)區(qū)別在于神經(jīng)元不僅接受當(dāng)前時刻的輸入,同時也接受前一個神經(jīng)元的輸出,這就解決了文本中需要考慮前文信息的問題。實際應(yīng)用中,僅僅考慮前文的信息是不夠的,前文也需要添加下文的信息,為了解決這一問題,雙向RNN(BiRNN)誕生了。BiRNN 在普通RNN 基礎(chǔ)上添加了反向運算,即將輸入的序列反轉(zhuǎn)后再計算一遍輸出,最后的結(jié)果是正向RNN 與反向RNN 結(jié)果的堆疊。理論上BiRNN 可以考慮到上下文的信息,但實際應(yīng)用中發(fā)現(xiàn)BiRNN 很難處理具有長期依賴關(guān)系的信息,一個簡單的例子是在英文句子生成時,如果句子很長,在生成謂語動詞時,RNN 無法記住主語的單復(fù)數(shù)形式并選擇合適的謂語動詞。為了解決這一問題,LSTM 引入了門控機制,包括遺忘門(forget gate)、輸入門(input gate)和輸出門(output gate)。其中,遺忘門用于控制前一時刻輸入信息通過的比例,具體的計算方式如下:其中,y 表示輸出向量,xt∈Rd是t 時刻的d 維輸入向量,W 是權(quán)重矩陣,b 是偏置向量,hf∈Rd和hb∈Rd分布表示LSTM 前向和后向的輸出向量。

        1.2 雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)

        雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(BiGRU)可以看做雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)的一種拓展,將BiLSTM 中的LSTM 模塊替換為GRU[11]。GRU 將LSTM 中隱藏狀態(tài)和細胞狀態(tài)合并成一種狀態(tài),因此顯著縮短了訓(xùn)練時間,在大型語料文本的訓(xùn)練速度上有顯著的提升。更明確地說,GRU 讀取詞嵌入向量t_i 以及隱藏層狀態(tài)向量h_(i-1)后,經(jīng)過門控計算產(chǎn)生輸出向量c_i 和隱藏層狀態(tài)向量h_i,具體計算方法參考下列公式:

        其中,z ∈Rd,r ∈Rd分別表示接受d 維向量的輸入門與重置門,{Wz,Wr,W,Vz,vr,V}表示權(quán)重矩陣,{bz,br,b}為偏置向量,⊙表示矩陣點乘。

        1.3 注意力機制

        注意力機制首先在計算機視覺中提出,它受到人類視覺處理過程的啟發(fā),即人腦時不會處理全部視覺信息,而是聚焦于特定的部分。這一機制已經(jīng)被廣泛應(yīng)用于多種領(lǐng)域,包括圖像標(biāo)題生成、文本分類、語音識別和機器翻譯[12]。

        在神經(jīng)網(wǎng)絡(luò)中,注意力機制可以被視為一種資源分配方案,對重要的信息分配更多的注意力或者計算資源,這有利于解決信息超載問題。在實踐中,注意力機制通常可以分為兩種:一種是自上而下的聚焦式注意力,通常是有意識的并且是任務(wù)相關(guān)的,主動聚焦于某一對象。另一種是自下而上的無意識注意力,這類注意力和任務(wù)無關(guān),主要由外界驅(qū)動,又稱為基于顯著性(Saliency-based)的注意力。例如,在卷積神經(jīng)網(wǎng)絡(luò)(CNN)和LATM 中,池化(Pooling)和門控機制可以被視為基于顯著性的注意力機制。

        神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)使用向量表示,我們用[x1,…,xN]表示任務(wù)相關(guān)的輸入向量,為了給特定的數(shù)據(jù)更多的權(quán)重,注意力機制引入了查詢向量q(Query Vector),通過打分函數(shù)計查詢向量和輸入向量直接的相關(guān)性,同時引入了一個注意力變量t ∈[1,N]代表選擇的索引位置。具體計算方式如下:

        這里,αi是注意力分布,是注意力打分函數(shù)。注意力打分函數(shù)可以有多種定義方式,在本文中,我們采用基于縮放點積的自注意力模型,縮放點積定義如下:

        d 表示輸入向量的維度。縮放點積模型是基于點積模型的一種改進,區(qū)別在于縮放點積模型除以向量維度d 的平方根。當(dāng)d 很大時,點積模型的值會出現(xiàn)較大的方差,因此導(dǎo)致Softmax 的梯度變小,縮放點積模型的提出解決了這一問題。

        2 實驗

        2.1 數(shù)據(jù)集介紹

        實驗采用著名數(shù)據(jù)競賽Kaggle 上的數(shù)據(jù)集測試模型,該數(shù)據(jù)集由維基百科上的評論構(gòu)成,標(biāo)簽均由人工標(biāo)注,共定義了6 類標(biāo)簽,分別是“toxic”、“severe_toxic”、“obscene”、“threat”、“insult”和“identity_hate”。每個評論可能有多個標(biāo)簽,也可能沒有標(biāo)簽,模型需要給出每個評論在6 類標(biāo)簽上的概率,因此這是一個多標(biāo)簽文本分類問題。所有類別在數(shù)據(jù)集上的分布如圖1所示。

        圖1 評論種類以及數(shù)量

        2.2 實驗設(shè)計

        在實驗中我們的網(wǎng)絡(luò)架構(gòu)設(shè)計如圖2。

        圖2 網(wǎng)絡(luò)架構(gòu)

        其中,輸入層包含200 個神經(jīng)元,即每個評論取前200 個字符,不足200 的話則自動補全。Embedding層,attention 層和BiGRU 神經(jīng)元數(shù)目分別為100、128和256,輸出層為6 個神經(jīng)元組成的全連接層,計算每個評論在6 類標(biāo)簽上的概率。我們使用Embedding 層作為一種遷移學(xué)習(xí)技術(shù)加載預(yù)訓(xùn)練的詞向量,以此縮短訓(xùn)練時間并獲得針對評論數(shù)據(jù)的更好表示。Attention 層用來訓(xùn)練對特定的詞向量給予更高權(quán)重以提高分類的準(zhǔn)確率,輸出層則將常見的Softmax 替換為全連接層,每個神經(jīng)元均輸出一個[0,1]范圍內(nèi)數(shù)值代表特定類別的分類準(zhǔn)確度。

        為了讓神經(jīng)網(wǎng)絡(luò)充分學(xué)習(xí)到文本的特征,我們采用了預(yù)訓(xùn)練詞向量和自注意力機制。在實驗中,我們使用了GloVe 詞向量[13],基于共現(xiàn)矩陣分解實現(xiàn),每個詞使用100 維向量表示,向量之間的距離越短,表示兩個詞的相似度越高。該詞向量集合使用了60 億單字(Token)語料庫訓(xùn)練,共包含400K 的字符,由斯坦福大學(xué)的研究團隊提供。自注意力模型引入了Q、K 和V三個查詢向量序列,采用縮放點積作為打分函數(shù),可以“動態(tài)”地生成不同連接的權(quán)重,可以用來處理變長的信息序列。我們將數(shù)據(jù)集分割為訓(xùn)練集與驗證集,其中驗證集評論數(shù)目占20%,訓(xùn)練集數(shù)目占80%。

        實驗平臺的具體配置如下:

        操作系統(tǒng):Windows 10

        CPU:Intel i7-6700

        RAM:32G

        深度學(xué)習(xí)框架:TensorFlow 1.13.1

        開發(fā)工具:Visual Studio Code

        編程語言:Python 3.6

        3 實驗結(jié)果與分析

        3.1 實驗結(jié)果

        Adam 是一種基于隨機梯度下降(SGD)的一階優(yōu)化算法,與SGD 不同在于SGD 在訓(xùn)練過程中學(xué)習(xí)率不會改變,而Adam 通過計算梯度的一階和二階矩估計動態(tài)改變學(xué)習(xí)率,是一種自適應(yīng)學(xué)習(xí)率優(yōu)化算法,同時結(jié)合了AdaGrad 和RMSProp 兩種算法的優(yōu)點。Adam優(yōu)化算法被用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),實驗結(jié)果顯示Adam算法效果卓越,如圖3 所示,使用Adam 算法后在訓(xùn)練集和測試集上的loss 均能夠降低到0.05 左右。

        圖3 訓(xùn)練集和測試集損失

        在實驗中,我們設(shè)置batch 大小為128,通過4 個epoch 后算法已經(jīng)接近收斂并在測試集上獲得了超過98%的準(zhǔn)確率,如圖4 所示。

        3.2 實驗結(jié)果分析

        綜合來說,采用了預(yù)訓(xùn)練詞向量和BiGRU 后大大縮短了訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需時間,在本次實驗中并未采用GPU 加速計算,CPU 耗時在10min 左右。同時embedding 層和自注意力機制的使用提高了分類的準(zhǔn)確度,相比基線模型BiLSTM 有2%的準(zhǔn)確度的提升。Bi-GRU 與自注意力機制的融合在標(biāo)桿數(shù)據(jù)集上的測試結(jié)果顯示我們的模型適合執(zhí)行多標(biāo)簽文本分類任務(wù),可以在電網(wǎng)文本信息中進行應(yīng)用與部署。

        4 結(jié)語

        本文給出了一種基于BiGRU 和注意力機制的多標(biāo)簽文本分類模型。相較于BiLSTM 模型,在使用更少的訓(xùn)練時間下取得了同樣高的準(zhǔn)確率;通過使用注意力機制讓神經(jīng)網(wǎng)絡(luò)可以聚焦于對分類效果有提升的重要信息;除此之外,預(yù)訓(xùn)練的詞向量和遷移學(xué)習(xí)技術(shù),進一步縮短了訓(xùn)練時間并獲得了更好的詞向量表示。實驗結(jié)果顯示模型在公開數(shù)據(jù)集上有著良好的表現(xiàn),同時適用于包括電網(wǎng)相關(guān)的網(wǎng)絡(luò)文本情感識別等應(yīng)用場景。

        猜你喜歡
        注意力標(biāo)簽向量
        向量的分解
        讓注意力“飛”回來
        聚焦“向量與三角”創(chuàng)新題
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        標(biāo)簽化傷害了誰
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        天堂网av一区二区三区在线观看| 午夜大片在线播放观看| 国产在线观看午夜视频| 伊人久久精品亚洲午夜| 久久久中文久久久无码| 免费观看的av毛片的网站| 国内老熟妇对白xxxxhd | 国产精品成人va| 天码人妻一区二区三区| 国产精品.xx视频.xxtv| 久久精品国产91久久性色tv| 在线看亚洲十八禁网站| 免费人妻精品区一区二区三| 国产自拍91精品视频| 少妇激情av一区二区三区| 人人爽人人爽人人片av| 亚洲日韩中文字幕一区| 免费一区二区三区在线视频| 91日本在线精品高清观看| 免费在线av一区二区| 五月婷婷开心五月激情| 久久久久亚洲av成人人电影| 精品一区二区三区老熟女少妇| 人妻在线有码中文字幕| 亚洲天堂av三区四区不卡| 热久久美女精品天天吊色| 午夜男女爽爽爽在线视频| 亚洲人成人网毛片在线播放| 国产亚洲日韩AV在线播放不卡| 久久精品天堂一区二区| 日本一区二区在线免费视频| 痉挛高潮喷水av无码免费 | 少妇高潮在线精品观看| 久久综合九色综合久99| 亚洲熟妇无码av不卡在线播放| 亚洲精品AⅤ无码精品丝袜无码| 国产内射视频免费观看| 国产激情久久久久影院小草| 欧美黑人性暴力猛交喷水| 亚洲国产中文在线二区三区免 | 青青久在线视频免费观看|