亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進BERT詞向量的BiLSTM-Attention文本分類模型*

2023-10-25 01:12:24楊興銳趙壽為張如學陶葉輝楊興俊

傳感器與微系統(tǒng) 2023年10期

楊興銳，趙壽為，張如學，陶葉輝，楊興俊

（1.上海工程技術大學數(shù)理與統(tǒng)計學院，上海 201620；2.重慶大學機械與運載工程學院，重慶 400044；3.上海工程技術大學管理學院，上海 201620）

0 引言

由于文本分類在情感分析以及輿情分析等方面有著廣泛的應用。近年來，關于文本分類任務的研究引起國內(nèi)外許多學者的關注，提出了許多的模型，例如：循環(huán)神經(jīng)網(wǎng)絡（recurrent neural network，RNN）、長短期記憶（long shortterm memory，LSTM）網(wǎng)絡、雙向長短期記憶［1］（bidirectional LSTM，BiLSTM）網(wǎng)絡、卷積神經(jīng)網(wǎng)絡（convolutional neural network，CNN）、BERT［2］模型以及注意力（attention）模型等。傳統(tǒng)的文本分類主要有詞袋模型或者TF-IDF（term frequency-inverse document frequency）算法、詞典匹配算法以及基于統(tǒng)計學的特征提取方法［3，4］。但這些方法提取特征往往需要消耗大量的時間。因此，許多學者致力于深度學習方法的文本分類研究［5，6］。

1 相關工作

RNN在文本分類任務中已經(jīng)取得了不錯的效果，然而當所研究的文本較長時，RNN與LSTM 并不能很好地學習到距離較遠的詞語之間的“聯(lián)系”，即缺乏“記憶信息”的能力。BiLSTM通過雙向?qū)W習語義信息，可以捕獲句子的上下文聯(lián)系。謝思雅等人［7］基于BiLSTM 提出了BiLSTM-Attention模型用于微博情感分析任務。李啟行等人［8］結(jié)合CNN與BiLSTM提出了雙通道DAC-RNN文本分類模型，利用注意力機制與BiLSTM模型分別捕獲文本中的關鍵特征和上下文聯(lián)系。

隨著注意力機制模型的提出，鮑海龍等人［9］以及Tian H等人［10］同時將注意力機制運用到語義分割任務上均取得了良好的效果；張周彬等人［11］建立了相互循環(huán)作用的注意力模型用于情感分析任務中；程艷等人［12］基于注意力機制提出了多通道CNN 和雙向門控循環(huán)單元（bidirectional gated recurrent unit，BiGRU）的文本情感分析模型，提取豐富的文本特征。

本文在改進的BERT詞向量、BiLSTM 和Attention 機制的基礎上，提出了一種基于改進BERT 詞向量的BiLSTMAttention中文文本分類模型。

2 改進BERT詞向量的BiLSTM-Attention模型的構(gòu)建

2.1 模型的結(jié)構(gòu)

本文首先將殘差網(wǎng)絡引入到BERT模型內(nèi)部的注意力模型部分中，構(gòu)建殘差注意力模塊。然后，將BERT詞向量輸入到BiLSTM-Attention 模型中，用注意力機制改善Bi-LSTM網(wǎng)絡不能長距離記憶信息的不足，然后將BERT 預訓練模型中的“［CLS］”對應的輸出結(jié)果與BiLSTM 模型的輸出結(jié)果進行向量拼接，最后進行全連接以及SoftMax運算得到文本分類結(jié)果。實驗表明，本文模型在公開的THUNews數(shù)據(jù)集上準確率和F1值均優(yōu)于其他深度學習模型的結(jié)果。模型結(jié)構(gòu)如圖1所示。

圖1 BiLSTM-Attention文本分類模型

2.2 文本表示

由于深度學習模型的輸入數(shù)據(jù)并不支持文本類型。本文首先將句子進行分詞，并建立詞典映射得到每個詞語的序列號。本文的初始輸入是每個詞語的序號，模型自動查找對應詞語的詞向量作為BERT模型的輸入。模型訓練前的詞向量是隨機生成的，隨著模型的訓練，詞向量不斷地得到更新。假設輸入的句子長度為N，則文本表示向量為

2.3 BERT預訓練模型

BERT預訓練模型［5］在較大的數(shù)據(jù)集上進行訓練，最后將訓練好的模型運用到下游任務中。BERT 預訓練模型有兩種基本的訓練方法，其中一種方法是將輸入變量信息以一個概率值進行掩蓋（MASK），訓練模型來預測所被掩蓋的輸入變量，這種方法稱MLM（masked language model）；第二種訓練方法是構(gòu)建具有上下文關系的句子，在上文句子的句首加入特殊字符“［CLS］”，同樣在下文句子的句首也加入特殊字符“［SEP］”；同時準備不具有上下文關系的兩條句子。訓練模型判斷句子是否具備上下文關系。這種方法稱為預測序列句子。

BERT模型基本的結(jié)構(gòu)如圖2所示。

圖2 BERT預訓練模型

該模型結(jié)構(gòu)中，每個Trm 結(jié)構(gòu)由注意力層、全連接網(wǎng)絡、歸一化以及殘差單元構(gòu)成，BERT 模型使用的是雙向Transformer編碼器［13］。將輸入的文本以單個“詞”為單位進行分詞，將分詞結(jié)果進行詞典映射為序列，從而可以對應查找到相應的詞向量，接著輸入給微調(diào)后的BERT 預訓練模型輸出文本類別，這樣得到的輸出向量結(jié)果極大地刻畫了原始文本的信息。

2.4 BiLSTM

BiLSTM模型較合適更加細粒度的文本分類問題。設S ＝［x1，x2，…，xn］為模型輸入的文本表示，BiLSTM 模型的計算方法如下

該計算過程中，sigmoid（·）為激活函數(shù)；ft，at，wt，Ct，outt，Ht分別為遺忘門、輸入門、細胞狀態(tài)、輸出門在時刻t的狀態(tài)和隱含層。

2.5 自注意力機制

自注意力機制的核心是給每個輸入的詞語進行權重賦值并不斷學習更新，將重要詞語賦予較大的權重，表示該詞語在句子中的作用較大。因此，本文Attention 層主要使用自注意力機制，其基本結(jié)構(gòu)如圖3所示。

圖3 自注意力機制模型

首先，對于輸入文本信息分別乘以相應的權重得到q1，k1以及v1，多個權重值拼接后即可得到Q、K以及V 矩陣，將得到的Q與K 做矩陣運算；接著，將得到的信息值歸一化處理；最后，將結(jié)果乘以相應的權重矩陣V得到信息輸出內(nèi)容。將上述計算過程用矩陣的方式表示為

2.6 殘差網(wǎng)絡模型

殘差網(wǎng)絡模型結(jié)構(gòu)如圖4所示［14］。

圖4 殘差網(wǎng)絡模型

x為輸入，H（x）為特征的輸出，F(xiàn)（x）為殘差，其表達式為

特征信息x可以直接與后邊層相互連接，這樣使得后邊的層可以學習到殘差值。殘差結(jié)構(gòu)通過恒等映射來增大模型的深度，其基本的運算為

式中 xL為第L層深度單元特征信息的表示，當殘差值等于0時，殘差網(wǎng)絡相當于進行恒等映射，使得模型的精度不會受影響。事實上，由于數(shù)據(jù)的復雜性與多樣性，殘差值并不會為0，即相當于模型在不斷地堆疊層，而學習到更多的特征信息。

2.7 SoftMax層

經(jīng)過自注意力機制輸出的特征向量帶有詞語權重信息、詞語上下文信息以及詞語多樣化信息。將特征向量作為全連接層的輸入，該層中使用ReLU 激活函數(shù)進行非線性運算。在進行全連接運算后，將得到的輸出值作為Soft-Max層的輸入，用于預測文本的分類結(jié)果概率。其基本運算為下式

2.8 模型算法分析

模型的計算流程是：對于輸入的文本表示首先進行BERT詞向量計算，BERT內(nèi)部的殘差注意力計算為

其中

即BERT模型內(nèi)部多個Trm結(jié)構(gòu)的注意力模塊相互殘差相連，使得模型學習到的詞向量更具多樣性；然后將BERT詞向量輸入到BiLSTM模型中用于學習詞語的上下問關系，接著將BERT模型對應“［CLS］”的輸出內(nèi)容與BiLSTM 模型信息的輸出內(nèi)容進行向量拼接，這有利于特征信息的深度融合。設“［CLS］”對應的輸出向量為C，BiLSTM 模型的輸出向量為h ＝［h0，h1，…，Ht-1，ht］，則向量拼接運算過程為

最后將特征信息進行自注意力、全連接運算以及Soft-Max運算得到分類的結(jié)果。

3 模型實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)

本文選擇清華大學THUNews 網(wǎng)站的部分新聞文本數(shù)據(jù)，共計20萬條，另外在互聯(lián)網(wǎng)上搜集到10 萬條最新的文本數(shù)據(jù)加入一起訓練，隨機劃分26 萬條訓練集，測試集與驗證集各劃分2萬條。新聞文本分為10 個類別，各個類別的含義如表1所示。

表1 新聞類別名稱及其ID

3.2 實驗環(huán)境與模型參數(shù)

環(huán)境配置如表2所示。

表2 實驗環(huán)境配置信息

深度學習模型參數(shù)設置如表3所示。

表3 模型參數(shù)設置

3.3 實驗結(jié)果與分析

3.3.1 與BERT詞向量模型的對比

首先，將文本數(shù)據(jù)進行序列標注，序列的長度固定為34，序列長度不足34的用0補充；句子序列長度大于34 的進行裁剪使其長度為34，最后將序列輸入到BERT 預訓練模型中訓練。模型在訓練集上訓練，訓練的結(jié)果用驗證集來評估，將驗證集上結(jié)果最好的模型用于測試集上測試并得到最終的結(jié)果。將此結(jié)果用準確率以及F1值進行評估，其中的F1值的計算公式為

由公式可以看出，F(xiàn)1值是精確率（precision）和召回率（recall）的調(diào)和均值，其中的TP、FP 以及FN 由混淆矩陣（confusion matrix）給出，如表4所示。

表4 混淆矩陣

精確率P和召回率R由下式給出

訓練過程中為了防止過擬合加入了Dropout［15］方法，其值設置為0.4，表示以0.4 的概率去除某些神經(jīng)元，達到防止過擬合的作用。該過程本質(zhì)上在模擬集成學習，其訓練的結(jié)果如表5所示。

表5 模型的訓練結(jié)果對比 %

對比BERT ＋全連接模型以及BERT ＋BiLSTM模型，本文模型在測試集上的準確率和F1值分別為90.30 %與90.03%；BERT ＋全連接模型在測試集上的準確率和F1值分別為87.21%與87.68%；BERT ＋BiLSTM在測試集上的準確率和F1值分別為87.36%與87.10%。本文模型可以學習到注意力殘差值，通過殘差運算可以學習到句子的多樣化信息，同時本文模型通過BERT 模型中“［CLS］”的輸出信息與BiLSTM模型的輸出信息拼接，融合了更加豐富的特征信息，使得模型可以充分利用特征進行學習，保證模型不過擬合的前提下訓練精度得到提高。因此，無論準確率還是F1值，本文模型均優(yōu)于其他模型，其中，本文模型較BERT ＋BiLSTM 準確率和F1值在測試集上分別提高了3.37%和3.36%，較BERT ＋全連接模型準確率和F1值分別提高了3.5%和2.7%，證明了本文模型的有效性。本文所采用的新聞文本句子長度較小，訓練集、測試集以及驗證集上的句子平均長度是34，BERT ＋BiLSTM以及BERT ＋全連接模型在短文本分類任務上很容易克服長期依賴問題。因此，BERT ＋全連接與BERT ＋BiLSTM模型的訓練精度大致相同。

3.3.2 與其他詞向量模型的對比

本文還對比了基于Word2Vec［16］詞向量以及FastText詞向量的深度學習模型。本文主要利用Word2Vec 工具包進行詞向量的訓練，該工具使用Skip-gram 和CBOW（continuous bag-of-words）兩種模型進行詞向量的訓練。Skip-gram模型通過上下文信息來預測中心目標詞的方式來捕獲詞語的語義信息。FastText 詞向量采用FastText 工具直接得到訓練的結(jié)果。其訓練的結(jié)果如表6所示。

表6 模型的訓練結(jié)果 %

4 結(jié) 論

本文引入殘差注意力BERT 詞向量構(gòu)建BiLSTMAttention模型。實驗結(jié)果表明：對比主流的深度學習模型，本文模型在文本的分類任務中取得了比較好的分類結(jié)果。