亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合Bert和BiLSTM的中文短文本分類研究

2023-03-09 07:05:20郝婷，王薇

軟件工程 2023年3期

關(guān)鍵詞：分類特征文本

郝婷，王薇

(1.長春大學(xué)網(wǎng)絡(luò)安全學(xué)院，吉林長春 130022；2.長春大學(xué)計算機科學(xué)技術(shù)學(xué)院，吉林長春 130022)

997236440@qq.com;20017008@qq.com

1 引言(Introduction)

互聯(lián)網(wǎng)的蓬勃發(fā)展產(chǎn)生了海量的數(shù)據(jù)信息，人們進(jìn)入大數(shù)據(jù)時代，文本數(shù)據(jù)通過互聯(lián)網(wǎng)快速增長，人們可以時刻接觸和處理海量的文本信息，如新聞、微博和商品評價等。此類文本具有海量性、實時性和不規(guī)則性等特點且大多屬于非結(jié)構(gòu)化的短文本數(shù)據(jù)，使得短文本的語義發(fā)散，特征詞難以提取。如何對短文本進(jìn)行準(zhǔn)確、高效的分類是目前的研究熱點。傳統(tǒng)機器學(xué)習(xí)算法如樸素貝葉斯[1]和支持向量機[2-3]等方法常用于文本分類，但是這些算法存在對文本深層語義和上下文關(guān)聯(lián)信息挖掘方面的短板。

近年來，基于神經(jīng)網(wǎng)絡(luò)算法的文本分析被廣泛應(yīng)用[4]。區(qū)別于傳統(tǒng)基于統(tǒng)計機器學(xué)習(xí)，深度學(xué)習(xí)模型有多層網(wǎng)絡(luò)，每層包含多個可進(jìn)行非線性變換的神經(jīng)元，因此具有更強的非線性擬合能力，在數(shù)據(jù)量較大的情況下效果更好。2018 年，預(yù)訓(xùn)練模型開始興起。PETERS等[5]構(gòu)建的新型語言模型(Embeddings from Language Models，ELMo)生成的詞向量可以隨語境進(jìn)行多義詞動態(tài)變換。Google[6]提出的Bert(Bidirectional Encoder Representations from Transformers)通過其雙向結(jié)構(gòu)能夠?qū)W習(xí)到詞的上下文表示，該模型橫掃了多項自然語言處理任務(wù)的排行榜紀(jì)錄，極大地推動其發(fā)展。

本文主要從傳統(tǒng)詞向量語義表達(dá)上存在問題和短文本由于特征稀疏導(dǎo)致重要特征較難提取兩個方面入手，提出融合Bert和BiLSTM的復(fù)合網(wǎng)絡(luò)模型Bert-BiLSTM。通過在本文所選中文數(shù)據(jù)集上進(jìn)行實驗，結(jié)果顯示本文所提模型分類效果良好。

2 文本分類相關(guān)工作(Related work of text classification)

文本分類是自然語言處理的重要任務(wù)之一，其過程為使用機器按照規(guī)定的分類標(biāo)準(zhǔn)對需要進(jìn)行分類的文本進(jìn)行自動分類標(biāo)記。目前，關(guān)于英文文本分類的研究較多，針對中文文本分類的研究相對較少。分析原因，一方面是相關(guān)的語料庫較少，另一方面是中文文本表示比英文復(fù)雜，采用傳統(tǒng)方法難以提取其特征。

2.1 文本向量化

文本表示是文本分類任務(wù)中非常重要的步驟，通過文本表示過程將其轉(zhuǎn)化成計算機能夠處理的數(shù)據(jù)信息，其好壞影響后續(xù)模型的表現(xiàn)，最重要的是如何選擇合適的表示方法，并且應(yīng)當(dāng)盡可能地包含原本的信息，這是因為一旦在空間映射時丟失了信息，則在后續(xù)的模型處理中再也無法獲取。良好的文本向量可以更好地在向量空間中有一個文本空間映射，從而使得文本可以計算。自然語言處理領(lǐng)域因其自身的特性而難以向量化，并且存在多種高級語法規(guī)則及其他特性，比如近義詞、反義詞、上下文之間的聯(lián)系等。文本表示過程的實質(zhì)是對文本特征進(jìn)行建模。

2.1.1 One-Hot Encoding(獨熱編碼)

傳統(tǒng)文本表示方法中最基本的表示方法是One-Hot編碼方式。One-Hot Encoding是最早的一種比較直觀的詞向量生成方式。這種映射方式通過匯總語料庫里的所有詞匯得到N個詞匯，并將每個個體生成一個N維向量。這是一種較為簡單的映射方式，僅利用了單詞的相關(guān)位置信息，沒有把單詞的語義信息考慮在內(nèi)，并且隨著語料庫的增加，會產(chǎn)生“維度災(zāi)難”問題。

2.1.2 Word Embedding(詞嵌入)

詞向量采取稠密向量對文本進(jìn)行表示，使“維度災(zāi)難”問題得以解決，因此被廣泛應(yīng)用于各種自然語言處理任務(wù)中。鐘桂鳳等[7]使用Word2Vec(詞嵌入)進(jìn)行詞向量的訓(xùn)練，并采用改進(jìn)注意力機制的方法進(jìn)行文本分類。Word2Vec根據(jù)預(yù)測方法提出了連續(xù)詞袋模型(CBOW)和跳元模型(Skip-gram)兩種模型結(jié)構(gòu)。CBOW模型預(yù)測目標(biāo)詞語采取的方法為根據(jù)上下文進(jìn)行預(yù)測；Skip-gram則是根據(jù)當(dāng)前出現(xiàn)的詞預(yù)測上下文的模型。FastText(快速文本分類)模型[8]是對Word2Vec模型的一種改進(jìn)，用于預(yù)測中心詞。方炯焜等[9]同時考慮了文本的局部信息與整體信息，采用全局詞向量(Global Vectors，GloVe)模型，再利用GRU(門控循環(huán)單元)進(jìn)行訓(xùn)練。下游文本分類任務(wù)效果的提升得益于Word2Vec、GloVe等模型訓(xùn)練得到的詞向量特征表示，但本質(zhì)上這些模型屬于靜態(tài)的預(yù)訓(xùn)練技術(shù)，即便是在不同的上下文中，同一詞語可能會有相同的詞向量，所以會出現(xiàn)一詞多義的問題，這也導(dǎo)致在下游分類任務(wù)中的技術(shù)性能受限問題。

2.1.3 Bert詞向量

2018 年以來，基于Transformer的預(yù)訓(xùn)練模型相繼被提出，并用于不同的下游任務(wù)。Bert模型可以捕捉更深層次的語義信息，基于Bert的文本分類模型是由預(yù)訓(xùn)練(Pre-Training)和預(yù)微調(diào)(Fine-Tuning)兩個部分構(gòu)成。預(yù)訓(xùn)練采用自監(jiān)督訓(xùn)練，使用大量未經(jīng)標(biāo)注的文本語料完成訓(xùn)練，可以很好地學(xué)習(xí)到文本語義特征和深層次的文本向量表示；預(yù)微調(diào)的起點為預(yù)訓(xùn)練Bert模型，其擬合和收斂則需根據(jù)具體的分類任務(wù)完成。楊彬[10]提出在罪名和相關(guān)法律條文文本分類任務(wù)中使用Bert詞向量結(jié)合Attenton-CNN模型，取得了比較好的分類效果。

2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

在自然語言處理領(lǐng)域發(fā)展迅猛的有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)，并在文本分類任務(wù)中得以廣泛應(yīng)用，循環(huán)神經(jīng)網(wǎng)絡(luò)是用于建模序列化數(shù)據(jù)的，并且可以捕獲長距離輸入依賴的一種深度學(xué)習(xí)模型。但是，循環(huán)神經(jīng)網(wǎng)絡(luò)在處理文本時可能會出現(xiàn)“梯度消失”或“梯度爆炸”問題，學(xué)習(xí)能力有限。張云翔等[11]采用長短期記憶網(wǎng)絡(luò)進(jìn)行文本分類，該網(wǎng)絡(luò)降低了循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)難度，長短時記憶神經(jīng)網(wǎng)絡(luò)(Long Short-term Memory，LSTM)模型是對RNN的擴展，可以對有價值的信息進(jìn)行長期記憶，解決了循環(huán)神經(jīng)網(wǎng)絡(luò)存在的“梯度消失”或“梯度爆炸”問題。與此同時，一些組合模型也相繼被提出用于解決文本分類題，田園等[12]采用雙向LSTM網(wǎng)絡(luò)模型提取文本的上下文信息，并融合注意力機制以提高文本分類效果。吳小華等[13]對文本進(jìn)行情感分析時，利用基于自注意力機制的雙向長短時記憶網(wǎng)絡(luò)可以得到更好的文本句法信息；XIAO等[14]提出了char-CRNN模型，首先進(jìn)行卷積操作，然后用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行特征的提取。

文本特征融合可以學(xué)習(xí)到更好的特征表示，即最具差異性的信息能從融合過程中涉及的多個原始特征向量中獲得。本文針對中文新聞文本進(jìn)行分類模型研究，綜合考慮了Bert模型在文本表示方面和BiLSTM在語言模型構(gòu)建的特征優(yōu)化方面表現(xiàn)的優(yōu)點，提出了基于Bert的特征融合網(wǎng)絡(luò)模型Bert-BiLSTM。本文采用的融合方式為特征層次融合[15]，首先使用神經(jīng)網(wǎng)絡(luò)將原始詞向量轉(zhuǎn)化成高維特征表達(dá)，然后針對提取到的高維特征進(jìn)行融合。中文文本分類整體流程如圖1所示。

圖1 中文文本分類流程圖Fig.1 Flow chart of Chinese text classification

3 相關(guān)理論與技術(shù)(Relevant theories and technologies)

Bert-BiLSTM模型結(jié)構(gòu)圖如圖2所示。本模型在上游部分使用Bert生成的字符向量作為字符嵌入層，在下游部分將BiLSTM作為特征提取器進(jìn)行建模，并使用Dropout降低過擬合風(fēng)險，最后輸入Softmax函數(shù)預(yù)測文本分類。Bert和BiLSTM的結(jié)合可以獲得更復(fù)雜的語義特征，構(gòu)建更準(zhǔn)確的語義表達(dá)。

圖2 模型總框架圖Fig.2 General framework of the model

3.1 Bert 詞嵌入

Bert模型采用雙向Transformer編碼器獲取文本的特征表示。多層雙向Transformer編碼器的輸入為字符級的文本，訓(xùn)練過后輸出為文本字符級特征。Bert詞嵌入結(jié)構(gòu)圖如圖3所示，由嵌入層、分割嵌入層及位置嵌入層構(gòu)成。本文選用Bert做文本的詞嵌入，將文本向量改變格式后輸送到Bert中進(jìn)行編碼，便得到句子中每個字的向量表示。由于Bert使用更大規(guī)模的語料進(jìn)行模型的訓(xùn)練，所以這也加強了詞嵌入模型的泛化能力，使得文本序列中字符級、單詞級、句子級及句與句間關(guān)系的上下文特征得到了更充分的描述。Bert的這一特點適用于新聞標(biāo)題文本較短但含義豐富的特征，可以得到更好的詞嵌入信息。

圖3 Bert詞嵌入結(jié)構(gòu)圖[6]Fig.3 Structure diagram of Bert word embedding

3.2 BiLSTM模型

LSTM即長短期記憶網(wǎng)絡(luò)，是RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的一種變體，其解決了RNN存在的長期依賴問題。LSTM具有遺忘門、輸入門和輸出門，其結(jié)構(gòu)如圖4所示。

圖4 LSTM結(jié)構(gòu)Fig.4 LSTM structure

雙向循環(huán)網(wǎng)絡(luò)由1 個正向LSTM和1 個反向LSTM構(gòu)成。單向LSTM根據(jù)前一時刻的信息預(yù)測當(dāng)前時刻的輸出。BiLSTM與LSTM一樣，具有門控狀態(tài)，可以捕捉更長距離的信息，使循環(huán)神經(jīng)網(wǎng)絡(luò)長期依賴的問題得以有效解決。BiLSTM模型可以將各個字符以句子的形式進(jìn)行表達(dá)，并且考慮字符之間的依賴關(guān)系。因此，本文選擇使用BiLSTM捕捉每個單詞的上下文語義信息，其結(jié)構(gòu)如圖5所示。

圖5 BiLSTM結(jié)構(gòu)Fig.5 BiLSTM structure

4 實驗(Experiment)

4.1 實驗數(shù)據(jù)

本文使用的數(shù)據(jù)來自THUCNews新聞數(shù)據(jù)集[THUCNews是根據(jù)新浪新聞RSS訂閱頻道2005—2011 年的歷史數(shù)據(jù)篩選過濾生成，包含74萬篇新聞文檔(2.19 GB)，均為UTF-8純文本格式]。在開源網(wǎng)站搜集到的THUCNews的新聞標(biāo)題文本數(shù)據(jù)集，共20萬條數(shù)據(jù)，包含財經(jīng)、房產(chǎn)、股票等10 個類別，其中訓(xùn)練集數(shù)量為16萬條，測試集數(shù)量為2萬條，驗證集數(shù)量為2萬條。

4.2 實驗環(huán)境

本文實驗環(huán)境為操作系統(tǒng)Windows 10，顯卡型號為GTX2060，開發(fā)語言為Python 3.10，搭建深度學(xué)習(xí)模型使用框架為Pytorch。

4.3 評價指標(biāo)

本文對分類結(jié)果進(jìn)行評估的指標(biāo)為Precision(精確率)、Recall(召回率)、F1值和Accuracy(準(zhǔn)確率)。精確率是指分類正確的正樣本個數(shù)占模型判定為正樣本的樣本個數(shù)的比例。召回率是指分類正確的正樣本個數(shù)占真正的正樣本的樣本個數(shù)的比例。只有當(dāng)精確率與召回率的數(shù)值同為1時，F(xiàn)1值才能達(dá)到最大。F1-score是Precision與Recall兩個指標(biāo)的結(jié)合，可以更加全面地反映分類性能。用F1值評估模型性能時，模型性能越好，F(xiàn)1值越接近于1，是衡量分類效果的重要評價指標(biāo)。準(zhǔn)確率是指分類正確的樣本占總樣本個數(shù)的比例。相關(guān)計算如式(1)—式(4)所示。TP表示實際正樣本預(yù)測為正，TN表示負(fù)樣本預(yù)測為負(fù)，F(xiàn)P表示負(fù)樣本預(yù)測為正，F(xiàn)N表示正樣本預(yù)測為負(fù)。

4.4 對比實驗設(shè)置

為了驗證本文所提模型對網(wǎng)絡(luò)新聞主題分類的有效性，選擇以下被廣泛應(yīng)用于新聞分類的模型進(jìn)行對比，具體對比情況如下。

BiLSTM：詞向量由Word2Vec訓(xùn)練所得，并且作為詞嵌入層輸入BiLSTM層中進(jìn)行特征提取。

AttentionBiLSTM：由BiLSTM和Attention組合的復(fù)合網(wǎng)絡(luò)模型。

FastText：JOULIN等[9]提出的快速文本分類方法，其訓(xùn)練速度較基于CNN和RNN的模型要快得多。

Bert-RCNN：輸入為Bert學(xué)習(xí)到的詞向量，然后通過RCNN[16]進(jìn)行進(jìn)一步的學(xué)習(xí)。該網(wǎng)絡(luò)由循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本的上下文表示，文本中的關(guān)鍵信息再用最大池化層捕獲。實驗結(jié)果如表1所示。

表1 各模型實驗結(jié)果Tab.1 Results of each model experiment

4.5 實驗結(jié)果與分析

Bert-BiLSTM模型在測試集上對每一種分類進(jìn)行測試，實驗結(jié)果如表2所示。與不同模型的實驗對比結(jié)果如圖6所示，實驗結(jié)果證明Bert詞嵌入模型與BiLSTM模型融合后的分類效果更好。

圖6 各模型效果對比Fig.6 Comparison of effects of various models

分析表2中的數(shù)據(jù)可知，使用Word2Vec的BiLSTM、Attention-BiLSTM的分類效果比Bert-BiLSTM差，證明預(yù)訓(xùn)練模型在提取句子語義特征表示方面優(yōu)于Word2Vec。為了進(jìn)一步證明本文使用的BiLSTM模型對特征提取的有效性，本文選擇Bert-RCNN進(jìn)行實驗對比。從表2中可以看出，本文使用的Bert-BiLSTM組合模型的分類效果最佳。Bert-BiLSTM模型相較于Bert-RCNN模型，其準(zhǔn)確率提升了0.0174。所提模型在分類時已經(jīng)達(dá)到較高的精度。使用預(yù)訓(xùn)練詞向量的模型和使用Word2Vec詞向量的模型相比，使用了預(yù)訓(xùn)練詞向量的模型準(zhǔn)確率明顯提升。

表2 Bert-BiLSTM模型實驗結(jié)果Tab.2 Bert-BiLSTM model experimental results

通過分析以上實驗結(jié)果可得，本文構(gòu)建的基于Bert-BiLSTM新聞短文本分類模型具有比其他基線模型更強的特征提取與特征組合能力，適用于處理新聞短文本分類任務(wù)，相比其他模型具有更出色的表現(xiàn)和效果。綜上所述，本文所提Bert-BiLSTM模型在進(jìn)行短文本分類時，獲得的分類效果較好。

4.6 錯誤樣本分析

從THUCNews新聞測試集中選取4 條預(yù)測錯誤的例子進(jìn)行解釋，具體分析結(jié)果如表3所示。

表3中，新聞樣本(1)的實際類別為娛樂，預(yù)測類別為社會，該分類相對合理，這條新聞同時具有娛樂新聞和社會新聞兩條屬性。新聞樣本(2)的實際類別為時政，但是被分類為娛樂，分析原因可能是“戛納”一詞偏娛樂屬性。新聞樣本(3)的實際類別為教育，但是被分類為社會，分析原因可能是“防身手冊”偏社會屬性。新聞樣本(4)的實際類別為教育，預(yù)測類別為財經(jīng)，分析原因可能是這條新聞可以認(rèn)為是教育問題也可以認(rèn)為是財經(jīng)問題。

表3 錯誤樣本分析表Tab.3 Error sample analysis table

通過以上分析可以看出，模型在對比較有深意的文本進(jìn)行分類時，效果較差，并且分類效果也受語料影響。但是，從新聞樣本(1)和新聞樣本(4)的分類結(jié)果可以看出，模型的分類結(jié)果具有合理性，并且能精準(zhǔn)地識別類別。

5 結(jié)論(Conclusions)

互聯(lián)網(wǎng)的快速發(fā)展產(chǎn)生了大量短文本，短文本不但有內(nèi)容特征稀疏的特點，而且存在上下文依賴較強的問題。近年來，基于詞向量的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)優(yōu)勢顯著，成為文本分類任務(wù)的主流。本文針對文本表示模型中的詞向量在不同語境下的詞語多義問題，綜合考慮了Bert模型在文本表示和BiLSTM在語言模型構(gòu)建的特征優(yōu)化方面的優(yōu)勢，提出基于Bert的特征融合網(wǎng)絡(luò)模型(Bert-BiLSTM)，使用Bert模型獲取文本的特征表示，將得到的特征表示輸入BiLSTM網(wǎng)絡(luò)中進(jìn)行進(jìn)一步的特征提取。通過實驗證明，本文所提方法在進(jìn)行新聞短文本分類時獲得了良好的分類效果。