亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合Bert和BiLSTM的中文短文本分類研究

        2023-03-09 07:05:20婷,王
        軟件工程 2023年3期
        關(guān)鍵詞:短文向量神經(jīng)網(wǎng)絡(luò)

        郝 婷,王 薇

        (1.長春大學網(wǎng)絡(luò)安全學院,吉林 長春 130022;2.長春大學計算機科學技術(shù)學院,吉林 長春 130022)

        997236440@qq.com;20017008@qq.com

        1 引言(Introduction)

        互聯(lián)網(wǎng)的蓬勃發(fā)展產(chǎn)生了海量的數(shù)據(jù)信息,人們進入大數(shù)據(jù)時代,文本數(shù)據(jù)通過互聯(lián)網(wǎng)快速增長,人們可以時刻接觸和處理海量的文本信息,如新聞、微博和商品評價等。此類文本具有海量性、實時性和不規(guī)則性等特點且大多屬于非結(jié)構(gòu)化的短文本數(shù)據(jù),使得短文本的語義發(fā)散,特征詞難以提取。如何對短文本進行準確、高效的分類是目前的研究熱點。傳統(tǒng)機器學習算法如樸素貝葉斯[1]和支持向量機[2-3]等方法常用于文本分類,但是這些算法存在對文本深層語義和上下文關(guān)聯(lián)信息挖掘方面的短板。

        近年來,基于神經(jīng)網(wǎng)絡(luò)算法的文本分析被廣泛應用[4]。區(qū)別于傳統(tǒng)基于統(tǒng)計機器學習,深度學習模型有多層網(wǎng)絡(luò),每層包含多個可進行非線性變換的神經(jīng)元,因此具有更強的非線性擬合能力,在數(shù)據(jù)量較大的情況下效果更好。2018 年,預訓練模型開始興起。PETERS等[5]構(gòu)建的新型語言模型(Embeddings from Language Models,ELMo)生成的詞向量可以隨語境進行多義詞動態(tài)變換。Google[6]提出的Bert(Bidirectional Encoder Representations from Transformers)通過其雙向結(jié)構(gòu)能夠?qū)W習到詞的上下文表示,該模型橫掃了多項自然語言處理任務(wù)的排行榜紀錄,極大地推動其發(fā)展。

        本文主要從傳統(tǒng)詞向量語義表達上存在問題和短文本由于特征稀疏導致重要特征較難提取兩個方面入手,提出融合Bert和BiLSTM的復合網(wǎng)絡(luò)模型Bert-BiLSTM。通過在本文所選中文數(shù)據(jù)集上進行實驗,結(jié)果顯示本文所提模型分類效果良好。

        2 文本分類相關(guān)工作(Related work of text classification)

        文本分類是自然語言處理的重要任務(wù)之一,其過程為使用機器按照規(guī)定的分類標準對需要進行分類的文本進行自動分類標記。目前,關(guān)于英文文本分類的研究較多,針對中文文本分類的研究相對較少。分析原因,一方面是相關(guān)的語料庫較少,另一方面是中文文本表示比英文復雜,采用傳統(tǒng)方法難以提取其特征。

        2.1 文本向量化

        文本表示是文本分類任務(wù)中非常重要的步驟,通過文本表示過程將其轉(zhuǎn)化成計算機能夠處理的數(shù)據(jù)信息,其好壞影響后續(xù)模型的表現(xiàn),最重要的是如何選擇合適的表示方法,并且應當盡可能地包含原本的信息,這是因為一旦在空間映射時丟失了信息,則在后續(xù)的模型處理中再也無法獲取。良好的文本向量可以更好地在向量空間中有一個文本空間映射,從而使得文本可以計算。自然語言處理領(lǐng)域因其自身的特性而難以向量化,并且存在多種高級語法規(guī)則及其他特性,比如近義詞、反義詞、上下文之間的聯(lián)系等。文本表示過程的實質(zhì)是對文本特征進行建模。

        2.1.1 One-Hot Encoding(獨熱編碼)

        傳統(tǒng)文本表示方法中最基本的表示方法是One-Hot編碼方式。One-Hot Encoding是最早的一種比較直觀的詞向量生成方式。這種映射方式通過匯總語料庫里的所有詞匯得到N個詞匯,并將每個個體生成一個N維向量。這是一種較為簡單的映射方式,僅利用了單詞的相關(guān)位置信息,沒有把單詞的語義信息考慮在內(nèi),并且隨著語料庫的增加,會產(chǎn)生“維度災難”問題。

        2.1.2 Word Embedding(詞嵌入)

        詞向量采取稠密向量對文本進行表示,使“維度災難”問題得以解決,因此被廣泛應用于各種自然語言處理任務(wù)中。鐘桂鳳等[7]使用Word2Vec(詞嵌入)進行詞向量的訓練,并采用改進注意力機制的方法進行文本分類。Word2Vec根據(jù)預測方法提出了連續(xù)詞袋模型(CBOW)和跳元模型(Skip-gram)兩種模型結(jié)構(gòu)。CBOW模型預測目標詞語采取的方法為根據(jù)上下文進行預測;Skip-gram則是根據(jù)當前出現(xiàn)的詞預測上下文的模型。FastText(快速文本分類)模型[8]是對Word2Vec模型的一種改進,用于預測中心詞。方炯焜等[9]同時考慮了文本的局部信息與整體信息,采用全局詞向量(Global Vectors,GloVe)模型,再利用GRU(門控循環(huán)單元)進行訓練。下游文本分類任務(wù)效果的提升得益于Word2Vec、GloVe等模型訓練得到的詞向量特征表示,但本質(zhì)上這些模型屬于靜態(tài)的預訓練技術(shù),即便是在不同的上下文中,同一詞語可能會有相同的詞向量,所以會出現(xiàn)一詞多義的問題,這也導致在下游分類任務(wù)中的技術(shù)性能受限問題。

        2.1.3 Bert詞向量

        2018 年以來,基于Transformer的預訓練模型相繼被提出,并用于不同的下游任務(wù)。Bert模型可以捕捉更深層次的語義信息,基于Bert的文本分類模型是由預訓練(Pre-Training)和預微調(diào)(Fine-Tuning)兩個部分構(gòu)成。預訓練采用自監(jiān)督訓練,使用大量未經(jīng)標注的文本語料完成訓練,可以很好地學習到文本語義特征和深層次的文本向量表示;預微調(diào)的起點為預訓練Bert模型,其擬合和收斂則需根據(jù)具體的分類任務(wù)完成。楊彬[10]提出在罪名和相關(guān)法律條文文本分類任務(wù)中使用Bert詞向量結(jié)合Attenton-CNN模型,取得了比較好的分類效果。

        2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

        在自然語言處理領(lǐng)域發(fā)展迅猛的有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),并在文本分類任務(wù)中得以廣泛應用,循環(huán)神經(jīng)網(wǎng)絡(luò)是用于建模序列化數(shù)據(jù)的,并且可以捕獲長距離輸入依賴的一種深度學習模型。但是,循環(huán)神經(jīng)網(wǎng)絡(luò)在處理文本時可能會出現(xiàn)“梯度消失”或“梯度爆炸”問題,學習能力有限。張云翔等[11]采用長短期記憶網(wǎng)絡(luò)進行文本分類,該網(wǎng)絡(luò)降低了循環(huán)神經(jīng)網(wǎng)絡(luò)的學習難度,長短時記憶神經(jīng)網(wǎng)絡(luò)(Long Short-term Memory,LSTM)模型是對RNN的擴展,可以對有價值的信息進行長期記憶,解決了循環(huán)神經(jīng)網(wǎng)絡(luò)存在的“梯度消失”或“梯度爆炸”問題。與此同時,一些組合模型也相繼被提出用于解決文本分類題,田園等[12]采用雙向LSTM網(wǎng)絡(luò)模型提取文本的上下文信息,并融合注意力機制以提高文本分類效果。吳小華等[13]對文本進行情感分析時,利用基于自注意力機制的雙向長短時記憶網(wǎng)絡(luò)可以得到更好的文本句法信息;XIAO等[14]提出了char-CRNN模型,首先進行卷積操作,然后用循環(huán)神經(jīng)網(wǎng)絡(luò)進行特征的提取。

        文本特征融合可以學習到更好的特征表示,即最具差異性的信息能從融合過程中涉及的多個原始特征向量中獲得。本文針對中文新聞文本進行分類模型研究,綜合考慮了Bert模型在文本表示方面和BiLSTM在語言模型構(gòu)建的特征優(yōu)化方面表現(xiàn)的優(yōu)點,提出了基于Bert的特征融合網(wǎng)絡(luò)模型Bert-BiLSTM。本文采用的融合方式為特征層次融合[15],首先使用神經(jīng)網(wǎng)絡(luò)將原始詞向量轉(zhuǎn)化成高維特征表達,然后針對提取到的高維特征進行融合。中文文本分類整體流程如圖1所示。

        圖1 中文文本分類流程圖Fig.1 Flow chart of Chinese text classification

        3 相關(guān)理論與技術(shù)(Relevant theories and technologies)

        Bert-BiLSTM模型結(jié)構(gòu)圖如圖2所示。本模型在上游部分使用Bert生成的字符向量作為字符嵌入層,在下游部分將BiLSTM作為特征提取器進行建模,并使用Dropout降低過擬合風險,最后輸入Softmax函數(shù)預測文本分類。Bert和BiLSTM的結(jié)合可以獲得更復雜的語義特征,構(gòu)建更準確的語義表達。

        圖2 模型總框架圖Fig.2 General framework of the model

        3.1 Bert 詞嵌入

        Bert模型采用雙向Transformer編碼器獲取文本的特征表示。多層雙向Transformer編碼器的輸入為字符級的文本,訓練過后輸出為文本字符級特征。Bert詞嵌入結(jié)構(gòu)圖如圖3所示,由嵌入層、分割嵌入層及位置嵌入層構(gòu)成。本文選用Bert做文本的詞嵌入,將文本向量改變格式后輸送到Bert中進行編碼,便得到句子中每個字的向量表示。由于Bert使用更大規(guī)模的語料進行模型的訓練,所以這也加強了詞嵌入模型的泛化能力,使得文本序列中字符級、單詞級、句子級及句與句間關(guān)系的上下文特征得到了更充分的描述。Bert的這一特點適用于新聞標題文本較短但含義豐富的特征,可以得到更好的詞嵌入信息。

        圖3 Bert詞嵌入結(jié)構(gòu)圖[6]Fig.3 Structure diagram of Bert word embedding

        3.2 BiLSTM模型

        LSTM即長短期記憶網(wǎng)絡(luò),是RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的一種變體,其解決了RNN存在的長期依賴問題。LSTM具有遺忘門、輸入門和輸出門,其結(jié)構(gòu)如圖4所示。

        圖4 LSTM結(jié)構(gòu)Fig.4 LSTM structure

        雙向循環(huán)網(wǎng)絡(luò)由1 個正向LSTM和1 個反向LSTM構(gòu)成。單向LSTM根據(jù)前一時刻的信息預測當前時刻的輸出。BiLSTM與LSTM一樣,具有門控狀態(tài),可以捕捉更長距離的信息,使循環(huán)神經(jīng)網(wǎng)絡(luò)長期依賴的問題得以有效解決。BiLSTM模型可以將各個字符以句子的形式進行表達,并且考慮字符之間的依賴關(guān)系。因此,本文選擇使用BiLSTM捕捉每個單詞的上下文語義信息,其結(jié)構(gòu)如圖5所示。

        圖5 BiLSTM結(jié)構(gòu)Fig.5 BiLSTM structure

        4 實驗(Experiment)

        4.1 實驗數(shù)據(jù)

        本文使用的數(shù)據(jù)來自THUCNews新聞數(shù)據(jù)集[THUCNews是根據(jù)新浪新聞RSS訂閱頻道2005—2011 年的歷史數(shù)據(jù)篩選過濾生成,包含74萬篇新聞文檔(2.19 GB),均為UTF-8純文本格式]。在開源網(wǎng)站搜集到的THUCNews的新聞標題文本數(shù)據(jù)集,共20萬條數(shù)據(jù),包含財經(jīng)、房產(chǎn)、股票等10 個類別,其中訓練集數(shù)量為16萬條,測試集數(shù)量為2萬條,驗證集數(shù)量為2萬條。

        4.2 實驗環(huán)境

        本文實驗環(huán)境為操作系統(tǒng)Windows 10,顯卡型號為GTX2060,開發(fā)語言為Python 3.10,搭建深度學習模型使用框架為Pytorch。

        4.3 評價指標

        本文對分類結(jié)果進行評估的指標為Precision(精確率)、Recall(召回率)、F1值和Accuracy(準確率)。精確率是指分類正確的正樣本個數(shù)占模型判定為正樣本的樣本個數(shù)的比例。召回率是指分類正確的正樣本個數(shù)占真正的正樣本的樣本個數(shù)的比例。只有當精確率與召回率的數(shù)值同為1時,F(xiàn)1值才能達到最大。F1-score是Precision與Recall兩個指標的結(jié)合,可以更加全面地反映分類性能。用F1值評估模型性能時,模型性能越好,F(xiàn)1值越接近于1,是衡量分類效果的重要評價指標。準確率是指分類正確的樣本占總樣本個數(shù)的比例。相關(guān)計算如式(1)—式(4)所示。TP表示實際正樣本預測為正,TN表示負樣本預測為負,F(xiàn)P表示負樣本預測為正,F(xiàn)N表示正樣本預測為負。

        4.4 對比實驗設(shè)置

        為了驗證本文所提模型對網(wǎng)絡(luò)新聞主題分類的有效性,選擇以下被廣泛應用于新聞分類的模型進行對比,具體對比情況如下。

        BiLSTM:詞向量由Word2Vec訓練所得,并且作為詞嵌入層輸入BiLSTM層中進行特征提取。

        AttentionBiLSTM:由BiLSTM和Attention組合的復合網(wǎng)絡(luò)模型。

        FastText:JOULIN等[9]提出的快速文本分類方法,其訓練速度較基于CNN和RNN的模型要快得多。

        Bert-RCNN:輸入為Bert學習到的詞向量,然后通過RCNN[16]進行進一步的學習。該網(wǎng)絡(luò)由循環(huán)神經(jīng)網(wǎng)絡(luò)學習文本的上下文表示,文本中的關(guān)鍵信息再用最大池化層捕獲。實驗結(jié)果如表1所示。

        表1 各模型實驗結(jié)果Tab.1 Results of each model experiment

        4.5 實驗結(jié)果與分析

        Bert-BiLSTM模型在測試集上對每一種分類進行測試,實驗結(jié)果如表2所示。與不同模型的實驗對比結(jié)果如圖6所示,實驗結(jié)果證明Bert詞嵌入模型與BiLSTM模型融合后的分類效果更好。

        圖6 各模型效果對比Fig.6 Comparison of effects of various models

        分析表2中的數(shù)據(jù)可知,使用Word2Vec的BiLSTM、Attention-BiLSTM的分類效果比Bert-BiLSTM差,證明預訓練模型在提取句子語義特征表示方面優(yōu)于Word2Vec。為了進一步證明本文使用的BiLSTM模型對特征提取的有效性,本文選擇Bert-RCNN進行實驗對比。從表2中可以看出,本文使用的Bert-BiLSTM組合模型的分類效果最佳。Bert-BiLSTM模型相較于Bert-RCNN模型,其準確率提升了0.0174。所提模型在分類時已經(jīng)達到較高的精度。使用預訓練詞向量的模型和使用Word2Vec詞向量的模型相比,使用了預訓練詞向量的模型準確率明顯提升。

        表2 Bert-BiLSTM模型實驗結(jié)果Tab.2 Bert-BiLSTM model experimental results

        通過分析以上實驗結(jié)果可得,本文構(gòu)建的基于Bert-BiLSTM新聞短文本分類模型具有比其他基線模型更強的特征提取與特征組合能力,適用于處理新聞短文本分類任務(wù),相比其他模型具有更出色的表現(xiàn)和效果。綜上所述,本文所提Bert-BiLSTM模型在進行短文本分類時,獲得的分類效果較好。

        4.6 錯誤樣本分析

        從THUCNews新聞測試集中選取4 條預測錯誤的例子進行解釋,具體分析結(jié)果如表3所示。

        表3中,新聞樣本(1)的實際類別為娛樂,預測類別為社會,該分類相對合理,這條新聞同時具有娛樂新聞和社會新聞兩條屬性。新聞樣本(2)的實際類別為時政,但是被分類為娛樂,分析原因可能是“戛納”一詞偏娛樂屬性。新聞樣本(3)的實際類別為教育,但是被分類為社會,分析原因可能是“防身手冊”偏社會屬性。新聞樣本(4)的實際類別為教育,預測類別為財經(jīng),分析原因可能是這條新聞可以認為是教育問題也可以認為是財經(jīng)問題。

        表3 錯誤樣本分析表Tab.3 Error sample analysis table

        通過以上分析可以看出,模型在對比較有深意的文本進行分類時,效果較差,并且分類效果也受語料影響。但是,從新聞樣本(1)和新聞樣本(4)的分類結(jié)果可以看出,模型的分類結(jié)果具有合理性,并且能精準地識別類別。

        5 結(jié)論(Conclusions)

        互聯(lián)網(wǎng)的快速發(fā)展產(chǎn)生了大量短文本,短文本不但有內(nèi)容特征稀疏的特點,而且存在上下文依賴較強的問題。近年來,基于詞向量的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)優(yōu)勢顯著,成為文本分類任務(wù)的主流。本文針對文本表示模型中的詞向量在不同語境下的詞語多義問題,綜合考慮了Bert模型在文本表示和BiLSTM在語言模型構(gòu)建的特征優(yōu)化方面的優(yōu)勢,提出基于Bert的特征融合網(wǎng)絡(luò)模型(Bert-BiLSTM),使用Bert模型獲取文本的特征表示,將得到的特征表示輸入BiLSTM網(wǎng)絡(luò)中進行進一步的特征提取。通過實驗證明,本文所提方法在進行新聞短文本分類時獲得了良好的分類效果。

        猜你喜歡
        短文向量神經(jīng)網(wǎng)絡(luò)
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        KEYS
        Keys
        向量垂直在解析幾何中的應用
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        復數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應用
        基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        亚洲精品无码av人在线观看国产| 91爱爱视频| 狠狠亚洲超碰狼人久久老人| 国产丝袜美腿在线视频| 亚洲av色香蕉一区二区三区| 亚洲日本在线电影| 亚洲日韩欧美一区二区三区 | 亚洲综合中文一区二区| 91精品亚洲成人一区二区三区| 亚洲av高清在线一区二区三区| 少妇AV射精精品蜜桃专区| 精品人妻一区二区久久| 国产精品高潮呻吟av久久黄| 无码丰满熟妇一区二区| 亚洲男人天堂2017| 精品少妇白浆一二三区| 麻豆资源在线观看视频| 亚洲乱码中文字幕综合| 亚洲综合五月天欧美| 中文字幕人妻激情在线视频| 午夜精品久久久久久久| 亚洲人成绝费网站色www| 亚洲高清精品50路| 国产精品自产拍在线18禁 | 黑人巨大精品欧美在线观看| 免费av一区男人的天堂| 一本丁香综合久久久久不卡网站| 欧美性猛交xxxx乱大交丰满| 国产精品无套粉嫩白浆在线| 开心久久婷婷综合中文字幕 | 久久精品国产亚洲av精东| 无码精品日韩中文字幕| 亚洲免费视频网站在线| 天涯成人国产亚洲精品一区av| 高潮内射双龙视频| 91久久精品国产91久久| 一区二区三区国产偷拍| 亚洲乱码一区二区三区在线观看| 在线亚洲欧美日韩精品专区| 亚洲Av无码专区尤物| 国产黄久色一区2区三区|