亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT的復(fù)合網(wǎng)絡(luò)模型的中文文本分類

        2020-12-23 09:10:14方曉東劉昌輝王麗亞
        關(guān)鍵詞:語義準(zhǔn)確率向量

        方曉東,劉昌輝,王麗亞,殷 興

        武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢430205

        文本分類[1]是自然語言處理(natural language process,NLP)任務(wù)的基礎(chǔ)工作也是其研究領(lǐng)域的熱點(diǎn)之一,主要目的是針對文本進(jìn)行歸類,便于對文本進(jìn)行高效管理配置與檢索并解決信息過載的問題。由于網(wǎng)絡(luò)上產(chǎn)生的媒體新聞、科技、報(bào)告、電子郵件、網(wǎng)頁、書籍、微博等文本內(nèi)容呈現(xiàn)指數(shù)增長,需要對這些文本進(jìn)行歸類加以組織管理,也可根據(jù)用戶的偏好,進(jìn)行信息過濾或精確優(yōu)先推薦,增強(qiáng)用戶黏性,因此具有一定的應(yīng)用研究價(jià)值。

        transformers的 雙 向 編 碼 器(bidirectional encoder representations from transformer,BERT)在文本分類上的成功應(yīng)用,有效地促進(jìn)了文本分類的研究與發(fā)展[2]。但基于BERT的文本主題分類大多數(shù)都是以英文數(shù)據(jù)集為對象,針對中文網(wǎng)絡(luò)新聞文本的研究多數(shù)都是在詞語級詞向量的基礎(chǔ)上提出網(wǎng)絡(luò)模型結(jié)構(gòu)。本文通過學(xué)習(xí)BERT模型、雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(bi-directional gated recur?rent unit,BiGRU)模型,為提高文本主題分類的準(zhǔn)確率,提出基于BERT的復(fù)合網(wǎng)絡(luò)模型(BiGRU+BERT混合模型,bG-BERT)的文本主題分類方法,在實(shí)驗(yàn)所用中文新聞數(shù)據(jù)集上使用NLP的綜合評價(jià)指標(biāo)Accuracy值、F1值,證明了bG-BERT模型在文本分類方面的有效性。

        1 相關(guān)研究

        文本主題分類方法主要有詞匹配法、統(tǒng)計(jì)學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法[3]。詞匹配法是根據(jù)查詢文檔中的詞語是否出現(xiàn)在需要分類的文檔內(nèi)容中,這種方法沒有考慮上下文聯(lián)系,方法過于簡單機(jī)械。統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法[4-5],是通過特征工程然后再結(jié)合機(jī)器學(xué)習(xí)的方法,首先將標(biāo)注的訓(xùn)練集的內(nèi)容部分轉(zhuǎn)換為特征,再使用特征提取分類特征,最后使用樸素貝葉斯、回歸模型、支持向量機(jī)等文本分類器進(jìn)行分類。由于分類器性能的好壞主要依賴查詢詞典設(shè)計(jì)有效的特征,需要專業(yè)知識豐富的的專家來設(shè)計(jì)分類特征,人為影響因素大。因此早期的文本分類方法難以勝任復(fù)雜的篇章級別新聞文本主題分類任務(wù)。后期出現(xiàn)的基于深度學(xué)習(xí)的方法是傳統(tǒng)機(jī)器學(xué)習(xí)的重要分支。

        文本表示方面,Zhang等[6]應(yīng)用的word2vec模型,其核心思想是通過上下文得到字詞的向量化表示,一種根據(jù)前后的字詞預(yù)測中間字詞的CBOW模型和另一種利用中間字詞去預(yù)測前后的字詞的Skip-gram模型,解決了高效表達(dá)一篇文檔的難點(diǎn)。鄭亞南等[7]使用glove模型進(jìn)行特征提取,再使用SVM進(jìn)行分類。趙亞歐等[8]使用ELMo模型,動(dòng)態(tài)調(diào)整word emdedding,解決了詞語用法的復(fù)雜性以及這些復(fù)雜用法在不同上下文中的變化。胡春濤等[9]使用BERT模型,采用雙向Trans?former進(jìn)行句子篇章級別的提取特征,彌補(bǔ)了word2vec無法理解不同字詞在不同位置語義不同的不足,相對ELMo的單向Transformer,BERT綜合考慮前后兩個(gè)方向的信息,具有更優(yōu)的并行性。

        構(gòu)建語言模型方面,陳巧紅等[10]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)應(yīng)用于文本分類,將經(jīng)過向量化的文本作為輸入,最大程度提取深層局部特征,但缺少學(xué)習(xí)序列相關(guān)性的能力。孫敏等[11]把長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)應(yīng)用于情感分析,由若干遺忘記憶模塊組成復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),能更好獲取上下文特征,有效解決梯度消失問題。盧健等[12]提到門控循環(huán)神經(jīng)網(wǎng)絡(luò)(gated recurrent unit,GRU),是由LSTM而來,其結(jié)構(gòu)更簡單,收斂速率更快。吳小華等[13]將雙向長短時(shí)記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)用于情感分析,BiL?STM由雙向的LSTM網(wǎng)絡(luò)組成,可更好獲取文本句法信息。王麗亞等[14]等將雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)的雙通道模型用于文本分類,BiGRU是由正向的、方向相反的,且輸出由這兩個(gè)GRU的狀態(tài)共同決定的GRU組成的神經(jīng)網(wǎng)絡(luò)模型,并且能有效彌補(bǔ)LSTM訓(xùn)練時(shí)間長,GRU不能同時(shí)捕獲前后詞的特征的不足。

        本文針對中文新聞文本,綜合考慮BERT模型在文本表示方面,BiGRU在語言模型構(gòu)建的特征優(yōu)化方面的優(yōu)點(diǎn),提出了基于BERT的復(fù)合網(wǎng)絡(luò)模型(bG-BERT)。充分利用BERT模型強(qiáng)大的語義信息獲取能力,提取語句特征,然后使用BiGRU網(wǎng)絡(luò)強(qiáng)化在不同時(shí)間段更新后的上下文特征,減少特征在傳遞過程中的信息損失,篩選出豐富包含全局特征,深化模型的特征學(xué)習(xí)能力,從而提高新聞文本分類的準(zhǔn)確率和高效性,減少訓(xùn)練時(shí)長,實(shí)驗(yàn)最后驗(yàn)證了模型的實(shí)際應(yīng)用能力。

        2 基于BERT的復(fù)合網(wǎng)絡(luò)模型

        基于BERT的復(fù)合網(wǎng)絡(luò)模型(bG-BERT),主要圍繞以下三部分展開:第一部分為BERT模型輸入和預(yù)訓(xùn)練,第二部分為bG-BERT模型網(wǎng)絡(luò)結(jié)構(gòu)的建立,第三部分為bG-BERT模型訓(xùn)練。

        2.1 BERT模型輸入表征及預(yù)訓(xùn)練

        與傳統(tǒng)的word2vec和glove模型相比較,傳統(tǒng)模型的嵌入為文本內(nèi)的每個(gè)字詞提供一個(gè)只含有局部信息表示的表示。BERT模型,目的是利用無標(biāo)注預(yù)料進(jìn)行訓(xùn)練,獲得包含豐富語義信息的表示。BERT模型的輸入可以是一個(gè)句子或句子對c=[w1,w2,…,wn],[s1],[s2],…,[sn]](wn為第一句話里面的第n個(gè)單詞,sn表示一段話里的第n個(gè)句子),實(shí)際的輸入值是經(jīng)過Word Piece?token的中文字向量(Token Embedding),Etoken=,判 斷 前 后 句 的Segment Embedding,Esegment={EA1,EA2,…EAn,EB1,EB2…,EBn}(An表示句子對中的前一句話的第n個(gè)單詞,Bn表示對子對后面一句話的第n個(gè)單詞)和區(qū)分不同位置字詞所攜帶信息存在差異的Position Em?bedding,Eposition={E0,E1,…,En},三者的信息的總和。

        BERT模型預(yù)訓(xùn)練分成兩個(gè)階段,第一個(gè)階段是Masked LM,為訓(xùn)練雙向transformer[15]表示,采用隨機(jī)掩蓋每個(gè)序列中的15%的輸入詞,然后基于上下文來預(yù)測被掩蓋的詞語。第二個(gè)階段是Next Sentence Prediction,這一任務(wù)中主要學(xué)習(xí)判斷兩個(gè)句子之間的關(guān)聯(lián)性,使模型具備理解長序列上下文的聯(lián)系能力。

        2.2 bG-BERT模型結(jié)構(gòu)特征

        該混合模型由3部分組成:首先BERT提取文本的語義表示特征,主要使用BERT的核心模塊Transformer獲取全局的語義信息;其次使雙向GRU加強(qiáng)深層特征表示,最后引入分類器,主要由dropout防止混合網(wǎng)絡(luò)過擬合,使用softmax函數(shù)預(yù)測新聞文本所屬類別。模型如圖1所示。

        圖1 bG-BERT模型Fig.1 bG-BERT model

        1)獲取輸入表征后,首先使用具有12個(gè)Transformer特征抽取器,逐層傳遞并細(xì)化特征表示,計(jì)算如公式1所示:

        式中,l表示對應(yīng)的層數(shù),Rl為經(jīng)過對應(yīng)層的特征的上下文表示。

        Self-Attention機(jī)制是Transformer中的關(guān)鍵部分,Self-Attention機(jī)制主要分為4個(gè)步驟:首先輸入為目標(biāo)字詞、上下文各個(gè)字詞的語義向量表示,通過線性變換獲取目標(biāo)字詞的Query向量表示、上下文各個(gè)字詞的Key向量表示和目標(biāo)字詞與上下文各個(gè)字詞的原始Value向量表示;其次計(jì)算Que?ry向量和各個(gè)Key向量的相似度得到權(quán)重,常用的相似度函數(shù)有點(diǎn)積、拼接、感知機(jī)等;然后使用softmax函數(shù)對這些權(quán)重進(jìn)行歸一化處理;最后將權(quán)重和目標(biāo)詞的原始Value和各上下文字的Value向量進(jìn)行求和,得到最后的增強(qiáng)語義向量表示;作為Attention的輸出,計(jì)算過程如下:

        式中,Q為文本中的字詞,K為上下文的各個(gè)字,V為目標(biāo)字及其上下文的字都有各自的原始Value,Ki為第i個(gè)字的Key值,Wi為第i個(gè)字時(shí)的權(quán)值向量,為相似度,Self-Attention為注意力概率分布,j表示維數(shù),J表示維數(shù)上界。

        通過Embedding的向量輸入到BERT模型的Transformer的編碼器和解碼器之后,對于單文本分類來說,BERT模型在文本前插入一個(gè)[CLS]符號,與其他文本中已有的字詞相比,該符號無明顯語義信息會更公平地融合文本中各個(gè)字詞的相關(guān)信息,該符號對應(yīng)的輸出向量作為整篇文檔的語義表示,可作為輸入到后續(xù)模型進(jìn)行特征加強(qiáng)或分類。

        2)將BERT模型輸出的融入語義篇章信息的特征向量,輸入到BiGRU模型。其中更新門和重置門是其核心組件。更新門Ut用于控制前一時(shí)刻的狀態(tài)信息傳入到當(dāng)前狀態(tài)的程度,重置門Ft用于遺忘前一時(shí)刻狀態(tài)信息的程度。將重要特征保留,保證其在long-term傳播的時(shí)候也不會被丟失。其計(jì)算過程如公式6~9所示。式中,Ut表示t時(shí)刻的更新門,F(xiàn)t表示t時(shí)刻的重置門表示t時(shí)刻的候選激活狀態(tài),ht表示t時(shí)刻的激活狀態(tài),Wt為權(quán)值矩陣,xt為t時(shí)刻GRU的輸入。

        3)獲取語義篇章信息,加強(qiáng)特征的表示向量,傳給softmax函數(shù)進(jìn)行預(yù)測分類結(jié)果b={y1,y2,…,yn},對應(yīng)相應(yīng)的新聞主題。

        2.3 bG-BERT模型訓(xùn)練

        訓(xùn)練模型是為了最小化損失函數(shù)。本文選取的損失函數(shù)為交叉熵?fù)p失函數(shù),優(yōu)化器選取Adam。

        算法:bG-BERT模型的新聞文本分類算法

        輸入:訓(xùn)練數(shù)據(jù)集x=[x1,x2,…,xn],對應(yīng)標(biāo)簽y=[y1,y2,…,yn]

        輸出:輸入樣本屬于每個(gè)類別的概率pi=(0,0,0,1,0,0,0,0,0,0)

        初始化模型中的參數(shù)。

        數(shù)據(jù)預(yù)處理:將分類的文本轉(zhuǎn)化為字向量、句子向量和位置向量三者的綜合e=[e1,e2,…,en]。然后作為bG-BERT模型的輸入。

        For each text:

        用softmax進(jìn)行分類:

        其中k為維數(shù),z為實(shí)向量。y是10維向量表示預(yù)測屬于該類的概率。

        3 結(jié)果與討論

        3.1 實(shí)驗(yàn)數(shù)據(jù)、環(huán)境與參數(shù)

        實(shí)驗(yàn)采用的數(shù)據(jù)集是THUCNews,數(shù)據(jù)來自新浪新聞RSS訂閱頻道2005-2011年的歷史數(shù)據(jù)篩選過濾生成,包含74萬篇新聞文檔。從原始數(shù)據(jù)集上選取10個(gè)分類標(biāo)簽(體育、娛樂、家居、房產(chǎn)、教育、時(shí)尚、時(shí)政、游戲、科技、財(cái)經(jīng))。訓(xùn)練集、驗(yàn)證集和測試集分別為5 000×10,500×10,1 000×10,總共6.5萬條。對本文提出的bG-BERT模型新聞文本分類方法進(jìn)行驗(yàn)證和分析。

        實(shí)驗(yàn)環(huán)境配置如下,語言:Python3.7,工具:Google Colaboratory,框架:Keras2.2.5,處理器:Tes?la K80 GPU。

        本文模型參數(shù)具體設(shè)置如下:嵌入向量維度VEC的維度為128,BERT的 維 度 為768,BiGRU的維度為10,BERT的學(xué)習(xí)率為0.000 01,VEC的學(xué)習(xí)率為0.001。

        3.2 對比實(shí)驗(yàn)設(shè)置

        為測試模型的有效性,選擇了多個(gè)對比模型進(jìn)行比較,主要包括以下5個(gè):

        1)Word2Vec-BiGRU(W2V-bG):單一的BiGRU網(wǎng)絡(luò),利用word2vec訓(xùn)練得到的詞向量作為輸入。

        2)CNN-BiLSTM-Attention(CNN-bL-Att):CNN-bL-Att組合的復(fù)合網(wǎng)絡(luò)模型。

        3)BERT:單一的bert模型。

        4)BERT-BiLSTM(bL-BERT):單一的BiLSTM網(wǎng)絡(luò),利用BERT訓(xùn)練得到的詞向量作為輸入。

        5)bG-BERT:單一的BiGRU網(wǎng)絡(luò),利用BERT訓(xùn)練得到的詞向量作為輸入。

        1、5對照為證明BERT特征抽取能力高于word2vec模型。3、4、5對照為證明BiGRU模型的能使特征更加優(yōu)化。2、5比較證明比現(xiàn)已提出的國際最新的新聞文本分類的效果更加優(yōu)化。

        3.3 實(shí)驗(yàn)結(jié)果分析

        由于用測試集所得的評測指標(biāo)分?jǐn)?shù)比用訓(xùn)練集所得的分?jǐn)?shù)更能反映一個(gè)模型的優(yōu)劣。實(shí)驗(yàn)選擇在測試集上的具體驗(yàn)證對比結(jié)果如表1所示。

        表1模型對比結(jié)果Tab.1 Results of model comparison %

        從表1可以看出,bG-BERT模型的準(zhǔn)確率和F1值均高于第3組和第4組,可以證明BiGRU對于序列化的語義特征具有更好的更新強(qiáng)化作用。在與第1、2組實(shí)驗(yàn)對比結(jié)果可以看出,BERT能有效提升準(zhǔn)確率和F1值,證明BERT對于預(yù)訓(xùn)練時(shí)能準(zhǔn)確高效地提取文本中的特征,有利于下游任務(wù)進(jìn)行分類。整體來看,本文提出的bG-BERT模型的分類效果更好,充分發(fā)揮了BERT對于語義表示特征的能力,并遷移到下游分類任務(wù)提升模型整體的性能,BiGRU對于預(yù)處理的特征表示的特征抽取以及深層次特征學(xué)習(xí)的能力。并且與現(xiàn)已提出的國際最新的CNN-BiLSTM-Attention復(fù)合網(wǎng)絡(luò)模型新聞文本分類的的F1值高出1.78個(gè)百分點(diǎn)。其中bG-BERT在Accuracy、F1上取得最高值為97.22%、97.21%。

        為清晰地反映5組模型的優(yōu)劣,分別繪制了各模型的準(zhǔn)確率a和損失率l在驗(yàn)證集上的變化曲線,如圖2所示。

        圖2驗(yàn)證集評測圖:(a)準(zhǔn)確率變化,(b)損失率變化Fig.2 Validation set evaluation diagrams:(a)accuracy rate variation,(b)loss rate variation

        本次實(shí)驗(yàn)訓(xùn)練迭代次數(shù)為5次(W2V-bG,CNN-bL-Att的Epoch為10,圖2中 的W2V-bG,CNN-bL-Att的取值為訓(xùn)練10次中的后面5次的數(shù)據(jù)),從圖2的準(zhǔn)確率和損失率變化可以看出,使用BERT進(jìn)行特征抽取,明顯要優(yōu)于傳統(tǒng)的Word2Vec模型。而使用BERT的3組模型雖然很接近,但是結(jié)果相比BERT模型、bL-BERT模型仍然有微小的提升。準(zhǔn)確率的最高值97.52%,損失率的最低值9.51%均為bG-BERT模型上計(jì)算得出(Epoch為1時(shí)),此外bG-BERT模型整體也較為穩(wěn)定,在新聞文本分類上更具有優(yōu)勢。

        綜上所述,在相同數(shù)據(jù)集中,bG-BERT表現(xiàn)性能優(yōu)于其他模型,能夠提高文本分類的準(zhǔn)確率,且具有很好的應(yīng)用能力。

        4 結(jié)論

        本文采用復(fù)合網(wǎng)絡(luò)的bG-BERT模型,應(yīng)用在中文新聞文本分類任務(wù)中,在中文新聞文本上進(jìn)行訓(xùn)練和測試取得較好的分類效果。并且與單獨(dú)的BERT模型,BiGRU以及最新融入注意力的bL-BERT模型進(jìn)行比較,取得的準(zhǔn)確率和F1值更優(yōu),結(jié)果表明基于bG-BERT模型能有效學(xué)習(xí)到長文本中的深層次重要特征,以及上下文的信息。但由于混合后的模型需要的網(wǎng)絡(luò)參數(shù)更多,結(jié)構(gòu)更加復(fù)雜,需要更多的算力和時(shí)間代價(jià)。下一步的研究目標(biāo)將探究如何優(yōu)化高分類準(zhǔn)確率下且計(jì)算與時(shí)間代價(jià)和損失更小的參數(shù)更少的輕量型復(fù)合網(wǎng)絡(luò)模型。

        猜你喜歡
        語義準(zhǔn)確率向量
        向量的分解
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        聚焦“向量與三角”創(chuàng)新題
        語言與語義
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        久久免费精品国产72精品剧情| 国99久9在线 | 免费| 丰满人妻被黑人猛烈进入| 欧美在线不卡视频| 亚洲精品日本久久久中文字幕| 偷拍综合在线视频二区日韩 | 久久熟女乱一区二区三区四区| 亚洲天堂亚洲天堂亚洲色图| 国产成人午夜无码电影在线观看| 久热在线播放中文字幕| 国产丰满乱子伦无码专| 国产亚洲一二三区精品| 久久精品国产只有精品96| 欧美日本国产va高清cabal| 韩国日本亚洲精品视频| 蓝蓝的天空,白白的云| 久久婷婷五月国产色综合| 国产免费又色又爽又黄软件| 大陆啪啪福利视频| 亚洲精品岛国av一区二区| 日本午夜精品一区二区三区电影| 狠狠躁夜夜躁人人爽超碰97香蕉| 亚洲午夜久久久精品国产| 精品日本一区二区三区| 中文 在线 日韩 亚洲 欧美| 国产久热精品无码激情 | 蜜桃视频高清在线观看| 日本无遮挡真人祼交视频| 国产精品igao视频网| 亚洲国产精品中文字幕日韩| 亚洲精品中文字幕一二三| 曰韩无码无遮挡a级毛片| 97精品伊人久久大香线蕉app| 99久久无色码中文字幕鲁信| 一区二区三区视频在线观看免费| 久久精品免视看国产成人| 国产自产av一区二区三区性色| 自拍偷区亚洲综合第一页| 婷婷五月婷婷五月| 中文字幕第八页| 女同在线视频一区二区|