亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ERNIE的新聞標(biāo)題文本分類

        2023-04-20 05:23:13徐云鵬曹暉
        計算機應(yīng)用文摘·觸控 2023年7期
        關(guān)鍵詞:文本分類注意力機制

        徐云鵬 曹暉

        關(guān)鍵詞:文本分類;EWLTC; ERNIE;注意力機制

        中圖法分類號:TP391 文獻(xiàn)標(biāo)識碼:A

        隨著時代的發(fā)展,文本數(shù)據(jù)從傳統(tǒng)的實體化向數(shù)字化、虛擬化方向發(fā)展。新聞文本是我們生活中接觸最為廣泛的一種文本數(shù)據(jù),但由于新聞來源渠道復(fù)雜多樣,需要對其進行準(zhǔn)確的分類。

        一方面,準(zhǔn)確的新聞類別標(biāo)簽可以幫助用戶快速地檢索感興趣的新聞;另一方面,根據(jù)用戶的使用需求進行標(biāo)簽化、類別化推薦,需要將新聞文本存儲至不同類別庫中。隨著信息的爆炸式增長,人工標(biāo)注數(shù)據(jù)完成分類任務(wù)極為耗時,且易受到標(biāo)注人主觀意識的影響。對于快速實現(xiàn)文本分類的需求日漸增加,自動文本分類技術(shù)應(yīng)運而生。深度學(xué)習(xí)方法作為該領(lǐng)域的主流研究方向,突破以往機器學(xué)習(xí)的瓶頸,給文本分類領(lǐng)域帶來重大機遇。

        ERNIE (Enhanced

        Representation

        throughKnowledge Integration)是百度發(fā)布的預(yù)訓(xùn)練模型。它將Google發(fā)布的BERT( Bidirectional EncoderRepresentation from Transformers)中單詞級別的MASK拓展成3種級別的Knowledge Masking,從而讓模型學(xué)習(xí)到更多語言知識,在多項任務(wù)實踐效果上超越了BERT。

        Jawahar等在2019年分別通過短語語法(Phrasal Syntax)、探測任務(wù)(Probing Task)、主謂一致(Subject-Verb Agreement)、組成結(jié)構(gòu)(Compositional Structure)4個實驗發(fā)現(xiàn),以BERT為代表的預(yù)訓(xùn)練模型編碼了豐富的語言學(xué)層次信息:表層信息特征在底層網(wǎng)絡(luò),句法信息特征在中間層網(wǎng)絡(luò),語義信息特征在高層網(wǎng)絡(luò)。Encoder層越淺,句子向量越能代表低級別語義信息,Encoder層越深,句子向量越能代表更高級別的語義信息。因此,本文EWLTC模型為了獲取不同級別的語義信息,提升模型分類效果,將預(yù)訓(xùn)練模型ERNIE Encoder層輸出的第1個token向量[CLS]通過注意力機制進行加權(quán)求和,并作為后續(xù)全連接層的輸入,增加了語義信息的融入,使得新聞標(biāo)題文本結(jié)果優(yōu)于ERNIE以及傳統(tǒng)的文本分類模型。

        1相關(guān)工作

        文本分類(Text Classification,TC)作為自然語言處理領(lǐng)域的重要研究領(lǐng)域,主要分為淺層學(xué)習(xí)和深度學(xué)習(xí)兩個發(fā)展階段。淺層學(xué)習(xí)在1960~2010年占據(jù)文本分類模型的主導(dǎo)地位。淺層學(xué)習(xí)模型主要是基于統(tǒng)計學(xué)習(xí)的模型,如樸素貝葉斯(Naive Bayes,NB),K近鄰(k-Nearest Neighbor,KNN)和支持向量機(Support Vector Machine,SVM)等。盡管與早期基于規(guī)則的分類方法相比,淺層學(xué)習(xí)模型(Shallow Learning)在準(zhǔn)確性和穩(wěn)定性方面具有顯著優(yōu)勢,但淺層模型的堆疊層數(shù)僅有1~2層,導(dǎo)致模型的表達(dá)能力極為有限,并且樣本的特征提取極其依賴先驗知識進行手動抽取,反復(fù)的實驗摸索耗費大量的人力物力,極大地限制了淺層模型的效果。

        2006年,Hinton提出深度學(xué)習(xí)(Deep Learning)的概念,使用多隱藏層的人工神經(jīng)網(wǎng)絡(luò)來進行樣本的特征抽取與學(xué)習(xí),克服了淺層學(xué)習(xí)依賴人工的缺點,由此成為目前自然語言處理的主流研究方法。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)與遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是用于文本分類任務(wù)的2種主流深度學(xué)習(xí)方法,TCNN與RNN模型相較于淺層學(xué)習(xí)模型,CNN的并行計算效率高,RNN則更注重文本的序列特征,二者都可以顯著提高文本分類性能。隨后,研究人員將人類視覺注意力機制的原理引入自然語言處理任務(wù)中,其基本原理為在眾多的輸入信息中聚焦于對當(dāng)前任務(wù)更為關(guān)鍵的信息,而降低對其他信息的關(guān)注度,甚至過濾掉無關(guān)信息,將其與深度學(xué)習(xí)模型相結(jié)合,有效提升了文本分類的計算效率與準(zhǔn)確率。

        2018年,BERT的出現(xiàn)在自然語言處理領(lǐng)域具有里程碑式的意義,其在多個自然語言處理(Natural Language Processing,NLP)任務(wù)中獲得了新的SOTA(state-of-the-art)的結(jié)果,其強大的模型特征抽取能力使大量研究工作圍繞其展開,自然語言處理研究進入大數(shù)據(jù)時代,ERNIE模型是BERT的眾多改進模型之一。

        2模型描述

        ERNIE總體模型結(jié)構(gòu)和BERT -致,使用的是Transformer Encoder,輸入與輸出的個數(shù)保持一致。相較于BERT,ERNIE的改進主要分為兩方面。

        (1)采用新的Mask方法。BERT初次提出了MLM方法,以15%的概率用mask token([MASK])隨機對每一個訓(xùn)練序列中的token進行替換,然后預(yù)測出[MASK]位置原有的單詞。BERT是基于字的MASK,ERNIE是基于詞語的MASK。假設(shè)訓(xùn)練句子為“哈爾濱是黑龍江省的省會城市”,BERT會將哈爾濱隨機遮蓋為哈“mask”濱,無法學(xué)習(xí)到哈爾濱是一個重要的地點實體。ERNIE則隨機遮擋掉地名實體黑龍江,此模型能夠在一定程度上學(xué)習(xí)到“哈爾濱”與“黑龍江省”的關(guān)系,即模型能夠?qū)W習(xí)到更多語義知識。相較于BERT,ERNIE成了一個具有更多知識的預(yù)訓(xùn)練模型。

        (2)增加預(yù)訓(xùn)練任務(wù):通過增加對話預(yù)料的訓(xùn)練,判斷兩句話是否屬于同一句話取代BERT原有的NSP(Next Sentence Prediction)任務(wù)。

        ERNIE由12層編碼網(wǎng)絡(luò)組成,每層的隱藏狀態(tài)hidden_size為768,并且有12個z注意力頭(Attention-Head),總計110 M參數(shù)。ERNIE在每一層網(wǎng)絡(luò)都使用第一個輸入符號([CIJS])輸出進行表征計算,通過自注意力機制匯聚了所有真實符號的信息表征。

        ERNIE的每層輸出分別為last_hidden_state,pooler_output, hidden_states, attentions,其中,hidden_states是每層輸出的模型隱藏狀態(tài)加上可選的初始嵌入輸出。選取其中12層Encoder層的輸出,總計12個元組:12*(batch_size,sequence_length,hidden_size)。但12層cls每層的特征信息對于預(yù)測的貢獻(xiàn)不同,無法簡單相加,為此通過引入注意力機制實現(xiàn)對12個向量的加權(quán)求和,在模型訓(xùn)練中自動分配權(quán)重給對象的cls向量。最終將求和后的向量輸入至全連接層進行預(yù)測訓(xùn)練。

        3實驗結(jié)果與分析

        3.1實驗數(shù)據(jù)集與評價指標(biāo)

        實驗中,采用新聞文本分類中常使用的THUCNews,根據(jù)新浪新聞RSS訂閱頻道2005~2011年的歷史數(shù)據(jù)篩選過濾生成。本次實驗選取其中的5萬條數(shù)據(jù)集。本文使用目前通用評價指標(biāo)來評估模型的優(yōu)劣,即精確率(Precision)和召回率(Recall)。精確率指正確的正樣本個數(shù)占分類器判定為正樣本的樣本個數(shù)的比例,召回率是指分類正確的正樣本個數(shù)占真正的正樣本個數(shù)的比例。

        3.2實驗對比

        本文使用五折交叉驗證(5-fold cross-validation)來測試EWTLC型的效果,該方法的基本思路是:將所有的數(shù)據(jù)集平均分為5個部分,依次抽取4個部分當(dāng)作訓(xùn)練集,剩下1個部分當(dāng)作測試集進行測試,然后將5輪訓(xùn)練與預(yù)測后的結(jié)果進行平均,將平均值作為模型最后的估計結(jié)果。

        參與對比的網(wǎng)絡(luò)模型主要包括:(1)FastText模型,采用Facebook AI Research開源的機器學(xué)習(xí)訓(xùn)練工具FastText對新聞標(biāo)題進行標(biāo)簽分類;(2)TextCNN模型,采用文本卷積神經(jīng)網(wǎng)絡(luò)TextCNN模型對新聞標(biāo)題進行標(biāo)簽分類;(3)BiLSTM模型,采用雙向長短時記憶網(wǎng)絡(luò)BiLSTM模型對新聞標(biāo)題進行標(biāo)簽分類:(4)BERT+FP模型,基于BERT預(yù)訓(xùn)練模型和全連接層Fully Connected Layers對新聞標(biāo)題進行標(biāo)簽分類;(5)EWLTC模型,采用EWLTC模型對新聞標(biāo)題進行標(biāo)簽分類。實驗結(jié)果如表1所列。

        (1)通過對比實驗1和實驗3結(jié)果發(fā)現(xiàn),利用FastText模型相較于BiLSTM模型、TextCNN更為優(yōu)秀,主要原因是FastText克服word2vec中單詞內(nèi)部形態(tài)信息丟失的問題;(2)對比實驗4與實驗1結(jié)果發(fā)現(xiàn),采用預(yù)訓(xùn)練模型ERNIE的實驗結(jié)果是在FastText的基礎(chǔ)上大幅度的提升,原因在于預(yù)訓(xùn)練模型有助于更好地抽取文本特征,生成文本向量;(3)通過對比實驗5結(jié)果與實驗4結(jié)果發(fā)現(xiàn),相較于原本的預(yù)訓(xùn)練語言模型只提取最后一層的輸出,EWLTC可以學(xué)習(xí)更多特征、獲取更好的分類效果。

        4結(jié)束語

        本文EWLTC模型進一步增強了文本的特征提取與表示能力,實現(xiàn)了更好的文本分類效果。

        作者簡介:

        徐云鵬(1997—),碩士,研究方向:人工智能。

        曹暉(1971—),博士,研究方向:人工智能(通信作者)。

        猜你喜歡
        文本分類注意力機制
        面向短文本的網(wǎng)絡(luò)輿情話題
        基于自注意力與動態(tài)路由的文本建模方法
        基于深度學(xué)習(xí)的問題回答技術(shù)研究
        基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
        基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
        軟件工程(2017年11期)2018-01-05 08:06:09
        InsunKBQA:一個基于知識庫的問答系統(tǒng)
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于貝葉斯分類器的中文文本分類
        基于蟻群智能算法的研究文本分類
        基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
        国产精品搭讪系列在线观看| 日日噜噜夜夜狠狠2021| 视频福利一区二区三区| 给我看免费播放的视频在线观看 | 久久人妻av不卡中文字幕| 毛片在线播放亚洲免费中文网| 亚洲高清在线免费视频| 久久无码av一区二区三区| 国产精品白浆视频免费观看| 国产福利一区二区三区视频在线看| 亚洲av综合色区一区二区| 国产乱了真实在线观看| 福利网址在线观看| 国产目拍亚洲精品二区| 不卡日韩av在线播放| 亚洲av无码专区电影在线观看| 久久天堂av色综合| 日本女同视频一区二区三区| 精品国际久久久久999波多野| 日韩成人无码| 一本一道波多野结衣av中文| 亚洲综合av一区在线| 一 级做人爱全视频在线看| 国产精品免费久久久久软件| www插插插无码视频网站| 人妻少妇粉嫩av专区一| 国产成人a级毛片| 国产av无码专区亚洲av毛网站| 国产成人影院一区二区| 视频福利一区二区三区| 无码国产精成人午夜视频一区二区| 一本色道久久99一综合| 老熟女熟妇嗷嗷叫91| av影片手机在线观看免费网址| 99久久精品午夜一区二区| 欧美成人专区| 少妇特殊按摩高潮对白| 国产精品久久久久久| 玖玖资源站无码专区| 国产激情无码Av毛片久久| 成人av资源在线播放|