亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ERNIE-RCNN模型的中文短文本分類(lèi)

        2022-06-29 12:32:48王浩暢孫銘澤
        關(guān)鍵詞:特征提取分類(lèi)文本

        王浩暢,孫銘澤

        (東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)

        0 引 言

        文本分類(lèi)(text classification)是自然語(yǔ)言處理(natural language processing,NLP)學(xué)科的一門(mén)重要研究方向,而短文本分類(lèi)則是文本分類(lèi)的一個(gè)重要分支。隨著自然語(yǔ)言處理技術(shù)研究的不斷深入,文本分類(lèi)算法研究也獲得了巨大突破[1]。文本分類(lèi)由最初依靠人工進(jìn)行規(guī)則提取方式,轉(zhuǎn)向基于機(jī)器學(xué)習(xí)的自動(dòng)分類(lèi)方式,通過(guò)機(jī)器學(xué)習(xí)方法提取文本分類(lèi)規(guī)則進(jìn)行自動(dòng)分類(lèi),將機(jī)器學(xué)習(xí)算法應(yīng)用到文本分類(lèi)領(lǐng)域[2]。

        文本分類(lèi)過(guò)程一般包括:文本預(yù)處理、特征提取、模型選擇、損失函數(shù)計(jì)算、測(cè)試評(píng)估[3]。文本分類(lèi)方法經(jīng)過(guò)長(zhǎng)期的研究在很多場(chǎng)景下已經(jīng)得到了應(yīng)用,但是短文本分類(lèi)研究起步比較晚,且一直沒(méi)有什么通用的、效果良好的方法。短文文本分類(lèi)一般存在兩個(gè)問(wèn)題,其一是短文本提供的詞語(yǔ)少,提供的有效信息有限;其二是根據(jù)分詞結(jié)果構(gòu)建的詞頻或者特征矩陣稀疏,大多數(shù)算法重點(diǎn)放在處理稀疏矩陣,效果都不好。因此短文本分類(lèi)重心放在特征處理和分類(lèi)算法環(huán)節(jié)上,就需要加深對(duì)深度學(xué)習(xí)模型的研究。

        深度學(xué)習(xí)模型在文本分類(lèi)上表現(xiàn)出了相對(duì)較好的分類(lèi)效果,得益于模型在復(fù)雜特征提取和文本表示方面有著更強(qiáng)大的能力[4]。例如,快速文本分類(lèi)FastText[5]模型,具有模型結(jié)構(gòu)簡(jiǎn)單、訓(xùn)練速度快的特點(diǎn),能夠處理樣本數(shù)量大、類(lèi)別標(biāo)簽多的任務(wù),文本分類(lèi)任務(wù)中將整篇文檔的詞疊加得到文檔向量。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)文本分類(lèi)模型TextCNN[6],簡(jiǎn)化了卷積層,具有參數(shù)數(shù)目少、計(jì)算量少、訓(xùn)練速度快等優(yōu)勢(shì)。在循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN[7])和CNN基礎(chǔ)上,Lai S[8]等提出了一種循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(recurrent convolutional neural network,RCNN)分類(lèi)方法,汲取了RNN和CNN共同的優(yōu)勢(shì),具有訓(xùn)練時(shí)間更短、訓(xùn)練速度更快、處理樣本更多等優(yōu)勢(shì),采用雙向循環(huán)結(jié)構(gòu),能最大程度捕捉下文信息,極大提高了分類(lèi)的準(zhǔn)確率,分類(lèi)效果更明顯。

        近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,使得預(yù)訓(xùn)練語(yǔ)言模型受到廣泛關(guān)注,預(yù)訓(xùn)練模型是利用訓(xùn)練好的詞向量初始化網(wǎng)絡(luò)文本表征問(wèn)題。當(dāng)前最好的預(yù)訓(xùn)練模型有Bert[9]、ERNIE[10]模型。李可悅等[11]提出基于BERT的社交電商文本分類(lèi)算法,采用BERT預(yù)訓(xùn)練語(yǔ)言模型,完成社交電商文本句子層面的特征向量表示,有針對(duì)性地將獲取特征向量輸入分類(lèi)器進(jìn)行分類(lèi),能夠高效準(zhǔn)確地判斷文本所描述商品的類(lèi)別。邢照野等[12]提出基于改進(jìn)ERNIE模型的中文文本分類(lèi),通過(guò)利用知識(shí)增強(qiáng)的語(yǔ)義表示預(yù)訓(xùn)練模型生成基于上下文信息的詞向量,有效提高了中文文本分類(lèi)性能。

        伴隨文本分類(lèi)技術(shù)的成熟,對(duì)于短文本分類(lèi)技術(shù)的需求日益突顯,一些研究者陸續(xù)開(kāi)始著重短文本分類(lèi)技術(shù)研究。王玉燕等[13]針對(duì)短文本存在篇幅短、特征稀疏、主題多變等問(wèn)題,提出基于深度學(xué)習(xí)的短文本分類(lèi)技術(shù),采用CNN和RNN系列模型,結(jié)合場(chǎng)景需要,應(yīng)用到文本分類(lèi)方案中,通過(guò)實(shí)驗(yàn)驗(yàn)證,各個(gè)模型都表現(xiàn)出了更好的性能。呂飛亞等[14]針對(duì)短文本分類(lèi)中存在特征表示高維稀疏、語(yǔ)義分布不明顯、上下文語(yǔ)意聯(lián)系不強(qiáng)等問(wèn)題,會(huì)對(duì)信息抽取造成困擾,提出了基于BiLSTM與Bert的短文本分類(lèi)方法,其中BiLSTM層獲取更多上下文不同距離的語(yǔ)義信息,注意力機(jī)制層對(duì)經(jīng)過(guò)的編碼數(shù)據(jù)進(jìn)行轉(zhuǎn)變加權(quán)提升序列的學(xué)習(xí)任務(wù)。

        段丹丹等[15]針對(duì)短文本分類(lèi)算法存在的特征稀疏、用詞不規(guī)范和數(shù)據(jù)海量問(wèn)題,提出一種基于Transformer的雙向編碼器表示BERT的中文短文本分類(lèi)算法,使用BERT預(yù)訓(xùn)練語(yǔ)言模型對(duì)短文本進(jìn)行句子層面的特征向量表示,將獲得的特征向量輸入到Softmax回歸模型進(jìn)行訓(xùn)練分類(lèi)。齊佳琪等[16]針對(duì)短文本分類(lèi)中存在的長(zhǎng)度短、數(shù)據(jù)海量、文本噪音大等問(wèn)題,提出了ERNIE詞向量與深金字塔卷積神經(jīng)網(wǎng)絡(luò)模型的短文本分類(lèi)研究,運(yùn)用ERNIE實(shí)體掩碼方式捕獲詞匯和語(yǔ)義信息,使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,取得了很好的分類(lèi)效果。

        根據(jù)以上研究,該文針對(duì)短文本存在的特征詞少、規(guī)范性少、數(shù)據(jù)規(guī)模量大的難點(diǎn),提出將ERNIE預(yù)訓(xùn)練模型與RCNN模型進(jìn)行融合的短文本分類(lèi)方法。該模型以ERNIE作為詞向量,對(duì)實(shí)體和詞語(yǔ)義單元掩碼,后連接Transformer[17]的Encoder層,對(duì)ERNIE層輸出詞嵌入向量進(jìn)行編碼,優(yōu)化模型過(guò)擬合問(wèn)題,增強(qiáng)泛化能力,RCNN模型對(duì)ERNIE輸入的詞向量進(jìn)行特征提取,卷積層利用大小不同的卷積核提取大小不同的特征值,池化層進(jìn)行映射處理,最后通過(guò)softmax進(jìn)行分類(lèi),提高了中文短文本分類(lèi)性能。

        1 基于ERNIE-RCNN模型的中文短文本分類(lèi)

        1.1 ERNIE模型

        ERNIE模型是一種基于知識(shí)增強(qiáng)策略的持續(xù)學(xué)習(xí)語(yǔ)義理解模型,通過(guò)不斷吸收大量文本數(shù)據(jù)里的結(jié)構(gòu)、語(yǔ)義、詞匯等知識(shí),實(shí)現(xiàn)模型效果不斷進(jìn)化。與BERT相比,ERNIE也是由微調(diào)和預(yù)訓(xùn)練兩部分組成,不同的是其預(yù)訓(xùn)練過(guò)程利用了更豐富的語(yǔ)義知識(shí)和語(yǔ)義任務(wù),在多個(gè)NLP任務(wù)上效果顯著。ERNIE模型結(jié)構(gòu)是經(jīng)過(guò)多層、雙向Transformer編碼和ERNIE詞向量構(gòu)成,如圖1所示。

        圖1 ERNIE模型

        由圖1模型看出,E1,E2,…,EN表示文本輸入,經(jīng)過(guò)Transformer編碼后,輸出ERNIE詞向量。在整個(gè)預(yù)訓(xùn)練過(guò)程中,ERNIE使用的數(shù)據(jù)是對(duì)整個(gè)詞語(yǔ)進(jìn)行屏蔽,從而學(xué)習(xí)到詞與實(shí)體表達(dá)。

        1.1.1 ERNIE結(jié)構(gòu)詳解

        ERNIE結(jié)構(gòu)是由12個(gè)Encoder組成,從輸入上看第一個(gè)輸入是一個(gè)特殊的CLS,CLS表示的是分類(lèi)任務(wù)。底層是單詞輸入,其中共有768個(gè)隱藏單位,對(duì)輸入的單詞通過(guò)Mask機(jī)制進(jìn)行中文實(shí)體掩碼,然后把結(jié)果傳輸?shù)较乱粋€(gè)Encoder層,最后輸出結(jié)果。

        1.1.2 ERNIE Encoder模型結(jié)構(gòu)

        ERNIE Encoder基本上是Transformer的Encoder部分,并且Encoder在結(jié)構(gòu)上全部是一樣的,但并不共享權(quán)重。ERNIE Encoder結(jié)構(gòu)如圖2所示。

        圖2 ERNIE Encoder結(jié)構(gòu)

        由圖2可以看出,最下層輸入的是embedding的向量,然后經(jīng)過(guò)一個(gè)位置信息的嵌入,輸出到多頭自注意力機(jī)制層,進(jìn)行多頭自注意力計(jì)算。接下來(lái)ERNIE Encoder的輸出會(huì)經(jīng)過(guò)一層Add&Norm層,Add表示對(duì)來(lái)自多頭自注意力機(jī)制層的輸入和輸出進(jìn)行殘差連接,Norm表示對(duì)輸入和輸出進(jìn)行歸一化處理,歸一化處理后的結(jié)果會(huì)傳入前饋神經(jīng)網(wǎng)絡(luò)層。然后再經(jīng)過(guò)一層Add&Norm層,通過(guò)同樣的處理后會(huì)輸出歸一化的詞向量列表。

        1.2 構(gòu)建RCNN模型

        RCNN是卷積神經(jīng)網(wǎng)絡(luò)用于目標(biāo)檢測(cè)的模型,其中CNN具有良好的特征提取和分類(lèi)回歸性能。算法步驟如下:(1)候選區(qū)域選擇;(2)CNN特征提??;(3)分類(lèi)與邊界回歸。RCNN模型如圖3所示。

        1.2.1 候選區(qū)域選擇

        候選區(qū)域選擇是一種傳統(tǒng)的區(qū)域提取方法,方法用的是選擇性搜索(selective search,SS[18])方法,SS用來(lái)查看現(xiàn)有的小區(qū)域,合并兩個(gè)最有可能的區(qū)域,然后重復(fù)操作,最后輸出候選區(qū)域。候選區(qū)域一般為1k~2k左右,可理解為將信息劃分為1k~2k個(gè)網(wǎng)格,之后再對(duì)網(wǎng)絡(luò)進(jìn)行特征提取或卷積操作。

        1.2.2 CNN特征提取

        CNN特征提取可以再次提取文本中的關(guān)鍵信息及深層結(jié)構(gòu)信息,且CNN可以并行運(yùn)行,能夠加快訓(xùn)練速度。如圖3所示,CNN由若干個(gè)卷積層、池化層、全連接層組成。卷積層會(huì)將Encoder層輸出的向量提取出不同長(zhǎng)度詞語(yǔ)的信息和結(jié)構(gòu)信息。如輸入一個(gè)句子,卷積層首先會(huì)對(duì)這個(gè)句子進(jìn)行切分,假設(shè)C1~Cn為1到n個(gè)單詞,對(duì)每個(gè)單詞進(jìn)行詞嵌入,可以得到X1~Xn詞向量。假設(shè)詞向量共d維,將X1~Xn詞向量拼接(X1,X2,…,Xn),那么對(duì)于這個(gè)句子便可以得到n行d列的矩陣X。

        圖3 RCNN模型

        文本生成的詞向量通過(guò)拼接構(gòu)建成的句子向量是二維向量,因此卷積過(guò)程可由如下公式表示:

        s(i,j)=(X,W)(i,j)=

        式中,X為卷積核,W為被卷積矩陣,m為對(duì)應(yīng)矩陣的詞向量行數(shù),n為矩陣的維數(shù),i和j為映射后的行和列,s(i,j)為卷積和W對(duì)應(yīng)的輸出矩陣的對(duì)應(yīng)位置元素的值。

        池化層會(huì)對(duì)卷積層獲得的特征值進(jìn)行特征映射處理,由于不同尺寸的卷積核得到的特征值大小是不一樣的,因此池化層會(huì)對(duì)每個(gè)特征圖使用池化函數(shù),使得它們的維度相同,最常用的就是最大池化層,提取出特征圖句子的最大值,這樣卷積核得到的特征就是一個(gè)值,然后對(duì)所有的卷積核使用最大池化層,最后經(jīng)過(guò)全連接層把所有卷積核連接起來(lái),就可以得到最終的特征向量。為了防止過(guò)擬合,全連接層還引入了drop out機(jī)制。

        1.2.3 分類(lèi)與邊界回歸

        分類(lèi)與邊界回歸共有兩個(gè)子步驟:第一個(gè)是對(duì)前一步的輸出向量進(jìn)行分類(lèi);第二個(gè)是通過(guò)邊界回歸框回歸獲得精確的區(qū)域的信息。目的是準(zhǔn)確定位和合并完成分類(lèi)的預(yù)期目標(biāo),并避免多重檢測(cè)。

        1.3 ERNIE-RCNN模型建立的具體步驟

        步驟1:對(duì)輸入的數(shù)據(jù)集進(jìn)行預(yù)處理,得到輸入文本,記為E=(E1,E2,…,Ei,…,En),其中Ei(i=1,2,…,n)表示文本的第i個(gè)字。

        步驟2:將每個(gè)Ei輸入到ERNIE預(yù)訓(xùn)練層,進(jìn)行Mask掩碼,然后經(jīng)過(guò)Transformer編碼器編碼后,將文本E進(jìn)行序列特征化,輸出文本W(wǎng)i=(W1i,W2i,…,Wni),其中Wni表示文本中第i句中的第n個(gè)詞的詞向量,將W1~Wn詞向量拼接(W1,W2,…,Wn),得到矩陣W,即ERNIE詞向量。

        步驟3:將ERNIE詞向量輸入到RCNN模型,RCNN模型經(jīng)過(guò)再次特征提取,將ERNIE輸入的詞向量W經(jīng)過(guò)卷積層操作,輸出Xi=(X1i,X2i,…,Xni),將X1~Xn詞向量拼接(X1,X2,…,Xn)得到的矩陣X,然后經(jīng)過(guò)池化層映射處理,得到統(tǒng)一的特征值,經(jīng)過(guò)全連接層連接和softmax回歸,生成新的特征向量,最后輸出。ERNIE-RCNN模型如圖4所示。

        圖4 ERNIE-RCNN模型

        2 實(shí)驗(yàn)及結(jié)果分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)集

        實(shí)驗(yàn)選用的是THUCNews中文新聞數(shù)據(jù)集[19],THUCNews是根據(jù)新浪新聞RSS訂閱頻道05到11年間的歷史數(shù)據(jù)篩選過(guò)濾生成,包括74萬(wàn)篇新聞文檔,均為UTF-8純文本格式。從THUCNews中抽取了20萬(wàn)條新聞標(biāo)題,其中18萬(wàn)條作為訓(xùn)練集,1萬(wàn)條作為測(cè)試集,1萬(wàn)條作為驗(yàn)證集,文本長(zhǎng)度在20到30之間。一共10個(gè)類(lèi)別,分別為財(cái)經(jīng)、家居、房產(chǎn)、教育、科技、時(shí)尚、時(shí)政、體育、游戲、軍事,每個(gè)類(lèi)別數(shù)據(jù)共2萬(wàn)條,數(shù)據(jù)分類(lèi)均衡。

        2.2 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)采用的硬件GPU為NVIDIA-SMI,內(nèi)存容量為8 G,CPU為Intel(R)Core(TM)i7-9700KCPU @ 3.60 GHz,Python版本為3.7.7。

        2.3 評(píng)價(jià)指標(biāo)

        實(shí)驗(yàn)用了文本分類(lèi)中常用的評(píng)價(jià)指標(biāo):精確率、召回率、F1值,計(jì)算公式如下:

        式中,TP為實(shí)際值和預(yù)測(cè)值均為正值時(shí)數(shù)據(jù)的數(shù)量,F(xiàn)P為實(shí)際值為負(fù)值、預(yù)測(cè)值為正值時(shí)的數(shù)據(jù)數(shù)量,F(xiàn)N為實(shí)際值為正值、預(yù)測(cè)值為負(fù)值時(shí)數(shù)據(jù)的數(shù)量,P為精確率,R為召回率。

        2.4 實(shí)驗(yàn)結(jié)果

        為對(duì)比模型分類(lèi)性能,選擇TextRNN、Transformer、TextCNN、TextRCNN、Bert、ERNIE、Bert-RCNN[20]7種模型與ERNIE-RCNN模型進(jìn)行三組對(duì)比實(shí)驗(yàn),為進(jìn)一步比較模型的性能,查閱了兩篇使用同樣數(shù)據(jù)集文章,進(jìn)行一組簡(jiǎn)單對(duì)比。

        對(duì)比1:從圖5可以看出,ERNIE-RCNN模型準(zhǔn)確率最高,說(shuō)明分類(lèi)效果最好。其中相對(duì)ERNIE和Bert-RCNN差別不大,但相對(duì)TextRNN、Transformer、TextCNN、TextRCNN模型,分類(lèi)效果有明顯差別。

        圖5 模型準(zhǔn)確率的變化

        對(duì)比2:從表1可以看出,ERNIE-RCNN模型在精準(zhǔn)率、召回率、F1值這三個(gè)指標(biāo)上均優(yōu)于其他模型,其中在精確率上,比TextRNN、Transformer、TextCNN、TextRCNN、Bert、ENRIE、Bert-RCNN分別提高了4.23、4.11、3.74、3.39、1.09、0.65、0.78個(gè)百分點(diǎn)。TextRC-NN、Transformer、TextCNN、TextRCNN模型分類(lèi)結(jié)果差距不大,說(shuō)明embedding部分沒(méi)有很好地提取文本特征,下游模型的變化對(duì)分類(lèi)結(jié)果影響不大,而對(duì)于Transformer模型分類(lèi)也并不理想,說(shuō)明embedding后的下游模型是決定分類(lèi)結(jié)果的重要部分。

        對(duì)比3:從表2可以看到,ERNIE-RCNN模型比Bert、ENRIE、Bert-RCNN模型訓(xùn)練時(shí)間更短一些,ERNIE-RCNN模型隨著數(shù)據(jù)的增加,模型訓(xùn)練效果時(shí)間成本更低。

        表1 不同模型的測(cè)試結(jié)果

        表2 不同模型的訓(xùn)練時(shí)間

        對(duì)比4:齊佳琪等[16]和雷景生等[21]使用共同THUCNews中文新聞數(shù)據(jù)集,針對(duì)其論文的實(shí)驗(yàn)結(jié)果與本實(shí)驗(yàn)結(jié)果進(jìn)行了精確率、召回率、F1值上的對(duì)比,如表3所示??梢钥闯?,ERNIE-RCNN模型在精確率、召回率上比ERNIE-BiGRU模型分別高出了0.64、0.83個(gè)百分點(diǎn),比ERNIE-CNN模型分別高出了1.02、1個(gè)百分點(diǎn),表明ERNIE-RCNN模型具有更好的分類(lèi)效果。

        表3 使用THUCNews數(shù)據(jù)集模型比較

        3 結(jié)束語(yǔ)

        在解決中文短文本存在難點(diǎn)時(shí),提出一種基于ERNIE-RCNN模型的中文短文本分類(lèi)方法,利用ERNIE預(yù)訓(xùn)練模型提取文本特征信息,輸出對(duì)應(yīng)的詞向量,將輸出結(jié)果作為RCNN模型的輸入進(jìn)行訓(xùn)練。從實(shí)驗(yàn)結(jié)果表明,ERNIE-RCNN模型在測(cè)試集上具有更高的準(zhǔn)確率,分類(lèi)性能更強(qiáng)。不足之處是訓(xùn)練時(shí)間效果并不明顯,還需進(jìn)一步提高模型訓(xùn)練性能,縮短訓(xùn)練時(shí)間。

        猜你喜歡
        特征提取分類(lèi)文本
        分類(lèi)算一算
        在808DA上文本顯示的改善
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        国产精品又污又爽又色的网站| 玩两个丰满老熟女| 精品亚洲日韩国产一二三区亚洲| 日韩精品一区二区亚洲av性色| 亚洲男人的天堂av一区| 日韩av午夜在线观看| 亚洲av无码av日韩av网站 | 99热国产在线| 少妇呻吟一区二区三区| 丰满少妇被猛烈进入高清播放 | 97无码人妻Va一区二区三区| 久久综合一本中文字幕| 国产av一区二区毛片| 性无码专区无码| 狠狠色狠狠色综合久久第一次| 日韩偷拍视频一区二区三区| 国产精品视频白浆免费视频| 狠狠人妻久久久久久综合蜜桃| 亚洲男同志gay 片可播放| 久久精品国产av大片| 青青草手机在线免费观看视频| 亚欧美日韩香蕉在线播放视频| 五月天综合网站| 亚洲精品中文字幕乱码人妻| 伊人久久精品亚洲午夜| 亚洲男人的天堂在线aⅴ视频| 国产又黄又爽又无遮挡的视频| 国产一区二区不卡av| 97久久久久人妻精品区一| 美女扒开内裤让男生桶| 成年毛片18成年毛片| 中文字幕女优av在线| 国产午夜精品理论片| 日韩精品成人无码AV片| 男人天堂亚洲一区二区| 特级精品毛片免费观看| 99国产免费热播视频| 免费看黄在线永久观看| 天天做天天摸天天爽天天爱 | 九九99国产精品视频| 亚洲中文中文字幕乱码|