亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于VDCNN與LSTM混合模型的中文文本分類研究

        2018-11-20 06:09:06彭玉青宋初柏趙曉松
        計(jì)算機(jī)工程 2018年11期
        關(guān)鍵詞:語料庫卷積向量

        彭玉青,宋初柏,閆 倩,趙曉松,魏 銘

        (河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401)

        0 概述

        隨著互聯(lián)網(wǎng)技術(shù)和移動(dòng)社交網(wǎng)絡(luò)平臺(tái)的發(fā)展,網(wǎng)絡(luò)中的文本信息量呈爆發(fā)式增長(zhǎng),鑒于網(wǎng)絡(luò)平臺(tái)實(shí)時(shí)性較強(qiáng)的特點(diǎn),這些文本信息雖然具有極大的潛在價(jià)值,但是在網(wǎng)絡(luò)中以雜亂的形式存在,缺乏有效的信息組織和管理。而文本分類作為組織和管理文本信息的有效方法,能夠解決信息雜亂問題,且在信息分揀、個(gè)性化新聞推薦、垃圾郵件過濾、用戶意圖分析等領(lǐng)域得到了廣泛應(yīng)用,也受到越來越多研究者的關(guān)注。

        目前,常用的文本分類方法有樸素貝葉斯、K最近鄰(K-Nearest Neighbor,KNN)、隱馬爾科夫模型(Hidden Markov Model,HMM)、支持向量機(jī)(Support Vector Machine,SVM)等。在這些方法中,有些需要人工提取特征,有些由于隨機(jī)向量的分量無關(guān)性,會(huì)引起主題之間不相關(guān)的問題。針對(duì)這些不足,越來越多的學(xué)者將神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本分類領(lǐng)域[1],目前常用于文本分類的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括BP神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)等。

        本文建立一種超深卷積神經(jīng)網(wǎng)絡(luò)(Very Deep Convolution Neural Network,VDCNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory network,LSTM)混合模型,使用詞嵌入(Word Embedding)將文本轉(zhuǎn)換為低維度向量,以提升對(duì)詞向量化后的文本進(jìn)行分類的精確率,然后通過實(shí)驗(yàn)驗(yàn)證該模型的分類效果。

        1 相關(guān)工作

        為提高當(dāng)前文本分類方法的準(zhǔn)確率,很多學(xué)者進(jìn)行了研究。文獻(xiàn)[2]提出一種基于文本加權(quán)的KNN算法,其利用文本加權(quán)提升KNN算法對(duì)文本進(jìn)行分類時(shí)的準(zhǔn)確率。文獻(xiàn)[3]使用基于LSTM和門閥遞歸單元(Gated Recurrent Unit,GRU)計(jì)算節(jié)點(diǎn)的雙向遞歸神經(jīng)網(wǎng)絡(luò)來提取文本特征,然后使用Softmax對(duì)文本特征進(jìn)行分類。文獻(xiàn)[4]提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和KNN算法的分類方法,其能夠有效提高短文本分類的效果。文獻(xiàn)[5]提出一種基于事件卷積特征的文本分類方法,其利用事件的語義特性彌補(bǔ)已有模型的不足。文獻(xiàn)[6]在LSTM模型中引入一種注意力機(jī)制,解決了特征向量在提取過程中信息丟失和信息冗余的問題。

        雖然上述改進(jìn)的文本分類方法取得了較好的結(jié)果,但是與目前應(yīng)用于圖像處理和語音識(shí)別領(lǐng)域的優(yōu)秀網(wǎng)絡(luò)相比,模型的深度仍然較淺,分類的效果和準(zhǔn)確率也較低,同時(shí)由于在自然語言中存在著上下文依賴的非連續(xù)關(guān)系,在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,卷積核大小難以確定的問題仍然沒有得到解決。

        針對(duì)上述方法存在的缺陷,受文獻(xiàn)[7-8]在圖像處理領(lǐng)域中提出的VDCNN的結(jié)構(gòu)啟發(fā),以及LSTM作為循環(huán)神經(jīng)網(wǎng)絡(luò)的一種特殊類型,能夠長(zhǎng)期記住前文的有效信息并有效利用文本前后具有關(guān)聯(lián)關(guān)系的特點(diǎn),本文建立一種VDCNN和LSTM相結(jié)合的混合模型,然后通過實(shí)驗(yàn)驗(yàn)證該混合網(wǎng)絡(luò)結(jié)構(gòu)模型在文本分類上的效果。

        2 詞嵌入

        如果將文本按照字面順序以直接編碼的方式轉(zhuǎn)換為向量,會(huì)導(dǎo)致向量維度過高,同時(shí)也忽視了自然語言前后詞句之間具有依存關(guān)系的特點(diǎn)。為解決該問題,并讓LSTM網(wǎng)絡(luò)能夠更好地利用自然語言中的上下文關(guān)系,本文將詞嵌入與混合模型相結(jié)合,將文本轉(zhuǎn)換為低維度向量,并且文本中前后文的近義詞在轉(zhuǎn)化為低維度向量后其在向量空間中也是相鄰的,從而將上下文中的近義詞進(jìn)行聚合。

        2.1 相關(guān)定義

        在自然語言處理中,一般將每個(gè)詞作為基本單元進(jìn)行向量表示。對(duì)詞典D中的任意詞w,指定一個(gè)固定長(zhǎng)度的實(shí)值向量v(w)∈Rm,v(w)稱為w的詞向量,m為詞向量的長(zhǎng)度。

        一種簡(jiǎn)單的詞向量表示為獨(dú)熱表示,它通過一個(gè)很長(zhǎng)的向量來表示一個(gè)詞,詞典D的大小N為向量的長(zhǎng)度,向量的分量只有一個(gè)1,其他全為0,1的位置對(duì)應(yīng)詞在詞典中的索引。由于深度學(xué)習(xí)領(lǐng)域存在海量數(shù)據(jù),這種詞向量會(huì)帶來維度過高的問題。

        為解決獨(dú)熱表示維度過高的問題并使向量能夠刻畫詞與詞之間的聯(lián)系,本文使用分布表示進(jìn)行詞向量的表達(dá)。通過訓(xùn)練將文本中的每個(gè)詞映射成一個(gè)長(zhǎng)度固定且較短的向量,所有這些向量構(gòu)成一個(gè)向量空間,每個(gè)向量之間的距離表示該向量所代表詞之間的相似性。

        2.2 Skip-gram模型

        Skip-gram模型包含3層:輸入層,投影層和輸出層,其示意圖如圖1所示。

        圖1 Skip-gram模型

        Skip-gram模型是一種利用某個(gè)詞預(yù)測(cè)其周圍詞的概率的模型,即已知中間詞wt,推導(dǎo)出周圍2n個(gè)詞wt-n,wt-n+1,…,wt-1+n,wt+n屬于詞典中某一個(gè)詞的概率。wt周圍詞語的集合wt-n,wt-n+1,…,wt-1+n,wt+n表示wt的上下文語境,記為Context(w)。

        該模型可以計(jì)算出周圍詞ci基于中間詞wt的條件概率,定義為:

        P(ci|wt)

        (1)

        其中,ci∈Context(w)。

        對(duì)于某條語句S,利用Skip-gram模型可以計(jì)算出語句S為自然語言的概率,公式為:

        (2)

        其中,P(S)表示句子S為自然語言的概率,w為語句S中的詞。模型的訓(xùn)練目標(biāo)就是使得P(S)的概率值得到最大化。

        對(duì)于輸入的文本T,可以得到文本的概率表示公式為:

        (3)

        為求其最大的條件概率,令Skip-gram的似然函數(shù)為:

        (4)

        其中,θ為待估參數(shù)。模型的求解目標(biāo)就是求目標(biāo)函數(shù)的最大值,故將似然函數(shù)轉(zhuǎn)換成底數(shù)似然函數(shù):

        (5)

        其中,V表示詞典大小。

        本文利用jieba分詞和Word2Vec工具,使用Skip-gram模型對(duì)文本訓(xùn)練后即可得到詞向量,這些向量是低維度的,且近義詞的向量在向量空間中是相鄰的。

        3 VDCNN與LSTM混合模型

        為提高中文文本分類的準(zhǔn)確率,本文建立一種結(jié)合VDCNN與LSTM的混合模型并用于文本分類。該模型結(jié)構(gòu)如圖2所示。其中,FC(I,O)表示輸入長(zhǎng)度為I、輸出長(zhǎng)度為O的全連接層。

        圖2 VDCNN與LSTM混合模型

        在圖2中,詞嵌入層(Embedding Layer)與10層卷積層(Conv)以及3層全連接層(FC)組成VDCNN網(wǎng)絡(luò)結(jié)構(gòu),共計(jì)14層,同時(shí)將LSTM以融合的形式和VDCNN網(wǎng)絡(luò)結(jié)構(gòu)組成混合模型。

        由于網(wǎng)絡(luò)結(jié)構(gòu)模型層數(shù)較深,為優(yōu)化其對(duì)內(nèi)存的占用,結(jié)合VGG以及ResNets模型[9],在定義VDCNN模型結(jié)構(gòu)時(shí)設(shè)置如下2條規(guī)則:

        1)如果卷積之后輸出的向量不變,則卷積核數(shù)目和特征圖像的大小保持不變。

        2)如果輸出向量減半,則卷積核數(shù)目和特征圖像的大小增加一倍。

        針對(duì)規(guī)則2),在VGG和ResNets模型中,深度的增加可以有效提升其分類的效果。但是由于深度增加,使其對(duì)內(nèi)存的需求大幅提升,同時(shí)根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)準(zhǔn)則,在卷積過程中要保證卷積的空間尺寸和卷積數(shù)據(jù)量緩慢變小,因此,在本文所提出的混合模型中,會(huì)對(duì)輸出向量進(jìn)行減半。但是,如果只對(duì)輸出向量進(jìn)行減半,卷積核數(shù)目和特征圖像的大小不變,這違背了使卷積的空間尺寸和卷積數(shù)據(jù)量緩慢變小的設(shè)計(jì)準(zhǔn)則,勢(shì)必會(huì)導(dǎo)致在卷積過程中損失大量卷積信息。因此,為在減輕內(nèi)存壓力的同時(shí)保證網(wǎng)絡(luò)結(jié)構(gòu)的容納能力,避免損失過量信息,本文模型在對(duì)輸出向量減半時(shí),設(shè)置卷積核數(shù)目和特征圖像的大小增加一倍。

        該混合模型共計(jì)14層,第1層為詞嵌入層,將輸入的文本序列展開成詞向量的序列并作為卷積層的輸入,詞嵌入層之后的VDCNN網(wǎng)絡(luò)結(jié)構(gòu)為:

        1)第1個(gè)和第2個(gè)卷積層設(shè)置為64個(gè)大小為3的卷積核。

        2)對(duì)卷積結(jié)果進(jìn)行池化操作,并連接2個(gè)卷積層,設(shè)置其卷積核大小為3、數(shù)量為128個(gè)。

        3)進(jìn)行3次池化,每次池化操作連接2個(gè)卷積層。

        4)再次進(jìn)行池化操作,連接3個(gè)全連接層得出分類結(jié)果。

        由圖2可知,VDCNN與LSTM混合模型包括5次池化操作,前3次對(duì)輸出進(jìn)行平均值池化,后2次采用最大值池化操作。這里把模型中每2次池化操作之間的卷積層稱為一個(gè)卷積塊。在VDCNN網(wǎng)絡(luò)結(jié)構(gòu)中,第2個(gè)卷積塊的詳細(xì)結(jié)構(gòu)如圖3所示。

        圖3 VDCNN網(wǎng)絡(luò)結(jié)構(gòu)中的第2個(gè)卷積塊

        該混合模型為了防止過擬合現(xiàn)象,降低特征的維數(shù)并優(yōu)化內(nèi)存占用,在每次平均值池化操作時(shí)將下采樣因子(strides)設(shè)置為2,對(duì)輸出向量減半,根據(jù)前文2條規(guī)則,每個(gè)卷積塊的卷積核數(shù)目和特征圖像的大小也由64分別變?yōu)?28、256和512,而在第4個(gè)、第5個(gè)卷積塊之后進(jìn)行k-max下采樣策略,每次對(duì)采樣區(qū)選取k個(gè)局部最優(yōu)特征值,舍棄冗余特征,同時(shí)能夠保證生成固定維度的特征向量。在進(jìn)行最后一次最大值池化操作后,設(shè)置3個(gè)全連接層。最后,再通過Softmax函數(shù)得到分類結(jié)果。在本文Softmax回歸中,將x分類為類別j的概率為:

        (6)

        在網(wǎng)絡(luò)結(jié)構(gòu)模型層數(shù)較多的情況下,為加快收斂速度,降低學(xué)習(xí)周期,在VDCNN卷積層和全連接層設(shè)置激活函數(shù)ReLU[10],其公式如下:

        F(x)=max(0,x)

        (7)

        在VDCNN中,由于引入了批標(biāo)準(zhǔn)化[11]操作和捷徑連接,可以解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)隨著深度增加導(dǎo)致準(zhǔn)確率下降的問題,而且正是由于VDCNN網(wǎng)絡(luò)深度的增加,有效提高了它對(duì)文本特征的提取能力,因此,VDCNN在圖像處理和語音識(shí)別領(lǐng)域具有很好的效果。但是,由于自然語言具有倒裝、前置等表達(dá)手法,導(dǎo)致當(dāng)前文本可能與前文有很強(qiáng)的上下文依賴關(guān)系,在文本訓(xùn)練的過程中,可能需要之前的某些歷史信息,而VDCNN并不具有這種保留歷史信息的能力。鑒于自然語言的這種特點(diǎn)以及VDCNN在這方面的不足,本文將LSTM與VDCNN進(jìn)行結(jié)合以組成混合模型。

        LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種特殊形式,由于傳統(tǒng)RNN展開后相當(dāng)于多層的前饋神經(jīng)網(wǎng)絡(luò),RNN保存的歷史數(shù)據(jù)量越大,其層數(shù)會(huì)越多[12]。當(dāng)訓(xùn)練大量文本時(shí),就會(huì)引起梯度消失(爆炸)和歷史信息損失的問題,因此,傳統(tǒng)的RNN能夠保留的歷史信息數(shù)量非常有限,而LSTM單元結(jié)構(gòu)能夠解決RNN的梯度消失問題。LSTM單元結(jié)構(gòu)如圖4所示。

        圖4 LSTM單元結(jié)構(gòu)

        LSTM通過設(shè)計(jì)專門的記憶單元用于保存之前的歷史信息,達(dá)到長(zhǎng)期“記住”信息的目的。這些歷史信息的更新和刪除受三個(gè)門控制,分別為輸入門、輸出門和遺忘門。

        輸入門用來控制當(dāng)前節(jié)層單元狀態(tài)的輸入,輸出門用來控制當(dāng)前LSTM單元的輸出,遺忘門用來控制上一時(shí)刻單元中存儲(chǔ)的歷史信息。記t時(shí)刻輸入門、輸出門和遺忘門分別為it、ot、ft,則該神經(jīng)元的狀態(tài)更新計(jì)算方法可以表示為:

        it=σ(Wi[ht-1,xt]+bi)

        (8)

        ot=σ(Wo[ht-1,xt]+bo)

        (9)

        ft=σ(Wf[ht-1,xt]+bf)

        (10)

        其中,σ表示Sigmoid函數(shù),Wi、Wo、Wf分別表示輸入門、輸出門和遺忘門的權(quán)重矩陣,bi、bo、bf分別表示各個(gè)門所對(duì)應(yīng)的偏置。

        在圖4中,遺忘門與輸入門又共同構(gòu)成了更新門[13],用ct表示,其計(jì)算公式為:

        ct=ft?ct-1+it?tanh(Wc[ht-1,xt]+bc)

        (11)

        其中,ct-1表示上一個(gè)時(shí)刻c的值,Wc表示更新門的權(quán)重矩陣,bc表示更新門的偏置。

        設(shè)ht為該LSTM單元的最終輸出,其計(jì)算公式為:

        ht=ot?tanh(ct)

        (12)

        由上面的分析可以得出,3個(gè)門并不提供額外的信息,只是起到限制信息量的作用,同時(shí)保證每個(gè)LSTM隱藏單元記住歷史信息,這能夠彌補(bǔ)RNN網(wǎng)絡(luò)的不足。同時(shí),3個(gè)門起到的只是過濾的作用,故激活函數(shù)使用Sigmoid。VDCNN超深的層數(shù)能夠有效提取文本向量的特征,LSTM的記憶單元針對(duì)自然語言前后依賴的特點(diǎn),在訓(xùn)練過程中保留了歷史信息,彌補(bǔ)了VDCNN的不足。因此,將VDCNN與LSTM組建為混合模型進(jìn)行文本分類,可以有效提升分類效果。

        在圖2中,全連接層FC(4 096,2 048)之前,本文使用Keras框架中的Merge融合層對(duì)VDCNN和LSTM進(jìn)行融合。Merge層能夠提供一系列用于融合2個(gè)層或2個(gè)模型的方法,其代碼示例如下:

        merged = Merge([model_left,model_right],mode=′concat′)

        其中,concat將待合并層輸出沿著最后一個(gè)維度進(jìn)行拼接,因此,其要求待合并層輸出只有最后一個(gè)維度不同。該方法的輸出結(jié)果為返回一個(gè)與層結(jié)構(gòu)相同的對(duì)象,即上述代碼中的merged,它可以被當(dāng)做普通層的輸出進(jìn)行使用。最后連接3個(gè)全連接層,利用Softmax輸出分類結(jié)果,至此,VDCNN與LSTM完成融合,組成如圖2所示的混合模型。

        4 實(shí)驗(yàn)驗(yàn)證

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        4.1.1 訓(xùn)練詞向量的語料集

        對(duì)于知識(shí)挖據(jù)領(lǐng)域,一般使用知識(shí)庫語料訓(xùn)練得出詞向量,但是對(duì)于文本分類領(lǐng)域,為能夠?qū)ξ谋具M(jìn)行更好的分類,需要使用比較現(xiàn)代、能夠反映出近期網(wǎng)絡(luò)熱點(diǎn)內(nèi)容、具有較廣覆蓋面的文章。本文使用具有多領(lǐng)域的微信公眾號(hào)文章,該語料集屬于中文平衡語料,共計(jì)800萬篇,總詞數(shù)達(dá)到650億,使用其進(jìn)行訓(xùn)練可以得出高質(zhì)量的詞向量。

        4.1.2 文本分類語料庫

        本文使用Sogou語料庫與復(fù)旦大學(xué)文本分類語料庫進(jìn)行文本分類,以測(cè)試本文所提出的VDCNN與LSTM混合模型的分類效果。

        Sogou語料庫是搜狗實(shí)驗(yàn)室(Sogou Lab)提供的全網(wǎng)新聞數(shù)據(jù),該數(shù)據(jù)集來自2012年6月—7月期間新浪、網(wǎng)易、騰訊以及鳳凰資訊等若干個(gè)新聞?wù)军c(diǎn),有國內(nèi)、國際、體育、社會(huì)、娛樂等18個(gè)頻道的新聞數(shù)據(jù),提供URL和正文信息。

        由于該數(shù)據(jù)集為XML格式,實(shí)驗(yàn)之前需要利用腳本將XML中新聞標(biāo)題與新聞內(nèi)容這兩部分的數(shù)據(jù)解析到相應(yīng)的類別中,在處理過程中,每一篇文章另存為一個(gè)txt文件,txt里為新聞標(biāo)題和新聞內(nèi)容,然后再對(duì)每篇文本進(jìn)行分詞處理,分詞工具為jieba分詞。處理完成后該數(shù)據(jù)集大小為1.43 G,使用處理完成后的數(shù)據(jù)集作為文本分類的訓(xùn)練和測(cè)試語料。由于完整的實(shí)驗(yàn)數(shù)據(jù)量過于龐大且受實(shí)驗(yàn)設(shè)備的限制,本文從中選取了12個(gè)類別,每個(gè)類別隨機(jī)抽取全部數(shù)據(jù)的一部分進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)中,Sogou語料庫文本類別與數(shù)量分布如表1所示,其中,90%作為訓(xùn)練集,10%作為測(cè)試集。

        表1 Sogou語料庫文本類別與數(shù)量

        復(fù)旦大學(xué)文本分類語料庫由該校李榮路老師整理并提供,分為20個(gè)類別,共包括9 000多個(gè)文檔。其類別與文本數(shù)量分布如表2所示。

        表2 復(fù)旦大學(xué)語料庫文本類別與數(shù)量

        由于法律、礦產(chǎn)等類別文本數(shù)量過少,在本次實(shí)驗(yàn)過程中刪除了文本數(shù)量低于100的類別和文本。

        4.2 實(shí)驗(yàn)準(zhǔn)備與實(shí)驗(yàn)環(huán)境

        4.2.1 詞向量預(yù)訓(xùn)練

        本次實(shí)驗(yàn)使用Gensim的Word2Vec進(jìn)行詞向量預(yù)訓(xùn)練,訓(xùn)練語料為上節(jié)所述的微信公眾號(hào)文章。分詞工具為jieba分詞,jieba分詞工具在分詞過程中加入了50萬詞條的詞典并且關(guān)閉了新詞發(fā)現(xiàn),該詞典由網(wǎng)絡(luò)上多個(gè)詞典拼湊而成,并刪除了不合理詞匯。訓(xùn)練模型為本文第2節(jié)所述的Skip-gram,模型的詞數(shù)共計(jì)352 196,基本為中文詞,也包含基本的常見英文詞,設(shè)置向量的維度為256,訓(xùn)練窗口大小為10,最小詞頻為64,共迭代10次,用時(shí)共計(jì)7 d,最后得出高質(zhì)量的詞向量。

        4.2.2 模型構(gòu)建環(huán)境

        本次實(shí)驗(yàn)中的模型在Keras下進(jìn)行搭建,Keras是一個(gè)高層神經(jīng)網(wǎng)絡(luò)應(yīng)用程序接口(Application Program Interface,API),其由純Python編寫而成并基于TensorFlow、Theano以及CNTK后端實(shí)現(xiàn)。在圖2中的混合模型中,可以將網(wǎng)絡(luò)層、激活函數(shù)、損失函數(shù)以及訓(xùn)練過程中設(shè)定的優(yōu)化器等看作一個(gè)個(gè)獨(dú)立的模塊,使用Keras的API即可構(gòu)建圖2中的模型。

        4.2.3 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

        本次實(shí)驗(yàn)的環(huán)境如表3所示,實(shí)驗(yàn)設(shè)置迭代次數(shù)為30。

        表3 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)設(shè)置損失函數(shù)為categorical crossentropy。為解決在學(xué)習(xí)過程中過早結(jié)束的問題,優(yōu)化器設(shè)置為RMSProp,其通過引入一個(gè)衰減系數(shù),使得每回合的衰減具有一定的比例,其參數(shù)更新規(guī)則如式(13)、式(14)所示:

        Et(g2)=0.9Et-1(g2)+0.1g(θt)⊙g(θt)

        (13)

        (14)

        其中,t=0,1,…表示迭代次數(shù),g2表示梯度平方的向量,其每個(gè)元素為對(duì)應(yīng)參數(shù)的梯度平方,取可調(diào)參數(shù)為0.9,⊙為元素乘積操作符,表示2個(gè)矩陣或向量對(duì)應(yīng)位置的元素相乘,diag(v)是根據(jù)向量v生成對(duì)角矩陣的函數(shù),d是非常小的整數(shù),通常取值為10-8,I是單位矩陣。

        4.2.4 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

        為評(píng)價(jià)本文提出的混合模型對(duì)文本分類的效果,采用文本分類領(lǐng)域中常用的度量標(biāo)準(zhǔn)——精確率來對(duì)模型進(jìn)行檢驗(yàn)。根據(jù)分類結(jié)果建立的混合矩陣如表4所示。

        表4 分類結(jié)果混合矩陣

        精確率是指正確分類的文本數(shù)與總文本數(shù)之比。一般進(jìn)行分類性能評(píng)價(jià)時(shí)把精確率作為主要度量指標(biāo),其計(jì)算公式如下:

        (15)

        4.3 實(shí)驗(yàn)結(jié)果與分析

        4.3.1 VDCNN與其他CNN類模型對(duì)比

        在本次實(shí)驗(yàn)中,將本文提出的具有14層的VDCNN模型與其他CNN類模型進(jìn)行文本分類效果對(duì)比,在表5中,模型使用的實(shí)驗(yàn)語料集均是Sogou語料庫。其中,ConvNet(event)與ConvNet(event+bigram+trigram)都是改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)[5],ConvNet(event)使用文本中的事件特征進(jìn)行卷積,而ConvNet(event+bigram+trigram)在使用事件特征的同時(shí),還利用二、三元詞組信息進(jìn)行卷積。這2種方式明確了特征提取時(shí)的特征出處,但是也易忽略同一文本中的其他特征信息,只專注于事件特征。文獻(xiàn)[14]中的Lg.w2v Conv和Sm.w2v Conv都是對(duì)中文文本進(jìn)行字符級(jí)的卷積操作,其中,w2v表示W(wǎng)ord2Vec,Lg表示large,Sm表示small,這2種方式通過對(duì)中文進(jìn)行字符級(jí)別的卷積操作進(jìn)行特征提取,能有效提高分類的精確率,但是其結(jié)構(gòu)和文獻(xiàn)[5]一樣,深度較淺。

        表5 VDCNN與其他CNN類模型分類效果對(duì)比 %

        VDCNN模型與應(yīng)用于圖像處理和語音識(shí)別領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)類似,提高了卷積網(wǎng)絡(luò)結(jié)構(gòu)的深度(14層),并設(shè)置卷積核大小為3。但是,僅增加網(wǎng)絡(luò)深度會(huì)導(dǎo)致梯度消失和準(zhǔn)確性下降,于是本文在VDCNN中引入了捷徑連接和批標(biāo)準(zhǔn)化以解決該問題。最終,VDCNN網(wǎng)絡(luò)利用其深度優(yōu)勢(shì)和小的卷積核對(duì)文本中的特征進(jìn)行有效提取,相對(duì)于其他方法,其能夠有效提高分類精確率。

        4.3.2 VDCNN與LSTM混合對(duì)文本分類的影響

        在本次實(shí)驗(yàn)中,分別使用VDCNN模型、LSTM模型以及VDCNN和LSTM混合模型對(duì)Sogou語料庫進(jìn)行分類,分類效果對(duì)比如表6所示。從表6可以看出,將VDCNN與LSTM進(jìn)行混合后其分類效果要優(yōu)于單一的VDCNN模型和LSTM模型,這是因?yàn)樵赩DCNN對(duì)文本所對(duì)應(yīng)的詞向量進(jìn)行卷積操作的過程中,忽略了一篇文章中的上下文依賴關(guān)系,而單一的LSTM模型雖然能夠利用模型中的門對(duì)信息進(jìn)行保存和控制,提升對(duì)上下文信息的利用,但是其層數(shù)沒有VDCNN模型深,對(duì)詞向量進(jìn)行特征提取的能力不足。因此,將深層數(shù)、小卷積核的VDCNN模型和具有能夠保存上下文信息的LSTM模型進(jìn)行結(jié)合之后,能夠使精確率得到提升。

        表6 3種模型分類效果對(duì)比 %

        4.3.3 本文混合模型和其他分類模型效果對(duì)比

        在本次實(shí)驗(yàn)中,分別使用VDCNN與LSTM混合模型和其他分類模型對(duì)Sogou語料庫和復(fù)旦大學(xué)語料庫進(jìn)行分類效果對(duì)比,結(jié)果分別如表7和表8所示。由表7和表8可以看出,對(duì)比模型中有些增加了注意力機(jī)制,有些在某種模型輸入之前利用某種分布進(jìn)行輸入隨機(jī)初始化,但是,這些方式只是在單一方面進(jìn)行改進(jìn),對(duì)于分類效果的提升有限,而使用VDCNN與LSTM混合模型后,既利用了VDCNN超深度卷積的優(yōu)勢(shì),同時(shí)也結(jié)合了LSTM模型具有保存上下文信息的優(yōu)點(diǎn),兩者融合能夠顯著提高文本分類的精確率。在Sogou語料庫中,文獻(xiàn)[15]中的CLKNN模型的精確率達(dá)到96.50%,在復(fù)旦大學(xué)語料庫中,LSTM模型的精確率達(dá)到91.30%,而VDCNN與LSTM混合模型在Sogou語料庫和復(fù)旦大學(xué)語料庫中的精確率分別達(dá)到了98.96%和93.10%,其精確率得到了明顯提升。

        表7 不同模型在Sogou語料庫中的分類效果對(duì)比 %

        表8 不同模型在復(fù)旦大學(xué)語料庫中的分類效果對(duì)比 %

        5 結(jié)束語

        本文利用詞嵌入將文本轉(zhuǎn)換為低維度的向量,且保證前后文中近義詞的向量在向量空間中相鄰,然后將VDCNN與LSTM相結(jié)合組成混合模型,以對(duì)詞向量化后的文本進(jìn)行分類。該混合模型既利用VDCNN超深度卷積的優(yōu)勢(shì),同時(shí)也結(jié)合LSTM模型具有保存上下文信息的優(yōu)點(diǎn),使得其在特征提取過程中能有效提高文本分類的準(zhǔn)確率。但本文提出的VDCNN與LSTM混合模型更注重對(duì)整篇文本進(jìn)行操作,在實(shí)際文本中,根據(jù)文章的某一個(gè)中心段落或者某些關(guān)鍵詞就可以得出文本的類別,因此,今后考慮將關(guān)鍵詞或者注意力機(jī)制引入到本文混合模型中,以進(jìn)一步提升該模型的文本分類效率和精確率。

        猜你喜歡
        語料庫卷積向量
        向量的分解
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        聚焦“向量與三角”創(chuàng)新題
        《語料庫翻譯文體學(xué)》評(píng)介
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        国产欧美日韩一区二区三区在线| 人妖啪啪综合av一区| 亚洲一区二区三区中国| 国产男女无遮挡猛进猛出| 亚洲欧美国产日韩天堂在线视| 亚洲AV无码一区二区水蜜桃| 国产一区二区在线免费视频观看| 深夜爽爽动态图无遮无挡 | а的天堂网最新版在线| 色婷婷在线一区二区三区| 国产乱人无码伦av在线a| 国产精品jizz视频| 人妻精品久久中文字幕| 蜜桃传媒免费观看视频| 色多多性虎精品无码av| 亚洲精品国偷自产在线99正片| 精品一二区| 国产三级国产精品国产专播| 国产精品毛片无遮挡| 日本黄页网站免费大全| 人妻精品一区二区免费| 亚洲av毛片在线免费看| 三年中文在线观看免费大全| 91精品福利一区二区| 中文天堂一区二区三区| 91九色老熟女免费资源| 精品国产aⅴ无码一区二区| 娇柔白嫩呻吟人妻尤物| 亚洲乱码av一区二区蜜桃av| 欧美xxxx做受欧美| 99久久精品自在自看国产| 日本最新在线一区二区| 丰满人妻久久中文字幕| 又爽又黄又无遮挡的激情视频| 在线亚洲AV成人无码一区小说| 大陆少妇一区二区三区| 国产欧美一区二区三区在线看| 久久久精品久久波多野结衣av| 少妇激情一区二区三区久久大香香| 天堂网站一区二区三区| 亚洲精品国产福利一二区|