亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于雙通道卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法

        2019-02-22 07:46:04張小川桑瑞婷周澤紅劉連喜
        關(guān)鍵詞:分類文本模型

        張小川,桑瑞婷,周澤紅,劉連喜

        (重慶理工大學(xué)計算機(jī)科學(xué)與工程學(xué)院,重慶 400054)

        近年來,隨著自然語言處理研究的不斷深入,短文本作為互聯(lián)網(wǎng)中廣泛存在的一種文本表示形式,扮演著越來越重要的角色。短文本的分類已成為一個研究熱點。目前,中文領(lǐng)域的文本分類技術(shù)發(fā)展迅速,但是中文的特殊性和復(fù)雜性使其仍面臨較多挑戰(zhàn)[1]。傳統(tǒng)的文本分類任務(wù)通常使用基于概率統(tǒng)計的方法或機(jī)器學(xué)習(xí)的方法來完成[2]。其中,前者如張玉芳等[3]提出一種基于 TFIDF改進(jìn)的文本分類算法。而后者是近年來的主流方法,其重點在于選取合適的特征來表征文本,從人工標(biāo)注類別的文本中提取特征,用于分類器的訓(xùn)練和構(gòu)建,最終利用機(jī)器學(xué)習(xí)方法獲得文本的類別[4],如張寧等[5]提出的使用 KNN算法的文本分類。黃挺等[6]提出一種基于情感詞圖模型的方法,將Page Rank算法引入計算中,使用SVM進(jìn)行微博語料的情感分析。這些文本分類算法大多數(shù)都采用人工的方法進(jìn)行特征提取。Bader B W等[7]提出隱含語義分析法對文本表示進(jìn)行降維。呂超鎮(zhèn)等[8]提出了基于LDA特征擴(kuò)展的短文本分類方法,對文本的深層語義進(jìn)行捕獲。Wang S等[9]利用了二元文法(Bigram)來捕獲更多的上下文信息來改善文本分類的效果。隨著深度學(xué)習(xí)研究的深入,為文本分類以及其他NLP問題提供了新的思路。Bengio Y等[10]用深度學(xué)習(xí)的方法建立語言模型,隨后由 Mikolov T等提出的 CBOW[11](Continuous Bag-of-Words)和 Skip-Gram[12]模型,不僅改進(jìn)了詞向量模型訓(xùn)練的效率,還能將單詞直接映射到低維連續(xù)的向量空間上,為自然語言處理任務(wù)進(jìn)入深度學(xué)習(xí)提供了基礎(chǔ)。其中,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在情感分析和文本分類領(lǐng)域有著很好的應(yīng)用[13-17]。文獻(xiàn)[13]提出了一個可以同時利用基于特定任務(wù)調(diào)整的詞向量和靜態(tài)的預(yù)訓(xùn)練詞向量的卷積神經(jīng)網(wǎng)絡(luò)模型,用于句子級別的文本分類任務(wù)。文獻(xiàn)[14]改進(jìn)了CNN的結(jié)構(gòu),進(jìn)行了2次卷積操作,并提出了動態(tài)K-max pooling池化策略,返回每一個feature maps中最大的K個值。文獻(xiàn)[15]受圖像有RGB、CMYK多通道的啟發(fā),將句子視為圖像,完成文本分類。文獻(xiàn)[16]對卷積神經(jīng)網(wǎng)絡(luò)情感分析中的參數(shù)進(jìn)行了詳細(xì)分析。文獻(xiàn)[17]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到中文微博觀點分類中。本文提出的結(jié)合雙模式通道和詞嵌入的卷積神經(jīng)網(wǎng)絡(luò)WCA-DCNN是在文獻(xiàn)[13]提出的用于文本分類的卷積神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上進(jìn)行改進(jìn)的。

        但是,在短文本中,詞向量的表示無法獲取更多語義的特征,同時卷積神經(jīng)網(wǎng)絡(luò)的輸入特征在短文本領(lǐng)域中也不夠豐富,在訓(xùn)練過程中,對文本噪聲又十分敏感。如果輸入的詞向量表示在語義上不夠準(zhǔn)確,同時特征稀疏,將會使得訓(xùn)練過擬合,導(dǎo)致分類效果下降。針對此問題,本文擬使用基于雙通道卷積神經(jīng)網(wǎng)絡(luò)模型,改進(jìn)短文本分類效果。

        1 雙通道卷積神經(jīng)網(wǎng)絡(luò)文本分類模型的改進(jìn)

        對卷積神經(jīng)網(wǎng)絡(luò)中文本分類方法存在的輸入數(shù)據(jù)表達(dá)不準(zhǔn)確和特征稀疏的問題,下面引入詞性概率因子和場景系數(shù)因子,構(gòu)成雙通道輸入。

        1.1 短文本表示的改進(jìn)方法

        本節(jié)將詳細(xì)介紹如何使用詞性概率因子α來改進(jìn)詞向量訓(xùn)練,展示基于場景權(quán)重因子β的不同模型的改進(jìn)文本矩陣表達(dá)方式。

        1.1.1 詞性概率因子α

        由于短文本語義特征的稀疏性,導(dǎo)致對文本的詞性因素不敏感,從而影響后續(xù)分類效果。本文利用短文本中不同詞性的詞對短文本的貢獻(xiàn)度,以此提高文本表示的精確度,將單詞的詞性概率與單詞進(jìn)行拼接,構(gòu)成“單詞-詞性系數(shù)對”(Word-coefficient part of speech,Word-CPOS),例如(中國,0.21),(民族,0.44),進(jìn)而將原始文本轉(zhuǎn)化為Word-CPOS序列,以此作為詞向量模型的輸入。

        本文提出詞性概率因子α,用以量化不同詞性的詞對文本的貢獻(xiàn)度。實際上,針對單詞詞性分為名詞、動詞、形容詞、副詞和其他詞性,假設(shè)α的取值分別為 α1、α2、α3、α4、α5,且 k的計算方法為:

        式中:N=num(n)+num(v)+num(adj)+num(adv)+num(other),α1+α2+α3+α4+α5=1。以num(n)、num(v)、num(adj)、num(adv)、num(other)分別表示名詞、動詞、形容詞、副詞、其他詞性詞的個數(shù);N表示文本經(jīng)過分詞操作后的單詞個數(shù)。

        1.1.2 詞向量場景因子β

        詞向量工具word2vec包括CBOW模型和Skip-gram模型。其中,CBOW對小型數(shù)據(jù)比較合適,Skip-gram對大型語料表現(xiàn)更好。2個模型的切詞效果偏重有所不同,根據(jù)使用場景的不同收益也隨之變化。因此,本文構(gòu)造并引入場景權(quán)重因子β,β與語料的規(guī)模相關(guān),其構(gòu)造方法如式(2)所示:

        式中:β1代表基于CBOW訓(xùn)練模型的詞向量表示權(quán)重;β2代表基于SkipGram訓(xùn)練模型的詞向量表示權(quán)重;Z代表語料規(guī)模的內(nèi)存大小,以GB為單位。

        1.1.3 引入α和β后的文本矩陣A

        假設(shè)文本中一句話為 S=(x1,x2,…,xN),其中xi表示文本中的一個單詞,用詞性概率標(biāo)注獲取每個詞的詞性概率 Q=(w1,w2,…,wN),然后拼接為 Word-CPOS序列 SQ=((x1,w1)(x2,w2),…,(xn,wN))。將 SQ輸入預(yù)訓(xùn)練的 Word-CPOS模型,每個 Word-CPOS項都將被轉(zhuǎn)化為 n維的Word-CPOS向量sqn,則這句話會被轉(zhuǎn)化為N×n維矩陣。由于短文本中句子不止一條,需要對短文本中的句子進(jìn)行級聯(lián)操作,從而獲得文本矩陣A。最后,根據(jù)語料大小,選擇場景權(quán)重因子β,得到Word-CPOS輸入向量。其具體流程如圖1所示。

        1.2 WCA-DCNN分類模型

        將基于原始詞向量構(gòu)造的原始文本矩陣和上節(jié)的文本矩陣A相結(jié)合,就形成網(wǎng)絡(luò)的雙模式通道輸入,其整體神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        圖1 輸入文本表示方法

        圖2 WCA-DCNN網(wǎng)絡(luò)結(jié)構(gòu)

        1.2.1 雙通道輸入向量矩陣

        由于原始短文本都存在不規(guī)范的問題,導(dǎo)致詞性概率標(biāo)注不準(zhǔn)確。因此,訓(xùn)練出來的Word-CPOS向量也會有表達(dá)不準(zhǔn)確的情況,如果直接輸入卷積神經(jīng)網(wǎng)絡(luò),則會造成模型過擬合。同時,短文本特征不夠豐富,若使用CBOW和SkipGram同時訓(xùn)練詞向量,則可以進(jìn)行特征補(bǔ)充,從而豐富輸入特征。綜上,本文使用雙模式通道輸入策略,在考慮場景權(quán)重因子的前提下,在通道一中輸入原始文本詞向量矩陣 L1=i×[x1,x2,…,xn],在通道二中輸入 Word-CPOS詞向量矩陣 L2=i×[sq1,sq2,…,sqn]。其中,xn為文本中第 n個詞的詞向量;sqn為文本中第n個Word-CPOS序列的詞向量;n為短文本中單詞的個數(shù)。

        1.2.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括卷積層、池化層、全鏈接層和softmax層等4層。

        1)卷積層

        卷積層通過卷積核對輸入層的詞向量進(jìn)行卷積操作,對每個固定大小的窗口進(jìn)行操作,產(chǎn)生一個抽象特征輸出。當(dāng)對文本進(jìn)行卷積操作時,一般選取h×n維大小的卷積核,其中k為設(shè)定的詞向量維度,h代表每一次進(jìn)行卷積操作選取的單詞個數(shù)。本文選取卷積核大小為 3、4、5(h=3、4、5)的3組卷積核。卷積操作表示為:

        其中,ci表示經(jīng)過卷積操作得到的第i個特征值;f(·)表示激活函數(shù) relu;W1、W2分別表示卷積核在兩個模式通道上的權(quán)重參數(shù)矩陣,W1,W2∈Rhk;h×k代表卷積核窗口的大小,每掃描過一個高為h,維度為k的詞序列區(qū)域就會產(chǎn)生一個特征值;L1,i:i+h代表文本中第 i個詞到 i+h個詞的詞向量矩陣;L2,i:i+h代表文本中第 i個詞到 i+h個詞的Word-CPOS向量矩陣;b代表卷積層的偏置項。對短文本中每個窗口中的詞向量矩陣進(jìn)行卷積操作可以得到一個特征圖,表示為:

        其中,N代表短文本中的單詞個數(shù);h為卷積窗口的長度;c代表短文本表示成的詞向量矩陣通過卷積操作所形成的特征圖。

        2)池化層

        池化層通過設(shè)定池化區(qū)域固定的步長進(jìn)行采樣。假設(shè)池化區(qū)域的高為h,寬為m,則將整個特征圖分為若干個m×h的子區(qū)域,然后對每個子區(qū)域進(jìn)行Max-pooling池化操作,再輸出池化后相應(yīng)的特征值:

        最終,提取的文本特征拼接在一起形成抽象文本特征,可表示為:

        其中,假設(shè)各組卷積核的數(shù)量都為m;cpi,j表示當(dāng)卷積核高度為i時,池化層從該卷積核大小卷積得到的第j個特征。

        3)全鏈接層

        為了將特征進(jìn)一步抽象,同時挖掘更深層次的語義,池化層的輸出將作為最后全鏈接層的輸入,表示為:

        其中:c′為池化得到的向量;W′為全鏈接層的權(quán)值參數(shù)矩陣;b′代表全鏈接層的偏置項;f′(·)表示激活函數(shù)Relu;最終,將 c″拉直轉(zhuǎn)換為一個長向量 ^c。

        4)Softmax層

        為了得到分類的類別估計,需要使用分類函數(shù)softmax對 ^c。進(jìn)行歸一化操作。具體過程如下:

        其中,ωi與bi分別為全鏈接層的對應(yīng)輸出為類別為i的參數(shù)與偏置,n為類別數(shù)。

        假設(shè)輸入文本為Xk,它所屬類別為yk,θ為模型參數(shù),則有 p(yk)=P(yk|Xk,θ)。采用隨機(jī)梯度下降算法來最小化負(fù)對數(shù)似然函數(shù),每一次訓(xùn)練通過反向傳播來更新網(wǎng)絡(luò)中的各個參數(shù),直到模型達(dá)到擬合。則網(wǎng)絡(luò)訓(xùn)練的目標(biāo)函數(shù)為:

        其中N為訓(xùn)練樣本規(guī)模。

        2 實驗分析

        2.1 實驗數(shù)據(jù)

        本文使用的語料分別為新聞和酒店評論。其中,新聞?wù)Z料是網(wǎng)易的中文新聞?wù)Z料庫中整理得到的6 000條平衡語料,分為文化和經(jīng)濟(jì)2個類別,每個類別各3 000條,大小為656 MB。酒店評論使用譚松波在攜程網(wǎng)上收集整理的一個不平衡語料,其中包含正向評論7 000和負(fù)向評論3 000條,大小為1.12 GB。對于這個兩組語料,各抽取80%的文本作為訓(xùn)練集,20%文本為測試集。

        不同于英文,中文需要提前對其進(jìn)行分詞處理。根據(jù)文獻(xiàn)[18]的結(jié)論,就像是把圖像分割成一個個像素一樣,語言也可以分割成一個個字來進(jìn)行深度學(xué)習(xí)。首先,對原始語料進(jìn)行清洗,去掉標(biāo)點符號、英文字符及其他特殊字符,保證語料的規(guī)范性。然后,用jieba工具對語料進(jìn)行分詞操作。最后,對語料進(jìn)行詞性概率標(biāo)注,構(gòu)造Word-CPOS向量。

        2.2 詞向量與Word-CPOS向量

        本文詞向量的訓(xùn)練使用未拼接的語料庫,Word-CPOS向量的訓(xùn)練使用經(jīng)過詞性概率拼接后的語料庫。本文采用Google的開源工具word2vec獲得文本詞向量表示,其中包含了SkipGram和CBOW方法。在此同時使用2個方法來進(jìn)行詞向量訓(xùn)練,供后續(xù)對比實驗使用。并統(tǒng)一使用skipgram方法對詞性拼接矩陣進(jìn)行訓(xùn)練,根據(jù)場景權(quán)重因子對卷積神經(jīng)網(wǎng)絡(luò)的輸入文本表示進(jìn)行權(quán)重設(shè)定。詞向量與Word-CPOS向量訓(xùn)練參數(shù)如下:文本表示向量的維度100維;上下文窗口大小為10;向量訓(xùn)練迭代次數(shù)為5次。

        2.3 神經(jīng)網(wǎng)絡(luò)模型參數(shù)設(shè)置

        卷積神經(jīng)網(wǎng)絡(luò)中參數(shù)和函數(shù)設(shè)置如表1所示。

        表1 實驗參數(shù)設(shè)置

        使用Relu作為激活函數(shù),采用AdamOptimizer方法作為梯度更新規(guī)則,濾波器個數(shù)采用單因子變量法實驗確立最優(yōu)參數(shù)為100,卷積窗大小為3、4、5。同時,為了避免出現(xiàn)過擬合的現(xiàn)象、提高模型的泛化能力,Hinton[19]提出通過 dropout提高神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的性能。通過隨機(jī)地忽略卷積層中的神經(jīng)元來平均預(yù)測概率[20],同時還可以降低隱層神經(jīng)元之間的相互作用,優(yōu)化模型的結(jié)構(gòu)。因此,設(shè)置dropout值為經(jīng)典取值0.5,訓(xùn)練迭代次數(shù)為30。

        2.4 評價指標(biāo)

        實驗通過準(zhǔn)確率(precision)、召回率(recall)、F1值3個指標(biāo)來評價相似度計算結(jié)果,具體定義如下:

        其中,TP表示將正類預(yù)測為正類的數(shù)目;FN表示將正類預(yù)測為負(fù)類的數(shù)目;FP表示將負(fù)類預(yù)測為正類的數(shù)目;TN表示將負(fù)類預(yù)測為負(fù)類的數(shù)目。準(zhǔn)確率用于評價文本相似度計算的準(zhǔn)確性,召回率用于評價文本相似度計算的查全性,F(xiàn)1值則均衡以上兩方面,用于綜合評價。

        2.5 實驗結(jié)果的對比與分析

        2.5.1 實驗過程構(gòu)思

        為了驗證本文提出的WCA-DCNN對短文本分類的有效性,將本文方法與機(jī)器學(xué)習(xí)方法和多種卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比實驗。其中,對于機(jī)器學(xué)習(xí)方法,選取了用TF-IDF表示文本的KNN算法進(jìn)行短文本分類。根據(jù)詞向量初始化方法的不同,選取了多種用于對比的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò),分別為:隨機(jī)初始化詞向量的 Random-CNN、用word2vec工具方法初始化詞向量的CBOW-CNN和SkipGram-CNN。此外,為了驗證詞性概率對實驗結(jié)果的影響,本文還選取了只以Word-CPOS向量輸入的WC-CNN,同時選取使用詞向量表示和Word-CPOS向量表示作為雙通道輸入的WC-DCNN,以驗證雙通道的有效性。最后,選取引入詞向量場景因子β的WCA-DCNN,以驗證該權(quán)重因子對分類結(jié)果的影響。以上7種不同文本分類方法在表2的2個測試集下進(jìn)行對比實驗,結(jié)果如表2所示。

        2.5.2 實驗對比分析

        表2展示了使用數(shù)據(jù)集在各個模型上進(jìn)行訓(xùn)練后獲得的分類效果。通過對比KNN和Random-CNN,發(fā)現(xiàn)使用卷積神經(jīng)網(wǎng)絡(luò)在分類性能上有一定的提升。

        表2 不同方法的分類準(zhǔn)確性對比

        通過分別對比CBOW-CNN、SkipGram-CNN和WC-CNN,發(fā)現(xiàn)結(jié)合詞性概率特征的WC-CNN的性能更優(yōu),F(xiàn)1值在2個數(shù)據(jù)集上分別提升了0.012、0.009,證明結(jié)合詞性概率的詞向量訓(xùn)練可以改善短文本分類效果。通過對比WC-CNN和WC-DCNN的各項指標(biāo),證明了基于雙通道的輸入分類效果要優(yōu)于單通道的。最后,對比WC-DCNN和WCA-DCNN,驗證引入場景權(quán)重因子后F1值在2個數(shù)據(jù)集上分別提升了0.010、0.011,能夠進(jìn)一步提升卷積神經(jīng)網(wǎng)絡(luò)的分類能力。

        2.5.3 迭代次數(shù)及準(zhǔn)確率分析

        圖3、4分別體現(xiàn)了各個文本分類模型在2個數(shù)據(jù)集上前25輪迭代的分類準(zhǔn)確率。

        圖3 新聞數(shù)據(jù)集實驗前25輪迭代結(jié)果

        圖4 酒店數(shù)據(jù)集實驗前25輪迭代結(jié)果

        從圖中可以看出:引入Word-CPOS序列的模型,其優(yōu)勢從第5輪迭代就體現(xiàn)出來了,同時每輪迭代效果都比其他模型更優(yōu)。進(jìn)一步分析發(fā)現(xiàn):相比單通道輸入,雙通道模型輸入的特征更加豐富,能得到更好的分類效果,同時需要的訓(xùn)練時間更長,模型不會因為噪音過早陷入過擬合。因此,WCA-DCNN能夠進(jìn)一步提升分類的準(zhǔn)確率。

        3 結(jié)束語

        本文提出了一種基于雙通道的卷積神經(jīng)網(wǎng)絡(luò)模型WCA-DCNN,將其應(yīng)用到短文本分類領(lǐng)域。通過詞性概率拼接,考慮每個詞性對文本的貢獻(xiàn)度,進(jìn)而精確文本的表示。并考慮應(yīng)用場景,引入場景權(quán)重因子,使用不同的詞向量模型進(jìn)行訓(xùn)練。最后,由原始詞向量矩陣和Word-CPOS向量矩陣構(gòu)成雙通道的輸入,有效地解決了輸入噪音造成的文本分類不準(zhǔn)確的問題,并且在分類準(zhǔn)確率、召回率和F1值上明顯高于傳統(tǒng)文本分類方法。下一步將針對一些復(fù)雜語法結(jié)構(gòu)的短文本進(jìn)行研究,從而進(jìn)一步提高短文本分類的準(zhǔn)確性。

        猜你喜歡
        分類文本模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        亚洲色欲久久久综合网| 无码中文亚洲av影音先锋| 国产三级精品三级在线观看| 911国产精品| 亚洲av熟女天堂系列| 校园春色日韩高清一区二区| 亚洲人成人无码www影院| 国产精品午睡沙发系列| 亚洲人成网站18男男| 久久久人妻精品一区bav| 国产激情无码视频在线播放性色| 欧美丰满熟妇aaaaa片| 色yeye在线观看| 亚州av高清不卡一区二区| 四虎成人精品国产永久免费无码| 国产成人综合久久精品免费| 2021久久精品国产99国产| 亚洲一区二区综合精品| 日韩精品专区av无码| 精品久久久久久久中文字幕| 国产男女乱婬真视频免费| 日本女优激情四射中文字幕| 久久久久99精品成人片直播| 国自产偷精品不卡在线| 青青草一级视频在线观看| 亚洲av五月天一区二区| 亚洲人成无码网站在线观看| 白浆出来无码视频在线| 色综合久久人妻精品日韩| 秋霞在线视频| 97影院在线午夜| 久久亚洲精品成人AV无码网址 | 国产成人午夜精品免费视频| 日本精品国产1区2区3区| 精品一区二区av天堂色偷偷| 亚洲精品92内射| 日韩在线观看网址| 久久精品亚洲94久久精品| 亚洲精品夜夜夜妓女网| 手机看片福利盒子久久青| 亚洲国产精品成人一区二区三区|