鄭 飛,韋德壕,黃 勝
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué) 光通信與網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
在運(yùn)用深度學(xué)習(xí)進(jìn)行文本分類(lèi)領(lǐng)域,國(guó)內(nèi)外的研究學(xué)者已經(jīng)進(jìn)行了大量的探索。文獻(xiàn)[1]提出的英文文本分類(lèi)的模型,在用詞向量模型構(gòu)建好文本輸入矩陣后,利用卷積神經(jīng)網(wǎng)絡(luò)能夠提取局部特征的特點(diǎn),提高了文本分類(lèi)結(jié)果指標(biāo)。文獻(xiàn)[2]改進(jìn)了池化層,提出了一個(gè)動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò),保留了池化層后的語(yǔ)義順序。文獻(xiàn)[3]在卷積神經(jīng)網(wǎng)絡(luò)里面加入注意力機(jī)制,突出了對(duì)任務(wù)起重要作用的特征。文獻(xiàn)[4]在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型池化層加入了注意力機(jī)制,實(shí)驗(yàn)結(jié)果表明,由于選擇性保存了最重要的特征,使文本分類(lèi)結(jié)果有了明顯的提高。文獻(xiàn)[5]利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)Twitter文本情感分析,解決了現(xiàn)有情感分類(lèi)方法難以挖掘文本中隱含的深層語(yǔ)義特征的難題。文獻(xiàn)[6]通過(guò)TF-IDF和Word2Vec進(jìn)行詞向量矩陣的構(gòu)建,突出了文本里的重要詞語(yǔ)信息。文獻(xiàn)[7]運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)來(lái)解決Web文本分類(lèi)問(wèn)題,降低了模型的復(fù)雜度。文獻(xiàn)[8]利用Word2Vec對(duì)新產(chǎn)品評(píng)論構(gòu)建詞向量矩陣,然后進(jìn)行情感分類(lèi)。
基于上述的研究,在本文中結(jié)合LDA主題模型和Word2Vec模型對(duì)文本輸入矩陣進(jìn)行構(gòu)建,使構(gòu)建的文本輸入矩陣維度相等的同時(shí),又豐富了特征信息。然后采用結(jié)合融合層的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類(lèi),解決了特征提取困難造成文本分類(lèi)準(zhǔn)確率不高等問(wèn)題。
本文為了提升文本分類(lèi)的準(zhǔn)確率,設(shè)計(jì)了一種基于LDA和深度學(xué)習(xí)的文本分類(lèi)方法,如圖1所示。方法的總體框架流程為3個(gè)模塊,詞向量矩陣生成模塊、詞向量矩陣填充模塊、結(jié)合融合層的卷積神經(jīng)網(wǎng)絡(luò)模塊,最后得到文本的分類(lèi)結(jié)果。在整個(gè)過(guò)程中,生成詞向量矩陣模塊將大規(guī)模的語(yǔ)料庫(kù)先進(jìn)行預(yù)處理,過(guò)濾掉所有標(biāo)點(diǎn)符號(hào)、特殊字符和停用詞,只保留有較多語(yǔ)義的信息,對(duì)數(shù)據(jù)中格式不正確的文本進(jìn)行改變,然后分詞處理。利用Word2Vec對(duì)詞語(yǔ)進(jìn)行編碼,形成低維、稠密可供計(jì)算機(jī)識(shí)別的向量,文檔集里經(jīng)過(guò)預(yù)處理過(guò)后的文本經(jīng)過(guò)預(yù)訓(xùn)練的詞向量映射過(guò)后形成詞向量矩陣。在形成了詞向量矩陣后,由于文檔集里的各個(gè)文本長(zhǎng)度不一(分詞后每個(gè)文本包含的詞語(yǔ)不同),造成文檔集里的每個(gè)文本形成的詞向量矩陣的行數(shù)不一,在實(shí)驗(yàn)過(guò)程中,不能進(jìn)行批處理數(shù)據(jù)。因此利用填充詞向量矩陣模塊對(duì)其進(jìn)行填充,采用的方法是利用LDA主題模型訓(xùn)練得到文本-主題矩陣和主題-詞矩陣,基于最大概率的主題下的詞映射為詞向量對(duì)詞向量矩陣進(jìn)行填充,直到詞向量矩陣的行數(shù)為文檔集里的最大文本長(zhǎng)度。最后利用深度學(xué)習(xí)模塊對(duì)構(gòu)建好的詞向量矩陣提取深度特征以此分類(lèi),在原有的卷積神經(jīng)網(wǎng)絡(luò)里面添加了一層融合層,解決了特征表示不足造成文本分類(lèi)準(zhǔn)確率不高的問(wèn)題,增加了特征表示的豐富性。
圖1 文本分類(lèi)流程框架
2.1.1 詞向量
在對(duì)詞向量進(jìn)行訓(xùn)練之前,首先需要對(duì)文本進(jìn)行預(yù)處理,本文采用的辦法是Jieba分詞模塊,在分詞模塊中加入了停用詞表和自定義詞表,去掉文本中的介詞、代詞、虛詞以及特殊符號(hào)等,減少文本的冗余度,并且加入了一些自定義的新詞,使分詞更加的精確。分詞過(guò)后的文本需要轉(zhuǎn)換成計(jì)算機(jī)能夠識(shí)別的形式,傳統(tǒng)的獨(dú)熱表示將詞語(yǔ)表示為一維向量,維度為語(yǔ)料庫(kù)詞匯數(shù),在向量中位置處為1,其余位置為0。這種方式雖然容易理解,但是造成詞向量維度大、稀疏和詞與詞之間語(yǔ)義缺乏語(yǔ)義聯(lián)系等缺點(diǎn)。相反Word2Vec模型很好解決了一系列問(wèn)題,Word2Vec模型包含了CBOW和Skip-gram兩種訓(xùn)練模型,兩種訓(xùn)練模型都是由輸入層、投影層、輸出層構(gòu)成,選擇哪種模型主要看語(yǔ)料集規(guī)模的大小,在大型的語(yǔ)料庫(kù)里,CBOW模型的性能優(yōu)于Skip-gram模型,在較小的數(shù)據(jù)集里面則相反。相比較于傳統(tǒng)訓(xùn)練語(yǔ)言模型,詞向量只是一個(gè)副產(chǎn)品,這兩種方法的直接目的是得到高質(zhì)量的詞向量,降低了整體模型訓(xùn)練的參數(shù)規(guī)模和復(fù)雜度。本文選用的Skip-gram模型能夠針對(duì)某個(gè)文本數(shù)據(jù)集高效訓(xùn)練出低維、稠密的詞向量[9]。
本文采用的Skip-gram模型是利用中心詞預(yù)測(cè)上下文,假設(shè)存在由ω組成的一組詞序列,長(zhǎng)度為N,其訓(xùn)練目標(biāo)就是使式(1)的目標(biāo)值最大
(1)
其中,c是窗口大小,表示以當(dāng)前詞語(yǔ)為中心的前后文詞語(yǔ)次數(shù)。窗口越大,包含的信息越多,模型訓(xùn)練的越佳,但是帶來(lái)的計(jì)算復(fù)雜度也會(huì)增大。
2.1.2 詞向量矩陣生成方式
本文的文本詞向量矩陣生成方式如圖2所示,用Skip-gram詞向量模型對(duì)大量的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,以此產(chǎn)生V×H大小的矩陣,V代表了語(yǔ)料庫(kù)詞匯的數(shù)量,H代表了單個(gè)詞語(yǔ)訓(xùn)練后得到的維度,文檔集里面的每個(gè)文本經(jīng)過(guò)數(shù)據(jù)清洗、分詞后,詞對(duì)應(yīng)預(yù)訓(xùn)練好的詞向量對(duì)文本構(gòu)建詞向量矩陣,維度為N×H,N表示此文本經(jīng)過(guò)數(shù)據(jù)預(yù)處理過(guò)后的詞語(yǔ)數(shù)量。
圖2 詞向量矩陣生成流程
2.2.1 LDA模型
判斷兩個(gè)文本是否具有相似性,傳統(tǒng)的方式往往是尋找共現(xiàn)單詞的多少,但這種方法忽略了內(nèi)在的語(yǔ)義關(guān)聯(lián),使兩個(gè)原本相似的文檔因?yàn)閹缀鯖](méi)有共現(xiàn)的單詞而造成判斷錯(cuò)誤。所以在考慮文檔相關(guān)性的時(shí)候,語(yǔ)義也是非常重要的一個(gè)因素,本文中LDA主題模型就很好解決了這一問(wèn)題[10]。LDA主題模型是一種無(wú)監(jiān)督模型,也是分為3層貝葉斯概率生成模型,由“文檔-主題-詞”構(gòu)成。對(duì)于一系列的文檔,如何利用LDA主題模型進(jìn)行生成。通過(guò)混合主題上的概率分布選擇一種主題,從被抽取到的主題上所對(duì)應(yīng)的混合單詞概率分布中抽取一個(gè)單詞,然后重復(fù)上述過(guò)程直至遍歷文檔中的每一個(gè)單詞。
圖3為L(zhǎng)DA生成一篇文檔的生成模型。圖中K為T(mén)opic個(gè)數(shù),M為文檔集里文本數(shù)量,N表示一篇文檔里的單詞數(shù)量,兩個(gè)隱含變量θ和Φ分別表示文檔下的主題分布和主題下的詞分布,前者維度是K(K為主題總數(shù)),后者維度是v(v為詞典中不同詞語(yǔ)的數(shù)量),ɑ為θ的狄利克雷先驗(yàn)參數(shù),β是Φ的狄利克雷先驗(yàn)參數(shù)。
圖3 LDA生成模型
主題模型學(xué)習(xí)參數(shù)主要有兩種方法:第一種是基于Gibbs采樣算法求解,另外一種是基于變分推斷EM算法求解。Gibbs采樣算法是一種特殊的基于馬氏鏈的蒙特卡洛方法,經(jīng)過(guò)對(duì)詞的主題采樣生成馬氏鏈。
馬氏鏈的生成過(guò)程是根據(jù)其它時(shí)刻所有詞的主題分布估計(jì)當(dāng)前詞分配各個(gè)主題的概率,當(dāng)重新選擇了一個(gè)與原先不同的主題,反過(guò)來(lái)又會(huì)影響文本-主題矩陣和主題-詞矩陣。這樣進(jìn)行循環(huán)迭代之后,就會(huì)收斂到LDA所想要的實(shí)驗(yàn)結(jié)果了。當(dāng)完成主題采樣過(guò)后,就可以學(xué)習(xí)到模型的最終結(jié)果,生成兩個(gè)矩陣分別為文本-主題分布矩陣θ及主題-詞分布矩陣Φ,公式如下
(2)
(3)
在式(2)、式(3)中|V|代表了語(yǔ)料庫(kù)不同單詞的數(shù)量,K代表總的主題數(shù),n代表采樣的數(shù)量。
2.2.2 基于最大概率主題下的填充方式
運(yùn)用詞向量模型對(duì)輸入文本進(jìn)行詞向量矩陣生成之后,因?yàn)槲臋n集里的文本長(zhǎng)度長(zhǎng)短不一(各個(gè)文本里包含的詞語(yǔ)數(shù)目不同),導(dǎo)致文檔集里的各個(gè)文本生成的詞向量矩陣的行數(shù)各不相等,在目前的方法中,通常采用填零法、循環(huán)法和隨機(jī)法進(jìn)行填充,導(dǎo)致構(gòu)建的詞向量矩陣存在稀疏性以及語(yǔ)義混亂等問(wèn)題。從為了在實(shí)驗(yàn)中能夠進(jìn)行批處理數(shù)據(jù)和豐富文本特征信息兩方面考慮,本文結(jié)合Word2Vec模型和LDA模型的基于最大概率主題下的填充方式,以文檔集里的最大文本長(zhǎng)度為基準(zhǔn),尋找文本對(duì)應(yīng)文本-主題矩陣最大的概率主題,找到此主題下的詞概率分布,依照概率大小將詞映射為詞向量按序?qū)υ~向量矩陣進(jìn)行填充,直至構(gòu)建的詞向量矩陣行數(shù)等于最大文本長(zhǎng)度。該方法填充了具有正向促進(jìn)意義的詞向量,解決了文本特征不足的問(wèn)題。具體的流程如圖4所示。
圖4 詞向量矩陣填充流程
2.3.1 卷積神經(jīng)網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)[11]在許多領(lǐng)域都獲得了不錯(cuò)的效果,如圖像分類(lèi)、語(yǔ)音識(shí)別和自然語(yǔ)言處理等等,相比較于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)解決了多層感知器全連接和梯度發(fā)散的問(wèn)題,利用其局部感知、權(quán)值共享、池化三大核心思想。卷積神經(jīng)網(wǎng)絡(luò)的隱層由卷積層、池化層和全連接層組成,與其它領(lǐng)域有所不同的是,在自然語(yǔ)言處理領(lǐng)域,一層卷積層由多種不同大小的卷積核構(gòu)成,每一個(gè)卷積核提取出來(lái)的文本特征稱(chēng)為特征圖譜。對(duì)各個(gè)特征圖譜進(jìn)行池化處理過(guò)后,通過(guò)全連接層和softmax分類(lèi)器進(jìn)行分類(lèi)。
在本文前面經(jīng)過(guò)詞向量矩陣的構(gòu)建和填充之后,產(chǎn)生了詞向量矩陣S,其中xi由詞語(yǔ)經(jīng)過(guò)預(yù)訓(xùn)練出的詞向量映射得到的,如式(4)所示
S={x1,x2,…,xn}
(4)
在卷積層一般并行使用多種卷積核作為一層卷積。若使用行數(shù)為h的卷積核對(duì)詞向量矩陣進(jìn)行卷積操作,提取的局部特征為c。卷積的核心公式如式(5)所示
ci=f(w·xi:i+h-1+b)
(5)
在公式里面w和b是模型的超參數(shù),f是非線(xiàn)性激活函數(shù),在一個(gè)卷積核卷積后,產(chǎn)生的特征圖譜表示為式(6)
c=[c1,c2,…,cn-h+1]
(6)
產(chǎn)生了特征圖譜后,為了防止過(guò)擬合且減少訓(xùn)練的參數(shù),對(duì)特征進(jìn)行聚合統(tǒng)計(jì),需要經(jīng)歷池化層,池化層的措施有最大池化,平均池化,K-max等方法。在經(jīng)歷了池化后,將各個(gè)特征圖譜拼接起來(lái)經(jīng)過(guò)全連接層后,經(jīng)過(guò)softmax分類(lèi)器完成分類(lèi),如式(7)
p(y|c,w,b)=softmax(F·c+b)
(7)
在模型訓(xùn)練階段,利用實(shí)際分類(lèi)中的標(biāo)簽通過(guò)反向傳播基于梯度下降的策略進(jìn)行參數(shù)優(yōu)化,損失函數(shù)采用分類(lèi)交叉熵,并且引入L2正則化,丟失掉一些固定的參數(shù)以防在分類(lèi)上出現(xiàn)過(guò)擬合的現(xiàn)象。
2.3.2 結(jié)合融合層的卷積神經(jīng)網(wǎng)絡(luò)模型
本文利用的文本分類(lèi)神經(jīng)網(wǎng)絡(luò)模塊,如圖5所示。對(duì)于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn),在構(gòu)造好了詞向量矩陣后,采用了一種大小為行數(shù)為3,列數(shù)為詞向量大小的卷積核對(duì)其提取局部特征,卷積核的數(shù)量為300,形成了高級(jí)特征。然后通過(guò)改變高級(jí)特征的維度和添加通道數(shù)后,又通過(guò)一層大小為行數(shù)為1,列數(shù)為300的卷積層對(duì)其提取特征,形成更高級(jí)的特征,在融合層中由高級(jí)特征和更高級(jí)的特征進(jìn)行融合拼接,以此豐富了特征信息。此過(guò)程中,都沒(méi)有使用池化層,因?yàn)槌鼗瘜訒?huì)打亂特征的順序。經(jīng)歷融合層過(guò)后,再通過(guò)一個(gè)完整的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類(lèi),由卷積層、池化層、全連接層和分類(lèi)器構(gòu)成。該方法解決了短文本分類(lèi)任務(wù)中特征表示不足的問(wèn)題,增加了特征的多樣性,對(duì)文本分類(lèi)的準(zhǔn)確率有一定的提升。
圖5 深度學(xué)習(xí)模型分類(lèi)框架
基于LDA和深度學(xué)習(xí)的文本分類(lèi)模型采用隨機(jī)梯度下降法的方法進(jìn)行訓(xùn)練,以反向傳播的形式來(lái)自動(dòng)學(xué)習(xí)模型中的超參數(shù),如連接系數(shù)和偏置等。學(xué)習(xí)率也是非常重要的一個(gè)因素,學(xué)習(xí)率越大,更新參數(shù)的步伐越大,雖然訓(xùn)練時(shí)間減少但造成了細(xì)節(jié)丟失,局部直線(xiàn)化較為嚴(yán)重,更有可能錯(cuò)過(guò)全局最優(yōu)點(diǎn)。相反學(xué)習(xí)率過(guò)小,必然造成代價(jià)過(guò)高,如學(xué)習(xí)的樣本和訓(xùn)練的時(shí)間,也可能會(huì)產(chǎn)生過(guò)擬合現(xiàn)象。參數(shù)學(xué)習(xí)的變化區(qū)間在0.001到0.06,經(jīng)上面綜合考略,本文選擇的學(xué)習(xí)率為0.01。還有另外一個(gè)參數(shù)Dropout對(duì)結(jié)果也會(huì)產(chǎn)生重要的影響,其在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中使部分參數(shù)概率性失活和一部分權(quán)重值不再發(fā)生變化,在改善性能的同時(shí)由于減少了訓(xùn)練參數(shù)避免了過(guò)擬合的現(xiàn)象,本文在其參數(shù)的設(shè)定上,通過(guò)交叉驗(yàn)證將Dropout的值設(shè)定為0.5,Batch_size為64,在優(yōu)化方法上選擇應(yīng)用廣泛且性能較好的Adam Optimizer優(yōu)化方法。
在詞向量訓(xùn)練上,利用大規(guī)模的語(yǔ)料庫(kù)進(jìn)行數(shù)據(jù)預(yù)處理過(guò)后,將詞語(yǔ)訓(xùn)練成不同維度的向量,考慮詞向量長(zhǎng)度對(duì)模型性能的影響。在訓(xùn)練文本-主題分布矩陣和主題-詞分布矩陣的時(shí)候采用吉布斯采樣方法訓(xùn)練,根據(jù)GibbsLDA++手冊(cè)設(shè)置參數(shù)[12],因?yàn)楸疚氖亲銮楦卸诸?lèi),所以在設(shè)置隱含主題數(shù)的時(shí)候K為2,超參數(shù)設(shè)置α=0.5,β=0.1。為了允許訓(xùn)練時(shí)使用更大的學(xué)習(xí)率,本文在訓(xùn)練過(guò)程中加入了批歸一化處理,使得神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練時(shí)內(nèi)部數(shù)據(jù)分布更加的穩(wěn)定。
本文利用設(shè)計(jì)的基于正向促進(jìn)的深度學(xué)習(xí)分類(lèi)方法實(shí)驗(yàn)于文本情感分類(lèi)數(shù)據(jù)集上,來(lái)源于京東商品的用戶(hù)數(shù)據(jù)集中總共40 000條,其中正負(fù)情感樣本各有20 000條,分別為用戶(hù)對(duì)某商品的積極和消極評(píng)價(jià),為了能夠?qū)Ρ疚哪P妥龀隹煽康脑u(píng)價(jià),將積極和消極數(shù)據(jù)集各分為兩份,訓(xùn)練集和測(cè)試集的比例為8∶2。
本文在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),為了驗(yàn)證本文提出的模型的可行性,采用精度、召回率、F-score的多評(píng)價(jià)指標(biāo)。評(píng)價(jià)指標(biāo)由混淆矩陣?yán)锩娴膮?shù)決定。表1是二分類(lèi)器的混淆矩陣,TP表示實(shí)際為正例,預(yù)測(cè)為正例的文檔數(shù)量;FN表示實(shí)際為正例、預(yù)測(cè)為反例的文本數(shù)量;FP表示實(shí)際為反例,預(yù)測(cè)為正例的文本數(shù)量;TN表示實(shí)際為反例、預(yù)測(cè)也為反例的文本數(shù)量。
表1 混淆矩陣
在評(píng)價(jià)指標(biāo)中,準(zhǔn)確率定義為
(8)
在評(píng)價(jià)指標(biāo)中,召回率定義為
(9)
在實(shí)際評(píng)估模型的時(shí)候,需要綜合考慮上面兩個(gè)參數(shù),準(zhǔn)確率和召回率。兩者的調(diào)和平均數(shù)作為一個(gè)重要的評(píng)價(jià)指標(biāo),稱(chēng)之為F-score
(10)
對(duì)文本所使用的實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理過(guò)后,利用LDA主題模型對(duì)其進(jìn)行訓(xùn)練,得到所需要的文檔-主題矩陣和主題-詞矩陣,因?yàn)楸疚氖亲龌谖谋厩楦械亩诸?lèi)問(wèn)題,所以設(shè)置的隱含主題數(shù)K=2。實(shí)驗(yàn)得到的結(jié)果見(jiàn)表 2。
表2 主題詞文件示例
與目前的文本分類(lèi)方法進(jìn)行對(duì)比,word2vec+SVM、word2vec+CNN、word2vec+LSTM為了能夠正確公平地突出本文采用的方法在各項(xiàng)評(píng)價(jià)指標(biāo)上得到提高,本文實(shí)驗(yàn)均使用同一數(shù)據(jù)集,并且對(duì)于不能通過(guò)訓(xùn)練改變的參數(shù)在各個(gè)比較的方法上設(shè)置一致。模型對(duì)比的結(jié)果見(jiàn)表3。
表3 實(shí)驗(yàn)結(jié)果
從表2的結(jié)果分析上看,在情感分類(lèi)的數(shù)據(jù)集中,文本所提出的方法從各項(xiàng)指標(biāo)上看,準(zhǔn)確率、召回率、F-score值相比于以往的方法都有一定的提高,驗(yàn)證了結(jié)合LDA主題模型和融合層卷積神經(jīng)網(wǎng)絡(luò)的方法有效性,原因在于使構(gòu)建的詞向量矩陣含有了更多重要的信息特征,解決了特征表示不足的問(wèn)題。
詞向量的維度對(duì)于模型最終的性能存在著影響,所以本文在詞向量的維度上進(jìn)行了實(shí)驗(yàn),在預(yù)訓(xùn)練詞向量的時(shí)候,設(shè)置不同大小的維度。分析在詞向量不同的維度下,對(duì)文本所提出的模型的影響。在不同詞向量的維度下,本文模型準(zhǔn)確率對(duì)比實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 詞向量長(zhǎng)度對(duì)模型性能的影響
從實(shí)驗(yàn)結(jié)果分析可知,當(dāng)詞向量的維度為128的情況,本文設(shè)計(jì)的模型準(zhǔn)確率最高。從理論上分析可知,當(dāng)預(yù)訓(xùn)練的詞向量維度過(guò)小,并不能完全表征詞語(yǔ)蘊(yùn)含的豐富信息,神經(jīng)網(wǎng)絡(luò)模型不能精確的對(duì)文本進(jìn)行分類(lèi),導(dǎo)致準(zhǔn)確率較低。當(dāng)預(yù)訓(xùn)練的詞向量維度過(guò)大的時(shí)候,使得詞與詞之間的區(qū)別變得模糊,單個(gè)詞語(yǔ)的特征表達(dá)能力不強(qiáng),除此之外,維度過(guò)高必然付出更高的代價(jià),如模型的復(fù)雜度等。從理論上和實(shí)驗(yàn)對(duì)比綜合考慮下,當(dāng)預(yù)訓(xùn)練的詞向量維度為128的時(shí)候,本文設(shè)計(jì)的模型性能最佳。
為了能夠找到本文設(shè)計(jì)的模型最佳的迭代次數(shù),在都使用本模型的情況下,在不同的迭代次數(shù)下,訓(xùn)練得到的準(zhǔn)確率的對(duì)比實(shí)驗(yàn)結(jié)果如圖7所示。
圖7 迭代次數(shù)對(duì)模型性能的影響
從圖7分析可知,基于本模型訓(xùn)練的迭代次數(shù)為45的時(shí)候,就可以達(dá)到模型的最佳性能,在得到了最佳模型參數(shù)的同時(shí)也大大減少了模型擬合的時(shí)間,節(jié)約了運(yùn)算的成本。從模型的性能和模型擬合綜合考慮下,本模型訓(xùn)練的時(shí)候最佳迭代次數(shù)為45次。
本文提出的一種基于LDA和深度學(xué)習(xí)的文本分類(lèi)方法,該方法結(jié)合了LDA主題模型和Word2Vec對(duì)詞向量矩陣進(jìn)行構(gòu)建,然后通過(guò)加入融合層的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取分類(lèi),輔以批歸一化處理等機(jī)制對(duì)本文模型進(jìn)行了優(yōu)化,最終將該模型在情感分類(lèi)文本上進(jìn)行了實(shí)驗(yàn),與目前的方法相比,在各項(xiàng)評(píng)價(jià)指標(biāo)上都取得了更好的實(shí)驗(yàn)結(jié)果。本文提出的方法利用LDA主題模型訓(xùn)練的結(jié)果影響詞向量矩陣的構(gòu)建,在豐富詞向量矩陣特征信息的同時(shí)又使構(gòu)建的各個(gè)文本輸入矩陣具有相同的維度,以此可批處理數(shù)據(jù),在卷積神經(jīng)網(wǎng)絡(luò)的融合層利用了更多的特征信息,在整個(gè)模型訓(xùn)練中,解決了人工設(shè)計(jì)特征的難題。由于文本數(shù)據(jù)可以看作基于序列化的信息,接來(lái)的工作是在本文模型的基礎(chǔ)上加入雙向長(zhǎng)短期記憶網(wǎng)絡(luò),更加全面地提取文本特征,以此提升文本分類(lèi)的準(zhǔn)確率。