邰 悅, 葛 斌 , 李慧宗
(1.安徽理工大學(xué)計算機科學(xué)與工程學(xué)院,安徽 淮南 232001; 2.南陽師范學(xué)院計算機科學(xué)與技術(shù)學(xué)院,河南 南陽 473061)
隨著互聯(lián)網(wǎng)與信息技術(shù)的快速發(fā)展,新浪微博、亞馬遜等互聯(lián)網(wǎng)平臺的快速普及,各類各樣的網(wǎng)絡(luò)數(shù)據(jù)出現(xiàn)爆炸式增長,其中社會化標(biāo)簽的用戶評論數(shù)據(jù)是這些網(wǎng)絡(luò)數(shù)據(jù)中的重要組成部分。對于電商平臺而言,社會化標(biāo)簽數(shù)據(jù)具有自發(fā)性,這些數(shù)據(jù)源于用戶對自己購買過或者感興趣的物品進行評價、標(biāo)簽(tag)或者總結(jié)[1]。電商平臺也會根據(jù)商品種類或者用戶評論類別進行標(biāo)記(label)和分類,對于這些數(shù)據(jù)信息進行主題識別具有重要意義。目前處理這類數(shù)據(jù)有一些傳統(tǒng)方法,如LSA[2],PLSA[3],LDA[4]等。LDA的提出得到了廣泛應(yīng)用,在無監(jiān)督主題模型中具有重要意義,許多研究人員在LDA基礎(chǔ)上進行了改進和應(yīng)用[5-6]。Ekinci等[7]提出一種Concept-LDA主題模型,可以有效針對評論系統(tǒng)進行情感分析。Wu等[8]提出SKP-LDA的短文本聚類算法。由于微博中短文被賦予了情感性,通過對情感詞共現(xiàn)和知識對特征提取,并插入LDA中獲得語義信息,最終采用K-Means獲得聚類。但是這些方法無法有效利用數(shù)據(jù)標(biāo)記(label)進行主題建模,依舊以無監(jiān)督學(xué)習(xí)方式去實現(xiàn)主題識別,無法有效判斷該語料庫屬于哪一個模塊或者場景,從而造成生成的主題分布存在不相關(guān)主題詞等主題語義混亂問題,在主題粒度上更為粗糙。針對該類問題,對LDA模型進行以下改進:(1)引入TextCNN深度學(xué)習(xí)方法并進行改進,有效利用標(biāo)記數(shù)據(jù),實現(xiàn)語料庫的分類;(2)將改進的分類方法與傳統(tǒng)LDA結(jié)合形成有監(jiān)督學(xué)習(xí),實現(xiàn)細粒度主題建模。
TextCNN[9]是卷積神經(jīng)網(wǎng)絡(luò)在文本分類問題上的變形,如圖1所示。通過設(shè)置不同的卷積核大小,實現(xiàn)對不同大小的局部區(qū)域特征提取,使得神經(jīng)網(wǎng)絡(luò)提取到的特征向量和權(quán)重具有多樣性和代表性。與傳統(tǒng)CNN一樣,由卷積層、池化層、特征融合層和全鏈接層組成。
PLSA模型在兩層概率分布的基礎(chǔ)上對整個樣本空間建模,可以有效的提取“主題-詞”這一關(guān)系,但是PLSA容易存在著過擬合以及在大批次數(shù)據(jù)集上存在運算速度慢的缺陷。在PLSA的基礎(chǔ)上LDA(Latent Dirichlet Allocation)隨之被提出,如圖2所示。
在LDA模型中,主題分布和詞分布是由狄利克雷先驗生成。在采樣過程中通過吉布斯采樣方法生成出對應(yīng)的主題和詞,該模型也成為了目前主流的產(chǎn)生式概率模型。
通過引入注意力機制思想,提出一種基于注意力的文本卷積神經(jīng)網(wǎng)絡(luò) (Attention-TextCNN, ATT-TCNN),ATT-TCNN模型如圖3所示。具體方式如下:
通過相連操作之后,特征信息通過全局平均池化方法,特征向量轉(zhuǎn)變?yōu)橥ǖ赖南蛄浚⑶疫M行均值化,全局平均池化方法匯總了空間通道信息,對傳入的上一層輸出,賦予空間特點通道特點,同時全局平均池化方法作為一個結(jié)構(gòu)化的正則器,緩解了訓(xùn)練過程中的過擬合問題。使用Sigmoid激活函數(shù),對模型學(xué)習(xí)和非線性函數(shù)有重要的作用,引入非線性因素,把當(dāng)前特征空間通過一定的線性映射轉(zhuǎn)換到另一個空間,Sigmoid函數(shù)能夠映射到(0,1)區(qū)間,使模型具有非線性的映射能力。最后將主分支和側(cè)分支的特征向量進行相乘操作,賦予原先的主分支空間通道信息,加強了網(wǎng)絡(luò)的特征信息識別和傳播能力,并且將Relu6作為激活函數(shù)作用于ATT-TCNN。
神經(jīng)網(wǎng)絡(luò)模型在文本分類上具有較好的分類效果且具有較高的分類精度。通過將有監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)無監(jiān)督的LDA模型進行融合,在ATT-TCNN作為分類器的基礎(chǔ)上,提出一種基于ATT-TCNN的LDA(ATT-TCNN-LDA)有監(jiān)督主題模型。
ATT-TCNN-LDA通過融合ATT-TCNN文本分類模型和LDA主題模型用于細粒度主題識別,ATT-TCNN-LDA模型如圖4所示。具體建模方法如下:
將帶有標(biāo)記的文本語料庫作為ATT-TCNN的文本輸入,通過ATT-TCNN的迭代學(xué)習(xí)獲得帶有標(biāo)記的分類語料庫;針對每個分類語料庫,引入LDA主題模型進行主題識別,分別形成對應(yīng)的主題簇。
對于第i個分類簇LDA模型,根據(jù)詞分布和主題分布進行Gibbs采樣,其中詞分布和主題分布為:
(1)
(2)
(3)
(4)
為驗證提出的ATT-TCNN-LDA模型有效性,在Amazon公開數(shù)據(jù)集下的Books,Digital Music,Baby三個類別上進行實驗,在Books,Digital Music上驗證二分類建模效果,記為Amazon-2C。在Books,Digital Music,Baby上驗證多分類效果,記為Amazon-3C數(shù)據(jù)集。Amazon-2C實驗數(shù)量為18000條,Amazon-3C為27000條。
ATT-TCNN-LDA分為兩個模塊,分別是基于ATT-TCNN的文本分類模塊和基于ATT-TCNN-LDA的主題識別模塊,采用兩種評價方法進行實驗。在分類器模塊中與TextCNN進行對比,在主題識別模塊中與LDA進行對比。分類器的準(zhǔn)確率效果直接影響到ATT-TCNN-LDA的細粒度識別效果,分類器模塊以準(zhǔn)確率(Accuracy,Acc)為評價標(biāo)準(zhǔn),針對文本分類模型ATT-TCNN采用Acc為評價指標(biāo),其計算方法如式(5):
(5)
對于主題識別模塊采用主題間平均相似度作為評價指標(biāo)[10],在本文中主題間相似度越高說明主題相似性越強,主題之間的粒度更細,主題觀點和語義更明顯則效果越好。為了獲得有效且有意義的主題,取100個最相關(guān)的主題詞作為生成主題詞,則采用的主題間平均相似度(Avg_ Similarity)計算方法如(6),(7):
(6)
其中
(7)
K為主題數(shù),V表示生成主題詞數(shù)。
每個模塊都需要進行參數(shù)設(shè)定,在文本分類模塊中批量大小為128;學(xué)習(xí)率為0.001;交叉熵函數(shù)作為損失函數(shù);一個周期(Epoch)為1次正向和反向傳播,Epoch設(shè)定為500,優(yōu)化器為Adam;訓(xùn)練集和驗證集比例為2:1。
在主題識別模塊實驗中,先驗超參數(shù)α=50/K,β=0.01。ATT-TCNN-LDA每個主題簇設(shè)定主題數(shù)集合K在區(qū)間[10,100]中每次按10個主題遞增。為了體現(xiàn)不同條件下的實驗效果,分為不同主題簇與LDA的對比,LDA主題數(shù)設(shè)為K,以及全部主題簇與LDA的對比,LDA主題數(shù)則為nK,例如采用三分類來驗證多分類情況,則n=3。
圖5(a)-(b)分別為在Amazon-2C和Amazon-3C進行TextCNN和ATT-TCNN的準(zhǔn)確率對比情況。圖5可以看出無論在二分類還是多分類上ATT-TCNN都具有較好效果,在二分類上相對于TextCNN平均提升0.31%,在多分類上最優(yōu)情況下ATT-TCNN相對于TextCNN提升約0.39%,平均提升約0.35%。體現(xiàn)了ATT-TCNN在多分類上相對于TextCNN依舊具有優(yōu)勢。
圖6和圖7分別是ATT-TCNN-LDA和LDA在不同條件下的主題間平均相似度對比。圖6(a),6 (b)分別為各模型在二分類和多分類下,ATT-TCNN-LDA各個主題簇平均相似度與LDA的對比。可以看出ATT-TCNN-LDA各個簇在K=60和K=90達到最優(yōu)聚類主題數(shù),平均相似度分別優(yōu)于LDA約36%和29%。圖7(a), 7 (b)分別是各模型在二分類和多分類下,ATT-TCNN-LDA和LDA生成的所有主題平均相似度對比??梢钥闯?,無論在二分類還是多分類上都具有明顯優(yōu)勢。
對于傳統(tǒng)主題模型而言,大多數(shù)都是基于無監(jiān)督學(xué)習(xí)的模型,無法有效利用其標(biāo)記信息,在建模過程中數(shù)據(jù)具有獨立性和復(fù)雜性,導(dǎo)致生成的主題語義混亂、復(fù)雜、不清晰以及主題不夠鮮明。提出一種改進的LDA細粒度主題識別方法,通過結(jié)合深度學(xué)習(xí)方法形成有監(jiān)督主題模型,可以有效提升生成的主題粒度,主題語義更為鮮明,表達更為直觀。經(jīng)過實驗表明,方法在文本分類效果和最終生成的主題語義效果上與其他模型相比都具有提升效果。但是方法存在和深度學(xué)習(xí)其他領(lǐng)域中相似度的問題,對于新的未知標(biāo)記數(shù)據(jù)的處理,這也是下一步的研究重點。