孫 凌,韓立新,勾智楠
(河海大學(xué)計算機與信息學(xué)院,江蘇南京 211100)
基于變分自動編碼器的動態(tài)主題模型
孫 凌,韓立新,勾智楠
(河海大學(xué)計算機與信息學(xué)院,江蘇南京 211100)
傳統(tǒng)動態(tài)主題模型的后驗分布推斷需要復(fù)雜的推理過程,僅模型假設(shè)的細微變化就需要重新進行推斷,時間成本較高,制約了模型的可變性和通用性。為了提高動態(tài)主題模型的性能,提出了基于變分自動編碼器融合動態(tài)因子圖進行推斷的動態(tài)主題模型。該模型對變分下界進行再參數(shù)化,生成一個下界估計器,將隱變量轉(zhuǎn)換為一組輔助參數(shù),使得新的參數(shù)不依賴于變分參數(shù),用標準隨機梯度下降法直接優(yōu)化變分目標,同時融合動態(tài)因子圖對狀態(tài)空間模型進行建模,弱化推斷的概率特性,簡化優(yōu)化過程,實現(xiàn)有效的推斷。結(jié)果表明,提出的模型不僅保證了準確性,而且其簡化模型有效降低了推斷的時間成本,從而為動態(tài)主題模型能有效應(yīng)用于復(fù)雜的時間場景提供更多可能。
計算機神經(jīng)網(wǎng)絡(luò);動態(tài)主題模型;變分自動編碼器;動態(tài)因子圖;參數(shù)
主題模型是一種非常流行的對文本隱含主題建模的方法,廣泛應(yīng)用于自然語言處理、信息檢索等各個領(lǐng)域。針對具有時間屬性的文本,BLEI等[1]首次提出了動態(tài)主題模型(dynamic topic model,DTM),在主題建模時引入時間維度,從而跟蹤并分析主題隨時間變化的狀況。應(yīng)用DTM的主要問題是參數(shù)估計的計算成本,傳統(tǒng)的估計方法是利用EM算法迭代計算貝葉斯后驗分布的變分推斷方法[2],將近似后驗分布問題轉(zhuǎn)換為解決KL散度的優(yōu)化問題,對隱變量的推斷轉(zhuǎn)換為對變分變量的迭代更新,然而迭代模型的推導(dǎo)復(fù)雜且需高時間成本,尤其是新模型在建模假設(shè)中有細微變化都需重新推斷,嚴重制約了不同建模自由探索的實踐可能性。由此激發(fā)了研究者對黑盒推斷方法的探索,文獻[3—6]提出了僅需有限的信息并給定生成過程,能夠自動應(yīng)用到新模型的一些方法。
變分貝葉斯自動編碼(auto encoding variational bayes,AEVB)[6]是一種基于變分自動編碼器(variational autoencoder,VAE)的深度生成模型,可對變分下界再參數(shù)化生成一個下界估計器,將隱變量轉(zhuǎn)換為一組輔助參數(shù),使得新的參數(shù)不依賴于變分參數(shù),可用標準隨機梯度下降法優(yōu)化變分目標,從而簡化優(yōu)化過程,實現(xiàn)有效的后驗推斷。然而在訓(xùn)練過程中會造成組件塌陷[7],即一種類似于先驗信任的局部最優(yōu),在應(yīng)用到主題模型時會造成所有主題都一樣。SRIVASTAVA等[8]利用AEVB對主題模型進行推斷,提出了新的主題模型ProdLDA,但是無法適用于DTM?;谝陨涎芯?,本文以神經(jīng)網(wǎng)絡(luò)模型進行概率推斷為基礎(chǔ),提出一種基于變分自動編碼器的動態(tài)主題模型推斷學(xué)習(xí)方法。
在DTM中,時間片t上的序列語料的生成過程如下。
1) 根據(jù)βt|β(t-1)~N(β(t-1),σ2Ι)生成時間片t上的主題-詞匯概率分布βt;
2)根據(jù)αt|α(t-1)~N(α(t-1),δ2Ι)生成時間片t上的先驗主題先驗分布αt;
3)循環(huán)生成該時間片t上的每一篇文章d:
①根據(jù)θ~N(αt,a2Ι)生成時間片t上的文檔-主題概率分布θ;
②循環(huán)文檔d中的每一個詞n,根據(jù)Z~Mult(π(θ))生成詞-主題分配標識向量Z;根據(jù)W(t,d,n)~Mult(π(β(t,z)))生成詞W(t,d,n)。
DTM包含的隱變量包括文檔和主題層面上的,分別為主題分布θ、詞-主題分配標識向量Z,時間片t上的主題-詞匯分布參數(shù)變量βt。
在DTM中,高斯模型被應(yīng)用于時間序列上的自然參數(shù)的處理,從而對時間上的動態(tài)變化進行建模,然而,由于高斯分布和多元分布的非共軛性,直接對后驗分布進行推斷難以操作。另一方面,盡管Gibbs抽樣[9]在靜態(tài)的主題模型上得到有效的應(yīng)用,但是非共軛性導(dǎo)致抽樣方法難以應(yīng)用于動態(tài)模型[10]。因此,DTM采用變分推斷[11]來近似后驗分布。變分推斷首先假設(shè)一個較簡單的包含隱變量的分布,這個分布包含相應(yīng)的變分變量,通過不斷更新變分變量,達到優(yōu)化變分分布與真實后驗分布之間的KL散度的目的,當(dāng)KL散度小于某個閾值后,可將變分分布作為真實的后驗分布的近似替代。在文檔層面的隱變量有θ(t,d)和z(t,d,n),對應(yīng)變分變量的更新采用共軛梯度法來優(yōu)化,對主題層面的隱變量β(t,k)的變分變量的更新采用基于卡爾曼過濾算法的近似推斷[11]。然而,盡管對目標下界的優(yōu)化和變分變量的更新均有解析解,但由于靈活性受限,一旦應(yīng)用和需求變化所帶來的新模型則需要重新推導(dǎo)出有解析解的迭代更新模型,尤其對一些復(fù)雜的模型難以得到,甚至沒有解析解。
DTM中的狀態(tài)空間模型描述了變量β隨時間的變化,由此對生成文檔產(chǎn)生影響。DTM中采用基于卡爾曼濾波的近似方法對主題參數(shù)β進行推斷,需要復(fù)雜的推導(dǎo),本文用動態(tài)因子圖(dynamic factor graph,DFG)[12]描述狀態(tài)空間模型,簡化推斷。
狀態(tài)變量和觀測變量之間的依賴可表示為在序列數(shù)據(jù)上的因子圖,并且在時間片上重復(fù)。動態(tài)因子圖即因子圖用于協(xié)調(diào)序列數(shù)據(jù)的擴展,相比現(xiàn)有的狀態(tài)空間方法,DFG允許建模過程中使用復(fù)雜的函數(shù)來預(yù)測狀態(tài)和觀測值,弱化推斷的概率特性,實現(xiàn)高維度和非線性模型的有效推斷[12]。
針對傳統(tǒng)變分推斷方法的局限性,AEVB提供了很好的選擇,通過訓(xùn)練推斷網(wǎng)絡(luò)編碼器將文檔映射到近似后驗分布,并且利用再參數(shù)化將隱變量轉(zhuǎn)換為一組輔助參數(shù),使得新的參數(shù)不依賴于變分參數(shù),無需推導(dǎo)出變分參數(shù)的迭代更新模型。
AEVB是基于變分自動編碼器VAE的一種深度生成模型,可為主題模型提供一種有效的變分推斷和學(xué)習(xí)算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。AEVB利用神經(jīng)網(wǎng)絡(luò)來分別建模主題模型的文檔生成概率和表示文檔-主題的后驗概率分布的變分近似分布。其中,用于建模變分近似分布的神經(jīng)網(wǎng)絡(luò)作為編碼器,將輸入文檔映射為表示文檔-主題的后驗分布;用于建模文檔生成概率的神經(jīng)網(wǎng)絡(luò)作為解碼器,將后驗分布映射為生成的文檔概率分布。
圖1 基于AEVB推斷學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of inference learning based on AEVB
基于AEVB的推斷學(xué)習(xí)方法,即使在大規(guī)模文檔數(shù)據(jù)集也可以實現(xiàn)有效的推斷和學(xué)習(xí),并在一些輕微的可微性條件下,能處理復(fù)雜的后驗分布[7],由此面對主題模型由應(yīng)用和需求變化帶來的復(fù)雜新模型,AEVB只需對變分下界的再參數(shù)化產(chǎn)生一個下界估計器適配一個近似推斷模型來處理復(fù)雜的后驗,最后用標準隨機梯度下降方法直接優(yōu)化,由此實現(xiàn)有效的后驗推斷和學(xué)習(xí)。但是,針對動態(tài)主題模型中滿足時序動態(tài)變化的狀態(tài)變量,AEVB無法建模該狀態(tài)變量的時序依賴關(guān)系。
圖2 VADTM的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of VADTM
p(θt|αt)dθt。
(1)
(2)
(3)
L(q,βt,αt;wt)?Eqφ(θt|wt)[logp(wt|θt,βt)]-DL[qφ(θt|wt)||p(θt|αt)]。
(4)
φ*=argminDL(qφ(θt|wt)||p(θt|wt;αt))=
argmax L(q,βt,αt;wt)=
DL[qφ(θt|wt)||p(θt|αt)]),
(5)
式中:第1項為負的平均重構(gòu)誤差;第2項為近似分布q和先驗分布θ之間的KL距離。由此變分目標的兩項可由解碼器和編碼器來分別建模。
3.1捕獲動態(tài)先驗的編碼器
同樣,DTM中θt服從以αt為均值的對數(shù)高斯分布,即logp(θt|wt)=log N(wt;μt,σt),其中μt=αt,σt=a。那么式(5)中第2項記作Lkl,則
Lkl=DL[qφ(θt|wt)||p(θt|αt)]=
(6)
其中超參數(shù)αt滿足高斯隨機游走模型,作為常數(shù),本文在初始化時采用滿足高斯分布的隨機采樣進行參數(shù)微調(diào),而非全設(shè)為1[9],在一定程度上緩解組件塌陷,從而獲得解釋性更優(yōu)的主題詞。
3.2基于動態(tài)因子圖的解碼器
上述是在t時刻的生成模型,在考慮相鄰時間片狀態(tài)變量的依賴關(guān)系后,本文采用動態(tài)因子圖來改進解碼器。變量βt滿足如下狀態(tài)空間模型:
βt|βt-1~N(βt-1,σ2Ι),
(7)
將其表示為動態(tài)因子圖的形式,如圖3所示。
圖3 狀態(tài)空間模型轉(zhuǎn)換的動態(tài)因子圖Fig.3 Dynamic factor graph converted from state space model
綜上所述,變分目標(5)最終可以表示為如下的目標損失函數(shù):
argmax L(Θ)=argmax(Lg+Lf-Lkl)=
‖βt-β(t-1)‖2+Lkl) =
(8)
基于此優(yōu)化目標,本文采用隨機梯度下降法訓(xùn)練整個網(wǎng)絡(luò)。
3.3相關(guān)工作比較
動態(tài)主題模型性能優(yōu)化的關(guān)鍵是如何獲取更高效的訓(xùn)練算法[10]。常用的包括利用EM算法迭代計算后驗分布的變分推斷方法[2]和利用馬爾可夫鏈蒙特卡洛方法的Gibbs抽樣方法[9],然而變分推斷方法需要對變分變量的迭代更新公式進行復(fù)雜的推導(dǎo)過程,難以應(yīng)用到擴展的模型,而本文結(jié)合VAE網(wǎng)絡(luò)架構(gòu),利用再參數(shù)化將編碼器輸出的2個網(wǎng)絡(luò)與輔助參數(shù)進行線性操作,此時對變分變量的推斷簡化為對2個網(wǎng)絡(luò)參數(shù)的優(yōu)化,簡化了迭代更新模型;相較于Gibbs抽樣方法,每次迭代采樣都需遍歷所有數(shù)據(jù)點直到收斂,本文的VADTM只需對正態(tài)分布進行一次采樣,優(yōu)化了推斷時間。SRIVASTAVA等[8]同樣利用AEVB進行變分推斷,并基于該推斷方法提出新的主題模型ProdLDA,但不適用動態(tài)主題模型,本文提出的VADTM融合了動態(tài)特性,對先驗進行調(diào)優(yōu),同時將狀態(tài)空間模型轉(zhuǎn)換為動態(tài)因子圖進行時序建模并適配解碼器。由此,VADTM保證傳統(tǒng)方法的準確性同時,還節(jié)約了時間成本,實現(xiàn)有效的性能優(yōu)化。
4.1實驗環(huán)境
硬件上,采用因特爾酷睿i7四核處理器,處理器主頻為2.2 GHz,內(nèi)存大小為16 GB。軟件上,采用macOS Sierra操作系統(tǒng),深度學(xué)習(xí)框架Tensorflow0.10.0,Python2.7作為開發(fā)環(huán)境。
4.2實驗數(shù)據(jù)
采用一個時間跨度為25年(1985—2009),以自然語言處理領(lǐng)域中文期刊論文(DBLP) 為主導(dǎo)的語料庫[13]進行實驗。選取該語料庫13 600篇論文的英文摘要作為文檔。語料庫的詞匯數(shù)目為10 984。本文將語料庫分為 10 個時間片, 每個時間片上的論文數(shù)大致相當(dāng),對每篇論文進行預(yù)處理,包括去除非UTF-8字符、標點、長度小于3的單詞、英文停止詞等,并進行分詞以及單詞詞干化等預(yù)處理。
4.3評估方法
主題模型所面臨的另一個主要問題是如何客觀地衡量模型的優(yōu)劣度,由于其非監(jiān)督的特性,不同的應(yīng)用中需實現(xiàn)不同的任務(wù),使得模型的選擇變得困難,因此很難直接評估一個模型的好壞[11]。傳統(tǒng)方法使用perplexity對主題進行定性評估,文獻[14]指出該方法不能很好地表示主題詞的語義特性,LAU等[15]提出主題相關(guān)性的評估標準更接近人類判斷,并使用歸一化點互信息(normalized pointwise mutual information,NPMI)對主題定性評估。本文采用NPMI方法,NPMI(t)表示主題t的主題相關(guān)性,取主題t的top-N主題詞集進行計算,最后取K個主題的平均主題相關(guān)性作為評估指標,平均主題相關(guān)性越大,表示模型越優(yōu)。
4.4對比實驗結(jié)果分析
采用文獻[9]提出的使用Gibbs抽樣進行推斷的LDA、文獻[2]提出的使用平均場變分推斷的DTM、文獻[8]提出的基于變分自動編碼器推斷的ProdLDA以及本文提出的VADTM進行比較。實驗中,選取主題數(shù)量為50進行實驗。超參數(shù)αt是文檔-主題分布即高斯分布的均值,它的初始化值需反映真實語料的分布特征,實驗通過設(shè)置不同的αt取值來描述真實語料的概率分布,通過比較主題相關(guān)性來找到最優(yōu)的αt,圖4給出了VADTM在超參數(shù)αt設(shè)置不同高斯分布方差的條件下平均主題相關(guān)性的對比結(jié)果,結(jié)果顯示,方差αt取0.8時,模型達到最優(yōu),即0.8最能反映真實語料的概率分布特征。表1給出了當(dāng)超參數(shù)αt全部設(shè)置為1時模型學(xué)到的主題詞,結(jié)果顯示在不同時間片中都存在相近的且沒有意義的主題詞,說明模型出現(xiàn)一定程度的組件塌陷問題,而當(dāng)超參數(shù)αt的取值為高斯分布的隨機采樣結(jié)果時,能避免產(chǎn)生相近的且無意義的主題詞,如表2所示。表2選取了同表1相同時間片下的部分主題詞,可見不同主題之間不再出現(xiàn)相似的主題詞且主題詞解釋性更優(yōu)。說明一定程度上緩解了AEVB的組件塌陷問題,主題的解釋性更強。
圖4 不同方差設(shè)置下主題相關(guān)性對比Fig.4 Contrast of topic coherence by different variances
表1 超參數(shù)αt全部設(shè)置為1時部分主題詞
表2 超參數(shù)αt取值為隨機采樣結(jié)果時部分主題詞
表3顯示了所有模型的平均主題相關(guān)性的比較。結(jié)果顯示ProdLDA和VADTM產(chǎn)生了相近的主題相關(guān)性且優(yōu)于兩種傳統(tǒng)方法。同時VADTM耗時50 min左右訓(xùn)練模型,然而基于平均場變分推斷的DTM則耗時超過10 h。這說明了本文提出的基于變分自動編碼器并融合動態(tài)因子圖進行推斷的動態(tài)主題模型VADTM,保證一定準確性的同時,有效優(yōu)化了推斷時間,節(jié)約了時間成本,相較于ProdLDA也實現(xiàn)了動態(tài)模型的應(yīng)用。
表3 不同方法的平均主題相關(guān)性比較
基于變分自動編碼器神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練DTM,使用再參數(shù)化將DTM中文檔層面的隱變量文檔-主題θ轉(zhuǎn)換為一組輔助參數(shù),使得新的參數(shù)不依賴于變分參數(shù),可用標準隨機梯度下降法直接優(yōu)化變分目標,同時將主題β的狀態(tài)空間模型轉(zhuǎn)換為動態(tài)因子圖進行時序建模,將復(fù)雜的變分推導(dǎo)轉(zhuǎn)換為對狀態(tài)β的正則化約束,簡化了變分目標。實驗表明,本文提出的VADTM保證準確性,優(yōu)化推斷時間,實現(xiàn)了有效的性能優(yōu)化。未來,將考慮根據(jù)具體的應(yīng)用例如圖像識別[16]來調(diào)整模型,并結(jié)合微博平臺利用改進的DTM來建模用戶信任關(guān)系[17]。
/
[1] BLEI D M, LAFFERTY J D. Dynamic topic models[C]// Proceedings of the 23rd International Conference on Machine Learning. New York:ACM, 2006: 113-120.
[2] WAINWRIGHT M J, JORDAN M I. Graphical models, exponential families, and variationalinference[J]. Foundations and Trends in Machine Learning, 2008, 1(1/2): 1-305.
[3] RANGANATH R, GERRISH S, BLEI D. Black box variational inference[C]//Artificial Intelligence and Statistics.[S.l.]:[s.n.], 2014: 814-822.
[4] MNIH A, GREGOR K.Neuralvariational inference and learning in belief networks[J].International Conference on Multimedia Retrieval,2014,32:1791-1799.
[5] KUCUKELBIR A, TRAN D, RANGANATH R, et al. Automatic differentiation variational inference[J]. Journal of Machine Learning Research, 2017, 18(1):430-474.
[6] KINGMA D P, WELLING M. Auto-encoding variationalbayes[EB/OL].http://dpkingma.com/wordpress/wp-content/uploads/2014/05/2014-03_talk_iclr.pdf, 2014-05-01.
[7] DINH L, DUMOULIN V. Training neural Bayesian nets[EB/OL].http://www.iro.umontreal.ca/~bengioy/cifar/NCAP2014-summersch-ool/slides/Laurent_dinh_cifar_presentation.pdf,2016-02-15.
[8] SRIVASTAVA A, SUTTON C. Autoencoding variational inference for topic models[EB/OL].https://www.researchgate.net/publication/314261246_Autoencoding_Variational_Inference_For_Topic_Models,2017-03-29.
[9] GRIFFITHS T. Gibbs sampling in the generative model of latent dirichlet allocation[R].Stanford: Stanford University,2002.
[10] 桂小慶, 張俊, 張曉民,等. 時態(tài)主題模型方法及應(yīng)用研究綜述[J]. 計算機科學(xué), 2017,44(2): 46-55.
GUI Xiaoqing, ZHANG Jun, ZHANG Xiaomin,et al. Survey on temporal topic model methods and application[J]. Computer Science, 2017,44(2):46-55.
[11] WINN J M. Variational Message Passing and its Applications[D]. London:University of Cambridge, 2004.
[12] MIROWSKI P, LECUN Y. Dynamic factor graphs for time series modeling[J]. Machine Learning and Knowledge Discovery in Databases, 2009,5782: 128-143.
[13] 蔣卓人, 陳燕, 高良才,等. 一種結(jié)合有監(jiān)督學(xué)習(xí)的動態(tài)主題模型[J]. 北京大學(xué)學(xué)報(自然科學(xué)版), 2015, 51(2):367-376.
JIANG Zhuoren, CHEN Yan, GAO Liangcai, et al.A supervised dynamic topic model[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015, 51(2):367-376.
[14] NEWMAN D, LAU J H, GRIESER K, et al. Automatic evaluation of topic coherence[C]// Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association of Computational Linguistics. Stroudsburg:Association for Computational Linguistics, 2010:100-108.
[15] LAU J H, NEWMAN D, BALDWIN T. Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality[C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics.[S.l.]:[s.n.], 2014: 530-539.
[16] 鄭琨,張楊,賴杰,等.基于支持向量機和特征向量提取的人臉識別框架[J].河北工業(yè)科技, 2016, 33(1):58-62.
ZHENG Kun,ZHANG Yang,LAI Jie,et al.Face recognition framework based on support vector machine and feature vector extraction[J].Hebei Journal of Industrial Science and Techno-logy,2016,33(1):58-62.
[17] 孫博, 陳通. 微博用戶之間信任形成的因素研究[J]. 河北工業(yè)科技, 2015, 32(5):384-389.
SUN Bo, CHEN Tong. Factors on formation of trust between microblog users[J]. Hebei Journal of Industrial Science and Technology, 2015, 32(5):384-389.
Dynamic topic model based on variational autoencoder
SUN Ling, HAN Lixin, GOU Zhinan
(College of Computer and Information, Hohai University, Nanjing, Jiangsu 211100, China)
The posterior distribution of traditional dynamic topic model requires complex reasoning process, and a small change in model assume will require re-deduction, meanwhile with high time cost, which restricts the variability and generality of the model. A dynamic topic model based on variational autoencoder fusing with dynamic factor graph for inference is proposed in order to improve the performance of dynamic topic model. The model makes a reparameterization trick to evidence lower bound to generate a lower estimator, and converts the hidden parameters to a group of auxiliary parameters, which makes new parameters not depend on variational parameters; standard stochastic gradient descent method can be available to variational objective function directly. At the same time, integrating the dynamic factor graph on modeling the state space model weakens the probabilistic of the model, simplifies the optimization process, and makes effective inference. The experimental results show that this model guarantees the accuracy, and the simplified model reduces the time cost effectively, which will provide more possibilities for dynamic topic model to be applied to complex time scenarios effectively.
neural network; dynamic topic model; variational autoencoder; dynamic factor graph; parameter
1008-1534(2017)06-0421-07
TP389.1
A
10.7535/hbgykj.2017yx06006
2017-08-28;
2017-10-17;責(zé)任編輯:陳書欣
江蘇省研究生科研與實踐創(chuàng)新計劃項目(KYCX17_0486);中央高?;究蒲袠I(yè)務(wù)費專項資金(2017B708X14);福建省信息處理與智能控制重點實驗室(閩江學(xué)院)開放課題(MJUKF201740)
孫 凌(1992—),女,江蘇南京人,碩士研究生,主要從事機器學(xué)習(xí)、信息檢索方面的研究。
韓立新教授,博士生導(dǎo)師。E-mail:lhan@hhu.edu.cn
孫 凌,韓立新,勾智楠.基于變分自動編碼器的動態(tài)主題模型[J].河北工業(yè)科技,2017,34(6):421-427.
SUN Ling, HAN Linxin, GOU Zhinan. Dynamic topic model based on variational autoencoder[J].Hebei Journal of Industrial Science and Technology,2017,34(6):421-427.