邢國正,江雨燕,吳 超,李常訓(xùn)
(安徽工業(yè)大學(xué)管理科學(xué)與工程學(xué)院,安徽馬鞍山243002)
一種半監(jiān)督重復(fù)軟最大化模型
邢國正,江雨燕,吳 超,李常訓(xùn)
(安徽工業(yè)大學(xué)管理科學(xué)與工程學(xué)院,安徽馬鞍山243002)
概率主題模型由于其高效的數(shù)據(jù)降維和文檔主題特征挖掘能力被廣泛應(yīng)用于各種文檔分析任務(wù)中,然而概率主題模型主要基于有向圖模型構(gòu)建,使得模型的表示能力受到極大限制。為此,研究分布式主題特征表示和基于無向圖模型玻爾茲曼機(jī)的重復(fù)軟最大化模型(RSM),提出一種半監(jiān)督的RSM(SSRSM)。將SSRSM、RSM模型提取的主題特征應(yīng)用于多標(biāo)記判別任務(wù)中,實驗結(jié)果表明,相比LDA和RSM模型,SSRSM模型具有更好的多標(biāo)記判別能力。
主題模型;無向圖模型;重復(fù)軟最大化模型;半監(jiān)督模型;特征學(xué)習(xí)
概率主題模型[1]被廣泛應(yīng)用于大規(guī)模語料數(shù)據(jù)的分析和語義主題提取過程中[2]。大部分概率主題模型都假設(shè)每個文檔可以表示成若干個主題混合的形式,其中每一個主題都是由所有詞組成的多項分布。這些模型可以看成是包含隱含主題變量的有向概率圖模型,在隱含變量和觀測變量之間存在有向連接。這種結(jié)構(gòu)使得對概率主題模型的精確求解變得非常困難,必須使用估計方法來計算模型主題的后驗概率[3]。有向圖結(jié)構(gòu)的另一個缺點是無法對產(chǎn)生概率大于主題組合的單詞進(jìn)行有效預(yù)測,同時也無法預(yù)測產(chǎn)生概率小于主題組合的單詞。這使得概率主題模型無法有效提取分布式表示的特征[4],模型擬合能力較差。
分布式特征表示是指語義特征并不是僅存在于一個主題之中,而是通過多個主題特征以相乘的方式組合而成的。在概率主題模型中,語義特征是由主題混合通過加權(quán)和的方式表達(dá)的,其語義表示能力要比分布式的表示方式弱。盡管分布式的表示方式提取的單個主題信息可能相對于概率主題模型的主題表示能力較弱,但是由于通過特征相乘的方式,分布式將具有更強(qiáng)的文檔表示能力。為此,本文提出一種可以有效利用文檔多標(biāo)記信息的半監(jiān)督重復(fù)軟最大化模型(Semi Supervised Replicated Softmax Model,SSRSM)。
2.1 受限玻爾茲曼機(jī)
由于基于有向圖模型的概率主題模型在模型優(yōu)化和語義表示方面暴露出的缺點,如何將無向圖模型和分布式特征表示進(jìn)行有效結(jié)合已經(jīng)成為工業(yè)界和學(xué)術(shù)界研究的重點。近年來,已有一些學(xué)者通過使用玻爾茲曼機(jī)[5]來構(gòu)建類似于概率主題模型的語義結(jié)構(gòu),并且取得了一定的進(jìn)展。
玻爾茲曼機(jī)是一種兩層隨機(jī)單元組成的網(wǎng)絡(luò)結(jié)構(gòu)。這些隨機(jī)單元可以分為2類,分別為可見單元ν∈{0,1}dν表示輸入數(shù)據(jù),隱含單元h∈{0,1}dh,其中,ν和h均為向量,隱含單元與可見單元是互補先驗的關(guān)系。
通常不能直接求解玻爾茲曼機(jī)的參數(shù),例如在計算hi的條件概率P(hi|ν)時,需要根據(jù)如下公式求解:
因此,需要對2dh-1個項求和,這使得P(hi|ν)的計算非常困難。
為了簡化玻爾茲曼機(jī)的求解,需要對其添加一定的條件約束,進(jìn)而簡化參數(shù)估計的計算過程。受限波爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)[6]可以看成是一類添加了條件約束的玻爾茲曼機(jī),其定義方式與玻爾茲曼機(jī)相似,但添加了2個約束,即在隱含單元之間不存在無向圖連接,同時在可見單元之間也不存在無向圖連接。一個包含3個隱含單元和4個可見單元的受限玻爾茲曼機(jī)結(jié)構(gòu)如圖1所示。在這個條件約束下RBM具有許多優(yōu)良的性質(zhì),首先在給定可見單元的情況下,隱含單元的條件概率分布是可分解的,使得對其求解變得簡單、可行。目前已經(jīng)有許多求解RBM模型參數(shù)的方法,包括投影尋蹤方法[7]、對比分歧[8]方法、隨機(jī)最大似然方法[9]等。
圖1 受限玻爾茲曼機(jī)
2.2 基于受限波爾茲曼機(jī)的概率主題模型結(jié)構(gòu)
RBM作為一種隱含變量模型,已經(jīng)被廣泛應(yīng)用于圖像特征提取、數(shù)據(jù)降維等任務(wù)中[10]。近年來一些學(xué)者已開始將RBM應(yīng)用于文檔主題提取中,并且取得了良好的效果。
文獻(xiàn)[11-12]使用泊松分布來模型化詞計數(shù)向量,并且采用RBM作為可見單元到隱含單元的映射模型來提取文檔主題特征。其提出的模型在文檔特征的分布式表示方面取得了良好的效果。然而,該模型無法處理不同長度的文檔數(shù)據(jù),使得模型學(xué)習(xí)變得困難、不穩(wěn)定,這也是該模型無法在真正的生產(chǎn)環(huán)境中被使用的重要原因。而有向圖模型在建模過程中通過直接將語料中未出現(xiàn)的詞對應(yīng)的結(jié)點刪除的方式,可以簡潔地處理不同文檔長度導(dǎo)致的問題,這也是有向圖模型與無向圖模型建模的不同之處。
文獻(xiàn)[13]通過引入約束泊松模型的方式來模型化文檔數(shù)據(jù),盡管其參數(shù)學(xué)習(xí)過程是穩(wěn)定的,然而其關(guān)于詞計數(shù)的分布不是一個正規(guī)的概率分布形式,導(dǎo)致無法合理解釋提取的特征信息。文獻(xiàn)[14]提出了RSM模型,該模型可以通過CD方法快速訓(xùn)練,同時可以更好地處理不同長度的文檔,在計算隱含主題變量的分布時更加簡單。
文獻(xiàn)[15]采用深層玻爾茲曼機(jī)(Deep Boltzmann Machine,DBM)的方式對RSM模型進(jìn)行了改進(jìn),并且取得了較好的效果。然而該模型由于采用多層RBM的方式構(gòu)建,其計算復(fù)雜度較高,無法用于大規(guī)模數(shù)據(jù)處理任務(wù)中。
同時,盡管RSM和DBM模型在文檔主題提取和分布式特征學(xué)習(xí)方面具有優(yōu)良的性質(zhì),但是這類模型與標(biāo)準(zhǔn)LDA模型相似,都無法處理含有類別標(biāo)記的文檔數(shù)據(jù)[16],即它們都是無監(jiān)督特征提取模型。這導(dǎo)致提取的特征被應(yīng)用于監(jiān)督學(xué)習(xí)中時產(chǎn)生一定的問題[17]。因此,在RSM模型研究中如何將RBM的分布式特征提取和監(jiān)督或半監(jiān)督學(xué)習(xí)結(jié)合已經(jīng)成為人們研究的重點內(nèi)容。
3.1 模型定義
本文通過對文檔標(biāo)記與主題之間的映射關(guān)系[18]的研究,提出一種半監(jiān)督Replicated Softmax模型(Semi-supervised Replicated Softmax Model,SSRSM)。設(shè)整個語料庫中包含的不同標(biāo)記數(shù)為L,語料庫中第d個文檔的長度為D。ν∈{1,2,…,K}D表示RBM對應(yīng)的可見單元,其中,K為字典中包含詞的數(shù)量表示文檔中包含詞的數(shù)量。h∈{0,1}Fd表示二進(jìn)制隨機(jī)隱含主題特征,其中,F(xiàn)d的值由文檔d的多標(biāo)記決定。設(shè)矩陣A為一個S×L維的矩陣,S表示語料庫中包含的文檔數(shù)量。矩陣A可以看成是一個文檔標(biāo)記識別矩陣,若第d個文檔存在第l個文檔標(biāo)記,則Adl=1,否則Adl=0。設(shè)文檔d對應(yīng)的RBM包含2種隱含單元,分別為共享隱含單元和獨享隱含單元。其中,共享隱含單元與文檔無關(guān),即語料庫中所有的文檔對應(yīng)的RBM均含有相同的共享隱含單元。文檔對應(yīng)的RBM除了含有共享隱含單元外,每個文檔標(biāo)記還存在若干個獨享隱含單元。設(shè)文檔包含的共享隱含單元數(shù)為Fs,對于第d個文檔對應(yīng)的獨享隱含單元數(shù)為sum(Ad)×Fl,其中,sum(Ad)表示矩陣A第d行元素的和,F(xiàn)l表示每個標(biāo)記對應(yīng)的獨享隱含單元的數(shù)量。由此可以得到,文檔d對應(yīng)的Fd的值為Fd= Fs+sum(Ad)×Fl。
設(shè)矩陣B為一個d×(Fs+L·Fl)的矩陣,定義其為文檔對應(yīng)的隱含單元識別矩陣,其中,前Fs列元素全部為1,表示共享隱含單元,對于其余Fs+ 1~Fs+L·Fl列元素對應(yīng)文檔的獨享隱含單元,若矩陣Aij=1,則矩陣B的第i行的Fs+(j-1)Fl~Fs+j·Fl元素全部為1,否則為0。
設(shè)語料庫中存在2篇文檔分別為d1和d2,2篇文檔包含不同的標(biāo)記個數(shù)為3個,設(shè)每篇文檔對應(yīng)的共享隱含單元數(shù)為2,每個標(biāo)記對應(yīng)的局部隱含單元數(shù)為2,設(shè)文檔d1包含標(biāo)記1和標(biāo)記3,則其對應(yīng)的SSRSM模型如圖2(a)所示。設(shè)文檔d2包含標(biāo)記1和標(biāo)記2,則其對應(yīng)的SSRSM模型如圖2(b)所示。
圖2 SSRSM模型結(jié)構(gòu)
3.2 模型推理
對于文檔d,根據(jù)模型定義可以得到在{V,hd}狀態(tài)的能量函數(shù)為:
其中,{W,b,a}表示模型參數(shù);V為一個K×D維的矩陣。如果第i可見單元對應(yīng)的第K個詞在文檔中出現(xiàn),則,否則由此可以得到矩陣V概率為:
可見,單元和隱含單元的條件概率為:
假設(shè)不考慮文檔中詞出現(xiàn)的順序,每個文檔對應(yīng)的RBM與其他文檔的RBM具有相同的參數(shù)集合,可以得到在{V,hd}狀態(tài)的能量函數(shù)為:
其中,EPdata[·]表示數(shù)據(jù)分布Pdata(V)的期望;表示em pirical分布;EPModel[·]表示模型分布的期望。在該模型中,計算EPModel[·]的計算量與m in{D,F(xiàn)}呈指數(shù)關(guān)系,通常不能精確計算最大似然函數(shù)。為了有效計算EPModel[·]的值,采用CD方法實現(xiàn)估計其值。目標(biāo)函數(shù)參數(shù)的調(diào)節(jié)量為:
其中,α表示學(xué)習(xí)率或步長;PT表示通過T步完整的Gibbs Sampling[19]采樣獲得的分布。
4.1 主題提取
為了充分驗證本文提出模型的主題提取能力,將該模型與標(biāo)準(zhǔn)LDA模型、Replicated Softmax模型進(jìn)行了比較。對于無向圖模型,由于在計算全局正規(guī)化項時需要計算和遍歷指數(shù)個概率項,因此直接計算文檔的hold-out概率是不可行的。在實驗過程中采用文獻(xiàn)[20]提出的退火重要性采樣(Annealed important Sam pling,AIS)方法來估計RBM的劃分函數(shù)。
其中,χ(i)~PA。然而當(dāng)PA(χ)和PB(χ)的值并不十分接近時,估計值將變得不精確。尤其是在較高維空間時,估計的誤差將會非常大,除非PA(χ)與PB(χ)非常接近,否則不能夠獲得有效的估計。
退火重要性采樣可以看成是簡單重要性采樣方法在高維空間的改進(jìn)。AIS使用了大量的輔助變量使PA(χ)接近目標(biāo)分布PB(χ)。AIS定義了一系列概率分布P0,P1,…,PS,其中,P0=PA且PS=PB。通??梢酝ㄟ^如下方法定義分布系列:
令:
其中,0=β0<β1<…<βK=1。同時對于每個PK(χ)定義一個馬爾科夫鏈狀態(tài)轉(zhuǎn)移操作TK(χ′;χ)。
對于包含D個詞的文檔可以推導(dǎo)出{V,h}的聯(lián)合概率分布為:
通過將h積分掉可以非正規(guī)化概率P*(V),這時可以定義分布序列:
當(dāng)s=0時,可以得到βs=0,P0表示均勻分布,其劃分函數(shù)為Z0=2F,F(xiàn)表示隱含單元的數(shù)量。一輪A IS迭代過程如下:
AIS首先從均勻分布P0(V)中采樣,接著應(yīng)用一系列的狀態(tài)轉(zhuǎn)移操作T1,T2,…,TS-1,使得樣本從P0(V)分布移動到Ps(V)分布。在運行完MAIS過程后,可以通過重要性權(quán)重獲得模型劃分函數(shù)的無偏估計:
實驗中為了充分驗證模型的主題特征提取能力,分別將本文提出的模型與標(biāo)準(zhǔn)LDA模型和RSM模型進(jìn)行了比較,在多標(biāo)記數(shù)據(jù)集enron和bibtex下,模型perp lexity的測試結(jié)果如圖3~圖6所示。
圖3 PerPlexity隨共享隱含單元數(shù)增加的變化情況1
圖4 PerPlexity隨共享隱含單元數(shù)增加的變化情況2
圖5 PerPlexity隨共享隱含單元數(shù)增加的變化情況3
圖6 PerPlexity隨共享隱含單元數(shù)增加的變化情況4
圖3 表示在enron數(shù)據(jù)集下每個標(biāo)記對應(yīng)1個獨享隱含單元時,perplexity隨著共享隱含單元數(shù)增加的變化情況。圖4表示在enron數(shù)據(jù)集下每個標(biāo)記對應(yīng)2個獨享隱含單元時,perplexity隨著共享隱含單元數(shù)增加的變化情況。圖5、圖6分別表示在bibtex數(shù)據(jù)下,每個標(biāo)記對應(yīng)的獨享隱含單元數(shù)為1,2時,perplexity隨共享隱含單元數(shù)增加的變化情況。在上述實驗中,LDA的主題數(shù)和RSM隱含單元數(shù)均設(shè)置為SSRSM模型獨享單元數(shù)與共享單元數(shù)的總數(shù)。在實驗過程中,分別取90%數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為驗證集。可以看出,本文提出的模型在獨享隱含單元(或主題)數(shù)確定的情況下,隨著共享主題數(shù)的增加,模型的perplexity呈下降趨勢,并且當(dāng)共享隱含單元數(shù)增加到一定量時,SSRSM的perp lexity的值要明顯小于RSM和LDA模型。因此,可以說明本文提出的SSRSM模型具有優(yōu)于標(biāo)準(zhǔn)LDA模型和RSM模型的主題提取能力。
4.2 測試結(jié)果
模型特征提取能力判定的另一個標(biāo)準(zhǔn)是將學(xué)習(xí)到的特征應(yīng)用于監(jiān)督學(xué)習(xí)中。本文實驗過程中將SSRSM模型獲得的特征應(yīng)用于MLKNN[21]模型多標(biāo)記判別任務(wù)中,并與RSM模型進(jìn)行了比較。實驗中使用10折交叉驗證,測試結(jié)果如表1、表2所示。
表1 RSM提取特征的測試結(jié)果
表2 SSRSM提取特征的測試結(jié)果
可以看出本文提出SSRSM模型提取的特征在分類任務(wù)中具有明顯優(yōu)于RSM的性能,尤其是在模型召回率、模型準(zhǔn)確率、平均精度、覆蓋率、錯誤率、排名丟失率、微平均F值判別標(biāo)準(zhǔn)下,文檔多標(biāo)記判別的準(zhǔn)確性要明顯高于RSM模型。而在其他判定標(biāo)準(zhǔn)下,雖然SSRSM模型的優(yōu)點并不明顯,但仍然高于RSM模型。
本文通過對分布式主題特征提取和RSM模型的研究,結(jié)合概率主題模型監(jiān)督學(xué)習(xí)實現(xiàn)方法,提出一種半監(jiān)督的RSM模型,并且通過實驗驗證了該模型具有優(yōu)于LDA模型和RSM模型的主題特征提取能力。近年來基于RBM的深度結(jié)構(gòu)模型[22]被廣泛應(yīng)用于圖像識別、自然語言處理等任務(wù)中,并取得了良好的效果。
本文提出的SSRSM模型也可以作為深結(jié)構(gòu)的構(gòu)件,從而實現(xiàn)一種新的深入學(xué)習(xí)模型,進(jìn)一步提升模型性能。
[1] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(3):993-1022.
[2] Wei Xing,CroftW B.LDA-based Docum ent Models for Ad-hoc Retrieval[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM Press,2006:178-185.
[3] Teh Y W,Newman D,Welling M.A Collapsed Variational Bayesian Inference Algorithm for Latent Dirichlet Allocation[M].Cambridge,USA:M IT Press,2006.
[4] Elman J L.Distributed Representations,Sim ple Recurrent Networks,and Grammatical Structure[J].Machine Learning,1991,7(2/3):195-225.
[5] Ackley D H,Hinton G E,Sejnowski T J.A Learning Algorithm for Boltzmann Machines[J].Cognitive Science,1985,9(1):147-169.
[6] Tielem an T.Training Restricted Boltzmann Machines Using Approximations to the Likelihood Gradient[C]// Proceedings of the 25th International Conference on Machine Learning.New York,USA:ACM Press,2008:1064-1071.
[7] Freund Y,Haussler D.Unsupervised Learning of Distributions on Binary Vectors Using Two Layer Networks[J]. Neural Computation,2002,14(8):1711-1800.
[8] Hinton G E.Products of Experts[C]//Proceedings of the 9th International Conference on Artificial Neural Networks. Washington D.C.,USA:IEEE Press,1999:1-6.
[9] Younes L.On the Convergence of Markovian Stochastic Algorithms with Rapidly Decreasing Ergodicity Rates[J]. International Journal of Probability and Stochastic Processes,1999,65(3/4):177-228.
[10] Boureau Y,Cun Y L.Sparse Feature Learning for Deep Belief Networks[D].New York,USA:New York University,2007.
[11] Gehler P V,Holub A D,Welling M.The Rate Adapting Poisson Model for Information Retrieval and Object Recognition[C]//Proceedings of the 23rd International Conference on Machine Learning.New York,USA:ACM Press,2006:337-344.
[12] Xing E P,Yan Rong,Hauptmann A G.M ining Associated Text and Images with Dual-w ing Harmoniums[C]// Proceedings of the 21st Conference on Uncertainty in Artificial Intelligence.Berlin,Germany:Springer,2005:633-641.
[13] Salakhutdinov R,Hinton G.Sem antic Hashing[C]// Proceedings of SIGIR Workshop on Information Retrieval and Applications of Graphical Model.Berlin,Germany:Springer,2007.
[14] Hinton G E,Salakhutdinov R.Replicated Softmax:An Undirected Topic Model[C]//Proceedings of Conference on Neural Information Processing Systems.Berlin,Germany:Springer,2009:1607-1614.
[15] Srivastava N,Salakhutdinov R R,Hinton G E.Modeling Documents with Deep Boltzmann Machines[Z].2013.
[16] Salakhutdinov R,Mnih A,Hinton G.Restricted Boltzmann Machines for Collaborative Filtering[C]//Proceedings of the 24th International Conference on Machine Learning. New York,USA:ACM Press,2007:791-798.
[17] 江雨燕,李 平,王 清.用于多標(biāo)簽分類的改進(jìn)Labeled LDA模型[J].南京大學(xué)學(xué)報:自然科學(xué)版,2013,49(4):425-432.
[18] 江雨燕,李 平,王 清.基于共享背景主題的Labeled LDA模型[J].電子學(xué)報,2013,41(9):1794-1799.
[19] Casella G,George E I.Explaining the Gibbs Sam-pler[J]. The American Statistician,1992,46(3):167-174.
[20] Neal R M.Annealed Importance Sampling[J].Statistics and Computing,2001,11(2):125-139.
[21] Zhang M inling,Zhou Zhihua.M L-KNN:A Lazy Learning Approach to Multi-label Learning[J].Pattern Recognition,2007,40(7):2038-2048.
[22] Bengio Y.Learning Deep Architectures for AI[J]. Foundations and Trends in Machine Learning,2009,2(1):1-127.
編輯顧逸斐
A Semi-suPervised RePlicated Softm ax Model
X ING Guozheng,JIANG Yuyan,WU Chao,LIChangxun
(School of Management Science and Engineering,Anhui University of Technology,Maanshan 243002,China)
Recently probabilistic topic models are widely used because of high performance of dimension reduction and topic features mining.However,topic models are built based on directed graph model which limits the performance of data representation.This paper based on the studies on distributed feature representation and Replicated Softmax Model(RSM)which is based on the Restricted Bolzmann Machine(RBM)proposes a Semi Supervised Replicated Softmax Model(SSRSM).Experimental results show that the SSRSM outperforms LDA and RSM in task of topics extraction.In addition,by using the features learned by SSRSM and RSM in task of multi-label classification,it is shown that SSRSM has a better performance of multi-label learning than RSM.
topic model;undirected graph model;Rep licated Softmax Model(RSM);sem i-supervised model;feature learning
邢國正,江雨燕,吳 超,等.一種半監(jiān)督重復(fù)軟最大化模型[J].計算機(jī)工程,2015,41(9):209-214.
英文引用格式:Xing Guozheng,Jiang Yuyan,W u Chao,et al.A Sem i-supervised Replicated Softmax Model[J]. Computer Engineering,2015,41(9):209-214.
1000-3428(2015)09-0209-06
A
TP311
10.3969/j.issn.1000-3428.2015.09.039
國家自然科學(xué)基金資助項目(71172219);國家科技型中小企業(yè)創(chuàng)新基金資助項目(11C26213402013)。
邢國正(1977-),男,講師,主研方向:機(jī)器學(xué)習(xí);江雨燕,教授;吳 超、李常訓(xùn),碩士研究生。
2015-01-15
2015-02-16 E-m ail:xgztt@ahut.edu.cn