張 健, 丁世飛,3, 張 楠, 杜 鵬, 杜 威, 于文家
1(中國礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116)
2(礦山數(shù)字化教育部工程研究中心,江蘇 徐州 221116)
3(中國科學(xué)院 計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190)
RBMs、基于 RBMs的拓展模型及其應(yīng)用是本文綜述的重點(diǎn).從目標(biāo)函數(shù)的角度來看,在基于極大似然估計(jì)的RBMs中需要計(jì)算由配分函數(shù)產(chǎn)生的模型期望,而配分函數(shù)的計(jì)算需要對所有節(jié)點(diǎn)的狀態(tài)求和,其計(jì)算復(fù)雜度極高,因此,基于極大似然估計(jì)的精確計(jì)算是不可行的.在基于近似計(jì)算的訓(xùn)練方法中,大致可分為采樣算法和變分推斷(variational inference)兩種[15,16].采樣算法的基礎(chǔ)是馬爾可夫鏈,其目標(biāo)是極大化似然函數(shù)(極小化KL散度),幾種比較有效的采樣方法為:持續(xù)的馬爾可夫鏈(persistent Markov chain)[17]、對比散度(contrastive divergence,簡稱CD)算法[15]、持續(xù)的對比散度(persistent contrastive divergence,簡稱PCD)算法[18]以及基于快速權(quán)值的PCD(fast persistent contrastive divergence with,簡稱FPCD)算法[19]等.為了促進(jìn)馬爾可夫鏈?zhǔn)諗?模擬退火和模擬回火算法被應(yīng)用于采樣中[20-23].當(dāng)可見層單元的激活不再條件獨(dú)立時(shí),可以使用混合的蒙特卡羅算法替代吉布斯采樣.RBMs另一種有效的訓(xùn)練算法是變分推斷,在變分推斷中,假設(shè)存在一個(gè)近似分布q,其目標(biāo)是最小化RBMs聯(lián)合概率分布和近似的后驗(yàn)分布q之間的KL散度,常用的變分推斷方法有平均場算法(mean-field method)等[24].另一種思路是修改 RBMs模型訓(xùn)練的目標(biāo)函數(shù),極大似然估計(jì)等價(jià)于最小化模型分布和數(shù)據(jù)分布之間的KL散度,KL散度是f散度的一種特殊形式,可以有效地縮小兩個(gè)分布之間存在的較大差異,但是當(dāng)兩個(gè)分布之間的差異較小時(shí),KL散度存在過度平滑的問題.因此,針對RBMs的目標(biāo)函數(shù)的改進(jìn),一種思路是使用Wasserstein距離來替代KL散度[25],另一種思路是在原有的似然函數(shù)基礎(chǔ)上引入對抗損失[26].
傳統(tǒng)的RBMs的節(jié)點(diǎn)狀態(tài)是二值的,適合處理二值化的數(shù)據(jù).對于實(shí)值的輸入樣本,如自然圖像和語音,二值RBMs表現(xiàn)比較差.為了解決這個(gè)問題,在RBMs的基礎(chǔ)上,學(xué)者們提出了多種適用于實(shí)值數(shù)據(jù)的RBMs模型,包括高斯-二值 RBMs(mRBMs)[27,28]、協(xié)方差 RBMs(cRBMs)[29]、期望-協(xié)方差 RBMs(mcRBMs)[30]、ReLu-RBMs以及spike-and-slab RBMs(ssRBMs)等[31-35].以RBM為基礎(chǔ),組合變分自動(dòng)編碼器(variational autoencoders,簡稱VAEs)[36],將RBMs作為VAEs的先驗(yàn),可以有效地?cái)M合數(shù)據(jù)中存在的多峰分布.以RBMs為基礎(chǔ)的無向圖模型在圖像識別、圖像分割、降噪、視頻處理以及圖像生成領(lǐng)域都有廣泛的應(yīng)用.下面,本文針對上述內(nèi)容詳細(xì)介紹相關(guān)模型以及算法.最后,本文討論了RBMs算法存在的問題.
其中,a和b是RBMs的偏置,v表示可見層向量,h表示隱藏層向量,W是權(quán)值矩陣,基于能量函數(shù)E(v,h),聯(lián)合分布可以表示為P(v,h)=Z-1exp(-E(v,h)),可見層單元和隱藏層單元的激活函數(shù)可以表示如下:
其中,k是向量的第k個(gè)分量,NV是可見層向量的維度,NH是隱藏層向量的維度,RBMs的拓?fù)浣Y(jié)構(gòu)可以表示為圖1右圖的形式.
將公式(4)表示為期望的形式,可以得到:
如公式(5)所示,等式右邊的第1項(xiàng)稱為模型期望,第2項(xiàng)稱為數(shù)據(jù)期望,兩個(gè)期望的差值決定了似然函數(shù)關(guān)于參數(shù)的梯度.直觀上看,數(shù)據(jù)期望給出了參數(shù)迭代的起始條件,模型期望提供了迭代的終止條件,隨迭代進(jìn)行,數(shù)據(jù)期望和模型期望逐漸接近,RBMs的訓(xùn)練隨迭代趨于穩(wěn)定,此時(shí),RBMs模型建模了輸入樣本的分布特性.然而在大樣本下,精確地計(jì)算這兩個(gè)期望是非常困難的,尤其是模型期望.因此,為了降低 RBMs訓(xùn)練的復(fù)雜度,需要對似然函數(shù)的梯度做近似,3種不同思路的近似策略可以表示如下.
(1) 首先從似然函數(shù)梯度的角度出發(fā),嘗試使用采樣策略,近似似然函數(shù)梯度中的兩個(gè)期望.采樣策略基于馬爾可夫鏈蒙特卡洛方法.采樣過程可以看作一個(gè)馬爾可夫鏈的狀態(tài)轉(zhuǎn)移過程,簡單來說,當(dāng)馬爾可夫鏈趨于穩(wěn)定時(shí),采樣得到的樣本就可以代表該分布下的期望值.基于這種思想,Persistent Markov Chain方法被引入到RBMs的訓(xùn)練中,并用于近似計(jì)算似然函數(shù)的梯度.然而,這種方法的弊端在于,我們很難判斷馬爾可夫鏈何時(shí)達(dá)到收斂,而且從收斂性理論分析的角度看,為了保證馬爾可夫鏈?zhǔn)諗?在訓(xùn)練過程中,RBMs的學(xué)習(xí)速率需小于馬爾可夫鏈的混合率.然而,馬爾可夫鏈的混合速率很難量化,為了保證收斂,訓(xùn)練過程往往使用很小的學(xué)習(xí)率,這在很大程度上影響了RBMs的訓(xùn)練時(shí)間.為了緩解這個(gè)問題,學(xué)者們提出了兩種對應(yīng)的思路.
· 第 1種思路針對馬爾可夫鏈的混合過程,嘗試加速馬爾可夫鏈的收斂.典型的方法為模擬退火和模擬回火,在退火和回火算法的幫助下,馬爾可夫鏈可以在更大的學(xué)習(xí)速率下收斂到穩(wěn)態(tài).然而,算法的計(jì)算復(fù)雜度比較高,很難在大規(guī)模樣本下訓(xùn)練RBMs模型以解決實(shí)際問題,目前,退火回火算法多用于馬爾可夫鏈的評估;
· 另一個(gè)思路嘗試在馬爾可夫鏈的基礎(chǔ)上,對梯度作進(jìn)一步的近似.在迭代中,不要求馬爾可夫鏈達(dá)到穩(wěn)態(tài),而是選擇K次迭代后的KL散度作為學(xué)習(xí)的梯度信號,該算法稱為K步對比散度(K-step contrastive divergence,簡稱CD-K)算法.從梯度下降(上升)的角度看,CD算法雖然在迭代的步長上作了進(jìn)一步的近似,但在似然函數(shù)的梯度方向上,CD算法的偏差很小,而且CD算法弱化了馬爾可夫鏈的收斂條件,RBMs可以使用一個(gè)比較大的學(xué)習(xí)率.在 CD算法的基礎(chǔ)上,為了進(jìn)一步優(yōu)化似然函數(shù)的梯度,PCD算法、FPCD算法相繼提出,這些算法在 CD算法的基礎(chǔ)上,維持?jǐn)?shù)條馬爾可夫鏈,直到RBMs訓(xùn)練結(jié)束,這樣既在一定程度上保證了模型的訓(xùn)練效率,又從理論上保證了算法的收斂性.
(2) 從似然函數(shù)梯度的角度出發(fā),采用變分推斷的思想,通過構(gòu)造變分下界,利用近似后驗(yàn)分布q逼近RBMs的聯(lián)合分布;或者使用變分推斷的方法近似配分函數(shù).根據(jù)這兩種思想,在基于變分推斷的RBMs模型中,大致可以分為基于平均場方法的RBMs模型和基于追蹤配分函數(shù)的RBMs模型.
· 在基于平均場的方法中,似然函數(shù)可以利用琴生不等式或凸對偶原則進(jìn)行近似,通過引入近似分布Q,得到似然函數(shù)的下界.似然函數(shù)的下界可以表示為
由公式(6)可以看出,極大化似然函數(shù)與最小化分布Q和P之間的KL散度是等價(jià)的.此時(shí),極大似然估計(jì)的計(jì)算可以使用EM算法,平均場算法的優(yōu)勢在于:計(jì)算速度相比Gibbs采樣為基礎(chǔ)的采樣算法快得多.然而,平均場算法在逼近模型期望時(shí)效果并不理想,因?yàn)槟P推谕ǔJ嵌嗄B(tài)的(multi-modal),而平均場算法假設(shè)分布是單模態(tài)的.為了緩解這個(gè)問題,有學(xué)者提出將平均場算法用于近似數(shù)據(jù)期望,使用持續(xù)的馬爾可夫鏈來近似模型期望;另外有學(xué)者將平均場算法結(jié)合CD算法;還有學(xué)者在原平均場算法的基礎(chǔ)上,使用二階近似;或者在平均場的基礎(chǔ)上,進(jìn)一步參數(shù)化平均場參數(shù).
· 在基于追蹤配分函數(shù)的 RBMs模型中,RBMs的配分函數(shù)是能量函數(shù)針對所有狀態(tài)的和,可以表示為如下的表達(dá)式:
其中,(x)為指數(shù)形式的能量函數(shù),可以表示為 e-E(x),對于配分函數(shù),可以使用參數(shù)化的變分分布q來近似未積分的能量函數(shù)(x),然后使用q(x)來追蹤配分函數(shù).此方法相比于平均場方法的優(yōu)點(diǎn)在于,可以相對有效地近似多峰分布,缺點(diǎn)是計(jì)算復(fù)雜度較高,需要多次從近似分布q(x)中采樣,并交替更新(x)和q(x)才能取得比較理想的近似效果.
(3) 從目標(biāo)函數(shù)的角度出發(fā),修改RBMs模型訓(xùn)練的目標(biāo)函數(shù),傳統(tǒng)的RBMs模型采用的目標(biāo)函數(shù)都是基于邊緣分布的似然函數(shù),以KL散度的形式表達(dá),但是KL散度的特點(diǎn)導(dǎo)致了RBMs模型訓(xùn)練得到的分布相比于樣本分布來說過于平滑,為了解決這個(gè)問題,學(xué)者們從目標(biāo)函數(shù)入手,改變目標(biāo)函數(shù)的形式,解決KL散度中存在的問題.一種修改的思路是將傳統(tǒng)的KL散度替換為Wasserstein距離,從而使RBMs得到銳利的生成圖像;另一種思路是在原有的似然函數(shù)的基礎(chǔ)上,加入對抗損失,利用對抗生成網(wǎng)絡(luò)(generative adversarial nets,簡稱GANs)的思想來訓(xùn)練RBMs模型,利用對抗損失緩解RBMs模型過度平滑的問題.
2.2.1 對比散度算法
根據(jù)文獻(xiàn)[15],公式(8)的最后一項(xiàng)可以忽略,將 CD算法應(yīng)用到 RBMs模型中,首先在給定輸入向量v(0)時(shí),利用W計(jì)算隱藏層單元的激活概率和激活狀態(tài)h(0),然后基于W計(jì)算v(1)和h(1),得到的(v(1),h(1))作為一步CD算法的狀態(tài)量,似然函數(shù)的梯度估計(jì)可以表示為
CD算法在很大程度上減小了采樣過程的復(fù)雜度,為了直觀表示CD算法的計(jì)算過程,本文將算法的示意圖繪制如圖2所示.
CD算法被廣泛用到RBMs模型的訓(xùn)練中.使用一步CD算法來估計(jì)似然函數(shù)的梯度,可使用一個(gè)較大的學(xué)習(xí)率來訓(xùn)練RBMs模型,然而CD算法是一個(gè)非常粗糙的近似,該算法還可以利用馬爾可夫鏈的思想進(jìn)行優(yōu)化.
2.2.2 PCD算法和FPCD算法
雖然CD算法降低了似然函數(shù)梯度計(jì)算的復(fù)雜度,但是CD算法在迭代步長上作了一個(gè)粗糙的近似,為了更加精確地逼近似然函數(shù)的梯度,并把算法的計(jì)算復(fù)雜度控制在合理的范圍內(nèi),PCD算法和FPCD算法被提了出來,不同于CD算法,PCD算法在訓(xùn)練過程中維持了完整的馬爾可夫鏈,馬爾可夫鏈的數(shù)量等于每一個(gè)mini-batch中的樣本數(shù),馬爾可夫鏈的狀態(tài)轉(zhuǎn)移過程一直維持到訓(xùn)練過程結(jié)束.使用PCD算法在計(jì)算開銷上幾乎與CD算法一致,但是由于維持了完整的馬爾可夫鏈,算法對似然函數(shù)的逼近更加有效.FPCD算法討論了學(xué)習(xí)速率和馬爾可夫鏈混合速率之間的關(guān)系,指出權(quán)值的更新過程加速了馬爾可夫鏈的混合,促進(jìn)馬爾可夫鏈?zhǔn)諗康椒€(wěn)態(tài).因此,FPCD算法引入快速權(quán)值來加速馬爾可夫鏈的收斂.
2.2.3 平均場算法
其中,θ為參數(shù).為了獲得極大似然估計(jì),需要求解似然函數(shù)關(guān)于參數(shù)的梯度:
公式(12)的第 2個(gè)期望依然無法直接計(jì)算,可以繼續(xù)使用平均場方法逼近該期望.然而,用平均場算法直接估計(jì)模型期望是不精確的,原因在第 2.1節(jié)中已經(jīng)給出解釋,為了緩解這個(gè)問題,學(xué)者們在平均場方法的基礎(chǔ)上提出了如下方法.
第1種借助對比散度算法,采用基于對比散度思想的平均場算法;
第2種方法利用平均場來近似數(shù)據(jù)期望,采用Persistent Markov Chains來近似模型期望,該方法與PCD算法有些類似;
第3種思路是在原有的平均場算法的基礎(chǔ)上,通過進(jìn)一步假設(shè)平均場參數(shù)u是服從高斯分布的隨機(jī)變量,引入u的先驗(yàn)分布,從而緩解傳統(tǒng)平均場難以近似多峰分布的問題[37].
第 4種思路是使用二階平均場近似來代替?zhèn)鹘y(tǒng)的一階平均場方法.二階近似也可以在一定程度上增加平均場方法近似多峰分布的能力.
2.2.4 基于追蹤配分函數(shù)的變分推斷法
傳統(tǒng)的變分推斷方法使用變分近似分布q(h|x)來近似后驗(yàn)概率p(h|x),這種方法在 RBMs中被簡化為平均場方法,但是傳統(tǒng)的平均場理論存在難以近似多峰分布的缺點(diǎn),因此,為了能夠更加有效地近似多峰分布,學(xué)者們從變分推斷的角度出發(fā),利用變分推斷的思想近似RBMs模型的配分函數(shù),通過追蹤RBMs的配分函數(shù),達(dá)到近似似然函數(shù)的目的.不同于傳統(tǒng)的變分推斷,變分近似q(x)被用于近似未積分的函數(shù)(x),此時(shí)配分函數(shù)可以寫成如下形式:
將公式代入RBMs模型中,得到如下似然函數(shù)的下界:
其中,a是超參數(shù).該方法雖然能夠有效地利用變分推斷的方法追蹤配分函數(shù),但仍然存在一些問題,在訓(xùn)練過程中,由于需要交替地更新p?(x)和q(x),因此算法的計(jì)算復(fù)雜度較高.
2.2.5 基于Wasserstein距離的RBMs模型和基于對抗損失的RBMs模型
傳統(tǒng)的 RBMs模型是基于似然函數(shù)的,似然函數(shù)定義為可見層單元的邊緣分布形式,優(yōu)化似然函數(shù)等價(jià)于最小化模型分布和數(shù)據(jù)分布之間的KL散度,KL散度是f散度的一種特殊形式,基于f散度的RBMs模型在訓(xùn)練中會(huì)存在過度平滑化的問題,從而忽略了數(shù)據(jù)分布中存在的一些非平滑現(xiàn)象,為了解決這個(gè)問題,學(xué)者們嘗試從RBMs的目標(biāo)函數(shù)入手,創(chuàng)建新的目標(biāo)函數(shù)來優(yōu)化 RBMs模型存在的問題.首先,度量模型分布和數(shù)據(jù)分布之間的距離可以使用更加有效的方式來定義.一種基于該思想的改進(jìn)模型為基于 Wasserstein距離的 RBMs(WRBMs),在WRBMs中,使用Wasserstein距離來度量模型分布和數(shù)據(jù)分布之間的差異,這種形式的目標(biāo)函數(shù)不僅能夠懲罰兩個(gè)分布之間差異較大的部分,也能夠懲罰分布之間較小的差異,緩解 RBMs模型存在的過度平滑化的問題.
另一種針對RBMs目標(biāo)函數(shù)的改進(jìn)是構(gòu)建基于對抗損失的RBMs模型(GAN-RBMs),在GAN-RBMs中,目標(biāo)函數(shù)在似然函數(shù)的基礎(chǔ)上引入對抗損失函數(shù),使用 RBMs作為對抗網(wǎng)絡(luò)的生成器,同時(shí)隱層單元的激活作為對抗生成網(wǎng)絡(luò)的critic函數(shù),用來判別可見層單元的激活是來自于數(shù)據(jù)還是來自于RBMs模型的重構(gòu),基于這種思想,在目標(biāo)函數(shù)中加入對抗損失,可以使RBMs模型有效地?cái)M合數(shù)據(jù)分布中存在的多峰分布.這兩種方法的缺點(diǎn)在于計(jì)算復(fù)雜度較高,而RBMs模型存在的最大問題就是其訓(xùn)練比較困難,進(jìn)一步增強(qiáng)RBMs模型的建模能力并降低RBMs訓(xùn)練算法的復(fù)雜度仍然是研究的重點(diǎn)問題.
2.2.6 不同訓(xùn)練算法的聯(lián)系與比較
從極大似然估計(jì)的角度來看,PCD算法和FPCD算法是CD算法的擴(kuò)展,他們的優(yōu)勢在于,在CD算法的基礎(chǔ)上,維持了完整的馬爾可夫鏈來近似模型的分布,相比于CD算法,PCD算法和FPCD算法在付出較少的額外計(jì)算開銷的前提下,可以使用較大的學(xué)習(xí)率、更加精確的逼近似然函數(shù)的梯度.平均場算法與這 3種算法不同,是基于變分推斷的近似方法,算法不需要采樣過程,因此速度更快,但是,由于存在更強(qiáng)的獨(dú)立性假設(shè),算法在近似模型期望的時(shí)候效果不好.一般而言,平均場方法比較適合近似數(shù)據(jù)期望,而采樣方法比較適合近似模型期望.在DBMs的訓(xùn)練中,就使用平均場方法和Persistent Markov Chain分別來逼近數(shù)據(jù)期望和模型期望.無論是變分近似還是采樣算法,都是為了近似模型分布以及模型分布下的期望而提出的方法,模型期望源于配分函數(shù),因此,在2017年,有學(xué)者提出了基于變分方法的近似算法來直接逼近配分函數(shù),這就是第2.2.4節(jié)的內(nèi)容.直接構(gòu)建變分邊界從而逼近配分函數(shù)的優(yōu)勢在于可以獲得更有效的極大似然估計(jì).缺點(diǎn)是,相對于CD以及PCD算法,該方法的計(jì)算復(fù)雜度更高,需要更多的訓(xùn)練時(shí)間.以上的方法都是基于極大似然估計(jì)的,對于RBMs而言,極大似然估計(jì)等價(jià)于最小化數(shù)據(jù)分布和模型分布之間的KL散度,但是,KL散度是不對稱的,最小化數(shù)據(jù)分布和模型分布之間的KL散度,在一定程度上會(huì)使模型分布和數(shù)據(jù)分布之間的KL散度增大,這會(huì)導(dǎo)致RBMs模型產(chǎn)生的模型分布過度平滑(over-smoothing),為了解決這個(gè)問題,有學(xué)者將對抗損失引入到 RBMs模型中,構(gòu)建了(Boltzmann embedded adversary machines,簡稱BEAMs)模型,從另一個(gè)角度上看,將KL散度替換為其他的距離度量方式,也可以改善RBMs模型分布過度平滑的問題,基于這個(gè)思路,Wassertein距離被引入到RBMs中,這就是第2.2.5節(jié)的內(nèi)容.為了更加直觀地對比各種算法在近似 log似然時(shí)的精度,參照 FPCD算法中的實(shí)驗(yàn),我們列舉了如下的對比結(jié)果.
由于Wasserstein RBMs采用的loss形式不同,因此未加入對比圖.由圖3可知,雖然基于變分方法的VRBM訓(xùn)練耗時(shí)較長,但是對于測試數(shù)據(jù)集上的log似然指標(biāo),VRBM表現(xiàn)較優(yōu).
傳統(tǒng)的RBMs的單元有兩種狀態(tài):0或1,這種形式的激活單元適合處理二進(jìn)制數(shù)據(jù),最初的RBMs也被稱為二值RBMs(binary-RBMs).雖然二值的RBMs在MNIST等二值化數(shù)據(jù)集上的分類和特征提取都取得了令人滿意的效果,RBMs也被用來構(gòu)建深度模型,成為深度神經(jīng)網(wǎng)絡(luò)的重要組成部分,但是對于實(shí)值圖像的建模,二值的RBMs表現(xiàn)得并不理想,因?yàn)樵谳斎霐?shù)據(jù)的二值化過程中,一些重要信息將會(huì)丟失.因此,如何調(diào)整 RBMs模型,使其更適合建模實(shí)值數(shù)據(jù),是RBMs研究的另一個(gè)重點(diǎn)問題.
2.3.1 指數(shù)族RBMs
從概率圖的角度看,RBMs是一種無向圖模型,其中,每一層單元的激活是條件獨(dú)立的,傳統(tǒng)的二值RBMs模型可以看作指數(shù)族 RBMs(Exp-RBMs)的特例,在 Exp-RBMs中,激活概率可以利用 Bregman Divergence表示如下:
其中,ηj是單元hj的輸入,ui是單元vi的輸入,g是基礎(chǔ)統(tǒng)計(jì)量(base measure),Df是激活函數(shù)f的 Bregman Divergence,可以表示為Df(ηj||hj)=-ηjhj+F(ηj)+F*(hj),F為f的積分函數(shù),有:dF(ηj)/dη=f(ηj),F*是f反函數(shù)f-1的積分函數(shù).假設(shè)基礎(chǔ)統(tǒng)計(jì)量為常量.即g(hi)=c,那么,分布函數(shù)P(hj||ηj)可以使用高斯分布來近似:
基于公式(19),我們可以看出,不同形式的激活函數(shù)將產(chǎn)生不同形式的高斯近似.并且,根據(jù)激活函數(shù)及其積分函數(shù),Exp-RBMs的能量函數(shù)可以表示為
表1列舉了不同形式的激活單元和Exp-RBMs中高斯近似分布之間的對應(yīng)關(guān)系.
Table 1 The Gaussian approximation of different activation functions[8]表1 不同形式的單元和高斯近似之間的對應(yīng)關(guān)系表[8]
在Exp-RBMs中,給定與節(jié)點(diǎn)i直接相連的所有節(jié)點(diǎn)時(shí),節(jié)點(diǎn)i與本層內(nèi)的其他節(jié)點(diǎn)是條件獨(dú)立的.對于不同的激活函數(shù),利用Exp-RBMs可以得到不同的條件高斯分布.然而,Exp-RBMs同樣也存在一些問題:雖然條件高斯分布是實(shí)值化的,但是可見層單元的激活是條件獨(dú)立的,在獨(dú)立性假設(shè)下,Exp-RBMs不能表達(dá)可見層節(jié)點(diǎn)之間的相關(guān)性,而這種相關(guān)性在一些實(shí)際問題中非常關(guān)鍵.接下來,本文將綜述一些實(shí)值RBMs模型,這些模型嘗試?yán)脳l件高斯分布建模可見層單元的激活概率和相關(guān)關(guān)系.
2.3.2 其他形式的實(shí)值RBMs
為了建模實(shí)值的輸入數(shù)據(jù),學(xué)者們嘗試使用實(shí)值單元替換 RBMs中的二值單元.基于這一思想,高斯 RBMs(mRBMs)提出.假設(shè)給定隱藏層節(jié)點(diǎn)時(shí),可見層單元的激活服從條件高斯分布,mRBMs利用網(wǎng)絡(luò)中的權(quán)值和偏置參數(shù)化條件高斯分布的期望,并假設(shè)協(xié)方差是一個(gè)超參數(shù)的對角矩陣,此時(shí) mRBMs的能量函數(shù)可以表示如下:
其中,σ是協(xié)方差,a,b是偏置,激活函數(shù)可以表示為如下形式:
由于 mRBMs的協(xié)方差矩陣是一個(gè)對角矩陣,已知隱藏層節(jié)點(diǎn)的狀態(tài)時(shí),可見層單元的激活是條件獨(dú)立的.從 Exp-RBMs的角度看,mRBMs是一種特殊形式的 Exp-RBMs,尤其是當(dāng)激活函數(shù)為 ReLU或 Softplus時(shí),Exp-RBMs中可見層和隱藏層單元都是實(shí)值化的[38,39].然而,很多實(shí)值數(shù)據(jù)之間是存在相關(guān)性的,例如自然圖像,圖像的像素點(diǎn)之間是相關(guān)的,而忽略這種相關(guān)性的mRBMs和Exp-RBMs都不能很好地建模實(shí)值圖像數(shù)據(jù).針對這個(gè)問題,學(xué)者們提出了一類新的RBMs模型:協(xié)方差RBMs(cRBMs)和(spike-and-slab RBMs,簡稱ssRBMs).在cRBMs中,可見層單元服從條件高斯分布,不同于mRBMs,cRBMs在隱藏層h引入附加因子f用于建模條件高斯分布非對角的協(xié)方差矩陣,其能量函數(shù)可以表示如下:
其中,F是附加因子的數(shù)量,C=(Cif)∈RD×F是可見層單元和因子f之間的權(quán)值矩陣,P=(Pif)∈RJ×F是隱藏層單元和因子之間的權(quán)值矩陣,激活概率可以表示如下:
由于可見層單元的激活函數(shù)具有非對角的協(xié)方差矩陣,分塊的Gibbs采樣不適用于采樣可見層單元的狀態(tài)值.因此,基于自由能的混合蒙特卡羅算法(hybrid Monte Carlo,簡稱 HMC)被引入到可見層單元的采樣過程中,cRBMs的自由能可以表示如下:
在cRBMs中,激活函數(shù)與自由能成F(v)反比:P(v)∝exp(-F(v)),其中,協(xié)方差被參數(shù)化.然而,高斯分布的期望在建模圖像的過程中也是非常重要的,為了同時(shí)參數(shù)化條件高斯分布的期望和協(xié)方差,并且降低采樣過程的計(jì)算復(fù)雜度,ssRBMs被提了出來,ssRBMs的能量函數(shù)可以表示如下:
其中,Wj是權(quán)值矩陣的第j列,α和Λ是對角矩陣,ssRBMs的條件激活概率可以表示如下:
在 RBMs模型的基礎(chǔ)上,稀疏編碼也可以被拓展到 ssRBMs中.表 2顯示了 ssRBMs與其他 RBMs算法(mRBMs、cRBMs、mcRBMs)在分類上的對比結(jié)果.
Table 2 The classification accuracies of RBM models表2 mRBMs、cRBMs、mcRBMs、ssRBMs在CIFAR-10上的分類精度
RBMs有許多針對特定問題的模型變體,例如:Mixed-variate RBMs[40,41]、Cumulative RBMs[42]、Thurstonian RBMs[43]、correspondence RBMs[44]、Relevance RBMs[45].為了處理異構(gòu)數(shù)據(jù),Tran等人提出了 Mixed-variate RBMs模型建模變量,在此基礎(chǔ)上,Tran等人針對向量和矩陣數(shù)據(jù)類型,提出了Cumulative RBMs;在跨模態(tài)任務(wù)中,Feng等人提出correspondence RBMs模型,Zhao等人提出Relevance RBMs來處理圖像視頻中的分類問題.與此同時(shí),許多學(xué)者針對 RBMs的模型結(jié)構(gòu)和能量函數(shù)做出了一些針對性的調(diào)整,例如:Discriminative RBMs[46]、Boosted Categorical RBMs[47]、Fuzzy RBMs[48].其中,Larochelle和 Bengio將決策成分(discriminative component)引入到RBMs模型中,并提出了Discriminative RBMs模型.針對不平衡數(shù)據(jù)問題,Lee和Yoon在CD算法的基礎(chǔ)上提出了Boost CD算法.Chen等人提出了Fuzzy RBMs以提高RBMs的魯棒性.
2.3.3 實(shí)值RBMs之間的聯(lián)系和區(qū)別
首先需要指明的是,高斯-二值RBMs(mRBMs)是早期對RBMs的擴(kuò)展,其計(jì)算復(fù)雜度與RBMs相當(dāng),是最常用的實(shí)值RBMs模型,但是由于其建模實(shí)值圖像的效果不佳,后期學(xué)者們以條件高斯分布為基礎(chǔ),相繼擴(kuò)展出了cRBMs、mcRBMs、ssRBMs等模型,這些模型的產(chǎn)生與發(fā)展關(guān)系可如圖4所示.
具體來說,在RBMs剛提出的時(shí)候,模型僅適合處理二值數(shù)據(jù),這在很大程度上限制了RBMs模型的使用和推廣,為了緩解這個(gè)問題,學(xué)者們開始研究如何將 RBMs模型應(yīng)用到實(shí)值數(shù)據(jù)中.最初,Hinton等人提出,使用RBMs中節(jié)點(diǎn)的激活概率來表示節(jié)點(diǎn)狀態(tài),這樣,RBMs可以表示區(qū)間[0,1]之間的數(shù)據(jù),但是使用這種近似方法取得的效果并不理想.為了解決這個(gè)問題,mRBMs提出,該模型假設(shè) RBMs的可見層節(jié)點(diǎn)在給定隱層節(jié)點(diǎn)的時(shí)候相互獨(dú)立并服從高斯分布,通過建模高斯分布的期望來建模條件概率分布.mRBMs是 RBMs模型的直接擴(kuò)展,是早期最有效的處理實(shí)值數(shù)據(jù)的RBMs模型,其計(jì)算復(fù)雜度不高,至今仍在被廣泛地使用在簡單的圖像識別問題中.然而,mRBMs假設(shè)可見層單元是條件獨(dú)立的,把基于這種假設(shè)構(gòu)建的后驗(yàn)概率應(yīng)用到 Gibbs采樣中,會(huì)導(dǎo)致采樣的模型分布也隱含了條件獨(dú)立性,從而影響了RBMs建模實(shí)值數(shù)據(jù)的效果,尤其是實(shí)值圖像,因?yàn)閳D像像素點(diǎn)之間往往是存在一定相關(guān)性的,因此,mRBMs建模實(shí)值數(shù)據(jù)的能力還存在提升的空間.在此基礎(chǔ)上,為了建模條件高斯分布的協(xié)方差,cRBMs和ssRBMs被提出.在cRBMs的基礎(chǔ)上,mcRBMs被提出,mcRBMs用于同時(shí)建模條件高斯分布的期望和協(xié)方差.然而,cRBMs和mcRBMs訓(xùn)練存在的問題是,需要使用混合蒙特卡洛采樣來計(jì)算可見層單元的激活概率.為了能使用分塊的Gibbs采樣,ssRBMs及其改進(jìn)模型引入了額外的因子,從而構(gòu)建基于對角矩陣的高斯分布.然而,目前主流的實(shí)值RBMs及其訓(xùn)練算法也存在一定的不足.對于無向圖模型,由于需要計(jì)算由配分函數(shù)產(chǎn)生的模型期望,因此精確的計(jì)算是不可行的,目前的算法都是以使用不同的近似方法來逼近模型期望的梯度.本節(jié)涉及的實(shí)值RBM模型都是基于采樣算法的,采樣算法的一個(gè)問題是需要維持馬爾可夫鏈,并且計(jì)算復(fù)雜度較高.如何高效地近似 RBM 中的模型期望,一直以來是研究的難點(diǎn)問題.并且,擴(kuò)展RBM的層數(shù)也是目前研究的熱點(diǎn)問題.目前學(xué)者們研究的主流方向一方面是結(jié)合RBMs和其他模型已完成分類或圖像生成等任務(wù),另一方面,學(xué)者們也在研究如何更加有效地訓(xùn)練RBMs模型.
20世紀(jì)80年代,Hinton和LeCun等學(xué)者提出了反向傳播算法(BP)用來訓(xùn)練多層神經(jīng)網(wǎng)絡(luò).基于梯度下降的思想(gradient descent),BP算法是一種求目標(biāo)函數(shù)梯度的訓(xùn)練算法,參數(shù)的更新與誤差函數(shù)關(guān)于參數(shù)的梯度相關(guān):θi←θi-1-?θLoss,根據(jù)鏈?zhǔn)椒▌t,BP算法在計(jì)算多層網(wǎng)絡(luò)每一層的梯度?θLoss時(shí)是高效的,但是,基于BP算法的神經(jīng)網(wǎng)絡(luò)存在一些問題.反向傳播算法是通過隨機(jī)梯度下降的思想來計(jì)算的,這是一個(gè)高度非凸問題,并且非常依靠微調(diào)和經(jīng)驗(yàn),且反向傳播算法受限于局部最優(yōu)、過擬合等問題,只能訓(xùn)練淺層網(wǎng)絡(luò).為了解決多層網(wǎng)絡(luò)的訓(xùn)練問題,有學(xué)者從神經(jīng)網(wǎng)絡(luò)的誤差曲面和局部最優(yōu)解的角度分析,利用正則化等手段,改變神經(jīng)網(wǎng)絡(luò)的初始化權(quán)值在誤差曲面上生成的位置,從而使多層神經(jīng)網(wǎng)絡(luò)更容易收斂到較好的局部最優(yōu)解.為了使神經(jīng)網(wǎng)絡(luò)得到一個(gè)較好的初始權(quán)值,基于 Boltzmann分布和馬爾可夫隨機(jī)場理論的玻爾茲曼機(jī)被提了出來.玻爾茲曼機(jī)利用能量函數(shù)來描述神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)特征.而神經(jīng)網(wǎng)絡(luò)可以被描述為一種特殊形式的玻爾茲曼機(jī):RBMs.通過RBMs模型,神經(jīng)網(wǎng)絡(luò)可以在統(tǒng)計(jì)力學(xué)上獲得解釋,基于RBMs的深度置信網(wǎng)(deep belief nets,簡稱DBNs),利用逐層預(yù)訓(xùn)練的貪婪算法,成功地訓(xùn)練了多層的神經(jīng)網(wǎng)絡(luò).隨后,深度學(xué)習(xí)的概念逐漸出現(xiàn)在公眾視野中.可以說,RBMs是深度學(xué)習(xí)的先驅(qū).在普通的前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,簡單的堆疊 RBMs模型可以產(chǎn)生兩種不同的深度結(jié)構(gòu):DBNs和DBMs,結(jié)合卷積網(wǎng)絡(luò)結(jié)構(gòu),卷積深度置信網(wǎng)(convolutional neural networks,簡稱CNNs)在處理圖像數(shù)據(jù)時(shí)非常有效[49-55].目前,RBMs模型還被結(jié)合到當(dāng)下常用的變分推斷模型(如變分自編碼器)以及對抗神經(jīng)網(wǎng)絡(luò)中.RBMs和神經(jīng)網(wǎng)絡(luò)的結(jié)合一方面促進(jìn)了傳統(tǒng)多層感知器的訓(xùn)練,使網(wǎng)絡(luò)的層數(shù)得以擴(kuò)展,進(jìn)而開辟了深度學(xué)習(xí)的浪潮.另一方面,由于RBMs的推理是雙向的,將神經(jīng)網(wǎng)絡(luò)和RBMs結(jié)合得到的模型既可以用于判別,也可以用于生成,而生成模型是目前階段深度學(xué)習(xí)研究的另一個(gè)熱點(diǎn).
DBNs是一種混合的圖模型,頂部為無向的關(guān)聯(lián)記憶,余下的層滿足自上而下的生成連接.DBNs可以由RBMs逐層堆疊來創(chuàng)建,逐層貪婪地訓(xùn)練RBMs模型,將前一個(gè)RBM的輸出作為下一個(gè)RBM的輸入,逐層堆疊則得到DBNs.DBNs可以用于初始化神經(jīng)網(wǎng)絡(luò)的權(quán)值,以一個(gè)簡單的3層模型為例,由DBNs建立的聯(lián)合概率分布可以表示如下:
其中,P(h(2),h(3))表示RBMs的聯(lián)合分布,P(v|h(1))和P(h(1)|h(2))為RBMs的條件分布,根據(jù)RBMs的分布函數(shù),有:
其中,b(i)表示第i個(gè)隱藏層的偏置,W(i)表示第i-1層和第i層之間的權(quán)值矩陣,利用逐層訓(xùn)練的方法,可以有效地初始化一個(gè) DBNs模型.DBMs是一種層次化的概率無向圖模型,每一層單元的激活取決于與之直接相連的上下兩層的節(jié)點(diǎn).雖然 DBMs的計(jì)算復(fù)雜度高于 DBNs,但是由于DBMs每一層單元的激活組合了更加抽象的特征,DBMs的圖像生成能力更加出色.以含有2個(gè)隱藏層的DBM模型為例,其能量函數(shù)可以表示如下:
根據(jù)能量函數(shù),DBMs單元的激活概率為
DBNs和DBMs模型都可以看作前饋神經(jīng)的多層神經(jīng)網(wǎng)絡(luò),通常,使用RBMs初始化的DBNs和DBMs是一種無監(jiān)督模型,無監(jiān)督初始化的神經(jīng)網(wǎng)絡(luò)若想完成監(jiān)督學(xué)習(xí)的任務(wù),則必須建立特征與標(biāo)簽之間的映射關(guān)系.基于訓(xùn)練后的DBNs和DBMs,綜合監(jiān)督學(xué)習(xí)的方法,可以完成模式識別任務(wù),常用的監(jiān)督學(xué)習(xí)方法有:
(1) 基于BP算法的權(quán)值微調(diào).
(2) 基于wake-sleep算法的認(rèn)知生成過程.
(3) 基于Class-RBMs和分類器的組合.
第1種方法是目前最主流的監(jiān)督學(xué)習(xí)算法,BP算法基于梯度下降的思想,其中,有一個(gè)相當(dāng)粗糙的梯度下降法取得了巨大的成功:隨機(jī)梯度下降(stochastic gradient descent,簡稱 SGD),在基于監(jiān)督學(xué)習(xí)的深度網(wǎng)絡(luò)(deep neural nets,簡稱DNNs)中,SGD是梯度下降法中最簡單的,然而,SGD算法在訓(xùn)練DNN時(shí)取得了非常好的效果.至于為什么非常粗糙的算法對神經(jīng)網(wǎng)絡(luò)這種復(fù)雜的優(yōu)化問題有效,仍然是一個(gè)有待進(jìn)一步研究的問題.
Wake-sleep算法是一種基于認(rèn)知科學(xué)的算法:在神經(jīng)網(wǎng)絡(luò)中,當(dāng)訓(xùn)練數(shù)據(jù)是自上而下生成的時(shí)候,那么被用于自上而下(top-down)生成圖像的隱藏層單元的狀態(tài)就可以用于訓(xùn)練自下而上(bottom-up)的認(rèn)知權(quán)值(reco-weights)[56].如果我們已經(jīng)獲得了較好的認(rèn)知連接(reco-connections),就可以根據(jù)前一層的活躍度信息重建下一層的活躍度,從而學(xué)習(xí)生成權(quán)值.給定生成權(quán)值(generative weights),算法學(xué)習(xí)得到認(rèn)知權(quán)值(recognition weights);反之,給定認(rèn)知權(quán)值,算法也可以學(xué)習(xí)生成權(quán)值.在清醒階段(“wake” phase),認(rèn)知權(quán)值被用于自下而上驅(qū)動(dòng)神經(jīng)元,相鄰層神經(jīng)元的狀態(tài)被用于訓(xùn)練生成權(quán)值;在睡眠階段(“sleep” pahse),自上而下地生成連接被用于認(rèn)知連接的學(xué)習(xí),從而生成數(shù)據(jù),此時(shí)相鄰層的神經(jīng)元狀態(tài)就可用于學(xué)習(xí)認(rèn)知連接.
第3種方法是基于Class-RBMs以及分類器的監(jiān)督學(xué)習(xí)方法.Class-RBMs是一種基于樣本和標(biāo)簽的RBMs模型,Class-RBMs建模輸入x和標(biāo)簽y之間的聯(lián)合概率分布.其能量函數(shù)可以表示如下:
基于能量函數(shù),激活函數(shù)可以表示為
此時(shí),可以求得關(guān)于標(biāo)簽y和輸入x的條件概率:
其中,F(y,x)為自由能.Class-RBMs建立了輸入數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布,這在一定程度上類似于 BP算法,不同的是,BP算法包含了特征逐層抽象的過程.基于Class-RBMs,在模型堆疊之后直接使用分類器,例如支持向量機(jī)(support vector machines,簡稱SVMs),也可以獲得比較理想的識別效果.
VAEs模型被廣泛地應(yīng)用于半監(jiān)督學(xué)習(xí)和圖像生成中,VAEs是基于貝葉斯原理的有向圖模型,分為編碼器和解碼器兩部分,在傳統(tǒng)的自編碼網(wǎng)絡(luò)中,從X→Z→X′,X表示輸入,Z是自編碼器的隱式表達(dá),X′是解碼表示.這樣的一個(gè)過程實(shí)現(xiàn)了無監(jiān)督表征學(xué)習(xí).可以學(xué)習(xí)到隱式表達(dá)Z.VAEs不同于普通的自編碼網(wǎng)絡(luò),隱式表達(dá)Z是概率分布的形式,模型從邊緣分布P(x)出發(fā),利用KL散度,獲得似然函數(shù)的變分下界.在VAEs中,編碼器和解碼器可以具有不同的形式,其中最常用的形式為神經(jīng)網(wǎng)絡(luò),編碼器和解碼器都由神經(jīng)網(wǎng)絡(luò)組成,其中假設(shè)基于輸入x的條件概率q(z|x)表示編碼器,為了引入變分邊界,似然函數(shù)可以寫為如下形式:
其中,L為似然函數(shù)中剩余的部分,由于KL散度是大于等于0的,因此上述的似然函數(shù)可以進(jìn)一步寫成如下形式:
其中,p(h)是隱層節(jié)點(diǎn)的先驗(yàn)概率,一般情況下,假設(shè)先驗(yàn)概率為簡單的分布形式,例如均值為0、方差為1的標(biāo)準(zhǔn)正態(tài)分布,由這個(gè)正態(tài)分布和概率解碼器來生成數(shù)據(jù)x,但是使用高斯分布來建模輸入數(shù)據(jù)存在一定的不足,對于圖像數(shù)據(jù),深度網(wǎng)絡(luò)在提取特征的過程中其特征是逐步抽象化的,僅使用連續(xù)的隨機(jī)變量來建模圖像會(huì)導(dǎo)致模型分布過度平滑,為了在抽象特征的基礎(chǔ)上實(shí)現(xiàn)特征的離散化組合,基于VAEs和RBMs的混合模型被提了出來,在VAEs的基礎(chǔ)上,使用RBMs作為先驗(yàn)替換傳統(tǒng)的標(biāo)準(zhǔn)正態(tài)分布,多層卷積網(wǎng)絡(luò)的基礎(chǔ)上,使用RBMs建模離散化的高度抽象化的特征,并通過參數(shù)化手段,使用 BP算法訓(xùn)練模型,基于這種方法的圖像生成模型可以得到更加清晰、銳利的生成圖像.
另一種思路是將RBMs和對抗生成網(wǎng)絡(luò)相結(jié)合.GANs是目前非常有效的生成模型,傳統(tǒng)的GANs通過對抗的方式最小化模型分布和數(shù)據(jù)分布之間的JS散度,WGANs在GANs的基礎(chǔ)上進(jìn)行了改進(jìn),最小化模型分布和數(shù)據(jù)分布之間的 Wasserstein距離,但是,WGAN的訓(xùn)練還存在一定的問題,其訓(xùn)練不穩(wěn)定且有隨時(shí)崩潰的風(fēng)險(xiǎn),且 GANs對超參數(shù)非常敏感,往往需要進(jìn)行大量的調(diào)試和人為干預(yù),才能獲得一個(gè)比較好的生成模型,為了獲得比較穩(wěn)定且融合 GANs優(yōu)勢的生成模型,有學(xué)者將對抗的思想引入到 RBMs中,同時(shí)最小化數(shù)據(jù)分布和模型分布之間的forwordKL散度和模型分布與數(shù)據(jù)分布之間的reverseKL散度,綜合自編碼器結(jié)構(gòu),GAN-RBMs可以結(jié)合VAEs或自動(dòng)編碼器模型,組成多層的生成模型.
另一種成功的 DNNs模型是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural nets,簡稱 CNNs),不同于預(yù)訓(xùn)練的機(jī)制,CNNs從網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)上優(yōu)化 DNNs,利用卷積和池化操作,將局部性信息和不變性信息引入到神經(jīng)網(wǎng)絡(luò)中,利用先驗(yàn)信息減少網(wǎng)絡(luò)參數(shù),進(jìn)一步降低了計(jì)算復(fù)雜度.CNNs在自然圖像處理、音頻、視頻等方面取得了很多研究成果.基于結(jié)構(gòu)的特殊性,CNNs的訓(xùn)練參數(shù)比一般的全連接神經(jīng)網(wǎng)絡(luò)的要少得多,為了加速網(wǎng)絡(luò)的訓(xùn)練,并減緩梯度擴(kuò)散現(xiàn)象,CNNs可以使用ReLU作為激活單元,并在GPU上并行訓(xùn)練.目前在工業(yè)界的推廣下,除了各種小的修改(Residual Nets、ReLU、BatchNorm、Adam Optimizer、Dropout、GRU、GAN、LSTMs等)外,神經(jīng)網(wǎng)絡(luò)的主要訓(xùn)練方法又回到30年前的BP算法[57-73].針對圖像處理問題,BP算法將原始的復(fù)雜統(tǒng)計(jì)問題轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)節(jié)問題和網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化問題.這大幅度地降低了 DNNs研究的門檻,吸引了更多的學(xué)者追蹤DNN的相關(guān)研究.同時(shí),GPU的使用提供了訓(xùn)練DNNs的硬件基礎(chǔ).基于GPU的深度學(xué)習(xí)框架,如CAFFE、TensorFlow等,為針對DNNs的程序設(shè)計(jì)提供了方便、有力的支持.目前,許多對DNNs的研究貢獻(xiàn)都集中在神經(jīng)網(wǎng)絡(luò)的梯度流上,如:傳統(tǒng)的網(wǎng)絡(luò)采用 sigmoid函數(shù)作為激活函數(shù),然而 sigmoid函數(shù)是一種飽和函數(shù),這會(huì)導(dǎo)致梯度擴(kuò)散問題,為了緩解這個(gè)問題,線性整流單元(rectified linear unit,簡稱ReLU)以及改進(jìn)的Leaky ReLU被引入到DNNs中;為了強(qiáng)調(diào)梯度和權(quán)值分布的穩(wěn)定性,ELU和SELU激活函數(shù)被引入到DNNs中[62];當(dāng)DNNs的深度過大時(shí),盡管使用了非飽和的激活函數(shù),DNNs的訓(xùn)練還是會(huì)面臨梯度消失的問題,為此,學(xué)者們提出了highway網(wǎng)絡(luò)和ResNets模型[65,66].為了穩(wěn)定參數(shù)的均值和方差,BatchNorm方法被應(yīng)用到DNN的訓(xùn)練中[63].為了緩解過擬合,Dropout方法和Weight uncertainty方法被用于DNNs[67-70].
基于 RBMs,卷積神經(jīng)網(wǎng)絡(luò)可以被用于處理圖像識別和圖像生成任務(wù),Lee等學(xué)者組合卷積網(wǎng)絡(luò)和 RBMs,提出了卷積深度置信網(wǎng)(convolutional deep belief nets,簡稱CDBNs),通過引入卷積和概率最大池化操作,CDBNs實(shí)現(xiàn)了圖像的識別和生成過程.卷積深度置信網(wǎng)的能量函數(shù)可以表示如下:
基于能量函數(shù),CDBNs的條件激活概率可以表示為
目前常用的生成模型包括VAEs和GANs等,常用的判別模型為CNNs等,將RBMs作為預(yù)訓(xùn)練模型應(yīng)用在CNNs中,能夠使CNNs既可以用于圖像識別也可以用于圖像生成,且RBMs可以為CNNs提供更有效的初始化權(quán)值,從而促進(jìn) CNNs收斂到更加優(yōu)秀的局部最優(yōu)解.但是將 RBMs作為預(yù)訓(xùn)練算法也存在一些問題,首先,RBMs作為無監(jiān)督學(xué)習(xí)算法,并不能保證其特征表達(dá)是有利于分類的,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,使用 RBMs作為預(yù)訓(xùn)練對分類精度帶來的提升會(huì)越來越不明顯,且預(yù)訓(xùn)練會(huì)非常耗時(shí).如何改變 RBMs的能量函數(shù)和損失函數(shù),從而使RBMs得到的特征更有利于多層CNNs的分類任務(wù),是RBMs未來研究的一個(gè)重點(diǎn)問題.其次,作為生成模型,雖然RBMs可以有效地與VAEs和GANs結(jié)合,但是作為生成模型本身,RBMs難以擴(kuò)展其深度,由于RBMs的訓(xùn)練需要采用近似算法,其計(jì)算復(fù)雜度很高,同樣深度下,RBMs的訓(xùn)練復(fù)雜度要遠(yuǎn)大于VAEs和GANs.如何改進(jìn)RBMs的訓(xùn)練算法和RBMs的網(wǎng)絡(luò)結(jié)構(gòu),從而擴(kuò)展RBMs的深度,構(gòu)建更加有效的生成模型也是RBMs研究的重點(diǎn)和難點(diǎn).
本文綜述了 RBMs和神經(jīng)網(wǎng)絡(luò)在理論研究和應(yīng)用中的進(jìn)展.在過去十年中,深度學(xué)習(xí)逐漸成為人工智能研究的主流方向,許多學(xué)者致力于該領(lǐng)域,并將概率圖模型應(yīng)用到深度學(xué)習(xí)中.目前已有大量研究結(jié)果證明了RBMs模型的有效性.然而,仍存在一些值得進(jìn)一步研究的問題:RBMs模型的算法理論問題需要進(jìn)一步研究,如緩解RBMs中過擬合的方法、加快RBMs模型的訓(xùn)練以及提高RBMs模型建模實(shí)值數(shù)據(jù)的能力.Carlson等學(xué)者發(fā)現(xiàn),RBMs的目標(biāo)函數(shù)由Shatten-∞范數(shù)限定,并提出了在賦范空間中更新參數(shù)的SSD算法.目前常用的緩解過擬合問題的方法有:權(quán)值衰減、Dropout方法、DropConnect方法和Weight-uncertainty方法等.如何獲得圖像處理中有效的抽象化特征也是RBMs研究的重點(diǎn).已知RBMs的特征表達(dá)可以結(jié)合CRFs應(yīng)用到圖像分割和標(biāo)注中.相反地,CRFs中的圖像分割和標(biāo)記結(jié)果是否也可用于RBMs的特征提取中,以提高特征表達(dá)的能力?這也是我們今后的研究中關(guān)注的問題.目前除了向量神經(jīng)網(wǎng)絡(luò)(capsule nets)的訓(xùn)練方式不同外,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是基于BP算法的,其特征表示和特征學(xué)習(xí)仍然是一種黑箱的形式.這個(gè)問題也為基于梯度的RBMs算法帶來了相同的困擾.如何在RBMs模型中引入新的訓(xùn)練方式也是接下來我們研究的重點(diǎn).