鄒維寶,于昕玉,麥 超
ZOU Weibao1,YU Xinyu1,MAI Chao2
1.長安大學(xué) 地質(zhì)工程與測繪學(xué)院,西安 710054
2.廣西壯族自治區(qū)遙感信息測繪院,南寧 530023
1.School of Geological Engineering and Surveying,Chang’an University,Xi’an 710054,China
2.Guangxi ZhuangAutonomous Region Remote Sensing Information Surveying and Mapping Institute,Nanning 530023,China
人工神經(jīng)網(wǎng)絡(luò)[1-4](Artificial Neural Network,ANN)作為一種運算模型,是通過模仿生物神經(jīng)網(wǎng)絡(luò)的功能和結(jié)構(gòu),由大量的人工神經(jīng)元之間相互連接組成,是實現(xiàn)人工智能的先導(dǎo)性技術(shù)之一。1986年Hinton等人提出了一種反饋式神經(jīng)網(wǎng)絡(luò)模型——玻爾茲曼機(Boltzmann Machine,BM)[5],用來改進(jìn)確定性神經(jīng)網(wǎng)梯度下降法學(xué)習(xí)目標(biāo)特征時容易陷入局部極小點的問題。BM是由隨機神經(jīng)元之間全連接組成的,它采用無監(jiān)督方式學(xué)習(xí),對于特征較復(fù)雜的數(shù)據(jù),該模型具有很好的學(xué)習(xí)能力,但是網(wǎng)絡(luò)訓(xùn)練時間較長。由于BM估計數(shù)據(jù)分布具有困難性,所以Smolensky[6]引入了受限玻爾茲曼機(RBM)。RBM由可見神經(jīng)元層和隱神經(jīng)元層組成,但是層內(nèi)無連接,層間相連接,這一限定使得相比一般玻爾茲曼機更高效的訓(xùn)練算法成為可能,直接計算依賴數(shù)據(jù)的期望值變得容易。自RBM的基本模型被提出以來,尤其是基于CD的快速學(xué)習(xí)算法[7-8]被提出之后,RBM受到了前所未有的關(guān)注,特別是在圖像處理領(lǐng)域。RBM具有強大的無監(jiān)督學(xué)習(xí)能力,能夠從大量的數(shù)據(jù)中學(xué)習(xí)到有用的特征表示,尤其適合提取圖像的特征信息[9]。另一方面,視覺是大腦獲取外界信息的主要來源,視覺系統(tǒng)對所感知的圖像特征以稀疏編碼的形式進(jìn)行描述,這既對繁雜冗余的信息提供了簡單表示,又利于上層傳感神經(jīng)元抽取刺激中最本質(zhì)的特征,因此將稀疏這一概念引入到RBM中,目的是學(xué)習(xí)到更有效的特征信息。由于RBM是基于能量的模型,在RBM中添加稀疏約束符合生物進(jìn)化普遍的能量最小經(jīng)濟策略,能夠?qū)W習(xí)到原始數(shù)據(jù)的稀疏表示,提高其特征提取性能。稀疏RBM可通過模擬人類視覺系統(tǒng)工作原理,表征圖像數(shù)據(jù)的稀疏表示,展現(xiàn)了其強大的特征學(xué)習(xí)的能力,利用RBM獲取稀疏表示已經(jīng)成為模式識別乃至機器學(xué)習(xí)的一個熱點方向。
關(guān)于稀疏RBM的典型算法有基于誤差平方和稀疏懲罰因子的稀疏RBM[10](Sparse Restricted Boltzmann Machine,SRBM)、基于稀疏組的稀疏RBM[11](Sparse Group Restricted Boltzmann Machine,SGRBM)和基于率失真理論的稀疏RBM[12](Sparse-Response RBM,SR-RBM)。因為每個隱單元的激活概率有可能相同也有可能不同,因此SRBM給每個隱單元賦予相同的平均激活概率并非最優(yōu)策略;SGRBM的隱單元分組方式不明確且分組含義模糊,同時該算法無分組依據(jù);SR-RBM無法得到最優(yōu)失真度量。因此,有必要對稀疏RBM進(jìn)行進(jìn)一步的研究。
將Lorentz函數(shù)稀疏約束,已經(jīng)在多個領(lǐng)域得到廣泛的應(yīng)用。例如,邊緣檢測、高分辨率Fourier頻譜估計[13]、視覺稀疏分析、圖像建模以及SAR影像特征增強[14]等方面,將Lorentz函數(shù)作為稀疏約束正則項都有非常好的理論和實踐效果,故在RBM中增加Lorentz函數(shù)稀疏約束以模擬人類視覺信息處理機制,將其作為目標(biāo)特征提取器。
RBM是一種具有雙層結(jié)構(gòu)的無向圖模型[15-16],如圖1所示。V為m維可見層,用于輸入數(shù)據(jù),h為n維隱層,用于提取輸入數(shù)據(jù)的高階相關(guān)特征,均為二值隨機變量,vi,hj∈{0,1},W∈Rm×n為可見層與隱層之間的連接權(quán)重。RBM是一種基于能量理論的概率模型,對于給定的狀態(tài)(v,h),其能量函數(shù)定義為:
式中,θ={W,a,b}為RBM模型的參數(shù),Wij表示可見單元i與隱單元 j之間的連接權(quán)重,ai表示可見單元i的偏置,bj表示隱單元 j的偏置[17]。
圖1 RBM基本結(jié)構(gòu)圖
RBM的狀態(tài)符合正則分布的形式,也就是說,給定狀態(tài)(v,h),可見單元和隱單元的聯(lián)合分布函數(shù)定義為:
其中,Z為歸一化因子。特別的,給定可見單元,隱單元即為獨立的伯努利隨機變量,此時,第 j個隱單元的激活概率為:
式中,σ(x)=1/(1+exp(x))為Sigmoid激活函數(shù);給定隱單元,可見單元也是獨立的伯努利隨機變量,此時,第 j個可見單元的激活概率為:
將RBM稀疏約束,即將稀疏編碼引入到RBM中,獲取輸入數(shù)據(jù)的稀疏表示。從統(tǒng)計學(xué)角度來理解RBM稀疏性,就是要求盡可能少的隱單元被激活,而絕大多數(shù)的隱單元不被激活,即隱單元的激活概率密度函數(shù)的圖像同時具有尖峰性和重尾性的特點。目前,比較常用的稀疏分布是廣義高斯分布,而Cauchy分布同樣具有廣義高斯分布特性,故Cauchy分布可作為稀疏先驗知識[18]。而具有稀疏分布特性的先驗信息,可以使RBM隱單元的激活概率具有稀疏性。
關(guān)于RBM的稀疏先驗,本文提出采用以下形式的Cauchy先驗分布模型:
式中,sh為尺度函數(shù),根據(jù)Bayes定理,結(jié)合公式(4),可得后驗分布為:
那么提高RBM模型稀疏性的最大后驗估計為:
上式等價于以下的最小化問題:
為了使模型學(xué)習(xí)得到稀疏表示,需要調(diào)整{Wij,ai,bj}使得RBM在訓(xùn)練集上的對數(shù)似然函數(shù)最大化,并通過稀疏約束獲得訓(xùn)練集的稀疏分布。因此,由式(11)可得LRBM模型的目標(biāo)函數(shù)為:
目標(biāo)函數(shù)的前一項為似然度項,后一項為正則化項(稀疏約束項),其中參數(shù)λ為正則化參數(shù),反映正則項對于所得到的分布的相對重要性。由上式可見,目標(biāo)函數(shù)在最大化似然度的同時最小化Lorentz稀疏約束函數(shù)。
對于目標(biāo)函數(shù)的求解可以用梯度下降法進(jìn)行求解,但是如果直接使用梯度下降法求解該目標(biāo)函數(shù)中的似然度項,將會大大增加計算復(fù)雜度,是不可行的。因此,本文參考文獻(xiàn)[10],LRBM訓(xùn)練算法主要是使用CD算法求得似然度項的近似梯度,再用梯度下降法解算正則化項。即給定訓(xùn)練數(shù)據(jù),每一次迭代將首先應(yīng)用CD算法更新模型參數(shù)一次,再使用正則化項的梯度值在更新模型參數(shù)一次。由于隱單元偏置直接控制著隱單元的激活概率以及稀疏程度,相對于更新所有參數(shù),本文在使用正則化項的梯度值更新參數(shù)時只更新隱單元偏置bj。其中,正則化項的梯度計算如下:
2006年,Hinton等人首次提出了由多個RBM堆疊而成的深度結(jié)構(gòu)網(wǎng)絡(luò)——深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)。該結(jié)構(gòu)是目前研究和應(yīng)用都比較廣泛的深度學(xué)習(xí)結(jié)構(gòu),其實質(zhì)是通過構(gòu)建具有多個隱層的機器學(xué)習(xí)模型組合低層特征,形成更加抽象的高層來表示屬性類別或特征找到數(shù)據(jù)的主動驅(qū)動力量。其動機在于模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦的信息處理機制來解釋數(shù)據(jù)。深度置信網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其核心思路為:(1)無監(jiān)督學(xué)習(xí)用于每一層RBM;(2)每次用無監(jiān)督學(xué)習(xí)只訓(xùn)練一層,將其訓(xùn)練結(jié)果作為高一層的輸入;(3)用自頂而下的監(jiān)督學(xué)習(xí)算法去調(diào)整所有層。
圖2 深度置信網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)
與DBN由一系列RBM單元組成類似,本文構(gòu)造的稀疏DBN由一系列LRBM單元組成,稱之為LDBN。與DBN的學(xué)習(xí)算法類似,該稀疏DBN的預(yù)訓(xùn)練同樣可以采用無監(jiān)督貪婪逐層訓(xùn)練法逐層訓(xùn)練LRBM方式來實現(xiàn)。即在訓(xùn)練過程中,首先訓(xùn)練底層具有稀疏約束的RBM,然后固定本層的參數(shù),并將本層的隱單元激活概率作為下一層帶有稀疏約束的RBM的輸入,直到最后一層。
模型的特征提取性能、分類率、稀疏性以及強壯性是評價稀疏RBM模型優(yōu)劣的主要技術(shù)指標(biāo),本文接下來將重點以MNIST數(shù)據(jù)集為訓(xùn)練集對LRBM的性能進(jìn)行驗證,為不失一般性,還以CIFAR-10數(shù)據(jù)集為訓(xùn)練集做了一些實驗。由于LRBM是RBM的改進(jìn)模型,而SRBM是最典型的稀疏RBM模型,故本章待比較的模型為RBM模型和SRBM模型。
圖3 MNIST數(shù)據(jù)集部分樣本
MNIST手寫體字符識別數(shù)據(jù)集是目前驗證深度學(xué)習(xí)各種算法最常用的數(shù)據(jù)集之一,該數(shù)據(jù)集包括0~9的10個手寫數(shù)字圖像,還包含每個圖像對應(yīng)的標(biāo)簽(0~9)以便用于有監(jiān)督學(xué)習(xí)的實驗;圖3顯示了MNIST數(shù)據(jù)集的一部分樣本。該數(shù)據(jù)集每個樣本為28×28像素的灰度圖像,包括60 000個訓(xùn)練樣本和10 000個測試樣本。本文從該數(shù)據(jù)集中隨機選取每類2 000個訓(xùn)練樣本作為訓(xùn)練樣本,并將其分成200組各包括100個樣本的小批量數(shù)據(jù),從模型的特征提取性能、分類率、稀疏性以及強壯性四方面對LRBM的性能進(jìn)行檢驗。
(1)模型的分類率
為了證明LRBM模型所學(xué)習(xí)到的稀疏表示具有良好的可判別性,首先訓(xùn)練由兩層模型堆疊而成的深度結(jié)構(gòu)模型,將RBM、SRBM、LRBM分別作為模型的基本組成單元,將第一個基本單元的輸出作為第二個基本單元的輸入,分別對其進(jìn)行訓(xùn)練。其中第一個基本單元的隱單元設(shè)置為484,第二個基本單元的隱單元均設(shè)為196。然后將每一層LRBM以及其對比算法(RBM和SRBM)的輸出作為線性分類器的輸入,以線性分類器所得的分類率評價各無監(jiān)督學(xué)習(xí)算法的可判別性能。在分類階段,本節(jié)將分別隨機選取每類100、500、1 000個樣本作為線性分類器的訓(xùn)練數(shù)據(jù),而剩下的樣本作為線性分類器的測試數(shù)據(jù)。同時,對于每個模型的輸出與每個樣本數(shù)的組合,都重復(fù)訓(xùn)練20個線性分類器,用這20個分類器的分類率的平均值來評價相應(yīng)模型所學(xué)習(xí)到的分布的可判別性。
表1顯示的是SRBM在不同稀疏懲罰因子下(λ均等于2),不同樣本數(shù)的分類率。表2顯示的是給定尺度參數(shù)為0.5的情況下(激活概率為0.5意味著不確定性最大,故設(shè)置正則化函數(shù)在0.5處有最大的梯度),不同正則化參數(shù)下不同樣本數(shù)的分類率。在與RBM模型算法比較以及訓(xùn)練多層結(jié)構(gòu)模型時,均采用SRBM、LRBM分類率最高情況下的參數(shù)。表3顯示的是LRBM與其他無監(jiān)督學(xué)習(xí)模型在不同樣本數(shù)下的分類率。
從表1和表2可以看出,在一定范圍內(nèi)SRBM對懲罰因子 p、LRBM對正則化參數(shù)λ并不敏感,但對比表1和表2可得LRBM的總體表現(xiàn)要好于SRBM。
表1 SRBM在不同稀疏懲罰因子下的不同樣本數(shù)的平均分類率 %
表2 LRBM在不同正則化參數(shù)下的不同樣本數(shù)的平均分類率 %
表3 基于不同樣本數(shù)的各模型的平均分類率 %
從表3可得,LRBM在不同訓(xùn)練樣本數(shù)情況下的平均分類率均優(yōu)于其他無監(jiān)督學(xué)習(xí)模型,尤其是在小樣本分類方面,LRBM的分類率相對于RBM有不小的提升。
從圖4可以看出隨著樣本數(shù)的增加,各模型訓(xùn)練時間也會變長,但是各模型之間相差并不多,即增加正則化稀疏函數(shù)并不會對分類時長造成影響。
圖4 基于不同樣本數(shù)的各模型分類所用時間
本節(jié)還將深度結(jié)構(gòu)模型中第二層的輸出作為線性分類器的輸入,得到模型的平均分類率如表4所示。從表4可以看出,經(jīng)過兩層LRBM模型學(xué)習(xí)所得到的平均分類率依然較RBM、SRBM高,進(jìn)一步表明LRBM所學(xué)習(xí)到的特征具有良好的可判別性;同時本實驗也在一定程度上證明,增加模型的深度可提高模型的可判別能力。
表4 雙層模型第二層輸出的平均分類率%
如圖5為各雙層模型基于不同樣本數(shù)進(jìn)行分類所用的時間。與圖4類似,隨著樣本數(shù)的增加,各模型分類時長也有所增加但各模型之間所用相差不多。不同的是,雙層的無監(jiān)督模型的分類時長較單層模型有所增加。
圖5 基于不同樣本數(shù)的各雙層模型分類所用時間
(2)基于可視化特征提取評價
為了展示模型學(xué)習(xí)到的特征的好壞,對之前所學(xué)習(xí)到的部分特征進(jìn)行可視化。如圖6顯示了各模型學(xué)習(xí)到的部分特征。
從圖6可知,RBM模型學(xué)習(xí)到的大部分特征都是難以名狀的,只有少數(shù)幾個特征稍微具有一定的形狀;而LRBM能夠?qū)W習(xí)到的特征更具清晰的輪廓而不是隨機的難以名狀的構(gòu)造,可以看出這些特征就是訓(xùn)練樣本的局部特征;而LRBM與SRBM相比,兩者可視化差別很小。
圖6 各模型所學(xué)習(xí)到的部分特征
(3)稀疏度的比較
為了度量LRBM的稀疏度,本文采用Hoyer提出的稀疏性度量[19]來衡量RBM、SRBM、LRBM的稀疏度,給定D維向量v,則該向量的稀疏度為:
從上式可知,該稀疏度量在區(qū)間[0,1],稀疏度越接近于1意味著向量v越稀疏(向量v中等于0或者接近0的元素就越多)。如表5顯示了各模型的稀疏度均值。從表5可知,LRBM學(xué)習(xí)到了關(guān)于輸入數(shù)據(jù)的更為稀疏的表示。為了直觀地表示稀疏度,圖7給出同一張訓(xùn)練圖像在各模型中的隱單元激活概率,圖8給出了同一數(shù)據(jù)集在各模型中的得到的激活概率統(tǒng)計直方圖。
表5 各模型的平均稀疏度
由圖7可知,RBM接近于0的激活概率較SRBM和LRBM少得多,而SRBM和LRBM絕大部分隱單元激活概率非常接近于0。從圖7也可以看出RBM學(xué)習(xí)到的分布明顯不是稀疏分布,這從側(cè)面證明了給模型增加稀疏約束項可以促使模型學(xué)習(xí)到稀疏分布。如果說僅采用圖7顯示的同一樣本的激活概率就說明LRBM由于其他模型不夠嚴(yán)謹(jǐn)?shù)脑?,那么從圖8的同一數(shù)據(jù)集在各模型中隱單元的激活概率直方圖可知,LRBM落在區(qū)間(0,0.1)的隱單元激活概率數(shù)多于其他模型,與此相反的是LRBM落在其他區(qū)間的隱單元激活概率數(shù)均少于其他模型。由此可以看出LRBM學(xué)習(xí)到的分布更稀疏。
圖7 同一圖像在各模型中的隱單元激活概率圖
圖8 基于同一數(shù)據(jù)集的各模型激活概率值
(4)模型的強壯性分析
模型的強壯性是指模型在一定(結(jié)構(gòu)、大?。┑膮?shù)攝動下,維持其他某些性能的特性。以上的實驗只驗證了各模型的在分類率最高情況下的特定參數(shù)值的特征提取性能,為分析模型的強壯性,本節(jié)將調(diào)節(jié)各稀疏約束項的參數(shù),將所得結(jié)果作為線性分類器的輸入,其中以每類500個樣本為線性分類器的訓(xùn)練樣本,計算各參數(shù)組合的分類率。表6和表7分別顯示了SRBM和LRBM在不同稀疏約束參數(shù)下的分類率(其中取每類500個樣本作為線性分類器的訓(xùn)練樣本)。
表6 不同懲罰因子p和正則化參數(shù)λ下SRBM的分類率%
表7 不同尺度參數(shù)s和正則化參數(shù)λ下LRBM的分類率%
SRBM通過稀疏懲罰項試圖將同層所有隱單元賦予相同的平均激活概率 p。在實際應(yīng)用中,如果將 p值設(shè)定的較小,每個隱單元的平均激活概率也較小,如果設(shè)置的較大,則不能迫使隱單元學(xué)習(xí)到原始數(shù)據(jù)的稀疏分布。從表6可以看出,當(dāng) p=0.3時,所得的分類率與未增加稀疏約束項的RBM所得的分類率非常接近;當(dāng) p>0.3時,所得的分類率則會降低,這是由于RBM隱單元對MNIST數(shù)據(jù)集的平均激活水平約為0.3,若設(shè)置p>0.3則會迫使隱單元學(xué)習(xí)到的激活概率值遠(yuǎn)離0值。
LRBM采用的是與SRBM完全不同的稀疏懲罰方式,由Lorentz函數(shù)的導(dǎo)函數(shù)可知,LRBM并不是通過稀疏懲罰項迫使隱單元學(xué)習(xí)到特定激活水平的激活概率,而是根據(jù)不同的訓(xùn)練任務(wù)學(xué)習(xí)到不同的稀疏水平。從表7可得,尺度參數(shù)s的取值范圍較SRBM稀疏懲罰因子的取值范圍要大的多;表7中當(dāng)s=0.3而λ取較大值時分類率有所降低,是因為Lorentz函數(shù)的導(dǎo)函數(shù)在尺度參數(shù)s處取得最大值,因此如果將s設(shè)置得較小,當(dāng)隱單元激活概率降到一定水平時,稀疏懲罰項的梯度值仍然很大,故λ越大分類率越低。
綜上,雖然當(dāng)s取較小值時對λ的取值有一定的要求,但是整體來說LRBM中s的取值攝動對模型分類率影響比SRBM中 p取值對分類率的影響要小得多;由Lorentz函數(shù)及其導(dǎo)數(shù)形式可知,當(dāng)稀疏系數(shù)X趨近于0時,Lorentz函數(shù)及其導(dǎo)函數(shù)的取值趨于0,這是符合稀疏約束函數(shù)的穩(wěn)健條件的,而SRBM的稀疏約束項則不符合這一條件,故可得LRBM模型的強壯性要好于SRBM。
(5)基于LRBM的稀疏深度置信網(wǎng)模型的實驗分析
目前一個RBM很重要的應(yīng)用,就是將RBM作為一個單元初始化神經(jīng)網(wǎng)絡(luò)[20]。將LRBM代替RBM作為深度置信網(wǎng)的組成單元,初始化深度置信網(wǎng)。本文采用文獻(xiàn)[20]中報告的網(wǎng)絡(luò)結(jié)構(gòu),即使用LRBM初始化一個784-500-500-2 000的網(wǎng)絡(luò),來訓(xùn)練MNIST數(shù)據(jù)集。初始化階段,使用MNIST數(shù)據(jù)集的所有訓(xùn)練數(shù)據(jù)作為網(wǎng)絡(luò)的訓(xùn)練樣本(與文獻(xiàn)[20]相同)。其中尺度函數(shù)和正則化常數(shù)使用前面實驗得到的最優(yōu)參數(shù)。初始化后,采用共軛梯度算法精調(diào)整個網(wǎng)絡(luò)(與文獻(xiàn)[20]相同),但是迭代步數(shù)為50(文獻(xiàn)[20]中為200),圖9和圖10分別為各模型針對不同訓(xùn)練樣本數(shù)和測試樣本數(shù)的誤差圖,圖11為各深度模型的迭代誤差圖。最后使用MNIST數(shù)據(jù)集的測試結(jié)果對精調(diào)后的網(wǎng)絡(luò)進(jìn)行分類率的測試,最終得到的結(jié)果如表8所示。
圖9 各模型訓(xùn)練誤差曲線圖
圖10 各模型測試誤差曲線圖
表8 基于RBM、SRBM、LRBM的深度置信網(wǎng)對MNIST數(shù)據(jù)集的分類率 %
從表8可以看出,經(jīng)過50步共軛梯度算法精調(diào)后的DBN網(wǎng)絡(luò)的分類率為98.85%,這與文獻(xiàn)[20]得到的98.87%非常接近,而SDBN網(wǎng)絡(luò)得到的分類率為98.17%與文獻(xiàn)[10]報告的98.20%同樣非常接近;雖然SDBN和LDBN得到的分類率較略低于DBN的分類率,但是三者非常接近,差別非常小。說明使用SRBM或LRBM堆疊而成的深度模型同樣實現(xiàn)對數(shù)據(jù)的高度正確分類。
從圖9不難看出,隨著訓(xùn)練樣本數(shù)的增加,所得的分類錯誤率大大降低。在訓(xùn)練樣本數(shù)較少時,SDBN和LDBN展示出較好的分類性能,可以有效地解決樣本數(shù)較少造成的分類精度較低的問題。
圖10是在訓(xùn)練樣本數(shù)均為60 000時得到的分類錯誤率。隨著測試樣本數(shù)的增加,測試錯誤率也有所降低,每個模型最大與最小的誤差率之間最大差值在2%左右,可見在訓(xùn)練階段結(jié)束以后,各模型分類能力基本穩(wěn)定。增加測試樣本數(shù)量并未造成太大的影響。
各深度模型的最終分類率的差異可以忽略不計,但是各深度模型的組成單元對模型精調(diào)階段的影響是不同的。雖然迭代50步所得的結(jié)果與迭代200步所得的結(jié)果極其接近,但是從圖11可以看出DBN網(wǎng)絡(luò)中使用共軛梯度法迭代50步仍未收斂到固定值上,而SDBN和LDBN則分別只用了37步和30步就收斂到一個固定值上。不但說明了經(jīng)過稀疏約束后的RBM堆疊而成的深度模型,可以維持分類率基本不變的情況下大幅度加快模型得到最終分類率的速度,而且說明了使用由Lorentz函數(shù)作為稀疏約束項的LRBM堆疊而成的深度模型得到最終分類率的速度要快于由SRBM堆疊而成的深度模型。
圖11 各模型的迭代誤差曲線圖
CIFAR-10數(shù)據(jù)集[21]是由加拿大的一個先進(jìn)科學(xué)項目研究所——加拿大高等研究院(Canadian Institute for Advanced Research,CIFAR)收集的用于普適物體識別的數(shù)據(jù)集。CIFAR-10數(shù)據(jù)集是由動物和車輛的圖片組成,包含飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車等10類。每一類由6 000張32×32的彩色圖片構(gòu)成,其中5 000張被保存在訓(xùn)練集中,1 000張在測試集中。圖12給出了CIFAR-10數(shù)據(jù)集的部分樣本。
圖12 CIFAR-10數(shù)據(jù)集的部分樣本
與MNIST數(shù)據(jù)集類似,從該數(shù)據(jù)集中隨機選取每類2 000個訓(xùn)練樣本作為LRBM以及對比模型的訓(xùn)練樣本,并將其分成200組各包括100個樣本的小批量數(shù)據(jù)。
本節(jié)將訓(xùn)練模型RBM、SRBM、LRBM,其隱單元均設(shè)置為1 000。與前面的實驗類似,選取各模型分類率最高的參數(shù)進(jìn)行實驗,將LRBM以及其他一些無監(jiān)督學(xué)習(xí)模型的輸出作為線性分類器的輸入,以重復(fù)訓(xùn)練20次線性分類器所得的平均分類率評價各無監(jiān)督學(xué)習(xí)算法對CIFAR-10數(shù)據(jù)集的可判別性能。不同的是,這里僅將每類的1 000個樣本作為線性分類器的訓(xùn)練樣本。表9為各模型間分類精度之間的對比。
表9 各模型的平均分類率 %
如表9所示,在相同樣本數(shù)的情況下,LRBM分類率均明顯優(yōu)于其他無監(jiān)督學(xué)習(xí)模型,較RBM明顯提高了約5個百分點。
為進(jìn)一步比較各模型的特征提取性能,展示模型學(xué)習(xí)到的特征的好壞。因此,對RBM、SRBM、LRBM橫型第一層所學(xué)習(xí)到的部分特征進(jìn)行可視化,如圖13所示。
圖13 各模型學(xué)習(xí)到的部分特征
圖13為對RBM、SRBM、LRBM模型第一層學(xué)習(xí)到的部分特征進(jìn)行可視化的結(jié)果,不難看出RBM和SRBM學(xué)習(xí)到的特征類似,用肉眼很難判斷各自的好壞,而LRBM學(xué)習(xí)到的特征中,雜亂無序的特征較其他模型要少一些。
由于目前對深度結(jié)構(gòu)網(wǎng)絡(luò)各層學(xué)習(xí)到的特征進(jìn)行可視化非常困難,當(dāng)訓(xùn)練集為彩色圖像時更難以可視化。因此,將各模型針對CIFAR-10數(shù)據(jù)集所學(xué)習(xí)到的特征的可視化效果并不理想,關(guān)于深度結(jié)構(gòu)各層特征可視化問題還有待進(jìn)一步深入的研究。
造成對CIFAR-10數(shù)據(jù)集分類率遠(yuǎn)遠(yuǎn)低于MNIST數(shù)據(jù)集分類率的原因,主要是相對于MNIST數(shù)據(jù)集,CIFAR-10數(shù)據(jù)集每類目標(biāo)訓(xùn)練樣本為明顯增加而復(fù)雜度卻大幅增加。同時,由于無監(jiān)督算法需要大量的樣本進(jìn)行訓(xùn)練,雖然LRBM在一定程度上改善了這個問題,但是對于樣本復(fù)雜度遠(yuǎn)高于MNIST數(shù)據(jù)集的CIFAR-10數(shù)據(jù)集,各個無監(jiān)督學(xué)習(xí)算法(包括LRBM)的性能會有大幅度下降,可以通過大量增加訓(xùn)練樣本數(shù)量的方法,來改進(jìn)上述問題。
在DBN網(wǎng)絡(luò)中,RBM扮演著特征提取器的角色,因此對RBM的學(xué)習(xí)算法進(jìn)行進(jìn)一步改進(jìn),使得其特征提取能力進(jìn)一步提高。針對這一問題,本文提出了一種稀疏RBM算法,將Lorentz函數(shù)引入到RBM中,并作為RBM的稀疏約束正則項,以提高其特征提取性能,實驗證明了該算法的有效性。其有效性主要表現(xiàn)在兩個方面:
(1)增加了稀疏約束正則項后,提高了數(shù)據(jù)集的平均分類率,加強了深度網(wǎng)絡(luò)可視化表示程度,實現(xiàn)了目標(biāo)分類的可靠性。
(2)由LRBM堆疊組成的稀疏DBN,進(jìn)一步加強了目標(biāo)學(xué)習(xí)的準(zhǔn)確性,能夠有效地提取數(shù)據(jù)集中的特征信息,同時提高了目標(biāo)分類的效率。
對于LRBM模型和深度網(wǎng)絡(luò)的理論和算法,可得出作為特征提取器具有較優(yōu)的性能。從理論上講,LRBM是可以用于提取高分辨率遙感影像中的特征,可以作為后續(xù)的研究之一。
參考文獻(xiàn):
[1]Hepner G F,Logan T,Ritter N,et al.Artificial neural network classification using a minimal training set:Comparisontoconventionalsupervisedclassification[J].Photogrammetric Engineering&Remote Sensing,1990,56(14):207-222.
[2]Tzeng Y C,Chen K S,Kao W L,et al.A dynamic learning neural network for remote sensing applications[J].IEEE Transactions on Geoscience&Remote Sensing,1994,32(5):1096-1102.
[3]Serpico S B,Burzzone L,Roli F.An experimental comparison of neural and statistical non-parametric algorithm for supervised classification of remote-sensing images[J].Pattern Recognition Letters,1996,17(13):1331-1341.
[4]Murnion S D.Comparison of back propagation and binary diamondneuralnetworksintheclassificationofa Landsat TM image[J].Computers&Geosciences,1996,22(9):995-1001.
[5]Hinton G E,Sejnowski T J.Learning and relearning in Boltzmann machines[M]//Parallel Distributed Processing:ExplorationsintheMicrostructureofCognition.Cambridge,MA,USA:MIT Press,1986:282-317.
[6]Smolensky P.Information processing in dynamical systems:Foundation of harmony theory,CU-CS-321-86[R].1986.
[7]Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1771-1800.
[8]Fischer A,Lgel C.Training restricted Boltzmann machines:An introduction[J].Pattern Recognition,2014,47(1):25-39.
[9]Hinton G E,Dayan P,F(xiàn)reyb B J,et al.The“wake-sleep”algorithm for unsupervised neural networks[J].Science,1995,268:1158-1161.
[10]Lee H,Ekanadham C,Ng A.Sparse deep belief net model for visual area V2[C]//Proc of Advances in Neural Information Processing Systems,2007:1416-1423.
[11]Luo H,Shen R,Niu C,et al.Sparse group restricted Boltzmann machines[C]//Proc of the 25th AAAI Conference on Artificial Intelligence,2011:429-434.
[12]Ji N N,Zhang J S,Zhang C X.A sparse-response deep belief network based on rate distortion theory[J].Pattern Recognition,2014,47(1):3179-3191.
[13]Zhou Guoquan,Wang Xiaogang,Chu Xiuxiang.Fractional Fourier transform of Lorentz-Gauss vortex beams[J].Science China,Physics,Mechanics&Astronomy,2013,56(8):1487-1494.
[14]王光新.基于稀疏約束正則化模型的圖像提高分辨率技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2008.
[15]Freund Y,Haussler D.Unsupervised learning of distributions on binary vectors using two layer networks[C]//Proceedings of Advances in Neural Information Processing Systems,1992:912-919.
[16]Fischer A,Lgel C.An introduction to restricted Boltzmann machines[C]//Progress in Pattern Recognition,Image Analysis,Computer Vision,and Applications,2012:14-36.
[17]Bengio Y.Learning deep architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.
[18]Sacchi M D,Ulrych T J,Walker C J.Interpolation and extrapolation using a high-resolution discrete Fourier transform[J].IEEE Transactions on Signal Processing,1998,46(1):31-38.
[19]Hoyer P O.Non-negative matrix factorization with sparseness constraints[J].The Journal of Machine Learning Research,2004,5:1457-1469.
[20]Hinton G E,Osindero S,Teh Y.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.
[21]Krizhevsky A,Hinton G E.Learning multiple layers of features from tiny images[J].Handbook of Systemic Autoimmune Diseases,2009,1(4).