亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Lorentz函數(shù)的稀疏約束RBM模型的算法研究

        2018-04-08 05:47:02鄒維寶于昕玉
        關(guān)鍵詞:分類模型

        鄒維寶,于昕玉,麥 超

        ZOU Weibao1,YU Xinyu1,MAI Chao2

        1.長安大學(xué) 地質(zhì)工程與測(cè)繪學(xué)院,西安 710054

        2.廣西壯族自治區(qū)遙感信息測(cè)繪院,南寧 530023

        1.School of Geological Engineering and Surveying,Chang’an University,Xi’an 710054,China

        2.Guangxi ZhuangAutonomous Region Remote Sensing Information Surveying and Mapping Institute,Nanning 530023,China

        1 引言

        人工神經(jīng)網(wǎng)絡(luò)[1-4](Artificial Neural Network,ANN)作為一種運(yùn)算模型,是通過模仿生物神經(jīng)網(wǎng)絡(luò)的功能和結(jié)構(gòu),由大量的人工神經(jīng)元之間相互連接組成,是實(shí)現(xiàn)人工智能的先導(dǎo)性技術(shù)之一。1986年Hinton等人提出了一種反饋式神經(jīng)網(wǎng)絡(luò)模型——玻爾茲曼機(jī)(Boltzmann Machine,BM)[5],用來改進(jìn)確定性神經(jīng)網(wǎng)梯度下降法學(xué)習(xí)目標(biāo)特征時(shí)容易陷入局部極小點(diǎn)的問題。BM是由隨機(jī)神經(jīng)元之間全連接組成的,它采用無監(jiān)督方式學(xué)習(xí),對(duì)于特征較復(fù)雜的數(shù)據(jù),該模型具有很好的學(xué)習(xí)能力,但是網(wǎng)絡(luò)訓(xùn)練時(shí)間較長。由于BM估計(jì)數(shù)據(jù)分布具有困難性,所以Smolensky[6]引入了受限玻爾茲曼機(jī)(RBM)。RBM由可見神經(jīng)元層和隱神經(jīng)元層組成,但是層內(nèi)無連接,層間相連接,這一限定使得相比一般玻爾茲曼機(jī)更高效的訓(xùn)練算法成為可能,直接計(jì)算依賴數(shù)據(jù)的期望值變得容易。自RBM的基本模型被提出以來,尤其是基于CD的快速學(xué)習(xí)算法[7-8]被提出之后,RBM受到了前所未有的關(guān)注,特別是在圖像處理領(lǐng)域。RBM具有強(qiáng)大的無監(jiān)督學(xué)習(xí)能力,能夠從大量的數(shù)據(jù)中學(xué)習(xí)到有用的特征表示,尤其適合提取圖像的特征信息[9]。另一方面,視覺是大腦獲取外界信息的主要來源,視覺系統(tǒng)對(duì)所感知的圖像特征以稀疏編碼的形式進(jìn)行描述,這既對(duì)繁雜冗余的信息提供了簡單表示,又利于上層傳感神經(jīng)元抽取刺激中最本質(zhì)的特征,因此將稀疏這一概念引入到RBM中,目的是學(xué)習(xí)到更有效的特征信息。由于RBM是基于能量的模型,在RBM中添加稀疏約束符合生物進(jìn)化普遍的能量最小經(jīng)濟(jì)策略,能夠?qū)W習(xí)到原始數(shù)據(jù)的稀疏表示,提高其特征提取性能。稀疏RBM可通過模擬人類視覺系統(tǒng)工作原理,表征圖像數(shù)據(jù)的稀疏表示,展現(xiàn)了其強(qiáng)大的特征學(xué)習(xí)的能力,利用RBM獲取稀疏表示已經(jīng)成為模式識(shí)別乃至機(jī)器學(xué)習(xí)的一個(gè)熱點(diǎn)方向。

        關(guān)于稀疏RBM的典型算法有基于誤差平方和稀疏懲罰因子的稀疏RBM[10](Sparse Restricted Boltzmann Machine,SRBM)、基于稀疏組的稀疏RBM[11](Sparse Group Restricted Boltzmann Machine,SGRBM)和基于率失真理論的稀疏RBM[12](Sparse-Response RBM,SR-RBM)。因?yàn)槊總€(gè)隱單元的激活概率有可能相同也有可能不同,因此SRBM給每個(gè)隱單元賦予相同的平均激活概率并非最優(yōu)策略;SGRBM的隱單元分組方式不明確且分組含義模糊,同時(shí)該算法無分組依據(jù);SR-RBM無法得到最優(yōu)失真度量。因此,有必要對(duì)稀疏RBM進(jìn)行進(jìn)一步的研究。

        將Lorentz函數(shù)稀疏約束,已經(jīng)在多個(gè)領(lǐng)域得到廣泛的應(yīng)用。例如,邊緣檢測(cè)、高分辨率Fourier頻譜估計(jì)[13]、視覺稀疏分析、圖像建模以及SAR影像特征增強(qiáng)[14]等方面,將Lorentz函數(shù)作為稀疏約束正則項(xiàng)都有非常好的理論和實(shí)踐效果,故在RBM中增加Lorentz函數(shù)稀疏約束以模擬人類視覺信息處理機(jī)制,將其作為目標(biāo)特征提取器。

        2 理論基礎(chǔ)

        RBM是一種具有雙層結(jié)構(gòu)的無向圖模型[15-16],如圖1所示。V為m維可見層,用于輸入數(shù)據(jù),h為n維隱層,用于提取輸入數(shù)據(jù)的高階相關(guān)特征,均為二值隨機(jī)變量,vi,hj∈{0,1},W∈Rm×n為可見層與隱層之間的連接權(quán)重。RBM是一種基于能量理論的概率模型,對(duì)于給定的狀態(tài)(v,h),其能量函數(shù)定義為:

        式中,θ={W,a,b}為RBM模型的參數(shù),Wij表示可見單元i與隱單元 j之間的連接權(quán)重,ai表示可見單元i的偏置,bj表示隱單元 j的偏置[17]。

        圖1 RBM基本結(jié)構(gòu)圖

        RBM的狀態(tài)符合正則分布的形式,也就是說,給定狀態(tài)(v,h),可見單元和隱單元的聯(lián)合分布函數(shù)定義為:

        其中,Z為歸一化因子。特別的,給定可見單元,隱單元即為獨(dú)立的伯努利隨機(jī)變量,此時(shí),第 j個(gè)隱單元的激活概率為:

        式中,σ(x)=1/(1+exp(x))為Sigmoid激活函數(shù);給定隱單元,可見單元也是獨(dú)立的伯努利隨機(jī)變量,此時(shí),第 j個(gè)可見單元的激活概率為:

        將RBM稀疏約束,即將稀疏編碼引入到RBM中,獲取輸入數(shù)據(jù)的稀疏表示。從統(tǒng)計(jì)學(xué)角度來理解RBM稀疏性,就是要求盡可能少的隱單元被激活,而絕大多數(shù)的隱單元不被激活,即隱單元的激活概率密度函數(shù)的圖像同時(shí)具有尖峰性和重尾性的特點(diǎn)。目前,比較常用的稀疏分布是廣義高斯分布,而Cauchy分布同樣具有廣義高斯分布特性,故Cauchy分布可作為稀疏先驗(yàn)知識(shí)[18]。而具有稀疏分布特性的先驗(yàn)信息,可以使RBM隱單元的激活概率具有稀疏性。

        關(guān)于RBM的稀疏先驗(yàn),本文提出采用以下形式的Cauchy先驗(yàn)分布模型:

        式中,sh為尺度函數(shù),根據(jù)Bayes定理,結(jié)合公式(4),可得后驗(yàn)分布為:

        那么提高RBM模型稀疏性的最大后驗(yàn)估計(jì)為:

        上式等價(jià)于以下的最小化問題:

        3LRBM模型算法與求解

        為了使模型學(xué)習(xí)得到稀疏表示,需要調(diào)整{Wij,ai,bj}使得RBM在訓(xùn)練集上的對(duì)數(shù)似然函數(shù)最大化,并通過稀疏約束獲得訓(xùn)練集的稀疏分布。因此,由式(11)可得LRBM模型的目標(biāo)函數(shù)為:

        目標(biāo)函數(shù)的前一項(xiàng)為似然度項(xiàng),后一項(xiàng)為正則化項(xiàng)(稀疏約束項(xiàng)),其中參數(shù)λ為正則化參數(shù),反映正則項(xiàng)對(duì)于所得到的分布的相對(duì)重要性。由上式可見,目標(biāo)函數(shù)在最大化似然度的同時(shí)最小化Lorentz稀疏約束函數(shù)。

        對(duì)于目標(biāo)函數(shù)的求解可以用梯度下降法進(jìn)行求解,但是如果直接使用梯度下降法求解該目標(biāo)函數(shù)中的似然度項(xiàng),將會(huì)大大增加計(jì)算復(fù)雜度,是不可行的。因此,本文參考文獻(xiàn)[10],LRBM訓(xùn)練算法主要是使用CD算法求得似然度項(xiàng)的近似梯度,再用梯度下降法解算正則化項(xiàng)。即給定訓(xùn)練數(shù)據(jù),每一次迭代將首先應(yīng)用CD算法更新模型參數(shù)一次,再使用正則化項(xiàng)的梯度值在更新模型參數(shù)一次。由于隱單元偏置直接控制著隱單元的激活概率以及稀疏程度,相對(duì)于更新所有參數(shù),本文在使用正則化項(xiàng)的梯度值更新參數(shù)時(shí)只更新隱單元偏置bj。其中,正則化項(xiàng)的梯度計(jì)算如下:

        4 基于LRBM的DBN模型

        2006年,Hinton等人首次提出了由多個(gè)RBM堆疊而成的深度結(jié)構(gòu)網(wǎng)絡(luò)——深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)。該結(jié)構(gòu)是目前研究和應(yīng)用都比較廣泛的深度學(xué)習(xí)結(jié)構(gòu),其實(shí)質(zhì)是通過構(gòu)建具有多個(gè)隱層的機(jī)器學(xué)習(xí)模型組合低層特征,形成更加抽象的高層來表示屬性類別或特征找到數(shù)據(jù)的主動(dòng)驅(qū)動(dòng)力量。其動(dòng)機(jī)在于模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦的信息處理機(jī)制來解釋數(shù)據(jù)。深度置信網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其核心思路為:(1)無監(jiān)督學(xué)習(xí)用于每一層RBM;(2)每次用無監(jiān)督學(xué)習(xí)只訓(xùn)練一層,將其訓(xùn)練結(jié)果作為高一層的輸入;(3)用自頂而下的監(jiān)督學(xué)習(xí)算法去調(diào)整所有層。

        圖2 深度置信網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)

        與DBN由一系列RBM單元組成類似,本文構(gòu)造的稀疏DBN由一系列LRBM單元組成,稱之為LDBN。與DBN的學(xué)習(xí)算法類似,該稀疏DBN的預(yù)訓(xùn)練同樣可以采用無監(jiān)督貪婪逐層訓(xùn)練法逐層訓(xùn)練LRBM方式來實(shí)現(xiàn)。即在訓(xùn)練過程中,首先訓(xùn)練底層具有稀疏約束的RBM,然后固定本層的參數(shù),并將本層的隱單元激活概率作為下一層帶有稀疏約束的RBM的輸入,直到最后一層。

        5 實(shí)驗(yàn)分析

        模型的特征提取性能、分類率、稀疏性以及強(qiáng)壯性是評(píng)價(jià)稀疏RBM模型優(yōu)劣的主要技術(shù)指標(biāo),本文接下來將重點(diǎn)以MNIST數(shù)據(jù)集為訓(xùn)練集對(duì)LRBM的性能進(jìn)行驗(yàn)證,為不失一般性,還以CIFAR-10數(shù)據(jù)集為訓(xùn)練集做了一些實(shí)驗(yàn)。由于LRBM是RBM的改進(jìn)模型,而SRBM是最典型的稀疏RBM模型,故本章待比較的模型為RBM模型和SRBM模型。

        圖3 MNIST數(shù)據(jù)集部分樣本

        5.1 基于MNIST數(shù)據(jù)集的實(shí)驗(yàn)分析

        MNIST手寫體字符識(shí)別數(shù)據(jù)集是目前驗(yàn)證深度學(xué)習(xí)各種算法最常用的數(shù)據(jù)集之一,該數(shù)據(jù)集包括0~9的10個(gè)手寫數(shù)字圖像,還包含每個(gè)圖像對(duì)應(yīng)的標(biāo)簽(0~9)以便用于有監(jiān)督學(xué)習(xí)的實(shí)驗(yàn);圖3顯示了MNIST數(shù)據(jù)集的一部分樣本。該數(shù)據(jù)集每個(gè)樣本為28×28像素的灰度圖像,包括60 000個(gè)訓(xùn)練樣本和10 000個(gè)測(cè)試樣本。本文從該數(shù)據(jù)集中隨機(jī)選取每類2 000個(gè)訓(xùn)練樣本作為訓(xùn)練樣本,并將其分成200組各包括100個(gè)樣本的小批量數(shù)據(jù),從模型的特征提取性能、分類率、稀疏性以及強(qiáng)壯性四方面對(duì)LRBM的性能進(jìn)行檢驗(yàn)。

        (1)模型的分類率

        為了證明LRBM模型所學(xué)習(xí)到的稀疏表示具有良好的可判別性,首先訓(xùn)練由兩層模型堆疊而成的深度結(jié)構(gòu)模型,將RBM、SRBM、LRBM分別作為模型的基本組成單元,將第一個(gè)基本單元的輸出作為第二個(gè)基本單元的輸入,分別對(duì)其進(jìn)行訓(xùn)練。其中第一個(gè)基本單元的隱單元設(shè)置為484,第二個(gè)基本單元的隱單元均設(shè)為196。然后將每一層LRBM以及其對(duì)比算法(RBM和SRBM)的輸出作為線性分類器的輸入,以線性分類器所得的分類率評(píng)價(jià)各無監(jiān)督學(xué)習(xí)算法的可判別性能。在分類階段,本節(jié)將分別隨機(jī)選取每類100、500、1 000個(gè)樣本作為線性分類器的訓(xùn)練數(shù)據(jù),而剩下的樣本作為線性分類器的測(cè)試數(shù)據(jù)。同時(shí),對(duì)于每個(gè)模型的輸出與每個(gè)樣本數(shù)的組合,都重復(fù)訓(xùn)練20個(gè)線性分類器,用這20個(gè)分類器的分類率的平均值來評(píng)價(jià)相應(yīng)模型所學(xué)習(xí)到的分布的可判別性。

        表1顯示的是SRBM在不同稀疏懲罰因子下(λ均等于2),不同樣本數(shù)的分類率。表2顯示的是給定尺度參數(shù)為0.5的情況下(激活概率為0.5意味著不確定性最大,故設(shè)置正則化函數(shù)在0.5處有最大的梯度),不同正則化參數(shù)下不同樣本數(shù)的分類率。在與RBM模型算法比較以及訓(xùn)練多層結(jié)構(gòu)模型時(shí),均采用SRBM、LRBM分類率最高情況下的參數(shù)。表3顯示的是LRBM與其他無監(jiān)督學(xué)習(xí)模型在不同樣本數(shù)下的分類率。

        從表1和表2可以看出,在一定范圍內(nèi)SRBM對(duì)懲罰因子 p、LRBM對(duì)正則化參數(shù)λ并不敏感,但對(duì)比表1和表2可得LRBM的總體表現(xiàn)要好于SRBM。

        表1 SRBM在不同稀疏懲罰因子下的不同樣本數(shù)的平均分類率 %

        表2 LRBM在不同正則化參數(shù)下的不同樣本數(shù)的平均分類率 %

        表3 基于不同樣本數(shù)的各模型的平均分類率 %

        從表3可得,LRBM在不同訓(xùn)練樣本數(shù)情況下的平均分類率均優(yōu)于其他無監(jiān)督學(xué)習(xí)模型,尤其是在小樣本分類方面,LRBM的分類率相對(duì)于RBM有不小的提升。

        從圖4可以看出隨著樣本數(shù)的增加,各模型訓(xùn)練時(shí)間也會(huì)變長,但是各模型之間相差并不多,即增加正則化稀疏函數(shù)并不會(huì)對(duì)分類時(shí)長造成影響。

        圖4 基于不同樣本數(shù)的各模型分類所用時(shí)間

        本節(jié)還將深度結(jié)構(gòu)模型中第二層的輸出作為線性分類器的輸入,得到模型的平均分類率如表4所示。從表4可以看出,經(jīng)過兩層LRBM模型學(xué)習(xí)所得到的平均分類率依然較RBM、SRBM高,進(jìn)一步表明LRBM所學(xué)習(xí)到的特征具有良好的可判別性;同時(shí)本實(shí)驗(yàn)也在一定程度上證明,增加模型的深度可提高模型的可判別能力。

        表4 雙層模型第二層輸出的平均分類率%

        如圖5為各雙層模型基于不同樣本數(shù)進(jìn)行分類所用的時(shí)間。與圖4類似,隨著樣本數(shù)的增加,各模型分類時(shí)長也有所增加但各模型之間所用相差不多。不同的是,雙層的無監(jiān)督模型的分類時(shí)長較單層模型有所增加。

        圖5 基于不同樣本數(shù)的各雙層模型分類所用時(shí)間

        (2)基于可視化特征提取評(píng)價(jià)

        為了展示模型學(xué)習(xí)到的特征的好壞,對(duì)之前所學(xué)習(xí)到的部分特征進(jìn)行可視化。如圖6顯示了各模型學(xué)習(xí)到的部分特征。

        從圖6可知,RBM模型學(xué)習(xí)到的大部分特征都是難以名狀的,只有少數(shù)幾個(gè)特征稍微具有一定的形狀;而LRBM能夠?qū)W習(xí)到的特征更具清晰的輪廓而不是隨機(jī)的難以名狀的構(gòu)造,可以看出這些特征就是訓(xùn)練樣本的局部特征;而LRBM與SRBM相比,兩者可視化差別很小。

        圖6 各模型所學(xué)習(xí)到的部分特征

        (3)稀疏度的比較

        為了度量LRBM的稀疏度,本文采用Hoyer提出的稀疏性度量[19]來衡量RBM、SRBM、LRBM的稀疏度,給定D維向量v,則該向量的稀疏度為:

        從上式可知,該稀疏度量在區(qū)間[0,1],稀疏度越接近于1意味著向量v越稀疏(向量v中等于0或者接近0的元素就越多)。如表5顯示了各模型的稀疏度均值。從表5可知,LRBM學(xué)習(xí)到了關(guān)于輸入數(shù)據(jù)的更為稀疏的表示。為了直觀地表示稀疏度,圖7給出同一張訓(xùn)練圖像在各模型中的隱單元激活概率,圖8給出了同一數(shù)據(jù)集在各模型中的得到的激活概率統(tǒng)計(jì)直方圖。

        表5 各模型的平均稀疏度

        由圖7可知,RBM接近于0的激活概率較SRBM和LRBM少得多,而SRBM和LRBM絕大部分隱單元激活概率非常接近于0。從圖7也可以看出RBM學(xué)習(xí)到的分布明顯不是稀疏分布,這從側(cè)面證明了給模型增加稀疏約束項(xiàng)可以促使模型學(xué)習(xí)到稀疏分布。如果說僅采用圖7顯示的同一樣本的激活概率就說明LRBM由于其他模型不夠嚴(yán)謹(jǐn)?shù)脑?,那么從圖8的同一數(shù)據(jù)集在各模型中隱單元的激活概率直方圖可知,LRBM落在區(qū)間(0,0.1)的隱單元激活概率數(shù)多于其他模型,與此相反的是LRBM落在其他區(qū)間的隱單元激活概率數(shù)均少于其他模型。由此可以看出LRBM學(xué)習(xí)到的分布更稀疏。

        圖7 同一圖像在各模型中的隱單元激活概率圖

        圖8 基于同一數(shù)據(jù)集的各模型激活概率值

        (4)模型的強(qiáng)壯性分析

        模型的強(qiáng)壯性是指模型在一定(結(jié)構(gòu)、大?。┑膮?shù)攝動(dòng)下,維持其他某些性能的特性。以上的實(shí)驗(yàn)只驗(yàn)證了各模型的在分類率最高情況下的特定參數(shù)值的特征提取性能,為分析模型的強(qiáng)壯性,本節(jié)將調(diào)節(jié)各稀疏約束項(xiàng)的參數(shù),將所得結(jié)果作為線性分類器的輸入,其中以每類500個(gè)樣本為線性分類器的訓(xùn)練樣本,計(jì)算各參數(shù)組合的分類率。表6和表7分別顯示了SRBM和LRBM在不同稀疏約束參數(shù)下的分類率(其中取每類500個(gè)樣本作為線性分類器的訓(xùn)練樣本)。

        表6 不同懲罰因子p和正則化參數(shù)λ下SRBM的分類率%

        表7 不同尺度參數(shù)s和正則化參數(shù)λ下LRBM的分類率%

        SRBM通過稀疏懲罰項(xiàng)試圖將同層所有隱單元賦予相同的平均激活概率 p。在實(shí)際應(yīng)用中,如果將 p值設(shè)定的較小,每個(gè)隱單元的平均激活概率也較小,如果設(shè)置的較大,則不能迫使隱單元學(xué)習(xí)到原始數(shù)據(jù)的稀疏分布。從表6可以看出,當(dāng) p=0.3時(shí),所得的分類率與未增加稀疏約束項(xiàng)的RBM所得的分類率非常接近;當(dāng) p>0.3時(shí),所得的分類率則會(huì)降低,這是由于RBM隱單元對(duì)MNIST數(shù)據(jù)集的平均激活水平約為0.3,若設(shè)置p>0.3則會(huì)迫使隱單元學(xué)習(xí)到的激活概率值遠(yuǎn)離0值。

        LRBM采用的是與SRBM完全不同的稀疏懲罰方式,由Lorentz函數(shù)的導(dǎo)函數(shù)可知,LRBM并不是通過稀疏懲罰項(xiàng)迫使隱單元學(xué)習(xí)到特定激活水平的激活概率,而是根據(jù)不同的訓(xùn)練任務(wù)學(xué)習(xí)到不同的稀疏水平。從表7可得,尺度參數(shù)s的取值范圍較SRBM稀疏懲罰因子的取值范圍要大的多;表7中當(dāng)s=0.3而λ取較大值時(shí)分類率有所降低,是因?yàn)長orentz函數(shù)的導(dǎo)函數(shù)在尺度參數(shù)s處取得最大值,因此如果將s設(shè)置得較小,當(dāng)隱單元激活概率降到一定水平時(shí),稀疏懲罰項(xiàng)的梯度值仍然很大,故λ越大分類率越低。

        綜上,雖然當(dāng)s取較小值時(shí)對(duì)λ的取值有一定的要求,但是整體來說LRBM中s的取值攝動(dòng)對(duì)模型分類率影響比SRBM中 p取值對(duì)分類率的影響要小得多;由Lorentz函數(shù)及其導(dǎo)數(shù)形式可知,當(dāng)稀疏系數(shù)X趨近于0時(shí),Lorentz函數(shù)及其導(dǎo)函數(shù)的取值趨于0,這是符合稀疏約束函數(shù)的穩(wěn)健條件的,而SRBM的稀疏約束項(xiàng)則不符合這一條件,故可得LRBM模型的強(qiáng)壯性要好于SRBM。

        (5)基于LRBM的稀疏深度置信網(wǎng)模型的實(shí)驗(yàn)分析

        目前一個(gè)RBM很重要的應(yīng)用,就是將RBM作為一個(gè)單元初始化神經(jīng)網(wǎng)絡(luò)[20]。將LRBM代替RBM作為深度置信網(wǎng)的組成單元,初始化深度置信網(wǎng)。本文采用文獻(xiàn)[20]中報(bào)告的網(wǎng)絡(luò)結(jié)構(gòu),即使用LRBM初始化一個(gè)784-500-500-2 000的網(wǎng)絡(luò),來訓(xùn)練MNIST數(shù)據(jù)集。初始化階段,使用MNIST數(shù)據(jù)集的所有訓(xùn)練數(shù)據(jù)作為網(wǎng)絡(luò)的訓(xùn)練樣本(與文獻(xiàn)[20]相同)。其中尺度函數(shù)和正則化常數(shù)使用前面實(shí)驗(yàn)得到的最優(yōu)參數(shù)。初始化后,采用共軛梯度算法精調(diào)整個(gè)網(wǎng)絡(luò)(與文獻(xiàn)[20]相同),但是迭代步數(shù)為50(文獻(xiàn)[20]中為200),圖9和圖10分別為各模型針對(duì)不同訓(xùn)練樣本數(shù)和測(cè)試樣本數(shù)的誤差圖,圖11為各深度模型的迭代誤差圖。最后使用MNIST數(shù)據(jù)集的測(cè)試結(jié)果對(duì)精調(diào)后的網(wǎng)絡(luò)進(jìn)行分類率的測(cè)試,最終得到的結(jié)果如表8所示。

        圖9 各模型訓(xùn)練誤差曲線圖

        圖10 各模型測(cè)試誤差曲線圖

        表8  基于RBM、SRBM、LRBM的深度置信網(wǎng)對(duì)MNIST數(shù)據(jù)集的分類率 %

        從表8可以看出,經(jīng)過50步共軛梯度算法精調(diào)后的DBN網(wǎng)絡(luò)的分類率為98.85%,這與文獻(xiàn)[20]得到的98.87%非常接近,而SDBN網(wǎng)絡(luò)得到的分類率為98.17%與文獻(xiàn)[10]報(bào)告的98.20%同樣非常接近;雖然SDBN和LDBN得到的分類率較略低于DBN的分類率,但是三者非常接近,差別非常小。說明使用SRBM或LRBM堆疊而成的深度模型同樣實(shí)現(xiàn)對(duì)數(shù)據(jù)的高度正確分類。

        從圖9不難看出,隨著訓(xùn)練樣本數(shù)的增加,所得的分類錯(cuò)誤率大大降低。在訓(xùn)練樣本數(shù)較少時(shí),SDBN和LDBN展示出較好的分類性能,可以有效地解決樣本數(shù)較少造成的分類精度較低的問題。

        圖10是在訓(xùn)練樣本數(shù)均為60 000時(shí)得到的分類錯(cuò)誤率。隨著測(cè)試樣本數(shù)的增加,測(cè)試錯(cuò)誤率也有所降低,每個(gè)模型最大與最小的誤差率之間最大差值在2%左右,可見在訓(xùn)練階段結(jié)束以后,各模型分類能力基本穩(wěn)定。增加測(cè)試樣本數(shù)量并未造成太大的影響。

        各深度模型的最終分類率的差異可以忽略不計(jì),但是各深度模型的組成單元對(duì)模型精調(diào)階段的影響是不同的。雖然迭代50步所得的結(jié)果與迭代200步所得的結(jié)果極其接近,但是從圖11可以看出DBN網(wǎng)絡(luò)中使用共軛梯度法迭代50步仍未收斂到固定值上,而SDBN和LDBN則分別只用了37步和30步就收斂到一個(gè)固定值上。不但說明了經(jīng)過稀疏約束后的RBM堆疊而成的深度模型,可以維持分類率基本不變的情況下大幅度加快模型得到最終分類率的速度,而且說明了使用由Lorentz函數(shù)作為稀疏約束項(xiàng)的LRBM堆疊而成的深度模型得到最終分類率的速度要快于由SRBM堆疊而成的深度模型。

        圖11 各模型的迭代誤差曲線圖

        5.2 基于CIFAR-10數(shù)據(jù)集實(shí)驗(yàn)分析

        CIFAR-10數(shù)據(jù)集[21]是由加拿大的一個(gè)先進(jìn)科學(xué)項(xiàng)目研究所——加拿大高等研究院(Canadian Institute for Advanced Research,CIFAR)收集的用于普適物體識(shí)別的數(shù)據(jù)集。CIFAR-10數(shù)據(jù)集是由動(dòng)物和車輛的圖片組成,包含飛機(jī)、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車等10類。每一類由6 000張32×32的彩色圖片構(gòu)成,其中5 000張被保存在訓(xùn)練集中,1 000張?jiān)跍y(cè)試集中。圖12給出了CIFAR-10數(shù)據(jù)集的部分樣本。

        圖12 CIFAR-10數(shù)據(jù)集的部分樣本

        與MNIST數(shù)據(jù)集類似,從該數(shù)據(jù)集中隨機(jī)選取每類2 000個(gè)訓(xùn)練樣本作為LRBM以及對(duì)比模型的訓(xùn)練樣本,并將其分成200組各包括100個(gè)樣本的小批量數(shù)據(jù)。

        本節(jié)將訓(xùn)練模型RBM、SRBM、LRBM,其隱單元均設(shè)置為1 000。與前面的實(shí)驗(yàn)類似,選取各模型分類率最高的參數(shù)進(jìn)行實(shí)驗(yàn),將LRBM以及其他一些無監(jiān)督學(xué)習(xí)模型的輸出作為線性分類器的輸入,以重復(fù)訓(xùn)練20次線性分類器所得的平均分類率評(píng)價(jià)各無監(jiān)督學(xué)習(xí)算法對(duì)CIFAR-10數(shù)據(jù)集的可判別性能。不同的是,這里僅將每類的1 000個(gè)樣本作為線性分類器的訓(xùn)練樣本。表9為各模型間分類精度之間的對(duì)比。

        表9 各模型的平均分類率 %

        如表9所示,在相同樣本數(shù)的情況下,LRBM分類率均明顯優(yōu)于其他無監(jiān)督學(xué)習(xí)模型,較RBM明顯提高了約5個(gè)百分點(diǎn)。

        為進(jìn)一步比較各模型的特征提取性能,展示模型學(xué)習(xí)到的特征的好壞。因此,對(duì)RBM、SRBM、LRBM橫型第一層所學(xué)習(xí)到的部分特征進(jìn)行可視化,如圖13所示。

        圖13 各模型學(xué)習(xí)到的部分特征

        圖13為對(duì)RBM、SRBM、LRBM模型第一層學(xué)習(xí)到的部分特征進(jìn)行可視化的結(jié)果,不難看出RBM和SRBM學(xué)習(xí)到的特征類似,用肉眼很難判斷各自的好壞,而LRBM學(xué)習(xí)到的特征中,雜亂無序的特征較其他模型要少一些。

        由于目前對(duì)深度結(jié)構(gòu)網(wǎng)絡(luò)各層學(xué)習(xí)到的特征進(jìn)行可視化非常困難,當(dāng)訓(xùn)練集為彩色圖像時(shí)更難以可視化。因此,將各模型針對(duì)CIFAR-10數(shù)據(jù)集所學(xué)習(xí)到的特征的可視化效果并不理想,關(guān)于深度結(jié)構(gòu)各層特征可視化問題還有待進(jìn)一步深入的研究。

        造成對(duì)CIFAR-10數(shù)據(jù)集分類率遠(yuǎn)遠(yuǎn)低于MNIST數(shù)據(jù)集分類率的原因,主要是相對(duì)于MNIST數(shù)據(jù)集,CIFAR-10數(shù)據(jù)集每類目標(biāo)訓(xùn)練樣本為明顯增加而復(fù)雜度卻大幅增加。同時(shí),由于無監(jiān)督算法需要大量的樣本進(jìn)行訓(xùn)練,雖然LRBM在一定程度上改善了這個(gè)問題,但是對(duì)于樣本復(fù)雜度遠(yuǎn)高于MNIST數(shù)據(jù)集的CIFAR-10數(shù)據(jù)集,各個(gè)無監(jiān)督學(xué)習(xí)算法(包括LRBM)的性能會(huì)有大幅度下降,可以通過大量增加訓(xùn)練樣本數(shù)量的方法,來改進(jìn)上述問題。

        6 結(jié)束語

        在DBN網(wǎng)絡(luò)中,RBM扮演著特征提取器的角色,因此對(duì)RBM的學(xué)習(xí)算法進(jìn)行進(jìn)一步改進(jìn),使得其特征提取能力進(jìn)一步提高。針對(duì)這一問題,本文提出了一種稀疏RBM算法,將Lorentz函數(shù)引入到RBM中,并作為RBM的稀疏約束正則項(xiàng),以提高其特征提取性能,實(shí)驗(yàn)證明了該算法的有效性。其有效性主要表現(xiàn)在兩個(gè)方面:

        (1)增加了稀疏約束正則項(xiàng)后,提高了數(shù)據(jù)集的平均分類率,加強(qiáng)了深度網(wǎng)絡(luò)可視化表示程度,實(shí)現(xiàn)了目標(biāo)分類的可靠性。

        (2)由LRBM堆疊組成的稀疏DBN,進(jìn)一步加強(qiáng)了目標(biāo)學(xué)習(xí)的準(zhǔn)確性,能夠有效地提取數(shù)據(jù)集中的特征信息,同時(shí)提高了目標(biāo)分類的效率。

        對(duì)于LRBM模型和深度網(wǎng)絡(luò)的理論和算法,可得出作為特征提取器具有較優(yōu)的性能。從理論上講,LRBM是可以用于提取高分辨率遙感影像中的特征,可以作為后續(xù)的研究之一。

        參考文獻(xiàn):

        [1]Hepner G F,Logan T,Ritter N,et al.Artificial neural network classification using a minimal training set:Comparisontoconventionalsupervisedclassification[J].Photogrammetric Engineering&Remote Sensing,1990,56(14):207-222.

        [2]Tzeng Y C,Chen K S,Kao W L,et al.A dynamic learning neural network for remote sensing applications[J].IEEE Transactions on Geoscience&Remote Sensing,1994,32(5):1096-1102.

        [3]Serpico S B,Burzzone L,Roli F.An experimental comparison of neural and statistical non-parametric algorithm for supervised classification of remote-sensing images[J].Pattern Recognition Letters,1996,17(13):1331-1341.

        [4]Murnion S D.Comparison of back propagation and binary diamondneuralnetworksintheclassificationofa Landsat TM image[J].Computers&Geosciences,1996,22(9):995-1001.

        [5]Hinton G E,Sejnowski T J.Learning and relearning in Boltzmann machines[M]//Parallel Distributed Processing:ExplorationsintheMicrostructureofCognition.Cambridge,MA,USA:MIT Press,1986:282-317.

        [6]Smolensky P.Information processing in dynamical systems:Foundation of harmony theory,CU-CS-321-86[R].1986.

        [7]Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1771-1800.

        [8]Fischer A,Lgel C.Training restricted Boltzmann machines:An introduction[J].Pattern Recognition,2014,47(1):25-39.

        [9]Hinton G E,Dayan P,F(xiàn)reyb B J,et al.The“wake-sleep”algorithm for unsupervised neural networks[J].Science,1995,268:1158-1161.

        [10]Lee H,Ekanadham C,Ng A.Sparse deep belief net model for visual area V2[C]//Proc of Advances in Neural Information Processing Systems,2007:1416-1423.

        [11]Luo H,Shen R,Niu C,et al.Sparse group restricted Boltzmann machines[C]//Proc of the 25th AAAI Conference on Artificial Intelligence,2011:429-434.

        [12]Ji N N,Zhang J S,Zhang C X.A sparse-response deep belief network based on rate distortion theory[J].Pattern Recognition,2014,47(1):3179-3191.

        [13]Zhou Guoquan,Wang Xiaogang,Chu Xiuxiang.Fractional Fourier transform of Lorentz-Gauss vortex beams[J].Science China,Physics,Mechanics&Astronomy,2013,56(8):1487-1494.

        [14]王光新.基于稀疏約束正則化模型的圖像提高分辨率技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2008.

        [15]Freund Y,Haussler D.Unsupervised learning of distributions on binary vectors using two layer networks[C]//Proceedings of Advances in Neural Information Processing Systems,1992:912-919.

        [16]Fischer A,Lgel C.An introduction to restricted Boltzmann machines[C]//Progress in Pattern Recognition,Image Analysis,Computer Vision,and Applications,2012:14-36.

        [17]Bengio Y.Learning deep architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.

        [18]Sacchi M D,Ulrych T J,Walker C J.Interpolation and extrapolation using a high-resolution discrete Fourier transform[J].IEEE Transactions on Signal Processing,1998,46(1):31-38.

        [19]Hoyer P O.Non-negative matrix factorization with sparseness constraints[J].The Journal of Machine Learning Research,2004,5:1457-1469.

        [20]Hinton G E,Osindero S,Teh Y.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.

        [21]Krizhevsky A,Hinton G E.Learning multiple layers of features from tiny images[J].Handbook of Systemic Autoimmune Diseases,2009,1(4).

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        精品国产一区二区三区av新片| 熟妇的荡欲色综合亚洲| 99久久精品国产成人综合| 丝袜美腿网站一区二区| 美女射精视频在线观看| 富婆猛男一区二区三区| 国语对白做受xxxxx在| 肉体裸交丰满丰满少妇在线观看 | 一本久久a久久精品综合| 经典三级免费看片天堂| 国产一区内射最近更新| 成年人黄视频大全| 国产亚洲精品综合99久久| 国产视频一区二区三区久久亚洲| 电驱蚊液可以插一晚上吗 | 国产激情视频高清在线免费观看 | 欧美激情乱人伦| 免费国产裸体美女视频全黄 | 日产精品久久久久久久蜜臀 | 亚洲乱码av一区二区蜜桃av | 97在线观看播放| 在线一区不卡网址观看| 26uuu欧美日本在线播放| 久久一区二区av毛片国产| 亚洲国产一区二区三区在线观看 | 亚洲精品国产字幕久久vr| 亚洲黄色一插一抽动态图在线看| 亚洲一区二区三区精品视频| 人妻少妇无码精品视频区| 日韩中文字幕欧美亚洲第一区| 一区二区三区国产高潮| av网站免费在线浏览| 欧美黑人又大又粗xxxxx| 成人免费网站视频www| 国产成人亚洲合集青青草原精品 | 狠狠亚洲婷婷综合色香五月| 日本午夜理论一区二区在线观看| 中国杭州少妇xxxx做受| 欧美艳星nikki激情办公室| 国产a级午夜毛片| 一级做a爱视频在线播放|