深度學(xué)習(xí)的研究進(jìn)展與發(fā)展

2018-05-21 06:20:18史加榮馬媛媛

計算機(jī)工程與應(yīng)用 2018年10期

關(guān)鍵詞：隱層權(quán)值卷積

史加榮，馬媛媛

1.西安建筑科技大學(xué) 建筑學(xué)院，西安 710055

2.省部共建西部綠色建筑國家重點實驗室，西安 710055

3.西安建筑科技大學(xué) 理學(xué)院，西安 710055

1 引言

機(jī)器學(xué)習(xí)是人工智能的核心研究領(lǐng)域之一，其最初的研究動機(jī)是為了讓計算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以實現(xiàn)人工智能[1]。深度學(xué)習(xí)（深度結(jié)構(gòu)學(xué)習(xí)或分層學(xué)習(xí)）是基于數(shù)據(jù)表示的一類更廣的機(jī)器學(xué)習(xí)方法，它通過組合低級特征形成更加抽象的高級表示特征，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征[2]。深度學(xué)習(xí)使機(jī)器學(xué)習(xí)能夠?qū)崿F(xiàn)更多的應(yīng)用，并拓展了人工智能的服務(wù)范圍，已成為諸多領(lǐng)域新的研究熱點，如：語音識別[3]、視頻識別[4]、圖像識別[5]、自然語言處理[6]和信息檢索[7]等。

Hinton等人于2006年提出了一種無監(jiān)督學(xué)習(xí)模型：深度置信網(wǎng)絡(luò)，該模型解決了深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的難題，掀起了深度學(xué)習(xí)的浪潮[8]。此后，深度學(xué)習(xí)發(fā)展非常迅速，涌現(xiàn)出諸多模型。深度置信網(wǎng)絡(luò)、自編碼器[9]、卷積神經(jīng)網(wǎng)絡(luò)[10]和循環(huán)神經(jīng)網(wǎng)絡(luò)[11]構(gòu)成了早期的深度學(xué)習(xí)模型，隨后由這些模型演變出許多其他模型，主要包括稀疏自編碼器[12]、降噪自編碼器[13]、堆疊降噪自編碼器[14]、深度玻爾茲曼機(jī)[15]、深度堆疊網(wǎng)絡(luò)[16]、深度對抗網(wǎng)絡(luò)[17]和卷積深度置信網(wǎng)絡(luò)[18]等。本文主要探討了深度學(xué)習(xí)的幾種典型模型以及研究與發(fā)展。

2 深度學(xué)習(xí)簡介

為簡化表示，下面給出深度學(xué)習(xí)幾種典型模型的名稱表，如表1所示。

表1 深度學(xué)習(xí)典型模型名稱表

深度學(xué)習(xí)的概念不僅起源于對人工神經(jīng)網(wǎng)絡(luò)的研究[19]，而且受到統(tǒng)計力學(xué)的啟發(fā)[20]。1986年，Smolensky提出了一種以能量為基礎(chǔ)的模型：RBM，該模型由BM發(fā)展而來[21]，主要用于語音識別[22]和圖像分類[23]。2006年，Hinton和Salakhutdinov提出了一種貪婪的逐層學(xué)習(xí)網(wǎng)絡(luò)：DBN，它由多個RBM堆疊而成[24]，避免了梯度消失[2，8]，主要用于圖像識別和信號處理[25]；2009年，他們又提出了另一種貪婪的逐層學(xué)習(xí)模型：DBM[15]，該模型也是由多個RBM堆疊而成，主要應(yīng)用于目標(biāo)識別和信號處理[26]。

與RBM的發(fā)展相獨立，Rumelhart于1986年提出了一種無監(jiān)督學(xué)習(xí)算法：AE，該算法通過編碼器和解碼器工作完成訓(xùn)練[12]，主要用于語音識別和特征提取[27]。隨著AE的發(fā)展，它的衍生版本不斷出現(xiàn)，如：SAE和DAE。SAE是另一種無監(jiān)督學(xué)習(xí)算法，它在AE的編碼層上加入了稀疏性限制，主要用于圖像處理和語音信號處理[28]。DAE在AE的輸入上加入了隨機(jī)噪聲，用來預(yù)測缺失值[13]。

與前述模型不同，CNN是一種較流行的監(jiān)督學(xué)習(xí)模型，它受貓的視覺皮層研究的啟發(fā)[10]，已成為圖像識別[29]和語音識別[30]領(lǐng)域的研究熱點。RNN是另一種重要的監(jiān)督學(xué)習(xí)模型，專門用來處理序列數(shù)據(jù)[11]，通常用于語音識別、文本生成和圖像生成[31]。DSN是一種深度堆疊神經(jīng)網(wǎng)絡(luò)，是為研究伸縮性問題而設(shè)計的[16]。

機(jī)器學(xué)習(xí)有無監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)之分，不同學(xué)習(xí)框架下的模型有很大的差異。根據(jù)結(jié)構(gòu)和技術(shù)應(yīng)用領(lǐng)域的不同，可以將深度學(xué)習(xí)分為無監(jiān)督（生成式）、監(jiān)督（判別式）和混合深度學(xué)習(xí)網(wǎng)絡(luò)[32]，而無監(jiān)督學(xué)習(xí)可為監(jiān)督學(xué)習(xí)提供預(yù)訓(xùn)練[2]。最常見的無監(jiān)督學(xué)習(xí)模型有RBM，DBN，DBM，AE，SAE，DAE，其中前3個模型以能量為基礎(chǔ)，后兩個模型以AE為基礎(chǔ)。典型的監(jiān)督學(xué)習(xí)模型有CNN、RNN和DSN等?；旌仙疃葘W(xué)習(xí)通常以生成式或者判別式深度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)果作為重要輔助，克服了生成式網(wǎng)絡(luò)模型的不足[33]，其代表模型有混合深度神經(jīng)網(wǎng)絡(luò)[34]（如：DNN-HMM和DNN-CRF）和混合深度置信網(wǎng)絡(luò)[35]（DBN-HMM）。

3 無監(jiān)督學(xué)習(xí)模型

先引入以能量為基礎(chǔ)的無監(jiān)督學(xué)習(xí)模型：RBM、DBN和DBM，再介紹以AE為基礎(chǔ)的模型：SAE和DAE。

3.1 RBM

作為一種特殊類型的馬爾可夫隨機(jī)場，RBM由一個可視層和一個隱層組成[2]，如圖1所示，其中v和h分別表示可視層和隱層，可視單元和隱單元間均存在連接，而同層單元間無連接。記可視層和隱層的神經(jīng)元個數(shù)分別為I和J，可視單元vi∈{0,1}和隱單元hj∈{0,1}之間的連接權(quán)值為wij，ai和bj分別為可視層和隱層的偏置，θ={wij,ai,bj}。

圖1 RBM的網(wǎng)絡(luò)結(jié)構(gòu)

通常假設(shè)RBM的隱單元服從伯努利分布，可視單元服從伯努利分布或高斯分布。為了學(xué)習(xí)模型參數(shù)θ，先定義可視單元不同分布下的兩種能量函數(shù)[2]：

其中E1關(guān)于v、h是雙線性的，E2是h的線性函數(shù)、v的二次函數(shù)。對于一般形式的能量函數(shù)E(v,h;θ)，可視單元和隱單元的聯(lián)合概率分布為[21]：

其中Z(θ)是歸一化因子。

RBM模型關(guān)于可視單元的邊緣分布為[2]：

當(dāng)可視層v給定時，第 j個隱層節(jié)點被激活的條件概率為[2]：

式中，sigm(x)=1/(1 +exp(-x))。當(dāng)隱層h給定時，在伯努利分布和高斯分布假設(shè)下第i個可視層節(jié)點被激活的條件概率分別為[2]：

其中式（7）右邊表示高斯分布。

對式（4）取負(fù)對數(shù)并對θ求偏導(dǎo)有[21]：

在上式中，是在 p(h|v)下的期望，被稱為正向位的期望，它降低了訓(xùn)練數(shù)據(jù)的能量；Ep是在 p(v,h)下的期望，被稱為負(fù)向位的期望，它提高了模型所有可視單元的能量。

正向位易于計算，而負(fù)相位計算相對復(fù)雜?？筛鶕?jù)采樣近似計算負(fù)相位，即給定可視層狀態(tài)，更新隱層狀態(tài)；給定隱層狀態(tài)，更新可視層狀態(tài)[2，21]。為了更好地計算負(fù)相位，先根據(jù)k步吉布斯采樣得到v(k)，再利用式（8）對權(quán)值wij求偏導(dǎo)：

最后采用對比散度對權(quán)值進(jìn)行更新。類似可計算ai和bj。

RBM使用隱變量來描述輸入數(shù)據(jù)的分布，而未涉及數(shù)據(jù)的標(biāo)簽信息。當(dāng)有可利用的標(biāo)簽數(shù)據(jù)時，可將標(biāo)簽信息與數(shù)據(jù)一起使用，并計算與數(shù)據(jù)相關(guān)的近似目標(biāo)函數(shù)[23]。一般而言，RBM主要用來對神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練，其目的是初始化權(quán)值，從而使網(wǎng)絡(luò)盡可能擬合輸入數(shù)據(jù)。

3.2 DBN

DBN是由多個RBM堆疊而成的神經(jīng)網(wǎng)絡(luò)，通常由一個可視層和多個隱層組成，最高的兩個隱層存在無向?qū)ΨQ邊連接，其余隱層形成一個有向的無環(huán)圖[2，36]，如圖2所示。該圖由一個可視層v和三個隱層h1、h2、h3組成，連接方式是自上向下，可以看出：DBN的每一層有兩個作用，即前一層的隱層和后一層的輸入層。

圖2 DBN示意圖

考慮有l(wèi)個隱層的DBN，令h0=v，p(hk|hk+1)是與第k+1層相關(guān)聯(lián)的RBM的條件分布，k=0,1,…,l-1。DBN最高兩個隱層間的連接相當(dāng)于一個RBM，滿足如下公式[20]：

于是DBN關(guān)于可視層與隱層的聯(lián)合概率分布為[20]：

DBN可以通過無監(jiān)督預(yù)訓(xùn)練（自上向下）和有監(jiān)督反向微調(diào)（自下而上）來訓(xùn)練整個網(wǎng)絡(luò)[7，8，29]，其訓(xùn)練過程如下。先使用無標(biāo)簽數(shù)據(jù)訓(xùn)練第一層，學(xué)習(xí)該層參數(shù)。再分層訓(xùn)練各層參數(shù)，此無監(jiān)督學(xué)習(xí)的訓(xùn)練過程相當(dāng)于網(wǎng)絡(luò)參數(shù)的初始化。最后利用有標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練，并使用BP算法將實際輸出與預(yù)計輸出的誤差逐層向后傳播，此監(jiān)督學(xué)習(xí)的訓(xùn)練過程相當(dāng)于網(wǎng)絡(luò)參數(shù)的微調(diào)。作為一種快速貪婪的逐層學(xué)習(xí)算法，DBN結(jié)合了有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)各自的優(yōu)點，能更好地挖掘出有價值的特征[8-9，36]。在預(yù)訓(xùn)練過程中，DBN能高效地計算出最深的隱層變量，且能有效地克服過擬合、欠擬合問題。

3.3 DBM

DBM由多個RBM堆疊而成，是一個完整的無向圖模型。與RBM相比，DBM可有多層隱變量[2，37-38]，且每一層中不同節(jié)點都是相互獨立的。圖3給出了由一個可視層和兩個隱層組成的DBM。為簡化表示，此處省略偏置。

圖3 DBM示意圖

對于圖3所示的模型，定義能量函數(shù)[15]：

式中W(1)和W(2)分別表示可視層到隱層和隱層到隱層的對稱連接權(quán)值矩陣，θ={W(1),W(2)}。因此，關(guān)于可視單元和隱單元的聯(lián)合概率分布為[15]：

于是有DBM關(guān)于可視單元的邊緣分布：

下面給出可視層和隱層的條件分布[15]：

作為一種貪婪的逐層學(xué)習(xí)算法，DBM的訓(xùn)練過程與DBN相似，其學(xué)習(xí)算法對復(fù)雜的輸入結(jié)構(gòu)有一個很好的表示[2，37]。但由于直接計算DBM的后驗分布較復(fù)雜，故采用KL散度和EM算法來計算后驗分布，具體計算過程可參考文獻(xiàn)[39]。在訓(xùn)練時，以RBM的后驗分布對樣例進(jìn)行建模。

3.4 AE

AE通常由三層構(gòu)成：數(shù)據(jù)（特征向量）的輸入層，特征轉(zhuǎn)換的隱層，用于重構(gòu)信息的輸出層[12]。AE由編碼器（encoder）和解碼器（decoder）來完成訓(xùn)練[2]，其原理如圖4所示。將輸入向量x映射到隱層向量h的過程叫做編碼，將隱層向量h映射到輸出向量r的過程叫做解碼，分別定義如下形式的編碼函數(shù)和解碼函數(shù)[61]：

其中W1和b1分別表示編碼器的權(quán)值矩陣和偏置向量，W2和b2分別表示解碼器的權(quán)值矩陣和偏置向量。

圖4 AE編碼與解碼原理圖

AE一般不能復(fù)制輸入本身，只能讓輸出盡可能地逼近輸入，可通過最小化損失函數(shù)求出網(wǎng)絡(luò)參數(shù)[61]：

其中，N為訓(xùn)練樣例個數(shù)，L為損失函數(shù)。通常要求AE的輸入維度與輸出維度相等，隱層的維度小于輸入維度[16-17]。此時，AE對應(yīng)的變換就是降維。如果隱層的維度大于輸入維度，則很難學(xué)習(xí)數(shù)據(jù)中的特征，這時可以給AE加入稀疏性[27]等限制性條件來發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。

AE模型結(jié)構(gòu)簡單，訓(xùn)練過程與RBM類似，可以充分利用無標(biāo)簽數(shù)據(jù)得到網(wǎng)絡(luò)的初始化權(quán)值，從而有效地提取特征[2，40]。訓(xùn)練AE的目的是讓輸出盡可能逼近輸入，但當(dāng)訓(xùn)練樣本與預(yù)測樣本不符合相同分布時，所提取到的特征往往較差。

3.5 SAE

SAE是在AE的編碼層上加入稀疏項[12，41]。當(dāng)隱層節(jié)點被激活的節(jié)點數(shù)遠(yuǎn)遠(yuǎn)小于被抑制的節(jié)點數(shù)目時，隱層才具有稀疏響應(yīng)特征[41-42]。SAE正則化的重構(gòu)誤差為[40]：

其中g(shù)(h)為輸出向量，λ(h)為稀疏項?？蓪L散度作為稀疏性約束[42]，即：

式中λ是懲罰因子，m是隱層神經(jīng)元的個數(shù)，p是隱層神經(jīng)元激活程度的一個稀疏性參數(shù)，pi是第i個隱層神經(jīng)元的平均活躍度。pi的計算公式如下[42]：

其中，fi(·)表示第i個隱層神經(jīng)元的激活函數(shù)，mj為與此神經(jīng)元連接的數(shù)目。

SAE實現(xiàn)了降維的目的[41]，可以為監(jiān)督學(xué)習(xí)提供預(yù)訓(xùn)練。與多層BP神經(jīng)網(wǎng)絡(luò)相比，SAE只是在反向傳播時添加了一個稀疏項，從而抑制了大多數(shù)神經(jīng)元的輸出。

3.6 DAE

DAE是在AE的輸入中加入了隨機(jī)噪聲，將含噪數(shù)據(jù)經(jīng)過一個編碼器使其形成輸入信號的壓縮表示，再經(jīng)過一個解碼器得到不含噪聲的輸出數(shù)據(jù)，然后計算期望輸出與原始輸入的誤差，最后采用隨機(jī)梯度下降法來更新網(wǎng)絡(luò)權(quán)值[13]。圖5繪出了DAE的原理圖。在該圖中，表示加入噪聲后的輸入，f和y分別為編碼函數(shù)和解碼函數(shù)，z表示解碼層的輸出，L( )x,y(f()) 為損失函數(shù)。DAE與AE的編碼函數(shù)和解碼函數(shù)相同，只是輸入了含有噪聲的數(shù)據(jù)。

圖5 DAE的原理圖

圖6 CNN架構(gòu)圖

訓(xùn)練DAE是為了去除隨機(jī)噪聲以獲得沒有被噪聲污染的輸入，這就迫使DAE學(xué)習(xí)比輸入信號更加魯棒的表示，從而更好地預(yù)測夾雜在數(shù)據(jù)中的噪聲。因此，DAE也被用來預(yù)測缺失值[13，42]。

4 監(jiān)督學(xué)習(xí)模型

本章將研究三種典型的監(jiān)督學(xué)習(xí)模型：CNN、RNN和DSN。

4.1 CNN

CNN是一種特殊類型的深度前饋神經(jīng)網(wǎng)絡(luò)，由輸入層、隱層、全連接層和輸出層組成。隱層由卷積層和下采樣層交替連接組成，即通過卷積操作提取特征，再通過下采樣操作得到更加抽象的特征，并將其輸入到一個或多個全連接層。最后一個全連接層連接到輸出層[43-44]，典型的CNN架構(gòu)如圖6所示。卷積層和下采樣層構(gòu)成了CNN的主要模塊，下面對它們進(jìn)行研究。

4.1.1 卷積層

在卷積層中，先將輸入圖像與卷積核進(jìn)行卷積，再傳遞給非線性函數(shù) f，從而得到輸出特征圖[43]。假設(shè)第l-1層為下采樣層，第l層為卷積層，則第l層的第 j個特征圖的激活值為[43]：

其中Mj是某個特征圖像的子集，是第l-1層的第i個特征映射所對應(yīng)的像素值，是卷積核，是第 j個單元所對應(yīng)的偏置，“*”代表卷積運(yùn)算。當(dāng)卷積層提取的特征維數(shù)過高時，很容易出現(xiàn)過擬合現(xiàn)象，而下采樣層的加入可以在一定程度上減少該現(xiàn)象的發(fā)生。

4.1.2 下采樣層

下采樣層可以減少像素信息，實現(xiàn)圖像壓縮[45-46]。該層一般采用最大池化或平均池化方法。假設(shè)第l-1層為卷積層，第l層為下采樣層。下采樣層的輸入特征圖與輸出特征圖數(shù)目相同，只是特征圖變小了。下采樣層的計算公式如下[43]：其中Nl表示第l層輸入特征圖的大小，和分別為乘性偏置和加性偏置，down(·)表示下采樣函數(shù)。

CNN有三個重要的特性：稀疏連接、權(quán)值共享和池采樣[43-47]，這些特性可以幫助改善機(jī)器學(xué)習(xí)系統(tǒng)，并使得CNN在一定程度上具有平移、縮放和扭轉(zhuǎn)不變性。

（1）稀疏連接

CNN采用了前向傳播計算輸出值，反向傳播調(diào)整權(quán)值和偏置。CNN的相鄰層之間的（去掉）是稀疏連接，這既減少了模型的內(nèi)存需求，又提高了計算效率。假設(shè)CNN模型有m個輸入節(jié)點和n個輸出節(jié)點，全連接共有m×n個參數(shù)；在稀疏連接中，限制每個輸出可能具有的連接數(shù)為k(k?m)，則有k×n個參數(shù)[46]。

（2）權(quán)值共享

當(dāng)計算某層的輸出時，傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)僅使用一次權(quán)值矩陣。但在CNN中，卷積核共享相同的權(quán)值矩陣和偏置向量。圖7給出了一個二維卷積操作的例子，其中：左上角為輸入數(shù)據(jù)（4×4矩陣），右上角為卷積核（2×2濾波器），下方為卷積操作結(jié)果。由此可以看出：卷積核被重復(fù)應(yīng)用于整個輸入數(shù)據(jù)中。這種權(quán)值共享降低了網(wǎng)絡(luò)復(fù)雜度[44]。

圖7 卷積運(yùn)算示意圖

（3）池化

在卷積層獲得圖像特征后，再對特征進(jìn)行分類，這通常會產(chǎn)生極大的計算量。采用池化（或下采樣）方法對卷積特征進(jìn)行降維，可在一定程度上保留一些重要或者有用的信息[43-44]。

與傳統(tǒng)的圖像處理方法相比，CNN避免了前期對圖像的預(yù)處理。但CNN的特征受到特定的網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)算法及訓(xùn)練集等諸多因素影響，對其原理的分析與解釋更加抽象和困難[2，47]。卷積層的權(quán)值共享和下采樣層的池化策略降低了網(wǎng)絡(luò)模型的復(fù)雜度，但在訓(xùn)練過程中耗費(fèi)大量的時間和計算資源，也會出現(xiàn)過擬合現(xiàn)象[45]。模型結(jié)構(gòu)的合理設(shè)置及訓(xùn)練速度的提升是CNN亟待解決的問題。

4.2 RNN

RNN是指一個隨著時間推移而重復(fù)發(fā)生的結(jié)構(gòu)，即為時間軸上的循環(huán)神經(jīng)網(wǎng)絡(luò)[2，48]。它是由輸入層、隱層和輸出層組成的有向無環(huán)結(jié)構(gòu)。隱層是循環(huán)實現(xiàn)的基礎(chǔ)，其取值不僅取決于本次的輸入，還取決于上次隱層的輸出，且層級較高的隱層不會向較低的隱層傳播。RNN中的“循環(huán)”會把系統(tǒng)隱層的輸出保留在網(wǎng)絡(luò)中，再與下一時刻的輸入共同決定輸出[49]。

給定輸入序列和ht分別為t-1時刻和t時刻所對應(yīng)的隱變量的狀態(tài)，Ot表示t時刻所對應(yīng)的輸出，建立如下模型[49]：

其中U和V分別表示從輸入層到隱層和隱層到輸出層的連接權(quán)值，W表示從隱層到隱層的循環(huán)連接權(quán)值，b和c分別表示輸入層和隱層的偏置，f和g是預(yù)先定義的激活函數(shù)。一般取 f為tanh或ReLU函數(shù)，g為softmax函數(shù)。將 ht和 ht-1帶入Ot得[50]：

由上式可以看出：輸出值Ot依賴于 x(t),x(t-1),x(t-2),…，即存在長期依賴問題。

在訓(xùn)練RNN時，仍使用反向傳播算法，且在每一個時刻均共享參數(shù)。每次的梯度不僅依賴于當(dāng)前時刻的值，也依賴于之前所有時刻的結(jié)果，稱此為時間的反向傳播（BPTT）[48-49]。BPTT導(dǎo)致參數(shù)與隱層狀態(tài)之間的高度不穩(wěn)定，從而對梯度下降產(chǎn)生直接影響，即出現(xiàn)“梯度消失問題”。長短時記憶網(wǎng)絡(luò)（LSTM）是RNN的一種修改結(jié)構(gòu)[50]，在學(xué)習(xí)時仍具有長期依賴性。LSTM通過門的開關(guān)來實現(xiàn)時間上的記憶功能，并防止了梯度消失問題。對于多任務(wù)學(xué)習(xí)，LSTM優(yōu)于RNN。目前，LSTM已被成功應(yīng)用于語音和手寫體識別中。

圖8是RNN在時間軸的展開示意圖，其中Lt表示t時刻所對應(yīng)的損失函數(shù)。在每一時步，RNN先接受一個輸入向量，再通過非線性函數(shù)來更新隱層狀態(tài)，最后對輸出進(jìn)行預(yù)測。RNN常用的損失函數(shù)有均方誤差函數(shù)和交叉熵函數(shù)。

圖8 RNN在時間軸的展開圖

由于RNN在所有時刻都共享參數(shù)U、V和W，這極大地減少了需要學(xué)習(xí)的參數(shù)[2，51]。在應(yīng)用RNN時，往往只需回顧之前的幾步，不需要每一刻的輸出。雖然RNN在理論上可以建立長時間的間隔狀態(tài)之間的依賴關(guān)系，但由于梯度消失問題，只能學(xué)習(xí)到短期的依賴關(guān)系。

4.3 DSN

DSN（或深度凸網(wǎng)絡(luò)）強(qiáng)調(diào)學(xué)習(xí)網(wǎng)絡(luò)的凸性質(zhì)。它由多個模塊堆疊而成，每一個模塊都是一種特殊類型的神經(jīng)網(wǎng)絡(luò)且具有相同的結(jié)構(gòu)，即線性輸入層、非線性隱層和線性輸出層。但每一個模塊的輸入有所不同，它們將原始輸入單元與低層模塊中的輸出單元連接起來[52-53]。

DSN的最底層模塊是構(gòu)建模型的基礎(chǔ)，也由輸入單元的線性層、隱單元的非線性層和輸出單元的線性層組成[16，52]。記訓(xùn)練樣例x(i)為B維列向量，對應(yīng)的輸出標(biāo)簽t(i)為C維列向量。最底層模塊輸出的計算公式為[2]：

其中下層權(quán)值矩陣W1為B×A維，上層權(quán)值矩陣U1為A×C維，hi表示隱層的輸出單元，yi表示底部模塊的輸出，A為隱單元的數(shù)量。采用均方誤差來學(xué)習(xí)模型參數(shù)U1和W1，其公式如下[2]：

其中N表示訓(xùn)練樣例的總數(shù)目。在計算E之前，需要先對W1進(jìn)行經(jīng)驗性設(shè)置，下面給出兩種方法：隨機(jī)生成各種分布，將結(jié)果用于設(shè)置W1；使用對比散度算法訓(xùn)練RBM，將權(quán)值用于設(shè)置W1。

令E關(guān)于U1的偏導(dǎo)數(shù)為0，得U1=F(W1)。而在傳統(tǒng)的反向傳播中，U1和W1是相互獨立的。構(gòu)造拉格朗日函數(shù)[2]：

通過最小化上述函數(shù)，得到最優(yōu)化的參數(shù)W1。

圖9繪出了DSN示意圖，它由3個模塊相互堆疊而成，且構(gòu)造非常相似，僅在輸入層有一個擴(kuò)展。以塊堆疊的目的是從大數(shù)據(jù)中學(xué)習(xí)復(fù)雜的函數(shù)，而學(xué)習(xí)復(fù)雜函數(shù)的方法是把簡單函數(shù)組合在一起形成一個鏈[52-53]。

圖9 DSN示意圖

5 深度學(xué)習(xí)典型模型對比及在MNIST數(shù)據(jù)集上的實驗

5.1 深度學(xué)習(xí)典型模型對比

隨著深度學(xué)習(xí)的發(fā)展，不斷涌現(xiàn)出各種衍生模型。它們都基于深度學(xué)習(xí)的幾種典型模型，因此快速地理解深度學(xué)習(xí)典型模型及它們之間的關(guān)系是至關(guān)重要的。表2匯總了深度學(xué)習(xí)的幾種典型模型，該表包括模型、模型結(jié)構(gòu)、訓(xùn)練方式和相關(guān)算法等[54-59]。

神經(jīng)網(wǎng)絡(luò)（NN）是深度學(xué)習(xí)的基礎(chǔ)；DBN的出現(xiàn)不僅掀起了深度學(xué)習(xí)的浪潮，而且加快了深度學(xué)習(xí)的發(fā)展；CNN是深度學(xué)習(xí)最具有代表性的模型。下面在MNIST數(shù)據(jù)集上對上述三種模型進(jìn)行評價和對比。

5.2 MNIST數(shù)據(jù)集與實驗參數(shù)設(shè)計

本文實驗使用MNIST手寫體數(shù)字?jǐn)?shù)據(jù)集（http：//yann.lecun.com/exdb/mnist/）。該數(shù)據(jù)集由Google實驗室的Corinna和Facebook人工智能負(fù)責(zé)人Yann LeCun建立，其訓(xùn)練集和測試集分別由60 000和10 000個樣例組成[60-61]。每個樣本是一幅0～9的手寫體數(shù)字圖片，分辨率為28×28。本文主要使用DeepLearn Toolbox程序，其下載網(wǎng)址如下：https：//github.com/rasmusbergpalm/DeepLearnToolbox。此程序使用MATLAB語言編寫，在2.9 GHz CPU的個人電腦上運(yùn)行。

NN由輸入層、隱層和輸出層組成，每層節(jié)點個數(shù)分別設(shè)置為784、100和10，其中“784”為輸入樣本的維數(shù)（28×28），“10”為類別數(shù)目。DBN由輸入層、第一隱層、第二隱層和輸出層等四層組成，每層節(jié)點個數(shù)分別設(shè)置為784、100、100和10。將 CNN設(shè)置為一個含輸入層在內(nèi)的五層網(wǎng)絡(luò)，包含兩個卷積層和兩個下采樣層。CNN的卷積層C1和C3分別包含6個和12個大小均為5×5的卷積核，下采樣層S2和S4對應(yīng)的采樣核大小均為2×2。

5.3 實驗結(jié)果分析

5.3.1 不同策略下的NN

為了更好地驗證NN的有效性，對NN采用了dropout技術(shù)[62]和權(quán)值衰減策略[61]。Dropout技術(shù)是指在模型訓(xùn)練時隨機(jī)讓網(wǎng)絡(luò)某些隱層節(jié)點的權(quán)值不工作，此處將dropout的概率設(shè)置為0.5。權(quán)值衰減是為了避免由于權(quán)值越來越大而出現(xiàn)的過擬合現(xiàn)象，設(shè)置懲罰因子為10－4。此外，令迭代次數(shù)epoch=1，批大小minibatch=100。

NN、NN+dropout技術(shù)、NN+權(quán)值衰減策略對應(yīng)的誤分率分別為7.41%、8.65%、1.86%。可以看出：采用權(quán)值衰減策略，誤分率降低了5.55%；而采用dropout技術(shù)，誤分率反而增加了1.24%。因此，權(quán)值衰減策略可明顯提升神經(jīng)網(wǎng)絡(luò)的性能。

5.3.2 學(xué)習(xí)率和epoch對DBN的影響

學(xué)習(xí)率（LearnRate）是深度學(xué)習(xí)技術(shù)的重要參數(shù)[59]，它決定了每次循環(huán)訓(xùn)練過程中所產(chǎn)生的權(quán)值變化量。學(xué)習(xí)率過大或過小都會對實驗結(jié)果造成影響。通常需要多次調(diào)節(jié)學(xué)習(xí)率，或者基于先驗知識對其進(jìn)行設(shè)置。一次迭代（epoch）就是將訓(xùn)練集中的全部樣例訓(xùn)練一次。分別考慮三種不同的學(xué)習(xí)率和epoch，DBN的識別率和運(yùn)行時間如表3所示。

表2 深度學(xué)習(xí)的典型模型匯總

表3 不同學(xué)習(xí)率和epoch下DBN的實驗結(jié)果

表4 不同學(xué)習(xí)率和epoch下CNN的實驗結(jié)果

從表3可以看出：當(dāng)epoch=1時，網(wǎng)絡(luò)的誤分率隨學(xué)習(xí)率的增加而降低；當(dāng)學(xué)習(xí)率固定時，網(wǎng)絡(luò)的識別能力隨epoch的增加而增強(qiáng)；隨epoch或?qū)W習(xí)率的增加，實驗運(yùn)行時間往往也變長。

5.3.3 學(xué)習(xí)率和epoch對CNN的影響

對于CNN模型，同樣考慮不同學(xué)習(xí)率和epoch組合下的識別結(jié)果，如表4所示。從表4可以看出，當(dāng)學(xué)習(xí)率一定時，網(wǎng)絡(luò)的誤分率隨著epoch的增加而降低；當(dāng)epoch固定時，網(wǎng)絡(luò)的誤分率隨著學(xué)習(xí)率的增加而降低。當(dāng)LearnRate=1、epoch=50時，網(wǎng)絡(luò)的識別效果最佳。

6 發(fā)展趨勢

本文主要探討了深度學(xué)習(xí)的幾種典型模型，闡述了它們的模型結(jié)構(gòu)、建立、求解和評價，并對這些典型模型進(jìn)行了總結(jié)和對比。DBN等無監(jiān)督學(xué)習(xí)模型通常用來協(xié)助隨后的監(jiān)督學(xué)習(xí)，并為其提供預(yù)訓(xùn)練；預(yù)訓(xùn)練結(jié)束后，再使用監(jiān)督學(xué)習(xí)進(jìn)行反向微調(diào)。雖然深度學(xué)習(xí)已被成功應(yīng)用于語音、視頻、圖像、自然語言處理和信息檢索等諸多科學(xué)領(lǐng)域，但仍面臨一些挑戰(zhàn)[2，33，40，42，55，63-64]：

（1）數(shù)學(xué)理論的缺乏。對于深度學(xué)習(xí)框架，業(yè)界普遍存在一系列疑問，例如：算法的收斂性與穩(wěn)定性；深度學(xué)習(xí)需要多少隱層；在大規(guī)模網(wǎng)絡(luò)中，需要多少有效參數(shù)。不管是構(gòu)建更好的深度學(xué)習(xí)系統(tǒng)，還是提供更好的解釋，深度學(xué)習(xí)都需要完善的理論支持。

（2）深度學(xué)習(xí)的應(yīng)用推廣。在應(yīng)用經(jīng)典的深度學(xué)習(xí)模型時，實驗結(jié)果可能不理想，這就要求根據(jù)特定的問題與數(shù)據(jù)來制定和優(yōu)化深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)。

（3）深度網(wǎng)絡(luò)訓(xùn)練的求解問題。這些問題主要包括：隨網(wǎng)絡(luò)層數(shù)增加而帶來的梯度消失問題；如何有效地設(shè)置深度學(xué)習(xí)的模型參數(shù)和進(jìn)行大規(guī)模并行訓(xùn)練。

（4）新模型對人工智能發(fā)展的影響。深度學(xué)習(xí)不斷涌現(xiàn)出新的模型，如：生成對抗網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)等。這些模型可能會從觀念上挑戰(zhàn)傳統(tǒng)的深度學(xué)習(xí)，也可能會改變計算機(jī)視覺傳輸?shù)姆绞?，重塑人工智能?/p>

隨著人工智能的蓬勃發(fā)展，我國越來越多的學(xué)者開始關(guān)注深度學(xué)習(xí)。深度學(xué)習(xí)將智能技術(shù)從實驗室?guī)У搅水a(chǎn)業(yè)及應(yīng)用層面，但許多學(xué)者仍將深度學(xué)習(xí)當(dāng)做一種工具來使用，忽略了它的分類及基礎(chǔ)概念、技術(shù)的歷史進(jìn)程和發(fā)展方向，從而導(dǎo)致人們對此人工智能技術(shù)的整體發(fā)展趨勢及可用性缺乏宏觀認(rèn)識。因此，為了加深對深度學(xué)習(xí)的理解，需要完善深度學(xué)習(xí)的數(shù)學(xué)理論，并將深度學(xué)習(xí)技術(shù)應(yīng)用于大數(shù)據(jù)相關(guān)問題的求解上，尤其是數(shù)據(jù)的高維度、學(xué)習(xí)算法的可擴(kuò)展性及分布式計算等。

：

[1]Arel I，Rose D C，Karnowski T P.Deep machine learninga new frontier in artificial intelligence research[J].IEEE Computational Intelligence Magazine，2010，5（4）：13-18.

[2]Deng L，Yu D.Deep learning：methods and applications[J].Foundations and Trends in Signal Processing，2014，7（3/4）：197-387.

[3]王山海，景新幸，楊海燕.基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語音識別的研究[J].計算機(jī)應(yīng)用研究，2015，32（8）：2289-2291.

[4]Lee H，Pham P，Largman Y，et al.Unsupervised feature learning for audio classification using convolutional deep belief networks[C]//Advances in Neural Information Processing Systems（NIPS），2009：1096-1104.

[5]許可.卷積神經(jīng)網(wǎng)絡(luò)在圖像識別上的應(yīng)用的研究[D].杭州：浙江大學(xué)，2012.

[6]林奕鷗，雷航，李曉瑜，等.自然語言處理中的深度學(xué)習(xí)：方法及應(yīng)用[J].電子科技大學(xué)學(xué)報，2017，46（6）：913-919.

[7]Deng L，He X，Gao J.Deep stacking networks for information retrieval[C]//IEEE InternationalConferenceon Acoustics，Speech and Signal Processing（ICASSP），2013：3153-3157.

[8]Hinton G E，Osindero S，Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation，2006，18（7）：1527-1554.

[9]Bengio Y，Lamblin P，Popovici D，et al.Greedy layerwise training of deep networks[C]//Advances in Neural Information Processing Systems，2007：153-160.

[10]Abdel-Hamid O，Deng L，Yu D.Exploring convolutional neural network structures and optimization techniques for speech recognition[C]//Interspeech，2013：3366-3370.

[11]Martens J，Sutskever I.Learning recurrent neural networks with hessian-free optimization[C]//Proceedings of the 28th International Conference on Machine Learning（ICML），2011：1033-1040.

[12]Sainath T N，Kingsbury B，Ramabhadran B.Auto-encoder bottleneck features using deep belief networks[C]//IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP），2012：4153-4156.

[13]Vincent P，Larochelle H，Bengio Y，et al.Extracting and composing robust features with denoising autoencoder[C]//Proceedings of the 25th International Conference on Machine Learning（ICML），2008.

[14]Vincent P，Larochelle H，Lajoie I，et al.Stacked denoising autoencoders：Learning useful representations in a deep network with a local denoising criterion[J].Journal of Machine Learning Research，2010：3371-3408.

[15]Salakhutdinov R，Hinton G.Deep Boltzmann machines[C]//Artificial Intelligence and Statistics，2009：448-455.

[16]Deng L，Yu D，Platt J.Scalable stacking and learning forbuilding deep architectures[C]//IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP），2012：2133-2136.

[17]Goodfellow L，Pouget-Abadie J，Mirza M，et al.Generative adversarial networks[C]//Advances in Neural Information Processing Systems（NIPS），2014.

[18]Lee H，Grosse R，Ranganath R，et al.Unsupervised learning of hierarchical representations with convolutional deep belief networks[J].Communications of the ACM，2011，54（10）：95-103.

[19]Ajith A.Artifical neural networks[M].Sydenham P H，Thorn R.Handbook of measuring system design.New York：John Wiley&Sons，2005.

[20]Bengio Y.Learning deep architectures for AI[J].Foundations and trends in Machine Learning，2009，2（1）：1-127.[21]Hinton G.A practical guide to training restricted Boltzmann machines[J].Momentum，2012，9（1）：926.

[22]Mohamed A R，Hinton G.Phone recognition using restricted Boltzmann machines[C]//IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP），2010：4354-4357.

[23]Larochelle H，Bengio Y.Classification using discriminative restricted Boltzmann machines[C]//Proceedings of the 25th International Conference on Machine Learning（ICML），2008：536-543.

[24]Hinton G E，Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science，2006，313（5786）：504-507.

[25]Mohamed A R，Yu D，Deng L.Investigation of fullsequence training of deep belief networks for speech recognition[C]//Eleventh Annual Conference of the International Speech Communication Association，2010.

[26]Ngiam J，Chen Z.Learning deep energy models[C]//Proceedings of the 28th International Conference on Machine Learning（ICML），2011：1105-1112.

[27]Deng L，Seltzer M L，Yu D，et al.Binary coding of speech spectrograms using a deep auto-encoder[C]//Eleventh Annual Conference of the International Speech Communication Association，2010.

[28]Bengio Y，Courville A，Vincent P.Representation learning：A review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2013，35（8）：1798-1828.

[29]Lawrence S，Giles C L，Tsoi A C，et al.Face recognition：A convolutional neural-network approach[J].IEEE Transactions on Neural Networks，1997，8（1）：98-113.

[30]張晴晴，劉勇，王智超，等.卷積神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用[J].網(wǎng)絡(luò)新媒體技術(shù)，2014（6）：39-42.

[31]Graves A.Sequence transduction with recurrent neural networks[J].arXiv：1211.3711，2012.

[32]Deng L.An overview of deep-structured learning for information processing[C]//Proceedings of Asian-Pacific Signal&Information Processing Annual Summit and Conference（APSIPA-ASC），2011.

[33]Bengio Y.Deep learning of representations for unsupervised and transferlearning[C]//ProceedingsofICML Workshop on Unsupervised and Transfer Learning，2012：17-36.

[34]Dahl G E，Yu D，Deng L，et al.Context-dependent pretrained deep neural networks for large vocabulary speech recognition[J].IEEE Transactions on Audio，Speech，and Language Processing，2012，20（1）：30-42.

[35]Dahl G E，Yu D，Deng L，et al.Context-dependent DBNHMMs in large vocabulary continuous speech recognition[C]//Proceedings of International Conference on Acoustics，Speech and Signal Processing（ICASSP），2011.

[36]Mohamed A R，Dahl G E，Hinton G E.Acoustic modeling using deep belief networks[J].IEEE Transactions on Audio，Speech，and Language Processing，2012，20（1）：14-22.

[37]Goodfellow L，Mirza M，Courville A，et al.Multi-prediction deep Boltzmann machines[C]//Advances in Neural Information Processing Systems（NIPS），2013：548-556.

[38]Salakhutdinov R R，Hinton G E.A better way to pretrain deep boltzmann machines[C]//Advances in Neural Information Processing Systems（NIPS），2012：2447-2455.

[39]Tzikas D G，Likas A C，Galatsanos N P.The variational approximation forBayesian inference[J].IEEE Signal Processing Magazine，2008，25（6）：131-146.

[40]焦李成，趙進(jìn)，楊淑媛，等.稀疏認(rèn)知學(xué)習(xí)，計算與識別的研究進(jìn)展[J].計算機(jī)學(xué)報，2016，39（4）：835-851.

[41]Coates A，Ng A Y.The importance of encoding versus training with sparse coding and vector quantization[C]//Proceedings of the 28th International Conference on Machine Learning（ICML），2011：921-928.

[42]焦李成，趙進(jìn)，楊淑媛，等.深度學(xué)習(xí)、優(yōu)化與識別[M].北京：清華大學(xué)出版社，2017：100-120.

[43]Bouvrie J.Notes on convolutional neural networks[J/OL].（2006）.http：//cogprints.org/5869/1/cnn_tutorial.pdf.

[44]Deng L，Abdel-Hamid O，Yu D.A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion[C]//IEEE InternationalConferenceonAcoustics，Speech and Signal Processing（ICASSP），2013：6669-6673.

[45]Zeiler M D，F(xiàn)ergus R.Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision（ECCV）.Cham：Springer，2014：818-833.

[46]Goodfellow L，Bengio Y，Courvile A.Deep learning[M].[S.l.]：MIT Press，2016.

[47]李彥冬，郝宗波，雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機(jī)應(yīng)用，2016，36（9）：2508-2515.

[48]LeCun Y，Bottou L，Bengio Y，et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE，1998，86（11）：2278-2324.

[49]Gulcehre C，Cho K，Pascanu R，et al.Learned-norm pooling for deep feedforward and recurrent neural networks[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin，Heidelberg：Springer，2014：530-546.

[50]Hochreiter S，Schmidhuber J.Long short-term memory[J].Neural Computation，1997，9（8）：1735-1780.

[51]鄧力，俞棟.深度學(xué)習(xí)方法及應(yīng)用[M].謝磊，譯.北京：機(jī)械工業(yè)出版社，2015：48-57.

[52]Huang P S，Deng L，Hasegawa-Johnson M，et al.Random features for kernel deep convex network[C]//IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP），2013：3143-3147.

[53]Hutchinson B，Deng L，Yu D.A deep architecture with bilinear modeling of hidden representations：Applicationsto phonetic recognition[C]//IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP），2012：4805-4808.

[54]馬世龍，烏尼日其其格，李小平.大數(shù)據(jù)與深度學(xué)習(xí)綜述[J].智能系統(tǒng)學(xué)報，2016，11（6）：728-742.

[55]劉帥師，程曦，郭文燕，等.深度學(xué)習(xí)方法研究新進(jìn)展[J].智能系統(tǒng)學(xué)報，2016，11（5）：567-577.

[56]孫志軍，薛磊，許陽明，等.深度學(xué)習(xí)研究綜述[J].計算機(jī)應(yīng)用研究，2012，29（8）：2806-2810.

[57]Yu D，Deng L.Deep learning and its applications to signal and information processing[J].IEEE Signal Processing Magazine，2011，28（1）：145-154.

[58]Schmidhuber J.Deep learning in neural networks：An overview[J].Neural Networks，2015，61：85-117.

[59]Huang F J，Boureau Y L，LeCun Y.Unsupervised learning of invariant feature hierarchies with applications to object recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition（CVPR），2007：1-8.

[60]Deng L.The MNIST database of handwritten digit images for machine learning research[J].IEEE Signal Processing Magazine，2012，29（6）：141-142.

[61]Palm R B.Prediction as a candidate for learning deep hierarchical models of data[J].Technical University of Denmark，2012，5.

[62]Ba J，F(xiàn)rey B.Adaptive dropout for training deep neural networks[C]//Advances in Neural Information Processing Systems（NIPS），2013：3084-3092.

[63]范竣翔，李琦，朱亞杰，等.基于RNN 的空氣污染時空預(yù)報模型研究[J].測繪科學(xué)，2017，42（7）：76-83.

[64]尹寶才，王文通，王立春.深度學(xué)習(xí)研究綜述[J].北京大學(xué)學(xué)報，2015，41（1）：49-58.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放