深度學(xué)習(xí)方法研究新進展

2016-12-24 08:10:28劉帥師程曦郭文燕陳奇

智能系統(tǒng)學(xué)報 2016年5期

關(guān)鍵詞：玻爾茲曼編碼器信念

劉帥師，程曦，郭文燕，陳奇

(長春工業(yè)大學(xué) 電氣與電子工程學(xué)院，吉林長春 130000)

深度學(xué)習(xí)方法研究新進展

劉帥師，程曦，郭文燕，陳奇

(長春工業(yè)大學(xué) 電氣與電子工程學(xué)院，吉林長春 130000)

本文依據(jù)模型結(jié)構(gòu)對深度學(xué)習(xí)進行了歸納和總結(jié)，描述了不同模型的結(jié)構(gòu)和特點。首先介紹了深度學(xué)習(xí)的概念及意義，然后介紹了4種典型模型：卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)、深度玻爾茲曼機和堆疊自動編碼器，并對近3年深度學(xué)習(xí)在語音處理、計算機視覺、自然語言處理以及醫(yī)療應(yīng)用等方面的應(yīng)用現(xiàn)狀進行介紹，最后對現(xiàn)有深度學(xué)習(xí)模型進行了總結(jié)，并且討論了未來所面臨的挑戰(zhàn)。

深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);深度信念網(wǎng)絡(luò);深度玻爾茲曼機;堆疊自動編碼器

深度學(xué)習(xí)是機器學(xué)習(xí)的一個分支，屬于人工智能的新領(lǐng)域。深度學(xué)習(xí)的本質(zhì)是特征提取，即通過組合低層次的特征形成更加抽象的高層表示，以達到獲得最佳特征的目的[1]。它主要通過神經(jīng)網(wǎng)絡(luò)來模擬人的大腦的學(xué)習(xí)過程,希望實現(xiàn)對現(xiàn)實對象或數(shù)據(jù)(圖像、語音及文本等)的抽象表達,整合特征抽取和分類器到一個學(xué)習(xí)框架下[2]。目前，深度學(xué)習(xí)在許多領(lǐng)域取得了廣泛的關(guān)注，成為當(dāng)今的研究熱點。

2006年，機器學(xué)習(xí)大師Hinton等[3]在《科學(xué)》上發(fā)表的一篇論文，開啟了深度學(xué)習(xí)的浪潮。他提出了深度信念網(wǎng)的概念，成功地利用貪心策略逐層訓(xùn)練由限制玻爾茲曼機組成的深層架構(gòu)，解決了以往深度網(wǎng)絡(luò)訓(xùn)練困難的問題。此后，Hinton、Lecun、Bengio等大量科研人員對深度學(xué)習(xí)的模型構(gòu)建、訓(xùn)練方式等做出了杰出的貢獻。文獻[4]對近幾年新興的深度學(xué)習(xí)的初始化方法、模型結(jié)構(gòu)、學(xué)習(xí)算法等進行了詳細的分析。2014年余濱等[5]從訓(xùn)練方式的角度對深度學(xué)習(xí)進行了總結(jié)。文獻[6]依據(jù)數(shù)據(jù)流向?qū)ι疃葘W(xué)習(xí)進行不同分類，本文將重點放在模型結(jié)構(gòu)，以深度學(xué)習(xí)的核心模型結(jié)構(gòu)而展開。文獻[7]從深度學(xué)習(xí)結(jié)構(gòu)進行展開，本文大量增加了近3年新的研究成果，因此能夠更準(zhǔn)確地反映該領(lǐng)域的最新研究進展。

本文依據(jù)模型結(jié)構(gòu)，著重介紹4種典型的深度學(xué)習(xí)模型，即卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)、深度玻爾茲曼機、堆疊自動編碼器。下面對這些模型進行描述。

1 深度學(xué)習(xí)典型模型

1.1 卷積神經(jīng)網(wǎng)絡(luò)

1.1.1 歷史

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)最早在20世紀80年代就已被提出，是由于在研究貓腦皮層時受到的啟發(fā)。它的典型模型LeNet-5[8]系統(tǒng)，在MNIST上得到了0.9%的錯誤率，并在20世紀90年代就已用于銀行的手寫支票識別[7]。但是，由于在大尺寸圖像上沒有好的效果，一度被人忽視。隨著高效的GPU計算的興起，直到2012年Hinton在ImageNet問題的成功，才使它在近幾年流行起來[9]。如今卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為眾多科學(xué)領(lǐng)域的研究熱點之一，特別是在圖像識別領(lǐng)域。由于該網(wǎng)絡(luò)避免了對圖像的復(fù)雜前期預(yù)處理，可以直接輸入原始圖像，因而得到了廣泛的應(yīng)用。

1.1.2 結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)是前饋神經(jīng)網(wǎng)絡(luò)的一種。卷積神經(jīng)網(wǎng)絡(luò)的模型如圖1所示，它是一個多層的神經(jīng)網(wǎng)絡(luò)，每層由多個二維平面組成，而每個平面由多個獨立神經(jīng)元組成。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)層與層之間神經(jīng)元采取全連接方式，而卷積神經(jīng)網(wǎng)絡(luò)采用稀疏連接方式，即每個特征圖上的神經(jīng)元只連接上一層的一個小區(qū)域的神經(jīng)元連接。

圖1 卷積神經(jīng)網(wǎng)絡(luò)模型

卷積神經(jīng)網(wǎng)絡(luò)的低隱含層是由卷積層和最大池采樣層交替組成，高層通常是全連接層作為分類器使用。

首先，為了降低網(wǎng)絡(luò)的復(fù)雜性，卷積神經(jīng)網(wǎng)絡(luò)采用權(quán)重共享方式，即同一個特征圖，卷積核是一樣的[10]；其次，對得到的特征輸入給一個非線性函數(shù)，比如ReLU等；最后，再采取下采樣方法，比如最大池化等。下采樣的作用是把語義上相似的特征合并起來，這是因為形成一個主題的特征的相對位置不太一樣[1]。

1.1.3 訓(xùn)練方式

卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練采用有監(jiān)督訓(xùn)練方式。首先是向前傳播，即輸入X經(jīng)過卷積神經(jīng)網(wǎng)路后變?yōu)檩敵鯫，再將O與標(biāo)簽進行比較，然后以向后傳播的方式，到將所得誤差傳播到每個節(jié)點，根據(jù)權(quán)值更新公式,更新相應(yīng)的卷積核權(quán)值[4,6]。

此外，以卷積神經(jīng)網(wǎng)絡(luò)為核心的深度學(xué)習(xí)網(wǎng)絡(luò)還有3-D卷積神經(jīng)網(wǎng)絡(luò)(3-D convolutional neural networks,3D-CNN))[11], 光譜網(wǎng)絡(luò)(spectral networks,SN)[12]，金字塔卷積神經(jīng)網(wǎng)絡(luò)(pyramid convolutional neural networks,PCNN)[13],多級金字塔卷積神經(jīng)網(wǎng)絡(luò)(multi level pyamid convolutional neural networks,MLPCNN)[14]等。

1.2 受限制玻爾茲曼機為核心的深度網(wǎng)絡(luò)

受限制玻爾茲曼機為核心的深度網(wǎng)絡(luò)有2種：深度信念網(wǎng)和深度玻爾茲曼機?，F(xiàn)簡要分析二者的區(qū)別。

1.2.1 受限制玻爾茲曼機

受限制玻爾茲曼機(restricted Boltzmann machine,RBM)是一類無向圖模型[4]，由可視層和隱含層組成，與玻爾茲曼機(Boltzmann machine,BM)不同，層內(nèi)無連接，層間有連接。這種結(jié)構(gòu)更易于計算隱含層單元與可視層單元的條件分布[5]。受限制玻爾茲曼機的訓(xùn)練方式通常采用對比散度方(contrastive divergence,CD)。常見的玻爾茲曼機的演變模型如圖2所示。

圖2 玻爾茲曼機演變模型

受限制玻爾茲曼機的演變模型有卷積受限制玻爾茲曼機(convolutional restricted Boltzmann machine,CRBM)[15]、稀疏受限制玻爾茲曼機(sparse restricted Boltzmann machine,SRBM)[16]、稀疏組受限制玻爾茲曼機(sparse group restricted Boltzmann machine,SGRBM)[17]、分類受限制玻爾茲曼機(class restricted Boltzmann machine,CRBM)[18]等。更詳細的描述內(nèi)容參見文獻[19]。

1.2.2 深度信念網(wǎng)絡(luò)

深度信念網(wǎng)絡(luò)(deep belief networks，DBN)是由多個受限制玻爾茲曼機(RBM)疊加而成的深度網(wǎng)絡(luò)。深度信念網(wǎng)絡(luò)的典型結(jié)構(gòu)如圖3所示，它通過無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)來訓(xùn)練整個深度信念網(wǎng)絡(luò)[7]。預(yù)訓(xùn)練時用無標(biāo)簽數(shù)據(jù)單獨訓(xùn)練每一層受限制玻爾茲曼機，通過自下而上的方式，將下層受限制玻爾茲曼機輸出作為上層受限制玻爾茲曼機輸入。當(dāng)預(yù)訓(xùn)練完成后，網(wǎng)絡(luò)會獲得一個較好的網(wǎng)絡(luò)初始值,但這還不是最優(yōu)的[20]。再采用有標(biāo)簽數(shù)據(jù)去訓(xùn)練網(wǎng)絡(luò)，誤差自頂向下傳播，一般采用梯度下降法對網(wǎng)絡(luò)進行微調(diào)。深度信念網(wǎng)絡(luò)的出現(xiàn)是深度學(xué)習(xí)的轉(zhuǎn)折點，目前深度信念網(wǎng)絡(luò)已應(yīng)用于語音、圖像處理等方面，尤其是在大數(shù)據(jù)方面[10]。

圖3 深度信念網(wǎng)絡(luò)典型結(jié)構(gòu)

深度信念網(wǎng)絡(luò)的變種模型有卷積深度信念網(wǎng)(convolutional deep belief networks,CDBN)[21]、稀疏深度信念網(wǎng)(sparse deep belief networks,SDBN)[22]、判別深度信念網(wǎng)(discriminative deep belief networks,DDBN)[23]等。

1.2.3 深度玻爾茲曼機

深度玻爾茲曼機(deep Boltzmann machine,DBM)與深度信念網(wǎng)絡(luò)相似，都是以受限制玻爾茲曼機疊加而成。但是，與深度信念網(wǎng)絡(luò)不同，層間均為無向連接，省略了由上至下的反饋參數(shù)調(diào)節(jié)。訓(xùn)練方式也與深度信念網(wǎng)絡(luò)相似，先采用無監(jiān)督預(yù)訓(xùn)練方法，得到初始權(quán)值，再運用場均值算法，最后采用有監(jiān)督微方式進行微調(diào)。

1.3 堆疊自動編碼器

1.3.1 自動編碼器

自動編碼器(auto encoder,AE)由編碼器與解碼器組成，其原理如圖4所示。核心思想是將輸入信號進行編碼，使用編碼之后的信號重建原始信號，目的是讓重建信號與原始信號相比重建誤差最小[24]。編碼器將輸入數(shù)據(jù)映射到特征空間，解碼器將特征映射回數(shù)據(jù)空間，完成對輸入數(shù)據(jù)的重建。

圖4 自動編碼器原理圖

自動編碼器演化的模型如圖5所示，自動編碼器演化的模型有去噪自動編碼器(denoising auto encoder,DAE)[25]、稀疏自動編碼器(sparse auto encoder,SAE)[26]、收縮自動編碼器(contractive auto encoder,CAE)[27]、卷積自動編碼(convolutional auto encoder,CAE)[28]等。更詳細的描述內(nèi)容參見文獻[29-31]。

圖5 自動編碼器的演變模型

1.3.2 堆疊自動編碼器原理

堆疊自動編碼器(stacked auto encoders,SAE)與深度信念網(wǎng)絡(luò)類似，其結(jié)構(gòu)如圖6所示，都是由簡單結(jié)構(gòu)疊加起來的深層網(wǎng)絡(luò)。簡單來說，就是將DBN中的RBM替換成AE就得到了SAE。自動編碼器的訓(xùn)練過程也是使用貪心逐層預(yù)訓(xùn)練算法，但因為是通過重構(gòu)誤差來進行訓(xùn)練，相比較而言比受限制玻爾茲曼機訓(xùn)練容易[7]。

以自動編碼器及其變種模型的為核心的深度網(wǎng)絡(luò)稱之為深度自動編碼(deep auto encoders,DAE)。文獻[32]對深度自動編碼器進行了詳細的描述。堆疊自動編碼器就是一種典型的深度自動編碼。類似的還有堆疊去噪自動編碼器(stacked denoising auto-encoders,SDAE)[25]、堆疊稀疏自動編碼器(stacked sparse auto encoders,SSAE)[33]等。

圖6 堆疊自動編碼器結(jié)構(gòu)

2 深度學(xué)習(xí)應(yīng)用2.1 語音處理

長期以來，語音識別技術(shù)普遍采用的是聲學(xué)模型混合高斯模型。但這種混合高斯模型本質(zhì)上是一種淺層網(wǎng)絡(luò)建模,不能充分描述特征的狀態(tài)空間分布[34]。2011年微軟[35]將深度學(xué)習(xí)引入語音識別領(lǐng)域，提出深度神經(jīng)網(wǎng)絡(luò)DNN，本質(zhì)上是把混合高斯模型替換成了深度神經(jīng)網(wǎng)絡(luò)模型大大提高識別率。該模型在Switchboard標(biāo)準(zhǔn)數(shù)據(jù)集上的識別錯誤率比最低錯誤率降低了33%。2014年Van等[36]在網(wǎng)絡(luò)音樂平臺Spotify使用深度卷積神經(jīng)網(wǎng)絡(luò)做基于內(nèi)容的音樂推薦，以及實現(xiàn)依靠音頻信號預(yù)測聽眾的收聽喜好，然后采用WMF(weighted matrix factorization)模型進行評分預(yù)測。百度的深度學(xué)習(xí)語音識別系統(tǒng)DeepSpeech[37]可以在飯店等嘈雜環(huán)境下實現(xiàn)將近 81% 的辨識準(zhǔn)確率。2015年Chan等[38]提出了LAS( listen, attend and spell )系統(tǒng)。該系統(tǒng)利用金字塔式雙向的RNN網(wǎng)絡(luò)。不同于傳統(tǒng)的模型，不需要完整的端對端的CTC(connectionist temporal classification)，實現(xiàn)跳過音素直接把語音識別為字符，合成了約4萬小時音頻。當(dāng)不依賴語音詞典和語言模型時在谷歌語音搜索任務(wù)詞錯率達到14.2%，當(dāng)結(jié)合語言模型時詞錯率達到11.2%。

2.2 計算機視覺

2012年Hinton[39]和他的2個學(xué)生在著名的ImageNet問題上用更深的卷積神經(jīng)網(wǎng)絡(luò)取得世界最好結(jié)果，贏得了冠軍，使得圖像識別大踏步前進。隨后，深度學(xué)習(xí)在圖像處理方面取得突破性進展，如物體定位[40]、臉部識別[41]和人體姿勢估計[42]等。2015年深海團隊[43]利用卷積神經(jīng)網(wǎng)絡(luò)對3萬個例子進行121種浮游生物分類。Denton等[44]利用卷積神經(jīng)網(wǎng)絡(luò)通過用戶的性別、年齡、城市和圖片等特征進行整合。在Facebook上對用戶上傳的圖片進行標(biāo)簽、分類。

2.2.1 圖像語義分割

圖像包括很多層信息，例如這幅圖像是否有特定的物體(如汽車)。所謂的圖像語義分割，就是描述圖片中包含哪些物體、包括街頭的場景分割、三維掃描、對3-D人體解剖分割定位等。因為是基于像素分類方法，所以這個問題會帶來巨大的計算量。2015年Long等[45]提出了利用全卷積網(wǎng)絡(luò) (fully convolutional networks,FCN,)的概念去進行圖像語義分割。同年Behnke等[46]提出了語義RGB-D感知器的概念，使得基于深度學(xué)習(xí)的圖像語義分割得到進一步發(fā)展。

2.2.2 人臉識別

Linkface 開發(fā)了基于深度學(xué)習(xí)的人臉檢測創(chuàng)新算法。無論場景中是單人還是多人，是側(cè)臉、半遮擋還是模糊等情景中，均能進行精準(zhǔn)檢測。據(jù)全球最具權(quán)威的人臉檢測評測平臺 FDDB 最新數(shù)據(jù)，Linkface 的人臉檢測算法達到了世界領(lǐng)先的水平。2014年Facebook開發(fā)一種叫DeepFace[41]技術(shù)。其貢獻在于對人臉對齊和人臉表示環(huán)節(jié)的改進。通過革新的3-D人臉建模勾勒出臉部特征，然后通過顏色過濾做出一個刻畫特定臉部元素的平面模型。Facebook 建立了一個來自于4 030個人的440萬張標(biāo)簽化的人臉池，F(xiàn)acebook 稱這是迄今為止最大規(guī)模的人臉池。它是一個擁有9層的深度卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)有超過1.2億個參數(shù)。該技術(shù)在LFW數(shù)據(jù)集上取得了97.25%的平均精度，已經(jīng)接近人類的識別水平。2015年Google提出FaceNet[47]進行人臉驗證。它直接學(xué)習(xí)圖像到歐式空間上點的映射，然后基于這個編碼再做人臉識別、人臉驗證和人臉聚類等。其中兩張圖像所對應(yīng)的特征歐式空間上的點之間的距離直接對應(yīng)著兩個圖像是否相似。FaceNet并沒有像DeepFace和DeepID那樣需要對齊。FaceNet得到最終表示后不用像DeepID那樣需要再訓(xùn)練模型進行分類，直接計算距離就可以，簡單而有效。在Youtube數(shù)據(jù)集上測試準(zhǔn)確率為95.12%。

目前，傳統(tǒng)人臉識別技術(shù)主要集中在可見光譜的范疇，對于跨模態(tài)人臉識別問題尚無好的解決方法。2015年Sarfraz等[48]利用深度神經(jīng)網(wǎng)絡(luò)，成功將紅外熱圖像與可見光圖像進行匹配，實現(xiàn)了跨模態(tài)人臉匹配。該網(wǎng)絡(luò)可以在短短35 ms的時間內(nèi)，能夠?qū)⒓t外熱圖像匹配到其可見光圖像，可以實現(xiàn)實時運行。

2.2.3 表情識別

目前，大部分研究者把卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在表情識別上。例如，2013年Liu等[49]提出了構(gòu)建一個新的深層結(jié)構(gòu)(AU-aware deep networks,AUDN)，基于卷積神經(jīng)網(wǎng)絡(luò)進行特征提取，連接SVM做表情分類器。2014年Ouellet等[50]使用卷積神經(jīng)網(wǎng)絡(luò)對電腦前的游戲玩家進行實時表情識別。Song等[51]利用了一種5層卷積神經(jīng)網(wǎng)絡(luò),實現(xiàn)了每幅圖像在服務(wù)器的預(yù)測時間為50 ms，每個圖像的往返時間小于100 ms，在智能手機上實現(xiàn)實時表情識別。Ijjina等[52]用Kinect深度傳感器得到的圖片作為表情識別的對象，并在卷積神經(jīng)網(wǎng)絡(luò)進行表情識別取得了較好的效果。Byeon等[53]使用3D卷積神經(jīng)網(wǎng)絡(luò)去識別視頻人臉表情。文獻[54]證明在實時表情識別系統(tǒng)，卷積神經(jīng)網(wǎng)絡(luò)比深層神經(jīng)網(wǎng)絡(luò)具有更好的效果。

還有一部分研究者利用其他深度學(xué)習(xí)模型進行表情識別。例如，McLaughlin等[55]提出一種基于深度信念網(wǎng)絡(luò)的實時表情識別系統(tǒng)，但只能檢測4種表情。2013年He等[56]利用深度玻爾茲曼機對紅外熱圖像進行表情識別。

此外，一些研究者們將多種深度學(xué)習(xí)模型結(jié)合起來進行表情識別。例如，2014年LYU等[57]將深度信念網(wǎng)絡(luò)與自編碼器相結(jié)合來進行識別。2015年Jung等[58]將卷積神經(jīng)網(wǎng)絡(luò)與深度神經(jīng)網(wǎng)絡(luò)合起來。Kahou等[59]提出一種視頻表情識別系統(tǒng)EmoNets。卷積神經(jīng)網(wǎng)絡(luò)捕捉視頻信息，檢測人臉。深度信念網(wǎng)絡(luò)捕捉音頻信息，自編碼器捕捉人肢體行為。該理論贏得了2013 EmotiW 挑戰(zhàn)賽，在2014的數(shù)據(jù)集上準(zhǔn)確率達到47.67%。

2.3 自然語言處理

Sashihithlu等[60]采用遞歸自編碼方法(recursive auto encoders,RAE)來解決較為復(fù)雜的情感分析問題。Johnson等[61]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)直接在詞袋模型(BoW)上用做文本分類任務(wù)。2015年谷歌的Good等利用深度神經(jīng)網(wǎng)絡(luò)開發(fā)了字鏡頭(word lens)實時視頻翻譯性能和通話實時翻譯功能。它可以實現(xiàn)拿著手機攝像頭對著實物，實物中的文字就可被即時識別出，并被翻譯成目標(biāo)語言，目前該技術(shù)可支持20多種語言的即時視覺翻譯。更重要的是即使它在不聯(lián)網(wǎng)的狀態(tài)下也能進行工作，所有深度學(xué)習(xí)的龐大計算都是在手機上完成的。李婷等[62]利用堆疊去噪自動編碼器(stack denoising auto encoder,SDAE)識別盲文。

2.4 醫(yī)療應(yīng)用

Deep Genomics公司開始把基因組和深度學(xué)習(xí)結(jié)合起來，Deep Genomics 已經(jīng)推出了他們的第一款產(chǎn)品 SPIDEX。只需將測試結(jié)果和細胞類型導(dǎo)入，SPIDEX 便可分析出某一變異對 RNA 剪切的影響，并計算出該變異與疾病之間的關(guān)系。Koziol等[63]利用一種受限玻爾茲曼機用于肝細胞癌的分類。2015年Fauw等[64]利用20多層的卷積神經(jīng)網(wǎng)絡(luò)檢測糖尿病視網(wǎng)膜病變的眼底圖像。

3 模型總結(jié)及面臨的挑戰(zhàn)

3.1 深度學(xué)習(xí)模型

本文對深度學(xué)習(xí)模型進行分類、概括，在此以模型的結(jié)構(gòu)為序，對深度學(xué)習(xí)模型進行總結(jié)如表1～表3所示。

1)模型結(jié)構(gòu)。目前，大部分的深度學(xué)習(xí)模型都是以卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)、深度玻爾茲曼機、堆疊自動編碼器等幾種基本模型為基礎(chǔ)演變而來。除此之外，還有像遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneural networks,RNN)[74]、深度凸形網(wǎng)絡(luò)(deep convex net,DCN)[75]等其他類型的新型深度模型。

2)訓(xùn)練方式。深度學(xué)習(xí)模型的訓(xùn)練方式主要有有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)2種。訓(xùn)練方式因模型結(jié)構(gòu)而異，一般以卷積神經(jīng)網(wǎng)絡(luò)為核心的模型一般采取有監(jiān)督訓(xùn)練方式。而以受限制玻爾茲曼機與自動編碼器為核心的模型，大部分采用無監(jiān)督學(xué)習(xí)方式預(yù)訓(xùn)練，配合有監(jiān)督微調(diào)模式進行參數(shù)訓(xùn)練。

表1 典型深度學(xué)習(xí)模型

表2 玻爾茲曼機及其演化模型

表3 自動編碼器及其演化模型

3)應(yīng)用領(lǐng)域。深度學(xué)習(xí)在語音處理、計算機視覺的應(yīng)用已十分廣泛，許多技術(shù)已用于商用。但是，在自然語言處理的應(yīng)用尚不成熟[1]。一些研究者嘗試用遞歸神經(jīng)網(wǎng)絡(luò)去解決這一問題。文獻[74-78]對遞歸神經(jīng)網(wǎng)絡(luò)在文本生成和機器翻譯的應(yīng)用做出了詳細的描述。目前，遞歸神經(jīng)網(wǎng)絡(luò)的變種模型長短時記憶模型 (long short-term memory,LSTM)被證明比傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)更加有效[79]。

3.2 面臨的挑戰(zhàn)

1)模型結(jié)構(gòu)創(chuàng)新。自Hinton提出深度學(xué)習(xí)的思想以來，已經(jīng)涌現(xiàn)出大量的深度學(xué)習(xí)模型，然而大部分的模型的構(gòu)建依舊停留在以簡單模型(如AE,RBM等)疊加而成的深度網(wǎng)絡(luò)，或是幾種深度學(xué)習(xí)模型簡單相疊加，來構(gòu)建深度學(xué)習(xí)模型。這種形式的模型往往不能發(fā)揮深度學(xué)習(xí)的優(yōu)勢，是否存在其他有效的深度學(xué)習(xí)模型，是否可以讓深度學(xué)習(xí)與其他方法進行融合，這是今后要研究的問題。

2)訓(xùn)練方式的改進。深度學(xué)習(xí)已經(jīng)在各個領(lǐng)域取得了突破性的成果，大部分深度學(xué)習(xí)模型均采用無監(jiān)督學(xué)習(xí)方式。但是，離完全的無監(jiān)督學(xué)習(xí)還有一定的距離。目前的深度學(xué)習(xí)模型在無監(jiān)督預(yù)訓(xùn)練后，仍然需要有監(jiān)督的微調(diào)，并沒有做到完全意義上的無監(jiān)督學(xué)習(xí)。因此，如何做到完全意義上的無監(jiān)督學(xué)習(xí)是未來研究的重點。

3)減少訓(xùn)練時間。當(dāng)待解決的問題過于復(fù)雜，使深度學(xué)習(xí)模型參數(shù)增加時，會導(dǎo)致模型的訓(xùn)練時間逐漸上升，是否可以在不改變硬件性能的條件下，對算法進行改進，在保證精度的同時，提高訓(xùn)練速度。所以，減少訓(xùn)練時間，仍是深度學(xué)習(xí)需要努力的研究方向。

4)實現(xiàn)在線學(xué)習(xí)。目前，深度學(xué)習(xí)的算法大多采用無監(jiān)督預(yù)訓(xùn)練與有監(jiān)督微調(diào)配合的方式進行。然而，一旦在線環(huán)境下引入全局微調(diào)，會使結(jié)果陷入局部最小值。因此，這種訓(xùn)練算法不利于在線學(xué)習(xí)。是否可以改進算法進而將深度學(xué)習(xí)應(yīng)用于在線環(huán)境，這是未來要思考的問題。

5)克服對抗樣本。通過稍微修改實際樣本，而構(gòu)造出的合成樣本，會使一個分類器以高置信度認為它們屬于錯誤的分類，這就是深度學(xué)習(xí)對抗樣本問題[80-82]。研究如何克服它們可以幫助我們避免潛在的安全問題。然而，目前為止并沒有好的方法出現(xiàn)。一些研究人員嘗試使用常見的正則化方法(包括均化多重模型、均化圖像多采樣觀測等)去解決這一問題，但是并沒有取得良好的進展。因此，深度學(xué)習(xí)的對抗樣本問題仍然是待解決的難題之一。

4 結(jié)束語

本文詳細描述了幾種典型的深度學(xué)習(xí)模型的構(gòu)造原理，以及訓(xùn)練方法。并且，對近3年深度學(xué)習(xí)在各個領(lǐng)域的應(yīng)用進行了概括。最后，在現(xiàn)有深度學(xué)習(xí)模型的基礎(chǔ)上討論了深度學(xué)習(xí)面臨的挑戰(zhàn)。

深度學(xué)習(xí)自提出以來已經(jīng)在許多領(lǐng)域取得了突破性的進展。但是，在深度學(xué)習(xí)實際應(yīng)用的過程中，往往為了要構(gòu)造合適的深度學(xué)習(xí)模型而大費周章。因為目前的深度學(xué)習(xí)模型大部分是為了解決某一特定問題，而量身定做的。如果用于解決其他問題，效果往往不盡如人意。今后研究者們能否通過改進結(jié)構(gòu)與算法，研究出一種可以應(yīng)對大部分問題深度學(xué)習(xí)算法，這是未來要思考的難題。

[1]LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[2]林妙真. 基于深度學(xué)習(xí)的人臉識別研究[D]. 大連: 大連理工大學(xué), 2013. LIN Miaozhen. Research on face recognition based on deep learning[D]. Dalian, China: Dalian University of Technology, 2013.

[3]HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

[4]劉建偉, 劉媛, 羅雄麟. 深度學(xué)習(xí)研究進展[J]. 計算機應(yīng)用研究, 2014, 31(7): 1921-1930, 1942. LIU Jianwei, LIU Yuan, LUO Xionglin. Research and development on deep learning[J]. Application research of computers, 2014, 31(7): 1921-1930, 1942.

[5]余濱, 李紹滋, 徐素霞, 等. 深度學(xué)習(xí): 開啟大數(shù)據(jù)時代的鑰匙[J]. 工程研究-跨學(xué)科視野中的工程, 2014, 6(3): 233-243. YU Bin, LI Shaozi, XU Suxia, et al. Deep learning: a key of stepping into the era of big data[J]. Journal of engineering studies, 2014, 6(3): 233-243.

[6]尹寶才, 王文通, 王立春. 深度學(xué)習(xí)研究綜述[J]. 北京工業(yè)大學(xué)學(xué)報, 2015, 41(1): 48-59. YIN Biaocai, WANG Wentong, WANG Lichun. Review of deep learning[J]. Journal of Beijing university of technology, 2015, 41(1): 48-59.

[7]張建明, 詹智財, 成科揚, 等. 深度學(xué)習(xí)的研究與發(fā)展[J]. 江蘇大學(xué)學(xué)報: 自然科學(xué)版, 2015, 36(2): 191-200. ZHANG Jianming, ZHAN Zhicai, CHENG Keyang, et al. Review on development of deep learning[J]. Journal of Jiangsu university: natural science editions, 2015, 36(2): 191-200.

[8]LECUN Y, JACKEL L D, BOTTOU L, et al. Learning algorithms for classification: a comparison on handwritten digit recognition[M]//OH J H, KWON C, CHO S. Neural Networks: The Statistical Mechanics Perspective. Singapore: World Scientific, 1995: 261-276.

[9]陳先昌. 基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D]. 杭州: 浙江工商大學(xué), 2014. CHEN Xianchang. Research on algorithm and application of deep learning based on convolutional neural network[D]. Hangzhou, China: Zhejiang Gongshang University, 2014.

[10]李衛(wèi). 深度學(xué)習(xí)在圖像識別中的研究及應(yīng)用[D]. 武漢: 武漢理工大學(xué), 2014. LI Wei. The research and application of deep learning in image recognition[D]. Wuhan: Wuhan University of Technology, 2014.

[11]JI Shuiwang, XU Wei, YANG Ming, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221-231.

[12]BRUNA J, ZAREMBA W, SZLAM A, et al. Spectral networks and locally connected networks on graphs[EB/OL].Eprint Arxiv: Arxiv,2013. [2014-10-10] http://120.52.73.79/arxiv.org/pdf/1312.6203v3.pdf.

[13]FAN Haoqiang, CAO Zhimin, JIANG Yuning, et al. Learning deep face representation[EB/OL]. Eprint Arxiv: Arxiv, 2014. [2014-10-10] http://120.52.73.80/arxiv.org/pdf/1403.2802v1.pdf.

[14]王冠皓, 徐軍. 基于多級金字塔卷積神經(jīng)網(wǎng)絡(luò)的快速特征表示方法[J]. 計算機應(yīng)用研究, 2015, 32(8): 2492-2495. WANG Guanhao, XU Jun. Fast feature representation method based on multi-level pyramid convolution neural network[J]. Application research of computers, 2015, 32(8): 2492-2495.

[15]LEE H, GROSSE R, RANGANATH R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. New York, NY, USA, 2009: 609-616.

[16]LEE H, EKANADHAM C, NG A Y. Sparse deep belief net model for visual area V2[C]//Advances in Neural Information Processing Systems 20: 21st Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2007: 873-880.

[17]羅恒. 基于協(xié)同過濾視角的受限玻爾茲曼機研究[D]. 上海: 上海交通大學(xué), 2011. LUO Heng. Restricted Boltzmann machines: a collaborative filtering perspective[D]. Shanghai, China: Shanghai Jiao Tong University, 2011.

[18]LAROCHELLE H, BENGIO Y. Classification using discriminative restricted Boltzmann machines[C]//Proceedings of the 25th International Conference on Machine Learning. New York, NY, USA, 2008: 536-543.

[19]張春霞, 姬楠楠, 王冠偉. 受限波爾茲曼機[J]. 工程數(shù)學(xué)學(xué)報, 2015, 32(2): 159-173. ZHANG Chunxia, JI Nannan, WANG Guanwei. Restricted Boltzmann machines[J]. Chinese journal of engineering mathematics, 2015, 32(2): 159-173.

[20]劉銀華. LBP和深度信念網(wǎng)絡(luò)在非限制條件下人臉識別研究[D]. 江門: 五邑大學(xué), 2014. LIU Yinhua. The research of face recognition under unconstrained condition via LBP and deep belief network[D]. Jiangmen: Wuyi University, 2014.

[21]LEE H, GROSSE R, RANGANATH R, et al. Unsupervised learning of hierarchical representations with convolutional deep belief networks[J]. Communications of the ACM, 2011, 54(10): 95-103.

[22]HALKIAS X C, PARIS S, GLOTIN H. Sparse penalty in deep belief networks: using the mixed norm constraint[EB/OL]. [2014-05-08]. http://arxiv.org/pdf/1301.3533.pdf.

[23]LIU Yan, ZHOU Shusen, CHEN Qingcai. Discriminative deep belief networks for visual data classification[J]. Pattern recognition, 2011, 44(10/11): 2287-2296.

[24]鄭胤, 陳權(quán)崎, 章毓晉. 深度學(xué)習(xí)及其在目標(biāo)和行為識別中的新進展[J]. 中國圖象圖形學(xué)報, 2014, 19(2): 175-184. ZHENG Yin, CHEN Quanqi, ZHANG Yujin. Deep learning and its new progress in object and behavior recognition[J]. Journal of image and graphics, 2014, 19(2): 175-184.

[25]VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th International Conference on Machine Learning. New York, NY, USA, 2008: 1096-1103.

[26]BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[C]//Advances in Neural Information Processing Systems 19: 20th Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2006: 153-160.

[27]RIFAI S, VINCENT P, MULLER X, et al. Contractive auto-encoders: explicit invariance during feature extraction[C]//Proceedings of the 28th International Conference on Machine Learning. Bellevue, WA, USA, 2011.

[28]MASCI J, MEIER U, CIREAN D, et al. Stacked convolutional auto-encoders for hierarchical feature extraction[C]//Proceedings of the 21st International Conference on Artificial Neural Networks, Part I. Berlin Heidelberg, Germany, 2011: 52-59.

[29]王雅思. 深度學(xué)習(xí)中的自編碼器的表達能力研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2014. WANG Yasi. Representation ability research of auto-encoders in deep learning[D]. Harbin: Harbin Institute of Technology, 2014.

[30]李遠豪. 基于深度自編碼器的人臉美麗吸引力預(yù)測研究[D]. 江門: 五邑大學(xué), 2014. LI Yuanhao. A study for facial beauty attractiveness prediction based on deep autoencoder[D]. Jiangmen: Wuyi University, 2014.

[31]林洲漢. 基于自動編碼機的高光譜圖像特征提取及分類方法研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2014. LIN Zhouhan. Hyperspectral image feature extraction and classification based on autoencoders[D]. Harbin: Harbin Institute of Technology, 2014.

[32]曲建嶺, 杜辰飛, 邸亞洲, 等. 深度自動編碼器的研究與展望[J]. 計算機與現(xiàn)代化, 2014(8): 128-134. QU Jianling, DU Chenfei, DI Yazhou, et al. Research and prospect of deep auto-encoders[J]. Jisuanji yu xiandaihua, 2014(8): 128-134.

[33]林少飛, 盛惠興, 李慶武. 基于堆疊稀疏自動編碼器的手寫數(shù)字分類[J]. 微處理機, 2015(1): 47-51. LIN Shaofei, SHENG Huixing, LI Qingwu. Handwritten digital classification based on the stacked sparse autoencoders[J]. Microprocessors, 2015(1): 47-51.

[34]陳碩. 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用研究[D]. 廣州: 華南理工大學(xué), 2013. CHEN Shuo. Research of deep learning neural networks applications in speech recognition[D]. Guangzhou, China: South China University of Technology, 2013.

[35]郭麗麗, 丁世飛. 深度學(xué)習(xí)研究進展[J]. 計算機科學(xué), 2015, 42(5): 28-33. GOU Lili, DING Shifei. Research progress on deep learning[J]. Computer science, 2015, 42(5): 28-33.

[36]VAN DEN OORD A, DIELEMAN S, SCHRAUWEN B. Deep content-based music recommendation[M]//Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems. Lake Tahoe, 2013: 2643-2651.

[37]HANNUN A, CASE C, CASPER J, et al. Deep speech: scaling up end-to-end speech recognition[EB/OL]. Eprint Arxiv: Arxiv, 2014.[2014-12-19] https://arxiv.org/pdf/1412.5567v2.pdf.

[38]余凱, 賈磊, 陳雨強. 深度學(xué)習(xí)的昨天、今天和明天[J]. 計算機研究與發(fā)展, 2013, 50(9): 1799-1804. YU Kai, JIA Lei, CHEN Yuqiang. Deep learning: yesterday, today, and tomorrow[J]. Journal of computer research and development, 2013, 50(9): 1799-1804.

[39]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, 2014: 580-587.

[40]TAIGMAN Y, YANG Ming, RANZATO M A, et al. DeepFace: closing the gap to human-level performance in face verification[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, 2014: 1701-1708.

[41]TOSHEV A, SZEGEdY C. DeepPose: human pose estimation via deep neural networks[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, 2014: 1653-1660.

[42]DIELEMAN S. Classifying plankton with deep neural networks[EB/OL]. (2015-03-17)[2015-05-30]. http://benanne.github.io/2015/03/17/plankton.html.

[43]DENTON E, WESTON J, PALURI M, et al. User conditional hashtag prediction for images[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA, 2015: 1731-1740.

[44]LONG J, SHELHAMER E, DARRELL T Fully convolutional networks for semantic segmentation[J]. IEEE Conference on Computer Vision & Pattern Recognition. 2015, 79(10):1337-1342.

[45]SCHWARA M, SCHULZ H, BEHNKE S. RGB-D object recognition and pose estimation based on pre-trained convolutional neural network features[C]//Proceedings of the 2015IEEE International Conference on Robotics and Automation.Seattle, WA, 2015: 1329-1335.

[46]SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: A unified embedding for face recognition and clustering[C]// Computer Vision and Pattern Recognition (CVPR), Boston,USA,2015:815-823.

[47]SARFRAZ M S, STIEFELHAGEN R. Deep perceptual mapping for thermal to visible face recognition.[EB/OL] Eprint Arxiv: Arxiv,2015.[2015-12-23].http://120.52.73.80/arxiv.org/pdf/1507.02879v1.pdf.

[48]LIU Mengyi, LI Shaoxin, SHAN Shiguang, et al. Au-aware deep networks for facial expression recognition[C]//Proceedings of the 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Shanghai, China, 2013: 1-6.

[49]OUELLET S. Real-time emotion recognition for gaming using deep convolutional network features[EB/OL]. Eprint Arxiv: Arxiv,2014.[2014-7-16].https://arxiv.org/pdf/1408.3750v1.pdf.

[50]SONG I, KIM H J, JEON P B. Deep learning for real-time robust facial expression recognition on a smartphone[C]//Proceedings of the 2014 IEEE International Conference on Consumer Electronics. Las Vegas, NV, 2014: 564-567.

[51]IJJINA E P, MOHAN C K. Facial expression recognition using kinect depth sensor and convolutional neural networks[C]//Proceedings of the 2014 13th International Conference on Machine Learning and Applications. Detroit, MI, 2014: 392-396.

[52]BYEON Y H, KWAK K C. Facial expression recognition using 3D convolutional neural network[J]. International journal of advanced computer science and applications, 2014, 5(12): 107-112.

[53]JUNG H, LEE S, PARK S, et al. Development of deep learning-based facial expression recognition system[C]// Frontiers of Computer Vision (FCV), 2015 21st Korea-Japan Joint Workshop on 2015:1-4.

[54]MCLAUGHLIN T, MAI L, BAYANBAT N. Emotionrecognition with deep-belief networks[EB/OL].2008 http://cs229.stanford.edu/proj2010/McLaughlinLeBayanbat-RecognizingEmotionsWithDeepBeliefNets.pdf.

[55]HE Shan, WANG Shanfei, LAN Wuwei, et al. Facial expression recognition using deep Boltzmann machine from thermal infrared images[C]//Proceedings of the 2013 Humaine Association Conference on Affective Computing and Intelligent Interaction. Geneva, 2013: 239-244.

[56]LV Yadan, FENG Zhiyong, XU Chao. Facial expression recognition via deep learning[C]//Proceedings of the 2014 International Conference on Smart Computing. Hong Kong, China, 2014: 303-308.

[57]JUNG H, LEE S, PARK S, et al. Deep temporal appearance-geometry network for facial expression recognition[EB/OL] .Eprint Arxiv: Arxiv,2015.[2015-6-5].http://120.52.73.75/arxiv.org/pdf/1503.01532v1.pdf.

[58]KAHOU S E, BOUTHILLIER X, LAMBLIN P et al. EmoNets: Multimodal deep learning approaches for emotion recognition in video[J]. Journal on Multimodal User Interfaces, 2015, 10(2):1-13.

[59]SASHIHITHLU S, SOMAN S S. Complex sentimentanalysis using recursive autoencoders[EB/OL]. Core.ac.Uk: CiteSeerX,2013.[2015-9-30].https://core.ac.uk/display/23426251.

[60]JOHNSON R, ZHANG Tong. Effective use of word order for text categorization with convolutional neural networks[EB/OL]. Eprint Arxiv: Arxiv,2014.[2014-10-10]. http://120.52.73.79/arxiv.org/pdf/1412.1058.pdf.

[61]李婷. 基于深度學(xué)習(xí)的盲文識別方法[J]. 計算機與現(xiàn)代化, 2015(6): 37-40. LI Ting. A deep learing method for braille recognition[J].Jisuanji yu xiandaihua, 2015(6): 37-40.

[62]KOZIOL J A, TAN E M, DAI Liping, et al. Restricted Boltzmann machines for classification of hepatocellular carcinoma[J]. Computational biology journal, 2014, 2014: 418069.

[63]FAUW J D. Detecting diabetic retinopathy in eye images[EB/OL]. 2015[2015-07-28]. http://jeffreydf.github.io/diabetic-retinopathy-detection.

[64]CUN Y L, BOSER B, DENKER J S, et al. Handwritten digit recognition with a back-propagation network[C]//Advances in Neural Information Processing Systems 2. San Francisco, CA, USA, 1990: 396-404.

[65]JI Shuiwang, XU Wei, YANG Ming, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 22l-231.

[66]HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.

[67]SALAKHUTDINOV R, HINTON G E. Deep Boltzmann machines[C]//Proceedings of the 12th International Conference on Artificial Intelligence and Statistics. Clearwater, Florida, USA, 2009: 448-455.

[68]杜騫. 深度學(xué)習(xí)在圖像語義分類中的應(yīng)用[D]. 武漢: 華中師范大學(xué), 2014. DU Qian. Application of deep learning in image semantic classification[D]. Wuhan: Central China Normal University, 2014.

[69]BENGIO Y. Learning deep architectures for AI[J]. Foundations and trendse in machine learning, 2009, 2(1): 1-127.

[70]HINTON G E, SEJNOWSKI T J. Learning and relearning in Boltzmann machines[M]//Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge, MA, USA: MIT Press, 1986.

[71]SMOLENSKY P. Information processing in dynamical systems: foundations of harmony theory[M]//Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge, MA, USA: MIT Press, 1986.

[72]RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536.

[73]MIKOLOV T, KARAFIT M, BURGET L, et al. Recurrent neural network based language model[C]//Proceedings of the Interspeech 2010 11th Annual Conference of the International Speech Communication Association. Makuhari, Chiba, Japan, 2010: 1045-1048.

[74]DENG Li, YU Dong. Deep convex net: a scalable architecture for speech pattern classification[C]//Proceedings of the 12th Annual Conference of the International Speech Communication Association. Florence, Italy, 2011: 2296-2299.

[75]MIKOLOV T, KOMBRINK S, BURGET L. Extensions of recurrent neural network language model[C]//Proceedings of the 2011 IEEE International Conference on Acoustics, Speech and Signal Processing.Prague, 2011: 5528-5531.

[76]LIU Shujie, YANG Nan, LI Mu, et al. A recursive recurrent neural network for statistical machine translation[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, Maryland, USA, 2014: 1491-1500.

[77]SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[EB/OL]. 2014. [2014-10-12].http://120.52.73.79/arxiv.org/pdf/1409.3215v3.pdf.

[78]GRAVES A, MOHAMED A R, HINTON G. Speech recognition with deep recurrent neural networks[C]//Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, BC, 2013: 6645-6649.

[79]SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al.Intriguing properties of neural networks[EB/OL]. Eprint Arxiv: Arxiv,2014.[2014-10-12]. http://120.52.73.78/arxiv.org/pdf/1312.6199v4.pdf.

[80]NGUYEN A, YOSINSKI J, CLUNE J Deep neural networks are easily fooled: High confidence predictions for unrecognizable images[C]// Computer Vision and Pattern Recognition. IEEE, Boston,USA,2015:427-436.

[81]LIPTON Z C. (Deep learning’s deep flaws)’s deep flaws[EB/OL]. [2015-07-28]. http://www.kdnuggets.com/2015/01/deep-learning-flaws-universal-machine-learning.html.

劉帥師，女，1981年生，講師，博士，主要研究方向為模式識別、計算機視覺。

程曦，男，1989年生，碩士研究生，主要研究方向為模式識別、機器學(xué)習(xí)。

郭文燕，女，1991年生，碩士研究生，主要研究方向為模式識別、機器學(xué)習(xí)。

Progress report on new research in deep learning

LIU Shuaishi, CHENG Xi, GUO Wenyan, CHEN Qi

(College of Electrical and Electronic Engineering, Changchun University of Technology, Changchun 130000, China)

Deep learning has recently received widespread attention. Using a model structure, this paper gives a summarization and analysis on deep learning by describing and reviewing the structure and characteristics of different models. The paper firstly introduces the concept and significance of deep learning, and then reviews four typical models: a convolutional neural network; deep belief networks; the deep Boltzmann machine; and an automatic stacking encoder. The paper then concludes by reviewing the applications of deep learning as regards speech processing, computer vision, natural language processing, medical science, and other aspects. Finally, the existing deep learning model is summarized and future challenges discussed.

deep learning; convolutional neural network; deep belief networks; deep Boltzmann machine; automatic stacking encoder

2015-11-27.

日期：2016-07-15.

吉林省科技廳青年科研基金項目(20140520065JH,20140520076JH)；長春工業(yè)大學(xué)科學(xué)研究發(fā)展基金自然科學(xué)計劃項目(2010XN07).

. E-mail:劉帥師. E-mail:liu-shuaishi@126.com.

TP18

1673-4785(2016)05-0567-10

10.11992/tis.201511028

http://www.cnki.net/kcms/detail/23.1538.TP.20160715.1353.002.html

劉帥師，程曦，郭文燕，等.深度學(xué)習(xí)方法研究新進展[J]. 智能系統(tǒng)學(xué)報， 2016, 11(5): 567-577.

英文引用格式：LIU Shuaishi, CHENG Xi, GUO Wenyan, et al. Progress report on new research in deep learning[J]. CAAI transactions on intelligent systems, 2016,11(5):567-577.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度學(xué)習(xí)方法研究新進展

1 深度學(xué)習(xí)典型模型

3 模型總結(jié)及面臨的挑戰(zhàn)

4 結(jié)束語