編譯/房曉楠
深度學(xué)習(xí)進(jìn)化編年史:一路走來,幾十年的風(fēng)風(fēng)雨雨
編譯/房曉楠
人工智能的概念提出已有60多年之久,而關(guān)于人工智能、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)三者之間的關(guān)系,在許多人看來一直都是撲朔迷離。本文編譯自 Import.io官方博客,作者Andrew Fogg將對這三者之間的關(guān)系進(jìn)行梳理,繼而講述深度學(xué)習(xí)的成長史,了解深度學(xué)習(xí)幾十年來所歷經(jīng)的風(fēng)風(fēng)雨雨。
人工智能自1956年在美國達(dá)特茅斯大會(huì)提出至今,已經(jīng)走過了60多個(gè)年頭,而關(guān)于人工智能的定義一直是眾說紛紜。一種流傳較廣的定義是“所謂人工智能,就是與人類思考方式相似的計(jì)算機(jī)程序”。一般來說,根據(jù)應(yīng)用范圍的相應(yīng)大小,可以將人工智能分為通用人工智能和應(yīng)用人工智能。近年來,隨著技術(shù)的發(fā)展,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)一直都是業(yè)界的熱門話題,而這三者之間又具有怎樣的關(guān)系?
2015年9月,谷歌搜索中機(jī)器學(xué)習(xí)的熱度超過人工智能
Google Trends數(shù)據(jù)顯示,自2015年起,機(jī)器學(xué)習(xí)的搜索熱度遠(yuǎn)超過人工智能本身。什么是機(jī)器學(xué)習(xí)呢?一般來說,機(jī)器學(xué)習(xí)(Machine Learning)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能。決策樹學(xué)習(xí),歸納邏輯編程,聚類,強(qiáng)化學(xué)習(xí)或貝葉斯網(wǎng)絡(luò)等算法都有助于它們對輸入數(shù)據(jù)進(jìn)行理解?,F(xiàn)如今,機(jī)器學(xué)習(xí)在諸如數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、生物特征識(shí)別和搜索引擎等領(lǐng)域已經(jīng)具有十分廣泛的應(yīng)用。可以說機(jī)器學(xué)習(xí)是人工智能的一大跨越式進(jìn)步,但是并不能伴其走向終點(diǎn)線。
深度學(xué)習(xí)趨勢圖
如果機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,那么深度學(xué)習(xí)就是機(jī)器學(xué)習(xí)的一個(gè)分支。而三者之間的關(guān)系可以表示為:人工智能>機(jī)器學(xué)習(xí)>深度學(xué)習(xí)。
簡言之,深度學(xué)習(xí)(Deep Learning)是實(shí)現(xiàn)機(jī)器學(xué)習(xí)的一種方式,它是在人工神經(jīng)網(wǎng)絡(luò)(ANN)基礎(chǔ)上發(fā)展而來的表示學(xué)習(xí)方法。它通過構(gòu)建多層表示學(xué)習(xí)結(jié)構(gòu),組合原始數(shù)據(jù)中的簡單特征,來實(shí)現(xiàn)更高層和更抽象的表示。
可以說,深度學(xué)習(xí)是目前人工智能領(lǐng)域最振奮人心的發(fā)展,縱觀其發(fā)展歷程,可以領(lǐng)略深度學(xué)習(xí)一路走來所展示的傳奇風(fēng)采。
1943年:首個(gè)神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型誕生
(推進(jìn)者:Walter Pitts和Warren McCulloch)
顯然,想要解決機(jī)器與深度學(xué)習(xí)的問題,我們首先要做的是建立一個(gè)理解人類大腦的神經(jīng)網(wǎng)絡(luò)。
1943年,邏輯學(xué)家W alter Pitts和神經(jīng)科學(xué)家M cCulloch在創(chuàng)造首個(gè)神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型時(shí)解開了這個(gè)謎題。他們合著了《神經(jīng)活動(dòng)中固有的思維的邏輯運(yùn)算》一書,在書中他們提出將數(shù)學(xué)和算法相結(jié)合的想法,旨在模仿人類思維活動(dòng)。
他們的模型——通常稱之為M cCulloch-Pitts神經(jīng)元(M-P神經(jīng)元)在今天仍然是標(biāo)準(zhǔn)模型。
1950年:機(jī)器學(xué)習(xí)的預(yù)測
(推進(jìn)者:阿蘭·圖靈)
圖靈是一名英國數(shù)學(xué)家,因在二戰(zhàn)中破解了德國的Enigma密碼而出名。但他在數(shù)學(xué)和科學(xué)界的成就并不止于此。
1947年,他預(yù)測出機(jī)器學(xué)習(xí)的發(fā)展趨勢。而他的這個(gè)預(yù)測在70年后的今天看來,仍然具有一定的指導(dǎo)意義。
1950年,圖靈提出了一種機(jī)器算法,甚至暗示了遺傳算法。他在論文《計(jì)算機(jī)器與智能》中精心設(shè)計(jì)了一種他稱之為模仿人類的游戲,據(jù)此判斷機(jī)器是否會(huì)“思考”,這就是后來流傳甚廣的圖靈測試。
簡單來說,圖靈測試就是讓計(jì)算機(jī)以文本方式與人類進(jìn)行時(shí)長為5分鐘的聊天,如果人類無法確定對方是機(jī)器還是人類,則該機(jī)器通過測試。
雖然一直以來這個(gè)測試的有效性頗具爭議,但不得不說,這是60多年來研究人員一直努力的目標(biāo)。
1957年:感知器神經(jīng)網(wǎng)絡(luò)模型問世
(推進(jìn)者:Frank Rosenblatt)
1957年,心理學(xué)家Rosenblatt向康奈爾航空實(shí)驗(yàn)室提交了一篇題為《感知器:感知和識(shí)別的自動(dòng)機(jī)》的論文。
在論文中,Rosenblatt首次提出了感知器(Perceptron)的概念。這是首個(gè)用算法精確定義神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型,是之后許多神經(jīng)網(wǎng)絡(luò)模型的始祖。
他宣稱,自己將構(gòu)建一個(gè)電子或電動(dòng)機(jī)械系統(tǒng),以此來學(xué)習(xí)識(shí)別不同光學(xué)、電學(xué)或色調(diào)信息模式之間的相似性。從某種程度上說,這與生物大腦的感知過程非常相似。
他的這種想法雖然看起來不具備很強(qiáng)的實(shí)現(xiàn)性,但確實(shí)埋下了自上而下學(xué)習(xí)的種子,同時(shí)也被認(rèn)為是深度神經(jīng)網(wǎng)絡(luò)(DNN)的基礎(chǔ)。
1959年:
簡單細(xì)胞和復(fù)雜細(xì)胞的發(fā)現(xiàn)
(推進(jìn)者:David H. Hubel和Torsten Wiesel)
1959年,神經(jīng)生理學(xué)家和諾貝爾獲得者David H. Hubel與Torsten N. W iesel聯(lián)手發(fā)現(xiàn)初級視覺皮層中的兩種細(xì)胞:簡單細(xì)胞和復(fù)雜細(xì)胞。
可以說,許多人工神經(jīng)網(wǎng)絡(luò)(ANN)的發(fā)現(xiàn)都是啟發(fā)于諸如此類的生物學(xué)觀察。而此項(xiàng)研究雖然不是深度學(xué)習(xí)里程碑式的研究成果,但對該領(lǐng)域的后續(xù)研究有著重大影響。
1960年:提出控制論
(推進(jìn)者:Henry J. Kel ley)
Kelley本是弗吉尼亞理工學(xué)院的航空航天和海洋工程專業(yè)的一名教授,1960年發(fā)表了論文《最佳飛行路徑的梯度理論》。
他提出許多關(guān)于控制理論的觀點(diǎn),比如輸入系統(tǒng)的行為以及系統(tǒng)行為的反饋修正等,都已在AI和ANN中得到了直接應(yīng)用。它們通常用于開發(fā)訓(xùn)練神經(jīng)網(wǎng)絡(luò)中連續(xù)反向傳播模型(也稱之為錯(cuò)誤的反向傳播)的基礎(chǔ)。
1965年:
首個(gè)有效深度學(xué)習(xí)網(wǎng)絡(luò)的誕生
(推進(jìn)者:Alexey Ivakhnenko和V.G. Lapa)
數(shù)學(xué)家Ivakhnenko及其同事Lapa等在1965年創(chuàng)建了首個(gè)有效深度學(xué)習(xí)網(wǎng)絡(luò),首次將理論和想法付諸于實(shí)踐。
Ivakhnenko提出數(shù)據(jù)分組處理 (Group M ethod of Data Handling,簡稱GMDH)的核心技術(shù):這是一種基于計(jì)算機(jī)數(shù)學(xué)模型的多參數(shù)數(shù)據(jù)集的歸納算法系列,能夠自動(dòng)建模并優(yōu)化參數(shù)。此后他將其應(yīng)用到神經(jīng)網(wǎng)絡(luò)中。
基于此,很多人認(rèn)為Ivakhnenko是現(xiàn)代深度學(xué)習(xí)之父。
他的算法使用的是深度前饋多層感知器,逐層通過統(tǒng)計(jì)方法來尋找最佳的特征,并將其傳遞給系統(tǒng)。
1971年,Ivakhnenko在當(dāng)時(shí)計(jì)算條件有限的情況下,使用GMDH創(chuàng)造出一個(gè)8層的深度網(wǎng)絡(luò),并成功演示了計(jì)算機(jī)識(shí)別系統(tǒng)Alpha的學(xué)習(xí)過程。
Hopf ield網(wǎng)絡(luò)圖片來源:維基媒體
1979-1980年:
ANN學(xué)會(huì)識(shí)別視覺模式
(推進(jìn)者:Kunihiko Fukushima)
作為神經(jīng)網(wǎng)絡(luò)領(lǐng)域公認(rèn)的創(chuàng)新者,日本的福島邦彥(Kunihiko Fukushima)于1980年提出了“新認(rèn)知機(jī)”(Neocognitron)的概念。
這是一種學(xué)習(xí)如何識(shí)別視覺模式的人工神經(jīng)網(wǎng)絡(luò)。目前,這項(xiàng)技術(shù)已經(jīng)廣泛應(yīng)用于手寫字符和其他模式識(shí)別、推薦系統(tǒng)甚至自然語言處理等任務(wù)中。同時(shí),他的研究成果促進(jìn)了首個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的發(fā)展。
1982年: Hop field網(wǎng)絡(luò)的創(chuàng)造
(推進(jìn)者:John Hopfield)
1982年,Hopfield創(chuàng)立并推廣了一個(gè)以他的名字命名的系統(tǒng)——Hopfield。
Hopfield網(wǎng)絡(luò)是一種循環(huán)神經(jīng)網(wǎng)絡(luò),同時(shí)也是一種綜合存儲(chǔ)系統(tǒng)。即使到了21世紀(jì)的今天,它仍然是一種流行的深度學(xué)習(xí)實(shí)現(xiàn)工具。
1985年:程序開始學(xué)會(huì)讀英語單詞
(推進(jìn)者:Ter ry Sejnowski)
1985年,計(jì)算神經(jīng)科學(xué)家Terry Sejnow ski基于他對人類學(xué)習(xí)過程的理解創(chuàng)建了NETtalk。
該程序?qū)W習(xí)英語單詞發(fā)音的方式與人類孩童無異。同時(shí),隨著時(shí)間的推進(jìn),該程序?qū)⑽谋巨D(zhuǎn)換為語音的質(zhì)量也在逐步提升。
1986年:
形狀識(shí)別和詞匯預(yù)測水平提高
(推進(jìn)者:David Rumelhart,Geof f reyHinton和Ronald J. Wi l l iams)
1986年,Rumelhart、H inton和W illiams提出“反向傳播誤差算法”(BackPropagation Error Algorithm),即現(xiàn)在所說的BP算法。這項(xiàng)算法至今仍在形狀識(shí)別、詞匯預(yù)測等任務(wù)中有著廣泛應(yīng)用。
Hinton是公認(rèn)的“深度學(xué)習(xí)之父”,他對神經(jīng)網(wǎng)絡(luò)有著許多貢獻(xiàn),諸如分散表示、延時(shí)神經(jīng)網(wǎng)絡(luò)、專家混合系統(tǒng)和亥姆霍茲機(jī)等。目前H inton任職于多倫多大學(xué)與Google。
1989年:機(jī)器讀取手寫數(shù)字
(推進(jìn)者:Yann LeCun)
LeCun是深度學(xué)習(xí)領(lǐng)域中的另一個(gè)“搖滾明星”,他發(fā)現(xiàn)了如何在光學(xué)字符識(shí)別和計(jì)算機(jī)視覺上使用卷積神經(jīng)網(wǎng)絡(luò) (CNN),因此被稱為卷積網(wǎng)絡(luò)之父。
1989年,他將卷積神經(jīng)網(wǎng)絡(luò)和反向傳播理論相結(jié)合,創(chuàng)造出能夠“讀懂”手寫數(shù)字的學(xué)習(xí)方法。他的系統(tǒng)最終用于讀取NCR和其他公司的手寫檢查和郵政編碼。
1989年:Q-learning的誕生
(推進(jìn)者:Christopher Watkins)
1989,W atkins在他的博士論文《延遲獎(jiǎng)勵(lì)學(xué)習(xí)》中,提出Q-learning的概念,提高了強(qiáng)化學(xué)習(xí)的實(shí)用性和可行性。
這種新算法表明,可以直接學(xué)習(xí)最優(yōu)控制,而不需要對馬爾可夫決策過程的轉(zhuǎn)移概率或預(yù)期回報(bào)進(jìn)行建模。
1993年:
“非常深度學(xué)習(xí)”任務(wù)難題得以解決
(推進(jìn)者:Jürgen Schmidhuber)
德國計(jì)算機(jī)科學(xué)家Schm idhuber在1993年解決了一個(gè)“非常深度學(xué)習(xí)”的任務(wù)難題,從而允許循環(huán)神經(jīng)網(wǎng)絡(luò)中包含1000個(gè)以上的層。
這是神經(jīng)網(wǎng)絡(luò)處理復(fù)雜性問題能力上的巨大飛躍。
1995年:支持向量機(jī)(SVM)
(推進(jìn)者: Corinna Cor tes和VladimirVapnik)
支持向量機(jī)(SVM)自20世紀(jì)60年代問世以來,經(jīng)過了數(shù)十年的改進(jìn)。
目前的標(biāo)準(zhǔn)模型由Corinna Cortes和Vladim ir在1993年設(shè)計(jì),并于1995年問世。
簡單來說,SVM是一種用于識(shí)別和映射類似數(shù)據(jù)的系統(tǒng),可用于文本分類、手寫字符識(shí)別和圖像分類。
1997年:LSTM的提出
(推進(jìn)者:Jürgen Schmidhuber和SeppHochreiter)
1997年,Schm idhuber和Hochreiter提出了一種循環(huán)神經(jīng)網(wǎng)絡(luò)框架,稱之為長短型記憶網(wǎng)絡(luò)(LSTM)。
LSTM解決了長期依賴性問題,提高了循環(huán)神經(jīng)網(wǎng)絡(luò)的效率和實(shí)用性,也就是說LSTM網(wǎng)絡(luò)可以“記住”更長時(shí)間的信息。
隨著時(shí)間的推移,LSTM網(wǎng)絡(luò)在深度學(xué)習(xí)領(lǐng)域中有著廣泛的應(yīng)用。最近,谷歌還將其應(yīng)用于Android智能手機(jī)的語音識(shí)別軟件中。
1998年:提出基于梯度的學(xué)習(xí)
(推進(jìn)者:Yann LeCun)
1998年,Yann LeCun發(fā)表了一篇具有開創(chuàng)性意義的論文——《基于梯度學(xué)習(xí)的文檔識(shí)別方法》,標(biāo)志著LeCun在深度學(xué)習(xí)領(lǐng)域取得了又一大進(jìn)步。
隨機(jī)梯度下降算法(又稱基于梯度的學(xué)習(xí))與反向傳播算法相結(jié)合,是目前常用的深度學(xué)習(xí)方法且日益表現(xiàn)出優(yōu)良的性能。
2009年:Im ageNet的創(chuàng)立
(推進(jìn)者:李飛飛)
2009年,斯坦福大學(xué)人工智能實(shí)驗(yàn)室(SAIL)的教授兼負(fù)責(zé)人李飛飛創(chuàng)立了ImageNet,即如今全球最大的圖像識(shí)別數(shù)據(jù)庫。
這是一個(gè)免費(fèi)的圖像數(shù)據(jù)庫,里面涵蓋了超過1400萬張圖像,為研究人員、教育工作者和學(xué)生提供了有標(biāo)簽的圖片。
數(shù)據(jù)庫中的圖片被打上標(biāo)簽并通過英文詞匯數(shù)據(jù)庫W ordnet管理。
2011年:AlexNet的問世
(推進(jìn)者:Alex Krizhevsky)
AlexNet是2012年ImageNet競賽冠軍獲得者Alex Krizhevsky設(shè)計(jì)的,是卷積神經(jīng)網(wǎng)絡(luò)的一種。借于此,Alex Krizhevsky在多個(gè)國際機(jī)器學(xué)習(xí)和深度學(xué)習(xí)競賽中獲得勝利。
AlexNet改進(jìn)了LeNet5(早些年由Yann LeCun創(chuàng)建)。它最初只有8個(gè)層,包含5個(gè)卷積層和3個(gè)全連接層,并通過修正線性單元來加強(qiáng)速度和dropout。
自AlexNet問世以來,相繼出現(xiàn)了許多更多更深的神經(jīng)網(wǎng)絡(luò),它甚至為后續(xù)的CNN甚至是R-CNN等其他網(wǎng)絡(luò)定下了基調(diào)。
2012年:關(guān)于貓的實(shí)驗(yàn)
“關(guān)于貓的實(shí)驗(yàn)”?這聽起來是不是令你感到很困惑,但是又很可愛,其實(shí)這些都不重要,重要的是,這個(gè)實(shí)驗(yàn)確實(shí)使深度學(xué)習(xí)向前邁進(jìn)了一大步。
實(shí)驗(yàn)團(tuán)隊(duì)同時(shí)在數(shù)千臺(tái)電腦上使用一個(gè)神經(jīng)網(wǎng)絡(luò),將1000萬張從YouTube視頻截來的未標(biāo)記圖片上傳至系統(tǒng),并運(yùn)行。
當(dāng)這種無監(jiān)督學(xué)習(xí)完成時(shí),程序已經(jīng)學(xué)會(huì)如何鑒別并從中識(shí)別出貓,該程序的運(yùn)行正確率約為70%,相較于以往的無監(jiān)督學(xué)習(xí)程序,這個(gè)結(jié)果要好得多。但它并不完美。這個(gè)網(wǎng)絡(luò)僅能識(shí)別出約15%的表示對象。也就是說,距離真正的智能,它僅僅邁出了很小的一步,而接下來,還有很長的路要走。
2014年:Deep Face的誕生
(推進(jìn)者:Facebook團(tuán)隊(duì))
Facebook團(tuán)隊(duì)在2014年首次公布了DeepFace的研究,通過神經(jīng)網(wǎng)絡(luò)將人臉識(shí)別的正確率提升到97.35%。這在人臉識(shí)別領(lǐng)域具有重大突破性意義,準(zhǔn)確率提高了27%。谷歌也在使用類似的程序來進(jìn)行人臉識(shí)別,如下圖所示。
2014年:
生成對抗網(wǎng)絡(luò)(GAN)的發(fā)現(xiàn)
(推進(jìn)者:Ian Goodfel low)
自從2014年蒙特利爾大學(xué)的Ian Goodfellow等人提出GAN的概念以來,GAN呈現(xiàn)出井噴式發(fā)展。同時(shí)也因其自身魅力吸引著Yann LeCun的注意,“深度學(xué)習(xí)最近出現(xiàn)了很多有趣的進(jìn)展。而我認(rèn)為最有意思的就是生成對抗網(wǎng)絡(luò)。GAN和它的變體是機(jī)器學(xué)習(xí)領(lǐng)域最近十年來最有趣的想法”。
簡言之,GAN里隱含了兩個(gè)互相對抗的網(wǎng)絡(luò):生成網(wǎng)絡(luò)與鑒別網(wǎng)絡(luò)。生成網(wǎng)絡(luò)負(fù)責(zé)獲取樣本并嘗試創(chuàng)建能夠以假亂真的樣本,而鑒別網(wǎng)絡(luò)則需要判斷每個(gè)數(shù)據(jù)點(diǎn)是真實(shí)的還是生成的。
2016年:
各種強(qiáng)大的機(jī)器學(xué)習(xí)產(chǎn)品紛涌而出
2016年被稱為人工智能的元年。在這一年里,涌現(xiàn)出很多基于機(jī)器和深度學(xué)習(xí)的產(chǎn)品和解決方案。
谷歌使用類似的程序來進(jìn)行人臉識(shí)別
Cray(克雷公司),在其XC50超級計(jì)算機(jī)上使用微軟的神經(jīng)網(wǎng)絡(luò)軟件,和近千個(gè)英偉達(dá)Tesla P100 GPU,便可以在幾個(gè)小時(shí)內(nèi)完成過去幾天才能完成的深度學(xué)習(xí)任務(wù)。
總結(jié)
在過去的60年里,人類在人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域都有了不小的突破,如果將這些進(jìn)展整理成一條粗略的時(shí)間線,就會(huì)從其中看到整個(gè)發(fā)展進(jìn)程。
20世紀(jì)60年代:淺層神經(jīng)網(wǎng)絡(luò);
20世紀(jì)60年代至70年代:反向傳播出現(xiàn);
1974年至1980年:第一次人工智能的冬天來臨;
20世紀(jì)80年代:出現(xiàn)卷積的概念;
1987年至1993年:第二次人工智能冬天再次降臨;
20世紀(jì)90年代:無監(jiān)督學(xué)習(xí)的問世;
20世紀(jì)90年代至21世紀(jì)初:監(jiān)督學(xué)習(xí)
重回大眾視野;
2006年至今:現(xiàn)代深度學(xué)習(xí)流行。
如今,也許你還沒有意識(shí)或感受到,卻不得不承認(rèn),深度學(xué)習(xí)早已遍布在我們生活中的多個(gè)角落——它是Google的語音和圖像識(shí)別,是Netflix和亞馬遜的推薦引擎,是蘋果的Siri,是電子郵件和短信的自動(dòng)回復(fù),是智能聊天機(jī)器人……
深度學(xué)習(xí)的下一步發(fā)展方向是什么?它會(huì)給我們帶來什么?這些都是很難說的。也許就在下一個(gè)路口,也許是在幾年后。對于如此復(fù)雜的學(xué)習(xí),很難去預(yù)測它的發(fā)展時(shí)間表。
但有一件事是可以肯定的,那就是:未來一定會(huì)是非常有趣的。
房曉楠 本刊編輯