張冬冬
它是未來(lái)的一部分,
我們才剛剛開(kāi)始。
3年前,美國(guó)加利福尼亞州山景城神秘的谷歌X實(shí)驗(yàn)室的研究人員從YouTube視頻中提取了1000萬(wàn)個(gè)靜態(tài)圖像,并將其輸入“谷歌大腦”——由1000臺(tái)計(jì)算機(jī)構(gòu)成的網(wǎng)絡(luò),從而試圖像一個(gè)蹣跚學(xué)步的孩子一樣吸收這個(gè)世界的信息。經(jīng)過(guò)3天尋找重復(fù)出現(xiàn)的模式后,谷歌大腦憑自身判斷,它可以識(shí)別一些特定的重復(fù)類別:人類面孔和人類身體,甚至是貓。
谷歌大腦發(fā)現(xiàn)互聯(lián)網(wǎng)上到處都是關(guān)于貓的視頻,這還曾引起一連串的笑話。不過(guò),谷歌大腦是深度學(xué)習(xí)復(fù)興的一個(gè)里程碑。深度學(xué)習(xí)是一項(xiàng)有著30年歷史的技術(shù),其中大量數(shù)據(jù)和強(qiáng)大的處理能力幫助計(jì)算機(jī)破解那些人類幾乎可以憑直覺(jué)就可解決的難題——從識(shí)別人臉到理解語(yǔ)言。
深度學(xué)習(xí)本身是對(duì)神經(jīng)網(wǎng)絡(luò)這個(gè)更老的想法的復(fù)興。這些系統(tǒng)的靈感大多來(lái)自于大腦中緊密連接的神經(jīng)元,通過(guò)改變模擬神經(jīng)連接的強(qiáng)度來(lái)模擬人腦學(xué)習(xí)。谷歌大腦擁有約100萬(wàn)個(gè)模擬神經(jīng)元和10億個(gè)模擬連接,比之前任何深度神經(jīng)網(wǎng)絡(luò)強(qiáng)度都要高10倍。該項(xiàng)目建立者Andrew Ng目前是加州斯坦福大學(xué)人工智能實(shí)驗(yàn)室的負(fù)責(zé)人,他的開(kāi)發(fā)已經(jīng)使深度學(xué)習(xí)系統(tǒng)的強(qiáng)度又提高了10倍。
人工智能(AI)領(lǐng)域取得的這些激動(dòng)人心的進(jìn)步試圖讓電腦像人類一樣思考。紐約大學(xué)數(shù)據(jù)科學(xué)中心主任、深度學(xué)習(xí)領(lǐng)域先驅(qū)Yann LeCun說(shuō):“人工智能已經(jīng)失敗了無(wú)數(shù)次,其間只有少許的進(jìn)步。如今它實(shí)現(xiàn)了一次超越?!?/p>
“在未來(lái)幾年,我們將看到一種瘋狂的情況:很多人會(huì)跟隨深度學(xué)習(xí)的潮流?!奔又荽髮W(xué)伯克利分校從事圖像識(shí)別研究的Jitendra Malik表示同意。但是從長(zhǎng)遠(yuǎn)看,深度學(xué)習(xí)并不占上風(fēng),一些研究人員正在尋求其他有前景的技術(shù)?!拔沂遣豢芍撜?。”Malik說(shuō),“隨著時(shí)間的推移,人們會(huì)決定不同領(lǐng)域的最佳技術(shù)?!?/p>
初出茅廬
Malik稱,初期的深度學(xué)習(xí)程序并不比其他更簡(jiǎn)單的系統(tǒng)有更好的表現(xiàn)。另外,它們還很難處理。“神經(jīng)網(wǎng)絡(luò)管理一直是一種精妙的藝術(shù),其中有一些黑魔法。”該網(wǎng)絡(luò)需要從豐富的事例來(lái)源中進(jìn)行學(xué)習(xí),就像一個(gè)嬰兒從世界收集信息一樣。在二十世紀(jì)八九十年代,并沒(méi)有太多可用的數(shù)字信息,而且計(jì)算機(jī)消化這些存在的信息需要很長(zhǎng)時(shí)間。當(dāng)時(shí)的相關(guān)應(yīng)用很少,LeCun開(kāi)發(fā)的技術(shù)是為數(shù)不多的應(yīng)用之一,現(xiàn)在還被銀行用于讀取手寫(xiě)支票。
然而到了21世紀(jì),像LeCun和其前任主管、加拿大多倫多大學(xué)計(jì)算機(jī)科學(xué)家Geoffrey Hinton這樣的提倡者確信,計(jì)算能力的提高和數(shù)字?jǐn)?shù)據(jù)的爆炸意味著是時(shí)候重新推動(dòng)這一技術(shù)了。Hinton現(xiàn)在的學(xué)生George Dahl說(shuō):“我們想向世界展示,這些深度神經(jīng)網(wǎng)絡(luò)真的很有用,并能提供真正的幫助?!?/p>
在開(kāi)始時(shí),Hinton、Dahl和其他一些人解決了語(yǔ)音識(shí)別中對(duì)商業(yè)應(yīng)用很重要的一些難題。2009年,研究人員報(bào)告稱,通過(guò)典型數(shù)據(jù)集的練習(xí),他們的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)已經(jīng)打破了將口語(yǔ)轉(zhuǎn)化為文本的精度紀(jì)錄。
巨大飛躍
當(dāng)谷歌在其安卓系統(tǒng)的智能手機(jī)操作系統(tǒng)中采用基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)時(shí),它的文字錯(cuò)誤率下降了25%?!叭藗儽緛?lái)期待在10年后才能達(dá)到這種下降程度。”Hinton表示,“這相當(dāng)于實(shí)現(xiàn)了10項(xiàng)突破?!?/p>
同時(shí),Ng說(shuō)服谷歌,讓自己使用其數(shù)據(jù)和計(jì)算機(jī),谷歌大腦由此產(chǎn)生。該項(xiàng)目指認(rèn)貓的能力是對(duì)無(wú)監(jiān)督學(xué)習(xí)的有力證明,無(wú)監(jiān)督學(xué)習(xí)是最困難的學(xué)習(xí)任務(wù),因?yàn)槠漭斎胫胁话魏蜗衩帧?biāo)題或者類別等解釋性信息。
不過(guò)Ng很快就遇到了麻煩,谷歌公司之外很少有研究人員擁有進(jìn)行深度學(xué)習(xí)研究的設(shè)備。因此Ng在回到斯坦福大學(xué)后,開(kāi)始使用圖像處理單元(GPUs)研發(fā)更大、更便宜的深度學(xué)習(xí)網(wǎng)絡(luò)。
Ng說(shuō):“使用價(jià)值約10萬(wàn)美元的硬件,我們可以用64個(gè)GPUs建立一個(gè)有著110億個(gè)連接的網(wǎng)絡(luò)?!?/p>
勝利之后
不過(guò),要想說(shuō)服計(jì)算機(jī)視覺(jué)領(lǐng)域的科學(xué)家還需要更多努力:他們希望看到標(biāo)準(zhǔn)測(cè)試中的收獲。Malik認(rèn)為,在國(guó)際知名的ImageNet競(jìng)賽中取得勝利將會(huì)達(dá)到理想的結(jié)果。
在該競(jìng)賽中,各團(tuán)隊(duì)基于大約含有100萬(wàn)個(gè)圖像、屬于同類別的一個(gè)數(shù)據(jù)集開(kāi)發(fā)計(jì)算機(jī)項(xiàng)目。2012年,Hinton的實(shí)驗(yàn)室成為首個(gè)使用深度學(xué)習(xí)的競(jìng)爭(zhēng)者,其錯(cuò)誤率只有15%。這一次的勝利使Hinton在谷歌獲得了兼職工作,而2013年5月,谷歌公司使用該程序更新了其圖像搜索軟件。
Malik被說(shuō)服了。他說(shuō):“在科學(xué)上,你必須接受經(jīng)驗(yàn)證據(jù),而這正是明顯的證據(jù)。”之后,他使用該技術(shù)在另一個(gè)視覺(jué)識(shí)別比賽中打破了紀(jì)錄。很多其他團(tuán)隊(duì)也跟隨這一趨勢(shì),2013年,ImageNet比賽的參與團(tuán)隊(duì)都使用了深度學(xué)習(xí)技術(shù)。
隨著深度學(xué)習(xí)技術(shù)在圖像和語(yǔ)音識(shí)別方面取得勝利,人們?cè)絹?lái)越有興趣將其應(yīng)用于自然語(yǔ)言理解(例如,充分理解人類話語(yǔ)來(lái)改述或者回答問(wèn)題)或者翻譯語(yǔ)言。同樣,這些工作目前可以通過(guò)使用手工編碼規(guī)則和對(duì)已知文本的統(tǒng)計(jì)分析來(lái)實(shí)現(xiàn),例如谷歌翻譯。眾包專家Luis von Ahn說(shuō):“深度學(xué)習(xí)技術(shù)將有機(jī)會(huì)比現(xiàn)在使用的技術(shù)做得更好?!彼墓綝uolingo位于賓夕法尼亞州匹茲堡市,依賴于人,而不是計(jì)算機(jī)進(jìn)行文本翻譯?!懊總€(gè)人都認(rèn)為,是時(shí)候嘗試一些不同的東西了。”
與此同時(shí),深度學(xué)習(xí)技術(shù)被證明可用于完成各種科學(xué)任務(wù)。2012年,默克制藥公司為那些可以幫助預(yù)測(cè)有用候選藥物的最佳項(xiàng)目提供了獎(jiǎng)金。Dahl和同事使用深度學(xué)習(xí)系統(tǒng)贏得了2.2萬(wàn)美元。
盡管深度學(xué)習(xí)技術(shù)取得了不少成
功,但它仍處于起步階段?!八俏磥?lái)的一部分?!盌ahl稱,“我們才剛剛開(kāi)始?!保▉?lái)源:《中國(guó)科學(xué)報(bào)》,2014-01-14 )endprint