本刊記者 祝傳海 張欣浪
現(xiàn)實(shí)的理想主義者
——記國(guó)家“千人計(jì)劃”特聘專家、百度研究院副院長(zhǎng)、深度學(xué)習(xí)實(shí)驗(yàn)室主任余凱
本刊記者 祝傳海 張欣浪
余凱博士
21世紀(jì)進(jìn)入第二個(gè)十年,互聯(lián)網(wǎng)也進(jìn)入了一個(gè)新的時(shí)代。最明顯的標(biāo)志,就是互聯(lián)網(wǎng)巨頭們對(duì)人工智能(Artificial Intelligence,AI) 技術(shù)的重視,甚至到了“得人工智能者得天下”的程度。2013年初,百度成立深度學(xué)習(xí)研究院(IDL),在中國(guó)互聯(lián)網(wǎng)企業(yè)中,第一個(gè)把深度學(xué)習(xí)提升到核心技術(shù)創(chuàng)新地位。
百度是一扇門。門內(nèi),是一個(gè)基于深度學(xué)習(xí)的智能平臺(tái)。門外,通往普羅大眾的俗世生活。百度IDL團(tuán)隊(duì)所創(chuàng)造的,是一個(gè)更加“聰明”的百度,是一種更加“智慧”的生活方式?!拔覀兪亲龅氖乾F(xiàn)實(shí)的理想主義”,IDL負(fù)責(zé)人余凱如此說(shuō)。
幾年前,大家都在猜測(cè),百度要不要像微軟和IBM一樣設(shè)立研究院。當(dāng)時(shí)百度內(nèi)部給出的答案是:時(shí)機(jī)未到。百度要等的,究竟是怎樣一個(gè)時(shí)機(jī)?2013年1月19日,從百度2012年年會(huì)現(xiàn)場(chǎng)傳出了一個(gè)爆炸性的消息,百度要成立一所專注于Deep Learning(深度學(xué)習(xí))的研究院,并命名為Institute of Deep Learning (IDL,深度學(xué)習(xí)研究院)。
互聯(lián)網(wǎng)時(shí)代開(kāi)始后,科技創(chuàng)新已經(jīng)從機(jī)器時(shí)代“讓人類跑得更快、飛得更高”,發(fā)展為“讓數(shù)據(jù)和信息說(shuō)話”。而到了大數(shù)據(jù)時(shí)代,人類社會(huì)對(duì)于數(shù)據(jù)和信息的追求又上升到了另一個(gè)境界——把數(shù)據(jù)轉(zhuǎn)化為價(jià)值?!斑@里面最重要的核心技術(shù),就是人工智能。包括機(jī)器人在內(nèi)的人工智能可能是下一個(gè)產(chǎn)業(yè)革命的爆發(fā)點(diǎn)?!庇鄤P說(shuō)。
2013年4月,《MIT技術(shù)評(píng)論》評(píng)選出2013突破性科學(xué)技術(shù),深度學(xué)習(xí)位居榜首,其余九個(gè)分別是:臨時(shí)社交媒體、育前DNA測(cè)序、基于3D打印的制造業(yè)、藍(lán)領(lǐng)機(jī)器人、記憶移植、智能手表、超高效太陽(yáng)能、廉價(jià)手機(jī)大數(shù)據(jù)和超級(jí)電網(wǎng)。
“到了該發(fā)力的時(shí)候了”,百度前瞻性地抓住了國(guó)際大趨勢(shì),也一下子站住了前沿。2014年8月,同樣是《MIT技術(shù)評(píng)論》,長(zhǎng)篇大論地發(fā)表了一篇文章,介紹百度最近兩年在人工智能方面的技術(shù)進(jìn)展。文章標(biāo)題叫做《一個(gè)中國(guó)互聯(lián)網(wǎng)的巨人開(kāi)始有夢(mèng)想》?!耙郧皬膩?lái)沒(méi)有主流國(guó)外科技媒體介紹中國(guó)企業(yè)的科技創(chuàng)新,我們覺(jué)得很自豪?!边@不僅是余凱的感受,也是整個(gè)百度的榮耀。但他們并沒(méi)有沾沾自喜,就算再多人誤以為百度只是個(gè)搜索引擎,他們自己卻知道,從第一天起,百度就是個(gè)基于大數(shù)據(jù)的人工智能公司?!爸徊贿^(guò)這兩年更加高調(diào)地去投入做這件事?!庇鄤P說(shuō)。
近年來(lái),智能手機(jī)、智能手表、智能湯匙、智能手環(huán)、智能冰箱……整個(gè)業(yè)界,“智能”產(chǎn)品層出不窮,但這些產(chǎn)品都真的具有人工智能么?
余凱給我們科普,人工智能其實(shí)包括感知、理解、決策等幾個(gè)環(huán)節(jié),每個(gè)決策所產(chǎn)生數(shù)據(jù)再次進(jìn)入感知環(huán)節(jié),通過(guò)理解,做出下一步?jīng)Q策,形成迭代循環(huán)。廣義上,這和人有相通之處:人通過(guò)感官可以感知到周圍的環(huán)境是什么樣子,可以通過(guò)人與人的的交流來(lái)獲取信息,從而理解哪里有障礙物,哪里可以行走,做哪些事情帶來(lái)什么樣的風(fēng)險(xiǎn)或收益。當(dāng)人在形成理解之后,會(huì)決策該怎么做出相應(yīng)的反應(yīng),繼而把思考的結(jié)果轉(zhuǎn)化為一個(gè)更加接近目標(biāo)的現(xiàn)實(shí)。人工智能,就是讓機(jī)器像人一樣去感知、理解和決策,自主的完成一定的任務(wù)。
人類能夠“吃一塹,長(zhǎng)一智”,真正的智能,也會(huì)隨著經(jīng)驗(yàn)的累積,不斷去提升自己的感知、理解和決策的能力。一個(gè)基于人工智能的產(chǎn)品或服務(wù),開(kāi)始可能并不聰明,但用戶使用的時(shí)間越長(zhǎng),它就會(huì)越來(lái)越感受到用戶的習(xí)慣、喜好和需求,并把由這些數(shù)據(jù)在后臺(tái)建模分析判斷,進(jìn)而來(lái)調(diào)整自身的行為。余凱指出:學(xué)習(xí)能力,才是人工智能的本質(zhì)。
現(xiàn)在很多產(chǎn)品宣傳中所說(shuō)的“智能”,大多時(shí)候是“操控”,是一種完全被動(dòng)的完成任務(wù),而人工智能想要達(dá)到的是“自主”的目的。真正的智能空調(diào),會(huì)根據(jù)室溫和空間熱源分布的變化來(lái)調(diào)節(jié)溫度。而網(wǎng)頁(yè)上的熱門頻道和焦點(diǎn)的排序推薦,也是根據(jù)用戶歷史行為數(shù)據(jù)自動(dòng)調(diào)整的。而更重要的是,絕大多數(shù)的所謂“智能”產(chǎn)品,都不具備學(xué)習(xí)的能力——它們并不會(huì)隨著用戶的不斷使用而變得越來(lái)越聰明。所以說(shuō),人工智能的一個(gè)本質(zhì)屬性是學(xué)習(xí)的能力,是隨著經(jīng)驗(yàn)積累不斷成長(zhǎng)的能力。那么什么是經(jīng)驗(yàn)?其實(shí)經(jīng)驗(yàn)就是數(shù)據(jù)。這也就是為什么今天人工智能變得觸手可及,因?yàn)槲覀兲幵诖髷?shù)據(jù)的時(shí)代。而移動(dòng)互聯(lián)網(wǎng)的普及,使得海量數(shù)據(jù)每天都在產(chǎn)生。余凱舉了一個(gè)例子,同樣是發(fā)生在梵蒂岡圣彼得教堂的新教皇選舉,2005年,人們還只是在教堂前的廣場(chǎng)上等待;2013年,新的一屆教皇選舉來(lái)臨,而站在廣場(chǎng)上的那些人,幾乎手里都舉著手機(jī)在拍照。拍照這種行為本身,就意味著數(shù)據(jù)的產(chǎn)生?!敖裉欤覀兠咳松砩掀骄鶐е鴥傻饺齻€(gè)聯(lián)網(wǎng)設(shè)備,到了未來(lái),可能你的每個(gè)扣子都是一個(gè)聯(lián)網(wǎng)設(shè)備。有一種說(shuō)法是,到2020年,每個(gè)人會(huì)有1000個(gè)聯(lián)網(wǎng)設(shè)備?!?/p>
余凱博士與Facebook人工智能實(shí)驗(yàn)室主任Yann LeCun教授合影
那將是一個(gè)數(shù)據(jù)暴增的時(shí)代。要應(yīng)對(duì)這種大規(guī)模的數(shù)據(jù),傳統(tǒng)的人工智能算法已經(jīng)力不從心,畢竟在數(shù)據(jù)達(dá)到一定規(guī)模之后,它的學(xué)習(xí)效果就不再增長(zhǎng)。要實(shí)現(xiàn)飛躍式地發(fā)展,還要開(kāi)發(fā)深度學(xué)習(xí)技術(shù)。深度學(xué)習(xí)能有效挖掘大數(shù)據(jù)帶來(lái)的紅利,數(shù)據(jù)規(guī)模越大,學(xué)習(xí)效果也越明顯,系統(tǒng)也更加智能。所以在大數(shù)據(jù)時(shí)代,深度學(xué)習(xí)受到極其廣泛的重視。“到那時(shí),人們感受到的將是VIP式的服務(wù)”。
“假如說(shuō)你想在網(wǎng)上訂一個(gè)披薩,第一步就要從網(wǎng)上找披薩店,找喜歡的口味。這一步就已經(jīng)可以實(shí)現(xiàn)個(gè)性化,網(wǎng)絡(luò)通過(guò)對(duì)你以往每天的搜索習(xí)慣進(jìn)行行為分析,來(lái)推薦你喜歡的披薩,避免了盲目海選的煩惱。這一點(diǎn)用戶已經(jīng)在享受了?!?/p>
余凱試圖用訂披薩作為一個(gè)例子來(lái)詮釋人工智能給生活帶來(lái)的改變,他認(rèn)為機(jī)器人將使互聯(lián)網(wǎng)服務(wù)從線上延伸到線下。就像訂披薩的流程,當(dāng)網(wǎng)絡(luò)訂單傳到特定的披薩店后,即開(kāi)始做披薩。現(xiàn)在的披薩店里同一種披薩的口味當(dāng)然是基本無(wú)差別的,但在將來(lái),機(jī)器人可能會(huì)參與到制作披薩的過(guò)程中,它們會(huì)與網(wǎng)絡(luò)系統(tǒng)直接關(guān)聯(lián),當(dāng)你的個(gè)人喜好以數(shù)據(jù)形式導(dǎo)入它們的“大腦”中,制作出來(lái)的將會(huì)完全是“你的披薩”——口輕或者口重,放不放洋蔥,甚至其他看起來(lái)“詭異”的要求。
經(jīng)過(guò)真正的私人定制之后,披薩店還要把這份特別的披薩送到你手中。這時(shí),“高度自動(dòng)化駕駛”就要上場(chǎng)了。在高度自動(dòng)化駕駛的幫助下,送餐車可以在百度地圖上找到距離送餐地點(diǎn)最近或者不堵車的路線,行進(jìn)中隨時(shí)了解前方路況,以便安全及時(shí)送達(dá)。
“深度學(xué)習(xí)就是從現(xiàn)在連接到未來(lái)?,F(xiàn)在,線上部分已經(jīng)通過(guò)搜索、語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言理解來(lái)實(shí)現(xiàn)了個(gè)性化。未來(lái),全套流程做下來(lái),就是將線上累積的能力往線下延伸。裝有深度學(xué)習(xí)的大腦的機(jī)器人服務(wù),就是互聯(lián)網(wǎng)服務(wù)的最后一公里。到那時(shí),人們感受到的就是VIP式的服務(wù)?!庇鄤P補(bǔ)充道。
余凱博士與前《連線》雜志主編、“長(zhǎng)尾理論”創(chuàng)立者Chris Anderson合影
深度學(xué)習(xí)研究院是百度成立的首個(gè)研究院,也是中國(guó)第一家成立的深度學(xué)習(xí)研究機(jī)構(gòu)?!拔覀儼焉疃葘W(xué)習(xí)帶入中國(guó),而在國(guó)際上,我們也是最早把深度學(xué)習(xí)上升到戰(zhàn)略角度的四家公司之一。”余凱所說(shuō)的四家公司中,除了百度,還有Google、微軟和Facebook。百度也高度重視人才引進(jìn)、培養(yǎng)和優(yōu)化配置,當(dāng)年,余凱就是被百度吸引過(guò)來(lái)的。
早在南京大學(xué)讀本科時(shí)期,余凱就對(duì)人工智能和神經(jīng)網(wǎng)絡(luò)非常癡迷,四處尋找相關(guān)書籍,每每看得熱血沸騰。用他的話說(shuō),看到人工神經(jīng)網(wǎng)絡(luò)可以模擬人的大腦做那么多事情,就會(huì)激動(dòng)得睡不著覺(jué),非要泡在實(shí)驗(yàn)室里,哪怕通宵達(dá)旦也要手把手地嘗試去編程序做實(shí)驗(yàn)。到了碩士階段,他已經(jīng)在嘗試用神經(jīng)網(wǎng)絡(luò)來(lái)研究語(yǔ)音系統(tǒng)的處理。1999年,他第一次參加全國(guó)性的學(xué)術(shù)會(huì)議,他發(fā)表的有關(guān)神經(jīng)網(wǎng)絡(luò)的論文就拿到了大會(huì)最佳論文獎(jiǎng)。
讀研二那年,余凱做了個(gè)大膽的決定,到德國(guó)去進(jìn)修數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)?!斑@是我最喜歡的方向,而到歐洲那么有文化底蘊(yùn)的地方去待一段時(shí)間也是個(gè)很美妙的人生經(jīng)歷。”為了心底的堅(jiān)持,余凱申請(qǐng)到了西門子獎(jiǎng)學(xué)金,又說(shuō)服了導(dǎo)師讓他提前一年拿到碩士,終于去了德國(guó)著名學(xué)府慕尼黑大學(xué),師從著名計(jì)算機(jī)科學(xué)家、ACM Fellow、Hans-Peter Kriegel和著名機(jī)器學(xué)習(xí)專家Volker Tresp?!罢娴男U幸運(yùn)的,從一開(kāi)始就做自己最喜歡的事情,一直都沒(méi)有改過(guò)。”余凱微笑著說(shuō)。博士畢業(yè)后,余凱進(jìn)入西門子公司總部。兩年半之后,他已經(jīng)是西門子的高級(jí)研究員,卻開(kāi)始向往美國(guó)NEC研究院。
多年后,他坐在百度大廈這間會(huì)議室里,給我們講述當(dāng)時(shí)的選擇?!霸跈C(jī)器學(xué)習(xí)過(guò)去的20年中,曾經(jīng)有過(guò)兩次熱潮,第一個(gè)是SVM模型及其理論的興起和普及,其發(fā)明者是統(tǒng)計(jì)學(xué)習(xí)理論奠基人、美國(guó)工程院院士Vladimir Vapnik。當(dāng)時(shí)Vapnik就在美國(guó)NEC研究院工作。第二個(gè)熱潮就是深度學(xué)習(xí),代表人物之一是Yann LeCun,現(xiàn)在我們?cè)谏疃葘W(xué)習(xí)中最常用的卷積神經(jīng)網(wǎng)絡(luò),就是他發(fā)明的。他曾經(jīng)在美國(guó)NEC研究院做機(jī)器學(xué)習(xí)部門的主任,而深度學(xué)習(xí)最廣泛的應(yīng)用的隨機(jī)梯度下降算法SGD,NEC研究院的Leon Bottou是權(quán)威學(xué)者”。
在當(dāng)時(shí),美國(guó)NEC研究院是機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)之無(wú)愧的幾個(gè)重鎮(zhèn)之一。余凱希望自己能夠在那里得到進(jìn)一步的提升。加入美國(guó)NEC研究院之后第三年,余凱成為研究院最年輕的部門主任,領(lǐng)導(dǎo)一支有國(guó)際聲譽(yù)的團(tuán)隊(duì)在機(jī)器學(xué)習(xí)、圖像識(shí)別、多媒體檢索、視頻監(jiān)控、數(shù)據(jù)挖掘和人機(jī)交互等方面的技術(shù)研發(fā)。數(shù)年下來(lái),他在頂尖會(huì)議和雜志發(fā)表的高質(zhì)量論文,被同行引用7000多次,帶領(lǐng)團(tuán)隊(duì)多次獲得國(guó)際技術(shù)評(píng)測(cè)的第一名。2014年底,已成為Facebook人工智能實(shí)驗(yàn)室主任的Yann LeCun在一個(gè)訪談中,提到深度學(xué)習(xí)最初的幾個(gè)重量級(jí)研究團(tuán)隊(duì),包括多倫多、斯坦福、NEC加州實(shí)驗(yàn)室等。其中,NEC加州實(shí)驗(yàn)室指的就是余凱領(lǐng)導(dǎo)的團(tuán)隊(duì)。
在美國(guó)工作期間,他在加州大學(xué)Santa Cruz分校給研究生講授“ISM245: 數(shù)據(jù)挖掘”,在斯坦福大學(xué)計(jì)算機(jī)系為研究生講授“CS121: 人工智能概論”,也曾多次出現(xiàn)在Google、Microsoft、MIT、UC Berkeley等著名研發(fā)機(jī)構(gòu)的講壇上。在國(guó)際人工智能/機(jī)器學(xué)習(xí)領(lǐng)域,余凱的影響力已經(jīng)不容小覷??墒?,2012年4月,他飛過(guò)太平洋,來(lái)到了北京海淀區(qū)上地十街10號(hào),這里是百度大廈所在。
“我回國(guó)是因?yàn)槲掖_實(shí)想回國(guó)?!庇鄤P形容自己過(guò)去的旅程,是從中國(guó)向西飛到德國(guó),6年后又往西飛到美國(guó)加州,再過(guò)6年,再一次西飛回到中國(guó)。“正好繞地球一圈”,余凱笑言,這種“全球化”的人生經(jīng)歷,讓他可以和不同文化背景的人在一起,用比較開(kāi)放的心態(tài)來(lái)工作和生活,是他人生中的一筆寶貴財(cái)富。但無(wú)論如何,飛得久了,總要回來(lái)。
當(dāng)然,還有一個(gè)重要原因是美國(guó)NEC研究院只是一個(gè)研究機(jī)構(gòu),不能持續(xù)地產(chǎn)生數(shù)據(jù),而人工智能只有在有大數(shù)據(jù)的互聯(lián)網(wǎng)企業(yè)中才能得到真正的發(fā)展。這一點(diǎn),把人工智能當(dāng)成使命的余凱是不能忍受的。他要尋找一個(gè)重視技術(shù)的互聯(lián)網(wǎng)公司,繼續(xù)自己的理想?!白詈玫臄?shù)據(jù)在互聯(lián)網(wǎng)公司。Robin本來(lái)就是人工智能專家,非常重視技術(shù),百度是一個(gè)最好的選擇。”
事實(shí)上,余凱不是杞人憂天。缺乏數(shù)據(jù)基礎(chǔ)成為美國(guó)NEC研究院的尷尬,到2014年,曾經(jīng)在美國(guó)NEC研究院工作過(guò)的機(jī)器學(xué)習(xí)代表人物Yann LeCun、Vadimir Vapnik、Jason Weston等都已經(jīng)投入Facebook門下,而Leon Bottou加入微軟。早在2012年,余凱加入百度后,出自美國(guó)NEC研究院的著名的機(jī)器學(xué)習(xí)專家徐偉、黃暢等也相繼加入百度。
近兩年來(lái),百度在人工智能和深度學(xué)習(xí)方面投入幾十億的資金。從2014年烏鎮(zhèn)峰會(huì)上傳來(lái)風(fēng)聲看,百度還將繼續(xù)加大對(duì)此的研發(fā)力度。有了這個(gè)后盾,余凱也有了對(duì)未來(lái)的底氣。從百度多媒體部技術(shù)副總監(jiān),到百度研究院副院長(zhǎng),他和團(tuán)隊(duì)可以走的路越來(lái)越敞亮。
余凱博士團(tuán)隊(duì)獲得2項(xiàng)2014年度百度最高獎(jiǎng)
假如你漫步在博物館,對(duì)某幅畫產(chǎn)生了興趣,只要你用手指在虛空中對(duì)著這幅畫畫個(gè)圈,你頭上的BaiduEye就能確定你所要了解的對(duì)象,將這幅畫的作者、創(chuàng)作背景,甚至商業(yè)價(jià)值等都“悄悄”告訴你。
假如你在商場(chǎng)購(gòu)物,看到一件時(shí)裝,BaiduEye可以立刻把品牌、款式、價(jià)格,甚至用戶評(píng)價(jià)的對(duì)比結(jié)果都反饋給你,輕輕松松就可以貨比三家。假如你是位醫(yī)生,正在進(jìn)行手術(shù),BaiduEye可以忠實(shí)地記錄手術(shù)現(xiàn)場(chǎng),并實(shí)現(xiàn)實(shí)時(shí)遠(yuǎn)程會(huì)診。
“BaiduEye是一個(gè)原型性產(chǎn)品,我們已經(jīng)在和銀泰百貨合作開(kāi)展零售業(yè)的應(yīng)用,跟國(guó)家博物館進(jìn)行旅游業(yè)的合作。現(xiàn)在,還在進(jìn)行醫(yī)療行業(yè)的試水。一來(lái)可以通過(guò)遠(yuǎn)程分析和語(yǔ)音指導(dǎo)來(lái)做手術(shù),二來(lái)一旦出現(xiàn)醫(yī)療糾紛可以調(diào)出手術(shù)記錄來(lái)分清責(zé)任。”余凱說(shuō)。
2014年上線的BaiduEye絕對(duì)是一個(gè)熱點(diǎn),無(wú)論從功能還是外觀上,關(guān)注度都超過(guò)了之前的谷歌眼鏡?!耙?yàn)镋ye是自然的人的身體的一部分,Glass是附帶外加的。它就像一個(gè)助手一樣,它真的知道你此時(shí)此刻在看什么東西,從而真的把互聯(lián)網(wǎng)后臺(tái)的服務(wù)變成你的大腦,讓你知道如何去更加精準(zhǔn)的決策?!?/p>
支持BaiduEye的就是百度大腦?;蛘哒f(shuō),百度大腦支持著百度旗下的眾多衍生品。百度大腦系統(tǒng),是一個(gè)大規(guī)模的計(jì)算機(jī)系統(tǒng),有幾千臺(tái)服務(wù)器并行計(jì)算。它具備隨著經(jīng)驗(yàn)的不斷演化的特點(diǎn),隨時(shí)都在不斷學(xué)習(xí)和演進(jìn),每天的數(shù)據(jù)(用戶在網(wǎng)上的行為)都會(huì)放入百度大腦去分析,以便于百度大腦積累經(jīng)驗(yàn)。它具有構(gòu)建百億級(jí)參數(shù),也是世界上最大的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。在物種上,從單細(xì)胞生物到哺乳動(dòng)物到靈長(zhǎng)動(dòng)物,隨著神經(jīng)元數(shù)目的增長(zhǎng),它們的智能水平在增長(zhǎng)。百度大腦也一樣,它的網(wǎng)絡(luò)規(guī)模和智能水平成正比,神經(jīng)網(wǎng)絡(luò)參數(shù)越多,智能水平發(fā)展的潛力也越大。
有了這兩個(gè)最基本的能力,百度大腦就能夠開(kāi)發(fā)世界上最領(lǐng)先的深度算法和系統(tǒng)?!吧疃葘W(xué)習(xí)很有意思的一點(diǎn),是與人腦的表示方式有相通之處。譬如說(shuō)視覺(jué)系統(tǒng)處理模式,從低層次的信號(hào),到高層次的語(yǔ)義,是逐層變換的。我們通過(guò)數(shù)據(jù)去訓(xùn)練一個(gè)深度學(xué)習(xí)系統(tǒng),也是形成一層一層的數(shù)據(jù)表示——從底層的像素到邊界的提取,再到對(duì)物體各個(gè)部位的檢測(cè)和提取,一直進(jìn)展到對(duì)整個(gè)物體的檢測(cè)?!?/p>
深入百度大腦,里面用到一種叫深度語(yǔ)義神經(jīng)網(wǎng)絡(luò)的模型,它是百度大腦用自然語(yǔ)言去匹配query和網(wǎng)頁(yè)的語(yǔ)義相關(guān)性。這是業(yè)界第一次把深度學(xué)習(xí)用于提升搜索精度的成功案例,也是迄今為止深度學(xué)習(xí)用于語(yǔ)言文本信息最成功的應(yīng)用。
提到搜索,很多人想到的可能都是在搜索引擎上輸入一串詞語(yǔ),按一下回車鍵,再逐個(gè)點(diǎn)開(kāi)查看哪個(gè)是自己想要的。用慣了的人可能不覺(jué)得,但這種傳統(tǒng)的搜索方式其實(shí)是把不習(xí)慣鍵入文字內(nèi)容甚至不會(huì)輸入法的人排除在外的。
而在這間會(huì)議室,余凱用自己的手機(jī)給我們展示百度大腦為移動(dòng)搜索帶來(lái)的新體驗(yàn):用手機(jī)拍下一盆不知名的室內(nèi)植物,就可以看到百度百科對(duì)它的描述;拍下農(nóng)夫山泉的瓶子,價(jià)格和供應(yīng)商等相關(guān)信息都會(huì)跳出來(lái);對(duì)著話筒說(shuō)一句“請(qǐng)問(wèn)怎么到科學(xué)中國(guó)人雜志社”,路線就有了;拍一張中文菜單,可以翻譯成英文;不會(huì)做的作業(yè),拍下來(lái)上傳搜索,就能在百度知識(shí)庫(kù)里找到相應(yīng)的解答……
余凱博士試駕正在研究的高度自動(dòng)化汽車
余凱博士在未來(lái)論壇發(fā)表演講
百度翻譯、百度作業(yè)幫、涂書筆記、百度識(shí)圖、百度魔圖……它們都有自己的名字。網(wǎng)上搶票的驗(yàn)證碼太過(guò)奇葩,百度可以幫你轉(zhuǎn)化;運(yùn)單上的手寫電話號(hào)碼看不清,百度也能來(lái)識(shí)別?!艾F(xiàn)在的單字準(zhǔn)確率可以達(dá)到95%,但按照整個(gè)序列來(lái)說(shuō)只有80%,不過(guò)我們的內(nèi)部技術(shù)每個(gè)月都在提升?!庇鄤P很為百度出品自豪,他們的圖像檢索技術(shù)可以實(shí)現(xiàn)高精準(zhǔn)的以圖搜圖,在相關(guān)產(chǎn)品的精準(zhǔn)度對(duì)比上,68%優(yōu)于谷歌,4%相仿,18%略差于谷歌。這個(gè)成績(jī)已經(jīng)是世界最好的精準(zhǔn)度了。何況,他們不僅能識(shí)別圖片主體,還能識(shí)別圖片背景,在某項(xiàng)世界級(jí)的大賽中,超過(guò)谷歌,拿到了冠軍。
“一輛黃色的巴士開(kāi)過(guò)來(lái),沿途綠樹(shù)成蔭。”余凱指點(diǎn)著一幅畫圖下的說(shuō)明文字,告訴我們那是百度大腦自動(dòng)生成的語(yǔ)言?!叭嗽诳吹綀D片的時(shí)候往往會(huì)反應(yīng)出相應(yīng)的信息,并可以用自然語(yǔ)言描述出來(lái)。機(jī)器是不是能做到這件事呢?經(jīng)過(guò)我們?cè)谌斯ぶ悄芗夹g(shù)上的突破,終于可以了?!?/p>
回國(guó)后,余凱就帶領(lǐng)百度的語(yǔ)音和圖像等團(tuán)隊(duì)開(kāi)展面向互聯(lián)網(wǎng)搜索和移動(dòng)應(yīng)用的基礎(chǔ)技術(shù)研發(fā),推動(dòng)了深度學(xué)習(xí)技術(shù)在互聯(lián)網(wǎng)各業(yè)務(wù)方向的突破和應(yīng)用。這些,是他和團(tuán)隊(duì)積累下來(lái)的成果。到現(xiàn)在,利用深度學(xué)習(xí)之后,百度在移動(dòng)搜索上的語(yǔ)音識(shí)別技術(shù)的成長(zhǎng),超過(guò)了過(guò)去15年里用所有技術(shù)帶來(lái)的提升總和。
在圖像方面、OCR、人臉識(shí)別、物體檢測(cè)等方面,百度都取得世界最領(lǐng)先的成績(jī)。在百度核心廣告業(yè)務(wù)方面,深度學(xué)習(xí)也顯著提升了廣告投放的精準(zhǔn)性,在提升用戶體驗(yàn)的同時(shí),也大大提升了百度的營(yíng)收。在2015年1月18日極客公園大會(huì)上,Robin說(shuō)到:“三年前我決定大手筆投入的時(shí)候,我覺(jué)得這個(gè)事兒五年、十年以后才能受益,但沒(méi)想到一兩年以后已經(jīng)看到了對(duì)我們現(xiàn)有業(yè)務(wù)的提高,這是超出自己想象的”。
對(duì)百度來(lái)說(shuō),僅有這些還是不夠的。他們還在延展真正的線下服務(wù),譬如說(shuō)“高度自動(dòng)化駕駛”。注意,是高度自動(dòng)化駕駛,不是無(wú)人駕駛。余凱認(rèn)為,像谷歌那樣直接做無(wú)人駕駛,遇到的阻力會(huì)比較大,不容易成功。技術(shù)問(wèn)題雖然好解決,但是中國(guó)現(xiàn)有的道路狀況是不是合適?政策法規(guī)有沒(méi)有合理的規(guī)范?路上同時(shí)有自動(dòng)駕駛車輛和人工駕駛車輛時(shí),要如何協(xié)調(diào)?“這是整個(gè)行業(yè)產(chǎn)業(yè)的問(wèn)題,但是我們不一定非要等到理想狀態(tài)實(shí)現(xiàn)的那一天才有事情做?!?/p>
他分析道,第一個(gè)階段是輔助駕駛,當(dāng)行車途中遇到行人或其他障礙時(shí),車輛會(huì)自動(dòng)報(bào)警,但能不能采取措施是司機(jī)的事。第二個(gè)階段是主動(dòng)安全,也就是說(shuō),假如真的檢測(cè)到前面有個(gè)小孩,不管司機(jī)有沒(méi)有應(yīng)對(duì),車子自己都會(huì)停下來(lái)。第三個(gè)階段是在限定條件下的自動(dòng)駕駛,比如在高速公路上自動(dòng)巡航、保持車距、識(shí)別彎道等,目前還做不到,但是在大型倉(cāng)儲(chǔ)中心內(nèi)部進(jìn)行貨物運(yùn)輸會(huì)先一步實(shí)現(xiàn),也就是特定場(chǎng)景下的自動(dòng)駕駛。再往后,自動(dòng)化程度會(huì)越來(lái)越高。“每個(gè)階段都有商機(jī),我們會(huì)采取更加現(xiàn)實(shí)主義的做法,一步步推進(jìn),看如何與市場(chǎng)和國(guó)民經(jīng)濟(jì)對(duì)接?!?/p>
在現(xiàn)實(shí)的理想主義思路下,百度已經(jīng)在開(kāi)發(fā)高度自動(dòng)化駕駛項(xiàng)目,開(kāi)發(fā)大規(guī)模的高精度三維地圖。“業(yè)界的地圖精準(zhǔn)到幾米,我們可以精準(zhǔn)到車道線、電線桿的位置,大概10~20厘米。這是高度自動(dòng)化的先決條件?!爆F(xiàn)在圍繞北京五環(huán)以及京新高速公路(G7)的三維地圖已經(jīng)建設(shè)完成。結(jié)合高精度地圖和動(dòng)力系統(tǒng)的仿真建模,自動(dòng)駕駛的控制算法就可以不必每次都上路調(diào)試,完全可以在計(jì)算機(jī)上仿真完成。“我們是用低成本的設(shè)備和高端的算法來(lái)做事。不然的話,像谷歌現(xiàn)在加到車上的傳感器,都?jí)蛸I好幾輛車了?!庇鄤P調(diào)侃道。
余凱博士團(tuán)隊(duì)獲得2014年度第三季“百度好聲音”冠軍
“外界媒體總是把IDL和微軟、谷歌等國(guó)際公司的研究院放在一起比較,其實(shí)我們比它們做的事情還多,對(duì)公司核心業(yè)務(wù)的影響更大?!痹谟鄤P心里,百度IDL是個(gè)極其特殊的團(tuán)隊(duì)。在設(shè)計(jì)之初,百度對(duì)IDL的期待很多,首當(dāng)其沖的,就是為百度保持對(duì)世界一流人才的吸引力。余凱說(shuō),“我很幸運(yùn),不僅Robin對(duì)人工智能高度重視,而且百度還擁有一支從上到下、志同道合的強(qiáng)悍的團(tuán)隊(duì),我的直接上級(jí)高級(jí)副總裁王勁對(duì)我也非常支持。IDL的很多進(jìn)展離不開(kāi)他的直接領(lǐng)導(dǎo)?!?/p>
在余凱的帶領(lǐng)下,相關(guān)技術(shù)團(tuán)隊(duì)分別于2013年、2014年三次獲得百度百萬(wàn)美金最高獎(jiǎng)?!?014年百度的6個(gè)最高獎(jiǎng),我們拿了兩個(gè)。百度好聲音,我們也拿第一名。”余凱對(duì)現(xiàn)有團(tuán)隊(duì)的評(píng)價(jià)是:一個(gè)充滿激情和理想主義的團(tuán)隊(duì)——work hard,play harder。
他總是說(shuō),IDL這兩年推出的成果,真正做出努力的是這個(gè)團(tuán)隊(duì),而非他本人?!拔覜](méi)有什么管理經(jīng)驗(yàn),也不認(rèn)為自己是個(gè)管理者?!痹趪?guó)外時(shí),余凱曾經(jīng)的上司跟他說(shuō)過(guò)一句話:管理者一般都是命令人,優(yōu)秀的領(lǐng)導(dǎo)者啟發(fā)人、挖掘人的潛能。余凱想做的是引導(dǎo)者,引導(dǎo)方向、創(chuàng)造環(huán)境、激發(fā)團(tuán)隊(duì)每個(gè)人的潛力。絕大多數(shù)時(shí)候,他都在鼓勵(lì)和贊美隊(duì)員,然后適當(dāng)給予調(diào)整。他相信,只懂得聽(tīng)從和服從的,不會(huì)成為真正的創(chuàng)新團(tuán)隊(duì)。而百度IDL需要他們的主動(dòng)性和創(chuàng)造性。
“谷歌要做深度學(xué)習(xí)的話,周邊IBM、微軟等企業(yè)都有豐富的儲(chǔ)備人才。而我們是在中國(guó)互聯(lián)網(wǎng)企業(yè)第一個(gè)做深度學(xué)習(xí)的,招聘的時(shí)候沒(méi)有可參照的樣本。直到現(xiàn)在,整個(gè)產(chǎn)業(yè)也是偏弱的。所以,我們從全球招聘最優(yōu)秀的人才,也在通過(guò)百度項(xiàng)目讓人才得到成長(zhǎng)。希望能夠通過(guò)展現(xiàn)優(yōu)秀的成果和團(tuán)隊(duì)氛圍,吸引更優(yōu)秀的人和我們?cè)谝黄??!彼闹行乃枷胫挥幸粋€(gè)——精英,數(shù)量不重要,只要是精英。2014年5月,余凱成功的說(shuō)服多年的好朋友,將美國(guó)斯坦福大學(xué)人工智能實(shí)驗(yàn)室主任Andrew Ng教授吸引到百度,成為轟動(dòng)全球科技界的一個(gè)標(biāo)志性事件。
百度IDL的第二個(gè)使命是為公司現(xiàn)有的核心業(yè)務(wù)以及長(zhǎng)期的業(yè)務(wù)發(fā)展提供技術(shù)動(dòng)力,這一點(diǎn),他們顯然做到了。
“能在整個(gè)互聯(lián)網(wǎng)發(fā)展上提供指引性的、創(chuàng)新性的思想?!庇鄤P說(shuō),這才是百度IDL的第三個(gè)使命。就像百度不只是搜索,這群踐行現(xiàn)實(shí)理想主義的人,他們的野心也從來(lái)不只是在百度內(nèi)部,他們想要爭(zhēng)取的是業(yè)界的影響力和話語(yǔ)權(quán)。