李德毅
(中國電子系統(tǒng)工程研究所,北京 100039)
1956年6月,在由十幾位青年學(xué)者參與的達(dá)特茅斯暑期研討會(huì)上誕生了“人工智能”。我們格外懷念那些為人工智能做出過杰出貢獻(xiàn)的科學(xué)家和工程師們。經(jīng)歷一位位熠熠生輝的大師,通過一座座巍峨炫目的里程碑,人工智能已經(jīng)成長為枝繁葉茂的參天大樹,對世界經(jīng)濟(jì)、人類生活和社會(huì)進(jìn)步產(chǎn)生極其深遠(yuǎn)的影響,使我們更加充滿前行的勇氣,去擁抱人工智能的新時(shí)代。
今天,60多年過去了,為什么人工智能快速地火了起來?我認(rèn)為計(jì)算機(jī)網(wǎng)絡(luò)功不可沒,有了互聯(lián)網(wǎng)就有了云計(jì)算,有了云計(jì)算就有了物聯(lián)網(wǎng),有了物聯(lián)網(wǎng)就有了大數(shù)據(jù),所以應(yīng)該說是互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)成就了當(dāng)今的人工智能。
人工智能領(lǐng)域到底會(huì)不會(huì)出現(xiàn)重大發(fā)現(xiàn)?會(huì)不會(huì)突然在某一天顛覆世界?我們可以回顧一下歷史。人類走過了農(nóng)耕社會(huì)、工業(yè)社會(huì)、信息社會(huì),現(xiàn)在有的機(jī)構(gòu)還叫信息研究所,其實(shí)已經(jīng)落后了。大家都知道這個(gè)時(shí)代僅有信息的覆蓋是不夠的,智能作為當(dāng)今智能社會(huì)的時(shí)代印記已經(jīng)成為了共識。我們曾經(jīng)依靠資源、資本、勞動(dòng)力等要素投入,支撐中國經(jīng)濟(jì)的規(guī)模擴(kuò)大和快速增長,但這已經(jīng)成為歷史。加快從要素驅(qū)動(dòng)發(fā)展向創(chuàng)新發(fā)展的轉(zhuǎn)變,人工智能是一種解決方案,而且是一種具有開創(chuàng)性的方案,不是靠資本和勞動(dòng)力,而是靠智能實(shí)現(xiàn)創(chuàng)新驅(qū)動(dòng)。
未來我國將成為機(jī)器人最大的市場,而機(jī)器人是制造業(yè)皇冠頂端的明珠,是一個(gè)國家科技創(chuàng)新和中高端制造業(yè)的重要標(biāo)志。機(jī)器人革命是世界性的、時(shí)代性的,只有通過貢獻(xiàn)原創(chuàng)性的技術(shù)才能使我國成為機(jī)器人產(chǎn)品和機(jī)器人市場規(guī)則的重要制定者和主導(dǎo)者。因此,中國能否成為人工智能市場重要規(guī)則的制定者或主導(dǎo)者,就是能否把握住歷史機(jī)遇的問題。毫無疑問,機(jī)器人將成為人類社會(huì)走向智慧生活的重要伴侶,這將引發(fā)人人聯(lián)網(wǎng)、物物聯(lián)網(wǎng)的嶄新形態(tài),會(huì)改變?nèi)祟惖纳a(chǎn)活動(dòng)、經(jīng)濟(jì)活動(dòng)和社會(huì)生活。試問有哪一項(xiàng)技術(shù)能夠在未來不僅從深度而且從廣度上改變?nèi)藗兊纳a(chǎn)活動(dòng)、經(jīng)濟(jì)活動(dòng)、社會(huì)生活?人工智能作為一個(gè)答案就走到了我們的面前。所以這為我們提供了一種全新的觀念,不再是勞動(dòng)力或原材料,也不再是傳統(tǒng)制造,而是知識和智能,將成為先進(jìn)社會(huì)最重要的經(jīng)濟(jì)來源,在這種觀念的強(qiáng)力驅(qū)動(dòng)下,智能的產(chǎn)業(yè)化被推上了風(fēng)口浪尖。
國家提出智能制造,意味著無論是人類智能,還是人工智能,都是在提升創(chuàng)新驅(qū)動(dòng)發(fā)展源頭的供給能力,這就解釋了為什么所有學(xué)會(huì)都在研究人工智能,它是創(chuàng)新的原始驅(qū)動(dòng)力量,是生產(chǎn)力中的核心生產(chǎn)力。中國人工智能學(xué)會(huì)聯(lián)合科技部向中央提議把《中國人工智能2030》作為國家《科技創(chuàng)新2030》重大專項(xiàng),是因?yàn)檎麄€(gè)科技界都形成了共識,大家都覺得勢在必行。另外,現(xiàn)在全國有30個(gè)學(xué)會(huì)、50所大學(xué)、100多位教授,建議增設(shè)智能科學(xué)和技術(shù)作為國家一級學(xué)科,我認(rèn)為也是十分必要的。
關(guān)于人工智能的典型案例,我將列舉兩個(gè)例子來闡述,一個(gè)是圍棋腦,一個(gè)是駕駛腦。
拿圍棋來說,近年來人機(jī)對弈的結(jié)果反映出人工智能取得了突飛猛進(jìn)的進(jìn)展。2011年,中國人工智能學(xué)會(huì)組織了九路圍棋人機(jī)大戰(zhàn),北郵圍棋程序Lingo對陣中國圍棋總教練俞斌,當(dāng)時(shí)采用的是9×9的棋盤,還不是現(xiàn)在AlphaGo與李世石對弈的19×19的棋盤,預(yù)先商定俞斌讓兩子。當(dāng)時(shí)俞斌還表示,和機(jī)器人下棋讓兩個(gè)子讓得太狠了,最后北郵的Lingo程序戰(zhàn)勝了俞斌。
根據(jù)當(dāng)時(shí)的結(jié)果,輿論普遍認(rèn)為電腦9路盤圍棋兩三年或可抗衡人類,對于19路盤圍棋,機(jī)器要戰(zhàn)勝人類還看不到希望。2011年科學(xué)家們預(yù)言的19路盤圍棋,沒想到5年之后就變成了事實(shí),為什么?
在研究人工智能或者數(shù)學(xué)的人看來,圍棋跟象棋的根本差別在于,象棋越下棋子數(shù)量越少,勝負(fù)最后以逼死對方將領(lǐng)而定。圍棋并不是這種規(guī)則,棋子沒有大小之分,以將對方棋子圍困程度作為獲勝依據(jù)。這里面有手筋、棄子、劫爭等很多戰(zhàn)術(shù),既要有邏輯思維,更要注重形象思維。這涉及到了更大局觀的問題,本質(zhì)上是一個(gè)拓?fù)鋵W(xué)的問題,或者可以歸結(jié)為拓?fù)鋭?dòng)力學(xué)的問題,這也是圍棋有趣之處。
拿19×19路的棋盤舉例,從統(tǒng)計(jì)學(xué)角度看,一個(gè)特定的棋局態(tài)勢大概有250種可能的期望走法,沿某種走法深入下去就可達(dá)150層。因此,共有250150遍歷搜索,計(jì)算量和推理難度巨大。圍棋因其巨大的搜索空間和困難的棋局態(tài)勢表達(dá),被認(rèn)為“千古無同局”,歷來被稱為是人工智能的最大挑戰(zhàn)。計(jì)算機(jī)如何成功應(yīng)對這次挑戰(zhàn),是我們重點(diǎn)關(guān)注的內(nèi)容。
從根本上說,我們認(rèn)為AlphaGo勝,勝在它突破了傳統(tǒng)程序,搭建了兩套模擬人類思維的深度卷積神經(jīng)網(wǎng)絡(luò)。第一套網(wǎng)絡(luò)是Value Networks,它承載棋局態(tài)勢評估,到底誰圍住誰、當(dāng)前的態(tài)勢如何,這是一個(gè)網(wǎng)絡(luò)評估,正如指揮員上戰(zhàn)場,最需要的就是這種作戰(zhàn)態(tài)勢評估。第二套網(wǎng)絡(luò)是Policy Networks,它選擇如何落子,這就是軍事上講的決策。所以計(jì)算機(jī)利用了兩套網(wǎng)絡(luò),一套態(tài)勢評估網(wǎng),一套決策網(wǎng),來向人類棋手學(xué)習(xí),對海量樣本的勝局和敗局進(jìn)行分析和計(jì)算,并自動(dòng)提取規(guī)則,進(jìn)行推理。
從人工智能角度看人機(jī)大戰(zhàn),這是人類高手與人工智能發(fā)展成果積累的對決,是讓棋手充當(dāng)測試員的一次科學(xué)試驗(yàn)。李世石事后表示,和機(jī)器人下棋沒有感覺,這因?yàn)樗麑?shí)際上承受的是一個(gè)人和一群人的對決。對方陣營里,所有的程序員都是會(huì)下圍棋的,既是棋類高手又是人工智能高手。就像我們現(xiàn)在研究無人駕駛汽車一樣,你既是經(jīng)驗(yàn)豐富的駕駛員,又是研究人工智能車的專家。所以,李世石和機(jī)器人下棋其實(shí)是一個(gè)生物人與“人與機(jī)器混合生物”之間的對決。如果你只會(huì)下棋不懂人工智能肯定贏不了李世石這樣的世界級高手,你只懂人工智能但不會(huì)下棋同樣也贏不了,能編寫出一個(gè)好的圍棋程序的程序員不會(huì)下圍棋是不實(shí)際的,所以要跨界創(chuàng)新。同樣的道理,無論是人機(jī)的象棋大戰(zhàn),還是人機(jī)的圍棋大戰(zhàn),本質(zhì)上都是人機(jī)跟機(jī)人的大戰(zhàn)。一個(gè)是機(jī)器在前面,人在后面,一個(gè)是人在前面,機(jī)器在后面。從長遠(yuǎn)來看,到底誰輸誰贏,統(tǒng)計(jì)概率都是50%。
AlphaGo僅僅是一個(gè)圍棋腦,確切來說它都不算是一個(gè)圍棋手,因?yàn)樗强咳溯o助去拿棋子的。他更不是一個(gè)圍棋機(jī)器人,因?yàn)樗鼪]有眼和手,沒有感知和行為能力,沒有情緒和情感,不能分析對手的心理狀態(tài),不能現(xiàn)場和對手展開心理戰(zhàn),缺少交互認(rèn)知能力。最近幾年我對交互認(rèn)知研究得稍微多一點(diǎn),之前我在合肥計(jì)算機(jī)大會(huì)上提出了這個(gè)問題,大家不要總是講計(jì)算智能、計(jì)算認(rèn)知,應(yīng)該多花一點(diǎn)精力研究交互智能、交互認(rèn)知。其實(shí)下棋就是典型的交互,是兩個(gè)智能體之間通過交互進(jìn)行的較量。
關(guān)于AlphaGo,我們可以再深入展開,對以下幾個(gè)問題進(jìn)行思考。
第一個(gè)問題,如果讓AlphaGo按照原來的方法和步驟再下一盤棋,是否能夠完全重復(fù)?我曾經(jīng)寫過一本書《不確定性人工智能》,里面認(rèn)為我們所處的世界本質(zhì)上是處處存在不確定性的,一個(gè)魯棒的具備處理一定不確定性問題的人工智能方法必然也是具有一定不確定性的。因此我認(rèn)為AlphaGo每次的計(jì)算結(jié)果是很難重復(fù)的,每次都下得不同,至少不會(huì)完全相同。
第二個(gè)問題,AlphaGo和李世石下了5盤棋,下棋之后這個(gè)程序有沒有發(fā)生改變?如果是發(fā)生改變了,改變會(huì)出現(xiàn)在哪里?這種改變起到什么作用?如果不發(fā)生改變,就如同我們的手機(jī)程序,只需要重新啟動(dòng)就恢復(fù)如初。
第三個(gè)問題,讓相同版本或者不同版本的AlphaGo對弈一下,機(jī)器人和機(jī)器人下棋,結(jié)局會(huì)如何?最初和樊麾對弈是版本9,和李世石對弈是版本13,和柯潔對弈的是AlphaGo的另外一個(gè)版本。在挑戰(zhàn)人類的過程中AlphaGo的版本在不斷升級,尤其在中國挑戰(zhàn)柯潔這段時(shí)間,AlphaGo的版本升級速度比人類智能生活進(jìn)化的速度要快得多。
第四個(gè)問題,如果讓AlphaGo不再和高手下棋,而是和普通的棋手下,棋藝會(huì)不會(huì)退化?以上這些問題都值得我們?nèi)ニ伎肌?/p>
我覺得未來機(jī)器人的學(xué)習(xí)能力應(yīng)該是標(biāo)配。如果我們?nèi)蘸蠼M織一場輪式機(jī)器人和賽車手的比賽,完全按照人和人之間的規(guī)則進(jìn)行比賽,讓機(jī)器人在整個(gè)過程都有一個(gè)完整的感知認(rèn)知和行為能力,而不僅僅像是與AlphaGo對弈這種只存在于決策層面的比賽,我想這樣的人機(jī)大戰(zhàn)一定會(huì)更加激動(dòng)人心。
10年來,我一直在研究智能車,研究核心是駕駛腦。汽車作為曾經(jīng)被稱為改變了世界的機(jī)器,正在被人工智能所改變,正在被世界所改變。實(shí)際上,汽車至今只有100多年的歷史,看看百年汽車工業(yè)核心競爭力轉(zhuǎn)移圖。19世紀(jì),人們關(guān)注的是機(jī)械、傳動(dòng)、底盤、輪胎、結(jié)構(gòu);20世紀(jì),人們關(guān)注的是被動(dòng)安全、碳排放、發(fā)動(dòng)機(jī)、能源;再后來人們開始考慮輕量化、主動(dòng)安全、電動(dòng)汽車、新能源和數(shù)字汽車?,F(xiàn)在大家最感興趣的是自動(dòng)駕駛、自主駕駛和輪式機(jī)器人。
汽車給人類帶來便利的同時(shí),也帶來了嚴(yán)重的憂患。一人一車、一人多車導(dǎo)致人類對自然資源的過度剝奪和消費(fèi),尤其是土地和能源,引發(fā)了一系列生態(tài)問題和社會(huì)問題。所以汽車是必須要變革的,不管你愿不愿意,汽車變成智能車都是必然的。另外,從汽車造成的災(zāi)難來看,公安部發(fā)布的2010年我國交通事故死亡人數(shù)是65225人,WHO模型估計(jì)數(shù)據(jù)是275983人,相當(dāng)于每天一次重大空難。美國亦然,全球人類傷亡相當(dāng)于每月一次911大災(zāi)難。所以汽車要發(fā)生變革,站在邏輯的角度看是不可避免的,站在科學(xué)理論角度上看也是必然的。我曾經(jīng)講過一句話:科學(xué)進(jìn)步和人類文明不允許汽車成為全球第一殺手。客觀上來講,在緊急情況下,人類的本能無法做到絕對安全,駕駛員失誤必然客觀存在。我們可以做到不盲駕,也可以做到不酒駕,但是絕對做不到不犯錯(cuò)誤。人類必然會(huì)犯錯(cuò)誤,但人工智能將取代人類與機(jī)器直接接觸,使得人工孤立駕駛機(jī)器的時(shí)代一去不復(fù)返,這就是我們做智能駕駛的動(dòng)力所在。
權(quán)威機(jī)構(gòu)預(yù)計(jì),到2030年左右,80%的車輛都是自主行駛,偶爾的人工駕駛只是為了享受駕駛的樂趣而已,移動(dòng)機(jī)器人將再次改變?nèi)祟惖纳钚螒B(tài)。我們要做的智能駕駛是一種輪式機(jī)器人,當(dāng)然也有人說智能汽車不一定是輪式機(jī)器人,也可以是一種自動(dòng)駕駛的終端。例如,地鐵機(jī)車和高鐵的列車就可以是自動(dòng)駕駛。汽車向前發(fā)展有兩條路,一條路是自動(dòng)駕駛加網(wǎng)絡(luò)調(diào)度,在一個(gè)封閉的結(jié)構(gòu)化環(huán)境中實(shí)現(xiàn)汽車的自動(dòng)駕駛;另一條路是在開放的非結(jié)構(gòu)化道路下運(yùn)行,讓汽車能夠像人一樣自主行駛。我們選擇的就是第二條路,強(qiáng)調(diào)用人工智能技術(shù)代替駕駛員的感知。我們絕不是要取代汽車,目標(biāo)并不是做一輛更好的汽車,而是要研究代替駕駛員的功能,代替駕駛員的感知、認(rèn)知和行為,確保車輛自主行駛的方法和途徑。我們不糾結(jié)機(jī)器駕駛腦或者駕駛員腦是否在微觀上具有相似性,我們把它叫做認(rèn)知的物理學(xué)方法,而不是認(rèn)知的生物學(xué)方法。所以在我們看來,我們所說的智能駕駛和汽車行業(yè)的說法并不一樣,即所謂最高級的自動(dòng)駕駛——全自動(dòng)駕駛,并不是我們定義和劃分的智能駕駛。
我們可以把智能駕駛等級區(qū)分為離線輔助駕駛和在線自動(dòng)駕駛,像ADAS、抬頭顯示、地圖導(dǎo)航、碰撞預(yù)警等的離線輔助駕駛,以及能夠完成局部時(shí)段、局部區(qū)域自動(dòng)駕駛,但這兩種劃分本質(zhì)上都屬于輔助駕駛。比如特斯拉開啟自動(dòng)駕駛時(shí)要求駕駛員必須把手放在方向盤上,因此有人提出質(zhì)疑,這不是自動(dòng)而是能夠隨時(shí)干預(yù),應(yīng)該稱作輔助駕駛,所以后來特斯拉更名為自動(dòng)輔助駕駛。可即使是這樣大家還是不能認(rèn)同,試想在駕駛過程中隨時(shí)都可能參與人的輔助還怎么能稱為自動(dòng)呢?
我們希望做的自主駕駛是一種沒有駕駛員的駕駛,或者叫自駕駛。現(xiàn)在說的比較多的是機(jī)器自駕駛,為什么不能稱為無人駕駛?因?yàn)檐嚴(yán)锶匀挥谐藛T,像無人機(jī)那樣沒有乘員才能叫作無人??萍疾吭诎l(fā)表“十三五”規(guī)劃重大專項(xiàng)時(shí)有一個(gè)新提法,叫做“以人為本的人機(jī)協(xié)同共駕”,我認(rèn)為這個(gè)說法較為妥當(dāng)。人和機(jī)器人要和諧相處,類似于騎士與馬的關(guān)系,馬是認(rèn)知主體,馬的前腿怎么跨,后腿怎么蹬,不需要騎士給它發(fā)具體的操作指令,這是它的本能。我們希望將來人和機(jī)器人也能達(dá)到這種和諧相處,所以我把智能駕駛分五個(gè)等級,現(xiàn)在的自動(dòng)駕駛本質(zhì)上是輔助駕駛,還屬于有人駕駛。
圖1 自動(dòng)駕駛陷阱
車輛行駛過程中充滿了不確定性,如果汽車采用軟件定義的機(jī)器自動(dòng)駕駛,我們無法知曉滿足當(dāng)前駕駛條件的自動(dòng)駕駛窗口會(huì)維持多久,需要做隨時(shí)切轉(zhuǎn)到人工駕駛的準(zhǔn)備。因此,這種“自動(dòng)駕駛”難以啟動(dòng),甚至是一個(gè)陷阱。為什么有這種結(jié)論?圖1的環(huán)形道路中有黃色和紅色兩種汽車,假設(shè)黃色小車是自動(dòng)駕駛,兩臺紅車是人工駕駛。黃色的自動(dòng)駕駛車輛經(jīng)過計(jì)算可以確定當(dāng)前的窗口條件完全符合自動(dòng)駕駛,但是有人駕駛的紅車參與進(jìn)來會(huì)帶來非常大的不確定性,自動(dòng)駕駛無法完全預(yù)知人的駕駛行為。所以一旦有人駕的紅車出現(xiàn)嚴(yán)重干擾自動(dòng)駕駛黃車的行為,黃車的預(yù)設(shè)自動(dòng)駕駛條件會(huì)很快崩潰,搗亂車輛甚至可以把駕駛環(huán)境搞得一塌糊涂。即使有人說自動(dòng)駕駛可行,但事實(shí)上只要參與進(jìn)來兩個(gè)搗亂的人,所有的合理性都會(huì)遭到破壞。所以我認(rèn)為自動(dòng)駕駛亦或是一個(gè)陷阱,即“自動(dòng)駕駛陷阱”。
讓我們思考幾個(gè)問題,駕駛的作用是什么?為什么需要駕駛員?因?yàn)椴还芏嗪玫能?,自?dòng)化水平多高,車輛行進(jìn)中駕駛員會(huì)與道路環(huán)境和周邊的交通參與者不停地進(jìn)行交互,通過本車的運(yùn)動(dòng)行為讓周邊車輛感知自身的存在,通過燈語、笛語、手勢等方式與附近車輛、行人溝通。例如有些禮貌的司機(jī)會(huì)客氣地伸出手來讓其他人先通過,這就是溝通,當(dāng)然按喇叭催促其他人快走也是一種溝通。交互認(rèn)知的結(jié)果將會(huì)轉(zhuǎn)為對自身車輛的控制,交互認(rèn)知的結(jié)果會(huì)在不同個(gè)體中存在差異,這種差異是一種能夠反映個(gè)人智力和運(yùn)動(dòng)協(xié)調(diào)能力的差異。我們需要思考如何看待駕駛員在駕駛過程中與環(huán)境和周邊車輛的交互認(rèn)知?駕駛員的作用在自動(dòng)駕駛中由誰來替代?因此提出公式:
自主駕駛是否等于若干個(gè)自動(dòng)駕駛模式的疊加?設(shè)i為自動(dòng)駕駛模式的編號,N為模式總數(shù),當(dāng)N的數(shù)量級巨大時(shí),是否意味著億萬個(gè)自動(dòng)駕駛模式的迭加就等同于自主駕駛?拿自動(dòng)泊車項(xiàng)目舉例,如果在項(xiàng)目初期用戶提出自動(dòng)泊車應(yīng)該有4個(gè)模式,程序員會(huì)立即按照要求開發(fā)對應(yīng)模式的功能。但項(xiàng)目實(shí)施過程中發(fā)現(xiàn)存在問題,需要臨時(shí)增加4個(gè)模式,緊接著為了應(yīng)付新出現(xiàn)的情況,有可能馬上增加到16個(gè)模式,當(dāng)然這只是開始。為了能夠應(yīng)用于不同車型、不同時(shí)段、不同泊車位,自動(dòng)泊車模式做到萬級也不可能窮舉項(xiàng)目環(huán)境的多變性,在這種情況下,我們會(huì)提出第一個(gè)質(zhì)疑,究竟要多少種自動(dòng)駕駛模式才能夠完全覆蓋各種各樣的駕駛場景?想象一下我們是如何泊車的,我見到很多車主泊車的環(huán)境是一半車體在路牙上面,一半在路牙下面,這種情況下泊車線根本不存在,但生活中有的人就可以這樣成功泊幾十年的車。第二個(gè)質(zhì)疑,從一種自動(dòng)駕駛模式轉(zhuǎn)換到另外一種自動(dòng)駕駛模式是否唯一確定?如果這兩個(gè)問題的答案是否定的,上述公式存在的基礎(chǔ)就不能成立。
智能車研發(fā)遇到的困難,是不僅僅要搞定汽車動(dòng)力學(xué)各種各樣的傳感器問題,更重要的是研發(fā)和駕駛員一樣在線的機(jī)器駕駛腦,模擬實(shí)現(xiàn)人在回路中自主預(yù)測和控制,應(yīng)對車輛行駛中的不確定性。讓車廠去模擬人在回路的自主駕駛是很困難的,把機(jī)器駕駛腦的研發(fā)放到車廠去做更是難上加難,所以我們做的工作就是給車廠減負(fù)。
我們在車上加了一個(gè)具有感知和認(rèn)知功能的設(shè)備,在已有認(rèn)知的協(xié)助下將三大類傳感器的信息分成類似人的視覺通道,主要有三個(gè)通道,一個(gè)是GPS+IMU通道,一個(gè)是雷達(dá)通道,另外一個(gè)是圖像通道,這三個(gè)通道各司其職,又只能盡力而為,形成視覺殘留。這些通道是干什么的?第一做定位,第二做路權(quán)檢測,第三做導(dǎo)航。定位就是車在什么地方,我們用GPS通道絕對定位,用雷達(dá)和圖像通道相對定位;路權(quán)檢測就是檢測車輛周邊有多大的路權(quán)用于行駛;導(dǎo)航就是下一步車怎么開。從技術(shù)上講,第一類是SLAM,第二類是路權(quán),第三類是認(rèn)知箭頭,我們都把它形式化。
在自動(dòng)駕駛過程中我們需要關(guān)注什么?我們可以做帶GPU加速的計(jì)算機(jī)圖像處理,這叫先視后覺,也要做視而不覺、邊視邊覺或者先覺后視。我們有一句話,“路邊的美女不要看”,駕駛腦不需要這個(gè)“閑心”,它對不參與交通的自然風(fēng)景、建筑風(fēng)格、行人年齡、姿態(tài)行為、是不是美女、行人和寵物的差別、是不是時(shí)尚等都沒有興趣。所以有的東西要視而不覺,有的東西要邊視邊覺,有的要先覺后視。我們拿駕駛腦的一張圖來解釋一下這種說法,這張圖反映了使用已有的認(rèn)知幫助當(dāng)前的感知這一功能。
圖2 駕駛腦數(shù)據(jù)流程圖
大家知道人腦的記憶是完全不同于計(jì)算機(jī)的存儲,人腦里至少有三個(gè)記憶區(qū),一個(gè)叫瞬間記憶,一個(gè)叫工作記憶,還有一個(gè)叫場景記憶。我們利用瞬間記憶來感知圖像、雷達(dá)給我們帶來的豐富的典型信息,用駕駛態(tài)勢感知之前的可用路權(quán),用認(rèn)知箭頭體現(xiàn)我們的方向盤、油門和剎車的操作。這就是駕駛腦的形式化,這張圖體現(xiàn)了駕駛腦的基本狀態(tài),反映了不同記憶區(qū)在過程當(dāng)中的反饋,以及人腦在長期記憶、短期記憶、工作記憶之間的相互關(guān)系。因此,駕駛腦里面有路口記憶、事故記憶、險(xiǎn)情記憶等。
特斯拉并沒有識別出掩映在藍(lán)天白云下的白色大卡車,發(fā)生了事故。如果這個(gè)事故是一個(gè)事故場景的話,就可以把這個(gè)場景復(fù)制到駕駛腦中,如果所有的機(jī)器人都有這個(gè)事故記憶,就再也不會(huì)發(fā)生這樣的事故,這就是機(jī)器駕駛腦的作用。真正能教機(jī)器人開車的應(yīng)該是駕駛員,有經(jīng)驗(yàn)的駕駛員長期與車互動(dòng),熟練到已經(jīng)把車同化為人體的一部分,成為與身體無縫對接的真實(shí)外延。因此,機(jī)器駕駛腦在駕駛員開車時(shí)應(yīng)該能“悄悄地”自學(xué)習(xí),將“腦和機(jī)器融合在一起”。我們將調(diào)試總線擴(kuò)展為自學(xué)習(xí)總線,開創(chuàng)自學(xué)習(xí)板塊,完成統(tǒng)計(jì)學(xué)習(xí)和進(jìn)化學(xué)習(xí),讓輪式機(jī)器人像人一樣開車。一旦當(dāng)前的認(rèn)知與過去經(jīng)歷的記憶進(jìn)行了混合比對,駕駛腦便能對不確定未來做出合適的決策,完成大腦的創(chuàng)造性、運(yùn)動(dòng)的靈巧性以及對車無窮無盡的同化過程。
當(dāng)前版本的駕駛腦有兩個(gè)網(wǎng)絡(luò),第一個(gè)是駕駛態(tài)勢評估網(wǎng),第二個(gè)是決策網(wǎng)絡(luò)。我們的需求網(wǎng)絡(luò)是這樣做的:人工駕駛的時(shí)候,三路機(jī)器感知通道是同時(shí)工作的,駕駛腦使用形式化的方法把各通道的感知變成當(dāng)前的駕駛態(tài)勢,把駕駛員對當(dāng)前態(tài)勢的應(yīng)對,如對方向盤、油門或者剎車的動(dòng)作抽象成認(rèn)知箭頭。這樣當(dāng)前的駕駛態(tài)勢和對應(yīng)該態(tài)勢的認(rèn)知箭頭就組成一個(gè)圖對庫,這個(gè)圖對就是駕駛態(tài)勢-認(rèn)知圖對。舉例來說,假設(shè)首都機(jī)場到天安門的車程為一小時(shí),每小時(shí)行駛36km,就可以獲取到數(shù)萬張的態(tài)勢圖,結(jié)合100s控制一次方向盤,一刻鐘十次方向盤的認(rèn)知箭頭,從一天的車輛運(yùn)行數(shù)據(jù)中我們就能得到數(shù)十萬張幀圖對。接著我們采用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法使用上述數(shù)據(jù)生成駕駛記憶棒,這個(gè)駕駛記憶棒不能像以前一樣稱為知識庫,因?yàn)槠渲胁⒉皇浅橄蟮闹R。如果把駕駛態(tài)勢圖看作人臉圖像,那么操作箭頭就是一個(gè)標(biāo)簽。當(dāng)駕駛員不在時(shí),采用自駕駛開車,三路傳感通道仍然可以得到駕駛態(tài)勢圖,拿當(dāng)前得到的駕駛態(tài)勢圖去搜索引擎里找跟當(dāng)前駕駛態(tài)勢圖最靠近的箭頭是什么樣的,利用返回結(jié)果箭頭來開車,這就是駕駛腦里的自駕駛方案。
圖3 正學(xué)習(xí):機(jī)器人向經(jīng)驗(yàn)駕駛員學(xué)習(xí)
圖4 負(fù)學(xué)習(xí):機(jī)器人向事故駕駛員吸取開車教訓(xùn)
人類為了考駕照學(xué)習(xí)開車和日后經(jīng)年累月積累駕駛經(jīng)驗(yàn)是非常寶貴的過程。真正的駕駛經(jīng)驗(yàn)積累往往是在錯(cuò)誤中學(xué)習(xí)、在事故中學(xué)習(xí),所以駕駛腦應(yīng)該還有負(fù)學(xué)習(xí)的功能。在駕駛員操作情況下如果發(fā)生了事故,駕駛腦會(huì)通過深度學(xué)習(xí)形成一個(gè)事故記憶,當(dāng)駕駛腦自駕駛遇到類似的情形時(shí),是萬萬不可以用人當(dāng)時(shí)的行為進(jìn)行處置,這會(huì)導(dǎo)致犯錯(cuò)誤,這個(gè)叫負(fù)面學(xué)習(xí),來避免犯錯(cuò)誤。負(fù)學(xué)習(xí)就是駕駛腦的創(chuàng)意所在。
當(dāng)下,深度學(xué)習(xí)正站在全球人工智能的風(fēng)口,普遍把卷積神經(jīng)網(wǎng)絡(luò)用于點(diǎn)云圖像識別、完成感知階段的自學(xué)習(xí)。而我們另辟蹊徑,把卷積神經(jīng)網(wǎng)絡(luò)用于形式化之后的、基于可用路權(quán)的駕駛態(tài)勢圖和反映駕駛操作全部內(nèi)容的認(rèn)知箭頭形成的圖對上,用于認(rèn)知階段的深度學(xué)習(xí),大大減少、簡化了實(shí)時(shí)處理的數(shù)據(jù)量。駕駛腦成功的關(guān)鍵是駕駛認(rèn)知的形式化,以及形式化后的自學(xué)習(xí),是把瞬間記憶的大數(shù)據(jù)“縮水”,即“感知理解”之后,一直到認(rèn)知階段進(jìn)行工作記憶區(qū)的遷移學(xué)習(xí)。
當(dāng)然我們還可以通過網(wǎng)絡(luò)設(shè)立云感知、云導(dǎo)航、云認(rèn)知、云學(xué)習(xí)、云交互。回顧近十年,我們參加的比賽和里程碑實(shí)驗(yàn),智能車各種感知和認(rèn)知手段相互依存、彼此纏繞。在各類比賽場、測試場,智能車表現(xiàn)千奇百怪、反反復(fù)復(fù),我們困惑過、迷茫過,試來試去,換車、換平臺、加電源、換模塊,通過多車交叉驗(yàn)證和常態(tài)試驗(yàn),最近幾年終于理出頭緒,設(shè)計(jì)出全新的駕駛腦。駕駛腦將來的發(fā)展跟工廠造車并不矛盾,不是搶工廠的飯碗。
第一,我們研制的駕駛腦是拿“駕照”的。安裝了駕駛腦,車子就可以跑了,相當(dāng)于給車輛頒發(fā)了一個(gè)駕照,這個(gè)工作是車廠替代不了的,這就是駕駛腦的定位。
第二,我們賣“駕齡”,駕駛經(jīng)驗(yàn)可以放到駕駛腦里面,這些駕駛腦中的“駕齡”并不是簡單的駕照,裝沒裝“駕齡”就好比剛拿了駕照的新手和擁有10年以上駕駛經(jīng)驗(yàn)老手的差別。
第三,我們買個(gè)“路熟”,這也是很重要的。一張地圖人人都可以買到,但擁有地圖并不等同于馬上就能開車實(shí)踐上面的路線。用戶必須自己走過這條路并對照地圖才清楚這條路線是否可行。我在《環(huán)球時(shí)報(bào)》上曾寫過一篇文章,倡導(dǎo)對人工智能要有一顆敬畏之心,因?yàn)轳{駛腦能把地圖默化到駕駛這件事情上來,比人類熟悉地圖要快得多。實(shí)踐路線只要給駕駛腦裝上地圖就可以,這是傳統(tǒng)地圖替代不了的。
第四,駕駛腦是個(gè)性化駕駛,或者標(biāo)桿駕駛。我們現(xiàn)在就想做一個(gè)1路車的標(biāo)桿駕駛,大家都知道北京1路車就在長安街來回跑,有的司機(jī)一輩子就開這個(gè)路線,開得很好,我們把他的駕駛經(jīng)驗(yàn)放進(jìn)去,就變成了標(biāo)桿駕駛。
我認(rèn)為當(dāng)前知識和數(shù)據(jù)雙驅(qū)動(dòng)的人工智能是尤其值得我們關(guān)注的。
以圖靈模型構(gòu)造的馮·諾依曼計(jì)算機(jī)的偉大之處是實(shí)現(xiàn)了計(jì)算智能,甚至超過了人的計(jì)算能力。但計(jì)算機(jī)實(shí)現(xiàn)的只是計(jì)算、存儲、交互三者的分離,導(dǎo)致內(nèi)存不同區(qū)域、以及硬盤和內(nèi)存間的數(shù)據(jù)頻繁訪問,這是耗能大的根本原因。而人類腦認(rèn)知的構(gòu)成單元同時(shí)具有記憶智能、計(jì)算智能和交互智能,在架構(gòu)中都沒有得到體現(xiàn)。人類通過交互、記憶和計(jì)算獲得認(rèn)知,在過去的半個(gè)世紀(jì)里我們是否太多地關(guān)注了計(jì)算智能,忽視了交互智能和記憶智能?認(rèn)知主體是自身進(jìn)行的計(jì)算,本質(zhì)是思維。從計(jì)算科學(xué)的角度講,計(jì)算的本質(zhì)是思維,從認(rèn)知的科學(xué)角度看,認(rèn)知的本質(zhì)就是計(jì)算,計(jì)算很重要,但是記憶認(rèn)知也很重要,特別是不同記憶區(qū)的不同形狀和方法。
1950年圖靈提出一個(gè)圖靈測試,檢驗(yàn)是不是智能。這個(gè)如果區(qū)別開來的話,本來只是一個(gè)交互智能測試,所以我們應(yīng)該研究人是如何聽、說、看的,如何體覺交互的,這個(gè)很重要。因此,我把智能分成記憶智能、計(jì)算智能和交互智能。而圖像是認(rèn)知的主體,深度學(xué)習(xí)在圖像認(rèn)知中得到了廣泛應(yīng)用。但是記憶不等于存儲,感知不等于認(rèn)知,就像英語里說的,looking≠seeing,touching≠feeling。我們構(gòu)造了不同尺度連接組的、三位一體的、多個(gè)層次的認(rèn)知網(wǎng)絡(luò)。
我們可以對深度學(xué)習(xí)進(jìn)行一點(diǎn)批判。深度學(xué)習(xí)利用了卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的性能有時(shí)候很好,有時(shí)候也很糟糕。太多的學(xué)習(xí)參數(shù)具有隨意性,不能保證算法的收斂性,缺少反饋機(jī)制,大量案例也不具有累積性,此案例跟彼案例沒有協(xié)和關(guān)系,不像人類的認(rèn)知過程。深度學(xué)習(xí)不可能是人工智能的終結(jié)者。
深度學(xué)習(xí)和規(guī)則程序的巨大差別是學(xué)習(xí)結(jié)果不具有可解釋性,也就是說它可以這樣做,但不知道為什么,傳統(tǒng)編程仍然起著搭建“腳手架”的作用。學(xué)習(xí)的過程,尤其是人工神經(jīng)網(wǎng)絡(luò)中的參數(shù)凍結(jié)過程不透明,學(xué)習(xí)的結(jié)果只知道是什么,不知道為什么。你的車子為什么開得這么好?它答不出來。如果我們從軟件工程的角度來看,軟件=程序+數(shù)據(jù)+文檔,文檔是帶有語意的數(shù)據(jù),歸根到底還是程序,程序怎么來?程序的上位就是算法,算法的上位就是模型,模型的上位就是形式化約束。
我們習(xí)慣于數(shù)據(jù)圍著程序轉(zhuǎn),尤其是程序員,就想管理的是程序、管理的是算法、管理的是模型。今天情況發(fā)生了一些變化,我們不單單從知識驅(qū)動(dòng)的形式化約束向下看模型,向下看算法,最后變成程序,我們還要習(xí)慣用數(shù)據(jù)定義的程序,卷積神經(jīng)網(wǎng)絡(luò)諸多的權(quán)重就是數(shù)據(jù)定義的,就是一個(gè)案例。由上而下的知識驅(qū)動(dòng),早先給出的形式化約束較為寬松,由此形成的“腳手架”,我們可以把它叫做模型和算法,比較寬泛。在依據(jù)算法實(shí)現(xiàn)的程序中,會(huì)存在有很多可選參數(shù)和可選代碼段。而在由下而上的數(shù)據(jù)驅(qū)動(dòng)過程中,這樣的程序可以通過大數(shù)據(jù)的訓(xùn)練和學(xué)習(xí)被精細(xì)化調(diào)教,多次迭代,使得這些參數(shù)逐步凍結(jié)或優(yōu)化,部分代碼將會(huì)被修改。這樣一來就形成了知識、數(shù)據(jù)雙驅(qū)動(dòng)的人工智能。今天機(jī)器人通過大樣本和深度學(xué)習(xí),終于可以聰明到足以改寫程序中的參變量,甚至自身的局部代碼。人工智能的核心不僅僅是算法,更是學(xué)習(xí),大數(shù)據(jù)環(huán)境下充分發(fā)揮碎片化大數(shù)據(jù)認(rèn)知的機(jī)理,克服宏觀認(rèn)知的形式化困難,細(xì)分約束區(qū)間,通過大量微觀認(rèn)知的形式化,降低形式化難度,縮小在線推理范圍,生成數(shù)據(jù)定義的軟件,讓程序圍著數(shù)據(jù)轉(zhuǎn),這個(gè)是我們要關(guān)注的。
我們可以想象,在我們的星球上,圍棋和汽車將會(huì)變成機(jī)器人,它們有智慧、有個(gè)性、有行為能力,甚至還有情感,這句話很美好但不一定正確。機(jī)器人給人類帶來的影響,將遠(yuǎn)遠(yuǎn)超過計(jì)算機(jī)和互聯(lián)網(wǎng)在過去幾十年間對世界的改變。像我們這代人,計(jì)算機(jī)和互聯(lián)網(wǎng)的改變給我們留下了非常深刻的印象,我們可以大膽預(yù)測,機(jī)器人的改變會(huì)比這個(gè)還大。
到2030年,爭取我國每萬名產(chǎn)業(yè)工人所擁有的工業(yè)機(jī)器人數(shù)量達(dá)到300臺。農(nóng)村城鎮(zhèn)化導(dǎo)致中國農(nóng)民急劇減少,無人拖拉機(jī)、農(nóng)用無人機(jī)、背包機(jī)器人和收割機(jī)器人將成為新一代“農(nóng)民”,黃牛退休、鐵牛耕地,農(nóng)民進(jìn)城、專家種田;全國大中醫(yī)院的微創(chuàng)手術(shù)機(jī)器人近一半國產(chǎn)化;在全社會(huì)普及使用形形色色的服務(wù)機(jī)器人,我國每個(gè)家庭都會(huì)有機(jī)器人,老年人、殘疾人和兒童平均每人擁有一臺形態(tài)各異的服務(wù)機(jī)器人,這個(gè)是可以實(shí)現(xiàn)的目標(biāo)。
人類的發(fā)展史就是人類學(xué)會(huì)運(yùn)用工具、制造工具和發(fā)明機(jī)器的歷史,機(jī)器使得人類更強(qiáng)大,人類正在發(fā)明越來越多的機(jī)器人,智能手機(jī)可以成為你的忠實(shí)助理,輪式機(jī)器人也會(huì)比一般人開車開得更好。曾經(jīng)的很多工作崗位將會(huì)被智能機(jī)器人替代,但同時(shí)又會(huì)涌現(xiàn)出更多的新工作,人類將更加尊嚴(yán)、優(yōu)雅、智慧地生活!這才是我們所希望的。
人類始終善于更好地調(diào)教和幫助機(jī)器人,善于利用機(jī)器人的優(yōu)勢并彌補(bǔ)機(jī)器人的不足,或者用新的機(jī)器人淘汰舊的機(jī)器人;反過來,人類還能夠利用機(jī)器人提升自身的智慧和能力,機(jī)器人一定會(huì)讓人類自身更智能。各式各樣人機(jī)協(xié)同的機(jī)器人,為我們迎來了人與機(jī)器人共舞的新時(shí)代,伴隨優(yōu)雅的舞曲,毋庸置疑,人類始終是領(lǐng)舞者。