小菲
谷歌人工智能在比賽中擊敗了圍棋大師,圍棋這項策略和智力游戲有著2500年的悠久歷史,它比國際象棋復雜得多,但尼克·博斯特羅姆對這個比賽結果卻并不感到驚訝。
尼克·博斯特羅姆出生于瑞典,現(xiàn)在是牛津大學的哲學教授,他因新近出了一本名為《超級智能:路徑、危險、策略》的暢銷書而聞名。該書探討了人工智能的好處,同時也認為真正的智能計算機可能加速人類的滅亡。他并不是低估谷歌圍棋機器的能力。他只是認為這不一定是一項巨大的進步。博斯特羅姆認為谷歌系統(tǒng)后面的技術,多年來一直在穩(wěn)定提升,包括討論了很多的人工智能技術,例如深度學習技術和強化學習技術。谷歌打敗圍棋大師只是宏大計劃的一部分,這個計劃已經(jīng)開始很久了,之后也將持續(xù)很多年。
博斯特羅姆說:“先進的人工智能從過去到現(xiàn)在一直在進步,谷歌的基本技術很大程度上延續(xù)了過去幾年的發(fā)展?!?/p>
如果你從另一個角度來看,這也是為什么谷歌的勝利如此令人振奮,也許還有一點令人恐懼。連博斯特羅姆也表示是時候停下來審視這項技術的進展,思考一下它未來的發(fā)展方向。研究者曾經(jīng)認為人工智能需要至少十年才能取得圍棋的勝利,但現(xiàn)在它已經(jīng)抵達當時認為不可企及的高度,或者至少是很多有權力和財富的人希望達到的高度。
這不只跟谷歌有關,還關系到臉書、微軟等其他科技巨頭。創(chuàng)造最聰明的人工智能已經(jīng)變成了一場競賽,參與者是這個星球上最強大和富有的人。谷歌在此所取得的成績,臉書的創(chuàng)始人馬克·扎克伯格對此的反應就是最有力的注腳。
造出來的大腦
谷歌的人工智能系統(tǒng)叫“阿爾法圍棋”,由“深層思維”公司開發(fā),谷歌在2014年早些時候以4億美元的價格收購了該人工智能研究公司。該公司擅長深度學習技術和強化學習技術,這兩項技術讓機器能在很大程度上自學。
用軟件和硬件打造模仿人類大腦神經(jīng)元網(wǎng)絡的人工神經(jīng)網(wǎng)絡,通過深度學習,驅動了照片應用谷歌相冊內置的高效圖片搜索工具。類似的還有臉書的人臉識別功能、Skype的翻譯工具、推特Twitter的色情內容識別系統(tǒng)。如果你給深度神經(jīng)網(wǎng)絡輸入數(shù)以百萬計的游戲動作,你就能教會它打電玩;如果你能輸入其他的海量數(shù)據(jù)集,就能教會神經(jīng)網(wǎng)絡執(zhí)行其他任務—從生成谷歌搜索引擎的計算結果到識別計算機病毒,等等。
強化學習比深度學習更進一步。一旦你建立了能玩好游戲神經(jīng)網(wǎng)絡,你就能讓它跟自己比賽。讓兩套神經(jīng)網(wǎng)絡比賽數(shù)千場之后,系統(tǒng)能夠跟蹤到哪種套路能獲得最高分,從而玩法再上一個臺階。而且該技術并不局限于玩游戲,它還可以應用到任何像游戲那樣需要策略和競爭的東西上。
“阿爾法圍棋”運用了上述所有技術,同時還不僅限于此。哈薩比斯及其團隊加入了第二個層次的深度強化學習,能夠計算每一手棋后面的長遠影響,他們還依靠傳統(tǒng)的人工智能圍棋的技術,包括蒙特卡洛樹算法,通過大量采樣的結果最終收斂到盤面最優(yōu)值。綜合各種技術,造出了能夠打敗專業(yè)棋手的系統(tǒng)。
圍棋很復雜
在取得這次圍棋比賽的勝利之前,許多人工智能專家都不認為機器可以打敗人類專業(yè)棋手,至少短期內不行。
因為圍棋非常復雜。國際象棋每一步平均有35種下法,而圍棋每一手有250種下法,下一手又有250種可能。這樣算下來,意味著即便是最大的超級電腦也不可能看到所有可能的走法會導向的結果。
深度思維公司的科研人員索爾·格雷佩爾解說過阿爾法圍棋的自治屬性:盡管是他們編寫的計算機程序,但人們并不清楚計算機會選擇什么樣的下法。阿爾法圍棋的下法是在接受訓練后的突生現(xiàn)象,人們只是創(chuàng)建了數(shù)據(jù)集和訓練算法,但是最終它的下法不在人們的掌握中,也會比棋手可能想到的下法更好。
在阿爾法圍棋和李世石的比賽里,代替電腦在棋盤上落子的是深度思維公司阿爾法圍棋的研發(fā)者之一黃士杰,黃士杰自己也是圍棋愛好者。按照黃士杰的圍棋排名,他大概只有0.7%的概率可以打敗李世石。在很多方面,黃士杰體現(xiàn)了人工智能未來的一種可能:對于一組特定問題,我們需要人工智能的幫助,但它也需要我們的支持。坐在李世石對面的黃士杰,就像是一個人工智能接口。
而阿爾法圍棋有一些令人出乎意料的下子手法,甚至被職業(yè)棋手認為是“惡手”的,但卻能贏得棋局。比如在第二場第37手的時候,阿爾法圍棋突然下出一步尖沖,這手棋在玩家看來非常奇怪,評論員甚至說覺得是“下錯了”。李世石也被這一手驚到,用了差不多十五分鐘來思索那步棋。事實上那步棋改變了局面,阿爾法圍棋最終贏得了第二場。李世石在賽后的新聞發(fā)布會上表示無法用言語形容其震驚。
因為在比賽中,阿爾法圍棋是試圖盡可能使獲勝的幾率最大化。因此,如果擺在阿爾法圍棋面前的一手棋有兩種選擇:一種是贏20目,但取勝可能性為80%;另一種是以1.5目小勝,取勝可能性是99%。阿爾法圍棋會選擇后者。因此,在比賽過程中,阿爾法圍棋有幾手棋被認為是失誤,或者用術語來說太“緩”的,讓它丟失了幾目的優(yōu)勢,但格雷佩爾認為阿爾法圍棋這么做只是為了增加勝算幾率。
正如哈薩比斯說的,圍棋可能的布局比宇宙的原子還多。想要贏得這項比賽,需要人工智能做計算以外的事情,需要它在某種程度上模仿人類的眼光、人類的直覺,甚至需要它會學習。
因此谷歌和臉書正在研究這個問題,如果他們能夠解開這類極其復雜的問題,就能運用它作為跳板,讓人工智能系統(tǒng)去處理真實世界里更實際的任務。哈薩比斯說,這些技術天生適合機器人,它能讓機器人更好地了解他們周圍的環(huán)境,并對環(huán)境里不可預見的變化作出反應。想象一下,一臺機器除了能幫你刷盤子之外,還能執(zhí)行科學研究,這能為科研人員提供一個可以指引他取得重大突破的人工智能助手。
科技巨頭是玩真的
這一切說明了為什么早前,在谷歌宣布自己秘密打敗圍棋大師的幾個小時之前,馬克·扎克伯格迫不及待地更新了自己臉書的狀態(tài)討論圍棋。
谷歌的聲明是以科研論文的方式發(fā)表在學術期刊《自然》上的,而臉書的工作人員在官方發(fā)布之前已經(jīng)看到了論文(在保密協(xié)議下提前兩天分享給了記者們)。于是馬克·扎克伯格和臉書的其他工作人員一起采取了提前控制損失的宣傳策略。
谷歌發(fā)布聲明的前一晚,臉書人工智能的研究人員發(fā)布了全新的研究報告,詳細講述了他們自己的人工智能圍棋,研究進展本身已經(jīng)讓人印象深刻,扎克伯格也在自己的臉書賬號上宣傳了它。他說:“在過去的六個月里,我們已經(jīng)建立了一個落子速度快到0.1秒的人工智能系統(tǒng),而且下得跟之前花了數(shù)年建立起來的系統(tǒng)一樣好。該項目的研究人員田淵棟,就坐在離我20英尺遠處。我喜歡我們的人工智能團隊坐在我旁邊,讓我從他們的工作中學習?!?/p>
盡管臉書的人工智能圍棋并沒有谷歌的阿爾法圍棋走得那么遠,但現(xiàn)實是臉書也很重視這類人工智能,他們跟谷歌之間競爭激烈,而谷歌也是他們最大的商業(yè)競爭對手。然而,這場人工智能競賽,并不只是關于哪間公司的圍棋人工智能更好,而是關于哪間公司更能吸引到頂尖的人工智能人才。
有多認真呢?扎克都量了他跟田淵棟辦公桌的距離了。在臉書公司,你的重要性就是以你跟扎克伯格坐的距離來判斷的,而扎克伯格很大程度上親自參與了這一項目。今年的元旦,扎克伯格說他在2016年的個人挑戰(zhàn)是建立一個能夠幫他處理工作和家庭事務的人工智能系統(tǒng)。
人工智能的威脅
谷歌和臉書都想打造一個在很多方面超越人類智慧的人工智能系統(tǒng),但他們并不孤單。微軟、推特Twitter以及別的很多公司都在朝著這一方向努力。這對人工智能研究來說是好事,但對某些人,像尼克·博斯特羅姆還有特斯拉的首席執(zhí)行官埃隆·馬斯克等人來說,這也是一件可怕的事情。
正如深度學習創(chuàng)業(yè)公司Skymind的首席執(zhí)行官克里斯·尼科爾森指出,人工智能圍棋展示的那種人工智能,能應用到幾乎所有你能想象到的比賽問題,那些重在策略的問題,包括了金融交易和戰(zhàn)爭,這兩種情況都需要大量的工作和數(shù)據(jù),但這種想法本身就已經(jīng)令人不安了。博斯特羅姆的書解釋說人工智能可能比核武器更危險,不僅因為人類可能濫用它,還因為人類可能造出連自己都控制不了的人工智能。
美國國家安全局和國家情報主任辦公室的資深人士埃里克·哈茲爾廷說:“我們已經(jīng)已經(jīng)走出了人工智能的寒冬。放眼未來,我們現(xiàn)在看到的只是人工智能能力的很小一部分。一切才剛剛開始?!本拖衿渌ぞ?,比如電一樣,人工智能可能要經(jīng)過不斷更新迭代,直到有一天最終變成人們生活中的一部分。至于它是會發(fā)揮積極還是消極作用,哈茲爾廷說:“我還沒有看到任何一種工具被開發(fā)了出來,卻還沒有被用作武器的。”
而圍棋一直以為被當做戰(zhàn)爭的縮影,讓這種擔憂更甚。也有評論反對將戰(zhàn)爭跟棋類游戲放在一起比較,因為真實世界有著更多不確定性也更為紛亂蕪雜。而哈茲爾廷也認為,人工智能還沒有到達那個程度?!傲私馐澜缟系闹匾宋锖涂植婪肿拥哪X袋里在想什么是情報的核心問題。也許未來這些預言會由機器給出。我們傾向于認為人工智能是解決問題的,但如果人工智能最好的用途是發(fā)現(xiàn)問題呢?比如氣候變化問題。作為人類,作為神經(jīng)元,作為自我,永遠都弄不清楚,但如果我們是一個人工智能和人類的混合體,又是否能發(fā)現(xiàn)呢?”
但是對于像阿爾法圍棋這樣的人工智能系統(tǒng)來說,完全不可能對人構成威脅。這個系統(tǒng)的確會自我學習—跟自己下圍棋,自己生成數(shù)據(jù)與制定策略,它也確實可以在圍棋桌上擊敗大多數(shù)人類對手。但即便是像圍棋這么復雜的游戲,它也有其局限性—沒有現(xiàn)實世界那么復雜,深度思維的研究人員能夠隨意修改和關閉它。事實上,把這個特定機器視為威脅是不明智的。
但令人擔憂的是,研究人員不斷地改進這些系統(tǒng),它們會不知不覺跨過某條界線讓世界末日憂慮開始變成現(xiàn)實。博斯特羅姆說,他和其他人類未來研究所里的同事,正在關注那些強化學習能使機器脫離研究人員掌控的方法?!坝行谝院蟾鼜碗s的系統(tǒng)里出現(xiàn)的問題,也能在現(xiàn)有的系統(tǒng)里看到痕跡?!彼忉屨f有些蛛絲馬跡提示了強化學習可能導向機器拒絕被關機。
但這些都是很細微的提示。博斯特羅姆承認這類威脅即便真的會出現(xiàn),但還是很遙遠。多虧了他和那些有影響力的技術專家,業(yè)界更多人理性地提前關注到了潛在的威脅,很可能遠遠早于需要關注的時候。這類擔憂表明,深度思維正在開發(fā)的這些技術是極其強大的。
下一步是什么
哈薩比斯已經(jīng)開始跟衛(wèi)星運營商和金融機構合作,看看人工智能是否最終能夠玩轉他們的數(shù)據(jù)集,也許學會預報天氣或者預測石油期貨交易。但在短期內,他們團隊的心目中為有一個更樸素的目標:設計一個能玩20世紀90年代電子游戲的程序。哈薩比斯于1994年開始游戲設計工作,那年他才17歲,他的第一個項目是獲得金搖桿獎的主題公園,他很清楚盡管深度思維公司現(xiàn)在的人工智能系統(tǒng)已經(jīng)很先進,但相比游戲還是落后了至少十五年。事實上,那些深度思維的人工智能玩起來尚未達到人類水準的游戲,包括《吃豆人》《私家偵探》《蒙特祖馬的復仇》等,需要更長時間的設計或者更復雜的探索。哈薩比斯認為其中一個解決方案,可能是讓人工智能在決策上更為大膽和愿意冒險,因為機械重復的強化學習,“是對它已學知識的過度開發(fā)”。
長遠來看,在深度思維公司攻克了暴雪娛樂的《魔獸爭霸》《星際爭霸》以及其他游戲之后,研發(fā)團隊的下一個目標是建立跟幼童能力相當?shù)娜斯ぶ悄?。但即便是這個看似不高的目標,哈薩比斯認為離實現(xiàn)它還很遙遠。
首先,幼童會遷移學習——把之前學到的知識應用到新的情境中。換句話說,一個幼童學會了玩《乒乓》游戲,他立刻就可以把打磚塊游戲玩得很好,而人工智能必須把兩個游戲分別從頭學起。除了這個挑戰(zhàn)之外,更為棘手的問題是深度思維公司所選擇的深度神經(jīng)網(wǎng)絡和強化學習的組合,是否能夠自己發(fā)展出概念認知—不只熟練掌握計算機指令,還能夠理解實際的事物,比如什么是潛水艇、水,或者氧氣。對于哈薩比斯來說,這是個“未解決的問題”。
小說家和計算機專家扎卡里·梅森則沒有那么樂觀:“他們目前的研究路線距離攻克《星際爭霸》游戲還有5到10年,距離《使命召喚》游戲也許還有20年,要在實戰(zhàn)中駕駛無人機也許要50年。但沿著這個研究方向永遠達不到幼童水平?!贝蠖鄶?shù)孩童不會玩國際象棋或者《星際爭霸》游戲,但是他們能夠跟現(xiàn)實世界進行復雜的交流。梅森說:“他們能夠找到路穿過房間,他們能夠看見東西,且當光影發(fā)生變化時他們仍能認識到那是同一件物體。他們能夠在空間里理解和控制物體?!边@類孩童能輕松完成的任務,對機器來說卻很難,梅森堅信一個玩打磚塊游戲很厲害的機器根本無法靠自學掌握。完成這些任務所需的認知模型,比由雅達利街機或是其他任何游戲平臺能提供的要豐富得多。哈薩比斯的算法代表了真正的突破,但這種突破進一步說明了人工智能跟真正的人的思維仍然差距甚遠。
因此,人工智能的道路還很漫長,盡管谷歌圍棋的勝利讓世界很振奮,但這只是一個開始而已。