大衛(wèi)·席爾瓦:渴望通過技術(shù)建立一種深邃而完美的智慧
人物=P
大衛(wèi)·席爾瓦=S
P:為了完成AlphaGo在烏鎮(zhèn)和柯潔的三局對(duì)弈,你們做了哪些準(zhǔn)備?
S:我們沒有為了特定的對(duì)手而做任何特殊準(zhǔn)備,AlphaGo的偉大之處在于它是通過自我博弈來訓(xùn)練的,我們相信算法已經(jīng)發(fā)現(xiàn)了最佳策略。不管怎樣,我們不是足夠強(qiáng)大的圍棋棋手,去給出特定的調(diào)整,因?yàn)槲覀冇锌赡茏罱K會(huì)導(dǎo)致程序變?nèi)酢?/p>
P:從倫敦出發(fā)到中國前心情?
S:我曾經(jīng)觀看AlphaGo打了幾百場(chǎng)比賽,但是它和柯潔對(duì)弈還是很特別的。跟世界冠軍打比賽,你永遠(yuǎn)不可能有百分百的把握。更何況是在那么多人的注視下比賽,這是很讓人傷腦筋的。不過,也會(huì)感覺人們的期望與首爾的人機(jī)大戰(zhàn)有了極大的不同——這一次,人們期待AlphaGo能夠獲勝。
P:烏鎮(zhèn)的圍棋峰會(huì)給你留下怎樣的印象?
S:AlphaGo能夠去中國是一件非常有意義的事,因?yàn)橹袊菄宓恼Q生之地,能夠感受到觀眾們的興奮是實(shí)實(shí)在在的。在烏鎮(zhèn)圍棋峰會(huì)上,我們也嘗試了不同的比賽形式,包括團(tuán)隊(duì)賽和組合賽(編者注:烏鎮(zhèn)圍棋峰會(huì)的團(tuán)隊(duì)賽,即五位棋手組隊(duì)與AlphaGo對(duì)弈。配對(duì)賽,即對(duì)弈雙方各由一位人類棋手加AlphaGo組成,交替落子),讓我覺得最棒的是,人類棋手在與AlphaGo合作過程中所創(chuàng)造的價(jià)值。能夠看到人和機(jī)器這種合作形式為圍棋帶來的創(chuàng)造性,并且由此為這項(xiàng)游戲創(chuàng)造出新的樂趣,這是相當(dāng)了不起的。
P:與人類圍棋世界冠軍的兩次公開對(duì)弈中,給你印象最深的一件事是什么?
S:我們?cè)谑谞柵c李世石對(duì)弈時(shí),一位觀賽的圍棋棋手向我靠近,我觀察到他一直在哭,當(dāng)時(shí)我很擔(dān)心他是因?yàn)锳lphaGo擊敗了一位頂級(jí)的人類棋手而難過。但事實(shí)上,他告訴我,沒想到AlphaGo的落子竟能如此美妙,讓他忍不住落淚。這一瞬間深深地觸動(dòng)了我。我希望這是一個(gè)我們有朝一日能夠在其他領(lǐng)域復(fù)現(xiàn)的時(shí)刻——通過技術(shù),建立一種非常深邃而完美的智慧,將美帶進(jìn)這個(gè)世界。
P:哈薩比斯(Demis Hassbis,DeepMind的創(chuàng)始人兼CEO、戴維·席爾瓦在劍橋大學(xué)時(shí)的同學(xué))在接受英國衛(wèi)報(bào)采訪時(shí)曾講述在劍橋時(shí)教你下圍棋的故事,對(duì)你個(gè)人而言,用人工智能下圍棋的想法產(chǎn)生于何時(shí)?
S:實(shí)際上,我第一次學(xué)習(xí)下圍棋是小時(shí)候和我父親學(xué)的,他在上世紀(jì)80年代學(xué)習(xí)人工智能。后來我在劍橋認(rèn)識(shí)了Demis,我們一起創(chuàng)辦了一家電腦游戲公司,那時(shí)會(huì)經(jīng)常討論將人工智能應(yīng)用到圍棋的想法——當(dāng)然了,偶爾也會(huì)一起殺一盤。后來我離開了創(chuàng)業(yè)公司去追尋這個(gè)夢(mèng)想。2004年,我在阿爾伯塔大學(xué)攻讀博士學(xué)位,主攻“圍棋游戲中的強(qiáng)化學(xué)習(xí)”,彼時(shí)的一些想法應(yīng)用起來,在12年之后塑造了AlphaGo。
P:對(duì)你來說,參與開發(fā)AlphaGo最大的樂趣是什么?
S:我喜歡參與AlphaGo這個(gè)項(xiàng)目的每一刻。我年輕的時(shí)候,總是盼望著能成功開發(fā)出一套圍棋程序——如今,現(xiàn)實(shí)已經(jīng)遠(yuǎn)超我的想象!像在首爾和烏鎮(zhèn)的兩次人機(jī)大戰(zhàn),當(dāng)然也還是會(huì)令人非常興奮的,但是我最大的喜悅還是源于見證AlphaGo項(xiàng)目研發(fā)的進(jìn)展。設(shè)計(jì)出一套算法,看著它發(fā)展到神級(jí)水平,這種感覺真的是太棒了!
P:AlphaGo Zero做到了“不借鑒任何人類經(jīng)驗(yàn)去下圍棋”,當(dāng)時(shí)是怎樣產(chǎn)生這樣一個(gè)大膽的想法的?
S:我一直相信,要想在人工智能上取得進(jìn)步,必須去發(fā)現(xiàn)它的核心原則,使系統(tǒng)能夠自我學(xué)習(xí)。每一次去給AI加入人類的知識(shí)經(jīng)驗(yàn),都有可能限制系統(tǒng)的學(xué)習(xí)能力。因此只有通過移除這些知識(shí)與經(jīng)驗(yàn),才能“解放”系統(tǒng),使之更“自由地”學(xué)習(xí)。
P:與你的預(yù)期相比,AlphaGo Zero真正的到來是早了還是遲了?
S:與其他研究人員相比,我對(duì)電腦圍棋程序的進(jìn)步速度一直持樂觀態(tài)度。2006年,我還曾與一位同事打賭說,圍棋程序?qū)⒃?0年內(nèi)擊敗世界冠軍。幸運(yùn)的是,AlphaGo來得剛剛好!
P:AlphaGo Zero的出現(xiàn)是否意味著有關(guān)AlphaGo的項(xiàng)目徹底告一段落?
S:AlphaGo已經(jīng)打完了它的最后一場(chǎng)比賽,但是我們的研究仍在持續(xù)進(jìn)行,并取得進(jìn)展。我一直都在尋找機(jī)器自我學(xué)習(xí)系統(tǒng)的新想法和算法,我很高興它們將會(huì)被應(yīng)用到新的領(lǐng)域,比如《星際爭(zhēng)霸2》。
P:AlphaGo開發(fā)團(tuán)隊(duì)目前的工作狀態(tài)?
S:AlphaGo團(tuán)隊(duì)目前正在致力于將他們的經(jīng)驗(yàn)和專業(yè)知識(shí)應(yīng)用到一系列不同的項(xiàng)目中,以解決之后將面對(duì)的更大的挑戰(zhàn)!
P:現(xiàn)在來看,AlphaGo Zero的到來對(duì)于AI的發(fā)展意味著什么?
S:AlphaGo Zero的出現(xiàn)證明了,一套算法在不需要專業(yè)人工數(shù)據(jù)的情況下,能夠在圍棋這樣具有挑戰(zhàn)性的領(lǐng)域里達(dá)到神級(jí)水平。AlphaGo Zero所使用的技術(shù),遠(yuǎn)比之前各個(gè)版本的AlphaGo都更為強(qiáng)大, 因?yàn)樗辉偈苋祟愔R(shí)的限制。AlphaGo Zero顛覆了人們所普遍認(rèn)為的,數(shù)據(jù)和計(jì)算是人工智能進(jìn)步的驅(qū)動(dòng)力的想法,在這一點(diǎn)上,它也很重要。
P:開發(fā)AlphaGo所獲得的經(jīng)驗(yàn)中,哪些可以在未來有更具延展性的應(yīng)用?
S:AlphaGo zero所采用的方法可以應(yīng)用于廣泛的結(jié)構(gòu)化問題,包括去計(jì)劃一些任務(wù)或解決某些問題,這些問題與圍棋問題具備一定相似特質(zhì),它們都是需要依照正確的順序去采取一系列行動(dòng)來實(shí)現(xiàn)目標(biāo)的。這類問題的例子包括蛋白質(zhì)折疊,減少能源消耗或者尋找某種新型材料。
P:對(duì)于“警惕人工智能”的言論,你的態(tài)度是怎樣的?
S:人工智能是一個(gè)強(qiáng)大的工具,但這并不意味著人類應(yīng)該害怕它。如果它能夠以倫理的和負(fù)責(zé)任的方式被使用,它有可能對(duì)世界產(chǎn)生非常積極的影響。
P:2017年最令你感覺興奮的一件事?
S:當(dāng)一個(gè)領(lǐng)域產(chǎn)生如此多令人興奮的進(jìn)步時(shí),是很難做到只選出來一件最興奮的事的。但毫無疑問,團(tuán)隊(duì)在AlphaGo上取得的進(jìn)步是我今年一個(gè)明確的亮點(diǎn)!
P:如果2018年每天有25小時(shí),多出來的1小時(shí)會(huì)用來干什么?
S:多讀一篇科研論文!