黃珊
近日,2019年ACM(國際計算機學會)計算獎頒出,由于在計算機游戲領域取得突破性進展,“AlphaGo之父”、DeepMind首席科學家、倫敦大學學院教授大衛(wèi)·席爾瓦獲得最新一屆的ACM計算獎。
大衛(wèi).席爾瓦
大衛(wèi),席爾瓦是深度學習領域的先驅(qū)人物,他在人工智能領域的一系列成績中,又以他帶領打造的AlphaGo最為人所知。大衛(wèi)‘席爾瓦通過巧妙地結(jié)合深度學習、強化學習、蒙特卡洛搜索樹和大規(guī)模計算的思想,開發(fā)了AlphaGo算法,AlphaGo由此戰(zhàn)勝了頂尖的人類棋手,更是被公認為人工智能(AI)研究的一個里程碑。
根據(jù)ACM官方報道,最初,AlphaGo會經(jīng)過來自人類專業(yè)棋手經(jīng)驗的小范圍訓練,然后,它會通過強化學習來不斷改善性能。AlphaGo之后,大衛(wèi)·席爾瓦和他的團隊創(chuàng)造了更新穎的方法,來實現(xiàn)更高的性能和通用性,AlphaZero就此誕生。與AlphaGo不同,AlphaZero完全通過與自己玩游戲來進行學習,不需要任何人類數(shù)據(jù)或先驗知識(游戲規(guī)則除外)。而且,AlphaZero同時在國際象棋、將棋和圍棋游戲中有超過人類的表現(xiàn),證明了其AI算法的通用性。
早在大衛(wèi)·席爾瓦于艾伯塔大學(Universitvof Alberta)攻讀博士學位時,他就開始探索開發(fā)一種可以掌握圍棋智慧的計算機程序,這也成為了他后續(xù)一直在專注的研究興趣。在2013年的NemIPS會議上,席爾瓦展示了一種算法,它可以在雅達利游戲中展現(xiàn)達到人類水平的技巧。這個程序?qū)W會了在游戲過程中僅僅通過觀察像素和分數(shù)來玩游戲。
2015年,大衛(wèi),席爾瓦和他的同事發(fā)布開創(chuàng)性論文
“Human Level C.ontrol Through DeepReinforcement Learn/ng”,在這個研究中,他們將強化學習與人工神經(jīng)網(wǎng)絡相結(jié)合,論文發(fā)表在《自然》雜志上,且至今被引用近1萬次,對該領域產(chǎn)生了巨大影響。隨后,席爾瓦和他的同事繼續(xù)用新技術(shù)改進這些深度強化學習算法,這些算法仍然是機器學習中應用最廣泛的工具之一。
2016年3月,團隊開發(fā)的AlphaGo擊敗世界圍棋冠軍李世石,這被譽為AI里程碑式的時刻。同年,解析AlphaGo背后技術(shù)的論文“Mastering the Game of Go with Deep NeuralNetworks and Tree Search”公開發(fā)布在《自然》雜志上。
AlphaGo和AlphaZero之后,DeepMind的游戒AI探索的另一個重點是征服《星際爭霸Ⅱ》。就在去年,由席爾瓦領導的DeepMind團隊開發(fā)了AlphaStar,它掌握了多人即時戰(zhàn)略游戲《星際爭霸ID,這類游戲被認為是游戲AI需要攀登的高峰。
現(xiàn)在,在DeepMind-這家谷歌旗下最星光熠熠的AI公司,大衛(wèi),席爾瓦和他的同事仍在尋求將機器學習和神經(jīng)科學方面的進展進行技術(shù)融合,以構(gòu)建功能強大的通用學習算法。大衛(wèi),席爾瓦在深度強化學習上的諸多工作也已被應用于提高英國電網(wǎng)效率、幫助谷歌數(shù)據(jù)中心降低功耗、為歐洲航天局策劃太空探測器軌跡等領域。DeepMind團隊還將繼續(xù)推進這些技術(shù),并為其找到更多的應用場景??冢ㄕ悦馈渡羁萍肌罚ň庉?萊西)