亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

未來觸手可及
——AlphaZero學(xué)棋記

2018-03-01 09:04:09編譯陳軼翔

世界科學(xué) 2018年2期

編譯陳軼翔

深度思維，這個(gè)曾創(chuàng)建了世界上最強(qiáng)大的人工智能圍棋程序AlphaGo的公司，將注意力轉(zhuǎn)向了國(guó)際象棋，并取得了頗為驚人的成果。

想象一下，你告訴一個(gè)計(jì)算機(jī)系統(tǒng)如何走棋，并告訴它要學(xué)會(huì)的下棋規(guī)則。一天之后——是的，僅僅24小時(shí)——它的水平已經(jīng)達(dá)到了能夠擊敗世界上當(dāng)下最強(qiáng)大的程序！

深度思維公司與AlphaZero

大約3年前，谷歌旗下的一家專門從事人工智能開發(fā)的公司——深度思維（DeepMind）將注意力轉(zhuǎn)向了圍棋這一歷史悠久的游戲。一直以來，人們都未能成功設(shè)計(jì)出世界級(jí)的人工智能圍棋程序——甚至認(rèn)為這是未來10年都無法實(shí)現(xiàn)的目標(biāo)。但奇跡終于還是出現(xiàn)了。一場(chǎng)公開的挑戰(zhàn)發(fā)起了——一位傳奇的世界級(jí)圍棋選手李世石與谷歌人工智能AlphaGo展開人機(jī)大戰(zhàn)——每個(gè)人都認(rèn)為這將是一場(chǎng)有趣的比賽，而且認(rèn)為人類一定會(huì)贏。人們甚至覺得問題并不在于AlphaGo程序是贏或輸，而在于其距離“圣杯”（指人工智能戰(zhàn)勝人類）的目標(biāo)又近了多少。結(jié)果是AlphaGo以4∶1取得壓倒性的勝利，這是圍棋世界的一場(chǎng)革命。盡管人們對(duì)這一結(jié)果發(fā)表了大量的評(píng)論，但最終他們還是接受了現(xiàn)實(shí)——AlphaGo是一臺(tái)非常優(yōu)秀的機(jī)器，但也并非不可戰(zhàn)勝。畢竟，它還是輸了一場(chǎng)比賽。

這一傳奇故事并未就此結(jié)束。一年后，一個(gè)更新版本的AlphaGo對(duì)戰(zhàn)世界圍棋冠軍柯潔——一個(gè)年輕的中國(guó)人，其在圍棋方面的天賦可比擬馬格努斯·卡爾森（Magnus Carlsen）在國(guó)際象棋領(lǐng)域的才能?？聺嵲?6歲的時(shí)候就贏得了世界級(jí)圍棋比賽，17歲就成了世界圍棋冠軍。對(duì)戰(zhàn)時(shí)，柯潔已經(jīng)19歲，能力更強(qiáng)了。這場(chǎng)新的人機(jī)大戰(zhàn)在中國(guó)舉行，比賽前甚至連柯潔都知道自己很可能會(huì)慘敗，已經(jīng)不再抱任何幻想。他表現(xiàn)得非常出色，但仍然以0∶3的比分輸?shù)袅吮荣?，這足以有力地證明新型人工智能的驚人能力。

人工智能在圍棋界表現(xiàn)如此驚人，使得許多國(guó)際象棋選手和權(quán)威人士都很想知道，人工智能在國(guó)際象棋比賽中會(huì)有怎樣的表現(xiàn)。人們對(duì)其獲勝的程度仍有很大疑慮。因?yàn)閲迨且粋€(gè)復(fù)雜而漫長(zhǎng)的游戲，棋盤上有縱橫各19條直線構(gòu)成361個(gè)交叉點(diǎn)，棋子走在交叉點(diǎn)上，雙方交替行棋，落子后不能移動(dòng)，以圍地多者為勝。預(yù)先計(jì)算是徒勞的，而模式識(shí)別才是最重要的。國(guó)際象棋則迥然不同。象棋中知識(shí)和模式識(shí)別是非常重要的，而且這種皇室游戲非常講究戰(zhàn)術(shù)——工于心計(jì)、精于算計(jì)比掌握知識(shí)更加重要。

然而，在過去的幾個(gè)月里，有一些非常令人吃驚的結(jié)果需要我們了解。深度思維公司對(duì)圍棋的興趣并沒有隨著比賽的勝利而結(jié)束。你可能會(huì)問，此后還有什么要做的嗎？不滿足于3∶0的比分，要以20∶0取勝？不，當(dāng)然不是。超級(jí)圍棋程序已經(jīng)成為一種內(nèi)部的試金石。它的標(biāo)準(zhǔn)是無爭(zhēng)議的，已被量化，如果有人想要測(cè)試一個(gè)新的自我學(xué)習(xí)的人工智能程序及其性能，可以把它同AlphaGo程序進(jìn)行比較分析。

一個(gè)叫做AlphaZero的新型人工智能誕生了。它有幾個(gè)截然不同的變化。首先，AlphaGo顯示了成千上萬的專家級(jí)游戲案例可供其自我學(xué)習(xí)，而AlphaZero卻沒有顯示任何游戲案例——連一個(gè)也沒有。它只是學(xué)了規(guī)則，而沒有其他任何信息。結(jié)果卻令人頗為震驚。在短短3天內(nèi)，AlphaZero完全自學(xué)的圍棋程序比那個(gè)打敗了李世石的程序版本更強(qiáng)大，這是此前的人工智能需要一年的時(shí)間才能實(shí)現(xiàn)的。在3周內(nèi)，AlphaZero戰(zhàn)勝了之前打敗柯潔的最強(qiáng)大的AlphaGo版本。還值得注意的是，擊敗李世石的程序版本使用了48個(gè)高度專業(yè)化的處理器來創(chuàng)建程序，但AlphaZero只使用了4個(gè)。

《精通國(guó)際象棋和將棋——用一種常規(guī)的強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)自主學(xué)習(xí)》

本文認(rèn)為，AlphaZero通過使用其深層神經(jīng)網(wǎng)絡(luò)補(bǔ)償其分析案例較少的問題，從而更有選擇性地專注于最有價(jià)值的分析——可以說是一種更接近于人類的思考方式。正如信息論創(chuàng)始人克勞德·香農(nóng)（Claude Elwood Shannon）最初提出的那樣。

AlphaZero學(xué)習(xí)國(guó)棋象棋

盡管深度思維公司已經(jīng)展示了圍棋方面接近革命性的突破，實(shí)際上國(guó)際象棋20年前已經(jīng)有了突破進(jìn)展。國(guó)際象棋已經(jīng)有了人工智能“深藍(lán)”（1997年俄羅斯國(guó)際象棋特級(jí)大師加里·卡斯帕羅夫與IBM公司研發(fā)的超級(jí)計(jì)算機(jī)深藍(lán)進(jìn)行了對(duì)決，深藍(lán)最終的勝出表明人類最強(qiáng)國(guó)際象棋大師已經(jīng)徹底被人工智能所擊?。Ｈ缃?，即使是一部高性能的智能手機(jī)也能打敗國(guó)際象棋世界冠軍。那么究竟還需要證明什么呢？

值得一提的是，深度思維的創(chuàng)始人丹米斯·哈撒比斯（Demis Hassabis）本人同國(guó)際象棋有著深厚的淵源。青少年時(shí)代的他就是一個(gè)國(guó)際象棋神童——當(dāng)時(shí)世界上14歲以下的國(guó)際象棋選手中，13歲的哈撒比斯，僅次于尤迪特·波爾加（Judit Polgar），位列第二。他最終離開了國(guó)際象棋領(lǐng)域去追求其他的夢(mèng)想，比如他在17歲時(shí)創(chuàng)建了自己的個(gè)人電腦視頻游戲公司，但他對(duì)國(guó)際象棋的興趣始終都在。每個(gè)人的腦海中仍然有一個(gè)亟待解決的問題：如果讓AlphaZero學(xué)習(xí)國(guó)際象棋，會(huì)有怎樣的表現(xiàn)呢？它也許很智能，但是否會(huì)被如今的數(shù)據(jù)處理引擎所打敗呢？或者會(huì)有一些特別的事情發(fā)生嗎？

國(guó)際象棋特級(jí)大師加里·卡斯帕羅夫與深度思維的創(chuàng)始人丹米斯·哈撒比斯在聊天

一個(gè)新范式

2017年12月5日，深度思維研究團(tuán)隊(duì)在康奈爾大學(xué)的網(wǎng)站上發(fā)表了一篇論文，名為《精通國(guó)際象棋和將棋——用一種常規(guī)的強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)自主學(xué)習(xí)》，結(jié)果令人相當(dāng)震驚。AlphaZero不僅僅做到了對(duì)游戲的掌握，而且在很多方面達(dá)到了新的高度——這被認(rèn)為不可思議的。當(dāng)然，一切還得靠實(shí)際測(cè)試來證明，所以在深入討論一些令人頗感興趣的關(guān)鍵性細(xì)節(jié)之前，讓我們先看看AlphaZero的戰(zhàn)績(jī)吧！它與最新及最強(qiáng)大版的Stockfish國(guó)際象棋引擎進(jìn)行了一場(chǎng)比賽，并以64∶36的驚人比分獲勝，不僅如此，AlphaZero甚至沒有一場(chǎng)負(fù)局（28勝，72平）。

對(duì)于《國(guó)際象棋數(shù)據(jù)庫(kù)》軟件的使用者來說，Stockfish就無須介紹了。但值得注意的是，Stockfish在一臺(tái)計(jì)算機(jī)上的運(yùn)行速度比AlphaZero快了900倍！實(shí)際上，AlphaZero每秒大約計(jì)算8萬個(gè)位置，而Stockfish如果運(yùn)行在一臺(tái)64線程（可能是32核）的個(gè)人電腦上，每秒運(yùn)行7 000萬個(gè)位置。為了更好地理解這一差距究竟有多大，可以這樣理解——如果Stockfish另一版本的運(yùn)行速度慢了900倍，就相當(dāng)于減少了大約8步棋。這怎么可能呢？

換句話說，AlphaZero不是用一種混合的強(qiáng)力攻擊方法——當(dāng)今國(guó)際象棋引擎的核心，而是以一種截然不同的方法，使用了一種非常有選擇性的搜索，可以模擬人類的思維方式。一個(gè)頂尖的選手可以在一致性和深度方面超過一個(gè)能力較弱的選手，但即使是頂尖選手，也無法與哪怕是最弱的計(jì)算機(jī)程序所做的相提并論。人類完全是通過自己的知識(shí)和能力，才能夠過濾掉很多步驟，以使自己能夠達(dá)到某種水平。值得一提的是，盡管加里·卡斯帕羅夫輸給了人工智能“深藍(lán)”，但還完全不清楚的是，在當(dāng)時(shí)“深藍(lán)”是否真的比卡斯帕羅夫更強(qiáng)大，盡管其速度已達(dá)到了每秒2億個(gè)位置。雖然AlphaZero比Stockfish的運(yùn)行速度慢了900倍，但如果AlphaZero真的能夠利用它的理解能力對(duì)此進(jìn)行彌補(bǔ)，進(jìn)而超越Stockfish，那么我們將看到一個(gè)重大的范式變化。

AlphaZero的思考時(shí)間越長(zhǎng)，它的表現(xiàn)就越好

以一個(gè)相對(duì)埃洛等級(jí)分值來衡量（相當(dāng)于Stockfish的40毫秒思考時(shí)間），該圖顯示了每一個(gè)玩家在不同時(shí)間上的埃洛等級(jí)分值。AlphaZero的蒙特卡洛樹搜索（MCTS）在同樣的思考時(shí)間內(nèi)效率比Stockfish都更高，這不禁讓人們開始質(zhì)疑一個(gè)原來普遍認(rèn)可的觀念——alpha-beta搜索在這些領(lǐng)域具有內(nèi)在的優(yōu)勢(shì)

AlphaZero如何下棋？

由于AlphaZero并沒有從任何國(guó)際象棋知識(shí)中受益，意味著沒有游戲或開局理論，也意味著它必須自己去發(fā)現(xiàn)開局理論?；叵胍幌拢_頭我們就說到這是AlphaZero進(jìn)行了僅僅24小時(shí)自主學(xué)習(xí)的結(jié)果。研究團(tuán)隊(duì)制作了令人頗感興趣的圖表，展示了AlphaZero自己發(fā)現(xiàn)的開局理論，以及隨著它變得越來越強(qiáng)大而逐漸放棄的那些開局理論。

上述論文的發(fā)表還伴隨著十場(chǎng)比賽的結(jié)束。需要說明的是，這些與一般的引擎游戲是迥然不同的。曾經(jīng)獲得國(guó)際象棋世界冠軍的卡爾波夫（Karpov）如果是一個(gè)國(guó)際象棋引擎，他可能被稱為AlphaZero。有一種毫不留情的“大蟒蛇”位置分析方法，是聞所未聞的?，F(xiàn)代的國(guó)際象棋引擎專注于活動(dòng)，因?yàn)樗鼈儗?duì)活動(dòng)本身并不理解，需要設(shè)有特別的保護(hù)措施，以避免因?qū)κ纸M合攻擊而卡殼——它們往往還沒意識(shí)到就發(fā)現(xiàn)自己已經(jīng)走入一個(gè)死胡同了。AlphaZero則不存在這樣的問題，而且似乎很擅長(zhǎng)對(duì)付對(duì)方的組合布局。這讓人印象深刻，令人驚訝的是，它還能找到國(guó)際象棋引擎似乎無視的戰(zhàn)術(shù)。

展望未來

那么這一切對(duì)于國(guó)際象棋來說有什么意義呢？這是一個(gè)“游戲規(guī)則改變者”——一個(gè)經(jīng)常被使用、甚至濫用的術(shù)語，沒有其他的方式來描述它。人工智能“深藍(lán)”是一個(gè)突破性的事件，但它的結(jié)果卻是得益于高度專業(yè)化的硬件——目前只在國(guó)際象棋方面有所應(yīng)用。例如，如果有人試圖讓它下圍棋，是永遠(yuǎn)不可能的。而AlphaZero這種完全開放式的人工智能則可以從最少的信息量中學(xué)習(xí)，并達(dá)到迄今為止最高的水平。這并非一種威脅——在大量的活動(dòng)中擊敗我們，而是一種希望——分析諸如疾病、饑荒等問題，以期找到真正的解決方案。