陳鵬
2016年3月15日,一場引人矚目的圍棋人機大戰(zhàn)在韓國首爾落下帷幕。Google旗下公司DeepMind研發(fā)的人工智能程序AlphaGo最終以4∶1的比分戰(zhàn)勝了圍棋世界冠軍、韓國傳奇圍棋大師李世乭。賽后,AlphaGo被韓國棋院授予“名譽職業(yè)九段”稱號。盡管這次比賽讓人工智能占了上風,但這也表現(xiàn)了人類智能在人工智能領(lǐng)域的重大突破。
為何以圍棋測“智”
圍棋看起來規(guī)則很簡單,但它卻具有令人難以置信的深度和微妙之處。圍棋棋盤上共有361個交叉點,每個點上都有黑、白、空三種可能狀態(tài)。按照圍棋的規(guī)則,下滿整個棋盤會有361!(361的階乘)種不同的過程,這是一個天文數(shù)字,所以,圍棋一直被認為是人類智慧最后的堡壘。在1997年IBM公司超級國際象棋電腦“深藍”戰(zhàn)勝了國際象棋界棋王加里·卡斯帕羅夫后,人們曾經(jīng)斷言,由于圍棋計算量龐大,在50年內(nèi),計算機在圍棋上贏不了人類。
象棋和圍棋這種棋類游戲的對弈規(guī)則比較明確,可以很方便地轉(zhuǎn)化為計算機語言。對于計算機而言,圍棋對弈就像是一棵枝繁葉茂的大樹,從樹干經(jīng)過樹枝最終到達樹葉的每一條路徑都可以認為是一個棋譜,從樹干走到末端樹葉的過程就是對弈的過程。樹上的每一個分叉點都代表棋盤某個時刻的狀態(tài),連接相鄰分叉點的樹枝就是選擇怎樣走棋。
計算機可以根據(jù)這棵棋類游戲的“決策樹”盡可能多地“了解”走棋方法。但只知道走法還不行,還要評價走的到底是不是一著好棋,這就需要一個合適的評估函數(shù)來幫助它進行選擇。在象棋中,程序可以通過判斷棋盤上棋子的數(shù)量判斷得分,比如馬3分,炮4分等。而在圍棋中,職業(yè)高手在下棋的時候,往往會憑感覺去判斷落子和局勢,即所謂的“棋感”,由于難以把“棋感”準確地轉(zhuǎn)化為計算機可以理解的計算問題,計算機程序?qū)宓钠灞P局面判斷標準就不明確,從而難以量化每步棋走法的優(yōu)劣。
綜上所述,圍棋落子可能性太多、計算量特別大以及計算機對棋盤局面判斷標準不明確,這都導致計算機程序難以在合適的時間內(nèi)計算出合理的結(jié)果。在AlphaGo之前,還從未有任何計算機程序可以戰(zhàn)勝職業(yè)圍棋手。所以,以圍棋測“智”,可以有效判斷人工智能到底有沒有新的進展和突破。
AlphaGo的“伎倆”
近幾年,隨著人工神經(jīng)網(wǎng)絡(luò)和機器學習等相關(guān)理論的日益完善,人們終于有了新的有力武器來進行人工智能領(lǐng)域的突破。
圍棋棋盤可以看作是一個19×19個交叉點的圖,通過對大量的實際存在的完整棋譜進行分析處理,最終可以自動根據(jù)某一棋盤狀態(tài)判斷出下一步棋子的落子位置的概率分布,比如落在某一位置的概率是10%,另一個位置是17%等,于是AlphaGo根據(jù)概率的降序一一進行計算。
在AlphaGo計算的過程中,評估函數(shù)會判斷每一步走棋的勝率,一旦勝率過低,便會停止計算。但是,如果計算到比較高的勝率,也會停止計算,直接按這種走法行棋??偟膩碚f,AlphaGo不會計較整盤棋贏得漂亮不漂亮,而只會盡量保持較高的勝率。這樣一來,AlphaGo也許也會走出不那么漂亮的棋,但細看卻是保持了比較穩(wěn)妥的棋風。事實上正是如此,因為其風格就是來自于人類的大量棋譜。
如此一來,就基本解決了計算量大的問題。與此同時,AlphaGo的評估函數(shù)是基于機器學習的,可以進行不斷自動更新,AlphaGo就會采用更簡單的走棋策略(節(jié)省計算量)直至決勝節(jié)點。按照上述算法計算出的走棋策略,如果勝利,AlphaGo會保證下一輪計算時此番策略更為優(yōu)先被計算;反之,下一輪則會優(yōu)先考慮其他的走棋策略。
在不斷的學習過程中,AlphaGo會提取它認為正確的下法中所隱含的原理,調(diào)整它的走棋策略,逐步提高能力。此外,AlphaGo還可以自我對弈,“進化”速度非??臁oogle對AlphaGo實現(xiàn)自我對弈3000萬盤棋的生成訓練集只需要一天左右的時間。通俗來講,AlphaGo一天下的棋比整個歷史上人類下的棋都多,人類在這方面處于絕對劣勢。
運用簡化計算、優(yōu)化評估函數(shù)和自我對弈的策略,AlphaGo在測試階段就“完爆”其他所有的圍棋程序,也難怪它能在與圍棋大師李世乭的對弈中占得先機。
人工智能與人類智能的雙贏
讀到這里,是不是要對AlphaGo的“智能”刮目相看?可事實上,人工智能也只是一群科學家的研究成果,說到底也只是人類實現(xiàn)智力成果的工具而已,并無自我意識,也沒有創(chuàng)造出自我意識的基礎(chǔ)。不可否認,AlphaGo是人工智能發(fā)展的勝利果實,但它同樣也是人類智能發(fā)展的偉大成就。
人類使用工具的歷史就是人類發(fā)展的歷史,從古代的石器、金屬工具,到近現(xiàn)代的電燈、電話、互聯(lián)網(wǎng)等科技成果都在不同程度上解放了人類自身。伴隨著人工智能的發(fā)展,人類的智力也將開始得到解放,人類將擁有某些智力方面更為好用的人工智能。人類自己創(chuàng)建的人工智能,也將為人類自身創(chuàng)造更為便捷、智能化的生活。