Sora
卡內(nèi)基-梅隆大學(xué)的計(jì)算機(jī)科學(xué)教授桑德霍爾姆
2017年的賭場(chǎng)錦標(biāo)賽期間,一個(gè)名為L(zhǎng)ibratus的撲克游戲程序,在1.2萬(wàn)手雙人撲克比賽中,巧妙地?fù)魯×?名職業(yè)選手。但該程序的聯(lián)合創(chuàng)作者托馬斯·桑德霍爾姆,并不認(rèn)為人工智能可以在與更多的選手對(duì)陣時(shí)達(dá)到類似的表現(xiàn)。
兩年后,來(lái)自卡內(nèi)基-梅隆大學(xué)的計(jì)算機(jī)科學(xué)教授桑德霍爾姆,證明了他自己是錯(cuò)的。桑德霍爾姆和他的合作伙伴,共同開(kāi)發(fā)了一個(gè)名為Pluribus的人工智能程序,它可以在六人無(wú)限制撲克比賽中一直擊敗人類職業(yè)牌手。桑德霍爾姆說(shuō):“我一生中從未想過(guò)可以達(dá)成這個(gè)目標(biāo)。”
過(guò)去,人工智能對(duì)人類的勝利,僅涉及兩人或兩隊(duì)的對(duì)戰(zhàn)比賽,如跳棋、國(guó)際象棋、圍棋和雙人無(wú)限制撲克。這些游戲都是零和游戲—游戲只有一個(gè)勝利方和一個(gè)失敗方。但是,六人撲克則更接近現(xiàn)實(shí)生活,在這種情況下,一方必須在不了解多個(gè)對(duì)手的決策過(guò)程和資源的情況下,做出決定。
臉書(shū)的人工智能研究科學(xué)家、Pluribus的聯(lián)合創(chuàng)始人諾姆·布朗說(shuō):“這是我們第一次超越零和游戲這種常規(guī)模式。即使在通常情況下,人工智能也能做得很好?!?/p>
Pluribus程序在與5名人類玩家對(duì)抗的比賽中,贏得了獎(jiǎng)金。人類玩家來(lái)自15名撲克職業(yè)玩家組成的輪換陣容,他們中的每個(gè)人都在撲克錦標(biāo)賽中贏得過(guò)至少100萬(wàn)美元的獎(jiǎng)金。比賽歷時(shí)12天,進(jìn)行了超過(guò)1萬(wàn)手出牌。
《科學(xué)》雜志上發(fā)表的一篇論文,詳細(xì)介紹了這個(gè)成功案例。盡管Pluribus并未達(dá)到與Libratus以及另一個(gè)名為DeepStack的雙人撲克程序一樣高的勝率,但它的勝率仍然非??捎^?!爱?dāng)機(jī)器人與人類坐在一起時(shí),它賺了很多錢(qián),”布朗說(shuō),“我當(dāng)然會(huì)將其描述為‘超人的表現(xiàn)。”
Pluribus首先要在許多模擬的撲克對(duì)局中與自己對(duì)抗,制定戰(zhàn)略藍(lán)圖。
Pluribus解決六人撲克游戲的重大突破,來(lái)自其“深度限制搜索功能”。該組件允許人工智能向前看幾步,并根據(jù)對(duì)手可能的決定,為游戲的剩余部分找出更好的策略。
許多其他的撲克游戲程序,也使用了類似的搜索功能,但為了六人撲克游戲這么做,需要?jiǎng)佑脴O大的計(jì)算內(nèi)存量:每個(gè)玩家持有的牌數(shù),每個(gè)人認(rèn)為其他玩家所擁有的手牌,以及隨后的所有投注決定……這其中有太多場(chǎng)景需要模擬。
Libratus只在最后四輪中的兩輪投注里,使用搜索來(lái)克服運(yùn)算瓶頸。該解決方案在僅有兩個(gè)玩家的對(duì)局中,就需要使用100個(gè)CPU來(lái)處理數(shù)據(jù)。
職業(yè)撲克選手通常認(rèn)為進(jìn)行“反主動(dòng)下注”是一個(gè)錯(cuò)誤,但是Pluribus卻會(huì)頻繁地使用這種手段。
具體來(lái)說(shuō),在一場(chǎng)現(xiàn)場(chǎng)撲克游戲中,Pluribus是在一臺(tái)只有2個(gè)中央CPU和128GB內(nèi)存的機(jī)器上運(yùn)行的?!八梢栽跊](méi)有圖形處理單元和其他高端硬件的情況下運(yùn)行?!鄙5禄魻柲氛f(shuō)。相比之下,DeepMind著名的AlphaGo程序,在2016年與頂級(jí)職業(yè)棋手李世石九段對(duì)決的圍棋比賽中,使用了1920個(gè)CPU和280個(gè)GPU。
Pluribus采用的深度限制搜索功能,考慮對(duì)手在基本投注策略中如何選擇:有人偏向棄牌,有人偏向于叫牌,還有人偏向于加注。這個(gè)經(jīng)過(guò)調(diào)整的搜索功能,有助于解釋為什么Pluribus在六人撲克比賽中獲得成功—需要的計(jì)算資源和內(nèi)存相對(duì)最小。
卡內(nèi)基-梅隆大學(xué)和臉書(shū),計(jì)劃制作Pluribus的偽代碼(一種算法描述語(yǔ)言),詳細(xì)解釋該程序中的每個(gè)必要步驟,并與已發(fā)表的論文一起提供,以便其他人工智能研究人員可以重現(xiàn)這些效果。
不過(guò),該團(tuán)隊(duì)最后決定不發(fā)布該代碼,因?yàn)樗赡軙?huì)促進(jìn)人工智能撲克程序的傳播,對(duì)在線撲克社區(qū)和撲克行業(yè)造成極大的破壞。
而且,即使沒(méi)有代碼,人類也可以從人工智能的策略中學(xué)習(xí)。例如,職業(yè)撲克選手通常認(rèn)為進(jìn)行“反主動(dòng)下注”是一個(gè)錯(cuò)誤—上一輪進(jìn)行了非積極投注之后,對(duì)新開(kāi)始的一輪進(jìn)行積極投注。但是Pluribus卻會(huì)頻繁地使用這種手段。
除了撲克之外,該人工智能可以應(yīng)用在人類沒(méi)有充分了解或思考的任何場(chǎng)景中。這些領(lǐng)域可能包括網(wǎng)絡(luò)安全、金融交易、商業(yè)談判和競(jìng)價(jià)。桑德霍爾姆表示,這個(gè)人工智能甚至可以在2020年美國(guó)總統(tǒng)大選的黨內(nèi)初選中起作用:理論上來(lái)說(shuō),參與競(jìng)爭(zhēng)的候選人可以從人工智能的建議中獲益,這些建議包括只需花費(fèi)恰好足夠的廣告資金在關(guān)鍵州獲勝,充分利用有限的競(jìng)選資金。
桑德霍爾姆創(chuàng)立了三家初創(chuàng)公司,包括戰(zhàn)略機(jī)器和戰(zhàn)略機(jī)器人公司,很可能會(huì)將這種人工智能融入為商業(yè)和軍事客戶提供的服務(wù)中。
諾姆·布朗計(jì)劃進(jìn)一步探索人工智能如何適應(yīng)更復(fù)雜的多人游戲場(chǎng)景?!岸嗳藫淇艘呀?jīng)是最后一個(gè)里程碑了,”布朗說(shuō),“現(xiàn)在我們正在尋求將其應(yīng)用擴(kuò)展到撲克之外?!?/p>