鄧舒夏
看看近幾年大眾領(lǐng)域?qū)ζ迮平绲年P(guān)注,你就會(huì)發(fā)現(xiàn),最火爆的話(huà)題并不是幾位國(guó)際高手之間的對(duì)決,而是人類(lèi)和人工智能(AI)的對(duì)決——2016年圍棋高手李世石以1:4的比分負(fù)于人工智能選手AlphaGo,隨后另一位高手柯潔又兩次輸給這個(gè)AI選手,這一系列的比賽引發(fā)了各行各業(yè)對(duì)AI能力的討論,也使得AlphaGo成為圍棋界“破圈”最成功的世界冠軍。
不過(guò)AI在圍棋上的建樹(shù)并不足以展現(xiàn)其最高潛能。通常來(lái)講,根據(jù)游戲中的信息暴露程度,棋牌類(lèi)游戲可以分為“完美信息游戲”和“不完美信息游戲”兩類(lèi)。像國(guó)際跳棋、國(guó)際象棋、圍棋等屬于“完美信息游戲”,而德州撲克、橋牌、麻將等屬于“不完美信息游戲”。在AlphaGo一戰(zhàn)成名之后,越來(lái)越多的研究者投入到不完美博弈游戲的研究中,微軟選擇的是麻將——在2019年8月的世界人工智能大會(huì)上,微軟亞洲研究院宣布其研發(fā)的麻將AI系統(tǒng)“Suphx”成為首個(gè)在國(guó)際知名麻將競(jìng)技平臺(tái)“天鳳”上升到十段的AI系統(tǒng),今年4月,他們于在線(xiàn)數(shù)據(jù)庫(kù)arXiv吐發(fā)表了關(guān)于Suphx的論文。
“從未知信息的數(shù)量、信息集的平均大小上來(lái)看,麻將是AI學(xué)習(xí)中難度最高的棋牌類(lèi)游戲之一,它的玩法入門(mén)容易,想要精通卻十分困難。比如在天鳳平臺(tái)上超過(guò)35萬(wàn)的活躍玩家中,只有不到1%的玩家達(dá)到了專(zhuān)業(yè)七段及以上的高手水平?!蔽④泚喼扪芯吭焊痹洪L(zhǎng)劉鐵巖告訴《第一財(cái)經(jīng)》雜志。2017年下半年,微軟亞洲研究院成立了麻將AI研究團(tuán)隊(duì),包括5名研究人員和4名實(shí)習(xí)生。有趣的是,這些人中并沒(méi)有麻將高手,有的人甚至連麻將的規(guī)則都不甚了解。
首先擺在研究員面前的問(wèn)題是,他們要教會(huì)Suphx麻將的規(guī)則。要知道,麻將雖然起源于中國(guó),但民間的麻將更偏娛樂(lè)性,缺乏統(tǒng)一的規(guī)則和評(píng)價(jià)體系,僅在中國(guó)就有四川麻將、福建麻將、北京麻將等等不同打法,不同游戲平臺(tái)也設(shè)立了不同的規(guī)則。調(diào)研之后,微軟研究人員決定將日本“天鳳”平臺(tái)作為訓(xùn)練標(biāo)準(zhǔn),這個(gè)“競(jìng)技”性質(zhì)的平臺(tái)具有完善的規(guī)則和段位體系。同時(shí),平臺(tái)上的海量比賽數(shù)據(jù)對(duì)訓(xùn)練AI有很高的價(jià)值。
“天鳳公司的CEO角田先生對(duì)AI麻將的發(fā)展持非常開(kāi)放的態(tài)度,因?yàn)樗恢痹谂ν苿?dòng)麻將競(jìng)技運(yùn)動(dòng),很想知道目前人類(lèi)能打出的這些打法是不是最好的,未來(lái)還有哪些新技巧可以用。”劉鐵巖說(shuō)。在此之前,已有兩位AI選手人駐天鳳,它們分別是2015年由東京大學(xué)團(tuán)隊(duì)設(shè)計(jì)的“爆打”,和2018年日本Dwango公司推出的“NAGA25”。
縱觀Suphx的“求學(xué)之路”,可以大至分為三個(gè)階段。首先,微軟研究員搭建了日本麻將的仿真環(huán)境,嘗試了決策樹(shù)、神經(jīng)網(wǎng)絡(luò)等多種AI模型,然后通過(guò)自我博弈的強(qiáng)化學(xué)習(xí)技術(shù)來(lái)訓(xùn)練模型。
那些還待在實(shí)驗(yàn)室,卻可能影響未來(lái)的生物、太空、人工智能等前沿技術(shù)資料來(lái)源:微軟亞洲研究院
從單局游戲來(lái)看,麻將的打法和計(jì)分規(guī)則比象棋、圍棋更加復(fù)雜。以天鳳的規(guī)則為例,桌面共有136張麻將牌,每位玩家只能看到自己的13張手牌和其他玩家打出過(guò)的牌,其他均為隱藏的未知信息。用博弈論的語(yǔ)言來(lái)講,每個(gè)可觀測(cè)狀態(tài)平均對(duì)應(yīng)著超過(guò)1048個(gè)隱藏狀態(tài)。因此,僅基于這些已知信息無(wú)法解決策略上的問(wèn)題,Suphx需要更強(qiáng)的直覺(jué)、預(yù)測(cè)、推理和模糊決策的能力。
此外,麻將牌型的組合也十分多樣,有清一色、混一色、門(mén)清等等贏法,不同牌型的計(jì)分?jǐn)?shù)額相差很大。而在打法上,麻將還存在吃牌、碰牌、杠牌、立直(指報(bào)告進(jìn)入聽(tīng)牌,差一張牌即能贏牌的階段)等動(dòng)作,這些都會(huì)改變玩家的摸牌順序。
從段位的判定角度看,天鳳平臺(tái)上一輪麻將游戲通常有8局甚至更多局的對(duì)決,每局結(jié)束后,4位玩家會(huì)被增加或扣除分?jǐn)?shù),最后累計(jì)得分排名——排在前兩名的玩家會(huì)得到一定點(diǎn)數(shù),第三名點(diǎn)數(shù)不變,墊底的玩家則會(huì)被扣去一定點(diǎn)數(shù)。這些點(diǎn)數(shù)直接決定玩家的“段位”,因此高手可能會(huì)有策略地輸?shù)粢恍┡?,以保證最后的排位成績(jī)?!八晕覀儾荒苤苯邮褂妹烤值牡梅肿鳛閺?qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)反饋信號(hào)?!眲㈣F巖說(shuō)道?!拔覀儨y(cè)試時(shí)基本上跑100萬(wàn)場(chǎng)游戲,才能明確地看出誰(shuí)更厲害。這與圍棋很不一樣,圍棋是五局三勝的。
最終,研究員們?yōu)镾uphx設(shè)計(jì)了5個(gè)訓(xùn)練模型,皆基于網(wǎng)絡(luò)層級(jí)數(shù)很深的深度殘差卷積神經(jīng)網(wǎng)絡(luò),它們分別是丟牌模型、立直模型、吃牌模型、碰牌模型以及杠牌模型。另外,Suphx還有一個(gè)基于規(guī)則的贏牌模型,用來(lái)決定在可以贏牌的時(shí)候是否執(zhí)行贏牌。這樣在對(duì)決時(shí),Suphx會(huì)根據(jù)已知信息和預(yù)測(cè)信息,推斷出還要摸幾張牌才能贏牌、能夠贏多少分、贏牌的概率等等。確定模型后,Suphx通過(guò)前期強(qiáng)化訓(xùn)練,達(dá)到了約等于天鳳平臺(tái)六段的段位水平。直到2019年2月,微軟亞洲研究院與“天鳳”達(dá)成合作后,Suphx才在平臺(tái)上正式“出道”,參與到隨機(jī)匹配的對(duì)決中。此外,天鳳還向Suphx團(tuán)隊(duì)提供了千萬(wàn)量級(jí)的高段位玩家牌譜。
拿到真實(shí)的牌局?jǐn)?shù)據(jù)后,Suphx的訓(xùn)練進(jìn)入到第二個(gè)階段——模仿學(xué)習(xí)。
首先,研究員們根據(jù)天鳳上真實(shí)的牌局?jǐn)?shù)據(jù)校驗(yàn)了Suphx的仿真模擬器,然后讓Suphx模仿高手在牌局中的行為,通過(guò)監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練之前擬定的5個(gè)模型。需要說(shuō)明的是,天鳳對(duì)AI選手有很多限制。出于“公平”的考量,Suphx需要和人類(lèi)選手的比賽行為一致,即一次只能參與到一場(chǎng)對(duì)決中,不能為了升級(jí)快而同時(shí)在多個(gè)房間打牌。另外,Suphx不能進(jìn)入付費(fèi)房間——“鳳凰房”,只能在免費(fèi)房間里對(duì)決。學(xué)習(xí)高手的牌譜后,Suphx的穩(wěn)定段位很快提升到7.6段,已經(jīng)高于平臺(tái)上的其他兩位AI選手。
模仿人類(lèi)打法后,想要找到新策略,就需要Suphx回歸到自我博弈的“強(qiáng)化學(xué)習(xí)”上,這便是第三個(gè)階段。一場(chǎng)麻將對(duì)決中有太多的未知信息,因此,從當(dāng)前牌面到最終策略之間的鏈路很不清晰,這就導(dǎo)致為Suphx設(shè)定強(qiáng)化學(xué)習(xí)的目標(biāo)后,它很容易在訓(xùn)練過(guò)程中迷失方向,不知道怎樣決策才能實(shí)現(xiàn)獎(jiǎng)勵(lì)的最大化。
麻將競(jìng)技平臺(tái)“天鳳”。
為此,微軟的研究員采用了一種新型訓(xùn)練思路——讓Suphx在自我博弈時(shí),先從“上帝視角”掌握牌局的全部信息,以此引導(dǎo)AI模型的訓(xùn)練方向,使其更加接近完美信息意義下的最優(yōu)路徑,然后倒逼AI模型更加深入地理解可見(jiàn)信息,從中找到有效的決策依據(jù),以便在實(shí)戰(zhàn)時(shí)作出更準(zhǔn)確的決策。這種從后向前推的方法被稱(chēng)為“先知教練”,類(lèi)似的技術(shù)常被用于AI金融領(lǐng)域,最典型的案例是讓AI利用未來(lái)真實(shí)的股票走勢(shì),構(gòu)建最優(yōu)投資組合,并由此倒逼AI學(xué)出更好的基于股票歷史信息來(lái)決策的真實(shí)投資模型。
不過(guò)“強(qiáng)化學(xué)習(xí)”本身是一個(gè)AI延遲獎(jiǎng)勵(lì)、自我提高的過(guò)程,并不像監(jiān)督學(xué)習(xí)一樣可控,理論發(fā)展也不盡完善。在訓(xùn)練Suphx時(shí),劉鐵巖同樣發(fā)現(xiàn)了其局限性——如果教練過(guò)于“先知先覺(jué)”,它就會(huì)將過(guò)于超前的信號(hào)給到Suphx,使得后者的AI模型并不能完全理解為什么要這么做。“雖然這個(gè)技術(shù)目前在Suphx的運(yùn)行過(guò)程中還是很有效的,但我們也走了不少的彎路,才把Suphx從七點(diǎn)幾的段位提升到八點(diǎn)幾,這個(gè)過(guò)程很艱難?!眲㈣F巖說(shuō),當(dāng)下的解決方法是,研究員為“教練”額外制定一些約束條件,使其不能過(guò)多脫離Suphx本身的AI模型。
在“先知教練”“全局獎(jiǎng)勵(lì)預(yù)測(cè)”等自適應(yīng)訓(xùn)練下,2019年6月,Suphx在天鳳平臺(tái)上達(dá)到十段段位,也逐步形成了一些特有的“牌風(fēng)”。比如Suphx喜歡在出牌時(shí)保留安全牌,這樣未來(lái)其他玩家準(zhǔn)備贏牌時(shí)可以降低自己“點(diǎn)炮”(即打出的牌促使對(duì)方贏牌)的風(fēng)險(xiǎn)。不過(guò)這些“防御性”打法只能讓Suphx排名“墊底”的概率比其他人類(lèi)和AI選手低僅僅幾個(gè)百分點(diǎn),這是因?yàn)椤斑\(yùn)氣”在麻將比賽中很重要——即便是一個(gè)頂級(jí)高手,在手氣極度不好的時(shí)候也無(wú)力回天。
現(xiàn)在,Suphx每天會(huì)在40塊圖形處理器(GPu)的訓(xùn)練環(huán)境下完成100萬(wàn)次以上的自我博弈訓(xùn)練,平均完成一次牌局訓(xùn)練的耗時(shí)是大約80微秒?!巴ǔI需要經(jīng)過(guò)幾千萬(wàn)次的自我博弈才會(huì)得到一個(gè)穩(wěn)定的模型,這樣算下來(lái),如果我們換一種新的麻將規(guī)則生成新的模擬器,大概要用二十多天的訓(xùn)練時(shí)間得到一個(gè)比較穩(wěn)定的AI模型?!眲㈣F巖說(shuō)。
至于為什么Suphx的段位可以超過(guò)平臺(tái)上的其他兩位AI選手,劉鐵巖給出的簡(jiǎn)單解釋是,“爆打”的開(kāi)發(fā)者本身是一位段位很高的天鳳平臺(tái)玩家,他將自己的知識(shí)編碼到AI模型中,因此“爆打”更多使用傳統(tǒng)機(jī)器學(xué)習(xí)和“啟發(fā)式”的訓(xùn)練過(guò)程,而Suphx使用的是深度學(xué)習(xí)方式。另一位AI選手NAGA25雖然采用的是“神經(jīng)網(wǎng)絡(luò)”的深度學(xué)習(xí)方式,但沒(méi)有使用強(qiáng)化學(xué)習(xí)。
從某種程度上來(lái)說(shuō),AI在麻將上的參悟能力,代表了其在棋牌類(lèi)游戲中的最高潛能?!安还軓臓顟B(tài)空間復(fù)雜度還是游戲樹(shù)復(fù)雜度上,麻將都遠(yuǎn)遠(yuǎn)領(lǐng)先其他棋牌類(lèi)游戲,除非未來(lái)還會(huì)發(fā)明一些更加復(fù)雜的大眾游戲,或者打個(gè)比方說(shuō),現(xiàn)在圍棋的棋盤(pán)是19×19的,如果把它變成190×190的盤(pán)面,難度同樣會(huì)上來(lái)幾個(gè)數(shù)量級(jí)?!眲㈣F巖說(shuō)。值得一提的是,游戲公司也推出過(guò)很多AI選手,比如《王者榮耀》《星際爭(zhēng)霸》等等,這些戰(zhàn)略性電子競(jìng)技,本質(zhì)也是訓(xùn)練機(jī)器做“不完美信息博弈”,但其復(fù)雜度并不比麻將高。
“人類(lèi)存在生理極限,因此在操控上,機(jī)器天生比人類(lèi)玩家更準(zhǔn)確,但人類(lèi)在打麻將上沒(méi)有這些局限性,操控鍵盤(pán)的技巧、出招快慢等不會(huì)對(duì)勝負(fù)產(chǎn)生影響,對(duì)決是智慧層面上的?!眲㈣F巖解釋道。另外,策略類(lèi)競(jìng)技游戲的角色、地圖的隨機(jī)性有限,機(jī)器通過(guò)學(xué)習(xí)可以分析出游戲本身的“套路”,而麻將幾乎每一場(chǎng)牌局都是嶄新的,其“隨機(jī)性”遠(yuǎn)比這些游戲要高。
不過(guò),打贏人類(lèi)玩家并不是Suphx的最終目的。如今已經(jīng)有很多麻將愛(ài)好者會(huì)專(zhuān)門(mén)學(xué)習(xí)Suphx的牌譜,研究員們也正在同天鳳平臺(tái)探討,如何把Suphx改造成可以提供陪練服務(wù)的AI,比如讓它為玩家復(fù)盤(pán)比賽,或者模擬不同段位的水平做定制化的陪練——AI界不乏這樣的先例,比如騰訊人工智能?chē)鍒F(tuán)隊(duì)“絕藝”已經(jīng)成為中國(guó)圍棋國(guó)家隊(duì)的訓(xùn)練伙伴。此外,研究員們也在推動(dòng)讓Suphx背后的AI技術(shù)外延,在金融、交通、游戲等需要復(fù)雜決策的領(lǐng)域落地,從而解決更多貼近人類(lèi)真實(shí)生活的問(wèn)題。
“其實(shí)現(xiàn)在回過(guò)頭看Suphx的發(fā)展,人在里面更多扮演的是算法設(shè)計(jì)者的角色,而不是通過(guò)對(duì)弈來(lái)教會(huì)Suphx如何出招?!眲㈣F巖說(shuō)。他認(rèn)為,即便沒(méi)有天鳳平臺(tái)的高手牌譜訓(xùn)練,Suphx依然可以達(dá)到現(xiàn)在的段位水平,只不過(guò)花費(fèi)的時(shí)間會(huì)更長(zhǎng)一些?!癝uphx的能力更多是靠自我博弈獲得的,這是一個(gè)很好的例子,它說(shuō)明人工智能真的會(huì)改變很多事情,你不需要成為一個(gè)領(lǐng)域的頂級(jí)專(zhuān)家,只需要知道里面的基本規(guī)則和知識(shí),然后利用好人工智能就能達(dá)到驚人的結(jié)果,這就是人工智能可以賦能很多垂直行業(yè)的原因?!?/p>