如果說有一種解決問題的方法能跨域文化、種族和地域,那么除了抽簽這種純靠運氣的方式,恐怕只剩下猜拳了。
人們普遍認可 “石頭-剪刀-布” 三者之間的克制關系?!肮?隨機” 的特性使其不僅是活躍氣氛的小游戲,更能作為一種相對公平的解決問題的手段,廣泛應用在解決分歧,決定順序,或者確定歸屬的關鍵時刻。更不用說,在誰洗碗、誰拖地、誰做飯之類的家務活上,猜拳自帶的 “愿賭服輸” 可以有效維系家庭和睦,堪稱隨叫隨到的家庭關系調解員。
在大多數(shù)人的認知里,猜拳是隨機事件,玩家獲勝的概率應該是一樣的且恒定在1/3,但事實可能并非如此。近日,浙江大學何賽靈教授的研究團隊開發(fā)了一個基于馬爾可夫鏈的 AI 模型,專門用來玩猜拳游戲。在和 52 名人類玩家分別大戰(zhàn) 300 回合之后,AI 擊敗了 95% 的玩家。
對于人類玩家來說,規(guī)則是贏 +2 分,平 +1 分,輸不得分。在與 AI 對戰(zhàn)之前,參與者知道獲勝會獲得金錢獎勵,總分越高,贏的錢越多。因此玩家故意放水或者隨便亂選的概率極低。即便如此,AI 仍然大勝人類。在最懸殊的一場較量中,AI 獲得了 198 次勝利,55 次平手,僅輸了 47 次,勝率超過人類對手 4 倍。全部 15600 回合詳盡的原始博弈數(shù)據(jù),在論文的補充資料中給出(詳見參考文獻)。如果猜拳勝負真的是隨機概率,那么從統(tǒng)計學的角度來講,15600 場比賽下來,AI 獲得如此大優(yōu)勢的概率非常低。
擁有“智囊團”的Multi-AI模型
本質上來看,猜拳屬于博弈問題,其背后蘊藏著經(jīng)典的納什均衡,而每個個體的習慣、認知、策略和策略變化都會影響實際勝率。比如你和對手很熟悉,那么你可能知道他/她經(jīng)常出布,因此可以多出剪刀來克制。
浙江大學何賽靈教授團隊提出的 AI 模型就是利用了類似的方法,證明了猜拳真的存在針對不同個體的長期制勝策略,可以有效提高勝率。這套 AI 模型基于 n-階馬爾可夫鏈設計,擁有記憶性,能夠向前追溯最多 n 個歷史狀態(tài)并加以利用。為了在實戰(zhàn)中應對人類玩家的不同性格和策略,研究團隊還發(fā)明了一套 Multi-AI 模型?!敖γ總€人都有效的單一模型很困難,因此我們決定將單個模型結合起來,使其能夠區(qū)分和適應更多不同的競爭策略?!?研究人員在論文中解釋稱。
在與人類對戰(zhàn)的第一套 Multi-AI 模型中,他們放入了 1-5 階馬爾可夫鏈,即 5 個獨立的 AI 模型,分別參考之前 1-5 個動作。Multi-AI 會從整體上參考 5 個 AI 模型各自的決策,至于選擇哪個,還要看它們最近 5 次的表現(xiàn)。這里的 “最近 5 次” 被定義為一個超參數(shù),名為 Focus length,可以視情況調整大小,實現(xiàn)進一步優(yōu)化。在與人類對戰(zhàn)的第二套 Multi-AI 模型中,該參數(shù)就被設為了 10。打個比方,每一個 n 階馬爾可夫鏈模型就像是一位軍師,各自有不同的決策標準。而 Multi-AI 模型就是司令,手底下有好多名軍師組成的智囊團。做決策時,每個軍師會提交自己的出拳建議,司令會根據(jù)他們過去幾次的表現(xiàn),采納綜合分數(shù)最高的人的建議,以提高長期勝率。如果人類玩家連續(xù)勝利,就會促使 Multi-AI 轉向選擇其他 AI 模型的更優(yōu)解。如果人類玩家連續(xù)失敗,大概率會轉換策略,或者打破之前的出拳規(guī)律,這時 Multi-AI 也可以隨之調整。
最終的社會實驗結果反映出了這個想法的有效性。在 52 名志愿者中,只有不到 5 人擊敗了 AI。很多人都在最初 20個~50 個回合里處于領先,但隨后就被 AI 捕捉到了隱藏的行為模式,飲恨敗北。那些擊敗 AI 的人,勝率也只是稍微高出一些,并未拉開太大差距。
6 年前被質疑的研究
值得一提的是,在開發(fā) AI 模型背后的算法時,研究團隊閱讀了 6 年前另一個浙大團隊的研究成果,但使用了另一種不同的博弈策略。
相較于之前對于所有玩家數(shù)據(jù)整體以統(tǒng)計學的方式進行研究,這里的 Multi-AI 模型更強調針對不同玩家之間的個性差異、出拳策略,來及時的進行調控,選取當下最適宜的博弈策略。2014 年 5 月,很多媒體都報道了一項以 “石頭剪刀布” 游戲為對象的科研成果。這項研究課題原本是 “可控實驗社會博弈系統(tǒng)中一些非平衡統(tǒng)計物理問題”,但媒體和輿論關注的重點大多是 “如何提高猜拳勝率”,因此還被質疑是浪費經(jīng)費。
其實不然。這項研究還被《麻省理工科技評論》評為 2014 年最佳成果(預印本)之一。論文揭示了猜拳游戲背后蘊藏著不同的行為模式,比如贏家傾向于下一輪出同樣的手勢,而輸家傾向于改變;人們更愿意出石頭等等。但更深層的主旨是探討納什均衡在真實博弈中是否成立,研究現(xiàn)實中的博弈模型框架,并且分析游戲中的宏觀周期現(xiàn)象與微觀行為基礎。這其中用到的基礎理論涉獵博弈論、心理學和神經(jīng)科學等多個領域。
類似的,2020 年這項關于 “石頭剪刀布” 的最新研究,成果不僅僅是一個很厲害的猜拳 AI,還是一個很厲害的循環(huán)制衡模型分析師。未來有望拓展到其他博弈場景,比如預測競爭對手的下一步舉動,規(guī)劃更有效的競選策略,或者制定更有利的定價方案等等。“(我們發(fā)現(xiàn))人類的競爭行為確實有規(guī)律可循,通過使用適當?shù)暮唵文P途湍芾眠@些規(guī)律,”研究人員在論文中總結道,“對于競爭行為模式以及如何利用它們的研究,有望讓我們更好地建模,預測和適應不同的競爭模式。”
(本刊綜合整理)(編輯/華生)