亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

連“石頭剪刀布”，人類也玩不過AI了

2020-12-25 06:36:54

海外星云 2020年12期

如果說有一種解決問題的方法能跨域文化、種族和地域，那么除了抽簽這種純靠運氣的方式，恐怕只剩下猜拳了。

人們普遍認可 “石頭-剪刀-布” 三者之間的克制關系?！肮?隨機” 的特性使其不僅是活躍氣氛的小游戲，更能作為一種相對公平的解決問題的手段，廣泛應用在解決分歧，決定順序，或者確定歸屬的關鍵時刻。更不用說，在誰洗碗、誰拖地、誰做飯之類的家務活上，猜拳自帶的 “愿賭服輸” 可以有效維系家庭和睦，堪稱隨叫隨到的家庭關系調解員。

在大多數(shù)人的認知里，猜拳是隨機事件，玩家獲勝的概率應該是一樣的且恒定在1/3，但事實可能并非如此。近日，浙江大學何賽靈教授的研究團隊開發(fā)了一個基于馬爾可夫鏈的 AI 模型，專門用來玩猜拳游戲。在和 52 名人類玩家分別大戰(zhàn) 300 回合之后，AI 擊敗了 95% 的玩家。

對于人類玩家來說，規(guī)則是贏 +2 分，平 +1 分，輸不得分。在與 AI 對戰(zhàn)之前，參與者知道獲勝會獲得金錢獎勵，總分越高，贏的錢越多。因此玩家故意放水或者隨便亂選的概率極低。即便如此，AI 仍然大勝人類。在最懸殊的一場較量中，AI 獲得了 198 次勝利，55 次平手，僅輸了 47 次，勝率超過人類對手 4 倍。全部 15600 回合詳盡的原始博弈數(shù)據(jù)，在論文的補充資料中給出（詳見參考文獻）。如果猜拳勝負真的是隨機概率，那么從統(tǒng)計學的角度來講，15600 場比賽下來，AI 獲得如此大優(yōu)勢的概率非常低。

擁有“智囊團”的Multi-AI模型

本質上來看，猜拳屬于博弈問題，其背后蘊藏著經(jīng)典的納什均衡，而每個個體的習慣、認知、策略和策略變化都會影響實際勝率。比如你和對手很熟悉，那么你可能知道他/她經(jīng)常出布，因此可以多出剪刀來克制。

浙江大學何賽靈教授團隊提出的 AI 模型就是利用了類似的方法，證明了猜拳真的存在針對不同個體的長期制勝策略，可以有效提高勝率。這套 AI 模型基于 n-階馬爾可夫鏈設計，擁有記憶性，能夠向前追溯最多 n 個歷史狀態(tài)并加以利用。為了在實戰(zhàn)中應對人類玩家的不同性格和策略，研究團隊還發(fā)明了一套 Multi-AI 模型?！敖γ總€人都有效的單一模型很困難，因此我們決定將單個模型結合起來，使其能夠區(qū)分和適應更多不同的競爭策略?！?研究人員在論文中解釋稱。

在與人類對戰(zhàn)的第一套 Multi-AI 模型中，他們放入了 1-5 階馬爾可夫鏈，即 5 個獨立的 AI 模型，分別參考之前 1-5 個動作。Multi-AI 會從整體上參考 5 個 AI 模型各自的決策，至于選擇哪個，還要看它們最近 5 次的表現(xiàn)。這里的 “最近 5 次” 被定義為一個超參數(shù)，名為 Focus length，可以視情況調整大小，實現(xiàn)進一步優(yōu)化。在與人類對戰(zhàn)的第二套 Multi-AI 模型中，該參數(shù)就被設為了 10。打個比方，每一個 n 階馬爾可夫鏈模型就像是一位軍師，各自有不同的決策標準。而 Multi-AI 模型就是司令，手底下有好多名軍師組成的智囊團。做決策時，每個軍師會提交自己的出拳建議，司令會根據(jù)他們過去幾次的表現(xiàn)，采納綜合分數(shù)最高的人的建議，以提高長期勝率。如果人類玩家連續(xù)勝利，就會促使 Multi-AI 轉向選擇其他 AI 模型的更優(yōu)解。如果人類玩家連續(xù)失敗，大概率會轉換策略，或者打破之前的出拳規(guī)律，這時 Multi-AI 也可以隨之調整。

最終的社會實驗結果反映出了這個想法的有效性。在 52 名志愿者中，只有不到 5 人擊敗了 AI。很多人都在最初 20個～50 個回合里處于領先，但隨后就被 AI 捕捉到了隱藏的行為模式，飲恨敗北。那些擊敗 AI 的人，勝率也只是稍微高出一些，并未拉開太大差距。

6 年前被質疑的研究

值得一提的是，在開發(fā) AI 模型背后的算法時，研究團隊閱讀了 6 年前另一個浙大團隊的研究成果，但使用了另一種不同的博弈策略。

相較于之前對于所有玩家數(shù)據(jù)整體以統(tǒng)計學的方式進行研究，這里的 Multi-AI 模型更強調針對不同玩家之間的個性差異、出拳策略，來及時的進行調控，選取當下最適宜的博弈策略。2014 年 5 月，很多媒體都報道了一項以 “石頭剪刀布” 游戲為對象的科研成果。這項研究課題原本是 “可控實驗社會博弈系統(tǒng)中一些非平衡統(tǒng)計物理問題”，但媒體和輿論關注的重點大多是 “如何提高猜拳勝率”，因此還被質疑是浪費經(jīng)費。

其實不然。這項研究還被《麻省理工科技評論》評為 2014 年最佳成果（預印本）之一。論文揭示了猜拳游戲背后蘊藏著不同的行為模式，比如贏家傾向于下一輪出同樣的手勢，而輸家傾向于改變;人們更愿意出石頭等等。但更深層的主旨是探討納什均衡在真實博弈中是否成立，研究現(xiàn)實中的博弈模型框架，并且分析游戲中的宏觀周期現(xiàn)象與微觀行為基礎。這其中用到的基礎理論涉獵博弈論、心理學和神經(jīng)科學等多個領域。

類似的，2020 年這項關于 “石頭剪刀布” 的最新研究，成果不僅僅是一個很厲害的猜拳 AI，還是一個很厲害的循環(huán)制衡模型分析師。未來有望拓展到其他博弈場景，比如預測競爭對手的下一步舉動，規(guī)劃更有效的競選策略，或者制定更有利的定價方案等等。“（我們發(fā)現(xiàn)）人類的競爭行為確實有規(guī)律可循，通過使用適當?shù)暮唵文Ｐ途湍芾眠@些規(guī)律，”研究人員在論文中總結道，“對于競爭行為模式以及如何利用它們的研究，有望讓我們更好地建模，預測和適應不同的競爭模式。”

（本刊綜合整理）（編輯/華生）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

連“石頭剪刀布”，人類也玩不過AI了

連“石頭剪刀布”，人類也玩不過AI了