亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        連“石頭剪刀布”,人類也玩不過AI了

        2020-12-25 06:36:54
        海外星云 2020年12期
        關鍵詞:勝率馬爾可夫剪刀

        如果說有一種解決問題的方法能跨域文化、種族和地域,那么除了抽簽這種純靠運氣的方式,恐怕只剩下猜拳了。

        人們普遍認可 “石頭-剪刀-布” 三者之間的克制關系?!肮?隨機” 的特性使其不僅是活躍氣氛的小游戲,更能作為一種相對公平的解決問題的手段,廣泛應用在解決分歧,決定順序,或者確定歸屬的關鍵時刻。更不用說,在誰洗碗、誰拖地、誰做飯之類的家務活上,猜拳自帶的 “愿賭服輸” 可以有效維系家庭和睦,堪稱隨叫隨到的家庭關系調解員。

        在大多數(shù)人的認知里,猜拳是隨機事件,玩家獲勝的概率應該是一樣的且恒定在1/3,但事實可能并非如此。近日,浙江大學何賽靈教授的研究團隊開發(fā)了一個基于馬爾可夫鏈的 AI 模型,專門用來玩猜拳游戲。在和 52 名人類玩家分別大戰(zhàn) 300 回合之后,AI 擊敗了 95% 的玩家。

        對于人類玩家來說,規(guī)則是贏 +2 分,平 +1 分,輸不得分。在與 AI 對戰(zhàn)之前,參與者知道獲勝會獲得金錢獎勵,總分越高,贏的錢越多。因此玩家故意放水或者隨便亂選的概率極低。即便如此,AI 仍然大勝人類。在最懸殊的一場較量中,AI 獲得了 198 次勝利,55 次平手,僅輸了 47 次,勝率超過人類對手 4 倍。全部 15600 回合詳盡的原始博弈數(shù)據(jù),在論文的補充資料中給出(詳見參考文獻)。如果猜拳勝負真的是隨機概率,那么從統(tǒng)計學的角度來講,15600 場比賽下來,AI 獲得如此大優(yōu)勢的概率非常低。

        擁有“智囊團”的Multi-AI模型

        本質上來看,猜拳屬于博弈問題,其背后蘊藏著經(jīng)典的納什均衡,而每個個體的習慣、認知、策略和策略變化都會影響實際勝率。比如你和對手很熟悉,那么你可能知道他/她經(jīng)常出布,因此可以多出剪刀來克制。

        浙江大學何賽靈教授團隊提出的 AI 模型就是利用了類似的方法,證明了猜拳真的存在針對不同個體的長期制勝策略,可以有效提高勝率。這套 AI 模型基于 n-階馬爾可夫鏈設計,擁有記憶性,能夠向前追溯最多 n 個歷史狀態(tài)并加以利用。為了在實戰(zhàn)中應對人類玩家的不同性格和策略,研究團隊還發(fā)明了一套 Multi-AI 模型?!敖γ總€人都有效的單一模型很困難,因此我們決定將單個模型結合起來,使其能夠區(qū)分和適應更多不同的競爭策略?!?研究人員在論文中解釋稱。

        在與人類對戰(zhàn)的第一套 Multi-AI 模型中,他們放入了 1-5 階馬爾可夫鏈,即 5 個獨立的 AI 模型,分別參考之前 1-5 個動作。Multi-AI 會從整體上參考 5 個 AI 模型各自的決策,至于選擇哪個,還要看它們最近 5 次的表現(xiàn)。這里的 “最近 5 次” 被定義為一個超參數(shù),名為 Focus length,可以視情況調整大小,實現(xiàn)進一步優(yōu)化。在與人類對戰(zhàn)的第二套 Multi-AI 模型中,該參數(shù)就被設為了 10。打個比方,每一個 n 階馬爾可夫鏈模型就像是一位軍師,各自有不同的決策標準。而 Multi-AI 模型就是司令,手底下有好多名軍師組成的智囊團。做決策時,每個軍師會提交自己的出拳建議,司令會根據(jù)他們過去幾次的表現(xiàn),采納綜合分數(shù)最高的人的建議,以提高長期勝率。如果人類玩家連續(xù)勝利,就會促使 Multi-AI 轉向選擇其他 AI 模型的更優(yōu)解。如果人類玩家連續(xù)失敗,大概率會轉換策略,或者打破之前的出拳規(guī)律,這時 Multi-AI 也可以隨之調整。

        最終的社會實驗結果反映出了這個想法的有效性。在 52 名志愿者中,只有不到 5 人擊敗了 AI。很多人都在最初 20個~50 個回合里處于領先,但隨后就被 AI 捕捉到了隱藏的行為模式,飲恨敗北。那些擊敗 AI 的人,勝率也只是稍微高出一些,并未拉開太大差距。

        6 年前被質疑的研究

        值得一提的是,在開發(fā) AI 模型背后的算法時,研究團隊閱讀了 6 年前另一個浙大團隊的研究成果,但使用了另一種不同的博弈策略。

        相較于之前對于所有玩家數(shù)據(jù)整體以統(tǒng)計學的方式進行研究,這里的 Multi-AI 模型更強調針對不同玩家之間的個性差異、出拳策略,來及時的進行調控,選取當下最適宜的博弈策略。2014 年 5 月,很多媒體都報道了一項以 “石頭剪刀布” 游戲為對象的科研成果。這項研究課題原本是 “可控實驗社會博弈系統(tǒng)中一些非平衡統(tǒng)計物理問題”,但媒體和輿論關注的重點大多是 “如何提高猜拳勝率”,因此還被質疑是浪費經(jīng)費。

        其實不然。這項研究還被《麻省理工科技評論》評為 2014 年最佳成果(預印本)之一。論文揭示了猜拳游戲背后蘊藏著不同的行為模式,比如贏家傾向于下一輪出同樣的手勢,而輸家傾向于改變;人們更愿意出石頭等等。但更深層的主旨是探討納什均衡在真實博弈中是否成立,研究現(xiàn)實中的博弈模型框架,并且分析游戲中的宏觀周期現(xiàn)象與微觀行為基礎。這其中用到的基礎理論涉獵博弈論、心理學和神經(jīng)科學等多個領域。

        類似的,2020 年這項關于 “石頭剪刀布” 的最新研究,成果不僅僅是一個很厲害的猜拳 AI,還是一個很厲害的循環(huán)制衡模型分析師。未來有望拓展到其他博弈場景,比如預測競爭對手的下一步舉動,規(guī)劃更有效的競選策略,或者制定更有利的定價方案等等。“(我們發(fā)現(xiàn))人類的競爭行為確實有規(guī)律可循,通過使用適當?shù)暮唵文P途湍芾眠@些規(guī)律,”研究人員在論文中總結道,“對于競爭行為模式以及如何利用它們的研究,有望讓我們更好地建模,預測和適應不同的競爭模式。”

        (本刊綜合整理)(編輯/華生)

        猜你喜歡
        勝率馬爾可夫剪刀
        一種生成殘局數(shù)據(jù)庫的倒推算法
        基于預期收益策略與UCT的德州撲克算法
        鈍剪刀
        家教世界(2020年31期)2020-12-02 01:14:06
        風有一把剪刀
        大剪刀,小剪刀
        幼兒園(2018年6期)2018-06-19 17:11:38
        保費隨機且?guī)в屑t利支付的復合馬爾可夫二項模型
        2014—2015年中國女子籃球職業(yè)聯(lián)賽單節(jié)得失分與比賽結果相關性分析
        小小金剪刀
        小主人報(2016年19期)2016-02-24 03:25:50
        基于SOP的核電廠操縱員監(jiān)視過程馬爾可夫模型
        應用馬爾可夫鏈對品牌手機市場占有率進行預測
        欧美日本精品一区二区三区| 2021久久最新国产精品| 久久久国产精品免费无卡顿| 国产视频嗯啊啊啊| 蜜臀av人妻一区二区三区| 亚洲av一区二区在线| 极品一区二区在线视频| 亚洲国产精品无码aaa片| 成人aaa片一区国产精品| 亚洲熟女综合一区二区三区| 国精品无码一区二区三区在线看| 国产精品日韩中文字幕| 久久综合精品国产丝袜长腿| 国产在线高清理伦片a| 一二三四日本中文在线| 五月天激情婷婷婷久久| 国产av成人精品播放| 一区视频在线观看免费播放.| 日韩av天堂综合网久久| 九一免费一区二区三区偷拍视频| 国产精品国产精品国产专区不卡| 麻豆高清免费国产一区 | 亚洲精品综合色区二区| 久久精品亚洲热综合一本色婷婷| 4hu四虎永久免费地址ww416| 成人欧美一区二区三区a片| 另类专区欧美在线亚洲免费| 蜜桃av噜噜一区二区三区免费 | 丰满女人猛烈进入视频免费网站| 免费人成网站在线观看欧美| 精品国产av 无码一区二区三区| 亚洲VA中文字幕无码毛片春药| 蜜桃av噜噜一区二区三区香| 亚洲天堂av一区二区三区不卡| 国产三级在线观看完整版| 蜜臀av一区二区| 99re6久精品国产首页| 日本一区二区三区清视频| 欧美四房播播| 精品国产福利在线观看网址2022| 日本人妻系列一区二区|