當?shù)貢r間2022年2月9日,索尼表示,其創(chuàng)建的名為Gran Turismo Sophy (GT Sophy)的人工智能代理,能夠在賽車模擬游戲《GT賽車》中擊敗世界冠軍級別的人類玩家。
相關論文以《使用深度強化學習超越Gran Turismo冠軍車手》為題發(fā)表在最新一期《自然》封面。
如今的人工智能技術通常借助計算機神經網絡來模仿人類大腦的工作方式。對人工智能進行實際應用時,比如與人類互動,通常都要求其能夠做出實時決策。
之前,人工智能在國際象棋、麻將和圍棋等方面成功擊敗人類,但索尼表示,賽車駕駛更具挑戰(zhàn)性,車手必須控制非線性動態(tài)的車輛和執(zhí)行復雜的戰(zhàn)術來超過或阻攔對手,這需要做出許多實時決定。
該論文描述了索尼研發(fā)的人工智能,如何完成高難度挑戰(zhàn),包括使用其他車輛引起的氣流來擾亂后續(xù)車輛并執(zhí)行緊急制動。同時,該人工智能還利用空氣動力學來實時預測其他賽車的軌跡。
GT Sophy訓練方法
索尼使用無模型、非策略的深度強化學習和自主開發(fā)的混合場景訓練,反復試驗,來訓練人工智能在賽車駕駛的細微差別。之前,也有研究人員使用強化學習等方式來建模車輛動力學和訓練人工智能學習駕駛政策,并在單人駕駛方面取得了較好成績,但還沒有一個研究解決最高水平的汽車比賽問題。
在強化訓練中,GT Sophy根據不同的輸入,比如車速、車輪方向、軌道曲率等,獲得了正面或負面的反饋,其還通過自我復制適應了多種不同場景。
另外,要想在賽場獲得勝利,車手須在“賽車控制、賽車戰(zhàn)術、賽車禮儀和賽車策略”等方面有著高超的技巧和熟練度。
車手為了完全控制汽車,必須在對自己汽車狀況和比賽賽道特性有詳細的了解的基礎上,建立直線加速和防守對手等所需的戰(zhàn)術技能和戰(zhàn)略思維,還要有高速精確的執(zhí)行力。與此同時,車手必須遵守一定的體育精神。
為了讓GT Sophy擁有足夠的競爭力,索尼還構建了一個獎勵函數(shù)。當它在賽道上持續(xù)前進時,會得到進度獎勵;如果它出界或失去動力,則會被處罰。這些獎懲機制讓GTSophy能夠收到積極反饋,以保持在賽道上高速、穩(wěn)定駕駛。
三種比賽場地
在具體測試中,GT Sophy與人類頂尖車手在《GT賽車》中的三種賽道進行了比賽,分別為Dragon Trail Seaside、Lago Maggiore GP、Circuitde la Sarthe。
據了解,《GT賽車》由索尼與國際汽車聯(lián)合會合作設計。該游戲配置有最新的車輛動力學模擬,模擬了空氣阻力、輪胎摩擦、懸架運動引起的方向變化等,并結合了現(xiàn)實生活中賽車的技術支持,能夠較為真實地再現(xiàn)現(xiàn)實中汽車的各種細節(jié)。
《GT賽車》在全球擁有超過40萬人的電子競技社區(qū),有著一個公平的賽車環(huán)境。其也為機器學習進行實驗提供了一個高度現(xiàn)實模擬的場所。
據了解,GT Sophy的大規(guī)模訓練于2021年1月開始。在與各種研究團隊成員和《GT賽車》車手對抗后,2021年7月,GTSophy與四位包括《GT賽車》賽事“三冠王”宮園拓真在內的世界頂級車手進行了第一次比試,該場由人類獲勝。
這之后,索尼改進訓練機制、增加網絡規(guī)模,并對一些特征和獎勵進行了小的修改,提高了對手的數(shù)量,在2021年10月的第二個比賽日,GT Sophy輕松戰(zhàn)勝了人類。
不過,索尼也表示,盡管GT Sophy在比賽中表現(xiàn)出了較為全面的駕駛技能,并最終獲勝,但它仍有許多地方需要改進,特別是在戰(zhàn)略決策方面。例如,GT Sophy可能會在相同賽道上留下較多空間,而給到對手反超的機會。
比賽場景
GT Sophy能夠在模擬賽車這種實時、連續(xù)控制和高度真實、復雜的物理環(huán)境中獲得巨大成功,這一結果可以被看作人工智能持續(xù)發(fā)展的又一例證,也表明在汽車賽道等類型上訓練比人類更加優(yōu)秀的人工智能是可能的。
而像GT Sophy這樣的人工智能有潛力使人們在賽車游戲中得到更加愉快的體驗,同時,也能為專業(yè)車手提供現(xiàn)實的、高水平的競爭和發(fā)現(xiàn)新的賽車技術。
最后,值得一提的是,索尼團隊還認為,本次研究成果還可應用于空中無人機、自動駕駛汽車等系統(tǒng)中。 (綜合整理報道)(編輯/小美)