耿志文
摘? ?要:國際信息科技領域新興一項前沿機器人學習方面大型學術活動—機器人足球世界杯。機器人足球世界杯涉及領域廣泛,研究方法多樣,集合了多領域合作,涉及計算機、通信、自動化、機電一體、機器學習等多項前沿技術的開拓和綜合集成;對其的研究已經(jīng)成為各個領域的重點。在教育方面,機器人足球已經(jīng)成為21世紀計算機科技與信息科技頂尖人才的重要方向。甚至在歐美很多國家已將其設定為核心課程。概括來說,機器人足球世界杯是以仿真體育賽事為載體的前沿科技競爭和高科技對抗賽事,機器人賽事的蓬勃發(fā)展極大地促進了計算機科學等學科前沿技術的發(fā)展,在某種程度來說,機器人賽事的發(fā)展也是自動化、機器人、計算機等科技的重要窗口。
關鍵詞:機器學習;計算機; RobuCup;人工智能
1? ? RobuCup簡介
RoboCup聯(lián)盟是一個國際性研究和教育組織,提供一個標準問題來應對機器人運動方面的研究。這個領域可以檢驗許多提出的設想性方案的實際呈現(xiàn),也可以檢驗許多新技術在應用方面存在的問題,同時也可以用作教育領域,促進許多學科基礎教育的進步與前沿科技發(fā)展。
足球比賽被RoboCup選作一個基本領域,組織了世界上級別最高、規(guī)模最大、影響最廣泛的機器人足球賽事和學術會議—機器人足球世界杯及其學術會議。機器人球隊的正常運作,涉及多方面的技術,而文章所研究的RobuCup 2D則是為軟件及策略方面研究,以用于實際操作。
2? ? RobuCup研究重點
RobuCup 2D挑戰(zhàn)為智能主體提供了一系列挑戰(zhàn),同時還提供了一個動態(tài)、實時多主體的平臺對戰(zhàn)展現(xiàn)效果,通過足球場上仿真設定各種影響因素來模擬真實賽場環(huán)境,例如通過“噪音”干擾智能主體之間的通信,提高其信息傳遞的失敗率;通過“視野”限制降低智能主體對場上信息的獲取;通過場上球員的相互阻礙來提高策略的重要性。因此,為了在重重限制下贏得比賽,如何讓智能主體有目的地學習進攻策略就變得極其重要,因此在研究這個方面課題的時候要學會對智能主體的訓練。
如上所述,學習成為智能主體非常重要的一個環(huán)節(jié),所以在RobuCup學習挑戰(zhàn)中,為一組智能主體創(chuàng)建有效的學習方法成為主要挑戰(zhàn),這個挑戰(zhàn)分為以下幾個部分:
(1)單個智能主體的離線學習技術(對球的攔截與踢球)。
(2)智能主體之間配合的離線學習(傳接球)。
(3)在線技術和合作學習(如適應性跑位)。
(4)在線對抗學習(如預測對手行為并采取有效策略)。
足球這種復雜、動態(tài)的多主體分布式人工智能的訓練需要各種考慮多種因素,需要靈活的協(xié)調(diào)和通信來克服場上的不確定性,所以必須建立一個讓智能主體之間聯(lián)系更加緊密的神經(jīng)網(wǎng)絡來加強團隊之間的聯(lián)系和實現(xiàn)更加完善的攻防策略,要建立一個完整的體系結構來讓分布的智能主體即使在視野、信息受限的情況下也能將戰(zhàn)術與隊形調(diào)整到最佳狀態(tài)。
3? ? 多智能體的學習
在分布式多主體的人工智能中,一個多智能主體的系統(tǒng)在結構上和系統(tǒng)功能上都比較復雜,智能體之間信息傳遞的不穩(wěn)定性以及場上干擾都會給整個系統(tǒng)的功能發(fā)揮帶來干擾,而無法實現(xiàn)給定所有可能發(fā)生的情況,因此需要讓多智能主體擁有一定的學習能力和自適應性,讓多智能主體的系統(tǒng)可以通過學習和分析來更好的實現(xiàn)功能。而采用神經(jīng)網(wǎng)絡來加強團隊之間的學習和配合是文章的重點。
4? ? 反應式Agent結構
反應式Agent指簡單地對外部刺激產(chǎn)生響應,沒有里面的任何狀態(tài),每個Agent可以是用戶也可以是服務端。
5? ? Monitor
Monitor是可視化工具,提供平臺讓人們觀看比賽時候的場景,利用可視化平臺讓人們更直觀地看見智能主體的表現(xiàn)和團隊策略的實施,可以直接看見智能主體和球在場上的運動坐標,RobuCup 2D為二維球場,需要考慮的球員因素例如人形關節(jié)、轉頭等比較少,但對于團隊策略更為注重。
6? ? 球場上的動態(tài)規(guī)劃
球場上的每個周期都需要準確的判斷,由于踢球力量到加速度轉換率(Kick Power Rate,KPR)提高到0.027以后,把球高速踢出比以前容易多了,在4個周期內(nèi)都可以把球加速到2.5左右。
使用搜索和強化算法來設計踢球模塊,讓智能主體擁有快速踢球的能力是非常重要的一個環(huán)節(jié),但是智能主體對場上的時機判斷并不準確,球的運動會干擾所有智能主體的判斷,當運動狀態(tài)改變時,智能主體的決策也會相應改變,所以要離散化球隊球員的位置空間,用來表示過度踢球的中間狀態(tài)。所以這里使用動態(tài)規(guī)劃來準確的確定球隊球員之間策略的決定。以10×10離散球員魏忠賢,邊長2x kickable area的正方形。首先需要得出兩個點的球運動狀態(tài),如果確定了第二個點,那智能主體就可以擁有對第二個點球的實際控制能力。
智能主體給球的加速度和智能主體的力量之比為kick rate,其只與KPR、球到智能主體的距離以及球和智能主體的角度有關。
7? ? 動作訓練
在對智能主體策略的規(guī)劃中,還需要考慮到對智能主體離線和在線的訓練,將Q學習和UCT結合,保證探索和盡量保證選取最優(yōu)動作獲得一個比較科學的估值機制。
8? ? 結語
設計了一個簡單的場上教練實現(xiàn)改變球員的類型,詳細的球員類型應用非常復雜,本設計演示了如何使用場上教練來改變球員類型,這些改變不是策略的一部分,球員類型的改變目前還影響不到策略實施的效果。