亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于蒙特卡洛樹搜索的仿真足球防守策略研究*

        2017-12-18 11:01:14柴偉凡梁志偉夏晨曦
        關(guān)鍵詞:蒙特卡洛搜索算法球隊(duì)

        柴偉凡,梁志偉,夏晨曦

        (南京郵電大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210023)

        基于蒙特卡洛樹搜索的仿真足球防守策略研究*

        柴偉凡,梁志偉,夏晨曦

        (南京郵電大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210023)

        針對(duì)Robocup仿真足球比賽中本位點(diǎn)區(qū)域化跑位的局限性,在三角剖分的陣型設(shè)計(jì)基礎(chǔ)上將蒙特卡洛樹搜索算法引入2D仿真中,將球員智能體在球場(chǎng)上的狀態(tài)定義為博弈樹節(jié)點(diǎn),將雙方球員的動(dòng)作選擇視為節(jié)點(diǎn)間的狀態(tài)轉(zhuǎn)移,對(duì)于球隊(duì)的防守任務(wù)建立蒙特卡洛樹模型。利用極坐標(biāo)方式對(duì)球場(chǎng)進(jìn)行區(qū)域分割,結(jié)合Q學(xué)習(xí)與蒙特卡洛樹搜索中的信心上限樹算法(Upper Confidence Bound Apply to Tree of Monte Carlo)進(jìn)行球隊(duì)訓(xùn)練,將訓(xùn)練結(jié)果的動(dòng)作評(píng)估值用于優(yōu)化比賽代碼,使得球隊(duì)的防守能力得到了較大程度的提升。

        robocup2D仿真;蒙特卡洛樹搜索算法;Q學(xué)習(xí);動(dòng)作選擇

        0 引言

        Robocup2D仿真比賽平臺(tái)是一套能夠讓由不同語(yǔ)言編寫的自主球員程序進(jìn)行足球比賽的仿真平臺(tái)。服務(wù)器端程序Soccer Server提供了一個(gè)虛擬場(chǎng)地并且模擬包括球和球員在內(nèi)的所有物體移動(dòng)。在仿真2D足球機(jī)器人這一對(duì)抗環(huán)境中,日本Helios球隊(duì)使用樹搜索算法優(yōu)化了球隊(duì)動(dòng)作鏈[1]。這種方式在小區(qū)域策略中起到了很好的作用,對(duì)于仿真足球是很好的啟發(fā)。

        基于Delaunay三角剖分的陣型設(shè)計(jì)是南郵Apollo2D球隊(duì)之前的工作重點(diǎn)[2],如圖1所示,將球場(chǎng)分割成三角網(wǎng)模型,以此實(shí)現(xiàn)球員的站位。這套陣型由于本位點(diǎn)區(qū)域化的跑位在本質(zhì)上很不靈活且有一定的局限性,本文在三角剖分的陣型基礎(chǔ)上引入蒙特卡洛樹搜索算法[3]改善球隊(duì)的防守策略,分組大量實(shí)驗(yàn)獲取動(dòng)作在不同區(qū)域的評(píng)估值編入比賽代碼,在此基礎(chǔ)上增加球隊(duì)動(dòng)作選擇的科學(xué)性與靈活性。

        圖1 Robocup2D球場(chǎng)圖及三角剖分的陣型設(shè)計(jì)

        1 仿真足球的蒙特卡洛樹模型

        蒙特卡洛樹搜索算法是機(jī)器學(xué)習(xí)中的一種博弈樹搜索算法,它是博弈樹搜索算法以及蒙特卡洛模擬方法的結(jié)合,該算法屬于一個(gè)純粹的數(shù)學(xué)模型,在多領(lǐng)域具有很好的通用性。將通過(guò)2D仿真介紹這一算法。蒙特卡洛樹搜索算法一般分為4個(gè)階段:選擇階段、擴(kuò)展階段、模擬階段和回溯更新階段。算法會(huì)重復(fù)地執(zhí)行這4個(gè)階段,直到滿足場(chǎng)上的某一個(gè)特定情況為止。在2D仿真中,這種情況包括我方犯規(guī)、我方攔截成功、敵方進(jìn)球等,整個(gè)模擬過(guò)程如圖2所示。

        圖2 蒙特卡洛樹的建立

        圖2中,長(zhǎng)方形模塊代表根節(jié)點(diǎn),樹的建立由根節(jié)點(diǎn)向下擴(kuò)展。該節(jié)點(diǎn)的狀態(tài)一般是指敵方持球進(jìn)攻且進(jìn)入我方半場(chǎng)。另外,當(dāng)發(fā)生敵方獲得定位球等使游戲中斷的狀態(tài)時(shí),此狀態(tài)也將成為下一次防守任務(wù)該博弈樹的根節(jié)點(diǎn)。

        橢圓形模塊表示子節(jié)點(diǎn),子節(jié)點(diǎn)是游戲中發(fā)生狀態(tài)轉(zhuǎn)移的一般節(jié)點(diǎn),當(dāng)我方智能體選擇動(dòng)作時(shí)產(chǎn)生節(jié)點(diǎn)之間的轉(zhuǎn)移,該節(jié)點(diǎn)保存著我方球員智能體時(shí)間以及空間上的狀態(tài)量,即在某一段時(shí)間采取什么樣的防守策略。

        三角形模塊代表葉子節(jié)點(diǎn),代表搜索樹到達(dá)了游戲的邊界或者不確定環(huán)境,該節(jié)點(diǎn)狀態(tài)為敵方進(jìn)球、我方斷球等上述情況中的一種,或遍歷到了評(píng)估值低于標(biāo)準(zhǔn)值的節(jié)點(diǎn)。

        n/N代表著通過(guò)該節(jié)點(diǎn)達(dá)到任務(wù)成功的次數(shù)與該節(jié)點(diǎn)被遍歷的總次數(shù)的比值。

        選擇階段:從樹的根節(jié)點(diǎn)開始,搜索遍歷整個(gè)樹,遞歸地選擇當(dāng)前節(jié)點(diǎn)下評(píng)價(jià)最高的那個(gè)子節(jié)點(diǎn)。當(dāng)遍歷達(dá)到葉子節(jié)點(diǎn)時(shí)結(jié)束該階段。

        擴(kuò)展階段:添加一個(gè)子節(jié)點(diǎn)進(jìn)入博弈樹結(jié)構(gòu)中。簡(jiǎn)單地說(shuō)就是,當(dāng)遇到評(píng)估值較低的節(jié)點(diǎn)時(shí),從添加的一系列可采取的防守動(dòng)作策略中選取新的動(dòng)作策略進(jìn)入模擬。

        模擬階段:利用擴(kuò)展階段所描述的方式進(jìn)行游戲,最后基于模擬的結(jié)果建立新節(jié)點(diǎn)的評(píng)估值。即采取某一個(gè)新的防守動(dòng)作或策略,并以此方式直到防守任務(wù)結(jié)束,根據(jù)反饋的比賽結(jié)果評(píng)估采取的動(dòng)作策略。

        更新回溯階段:當(dāng)該路徑的遍歷結(jié)束后,沿著樹的逆路徑更新這條路徑上所有節(jié)點(diǎn)的評(píng)估值。即根據(jù)防守任務(wù)達(dá)到的成效對(duì)之前所采取動(dòng)作的每一個(gè)節(jié)點(diǎn)進(jìn)行評(píng)價(jià),改變節(jié)點(diǎn)中收益比值,此階段只更新參與了本次任務(wù)動(dòng)作的值。

        2 動(dòng)作選擇策略

        蒙特卡洛樹模型搭建完成后,模型中各節(jié)點(diǎn)的動(dòng)作選擇所形成的節(jié)點(diǎn)間的轉(zhuǎn)移過(guò)程決定了算法在仿真足球比賽中的適用性。本節(jié)根據(jù)球所在區(qū)域帶來(lái)的威脅對(duì)球場(chǎng)進(jìn)行區(qū)域劃分,利用Q學(xué)習(xí)算法對(duì)各區(qū)域內(nèi)的動(dòng)作選擇進(jìn)行評(píng)估,結(jié)合蒙特卡洛樹搜索的UCT[4]算法更新該動(dòng)作下整個(gè)路徑中的評(píng)價(jià)值,分小組對(duì)各個(gè)區(qū)域進(jìn)行實(shí)驗(yàn)獲取每個(gè)區(qū)域內(nèi)最合理的參數(shù)值,建立了一個(gè)科學(xué)且具有靈活性的動(dòng)作選擇策略。

        2.1 區(qū)域劃分

        首先,如圖3所示,通過(guò)比賽經(jīng)驗(yàn)將尺寸為52×68的我方半場(chǎng)不等分地剖分為4塊區(qū)域,根據(jù)敵方帶球隊(duì)員所在區(qū)域訓(xùn)練球隊(duì)對(duì)于禁區(qū)內(nèi)部、邊線進(jìn)攻、中路進(jìn)攻以及外圍傳球的防守能力。

        圖3 球場(chǎng)剖分

        以球門的正中心點(diǎn)O為極點(diǎn),由O指向球場(chǎng)中圈的圓心P的射線為極軸建立極坐標(biāo)系。再由O點(diǎn)出發(fā),與射線OP呈60°作一條射線,并用圓弧將1/4球場(chǎng)分為4份(實(shí)線為區(qū)域邊界線,1號(hào)區(qū)域由于離球門較近屬于禁區(qū)范圍故不參與分割,所以分割線用虛線表示),便可以根據(jù)球所在區(qū)域與球門的距離和所呈角度定位敵方球員區(qū)域,設(shè)置參數(shù)數(shù)據(jù)化敵方威脅系數(shù)。

        2.2 基于Q學(xué)習(xí)的區(qū)域動(dòng)作評(píng)估

        Q學(xué)習(xí)作為強(qiáng)化學(xué)習(xí)的一個(gè)主流算法,由Watkins在1989年提出[5]。Q學(xué)習(xí)的核心思想是定義Q(st,at)表,其代表了狀態(tài)st下執(zhí)行動(dòng)作at并在進(jìn)行多次循環(huán)執(zhí)行所得到的累計(jì)回報(bào)值,當(dāng)多次重復(fù)實(shí)驗(yàn)達(dá)到收斂后,便可將最優(yōu)策略表示為:

        (1)

        Q函數(shù)的更新等式如下:

        (2)

        (3)

        算法的優(yōu)勢(shì)在于智能體在不需要前瞻性搜索也不需要通過(guò)接下來(lái)的狀態(tài)進(jìn)行判定就可以獲得最優(yōu)動(dòng)作。這一優(yōu)勢(shì)對(duì)于通過(guò)多次模擬訓(xùn)練來(lái)獲取當(dāng)前區(qū)域內(nèi)的最優(yōu)動(dòng)作來(lái)說(shuō)非常適用[6]。

        由于仿真足球環(huán)境的復(fù)雜性,本文根據(jù)區(qū)域劃分設(shè)立了一套當(dāng)前動(dòng)作獲得的實(shí)時(shí)收益的評(píng)估機(jī)制,該機(jī)制可以由下式進(jìn)行簡(jiǎn)單的表述:

        (4)

        其中,S(s,dis)代表訓(xùn)練中出現(xiàn)敵方射門情況時(shí)的射門結(jié)果和射門距離,當(dāng)敵方進(jìn)球,S(s,dis)取0;η代表敵方球員在我方隊(duì)友采取動(dòng)作s時(shí)所在區(qū)域的危險(xiǎn)系數(shù)(2.1節(jié)中所劃分的區(qū)域每一塊均設(shè)置了其危險(xiǎn)系數(shù));Q*代表了動(dòng)作產(chǎn)生的一些直接回報(bào)值,例如鏟斷成功、犯規(guī)獲得黃牌等。在此基礎(chǔ)上,便可以在每個(gè)區(qū)域動(dòng)作的訓(xùn)練過(guò)程中獲得一個(gè)及時(shí)的評(píng)價(jià)值來(lái)對(duì)動(dòng)作進(jìn)行優(yōu)化。

        2.3 基于UCT算法的動(dòng)作評(píng)估

        在仿真足球比賽中,防守的目的便是阻止對(duì)方球員進(jìn)攻得分。因此,根據(jù)最終結(jié)果返回區(qū)域動(dòng)作一個(gè)評(píng)價(jià)值這一延遲獎(jiǎng)勵(lì)機(jī)制是必不可少的。本小節(jié)將蒙特卡洛樹搜索中的UCT算法引入仿真環(huán)境,對(duì)整個(gè)動(dòng)作樹評(píng)估機(jī)制進(jìn)行優(yōu)化設(shè)計(jì)。

        UCT算法雛形來(lái)自于多臂匪徒問(wèn)題[7],在沒(méi)有先驗(yàn)知識(shí)的情況下,算法提出了一個(gè)能夠快速收斂且高效的策略。這個(gè)算法關(guān)鍵在于很多時(shí)候它不僅選擇最好的動(dòng)作,還同時(shí)兼顧探索一些通常的動(dòng)作,這樣做是通過(guò)對(duì)每個(gè)被訪問(wèn)的低勢(shì)候選動(dòng)作的勝率增加一個(gè)數(shù)來(lái)實(shí)現(xiàn)的。但是這個(gè)數(shù)每次在父節(jié)點(diǎn)被訪問(wèn)或是其他走法被選擇時(shí)會(huì)同時(shí)升高一點(diǎn)。這一思想可以用信心上界索引公式表示:

        (5)

        仿真足球環(huán)境中的UCT算法流程在2.1節(jié)中已進(jìn)行介紹,這里不再做過(guò)多闡述。它的優(yōu)勢(shì)為在保證探索更好的路徑的基礎(chǔ)上具有很好的方向性與自主學(xué)習(xí)能力。

        2.4 動(dòng)作訓(xùn)練

        訓(xùn)練過(guò)程中,將Q學(xué)習(xí)與UCT算法相結(jié)合,在保證探索性和盡量保證選取最優(yōu)動(dòng)作的前提下通過(guò)調(diào)節(jié)參數(shù)獲得一個(gè)較為科學(xué)的評(píng)價(jià)機(jī)制,公式表述如下:

        Vt=aQ(st,at)+I(at)

        (6)

        其中,UCT算法起主導(dǎo)作用,用于探索未采用的節(jié)點(diǎn)并通過(guò)將最終結(jié)果回溯更新動(dòng)作評(píng)價(jià)值的方式影響動(dòng)作的評(píng)估值;Q學(xué)習(xí)得到的當(dāng)前區(qū)域動(dòng)作收益值起到調(diào)整修正總評(píng)估值Vt的作用且保證了隨著加權(quán)系數(shù)C的調(diào)整,該實(shí)驗(yàn)的收斂速度。實(shí)驗(yàn)中的算法流程如下:

        初始化Q表:

        (1)獲取球場(chǎng)信息,創(chuàng)建根節(jié)點(diǎn)N(st);

        (2)將下一步可以采取的動(dòng)作作為子節(jié)點(diǎn)N′(st);

        (3)由Vt選取動(dòng)作;

        (4)由式(2)得到Q(st,vt);

        (5)N′(s1)訪問(wèn)下一層子節(jié)點(diǎn)直至終局,回溯更新遍歷的所有子節(jié)點(diǎn),更新Vt;

        (6)轉(zhuǎn)步驟(2),直至Vt收斂。

        在Linux14.04操作系統(tǒng),rcssserver15.2.2比賽平臺(tái)下,使用trainer訓(xùn)練器進(jìn)行場(chǎng)景模擬,分為中路進(jìn)攻、邊路進(jìn)攻的6V5防守場(chǎng)景,以及模擬快速反擊的中路3V2防守場(chǎng)景。對(duì)剖分的4塊區(qū)域進(jìn)行分組動(dòng)作模擬,訓(xùn)練周期為50周期,每個(gè)區(qū)域訓(xùn)練次數(shù)為500,根據(jù)收集得到的結(jié)果,繪制折線圖,本小節(jié)以快速反擊情況下2區(qū)域內(nèi)的動(dòng)作選擇為例,得到的數(shù)據(jù)如圖4所示。

        圖4 訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)圖

        圖4中,橫坐標(biāo)代表訓(xùn)練次數(shù),縱坐標(biāo)代表動(dòng)作被選取的百分比??梢?jiàn),當(dāng)訓(xùn)練次數(shù)達(dá)到400次左右時(shí),評(píng)估函數(shù)已經(jīng)基本收斂。

        2.5 比賽應(yīng)用

        在Robocup2D仿真比賽中,將模擬訓(xùn)練所得到的數(shù)據(jù)錄入Apollo2016比賽源碼中,得到了一套較為合理的動(dòng)作選擇策略。而在比賽中,為了避免代碼的復(fù)雜性造成智能體接收信息出現(xiàn)障礙等情況,本文對(duì)Apollo2016比賽代碼在Q學(xué)習(xí)策略上進(jìn)行了一定刪除,其中采取蒙特卡洛樹搜索的動(dòng)作選擇策略偽碼如下:

        functionUCTSelect;

        while處于比賽狀態(tài)do

        ApolloPolicy(s)

        //球隊(duì)根據(jù)訓(xùn)練數(shù)據(jù)定義的初始策略

        returun a(bestaction(s))

        functionApolloPolicy(s)

        利用a=bestaction(s)進(jìn)行比賽

        //初始定義的評(píng)估值最高的動(dòng)作

        while返回評(píng)估值<定義評(píng)估值do

        vn← 擴(kuò)展階段(v)

        Δ←模擬階段(s)

        回溯更新階段(v,Δ)

        //s代表當(dāng)前狀態(tài),v代表當(dāng)前節(jié)點(diǎn)

        else

        return狀態(tài)s收益

        function擴(kuò)展階段(v)

        選擇行動(dòng)a∈其他評(píng)估較高的可選擇動(dòng)作

        為v添加子節(jié)點(diǎn)v’,令s(v’)=f(s(v),a),a(v’)=a

        returnv’

        function模擬階段(s)

        whiles非終止?fàn)顟B(tài)do:

        繼續(xù)按照apollopolicy策略行動(dòng)

        s←f(s,a)

        return狀態(tài)s的收益

        function回溯更新階段(v,Δ)

        whilev≠Nulldo:

        n(v)=n(v)+1;

        //更新該條路徑上的訪問(wèn)次數(shù)

        V*(v)=V*+Δ;

        //更新所訪問(wèn)路徑的收益值

        functionbestaction(v)

        3 比賽結(jié)果分析

        本節(jié)將基于蒙特卡洛樹搜索算法的防守策略應(yīng)用于南郵Apollo2016球隊(duì),通過(guò)實(shí)例分析和比賽數(shù)據(jù)兩方面對(duì)球隊(duì)進(jìn)行分析,實(shí)驗(yàn)結(jié)果如下。

        3.1 實(shí)例分析

        本小節(jié)以2015年、2016年兩屆Robocup中國(guó)賽中南郵Apollo球隊(duì)的比賽為例,通過(guò)分析對(duì)相同情況的不同處理方式論證算法的合理性。

        圖5(a)是2015年國(guó)賽Apollo2015對(duì)陣Yushan2015(2015年國(guó)賽亞軍)場(chǎng)景,圖5(b)是2016年國(guó)賽Apollo2016對(duì)陣Yushan(2016年國(guó)賽冠軍)場(chǎng)景。均為敵方智能體斷球后進(jìn)行快速反擊,帶球壓迫至禁區(qū)的情形。

        圖5(a)為依賴于Delaunay三角剖分陣型設(shè)計(jì)的防守

        圖5 比賽實(shí)例分析

        體系,該體系面對(duì)敵方智能體進(jìn)攻時(shí)有較好的針對(duì)性,不容易出現(xiàn)漏人等情況。但受限于本位點(diǎn)盯防的區(qū)域化限制,在面對(duì)反擊時(shí)的表現(xiàn)則顯得較為死板。圖中,敵方斷球快速反擊,由9號(hào)智能體帶球進(jìn)入禁區(qū),由于陣型設(shè)計(jì)根據(jù)球的位置規(guī)定了球員的防守站位區(qū)域,我方智能體便選擇了區(qū)域協(xié)防策略。然而對(duì)方球員在大禁區(qū)位置直接選擇射門,導(dǎo)致球隊(duì)失球。圖5(b)為建立在三角剖分陣型基礎(chǔ)上,運(yùn)用基于蒙特卡洛樹搜索的防守策略優(yōu)化后的球隊(duì)。由于在之前的訓(xùn)練調(diào)試過(guò)程中,出現(xiàn)過(guò)多次這樣的丟球情況,根據(jù)反饋評(píng)估值,當(dāng)智能體再次面臨這種情況時(shí),就不再使用評(píng)估較低的協(xié)防策略,而選擇了4號(hào)智能體后撤協(xié)防,3號(hào)智能體直接搶斷的動(dòng)作,這一具有高風(fēng)險(xiǎn)高回報(bào)的動(dòng)作最終成功完成防守。

        3.2 比賽數(shù)據(jù)分析

        本小節(jié)以2016年國(guó)賽南郵Apollo2016隊(duì)面對(duì)前八球隊(duì)的詳細(xì)防守?cái)?shù)據(jù)為例,并添加賽后進(jìn)行的Apollo2015、2016對(duì)相同對(duì)手50次防守實(shí)驗(yàn)和10次比賽實(shí)驗(yàn)比較,數(shù)據(jù)如表1。

        表1 球隊(duì)防守成功率表 (%)

        定義敵方獲得射門機(jī)會(huì)以及獲得前場(chǎng)任意球?yàn)榉朗厥?。觀察表1中的數(shù)據(jù)可以清楚地發(fā)現(xiàn),基于蒙特卡洛樹搜索的防守策略擁有更好的防守效果。本文提出的策略在比賽中擁有更好的靈活性和適用性。

        4 結(jié)束語(yǔ)

        為了增加球隊(duì)防守的全面性與靈活性,本文在三角剖分的陣型設(shè)計(jì)上引入基于蒙特卡洛樹搜索算法的防守策略使得球隊(duì)動(dòng)作的執(zhí)行不再更多地依賴于區(qū)域劃分,而是更多地基于場(chǎng)上的形勢(shì),使得Apollo2D球隊(duì)獲得了國(guó)賽第三這一近年來(lái)最好的成績(jī)。但是當(dāng)面對(duì)沒(méi)有交手記錄的強(qiáng)隊(duì)時(shí),需要一定時(shí)間在比賽中進(jìn)行節(jié)點(diǎn)評(píng)估與模擬,這會(huì)增加一定的危險(xiǎn)性,仍需要其他的保護(hù)策略來(lái)優(yōu)化球隊(duì)防守能力。

        [1] AKIYAMA H, NAKASHIMA T, ARAMAKI S. Online cooperative behavior planning using a tree search method in the robocup soccer simulation[C]. Proceedings of 4th IEEE International Conference on Intelligent Networking and Collaborative Systems (INCoS-2012),2012:170-177.

        [2] Xu Xiaoxing, Liang Zhiwei. Team formation design using Delaunay triangulation in Robocup 2D simulation competition[C].Proceedings of 27th Control and Decision Conference (CCDC), Qingdao, China, 2015: 4335-4340.

        [3] BRADBERRY J. Introduction to Monte Carlo tree search[EB/OL].(2015-09-07)[2016-08-15]. https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/.

        [4] GELLY S, WANG Y. Exploration exploitation in go: UCT for Monte-Carlo go[C]. In: Advances in Neural Information Processing Systems 19 (NIPS),2006.

        [5] WATKINS C. Q-Learning[J]. Machine Learning, 1992, 8(3): 279-292.

        [6] 申時(shí)全. Linux多線程編程技術(shù)在擲骰子游戲模擬程序中的應(yīng)用[J]. 微型機(jī)與應(yīng)用,2016,35(9):85-88.

        [7] AUER P. Using confidence bounds for exploitation-exploration trade-offs[J]. the Journal of Machine Learning Research, 2003(3): 397-422.

        Research on simulated soccer defensive strategy based on Monte Carlo tree search algorithm

        Chai Weifan, Liang Zhiwei, Xia Chenxi

        (College of Automation, Nanjing University of Post and Telecommunications, Nanjing 210023, China)

        Aiming at the limitation of regionalization of standard point in RoboCup simulating, in this dissertation, Monte Carlo exploring method is introduced to 2D stimulation at the basic of Delaunay triangulation, and it uses player agent to define nodal point of game tree, and players’ choices of movement are regarded as transition among nodes. For defensive works, it builds the Monte Carlo tree model. It utilizes polar coordinates system to make region segmentation, also makes combination of Q learning and Upper Confidence Bound Apply to Tree of Monte Carlo exploring method to train the team players. While using the evaluated value of the training results as optimizedcompetition codes, and team’s defensive ability has been improved enormously in this way.

        robocup2D simulation; Monte Carlo tree search; Q-learning; action selection

        TP391

        A

        10.19358/j.issn.1674- 7720.2017.23.015

        柴偉凡,梁志偉,夏晨曦.基于蒙特卡洛樹搜索的仿真足球防守策略研究[J].微型機(jī)與應(yīng)用,2017,36(23):50-53,57.

        江蘇省自然科學(xué)基金(BK2012832)

        2017-05-01)

        柴偉凡(1991-),通信作者,男,碩士,主要研究方向:智能機(jī)器人理論與技術(shù)。E-mail:chaiwb911@sina.com。

        梁志偉(1980-),男,博士,副教授,主要研究方向:智能機(jī)器人理論與技術(shù)。

        夏晨曦(1995-),男,學(xué)士,主要研究方向:信息安全。

        猜你喜歡
        蒙特卡洛搜索算法球隊(duì)
        一道美國(guó)數(shù)學(xué)競(jìng)賽題的推廣
        改進(jìn)的和聲搜索算法求解凸二次規(guī)劃及線性規(guī)劃
        征服蒙特卡洛賽道
        菜鳥球隊(duì)菜鳥兵
        NBA特刊(2018年14期)2018-08-13 08:51:50
        利用控制變量方法縮減蒙特卡洛方差
        這些球隊(duì)為什么拿不到總冠軍?
        NBA特刊(2016年7期)2016-09-10 03:54:20
        蒙特卡洛模擬法計(jì)算電動(dòng)汽車充電負(fù)荷
        基于蒙特卡洛的非線性約束條件下的優(yōu)化算法研究
        基于汽車接力的潮流轉(zhuǎn)移快速搜索算法
        基于逐維改進(jìn)的自適應(yīng)步長(zhǎng)布谷鳥搜索算法
        亚洲av鲁丝一区二区三区| 日韩精品中文一区二区三区在线 | 色综合久久丁香婷婷| 乱中年女人伦av三区| 国产美女高潮流的白浆久久| 亚洲男人综合久久综合天堂| 亚洲av无码乱码在线观看裸奔 | 亚洲国产一区二区三区在线视频| 日本在线一区二区在线| 日本一级片一区二区三区| av在线观看一区二区三区| 精品日产卡一卡二卡国色天香| 日本成人一区二区三区| 国产9 9在线 | 免费| 国产人妻久久精品二区三区老狼 | 欧美freesex黑人又粗又大| 不卡无毒免费毛片视频观看| 日本精品一区二区三区在线播放| 日本高清一道本一区二区| 女人被狂c躁到高潮视频| 亚洲日韩一区二区一无码| 粗一硬一长一进一爽一a视频| 亚洲高清中文字幕视频| 久久国内精品自在自线图片| 精品久久久久久久无码| 日本一区二区国产高清在线播放| 亚洲综合在线观看一区二区三区| 日本一卡二卡3卡四卡免费观影2022| 久久精品国产亚洲一区二区| 99国产小视频| 精品av一区二区在线| 日本一本免费一二区| 粗大猛烈进出高潮视频| 综合无码一区二区三区四区五区 | 久久久精品久久波多野结衣av| 亚洲人成影院在线高清| 精品蜜臀国产av一区二区| 强开小婷嫩苞又嫩又紧视频| 亚洲精品久久国产高清情趣图文| 久久99精品这里精品动漫6| 蜜桃视频在线免费视频|