亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        增強(qiáng)學(xué)習(xí)基本模型及其分析

        2018-04-03 07:11:13北京市延慶區(qū)第一中學(xué)李子韓
        電子世界 2018年5期
        關(guān)鍵詞:收斂性決策狀態(tài)

        北京市延慶區(qū)第一中學(xué) 李子韓

        1.概述

        總所周知的,機(jī)器學(xué)習(xí)主要有監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)以及增強(qiáng)學(xué)習(xí)四類(lèi)。一般具有規(guī)則性的行為,我們可以通過(guò)監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),使智能體習(xí)得并掌握這些行為。然而對(duì)于一些序列決策或者控制問(wèn)題,就需要用到增強(qiáng)學(xué)。增強(qiáng)學(xué)習(xí),主要關(guān)注的是智能體和環(huán)境之間的交互問(wèn)題,智能體通過(guò)增強(qiáng)學(xué)習(xí),可以在當(dāng)前的狀態(tài)下挑選出一個(gè)當(dāng)前回報(bào)最高的決策,通過(guò)執(zhí)行當(dāng)前挑選的最優(yōu)決策,達(dá)到下一個(gè)狀態(tài),如此往復(fù),通過(guò)執(zhí)行一系列的決策,從而獲得最終最優(yōu)的累積回報(bào)。

        例如,為了指導(dǎo)小狗學(xué)會(huì)一項(xiàng)新技能這一任務(wù),我們不能告訴小狗它應(yīng)該去做什么,但是我們可以在小狗做出動(dòng)作后,判讀動(dòng)作是否正確,如果動(dòng)作正確,則給予獎(jiǎng)勵(lì);如果動(dòng)作錯(cuò)誤,則給予懲罰。經(jīng)過(guò)一系列類(lèi)似的訓(xùn)練之后,小狗就可以學(xué)習(xí)到它做出哪些動(dòng)作后會(huì)得到獎(jiǎng)勵(lì),做出哪些動(dòng)作后會(huì)得到懲罰。類(lèi)似地,我們同樣可以在控制問(wèn)題中,使用相同的方法訓(xùn)練智能體學(xué)習(xí)如何做出決策,獲得最大的累積回報(bào),從而達(dá)到?jīng)Q策優(yōu)化的目的。再以曾經(jīng)風(fēng)靡全球的游戲《神廟逃亡》為例。我們的目的是讓智能體學(xué)會(huì)這款游戲的玩法,但因?yàn)橛螒虻穆肪€是隨機(jī)的,所以如果我們直接給其輸入某一固定的路線,是達(dá)不到令其學(xué)會(huì)的這一效果的。此時(shí)應(yīng)用到增強(qiáng)學(xué)習(xí),訓(xùn)練智能體學(xué)習(xí)如何作出決策,獲得最大的累計(jì)回報(bào),即檢測(cè)到某一的障礙,智能體會(huì)作出選擇,如果在操作后游戲人物死亡,則否定上一步操作;如果游戲繼續(xù),則記錄此操作,并于下次檢測(cè)到同樣障礙時(shí)作出相同的操作。經(jīng)過(guò)多次否定和記錄,最終智能體可以學(xué)會(huì)這款游戲的玩法。

        圖1 《神廟逃亡》游戲操作界面

        2.增強(qiáng)學(xué)習(xí)的發(fā)展與應(yīng)用

        近些年來(lái),增強(qiáng)學(xué)習(xí)的研究取得了豐碩的成果,對(duì)增強(qiáng)學(xué)習(xí)的研究主要集中在增強(qiáng)學(xué)習(xí)的理論、增強(qiáng)學(xué)習(xí)的算法以及增強(qiáng)學(xué)習(xí)的應(yīng)用這三個(gè)方面[1]。具體的介紹如下:(1)增強(qiáng)學(xué)習(xí)理論:時(shí)序差分學(xué)習(xí)的收斂性、表格型強(qiáng)化學(xué)習(xí)的收斂性、強(qiáng)化學(xué)習(xí)的泛化方法。研究的主要內(nèi)容是算法的收斂性等基礎(chǔ)理論,比如:時(shí)序差分學(xué)習(xí)的收斂性,表格型增強(qiáng)學(xué)習(xí)的收斂性等等。(2)增強(qiáng)學(xué)習(xí)算法:增強(qiáng)學(xué)習(xí)可以分為非聯(lián)想增強(qiáng)學(xué)習(xí)和聯(lián)想增強(qiáng)學(xué)習(xí)。比較經(jīng)典的算法有:折扣型回報(bào)指標(biāo)強(qiáng)化學(xué)習(xí)算法、Q-學(xué)習(xí)算法、Sarsa學(xué)習(xí)算法等等。(3)增強(qiáng)學(xué)習(xí)應(yīng)用:增強(qiáng)學(xué)習(xí)是一種不依賴(lài)于環(huán)境模型和先驗(yàn)知識(shí)的機(jī)器學(xué)習(xí)方法,通過(guò)試錯(cuò)和延時(shí)回報(bào)機(jī)制,結(jié)合自適應(yīng)動(dòng)態(tài)規(guī)劃方法,能夠不斷優(yōu)化控制策略,為系統(tǒng)自適應(yīng)外界環(huán)境變化提供了可行方案。通過(guò)將系統(tǒng)建模成馬氏決策過(guò)程,在自動(dòng)控制領(lǐng)域,增強(qiáng)學(xué)習(xí)方法已成功地實(shí)現(xiàn)了單個(gè)機(jī)器人的優(yōu)化控制[2]、多機(jī)器人系統(tǒng)并行控制等等[3];如在博弈決策領(lǐng)域,人們利用增強(qiáng)學(xué)習(xí)方法,已經(jīng)成功了開(kāi)發(fā)出阿爾法狗——人工智能?chē)宄绦蛞约靶请H爭(zhēng)霸計(jì)算機(jī)模擬程序等等,此外增強(qiáng)學(xué)習(xí)方法在比如自動(dòng)直升機(jī)、手機(jī)網(wǎng)絡(luò)路由、市場(chǎng)決策、工業(yè)控制、高效網(wǎng)頁(yè)索引、優(yōu)化和調(diào)度等領(lǐng)域都取得了巨大的成功。

        3.增強(qiáng)學(xué)習(xí)的數(shù)學(xué)模型

        首先,基于增強(qiáng)學(xué)習(xí)問(wèn)題建立如下模型(為了便于問(wèn)題的簡(jiǎn)化,我們這里建立的環(huán)境和智能體的模型都是具有隨機(jī)、有限狀態(tài)性質(zhì)的模型)。如圖2所示。

        圖2 簡(jiǎn)單的增強(qiáng)學(xué)習(xí)模型

        馬爾可夫動(dòng)態(tài)過(guò)程可以進(jìn)一步表示如下:

        上述流程圖表示智能體在狀態(tài)s0下選擇執(zhí)行某個(gè)動(dòng)作a0,智能體按照概率Ps0a0隨機(jī)轉(zhuǎn)移到下一個(gè)s1狀態(tài),然后再執(zhí)行一個(gè)動(dòng)作a1,智能體按照概率值Ps1a1轉(zhuǎn)移到下一個(gè)s2狀態(tài),如此往復(fù)地進(jìn)行動(dòng)作執(zhí)行和狀態(tài)轉(zhuǎn)移這兩個(gè)過(guò)程,直達(dá)到達(dá)最終的終止?fàn)顟B(tài)或者到達(dá)最大的狀態(tài)轉(zhuǎn)移步數(shù)。

        智能體的目標(biāo)是學(xué)習(xí)找到一個(gè)馬爾可夫策略,即一個(gè)從狀態(tài)空間到動(dòng)作空間的映射關(guān)系(,表示在當(dāng)前狀態(tài)s下,智能體會(huì)根據(jù)策略π選擇執(zhí)行動(dòng)作a),從而最大化折扣回報(bào)加權(quán)和的期望。在馬爾科夫決策過(guò)程中,如果智能體的起始狀態(tài)記為s0,此時(shí)智能體根據(jù)策略π選擇執(zhí)行下一個(gè)動(dòng)作a0,執(zhí)行后智能體的狀態(tài)轉(zhuǎn)移到s1,然后智能體繼續(xù)根據(jù)策略π選擇執(zhí)行下一個(gè)動(dòng)作a1,執(zhí)行后智能體的狀態(tài)轉(zhuǎn)移到s2,按照這種方式執(zhí)行下去,我們可以得到從起始狀態(tài)s開(kāi)始,所有過(guò)程中回報(bào)函數(shù)的期望和:

        我們把(1)式中定義的期望函數(shù)Vπ(s),稱(chēng)為在起始狀態(tài)s下,在給定的策略π下的價(jià)值函數(shù)(value function)。與價(jià)值函數(shù)非常類(lèi)似的另外一個(gè)函數(shù)便是Q函數(shù)(Q-function),給定策略π,它的Q函數(shù)定義為:從一個(gè)給定的起始狀態(tài)s開(kāi)始,首先采取一個(gè)指定的動(dòng)作a,然后根據(jù)策略π采取后續(xù)動(dòng)作得到的所有回報(bào)函數(shù)的期望和:

        從遞推的角度來(lái)看,我們可以進(jìn)一步把上述(1)式子寫(xiě)成:

        因此,上述找最優(yōu)馬爾可夫策略π的問(wèn)題可以形式化為求解下述問(wèn)題——求解最大化V*(s):

        同樣地,我們可以把Q函數(shù)寫(xiě)成上面的表達(dá)形式:

        同樣,我們定義最優(yōu)的Q函數(shù)如下:

        通過(guò)求解上述式子(6),我們可以得到最優(yōu)的決策策略π*和最大的累積回報(bào)值。

        4.全文總結(jié)

        通過(guò)本文的介紹,我們大致了解了增強(qiáng)學(xué)習(xí)的基本概念、增強(qiáng)學(xué)習(xí)適用于解決哪些問(wèn)題,增強(qiáng)學(xué)習(xí)的研究領(lǐng)域及主要的應(yīng)用領(lǐng)域,最后我們通過(guò)建立并且簡(jiǎn)單地推導(dǎo)增強(qiáng)學(xué)習(xí)中最簡(jiǎn)單的數(shù)學(xué)模型——隱馬爾科夫模型,加深了對(duì)增強(qiáng)學(xué)習(xí)模型的理解,即增強(qiáng)學(xué)習(xí)是通過(guò)不斷地試錯(cuò),學(xué)習(xí)到一組最優(yōu)的決策策略,從而獲得最終最大的累積回報(bào)的學(xué)習(xí)過(guò)程。

        增強(qiáng)學(xué)習(xí)在許多應(yīng)用領(lǐng)域都取得了巨大的進(jìn)展,我們有理由相信,增強(qiáng)學(xué)習(xí)在今后的發(fā)展中,將會(huì)進(jìn)一步推動(dòng)人工智能領(lǐng)域的發(fā)展,給我們的生產(chǎn)生活帶來(lái)極大的便利。

        [1]陳學(xué)松,楊宜民. 強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):2834-2838.

        [2]吳軍,徐昕,王健等.面向多機(jī)器人系統(tǒng)的增強(qiáng)學(xué)習(xí)研究進(jìn)展綜述[J].控制與決策,2011,26(11):1601-1610.

        [3]秦志斌,錢(qián)徽,朱淼良.自主移動(dòng)機(jī)器人混合式體系結(jié)構(gòu)的一種Multi-agent實(shí)現(xiàn)方法[J].機(jī)器人,2006,28(5):478-482.

        猜你喜歡
        收斂性決策狀態(tài)
        為可持續(xù)決策提供依據(jù)
        Lp-混合陣列的Lr收斂性
        狀態(tài)聯(lián)想
        決策為什么失誤了
        生命的另一種狀態(tài)
        END隨機(jī)變量序列Sung型加權(quán)和的矩完全收斂性
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅(jiān)持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        行為ND隨機(jī)變量陣列加權(quán)和的完全收斂性
        松弛型二級(jí)多分裂法的上松弛收斂性
        日韩字幕无线乱码免费| 国产露脸精品产三级国产av| 国产免费av片在线观看播放| 国产精品久久夜伦鲁鲁| 亚洲国产福利成人一区二区| 精品丝袜一区二区三区性色| 黄色影院不卡一区二区| 四川丰满妇女毛片四川话| 八区精品色欲人妻综合网| aⅴ色综合久久天堂av色综合| 人妖啪啪综合av一区| 亚洲av网一区二区三区| 亚洲成在人线av| 亚洲一区二区三区在线中文| 男人天堂亚洲天堂av| 亚洲啪av永久无码精品放毛片| 国产成人精品精品欧美| 中文字幕一区二区三区喷水| 伊人中文字幕亚洲精品乱码| 99精品国产99久久久久久97| 麻豆密入视频在线观看| 日韩中文字幕在线丰满| 大学生粉嫩无套流白浆| 亚洲人成网站在线观看播放| 亚洲国产日韩av一区二区| 开心五月天第四色婷婷| 色一情一乱一乱一区99av| 亚洲国产精品500在线观看| 亚洲第一页综合av免费在线观看 | 美女脱了内裤洗澡视频| 最新中文字幕av无码不卡| 亚洲一区二区在线| 97超碰中文字幕久久| 超碰人人超碰人人| 日本大片免费观看完整视频| 国产真实二区一区在线亚洲| 日韩女同视频在线网站| 亚洲精品无码成人片久久不卡| 无码专区亚洲avl| 亚洲熟妇av一区二区在线观看 | 日韩精品有码在线视频|