亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        增強(qiáng)學(xué)習(xí)基本模型及其分析

        2018-04-03 07:11:13北京市延慶區(qū)第一中學(xué)李子韓
        電子世界 2018年5期
        關(guān)鍵詞:收斂性決策狀態(tài)

        北京市延慶區(qū)第一中學(xué) 李子韓

        1.概述

        總所周知的,機(jī)器學(xué)習(xí)主要有監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)以及增強(qiáng)學(xué)習(xí)四類(lèi)。一般具有規(guī)則性的行為,我們可以通過(guò)監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),使智能體習(xí)得并掌握這些行為。然而對(duì)于一些序列決策或者控制問(wèn)題,就需要用到增強(qiáng)學(xué)。增強(qiáng)學(xué)習(xí),主要關(guān)注的是智能體和環(huán)境之間的交互問(wèn)題,智能體通過(guò)增強(qiáng)學(xué)習(xí),可以在當(dāng)前的狀態(tài)下挑選出一個(gè)當(dāng)前回報(bào)最高的決策,通過(guò)執(zhí)行當(dāng)前挑選的最優(yōu)決策,達(dá)到下一個(gè)狀態(tài),如此往復(fù),通過(guò)執(zhí)行一系列的決策,從而獲得最終最優(yōu)的累積回報(bào)。

        例如,為了指導(dǎo)小狗學(xué)會(huì)一項(xiàng)新技能這一任務(wù),我們不能告訴小狗它應(yīng)該去做什么,但是我們可以在小狗做出動(dòng)作后,判讀動(dòng)作是否正確,如果動(dòng)作正確,則給予獎(jiǎng)勵(lì);如果動(dòng)作錯(cuò)誤,則給予懲罰。經(jīng)過(guò)一系列類(lèi)似的訓(xùn)練之后,小狗就可以學(xué)習(xí)到它做出哪些動(dòng)作后會(huì)得到獎(jiǎng)勵(lì),做出哪些動(dòng)作后會(huì)得到懲罰。類(lèi)似地,我們同樣可以在控制問(wèn)題中,使用相同的方法訓(xùn)練智能體學(xué)習(xí)如何做出決策,獲得最大的累積回報(bào),從而達(dá)到?jīng)Q策優(yōu)化的目的。再以曾經(jīng)風(fēng)靡全球的游戲《神廟逃亡》為例。我們的目的是讓智能體學(xué)會(huì)這款游戲的玩法,但因?yàn)橛螒虻穆肪€是隨機(jī)的,所以如果我們直接給其輸入某一固定的路線,是達(dá)不到令其學(xué)會(huì)的這一效果的。此時(shí)應(yīng)用到增強(qiáng)學(xué)習(xí),訓(xùn)練智能體學(xué)習(xí)如何作出決策,獲得最大的累計(jì)回報(bào),即檢測(cè)到某一的障礙,智能體會(huì)作出選擇,如果在操作后游戲人物死亡,則否定上一步操作;如果游戲繼續(xù),則記錄此操作,并于下次檢測(cè)到同樣障礙時(shí)作出相同的操作。經(jīng)過(guò)多次否定和記錄,最終智能體可以學(xué)會(huì)這款游戲的玩法。

        圖1 《神廟逃亡》游戲操作界面

        2.增強(qiáng)學(xué)習(xí)的發(fā)展與應(yīng)用

        近些年來(lái),增強(qiáng)學(xué)習(xí)的研究取得了豐碩的成果,對(duì)增強(qiáng)學(xué)習(xí)的研究主要集中在增強(qiáng)學(xué)習(xí)的理論、增強(qiáng)學(xué)習(xí)的算法以及增強(qiáng)學(xué)習(xí)的應(yīng)用這三個(gè)方面[1]。具體的介紹如下:(1)增強(qiáng)學(xué)習(xí)理論:時(shí)序差分學(xué)習(xí)的收斂性、表格型強(qiáng)化學(xué)習(xí)的收斂性、強(qiáng)化學(xué)習(xí)的泛化方法。研究的主要內(nèi)容是算法的收斂性等基礎(chǔ)理論,比如:時(shí)序差分學(xué)習(xí)的收斂性,表格型增強(qiáng)學(xué)習(xí)的收斂性等等。(2)增強(qiáng)學(xué)習(xí)算法:增強(qiáng)學(xué)習(xí)可以分為非聯(lián)想增強(qiáng)學(xué)習(xí)和聯(lián)想增強(qiáng)學(xué)習(xí)。比較經(jīng)典的算法有:折扣型回報(bào)指標(biāo)強(qiáng)化學(xué)習(xí)算法、Q-學(xué)習(xí)算法、Sarsa學(xué)習(xí)算法等等。(3)增強(qiáng)學(xué)習(xí)應(yīng)用:增強(qiáng)學(xué)習(xí)是一種不依賴(lài)于環(huán)境模型和先驗(yàn)知識(shí)的機(jī)器學(xué)習(xí)方法,通過(guò)試錯(cuò)和延時(shí)回報(bào)機(jī)制,結(jié)合自適應(yīng)動(dòng)態(tài)規(guī)劃方法,能夠不斷優(yōu)化控制策略,為系統(tǒng)自適應(yīng)外界環(huán)境變化提供了可行方案。通過(guò)將系統(tǒng)建模成馬氏決策過(guò)程,在自動(dòng)控制領(lǐng)域,增強(qiáng)學(xué)習(xí)方法已成功地實(shí)現(xiàn)了單個(gè)機(jī)器人的優(yōu)化控制[2]、多機(jī)器人系統(tǒng)并行控制等等[3];如在博弈決策領(lǐng)域,人們利用增強(qiáng)學(xué)習(xí)方法,已經(jīng)成功了開(kāi)發(fā)出阿爾法狗——人工智能?chē)宄绦蛞约靶请H爭(zhēng)霸計(jì)算機(jī)模擬程序等等,此外增強(qiáng)學(xué)習(xí)方法在比如自動(dòng)直升機(jī)、手機(jī)網(wǎng)絡(luò)路由、市場(chǎng)決策、工業(yè)控制、高效網(wǎng)頁(yè)索引、優(yōu)化和調(diào)度等領(lǐng)域都取得了巨大的成功。

        3.增強(qiáng)學(xué)習(xí)的數(shù)學(xué)模型

        首先,基于增強(qiáng)學(xué)習(xí)問(wèn)題建立如下模型(為了便于問(wèn)題的簡(jiǎn)化,我們這里建立的環(huán)境和智能體的模型都是具有隨機(jī)、有限狀態(tài)性質(zhì)的模型)。如圖2所示。

        圖2 簡(jiǎn)單的增強(qiáng)學(xué)習(xí)模型

        馬爾可夫動(dòng)態(tài)過(guò)程可以進(jìn)一步表示如下:

        上述流程圖表示智能體在狀態(tài)s0下選擇執(zhí)行某個(gè)動(dòng)作a0,智能體按照概率Ps0a0隨機(jī)轉(zhuǎn)移到下一個(gè)s1狀態(tài),然后再執(zhí)行一個(gè)動(dòng)作a1,智能體按照概率值Ps1a1轉(zhuǎn)移到下一個(gè)s2狀態(tài),如此往復(fù)地進(jìn)行動(dòng)作執(zhí)行和狀態(tài)轉(zhuǎn)移這兩個(gè)過(guò)程,直達(dá)到達(dá)最終的終止?fàn)顟B(tài)或者到達(dá)最大的狀態(tài)轉(zhuǎn)移步數(shù)。

        智能體的目標(biāo)是學(xué)習(xí)找到一個(gè)馬爾可夫策略,即一個(gè)從狀態(tài)空間到動(dòng)作空間的映射關(guān)系(,表示在當(dāng)前狀態(tài)s下,智能體會(huì)根據(jù)策略π選擇執(zhí)行動(dòng)作a),從而最大化折扣回報(bào)加權(quán)和的期望。在馬爾科夫決策過(guò)程中,如果智能體的起始狀態(tài)記為s0,此時(shí)智能體根據(jù)策略π選擇執(zhí)行下一個(gè)動(dòng)作a0,執(zhí)行后智能體的狀態(tài)轉(zhuǎn)移到s1,然后智能體繼續(xù)根據(jù)策略π選擇執(zhí)行下一個(gè)動(dòng)作a1,執(zhí)行后智能體的狀態(tài)轉(zhuǎn)移到s2,按照這種方式執(zhí)行下去,我們可以得到從起始狀態(tài)s開(kāi)始,所有過(guò)程中回報(bào)函數(shù)的期望和:

        我們把(1)式中定義的期望函數(shù)Vπ(s),稱(chēng)為在起始狀態(tài)s下,在給定的策略π下的價(jià)值函數(shù)(value function)。與價(jià)值函數(shù)非常類(lèi)似的另外一個(gè)函數(shù)便是Q函數(shù)(Q-function),給定策略π,它的Q函數(shù)定義為:從一個(gè)給定的起始狀態(tài)s開(kāi)始,首先采取一個(gè)指定的動(dòng)作a,然后根據(jù)策略π采取后續(xù)動(dòng)作得到的所有回報(bào)函數(shù)的期望和:

        從遞推的角度來(lái)看,我們可以進(jìn)一步把上述(1)式子寫(xiě)成:

        因此,上述找最優(yōu)馬爾可夫策略π的問(wèn)題可以形式化為求解下述問(wèn)題——求解最大化V*(s):

        同樣地,我們可以把Q函數(shù)寫(xiě)成上面的表達(dá)形式:

        同樣,我們定義最優(yōu)的Q函數(shù)如下:

        通過(guò)求解上述式子(6),我們可以得到最優(yōu)的決策策略π*和最大的累積回報(bào)值。

        4.全文總結(jié)

        通過(guò)本文的介紹,我們大致了解了增強(qiáng)學(xué)習(xí)的基本概念、增強(qiáng)學(xué)習(xí)適用于解決哪些問(wèn)題,增強(qiáng)學(xué)習(xí)的研究領(lǐng)域及主要的應(yīng)用領(lǐng)域,最后我們通過(guò)建立并且簡(jiǎn)單地推導(dǎo)增強(qiáng)學(xué)習(xí)中最簡(jiǎn)單的數(shù)學(xué)模型——隱馬爾科夫模型,加深了對(duì)增強(qiáng)學(xué)習(xí)模型的理解,即增強(qiáng)學(xué)習(xí)是通過(guò)不斷地試錯(cuò),學(xué)習(xí)到一組最優(yōu)的決策策略,從而獲得最終最大的累積回報(bào)的學(xué)習(xí)過(guò)程。

        增強(qiáng)學(xué)習(xí)在許多應(yīng)用領(lǐng)域都取得了巨大的進(jìn)展,我們有理由相信,增強(qiáng)學(xué)習(xí)在今后的發(fā)展中,將會(huì)進(jìn)一步推動(dòng)人工智能領(lǐng)域的發(fā)展,給我們的生產(chǎn)生活帶來(lái)極大的便利。

        [1]陳學(xué)松,楊宜民. 強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):2834-2838.

        [2]吳軍,徐昕,王健等.面向多機(jī)器人系統(tǒng)的增強(qiáng)學(xué)習(xí)研究進(jìn)展綜述[J].控制與決策,2011,26(11):1601-1610.

        [3]秦志斌,錢(qián)徽,朱淼良.自主移動(dòng)機(jī)器人混合式體系結(jié)構(gòu)的一種Multi-agent實(shí)現(xiàn)方法[J].機(jī)器人,2006,28(5):478-482.

        猜你喜歡
        收斂性決策狀態(tài)
        為可持續(xù)決策提供依據(jù)
        Lp-混合陣列的Lr收斂性
        狀態(tài)聯(lián)想
        決策為什么失誤了
        生命的另一種狀態(tài)
        END隨機(jī)變量序列Sung型加權(quán)和的矩完全收斂性
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅(jiān)持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        行為ND隨機(jī)變量陣列加權(quán)和的完全收斂性
        松弛型二級(jí)多分裂法的上松弛收斂性
        视频一区视频二区亚洲免费观看 | 真实国产乱视频国语| 久久99热精品免费观看麻豆| 亚洲欧美在线视频| 翘臀诱惑中文字幕人妻| 伊人情人色综合网站| 狠狠色成人综合网| 少妇高潮惨叫喷水在线观看| 亚洲色四在线视频观看| 黑丝美腿国产在线观看| 国模冰莲自慰肥美胞极品人体图| 国产欧美亚洲精品a| 日韩免费高清视频网站| 中文字幕久久熟女人妻av免费| 日本一区二区精品高清| av无码人妻中文字幕| 大陆一级毛片免费播放| 日韩av综合色区人妻| 无码专区一ⅴa亚洲v天堂| 无码精品人妻一区二区三区人妻斩| 亚洲AV无码未成人网站久久精品 | 亚洲AV一二三四区四色婷婷| 青青青草视频手机在线| 国产精品午夜福利视频234区| 人妻无码中文字幕| 亚洲精品免费专区| 无码人妻丝袜在线视频| 日韩精品中文字幕第二页| 久久久噜噜噜久久| 人人看人人做人人爱精品| 魔鬼身材极品女神在线| 极品粉嫩小仙女高潮喷水网站| 亚洲av天天做在线观看| 欧洲日韩视频二区在线| 开心五月激情五月天天五月五月天 | 亚洲tv精品一区二区三区| 欧美日韩精品| 国内自拍偷拍亚洲天堂| 成人一区二区三区激情视频| 7m精品福利视频导航| 被黑人做的白浆直流在线播放|