亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

增強(qiáng)學(xué)習(xí)基本模型及其分析

2018-04-03 07:11:13北京市延慶區(qū)第一中學(xué)李子韓

電子世界 2018年5期

北京市延慶區(qū)第一中學(xué)　李子韓

1.概述

總所周知的，機(jī)器學(xué)習(xí)主要有監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)以及增強(qiáng)學(xué)習(xí)四類(lèi)。一般具有規(guī)則性的行為，我們可以通過(guò)監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)，使智能體習(xí)得并掌握這些行為。然而對(duì)于一些序列決策或者控制問(wèn)題，就需要用到增強(qiáng)學(xué)。增強(qiáng)學(xué)習(xí)，主要關(guān)注的是智能體和環(huán)境之間的交互問(wèn)題，智能體通過(guò)增強(qiáng)學(xué)習(xí)，可以在當(dāng)前的狀態(tài)下挑選出一個(gè)當(dāng)前回報(bào)最高的決策，通過(guò)執(zhí)行當(dāng)前挑選的最優(yōu)決策，達(dá)到下一個(gè)狀態(tài)，如此往復(fù)，通過(guò)執(zhí)行一系列的決策，從而獲得最終最優(yōu)的累積回報(bào)。

例如，為了指導(dǎo)小狗學(xué)會(huì)一項(xiàng)新技能這一任務(wù)，我們不能告訴小狗它應(yīng)該去做什么，但是我們可以在小狗做出動(dòng)作后，判讀動(dòng)作是否正確，如果動(dòng)作正確，則給予獎(jiǎng)勵(lì)；如果動(dòng)作錯(cuò)誤，則給予懲罰。經(jīng)過(guò)一系列類(lèi)似的訓(xùn)練之后，小狗就可以學(xué)習(xí)到它做出哪些動(dòng)作后會(huì)得到獎(jiǎng)勵(lì)，做出哪些動(dòng)作后會(huì)得到懲罰。類(lèi)似地，我們同樣可以在控制問(wèn)題中，使用相同的方法訓(xùn)練智能體學(xué)習(xí)如何做出決策，獲得最大的累積回報(bào)，從而達(dá)到?jīng)Q策優(yōu)化的目的。再以曾經(jīng)風(fēng)靡全球的游戲《神廟逃亡》為例。我們的目的是讓智能體學(xué)會(huì)這款游戲的玩法，但因?yàn)橛螒虻穆肪€是隨機(jī)的，所以如果我們直接給其輸入某一固定的路線，是達(dá)不到令其學(xué)會(huì)的這一效果的。此時(shí)應(yīng)用到增強(qiáng)學(xué)習(xí)，訓(xùn)練智能體學(xué)習(xí)如何作出決策，獲得最大的累計(jì)回報(bào)，即檢測(cè)到某一的障礙，智能體會(huì)作出選擇，如果在操作后游戲人物死亡，則否定上一步操作；如果游戲繼續(xù)，則記錄此操作，并于下次檢測(cè)到同樣障礙時(shí)作出相同的操作。經(jīng)過(guò)多次否定和記錄，最終智能體可以學(xué)會(huì)這款游戲的玩法。

圖1　《神廟逃亡》游戲操作界面

2.增強(qiáng)學(xué)習(xí)的發(fā)展與應(yīng)用

近些年來(lái)，增強(qiáng)學(xué)習(xí)的研究取得了豐碩的成果，對(duì)增強(qiáng)學(xué)習(xí)的研究主要集中在增強(qiáng)學(xué)習(xí)的理論、增強(qiáng)學(xué)習(xí)的算法以及增強(qiáng)學(xué)習(xí)的應(yīng)用這三個(gè)方面[1]。具體的介紹如下：（1）增強(qiáng)學(xué)習(xí)理論：時(shí)序差分學(xué)習(xí)的收斂性、表格型強(qiáng)化學(xué)習(xí)的收斂性、強(qiáng)化學(xué)習(xí)的泛化方法。研究的主要內(nèi)容是算法的收斂性等基礎(chǔ)理論，比如：時(shí)序差分學(xué)習(xí)的收斂性，表格型增強(qiáng)學(xué)習(xí)的收斂性等等。（2）增強(qiáng)學(xué)習(xí)算法：增強(qiáng)學(xué)習(xí)可以分為非聯(lián)想增強(qiáng)學(xué)習(xí)和聯(lián)想增強(qiáng)學(xué)習(xí)。比較經(jīng)典的算法有：折扣型回報(bào)指標(biāo)強(qiáng)化學(xué)習(xí)算法、Q-學(xué)習(xí)算法、Sarsa學(xué)習(xí)算法等等。（3）增強(qiáng)學(xué)習(xí)應(yīng)用：增強(qiáng)學(xué)習(xí)是一種不依賴(lài)于環(huán)境模型和先驗(yàn)知識(shí)的機(jī)器學(xué)習(xí)方法，通過(guò)試錯(cuò)和延時(shí)回報(bào)機(jī)制，結(jié)合自適應(yīng)動(dòng)態(tài)規(guī)劃方法，能夠不斷優(yōu)化控制策略，為系統(tǒng)自適應(yīng)外界環(huán)境變化提供了可行方案。通過(guò)將系統(tǒng)建模成馬氏決策過(guò)程，在自動(dòng)控制領(lǐng)域，增強(qiáng)學(xué)習(xí)方法已成功地實(shí)現(xiàn)了單個(gè)機(jī)器人的優(yōu)化控制[2]、多機(jī)器人系統(tǒng)并行控制等等[3]；如在博弈決策領(lǐng)域，人們利用增強(qiáng)學(xué)習(xí)方法，已經(jīng)成功了開(kāi)發(fā)出阿爾法狗——人工智能?chē)宄绦蛞约靶请H爭(zhēng)霸計(jì)算機(jī)模擬程序等等，此外增強(qiáng)學(xué)習(xí)方法在比如自動(dòng)直升機(jī)、手機(jī)網(wǎng)絡(luò)路由、市場(chǎng)決策、工業(yè)控制、高效網(wǎng)頁(yè)索引、優(yōu)化和調(diào)度等領(lǐng)域都取得了巨大的成功。

3.增強(qiáng)學(xué)習(xí)的數(shù)學(xué)模型

首先，基于增強(qiáng)學(xué)習(xí)問(wèn)題建立如下模型（為了便于問(wèn)題的簡(jiǎn)化，我們這里建立的環(huán)境和智能體的模型都是具有隨機(jī)、有限狀態(tài)性質(zhì)的模型）。如圖2所示。

圖2　簡(jiǎn)單的增強(qiáng)學(xué)習(xí)模型

馬爾可夫動(dòng)態(tài)過(guò)程可以進(jìn)一步表示如下：

上述流程圖表示智能體在狀態(tài)s0下選擇執(zhí)行某個(gè)動(dòng)作a0，智能體按照概率Ps0a0隨機(jī)轉(zhuǎn)移到下一個(gè)s1狀態(tài)，然后再執(zhí)行一個(gè)動(dòng)作a1，智能體按照概率值Ps1a1轉(zhuǎn)移到下一個(gè)s2狀態(tài)，如此往復(fù)地進(jìn)行動(dòng)作執(zhí)行和狀態(tài)轉(zhuǎn)移這兩個(gè)過(guò)程，直達(dá)到達(dá)最終的終止?fàn)顟B(tài)或者到達(dá)最大的狀態(tài)轉(zhuǎn)移步數(shù)。

智能體的目標(biāo)是學(xué)習(xí)找到一個(gè)馬爾可夫策略，即一個(gè)從狀態(tài)空間到動(dòng)作空間的映射關(guān)系（，表示在當(dāng)前狀態(tài)s下，智能體會(huì)根據(jù)策略π選擇執(zhí)行動(dòng)作a），從而最大化折扣回報(bào)加權(quán)和的期望。在馬爾科夫決策過(guò)程中，如果智能體的起始狀態(tài)記為s0，此時(shí)智能體根據(jù)策略π選擇執(zhí)行下一個(gè)動(dòng)作a0，執(zhí)行后智能體的狀態(tài)轉(zhuǎn)移到s1，然后智能體繼續(xù)根據(jù)策略π選擇執(zhí)行下一個(gè)動(dòng)作a1，執(zhí)行后智能體的狀態(tài)轉(zhuǎn)移到s2，按照這種方式執(zhí)行下去，我們可以得到從起始狀態(tài)s開(kāi)始，所有過(guò)程中回報(bào)函數(shù)的期望和：

我們把（1）式中定義的期望函數(shù)Vπ(s)，稱(chēng)為在起始狀態(tài)s下，在給定的策略π下的價(jià)值函數(shù)（value function）。與價(jià)值函數(shù)非常類(lèi)似的另外一個(gè)函數(shù)便是Q函數(shù)（Q-function），給定策略π，它的Q函數(shù)定義為：從一個(gè)給定的起始狀態(tài)s開(kāi)始，首先采取一個(gè)指定的動(dòng)作a，然后根據(jù)策略π采取后續(xù)動(dòng)作得到的所有回報(bào)函數(shù)的期望和：

從遞推的角度來(lái)看，我們可以進(jìn)一步把上述（1）式子寫(xiě)成：

因此，上述找最優(yōu)馬爾可夫策略π的問(wèn)題可以形式化為求解下述問(wèn)題——求解最大化V*(s)：

同樣地，我們可以把Q函數(shù)寫(xiě)成上面的表達(dá)形式：

同樣，我們定義最優(yōu)的Q函數(shù)如下：

通過(guò)求解上述式子（6），我們可以得到最優(yōu)的決策策略π*和最大的累積回報(bào)值。

4.全文總結(jié)

通過(guò)本文的介紹，我們大致了解了增強(qiáng)學(xué)習(xí)的基本概念、增強(qiáng)學(xué)習(xí)適用于解決哪些問(wèn)題，增強(qiáng)學(xué)習(xí)的研究領(lǐng)域及主要的應(yīng)用領(lǐng)域，最后我們通過(guò)建立并且簡(jiǎn)單地推導(dǎo)增強(qiáng)學(xué)習(xí)中最簡(jiǎn)單的數(shù)學(xué)模型——隱馬爾科夫模型，加深了對(duì)增強(qiáng)學(xué)習(xí)模型的理解，即增強(qiáng)學(xué)習(xí)是通過(guò)不斷地試錯(cuò)，學(xué)習(xí)到一組最優(yōu)的決策策略，從而獲得最終最大的累積回報(bào)的學(xué)習(xí)過(guò)程。

增強(qiáng)學(xué)習(xí)在許多應(yīng)用領(lǐng)域都取得了巨大的進(jìn)展，我們有理由相信，增強(qiáng)學(xué)習(xí)在今后的發(fā)展中，將會(huì)進(jìn)一步推動(dòng)人工智能領(lǐng)域的發(fā)展，給我們的生產(chǎn)生活帶來(lái)極大的便利。

[1]陳學(xué)松,楊宜民. 強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):2834-2838.

[2]吳軍,徐昕,王健等.面向多機(jī)器人系統(tǒng)的增強(qiáng)學(xué)習(xí)研究進(jìn)展綜述[J].控制與決策,2011,26(11):1601-1610.

[3]秦志斌,錢(qián)徽,朱淼良.自主移動(dòng)機(jī)器人混合式體系結(jié)構(gòu)的一種Multi-agent實(shí)現(xiàn)方法[J].機(jī)器人,2006,28(5):478-482.