亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進強化學習的PID參數(shù)整定原理及應用

2014-03-05 08:23:27高瑞娟吳梅

現(xiàn)代電子技術(shù) 2014年4期

高瑞娟+吳梅

摘要：控制系統(tǒng)的響應特性取決于控制律參數(shù)，經(jīng)典的 PID 方法難以實現(xiàn)參數(shù)的自整定。強化學習能夠通過系統(tǒng)自身和環(huán)境的交互實現(xiàn)參數(shù)的自動調(diào)整，但是在控制律參數(shù)需要頻繁調(diào)整的應用場合，常規(guī)的強化學習方法無法滿足實時性要求，而且容易陷入局部收斂。對傳統(tǒng)的強化學習方法加以改進后，加快了在線學習速度，提高了強化學習算法的尋優(yōu)能力。仿真結(jié)果表明，該方法可以在一定范圍內(nèi)快速求得全局最優(yōu)解，提高控制系統(tǒng)的自適應性，為控制系統(tǒng)參數(shù)的自整定提供了依據(jù)。

關(guān)鍵字： PID；參數(shù)整定；強化學習；控制系統(tǒng)

中圖分類號： TN911?34 文獻標識碼： A 文章編號： 1004?373X（2014）04?0001?04

Principle and application of PID parameter tuning based on improved reinforcement learning

GAO Rui?juan， WU Mei

（College of Automation， Northwestern Polytechnical University， Xian 710129， China）

Abstract： The response characteristics of control system depend on the control law parameter.The classic PID method is difficult to achieve the parameter self?tuning.Through the interaction of system itself and the environment， parameters can be adjusted automatically by reinforcement learning.However， in the application occasions where the control law parameters requires to be adjusted frequently， the conventional reinforcement learning methods cannot meet the real?time requirements， and is easy to fall into local convergence.Based on the traditional reinforcement learning methods， an improvement method which can accelerate the learning speed and improve the optimizing ability of reinforcement learning algorithm is proposed.The simulation results show that this method can get global optimal solution quickly and improve the adaptivity of the control system in a certain range.It provided a basis for the improvement of control systems parameter self?tuning.

Keywords： PID； parameter tuning； reinforcement learning； control system

0 引言

在現(xiàn)代技術(shù)高速發(fā)展的今天，反饋的概念已被廣泛應用于自動控制理論中。測量，比較，執(zhí)行為反饋概念的三個基本要素。通常來說，輸入量先與測量量做比較，得到了系統(tǒng)誤差后，相應的指標將通過這個誤差來加以糾正和控制。在過去的幾十年里，反饋技術(shù)被廣泛運用于實踐中，其中，使用比例積分微分控制技術(shù)的發(fā)展是最為突出的。如今，在許多高級控制領(lǐng)域里，到處活躍著 PID控制的身影[1]。

一般的控制理論存在諸多問題（如理論難以實現(xiàn)，或被控對象參數(shù)不容易得到，或得不到精確數(shù)學模型），PID作為工業(yè)控制的主要技術(shù)，它可以一一解決，這與其優(yōu)良的性能是分不開的。它的結(jié)構(gòu)簡單，魯棒性好和工作可靠性高且調(diào)整方便。因此，如何高效地調(diào)整和優(yōu)化PID的控制參數(shù)成了人們競相研究的問題。目前，常用的PID控制算法有理論計算和工程整定兩類，其中，工程整定主要有：臨界比例法，反應曲線法和衰減法等。然而，在復雜控制系統(tǒng)設(shè)計中，由于參數(shù)優(yōu)化困難，PID的效果卻有待提高。因此，越來越多的人把目光轉(zhuǎn)向了自適應控制。如神經(jīng)網(wǎng)絡，模糊，進化等[1?2]。

本文在分析了各個研究成果的基礎(chǔ)上，針對基于強化學習的PID控制算法的收斂速度快，實時性好等優(yōu)點，提出了一種改進的強化算法的 PID 參數(shù)整定算法。通過改進強化學習算法對 PID 參數(shù)進行整定與尋優(yōu)，基于控制系統(tǒng)的性能具體要求，對各項動態(tài)指標進行了適當?shù)募訖?quán)，采用改進強化學習算法對PID的參數(shù)進行了全局多目標尋優(yōu)。其與傳統(tǒng)控制算法相比，在尋優(yōu)時間和參數(shù)調(diào)整上都有了很大的提高。

1 PID控制器

典型PID控制器原理圖如圖1所示[2?3]。

圖1 PID控制系統(tǒng)原理圖

圖中控制系統(tǒng)由控制器和被控對象及反饋回路組成。

PID控制器根據(jù)給定輸入值r（t）和實際輸出值y（t）之間的偏差[e（t）=r（t）-y（t）]，將其按照比例，積分，微分的形式，通過線性組合的方法構(gòu)成控制量，然后對被控對象進行控制，控制規(guī)律為[3]：

[u（t）=KPe（t）+1KI0Ietdt+KDde（t）dt] （1）

式中：[KP]是比例系數(shù)；[KI]是積分時間常數(shù)；[KD]是微分時間常數(shù)[2]。

在本文中，首先，串聯(lián)PID 控制器和被控對象將系統(tǒng)的型別提高了。其次，由于附帶兩個負實部的零點，使得系統(tǒng)的穩(wěn)定性和優(yōu)越性有了很大的提高。詳細原理為：積分的存在，導致 PID 控制系統(tǒng)消除誤差；微分存在，使得 PID 控制系統(tǒng)的動態(tài)性能指標超調(diào)量縮小了；從頻域的角度分析問題，由于低頻段和高頻段分別有積分和微分的作用亦滿足如上表述的內(nèi)容。

2 強化學習

強化學習（Reinforcement Learning，RL）是從統(tǒng)計學、心理學等相關(guān)學科發(fā)展而來的[4]，為人工智能領(lǐng)域一個古老又嶄新的課題。最早可以追溯到巴普洛夫的條件反射試驗。早在1911年，Tomdlike就提出了效果律，大體原理為：哪種行為會被動物“記住”，會與刺激建立聯(lián)系，取決于動物行為產(chǎn)生的效果，包括搜索和記憶兩層含義。1954年，Minsky將該知識運用于試錯學習。同年，Clark和Farley亦在此方向上展開過研究，他們建立了隨機學習模型。1957年，Bellman提出了動態(tài)規(guī)劃理論及著名的馬爾科夫決策過程。直到20世紀八九十年代，該技術(shù)才分別在人工智能和自動控制等領(lǐng)域中得到廣泛應用[5?6]。

在強化學習是一個不斷地“試探”?“評價”過程[2]。系統(tǒng)中，根據(jù)教師信號所提供的訓練信息，學習方法有如下三種分類：監(jiān)督學習（Supervised Learning、無監(jiān)督學習（Unsupervised Learning）和強化學習（Reinforcement Learning）[2，7]。

強化學習的基本框架如圖2所示[2，8]。

圖2 強化學習原理圖

強化學習與前兩種算法不同，環(huán)境產(chǎn)生的信號作為學習系統(tǒng)動作的評價指標，但是該信號不能立即反饋給系統(tǒng)如何才能產(chǎn)生正確動作。強化學習主要由RL兩部分組成：World（工作環(huán)境）和Agent（智能體）。智能體Agent又可以分成三個部分： P（策略單元）、I（輸入單元）和R（強化單元）。首先，輸入單元感知環(huán)境狀態(tài)后，采取一個動作作用于環(huán)境，環(huán)境給出一個強化信號，然后將它轉(zhuǎn)化為智能體的輸入；接著，強化單元將評價智能體所采取的動作[a（t）]，并將其反饋給強化學習系統(tǒng)，策略單元更新Agent當前已存儲的知識的，系統(tǒng)選擇下一個動作，其選擇原則是獎勵值最大 [2，6]。

智能體Agent與環(huán)境W的交互時，在每個時刻t會發(fā)生如下事件：

（1）智能體Agent感知時刻t的環(huán)境的狀態(tài)[s（t）]；

（2）根據(jù)當前的狀態(tài)[s（t）]和強化信息P，系統(tǒng)選擇然后執(zhí)行某一個動作[a（t）]，該動作[a（t）]作用于當前的環(huán)境，環(huán)境發(fā)生相應的變化；

（3）當前環(huán)境狀態(tài)變換為新的狀態(tài)，即[s（t）→s（t+1）]，系統(tǒng)反饋及時的獎賞或懲罰回報函數(shù)[r（t）]；

（4）回報函數(shù)[r（t）]被智能體Agent接收，現(xiàn)有的策略P將發(fā)生變化，即[t←t+1]；

（5）系統(tǒng)返回第一步，繼續(xù)重復上述步驟，在取得滿意的目標狀態(tài)時，該循環(huán)停止[2，6]。

其中，及時回報函數(shù)[r（t）]由環(huán)境狀態(tài)W和智能體Agent的執(zhí)行動作[a（t）]共同決定。動作[a（t）∈A]，A即為智能體Agent的所有動作的集合[5，8]。

算法里，首先要考慮選擇適當?shù)膭幼鱗a（t）]，使得值函數(shù)得到最大值，從而能夠得到獎賞，這個過程即為Exploitation；同時，為了得到最優(yōu)策略，智能體Agent要盡量選擇不同的動作而且智能體Agent還要盡可能選擇不同的動作[a（t）]，即Exploration。對于在線學習來說，Exploration是非常重要的，探索的方法主要有：直接探索和間接探索兩種；間接探索的方法最常見的策略為greedy策略，通過為每個可能被選擇的動作[a（t）]賦予其對應的執(zhí)行概率[?]，然后嘗試完成所有可能的動作。即智能體Agent一直選擇有最高評價函數(shù)的動作[a（t）]，目的是為了獲取最大及時回報函數(shù)。

2.1 強化學習算法

強化學習基本算法有三種：動態(tài)規(guī)劃算法、蒙特卡羅算法和時間差分算法。強化學習是一種無模型的增強學習形式，它是Watkins等人于1989年提出的，是從動態(tài)規(guī)劃算法發(fā)展而來，把Q?學習看成一個增量式動態(tài)規(guī)劃，用一步方式來決定策略[9]。

先假定環(huán)境W是一個有限狀態(tài)的離散馬爾科夫過程。并且，強化學習系統(tǒng)每選取一個動作[a（t）]都是在單步中進行的，環(huán)境一旦接受該動作[a（t）]后便發(fā)生狀態(tài)轉(zhuǎn)移，然后給出評價函數(shù)[r]。環(huán)境狀態(tài)發(fā)生轉(zhuǎn)換過程時，概率公式如下：

[prob[s=st+1st，at]=P[st，at，st+1]] （2）

強化學習系統(tǒng)必須決定一個最優(yōu)策略[π]，從而使得獎勵值函數(shù)達到最大。在策略[π]的作用下，狀態(tài)[st]的值如下：

[Vπ（st）=r（πst）+γP[st，at，st+1]Vπ（st+1）] （3）

動態(tài)規(guī)劃至少得保證有一個策略[π?]，使得[Vπ?（st）=max{r（πst）+γP[st，at，st+1]Vπ*（st）}] （4）

Q?學習核心的思想是不估計環(huán)境模型，直接優(yōu)化可迭代計算的Q函數(shù)，Watkin等人定義此Q函數(shù)為在狀態(tài)[st]時執(zhí)行動作[at]，并且此后按最優(yōu)動作序列執(zhí)行時，累計折扣得到的強化值，如下：

[Q（st，at）=rt+γmaxa∈A{Q（st+1，at）at∈A}] （5）

Watkin有效地證明了Q?學習在特定條件下的收斂性。Q?學習可通過神經(jīng)網(wǎng)絡來實現(xiàn)，其中，每一個網(wǎng)絡的輸出對應于一個動作的Q值，即[Q（s，ai）]。實現(xiàn)Q?學習的關(guān)鍵是學習算法的確定。

根據(jù)Q函數(shù)的定義：

[Q（st+1，at）=rt+γmaxa∈A{Q（st+1，at）}] （6）

只有達到最優(yōu)策略時式（6）才能成立。

在學習過程中，誤差信號為：

[ΔQ=rt+γmaxa∈A{Q（st+1，at）-Q（st，a）}] （7）式中[Q（st+1，at）]表示下一狀態(tài)所對應的Q值[2，9?10]。

2.2 改進的強化學習算法

在上述強化學習的原理上，為了提高系統(tǒng)自適應度，從而推廣該算法的使用范圍，本文采用隨機辦法產(chǎn)生數(shù)組，并對動作[a（t）]進行尋優(yōu)，其算法流程圖見圖3。

圖3 算法流程圖

由于雙曲正切函數(shù)在[-1，1]范圍內(nèi)有良好的性能，相應的回報函數(shù)設(shè)定為：

[r（t）=tanh Q（t）10] （8）

對于PID參數(shù)取值優(yōu)劣的評價，通?？赡闷罘e分指標來衡量。常用的偏差積分指標有如下三個：

[IE=0∞e（t）dt] （9）

[ISE=0∞e2（t）dt] （10）

[IAE=0∞|e（t）|dt] （11）

估計不同的過渡過程需要選擇不同的積分指標函數(shù)，如果著重于抑制過渡過程中的大偏差，則通常選用ISE準則，而懲罰過渡時間過長的問題時則應選擇ITAE準則[11]。

綜合考慮以上因素，本文選擇了IE與IAE的線性組合作為評價函數(shù)：

[V（t）=0∞e（t）dt+0∞|e（t）|dt10] （12）

該算法實現(xiàn)了在其初始運行階段（最初較大時）進行均勻搜索，而在其后期運行階段（較接近于0時）搜索范圍逐漸減小。滿足了初期大范圍，后期小范圍搜索的要求，有利于收斂于全局最優(yōu)值和提高搜索精度。

改進的強化學習PID調(diào)參，在線學習速度加快，從而提高了系統(tǒng)的快速性，且動態(tài)性能指標得到了優(yōu)化。

3 仿真驗證

本文利用某型飛艇進行仿真，飛艇初始狀態(tài)為水平平飛，高度H=2 000 m，速度V=20 m/s，只研究縱向，配平線性化后得到飛艇縱向的線性化方程為：

[x=Ax+Buy=Cx] （13）

式中：[x=[V，α，q，θ]]，分別代表速度、迎角、俯仰角速度、俯仰角。

給定俯仰角跟蹤指令[θg=10°]，并且考慮縱向風干擾，為簡化問題，假設(shè)風干擾通過以下方式引入飛艇系統(tǒng)：

[v=v+vwq=q+qwa=a+aw] （14）式中：[vw，qw，aw]是在風對飛艇狀態(tài)的量化影響。

對于改進強化學習算法，設(shè)置仿真參數(shù)如下：[KP]取值范圍為[0，50]；[KI]取值范圍為[0，0.5]；[KD]取值范圍為[0，0.5]；迭代次數(shù)選為100，系數(shù)[γ]選為0.9。

分別用傳統(tǒng)離線設(shè)計好的PID控制器和改進后基于強化學習在線調(diào)參的PID控制器進行控制[10]。

仿真結(jié)果如圖4所示。

圖4 仿真結(jié)果圖

從仿真結(jié)果可以看出，傳統(tǒng)離線設(shè)計好的控制器，在有風干擾的條件下，難以實現(xiàn)俯仰跟蹤，而基于改進強化學習的控制器，在風干擾條件下，通過對參數(shù)的在線調(diào)整，實現(xiàn)了俯仰指令的跟蹤，各項指標在可以接受的范圍內(nèi)。

4 結(jié) 語

本文在分析各個研究成果的基礎(chǔ)上，根據(jù) PID 控制器具有多目標優(yōu)化的特點，提出了改進的強化學習的PID控制器參數(shù)整定算法，選擇了自適應度大的個體所對應的控制參數(shù)作為采樣時間下的參數(shù)，對 PID 的參數(shù)進行多目標尋優(yōu)，通過比較傳統(tǒng)強化學習算法，收斂速度更快，實時性更好，Matlab上的仿真結(jié)果表明，在 PID 參數(shù)的尋優(yōu)過程中，該改進后的強化學習算法具有更強的尋優(yōu)能力。因此為PID控制系統(tǒng)提供了一種新的優(yōu)化方法。

參考文獻

[1] 張巍，盧宇清.基于在線自適應遺傳算法的 PID參數(shù)整定和優(yōu)化[J].計算機仿真，2011（12）：154?157.

[2] 朱衛(wèi)華.基于強化學習PID控制器的柴油機調(diào)速仿真研究[D].哈爾濱：哈爾濱工程大學，2011.

[3] 陳丹，方康玲，陳喬禮.遺傳算法在 PID 參數(shù)優(yōu)化中的應用[J].微計算機信息，2007，23（3）：35?36.

[4] 戰(zhàn)忠麗，王強，陳顯亭.強化學習的模型，算法及應用[J].電子科技，2011（1）：47?49.

[5] 王醒策，張汝波，顧國昌.基于強化學習的多機器人編隊方法研究[J].計算機工程，2002，28（6）：15?16.

[6] 姜沛然.基于模糊理論和強化學習的自主式水下機器人運動規(guī)劃技術(shù)[D].哈爾濱：哈爾濱工程大學，2005.

[7] 付成偉.基于分層強化學習的移動機器人路徑規(guī)劃[D].哈爾濱：哈爾濱工程大學，2008.

[8] 徐莉.Q?learning 研究及其在AUV局部路徑規(guī)劃中的應用[D].哈爾濱：哈爾濱工程大學，2004.

[9] 魏英姿，趙明揚.強化學習算法中啟發(fā)式回報函數(shù)的設(shè)計及其收斂性分析[J].計算機科學，2005（3）：190?193.

[10] 張汝波，顧國昌，劉照德，等.強化學習理論，算法及應用[J].控制理論與應用，2000，17（5）：637?640.

[11] 田豐，邊婷婷.基于自適應遺傳算法的交通信號配時優(yōu)化[J].計算機仿真，2010（6）：305?308.

根據(jù)Q函數(shù)的定義：

[Q（st+1，at）=rt+γmaxa∈A{Q（st+1，at）}] （6）

只有達到最優(yōu)策略時式（6）才能成立。

在學習過程中，誤差信號為：

[ΔQ=rt+γmaxa∈A{Q（st+1，at）-Q（st，a）}] （7）式中[Q（st+1，at）]表示下一狀態(tài)所對應的Q值[2，9?10]。

2.2 改進的強化學習算法

圖3 算法流程圖

由于雙曲正切函數(shù)在[-1，1]范圍內(nèi)有良好的性能，相應的回報函數(shù)設(shè)定為：

[r（t）=tanh Q（t）10] （8）

對于PID參數(shù)取值優(yōu)劣的評價，通?？赡闷罘e分指標來衡量。常用的偏差積分指標有如下三個：

[IE=0∞e（t）dt] （9）

[ISE=0∞e2（t）dt] （10）

[IAE=0∞|e（t）|dt] （11）

綜合考慮以上因素，本文選擇了IE與IAE的線性組合作為評價函數(shù)：

[V（t）=0∞e（t）dt+0∞|e（t）|dt10] （12）

改進的強化學習PID調(diào)參，在線學習速度加快，從而提高了系統(tǒng)的快速性，且動態(tài)性能指標得到了優(yōu)化。

3 仿真驗證

本文利用某型飛艇進行仿真，飛艇初始狀態(tài)為水平平飛，高度H=2 000 m，速度V=20 m/s，只研究縱向，配平線性化后得到飛艇縱向的線性化方程為：

[x=Ax+Buy=Cx] （13）

式中：[x=[V，α，q，θ]]，分別代表速度、迎角、俯仰角速度、俯仰角。

給定俯仰角跟蹤指令[θg=10°]，并且考慮縱向風干擾，為簡化問題，假設(shè)風干擾通過以下方式引入飛艇系統(tǒng)：

[v=v+vwq=q+qwa=a+aw] （14）式中：[vw，qw，aw]是在風對飛艇狀態(tài)的量化影響。

分別用傳統(tǒng)離線設(shè)計好的PID控制器和改進后基于強化學習在線調(diào)參的PID控制器進行控制[10]。

仿真結(jié)果如圖4所示。

圖4 仿真結(jié)果圖

4 結(jié) 語

參考文獻

[1] 張巍，盧宇清.基于在線自適應遺傳算法的 PID參數(shù)整定和優(yōu)化[J].計算機仿真，2011（12）：154?157.

[2] 朱衛(wèi)華.基于強化學習PID控制器的柴油機調(diào)速仿真研究[D].哈爾濱：哈爾濱工程大學，2011.

[3] 陳丹，方康玲，陳喬禮.遺傳算法在 PID 參數(shù)優(yōu)化中的應用[J].微計算機信息，2007，23（3）：35?36.

[4] 戰(zhàn)忠麗，王強，陳顯亭.強化學習的模型，算法及應用[J].電子科技，2011（1）：47?49.

[5] 王醒策，張汝波，顧國昌.基于強化學習的多機器人編隊方法研究[J].計算機工程，2002，28（6）：15?16.

[6] 姜沛然.基于模糊理論和強化學習的自主式水下機器人運動規(guī)劃技術(shù)[D].哈爾濱：哈爾濱工程大學，2005.

[7] 付成偉.基于分層強化學習的移動機器人路徑規(guī)劃[D].哈爾濱：哈爾濱工程大學，2008.

[8] 徐莉.Q?learning 研究及其在AUV局部路徑規(guī)劃中的應用[D].哈爾濱：哈爾濱工程大學，2004.

[9] 魏英姿，趙明揚.強化學習算法中啟發(fā)式回報函數(shù)的設(shè)計及其收斂性分析[J].計算機科學，2005（3）：190?193.

[10] 張汝波，顧國昌，劉照德，等.強化學習理論，算法及應用[J].控制理論與應用，2000，17（5）：637?640.

[11] 田豐，邊婷婷.基于自適應遺傳算法的交通信號配時優(yōu)化[J].計算機仿真，2010（6）：305?308.

根據(jù)Q函數(shù)的定義：

[Q（st+1，at）=rt+γmaxa∈A{Q（st+1，at）}] （6）

只有達到最優(yōu)策略時式（6）才能成立。

在學習過程中，誤差信號為：

[ΔQ=rt+γmaxa∈A{Q（st+1，at）-Q（st，a）}] （7）式中[Q（st+1，at）]表示下一狀態(tài)所對應的Q值[2，9?10]。

2.2 改進的強化學習算法

圖3 算法流程圖

由于雙曲正切函數(shù)在[-1，1]范圍內(nèi)有良好的性能，相應的回報函數(shù)設(shè)定為：

[r（t）=tanh Q（t）10] （8）

對于PID參數(shù)取值優(yōu)劣的評價，通?？赡闷罘e分指標來衡量。常用的偏差積分指標有如下三個：

[IE=0∞e（t）dt] （9）

[ISE=0∞e2（t）dt] （10）

[IAE=0∞|e（t）|dt] （11）

綜合考慮以上因素，本文選擇了IE與IAE的線性組合作為評價函數(shù)：

[V（t）=0∞e（t）dt+0∞|e（t）|dt10] （12）

改進的強化學習PID調(diào)參，在線學習速度加快，從而提高了系統(tǒng)的快速性，且動態(tài)性能指標得到了優(yōu)化。

3 仿真驗證

本文利用某型飛艇進行仿真，飛艇初始狀態(tài)為水平平飛，高度H=2 000 m，速度V=20 m/s，只研究縱向，配平線性化后得到飛艇縱向的線性化方程為：

[x=Ax+Buy=Cx] （13）

式中：[x=[V，α，q，θ]]，分別代表速度、迎角、俯仰角速度、俯仰角。

給定俯仰角跟蹤指令[θg=10°]，并且考慮縱向風干擾，為簡化問題，假設(shè)風干擾通過以下方式引入飛艇系統(tǒng)：

[v=v+vwq=q+qwa=a+aw] （14）式中：[vw，qw，aw]是在風對飛艇狀態(tài)的量化影響。

分別用傳統(tǒng)離線設(shè)計好的PID控制器和改進后基于強化學習在線調(diào)參的PID控制器進行控制[10]。

仿真結(jié)果如圖4所示。

圖4 仿真結(jié)果圖

4 結(jié) 語

參考文獻

[1] 張巍，盧宇清.基于在線自適應遺傳算法的 PID參數(shù)整定和優(yōu)化[J].計算機仿真，2011（12）：154?157.

[2] 朱衛(wèi)華.基于強化學習PID控制器的柴油機調(diào)速仿真研究[D].哈爾濱：哈爾濱工程大學，2011.

[3] 陳丹，方康玲，陳喬禮.遺傳算法在 PID 參數(shù)優(yōu)化中的應用[J].微計算機信息，2007，23（3）：35?36.

[4] 戰(zhàn)忠麗，王強，陳顯亭.強化學習的模型，算法及應用[J].電子科技，2011（1）：47?49.

[5] 王醒策，張汝波，顧國昌.基于強化學習的多機器人編隊方法研究[J].計算機工程，2002，28（6）：15?16.

[6] 姜沛然.基于模糊理論和強化學習的自主式水下機器人運動規(guī)劃技術(shù)[D].哈爾濱：哈爾濱工程大學，2005.

[7] 付成偉.基于分層強化學習的移動機器人路徑規(guī)劃[D].哈爾濱：哈爾濱工程大學，2008.

[8] 徐莉.Q?learning 研究及其在AUV局部路徑規(guī)劃中的應用[D].哈爾濱：哈爾濱工程大學，2004.

[9] 魏英姿，趙明揚.強化學習算法中啟發(fā)式回報函數(shù)的設(shè)計及其收斂性分析[J].計算機科學，2005（3）：190?193.

[10] 張汝波，顧國昌，劉照德，等.強化學習理論，算法及應用[J].控制理論與應用，2000，17（5）：637?640.

[11] 田豐，邊婷婷.基于自適應遺傳算法的交通信號配時優(yōu)化[J].計算機仿真，2010（6）：305?308.