亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度強化學習的固高直線一級倒立擺控制實驗設計

2023-04-29 00:00:00馮肖雪謝天溫岳李位星

科技資訊 2023年23期

作者簡介：馮肖雪（1988-），女，博士，副教授，主要研究方向為自適應控制與人工智能。

摘要：為適應各高校人工智能專業(yè)學生對于機器學習領域的學習需求，同時兼顧固高科技直線一級倒立擺控制系統(tǒng)可操作性、實時性和安全性，本論文設計了一套基于深度強化學習的固高直線一級倒立擺控制實驗方案。首先采用深度強化學習算法的無模型控制結構搭建控制器并進行虛擬仿真實驗?？紤]倒立擺電機驅動刷新頻率的限制以及提高樣本處理速度，進一步設計了基于離線Q學習算法的平衡控制器實現(xiàn)倒立擺實物穩(wěn)定控制。該實驗方案既加深了學生對人工智能領域知識的理解，也適應了固高科技直線一級倒立擺的應用場景。

關鍵詞：直線一級倒立擺" "深度強化學習" "DQN算法" "Q學習算法

中圖分類號：TP319" " " " "文獻標識碼：A

Abstract： In order to meet the learning needs of students majoring in artificial intelligence in colleges and universities in the field of machine learning， and take into account the operability， instantaneity and safety of the linear single inverted pendulum control system of Googol Tech， this paper designs an experimental plan for Googol’s linear single inverted pendulum control based on deep reinforcement learning. Firstly， this paper uses a model-free control structure of the deep reinforcement learning algorithm to construct a controller and conduct virtual simulation experiments. Considering the limitation of the refresh frequency driven by the inverted pendulum motor and the improvement of sample processing speed， it further designs a balance controller based on the offline Q-Learning algorithm to achieve the physical stability control of the inverted pendulum. This experimental plan not only enhances studnets’ understanding of the knowledge in the field of artificial intelligence， but also adapts to the application scenario of the linear single inverted pendulum of Googol Tech.

Key Words： Linear single inverted pendulum; Deep reinforcement learning; DQN algorithm; Q-Learning algorithm

倒立擺控制系統(tǒng)是一種典型的高階次、非線性、多變量、強耦合的自不穩(wěn)定系統(tǒng)。對倒立擺系統(tǒng)的研究能有效地反映控制中的許多典型問題，如非線性問題、穩(wěn)定性問題、魯棒性問題、隨動問題、鎮(zhèn)定問題和跟蹤問題等，其控制方法在一般工業(yè)領域應用廣泛，因此對其進行研究具有一定的理論和實際意義。

常見的控制方法主要有根軌跡、頻率響應、PID、模糊控制或BP神經網絡等控制器[1-4]。PID 控制需要借助控制經驗來調整參數(shù)，對設計人員的理論和應用能力要求較高；模糊控制中的模糊控制器需要人為建立模糊表，對于連續(xù)動作控制具有局限性；BP神經網絡中網絡參數(shù)的學習和更新需要借助完整的控制模型生成訓練數(shù)據(jù)。近年來，強化學習作為機器學習研究領域的一個熱門方向，吸引了眾多研究學者的關注，高校學生也對以強化學習為代表的機器學習方法表現(xiàn)出濃厚的興趣。強化學習通過智能體與環(huán)境的交互作用，從中汲取經驗以自學習的方式不斷更新改進控制策略，逐步達到最優(yōu)或近優(yōu)控制效果[5]。由于強化學習具有優(yōu)秀的學習、尋優(yōu)、決策能力，因而在人工智能領域收獲了大量關注，并因此被廣泛應用于模擬仿真、機器人行走控制、圖像控制游戲等領域。

目前大多數(shù)高校科研院所采購的實驗設備為固高科技有限公司生產的倒立擺，由于固高直線一級倒立擺硬件驅動板卡以及電機驅動刷新頻率等諸多限制，尚無法直接實現(xiàn)深度強化學習算法的倒立擺平衡控制。為了滿足人工智能專業(yè)學生了解機器學習方法的期望，同時適應現(xiàn)有實驗設備的應用需求，本論文設計了一套基于深度強化學習的直線一級倒立擺實驗方案。方案首先采用深度Q網絡（Deep Q Network， DQN）深度強化學習算法的無模型控制結構搭建控制器并進行虛擬仿真實驗?？紤]到虛擬仿真環(huán)境和實際系統(tǒng)執(zhí)行效果的差異性，進一步設計了基于離線Q學習算法的平衡控制器實現(xiàn)倒立擺實物穩(wěn)定控制。通過該實驗方案的設計，既滿足了學生學習人工智能領域知識的需求，也適應了固高科技直線一級倒立擺的應用場景。

1" 倒立擺系統(tǒng)數(shù)學建模

本文采用固高科技有限公司的直線一級倒立擺為研究對象，其結構主要由一根導軌、一個小車和一個擺桿組成，通過轉軸進行連接。該裝置中有兩個光電編碼器，分別用來測量小車位移和擺桿角度。小車能夠在電機、皮帶輪、傳動帶作用下在水平導軌上來回運動，擺桿能夠在鉛垂面內自由轉動。忽略空氣阻力和各種摩擦，可將直線一級倒立擺系統(tǒng)抽象成小車和勻質桿組成的系統(tǒng)，如圖1所示。根據(jù)圖中所示，為小車位移；為擺桿與鉛垂方向的夾角；為小車的質量；為擺桿的質量；為擺桿繞質心的轉動慣量；為擺桿小車鏈接點到擺桿質心的距離，為擺桿的長度；為小車與導軌間的滑動摩擦系數(shù)，為加在小車上的外力。

倒立擺機械部分遵守牛頓運動定律，因此可以應用牛頓力學來建立系統(tǒng)的動力學方程。分析小車水平方向所受的合力，可以得到以下方程：

2 強化學習-Q學習算法原理和實現(xiàn)

Q學習于1989年由Watkins提出。這一方法不需要得到環(huán)境的具體情況，也就是不需要對環(huán)境進行詳細建模，只考慮狀態(tài)和獎勵值，是無模型（model-free）的方法。它將lt;狀態(tài)，動作gt;對映射為期望返回值的動作的價值函數(shù)，是求解信息不完整馬爾科夫決策問題的一種方式。Q學習根據(jù)值迭代思想，提出了一種更新Q值的辦法：

雖然式（14）由值迭代計算出目標Q值，但是并不將這個Q值（估計值）直接賦給Q，而是采用漸進的類似梯度下降的方式，逐步接近目標；漸進的速度取決于取值的大小。這種類似梯度下降的方式能夠減少估計誤差對學習效果產生的影響。

Q學習生成動作的策略有兩種類型，隨機策略和貪婪策略（greedy policy），前者將會生成新的未知回報的動作，后者根據(jù)當前Q值選擇已知動作集合中的最優(yōu)動作。下式所示為貪婪策略。

探索未知的動作空間，即使擴大搜索試圖找到更優(yōu)的動作即為探索（exploration），這種策略有利于更新Q值以獲得更好的策略；而使用貪婪策略則是利用（exploitation）已有的經驗選擇獎勵值最大的動作[6]。相較于隨機策略，貪婪策略因為無法探索而不能得到更優(yōu)解，但可以得到更好的測試效果，適合用于判斷算法是否有效。綜合以上兩種策略的優(yōu)點，可以得到策略。一般取一個較小的值，作為選取隨機動作的概率值，即：每一步以的概率選擇隨機動作，以的概率利用貪婪策略選擇當前狀態(tài)下的最大Q值。因此，通過更改的值，算法能夠實現(xiàn)不同的探索和利用的比例。這種方法相較于直接使用貪婪策略而言具有更好的探索性，能夠在一定程度上避免算法陷入局部最優(yōu)解。Q學習算法的一般流程如下所示：

（1）初始化，即為分配一個初始值，產生這個值的策略可以是任意的。

（2）重復執(zhí)行以下操作，直至滿足任務結束條件：①設當前環(huán)境狀態(tài)為；②在Q表格中選擇一個動作，使得對應的有最大值；③執(zhí)行動作；④將在狀態(tài)下執(zhí)行動作后獲得的獎勵值設為結果；⑤根據(jù)式（14）更新的值，同時進入下一個狀態(tài)。

通過上述Q學習算法基本步驟，可以得到獎勵值的最優(yōu)值。Watkins和Dayan先前已經證明：只要所有的動作在所有的狀態(tài)下被重復抽樣，并且以離散形式表示動作值，那么Q學習就會以概率1收斂到最優(yōu)動作值。

3" 深度強化學習-DQN算法原理和實現(xiàn)

深度強化學習將深度神經網絡引入傳統(tǒng)強化學習中，期望實現(xiàn)從感知（perception）到動作的端對端學習[7]。深度強化學習可以直觀理解為對人類學習活動的模擬，來自環(huán)境的感知信息（如視覺等）被深度神經網絡（Deep Neural Network， DNN）處理后，直接輸出為動作[8]。深度強化學習的出現(xiàn)使得機器人具備完全自主的學習的潛力。傳統(tǒng)強化學習受到對動作空間和樣本空間維度的限制，一般更適用于離散化的場景；然而，現(xiàn)實世界中的工程情況往往更為復雜，有巨大的狀態(tài)空間和連續(xù)的動作空間。當有高維數(shù)據(jù)輸入時，傳統(tǒng)強化學習難以處理。相比之下，深度強化學習則把深度學習處理高維數(shù)據(jù)的能力與強化學習的決策能力結合起來，可以解決傳統(tǒng)強化學習難以解決的問題。深度學習能實現(xiàn)對環(huán)境信息的直接感知，將觀察到的信息處理后傳遞給智能體，供其決策并執(zhí)行動作，再從環(huán)境中接收反饋的獎勵值以修正并更新更新其現(xiàn)有策略，最終找到最優(yōu)策略并實現(xiàn)目標。深度強化學習的理論模型圖如圖2所示。

深度Q網絡（Deep Q Network， DQN）模型是深度強化學習算法中的典型代表，其將卷積神經網絡（Convolutional Neural Network， CNN）與傳統(tǒng)強化學習相結合。DQN算法偽代碼如圖3所示。

相較于Q學習算法，DQN算法做了如下一些改進。（1）引入了經驗回放機制。每次訓練中，從經驗池中隨機選擇小批樣本，并使用隨機梯度下降算法更新網絡參數(shù)。這一方法通過隨機采樣降低了樣本間的相關性，提高了算法穩(wěn)定性。（2）利用深度卷積網絡作為函數(shù)近似器，表示當前的值函數(shù)，使用一個單獨的網絡生成目標Q值。（3）將獎勵值和誤差限制在有限的區(qū)間內，以此來保證Q值和梯度值都在合理范圍內，提高算法的穩(wěn)定性。

4 實驗結果和分析

本文以固高科技公司生產的直線一級倒立擺為控制對象，倒立擺的實際系統(tǒng)參數(shù)如表1所示。仿真實驗部分采用Matlab實現(xiàn)，Matlab實驗參數(shù)設置如表2所示。

4.1" 直線一級倒立擺平衡控制仿真實驗

首先參考硬件系統(tǒng)的數(shù)學模型，結合實際物理系統(tǒng)的給定參數(shù)，對一級直線倒立擺系統(tǒng)進行數(shù)值仿真建模，并使用四階龍格庫塔法（Runge-Kutta）求解常微分方程，實現(xiàn)倒立擺的Matlab仿真。此外，需要自行設定平衡控制過程中小車位移和擺桿角度的閾值，編寫倒立擺系統(tǒng)狀態(tài)初始化函數(shù)、訓練終止函數(shù)、獎勵值生成函數(shù)。

4.1.1神經網絡結構搭建

使用trainlm訓練函數(shù)，其基于Levenberg-Marquardt優(yōu)化方法更新權重和偏置的值，這是一種最小二乘法，能實現(xiàn)網絡的能量函數(shù)（誤差函數(shù)）最小化。所設計的神經網絡的輸入層神經元數(shù)量為4，對應狀態(tài)變量的4個維度；設計兩層隱含層，每層分別包含10和20個神經元；輸出層對應智能體的行為空間，因此神經元數(shù)量即行為數(shù)量，為2個。該神經網絡模型訓練后，能夠實現(xiàn)輸出的預測。在模型上調用函數(shù)時，模型將根據(jù)訓練的數(shù)據(jù)預測當前狀態(tài)的獎勵值。

4.1.2 DQN算法設計

首先編寫神經網絡訓練函數(shù)，從隨機產生的倒立擺系統(tǒng)的lt;狀態(tài)，動作gt;對訓練神經網絡：在每個情節(jié)中，先使用構成4×64的隨機矩陣作為神經網絡的輸入，并將其隨機分為train、validation、test三部分以訓練合適的神經網絡，并把相應的數(shù)據(jù)保存至經驗池（buffer）中；然后編寫經驗回放函數(shù)，對經驗池中的數(shù)據(jù)進行隨機采樣，構成小批量（minibatch），將倒立擺系統(tǒng)的狀態(tài)作為神經網絡的輸入，并利用minibatch中的數(shù)據(jù)測試訓練好的神經網絡的預測輸出是否準確，即是否能夠實現(xiàn)倒立擺系統(tǒng)的平衡控制。

實驗過程中首先初始化神經網絡參數(shù)，然后每次實驗中將得到的樣本（s，a，r，s'）全部存入經驗池中，以便神經網絡模型進行隨機采樣訓練。倒立擺平衡控制實驗與神經網絡模型的訓練同步進行，每個情節(jié)中先利用隨機產生的數(shù)據(jù)對神經網絡進行訓練，再測試訓練好的網絡是否能預測倒立擺系統(tǒng)的輸出。圖4所示是可視化的仿真倒立擺系統(tǒng)平衡控制結果示意圖，圖5所示是100個情節(jié)中的部分倒立擺控制測試結果。可以發(fā)現(xiàn)學習率0.1較為理想，僅經過約2epoch訓練即達到收斂。

4.2 固高直線一級倒立擺實物控制實驗

考慮到固高直線一級倒立擺電機驅動刷新頻率的限制，而DQN無法滿足控制系統(tǒng)實時性的需求，同時考慮到硬件系統(tǒng)手動起擺的過程遠不如仿真時可靠，對倒立擺進行實物控制實驗采用Q學習算法進行控制。實驗流程為：首先根據(jù)實物倒立擺系統(tǒng)的參數(shù)建立仿真模型，為了便于收斂，將連續(xù)的狀態(tài)和動作空間離散化，Q表格的規(guī)模即為狀態(tài)數(shù)×動作數(shù)；接下來使用強化學習方法訓練Q表格，直到在很長的周期內倒立擺都保持穩(wěn)定。在實物系統(tǒng)中先手動起擺，再使用LQR方法使倒立擺系統(tǒng)初始狀態(tài)為擺桿向上的狀態(tài)，然后切換為強化學習控制器，使用離線訓練好的Q表格進行控制。算法核心的獎勵函數(shù)設定為倒立擺保持穩(wěn)定的時間周期數(shù)，即這個周期數(shù)的大小可以用于評價訓練結果的好壞。圖6和圖7分別展示了離線訓練中的部分樣本結果。實驗結果證明，通過調整系統(tǒng)離線訓練的參數(shù)改善訓練效果，能夠實現(xiàn)一級直線倒立擺硬件系統(tǒng)的平衡控制，即該方案可行。

圖8和圖9分別為使用離線訓練得到的Q表格實現(xiàn)硬件系統(tǒng)平衡控制過程中擺桿角度和小車位移的變化。

進一步分析系統(tǒng)抗干擾性能，給倒立擺系統(tǒng)施加小擾動觀察其是否能快速穩(wěn)定。圖10所示為系統(tǒng)受到（約0.2弧度）左右小角度擾動時的擺桿角度輸出。從圖中可以看出，施加干擾后，系統(tǒng)能在1s內迅速穩(wěn)定。圖11為倒立擺系統(tǒng)穩(wěn)定的實物圖。

5 結語

本文基于固高公司直線一級倒立擺搭建了基于深度強化學習的倒立擺控制實驗方案。該實驗方案采用DQN實現(xiàn)仿真實驗，考慮倒立擺電機驅動刷新頻率高的限制以及實物控制安全性，為提高樣本處理速度同時減少樣本的復雜性，設計了基于離線Q學習算法的平衡控制器實現(xiàn)倒立擺實物控制。該實驗方案設計既加深了學生對于人工智能領域深度強化學習算法的了解，也兼顧了實物控制系統(tǒng)可操作性、實時性和安全性的考慮。

參考文獻

[1] 王曉光.倒立擺系統(tǒng)的建模及魯棒控制研究[D].青島：青島科技大學，2022．

[2] 蔣凌云，徐炳吉，張峰華，等.直線二級倒立擺的一種穩(wěn)定控制算法研究[J].計算機仿真，2023，40（2）：314-320.

[3] 虞俊豪.一階并聯(lián)旋轉雙倒立擺系統(tǒng)的EFC/LQR雙模態(tài)控制[D].大連：大連理工大學，2022.

[4] 紀勝昊.兩足輪腿機器人系統(tǒng)研制及模型預測控制方法研究[D].哈爾濱：哈爾濱工業(yè)大學，2021.

[5] 劉全，翟建偉，章宗長，等.深度強化學習綜述[J].計算機學報，2018，41（1）：1-27.

[6] 何衛(wèi)東，劉小臣，張迎輝，等.深度強化學習TD3算法在倒立擺系統(tǒng)中的應用[J].大連交通大學學報，2023，44（1）：38-44.

[7] 孫彧，曹雷，陳希亮，等.多智能體深度強化學習研究綜述[J].計算機工程與應用，2020，56（5）：13-24.

[8] HESSEL M， MODAYIL J， VAN HASSELT H， et al. Rainbow： Combining improvements in deep reinforcement learning[C]//Thirty-second AAAI conference on artificial intelligence， 2018.

科技資訊2023年23期

科技資訊的其它文章: 圖書館智慧化轉型的技術體系研究; 三維激光掃描技術在城市地下軌道交通測量中的應用研究; 硬質聚氨酯泡沫噴涂發(fā)泡工藝研究; 某電廠350 MW機組乏汽余熱回收利用改造方案分析; 室內空氣中TVOC檢測方法及控制研究; 大學校園浴室預約管理系統(tǒng)的設計與開發(fā)