亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度強化學習算法在慢走絲機床上的應用研究

        2019-05-09 03:26:18魏德驕
        自動化與儀表 2019年4期
        關(guān)鍵詞:力矩電機控制算法張力

        譚 行,蔣 健,魏德驕

        (1.北京理工大學 化學與化工學院,北京100081;2.北京東方嘉科數(shù)碼科技有限公司,北京100088)

        慢走絲電火花線切割是利用電極絲與工件之間的相對位移和火花放電,使工件切割成型的加工方法[1]。 這種加工方法對電極絲的張力有很高的要求,張力太大容易造成電極絲頻繁斷裂,張力太小則容易產(chǎn)生振動和滯后彎曲。 在電極絲強度極限之內(nèi),應當盡可能保持高且穩(wěn)定的張力,從而減少放電加工過程中電極絲的振動和滯后彎曲,提高加工工件的精度并降低表面粗糙度[2]。 新型的慢走絲電火花線切割恒張力控制系統(tǒng)采用雙電機轉(zhuǎn)速差加載式控制裝置,利用張力電機和排絲電機之間微小的速度差來產(chǎn)生張力,對張力的調(diào)節(jié)效果好,但結(jié)構(gòu)較為復雜、成本較高。 此外,慢走絲張力控制系統(tǒng)大多采用經(jīng)典PID 控制算法,而被控對象具有滯后和時變的特征, 因此隨著機床使用時間的增長,被控對象的模型結(jié)構(gòu)和參數(shù)發(fā)生變化, 如果不對PID參數(shù)進行重新整定,控制效果會變得越來越差[3]。

        本文提出一種基于深度強化學習的自適應PID控制算法, 可以不依賴被控對象精確的數(shù)學模型,能夠自動識別被控對象模型結(jié)構(gòu)和參數(shù)的變化,并對PID 參數(shù)進行自適應調(diào)節(jié),具有很好的魯棒性和快速響應性能。

        1 走絲控制系統(tǒng)模型的建立

        慢走絲電火花線切割恒張力控制系統(tǒng)可以根據(jù)執(zhí)行機構(gòu)的不同分為3 種類型:機械式、電磁式和電機式[4]。 電機式張力控制器易于實現(xiàn)且控制精度較高,因此本文基于電機式張力控制器設(shè)計了一套恒張力控制系統(tǒng),如圖1 所示。

        圖1 走絲系統(tǒng)示意Fig.1 Diagram of wire travelling system

        由圖1 可知,電極絲從絲筒抽出,經(jīng)過導線輪到達張力控制機構(gòu),出來之后通過張力傳感器到達放電加工區(qū), 然后經(jīng)過導線輪和自動穿絲機構(gòu),最后由排絲輪送出至廢絲箱。 恒張力控制原理是通過張力傳感器對電極絲張力進行測量,控制器將測量值和給定張力值進行比較,最后通過控制算法輸出控制信號,控制張力輪的輸出轉(zhuǎn)速,從而達到控制電極絲張力的目的。

        張力電機采用的是由可控硅供電的直流力矩電機,該電機具有空載轉(zhuǎn)速低,堵轉(zhuǎn)力矩大、反應速度快、共振頻率高等優(yōu)點,并且可以在沒有減速裝置的情況下直接驅(qū)動負載。 根據(jù)直流力矩電機電樞回路的電壓平衡方程式和轉(zhuǎn)矩平衡方程式,可以推出直流力矩電機的傳遞函數(shù)如式(1)所示:

        式中:Ke為直流力矩電機的反電動勢系數(shù)(V/r/min);Te為直流力矩電機的電氣時間常數(shù);Tm為直流力矩電機的機械時間常數(shù)。

        通過對張力輪進行合理的受力分析,可以得到它的動態(tài)力矩平衡方程如式(2)所示:

        式中:T 為張力輪上電極絲的張力值(N);R 為張力輪的半徑(mm);Tr為前端負載阻力(N);M(t)為張力電機輸出的阻力力矩(N·m);I 為張力輪的轉(zhuǎn)動慣量(kg·m2);dω(t)為張力輪旋轉(zhuǎn)時的角速度(rad/s)。通過觀察張力輪的動態(tài)力矩平衡方程可以發(fā)現(xiàn),電極絲的張力大小主要取決于張力輪角速度的變化,其數(shù)學模型可以簡化為一個比例環(huán)節(jié),因此可以得到張力輪的傳遞函數(shù)如式(3)所示:

        圖2 恒張力控制系統(tǒng)方塊圖Fig.2 Block diagram of constant tension control system

        在構(gòu)建好張力電機和張力輪的數(shù)學模型之后,可以畫出基于傳統(tǒng)PID 控制算法的恒張力控制系統(tǒng)方塊圖,如圖2 所示。 為了簡化模型結(jié)構(gòu)、便于計算,這里取KP=1,KI=0,KD=0,由于張力傳感器檢測精度高且基本沒有檢測延遲,其數(shù)學模型可以視為Kt=1 的比例常數(shù),直流力矩電機的反電動勢系數(shù)Ke=0.0415,電氣時間常數(shù)Te=0.0037,機械時間常數(shù)Tm=0.025,張力輪的半徑R=30 mm,張力輪轉(zhuǎn)動慣量I=6.25×10-5kg·m2,因此,恒張力控制系統(tǒng)的開環(huán)傳遞函數(shù)如式(4)所示:

        2 深度強化學習

        根據(jù)誤差反饋方式的不同,機器學習算法可以分為有監(jiān)督學習、無監(jiān)督學習和強化學習三大類別[5]。 一個典型的強化學習系統(tǒng)可以分為3 個部分:智能體Agent、工作環(huán)境Environment 和交互信息,如圖3 所示。 工作環(huán)境通常是復雜且時變的,智能體Agent 需要根據(jù)工作環(huán)境的不同狀態(tài)做出合理決策,產(chǎn)生相應的動作并作用于工作環(huán)境,然后工作環(huán)境會將該動作的作用效果反饋給智能體Agent,智能體Agent 會根據(jù)工作環(huán)境的反饋值對自己的決策進行修正。 強化學習系統(tǒng)通過不斷的重復以上過程以提升智能體Agent 的決策能力,最終智能體Agent 可以對工作環(huán)境的任意狀態(tài)做出最佳決策。

        圖3 強化學習原理圖Fig.3 Schematic diagram of reinforcement learning

        常用的強化學習算法有Sarsa 算法、Q-learning算法、Deep Q Network 算法和Actor-Critic 算法,其中Deep Q Network 算法是改進后的Q-learning 算法, 它融合了Q-learning 算法和深度學習的優(yōu)點[6]。深度學習的概念最早由Hinton 等人于2006 年提出,隨著近年來數(shù)據(jù)量的急劇增加以及計算能力的大幅提高,深度學習相較于傳統(tǒng)機器學習在工業(yè)界的很多領(lǐng)域都表現(xiàn)出了卓越的性能[7]。 深度學習的模型往往是由多層神經(jīng)網(wǎng)絡(luò)構(gòu)成,因此具有很強的擬合能力,但隨著神經(jīng)網(wǎng)絡(luò)的節(jié)點數(shù)量和深度的增加,模型的訓練變得更加困難,過擬合現(xiàn)象十分嚴重[8]。 Q-learning 算法不需要對學習的對象進行建模,它只需要建立一個決策矩陣Q,并通過不斷的迭代,根據(jù)評價函數(shù)的返回值對決策矩陣進行修正,最終收斂得到最優(yōu)決策矩陣Q。Q-learning 算法本質(zhì)上是一種值函數(shù)的迭代運算過程,通過不斷的迭代以優(yōu)化狀態(tài)s 和動作k 的價值函數(shù)Q(s,k),決策階段就可以根據(jù)當前的狀態(tài)s0選擇使價值函數(shù)Q(s0,k)最大的動作k0作為最佳決策,Q-learning 算法的值函數(shù)定義如式(5)所示,?∈(0,1]表示學習率,rt+1表示智能體Agent 在狀態(tài)st下采取動作kt后獲得的反饋值,γ∈(0,1]表示未來反饋值的比重。 Q-learning算法也有一定的局限性,由于決策矩陣Q 只能容納離散的狀態(tài)變量,因此不適用于具有狀態(tài)連續(xù)的任務(wù),而且實際工業(yè)任務(wù)模型復雜度大,二維的決策矩陣Q 很難去擬合真實的價值函數(shù)。 Deep Q Network 算法最大程度上的保留了Q-learning 算法的優(yōu)點,同時用深度學習領(lǐng)域的多層神經(jīng)網(wǎng)絡(luò)代替二維決策矩陣Q,極大的提高了模型的擬合能力,并且能適用于狀態(tài)連續(xù)的任務(wù)[9]。 因此,我們選擇Deep Q Network 算法來設(shè)計恒張力控制系統(tǒng)的自適應PID調(diào)節(jié)模塊。

        3 深度強化學習自適應PID 控制算法設(shè)計

        深度強化學習自適應PID 控制算法是一種將深度強化學習算法和經(jīng)典PID 控制算法相結(jié)合的自適應PID 控制算法。 根據(jù)Deep Q Network 算法的工作流程, 可以設(shè)計出基于Deep Q Network 深度強化學習算法的自適應PID 控制系統(tǒng)方塊圖,如圖4 所示。 整個自適應PID 控制系統(tǒng)可以分為兩層, 底層是經(jīng)典的PID 控制系統(tǒng), 它可以根據(jù)PID控制規(guī)律產(chǎn)生控制信號并直接作用于被控對象,頂層是一個強化學習的智能體Agent, 它通過不斷和生產(chǎn)環(huán)境交互學習生成最優(yōu)控制策略π, 然后根據(jù)最優(yōu)控制策略π 對PID 控制器的參數(shù)進行智能調(diào)節(jié)以優(yōu)化控制效果。

        圖4 深度強化學習自適應PID 控制系統(tǒng)方塊圖Fig.4 Block diagram of deep reinforcement learning adaptive PID control system

        底層的經(jīng)典PID 控制器的初始化參數(shù)可以通過臨界比例度法來整定, 上層的Deep Q Network深度強化學習算法是在這個基礎(chǔ)之上對PID 參數(shù)進行細微調(diào)整[10]。 Deep Q Network 算法的核心是設(shè)計合適的狀態(tài)空間、 動作空間和性能評價函數(shù),狀態(tài)空間是對智能體Agent 所處環(huán)境的合理描述,動作空間是對PID 參數(shù)優(yōu)化策略的合理描述,性能評價函數(shù)應當正確反應PID 參數(shù)優(yōu)化對控制效果的影響,強化學習智能體Agent 的模型結(jié)構(gòu)如圖5所示。

        圖5 智能體Agent 模型結(jié)構(gòu)Fig.5 Model architecture of intelligence agent

        從圖5 可以看出,深度強化學習的狀態(tài)空間為e、de/dt,它可以間接對環(huán)境狀態(tài)進行合理描述,動作空間為ΔP、ΔI 和ΔD, 它可以輸出PID 參數(shù)對應的修正值, 修正值的范圍為初始PID 參數(shù)值的正負10%。 性能評價函數(shù)應當正確反映當前PID 參數(shù)調(diào)節(jié)動作對整體控制效果的影響,因此我們選取超調(diào)量、峰值時間、衰減比和穩(wěn)態(tài)誤差來定義性能評價函數(shù),如式(6)所示:

        式中:σ、t、n、e 分別為階躍響應的實際超調(diào)量、峰值時間、衰減比和穩(wěn)態(tài)誤差;σ*、t*、n*、e*分別為期望的超調(diào)量、 峰值時間、 衰減比和穩(wěn)態(tài)誤差;kσ、kt、kn、ke分別為超調(diào)量、峰值時間、衰減比和穩(wěn)態(tài)誤差在性能評價函數(shù)中所在的比重,實際使用中可以根據(jù)不同的控制要求進行調(diào)節(jié)。

        4 仿真實驗

        本文根據(jù)慢走絲恒張力控制系統(tǒng)的數(shù)學模型來搭建仿真系統(tǒng),通過臨界比例度法來確定初始的PID 控制參數(shù),然后進行強化學習。在強化學習的過程中,需要不斷地向控制系統(tǒng)加入不同的干擾信號,智能體Agent 通過不斷迭代尋優(yōu)以獲取最優(yōu)策略π。

        分別采用經(jīng)典固定參數(shù)的PID 控制器和深度強化學習自適應PID 控制器對慢走絲恒張力系統(tǒng)進行控制,仿真結(jié)果如圖6 所示。

        圖6 仿真實驗結(jié)果Fig.6 Experimental results of simulation

        通過仿真實驗結(jié)果的對比可以看出,在加入時變干擾信號的情況下,經(jīng)典PID 控制算法由于固定了PID 參數(shù),無法對干擾信號進行準確識別并做出及時的參數(shù)調(diào)整,控制效果明顯下降;本文設(shè)計的基于深度強化學習的自適應PID 控制算法,可以在初始PID 參數(shù)的基礎(chǔ)上,根據(jù)不同的干擾信號實時調(diào)整控制器參數(shù), 實現(xiàn)控制參數(shù)的在線自適應調(diào)整,因此控制效果較好。

        5 結(jié)語

        本文在經(jīng)典PID 控制算法的基礎(chǔ)之上,提出了結(jié)合深度強化學習的自適應PID 控制算法,選擇Deep Q Network 深度強化學習算法設(shè)計了雙層控制結(jié)構(gòu),實現(xiàn)了上層參數(shù)調(diào)整策略的在線學習和底層PID 控制參數(shù)的自適應調(diào)整。 Matlab 仿真結(jié)果表明,本文設(shè)計的深度強化學習自適應PID 控制算法可以對PID 參數(shù)進行在線尋優(yōu),并且具有擬合能力好、實時性高、魯棒性強等優(yōu)點。因此,它也為自適應PID 控制系統(tǒng)提供了一種新的優(yōu)化方案。

        猜你喜歡
        力矩電機控制算法張力
        翻轉(zhuǎn),讓記敘文更有張力
        論張力
        中華詩詞(2018年4期)2018-08-17 08:04:12
        基于ARM+FPGA的模塊化同步控制算法研究
        張力
        寶藏(2017年6期)2017-07-20 10:01:02
        張力2
        寶藏(2017年6期)2017-07-20 10:01:01
        永磁同步力矩電機轉(zhuǎn)矩波動分析建模研究
        小型力矩電機波動力矩的測量
        力矩電機轉(zhuǎn)臺設(shè)計研究要點
        ETEL參加CCMT2016展會介紹
        一種優(yōu)化的基于ARM Cortex-M3電池組均衡控制算法應用
        国产av麻豆mag剧集| 丝袜美腿亚洲综合一区| 婷婷久久精品国产色蜜蜜麻豆| 国产精品一卡二卡三卡| 免费夜色污私人影院在线观看| 国产欧美日本亚洲精品一4区| 免费视频一区二区三区美女| 久久国产成人精品av| 日本边添边摸边做边爱的网站| 亚洲AV成人无码久久精品在| 天堂精品人妻一卡二卡| 绝顶高潮合集videos| 波多野结衣乳巨码无在线| 在线观看av国产自拍| 久久精品亚洲热综合一本色婷婷| 狠狠摸狠狠澡| 国产欧美精品区一区二区三区| 久久久高清免费视频| 一本色道久久亚洲av红楼| 国产内射爽爽大片视频社区在线| 欧美色aⅴ欧美综合色| 女同成片av免费观看| 97精品人妻一区二区三区在线| 久久久无码人妻精品无码| 日韩精品久久久一区| 激情视频国产在线观看| 久久久久久人妻无码| 国产成人麻豆精品午夜福利在线 | 国产91精品一区二区麻豆亚洲 | 日韩欧美成人免费观看| 在线欧美不卡| 国产精品一区二区三区成人| 色偷偷偷在线视频播放| 伴郎粗大的内捧猛烈进出视频观看 | 精品综合久久久久久8888| 国产精品麻豆一区二区三区| 亚洲中文字幕无码天然素人在线 | 国产91在线播放九色快色 | 美女爽好多水快进来视频| 九一精品少妇一区二区三区 | 久久免费精品日本久久中文字幕|