李中偉 喬美英 王聰
第一作者簡介:李中偉(1991-),男,碩士研究生。研究方向?yàn)樾畔⑻幚砼c網(wǎng)絡(luò)控制、電子電路設(shè)計(jì)。
DOI:10.19981/j.CN23-1581/G3.2024.13.010
摘? 要:傳統(tǒng)PID控制作為最常用的控制算法,在全自動(dòng)化學(xué)發(fā)光免疫分析儀的溫度控制單元上有著廣泛的應(yīng)用,但存在PID控制參數(shù)整定困難,調(diào)節(jié)時(shí)間長和超調(diào)量較大等問題,如何在保證溫度控制精度的情況下,縮短溫度調(diào)節(jié)時(shí)間,減小超調(diào)量,進(jìn)一步提升儀器的檢驗(yàn)效率,成為需要解決的問題。針對(duì)此問題,應(yīng)用基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的溫度控制策略,可以避免依靠人工經(jīng)驗(yàn)進(jìn)行PID參數(shù)整定,并縮短溫度調(diào)節(jié)時(shí)間,大幅度減小超調(diào)量,通過仿真實(shí)驗(yàn)分析溫度控制的參數(shù)指標(biāo)。結(jié)果表明,該算法相較于傳統(tǒng)的PID控制和模糊PID控制策略,在調(diào)節(jié)時(shí)間上分別提升14.9%和6.3%,在超調(diào)量上分別提升99.8%和99.2%,對(duì)于提升儀器的性能有較大意義。
關(guān)鍵詞:發(fā)光免疫分析儀;溫度控制;PID;DDPG;強(qiáng)化學(xué)習(xí)
中圖分類號(hào):TP273? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ? 文章編號(hào):2095-2945(2024)13-0039-05
Abstract: Traditional PID control, as the most commonly used control algorithm, has a wide range of applications in the temperature control unit of fully automatic chemiluminescence immunoassay analyzer. However, there are problems such as difficulty in tuning PID control parameters, long adjustment time, and large overshoot. How to shorten temperature adjustment time, reduce overshoot, and further improve instrument inspection efficiency while ensuring temperature control accuracy has become a problem that needs to be solved, To address this issue, a temperature control algorithm based on Deep Deterministic Policy Gradient (DDPG) is applied, which can avoid relying on manual experience for PID parameter tuning, shorten temperature adjustment time, and significantly reduce overshoot. By analyzing the parameter indicators of temperature control through simulation experiments, the results show that this algorithm is superior to traditional PID control and fuzzy PID control algorithms, In terms of adjustment time, it has increased by 14.9% and 6.3% respectively, and in terms of overshoot, it has increased by 99.8% and 99.2% respectively, which is of great significance for improving the performance of the instrument.
Keywords: luminescent immunoassay analyzer; temperature control; PID; DDPG; reinforcement learning
隨著醫(yī)學(xué)檢驗(yàn)技術(shù)的快速發(fā)展,全自動(dòng)化學(xué)發(fā)光免疫分析儀作為一種高性能的醫(yī)療設(shè)備,已經(jīng)廣泛應(yīng)用于醫(yī)學(xué)檢驗(yàn)中,為各種疾病的診斷提供強(qiáng)有力的依據(jù)[1]。溫度控制系統(tǒng)作為全自動(dòng)化學(xué)發(fā)光免疫分析儀最重要的子系統(tǒng)之一,其精確的溫度控制能夠?yàn)闃颖竞驮噭┑姆磻?yīng)過程提供適宜的溫度環(huán)境,使得化學(xué)反應(yīng)更加充分,從而為獲得可靠的檢驗(yàn)數(shù)據(jù)提供保障[2]。溫度控制的參數(shù)是決定溫度控制系統(tǒng)性能的重要影響因素,對(duì)于溫度控制系統(tǒng),較多采用傳統(tǒng)的比例-積分-微分(PID)控制策略,但是由于其參數(shù)調(diào)整復(fù)雜、對(duì)調(diào)試人員的要求較高,且調(diào)試后的溫度曲線具有較大的超調(diào)量,因此,該策略往往難以獲得較好的控制性能。為了克服這些不足,當(dāng)前已經(jīng)有眾多學(xué)者對(duì)全自動(dòng)化學(xué)發(fā)光儀上的溫控PID參數(shù)進(jìn)行了研究,盧雷[3]討論了基于PID線性控溫法,實(shí)現(xiàn)了對(duì)電化學(xué)發(fā)光免疫分析儀中的光電倍增管溫度的精確控制,但是使用試湊法進(jìn)行參數(shù)整定時(shí),調(diào)試過程需要依靠人工經(jīng)驗(yàn)才能調(diào)試出合適的PID參數(shù)。任浩[4]針對(duì)傳統(tǒng)PID控制在孵育箱系統(tǒng)進(jìn)行溫度控制時(shí),出現(xiàn)的控溫精度不高的問題,對(duì)PID控制進(jìn)行了研究,并改進(jìn)設(shè)計(jì)了一種變模糊論域的模糊PID控制方法,該方法雖然提高了恒溫控制精度,但是需要依靠經(jīng)驗(yàn)制定模糊規(guī)則才能達(dá)到最優(yōu)的控制性能。
本文以全自動(dòng)化學(xué)發(fā)光免疫分析儀的溫育盤加熱控制系統(tǒng)為例,構(gòu)建其數(shù)學(xué)模型,探討了深度確定性策略梯度(DDPG)算法在溫育盤加熱控制系統(tǒng)策略優(yōu)化方面的應(yīng)用,同時(shí)也構(gòu)造出馬爾可夫決策過程 (Markov Decision Process, MDP)模型,并通過仿真實(shí)驗(yàn)驗(yàn)證了DDPG算法的有效性,根據(jù)超調(diào)量、上升時(shí)間和調(diào)節(jié)時(shí)間等性能指標(biāo),對(duì)算法的改進(jìn)效果進(jìn)行了分析。
1? 溫度控制系統(tǒng)數(shù)學(xué)模型的建立
全自動(dòng)化學(xué)發(fā)光免疫分析儀通過高度集成的自動(dòng)化流程,結(jié)合化學(xué)發(fā)光技術(shù)和免疫分析的原理,實(shí)現(xiàn)了對(duì)生物樣本中特定抗原或抗體的高靈敏度和高精確度檢測(cè),其系統(tǒng)組成主要包括樣本處理系統(tǒng)、試劑管理系統(tǒng)、溫度控制系統(tǒng)和發(fā)光檢測(cè)系統(tǒng)等。其中,溫度控制系統(tǒng)分為溫育盤加熱控制系統(tǒng)、底物針加熱控制系統(tǒng)、反應(yīng)盤加熱控制系統(tǒng)和試劑盤制冷控制系統(tǒng)。
本文以溫育盤加熱控制系統(tǒng)為研究對(duì)象并建立數(shù)學(xué)模型,該系統(tǒng)具有自平衡能力,其數(shù)學(xué)模型可以用一階純滯后環(huán)節(jié)來描述,所以,溫育盤加熱控制系統(tǒng)的傳遞函數(shù)為
G(s)=■,(1)
式中:K,t0和τ分別為被控對(duì)象的靜態(tài)增益、純滯后時(shí)間常數(shù)和慣性時(shí)間常數(shù)[5]。
在工程上,對(duì)被控對(duì)象施加階躍信號(hào)是一種常用的系統(tǒng)響應(yīng)分析方法,觀察被控對(duì)象在階躍信號(hào)作用下的變化過程,記錄數(shù)據(jù)并繪制出系統(tǒng)的時(shí)間響應(yīng)曲線[6],可以根據(jù)響應(yīng)曲線,結(jié)合科恩-庫恩(Cohen-Coon)[7]經(jīng)驗(yàn)公式計(jì)算出傳遞函數(shù)中的參數(shù)K,t0和τ。
按照上述方法,為了實(shí)驗(yàn)?zāi)軌蝽樌M(jìn)行,本文選用三線制PT1000作為溫度傳感器,設(shè)計(jì)了微處理器和數(shù)字溫度測(cè)量芯片相結(jié)合的高精度溫度采集電路。將溫度傳感器安裝在溫育盤模塊上,在測(cè)試過程中給定輸入階躍信號(hào)為50 ℃,通過溫度采集電路不斷獲取溫度值,每隔30 s記錄一次溫度變化數(shù)據(jù),得到的結(jié)果見表1。
根據(jù)記錄的溫度數(shù)據(jù),繪制溫育盤模塊的階躍響應(yīng)曲線,如圖1所示。
根據(jù)科恩-庫恩經(jīng)驗(yàn)公式,如式(2)—式(4)所示
K=■,(2)
t0=1.5(t0.632-t0.28),(3)
τ=1.5(t0.28-t0.632/3),(4)
式中:?駐M為溫度控制系統(tǒng)的階躍輸入;?駐C為溫度控制系統(tǒng)的輸出響應(yīng);t0.28為階躍響應(yīng)曲線在0.28?駐C時(shí)的時(shí)間,s;t0.632為階躍響應(yīng)曲線在0.632?駐C時(shí)的時(shí)間,s。
給定輸入階躍信號(hào)為50 ℃,即?駐M=50,?駐C=25,根據(jù)響應(yīng)曲線可以得到t0.28=157 s,t0.632=269 s,從而求得K=?駐C/?駐M=0.5,t0=168 s,τ=101 s,由此,通過計(jì)算可以得到溫育盤加熱控制系統(tǒng)的傳遞函數(shù)為
G(s)=■。(5)
表1? 溫度采集數(shù)據(jù)
圖1? 溫育盤模塊的階躍響應(yīng)曲線
2? 基于DDPG的溫度智能優(yōu)化控制
2.1? 馬爾科夫決策過程
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)作為機(jī)器學(xué)習(xí)的一個(gè)重要子領(lǐng)域,近年來在眾多領(lǐng)域得到了廣泛的應(yīng)用,如圖2所示,強(qiáng)化學(xué)習(xí)由2部分組成,即智能體和環(huán)境。在進(jìn)行強(qiáng)化學(xué)習(xí)的過程中,智能體與環(huán)境一直處于交互狀態(tài),智能體不斷地在環(huán)境中獲取狀態(tài),并執(zhí)行相應(yīng)的動(dòng)作,然后根據(jù)選擇動(dòng)作的結(jié)果,從環(huán)境中獲得獎(jiǎng)勵(lì)或者懲罰,智能體的目的就是盡可能多地從環(huán)境中獲取獎(jiǎng)勵(lì)[8]。
圖2? 強(qiáng)化學(xué)習(xí)示意圖
馬爾科夫決策過程是一種數(shù)學(xué)框架,廣泛應(yīng)用于強(qiáng)化學(xué)習(xí)和動(dòng)態(tài)規(guī)劃等領(lǐng)域,用于描述在隨機(jī)環(huán)境中進(jìn)行決策的問題,該過程可以用一個(gè)四元組{S,A,P,R}描述[9],其中S是一個(gè)有限的狀態(tài)空間集合;A是智能體Agent在每個(gè)狀態(tài)下選擇的動(dòng)作空間集合;P是智能體在當(dāng)前狀態(tài)s下采取動(dòng)作a后,轉(zhuǎn)移到下一個(gè)狀態(tài)st+1的概率;R是在狀態(tài)s時(shí)執(zhí)行動(dòng)作a,并達(dá)到下一個(gè)狀態(tài)st+1時(shí)所能得到的及時(shí)獎(jiǎng)勵(lì),該獎(jiǎng)勵(lì)能夠指導(dǎo)智能體學(xué)習(xí)最優(yōu)策略。
2.2? DDPG算法
強(qiáng)化學(xué)習(xí)領(lǐng)域的算法主要包括Q學(xué)習(xí)算法、Deep Q-Network(DQN)算法、Actor-Critic算法和DDPG算法等。DQN算法是將神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)相結(jié)合,主要用于解決離散動(dòng)作空間的任務(wù)[10]。為了在連續(xù)控制問題上有更好的效果,在2016年,DeepMind團(tuán)隊(duì)提出了一種基于深度確定性策略梯度的算法,即DDPG強(qiáng)化學(xué)習(xí)算法[11]。
DDPG算法的結(jié)構(gòu)框圖如圖3所示,它是基于Actor-Critic架構(gòu)的一種強(qiáng)化學(xué)習(xí)算法,該結(jié)構(gòu)由價(jià)值網(wǎng)絡(luò)Critic和策略網(wǎng)絡(luò)Actor組成。Critic網(wǎng)絡(luò)根據(jù)值函數(shù),向最小化損失函數(shù)的方向進(jìn)行更新,調(diào)整其神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)θQ,以此來實(shí)現(xiàn)目標(biāo)總收益的最大化。Actor網(wǎng)絡(luò)基于策略梯度的方式向獎(jiǎng)勵(lì)最大的方向進(jìn)行更新,調(diào)整其神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)θμ,選擇需要執(zhí)行的動(dòng)作[12]。
根據(jù)損失函數(shù)更新Critic網(wǎng)絡(luò),損失函數(shù)變化如下
L=■∑i(yi-Q(si,ai│θQ))2, (6)
式中:yi=ri+γQ′(si+1,μ′(st+1│θμ′)|θQ′),Q(si,ai│θQ)為Q(si,ai)的估計(jì)值。
根據(jù)策略梯度更新Actor網(wǎng)絡(luò)
?犖θμJ≈■∑i?犖aQ(s,a│θQ)|■·?犖θμμ(s|θμ)|■。(7)
為了避免參數(shù)更新較快,且目標(biāo)值也在不斷更新,造成學(xué)習(xí)過程不穩(wěn)定的情況,在DDPG算法中建立了Actor目標(biāo)網(wǎng)絡(luò)和Critic目標(biāo)網(wǎng)絡(luò)。因此,DDPG算法包含4種神經(jīng)網(wǎng)絡(luò),即Actor網(wǎng)絡(luò)、Actor目標(biāo)網(wǎng)絡(luò)、Critic網(wǎng)絡(luò)和Critic目標(biāo)網(wǎng)絡(luò)[13]。Actor目標(biāo)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)參數(shù)為θμ′,Critic目標(biāo)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)參數(shù)為θQ′,采用更新幅度較小的軟更新方式,如式(8)和式(9),能夠確保學(xué)習(xí)的穩(wěn)定性。
θQ′←ωθQ+(1-ω)θQ′,(8)
θμ′←ωθμ+(1-ω)θμ′,(9)
根據(jù)歷史經(jīng)驗(yàn),一般取ω為0.001。
在強(qiáng)化學(xué)習(xí)中,智能體與環(huán)境交互產(chǎn)生的數(shù)據(jù),在連續(xù)時(shí)間上的經(jīng)驗(yàn)往往高度相關(guān),容易影響長期學(xué)習(xí)效果,DDPG算法借鑒了DQN算法中經(jīng)驗(yàn)回放的方法,來打破訓(xùn)練數(shù)據(jù)的相關(guān)性問題。將智能體與環(huán)境交互產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù)樣本存儲(chǔ)到經(jīng)驗(yàn)池中,然后抽取批量樣本數(shù)據(jù)進(jìn)行訓(xùn)練,減少了數(shù)據(jù)之間的相關(guān)性,增加了算法的穩(wěn)定性[14]。
為了克服在連續(xù)行為空間學(xué)習(xí)的過程中, 避免陷入局部最優(yōu)解的問題,提高智能體的探索性,DDPG算法給動(dòng)作添加一個(gè)噪聲Nt,其表達(dá)式如式(10)所示
at=μ(s│θμ)+Nt。(10)
2.3? 基于DDPG的溫育盤溫度優(yōu)化控制策略
用DDPG算法進(jìn)行全自動(dòng)化學(xué)發(fā)光免疫分析儀的溫育盤加熱控制系統(tǒng)控制策略優(yōu)化時(shí),要建立MDP模型,根據(jù)本文所研究的內(nèi)容,溫育盤加熱控制系統(tǒng)的MDP模型參數(shù)如下。
1)狀態(tài)空間。環(huán)境狀態(tài)描述了在任意時(shí)刻智能體在環(huán)境中的位置信息,對(duì)要執(zhí)行的動(dòng)作有很重要的意義,考慮到溫度傳感器的讀數(shù)是反映分析儀當(dāng)前溫度狀態(tài)的直接指標(biāo),本文設(shè)置的狀態(tài)空間參數(shù)為時(shí)間、溫育盤的實(shí)時(shí)溫度和目標(biāo)溫度。
2)動(dòng)作空間。DDPG算法在處理連續(xù)動(dòng)作空間問題時(shí),具有較好的效果,智能體根據(jù)環(huán)境狀態(tài)反饋的信息,執(zhí)行相應(yīng)的動(dòng)作。動(dòng)作空間的設(shè)計(jì)之間關(guān)聯(lián)到溫育盤加熱控制系統(tǒng)的調(diào)控能力,本文選取加熱裝置的打開和關(guān)閉,以及實(shí)時(shí)功率的調(diào)整為智能體的動(dòng)作。
3)轉(zhuǎn)移概率。在本文研究的強(qiáng)化學(xué)習(xí)問題中,轉(zhuǎn)移概率P是無法確定的,因此,本文采用采樣的方法對(duì)P進(jìn)行無偏估計(jì)。
4)獎(jiǎng)勵(lì)函數(shù)。在基于DDPG算法的溫育盤溫控控制策略的研究中,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是實(shí)現(xiàn)DDPG算法實(shí)現(xiàn)有效學(xué)習(xí)的關(guān)鍵之一,直接關(guān)系到智能體的學(xué)習(xí)方向和速度。在溫度控制系統(tǒng)中,目標(biāo)溫度與當(dāng)前溫度的差值,即誤差e(t),其大小是衡量控制性能的一個(gè)重要指標(biāo),引入誤差作為獎(jiǎng)勵(lì)函數(shù)的一部分,能夠激勵(lì)智能體更加注重對(duì)大偏差的校正。系統(tǒng)的穩(wěn)定性也是獎(jiǎng)勵(lì)函數(shù)考慮的重要因素,本文采用溫度誤差變化率作為獎(jiǎng)勵(lì)函數(shù)的另一組成部分,以鼓勵(lì)智能體采取平滑的控制策略。由此,本文將獎(jiǎng)勵(lì)函數(shù)定義為
Rt=α1r1(t)+α2r2(t),? ? ? ? ? ? (11)
式中:α1和α2分別是誤差和誤差變化率的權(quán)重系數(shù),r1(t)和r2(t)分別為誤差和誤差變化率變化的表達(dá)式,如式(12)和式(13)所示
r1(t)=0,|e(t)|≤ε1,其他,(12)
r2(t)=0,|e(t)|≤e(t-1)1,其他 ,(13)
式中:ε為允許的誤差變化范圍。
3? 仿真分析
為了驗(yàn)證DDPG算法的有效性,本文利用Matlab/Simulink,將傳統(tǒng)PID控制、模糊PID控制及DDPG算法對(duì)所建立的模型進(jìn)行對(duì)比仿真。
在傳統(tǒng)PID控制進(jìn)行仿真時(shí),將溫度誤差進(jìn)行相應(yīng)的比例、積分和微分計(jì)算,得到PID控制器的輸出量,將其作用在溫育盤加熱控制系統(tǒng)的傳遞函數(shù)上,獲得最終的輸出結(jié)果。通過經(jīng)驗(yàn),調(diào)節(jié)比例參數(shù)Kp為1.3、調(diào)節(jié)積分參數(shù)Ki為0.01和調(diào)節(jié)微分參數(shù)Kd為0.7,溫育盤加熱控制系統(tǒng)達(dá)到目標(biāo)溫度。
模糊PID控制是將模糊控制理論與傳統(tǒng)PID控制相結(jié)合的一種控制策略,仿真時(shí),通過制定模糊規(guī)則,以誤差和誤差的變化率為輸入進(jìn)行模糊推理,利用模糊規(guī)則對(duì)PID參數(shù)進(jìn)行修正,將修正后的PID參數(shù)經(jīng)過計(jì)算后作用于溫育盤加熱控制系統(tǒng)的傳遞函數(shù),最終實(shí)現(xiàn)溫育盤加熱控制系統(tǒng)達(dá)到目標(biāo)溫度。
DDPG算法通過經(jīng)驗(yàn)回放和智能體不斷地根據(jù)獎(jiǎng)勵(lì)函數(shù)進(jìn)行自主學(xué)習(xí),執(zhí)行相應(yīng)的動(dòng)作,實(shí)現(xiàn)溫育盤加熱控制系統(tǒng)達(dá)到目標(biāo)溫度。DDPG算法的主要參數(shù)設(shè)置見表2。
表2? DDPG算法的網(wǎng)絡(luò)參數(shù)
其中,在網(wǎng)絡(luò)參數(shù)調(diào)節(jié)過程中,選擇較大的學(xué)習(xí)率參數(shù)時(shí),容易造成學(xué)習(xí)速度較快,對(duì)系統(tǒng)的穩(wěn)定性有較大的影響,系統(tǒng)不容易收斂,因此選取0.001作為Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的學(xué)習(xí)率;折扣因子作為對(duì)未來獎(jiǎng)勵(lì)的重視程度,選擇不合適時(shí)會(huì)對(duì)溫度的預(yù)測(cè)帶來影響,經(jīng)過調(diào)試,本文的折扣因子選為0.5。
圖4給出了將目標(biāo)溫度設(shè)定在37 ℃時(shí),傳統(tǒng)PID控制、模糊PID控制以及DDPG算法作用在溫育盤加熱控制系統(tǒng)上,單位階躍輸入指令控制的響應(yīng)曲線。在圖4中,傳統(tǒng)PID、模糊PID和DDPG分別表示不同算法控制下的溫育盤加熱控制系統(tǒng)響應(yīng)曲線。
圖4? 仿真結(jié)果
從測(cè)試數(shù)據(jù)來看,3種控制策略均能夠?qū)⒛繕?biāo)溫度控制在±0.1 ℃的范圍內(nèi),考慮到超調(diào)量、上升時(shí)間和調(diào)節(jié)時(shí)間是分析溫度控制系統(tǒng)性能的重要指標(biāo),本文以此分析了這3種控制策略所對(duì)應(yīng)的性能指標(biāo),見表3。
表3? 3種控制算法的性能指標(biāo)
由表3可知,基于DDPG算法的溫育盤加熱控制系統(tǒng),雖然在上升時(shí)間上與模糊PID以及傳統(tǒng)PID控制策略上有差異,但是具有更快的調(diào)節(jié)時(shí)間且?guī)缀鯖]有出現(xiàn)超調(diào),相較于傳統(tǒng)PID控制算法,DDPG控制算法在超調(diào)量上提升了99.8%,在調(diào)節(jié)時(shí)間上提升了14.9%;相較于模糊PID控制算法,DDPG算法在超調(diào)量上提升了99.2%,調(diào)節(jié)時(shí)間上提升了6.3%,具有明顯的優(yōu)越性。
4? 結(jié)束語
針對(duì)傳統(tǒng)PID控制算法在全自動(dòng)化學(xué)發(fā)光免疫分析儀的溫度控制系統(tǒng)應(yīng)用過程中,存在調(diào)節(jié)時(shí)間長,超調(diào)量大,并且在進(jìn)行PID參數(shù)調(diào)節(jié)時(shí),需要一定的人工經(jīng)驗(yàn)等問題,本文提出了基于深度確定性策略梯度的溫度控制算法,并結(jié)合全自動(dòng)化學(xué)發(fā)光免疫分析儀上的溫育盤加熱控制系統(tǒng),建立系統(tǒng)傳遞函數(shù),進(jìn)行仿真驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,基于深度確定性策略的溫度控制算法,在調(diào)節(jié)時(shí)間和超調(diào)量上,有明顯的提升,驗(yàn)證了其有效性,對(duì)于進(jìn)一步提升儀器的溫控性能,具有較大意義。
參考文獻(xiàn):
[1] 農(nóng)天雷,林敏.全自動(dòng)化學(xué)發(fā)光免疫分析儀臨床應(yīng)用質(zhì)量控制探討[J].中外醫(yī)學(xué)研究,2011,9(21):187-188.
[2] 姚繼承,叢海燕,劉鵬,等.AutolumiS 3000型化學(xué)發(fā)光分析儀溫度控制系統(tǒng)的結(jié)構(gòu)和功能分析[J].實(shí)用檢驗(yàn)醫(yī)師雜志,2019,11(3):183-185.
[3] 盧雷.某型化學(xué)發(fā)光免疫分析儀的恒溫控制系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2014.
[4] 任浩.全自動(dòng)化學(xué)發(fā)光免疫分析儀的恒溫孵育箱設(shè)計(jì)與實(shí)現(xiàn)[D].重慶:重慶大學(xué),2018.
[5] 許玉忠.基于自適應(yīng)模糊PID控制的電阻爐溫度控制系統(tǒng)[J].華北水利水電學(xué)院學(xué)報(bào),2011,32(2):83-86.
[6] 李瑾.基于STM32的圍術(shù)期病員加溫系統(tǒng)的設(shè)計(jì)[D].鎮(zhèn)江:江蘇大學(xué),2022.
[7] 郝朝會(huì),孫傳祝,蘇夏侃.自適應(yīng)模糊PID控制在茶葉殺青機(jī)中的應(yīng)用[J].農(nóng)機(jī)化研究,2013,35(2):201-204.
[8] 王琦,楊毅遠(yuǎn),江季.Easy RL:強(qiáng)化學(xué)習(xí)教程[M].北京:人民郵電出版社,2022.
[9] 周鑫,陳建平,傅啟明.基于DDPG模型的建筑能耗控制方法[J].計(jì)算機(jī)應(yīng)用與軟件,2023,40(2):40-47.
[10] 朱永紅,段明明,楊榮杰.基于深度確定性策略梯度的陶瓷梭式窯溫度智能優(yōu)化控制[J].陶瓷學(xué)報(bào),2023,44(2):337-344.
[11] PAUL L T, JAMES H J, DAVID S, et al. Continuous control with deep reinforcement learning[J].2018.
[12] 萬典典,劉智偉,陳語,等.基于DDPG算法的冰蓄冷空調(diào)系統(tǒng)運(yùn)行策略優(yōu)化[J].控制工程,2022,29(3):441-446.
[13] LIU Y C, HUANG C Y. DDPG-Based Adaptive Robust Tracking Control for Aerial Manipulators With Decoupling Approach[J].IEEE Transactions on Cybernetics, 2021(99):1-14.
[14] 趙子瑞,陶慶,楊濤,等.基于DDPG的下肢康復(fù)機(jī)器人軌跡跟蹤控制[J].機(jī)床與液壓,2023,51(11):13-19.