鄧紹斌,朱軍,周曉鋒*,李帥,劉舒銳
(1.中國(guó)科學(xué)院 網(wǎng)絡(luò)化控制系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,沈陽(yáng) 110016; 2.中國(guó)科學(xué)院 沈陽(yáng)自動(dòng)化研究所,沈陽(yáng) 110169;3.中國(guó)科學(xué)院 機(jī)器人與智能制造創(chuàng)新研究院,沈陽(yáng) 110169; 4.中國(guó)科學(xué)院大學(xué),北京 100049)(?通信作者電子郵箱zhouxf@sia.cn)
基于局部策略交互探索的深度確定性策略梯度的工業(yè)過(guò)程控制方法
鄧紹斌1,2,3,4,朱軍1,2,3,周曉鋒1,2,3*,李帥1,2,3,4,劉舒銳1,2,3
(1.中國(guó)科學(xué)院 網(wǎng)絡(luò)化控制系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,沈陽(yáng) 110016; 2.中國(guó)科學(xué)院 沈陽(yáng)自動(dòng)化研究所,沈陽(yáng) 110169;3.中國(guó)科學(xué)院 機(jī)器人與智能制造創(chuàng)新研究院,沈陽(yáng) 110169; 4.中國(guó)科學(xué)院大學(xué),北京 100049)(?通信作者電子郵箱zhouxf@sia.cn)
為了實(shí)現(xiàn)對(duì)非線性、滯后性和強(qiáng)耦合的工業(yè)過(guò)程穩(wěn)定精確的控制,提出了一種基于局部策略交互探索的深度確定性策略梯度(LPIE-DDPG)的控制方法用于深度強(qiáng)化學(xué)習(xí)的連續(xù)控制。首先,使用深度確定性策略梯度(DDPG)算法作為控制策略,從而極大地減小控制過(guò)程中的超調(diào)和振蕩現(xiàn)象;同時(shí),使用原控制器的控制策略作為局部策略進(jìn)行搜索,并以交互探索規(guī)則進(jìn)行學(xué)習(xí),提高了學(xué)習(xí)效率和學(xué)習(xí)穩(wěn)定性;最后,在Gym框架下搭建青霉素發(fā)酵過(guò)程仿真平臺(tái)并進(jìn)行實(shí)驗(yàn)。仿真結(jié)果表明,相較于DDPG,LPIE-DDPG在收斂效率上提升了27.3%;相較于比例-積分-微分(PID),LPIE-DDPG在溫度控制效果上有更少的超調(diào)和振蕩現(xiàn)象,在產(chǎn)量上青霉素濃度提高了3.8%。可見所提方法能有效提升訓(xùn)練效率,同時(shí)提高工業(yè)過(guò)程控制的穩(wěn)定性。
工業(yè)過(guò)程控制;深度強(qiáng)化學(xué)習(xí);深度確定性策略梯度;局部策略交互探索;青霉素發(fā)酵過(guò)程
隨著現(xiàn)代化工業(yè)過(guò)程集成化加深,動(dòng)態(tài)控制性能要求越來(lái)越高。精準(zhǔn)有效的控制可以促進(jìn)工業(yè)過(guò)程的穩(wěn)定、產(chǎn)品質(zhì)量的提高和經(jīng)濟(jì)效益的增長(zhǎng),因此控制策略扮演著越來(lái)越重要的角色。
大多數(shù)工業(yè)過(guò)程是非線性、滯后性和強(qiáng)耦合的多輸入單輸出過(guò)程,青霉素發(fā)酵過(guò)程是典型之一,面對(duì)不同的工業(yè)要求,往往需要制定不同的控制策略。針對(duì)受時(shí)變干擾和時(shí)不變不確定的蒸餾塔過(guò)程,Bansal等[1]使用單變量比例-積分-微分(Proportion-Integration-Differentiation, PID)控制器對(duì)蒸餾塔過(guò)程進(jìn)行控制,取得了較好的經(jīng)濟(jì)效益,但面對(duì)多目標(biāo)的情況存在控制不足的問(wèn)題;Asteasuain等[2]提出了使用多變量PID控制器對(duì)連續(xù)攪拌釜反應(yīng)器進(jìn)行控制,實(shí)現(xiàn)了單變量到多變量的控制,但未考慮到控制系統(tǒng)的自適應(yīng)性;趙海丞等[3]提出變調(diào)節(jié)周期PID方法來(lái)控制溫度系統(tǒng),解決了溫控系統(tǒng)精度受限的問(wèn)題,一定程度上提高了系統(tǒng)自適應(yīng)性;包元興等[4]提出模糊PID與跟隨控制相結(jié)合的控制策略,實(shí)現(xiàn)了對(duì)具有純滯后、大慣性及通道間強(qiáng)耦合特性爐溫的準(zhǔn)確控制,進(jìn)一步提高了系統(tǒng)自適應(yīng)性。PID參數(shù)少、便于掌握,但隨著控制過(guò)程復(fù)雜化,參數(shù)調(diào)整往往需要專家長(zhǎng)時(shí)間的調(diào)整。
為了提高復(fù)雜工業(yè)系統(tǒng)的控制性能,研究者們引入了不同的控制方法。吳鵬松等[5]采用多變量解耦和內(nèi)??刂?,實(shí)現(xiàn)了對(duì)具有大滯后、強(qiáng)耦合特性系統(tǒng)的穩(wěn)定控制;張惠琳等[6]針對(duì)復(fù)雜的浮標(biāo)控制系統(tǒng),提出了基于雙閉環(huán)反饋回路的模糊PID定深控制,實(shí)現(xiàn)了對(duì)浮標(biāo)良好的控制和穩(wěn)定;莊緒君等[7]通過(guò)遺傳算法和迭代動(dòng)態(tài)規(guī)劃結(jié)合的混合優(yōu)化控制策略,解決了青霉素發(fā)酵模型的不確定性敏感的問(wèn)題。但上述方法都無(wú)法實(shí)現(xiàn)在線學(xué)習(xí),造成控制系統(tǒng)設(shè)計(jì)過(guò)程復(fù)雜,同時(shí)無(wú)法滿足最優(yōu)控制。
深度強(qiáng)化學(xué)習(xí)是一種利用數(shù)據(jù)驅(qū)動(dòng),通過(guò)與系統(tǒng)交互實(shí)現(xiàn)端到端控制的方法,將深度強(qiáng)化學(xué)習(xí)應(yīng)用到這類工業(yè)控制過(guò)程中,可以有效實(shí)現(xiàn)最優(yōu)控制,再進(jìn)一步通過(guò)對(duì)不同場(chǎng)景進(jìn)行設(shè)定,能夠有效地提高算法的自適應(yīng)性。郝鵑等[8]針對(duì)車間不確定環(huán)境調(diào)度問(wèn)題,提出了使用平均強(qiáng)化學(xué)習(xí)進(jìn)行控制,實(shí)現(xiàn)了車間的自適應(yīng)控制,但該方法的應(yīng)用局限于離散動(dòng)作的工業(yè)環(huán)境;王建平等[9]針對(duì)工業(yè)制造中傳統(tǒng)二連桿控制效率低和適用性低等缺點(diǎn),提出了使用基于深度強(qiáng)化學(xué)習(xí)的方法,實(shí)現(xiàn)了連續(xù)控制穩(wěn)定性和適用性的提高,但忽略了復(fù)雜工業(yè)數(shù)據(jù)導(dǎo)致訓(xùn)練困難的問(wèn)題。
針對(duì)非線性、滯后性和強(qiáng)耦合的工業(yè)過(guò)程難以滿足控制器的在線穩(wěn)定訓(xùn)練需求和精準(zhǔn)穩(wěn)定的連續(xù)控制需求,本文提出了基于局部策略交互探索的深度確定性策略梯度(Local Policy Interaction Exploration-based Deep Deterministic Policy Gradient, LPIE-DDPG)的控制方法。一方面,深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)有很強(qiáng)的自我學(xué)習(xí)能力,可以根據(jù)不同環(huán)境學(xué)習(xí)最優(yōu)控制策略,在最優(yōu)控制中展現(xiàn)出直接自適應(yīng)性。另一方面,針對(duì)DDPG學(xué)習(xí)效率不足,引入PID在工業(yè)控制中的控制邏輯,將PID的控制策略以專家經(jīng)驗(yàn)的形式作為局部策略,并通過(guò)交互規(guī)則學(xué)習(xí)PID的控制策略,最后進(jìn)行再探索和再利用,完成最優(yōu)策略的學(xué)習(xí)。其中,交互規(guī)則保證了代理在強(qiáng)相似的工業(yè)數(shù)據(jù)中正常學(xué)習(xí),在線局部策略提高了代理的收斂速度,再探索和再利用保留了代理的尋優(yōu)能力,使得DDPG能收斂于最優(yōu)策略。最后,本文通過(guò)具有代表性的多輸出單輸出過(guò)程——青霉素發(fā)酵過(guò)程進(jìn)行仿真實(shí)驗(yàn),驗(yàn)證了本文方法的有效性。
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種以系統(tǒng)狀態(tài)為輸入、以策略函數(shù)為輸出的方法,作為自監(jiān)督的學(xué)習(xí)方式,一方面基于行動(dòng)和獎(jiǎng)勵(lì)數(shù)據(jù)進(jìn)行反復(fù)訓(xùn)練,優(yōu)化行動(dòng)策略,另一方面自主地與環(huán)境互動(dòng),觀測(cè)并獲取環(huán)境反饋[10]。
深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合,深度神經(jīng)網(wǎng)絡(luò)克服了強(qiáng)化學(xué)習(xí)方法只能應(yīng)用于非凸策略函數(shù)的局限,解決了強(qiáng)化學(xué)習(xí)算法不能應(yīng)用到非常復(fù)雜的決策情景的問(wèn)題,實(shí)現(xiàn)了端到端的學(xué)習(xí)。
DDPG是深度強(qiáng)化學(xué)習(xí)中一種基于策略的強(qiáng)化學(xué)習(xí)方法,可以在連續(xù)行為空間中尋找最優(yōu)策略[11]。
對(duì)行動(dòng)價(jià)值網(wǎng)絡(luò)的訓(xùn)練是基于最小化損失函數(shù):
而現(xiàn)實(shí)網(wǎng)絡(luò)中演說(shuō)家網(wǎng)絡(luò)使用策略梯度算法更新的參數(shù)為:
網(wǎng)絡(luò)參數(shù)復(fù)制采用軟更新方式:
DDPG仍然存在如何權(quán)衡探索和利用的矛盾,學(xué)習(xí)過(guò)程中樣本效率低,學(xué)習(xí)成本高。針對(duì)學(xué)習(xí)效率不足的問(wèn)題,Hou等[12]使用優(yōu)先經(jīng)驗(yàn)重放池代替經(jīng)驗(yàn)重放緩沖池,可以極大縮短網(wǎng)絡(luò)總訓(xùn)練時(shí)間。但采用比例優(yōu)先性定義時(shí),經(jīng)驗(yàn)被抽取的概率正比于經(jīng)驗(yàn)時(shí)序誤差值,時(shí)序誤差值越大,經(jīng)驗(yàn)被回放的概率更大。因此在工業(yè)過(guò)程中,非良性控制經(jīng)驗(yàn)將在回放經(jīng)驗(yàn)池被一直回放,良性控制的經(jīng)驗(yàn)得不到回放,代理的學(xué)習(xí)效果受時(shí)序誤差離群值的不利影響,優(yōu)先經(jīng)驗(yàn)重放池失效。
在模仿學(xué)習(xí)中,代理像人類專家那樣執(zhí)行一種行為,最大化預(yù)期總回報(bào),可以有效地解決探索的問(wèn)題,但是由于代理通常只模仿專家的標(biāo)注行為,代理的表現(xiàn)不能超過(guò)主題專家或主管[13]。
本文將專家知識(shí)應(yīng)用到探索和策略估計(jì)中,提出了基于局部策略交互探索的深度確定性策略梯度算法,通過(guò)在線收集原控制器的控制經(jīng)驗(yàn),以模仿學(xué)習(xí)的方式,加快訓(xùn)練智能體,LPIE-DDPG的結(jié)構(gòu)如圖1所示。
圖1 LPIE-DDPG的結(jié)構(gòu)Fig. 1 Structure of LPIE-DDPG
Agent內(nèi)部結(jié)構(gòu)(DDPG):現(xiàn)實(shí)網(wǎng)絡(luò)中演說(shuō)家Actor從經(jīng)驗(yàn)池中取出作為輸入,并輸出一個(gè)表示從連續(xù)動(dòng)作空間中選擇的動(dòng)作的單一實(shí)值,經(jīng)過(guò)環(huán)境得到當(dāng)前獎(jiǎng)勵(lì),隨后目標(biāo)網(wǎng)絡(luò)中演說(shuō)家Actor根據(jù)下一個(gè)狀態(tài)輸出動(dòng)作并傳給目標(biāo)網(wǎng)絡(luò)中評(píng)論家Critic。
基于局部策略交互探索(Local Policy Interaction Exploration, LPIE)的流程結(jié)構(gòu)包括以下兩部分。
策略更新 隨機(jī)地從經(jīng)驗(yàn)池取出經(jīng)驗(yàn)進(jìn)行網(wǎng)絡(luò)更新。
探索階段 使用Agent網(wǎng)絡(luò)進(jìn)行自主探索,通過(guò)試錯(cuò)的形式完成搜索和經(jīng)驗(yàn)獲取。
策略更新 從經(jīng)驗(yàn)池取出經(jīng)驗(yàn)進(jìn)行網(wǎng)絡(luò)更新。
自由探索保證了Agent網(wǎng)絡(luò)更新不會(huì)陷入局部策略,朝著最優(yōu)策略探索和學(xué)習(xí)。
LPIE-DDPG算法的具體步驟如算法1所示。
算法1 基于局部策略交互探索的深度確定性策略梯度。
3) 獲取初始狀態(tài)
7) else
9) end if
13) if 達(dá)到網(wǎng)絡(luò)的策略優(yōu)化更新條件then:
15) 評(píng)論家根據(jù)式(1)更新網(wǎng)絡(luò)參數(shù)
16) 演說(shuō)家根據(jù)式(2)更新網(wǎng)絡(luò)參數(shù)
18) end if
19) end for
20) end for
將深度強(qiáng)化學(xué)習(xí)控制應(yīng)用到多輸入單輸出的工業(yè)過(guò)程的控制流程如下:
1)建立實(shí)際系統(tǒng)交互模型。
2)根據(jù)實(shí)際系統(tǒng)模型建立馬爾可夫模型。
3)驗(yàn)證實(shí)際系統(tǒng)交互模型的準(zhǔn)確性和馬爾可夫模型的可行性。
4)根據(jù)馬爾可夫模型設(shè)置模型參數(shù),如狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)等。
5)借鑒原控制器的控制策略,對(duì)代理進(jìn)行多次訓(xùn)練。
6)將代理應(yīng)用到控制過(guò)程,實(shí)現(xiàn)對(duì)系統(tǒng)的有效控制。
青霉素仿真過(guò)程是青霉素發(fā)酵的一系列過(guò)程:青霉素菌種在合適的培養(yǎng)基、PH、溫度和通氣攪拌等發(fā)酵條件下進(jìn)行生長(zhǎng)和合成青霉素的代謝活動(dòng)[14]。青霉素發(fā)酵過(guò)程用到發(fā)酵罐、冷水調(diào)節(jié)器、熱水調(diào)節(jié)器、攪拌器和酸堿液調(diào)節(jié)器,青霉素生產(chǎn)發(fā)酵過(guò)程的流程如圖2所示。
圖2 青霉素發(fā)酵過(guò)程Fig. 2 Penicillin fermentation process
青霉素發(fā)酵過(guò)程是一個(gè)典型的非線性、強(qiáng)耦合和滯后性的間歇過(guò)程。青霉素發(fā)酵過(guò)程被劃分為兩個(gè)階段:菌體生長(zhǎng)期和青霉素合成期[15]。青霉素發(fā)酵過(guò)程是一個(gè)長(zhǎng)時(shí)間持續(xù)的生產(chǎn)過(guò)程,其總過(guò)程大約在400 h。前一個(gè)階段是菌種生長(zhǎng)階段,持續(xù)50 h~60 h,后兩個(gè)階段是青霉素合成和菌體衰老階段,持續(xù)340 h~350 h。在不同時(shí)期,菌體的生長(zhǎng)環(huán)境又受諸多因素影響,在前兩個(gè)階段,青霉素生長(zhǎng)的最佳溫度是303 K,最佳PH是6.2~6.5,在后兩個(gè)階段,青霉素合成的最佳溫度是298 K,最佳PH是6.5~6.9。這使得青霉素發(fā)酵過(guò)程是一個(gè)非線性和多動(dòng)態(tài)的過(guò)程,并且發(fā)酵過(guò)程有9個(gè)初始變量、7個(gè)過(guò)程變量,這使得青霉素發(fā)酵過(guò)程是一個(gè)多輸入和強(qiáng)耦合過(guò)程。
本文選取的研究對(duì)象是青霉素發(fā)酵過(guò)程,青霉素發(fā)酵過(guò)程的控制與強(qiáng)化學(xué)習(xí)結(jié)合的前提就是建立青霉素發(fā)酵的馬爾可夫模型。定義青霉素發(fā)酵的馬爾可夫模型如圖3所示:是由青霉素發(fā)酵過(guò)程的初始狀態(tài)和可變的操縱變量組成的狀態(tài)空間,是由青霉素發(fā)酵過(guò)程的可控變量組成的動(dòng)作空間,是青霉素發(fā)酵過(guò)程不同狀態(tài)之間的轉(zhuǎn)移概率,是在當(dāng)前狀態(tài)執(zhí)行策略獲得的即時(shí)獎(jiǎng)勵(lì)。
圖3 青霉素發(fā)酵馬爾可夫模型Fig. 3 Markov model of penicillin fermentation
青霉素合成期和菌體自溶期是青霉素合成的關(guān)鍵時(shí)期,溫度和PH是青霉素合成的關(guān)鍵影響因素,因此本文選取青霉素合成期和菌體自溶期作為實(shí)驗(yàn)的背景,青霉素合成過(guò)程中以溫度控制作為實(shí)驗(yàn)內(nèi)容。針對(duì)選取實(shí)驗(yàn)內(nèi)容的實(shí)際控制情況,青霉素發(fā)酵過(guò)程馬爾可夫模型的具體參數(shù)規(guī)定如下:
在保證PH穩(wěn)定控制的情況下,基于生化反應(yīng)各個(gè)狀態(tài)值的強(qiáng)耦合性和強(qiáng)相關(guān)性,選擇當(dāng)前時(shí)刻的氧氣濃度、菌體濃度、青霉素濃度(g/L)、培養(yǎng)基體積(L)、二氧化碳濃度、發(fā)酵器反應(yīng)溫度和溫度差作為狀態(tài)空間參數(shù)。
根據(jù)實(shí)際控制原則,選擇實(shí)際控制過(guò)程中的被控變量-冷水值作為控制動(dòng)作。
轉(zhuǎn)移概率取決于當(dāng)前狀態(tài)執(zhí)行動(dòng)作策略后的新狀態(tài)。
由于青霉素合成的需要,溫度應(yīng)保持在298 K,因此,獎(jiǎng)勵(lì)函數(shù)定義如下:
本文的仿真環(huán)境是基于Matlab/Simulink環(huán)境的青霉素發(fā)酵過(guò)程仿真平臺(tái)[16],使用Python語(yǔ)言,在Gym框架下完成了青霉素仿真模型的遷移。
部分主要狀態(tài)方程如生物質(zhì)濃度的計(jì)算式為:
溫度對(duì)微生物比生長(zhǎng)速率的影響為:
青霉素濃度的生產(chǎn)用非生長(zhǎng)伴隨產(chǎn)物形成動(dòng)力學(xué)模型表示:
考慮到溫度對(duì)發(fā)酵過(guò)程的影響,本文對(duì)完成控制過(guò)程的目標(biāo)設(shè)定為:在PH穩(wěn)定控制的情況下,實(shí)現(xiàn)溫度值調(diào)控的低超調(diào)和低振蕩。
1)神經(jīng)網(wǎng)絡(luò)參數(shù)。
LPIE-DDPG網(wǎng)絡(luò)分為演說(shuō)家網(wǎng)絡(luò)(Actor)和評(píng)論家網(wǎng)絡(luò)(Critic),輸入神經(jīng)元數(shù)和輸出神經(jīng)元數(shù)分別對(duì)應(yīng)狀態(tài)個(gè)數(shù)和動(dòng)作個(gè)數(shù),隱含神經(jīng)元數(shù)由實(shí)驗(yàn)測(cè)試所得,根據(jù)損失函數(shù)的下降趨勢(shì),分別確定學(xué)習(xí)率的大小,激活函數(shù)選擇能使模型收斂速度穩(wěn)定的ReLU(Rectified Linear Unit)函數(shù),具體神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示。
表1 神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置Tab. 1 Neural network parameter setting
2)仿真平臺(tái)初始參數(shù)。
在仿真模型中,故障變量包含通風(fēng)率、攪拌機(jī)功率和底物的喂養(yǎng)速率。通風(fēng)率噪聲設(shè)置為1 L/h,攪拌功率噪聲設(shè)置為0.06 W,底物的喂養(yǎng)速率不變。仿真平臺(tái)其他初始參數(shù)如表2所示,其中青霉素濃度指青霉素產(chǎn)量在培養(yǎng)基中的占比,發(fā)酵器反應(yīng)溫度是在發(fā)酵過(guò)程中受外界環(huán)境和產(chǎn)生熱影響的溫度值。
3)算法超參數(shù)。
訓(xùn)練總集數(shù)為2 000,總步數(shù)為200步,折扣因子和經(jīng)驗(yàn)池容量等超參數(shù)的設(shè)置如表3所示。
本文規(guī)定3個(gè)指標(biāo)來(lái)對(duì)控制策略進(jìn)行評(píng)價(jià),分別為溫度變化、青霉素產(chǎn)量和抗干擾能力。其中,溫度變化指控制溫度和目標(biāo)溫度298 K的差值大小,青霉素產(chǎn)量為在培養(yǎng)基中的青霉素濃度,抗干擾能力為在干擾信號(hào)下對(duì)溫度的穩(wěn)定控制能力(相同條件下,溫度變化差值越小,青霉素產(chǎn)量越高,抗干擾能力越強(qiáng),控制策略越優(yōu))。
訓(xùn)練過(guò)程如圖4所示,其中15 000為PID控制情況下每集的獎(jiǎng)勵(lì)累加,并將其作為局部策略引入到DDPG。此外,還將LPIE引入到DQN(Deep Q-learning Network)中,形成局部策略交互探索DQN(Local Policy Interaction Exploration-based Deep Q-learning Network, LPIE-DQN)。軸是訓(xùn)練集數(shù),軸是平均獎(jiǎng)勵(lì),考慮到獎(jiǎng)勵(lì)受訓(xùn)練過(guò)程中探索的影響,本文采用9∶1的獎(jiǎng)勵(lì)累加形式,具體如式(12)所示:
表2 青霉素發(fā)酵過(guò)程變量的初始值Tab. 2 Initial values of penicillin fermentation process variables
表3 算法超參數(shù)設(shè)置Tab. 3 Algorithm hyperparameter setting
圖4 不同算法隨迭代次數(shù)變化的獎(jiǎng)勵(lì)值Fig. 4 Reward values of different algorithms changing with number of iterations
相較于DDPG,LPIE-DDPG迅速地在100集左右達(dá)到局部收斂,并在800集處達(dá)到最優(yōu),收斂總平均獎(jiǎng)勵(lì)達(dá)到18 000,收斂效率提升了27.3%。此外,還對(duì)比了DQN和LPIE-DQN的學(xué)習(xí)效率,LPIE-DQN相較DQN更早達(dá)到收斂,在100集就完成了局部收斂,具體結(jié)果如表4所示。
通過(guò)對(duì)代理進(jìn)行仿真訓(xùn)練,生成最優(yōu)代理。最優(yōu)代理對(duì)青霉素發(fā)酵過(guò)程的控制結(jié)果如下3個(gè)指標(biāo)所示。
1)溫度變化指標(biāo)。在初始溫度為299 K和無(wú)干擾的條件下,不同方法的溫度變化如圖5所示。從圖5可以看出,相較于PID和LPIE-DQN,LPIE-DDPG的溫度控制表現(xiàn)出無(wú)超調(diào)和無(wú)振蕩。
表4 不同方法的學(xué)習(xí)效率對(duì)比Tab. 4 Comparison of learning efficiency of different methods
2)青霉素產(chǎn)量指標(biāo)。在同等初始條件下,青霉素發(fā)酵過(guò)程的產(chǎn)量結(jié)果如圖6所示。由圖6可以看出,相較于PID控制,使用LPIE-DDPG控制的青霉素產(chǎn)量濃度值提高了3.8%;相較于LPIE-DQN,LPIE-DDPG具有穩(wěn)定持續(xù)的高青霉素濃度值產(chǎn)量。
圖5 LPIE-DDPG、LPIE-DQN和PID的溫度控制效果對(duì)比Fig. 5 Comparison of temperature control effect of LPIE-DDPG, LPIE-DQN and PID
圖6 LPIE-DDPG、LPIE-DQN和PID控制下的青霉素產(chǎn)量對(duì)比Fig. 6 Comparison of penicillin yield under LPIE-DDPG,LPIE-DQN and PID control
3)抗干擾能力指標(biāo)。為了檢驗(yàn)系統(tǒng)的抗干擾能力,分別在20 h時(shí)刻和120 h時(shí)刻引入正向脈沖干擾和負(fù)向脈沖干擾,結(jié)果如圖7所示。由圖7可以看出,相較于PID和LPIE-DQN,LPIE-DDPG對(duì)含有干擾信號(hào)的環(huán)境具有更加平緩穩(wěn)定的控制性能。
圖7 LPIE-DDPG、LPIE-DQN和PID的抗干擾性對(duì)比Fig. 7 Comparison of interference resistance of LPIE-DDPG, LPIE-DQN and PID
針對(duì)工業(yè)控制過(guò)程的非線性、強(qiáng)耦合、滯后性等特點(diǎn), 本文提出了基于局部策略交互探索深度確定性策略梯度的控制方法。該方法以DDPG為框架,使用原控制器的控制策略進(jìn)行學(xué)習(xí),以交互探索的方式保證經(jīng)驗(yàn)回放的可行性,通過(guò)自由探索的形式從環(huán)境中直接學(xué)習(xí),最后通過(guò)與工業(yè)系統(tǒng)直接交互,完成精準(zhǔn)、穩(wěn)定的控制?;谇嗝顾胤抡婺P瓦M(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文方法有更高的學(xué)習(xí)效率和更快速的收斂性能,同時(shí)提高了工業(yè)過(guò)程控制的穩(wěn)定性。
未來(lái)的工作將研究在實(shí)際生產(chǎn)中應(yīng)用LPIE-DDPG,通過(guò)在探索過(guò)程中添加相關(guān)安全措施和優(yōu)化獎(jiǎng)勵(lì)函數(shù)來(lái)滿足實(shí)際生產(chǎn)需求、降低生產(chǎn)成本。
[1] BANSAL V, PERKINS J D, PISTIKOPOULOS E N. A case study in simultaneous design and control using rigorous, mixed-integer dynamic optimization models [J]. Industrial and Engineering Chemistry Research, 2002, 41(4): 760-778.
[2] ASTEASUAIN M, BANDONI A, SARMORIA C, et al. Simultaneous process and control system design for grade transition in styrene polymerization [J]. Chemical Engineering Science, 2006, 61(10): 3362-3378.
[3] 趙海丞,鄒應(yīng)全,劉睿佳,等.溫控系統(tǒng)中變調(diào)節(jié)周期PID算法[J].計(jì)算機(jī)應(yīng)用,2016,36(S2):116-119.(ZHAO H C,ZOU Y Q, LIU R J, et al. PID algorithm of variable adjustment period based on temperature control system [J]. Journal of Computer Applications, 2016, 36(S2): 116-119.)
[4] 包元興,丁炯,楊遂軍,等.強(qiáng)耦合雙通道熱分析爐溫度跟隨控制策略研究[J].測(cè)控技術(shù),2016,35(5):70-74.(BAO Y X, DING J,YANG S J, et al. Study on temperature following control strategy for strong-coupled dual-channel thermal analysis furnace [J]. Measurement and Control Technology, 2016, 35(5): 70-74.)
[5] 吳鵬松,吳朝野,周東華.大純滯后信號(hào)解耦內(nèi)??刂葡到y(tǒng)研究[J].化工自動(dòng)化及儀表,2012,39(9):1115-1117,1176.(WU P S, WU C Y, ZHOU D H. Research on signal-decoupling internal mode control system with big time lag [J]. Control and Instruments in Chemical Industry, 2012, 39(9): 1115-1117, 1176.)
[6] 張惠琳,李醒飛,楊少波,等.深海自持式智能浮標(biāo)雙閉環(huán)模糊PID定深控制[J].信息與控制,2019,48(2):202-208,216.(ZHANG H L, LI X F, YANG S B, et al. Dual closed-loop fuzzy PID depth control for deep-sea self-holding intelligent buoy [J]. Information and Control, 2019, 48(2): 202-208, 216.)
[7] 莊緒君,李宏光.基于遺傳算法與迭代動(dòng)態(tài)規(guī)劃混合策略的青霉素發(fā)酵過(guò)程優(yōu)化控制[J].計(jì)算機(jī)與應(yīng)用化學(xué),2013,30(9):1051-1054.(ZHUANG X J, LI H G. Optimization control strategies combined genetic algorithms and iterative dynamic programming for penicillin fermentation processes [J]. Computers and Applied Chemistry, 2013, 30(9): 1051-1054.)
[8] 郝鵑,余建軍,周文慧.基于平均強(qiáng)化學(xué)習(xí)的訂單生產(chǎn)方式企業(yè)訂單接受策略[J].計(jì)算機(jī)應(yīng)用,2013,33(4):976-979.(HAO J, YU J J, ZHOU W H. Order acceptance policy in make-to-order manufacturing based on average-reward reinforcement learning [J]. Journal of Computer Applications, 2013, 33(4): 976-979.)
[9] 王建平,王剛,毛曉彬,等.基于深度強(qiáng)化學(xué)習(xí)的二連桿機(jī)械臂運(yùn)動(dòng)控制方法[J].計(jì)算機(jī)應(yīng)用,2021,41(6):1799-1804.(WANG J P, WANG G,MAO X B, et al. Motion control method of two-link manipulator based on deep reinforcement learning [J]. Journal of Computer Applications, 2021, 41(6): 1799-1804.)
[10] 多南訊,呂強(qiáng),林輝燦,等.邁進(jìn)高維連續(xù)空間:深度強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域中的應(yīng)用[J].機(jī)器人,2019,41(2):276-288.(DUO N X, LYU Q, LIN H C, et al. Step into high-dimensional and continuous action space: a survey on applications of deep reinforcement learning to robotics [J]. Robot, 2019, 41(2): 276-288.)
[11] 劉洋,李建軍.深度確定性策略梯度算法優(yōu)化[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,39(6):545-549.(LIU Y, LI J J. Optimization of deep deterministic policy gradient algorithm [J]. Journal of Liaoning Technical University (Natural Science), 2020, 39(6):545-549.)
[12] HOU Y N, LIU L F, WEI Q, et al. A novel DDPG method with prioritized experience replay [C]// Proceedings of the 2017 IEEE International Conference on Systems, Man, and Cybernetics. Piscataway: IEEE, 2017:316-321.
[13] NIAN R, LIU J F, HUANG B. A review on reinforcement learning: Introduction and applications in industrial process control [J]. Computers and Chemical Engineering, 2020, 139: Article No.106886.
[14] 李云龍,唐文俊,白成海,等.青霉素生產(chǎn)工藝優(yōu)化及代謝分析提高產(chǎn)量[J].中國(guó)抗生素雜志,2019,44(6):679-686.(LI Y L, TANG W J,BAI C H, et al. Optimization of the feeding process and metabolism analysis to improve the yield of penicillin [J]. Chinese Journal of Antibiotics, 2019, 44(6): 679-686.)
[15] 王蕾,陳進(jìn)東,潘豐.引力搜索算法在青霉素發(fā)酵模型參數(shù)估計(jì)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2013,33(11):3296-3299,3304.(WANG L, CHEN J D, PAN F. Applications of gravitational search algorithm in parameters estimation of penicillin fermentation process model [J]. Journal of Computer Applications, 2013, 33(11): 3296-3299, 3304.)
[16] 葉凌箭,程江華.基于Matlab/Simulink的青霉素發(fā)酵過(guò)程仿真平臺(tái)[J].系統(tǒng)仿真學(xué)報(bào),2015,27(3):515-520.(YE L J, CHENG J H. Simulation platform of penicillin fermentation process based on Matlab/Simulink [J]. Journal of System Simulation, 2015, 27(3): 515-520.)
Industrial process control method based on local policy interaction exploration-based deep deterministic policy gradient
DENG Shaobin1,2,3,4,ZHU Jun1,2,3, ZHOU Xiaofeng1,2,3*, LI Shuai1,2,3,4, LIU Shurui1,2,3
(1.Key Laboratory of Networked Control System,Chinese Academy of Sciences,Shenyang Liaoning110016,China;2.Shenyang Institute of Automation,Chinese Academy of Sciences,Shenyang Liaoning110169,China;3.Institutes for Robotics and Intelligent Manufacturing Innovation,Chinese Academy of Sciences,Shenyang Liaoning110169,China;4.University of Chinese Academy of Sciences,Beijing100049,China)
In order to achieve the stable and precise control of industrial processes with non-linearity, hysteresis, and strong coupling, a new control method based on Local Policy Interaction Exploration-based Deep Deterministic Policy Gradient (LPIE-DDPG) was proposed for the continuous control of deep reinforcement learning. Firstly, the Deep Deterministic Policy Gradient (DDPG) algorithm was used as the control strategy to greatly reduce the phenomena of overshoot and oscillation in the control process. At the same time,the control strategy of original controller was used as the local strategy for searching, and interactive exploration was used as the rule for learning, thereby improving the learning efficiency and stability. Finally, a penicillin fermentation process simulation platform was built under the framework of Gym and the experiments were carried out. Simulation results show that, compared with DDPG, the proposed LPIE-DDPG improves the convergence efficiency by 27.3%; compared with Proportion-Integration-Differentiation (PID), the proposed LPIE-DDPG has fewer overshoot and oscillation phenomena on temperature control effect, and has the penicillin concentration increased by 3.8% in yield. In conclusion, the proposed method can effectively improve the training efficiency and improve the stability of industrial process control.
industrial process control; deep reinforcement learning; Deep Deterministic Policy Gradient (DDPG); Local Policy Interaction Exploration (LPIE); penicillin fermentation process
TP273.2
A
1001-9081(2022)05-1642-07
10.11772/j.issn.1001-9081.2021050716
2021?05?07;
2021?09?27;
2021?11?26。
遼寧省“興遼英才計(jì)劃”項(xiàng)目(XLYC1808009)。
鄧紹斌(1997—),男,江西贛州人,碩士研究生,主要研究方向:強(qiáng)化學(xué)習(xí)、工業(yè)過(guò)程控制; 朱軍(1964—),男,遼寧沈陽(yáng)人,研究員,碩士,主要研究方向:自動(dòng)控制、工業(yè)自動(dòng)化; 周曉鋒(1978—),女,遼寧本溪人,副研究員,博士,主要研究方向:機(jī)器學(xué)習(xí)、工業(yè)過(guò)程優(yōu)化; 李帥(1988—)男,遼寧錦州人,副研究員,博士研究生,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘; 劉舒銳(1993—)男,湖北襄陽(yáng)人,助理研究員,碩士,主要研究方向:工業(yè)過(guò)程建模與控制、機(jī)器學(xué)習(xí)。
This work is partially supported by Program of Liaoning Province “Xingliao Talents Plan” (XLYC1808009).
DENG Shaobin, born in 1997, M. S. candidate. His research interests include reinforcement learning,industrial process control.
ZHU Jun, born in 1964, M. S., research follow. His research interests include automatic control, industrial automation.
ZHOU Xiaofeng, born in 1978, Ph. D., associate research fellow. Her research interests include machine learning, industrial process optimization.
LI Shuai, born in 1988, Ph. D. candidate, associate research fellow. His research interests include machine learning, data mining.
LIU Shurui, born in 1993, M. S., assistant research fellow. His research interests include industrial process modeling and control, machine learning.