Actor-Critic強化學習方法及其在開發(fā)基于計算機視覺的界面跟蹤中的應(yīng)用

2021-03-17 02:54:06OguzhanDogruKirubakaranVelswamy黃彪

工程 2021年9期

Oguzhan Dogru , Kirubakaran Velswamy , 黃彪*

Department of Chemical and Materials Engineering, University of Alberta, Edmonton,AB T6G 1H9, Canada

1.引言

油砂礦石含有瀝青、水和礦物質(zhì)。瀝青是一種高黏度的烴混合物，可以通過多種化學和物理過程進行提取。該產(chǎn)品在后處理裝置或煉油廠[1]中進行進一步處理，以獲得更有價值的副產(chǎn)品（如汽油、航空燃料）。油砂是從露天礦坑中開采出來的，再通過卡車被運送入破碎機[2]。此后，用熱水處理混合物，并通過水力將混合物輸送到萃取廠。曝氣和幾種化學品被引入這一過程以加強效果。在萃取廠中，混合物在初級分離容器（PSV）中沉淀。圖1總結(jié)了水基油砂分離過程。

在PSV 內(nèi)部的分離過程中，會形成三層：泡沫層、中礦層和尾礦層（圖2）。在泡沫層和中礦層之間形成一個界面[以下稱為泡沫-中礦層界面（FMI）]。其水平參照PSV單元影響萃取的質(zhì)量。

為了控制FMI水平，關(guān)鍵是需要有可靠的傳感器。傳統(tǒng)上，差壓（DP）單元、電容探頭或核子密度剖面儀被用于監(jiān)測FMI。然而，這些檢測結(jié)果要么不準確，要么不可靠[3]。視鏡被用于人工監(jiān)視界面是否存在任何過程異常。為了在閉環(huán)控制中使用這一觀察方法，參考文獻[3]建議將相機用作傳感器。該方案利用邊緣檢測模型和圖像粒子濾波來獲得FMI；然后使用該模型建立反饋控制。最近，參考文獻[4]結(jié)合邊緣檢測和動態(tài)幀差分來檢測界面。該方法直接使用邊緣檢測技術(shù)來檢測界面，并且使用了估計測量質(zhì)量的幀比較機制；此外，該方法還可以檢測故障。參考文獻[5]使用混合高斯分布對泡沫、界面和中間體的外觀進行建模，并使用時空馬爾可夫隨機場來預(yù)測界面。盡管利用基于界面外觀或行為的模型解決了一些難題，但這些技術(shù)未能解決在環(huán)境條件不確定情況下的敏感性問題，如遮擋和過度/非高斯噪聲。

圖1.水基油砂分離過程的簡化圖解。PSV位于提取單元中。

圖2.PSV示意圖。在分離過程中，形成三層分層。相機用于監(jiān)控中礦層和泡沫層之間的界面，以控制FMI處于最佳水平。

監(jiān)督學習（SL）方法嘗試通過最小化代價（或損失）函數(shù)來構(gòu)建從輸入（即圖像，x）到輸出（即標簽，y）數(shù)據(jù)的映射。通常，代價函數(shù)是凸函數(shù)，最優(yōu)參數(shù)是通過對代價函數(shù)應(yīng)用隨機梯度下降算法[6?7]來計算得到的。另外，無監(jiān)督學習（UL）方法被用于查找未標記數(shù)據(jù)中的隱藏特征（即僅使用x）[8]。目標通常是壓縮數(shù)據(jù)或在數(shù)據(jù)中找到相似之處。盡管如此，即使輸入與輸出之間確實存在著因果關(guān)系，UL 技術(shù)并未考慮輸入對輸出的影響。在計算機視覺中，這些方法是使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）實現(xiàn)。CNN 是對輸入應(yīng)用卷積運算的參數(shù)函數(shù)。它不僅可以對一個像素進行處理，還可以對它的相鄰像素進行處理來提取抽象特征，用于分類、回歸、降維等[9?12]。盡管CNN已經(jīng)被使用了幾十年[13?16]，但直到最近它才在不同領(lǐng)域得到廣泛普及[17?20]，這是由于硬件技術(shù)[21]和數(shù)據(jù)可用性[22]的發(fā)展導(dǎo)致的。與計算機視覺的發(fā)展并行，循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）被用于預(yù)測時間序列，其中網(wǎng)絡(luò)先前的輸出以遞歸矩陣乘法的形式反饋到自身[23]。然而，vanilla RNN[24]會受到梯度減小或爆炸的影響，因為它反復(fù)將先前的信息反饋給自身，導(dǎo)致隱藏層之間反向傳播數(shù)據(jù)的共享不均勻。因此，當數(shù)據(jù)序列任意長時，它往往會失敗。為了克服這個問題，研究人員已經(jīng)提出了更復(fù)雜的網(wǎng)絡(luò)，如長短期記憶（LSTM）[25]和門控循環(huán)單元[26]。這些網(wǎng)絡(luò)促進了隱藏層之間的數(shù)據(jù)傳輸，從而提高了學習效率。最近，研究人員提出了卷積LSTM(Conv‐LSTM)[27]，它是LSTM的一種變體，可以通過用卷積運算替換矩陣乘法來提高LSTM 性能。與全連接LSTM 不同，ConvLSTM接收的是一個圖像而不是一維數(shù)據(jù)；它利用輸入數(shù)據(jù)中存在的空間連接提高估計的性能。具有多層的網(wǎng)絡(luò)被認為是深層結(jié)構(gòu)[28]。為了進一步提高預(yù)測準確度，研究人員已經(jīng)提出了各種深度架構(gòu)[29?33]。然而，這些結(jié)構(gòu)存在過度參數(shù)化的問題（即訓(xùn)練數(shù)據(jù)點的數(shù)量少于參數(shù)的數(shù)量）。研究人員試圖從幾種正則化技術(shù)（如dropout、L2）[17]和遷移學習[也稱為微調(diào)（FT）]方法[34?35]中找到解決方法，以提高網(wǎng)絡(luò)的性能。然而，傳輸?shù)男畔ⅲㄈ缇W(wǎng)絡(luò)參數(shù)）對于目標域可能不具有普適性。這一問題非常關(guān)鍵，特別是當訓(xùn)練數(shù)據(jù)不足，或它們的統(tǒng)計數(shù)據(jù)與目標域中的數(shù)據(jù)明顯不同時。此外，目前循環(huán)網(wǎng)絡(luò)的有效遷移學習問題仍然需要進一步研究。

強化學習（RL）[36]結(jié)合了SL和UL技術(shù)的優(yōu)點，并將學習過程形式化為馬爾可夫決策過程（MDP）。受動物心理學[37]和最優(yōu)控制[38?43]的啟發(fā)，該學習方案涉及智能體（即控制器）。與SL或UL方法不同，RL不依賴于離線或批處理數(shù)據(jù)集，而是通過與環(huán)境交互生成自己的數(shù)據(jù)。它通過考慮直接后果來評估其操作的影響，并通過推導(dǎo)來預(yù)測其價值。因此，它更適用于涉及復(fù)雜系統(tǒng)決策的真實或連續(xù)過程。然而，在基于采樣數(shù)據(jù)的方案中，訓(xùn)練階段的數(shù)據(jù)分布可能會有顯著差異，這可能會導(dǎo)致估計的方差較高[36]。為了結(jié)合價值估計和策略梯度的優(yōu)點，研究人員提出了actor-critic方法[44?46]。這種方法將智能體分為兩部分：actor 決定采取哪個動作，而critic 使用動作值[47]或狀態(tài)值[48]函數(shù)估計該動作的好壞。這些方法不依賴任何標簽或系統(tǒng)模型。因此，對狀態(tài)或動作空間的探索是影響智能體性能的重要因素。在系統(tǒng)辨識[49?51]中，這被稱為辨識問題。研究人員已開發(fā)出來多種方法來解決勘探問題[36,48,52?58]。作為機器學習[59?61]的一個子領(lǐng)域，RL被用于（但不限于）過程控制[2,42,61?68]、游戲行業(yè)[69?77]、機器人和自動駕駛汽車等領(lǐng)域[78?81]。

FMI跟蹤可以被表述為一個對象跟蹤問題，它可以分別使用無檢測或基于檢測的跟蹤方法通過一個或兩個步驟來解決。先前的工作[82?84]已將RL 用于對象檢測或定位，因此它可以與跟蹤算法相結(jié)合。在這種組合的情況下，跟蹤算法也需要可靠和快速的實時實現(xiàn)。一些對象跟蹤算法已被提出，包括使用RL[85?90]的多個對象跟蹤算法。研究人員所提出的方案將預(yù)訓(xùn)練的對象檢測與基于RL 的跟蹤或監(jiān)督跟蹤解決方案相結(jié)合。這些模擬是在理想條件下進行的[91?92]?；趯ο髾z測的方法的性能通常取決于檢測準確度。即使智能體根據(jù)明確定義的獎勵信號去學習跟蹤，研究人員也應(yīng)確保感官信息（或感官信息的特征）準確?；谀Ｐ偷乃惴ㄍǔ＜僭O(shè)感興趣的對象具有剛性或非剛性形狀[4]，并且噪聲或運動方式具有特定模式[3]。當意外事件發(fā)生時，這些假設(shè)可能不成立。因此，無模型方法可能會提供更通用的解決方案。

由于CNN 可能會提取抽象特征，因此在訓(xùn)練后對其進行分析很重要。常見的分析技術(shù)利用激活函數(shù)、內(nèi)核、中間層、顯著性映射等信息[30,93?95]。在RL情境中，一種流行的方法是使用t-分布隨機鄰居嵌入（t-SNE）[96]來降低觀察到的特征的維度，以可視化處于不同狀態(tài)的智能體[72,97?98]。這有助于根據(jù)智能體遇到的不同情況，對行為進行聚類。另一種降維技術(shù)，即一致流形逼近與投影（UMAP）[99]，將高維輸入（在歐幾里德空間中可能沒有意義）投影到黎曼空間。這樣可以降低非線性特征的維度。

圖3展示了過程工業(yè)中的一般控制層次結(jié)構(gòu)。在一個連續(xù)的過程中，層次結(jié)構(gòu)中的每一層都以不同的采樣頻率相互交互。交互從設(shè)備層開始，這會對上層產(chǎn)生顯著影響。最近，參考文獻[2]提出了執(zhí)行層面的解決方案。然而，解決其他層面的問題仍然具有挑戰(zhàn)性。

本文提出了一種基于RL的新型界面跟蹤方案，該方案針對無模型順序決策智能體進行了訓(xùn)練。這項工作包括：

?詳細回顧了actor-critic算法；

?聚焦設(shè)備層，以提高層次結(jié)構(gòu)的整體性能；

?將界面跟蹤表述為無模型的順序決策過程；

圖3.過程工業(yè)中的一般控制層次結(jié)構(gòu)。RTO：實時優(yōu)化；MPC：模型預(yù)測控制；PID：比例積分微分控制器。

?結(jié)合CNN和LSTM以提取時空特征，無需任何顯式模型或不切實際的假設(shè)；

?在獎勵函數(shù)中利用DP 單元測量值，無需任何標簽或人工干預(yù)；

?使用時間差學習訓(xùn)練智能體，允許智能體在閉環(huán)控制設(shè)置中持續(xù)學習；

?在開環(huán)設(shè)置的不確定性中驗證魯棒性；

?在簡化的特征空間中分析智能體的可信度。

本文的結(jié)構(gòu)如下：第2 節(jié)回顧了actor-critic 算法和基本信息；第3節(jié)闡述了界面檢測；第4節(jié)詳細介紹了訓(xùn)練和測試結(jié)果；第5 和第6 節(jié)分別給出了結(jié)論及未來研究展望。

2.Actor-critic強化學習研究綜述

RL是一個嚴格的數(shù)學概念[36,39,42]，其中的智能體學習是一種在動態(tài)環(huán)境中使整體回報最大化的行為。與人類類似，智能體學習通過考慮未來的獎勵學習如何做出明智的決策。這與簡單分類或回歸等方法不同，它意味著觀察的時間維度將被納入考量。此外，這種能力允許強化學習在具有不規(guī)則采樣率的條件[40]下得到應(yīng)用。其通用性使得強化學習能夠適應(yīng)不同的環(huán)境條件，并能從模擬環(huán)境轉(zhuǎn)移到實際的應(yīng)用過程中[80]。

2.1.馬爾可夫決策過程（MDP）

MDP 通過元組M形式化離散的順序決策過程，M由〈X,U,R,P,γ〉組成，其中x?X,u?U,r?R?R，分別表示狀態(tài)、動作以及獎勵。P(x′,r|x,u)表示確定或隨機的系統(tǒng)動力學或狀態(tài)轉(zhuǎn)移概率。MDP 滿足馬爾可夫性質(zhì)[100]，即未來狀態(tài)僅依賴于當前而非之前的狀態(tài)。在該過程中，系統(tǒng)動力學對于智能體而言是未知的，這使得該方法更為通用。折扣因子γ?[0,1)是未來獎勵的權(quán)重，以使其總和有界。隨機策略π(u|x)是從觀察到的系統(tǒng)狀態(tài)到動作的映射。

在MDP 中，智能體觀察狀態(tài)x0～σ0，其中σ0表示初始狀態(tài)的分布。隨后，它選擇一個動作u～π(u|x)，智能體被帶入下一個狀態(tài)x'～P(x',r|x,u)，并獲得獎勵r～P(x',r|x,u)。通過利用序列（即x,u,r,x?），智能體學習了策略π，它將會產(chǎn)生最大折現(xiàn)收益G，如式（1）中所定義[36]：

式中，t和k表示離散時間步長。狀態(tài)值vπ(x)和動作值qπ(x,u)使用貝爾曼（Bellman）方程[式（2）和式（3）]計算：

式中，E是隨機變量的期望。在為每個狀態(tài)估計值函數(shù)之后，可以使用式（4）和式（5）求解最優(yōu)值（和）函數(shù)：

隨后，最優(yōu)策略π*可由下式求得：

對于大規(guī)模問題，可以使用線性或非線性函數(shù)逼近法來分別或同時找到逼近值函數(shù)Q(x,u|ω),V(x|ω)，其中，ω表示逼近函數(shù)的參數(shù)。該結(jié)構(gòu)也被稱為critics。此項工作側(cè)重于狀態(tài)值估計并將其符號簡化為V(?)。

2.2.Actor-critic算法綜述

早期的方法使用基于值（僅critic）的RL[71,101]來解決控制問題。在這些方法中，動作直接來自值函數(shù)，據(jù)研究報道，該值函數(shù)對于大規(guī)模問題是發(fā)散的[45,102]。基于策略（僅actor）的方法[103?105]解決了這個問題，它可以通過直接從參數(shù)化函數(shù)生成策略學習隨機行為，然后使用性能指標直接優(yōu)化此函數(shù)。然而，估計的方差和延長的學習時間使得策略梯度無法實現(xiàn)。類似于利用生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)的生成式對抗網(wǎng)絡(luò)（GAN）[106]，actor-critic算法無需任何標簽即可進行自我監(jiān)督[44?45,107?108]。這些技術(shù)分別通過actor和critic將策略與基于值的方法結(jié)合起來。這有助于大幅降低估計的方差和學習最優(yōu)策略[36,55]。Actor 和critic 可以分別表示為兩個神經(jīng)網(wǎng)絡(luò)；π(u|x,θ)（其中，θ表示actor 網(wǎng)絡(luò)的參數(shù)）和V(x|ω)[或Q(x,u|ω)]。

雖然已有研究提出了一些基于模型的actor-critic方案[109?110]，但本文將重點介紹最常用的無模型算法，如表1所示。其中一些方法使用熵正則化，而另一些則利用啟發(fā)式算法。上述方法中，一個常見的示例為ε-貪婪策略，其中智能體以概率ε?[0,1)進行隨機動作。其他研究技術(shù)包括但不限于向動作空間引入加性噪聲、向參數(shù)空間引入噪聲，以及利用置信上限等。感興趣的讀者可以參閱參考文獻[67]了解更多細節(jié)。

表1 基于動作空間類型和探索方法的actor-critic算法的比較。對于所有算法而言，狀態(tài)空間可離散或連續(xù)

將Actor-critic算法總結(jié)如下。

2.2.1.深度確定性策略梯度

已有研究提出，該算法可用于將離散的、基于低維值的方法[71]推廣至連續(xù)動作空間。深度確定性策略梯度（DDPG）[47]采用actor和critic（Q）以及目標critic（Q′）網(wǎng)絡(luò)，后者是critic 網(wǎng)絡(luò)的副本。在觀察到一個狀態(tài)后，該方法將從actor 網(wǎng)絡(luò)中采樣實值動作，并與隨機過程（如Ornstein-Uhlenbeck過程）[111]混合，以鼓勵探索。智能體將狀態(tài)、動作與獎勵的樣本存儲在經(jīng)驗回放池中，以打破連續(xù)樣本之間的相關(guān)性，從而優(yōu)化學習。它使損失函數(shù)L的均方誤差最小化，以優(yōu)化critic，如式（7）所示。

該方案利用策略梯度來改進actor 網(wǎng)絡(luò)。由于值函數(shù)是經(jīng)基于不同行為策略的目標策略所學習得到的，因此DDPG是一種新策略（off-policy）方法。

2.2.2.異步優(yōu)勢動作評價算法

異步優(yōu)勢動作評價算法（A2C/A3C）[48]沒有將經(jīng)驗存儲在需要內(nèi)存的回放池中，而是讓本地線程與環(huán)境交互并異步更新至公共網(wǎng)絡(luò)，這從本質(zhì)上增加了探索過程。

與最小化基于Q函數(shù)的誤差不同，該方法會最小化critic 更新的優(yōu)勢函數(shù)（A或δ）的均方誤差，如等式（8）所示。

在該方案中，公共網(wǎng)絡(luò)通過式（9）更新，此外，策略的熵則被用于actor 損失函數(shù)中的正則化以增加探索，如式（10）所示：

式中，初始dθG=dωG=0。左箭頭(←)表示更新操作；αc和αa分別是critic 與actor 的學習率；?是關(guān)于其下標的導(dǎo)數(shù)；β是一個固定的熵項，用于激勵探索。下標L和G分別表示本地與公共網(wǎng)絡(luò)。多線程網(wǎng)絡(luò)（A3C）可以離線運算，且該方案可被簡化為單線程（A2C）在線運行。盡管線程間相互獨立，但他們會根據(jù)公共網(wǎng)絡(luò)的行為策略來預(yù)測值函數(shù)，這使得A3C成為一種既定策略（on-policy）的方法。該項目使用A3C算法來跟蹤界面。

2.2.3.有經(jīng)驗回放的actor-critic方法

具有經(jīng)驗回放的actor-critic（ACER）方法[112]利用Retrace 算法[113]解決了A3C 采樣低效問題，該算法可估得式（11）：

式中，截斷的重要性權(quán) 重ηˉt=min{c,ηt},ηt=[μ1(Ut|Xt)]/[μ2(Ut|Xt)]，c是一個裁剪常數(shù)，μ1和μ2分別是目標和行為策略。此外，該方案利用隨機競爭網(wǎng)絡(luò)架構(gòu)（stochastic dueling networks，以一致的方式估計V 和Q）和比先前方法更有效的信賴域策略優(yōu)化（TRPO）方法[114]。由于其Retrace算法，ACER是一種新策略（offpolicy）方法。

2.2.4.近端策略優(yōu)化

近端策略優(yōu)化（PPO）方法[115]通過裁剪替代目標函數(shù)來改進TRPO[114]，如式（12）所示：

式中，θ表示策略參數(shù)（即θold表示舊的策略參數(shù)）；r(θ) =[πθ(u|x)]/[πθold(u|x)]和ε表示裁剪常數(shù)；A是表示智能體動作好處的優(yōu)勢估計，如式（8）所示。

2.2.5.Kronecker因子化置信區(qū)間的actor-critic算法

與使用梯度下降算法[6]來優(yōu)化不同，使用Kronecker因子化置信區(qū)間的actor-critic算法是通過利用二階優(yōu)化來提供更多信息。它通過使用Kronecker 因子近似值來逼近費歇爾信息矩陣（FIM）的逆，以克服計算的復(fù)雜性，否則，該矩陣相對于近似的參數(shù)呈指數(shù)級縮放。此外，它還可以跟蹤費歇爾統(tǒng)計，從而得到更好的曲率估計。

2.2.6.柔性actor-critic算法

與使用策略熵損失正則化的方法不同[48,114?115,119]，SAC（soft actor-critic，柔性actor-critic）算法[55,120]使用熵項[如式（13）所示]增加獎勵函數(shù)以鼓勵探索。相關(guān)研究[120]報道可以將這種方法用于提高策略對模型錯誤的魯棒性。

式中，θ表示策略的參數(shù)；α代表用戶自定義的（固定或時變）權(quán)重，用于調(diào)整熵的貢獻；H=E[?lgπ(?)]。該方案同時依賴于Q和V函數(shù)來利用柔性策略迭代。與DDPG和ACER類似，SAC將狀態(tài)轉(zhuǎn)移存儲在回放池中以解決采樣效率的問題。除了增強探索外，熵最大化還可以補償由引入新策略方法而引起的穩(wěn)定性損失。

2.2.7.雙延遲深度確定性策略梯度算法

雙延遲深度確定性策略梯度算法（TD3）[121]解決了由于函數(shù)逼近（approximation）和自展（bootstrapping）（即在更新過程中使用估計值，而不是精確值）而導(dǎo)致的錯誤傳播（propagation）（這在統(tǒng)計和控制中是一項非常重要的挑戰(zhàn)）[122]。為了實現(xiàn)這一目標，該算法會預(yù)測兩個獨立的動作值，并偏好悲觀值；因此，它避免了次優(yōu)策略。TD3利用目標網(wǎng)絡(luò)，延遲策略函數(shù)的更新，并從回放池中采樣N個狀態(tài)轉(zhuǎn)移來使用平均目標值估計，以減少學習過程中的方差。該算法向采樣動作添加高斯噪聲，以此引入探索，并使用確定性策略梯度方法執(zhí)行策略更新[104]。

盡管上述算法提供了控制問題的一般解決方案，但它們可能仍然不能勝任某些更復(fù)雜或特定的任務(wù)。目前，研究者提出了許多其他的算法來彌補這些缺憾。例如，參考文獻[123]通過哈密頓-雅可比-貝爾曼（HJB）方程[39,124]，將參考文獻[44]提出的離散的actor-critic 算法擴展到連續(xù)時間和空間問題中。隨后，該算法在一個約束動作的鐘擺問題和小車撐桿問題（cart-pole swing up）中得到了測試。參考文獻[125]在有約束的MDP 上采用了actorcritic算法，并進行了詳細的收斂性分析。參考文獻[46]展示了四種基于正則和自然梯度估計的增量actor-critic 算法。參考文獻[126]介紹了一種自然actor-critic算法（natu‐ral actor-critic,NAC），并展示了其在小車撐桿問題（cartpole）以及棒球揮桿任務(wù)中的表現(xiàn)。參考文獻[127]通過反向HJB方程提出了一個連續(xù)時間actor-critic算法，并在兩個非線性仿真環(huán)境中測試了其收斂性。參考文獻[128]提出了一種適用于無限范圍（infinite horizon）、連續(xù)時間問題和嚴格收斂性分析的在線actor-critic算法，并提供了線性與非線性模擬示例。參考文獻[129]提出了一種增量的在線新策略actor-critic 算法。該算法定性地分析了收斂性，并用實證結(jié)果予以支持。此外，該研究還將時間差分算法（TD）與梯度-TD方法進行了比較，梯度-TD方法可以最大限度地減小預(yù)測的貝爾曼誤差[36]。參考文獻[130]提出了一種actor-critic標識符，理論表明，它可以在系統(tǒng)動力學未知的情況下逼近HJB方程。學習完成后，該方案會表現(xiàn)出過程穩(wěn)定性。然而，該方案需要輸入增益矩陣相關(guān)信息作為已知條件。參考文獻[131]使用名義控制器作為監(jiān)督者來指導(dǎo)actor，并在模擬巡航控制系統(tǒng)中實現(xiàn)更安全的控制。參考文獻[132]提出了在保持穩(wěn)定性的同時，在沒有持續(xù)激勵條件的情況下，學習部分未知輸入約束系統(tǒng)的HJB方程的解。參考文獻[133]考慮李雅普諾夫（Ly‐apunov）理論，設(shè)計了一種容錯的actor-critic 算法，并在范德波爾系統(tǒng)（Van der Pol system）中對其穩(wěn)定性進行了測試。參考文獻[134]通過使用HJB 方程和二次成本函數(shù)來定義值函數(shù)，提出了一個輸入有約束非線性跟蹤問題。該方案可以通過actor-critic算法獲得近似值函數(shù)。參考文獻[135]結(jié)合分類和時間序列預(yù)測技術(shù)來解決最優(yōu)控制問題，并在模擬連續(xù)釜式反應(yīng)器（CSTR）和模擬非線性振蕩器中演示了該方法。參考文獻[136]提出了平均actorcritic(mean actor-critic)算法，該算法通過使用平滑Q函數(shù)來估計策略梯度，并用函數(shù)對動作求平均以減少方差；其結(jié)果在雅達利（Atari）游戲中得到了驗證。參考文獻[137]使用事件觸發(fā)的actor-critic方案來控制供暖、通風和空調(diào)（HVAC）系統(tǒng)。除此之外，正如參考文獻[2,62,67,138,145]中所述，研究者最近還對不同的actor-critic 算法及其應(yīng)用進行了研究。

在強化學習（RL）中，已有研究提出了一些改進值估計的方法[146,148]，這些方法均可用于actor-critic 算法。此外，還有研究提出了不同的技術(shù)[112,149]，以提高采樣效率（即減少學習最優(yōu)策略所需的數(shù)據(jù)量）。與利用經(jīng)驗回放[70]或數(shù)據(jù)監(jiān)督學習[150]的技術(shù)不同，并行學習（parallel learning）利用多個隨機的初始化的線程（本地網(wǎng)絡(luò)），這些線程獨立地與環(huán)境的不同實例交互，以減少學習期間策略的差異。這些本地網(wǎng)絡(luò)擁有與公共網(wǎng)絡(luò)相同的基礎(chǔ)設(shè)施，其所采集的k個樣本將被用于公共網(wǎng)絡(luò)的參數(shù)更新。由于各線程間的軌跡彼此獨立，這將減少內(nèi)存的使用并提高探索能力。任務(wù)分配可以通過多臺機器[151]或一臺計算機的多個中央處理器（CPU）線程執(zhí)行[48]。

最優(yōu)策略和最優(yōu)評論在每個過程中都不同，并且它們往往是先驗未知的。若使用蒙特卡羅類型的方法計算過程（或一個回合）結(jié)束時的經(jīng)驗回報[見式（1）]，其結(jié)果往往會冗余且嘈雜。與心理學中的巴甫洛夫條件反射[152]類似，TD學習可以預(yù)測當前狀態(tài)的值。與蒙特卡羅方法不同的是，它只在小范圍下進行了低至一步的預(yù)測。這將無限范圍問題轉(zhuǎn)換為有限范圍預(yù)測問題。與計算預(yù)期回報[如式（2）]不同，我們可以使用TD 誤差δ的k步超前估計來更新critic 網(wǎng)絡(luò)，如式（14）所示。這被稱為策略評估。

式中，δ是離散采樣t瞬間狀態(tài)x的TD 誤差，給定本地網(wǎng)絡(luò)的critic 參數(shù)ωL，k表示范圍長度。如果k接近無窮大，求和項收斂于式（1）中給出的經(jīng)驗回報。與策略梯度算法[36]相比，基線V(xt|ωL)用于減少方差。

在k個步驟結(jié)束時，可以使用式（9）和式（10）更新公共網(wǎng)絡(luò)的參數(shù)（即θG和ωG）。

3.將界面跟蹤制定為一個順序決策過程

3.1.界面跟蹤

模型是描述過程動力學的數(shù)學方法，這些過程動態(tài)可以發(fā)生在物理/化學/生物系統(tǒng)[153]或視頻[154]中。當出現(xiàn)意外事件（如遮擋）時，導(dǎo)出圖像的模型通常會出現(xiàn)不準確的情況。為了克服這個問題，通常將上次有效觀察的信息用于下一次觀察[4]，或重建圖像[154]。盡管這些解決方案可能會在短時間內(nèi)替代實際測量，但長時間暴露會降低閉環(huán)穩(wěn)定性。因此，如果FMI太低，泡沫層中的瀝青會流入尾礦。這會降低產(chǎn)品質(zhì)量并產(chǎn)生環(huán)境足跡。相反，如果其水平更接近提取點，則被提取的泡沫中的固體顆粒會使下游操作復(fù)雜化[3]。由于FMI的偏差會影響下游過程，因此在最優(yōu)點調(diào)節(jié)FMI非常重要。

RL 可以解決遮擋和過度噪聲期間的不準確性。這可以通過將DP單元測量或來自任何其他可靠設(shè)備的測量與智能體的當前FMI預(yù)測相結(jié)合來完成，以在訓(xùn)練階段提供獎勵函數(shù)中所需的準確成本，而無需外部標簽，如邊界框。消除對此類標簽的依賴可以最大限度地減少人為誤差。為此，智能體可以在PSV 視鏡上方的垂直軸上移動裁剪框，并將其中心與DP單元測量值進行比較。基于此偏差，智能體可以將框移動到最優(yōu)位置，即框的中心與FMI的中心相匹配。這種偏差最小化反饋機制的靈感來自控制理論，它可以使用從實際過程中獲得的測量值來增強基于圖像的估計。

考慮從視頻流中采樣的灰度圖像I?RH×W，具有任意寬度W、高度H，它可以捕獲整個PSV。考慮一個矩形裁剪框B?RN×M，具有任意寬度M、高度N，其中，{N:N=-1,>1 ?N}，是矩形的中心。示例圖像和裁剪框如圖4（a）所示。這個矩形在將I裁剪成尺寸為N×M。為了完整起見，H>N，W=M。此外，將在時間t從DP 單元獲得的界面測量值作為z。需要注意的是，DP單元僅用于RL 智能體的離線訓(xùn)練，并可以替換為其他界面測量傳感器，這在離線實驗室環(huán)境中是準確的。

這一問題的MDP組件可以定義如下：

狀態(tài)：矩形內(nèi)的像素，x?B?X?I。這些像素可以被看做N×M個獨立的傳感器。

操作：將裁剪框的中心向上或向下移動1個像素，或凍結(jié)；u?U={-1,0,1}。

獎勵：在每個時間步長t，DP單元測量值與框中心位置（參考PSV底部）之間的差異見式(15)。

ut和之間的關(guān)系見式（16）。

圖4.使用相機獲得的幀（I）。（a）圖像尺寸（H×W）和裁剪框（N×W）；（b）裁剪框的尺寸（N×M）和初始裁剪框位置；（c）一個比值為ρ的遮擋示例。

式中，是一個任意的初始點，求和項表示直到第t個時刻采取的動作（ui=+1表示向上，ui=?1表示向下）。

折扣因子：γ=0.99。

該智能體的目標是生成一系列操作，將裁剪框B覆蓋在PSV的垂直軸上，界面位于其中心。為了實現(xiàn)這一點，智能體需要執(zhí)行長期規(guī)劃并保留其動作與從DP單元測量中獲得的信息之間的關(guān)聯(lián)。擬議方案的流程圖如圖5 所示。此外，圖6 和表2 詳細展示了網(wǎng)絡(luò)。關(guān)于ConvLSTM層的更多細節(jié)，請參見參考文獻[27]。

表2 全球網(wǎng)絡(luò)的結(jié)構(gòu)（與工作器的結(jié)構(gòu)相同）

與之前在狀態(tài)空間中進行預(yù)測的工作[4?5]不同，這種方法通過分別使用式（9）、式（10）和式（14）來優(yōu)化值和策略空間。此外，CNN 和ConvLSTM 層通過使用式（17）進行更新。

式中，Ψ=[ψCNN,ψConvLSTM]表示CNN 和ConvLSTM 層的參數(shù)。該方案僅使用TD 誤差對整個網(wǎng)絡(luò)進行端到端的訓(xùn)練。在不同點[圖4（b）]初始化的多個工作器[48]可用于改進探索，從而提高泛化能力。

在找到次優(yōu)策略后，智能體保證在有限的時間步k內(nèi)找到界面，這與初始點無關(guān)，如引理3.1所示。

圖5.本文提出的學習過程的流程圖。更新機制如式（9）和式（10）所示，其k步策略評估如式（14）所示。

圖6.CNN、ConvLSTM、actor和critic網(wǎng)絡(luò)的詳細結(jié)構(gòu)。

引理3.1：在任何時刻t，對于一個常數(shù)zt，同時P=如k→N，對于(k≤N<|X|?∞)^(?z0,zt?Z≡|X|)。

證明.假設(shè)并且次優(yōu)參數(shù)θ*和ω*是使用連續(xù)策略函數(shù)π(?|θ*)上的迭代隨機梯度下降獲得的。V(?|ω*)是Lipschitz 連續(xù)critic 網(wǎng)絡(luò)，由ω參數(shù)化，并估計給定狀態(tài)的策略π(?)的值。

這可以被擴展到變量zt?Z。

3.2.通過訓(xùn)練對遮擋的魯棒性

CNN 通過考慮像素的連通性來解釋空間信息，這在一定程度上提高了魯棒性。但是，它并不能保證對遮擋的魯棒性，即使在正常條件下獲得了好的策略，智能體也可能會失敗。為了克服這個問題，可以在訓(xùn)練階段使用合成遮擋的圖像來訓(xùn)練智能體。另一種方法是使用遮擋圖像重新校準策略（使用無遮擋圖像進行訓(xùn)練）。

具有任意像素強度κ?[0,255]的遮擋物體Ω可以定義為{Ω:Ω?RH×(N×ρ)}，其中E[Ω]=κ。ρ?[0,100%]表示遮擋的比率，如圖4（c）所示。如果ρ=1，則智能體僅觀察該視頻幀中的遮擋（即，如果ρ=100%，則xt=Ω）。通過定義其尺寸后，可以從任意概率分布（即連續(xù)或離散，如高斯、均勻、泊松）中采樣遮擋率。在訓(xùn)練過程中，可以任意調(diào)整出現(xiàn)遮擋的實例的持續(xù)時間。這些可以是隨機或確定的。即，遮擋可以在隨機（或特定）時間出現(xiàn)，并持續(xù)一段隨機（或特定）時間。如果使用多個工作器（如第2.2節(jié)所述），則可能會在不同時間實例中為每個工作器引入不同的遮擋率。因為智能體不需要等待很長時間來觀察不同類型的遮擋，所以這提高了訓(xùn)練數(shù)據(jù)的多樣性，并且使得處理時間更加高效。

4.結(jié)果和討論

4.1.實驗裝置

模擬工業(yè)PSV 的實驗室規(guī)模設(shè)置用于提出的方案。這種設(shè)置允許使用泵將界面移動到所需的水平，如圖7所示。兩個DP單元用于根據(jù)液體密度測量界面水平，如參考文獻[5]中所述。

圖7.實驗裝置。

使用D-Link DCS-8525LH相機以每秒15幀（FPS）的速度獲取圖像。從15FPS的鏡頭中，可以獲得每秒的代表性圖像。因此，通過必要的下采樣獲得了來自連續(xù)80 s的80 張圖像。這些圖像經(jīng)過處理以展示PSV 部分，沒有不必要的背景。然后將它們轉(zhuǎn)換為灰度圖像。DP 單元相對于進水處的FMI高度測量值（與圖像相同的連續(xù)時間段）可以轉(zhuǎn)換為像素位置，如參考文獻[4]所示。執(zhí)行每個動作后，視頻幀會發(fā)生變化。智能體采取的每一個動作都會產(chǎn)生一個標量獎勵[式（15）]，之后用于計算訓(xùn)練智能體參數(shù)[式（9）和式（10）]時使用的TD誤差[式（14）]。

4.2.實施細節(jié)

4.2.1.軟件和網(wǎng)絡(luò)詳細信息

訓(xùn)練和測試階段均使用Intel Core i7-7500U CPU，工作頻率為2.90 GHz（兩核四線程），8 GB 的RAM，工作頻率為2133 MHz，配有Tensorflow 1.15.0 的64 位Win‐dows系統(tǒng)。與更深層次的網(wǎng)絡(luò)（如參考文獻[32]中包含數(shù)千萬個參數(shù)的網(wǎng)絡(luò)）不同，該智能體包含的參數(shù)較少，如表2 所示。這可以防止過度參數(shù)化，并顯著減少計算時間，但其缺點是無法提取更高層次的特征[155]。

執(zhí)行每個操作后，裁剪框的尺寸將調(diào)整為84像素×84像素。之后使用學習速率為0.0001的Adam優(yōu)化器，以基于樣本的方式對智能體的參數(shù)進行優(yōu)化（包括CNN、CONVLSM、actor和critic）。相關(guān)研究顯示這種基于動量的隨機優(yōu)化方法計算效率很高[156]。

4.2.2.無遮擋訓(xùn)練

實驗中使用了A3C 算法以減少訓(xùn)練時間，提高探索度，并在學習過程中收斂到次優(yōu)策略[48]。所有初始網(wǎng)絡(luò)參數(shù)都是從均值和單位方差為零的高斯分布中隨機抽樣獲得的。如圖8所示，通過手動排序80幅圖像創(chuàng)建界面級連續(xù)軌跡后，進行離線訓(xùn)練。

圖8.訓(xùn)練結(jié)束時的訓(xùn)練結(jié)果（2650回合）和FT（3380回合）。BFT：微調(diào)前；AFT：微調(diào)后。

然后，在470 步，共2650 回合（episode，一回合包含470 步）中，向智能體重復(fù)顯示這一軌跡。無論何時，智能體都只觀察裁剪框內(nèi)的像素。每個智能體的裁剪框在四個不同的位置初始化，如圖4（b）所示。智能體的目標是在最大速度為每步1像素的情況下，使裁剪框中心相對于DP單元測量值的偏差最小化。該智能體在訓(xùn)練階段沒有被遮擋，能夠為4 個線程處理20 幀?s?1圖片（即計算執(zhí)行時間）。

4.2.3.無遮擋微調(diào)

在沒有遮擋的情況下，利用訓(xùn)練結(jié)束時獲得的參數(shù)初始化全局網(wǎng)絡(luò)參數(shù)。本地網(wǎng)絡(luò)最初與全球網(wǎng)絡(luò)共享相同的參數(shù)。所有訓(xùn)練超參數(shù)（如學習率、界面軌跡）保持不變。前一個訓(xùn)練階段使用的圖像被遮擋，其比率ρ從泊松分布中采樣獲得，如式（18）所示。分布情況Pois(x,λ)的計算如式（19）所示。

每回合開始時，式（18）限定ρ的范圍處于0~80%（ρmax）之間。形狀因子可任意定義為λ=1。在每一回合中，遮擋發(fā)生在第200步到接下來的200步之間，概率為1。微調(diào)（FT）的目的是確保智能體對遮擋具有魯棒性。該智能體與四個線程接受了730回合任意的訓(xùn)練，直到情景累積獎勵得到改善。

4.2.4.界面跟蹤測試

對于一個1000 步的回合，使用一個不連續(xù)的軌跡測試該智能體，該軌跡包含以前未看到過的圖像，這些圖像通常沒有噪聲或充滿高斯噪聲，ν?RH×W～N(0,1)，如表3所示，測試以三種方式進行。這些圖像也使用合成遮擋，其恒定強度被任意選擇為圖像的平均值（即κ=128），而遮擋率ρ在20%~80%之間線性變化。4.2.5.特征分析

表3 基于圖像身份的噪聲圖像定義

為了說明該網(wǎng)絡(luò)的有效性，本實驗從PSV 的頂部到底部手動裁剪了以前未看到的PSV 圖像。這些手動裁剪的圖像在訓(xùn)練前通過CNN逐一傳遞，CNN按照第4.2.2節(jié)所述的方式進行訓(xùn)練，同時按照第4.2.3 節(jié)所討論的進行微調(diào)，以提取圖像特征。然后將這些空間特征?s收集到一個尺寸為9 × 9 × 32 × 440 的緩沖區(qū)中，并使用UMAP[99]從中獲得降維（2×440）特征。這些低維特征將在第4.6節(jié)中進行概述。

4.3.訓(xùn)練

最佳策略是在訓(xùn)練和FT 結(jié)束后獲得的，此時連續(xù)500 回合的累積獎勵沒有得到改善。圖8 顯示了使用這些策略留下的軌跡。裁剪框的位置被初始化，其中心位于PSV 最大高度的60%處。在該階段結(jié)束時，智能體跟蹤界面的偏移量可以忽略不計。圖9（a）中顯示了從第80步獲得的示例。綠色星形表示智能體認為界面在當前幀所處的位置。

圖9.（a）第80幀的訓(xùn)練結(jié)果；（b）在第950步，80%遮擋和過度噪聲的情況下進行AFT后的測試結(jié)果。白色框表示智能體控制的裁剪框，星形代表裁剪框的中心，圓形表示精確的界面水平，五邊形是看似FMI的遮擋的底部。.

4.4.重新校準微調(diào)解決遮擋問題

如表4 所示，F(xiàn)T 將逐層的平均誤差（MAE）降低了0.51%，提高了智能體的整體性能，包括無遮擋圖像。這表明智能體不需要丟棄前置條件就能適應(yīng)新的環(huán)境條件。這是因為從近優(yōu)點出發(fā)，改進了智能體的估值能力和策略。需要注意的是，平均誤差的最小值受裁剪框初始位置的限制，如圖8所示。

表4 訓(xùn)練和FT結(jié)束階段逐像素和逐層的平均誤差

圖10 以實線和點線分別表示了訓(xùn)練過程中和微調(diào)后（AFT）的累積獎勵。

需要注意的是，F(xiàn)T期間的初始下降是由遮擋導(dǎo)致的，因為智能體在發(fā)生遮擋時無法跟蹤到界面層。這個新特征是通過400 回合內(nèi)閉環(huán)獎勵機制學習得到。FT 結(jié)束時得到的最終累積獎勵與訓(xùn)練結(jié)束時獲得的基本相同。這是因為累積獎勵僅表示訓(xùn)練階段的跟蹤性能，它取決于裁剪框的初始位置，如圖8 所示。只有當框的中心和DP 單元測量在初始回合完全重疊，并且在此期間智能體無偏差地跟蹤界面時，該值為零。如第4.5節(jié)所述，當智能體暴露在不可見的環(huán)境條件中時，例如，過度噪聲和過度遮擋的情況，F(xiàn)T的必要性更為明顯。

圖10.累積獎勵。圖中顯示了智能體可以學習遮蓋理論并成功跟蹤界面。

4.5.檢測

4.5.1.微調(diào)前階段

在初始訓(xùn)練結(jié)束階段（即第2650 個回合，如圖10 所示）進行初始前微調(diào)（BFT）測試。需要注意的是，測試階段（在線應(yīng)用）沒用采用DP 單元信息，并且RL 智能體獨立運行。事實上，即使DP單元可以使用，它在現(xiàn)場應(yīng)用環(huán)境下也無法準確運用。圖11 顯示，微調(diào)前，智能體對50%的遮擋和附加噪聲具有魯棒性。這極大改進了現(xiàn)有方案未能解決的遮擋問題。改進方案的原理是，卷積消除了干擾并提高了智能體的整體性能，神經(jīng)網(wǎng)絡(luò)在空間域和時間域中提取了比邊緣和直方圖信息更多的抽象特征[157]。另外，任何增加遮擋率的操作行為都會導(dǎo)致跟蹤界面失敗。由于遮擋的強度較輕，策略會傾向于移向PSV的底部（此處存在大量較高強度的像素）以尋找界面。

圖11.展示了檢測結(jié)果，ρ 代表遮擋率（例如，ρ=0.8 表示圖像被遮蓋了80%）。

4.5.2.微調(diào)后階段

在AFT 階段中，重新校準作用于遮擋問題的智能體后，其性能得到顯著提高，如圖11 所示，智能體跟蹤界面的準確率有所提高。當連續(xù)幀之間的界面偏移量約為5%時，附加的噪聲會降低智能體的性能。然而，當界面偏移量減少到2.5%時，智能體可以成功運行，如圖11所示。這是因為過多的噪聲會嚴重破壞圖像，導(dǎo)致智能體無法定位界面。在第950 幀處獲得的示例幀如圖9（b）所示。需要注意的是，80%的遮擋率附帶著噪聲，這給跟蹤帶來了挑戰(zhàn)。智能體從圖像中提取的有用信息量顯著減少，此時圖像中只剩下20%的像素可用于定位界面。這種性能歸功于CNN 和ConvLSTM 的組合。如圖12 所示，從隨機網(wǎng)絡(luò)（實線）、訓(xùn)練后（虛線）和AFT（點）獲得的參數(shù)顯示了智能體對從不可見畫面中獲得的狀態(tài)的值（critic 預(yù)測）。根據(jù)式（2），這個圖像定義了一個狀態(tài)的值，它假設(shè)策略會生成到達界面層的最佳軌跡。

圖12.值函數(shù)的測試結(jié)果與界面偏差的關(guān)系圖。

圖12 顯示，在訓(xùn)練開始之前，任何狀態(tài)的預(yù)測值都是相似的。但是，在訓(xùn)練階段，智能體不安于處于劣勢狀態(tài)中，并且DP單元讀數(shù)強調(diào)將裁剪框向界面移近（即垂直實線）得到的值比遠離界面得到的值更優(yōu)。在FT 結(jié)束階段，隨著數(shù)據(jù)的增加，智能體進一步改進自身的參數(shù)和行為，移動裁剪框，因此提高了準確度。結(jié)果表明，智能體嘗試通過不斷變化的值來改進其行為。需要注意的是，在偏差值為200后，AFT階段的增加對應(yīng)于圖9中的黃色五邊形。黃色五邊形的外形與界面相似，并增大了值函數(shù)，但是從這個部分獲取的值比界面的值低，這表明智能體靠近星星時比靠近五邊形時更可信。

4.6.理解網(wǎng)絡(luò)：特征分析

訓(xùn)練和測試結(jié)果集中于智能體學習和控制能力的進步。單憑這些可能不足以解釋在以圖像形式觀察到的情況下，智能體的決定是否有意義。

圖13 顯示了二維圖的降維結(jié)果，顏色的漸變強度表示對應(yīng)裁剪圖像（在第4.2.5 節(jié)中獲得）的值。曲線（從左到右）對應(yīng)于PSV 箱側(cè)玻璃從上到下的裁剪圖像，如第4.2.5節(jié)所述。

圖13（a）~（c）中的有色五邊形對應(yīng)圖13（d）中的三個點。結(jié)果表明，訓(xùn)練前從網(wǎng)絡(luò)中得到的特征在沒有特殊安排的情況下是相似的。然而，隨著訓(xùn)練的推進，具有相似值的特征越來越接近。結(jié)合圖12、圖13可以推斷，在RL 方法的幫助下，CNN 在未標記數(shù)據(jù)的無模型環(huán)境中，也能以有意義的方式提取特征，因為在采用CNNConvLSTM組合模型時，每個裁剪圖像的紋理和像素強度模式可以成功轉(zhuǎn)換為值和策略函數(shù)。此外，從DP單元獲得的獎勵信號（用作反饋機制）訓(xùn)練了智能體的行為。

圖13.降維方法被應(yīng)用于從不可見圖像中獲得的狀態(tài)特征中。這些特征的來源于隨機（a）、訓(xùn)練（b）和微調(diào)（c）網(wǎng)絡(luò)獲得的參數(shù)。根據(jù)相應(yīng)的值對數(shù)據(jù)點著色。（d）三個區(qū)域?qū)?yīng)于箱體頂部和底部，并在不可見的圖像上突出標記FMI。智能體訓(xùn)練過程中，從相似區(qū)域提取的特征在黎曼空間中聚集得更為緊密。

5.結(jié)論

本文全面回顧了actor-critic算法，并提出了一種新穎的RL方案。該方案把控制層次的設(shè)備層作為目標，提高了整個結(jié)構(gòu)的性能。為此，本文把界面跟蹤制定為一個需要長期規(guī)劃的順序決策過程。智能體由CNN和ConvLSTM共同組合而成，不需要任何形狀或運動模型，因此對過程中的不確定性更具魯棒性。受控制理論中使用的反饋機制的啟發(fā)，智能體采用DP單元的讀數(shù)來改進其行為。該方法不再依賴于SL 方案所需的顯式標簽。在使用遮擋和噪聲下未經(jīng)訓(xùn)練的圖像進行驗證時，智能體的性能表明，它可以在低于80%的遮擋和過度噪聲的情況下實現(xiàn)對界面的跟蹤。本文通過對高維特征的分析，驗證了智能體對其觀測值的概括能力。

6.未來研究

本文成功采用一種最先進的RL技術(shù)演示了跟蹤液體界面的過程。本文利用由深度CNN 結(jié)構(gòu)組成的智能體處理遮擋問題，并采用FT 策略提高了容限，這展示了該技術(shù)的自適應(yīng)性。此外，本文認為能夠重建遮擋圖像的智能體可能是未來可行的替代方法。

Acknowledgements

The authors thank Dr.Fadi Ibrahim for his help in the laboratory to initiate this research and Dr.Artin Afacan for the lab-scale PSV setup.The authors also acknowledge the Natural Sciences Engineering Research Council of Canada(NSERC), and its Industrial Research Chair (IRC) Program for financial support.

Compliance with ethics guidelines

Oguzhan Dogru, Kirubakaran Velswamy, and Biao Huang declare that they have no conflict of interest or fi‐nancial conflicts to disclose.

Nomenclature

Abbreviations

A2C advantage actor-critic

A3C asynchronous advantage actor-critic

ACER actor-critic with experience replay

ACKTR actor-critic using Kronecker-factored trust re gion

AFT after fine-tuning

BFT before fine-tuning

CNN convolutional neural network

ConvLSTM convolutional long short-term memory

CSTR continuous stirred-tank reactor

DDPG deep deterministic policy gradient

DP differential pressure

FIM Fisher information matrix

FMI froth-middlings interface

FPS frames per second

FT fine-tuning

GAN generative adversarial network

HJB Hamiltonian-Jacobi-Bellman

HVAC heating,ventilation,air conditioning

LSTM long short-term memory

MAE mean average error

MDP Markov decision process

NAC natural actor-critic

PPO proximal policy optimization

PSV primary separation vessel

RL reinforcement learning

RNN recurrent neural network

SAC soft actor-critic

SL supervised learning

TD temporal difference

TD3 twindelayeddeepdeterministicpolicygradient

TRPO trust region policy optimization

t-SNEt-distributed stochastic neighbor embedding

UL unsupervised learning

UMAP uniformmanifoldapproximationandprojection

Symbols

E[ ? ]expectation

?s(?) spatial features

?t(?) temporal features

δtemporal difference error

σ0distribution of initial states

νgaussian noise with zero mean unit variance

(?)*optimum value for the variable,e.g.,q*

ln(?) natural logarithm

R,Gempirical reward,return

q,r,vexpected action-value,reward,state-value

x,x'∈XStates ∈State space

u∈UActions ∈Action space

π(?) policy of the agent,also known as the actor

δ(xt|ωL)temporal difference error

V(?) estimate of state-value,also known as the critic

Q(?) estimate of action-value,also known as the critic

Ω occlusion

Parameters

αa,αclearning rates for the actor and critic:0.0001

γdiscount factor:0.99

κintensity of occlusion:128/256

λshape parameter of a Poisson distribution:1

ρocclusion ratio:%

ζmagnitude of noise:0.2

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放