亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不確定工業(yè)過(guò)程運(yùn)行指標(biāo)異步更新強(qiáng)化學(xué)習(xí)決策算法

        2023-03-06 13:32:16李金娜丁進(jìn)良
        自動(dòng)化學(xué)報(bào) 2023年2期
        關(guān)鍵詞:優(yōu)化策略方法

        李金娜 袁 林 丁進(jìn)良

        工業(yè)過(guò)程運(yùn)行指標(biāo)決策的內(nèi)涵是以工業(yè)過(guò)程生產(chǎn)指標(biāo)優(yōu)化為目標(biāo)的運(yùn)行指標(biāo)決策問(wèn)題(如圖1 所示).生產(chǎn)指標(biāo)是指反映企業(yè)或者生產(chǎn)線最終產(chǎn)品的質(zhì)量、產(chǎn)量、成本和能量消耗等相關(guān)的指標(biāo),運(yùn)行指標(biāo)是指反映控制單元的產(chǎn)品在運(yùn)行周期內(nèi)的質(zhì)量、效率、能耗和物耗等相關(guān)的指標(biāo)[1-2].面對(duì)激烈的國(guó)內(nèi)外市場(chǎng)競(jìng)爭(zhēng),能量節(jié)約和安全生產(chǎn)的民生需求和政策導(dǎo)向,以及原材料和運(yùn)行工況(生產(chǎn)條件)的動(dòng)態(tài)波動(dòng),研究工業(yè)過(guò)程運(yùn)行指標(biāo)決策問(wèn)題,提高產(chǎn)品的質(zhì)量、產(chǎn)量和能量使用效率等生產(chǎn)指標(biāo),保證安全運(yùn)行,這是增強(qiáng)企業(yè)競(jìng)爭(zhēng)力和可持續(xù)發(fā)展的必然選擇.

        圖1 工業(yè)過(guò)程運(yùn)行指標(biāo)決策問(wèn)題Fig.1 Decision-making problem of operational indices in industrial processes

        關(guān)于工業(yè)過(guò)程運(yùn)行指標(biāo)決策問(wèn)題的研究一直是工業(yè)界、學(xué)術(shù)界研究的熱點(diǎn).工業(yè)過(guò)程運(yùn)行指標(biāo)決策是一個(gè)復(fù)雜的多目標(biāo)優(yōu)化問(wèn)題,其復(fù)雜性包括:1)工業(yè)過(guò)程通常由多個(gè)控制單元構(gòu)成,每個(gè)控制單元有各自的運(yùn)行指標(biāo)需求,目標(biāo)是協(xié)同優(yōu)化整個(gè)工業(yè)過(guò)程的多個(gè)生產(chǎn)指標(biāo);2)生產(chǎn)指標(biāo)和運(yùn)行指標(biāo)之間的動(dòng)態(tài)關(guān)系呈現(xiàn)非線性和不確定性特征.因此,傳統(tǒng)的利用操作人員現(xiàn)場(chǎng)經(jīng)驗(yàn)協(xié)調(diào)各運(yùn)行指標(biāo)的方式無(wú)法保證工業(yè)過(guò)程生產(chǎn)指標(biāo)的優(yōu)化[1-3].那么,如何簡(jiǎn)化求解此多目標(biāo)優(yōu)化問(wèn)題,設(shè)計(jì)一種減少計(jì)算耗時(shí)并優(yōu)化生產(chǎn)指標(biāo)的方法,是本文研究的根本動(dòng)機(jī).

        相比于集中式運(yùn)行指標(biāo)決策方法[4-5],分布式運(yùn)行指標(biāo)決策方法[6-11]有利于簡(jiǎn)化求解的復(fù)雜性.文獻(xiàn)[6,8-9]針對(duì)多個(gè)生產(chǎn)指標(biāo)優(yōu)化問(wèn)題,融合性能預(yù)測(cè)與反饋控制,提出了運(yùn)行指標(biāo)動(dòng)態(tài)校正方法.在此基礎(chǔ)上,文獻(xiàn)[7]引入強(qiáng)化學(xué)習(xí)思想,基于案例推理策略,給出了數(shù)據(jù)驅(qū)動(dòng)的運(yùn)行指標(biāo)動(dòng)態(tài)修正方法.但上述方法仍需要利用操作人員的經(jīng)驗(yàn)調(diào)整運(yùn)行指標(biāo),很難保證生產(chǎn)指標(biāo)的優(yōu)化.文獻(xiàn)[10]采用強(qiáng)化學(xué)習(xí)技術(shù),基于博弈理論,給出工業(yè)過(guò)程運(yùn)行指標(biāo)自學(xué)習(xí)方法,保證生產(chǎn)指標(biāo)以近似最優(yōu)的方式跟蹤理想值.注意到,文獻(xiàn)[10]沒(méi)有考慮生產(chǎn)條件波動(dòng)對(duì)生產(chǎn)指標(biāo)性能的影響.但實(shí)際工業(yè)過(guò)程原料成分、運(yùn)行工況、設(shè)備狀態(tài)等多種不確定因素導(dǎo)致生產(chǎn)條件動(dòng)態(tài)波動(dòng).文獻(xiàn)[11]以最大化產(chǎn)品產(chǎn)量為目標(biāo),利用歷史數(shù)據(jù),提出了一種多執(zhí)行網(wǎng)絡(luò)集成強(qiáng)化學(xué)習(xí)算法,自學(xué)習(xí)決策運(yùn)行指標(biāo).但該研究成果忽略了實(shí)際工業(yè)過(guò)程運(yùn)行指標(biāo)需要滿(mǎn)足的約束條件,并且性能指標(biāo)為單次采樣時(shí)刻獎(jiǎng)賞值,無(wú)法保證累積生產(chǎn)指標(biāo)的優(yōu)化.

        綜合分析上述分布式運(yùn)行指標(biāo)決策方法,在生產(chǎn)條件動(dòng)態(tài)波動(dòng)、生產(chǎn)指標(biāo)和運(yùn)行指標(biāo)存在靜態(tài)約束的情況下,如何以數(shù)據(jù)驅(qū)動(dòng)的方式分布式自學(xué)習(xí)決策工業(yè)過(guò)程運(yùn)行指標(biāo)仍是一個(gè)挑戰(zhàn)性難題.這是本文研究的第二個(gè)動(dòng)機(jī).

        自適應(yīng)動(dòng)態(tài)規(guī)劃技術(shù)是智能最優(yōu)控制領(lǐng)域研究的熱點(diǎn).該方法的本質(zhì)是采用強(qiáng)化學(xué)習(xí)技術(shù)求解哈密頓-雅可比-貝爾曼(Hamilton-Jacobi-Bellman,HJB) 方程,以迭代方式求解最優(yōu)控制策略[12-16].文獻(xiàn)[10,15,17-19]等針對(duì)復(fù)雜大系統(tǒng),提出了一系列自適應(yīng)動(dòng)態(tài)規(guī)劃方法用來(lái)分布式自學(xué)習(xí)最優(yōu)控制策略,優(yōu)化控制系統(tǒng)性能.但現(xiàn)有分布式最優(yōu)控制策略自學(xué)習(xí)方法,往往忽略了系統(tǒng)不確定性(如環(huán)境動(dòng)態(tài)波動(dòng)等) 導(dǎo)致的狀態(tài)不確定性(隨機(jī)性),無(wú)法在隨機(jī)變化的環(huán)境下保證系統(tǒng)性能的優(yōu)化,甚至無(wú)法保證系統(tǒng)的穩(wěn)定性.針對(duì)隨機(jī)最優(yōu)控制問(wèn)題的自適應(yīng)動(dòng)態(tài)規(guī)劃方法還鮮見(jiàn)報(bào)道.文獻(xiàn)[20]針對(duì)離散隨機(jī)過(guò)程,提出了一種自適應(yīng)動(dòng)態(tài)規(guī)劃方法,自學(xué)習(xí)最優(yōu)控制策略,但解決的是單變量控制問(wèn)題,并且要求系統(tǒng)狀態(tài)轉(zhuǎn)移概率矩陣已知.然而,實(shí)際工業(yè)過(guò)程生產(chǎn)指標(biāo)狀態(tài)轉(zhuǎn)移概率矩陣無(wú)法準(zhǔn)確計(jì)算.此外,現(xiàn)有的分布式強(qiáng)化學(xué)習(xí)技術(shù)中策略更新為多個(gè)控制變量同步更新,多個(gè)執(zhí)行網(wǎng)絡(luò)同步訓(xùn)練將產(chǎn)生較大的時(shí)間開(kāi)銷(xiāo)和計(jì)算負(fù)載.因此,現(xiàn)有的自適應(yīng)動(dòng)態(tài)規(guī)劃技術(shù)仍無(wú)法直接用于解決本文研究的兩個(gè)動(dòng)機(jī)問(wèn)題.

        文獻(xiàn)[21-23]利用懲罰函數(shù)和Barrier 函數(shù)能解決系統(tǒng)狀態(tài)變量和控制輸入約束問(wèn)題.受其啟發(fā),本文在效用函數(shù)中引入Barrier 函數(shù)和懲罰函數(shù),用以解決生產(chǎn)指標(biāo)和運(yùn)行指標(biāo)靜態(tài)約束問(wèn)題.利用樣本均值代替計(jì)算生產(chǎn)指標(biāo)狀態(tài)轉(zhuǎn)移概率矩陣,首次提出了一種策略異步更新強(qiáng)化學(xué)習(xí)算法,并給出了算法收斂性的理論證明.研究中面臨的挑戰(zhàn)性難題是在保證算法收斂性的前提下,如何實(shí)現(xiàn)策略異步更新和如何證明算法的收斂性.為此,本文引入時(shí)鐘并定義其閾值,執(zhí)行集中式性能評(píng)估,多策略異步更新,并且基于隨機(jī)最優(yōu)控制理論,采用數(shù)學(xué)歸納法證明了所提算法的收斂性.所提出的方法不要求生產(chǎn)指標(biāo)狀態(tài)轉(zhuǎn)移概率矩陣已知,多策略異步更新方式提高了學(xué)習(xí)效率,同時(shí)有效地解決了生產(chǎn)指標(biāo)和運(yùn)行指標(biāo)的靜態(tài)約束問(wèn)題,實(shí)現(xiàn)了不確定工業(yè)過(guò)程生產(chǎn)指標(biāo)優(yōu)化,并且保證系統(tǒng)安全運(yùn)行.實(shí)驗(yàn)驗(yàn)證了所提方法的有效性和可行性.

        本文主要的創(chuàng)新點(diǎn)如下:

        1)首次提出了一種策略異步更新強(qiáng)化學(xué)習(xí)算法,采用集中式性能評(píng)估,多策略異步更新,可以減少計(jì)算成本和時(shí)間,提高學(xué)習(xí)效率.并且,本文給出了所提算法收斂性的理論證明.

        2)本文不要求系統(tǒng)狀態(tài)轉(zhuǎn)移概率矩陣已知,在隨機(jī)自適應(yīng)動(dòng)態(tài)規(guī)劃框架下,利用樣本均值代替計(jì)算生產(chǎn)指標(biāo)狀態(tài)轉(zhuǎn)移概率矩陣,提出的強(qiáng)化學(xué)習(xí)算法利用可測(cè)量數(shù)據(jù),在生產(chǎn)條件動(dòng)態(tài)波動(dòng)的情況下,自學(xué)習(xí)得到的運(yùn)行指標(biāo)能夠優(yōu)化生產(chǎn)指標(biāo).

        1 工業(yè)過(guò)程運(yùn)行指標(biāo)決策問(wèn)題描述

        工業(yè)過(guò)程的運(yùn)行指標(biāo)和生產(chǎn)指標(biāo)之間的動(dòng)態(tài)具有強(qiáng)耦合性、非線性、受生產(chǎn)條件變化影響等特征[1-2,10-11].本文研究的目標(biāo)是在充分考慮上述特征的情況下,給出一種快速地自學(xué)習(xí)決策運(yùn)行指標(biāo)的方法,優(yōu)化生產(chǎn)指標(biāo),并且保證生產(chǎn)指標(biāo)和運(yùn)行指標(biāo)滿(mǎn)足靜態(tài)約束條件.本文不研究過(guò)程運(yùn)行優(yōu)化層和回路控制層如何設(shè)計(jì)設(shè)定值和控制輸入,實(shí)現(xiàn)運(yùn)行指標(biāo)跟蹤理想運(yùn)行指標(biāo)(如圖1 所示).為此,本文首先假設(shè)生產(chǎn)指標(biāo)與運(yùn)行指標(biāo)之間的動(dòng)態(tài)關(guān)系如下:

        式中,sk=s(k)∈Rn和aik=ai(k)∈Rqi(i=1, 2,···,m) 分別表示工業(yè)過(guò)程生產(chǎn)指標(biāo)和運(yùn)行指標(biāo),dk=d(k)∈Rκ表示生產(chǎn)條件,f(·) 為未知非線性連續(xù)函數(shù).運(yùn)行指標(biāo)決策問(wèn)題可以建模為一個(gè)部分可觀察馬爾科夫決策過(guò)程,并用一個(gè)六元組G=<S,A,P,r,O,γ >表示,其中S、A、O分別表示狀態(tài)空間,動(dòng)作空間和由可觀察數(shù)據(jù)構(gòu)成的觀察空間,r表示立即獎(jiǎng)賞,γ(0<γ ≤1) 表示折扣因子.P(sk+1|sk,ak) 表示在當(dāng)前狀態(tài)sk下,采取動(dòng)作行為ak產(chǎn)生下一刻狀態(tài)sk+1的狀態(tài)轉(zhuǎn)移概率.在實(shí)際的工業(yè)過(guò)程中,生產(chǎn)指標(biāo)采樣周期通常為天和小時(shí)等.本文中采樣時(shí)刻k=0, 1,···表示第k天或小時(shí).具體的狀態(tài)空間、觀察空間和動(dòng)作空間說(shuō)明如下:

        1)狀態(tài)空間S: 對(duì)于系統(tǒng)(1),生產(chǎn)指標(biāo)sk為狀態(tài)變量,sk ∈S,S是連續(xù)空間.

        2)觀察空間O: 在實(shí)際生產(chǎn)中,生產(chǎn)條件dk可以表示單位時(shí)間吞吐量、原料質(zhì)量和運(yùn)行工況等.本文假設(shè)狀態(tài)變量和生產(chǎn)條件是可測(cè)量的,那么{sk,dk}∈O.工業(yè)生產(chǎn)中生產(chǎn)條件不可能保持不變,通常具有統(tǒng)計(jì)特性.受生產(chǎn)條件波動(dòng)的影響,未來(lái)的生產(chǎn)指標(biāo)sk+1是不確定的.

        3)動(dòng)作空間A:m個(gè)運(yùn)行指標(biāo)aik(i=1, 2,···,m) 構(gòu)成決策變量,因此aik ∈A.本文假設(shè)決策是確定的,即P(ak|sk)=1,決策運(yùn)行指標(biāo),優(yōu)化工業(yè)過(guò)程的生產(chǎn)指標(biāo).實(shí)際工業(yè)過(guò)程運(yùn)行指標(biāo)是連續(xù)的且需要滿(mǎn)足一定的約束條件,因此A為連續(xù)動(dòng)作空間.

        現(xiàn)有的自適應(yīng)動(dòng)態(tài)規(guī)劃方法為解決連續(xù)動(dòng)作空間的最優(yōu)控制問(wèn)題提供了可借鑒的理論和方法.因此,本文在自適應(yīng)動(dòng)態(tài)規(guī)劃框架下,擬提出一種策略異步更新強(qiáng)化學(xué)習(xí)算法,自學(xué)習(xí)運(yùn)行指標(biāo).為實(shí)現(xiàn)本文研究目標(biāo),本文定義如下性能指標(biāo):

        式中,c(·) 是效用函數(shù),算子 E{·}表示數(shù)學(xué)期望.

        注1.本文目標(biāo)是優(yōu)化不確定工業(yè)過(guò)程生產(chǎn)指標(biāo),因此效用函數(shù)要刻畫(huà)生產(chǎn)指標(biāo).為具體明確,本文取生產(chǎn)指標(biāo)為產(chǎn)品產(chǎn)量s1k和產(chǎn)品質(zhì)量s2k.目標(biāo)是最大化產(chǎn)品產(chǎn)量,控制產(chǎn)品質(zhì)量在規(guī)定范圍之內(nèi).因此,改寫(xiě)式(2)得到如下優(yōu)化問(wèn)題:

        問(wèn)題 1.

        式中,s1min、s2min、s2max為正實(shí)數(shù).

        為滿(mǎn)足生產(chǎn)指標(biāo)和運(yùn)行指標(biāo)的靜態(tài)約束條件,類(lèi)似文獻(xiàn)[22-23],本文引入一個(gè)Barrier 函數(shù):

        注2.效用函數(shù)c(a1k,···,amk) 中 1/s1k表示產(chǎn)品產(chǎn)量的倒數(shù),如果想要產(chǎn)品產(chǎn)量最大化,那么需要 1/s1k最小化.不同于文獻(xiàn)[10-11],性能指標(biāo)(8)包含了通過(guò)折扣因子γ衰減作用后累積性能的期望值.折扣因子使得鄰近k時(shí)刻的產(chǎn)品產(chǎn)量比未來(lái)的值更重要.并且,性能指標(biāo)中還包含了運(yùn)行指標(biāo)和生產(chǎn)指標(biāo)的靜態(tài)約束信息.

        注3.通過(guò)引入Barrier 函數(shù)和懲罰函數(shù),本文將靜態(tài)約束轉(zhuǎn)化為性能指標(biāo)函數(shù).問(wèn)題2 本質(zhì)上是一個(gè)最優(yōu)控制問(wèn)題,運(yùn)行指標(biāo)成為動(dòng)態(tài)系統(tǒng)(4)的控制輸入,那么最大化產(chǎn)品產(chǎn)量和控制產(chǎn)品質(zhì)量在規(guī)定范圍的多目標(biāo)多約束優(yōu)化問(wèn)題1 被轉(zhuǎn)化為單目標(biāo)無(wú)靜態(tài)約束的最優(yōu)控制問(wèn)題2.

        相比于集中式控制或者變量決策,分布式控制具有減輕計(jì)算負(fù)載的優(yōu)勢(shì).下面將針對(duì)優(yōu)化問(wèn)題2給出具體的求解算法.

        2 最優(yōu)運(yùn)行指標(biāo)決策

        本節(jié)針對(duì)優(yōu)化問(wèn)題2,基于強(qiáng)化學(xué)習(xí)技術(shù)和隨機(jī)優(yōu)化控制理論,提出了一種策略異步更新強(qiáng)化學(xué)習(xí)算法,并且證明了算法的收斂性.

        2.1 隨機(jī)最優(yōu)控制方法

        由于生產(chǎn)條件dk的隨機(jī)性特征,k時(shí)刻生產(chǎn)指標(biāo)取值具有多種可能性.因此,利用貝葉斯法則,性能指標(biāo)(8)可以改寫(xiě)為:

        上式表明最小化jk可以等價(jià)地設(shè)計(jì)最小化的決策規(guī)則.如果固定k+1 時(shí)刻的生產(chǎn)指標(biāo)sk+1,則有:

        基于隨機(jī)最優(yōu)控制理論和動(dòng)態(tài)規(guī)劃理論[10,20,24],當(dāng)所有運(yùn)行指標(biāo)取最優(yōu)策略m)時(shí),k時(shí)刻性能的數(shù)學(xué)期望為:

        由于k+1 時(shí)刻工業(yè)過(guò)程生產(chǎn)指標(biāo)sk+1具有不確定性,則有:

        利用最優(yōu)性的必要條件,最優(yōu)的運(yùn)行指標(biāo)為:

        將式(15) 代入式(14),得到離散時(shí)間HJB 方程:

        注4.由式(15)可知,本文采用分布式狀態(tài)反饋優(yōu)化控制的方式,分布式設(shè)計(jì)運(yùn)行指標(biāo).與構(gòu)成運(yùn)行指標(biāo)增廣向量,采用集中式方法設(shè)計(jì)運(yùn)行指標(biāo)相比,減少計(jì)算負(fù)載.

        注5.根據(jù)隨機(jī)最優(yōu)控制理論和動(dòng)態(tài)規(guī)劃理論,滿(mǎn)足式(16)的運(yùn)行指標(biāo)式(15)能夠最小化性能指標(biāo)式(8).由式(15),有即運(yùn)行指標(biāo)滿(mǎn)足靜態(tài)約束條件.

        2.2 運(yùn)行指標(biāo)自學(xué)習(xí)決策方法

        本節(jié)將拓展現(xiàn)有的自適應(yīng)動(dòng)態(tài)規(guī)劃方法,提出一種新的運(yùn)行指標(biāo)自學(xué)習(xí)決策算法,在優(yōu)化性能式(8)的意義下,實(shí)現(xiàn): 1)產(chǎn)品產(chǎn)量最大化;2)控制產(chǎn)品質(zhì)量在規(guī)定范圍之內(nèi);3)運(yùn)行指標(biāo)限制在規(guī)定范圍之內(nèi),實(shí)現(xiàn)工業(yè)過(guò)程生產(chǎn)指標(biāo)優(yōu)化并且保證安全運(yùn)行.

        定義1[20,22,25].如果運(yùn)行指標(biāo)aik(i=1, 2,···,m) 滿(mǎn)足: 1)鎮(zhèn)定系統(tǒng)式(4);2)當(dāng)生產(chǎn)指標(biāo)sk滿(mǎn)足約束條件式(5)時(shí),jk是有界的,那么運(yùn)行指標(biāo)aik稱(chēng)為是可允許的.

        為了用數(shù)值方法求解離散HJB 方程(16),本文提出了策略異步更新強(qiáng)化學(xué)習(xí)算法1,圖2 給出了算法1 的執(zhí)行機(jī)制.

        圖2 運(yùn)行指標(biāo)自學(xué)習(xí)機(jī)制Fig.2 Self-learning mechanism of operational indices

        算法1.策略異步更新強(qiáng)化學(xué)習(xí)算法

        定理 1.假設(shè)m)可以由式(17) 和式(18) 得到,則對(duì)于所有的sk ∈S和任意迭代指標(biāo)j如下結(jié)論成立

        證明.1) 采用數(shù)學(xué)歸納法.當(dāng)?shù)笜?biāo)j=1時(shí),由式(17)定義:

        注7.通過(guò)引入時(shí)鐘和定義其閾值,執(zhí)行策略異步更新,運(yùn)行指標(biāo)最終收斂到問(wèn)題2 的最優(yōu)解.由于算法1 本質(zhì)上是強(qiáng)化學(xué)習(xí)方法,因此稱(chēng)為策略異步更新強(qiáng)化學(xué)習(xí)算法.

        注8.不同于現(xiàn)有的多控制策略同步更新強(qiáng)化學(xué)習(xí)算法[10-11,15,17-18],本文不僅給出多個(gè)控制策略(即運(yùn)行指標(biāo))異步更新算法,并且基于隨機(jī)最優(yōu)控制理論,采用數(shù)學(xué)歸納法給出了算法收斂性的理論證明.各運(yùn)行指標(biāo)分布地、異步地更新策略,而不是集中[12-14,25,28]、同步更新方式[10-11,15,17-18],其優(yōu)勢(shì)在于提高學(xué)習(xí)效率.

        由式(17)和式(18)可知,要實(shí)現(xiàn)運(yùn)行指標(biāo)自學(xué)習(xí)決策,求解是需要解決的關(guān)鍵問(wèn)題.但是在工業(yè)過(guò)程生產(chǎn)指標(biāo)和運(yùn)行指標(biāo)動(dòng)態(tài)未知、生產(chǎn)條件存在頻繁波動(dòng)的情況下,如何求解是一個(gè)難題.下面將基于提出的算法1,在多執(zhí)行-評(píng)判網(wǎng)絡(luò)結(jié)構(gòu)下提出數(shù)據(jù)驅(qū)動(dòng)的運(yùn)行指標(biāo)自學(xué)習(xí)決策算法.

        2.3 多執(zhí)行-評(píng)判網(wǎng)絡(luò)結(jié)構(gòu)

        式中,sl(k+1)(l=1, 2,···,M) 表示在k+1 時(shí)刻隨機(jī)變量s的可能取值,N為樣本數(shù),n(s=sl(k+1))表示sl(k+1)出現(xiàn)的次數(shù).對(duì)于所有sk ∈Sj,利用梯度下降方法,有:

        算法2.多執(zhí)行-評(píng)判網(wǎng)絡(luò)架構(gòu)下的運(yùn)行指標(biāo)自學(xué)習(xí)決策算法

        算法2 給出了具體的決策運(yùn)行指標(biāo)的程序.為更清楚理解算法2,圖3給出了算法2 執(zhí)行流程圖.

        圖3 多執(zhí)行-評(píng)判結(jié)構(gòu)下運(yùn)行指標(biāo)自學(xué)習(xí)決策流程圖Fig.3 Flowchart of self-learning decision making of operational indices with multiple actors-critic structure

        注11.現(xiàn)有的自適應(yīng)動(dòng)態(tài)規(guī)劃方法,通常忽視系統(tǒng)不確定性引發(fā)的狀態(tài)不確定性.文獻(xiàn)[20]針對(duì)離散隨機(jī)過(guò)程,提出了強(qiáng)化學(xué)習(xí)方法,用以學(xué)習(xí)最優(yōu)控制策略,但要求狀態(tài)轉(zhuǎn)移概率矩陣已知.本文提出的方法無(wú)需計(jì)算狀態(tài)轉(zhuǎn)移概率矩陣,通過(guò)計(jì)算樣本均值可以計(jì)算并且提出了策略異步更新強(qiáng)化學(xué)習(xí)方法,用以提高學(xué)習(xí)效率.此外,本文提出的方法應(yīng)用到工業(yè)過(guò)程生產(chǎn)指標(biāo)優(yōu)化問(wèn)題,給出了優(yōu)化生產(chǎn)指標(biāo)并控制運(yùn)行指標(biāo)在規(guī)定范圍之內(nèi)的運(yùn)行指標(biāo)自學(xué)習(xí)決策方法.

        注12.為計(jì)算式(43)中?sk+1/?ai(k),可以采用類(lèi)似式(35)和式(36)的神經(jīng)網(wǎng)絡(luò)估計(jì)方法,先估計(jì)生產(chǎn)指標(biāo)動(dòng)態(tài)sk,然后再計(jì)算導(dǎo)數(shù)值.

        注13.與經(jīng)典的深度Q 網(wǎng)絡(luò)(Deep Q network,DQN)算法以及融合DQN、執(zhí)行-評(píng)判網(wǎng)絡(luò)結(jié)構(gòu)和策略梯度方法的多智能體深度確定性策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)算法[32]相比,本文所提算法的不同之處在于: 1)算法2 中本文利用神經(jīng)網(wǎng)絡(luò)擬合的是值函數(shù),而不是代替Q表的Q函數(shù);2)算法2 中多個(gè)執(zhí)行網(wǎng)絡(luò)異步更新,而經(jīng)典的DQN 算法通常是根據(jù)估計(jì)的Q函數(shù)決定一個(gè)智能體的動(dòng)作,MADDPG 算法往往是多執(zhí)行網(wǎng)絡(luò)同步更新.本文多個(gè)控制策略異步更新避免了部分智能體神經(jīng)網(wǎng)絡(luò)估計(jì)控制策略用時(shí)過(guò)長(zhǎng),提高學(xué)習(xí)效率,并且給出了算法收斂性證明.如何將所提方法擴(kuò)展到MADDPG 算法是未來(lái)擬研究的方向.

        3 鐵礦選礦生產(chǎn)指標(biāo)優(yōu)化試驗(yàn)

        本節(jié)利用從中國(guó)西部某大型鐵礦選礦廠獲得的實(shí)際數(shù)據(jù),包括生產(chǎn)指標(biāo)(精礦產(chǎn)量和精礦品位)、7個(gè)運(yùn)行指標(biāo)變量和5 個(gè)生產(chǎn)條件變量,開(kāi)展本文提出的運(yùn)行指標(biāo)自學(xué)習(xí)決策算法的驗(yàn)證,具體包括:1)實(shí)現(xiàn)生產(chǎn)指標(biāo)優(yōu)化,即最大化精礦產(chǎn)量,控制精礦品位在理想范圍內(nèi),并且運(yùn)行指標(biāo)限制在規(guī)定范圍之內(nèi);2)學(xué)習(xí)效率和生產(chǎn)指標(biāo)對(duì)比分析.

        3.1 選礦過(guò)程描述及實(shí)驗(yàn)設(shè)置

        如圖4 所示,鐵礦選礦由大量工序/設(shè)備組成,包括篩分、豎爐焙燒、磨礦、低強(qiáng)度(弱)和高強(qiáng)度(強(qiáng))磁選以及兩個(gè)脫水單元[7,10].本文主要關(guān)注兩個(gè)生產(chǎn)指標(biāo),即精礦產(chǎn)量s1和精礦品位s2.表1 分別給出7 個(gè)運(yùn)行指標(biāo)a1、a2、a3、a4、a5、a6、a7的含義和需要滿(mǎn)足的約束條件.生產(chǎn)條件由5 個(gè)變量組成,可以增廣為一個(gè)隨機(jī)向量.

        表1 運(yùn)行指標(biāo)Table 1 Operational indices

        圖4 選礦過(guò)程流程圖Fig.4 Flow chart of mineral separation process

        在本實(shí)驗(yàn)中,采樣周期為天和小時(shí),表示生產(chǎn)指標(biāo)和運(yùn)行指標(biāo)按天或小時(shí)來(lái)測(cè)量.取精礦產(chǎn)量下限s1min=260 噸/小時(shí)和s1min=6 000 噸/天,精礦品位下限s2min= 53.5%,精 礦 品位上限s2max=54.5%.本文通過(guò)Matlab 軟件實(shí)現(xiàn)算法.假設(shè)收集到的鐵礦石加工歷史數(shù)據(jù)有足夠的代表性,可以用來(lái)反映真實(shí)生產(chǎn)過(guò)程.現(xiàn)場(chǎng)收集的532 個(gè)數(shù)據(jù)被分為兩組,分別用于生產(chǎn)指標(biāo)動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和驗(yàn)證.精礦品位和精礦產(chǎn)量的動(dòng)態(tài)模型均采用16-16-1 的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)估計(jì),損失函數(shù)定義為:

        式中,sik為實(shí)際數(shù)據(jù),為神經(jīng)網(wǎng)絡(luò)估計(jì)值,m為正整數(shù).圖5 給出了精礦產(chǎn)量和精礦品位的訓(xùn)練集與驗(yàn)證集的損失函數(shù)變化圖.由圖5 可以看出,模型在驗(yàn)證集上的誤差是隨著訓(xùn)練集的誤差下降而下降的,表明本文訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型不存在過(guò)擬合或者欠擬合的現(xiàn)象.

        圖5 精礦產(chǎn)量和精礦品位損失函數(shù)Fig.5 Loss functions of the concentrate yield and concentrate grade

        對(duì)生產(chǎn)條件歷史數(shù)據(jù)做統(tǒng)計(jì)分析,生產(chǎn)條件向量近似服從高斯分布 N (μ,σ2),均值μ=[31.70 43.38 13.75 71.14 58.56],方差σ2=[0.92 0.44 0.57 3.62 2.75].

        3.2 算法驗(yàn)證和結(jié)果比較

        用蒙特卡洛方法產(chǎn)生與歷史數(shù)據(jù)同分布的生產(chǎn)條件,評(píng)判神經(jīng)網(wǎng)絡(luò)采用2-10-1 的結(jié)構(gòu),7 個(gè)執(zhí)行神經(jīng)網(wǎng)絡(luò)均采用2-14-1 的結(jié)構(gòu).神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率為0.05,訓(xùn)練誤差為0.001,取折扣因子γ=0.8.執(zhí)行算法2,圖6 和圖7 分別為執(zhí)行網(wǎng)絡(luò)和評(píng)判網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)權(quán)學(xué)習(xí)過(guò)程.圖8 為200 天7 個(gè)運(yùn)行指標(biāo)實(shí)驗(yàn)結(jié)果,相應(yīng)地圖9 和圖10 顯示了200 天精礦品位和精礦產(chǎn)量的實(shí)驗(yàn)結(jié)果.圖8 表明采用所提算法2,運(yùn)行指標(biāo)限制在規(guī)定范圍之內(nèi).圖9 和圖10表明精礦品位和精礦產(chǎn)量滿(mǎn)足靜態(tài)約束條件.圖6~圖10 表明了本文算法的有效性.

        圖6 多執(zhí)行神經(jīng)網(wǎng)絡(luò)權(quán)值Fig.6 Evolution of weights of multi-actor neural networks

        圖7 評(píng)判神經(jīng)網(wǎng)絡(luò)權(quán)值Fig.7 Evolution of weights of critic neural network

        圖8 200 天的運(yùn)行指標(biāo)Fig.8 200-day operational indices

        圖9 200 天的精礦品位Fig.9 200-day concentrate grade

        為驗(yàn)證本文算法的優(yōu)勢(shì),做了對(duì)比性實(shí)驗(yàn).表2為采用本文方法、文獻(xiàn)[11] 的多執(zhí)行網(wǎng)絡(luò)集成算法(Multi-actor networks ensemble,MAE)和文獻(xiàn)[33]的Reinforce 算法獲得的精礦產(chǎn)量和實(shí)際精礦產(chǎn)量的對(duì)比性結(jié)果.由表2 和圖10可以看出,本文方法得到的精礦產(chǎn)量高于實(shí)際生產(chǎn)精礦產(chǎn)量.通過(guò)計(jì)算平均值,本文算法2 相比于實(shí)際精礦產(chǎn)量提高了約1 000 噸/天、40 噸/小時(shí).不同于文獻(xiàn)[11,33],本文優(yōu)化目標(biāo)為最大化累積產(chǎn)品產(chǎn)量,不是單次采樣時(shí)刻的產(chǎn)量,單次采樣時(shí)刻產(chǎn)量高不能保證累積時(shí)間內(nèi)產(chǎn)量的最大化.由表2 可以看出,相比于文獻(xiàn)[11]算法,本文算法提高30 天(按天采樣)和1 天(按小時(shí)采樣)精礦產(chǎn)量分別為34 167.6 噸和2 299.5 噸;相比于文獻(xiàn)[33]算法,本文算法提高30 天和1 天精礦產(chǎn)量分別為36 462.2 噸和2 381.9 噸.執(zhí)行類(lèi)似文獻(xiàn)[10-11]的策略同步更新強(qiáng)化學(xué)習(xí)算法,圖11顯示了10 次運(yùn)行本文算法2 和策略同步更新算法的時(shí)間消耗.10 次實(shí)驗(yàn)中,策略異步更新強(qiáng)化學(xué)習(xí)算法和策略同步更新強(qiáng)化學(xué)習(xí)算法平均每次執(zhí)行時(shí)間分別為4.83 秒與7.80 秒,表明了本文提出的策略異步更新算法提高了學(xué)習(xí)效率.實(shí)際選礦過(guò)程生產(chǎn)條件動(dòng)態(tài)變化,針對(duì)如下三種生產(chǎn)條件變化均值相同μ=[31.74 43.66 13.94 71.68 58.96],不同方差:

        圖10 200 天的精礦產(chǎn)量Fig.10 200-day concentrate yield

        圖11 策略異步更新和策略同步更新強(qiáng)化學(xué)習(xí)算法時(shí)間消耗對(duì)比Fig.11 Comparison of time consumption between asynchronous policy update and synchronous policy update

        表2 算法的實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison results between different algorithms

        工況1:=[0.68 0.64 0.48 3.93 2.59]

        工況2:=[2.68 1.67 2.44 5.79 5.42]

        工況3:=[2.88 3.73 4.44 8.72 8.32]

        執(zhí)行算法2,圖12 顯示了考慮工況變化和不考慮工況變化統(tǒng)計(jì)結(jié)果對(duì)比.結(jié)果表明: 未考慮工況變化,沒(méi)有根據(jù)工況的波動(dòng)調(diào)節(jié)運(yùn)行指標(biāo),精礦產(chǎn)量變化比較平穩(wěn).而本文算法能根據(jù)生產(chǎn)條件變化自適應(yīng)調(diào)節(jié)運(yùn)行指標(biāo),優(yōu)化精礦產(chǎn)量,平均精礦產(chǎn)量高于同種工況下的未考慮工況變化的值.

        圖12 考慮工況變化和不考慮工況變化統(tǒng)計(jì)結(jié)果對(duì)比Fig.12 Statistic results with and without consideration of dynamics of production condition

        4 結(jié)束語(yǔ)

        本文針對(duì)不確定工業(yè)過(guò)程運(yùn)行指標(biāo)決策問(wèn)題,基于自適應(yīng)動(dòng)態(tài)規(guī)劃技術(shù),提出了一種數(shù)據(jù)驅(qū)動(dòng)的策略異步更新強(qiáng)化學(xué)習(xí)算法,決策運(yùn)行指標(biāo),并給出了算法收斂性的理論證明.該算法不要求狀態(tài)轉(zhuǎn)移概率矩陣已知,利用樣本均值代替計(jì)算生產(chǎn)指標(biāo)狀態(tài)轉(zhuǎn)移概率矩陣,采用集中式性能評(píng)估和多策略異步更新方式,利用可測(cè)量數(shù)據(jù),自學(xué)習(xí)決策運(yùn)行指標(biāo).該算法提高了分布式強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效率,實(shí)現(xiàn)了生產(chǎn)條件動(dòng)態(tài)波動(dòng)環(huán)境下,工業(yè)過(guò)程生產(chǎn)指標(biāo)優(yōu)化并且保證運(yùn)行指標(biāo)和生產(chǎn)指標(biāo)在規(guī)定范圍之內(nèi).仿真實(shí)驗(yàn)驗(yàn)證了方法的有效性.

        猜你喜歡
        優(yōu)化策略方法
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        例談未知角三角函數(shù)值的求解策略
        我說(shuō)你做講策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        中文字幕人妻偷伦在线视频| 亚洲写真成人午夜亚洲美女| 奇米影视色777四色在线首页| 亚洲av综合久久九九| 无码AV高潮喷水无码专区线| 91青青草在线观看视频| 亚洲综合自拍偷拍一区| 十八禁在线观看视频播放免费| 亚洲国产成人久久综合一区77| 特黄三级一区二区三区| 日本精品一区二区三区在线观看| 亚洲av日韩aⅴ无码色老头| 国产内射合集颜射| 国产喷白浆精品一区二区| 国产白浆一区二区在线| 最爽无遮挡行房视频| 欧美日韩国产色综合一二三四| 亚洲二区三区在线播放| 亚洲av区,一区二区三区色婷婷| 成人网站免费看黄a站视频| 国产欧美一区二区成人影院| 日本黄色高清视频久久| 色综合天天综合网国产成人网| 久久aⅴ人妻少妇嫩草影院| 日韩一区二区超清视频| 亚洲免费一区二区av| 国产激情视频在线观看的 | 国产成人久久综合第一区| 日韩熟女系列中文字幕| 免费特级毛片| 亚洲欧美日韩精品久久亚洲区色播| av资源在线免费观看| √天堂中文官网在线| 亚洲天堂2017无码中文| 日本一区二区三深夜不卡| 精品少妇一区二区av免费观看| 国产精品无码久久久久久久久久 | 一区二区三区在线视频观看| 国偷自产一区二区免费视频| 99国产精品丝袜久久久久| 国产白浆一区二区三区佳柔|