亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于虛擬仿真與深度強(qiáng)化學(xué)習(xí)的作業(yè)車間集成調(diào)度

        2023-08-22 07:47:28李昊謙
        實(shí)驗(yàn)室研究與探索 2023年5期
        關(guān)鍵詞:案例優(yōu)化信息

        王 亮,李昊謙,唐 堂,于 穎

        (同濟(jì)大學(xué)機(jī)械與能源工程學(xué)院,上海 201804)

        0 引 言

        在深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、數(shù)字孿生技術(shù)等先進(jìn)技術(shù)的支撐下,智能制造產(chǎn)業(yè)獲得了蓬勃的發(fā)展。越來(lái)越多的高校新增智能制造工程專業(yè)以培養(yǎng)可滿足新工科需求的創(chuàng)新性人才[1-2]。作業(yè)車間調(diào)度問(wèn)題(Job-Shop Scheduling Problem,JSP)是根據(jù)生產(chǎn)車間的產(chǎn)品數(shù)據(jù)、加工數(shù)據(jù)、物流信息、生產(chǎn)調(diào)度和資源管理等信息進(jìn)行整合,使車間可充分利用現(xiàn)有生產(chǎn)資源,合理分配生產(chǎn)工序,減少生產(chǎn)時(shí)間,優(yōu)化生產(chǎn)目標(biāo)。作業(yè)車間生產(chǎn)過(guò)程的不確定性、復(fù)雜性以及多資源相互協(xié)調(diào)等特點(diǎn)對(duì)生產(chǎn)排程優(yōu)化提出了新的挑戰(zhàn),是智能制造中廣泛研究的問(wèn)題之一。

        Plant Simulation作為一款生產(chǎn)系統(tǒng)仿真軟件,可很好地進(jìn)行生產(chǎn)模擬,輔助排程計(jì)劃的制定。國(guó)內(nèi)外學(xué)者也對(duì)其開(kāi)展了大量研究。Guo等[3]提出一種基于工序編碼方式在Plant Simulation仿真平臺(tái)解決車間作業(yè)排序問(wèn)題的優(yōu)化設(shè)計(jì)方法,并運(yùn)用傳統(tǒng)的遺傳算法對(duì)此類問(wèn)題進(jìn)行仿真優(yōu)化。Xiu 等[4]利用Plant Simulation 仿真軟件中的統(tǒng)一建模語(yǔ)言(Unified Modeling Language,UML)映射對(duì)作業(yè)車間調(diào)度仿真優(yōu)化系統(tǒng)進(jìn)行分析,并使用遺傳算法對(duì)其模型參數(shù)進(jìn)行優(yōu)化,得到理想的調(diào)度方案。Tang 等[5]提出一種將Plant Simulation仿真模型嵌入遺傳算法的聯(lián)合求解批量調(diào)度的方法,該方法可縮短生產(chǎn)周期,提高設(shè)備利用率,更加適用于工業(yè)實(shí)際問(wèn)題。Tian 等[6]研究了在Plant Simulation 建立仿真模型的關(guān)鍵技術(shù),利用優(yōu)化模塊中內(nèi)置遺傳算法來(lái)優(yōu)化作業(yè)車間調(diào)度,保證決策的科學(xué)性。Hugo 等[7]提出一種DFWA-VNS 算法,結(jié)合Plant Simulation平臺(tái)解決JSP 問(wèn)題。文笑雨等[8]基于Plant Simulation構(gòu)建作業(yè)車間生產(chǎn)的不確定調(diào)度仿真模型,利用遺傳算法對(duì)該模型進(jìn)行求解。實(shí)例仿真說(shuō)明方案能夠有效降低不確定加工時(shí)間和隨機(jī)機(jī)器故障對(duì)車間生產(chǎn)調(diào)度的影響。

        此外,求解JSP需要有效的方法,比如精確計(jì)算、啟發(fā)式算法與強(qiáng)化學(xué)習(xí)算法等。其中強(qiáng)化學(xué)習(xí)有著求解速度快、結(jié)果優(yōu)異且穩(wěn)定的優(yōu)點(diǎn),吸引了廣大學(xué)者的探討。Thomas等[9]將作業(yè)車間調(diào)度問(wèn)題轉(zhuǎn)為由智能體處理的順序決策問(wèn)題并使用各種確定的和隨機(jī)的作業(yè)車間調(diào)度基準(zhǔn)問(wèn)題驗(yàn)證了方法的有效性。Li 等[10]提出一種基于深度Q 網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法。該方法結(jié)合了深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力與強(qiáng)化學(xué)習(xí)的決策能力,獲得每個(gè)時(shí)間節(jié)點(diǎn)的最佳調(diào)度規(guī)則。Liu等[11]提出一種策略網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)并行訓(xùn)練方法,以簡(jiǎn)單的調(diào)度規(guī)劃作為智能體動(dòng)作,可有效求解基準(zhǔn)JSP問(wèn)題的靜態(tài)與動(dòng)態(tài)調(diào)度。Park 等[12]提出一個(gè)框架,使用圖神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)來(lái)求解作業(yè)車間調(diào)度問(wèn)題。文獻(xiàn)[13-14]中設(shè)計(jì)了一個(gè)強(qiáng)化學(xué)習(xí)和仿真相結(jié)合的動(dòng)態(tài)實(shí)時(shí)車間作業(yè)排序系統(tǒng)。

        本文提出一種基于Plant Simulation的深度強(qiáng)化學(xué)習(xí)(Plant Simulation based Deep Reinforcement Learning,PSDRL)算法,用來(lái)求解作業(yè)車間調(diào)度問(wèn)題,實(shí)現(xiàn)對(duì)車間生產(chǎn)排程計(jì)劃的快速響應(yīng)與優(yōu)化。在近端策略優(yōu)化(Proximal Policy Optimization,PPO)的強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)上,以Plant Simulation 平臺(tái)搭建虛擬車間作為強(qiáng)化學(xué)習(xí)環(huán)境,優(yōu)化每個(gè)時(shí)刻的可行工序選取策略,快速制定一個(gè)最小化完工時(shí)間的排程計(jì)劃。本文旨在通過(guò)強(qiáng)化學(xué)習(xí)算法及離散事件虛擬仿真的集成,實(shí)現(xiàn)先進(jìn)技術(shù)的綜合應(yīng)用,以新的實(shí)踐教學(xué)方式激發(fā)學(xué)生的學(xué)習(xí)興趣,并提高學(xué)生對(duì)智能制造生產(chǎn)與技術(shù)的認(rèn)識(shí)。

        1 問(wèn)題描述與基本架構(gòu)

        作業(yè)車間調(diào)度問(wèn)題是經(jīng)典的組合優(yōu)化問(wèn)題,要求給定的一組工件J=1,2,…,n在一組機(jī)器M=1,2,…,m上加工完成,滿足以下約束條件:

        (1)每個(gè)工件在機(jī)器上的加工工序確定。

        (2)每臺(tái)機(jī)器在同一時(shí)刻只加工一個(gè)工件,工件加工時(shí)間是固定的且工序一旦開(kāi)始不能被中斷。

        (3)每道工序必須等到其前置工序加工完畢后才能開(kāi)始加工。

        本研究中的PSDRL算法整體框架圖如圖1 所示,包括Plant Simulation仿真平臺(tái)、案例信息、評(píng)價(jià)、動(dòng)作等要素。策略網(wǎng)絡(luò)每次會(huì)去讀取案例的狀態(tài)信息與獎(jiǎng)勵(lì)值,同時(shí)評(píng)價(jià)網(wǎng)絡(luò)會(huì)去評(píng)判狀態(tài)的好壞,并將這些信息存儲(chǔ)到記憶庫(kù),以便后續(xù)更新參數(shù)使用。在該算法中智能體需要執(zhí)行完一次完整流程后才會(huì)進(jìn)行參數(shù)更新,每一步得到的獎(jiǎng)勵(lì)值都是真實(shí)觀測(cè)到的值,價(jià)值函數(shù)不再具有預(yù)測(cè)功能。此外為增加算法的魯棒性與泛化性,每次智能體需同時(shí)完成多個(gè)案例的生產(chǎn)排程計(jì)劃,將所有案例的狀態(tài)信息整合后完成一次神經(jīng)網(wǎng)絡(luò)的參數(shù)更新。

        圖1 PSDRL訓(xùn)練流程示意圖

        2 基于Plant Simulation 平臺(tái)的強(qiáng)化學(xué)習(xí)環(huán)境構(gòu)建

        PSDRL環(huán)境是依靠Plant Simulation 搭建的,仿真平臺(tái)可構(gòu)建一個(gè)JSP 案例,以模擬車間的運(yùn)行情況。Plant Simulation 平臺(tái)自帶遺傳算法來(lái)優(yōu)化生產(chǎn)排程,但由于其性能與局限性無(wú)法滿足復(fù)雜車間排程需求,需引入其他算法以提升車間排程的質(zhì)量與速度。

        基于Plant Simulation 的強(qiáng)化學(xué)習(xí)環(huán)境主要由算法-環(huán)境通信部分、邏輯控制區(qū)、機(jī)器模型區(qū)與工件信息區(qū)組成。

        本文采用套接字(Socket)作為算法與虛擬仿真環(huán)境的通信手段,以Python 的強(qiáng)化學(xué)習(xí)算法作為客戶端,虛擬仿真環(huán)境作為服務(wù)端。要實(shí)現(xiàn)服務(wù)端與客戶端之間的通信,需要在虛擬仿真環(huán)境服務(wù)端中打開(kāi)socket對(duì)象的通信開(kāi)關(guān),如圖2 所示,點(diǎn)擊on 的復(fù)選框,并設(shè)置通信協(xié)議、通信地址及端口。由于socket通信只允許調(diào)用同一個(gè)函數(shù),所以可設(shè)計(jì)一套標(biāo)識(shí)符,實(shí)現(xiàn)工件加工信息導(dǎo)入、生產(chǎn)排程計(jì)劃導(dǎo)入與獎(jiǎng)勵(lì)值返回這一套完整運(yùn)行流程。

        圖2 Socket通信對(duì)象設(shè)置界面

        邏輯控制區(qū)主要功能有:根據(jù)客戶端生成的案例大小自適應(yīng)生成相同規(guī)模的車間機(jī)器模型;將工件信息區(qū)的數(shù)據(jù)生成加工信息表;控制整個(gè)仿真系統(tǒng)的運(yùn)行邏輯,保證生產(chǎn)調(diào)度的平穩(wěn)進(jìn)行。邏輯控制區(qū)如圖3 所示。

        圖3 虛擬環(huán)境的邏輯控制區(qū)

        機(jī)器模型區(qū)如圖4 所示,是仿真運(yùn)行的載體,其中包含物料生成對(duì)象、零件暫存區(qū)、機(jī)器設(shè)備、物料輸出區(qū)。機(jī)器設(shè)備根據(jù)機(jī)器加工順序表,同時(shí)依照邏輯控制區(qū)的調(diào)度規(guī)則,以實(shí)現(xiàn)模擬車間的生產(chǎn)流程的目的。

        圖4 虛擬仿真環(huán)境的車間機(jī)器模型區(qū)

        工件信息區(qū)如圖5 所示,該區(qū)域使用表格對(duì)象分解記錄由算法客戶端傳送過(guò)來(lái)的等待加工工件信息及相應(yīng)的工藝信息。加工信息包含工件的工序加工順序、加工時(shí)長(zhǎng)以及對(duì)應(yīng)的加工機(jī)器序號(hào)。工件信息區(qū)在得到客戶端傳來(lái)的案例信息后等待邏輯控制區(qū)的初始化加工信息函數(shù)將其變?yōu)榧庸ば畔⒈?,用以仿真環(huán)境的初始化。

        圖5 虛擬環(huán)境的工件信息區(qū)

        3 基于Plant Simulation 仿真環(huán)境的深度強(qiáng)化學(xué)習(xí)算法

        本文采用強(qiáng)化學(xué)習(xí)算法為PPO算法,其為目前效果最好的強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)構(gòu)型,包含了動(dòng)作選擇的策略網(wǎng)絡(luò)和狀態(tài)評(píng)價(jià)的價(jià)值網(wǎng)絡(luò),在訓(xùn)練過(guò)程中,依據(jù)獎(jiǎng)勵(lì)值與價(jià)值函數(shù)的誤差不斷迭代更新網(wǎng)絡(luò)參數(shù)。包括強(qiáng)化學(xué)習(xí)算法的客戶端讀取案例信息并將信息傳輸給虛擬仿真環(huán)境,仿真環(huán)境生成加工信息表與機(jī)器模型。算法客戶端會(huì)根據(jù)強(qiáng)化學(xué)習(xí)的調(diào)度策略生成工件生產(chǎn)計(jì)劃,并將其發(fā)送給虛擬仿真環(huán)境。虛擬仿真環(huán)境作為強(qiáng)化學(xué)習(xí)中智能體交互環(huán)境的一個(gè)重要組成部分,用以驗(yàn)證動(dòng)作策略給出的生產(chǎn)排程計(jì)劃的有效性并記錄下執(zhí)行每個(gè)動(dòng)作產(chǎn)生的獎(jiǎng)勵(lì)值,并將其返回給強(qiáng)化學(xué)習(xí)算法,完成一次策略參數(shù)的更新,直到到達(dá)最大迭代次數(shù)結(jié)束訓(xùn)練,最終生成一個(gè)良好的調(diào)度策略網(wǎng)絡(luò)。可更加快速、穩(wěn)定地得到案例優(yōu)良的調(diào)度方案。

        3.1 環(huán)境狀態(tài)與動(dòng)作空間

        環(huán)境狀態(tài)的定義是強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)。為表達(dá)JSP車間的環(huán)境狀態(tài),使用析取圖進(jìn)行表征。析取圖存儲(chǔ)信息的主要方式是節(jié)點(diǎn)信息與節(jié)點(diǎn)之間的鄰接關(guān)系。

        表達(dá)節(jié)點(diǎn)信息的節(jié)點(diǎn)特征為

        式中:n為工件數(shù);m為機(jī)器數(shù);feature 為工序此刻的最長(zhǎng)完工時(shí)間;mask為該工序是否完成加工。

        表達(dá)工序節(jié)點(diǎn)間的加工順序的工序鄰接矩陣

        式中:(vi,vj)為節(jié)點(diǎn)i與節(jié)點(diǎn)j之間的連線;E為析取圖中邊的集合。如果節(jié)點(diǎn)間具有鄰接關(guān)系則adj相應(yīng)位置置1,否則置0。之后使用圖神經(jīng)網(wǎng)絡(luò)對(duì)析取圖中包含的狀態(tài)信息進(jìn)行特征提取,完成狀態(tài)的預(yù)處理。

        強(qiáng)化學(xué)習(xí)智能體的動(dòng)作集合在本系統(tǒng)中定義為強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)在根據(jù)當(dāng)前車間狀態(tài),判讀出的可進(jìn)行調(diào)度的工序序號(hào)合集??蛇M(jìn)行調(diào)度的工序是指所有工件待加工工序中的第一個(gè),該集合大小

        式中,nmax為狀態(tài)St時(shí)依然未完成全部加工工序的工件數(shù),動(dòng)作空間將隨著工件工序的不斷完工而減小。強(qiáng)化學(xué)習(xí)通過(guò)選擇合適的工序?qū)⑵渑湃肷a(chǎn)計(jì)劃表,其主要由隨后動(dòng)作選擇的策略網(wǎng)絡(luò)再根據(jù)ε-貪心算法,以一定概率ε從動(dòng)作集合中隨機(jī)選擇動(dòng)作,以1-ε概率選擇獎(jiǎng)勵(lì)值最大的動(dòng)作。

        3.2 控制目標(biāo)與獎(jiǎng)勵(lì)函數(shù)

        本算法的目標(biāo)是優(yōu)化生產(chǎn)排程計(jì)劃,使得案例中所有的工件最長(zhǎng)完工時(shí)間(makespan)最小化。從生產(chǎn)排程計(jì)劃來(lái)看,想要更短完工時(shí)間,需要提高機(jī)器設(shè)備的利用率,縮短機(jī)器的空閑等待時(shí)間,強(qiáng)化學(xué)習(xí)在選取加工工序時(shí),應(yīng)趨向于選擇加工時(shí)間更長(zhǎng)的工序,同時(shí)讓最長(zhǎng)完工時(shí)間更短。本研究中將獎(jiǎng)勵(lì)值定義為t時(shí)刻狀態(tài)St下執(zhí)行工序后的最長(zhǎng)完工時(shí)間與執(zhí)行此工序前的t-1 時(shí)刻狀態(tài)St-1下的最長(zhǎng)完工時(shí)的差值的負(fù)值,獎(jiǎng)勵(lì)值

        譬如當(dāng)執(zhí)行工序后,此時(shí)最長(zhǎng)完工時(shí)間等于未執(zhí)行工序前案例的最長(zhǎng)完工時(shí)間時(shí),獎(jiǎng)勵(lì)值則為0,其余情況下均為負(fù)值。此外需要說(shuō)明的是獎(jiǎng)勵(lì)值是從Plant Simulation仿真環(huán)境中獲取的。

        4 實(shí)驗(yàn)設(shè)計(jì)

        為表明Plant Simulation虛擬仿真與深度強(qiáng)化學(xué)習(xí)集成優(yōu)化算法的性能,選取經(jīng)典的JSP 算例之一Taillard算例參與算法試驗(yàn),包括ta10、ta20、ta30、ta40共4 種案例[15]。并與經(jīng)典優(yōu)先調(diào)度規(guī)則最短加工時(shí)間(Shortest Processing Time,SPT)、深度Q 網(wǎng)絡(luò)(Deep Q-network,DQN)與遺傳算法(Genetic Algorithm,GA)進(jìn)行對(duì)比實(shí)驗(yàn)。在訓(xùn)練開(kāi)始前,需設(shè)置實(shí)驗(yàn)的案例工件數(shù)、機(jī)器數(shù)以及強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)初始參數(shù)。本研究中的PSDRL算法的訓(xùn)練參數(shù)如下:訓(xùn)練次數(shù)2 000 次、網(wǎng)絡(luò)層數(shù)3、輸入維度2、輸出維度32、學(xué)習(xí)率2 ×10-5、ε取0.2。每個(gè)算法對(duì)于每個(gè)案例獨(dú)立計(jì)算10次makespan并取平均值記為Aavg,同時(shí)運(yùn)行時(shí)間記為tavg。實(shí)驗(yàn)結(jié)果見(jiàn)表1,其中:n為案例的工件數(shù),m為案例的機(jī)器數(shù),Cb為案例的已知最優(yōu)解。

        表1 實(shí)驗(yàn)結(jié)果對(duì)比

        由表1 可見(jiàn),虛擬仿真與深度強(qiáng)化學(xué)習(xí)集成優(yōu)化方法綜合來(lái)說(shuō)優(yōu)于對(duì)比算法。PSDRL 計(jì)算的makespan雖然無(wú)法到達(dá)案例的最優(yōu)值,但是平均相差在30%左右,且高于其他的對(duì)比算法,是可用于車間的生產(chǎn)排程。同時(shí)該算法還具有運(yùn)行速度極快,其計(jì)算速度遠(yuǎn)遠(yuǎn)高于GA 算法,且優(yōu)于SPT 與DQN 算法,這讓PSDRL具有快速應(yīng)對(duì)動(dòng)態(tài)事件的性能。

        5 結(jié) 語(yǔ)

        本文提出一種求解作業(yè)車間調(diào)度問(wèn)題的基于Plant Simulation的深度強(qiáng)化學(xué)習(xí)算法。該算法通過(guò)圖神經(jīng)網(wǎng)絡(luò)提取車間狀態(tài)析取圖的特征,以虛擬仿真平臺(tái)搭建模擬車間,實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)算法與虛擬仿真環(huán)境之間的交互,獲取動(dòng)作獎(jiǎng)勵(lì)值來(lái)更新動(dòng)作選擇策略網(wǎng)絡(luò)與狀態(tài)評(píng)價(jià)網(wǎng)絡(luò)的參數(shù),不斷優(yōu)化智能體的選擇策略。通過(guò)對(duì)4 個(gè)經(jīng)典算例的求解,說(shuō)明了PSDRL 算法的有效性??苫赑lant Simulation構(gòu)建虛擬仿真平臺(tái)為智能制造工程或工業(yè)工程等專業(yè)的實(shí)驗(yàn)教學(xué)提供與時(shí)俱進(jìn)的教學(xué)手段,激發(fā)學(xué)生的學(xué)習(xí)興趣,并對(duì)提高實(shí)踐教學(xué)質(zhì)量起到了積極作用。

        猜你喜歡
        案例優(yōu)化信息
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        案例4 奔跑吧,少年!
        隨機(jī)變量分布及統(tǒng)計(jì)案例拔高卷
        發(fā)生在你我身邊的那些治超案例
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        一個(gè)模擬案例引發(fā)的多重思考
        展會(huì)信息
        日韩精品无码一区二区三区四区 | 99久久久69精品一区二区三区| 国内揄拍国内精品少妇国语| 9久9久女女热精品视频免费观看| 亚洲国产丝袜美女在线| 一区二区三区国产在线视频| 亚洲色大成网站www久久九九| 99在线播放视频| 日韩午夜在线视频观看| 久久中文字幕暴力一区| 日韩人妻无码一区二区三区久久 | 亚洲av无码无限在线观看| 色狠狠一区二区三区香蕉| 91青青草久久| 国产精品亚洲综合久久| 少妇高潮在线精品观看| 久久久老熟女一区二区三区| 欧美中文字幕在线| 男女羞羞的视频免费网站| 亚洲悠悠色综合中文字幕| 人妻丰满熟妇av无码区不卡| 亚洲国产夜色在线观看| 91国内偷拍一区二区三区| 午夜福利理论片在线观看播放 | 日本精品一区二区三区试看| 欧美肥婆性猛交xxxx| 亚洲欧美综合在线天堂| 午夜一区二区三区在线视频| 日韩精品一区二区三区免费观影| 中文字幕一区二区三区视频| 国产精品久久久久久亚洲av| 丁香婷婷色| 开心五月激情五月天天五月五月天 | 亚洲国产精品美女久久| 欧美两根一起进3p做受视频| 久久久国产不卡一区二区| 成熟的女人毛茸茸色视频| 久久人妻av无码中文专区| 亚洲人成色777777老人头| 在线观看精品视频一区二区三区| 亚洲乱码中文字幕一线区|