亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Q學(xué)習(xí)的智能車間自適應(yīng)調(diào)度方法

        2023-12-04 11:19:16蔡靜雯馬玉敏黎聲益
        計算機集成制造系統(tǒng) 2023年11期
        關(guān)鍵詞:智能環(huán)境生產(chǎn)

        蔡靜雯,馬玉敏,黎聲益,劉 鵑

        (同濟大學(xué) 電子與信息工程學(xué)院,上海 201804)

        0 引言

        近年來,在智能制造背景下,隨著定制化程度的提升,產(chǎn)品的生命周期縮短,制造過程中的動態(tài)不確定性因素對制造系統(tǒng)性能的影響越來越不容忽視[1],具有適應(yīng)能力的動態(tài)調(diào)度方法得到越來越多的關(guān)注。其中,智能車間動態(tài)不確定環(huán)境下的自適應(yīng)調(diào)度方法就是關(guān)注點之一[2]。智能車間實現(xiàn)自適應(yīng)調(diào)度的關(guān)鍵在于,系統(tǒng)在環(huán)境發(fā)生動態(tài)變化時,依據(jù)科學(xué)合理的調(diào)度知識在減少人工干預(yù)的情況下自主完成調(diào)度策略的確定和實施。

        以傳感技術(shù)和物聯(lián)網(wǎng)技術(shù)為基礎(chǔ)的智能車間使生產(chǎn)狀態(tài)數(shù)據(jù)采集實時可靠[3],數(shù)據(jù)驅(qū)動的調(diào)度優(yōu)化方法成為主流。例如,JUN等[4]為了解決柔性作業(yè)車間調(diào)度問題,從歷史最佳調(diào)度方案中學(xué)習(xí)到在性能和魯棒性方面表現(xiàn)優(yōu)異的調(diào)度規(guī)則;ROSSIT等[5]針對智能制造和工業(yè)4.0帶來的制造過程分散化和自主性特點,提出基于信息物理融合系統(tǒng)的數(shù)據(jù)驅(qū)動調(diào)度體系架構(gòu),提高調(diào)度決策效率,實現(xiàn)智能制造系統(tǒng)的有序運行。由此可見,數(shù)據(jù)驅(qū)動的調(diào)度方法能夠充分利用車間生產(chǎn)過程中產(chǎn)生的大量歷史數(shù)據(jù)或仿真數(shù)據(jù),從中挖掘出實時可靠的調(diào)度知識來指導(dǎo)車間生產(chǎn)運行,從而增加調(diào)度策略的實時性、科學(xué)性與可行性[6]。

        在數(shù)據(jù)驅(qū)動的調(diào)度方法中,機器學(xué)習(xí)算法在應(yīng)對動態(tài)場景下的大規(guī)模、高復(fù)雜性數(shù)據(jù)問題上具備優(yōu)勢[7],為解決智能車間生產(chǎn)調(diào)度問題提供了有效途徑。機器學(xué)習(xí)算法不需要建立精確的數(shù)學(xué)模型,通過學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律,獲取數(shù)據(jù)的分布式特征,確立從輸入到輸出的映射關(guān)系[8]。從樣本數(shù)據(jù)的組成結(jié)構(gòu)層面分析,機器學(xué)習(xí)可以分為監(jiān)督學(xué)習(xí)算法和強化學(xué)習(xí)算法[9]。監(jiān)督學(xué)習(xí)算法使用具有多維特征的帶標(biāo)簽樣本進(jìn)行訓(xùn)練,能夠?qū)π聵颖镜臉?biāo)簽進(jìn)行分析與預(yù)測[10]。例如,SHAO等[11]為解決車間調(diào)度中NP-hard問題,設(shè)計了多尺度特征融合卷積神經(jīng)網(wǎng)絡(luò),從動態(tài)環(huán)境中提取特征,根據(jù)特征預(yù)測最優(yōu)策略,該方法可以有效處理復(fù)雜調(diào)度問題;ZANG等[12]利用卷積變換將生產(chǎn)過程中的不規(guī)則數(shù)據(jù)轉(zhuǎn)換為以調(diào)度策略為標(biāo)簽的規(guī)則樣本數(shù)據(jù),用于訓(xùn)練混合深度神經(jīng)網(wǎng)絡(luò)調(diào)度器,該調(diào)度器具有較強的泛化能力,能夠解決大規(guī)模調(diào)度問題。在調(diào)度問題中,帶標(biāo)簽樣本是通過優(yōu)化處理生成的使調(diào)度目標(biāo)達(dá)到最優(yōu)的樣本,即最優(yōu)樣本。樣本優(yōu)化處理過程需要大量人工參與,會產(chǎn)生較高的人力與時間成本,且可能存在最優(yōu)樣本準(zhǔn)確度難以保證的問題[13],從而影響調(diào)度策略的有效性。強化學(xué)習(xí)方法不依賴于帶標(biāo)簽樣本,通過與環(huán)境的不斷交互試錯獲取反饋數(shù)據(jù),基于最大化獎勵反饋不斷優(yōu)化行為策略,能有效解決此問題[14]。例如,WANG等[15]考慮到車間生產(chǎn)環(huán)境的動態(tài)性和不確定性,提出一種基于聚類和動態(tài)搜索的加權(quán)Q學(xué)習(xí)自適應(yīng)調(diào)度算法,通過與環(huán)境的直接交互學(xué)習(xí)最優(yōu)操作,該方法在不同調(diào)度環(huán)境下具有良好的適應(yīng)性。ZHOU等[16]在分布式制造系統(tǒng)中,利用多智能體強化學(xué)習(xí)方法對多個調(diào)度器進(jìn)行動態(tài)協(xié)同,該方法有效地提升了調(diào)度器的學(xué)習(xí)和調(diào)度效率,同時對突發(fā)擾動具有一定的應(yīng)對能力。ZHAO等[17]針對動態(tài)作業(yè)車間調(diào)度問題建立深度Q網(wǎng)絡(luò),將多種啟發(fā)式調(diào)度規(guī)則作為動作集合,根據(jù)調(diào)度期結(jié)束時的生產(chǎn)狀態(tài)確定下一調(diào)度期的規(guī)則,該方法的泛化性以及對生產(chǎn)性能的優(yōu)化作用均優(yōu)于單一啟發(fā)式調(diào)度規(guī)則和基于有監(jiān)督學(xué)習(xí)的方法。由此可知,強化學(xué)習(xí)算法通過與環(huán)境的自主交互,學(xué)習(xí)使目標(biāo)最優(yōu)化的調(diào)度知識,具有強大的自學(xué)習(xí)能力[18],能夠在生產(chǎn)調(diào)度過程中最大程度地減少人工干預(yù)。

        同時,在監(jiān)督學(xué)習(xí)中,訓(xùn)練所用的優(yōu)化樣本由歷史數(shù)據(jù)得到,導(dǎo)致學(xué)習(xí)到的調(diào)度知識具有時效性,在應(yīng)用于環(huán)境動態(tài)變化的智能車間生產(chǎn)調(diào)度問題時,存在失效的可能性,以至于生成的調(diào)度決策產(chǎn)生偏差甚至失真,難以實現(xiàn)全生產(chǎn)過程的自適應(yīng)調(diào)度。強化學(xué)習(xí)基于其交互學(xué)習(xí)和在線訓(xùn)練特性[19],在獲取動態(tài)調(diào)度知識方面具備優(yōu)越性。此外,現(xiàn)有的生產(chǎn)調(diào)度決策多考慮單一調(diào)度規(guī)則,其解空間有限,無法涵蓋所有決策可能性,存在調(diào)度決策對生產(chǎn)目標(biāo)優(yōu)化效果不明顯的問題,而組合式調(diào)度規(guī)則綜合考慮多個面向不同調(diào)度目標(biāo)的調(diào)度規(guī)則,能夠兼顧多種單一規(guī)則的優(yōu)點,同時提高解空間維度[20]。因此,本文研究了一種基于Q學(xué)習(xí)的自適應(yīng)調(diào)度方法,該方法通過與智能車間的交互,自主學(xué)習(xí)與更新能夠適應(yīng)車間動態(tài)生產(chǎn)環(huán)境的調(diào)度知識,同時基于組合式調(diào)度規(guī)則,在變化的車間生產(chǎn)環(huán)境下實時地調(diào)整最優(yōu)調(diào)度決策,從而保持對智能車間生產(chǎn)全過程性能指標(biāo)的持續(xù)優(yōu)化。所提出的自適應(yīng)調(diào)度方法將在MiniFab半導(dǎo)體生產(chǎn)線模型上進(jìn)行測試,并通過衡量其對綜合性能指標(biāo)以及人力與時間成本的優(yōu)化效果,來驗證該方法的有效性與優(yōu)越性。

        1 智能車間自適應(yīng)調(diào)度解決方案

        以物聯(lián)網(wǎng)為基礎(chǔ)的智能車間能實時感知車間生產(chǎn)狀態(tài),在此基礎(chǔ)上,本文借鑒車間的動態(tài)調(diào)度框架[21],提出了如圖1所示的基于強化學(xué)習(xí)交互訓(xùn)練機制的智能車間自適應(yīng)調(diào)度解決方案。其中,調(diào)度模型是對調(diào)度知識進(jìn)行抽象后的形式化表達(dá),該方案通過學(xué)習(xí)生產(chǎn)數(shù)據(jù)內(nèi)部邏輯與規(guī)律,構(gòu)建適應(yīng)智能車間調(diào)度目標(biāo)與動態(tài)生產(chǎn)環(huán)境的調(diào)度模型,確立從生產(chǎn)狀態(tài)到調(diào)度決策的映射關(guān)系,進(jìn)而根據(jù)調(diào)度模型實時指導(dǎo)智能車間最優(yōu)調(diào)度決策的生成與實施。

        該方案的整體運行框架由多個功能模塊組成,包括存儲車間歷史與實時運行數(shù)據(jù)的數(shù)據(jù)池、強化學(xué)習(xí)交互訓(xùn)練機制所需的仿真車間平臺、利用強化學(xué)習(xí)算法進(jìn)行模型生成與更新的調(diào)度模型訓(xùn)練模塊,以及指導(dǎo)車間生產(chǎn)調(diào)度的自適應(yīng)調(diào)度模塊,各功能模塊之間協(xié)調(diào)配合,共同完成智能車間自適應(yīng)調(diào)度過程。該方案的運行過程分為調(diào)度模型訓(xùn)練過程和調(diào)度模型應(yīng)用過程,具體實現(xiàn)如下:

        (1)仿真車間構(gòu)建與更新 根據(jù)智能車間配置數(shù)據(jù)與實時生產(chǎn)數(shù)據(jù)進(jìn)行仿真車間模型的構(gòu)建與更新,用于支撐調(diào)度模型訓(xùn)練模塊的高效、高重復(fù)性迭代訓(xùn)練。仿真車間與真實物理車間運行狀態(tài)保持一致性、同步性,使得訓(xùn)練生成的調(diào)度模型能夠有效應(yīng)用于實際生產(chǎn)車間。

        (2)車間數(shù)據(jù)采集 利用車間傳感器實時采集車間運行過程信息,對其進(jìn)行清洗、合并等預(yù)處理操作后形成標(biāo)準(zhǔn)類型的車間運行數(shù)據(jù)進(jìn)行存儲,同時提供給自適應(yīng)調(diào)度模塊和仿真車間。

        (3)調(diào)度模型訓(xùn)練 調(diào)度模型訓(xùn)練模塊基于強化學(xué)習(xí)交互訓(xùn)練機制,結(jié)合調(diào)度目標(biāo)和訓(xùn)練算法,通過與仿真車間的在線交互訓(xùn)練,使調(diào)度模型始終適應(yīng)生產(chǎn)環(huán)境的變化,保持模型有效性,從而能夠根據(jù)需求及時更新自適應(yīng)調(diào)度模塊,降低更新的遲滯性。

        (4)自適應(yīng)調(diào)度 自適應(yīng)調(diào)度模塊通過接收當(dāng)前時刻車間生產(chǎn)狀態(tài)作為自適應(yīng)調(diào)度模型的輸入,輸出相應(yīng)的最優(yōu)調(diào)度決策施加給智能車間,指導(dǎo)下一階段的車間生產(chǎn)運行,從而實現(xiàn)動態(tài)生產(chǎn)環(huán)境下的自適應(yīng)調(diào)度決策。同時,將生產(chǎn)性能與調(diào)度目標(biāo)進(jìn)行周期性對比分析,評估調(diào)度模型是否能支持當(dāng)前車間動態(tài)環(huán)境下的生產(chǎn)調(diào)度,若調(diào)度模型失效,則激活調(diào)度模型動態(tài)更新操作。

        上述智能車間自適應(yīng)調(diào)度框架中,自適應(yīng)調(diào)度模塊是依據(jù)自適應(yīng)調(diào)度模型的指導(dǎo),根據(jù)實時感知到的生產(chǎn)狀態(tài)變化動態(tài)更新調(diào)度決策,使調(diào)度決策始終保持最優(yōu),從而實現(xiàn)動態(tài)環(huán)境下車間的平穩(wěn)高效運行。因此,基于強化學(xué)習(xí)生成與應(yīng)用合理有效的自適應(yīng)調(diào)度模型是實現(xiàn)智能車間自適應(yīng)調(diào)度過程的關(guān)鍵。

        2 基于Q學(xué)習(xí)算法的自適應(yīng)調(diào)度模型

        2.1 基于Q學(xué)習(xí)算法的調(diào)度智能體設(shè)計

        本文的自適應(yīng)調(diào)度模型由調(diào)度模型訓(xùn)練模塊生成,應(yīng)用于自適應(yīng)調(diào)度模塊。為了降低訓(xùn)練過程中人工參與優(yōu)化樣本處理過程帶來的時間與人力成本,減小模型生成或更新過程的遲滯,保證自適應(yīng)調(diào)度的實時性與準(zhǔn)確性,本文采用強化學(xué)習(xí)算法進(jìn)行訓(xùn)練。強化學(xué)習(xí)是一種交互試錯式的學(xué)習(xí)方法,不需要帶標(biāo)簽的樣本數(shù)據(jù),通過與環(huán)境的不斷交互獲得用于訓(xùn)練的數(shù)據(jù)。實現(xiàn)強化學(xué)習(xí)需要搭建相應(yīng)的智能體與環(huán)境,智能體用于向環(huán)境施加動作,環(huán)境則對智能體施加的動作作出反應(yīng),如圖2所示。

        在生產(chǎn)調(diào)度問題中,智能體與環(huán)境可分別對應(yīng)于做出調(diào)度決策的調(diào)度智能體和智能車間生產(chǎn)環(huán)境,如圖3所示。調(diào)度智能體一方面不斷向生產(chǎn)環(huán)境施加決策動作,另一方面不斷接收來自環(huán)境的反饋,反饋基于調(diào)度目標(biāo),可能是懲罰也可能是獎勵,調(diào)度智能體則根據(jù)反饋選擇下一步的決策,不斷循環(huán)上述過程,通過多次迭代探索后獲得最大化反饋獎賞的調(diào)度模型。

        Q學(xué)習(xí)算法是經(jīng)典的基于值函數(shù)的強化學(xué)習(xí)方法,是強化學(xué)習(xí)的基礎(chǔ)算法[22]。在生產(chǎn)調(diào)度問題應(yīng)用方面,其主要優(yōu)點體現(xiàn)為[23]:① 車間調(diào)度問題一般為組合優(yōu)化問題,基于值函數(shù)的方法在離散空間模型中具有更好的優(yōu)化效果;②單步更新的學(xué)習(xí)過程能夠提升調(diào)度模型的訓(xùn)練效率,同時模型對于環(huán)境的變化更為敏感,有利于最優(yōu)調(diào)度策略的及時調(diào)整;③根據(jù)不同的策略,支持在線學(xué)習(xí)與離線學(xué)習(xí)兩種模式,可以學(xué)習(xí)到歷史生產(chǎn)數(shù)據(jù)中的知識,也可以通過與環(huán)境的交互進(jìn)行在線學(xué)習(xí),進(jìn)而滿足調(diào)度模型同步訓(xùn)練與實時更新的需求。

        Q學(xué)習(xí)算法將狀態(tài)S與動作A構(gòu)建成一張Q-table來存儲Q值,采用類似梯度下降的漸進(jìn)方式逐步靠近目標(biāo)Q值,減少估計誤差造成的影響,Q值計算如下:

        Q(s,a)′=Q(s,a)+α(r+γmaxQ(s′,a′)-Q(s,a))。

        (1)

        式中:α表示學(xué)習(xí)率,其值大小決定模型訓(xùn)練獲得最優(yōu)解的速度,學(xué)習(xí)率過大可能會導(dǎo)致錯過最優(yōu)解而使模型無法收斂,反之則會影響訓(xùn)練效率;γ表示折扣率,表示長期決策對當(dāng)前行為的影響;Q(s,a)表示在某一環(huán)境狀態(tài)s(s∈S)下智能體采取動作a(a∈A)能夠獲得的收益的期望;r表示環(huán)境對智能體動作的反饋;Q(s′,a′)表示環(huán)境在當(dāng)前動作作用下進(jìn)入的新狀態(tài)s′(s′∈S)在Q-table中對應(yīng)的最大期望值,當(dāng)每個迭代回合結(jié)束時不需考慮新的生產(chǎn)狀態(tài),此時取Q(s′,a′)=0。

        將Q學(xué)習(xí)算法用于自適應(yīng)調(diào)度問題求解時,s表示智能車間生產(chǎn)狀態(tài),a表示調(diào)度智能體施加的調(diào)度決策d,s′表示車間按照調(diào)度決策運行得到的新生產(chǎn)狀態(tài),r表示基于調(diào)度目標(biāo)的反饋回報,Q-table即為表征生產(chǎn)狀態(tài)與調(diào)度決策間映射關(guān)系的自適應(yīng)調(diào)度模型。

        Q學(xué)習(xí)算法的主要思想是在智能體與環(huán)境的交互迭代中不斷更新Q-table,最后根據(jù)當(dāng)前狀態(tài)的Q值選擇能夠獲得收益最大的動作,從而生成最優(yōu)行動軌跡,據(jù)此,基于Q學(xué)習(xí)算法的自適應(yīng)調(diào)度模型生成與應(yīng)用過程如圖3所示。其中,調(diào)度模型的生成過程為,根據(jù)智能車間配置數(shù)據(jù)與實時生產(chǎn)數(shù)據(jù)搭建或更新仿真車間,以支持調(diào)度智能體與環(huán)境的不斷交互,調(diào)度智能體則根據(jù)式(1)更新Q-table,通過與仿真車間生產(chǎn)環(huán)境的交互試錯,學(xué)習(xí)使獎勵最大化的調(diào)度決策,該過程對應(yīng)自適應(yīng)調(diào)度框架中的調(diào)度模型訓(xùn)練階段。調(diào)度模型的應(yīng)用過程為,訓(xùn)練完成的調(diào)度智能體基于當(dāng)前Q-table,在車間生產(chǎn)運行過程中的每個調(diào)度點觀測生產(chǎn)狀態(tài)數(shù)據(jù),據(jù)此選擇使調(diào)度目標(biāo)最優(yōu)化的相應(yīng)調(diào)度決策,該過程對應(yīng)自適應(yīng)調(diào)度框架中的調(diào)度模型應(yīng)用階段。

        2.2 調(diào)度智能體訓(xùn)練過程

        自適應(yīng)調(diào)度模型由調(diào)度智能體利用Q學(xué)習(xí)算法訓(xùn)練得到,訓(xùn)練過程如圖4所示。

        基于Q學(xué)習(xí)算法的調(diào)度智能體具體訓(xùn)練步驟如下:

        步驟1調(diào)度智能體依據(jù)環(huán)境特征與調(diào)度目標(biāo),選定車間生產(chǎn)狀態(tài)維度和決策維度,建立n×m的矩陣Q-table,初始化為零矩陣。

        步驟2從智能車間生產(chǎn)環(huán)境中觀測初始生產(chǎn)狀態(tài)s0;

        步驟3根據(jù)貪心算法ε-greedy在Q-table中選擇對應(yīng)的動作a(即調(diào)度決策d)施加于環(huán)境,觀測運行后的新狀態(tài)s′,并計算實際生產(chǎn)性能與目標(biāo)性能之間的偏差,得到獎勵反饋或懲罰反饋。其中,ε-greedy貪心算法基于概率對探索和利用進(jìn)行折衷,即以探索率的概率ε進(jìn)行探索,以1-ε的概率進(jìn)行利用,防止陷入局部最優(yōu)解,基于此,設(shè)計式(2)所示的動作a作出決策:

        (2)

        其中rand=random[0,1]。

        步驟4根據(jù)式(1)更新Q-table。

        步驟5判斷該回合訓(xùn)練是否結(jié)束,若結(jié)束,則進(jìn)入下一訓(xùn)練回合,重復(fù)執(zhí)行步驟2~步驟4;若沒有結(jié)束,則重復(fù)步驟3~步驟4繼續(xù)訓(xùn)練。

        步驟6達(dá)到預(yù)設(shè)最大訓(xùn)練回合數(shù),總獎勵值收斂則智能體訓(xùn)練完成,生成自適應(yīng)調(diào)度模型Q-table。

        基于Q學(xué)習(xí)的調(diào)度智能體訓(xùn)練過程算法如下:

        算法1基于Q學(xué)習(xí)的調(diào)度智能體訓(xùn)練算法。

        參數(shù):學(xué)習(xí)率α、折扣率γ、探索率ε

        初始化Q-table(Q(s,a))=0,?s∈S,a∈A)

        Repeat (for each episode):

        觀測初始狀態(tài)

        Repeat (for each step of episode):

        使用貪心算法ε-greedy從Q-table中選擇動作a(決策d)

        對環(huán)境施加動作a,并觀測反饋r和新狀態(tài)s′

        根據(jù)式(1)更新Q(s,a)

        Until 所有步驟結(jié)束

        Until 所有回合結(jié)束

        輸出Q-table

        將利用Q學(xué)習(xí)算法訓(xùn)練得到的調(diào)度模型應(yīng)用于車間自適應(yīng)調(diào)度框架(如圖1)中的自適應(yīng)調(diào)度模塊,調(diào)度模型在每個調(diào)度決策點根據(jù)獲取到的實時車間生產(chǎn)狀態(tài)數(shù)據(jù),選擇使目標(biāo)最優(yōu)的調(diào)度決策指導(dǎo)整個調(diào)度周期車間的生產(chǎn)運行。此外,在生產(chǎn)環(huán)境發(fā)生較大變動或調(diào)度目標(biāo)改變導(dǎo)致調(diào)度模型失效時,調(diào)度智能體根據(jù)當(dāng)前生產(chǎn)需求更新自適應(yīng)調(diào)度模塊的調(diào)度模型,以適應(yīng)新的生產(chǎn)狀況。

        3 實驗

        為驗證本文中所提出的基于Q學(xué)習(xí)的智能車間自適應(yīng)調(diào)度方法的有效性,該方法在基于經(jīng)典半導(dǎo)體生產(chǎn)車間MiniFab[24]模型搭建的半導(dǎo)體智慧制造單元上進(jìn)行驗證,如圖5所示。該制造單元包含5臺設(shè)備(3個設(shè)備群)、3個緩沖區(qū)和3種加工產(chǎn)品,用于構(gòu)造仿真車間的軟件平臺選用西門子的Tecnomatix Plant Simulation。

        3.1 實驗設(shè)計

        3.1.1 數(shù)據(jù)結(jié)構(gòu)設(shè)置

        本文所設(shè)計的調(diào)度智能體通過不斷向生產(chǎn)環(huán)境施加調(diào)度決策,并觀測環(huán)境的生產(chǎn)狀態(tài)變化和相應(yīng)的反饋回報來訓(xùn)練自適應(yīng)調(diào)度模型。因此,本實驗需要設(shè)計合適的數(shù)據(jù)結(jié)構(gòu)以提升交互學(xué)習(xí)的效率,包括智能車間生產(chǎn)狀態(tài)S、調(diào)度決策D和回報函數(shù)R。

        (1)生產(chǎn)狀態(tài)S生產(chǎn)狀態(tài)選取擴散區(qū)、離子注入?yún)^(qū)、光刻區(qū)中3種產(chǎn)品P_a、P_b、P_c的在制品數(shù)。車間的日投料數(shù)量設(shè)置為在[5,7]區(qū)間內(nèi)均勻分布。為了得到涵蓋多種生產(chǎn)狀態(tài)的數(shù)據(jù),本實驗在隨機調(diào)度規(guī)則下運行仿真車間模型,獲得600組生產(chǎn)狀態(tài)數(shù)據(jù),并對原始狀態(tài)數(shù)據(jù)進(jìn)行編碼,即對每一類在制品按照數(shù)據(jù)量均等的原則劃分區(qū)間,將其轉(zhuǎn)換為適合模型訓(xùn)練的狀態(tài)數(shù)據(jù)。

        根據(jù)表1的劃分依據(jù),本實驗可將原始生產(chǎn)狀態(tài)編碼為8 748種類型,即調(diào)度模型Q-table的生產(chǎn)狀態(tài)維度n=8 748。

        表1 車間生產(chǎn)狀態(tài)數(shù)據(jù)劃分依據(jù)

        (2)調(diào)度決策D調(diào)度決策設(shè)置最早交貨期優(yōu)先規(guī)則EarliestDueDate,EDD)、最短剩余加工時間優(yōu)先規(guī)則(ShortestRemainingProcessingTime,SRPT)、關(guān)鍵比例規(guī)則(CriticalRatio,CR)3種啟發(fā)式調(diào)度規(guī)則進(jìn)行組合,形成組合式調(diào)度規(guī)則D={d1,d2,...,dm}[20],其中di=(ωEDDi,ωSRPTi,ωCRi),1≤i≤m,m表示調(diào)度決策的類型數(shù)量。調(diào)度決策根據(jù)式(3)和式(4)計算得到:

        P=ωEDDPE+ωSRPTPS+ωCRPC,ω∈[0,1],

        (3)

        ωEDD+ωSRPT+ωCR=1。

        (4)

        其中:P表示待加工產(chǎn)品的加工優(yōu)先級,ωEDD、ωSRPT、ωCR分別表示3種啟發(fā)式調(diào)度規(guī)則的權(quán)重,PE、PS、PC則分別表示在3種啟發(fā)式調(diào)度規(guī)則下的產(chǎn)品加工優(yōu)先級,設(shè)置權(quán)重ω間隔為0.05,因此本實驗中共有255種調(diào)度決策類型,即調(diào)度模型Q-table的決策維度m=255。

        (3)回報函數(shù)R針對多目標(biāo)優(yōu)化問題,回報函數(shù)選擇日產(chǎn)量Tp和日移動步數(shù)Mov作為關(guān)鍵評價指標(biāo),回報值與指標(biāo)間呈正相關(guān),指標(biāo)數(shù)值越高表示調(diào)度決策效果越好,此時環(huán)境對訓(xùn)練智能體的獎勵越高。實驗設(shè)置車間日產(chǎn)量閾值Tp_th,日移動步數(shù)閾值Mov_th,高于閾值則回報函數(shù)為正值(獎勵),低于閾值則回報為負(fù)值(懲罰),回報函數(shù)數(shù)值r(r∈R)根據(jù)式(5)進(jìn)行計算:

        r=(Tp-Tp_th)+(Mov-Mov_th)。

        (5)

        3.1.2 超參數(shù)設(shè)置

        調(diào)度智能體訓(xùn)練時根據(jù)式(1)更新Q-table,需要確定超參數(shù)折扣率γ和學(xué)習(xí)速率α。由于本文研究的調(diào)度問題是采用最優(yōu)調(diào)度決策優(yōu)化整個調(diào)度周期內(nèi)車間生產(chǎn)性能,折扣率γ取較大值0.9,表示未來調(diào)度決策對當(dāng)前決策行為的影響較大。在學(xué)習(xí)速率α的選擇上,為了獲得最大收益并使實驗迭代次數(shù)在可接受范圍內(nèi),開始學(xué)習(xí)時設(shè)置較大的學(xué)習(xí)速率來修正智能體的行為,隨著實驗次數(shù)的增加,逐漸減小學(xué)習(xí)速率防止錯過最優(yōu)解[25]。實驗中采用式(6)動態(tài)減小學(xué)習(xí)速率。

        (6)

        初始學(xué)習(xí)率α0設(shè)置為0.5;學(xué)習(xí)率動態(tài)變化的最大回合數(shù)max_episode設(shè)置為1 500。

        訓(xùn)練過程中智能體的行為策略依據(jù)貪心算法ε-greedy(式(2)),以ε的概率在動作空間隨機選擇一個決策,通過不斷探索可以獲得更佳的決策,以1-ε的概率在已知決策中選擇一個回報最大的決策。實驗采用式(7)動態(tài)減小探索速率,隨著探索率減小,總回報逐漸收斂于最高值,達(dá)到探索—利用平衡。

        (7)

        初始探索率ε0設(shè)置為0.5;探索率動態(tài)變化的最大回合數(shù)max_episode設(shè)置為1 500。

        在1 500回合之前,學(xué)習(xí)率和探索率動態(tài)減小,1 500回合之后,學(xué)習(xí)率和探索率保持在0.01,即仍然存在探索和學(xué)習(xí)的可能。

        3.2 實驗結(jié)果

        在3.1節(jié)中所設(shè)置的實驗數(shù)據(jù)結(jié)構(gòu)和超參數(shù)基礎(chǔ)上,訓(xùn)練基于Q學(xué)習(xí)算法的調(diào)度模型,用于動態(tài)環(huán)境下的智能車間自適應(yīng)調(diào)度決策(Q學(xué)習(xí)調(diào)度方法)。實驗以日產(chǎn)量Tp和日移動步數(shù)Mov為性能評價指標(biāo),調(diào)度模型根據(jù)生產(chǎn)狀態(tài)變化對最優(yōu)調(diào)度決策進(jìn)行每日更新,將該決策與單一調(diào)度規(guī)則EDD、SRPT、CR和基于支持向量回歸(Support Vector Regression,SVR)算法的有監(jiān)督調(diào)度模型輸出的長期調(diào)度決策對車間生產(chǎn)性能指標(biāo)產(chǎn)生的影響作對比,同時對比SVR調(diào)度方法與Q-learning調(diào)度方法所需的時間與人力成本,驗證基于Q學(xué)習(xí)的智能車間自適應(yīng)調(diào)度方法的可行性與有效性。實驗中,車間生產(chǎn)環(huán)境的動態(tài)不確定性體現(xiàn)在日投料數(shù)量的隨機性上。對比實驗采取控制變量法,除調(diào)度決策外,其余實驗條件一致。

        調(diào)度智能體在2 500回合學(xué)習(xí)過程中的獎勵值數(shù)據(jù)記錄如圖6所示。在學(xué)習(xí)初期,獎勵值存在劇烈波動,但曲線總體呈不斷上升的趨勢,此時智能體的探索能力和學(xué)習(xí)能力較強。隨著回合數(shù)的增加,智能體學(xué)習(xí)速率和探索率減小,獎勵值逐漸收斂于一個較高的數(shù)值,則表明訓(xùn)練完成,生成的調(diào)度模型能夠用于指導(dǎo)該場景下的車間生產(chǎn)調(diào)度。

        在相同實驗場景下,對生成的調(diào)度模型進(jìn)行有效性驗證。為了消除實驗結(jié)果偶然性的影響,隨機選取20種不同投料模式,對5種調(diào)度方法得到的每日生產(chǎn)性能進(jìn)行記錄,如圖7~圖9a所示,同時,對不同調(diào)度方法下的生產(chǎn)性能數(shù)據(jù)分布進(jìn)行對比,如圖7~9b的箱型圖所示。其中,生產(chǎn)前10d預(yù)熱時間,調(diào)度周期為11~25d。

        統(tǒng)計性能指標(biāo)平均值(如表2),對比分析發(fā)現(xiàn),Q學(xué)習(xí)算法在日產(chǎn)量、日移動步數(shù)、綜合性能上均表現(xiàn)出了最優(yōu)的效果。數(shù)值上,Q學(xué)習(xí)算法調(diào)度方法的日產(chǎn)量較EDD、SRPT、CR和SVR分別提升了9.978%、1.617%、0.771%和0.332%,日移動步數(shù)分別提升了1.903%、0.636%、0.131%和0.112%,綜合性能則分別優(yōu)化了2.933%、0.769%、0.217%和0.147%。

        表2 車間性能指標(biāo)統(tǒng)計數(shù)據(jù)記錄

        為了更好地分析不同調(diào)度方法對于整個調(diào)度周期內(nèi)生產(chǎn)性能的影響,橫向?qū)Ρ?0組不同投料機制下的實驗結(jié)果,繪制箱型圖,分別表示統(tǒng)計數(shù)據(jù)的上邊緣、上四分位數(shù)、中位數(shù)、下四分位數(shù)、下邊緣、平均數(shù)和異常點(數(shù)據(jù)如表2)。在調(diào)度周期內(nèi)的平均日產(chǎn)量方面,Q學(xué)習(xí)算法對應(yīng)的生產(chǎn)性能明顯優(yōu)于EDD和SRPT,與CR、SVR具有相近的影響效果,其箱型圖的上邊緣相同,但整體分布區(qū)間包括中位數(shù)、平均數(shù)、下邊緣等均高于CR與SVR。在調(diào)度周期平均日移動步數(shù)方面,同樣地,Q學(xué)習(xí)算法所得到的性能遠(yuǎn)優(yōu)于EDD和SRPT,同時所有評價指標(biāo)均略微優(yōu)于CR和SVR。在調(diào)度周期綜合性能指標(biāo)方面,Q學(xué)習(xí)算法相較于SVR和GCR,整體分布的優(yōu)化效果則更為明顯,據(jù)此能夠驗證本文基于Q學(xué)習(xí)算法自適應(yīng)調(diào)度方法的有效性與優(yōu)越性。

        此外,強化學(xué)習(xí)算法在人力與時間成本方面均有優(yōu)化作用,基于SVR的有監(jiān)督方法與基于Q學(xué)習(xí)算法的強化學(xué)習(xí)方法實現(xiàn)時間記錄如表3所示,表中帶*號步驟表示需人工參與完成。其中,SVR方法利用有標(biāo)簽樣本進(jìn)行訓(xùn)練,樣本采集和樣本標(biāo)注時間占總時間的99.19%,對應(yīng)地,Q學(xué)習(xí)算法方法采集的樣本僅用于狀態(tài)數(shù)據(jù)劃分,相較于SVR而言,時間減少了97.92%(271515.83s)。Q學(xué)習(xí)算法方法通過與智能體與環(huán)境的交互獲取樣本與訓(xùn)練調(diào)度模型,模型訓(xùn)練時間占總時間的85.63%,是SVR訓(xùn)練時間的15.14倍(32146.80s)。但是,在調(diào)度模型生成與應(yīng)用總時間方面,Q學(xué)習(xí)算法較SVR減少了85.62%(239364.89s),需要人工參與的步驟時間較SVR減少了98.00%(264600s),極大降低了人力與時間成本,提升了模型動態(tài)訓(xùn)練與更新的實時性。

        表3 SVR與Q學(xué)習(xí)算法調(diào)度方法實現(xiàn)時間 s

        由此可知,基于Q學(xué)習(xí)的智能車間自適應(yīng)調(diào)度方法能夠在盡可能減少人工參與的同時,始終保持調(diào)度模型的有效性,并根據(jù)車間實時狀態(tài)變化輸出最優(yōu)組合式調(diào)度規(guī)則,使得車間生產(chǎn)性能保持穩(wěn)定高效。

        4 結(jié)束語

        為了降低生產(chǎn)過程中動態(tài)不確定性因素對智能車間生產(chǎn)性能的影響,本文提出一種基于Q學(xué)習(xí)的智能車間自適應(yīng)調(diào)度方法。首先,提出基于強化學(xué)習(xí)交互訓(xùn)練機制的智能車間自適應(yīng)調(diào)度框架,在此框架下,利用Q學(xué)習(xí)算法,通過智能體與車間仿真環(huán)境的實時交互反饋訓(xùn)練調(diào)度模型,得到生產(chǎn)狀態(tài)與調(diào)度決策的映射關(guān)系,用于指導(dǎo)車間在線調(diào)度,并根據(jù)生產(chǎn)環(huán)境變動及時更新調(diào)度模型,使其適應(yīng)變化的生產(chǎn)環(huán)境。最后,將此方法在MiniFab生產(chǎn)線模型上進(jìn)行驗證,相較于單一調(diào)度規(guī)則和調(diào)度模型不更新的有監(jiān)督調(diào)度方法,基于Q學(xué)習(xí)的自適應(yīng)調(diào)度方法能夠?qū)崿F(xiàn)對車間綜合性能指標(biāo)的持續(xù)優(yōu)化,同時大幅度降低調(diào)度過程的時間與人力成本。據(jù)此,本文所提出的方法能夠?qū)崿F(xiàn)在生產(chǎn)全過程中,根據(jù)車間生產(chǎn)狀況動態(tài)變化及時生成相應(yīng)的最優(yōu)調(diào)度決策,形成最優(yōu)決策軌跡,對動態(tài)生產(chǎn)過程具有良好的適應(yīng)性。

        但是,Q學(xué)習(xí)算法在空間維度上存在局限性,高維模型會出現(xiàn)訓(xùn)練過程緩慢、難以收斂到最優(yōu)的問題,因此選擇科學(xué)合理的狀態(tài)與動作空間尤為重要。在今后的研究中可以通過相關(guān)性分析選擇更為有效的狀態(tài)、動作數(shù)據(jù)用于模型訓(xùn)練,或?qū)λ惴ㄟM(jìn)行改進(jìn),使調(diào)度模型適用范圍更廣、泛化能力更強。

        猜你喜歡
        智能環(huán)境生產(chǎn)
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        用舊的生產(chǎn)新的!
        “三夏”生產(chǎn) 如火如荼
        孕期遠(yuǎn)離容易致畸的環(huán)境
        環(huán)境
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        国精品人妻无码一区二区三区性色| 国产精品一区二区三密桃| 日本伦理视频一区二区| 老色鬼永久精品网站| 丰满少妇一区二区三区专区| 在线国人免费视频播放| 无码人妻丰满熟妇区五十路| 国产成人av一区二区三区在线| 亚欧乱色束缚一区二区三区| 国产人妖av在线观看| 午夜爽爽爽男女免费观看影院| 人禽伦免费交视频播放| 久热香蕉av在线爽青青| 国产一区二区在线中文字幕| 亚洲精品乱码久久久久蜜桃| 欧美日韩亚洲中文字幕二区| 国产性猛交╳xxx乱大交| 综合久久久久6亚洲综合| 日韩一本之道一区中文字幕| 中国少妇×xxxx性裸交| 麻豆高清免费国产一区| 国产一精品一aⅴ一免费| 国产精品高湖呻呤久久av| 国模冰莲极品自慰人体| 又黄又爽又色的视频| 中文字幕大乳少妇| 三上悠亚亚洲精品一区| 亚洲 卡通 欧美 制服 中文| 国产在线一区观看| av天堂一区二区三区精品| 国产中文字幕免费视频一区| 天天躁夜夜躁狠狠躁2021a2| 亚洲国产精品一区二区第四页| 亚洲av套图一区二区| 国产夫妻自拍视频在线播放| 任你躁国产自任一区二区三区| 久久亚洲AV成人一二三区| 精品国产av一区二区三四区| 久久精品国产精品亚洲| 少妇太爽了在线观看免费视频 | 亚洲高清在线天堂精品|