亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的混流裝配線調(diào)度方法

2023-11-17 02:13:10郭具濤呂佑龍

中國機(jī)械工程 2023年21期

郭具濤呂佑龍戴錚張潔郭宇

1.上海航天精密機(jī)械研究所,上海,2016002.南京航空航天大學(xué)機(jī)電學(xué)院,南京,2100163.東華大學(xué)人工智能研究院,上海,201620

0 引言

隨著航空航天、汽車等領(lǐng)域的客戶化定制需求不斷增加[1-2],越來越多的制造企業(yè)利用總裝階段的多品種混線生產(chǎn)保障產(chǎn)品的準(zhǔn)時交付,并且逐步采用單元式生產(chǎn)模式,利用裝配單元的資源配置柔性與物流供應(yīng)柔性,實現(xiàn)給定生產(chǎn)節(jié)拍下的均衡生產(chǎn)。這種方式面臨裝配單元之間的負(fù)載均衡,以及不同產(chǎn)品之間的投產(chǎn)規(guī)劃等調(diào)度難題,需要考慮工人裝配能力差異和產(chǎn)品裝配時間差異等約束,解決混流裝配線的平衡與排序問題,合理安排各裝配單元的工人和產(chǎn)品投產(chǎn)序列,提升裝配線的生產(chǎn)效率。

針對混流裝配線平衡與排序問題,目前的研究方法以啟發(fā)式規(guī)則和智能算法為主[3-4]。RAUF等[5]融合優(yōu)先級規(guī)則與多準(zhǔn)則NEH算法,通過對優(yōu)先級規(guī)則進(jìn)行組合優(yōu)化,實現(xiàn)了面向多目標(biāo)集成優(yōu)化的算法求解。AKYOL等[6]通過設(shè)計工人優(yōu)先級規(guī)則和任務(wù)優(yōu)先級規(guī)則,提出一種基于多規(guī)則的隨機(jī)搜索算法。DEFERSHA等[7]設(shè)計了一種嵌入多階段線性規(guī)劃的遺傳算法,求解了平衡與排序問題。ZHANG等[8]提出一種多目標(biāo)遺傳算法來集成優(yōu)化平衡問題與排序問題。智能算法利用全局搜索能力可獲得較優(yōu)解,但需要大量計算時間,難以滿足大規(guī)模生產(chǎn)的需求。啟發(fā)式規(guī)則能以較短時間獲得合理的調(diào)度方案,但對調(diào)度問題的適應(yīng)性較差。復(fù)合規(guī)則對不同啟發(fā)式規(guī)則進(jìn)行線性加權(quán),能通過參數(shù)變化適應(yīng)不同問題,但參數(shù)設(shè)置依賴人工經(jīng)驗和試驗結(jié)果,難以穩(wěn)定獲得較優(yōu)的調(diào)度方案。

隨著人工智能技術(shù)的發(fā)展,強(qiáng)化學(xué)習(xí)等機(jī)器學(xué)習(xí)方法將調(diào)度問題映射為狀態(tài)-動作轉(zhuǎn)移函數(shù)和獎勵函數(shù)來最大化獎勵函數(shù)的動作規(guī)劃過程,獲取較優(yōu)調(diào)度方案。賀俊杰等[9]提出一種基于長短期記憶網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)算法的調(diào)度方法來求解最小化加權(quán)完工時間的等效并行機(jī)在線調(diào)度問題。WANG等[10]根據(jù)3種啟發(fā)式規(guī)則(底層工序優(yōu)先、最長加工時間優(yōu)先和最短加工時間優(yōu)先),提出一種雙層Q-learning算法來求解最小化交付懲罰的裝配車間調(diào)度問題。TORTORELLI等[11]提出一種基于并行深度強(qiáng)化學(xué)習(xí)的混流裝配線平衡方法,以最小化生產(chǎn)周期。調(diào)度問題變化時,強(qiáng)化學(xué)習(xí)算法需要根據(jù)新的狀態(tài)空間與動作空間重新訓(xùn)練,產(chǎn)生新的大量計算工作。

本文提出基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的混流裝配線平衡與排序方法,結(jié)合復(fù)合規(guī)則對不同問題的適應(yīng)能力與強(qiáng)化學(xué)習(xí)對具體問題的學(xué)習(xí)能力,實現(xiàn)混流裝配線的生產(chǎn)調(diào)度。首先構(gòu)建混流裝配線平衡與排序問題的數(shù)學(xué)模型,然后分別設(shè)計面向混流裝配過程的平衡規(guī)則庫與排序規(guī)則庫,最后設(shè)計近端策略優(yōu)化(proximal policy optimization, PPO)算法調(diào)控復(fù)合規(guī)則中的參數(shù)權(quán)重,獲取調(diào)度方案。

1 混流裝配線平衡與排序問題

1.1 問題描述

航天產(chǎn)品的混流裝配線具有產(chǎn)品多品種、小批量,批產(chǎn)研制型號混線生產(chǎn)等特點,并且為滿足班組操作需求,裝配過程具有單元式組織的特點。因此,需要在裝配線設(shè)計階段實現(xiàn)各個裝配單元之間的負(fù)載均衡,保障裝配物流的連續(xù)性。隨著批產(chǎn)訂單和研制任務(wù)的增加,產(chǎn)能需求出現(xiàn)波動,設(shè)計階段形成的裝配單元之間的負(fù)載均衡被打破,需要利用裝配單元的人員動態(tài)配置與不同產(chǎn)品的投產(chǎn)順序規(guī)劃,實現(xiàn)混流裝配過程的再次平衡,即考慮裝配單元容量和工人裝配能力等約束條件,合理安排裝配單元的工人,并考慮航天產(chǎn)品的最小生產(chǎn)集合(minimum part set,MPS)循環(huán),規(guī)劃產(chǎn)品的投產(chǎn)順序,形成混流裝配線的平衡與排序解決方案,避免裝配單元出現(xiàn)過載和空閑等情況,實現(xiàn)最小化過載時間和最小化空閑時間的優(yōu)化目標(biāo)。根據(jù)以上生產(chǎn)特點,本文對航天產(chǎn)品混流裝配線平衡與排序問題提出以下假設(shè):

(1)工件以固定節(jié)拍進(jìn)行投產(chǎn);

(2)根據(jù)設(shè)計階段的裝配任務(wù)量,各裝配單元具有相同的傳送距離;

(3)工人為多能工,能完成多種產(chǎn)品的各項裝配任務(wù);

(4)裝配單元是封閉的,工人不能在裝配單元之間移動;

(5)裝配單元內(nèi)的工人共同完成裝配任務(wù);

(6)各裝配單元可分配人數(shù)固定,工人裝配能力存在差異,工人的裝配能力影響產(chǎn)品在該單元的裝配時間;

(7)過載工作由裝配單元內(nèi)的工人完成;

(8)過載工作對當(dāng)前裝配單元及下一個裝配單元產(chǎn)生影響。

1.2 數(shù)學(xué)模型

混流裝配線平衡與排序問題的數(shù)學(xué)模型如下所示,其中的數(shù)學(xué)符號如表1所示。

表1 混流裝配線平衡與排序問題的數(shù)學(xué)符號

(1)

s.t.

(2)

(3)

(4)

(5)

p′ik=pikQk?k

(6)

snk=en(k-1)-c

(7)

enk=snk+p′ik

(8)

uik=max[0,min(snk+p′ik-lk,lk-c)]

(9)

oik=min(0,T-enk)

(10)

式(1)給出了在航天產(chǎn)品混流裝配線平衡與排序問題的目標(biāo)函數(shù)——最小化的過載時間和空閑時間。裝配單元的工人班組在設(shè)計的節(jié)距長度內(nèi)不能完成裝配任務(wù)時,需要臨時延長裝配時間以完成過載工作量,這可能會造成其他裝配單元的工作延誤,并增加潛在的裝配質(zhì)量風(fēng)險。裝配單元的工人班組提前完成裝配任務(wù)時,由于裝配單元的封閉性限制,工人只能等待,這造成了裝配能力的浪費,因此需要同時避免裝配單元的過載和空閑。式(2)表示由于航天產(chǎn)品的復(fù)雜性與尺寸限制,投產(chǎn)序列中的任意位置有且僅有一個待裝配產(chǎn)品,即在每個生產(chǎn)節(jié)拍中,每個裝配單元里僅有一個航天產(chǎn)品被執(zhí)行裝配操作。式(3)表示MPS中的所有產(chǎn)品都被安排到裝配線上進(jìn)行裝配,即各個裝配單元需要順次完成一個MPS的產(chǎn)品裝配任務(wù)。式(4)表示裝配線中的所有工人都被安排到裝配單元中,以實現(xiàn)工人裝配能力的充分利用。式(5)表示根據(jù)工人分配結(jié)果,計算各個裝配單元上的裝配時間系數(shù)。式(6)表示根據(jù)裝配時間系數(shù),計算各類型產(chǎn)品在裝配單元上的實際裝配時間。式(7)、式(8)分別表示投產(chǎn)序列中第n個產(chǎn)品在裝配單元k上的裝配起始時間和裝配結(jié)束時間。式(9)、式(10)分別表示投產(chǎn)序列中第n個產(chǎn)品在裝配單元k上產(chǎn)生的過載時間和空閑時間。

2 混流裝配線平衡與排序方法

針對以上約束條件與優(yōu)化目標(biāo),航天產(chǎn)品混流裝配線平衡與排序方法首先構(gòu)建面向復(fù)合規(guī)則的平衡規(guī)則庫與排序規(guī)則庫,然后設(shè)計PPO算法對復(fù)合規(guī)則中的權(quán)值參數(shù)進(jìn)行動態(tài)調(diào)整,根據(jù)復(fù)合規(guī)則生成平衡方案與排序方案,并計算目標(biāo)函數(shù)(式(1)),對平衡與排序結(jié)果進(jìn)行評價,如圖1所示。

圖1 基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的混流裝配線調(diào)度方法

2.1 平衡與排序規(guī)則庫

2.1.1平衡規(guī)則庫

在平衡過程中,綜合考慮整體裝配效率目標(biāo)和工人裝配能力分布[12],對裝配單元上的工人配置設(shè)計以下規(guī)則。

規(guī)則b2：選擇在裝配單元上能力水平最高的工人w*,即滿足w*=argmaxqwk。

規(guī)則b3：選擇與瓶頸裝配單元能力水平之差最大的工人w*,即滿足w*=argmax(|qwk-qwkb|)。

規(guī)則b4：將工人w*分配至裝配單元。

2.1.2排序規(guī)則庫

排序過程中,綜合考慮裝配單元的操作時間和生產(chǎn)循環(huán)的產(chǎn)品需求分布[13],對裝配線的投產(chǎn)排序設(shè)計以下規(guī)則。

規(guī)則s4：將產(chǎn)品類型i*投產(chǎn)到裝配線。

2.2 近端策略優(yōu)化算法

如圖2所示,在平衡規(guī)則庫與排序規(guī)則庫基礎(chǔ)上,PPO算法中的平衡智能體與排序智能體分別觀察混流裝配線的環(huán)境狀態(tài)Sb和Ss,輸出復(fù)合規(guī)則中的規(guī)則權(quán)重參數(shù),并根據(jù)復(fù)合規(guī)則生成包括平衡調(diào)度與排序調(diào)度的馬爾可夫決策過程,計算平衡與排序階段的獎勵回報函數(shù)rb和rs。以歷史經(jīng)驗為樣本數(shù)據(jù),PPO算法設(shè)計如下的損失函數(shù):

圖2 基于PPO算法的平衡與排序調(diào)度過程

(11)

c(Rt(θ),1-ωclip,1+ωclip)=

分別訓(xùn)練平衡智能體與排序智能體。改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)、設(shè)計優(yōu)先經(jīng)驗回放機(jī)制,以提高PPO算法的數(shù)據(jù)利用率。

2.2.1平衡智能體與排序智能體

強(qiáng)化學(xué)習(xí)算法中的智能體以最大化累計獎勵為目標(biāo),通過感知環(huán)境的狀態(tài)S、對環(huán)境做出的動作A,根據(jù)環(huán)境的獎勵反饋R進(jìn)行學(xué)習(xí)[14-15]。為實現(xiàn)以上過程,平衡智能體與排序智能體采用Actor-Critic網(wǎng)絡(luò)結(jié)構(gòu),其中,平衡智能體構(gòu)建Actorb網(wǎng)絡(luò)和Criticb網(wǎng)絡(luò),排序智能體構(gòu)建Actors網(wǎng)絡(luò)和Critics網(wǎng)絡(luò),利用Actor網(wǎng)絡(luò)與Critic網(wǎng)絡(luò)的交互,實現(xiàn)合理的裝配單元工人配置與多種產(chǎn)品投產(chǎn)規(guī)劃。

考慮平衡智能體與排序智能體的動作在裝配時間、生產(chǎn)節(jié)拍等方面的關(guān)聯(lián)性,在智能體之間設(shè)計GRU單元與注意力機(jī)制,即在GRU單元中綜合考慮Actor網(wǎng)絡(luò)的輸入?yún)?shù)與隱藏狀態(tài),通過不斷更新隱藏狀態(tài),學(xué)習(xí)平衡過程與排序過程的前后動作關(guān)聯(lián)信息。同時,運用注意力機(jī)制加強(qiáng)對平衡過程與排序過程中關(guān)鍵狀態(tài)特征的學(xué)習(xí),提高網(wǎng)絡(luò)學(xué)習(xí)的能力。

2.2.2平衡與排序的馬爾可夫決策過程

根據(jù)混流裝配線平衡與排序問題面臨的約束條件與優(yōu)化目標(biāo),建立平衡與排序的馬爾可夫決策過程(Markovian decision process, MDP)模型,以MDP模型中的狀態(tài)S、動作A和獎勵R描述平衡與排序問題的調(diào)度要素。

(1)狀態(tài)空間。平衡過程中,裝配人員的能力水平和裝配單元的人員配置是關(guān)鍵狀態(tài)特征。因此,設(shè)計平衡智能體的觀測狀態(tài)空間

(12)

排序過程中,裝配單元的產(chǎn)品操作時間和裝配任務(wù)的開始操作時間是關(guān)鍵狀態(tài)特征。因此,設(shè)計排序智能體的觀測狀態(tài)空間

Ss=(p′ik,d′i,snk,lk,T)

(13)

(2)動作空間。根據(jù)所設(shè)計的平衡規(guī)則庫,得到混流裝配線平衡階段復(fù)合規(guī)則的評價值:

Hbi=ωb1hb1+ωb2hb2+ωb3hb3+ωb4hb4

(14)

式中,ωb1～ωb4為平衡智能體根據(jù)當(dāng)前狀態(tài)輸出的規(guī)則權(quán)重;hb1～hb4為平衡規(guī)則b1到b4的評價值。

根據(jù)設(shè)計的排序規(guī)則庫,得到混流裝配線排序階段復(fù)合規(guī)則的評價值:

Hsi=ωs1hs1+ωs2hs2+ωs3hs3+ωs4hs4

(15)

式中,ωs1～ωs4為排序智能體根據(jù)當(dāng)前狀態(tài)輸出的規(guī)則權(quán)重;hs1～hs4為排序規(guī)則b1到b4的評價值。

(3)獎勵函數(shù)。根據(jù)Actor-Critic算法框架,需要根據(jù)平衡與排序方案的評價函數(shù)f,對平衡智能體與排序智能體進(jìn)行訓(xùn)練?？紤]到平衡與排序問題的復(fù)雜性與規(guī)模性,以上訓(xùn)練過程會使訓(xùn)練過程迭代變慢,降低算法收斂速度,因此需要重新設(shè)計獎勵函數(shù)。平衡過程中,將混流裝配線的過載時間和空閑時間平均分配到每個動作回合,得到平衡階段的獎勵回報函數(shù):

(16)

式中,tb為平衡過程的總步數(shù);C為生產(chǎn)節(jié)拍常數(shù)。

排序過程中,根據(jù)每個排序動作產(chǎn)生的裝配單元過載時間和空閑時間,定義排序階段的獎勵回報函數(shù):

(17)

2.2.3優(yōu)先經(jīng)驗回放機(jī)制

傳統(tǒng)PPO算法在學(xué)習(xí)過程中進(jìn)行歷史樣本的隨機(jī)采樣,在面臨優(yōu)化問題時的學(xué)習(xí)能力有限[16],因此提出一種優(yōu)先經(jīng)驗回放機(jī)制,根據(jù)平衡與排序問題的目標(biāo)函數(shù)值fi設(shè)置經(jīng)驗樣本i被學(xué)習(xí)的概率即調(diào)度經(jīng)驗樣本τ的采樣概率

(18)

式中,i為經(jīng)驗庫中調(diào)度經(jīng)驗樣本τ的編號;T為經(jīng)驗庫中所包含的調(diào)度經(jīng)驗樣本總數(shù)。

通過權(quán)重保留較優(yōu)經(jīng)驗進(jìn)行采樣,提高PPO算法的學(xué)習(xí)效率。

2.2.4算法訓(xùn)練流程

馬爾可夫決策過程中,平衡智能體、排序智能體分別觀察混流裝配線平衡與排序過程中的狀態(tài)空間Sb和Ss,Actorb網(wǎng)絡(luò)和Actors網(wǎng)絡(luò)輸出復(fù)合規(guī)則的權(quán)重向量,通過集成平衡規(guī)則庫與排序規(guī)則庫,生成平衡調(diào)度方案與排序調(diào)度方案,得到式(16)、式(17)所示的獎勵函數(shù)。將平衡智能體、排序智能體與混流裝配線環(huán)境互動過程中的調(diào)度經(jīng)驗儲存在經(jīng)驗庫中,當(dāng)經(jīng)驗庫達(dá)到最大容量時,基于優(yōu)先經(jīng)驗回放機(jī)制對歷史經(jīng)驗進(jìn)行采樣,更新Actor與Critic中的網(wǎng)絡(luò)參數(shù)分布,并通過經(jīng)驗回放的不斷迭代,調(diào)控優(yōu)化智能體的動作策略。以上過程中的算法步驟如下:

(1)初始化平衡智能體與排序智能體的Actor-Critic網(wǎng)絡(luò)參數(shù)θb、θs、ψb、ψs,設(shè)置智能體中的迭代最大回合數(shù)emax、經(jīng)驗庫容量z、經(jīng)驗庫最大容量zmax;

(2)初始化航天產(chǎn)品平衡與排序問題調(diào)度環(huán)境,設(shè)置平衡智能體的工人配置步數(shù)tb=0與排序智能體的產(chǎn)品投產(chǎn)步數(shù)ts=0;

(3)根據(jù)平衡規(guī)則庫,平衡智能體觀察環(huán)境狀態(tài)Sbt,根據(jù)策略πθb(abt|Sbt)輸出復(fù)合規(guī)則權(quán)重向量,分配工人w*至裝配單元,更新環(huán)境狀態(tài)Sbt;

(5)根據(jù)排序規(guī)則庫,排序智能體觀察環(huán)境狀態(tài)Sst,根據(jù)策略πθs(ast|Sst)輸出排序規(guī)則權(quán)重向量,選擇產(chǎn)品類型i*進(jìn)行投產(chǎn),更新環(huán)境狀態(tài)Sst,反饋獎勵函數(shù)值rst;

(8)更新平衡動作策略網(wǎng)絡(luò)πθb(abt|Sbt),排序動作策略網(wǎng)絡(luò)πθs(ast|Sst);更新平衡評價網(wǎng)絡(luò)vψb(abt,Sbt),排序評價網(wǎng)絡(luò)vψs(ast,Sst);更新網(wǎng)絡(luò)參數(shù)θb、θs、ψb、ψs;

(9)若迭代循環(huán)次數(shù)達(dá)到最大回合數(shù)emax,訓(xùn)練結(jié)束,否則重復(fù)步驟(2)～步驟(8)。

3 算例驗證

考慮PPO算法參數(shù)對復(fù)合規(guī)則學(xué)習(xí)過程的影響,結(jié)合多品種小批量生產(chǎn)與裝配單元工人配置柔性等特點,首先利用隨機(jī)算例進(jìn)行混流裝配線平衡與排序方法中的算法參數(shù)實驗,然后根據(jù)文獻(xiàn)[17-18]設(shè)計的標(biāo)準(zhǔn)化算例進(jìn)行不同平衡與排序方法的對比實驗。以上實驗采用Intel i7-10875H CPU,內(nèi)存16G,Windows11的計算機(jī)環(huán)境,對比方法包括PPO+單一規(guī)則、復(fù)合規(guī)則和遺傳算法等調(diào)度方法。對比算法的具體說明如下:

(1)PPO+單一規(guī)則。使用PPO算法訓(xùn)練強(qiáng)化學(xué)習(xí)智能體,根據(jù)調(diào)度狀態(tài)選取某條規(guī)則作為調(diào)度動作來選擇備選工人或產(chǎn)品。

(2)復(fù)合規(guī)則。使用正交試驗方法設(shè)計復(fù)合規(guī)則的權(quán)重,根據(jù)復(fù)合規(guī)則選擇備選的工人或產(chǎn)品。

(3)遺傳算法。采用十進(jìn)制編碼分別構(gòu)建平衡過程與排序過程的染色體,平衡過程中的染色體進(jìn)行循環(huán)交叉,排序過程中的染色體進(jìn)行優(yōu)先交叉。交叉變異過程采用兩點交換法,通過三元錦標(biāo)賽法和精英保留策略進(jìn)行染色體篩選,最后根據(jù)染色體編碼情況生成調(diào)度方案。

在算法參數(shù)實驗中,以面向9種產(chǎn)品類型、包含10個裝配單元的混流裝配線為研究對象,在單元長度100 s、投產(chǎn)節(jié)拍為120 s的情況下,根據(jù)單元工人容量U[2,3]、產(chǎn)品數(shù)量U[4,7]、工人裝配能力U[0.8,1.2]、產(chǎn)品裝配時間U[80 s, 130 s]的分布情況,隨機(jī)生成3個算例。通過正交試驗分析以上算例中的PPO算法參數(shù)水平,得到PPO算法參數(shù):Actorb的學(xué)習(xí)率RA,b=5×10-5,Criticb的學(xué)習(xí)率RC,b=5×10-5;Actorb網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)為(256,128,128);Criticb網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)為(256,128,128);Actors的學(xué)習(xí)率RA,s=5×10-5;Criticb的學(xué)習(xí)率RA,s=5×10-5;Actors網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)為(256,128,128);Critics網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)為(256, 128, 128)。

PPO+單一規(guī)則方法與表7所列算法參數(shù)設(shè)置相同,復(fù)合規(guī)則方法的權(quán)重設(shè)置基于三因素五水平的正交試驗,平衡規(guī)則的權(quán)重wb1=0.25,wb2=0.625,wb3=0.125,排序規(guī)則的權(quán)重ws1=0.3,ws2=0.5,ws3=0.2;遺傳算法初始種群規(guī)模100、交叉率0.8、變異率0.05、迭代次數(shù)200。在上述算法參數(shù)設(shè)置基礎(chǔ)上,根據(jù)文獻(xiàn)[17-18]中的生產(chǎn)循環(huán)、裝配單元和工人設(shè)置,生成標(biāo)準(zhǔn)化算例,采用本文方法和對比方法進(jìn)行求解,得到混流裝配線調(diào)度問題的目標(biāo)函數(shù)值f與方法運算時間即CPU time,結(jié)果分別如表2、表3所示。

表2 不同方法的目標(biāo)函數(shù)值結(jié)果

表3 不同方法的運算時間

如表2、表3所示,對于工人數(shù)量、裝配單元數(shù)量、產(chǎn)品種類和產(chǎn)品數(shù)量共同決定的混流裝配線平衡與排序問題的大規(guī)模解空間,PPO+復(fù)合規(guī)則方法利用平衡智能體與排序智能體,將多個啟發(fā)式規(guī)則組合成復(fù)合規(guī)則,具備較好全局優(yōu)化能力,并根據(jù)調(diào)度問題的目標(biāo)函數(shù)設(shè)計了獎勵回報函數(shù),建立了基于PPO算法的學(xué)習(xí)過程,不斷對復(fù)合規(guī)則中的權(quán)值進(jìn)行動態(tài)調(diào)控,具備較好的局部適應(yīng)能力,因此獲得了平衡與排序問題的更優(yōu)解,并縮短了計算時間。在大規(guī)模解空間中,PPO+單一規(guī)則方法容易在初始化階段就陷入部分區(qū)域,使學(xué)習(xí)過程傾向于持續(xù)選擇某個規(guī)則,導(dǎo)致算法過早陷入局部最優(yōu)。該方法雖然在較短時間內(nèi)獲得了可行方案,但難以進(jìn)一步生成更優(yōu)方案。復(fù)合規(guī)則采用正交試驗對啟發(fā)式規(guī)則權(quán)重進(jìn)行有限調(diào)整,雖然縮短了參數(shù)尋優(yōu)的計算時間,但對大規(guī)模問題的優(yōu)化十分有限,很難生成符合調(diào)度方案優(yōu)化需求的復(fù)合規(guī)則,僅能獲得次優(yōu)解或可行解。遺傳算法需要擴(kuò)大種群規(guī)模、增加迭代次數(shù)來滿足大規(guī)模解空間的全局搜索需求,但計算時間的大幅度延長,且增大后的種群規(guī)模難以形成有效的局部搜索能力,因此對大部分MPS難以獲得近優(yōu)求解效果。

4 結(jié)論

針對多品種小批量、單元制造的航天產(chǎn)品混流裝配線平衡與排序問題,結(jié)合復(fù)合規(guī)則對不同調(diào)度問題的適應(yīng)性與強(qiáng)化學(xué)習(xí)對調(diào)度問題的策略學(xué)習(xí)能力,提出一種基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的混流裝配線平衡與排序方法。在分析問題特點與數(shù)學(xué)模型的基礎(chǔ)上,分別設(shè)計了平衡規(guī)則庫與排序規(guī)則庫,提出的強(qiáng)化學(xué)習(xí)PPO算法對規(guī)則組合下的復(fù)合規(guī)則權(quán)重參數(shù)進(jìn)行調(diào)控優(yōu)化,根據(jù)復(fù)合規(guī)則生成混流裝配線平衡與排序方案,最小化裝配單元的過載時間和空閑時間。所提方法與PPO+單一規(guī)則、復(fù)合規(guī)則和遺傳算法的求解效果對比驗證了所提方法的有效性。在此基礎(chǔ)上,后續(xù)研究將關(guān)注混流裝配線調(diào)度問題特點與PPO算法中復(fù)合規(guī)則權(quán)重分布的可解釋性映射關(guān)系,進(jìn)一步挖掘混流裝配線平衡與排序方法中存在的調(diào)度機(jī)理。