航天結(jié)構(gòu)件的加工過程具有多品種、小批量、工藝復(fù)雜多變的特征,每種工件由多道具有先后順序約束的工序完成,是典型的作業(yè)車間調(diào)度問題.由于航天結(jié)構(gòu)件緊急插單任務(wù)的擾動影響批量生產(chǎn)任務(wù)的生產(chǎn)進程,降低生產(chǎn)效率,所以車間調(diào)度方案需要動態(tài)變更.在傳統(tǒng)作業(yè)車間調(diào)度的基礎(chǔ)上,柔性作業(yè)車間調(diào)度可以面向更加動態(tài)、復(fù)雜的車間環(huán)境.根據(jù)柔性作業(yè)車間的特點,可以將該類調(diào)度問題拆分為資源配置和工序排序兩個子問題,分別利用調(diào)度系統(tǒng)中存在的多類型知識,賦予系統(tǒng)自適應(yīng)響應(yīng)能力.
柔性作業(yè)車間調(diào)度需要利用實時性狀態(tài)數(shù)據(jù)來驅(qū)動,但目前系統(tǒng)對于車間資源中離散程度高、關(guān)聯(lián)性差的數(shù)據(jù)無法很好地利用.在處理大規(guī)模復(fù)雜數(shù)據(jù)方面,知識圖譜技術(shù)能夠表達更豐富的語義,對數(shù)據(jù)進行語義信息集成與表示.認知制造作為下一代智能制造,利用感知-認知系統(tǒng)實現(xiàn)信息-物理系統(tǒng)的交互.知識圖譜技術(shù)與認知制造的結(jié)合應(yīng)用增強了車間動態(tài)調(diào)度策略優(yōu)化與知識之間的聯(lián)通性,一定程度上提高了決策方案的科學(xué)性.如何利用知識圖譜提供的調(diào)度知識實現(xiàn)動態(tài)調(diào)度決策優(yōu)化是值得研究的課題.
近年來,已有眾多學(xué)者針對動態(tài)柔性作業(yè)車間調(diào)度問題進行研究,主要在魯棒式方法、重調(diào)度法、智能算法等方面展開.魯棒式方法對生產(chǎn)擾動事件的響應(yīng)速度慢,歷史信息無法得到重用;重調(diào)度方法可以對擾動事件快速響應(yīng),但無法很好利用工藝信息之間的關(guān)系;相比之下智能算法更適用于處理作業(yè)車間的動態(tài)調(diào)度問題.通過智能算法完成自適應(yīng)車間調(diào)度問題的方法有優(yōu)先級規(guī)則方法、啟發(fā)式算法、遺傳算法(Genetic Algorithm, GA)、進化算法、模擬退火、禁忌搜索方法等.在考慮插單任務(wù)的動態(tài)調(diào)度研究中,Kundakci等針對動態(tài)作業(yè)車間調(diào)度問題中的插單任務(wù)、機器故障等,引入有效的混合遺傳算法求解此類問題的最大完工時間;Shen等針對柔性作業(yè)車間調(diào)度的新工件插入和機床故障等問題,提出了基于多目標進化算法的主動-被動調(diào)度方法;Wang等提出了一種改進的粒子群算法用于工件隨機到達的動態(tài)柔性作業(yè)車間調(diào)度問題的求解.為了實現(xiàn)多約束下調(diào)度問題的多目標優(yōu)化,一些研究學(xué)者將調(diào)度過程進行分步驟處理.張潔等提出針對調(diào)度過程的任務(wù)分派和任務(wù)排序兩階段,構(gòu)建具有繼承關(guān)系的兩階段蟻群并行搜索算法;周亞勤等提出一種嵌套式蟻群-遺傳混合算法解決關(guān)鍵設(shè)備和人員雙資源約束下的航天結(jié)構(gòu)件柔性作業(yè)車間調(diào)度問題;汪浩祥等利用強化學(xué)習(xí)的實時性和知識化制造系統(tǒng)的自適應(yīng)性,將航空發(fā)動機裝配調(diào)度分為分派機器和工序調(diào)度兩個階段.現(xiàn)有的調(diào)度規(guī)則大多無法進行自適應(yīng)調(diào)整以應(yīng)對動態(tài)場景,但隨著機器學(xué)習(xí)的快速發(fā)展,可通過學(xué)習(xí)生成復(fù)雜調(diào)度策略的強化學(xué)習(xí)方法已經(jīng)產(chǎn)生,能賦予調(diào)度規(guī)則較強的自適應(yīng)和學(xué)習(xí)能力.進一步,深度Q網(wǎng)絡(luò)(Deep Q Network, DQN)結(jié)合了具有感知能力的深度學(xué)習(xí)和決策能力的強化學(xué)習(xí),融合了深度神經(jīng)網(wǎng)絡(luò)能夠利用歷史數(shù)據(jù)在線學(xué)習(xí)和強化學(xué)習(xí)從而依據(jù)狀態(tài)靈活選取決策行為的優(yōu)點,更適用于柔性作業(yè)車間調(diào)度的決策過程.Wang等在多智能體強化學(xué)習(xí)環(huán)境中運用DQN指導(dǎo)基礎(chǔ)設(shè)施云上多工作流的調(diào)度,分別將最大完工時間和成本兩個優(yōu)化目標抽象成兩個智能體.Luo研究了用DQN解決以總延期最小為目標的新任務(wù)插入下的動態(tài)柔性作業(yè)車間調(diào)度問題.He等針對紡織過程優(yōu)化問題轉(zhuǎn)化為隨機博弈的新框架,在DQN網(wǎng)絡(luò)算法中將多優(yōu)化目標抽象成多智能體.林時敬等針對煉鋼車間天車動態(tài)調(diào)度事件,也運用DQN算法將多天車抽象成多智能體協(xié)同天車操作動作序列.但現(xiàn)在基于DQN的車間調(diào)度方法中,所需調(diào)度策略的優(yōu)化過程與調(diào)度相關(guān)數(shù)據(jù)的關(guān)聯(lián)度不夠,因此考慮在調(diào)度算法中利用系統(tǒng)提供的語義知識優(yōu)化車間動態(tài)調(diào)度能力.
為此,本文針對柔性作業(yè)車間調(diào)度問題,以最小化設(shè)備平均負載和最小化總完工時間為目標,在調(diào)度過程的資源配置和工序排序階段,分別設(shè)置強化學(xué)習(xí)智能體,提出雙系統(tǒng)強化學(xué)習(xí)框架.其中,基于感知系統(tǒng)獲取知識圖譜的知識,分別將資源配置和工序排序所需要的參數(shù)集成表示為多維信息矩陣的形式,為認知調(diào)度系統(tǒng)提供車間狀態(tài)參數(shù);認知調(diào)度過程中對兩個智能體共同構(gòu)建具有繼承關(guān)系的雙環(huán)深度Q網(wǎng)絡(luò)(Dual-Loop Deep Q Network, DL-DQN)方法.
中證協(xié)12月26日發(fā)布的《證券基金經(jīng)營機構(gòu)債券投資交易業(yè)務(wù)內(nèi)控指引》?!秲?nèi)控指引》力求從內(nèi)控體系、風(fēng)險控制、業(yè)務(wù)管理、人員管理等方面強化證券基金經(jīng)營機構(gòu)風(fēng)控合規(guī)意識,確保債券投資交易規(guī)范展業(yè)。近年來,部分機構(gòu)債券投資交易內(nèi)控薄弱,以各種形式直接或變相放大杠桿博取高收益,甚至規(guī)避內(nèi)控機制和資本占用等監(jiān)管要求。市場人士稱,出臺這一指引,是為了更有效規(guī)范債券投資交易行為,防范債券市場風(fēng)險。
柔性作業(yè)生產(chǎn)車間調(diào)度問題可以描述為:總共有個任務(wù)訂單,其中包括批產(chǎn)任務(wù)和插單任務(wù),每個任務(wù)包含個待加工工件,即={,, …,}(=1, 2, …,),所有任務(wù)動態(tài)到達需要在種設(shè)備組={,, …,} (=1, 2, …,)上加工,每個設(shè)備組包含一定數(shù)量的設(shè)備={,, …,} (=1, 2, …,)執(zhí)行對應(yīng)的工序,不同的任務(wù)包含不同的加工工件數(shù)目、對應(yīng)不同的加工工序,需要在設(shè)備組上進行工序排序并加工.對插單任務(wù)進行資源配置,并根據(jù)資源配置結(jié)果對機加工工序進行優(yōu)化排序,使得設(shè)備總負載和任務(wù)總完工時間最小.在問題描述中涉及到的參數(shù)如表1所示.
工序排序智能體獎勵函數(shù).
建立如下數(shù)學(xué)模型:
(1)
?∈[1, 2, …,],∈[1, 2, …,]
(2)
?∈[1, 2, …,],∈[1, 2, …,]
式中:
尿β2微球蛋白(U-β2-MG)廣泛存在于血漿、尿液、腦脊液及初乳中。正常情況下,β2-MG合成和釋放非常恒定,不受年齡、性別等因素的影響。β2-MG相對分子量小、不與血漿蛋白結(jié)合,可由經(jīng)腎小球濾過,被近曲小管重吸收并降解。自身免疫性疾病、慢性肝炎、惡性腫瘤等疾病能夠促進機體合成大量β2-MG,排除這些疾病后,血清β2-MG水平升高可反映腎小球濾過率下降、腎小管重吸收功能受損,可作為評價腎臟濾過功能。
克魯勃潤滑劑(上海)有限公司市場及應(yīng)用部門經(jīng)理戴偉(Nicolas David)表示:“我們正在與客戶及合作伙伴密切合作,共同開發(fā)新的數(shù)字產(chǎn)品,在提供性能純正、品質(zhì)一流的潤滑劑之外帶來附加價值??唆敳诰€解決方案表明我們能幫助客戶收獲更大成功,并且進一步貼近客戶?!?/p>
通過表3可知,依據(jù)國家發(fā)展改革委、國家能源局等八部分共同發(fā)文《關(guān)于推進電能替代的指導(dǎo)意見》以及南方電網(wǎng)相關(guān)電能替代指導(dǎo)意見,共梳理該地區(qū)電能替代相關(guān)技術(shù)19項,通過本文建立的區(qū)域電能替代技術(shù)選擇體系篩選出11項該地區(qū)需要大力發(fā)展及廣泛推廣的項目。根據(jù)上文中選擇出的電能替代技術(shù)與國家政策及指導(dǎo)意見比較相似,因此,也能說明本文中建立的體系的正確性與合理性。通過對本地區(qū)電能替代領(lǐng)域的分析與選擇,對于促進節(jié)能減排與建設(shè)美麗中國、治理環(huán)境污染與經(jīng)濟發(fā)展、優(yōu)化能源結(jié)構(gòu)和能源的可持續(xù)發(fā)展具有重要意義。
(3)
?∈[1, 2, …,]
(4)
≠
, , =, ,
(5)
(6)
(7)
(8)
為了實現(xiàn)柔性作業(yè)車間的動態(tài)調(diào)度,解決調(diào)度過程中的多階段方案生成優(yōu)化,本文提出了知識圖譜驅(qū)動的車間動態(tài)調(diào)度過程中感知-認知雙系統(tǒng)框架.如圖1所示,系統(tǒng)I的感知是將各類型數(shù)據(jù)進行表示與集成,將調(diào)度信息轉(zhuǎn)變成多維矩陣的形式分別表示資源配置和工序排序,輸入到系統(tǒng)II.在緊急任務(wù)的觸發(fā)下,系統(tǒng)II的認知利用DL-DQN強化學(xué)習(xí)方法進行車間排產(chǎn)優(yōu)化——資源配置智能體以最小化設(shè)備平均負載為目標,首先進行該工件所需人員、設(shè)備、物料等資源匹配形成資源社群;工序排序智能體以最小化完工時間為目標,將資源社群以工序為單位實現(xiàn)工件順序排產(chǎn)計劃,分步進行調(diào)度策略生成,提高加工流的生產(chǎn)連續(xù)性和效率.
利用知識圖譜提供的調(diào)度參數(shù),根據(jù)車間動態(tài)調(diào)度的兩個子問題,分別將所需數(shù)據(jù)轉(zhuǎn)化成多維信息矩陣輸入到系統(tǒng)的強化學(xué)習(xí)模型中.
資源配置所需的數(shù)據(jù)為離散型數(shù)據(jù),為資源信息矩陣,每種任務(wù)需要由多位工人在多臺設(shè)備上采用不同的資源進行加工,每種資源包含多種類型:
專業(yè)核心課是財務(wù)管理專業(yè)的重要內(nèi)容,教師通過核心課能夠?qū)⒇攧?wù)管理知識系統(tǒng)的傳授給學(xué)生,這樣學(xué)生就會具備實際操作的能力。核心課設(shè)置如下課程:財務(wù)管理案例、財務(wù)控制、稅法與籌劃等,我們可以將預(yù)算管理、高級財務(wù)管理、資本運營、非營利組織財務(wù)等課程作為選修課供學(xué)生選擇學(xué)習(xí)。這樣也就體現(xiàn)了財務(wù)管理專業(yè)具備的獨特性。其中,中級財務(wù)會計、財務(wù)管理、財務(wù)管理案例、財務(wù)風(fēng)險管理、稅法與籌劃、財務(wù)控制、財務(wù)分析、成本管理會計、資產(chǎn)評估是專業(yè)核心課的重要內(nèi)容。
, , ={, , ,, , ,, , }
(9)
橈骨遠端骨折的病因以外傷為主,發(fā)病機制則較為復(fù)雜,發(fā)生后可給患者的肢體功能造成影響,其生活質(zhì)量也隨之下降[3],因此需要給予積極的治療。其治療方法包括保守治療、手術(shù)治療等兩大類,其中后者是主要的治療方式,但在何時給予患者以手術(shù)治療,目前仍存在一定的爭議。本研究結(jié)果表明,在骨折后6 h內(nèi)即開展急診手術(shù)干預(yù),與傳統(tǒng)的等待消腫后再行手術(shù)治療比較,不僅可以有效減輕患者的疼痛感,同時又可促進患者患肢功能的恢復(fù),同時其外觀無畸形率更高,綜合效果理想,故值得推廣。
(=1, 2, …,;=1, 2, …,;=1, 2, …,;, , ∈;, , ∈;, , ∈;, , ∈)
={,}
(10)
={, |, =,, …,}
第二,林業(yè)生態(tài)建設(shè)質(zhì)量有待提高?,F(xiàn)階段,我國林業(yè)資源生態(tài)環(huán)境建設(shè)取得一定成效,主要表現(xiàn)在荒漠化防治、水土保持兩方面。但是,林業(yè)生態(tài)環(huán)境建設(shè)所取得的成果僅限于重點治理區(qū)域,其他絕大部分普遍存在質(zhì)量不高、樹種單一、樹種結(jié)構(gòu)不合理的問題。
(11)
(=1, 2, …,;=1, 2, …,;
=1, 2, …,)
(12)
(=1, 2, …,;=1, 2, …,;
=1, 2, …,)
對感知數(shù)據(jù)利用DL-DQN算法實現(xiàn)認知應(yīng)用.圖2為本文提出的柔性作業(yè)車間動態(tài)調(diào)度流程.依據(jù)批產(chǎn)任務(wù)生產(chǎn)方案流程,對插單任務(wù)進行緊急程度的判別后分別應(yīng)用不同的調(diào)度原則,當插單任務(wù)進入認知調(diào)度實現(xiàn)策略優(yōu)化時,資源配置智能體形成以工件為核心的資源社群配置,工序排序智能體實現(xiàn)單個工序上的工件排序優(yōu)化.
(1) 調(diào)度狀態(tài)空間.
(2) 調(diào)度動作空間.
資源配置和工序排序智能體根據(jù)機器的加工狀況以及工件的生產(chǎn)屬性,分別為每一個工件設(shè)置調(diào)度優(yōu)先值,本文分別針對兩個智能體設(shè)置不同的決策動作空間.
資源配置決策空間:資源配置任務(wù)是對插單任務(wù)進行人員、設(shè)備、物料等資源的配置,合理選擇能夠最小化設(shè)備平均負載的最優(yōu)資源,決策空間定義如表3所示.
工序排序決策空間:工序排序是將配置好的資源社群,以最小化完工時間為目標分別在每個工位上進行排序,決策空間定義如表4所示.
(3) 調(diào)度獎勵函數(shù).
6.規(guī)劃實施一批科技創(chuàng)新重點工程。借鑒先進地區(qū)科技園區(qū)建設(shè)發(fā)展的成功經(jīng)驗和建設(shè)生態(tài)文明典范城市的目標要求,按照“布局集中、用地集約、產(chǎn)業(yè)集聚、建設(shè)有序”的原則,規(guī)劃建設(shè)中央創(chuàng)新區(qū),重點吸引知名高校、國家級科研機構(gòu)、重點企業(yè)研發(fā)機構(gòu)、知名科技中介機構(gòu)等集中進駐,通過多方整合科教資源,打造集科技教育、創(chuàng)新創(chuàng)業(yè)、商務(wù)服務(wù)、生態(tài)居住等于一體的現(xiàn)代科技服務(wù)業(yè)集聚區(qū),建設(shè)成為生態(tài)文明典范城市副中心,為創(chuàng)建國家高新區(qū)奠定基礎(chǔ)。實施黃河三角洲可持續(xù)發(fā)展研究院提升工程。進一步配套完善研究院基礎(chǔ)設(shè)施,支持研究院設(shè)立市場化管理運營平臺,努力打造在黃河三角洲地區(qū)乃至國內(nèi)重要的科技創(chuàng)新基礎(chǔ)條件平臺。
通過設(shè)置合理的獎勵機制,保證算法在多智能體設(shè)置下的收斂性,函數(shù)設(shè)計如下.
資源配置智能體獎勵函數(shù).
首先定義設(shè)備繁忙、空閑的示性函數(shù), (),表示為
, ()=
(13)
針對醫(yī)?;颊咦≡嘿M用的影響因素(政策因素、參保方因素、醫(yī)療供方因素),應(yīng)當從問題出發(fā),提出相應(yīng)的措施及辦法減少上述各種因素對住院費用的影響。醫(yī)保部門應(yīng)當根據(jù)相關(guān)要求和實際情況制定醫(yī)保政策,醫(yī)療機構(gòu)應(yīng)當嚴格實行院內(nèi)控制,而參?;颊邞?yīng)當加強學(xué)習(xí),提升對醫(yī)保政策的認識。通過各種措施的采取,合理地控制住院費用。本文研究結(jié)果顯示,在采取有效的控制措施之后,住院費用明顯降低,與措施采取前存在明顯的差異(P<0.05),充分說明有效地措施對住院費用控制的重要性。
(14)
(15)
(16)
由式(15)和(16)可知,資源配置階段的最大化獎勵等價于最小化設(shè)備平均負載,證明定義的獎勵函數(shù)有效.
柔性作業(yè)車間調(diào)度模型需要滿足如下基本假設(shè):①批產(chǎn)任務(wù)中工件一定的情況下,插單任務(wù)的工件動態(tài)到達;②同一工件工序之間有優(yōu)先級,需在前道工序加工完成后進行后道工序的加工;③工件某一道工序在加工過程中不能被中斷;④ 工件在加工過程中的準備時間、工件轉(zhuǎn)換時間等一同計入加工時間; ⑤同一設(shè)備在某一時刻只能加工一道工序;⑥ 同一設(shè)備前一工件未完成,后續(xù)安排工件需等待;⑦不存在撤單、設(shè)備故障等特殊情況.
首先定義時刻第個任務(wù)的第個工件中第道工序狀態(tài)的示性函數(shù), , (),即:
傳統(tǒng)固態(tài)發(fā)酵釀醋制醋醅采用固態(tài)分層發(fā)酵,現(xiàn)在基本都是以防水水泥制成的長條形醅池代替大缸,也從人工翻醅替換成翻醅機操作。涉及的設(shè)備有行車、翻醅機、醅池及吊車抓斗等。史榮炳[36]發(fā)明了一種通過機械結(jié)構(gòu)實現(xiàn)自動翻醅的裝置。
, , ()=
(17)
(18)
(19)
(20)
由式(19)和(20)可知,工序排序階段的最大化獎勵等價于最小化總完工時間,證明定義的獎勵函數(shù)有效.
為雙目標獎勵函數(shù)賦予權(quán)值轉(zhuǎn)變?yōu)榭偑剟詈瘮?shù),如下式:
=+
(21)
式中:、分別為兩個目標的權(quán)值,+=1將雙目標優(yōu)化轉(zhuǎn)換為單目標優(yōu)化的獎勵函數(shù),通過控制權(quán)值的大小,決策者可依據(jù)目標的側(cè)重情況人為設(shè)定例如,當調(diào)度環(huán)境要求考慮盡快完工,可將工序排序智能體獎勵函數(shù)的權(quán)值設(shè)置為07,資源配置智能體獎勵函數(shù)的權(quán)值設(shè)置為0.3.
(4) 模型更新.
本文模型在DQN基礎(chǔ)上改進,兩個智能體在訓(xùn)練時,在單位時間內(nèi),資源配置智能體根據(jù)知識圖譜提供的資源相關(guān)離散型知識生成資源配置決策動作,隨著狀態(tài)變化以社群的形式傳遞給工序排序智能體,下一個排序動作以每一設(shè)備組為單位,對資源社群進行任務(wù)加工序列的安排.調(diào)度的兩階段過程不斷更新迭代,直至任務(wù)完成,采用梯度下降法更新參數(shù),實現(xiàn)策略函數(shù)的優(yōu)化,算法的偽代碼如算法1所示.
“差不多了,我大致了解你的心理狀態(tài)。”社長說,“你千萬不要因為被我看穿心理而反應(yīng)激烈,要學(xué)會冷靜。知道嗎?”
:DL-DQN多智能體強化學(xué)習(xí)算法
1初始化記憶池、;容量
2用隨機權(quán)重參數(shù)、初始化函數(shù)、
4For 迭代次數(shù)= 1,do
慢性病已經(jīng)成為我國居民健康和經(jīng)濟社會發(fā)展所面臨的嚴重挑戰(zhàn)[1]。兒童時期是生理和心理成長發(fā)育的關(guān)鍵時期,也是學(xué)習(xí)健康知識、形成健康行為的重要階段。本文就我國8省4~6年級小學(xué)生慢性病相關(guān)知識、態(tài)度及知識來源進行了分析,以期對培養(yǎng)小學(xué)生的健康生活行為有所幫助和指導(dǎo)。
并滿足如下約束:
6For=0,do
工序排序所需的數(shù)據(jù)由工藝序列和加工時間兩組數(shù)據(jù)組成,為工序排序信息矩陣,各類型數(shù)據(jù)構(gòu)建出排序涉及相關(guān)調(diào)度參數(shù),以某時間段工位數(shù)據(jù)建模表示如下:
10For=1,do
12For=0,do
與綜合性大學(xué)相比,行業(yè)特色型大學(xué)在國家“雙一流”建設(shè)中除了要立足于國家重大現(xiàn)實需求外,還要立足于行業(yè)重大需求,優(yōu)化學(xué)科布局和頂層制度設(shè)計,堅持“有所為有所不為”的原則,著力提升解決制約行業(yè)發(fā)展的關(guān)鍵瓶頸問題和重大現(xiàn)實需求問題的能力。除了堅持基礎(chǔ)理論研究之外,更重要的是要探索基礎(chǔ)理論研究成果在特定行業(yè)的應(yīng)用問題,要將行業(yè)應(yīng)用研究能力作為行業(yè)特色型大學(xué)發(fā)展的重要突破口。對于行業(yè)特色型大學(xué)教師而言,其最大優(yōu)勢和特色在于針對行業(yè)重大前沿問題開展基礎(chǔ)理論和應(yīng)用研究。因此,在“雙一流”建設(shè)中教師要將基礎(chǔ)理論研究與行業(yè)應(yīng)用研究有機結(jié)合,突出行業(yè)科研應(yīng)用能力。
為工藝參數(shù)矩陣,即任務(wù)加工工藝流程方法.加工車間每種設(shè)備組只能對應(yīng)加工某一類型工藝:
20End for
21End for
26End for
27End for
28輸出:、
對提出的雙系統(tǒng)強化學(xué)習(xí)方法進行模型訓(xùn)練和實驗.首先,對仿真參數(shù)進行說明并進行方法對比;然后利用某航天所薄壁殼體加工過程中緊急插單問題進行實例測試,并進行分析.
..測試數(shù)據(jù) 本研究根據(jù)Brandimarte提出的方法生成一系列柔性作業(yè)車間動態(tài)調(diào)度問題標準算例,將本文問題進行簡化,每種加工任務(wù)的工序數(shù)相同,根據(jù)不同的工序隨機選擇加工設(shè)備,然后在工序加工時間區(qū)間內(nèi)隨機生成對應(yīng)時間(見表5).
為驗證本文提出的DL-DQN算法效果,將隨機算法(Random Algorithm, RA)、GA、DQN作為對比算法進行分析比較.
..時間復(fù)雜度分析 首先,將本文方法和對比算法的時間復(fù)雜度分析如下.
(1) RA.以先到先加工原則為約束,隨機選擇設(shè)備需加工工件并進行資源分配,設(shè)找到可行解需要的迭代次數(shù)為,因此RA的時間復(fù)雜度可近似描述為().
(2) GA.遺傳算法一般很難收斂到全局最優(yōu)解,因此算法的停止根據(jù)設(shè)置的迭代次數(shù),設(shè)GA的最大迭代次數(shù)為,種群數(shù)量為,則GA的時間復(fù)雜度可近似描述為().
(3) DQN.在DQN網(wǎng)絡(luò)的運行階段,運行回合數(shù)為,每回合中的步長為,因此在運行階段的時間復(fù)雜度為().本文提出的DL-DQN算法的時間復(fù)雜度與DQN相同.表6為時間復(fù)雜度對比.
由表可見,本文算法和所提算法的時間復(fù)雜度和任務(wù)數(shù)成線性關(guān)系,不同的算法涉及參數(shù)不同會影響時間復(fù)雜度.
..模擬結(jié)果 本研究以MK04算例進行實驗評估,構(gòu)建作業(yè)車間環(huán)境,并使用DL-DQN算法進行柔性作業(yè)車間調(diào)度,在迭代過程中記錄參數(shù)變化,與DQN算法進行對比.訓(xùn)練過程參數(shù)變化如圖4所示.
根據(jù)測試算例MK01~MK10,分別用本文方法和對比方法求解總優(yōu)化目標,結(jié)果如圖5所示.
由圖4可見DL-DQN算法訓(xùn)練過程的全局累積獎勵表現(xiàn)出良好的上升趨勢,收斂速度較DQN模型快,優(yōu)化過程優(yōu)于DQN模型,且得到的解決方案更好,更能適應(yīng)柔性作業(yè)車間調(diào)度的動態(tài)性.進一步,通過本文算法和對比算法的求解應(yīng)用(見圖5),所提方法的設(shè)備平均負載與總完工時間的加權(quán)值均小于對比算法.整體看來,DL-DQN方法效果較優(yōu),驗證了本文所提方法的有效性.
..加工車間任務(wù)信息表 利用某動力所固體火箭發(fā)動機薄壁殼體生產(chǎn)模擬數(shù)據(jù)進行實例測試以驗證所提方法的有效性.薄壁殼體的加工具有產(chǎn)研并存的特性,整理航天所生產(chǎn)原始數(shù)據(jù)后得到設(shè)備類型與相關(guān)信息如表7所示,不同的設(shè)備組對應(yīng)不同的工序.
案例以薄壁殼體批產(chǎn)任務(wù)加工過程中緊急訂單觸發(fā)任務(wù)為分析對象,在設(shè)備信息基礎(chǔ)上,設(shè)置6個任務(wù)的工藝約束、加工時間、加工數(shù)量和交貨期,其中包含4個批產(chǎn)任務(wù)(J~J)與2個插單任務(wù)(J~J).生產(chǎn)任務(wù)工序信息表和時間表如表8和表9所示,其中“空白”表示無此項.
..感知系統(tǒng)知識表示與集成 根據(jù)本文提出的DL-DQN算法,分別為資源配置智能體和工序排序智能體提供多維信息矩陣,兩階段調(diào)度過程中所需的參數(shù)矩陣如圖6所示.
..認知系統(tǒng)車間調(diào)度策略生成 假設(shè)插單任務(wù)的觸發(fā)時間節(jié)點位于批產(chǎn)任務(wù)初始化后的20 h和80 h處,針對插單任務(wù)導(dǎo)致的柔性作業(yè)車間動態(tài)調(diào)度事件,首先對其進行資源配置,然后以資源社群為單位進行工序排序,將插單任務(wù)排產(chǎn)到合適的工序位置.
在資源配置過程中,針對機加工車間的車床工作狀況進行全方位的任務(wù)配置.以該車間某一時間段的車床加工任務(wù)作為分析基礎(chǔ),將車床按照類型劃分,每種型號的車床設(shè)備各1臺,其加工功能不同,針對插單過程中導(dǎo)致的設(shè)備平均負載變化,車間車床設(shè)備相關(guān)信息如表10所示.
為表明資源配置智能體生成配置策略的合理性,以設(shè)備利用率為參考得出調(diào)度前后車床設(shè)備利用率曲線圖(見圖7),可以直觀地發(fā)現(xiàn),車間車床利用率呈現(xiàn)整體上升趨勢且變化平緩,較少出現(xiàn)某一設(shè)備負載突變的情況.
將插單任務(wù)觸發(fā)前后的車間調(diào)度模式以甘特圖的形式表示出來,圖8為插單前任務(wù)調(diào)度方案結(jié)果,圖9為插單后任務(wù)調(diào)度方案結(jié)果.不同的顏色代表不同任務(wù),同一任務(wù)按照時序關(guān)系對工序進行區(qū)分.
根據(jù)插單前后的甘特圖得出不同任務(wù)交付時間與加工時長的對比.如表11所示(“空白”表示無此項),運用本文方法能夠在滿足插單任務(wù)交付期的前提下,在一定程度上縮短批產(chǎn)任務(wù)的總加工時長,特別是調(diào)度策略前后J的總加工時間減少35.08%,交付時間減少13.67%.薄壁殼體制造過程中不同的加工工藝所需時間差異大,因此車間中工序排序引起的時間微小變化會更有利于調(diào)度.從設(shè)備利用率和加工時間變化來看,本文提出的雙系統(tǒng)深度強化學(xué)習(xí)方法具有一定的可行性.
本文對產(chǎn)研并存的柔性作業(yè)車間動態(tài)調(diào)度問題進行了研究,以最小化設(shè)備平均負載和最小化總完工時間為優(yōu)化目標,提出感知-認知雙系統(tǒng)與DL-DQN算法融合嵌入的方法,得出以下結(jié)論:
(1) 感知系統(tǒng)將知識圖譜提供的數(shù)據(jù)轉(zhuǎn)化成多維信息矩陣輸入到認知系統(tǒng),認知系統(tǒng)將調(diào)度過程分成資源配置和工序排序兩部分,分別將兩個優(yōu)化目標抽象成具有繼承關(guān)系的智能體.
(2) 采用DL-DQN算法,外環(huán)利用資源配置智能體生成以工件為單位的資源社群,內(nèi)環(huán)利用工序排序智能體以資源社群為單位進行工序級別的工件排序優(yōu)化.
(3) 對比不同的算法和進行某航天所的固體火箭發(fā)動機薄壁殼體加工車間的實例測試,證實提出的雙環(huán)強化學(xué)習(xí)方法能更好地利用調(diào)度知識圖譜提供的參數(shù)信息,實現(xiàn)柔性作業(yè)車間調(diào)度的多目標優(yōu)化.
目前的研究將設(shè)備故障、突發(fā)撤單等不確定因素忽略,未來將探究多資源約束情況下的柔性作業(yè)車間自適應(yīng)調(diào)度問題.