崔鵬浩,王軍強,張文沛,李 洋+
(1.西北工業(yè)大學(xué) 生產(chǎn)與運作系統(tǒng)性能分析中心,陜西 西安 710072;2.西北工業(yè)大學(xué) 機電學(xué)院工業(yè)工程系,陜西 西安 710072)
隨著物聯(lián)網(wǎng)(Internet of Things,IoT)、數(shù)字孿生(Digital Twins,DT)和人工智能(Artificial Intelligence,AI)等高新技術(shù)的發(fā)展,智能制造環(huán)境為生產(chǎn)數(shù)據(jù)獲取提供了便利,使得產(chǎn)線運行的過程數(shù)據(jù)實時采集成為可能[1-2]。流水線是現(xiàn)代化生產(chǎn)中廣泛采用的生產(chǎn)組織形式,由機器和緩沖區(qū)依次交替串聯(lián)組成。機器在加工過程中,隨著運行時間的增加會從健康狀態(tài)持續(xù)劣化,最后到達(dá)故障狀態(tài),即機器運行狀態(tài)存在一定的劣化特征。機器運行狀態(tài)的劣化過程不僅會降低機器獨立運行效率,還會打破整個流水線的原有平衡性,影響流水線有效產(chǎn)出,造成系統(tǒng)產(chǎn)能浪費。
設(shè)備維護在降低故障頻率、提升運行效率和保障產(chǎn)品質(zhì)量等方面起著至關(guān)重要的作用。預(yù)測性維護(predictive maintenance)決策是一種以設(shè)備工作狀態(tài)為依據(jù)的維護決策方式,旨在降低維護成本的同時,提高設(shè)備乃至生產(chǎn)系統(tǒng)的運作效率,保證生產(chǎn)系統(tǒng)持續(xù)高效運行[3]。具體地,通過持續(xù)監(jiān)測設(shè)備運行狀態(tài),預(yù)判故障可能發(fā)生的時間,在故障發(fā)生之前確定成本效益最優(yōu)的維護時機,并采用合適的維護活動,阻止設(shè)備運行狀態(tài)的劣化,最大限度地減少設(shè)備的計劃外停機時間并降低維護成本[4]。
在實施預(yù)測性維護過程中,雖然都是計劃內(nèi)停機,但是在不同機器、不同劣化狀態(tài)下進行維護,將產(chǎn)生不同的成本投入與生產(chǎn)收益。不合理的維護停機不僅會降低機器效率、增加維護成本,還會造成其他機器的非故障停機。非故障停機還會沿著上游和下游兩個方向進行傳播,造成生產(chǎn)線其他機器的阻塞或者饑餓,進而影響生產(chǎn)系統(tǒng)的整體性能。因此,需要對機器維護停機時機進行決策。
現(xiàn)有研究維護決策直接聚焦于產(chǎn)生故障的機器,并對其進行單機維護決策,旨在提高該故障機器的獨立運行效率。對于流水線等多機系統(tǒng),若采用單機情形下獨立優(yōu)化思路進行決策,只能提高單個機器的獨立運行效率,不一定能提升系統(tǒng)的整體性能,致使維護投入未能發(fā)揮出更大的系統(tǒng)收益。因此,面向多機系統(tǒng)進行維護決策時,不能將維護決策看成單個機器獨立決策再進行迭代形成多機維護決策的問題,而應(yīng)該考慮單臺機器運行效率與系統(tǒng)整體性能之間的關(guān)系,并將產(chǎn)線作為一個系統(tǒng)進行整體決策。
本文針對考慮預(yù)測性維護的流水線,改變以提升機器獨立運行效率提升為導(dǎo)向的維護決策方式,探索以系統(tǒng)整體性能提升為目標(biāo)的維護決策方法。本文利用數(shù)字孿生環(huán)境下生產(chǎn)數(shù)據(jù)采集的實時性與便捷性,在全面掌握車間生產(chǎn)運行狀態(tài)、生產(chǎn)過程數(shù)據(jù)的基礎(chǔ)上,探究隨機擾動對生產(chǎn)系統(tǒng)動態(tài)運行過程的影響,挖掘系統(tǒng)中機器最佳維護停機時機,實現(xiàn)流水線預(yù)測性維護的合理決策,以期在降低維護成本的同時提高系統(tǒng)整體的運作效率。具體地,基于馬爾科夫鏈構(gòu)建流水線瞬態(tài)性能評估模型,揭示機器故障和預(yù)測性維護對生產(chǎn)過程影響的作用機理,量化系統(tǒng)瞬態(tài)產(chǎn)出和在制品水平等性能指標(biāo)。在此基礎(chǔ)上,基于馬爾科夫決策過程建立流水線預(yù)測性維護決策模型,并利用深度強化學(xué)習(xí)方法獲得有效的流水線預(yù)測性維護決策方案。本文研究流水線預(yù)測性維護決策問題,以期為智能制造環(huán)境下產(chǎn)線過程管控、性能提升與持續(xù)改進提供科學(xué)的理論依據(jù)、創(chuàng)新的研究方法和輔助的決策依據(jù)。
生產(chǎn)系統(tǒng)性能分析利用隨機過程等數(shù)學(xué)工具刻畫物料流與機器狀態(tài)和緩沖容量的交互關(guān)系,基于機器和緩沖區(qū)特征參數(shù)量化系統(tǒng)產(chǎn)出、在制品水平等性能指標(biāo),旨在探索生產(chǎn)系統(tǒng)運作的基本法則和運行規(guī)律[5-7]。GERSHWIN[8]提出一種基于馬爾科夫鏈的兩機器單緩沖流水線性能分析模型,在此基礎(chǔ)上提出一種用于求解多機器流水線的分解方法。LI等[9]對由伯努利機器和有限緩沖區(qū)組成的流水線進行了性能分析,提出了求解多機器流水線的聚合方法。ALTIOK等[10]利用馬爾科夫鏈對流水線進行了性能分析,進一步研究了流水線緩沖區(qū)能力分配問題。KANG等[11]利用馬爾科夫鏈模型對機器具有劣化現(xiàn)象的流水線進行了性能分析,在此基礎(chǔ)上研究了流水線瓶頸識別和持續(xù)改善問題。ZHANG等[12]針對由伯努利機器和有限緩沖區(qū)組成的流水線,基于馬爾科夫鏈提出一種瞬態(tài)性能分析方法。JIA等[13]針對由伯努利機器和有限緩沖區(qū)組成的裝配系統(tǒng),在系統(tǒng)投料有限的情況下研究了系統(tǒng)瞬態(tài)性能分析問題,并對系統(tǒng)單調(diào)性及可逆性等性質(zhì)進行了討論。JIA等[14]針對由伯努利機器和有限緩沖區(qū)組成的流水線,在系統(tǒng)投料有限的情況下研究了系統(tǒng)性能分析和持續(xù)改善問題,基于馬爾科夫鏈模型提出了系統(tǒng)瞬態(tài)性能分析和瓶頸識別方法。JIA等[15]針對由3臺幾何機器和有限緩沖組成的裝配系統(tǒng),分別提出了系統(tǒng)投料有限和投料無限兩種情況下的瞬態(tài)性能分析方法,進一步將該方法擴展到多機器裝配系統(tǒng)。
維護決策直接影響設(shè)備乃至生產(chǎn)系統(tǒng)的運作效率,不合理的維護決策不僅會影響機器自身的產(chǎn)出,還會引起其他機器的饑餓或阻塞導(dǎo)致系統(tǒng)產(chǎn)能的浪費。因此,生產(chǎn)系統(tǒng)維修決策問題受到學(xué)者的廣泛關(guān)注。然而,現(xiàn)有研究多集中在單機維護決策層面。例如,IRAVANI等[16]針對考慮機器能力退化的單機生產(chǎn)-庫存系統(tǒng),基于馬爾科夫決策過程建立了預(yù)測性維修決策模型,并利用雙閾值策略近似最優(yōu)預(yù)測性維修決策。RAUSCH等[17]針對考慮備件庫存的單機情形,以最小化系統(tǒng)運行成本研究了備件庫存控制問題。BOUSLAH等[18]針對考慮機器可靠性和產(chǎn)品質(zhì)量惡化的單機情形,以生產(chǎn)批量、庫存閾值、抽樣計劃參數(shù)和維修閾值等參數(shù)作為決策變量,以產(chǎn)品質(zhì)量滿足出廠質(zhì)量限制為約束,研究了定期維護決策問題。ZHANG等[19]針對考慮組件間經(jīng)濟依賴性的多組件單機情形,以最小化系統(tǒng)運行成本為目標(biāo),利用強化學(xué)習(xí)方法求得了系統(tǒng)柔性維護決策方案。YOUSEFI等[20]針對考慮各組件獨立惡化效應(yīng)的多組件單機情形,將維護決策問題構(gòu)建為馬爾科夫決策過程,利用強化學(xué)習(xí)方法求得了動態(tài)維護決策方案。PARASCHOS等[21]針對考慮產(chǎn)品質(zhì)量隨機器運行狀態(tài)惡化的單機生產(chǎn)—庫存系統(tǒng),提出了生產(chǎn)、預(yù)測性維護和質(zhì)量集成控制策略,以最大化系統(tǒng)收益為目標(biāo),利用強化學(xué)習(xí)方法對集成控制策略相應(yīng)參數(shù)進行了優(yōu)化。
目前,多機維護決策研究相對較少。王瀟等[22]針對考慮產(chǎn)品質(zhì)量受機器運行狀態(tài)影響的兩機器單緩沖流水線,以最小化系統(tǒng)的運行成本為目標(biāo),提出一種分布式多Agent強化學(xué)習(xí)方法,求得維護資源有限條件下流水線預(yù)防維護策略。該研究假設(shè)流水線由兩臺機器組成,所提預(yù)防性維護決策方法難以直接擴展到多機器流水線。XIA等[23]針對考慮預(yù)測性維護的流水線,分別研究了單臺機器層面和流水線系統(tǒng)層面的預(yù)測性維護決策問題。該研究假設(shè)單臺機器的維護需要流水線中所有機器停機。CHANG等[24]針對考慮預(yù)防性維護的流水線,提出一種基于維修機會窗口的預(yù)防性維護決策方法。該方法利用機器故障停機產(chǎn)生的機會窗口對流水線中其他機器進行預(yù)防性維護,力求在滿足維修需求的同時減少對產(chǎn)出的不利影響。該研究假設(shè)流水線中當(dāng)機器故障發(fā)生時,故障的持續(xù)時長為已知信息。由以上分析可知,現(xiàn)有研究均基于特定的簡化性假設(shè),研究成果具有一定的局限性。
綜上所述,目前流水線維修決策相關(guān)研究主要集中在單機維護決策層面,較少涉及多機維護決策層面。另外,現(xiàn)有研究大多基于概率分布假設(shè)或仿真數(shù)據(jù),未有效利用智能制造環(huán)境下數(shù)據(jù)獲取的實時性與便捷性。本文以流水線實時運行狀態(tài)信息為驅(qū)動,以系統(tǒng)整體運行性能提升為目標(biāo),以系統(tǒng)性能量化評估為支撐,研究多機預(yù)測性維護決策方法。
本文研究對象為由L臺機器和L個緩沖區(qū)組成的流水線,如圖1所示。具體地Ml(1≤l≤L)表示第l臺機器,bl(1≤l 流水線中的機器為不可靠機器,具有若干個依次劣化的離散運行狀態(tài)。機器在不執(zhí)行維護活動的情況下,運行狀態(tài)會不斷劣化,最終到達(dá)故障狀態(tài)。當(dāng)機器發(fā)生故障前,執(zhí)行預(yù)測性維護使機器恢復(fù)到更健康的運行狀態(tài),阻止機器運行狀態(tài)的劣化。當(dāng)機器處于故障狀態(tài)時,需要執(zhí)行事后維修,使機器恢復(fù)到非故障狀態(tài)。 在流水線上實施預(yù)測性維護的過程中,機器維護時機合理與否直接關(guān)系到流水線的運行效率。若維護時機選擇得當(dāng),緩沖區(qū)足以應(yīng)對上下游機器生產(chǎn)需求,則機器的維護停機并不會對其他機器的產(chǎn)出造成影響。此時,修復(fù)該機器的運行狀態(tài),不僅使得機器的狀態(tài)恢復(fù)到更好的狀態(tài),還避免了對整個產(chǎn)線正常運行造成影響。若錯過了最佳維護時機,則機器狀態(tài)不斷劣化,機器產(chǎn)出不斷降低,進而影響整個產(chǎn)線的產(chǎn)出,不可避免地造成系統(tǒng)的產(chǎn)能損失。若再不進行機器運行狀態(tài)的修復(fù),則系統(tǒng)性能會再次惡化。此時機器維護是迫不得已進行機器運行狀態(tài)的修復(fù),需要以犧牲系統(tǒng)整體運行效能為代價。因此,需要立足產(chǎn)線實際情況,研判維護活動對產(chǎn)線的影響,優(yōu)化維護活動的介入時機。 機器的不可靠性、運行狀態(tài)的劣化性使得系統(tǒng)具有隨機性,緩沖區(qū)的有限容量使得系統(tǒng)中各機器之間具有相依性,這些因素相耦合使得生產(chǎn)系統(tǒng)各組成部分之間的擾動影響傳播演化為非線性關(guān)系,生產(chǎn)系統(tǒng)表現(xiàn)為典型的復(fù)雜動態(tài)系統(tǒng)。本文以多機流水線為研究對象,考慮機器運行狀態(tài)的劣化特征,分析不同機器、不同劣化狀態(tài)下,不同的維護成本及系統(tǒng)收益情況,剖析流水線維護決策的介入時機,研究流水線預(yù)測性維護決策問題,以在降低維護成本的同時提高系統(tǒng)的運作效率。 本文涉及的相關(guān)假設(shè)如下: (1)緩沖區(qū)bl(1≤l≤L)的緩沖容量為Bl。bl(t)表示t時刻緩沖區(qū)bl中的在制品數(shù)量。 (2)所有機器的加工周期是相同且固定的,加工周期將時間軸依單位時間進行分段。 (3)機器Ml(1≤l≤L)具有Nl+1個依次劣化的離散運行狀態(tài)αl,αl∈{0,1,…,Nl}。αl(t)表示機器Ml在t時刻所處的運行狀態(tài)。αl(t)=0表示機器Ml在t時刻處于健康狀態(tài),αl(t)=Nl表示機器Ml在t時刻處于故障狀態(tài)。當(dāng)機器Ml處于狀態(tài)αl(t)時,其加工能力為vl(αl(t))。在每個加工周期內(nèi),機器Ml的加工能力vl(αl(t))是指當(dāng)機器處于狀態(tài)αl(t)時,可以加工完成的最大工件數(shù)量。具體地,當(dāng)緩沖區(qū)bl-1中剩余工件數(shù)量和緩沖區(qū)bl中剩余空間均大于vl(αl(t))時,機器Ml可以加工vl(αl(t))個工件。 (4)機器Ml(1≤l≤L)在不執(zhí)行維護活動的情況下運行狀態(tài)αl會不斷劣化,最終到達(dá)故障狀態(tài)。θi,j(i≠Nl)表示在不執(zhí)行維護活動的情況下機器Ml從狀態(tài)αl=i轉(zhuǎn)移到狀態(tài)αl=j的概率。 (8)pl(αl(t-1),αl(t),cl(t-1))表示在維護決策cl(t-1)的情況下機器Ml從狀態(tài)αl(t-1)轉(zhuǎn)移到狀態(tài)αl(t)的概率,具體表達(dá)式為: pl(αl(t-1),αl(t),cl(t-1))= (9)市場需求具有NL+1+1個離散狀態(tài)αL+1,αL+1∈{0,1,…,NL+1}。αL+1(t)表示在t時刻市場需求所處的狀態(tài)。vL+1(αL+1(t))表示t時刻市場需求的取值大小。pL+1(i,j)表示市場需求從狀態(tài)αL+1=i轉(zhuǎn)移到狀態(tài)αL+1=j的概率。 (10)THl(t)(1≤l≤L)表示在t時刻機器Ml的產(chǎn)出。 (11)gl(cl(t))表示機器Ml(1≤l≤L)在t時刻的維護成本。具體地,gl(cl(t)=0)=0且gl(cl(t)=-1)>gl(cl(t)=1)>0。 本文使用的參數(shù)符號說明如表1所示。 表1 參數(shù)符號說明 續(xù)表1αl,1≤l≤L+1機器和市場需求的狀態(tài)。具體地,αl(t),1≤l≤L表示t時刻機器Ml的運行狀態(tài),αL+1(t)表示t時刻市場需求的狀態(tài)。M→(t)M→(t)=[α1(t),…,αL+1(t)]表示t時刻所有機器和市場需求的狀態(tài)s→流水線的運行狀態(tài),s→(t)表示t時刻流水線的運行狀態(tài)cl(t),1≤l≤L機器Ml在t時刻的維護決策c→所有機器的維護決策,c→(t)表示在t時刻所有機器的維護決策r(s→(t),c→(t))當(dāng)流水線處于s→(t)時,執(zhí)行維護決策c→(t)的成本θ→神經(jīng)網(wǎng)絡(luò)各層的權(quán)重參數(shù)π流水線維護策略Vπ(s→)流水線在策略π和狀態(tài)s下的狀態(tài)價值函數(shù),即在策略π下,從狀態(tài)s→開始運行得到的累積折扣收益的期望值Qπ(s→,c→)流水線在策略π和狀態(tài)s→下的動作狀態(tài)價值函數(shù),即在策略π下,處于狀態(tài)s→時執(zhí)行決策c→的最大化狀態(tài)價值函數(shù)Qπ(s→,c→,θ→)動作狀態(tài)價值函數(shù)的神經(jīng)網(wǎng)絡(luò)近似函數(shù)L(θ→)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程近似值和真實值的均方差 本文以考慮預(yù)測性維護的流水線為研究對象,改變以提升機器獨立運行效率為導(dǎo)向的維護決策方式,探索以提升系統(tǒng)整體運行性能為目標(biāo)的維護決策方法,充分挖掘機器的維護停機時機,在降低維護成本的同時提高系統(tǒng)整體運作效率。在流水線運行過程中,鑒于機器運行狀態(tài)的變化性、維護成效的不確定性,系統(tǒng)性能隨著時間變化呈現(xiàn)出動態(tài)變化的特征。因此,流水線預(yù)測性維護決策不是一次性決策問題,需要在每一時刻根據(jù)流水線當(dāng)前系統(tǒng)狀態(tài)、維護活動成本以及系統(tǒng)瞬態(tài)性能等情況,對每臺機器是否進行維護活動進行序列決策。 為了解決上述流水線預(yù)測性維護決策問題,在預(yù)測性維護決策模型構(gòu)建方面,本文基于馬爾科夫鏈構(gòu)建了流水線瞬態(tài)性能評估模型,量化了系統(tǒng)瞬態(tài)產(chǎn)出和在制品水平等性能指標(biāo)。在此基礎(chǔ)上,考慮系統(tǒng)實時產(chǎn)出、在制品水平及預(yù)測性維護成本等因素構(gòu)造了收益函數(shù)。剖析流水線預(yù)測性維護決策問題呈現(xiàn)的序列決策特點,本文將流水線預(yù)測性維護決策問題構(gòu)建為馬爾科夫決策過程。馬爾科夫決策過程的輸入為系統(tǒng)狀態(tài)集合、維護決策集合、與狀態(tài)和決策相關(guān)的收益函數(shù)、與維護決策相關(guān)的狀態(tài)轉(zhuǎn)移概率集合,輸出為預(yù)測性維護策略,即流水線處于某個系統(tǒng)狀態(tài)時作出維護決策所遵循的規(guī)則。 在馬爾科夫決策過程求解方面,利用深度強化學(xué)習(xí)算法進行求解,獲得有效的流水線預(yù)測性維護決策方案。深度強化學(xué)習(xí)算法的核心是利用樣本數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,使其能夠指導(dǎo)流水線的實時維護決策。針對訓(xùn)練數(shù)據(jù),本文利用馬爾科夫鏈模型,建立流水線瞬態(tài)性能評估模型,模擬流水線的實時運行過程,產(chǎn)生神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需數(shù)據(jù)。針對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,本文采用神經(jīng)網(wǎng)絡(luò)與瞬態(tài)性能評估模型交互的方式,利用小批量隨機梯度下降的方法對每層網(wǎng)絡(luò)的權(quán)重參數(shù)進行迭代更新。最終,通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)獲得預(yù)測性維護策略,通過在流水線上應(yīng)用預(yù)測性維護策略獲得有效的預(yù)測性維護決策方案。流水線預(yù)測性維護決策問題具體研究方案如圖2所示。 (1) (2) 算法1流水線狀態(tài)轉(zhuǎn)移概率求解算法。 2. 對于t+1時刻所有可能到達(dá)的機器狀態(tài)組合: 5. 結(jié)束 本節(jié)基于流水線系統(tǒng)狀態(tài)轉(zhuǎn)移過程對瞬態(tài)性能指標(biāo)進行分析,所涉及的性能指標(biāo)主要包括: (1)產(chǎn)出(TH)t時刻,機器Ml(1≤l≤L)加工完成的工件數(shù)量為機器Ml在t時刻的產(chǎn)出THl(t)。流水線在t時刻的產(chǎn)出為最后一臺機器ML的產(chǎn)出THL(t)。 首先,對流水線的產(chǎn)出進行分析。對于機器M1而言,t時刻的產(chǎn)出TH1(t)通過比較機器M1處于狀態(tài)α1(t)時的加工能力v1(α1(t))和下游緩沖區(qū)b1中剩余存儲空間B1-b1(t-1)+TH2(t)的大小來確定,具體表示如下: TH1(t)=min{v1(α1(t)),B1-b1(t-1)+TH2(t)}。 對于機器ML而言,t時刻的產(chǎn)出THL(t)通過比較機器ML處于狀態(tài)αL(t)時的加工能力vL(αL(t))和下游緩沖區(qū)bL中剩余存儲空間BL-bL(t-1)+min{vL+1(αL+1(t)),bL(t-1)}和上游緩沖區(qū)bL-1中在制品數(shù)量bL-1(t-1)的大小來確定,具體表示如下: THL(t)=min{vL(αL(t)),bL-1(t-1),BL-bL(t-1)+min{vL+1(αL+1(t)),bL(t-1)}}。 對于其他機器Ml(1 THl(t)=min{vl(αl(t)),bl-1(t-1),Bl-bl(t-1)+THl+1(t)},1 因此,流水線中各個機器在t時刻的產(chǎn)出THl(t)表達(dá)式如下: 進一步,對流水線的在制品水平進行分析。對于緩沖區(qū)bL而言,t時刻的在制品數(shù)量bL(t)通過機器Ml的產(chǎn)出THl(t)、市場需求vL+1(αL+1(t))和緩沖區(qū)bL的在制品數(shù)量bL(t-1)的關(guān)系進行描述,具體表示如下: bL(t)=bL(t-1)+THL(t)-min{vL+1(αL+1(t)),bL(t-1)}。 對于其他緩沖區(qū)bl(1≤l bl(t)=bl(t-1)+THl(t)-THl+1(t)。 因此,流水線中各個緩沖區(qū)在t時刻的在制品數(shù)量bl(t)表達(dá)式如下: (3) 在流水線運行過程中,每一時刻的系統(tǒng)狀態(tài)與所有機器采取的維護決策共同決定了下一時刻的系統(tǒng)狀態(tài)。根據(jù)當(dāng)前狀態(tài),系統(tǒng)決策機器是否進行維護活動。當(dāng)機器維護決策執(zhí)行之后,機器狀態(tài)會按照一定概率分布到達(dá)新的狀態(tài)。在下一時刻,系統(tǒng)同樣面臨著是否對機器進行維護活動的決策問題。系統(tǒng)下一時刻的狀態(tài)只依賴于當(dāng)前系統(tǒng)狀態(tài)和所選擇的維護決策,與過去的系統(tǒng)狀態(tài)與維護決策無關(guān)。根據(jù)以上分析,該循環(huán)進行的維護決策過程屬于典型的序列決策問題,且狀態(tài)轉(zhuǎn)移過程具有馬爾科夫性,因此滿足馬爾科夫決策過程所需的關(guān)鍵要素。 具體地,收益函數(shù)由在制品庫存成本、缺貨懲罰成本和維修成本組成: 馬爾科夫決策過程的輸出為最優(yōu)維護策略π*以及對應(yīng)的最小期望折扣成本。馬爾科夫決策過程求解的核心是貝爾曼最優(yōu)方程(Bellman optimality equation)的求解,貝爾曼最優(yōu)方程的具體表達(dá)式如下: 對于小規(guī)模馬爾科夫決策過程,傳統(tǒng)動態(tài)規(guī)劃方法通過遞歸迭代的方式得到最優(yōu)策略。然而,隨著流水線機器數(shù)量和緩沖區(qū)容量的增加,會引起系統(tǒng)狀態(tài)空間和動作空間的爆炸式增長,使得馬爾科夫決策過程的求解遇到“維數(shù)災(zāi)難”的問題,導(dǎo)致動態(tài)規(guī)劃求解困難[25-26]。近似動態(tài)規(guī)劃方法一般通過值函數(shù)近似的方式對大規(guī)模馬爾科夫決策過程進行求解,能夠有效地應(yīng)對“維數(shù)災(zāi)難”的問題。深度強化學(xué)習(xí)算法作為一種典型的近似動態(tài)規(guī)劃方法,在值函數(shù)的泛化逼近方面具有優(yōu)勢??紤]到所研究的流水線預(yù)測性維護決策問題屬于典型的大規(guī)模動態(tài)決策問題,求解過程中不可避免地遇到“維數(shù)災(zāi)難”的問題。因此,本文采用深度強化學(xué)習(xí)方法對所建立馬爾科夫決策過程進行求解,以獲得流水線的預(yù)測性維護策略。 深度強化學(xué)習(xí)是一種以通用的形式將深度學(xué)習(xí)的感知能力與強化學(xué)習(xí)的決策能力相結(jié)合的機器學(xué)習(xí)方法。本節(jié)采用深度強化學(xué)習(xí)中基于價值函數(shù)的深度Q網(wǎng)絡(luò)算法(deep Q-network algorithm)對預(yù)測性維護決策模型進行求解。 深度強化學(xué)習(xí)算法的核心是利用樣本數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,使其能夠指導(dǎo)流水線進行實時維護決策。針對訓(xùn)練數(shù)據(jù),因為缺乏實際數(shù)據(jù)支持,本文利用所建立的流水線瞬態(tài)性能評估模型,模擬流水線的實時運行過程,產(chǎn)生神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需的數(shù)據(jù)。具體地,通過模擬獲得當(dāng)前時刻流水線的系統(tǒng)狀態(tài)、維護決策及對應(yīng)的系統(tǒng)收益等數(shù)據(jù)。根據(jù)當(dāng)前時刻維護決策以及狀態(tài)轉(zhuǎn)移概率,得到下一時刻流水線的系統(tǒng)狀態(tài)。依次進行迭代,獲得每一時刻流水線的系統(tǒng)狀態(tài)、維護決策及系統(tǒng)收益等數(shù)據(jù),解決了神經(jīng)網(wǎng)絡(luò)訓(xùn)練遇到的數(shù)據(jù)匱乏問題。 為了提高訓(xùn)練過程的效率,利用經(jīng)驗回放和雙網(wǎng)絡(luò)結(jié)構(gòu)兩種機制提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程收斂效果和穩(wěn)定性。①經(jīng)驗回放,通過將樣本數(shù)據(jù)儲存在經(jīng)驗池,訓(xùn)練過程隨機從經(jīng)驗池抽取樣本來進行訓(xùn)練,以此來降低訓(xùn)練數(shù)據(jù)的相關(guān)性,使神經(jīng)網(wǎng)絡(luò)更容易收斂且具有更強的泛化能力;②雙網(wǎng)絡(luò)結(jié)構(gòu),通過構(gòu)建兩個相同且獨立的神經(jīng)網(wǎng)絡(luò),在訓(xùn)練過程中利用當(dāng)前網(wǎng)絡(luò)參數(shù)更新目標(biāo)網(wǎng)絡(luò)參數(shù),以此來降低迭代更新前后網(wǎng)絡(luò)參數(shù)之間的相關(guān)性,從而提升訓(xùn)練過程的穩(wěn)定性[27]。最終,通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)獲得預(yù)測性維護策略,通過將其應(yīng)用到流水線獲得預(yù)測性維護決策方案。深度Q網(wǎng)絡(luò)算法的具體實現(xiàn)步驟如算法2所示。 算法2深度Q網(wǎng)絡(luò)算法。 1. 輸入?yún)?shù):狀態(tài)空間S,動作空間C,折扣因子γ,經(jīng)驗回放批量ψ,學(xué)習(xí)率A,網(wǎng)絡(luò)更新步數(shù)a 3. 對于回合數(shù)episode=1:Θ 5. 對于時刻t=1:T 13. 結(jié)束 14. 結(jié)束 表2 機器加工能力參數(shù) 表3 緩沖區(qū)容量參數(shù) 表4 機器M1在不同維護決策下的狀態(tài)轉(zhuǎn)移概率 表5 機器M2在不同維護決策下的狀態(tài)轉(zhuǎn)移概率 表6 機器M3在不同維護決策下的狀態(tài)轉(zhuǎn)移概率 表7 機器M4在不同維護決策下的狀態(tài)轉(zhuǎn)移概率 表8 機器M5在不同維護決策下的狀態(tài)轉(zhuǎn)移概率 表9 市場需求的狀態(tài)轉(zhuǎn)移概率 表10 相關(guān)成本參數(shù) 實驗過程中,流水線運行采用三班輪休制,每一班組工作時間為8 h。生產(chǎn)過程的暖機時長為100 d,后續(xù)運行時長為1 000 d。首先,為了驗證預(yù)測性維護決策方法的有效性,本節(jié)將所提維護決策方法與3種現(xiàn)有維護決策方法進行比較。3種維護決策方法分別為事后維修方法、定期維護方法和基于狀態(tài)的維護決策方法: (1)事后維修方法 僅當(dāng)機器發(fā)生故障時,對機器執(zhí)行維修活動使其恢復(fù)到正常工作狀態(tài)。在本實驗中,當(dāng)機器處于故障狀態(tài)時,若執(zhí)行維修活動,該機器從故障狀態(tài)按照概率分布轉(zhuǎn)移到某個非故障運行狀態(tài)。 (2)定期維護方法 根據(jù)經(jīng)驗或設(shè)備維修手冊,確定合理的時間間隔對非故障機器進行維護。若機器發(fā)生故障,立即執(zhí)行維修活動。定期維護是一種基于時間的維修決策。具體地,利用仿真實驗以最小化系統(tǒng)運行成本為目標(biāo),對每臺機器的維護周期進行優(yōu)化。 (3)基于狀態(tài)的維護決策方法 根據(jù)狀態(tài)檢測技術(shù)判斷機器所處的狀態(tài),并根據(jù)機器的工作狀態(tài)確定是否對非故障機器進行維護。若機器發(fā)生故障,則執(zhí)行維修活動。同樣地,利用仿真實驗以最小化系統(tǒng)運行成本為目標(biāo),確定每臺機器實施維護活動的工作狀態(tài)。 所提預(yù)測性維護決策方法與以上3種維護決策方法的對比結(jié)果如表11所示。實驗結(jié)果表明,所提維護決策方法在維護成本、在制品庫存成本和缺貨成本等方面均優(yōu)于其他策略。具體地,與基于狀態(tài)的維護決策方法相比,所提維護決策方法的維護成本降低了6.61%,在制品庫存成本降低了3.54%,缺貨懲罰成本降低了1.73%;與定期維護方法相比,維護成本降低了9.32%,在制品庫存成本降低了13.36%,缺貨懲罰成本降低了2.65%;與事后維修方法相比,維護成本降低了10.52%,在制品庫存成本降低了13.93%,缺貨懲罰成本降低了3.21%。 表11 不同維護決策方法執(zhí)行效果對比 元/d 為了分析預(yù)測性維護決策方法的特點,隨機選擇時間長度為2 h的時間段,該時段內(nèi)流水線在制品水平、缺貨和典型機器M1、M3和M5的維護決策變化情況如圖4所示。 結(jié)果表明,所提預(yù)測性維護決策方法能夠有效地確定合理的維護時機,在降低流水線維護成本的同時提高系統(tǒng)運作效率。具體分析結(jié)果如下: (2)流水線傾向于當(dāng)在制品水平比較高時執(zhí)行預(yù)測性維護活動。當(dāng)在制品水平較低時,停機維護會導(dǎo)致較高的缺貨成本。當(dāng)在制品水平較高時,停機維護不僅可以在一定程度上降低機器故障的風(fēng)險,還有助于降低在制品庫存成本。 在智能制造環(huán)境下,數(shù)字孿生車間通過虛實映射、虛實交互為生產(chǎn)數(shù)據(jù)獲取提供了便利性,使得產(chǎn)線運行過程中生產(chǎn)狀態(tài)變化、擾動事件等信息收集成為可能。本文利用數(shù)字孿生車間環(huán)境下生產(chǎn)數(shù)據(jù)采集的實時性與便捷性,研究預(yù)測性維護決策方法,根據(jù)流水線運行狀態(tài)的實時變化情況,及時對預(yù)測性維護活動進行動態(tài)調(diào)優(yōu),為智能制造環(huán)境下產(chǎn)線過程管控、性能提升、持續(xù)改進提供了科學(xué)的理論基礎(chǔ)、創(chuàng)新的研究方法和輔助的決策依據(jù)。 本文以考慮機器劣化過程的多機流水線為研究對象,以生產(chǎn)系統(tǒng)運行的實時狀態(tài)信息為驅(qū)動,以系統(tǒng)整體性能提升為目標(biāo),以系統(tǒng)性能評估為支撐,考慮機器的不可靠性、運行狀態(tài)的劣化性以及緩沖區(qū)容量的有限性,分析產(chǎn)線運行過程中機器的維護時機,研究流水線預(yù)測性維護決策問題,旨在降低維護成本的同時提高系統(tǒng)整體的運作效率。 在預(yù)測性維護決策模型構(gòu)建方面,首先,分析了機器故障和維護活動對系統(tǒng)狀態(tài)轉(zhuǎn)移過程的影響,基于馬爾科夫鏈建立了流水線瞬態(tài)性能評估模型,量化了系統(tǒng)瞬態(tài)產(chǎn)出和在制品水平等性能指標(biāo)。在此基礎(chǔ)上,考慮系統(tǒng)實時產(chǎn)出、在制品水平及預(yù)測性維護成本等因素構(gòu)造了收益函數(shù),基于馬爾科夫決策過程建立了流水線預(yù)測性維護決策模型。 在流水線預(yù)測性維護決策問題求解方面,利用瞬態(tài)性能評估模型,模擬流水線的實時運行過程,產(chǎn)生神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需數(shù)據(jù),利用深度強化學(xué)習(xí)算法對問題進行了近似求解,獲得了有效的流水線預(yù)測性維護決策方案。通過與事后維修方法、定期維護方法和基于狀態(tài)的維護決策方法這3種維護方法進行比較,驗證了所提的維護決策方法的有效性。 本文探索以系統(tǒng)整體性能提升為目標(biāo)的維護決策方法,充分挖掘流水線運行過程中機器的維護停機時機,改變了以機器獨立運行效率提升為導(dǎo)向的維護決策方式,未來可以將研究對象拓展為裝配線、可重入生產(chǎn)線,研究生產(chǎn)線建模和預(yù)測性維護的決策問題。2.2 問題假設(shè)
2.3 研究方案
3 流水線瞬態(tài)性能評價方法
3.1 系統(tǒng)狀態(tài)轉(zhuǎn)移分析
3.2 系統(tǒng)瞬態(tài)性能指標(biāo)
4 預(yù)測性維護決策方法
4.1 維護決策模型
4.2 深度強化學(xué)習(xí)算法
5 實例分析
5.1 實驗設(shè)計
5.2 結(jié)果分析
6 結(jié)束語