亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合逆向強化學習與強化學習的晶圓批處理設備調(diào)度方法

        2023-12-04 11:19:20王卓君
        計算機集成制造系統(tǒng) 2023年11期
        關鍵詞:智能設備

        王卓君,張 朋,張 潔

        (1.東華大學 機械工程學院,上海 201620;2.東華大學 人工智能研究院,上海 201620)

        0 引言

        半導體制造業(yè)是關系國民經(jīng)濟和社會發(fā)展的基礎性、先導性和戰(zhàn)略性產(chǎn)業(yè)[1],其中半導體晶圓制造系統(tǒng)是當今世界最為復雜的制造系統(tǒng)[2]。批處理機是半導體主要的加工設備之一,是影響半導體制造的瓶頸環(huán)節(jié),對系統(tǒng)性能具有重要影響[3],因此對半導體批處理設備進行合理調(diào)度可以有效改善系統(tǒng)性能,緩解系統(tǒng)瓶頸壓力[4]。

        在晶圓制造系統(tǒng)中,晶圓批處理區(qū)域由若干能進行批加工的并行設備組成,主要完成晶圓制造中的氧化沉積工藝。當晶圓lot(批號,晶圓以25Pcs為單位裝在一個晶盒里,這25片晶元組成的批就是Lot,會用一個唯一ID標識)到達批處理區(qū)域時,須為其分配當前層工藝類型相同的加工批次,并將組好的批次分配到批處理設備進行加工[5]。具體來說,批處理調(diào)度需要考慮:①設備加工約束,批處理設備具有容量限制和不兼容工藝類型,且設備在切換工藝類型批次時存在差異生產(chǎn)準備時間;②晶圓lot動態(tài)到達,且逐層加工,因而當前層加工結(jié)束還需重入進行下一層加工;③任務和設備實時變化,需實時針對環(huán)境進行響應,對算法的實時性要求較高[6]。以上這些特點極大增加了晶圓批處理調(diào)度的難度。

        近年來,已有眾多學者針對半導體批處理設備調(diào)度展開研究。JUNG等[7]針對晶圓批處理調(diào)度問題的動態(tài)性和復雜性,結(jié)合調(diào)度器計算的有限性,提出了一種基于滾動周期的混合整數(shù)線性規(guī)劃模型,該方法缺乏對晶圓重入性、設備加工約束的考慮,且滾動周期的方法缺乏自適應性,無法及時響應晶圓批處理環(huán)境的動態(tài)特性;WANG等[8]針對晶圓批處理調(diào)度問題,在動態(tài)規(guī)劃的基礎上減少求解空間,提高了調(diào)度效率;該方法對晶圓批處理設備約束問題有較全面的考慮,但在環(huán)境的動態(tài)性和晶圓的重入性方面考慮欠佳,雖然能夠針對小規(guī)模問題獲得較優(yōu)解,但當問題規(guī)模增大時,求解性能不佳。LU等[9]針對晶圓批處理調(diào)度問題的訂單差異性問題,提出基于到期時間約束使單位時間等待成本目標值最小的加權成本率啟發(fā)式動態(tài)算法,該算法重點對任務特性進行了分析,但在設備特性和環(huán)境整體動態(tài)性方面考慮不足,以犧牲一部分解的特性為代價,與生產(chǎn)實際存在一定偏差。鄧可等[10]針對具有可重入特性的晶圓生產(chǎn)調(diào)度問題,引入專家系統(tǒng)推理賦予蟻群算法按規(guī)則進行推理的能力,雖然針對可重入等特點的復雜約束性進行一定程度的改進,但調(diào)度規(guī)則適用范圍有限,不足以應對復雜的批處理調(diào)度環(huán)境;孫承夏[11]針對于具有重入式特點的半導體制造業(yè)中晶圓生產(chǎn)調(diào)度問題,提出了一個基于遺傳進化思想的重入式混合進化算法,對晶圓重入有效地進行重排序,對突發(fā)情況有較好的適應性,但實際晶圓批處理生產(chǎn)調(diào)度環(huán)境為實時動態(tài)變化,所提出方法無法滿足自適應的要求。

        以上學者所提出的方法能適應不同環(huán)境的不同問題,但存在無法在線更新、解空間較大、搜索時間較長、犧牲一部分解的性能等問題,以Q-learning、Actor-Critic為代表的強化學習算法能與動態(tài)環(huán)境實時交互、在線更新,并且通過設置獎勵函數(shù)對智能體行為進行反饋,在調(diào)度等領域的應用十分廣泛,目前已有很多學者通過深度強化學習算法解決工業(yè)實際生產(chǎn)中的調(diào)度問題。LEE 等[12]針對半導體制造系統(tǒng)的重入性導致的生產(chǎn)交貨時間較長等調(diào)度問題,通過深度強化學習處理生產(chǎn)計劃內(nèi)作業(yè)排產(chǎn)調(diào)度,通過訓練對應晶圓層數(shù)和設備數(shù)量的模型,使得調(diào)度決策在生產(chǎn)計劃的基礎上盡可能優(yōu)化,提高生產(chǎn)力,但實際生產(chǎn)過程中不同的晶圓類型對應不同的層數(shù),適應性有待進一步提升;WANG等[13]針對半導體晶圓制造系統(tǒng)的約束條件復雜、系統(tǒng)環(huán)境動態(tài)的調(diào)度問題,提出了一種模糊分層強化學習方法,該方法的理論十分完備,但在實際生產(chǎn)過程中執(zhí)行還需要對具體環(huán)節(jié)進行設計應用;TANG等[14]針對可重構制造系統(tǒng)(Reconfigurable Manufacturing Sustem,RMS)策略調(diào)度問題,提出一個內(nèi)置的離散事件仿真模型的通用RMS的深度強化學習進行自主決策,該方法的適用范圍廣,但針對晶圓批處理特定環(huán)境的調(diào)度性能不佳;賀俊杰等[15]提出了基于多智能體循環(huán)近端策略優(yōu)化強化學習的完全反應式調(diào)度方法,通過引入長短記憶神經(jīng)網(wǎng)絡進行決策智能體間策略協(xié)同優(yōu)化,但對實時調(diào)度環(huán)境內(nèi)部復雜機理的挖掘不足;CHIEN等[16]針對產(chǎn)品組合的增加和產(chǎn)品生命周期的縮短的半導體制造動態(tài)調(diào)度問題,提出一種融合深度強化學習與混合遺傳算法,基于智能體的方法解決設置時間與序列相關的不相關并行機器調(diào)度問題,該方法雖然加快了算法收斂速度,但是不能確定強化學習收斂獲得的策略為最優(yōu)策略。以上學者采用的強化學習方法解決工業(yè)生產(chǎn)調(diào)度問題,雖然能與動態(tài)環(huán)境實時交互,在線更新,但存在算法的收斂速度較慢、容易陷入局部最優(yōu)、獎勵函數(shù)設定存在人為局限性等特點,因此有些學者嘗試通過逆向強化學習指導強化學習獎勵函數(shù)設計的方法。

        目前,已有學者研究在強化學習的基礎上引入逆向強化學習的方法,通過挖掘調(diào)度環(huán)境內(nèi)部復雜關聯(lián)關系,進一步優(yōu)化調(diào)度,指導生產(chǎn)調(diào)度實際問題。李耀宇等[17]引入基于逆向?qū)W習的強化學習方法,通過學習專家演示行為,生成艦載機甲板調(diào)度方案。張艷偉等[18]針對集裝箱碼頭裝船時堆場翻箱問題,通過逆向強化學習算法挖掘隱含專家經(jīng)驗,使收斂至最小翻箱次數(shù)的概率更高。柳凱[19]針對強化學習算法應用于自主駕駛獎勵函數(shù)難以確定的問題,利用最大熵逆向強化學習算法和特征基函數(shù)線性組合方法獲得最優(yōu)獎勵函數(shù)。譚傳芳[20]通過逆向強化學習的方法針對半馬爾可夫環(huán)境下的無人車仿真平臺進行策略決策,擴大了逆向強化學習相關理論及算法的適用范圍。以上學者針對具體工程問題,通過引入逆向強化學習挖掘調(diào)度環(huán)境內(nèi)部機理,并指導獎勵函數(shù)的設計,在強化學習智能體實時響應動態(tài)環(huán)境的基礎上,加快算法收斂速度。

        因此,本文針對晶圓制造批處理調(diào)度問題,分析了該類生產(chǎn)調(diào)度問題的約束條件,同時考慮任務動態(tài)到達、復雜重入性與設備不兼容工藝類型、差異生產(chǎn)準備時間等特點,提出了結(jié)合逆向強化學習與強化學習(combine Inverse Reinforcement Learning and Reinforcement Learning,IRL-RL)的晶圓批處理設備調(diào)度優(yōu)化方法。根據(jù)晶圓批處理加工特性,將問題分解為組批和批次指派兩個子問題,針對智能體決策嚴重依賴獎勵函數(shù)且獎勵函數(shù)又存在人為設定的局限性和反饋智能體遲滯的問題,引入逆向強化學習指導獎勵函數(shù)的設計;針對晶圓lot的重入加工特性,設計期望流動時間與剩余等待時間關鍵狀態(tài)變量;針對批處理設備工藝類型的不兼容性,批次指派智能體兼容考慮任務的緊急程度與工藝類型切換帶來的差異生產(chǎn)準備時間進行綜合決策;針對晶圓lot剩余加工層數(shù)與期望流動時間之間的復雜流變關系,設計獎勵函數(shù)關鍵參數(shù)的非線性特征,以文獻[21]的近優(yōu)策略為指導,引入逆向強化學習指導批次指派獎勵函數(shù)的設計,設計獎勵函數(shù)關鍵參數(shù)的非線性特征。

        本文所提出的方法相較于動態(tài)規(guī)劃等方法,能夠針對大規(guī)模、問題復雜程度高的晶圓批處理調(diào)度問題,盡可能還原真實生產(chǎn)調(diào)度環(huán)境,獲得性能更優(yōu)的調(diào)度策略;該方法相較于遺傳算法等進化算法,能夠做到針對任務動態(tài)到達、設備狀態(tài)不斷變化的實時調(diào)度環(huán)境進行及時響應,實時性較高;此外,本方法通過與深度強化學習等方法進行比較,雖然兩種方法均能針對環(huán)境變化做出實時響應,但是針對晶圓批處理調(diào)度問題環(huán)境約束條件復雜、內(nèi)部機理不明等問題,本方法在強化學習的基礎上引入了逆向強化學習作為指導,通過優(yōu)化獎勵函數(shù)進一步指導組批、批次指派智能體進行策略決策,在對晶圓批處理調(diào)度優(yōu)化機理挖掘的基礎上,結(jié)合數(shù)據(jù)模型進一步進行策略優(yōu)化。

        1 晶圓批處理組批和批次指派調(diào)度模型構建

        1.1 問題描述

        晶圓批處理調(diào)度問題是典型的NP-hard問題,可以描述為某一時間到達的N個晶圓lot通過組批,進入到相應類型的批次槽中,批次槽的數(shù)量固定,根據(jù)實際調(diào)度過程進行賦值。批次槽內(nèi)的晶圓lot的工藝類型由第一個進入槽的晶圓lot待加工工藝類型決定,當設備空閑時相應的批次槽通過批次指派,進入批處理設備進行加工。晶圓lot逐層進行加工,每次只能針對當前到達層進行加工,加工結(jié)束后,晶圓重入進行晶圓下一層的加工,直到加工到晶圓lot的最后一層。批處理設備為不兼容工藝類型且有最大容量限制,批次槽內(nèi)的晶圓lot達到設備的最大容量后,不能再容納多余的晶圓lot。批處理設備為兩臺或兩臺以上的等效并行機,設備非搶占式加工,即當設備開始加工后,無法進行中斷操作;設備每次只能對一種工藝類型的晶圓批進行加工,在機臺上進行加工的工藝類型切換時,存在由工藝類型所決定的物理條件差異帶來的差異生產(chǎn)準備時間。根據(jù)以上描述,總結(jié)出的帶有重入性的晶圓批處理調(diào)度問題如圖1所示。

        基于以上問題描述,可將本文的問題模型按照調(diào)度三元組α|β|γ歸納如下:

        Pm|Batch,rj,Pj,on-line,incompatible,reentrant,PM|MPC。

        其中:Pm代表并行機機組,Batch代表設備為批處理設備,rj為任務到達時間限制,Pj為對任務加工時間限制;on-line表示該調(diào)度問題為在線調(diào)度,即隨著任務的動態(tài)到達,環(huán)境要不斷變化;incompatible表示任務不兼容工藝類型特點,即到達的晶圓層類型相同時才可以一起組批;reentrant表示晶圓具有可重入性,即晶圓逐層加工,當前層加工完成后,晶圓重入進行下一層加工,直到加工完最后一層;MPC表示研究目標為最小化最大設備完工時間。

        1.2 符號定義及模型假設

        基于上述問題描述,建立數(shù)學模型如下:

        (1)模型假設

        晶圓lot的待加工層的類型、針對不同類型的晶圓lot層加工時間已知,任務按照實際情況動態(tài)到達;不考慮設備發(fā)生故障和因維修導致的延遲問題;各機臺組之間的緩沖區(qū)無限容量;批處理設備為等效并行機;一個晶圓lot任意時刻至多只能在一臺設備上加工;設備具有加工容量限制,批處理設備前后加工不同工藝類型存在差異生產(chǎn)準備時間。

        (2)狀態(tài)變量

        M為機臺總數(shù),機臺索引m∈M;t為當前生產(chǎn)調(diào)度時間;n為任務總數(shù),任務索引i=1,2,...,n;w為任務當前加工層數(shù);k為工序索引;B為設備加工的最大容量;R為工藝類型總數(shù),工藝類型索引r=1,2,…,R;m為可加工設備編號;f為批次索引,f∈F,F為批次集合。RTiw為工件i第w層的到達時間;WTiw為工件i第w層的等待時間;Piw為工件i第w層的加工時間,其中Pi0工件i初始到達時間由環(huán)境決定;TPR設備加工的差異生產(chǎn)準備時間;Li為工件i所需加工的層數(shù);PFi為工件i的期望流動時間;Ciw為工件i的第w層的完工時間;HTiw為工件i的第w層的后續(xù)加工時間,

        (3)決策變量

        加工機臺決策變量Yiwm為工件i的第w層的開始時間,該操作在機器m上加工。設備前后加工工藝類型決策Xr,r′:設備當前加工工藝類型r′,前一加工工藝類型r′

        1.3 模型構建

        (1)目標函數(shù):

        minE(PC)={E(PC1),

        E(PC2),...,E(PCm)}。

        (1)

        (2)約束條件:

        (2)

        (3)

        Pk=Piw;

        (4)

        Ciw=RTiw+WTiw+Piw+Xr,r'·TPR+HTiw;

        (5)

        Ri,w+1?Ciw;

        (6)

        E(PCm,1)=Tm1+TPR;

        (7)

        E(PCmk)=E(PCm,k-1)+Tmk+Xr,r′·TPR;

        (8)

        Tmk=Pk;

        (9)

        (10)

        在上述晶圓批處理調(diào)度問題數(shù)學模型中,式(1)表示目標為最小化批處理設備最大完工時間;式(2)表示工件i第w層加工機臺的唯一性;式(3)表示設備加工的最大容量限制;式(4)表示k批次的加工時間為工件i的第w層的加工時間:式(5)表示第i個任務第w層的完工時間由到達時間、等待時間、加工時間和后續(xù)加工時間和組成;式(6)表示工件i的第w+1層的到達時間大于前一層的完工時間;式(7)表示設備m加工第一批次的完工時間,由設備加工時間、生產(chǎn)準備時間組成;式(8)表示為設備m加工第k批次的完工時間;式(9)表示設備m加工第k批次的加工時間,由當前批次的加工時間決定。同一工件只有在上一道工序加工完成后,后一道工序才能開始加工。公式(10)為任務i第w層的期望流動時間,為當前生產(chǎn)調(diào)度時間減去任務i初始到達時間,加未加工層的加工時間和后續(xù)加工時間。

        2 基于IRL-RL的晶圓批處理設備調(diào)度方法

        針對晶圓批處理設備調(diào)度問題、最小化晶圓生產(chǎn)周期的調(diào)度目標和調(diào)度對實時性的要求,本文提出IRL-RL的晶圓批處理設備調(diào)度方法。該方法針對晶圓組批和批次指派調(diào)度環(huán)節(jié),設計組批和批次指派強化學習智能體與環(huán)境進行交互。在狀態(tài)空間設計方面,設計期望流動時間與等待時間等關鍵狀態(tài)變量。在獎勵網(wǎng)絡設計與逆向強化學習指導更新方面,在近優(yōu)策略指導下,設計晶圓lot剩余加工層數(shù)與剩余加工時間之間的復雜流變關系。調(diào)度環(huán)境與算法交互流程如圖2所示。

        根據(jù)晶圓批處理設備調(diào)度環(huán)境與算法交互流程,本章主要從晶圓批處理設備調(diào)度狀態(tài)空間、晶圓批處理設備調(diào)度動作空間、結(jié)合逆向強化學習與強化學習獎勵網(wǎng)絡設計,以及IRL-RL模型更新幾個方面來進行重點介紹。

        2.1 晶圓批處理設備調(diào)度狀態(tài)空間

        組批智能體根據(jù)任務和批次的屬性狀態(tài)確定任務進入的批次號,批次指派智能體根據(jù)批次和設備的屬性狀態(tài)確定空閑設備需要加工的批次號。兩個智能體執(zhí)行的任務不同,所需要觀測的信息不相同。因此組批智能體需要的狀態(tài)觀測為待組批任務的屬性狀態(tài)f1和批次的屬性狀態(tài)f2,批次指派智能體需要的狀態(tài)觀測為批次的屬性狀態(tài)f2和設備的屬性狀態(tài)f3。

        組批智能體局部觀測的狀態(tài)矩陣為:

        SB=[f1,f2]。

        (11)

        批次指派智能體局部觀測的狀態(tài)矩陣為:

        SS=[f2,f3]。

        (12)

        組批智能體和批次指派智能體通過狀態(tài)信息的變化感知車間環(huán)境的動態(tài)變化,根據(jù)輸入的車間狀態(tài)信息輸出調(diào)度決策。根據(jù)車間調(diào)度約束與優(yōu)化目標相關的狀態(tài)特征設計狀態(tài)矩陣Flot。晶圓批處理調(diào)度主要包括任務、批和設備3個對象,因此用Flot=[f1,f2,f3]對環(huán)境狀態(tài)進行描述,其中f1=[f1,1,...,f1,n]為待組批任務的狀態(tài),而f1,i=[f1,i,1,...,f1,i,4]表示任務i的特征向量;f2=[f2,1,...,f2,k]為批狀態(tài),其中f2,k=[f2,k,1,...,f2,k,3]表示批次b的特征向量,而f3=[f3,1,...,f3,m]為設備狀態(tài),其中f3,m=[f3,m,1,...,f3,m,4]表示設備k的特征向量。待組批任務、批和設備3種特征向量中的參數(shù)含義及表達式分別見表1。

        表1 晶圓制造批處理狀態(tài)參數(shù)表

        上述狀態(tài)參數(shù)中首次出現(xiàn)的任務參數(shù):wi為工件i的加工權重;批參數(shù):Nk批次b中工件的數(shù)量,tk批次k加工的工藝類型。

        針對晶圓批處理調(diào)度特有的重入加工特性,任務狀態(tài)參數(shù)中的待加工層數(shù)、期望流動時間、剩余等待時間作為影響最小化生產(chǎn)周期的關鍵特征參數(shù)。通過對關鍵參數(shù)的觀測、分析,與批次指派智能體交互反饋,盡可能優(yōu)化最小化最大設備加工時間調(diào)度目標。

        2.2 晶圓批處理設備調(diào)度動作空間

        組批智能體根據(jù)相應的狀態(tài)屬性輸出分配給待組批任務的批次編號,批次指派智能體根據(jù)對應的狀態(tài)屬性輸出空閑設備下一加工的批次編號,晶圓批處理調(diào)度動作空間是組批智能體和批次指派智能體在對應的狀態(tài)下可執(zhí)行的調(diào)度決策集合。

        組批調(diào)度決策空間:根據(jù)晶圓制造批處理設備不兼容工藝類型的特點,每種工藝類型設定數(shù)量為q的組批緩沖區(qū),組批調(diào)度決策將當前待組批任務加入某個組批緩沖區(qū)或暫緩組批,組批調(diào)度決策空間定義為:

        調(diào)度決策1:選擇第k個組批緩沖區(qū)

        a=k,0≤k

        (13)

        調(diào)度決策2:等待

        a=q。

        (14)

        進行組批調(diào)度決策時選擇一個組批緩沖區(qū)則將當前待組批任務加入該組批緩沖區(qū),選擇等待則該任務暫緩組批。若組批智能體將任務加入的批超出批最大容量則組批失敗,結(jié)果等同于調(diào)度決策2。

        批次指派決策空間:批次指派調(diào)度決策在組批緩沖區(qū)中選擇所有工藝類型的組批緩沖區(qū),并匹配到空閑設備進行加工,是組批決策調(diào)度空間的工藝類型的倍數(shù)。選擇一個組批緩沖區(qū)則將該批進行設備匹配并進行加工,并將該組批緩沖區(qū)清空,選擇等待則表示不選擇任何批進行加工。

        2.3 結(jié)合逆向強化學習與強化學習的獎勵網(wǎng)絡設計

        逆向強化學習通過對近優(yōu)經(jīng)驗的分析來指導組批和批次指派調(diào)度強化學習獎勵網(wǎng)絡的設計,根據(jù)文獻[21]的調(diào)度結(jié)果,即批次指派的動作集合A={a0,a1,...,an},轉(zhuǎn)化為馬爾可夫決策過程τ=(S0,a0,S1,a1,...,Sn,an),如圖3所示。

        基于IRL指導回報函數(shù)網(wǎng)絡的構建,根據(jù)2.1節(jié)將需要觀測的狀態(tài)映射為狀態(tài)特征向量、2.2節(jié)批次指派動作空間,并根據(jù)指導獎勵網(wǎng)絡設計的近優(yōu)解進行求解,相關理論如下:

        R(s)=ω·φ(s);

        (15)

        (16)

        (17)

        (18)

        獎勵函數(shù)的設計影響RL的求解質(zhì)量,人為設定具有一定的局限性,問題的復雜程度甚至會影響回報函數(shù)設定的依據(jù)。為此,以蟻群算法獲得的專家經(jīng)驗為訓練數(shù)據(jù),基于IRL還原回報函數(shù),同時結(jié)合RL方法,設計IRL-RL的晶圓批處理設備調(diào)度算法,挖掘并應用近優(yōu)調(diào)度策略方案中隱含決策經(jīng)驗,實現(xiàn)晶圓批處理設備的智能決策。

        基于線性近似設計獎勵函數(shù)的方法[17]能在一定程度上減少人為設定參數(shù)的局限性,但該方法無法完全摒棄掉狀態(tài)向量線性擬合的不足,因此本研究在線性擬合的基礎上,采用輸入為狀態(tài)向量、輸出為獎勵值、具有一層隱藏層的神經(jīng)網(wǎng)絡設計代替獎勵函數(shù)的設計,通過近優(yōu)策略與學習策略之間獎勵的差距反饋指導獎勵網(wǎng)絡參數(shù)更新。

        通過設計獎勵網(wǎng)絡從近優(yōu)策略方案中學習獎勵函數(shù),結(jié)合強化學習對組批和批次指派智能體更新實現(xiàn)問題求解:先基于近優(yōu)示例更新回報網(wǎng)絡,用于RL進行策略迭代;對比當前策略與近優(yōu)策略,基于損失函數(shù)與梯度下降求網(wǎng)絡參數(shù)。循環(huán)以上兩步,改進回報函數(shù)至能反映專家意圖為止。晶圓批處理設備調(diào)度優(yōu)化算法流程如圖4所示。

        2.4 IRL-RL模型更新

        基于RL-IRL晶圓批處理設備調(diào)度方法是在強化學習更新組批和批次指派智能體的基礎上,為了盡可能減少人為設定獎勵函數(shù)的局限性,使模型收斂的速度和質(zhì)量進一步提升,設計獎勵網(wǎng)絡,通過逆向優(yōu)化控制(Inverse Optimization Control,IOC)[22]指導獎勵網(wǎng)絡的更新,具體表達如下:

        (19)

        (20)

        cθ(St,at)=θT·f(St,at);

        (21)

        (22)

        式(20)表示損失基于逆向優(yōu)化控制指導獎勵網(wǎng)絡更新的損失函數(shù)由策略獎勵式(20)平均與配分函數(shù)式(22)的加和構成,策略獎勵式(20)由每一步的狀態(tài)動作向量通過獎勵函數(shù)網(wǎng)絡得出當前狀態(tài)下執(zhí)行相應動作的獎勵值,具體表示為式(21)。通過損失函數(shù)式(19)指導獎勵網(wǎng)絡cθ進行參數(shù)更新。具體更新算法如下。

        算法1基于IRL-RL的組批和批次指派智能體的更新和獎勵函數(shù)設計。

        初始化晶圓批處理調(diào)度環(huán)境;

        由算法[21]生成近優(yōu)解Dsamp;

        For iteration i=1 to I do

        由組批智能體qbk(τ)、批次指派智能體qsk(τ)生成策略樣本Dtraj

        將近優(yōu)解Dsamp與生成策略樣本Dtraj合并Dsamp∪Dtraj→Dsamp

        End for

        3 數(shù)據(jù)實驗

        為了驗證本研究所提出的結(jié)合逆向強化學習與強化學習的晶圓批處理設備調(diào)度算法的有效性,分別通過晶圓批處理設備調(diào)度問題的標準算例進行算法的對比驗證和上海某晶圓制造廠的實際算例數(shù)據(jù)進行驗證。實驗使用Python3.6 進行編程,使用 Pytorch 機器學習框架搭建IRL-RL網(wǎng)絡模型,計算環(huán)境為 core i7,16g RAM,windows10 操作系統(tǒng)。實驗包括基準算例測試、企業(yè)實例驗證兩部分。

        3.1 基準算例測試

        根據(jù)Melouk等[23]所作實驗測試,通過隨機生成算例對本文提出算法進行性能測試并與其他算法進行參照對比。隨機算例的生成依據(jù)的因素有:工件數(shù)、工件到達時間系數(shù)μ,σ2以及機器速度的比率θ。工件到達時間服從正態(tài)分布N(μ,σ2),公式如下:

        (23)

        各因素具體值如表2所示。使用MmJiμjσk2θn來表示各類算例,其中各參數(shù)m=1,2,3;i=1,2,3;j=1,2;k=1,2;n=1,2,如M2J2μ1σ12θ1表示4臺設備、50個工件,工件到達時間系數(shù)μ=10,σ2=3以及機器加工速度按照比率θ=1.3遞增的參數(shù)組合。

        表2 算例生成的分類因素及取值

        經(jīng)同類型的并行批處理機調(diào)度問題[23]所生成的不同規(guī)模的標準算例,并與強化學習算法(RL)、文獻[21]提出的算法[21](Hybrid Ant Colony Algorithm,HACA)進行對比,獲得的性能對比見表3。

        3.2 企業(yè)實例驗證

        為了進一步驗證所提算法的有效性,針對某半導體企業(yè)的晶圓制造車間為原型,基于仿真軟件Plant Simulation 9.0建立Fab仿真模型,如圖5所示。晶圓逐層加工制程時間表如表4所示。

        表4 晶圓逐層加工制程時間表

        晶圓lot的每一層加工制程順序,自上而下,晶圓批處理調(diào)度主要發(fā)生在擴散制程,當當前層完成最后一道加工制程,晶圓重入進行下一層的加工。

        每條晶圓任務數(shù)據(jù)包括晶圓類型、不同層的類型、每層的到達時間、每層的加工時間、每層的后續(xù)加工時間、任務的剩余加工時間等參數(shù)。相同設備的準備時間與前后工藝的類型相關,工藝類型相同無工藝準備時間,工藝不同時則存在工藝準備時間。晶圓批處理設備依次加工不同類型的批次所需要的生產(chǎn)準備時間Sj1,j2取值如表5所示。

        表5 相同設備類型切換準備時間表 h

        根據(jù)表6,設置批處理設備規(guī)模為小規(guī)模m1=9和大規(guī)模m2=14兩種,設置模型運行時間為一年,最初兩個月為系統(tǒng)從初始化到穩(wěn)定生產(chǎn)的過渡期,不采集數(shù)據(jù)。兩個月后開始第一次數(shù)據(jù)采集,第一次采集數(shù)據(jù)的周期為2個月,后續(xù)每個月更新一次數(shù)據(jù)。

        表6 某公司晶圓批處理的主要工藝類型及設備分布統(tǒng)計表

        RL-IRL模型事先在相同規(guī)模算例的訓練集上進行訓練并對模型進行保存。表7展示的是訓練后的算法與RL算法、HACA算法和A1規(guī)則[24]在穩(wěn)定生產(chǎn)的時期,每月采集一次調(diào)度結(jié)果對比情況。結(jié)果表明,A1規(guī)則是解決晶圓制造批處理批次調(diào)度問題的較優(yōu)規(guī)則,但由于其限定性強和無法隨環(huán)境進化的特點,導致只能在極少數(shù)情況下獲得較優(yōu)解,HACA算法是解決晶圓制造批處理機批次指派調(diào)度問題的較優(yōu)靜態(tài)算法,雖然能在限定的較短時間范圍內(nèi)作為IRL-RL算法的指導,但其本身搜索時間較長,尤其是在大規(guī)模問題,求解性能不佳;在大部分情況下,IRL-RL算法在結(jié)合RL算法的實時性和限定較短時間范圍內(nèi)的HACA算法解的指導的基礎上,通過訓練不斷更新智能體的尋優(yōu)能力,獲得了性能好于RL算法的解,綜合考慮了算法的實時性和有效性。

        表7 算法性能對比

        4 結(jié)束語

        本文以晶圓制造批處理機生產(chǎn)調(diào)度為背景,以最小化生產(chǎn)周期為調(diào)度目標,針對組批和批次指派子問題提出了基于IRL-RL的晶圓批處理設備調(diào)度方法,通過引入文獻[21]調(diào)度經(jīng)驗指導RL進行獎勵網(wǎng)絡的學習,改善了人為設定獎勵函數(shù)的局限性,有效優(yōu)化了任務動態(tài)到達的晶圓批處理調(diào)度問題。在晶圓實際生產(chǎn)過程中晶圓制造系統(tǒng)還包括除批處理之外的其他設備組,存在晶圓前后道加工工序存在復雜約束等,且實際生產(chǎn)狀況更加復雜,考慮的環(huán)節(jié)和因素需更加全面。晶圓不同工序之間存在相互影響的關系,晶圓批處理環(huán)節(jié)作為晶圓制造系統(tǒng)的瓶頸環(huán)節(jié),其對整個車間性能的影響還需與其他工序關聯(lián)起來綜合考慮晶圓全局生產(chǎn)調(diào)度。

        猜你喜歡
        智能設備
        諧響應分析在設備減振中的應用
        智能制造 反思與期望
        基于VB6.0+Access2010開發(fā)的設備管理信息系統(tǒng)
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        智能制造·AI未來
        商周刊(2018年18期)2018-09-21 09:14:46
        基于MPU6050簡單控制設備
        電子制作(2018年11期)2018-08-04 03:26:08
        500kV輸變電設備運行維護探討
        美腿丝袜在线观看视频| 国产日b视频| av无码电影一区二区三区| 亚洲av成人永久网站一区| 国产aⅴ激情无码久久久无码| 人人妻人人妻人人片av| 思思99热精品免费观看| 久久精品国产亚洲av桥本有菜| 成人性生交大片免费5| 人妻少妇精品无码专区| 亚洲av无码之日韩精品| 成人综合久久精品色婷婷| 中文字幕有码在线亚洲| 日韩精品无码一区二区| 免费男人下部进女人下部视频| 精品视频专区| 亚洲福利视频一区二区三区| 亚洲综合精品中文字幕| 台湾无码av一区二区三区| 国产福利小视频在线观看| 成人av在线免费播放| 色吧噜噜一区二区三区| 伊人久久精品久久亚洲一区| jjzz日本护士| 午夜国产精品一区二区三区| 日韩在线永久免费播放| 国产成人亚洲日韩欧美| 国内精品久久久久久久久蜜桃| 人妻少妇中文字幕久久hd高清| 极品少妇被黑人白浆直流| 亚洲 精品 综合 精品 自拍| 视频一区精品自拍| 国产精品日韩中文字幕| 99久久婷婷亚洲综合国产| 又粗又黄又猛又爽大片app| 国产一区日韩二区欧美三区| 看黄色亚洲看黄色亚洲| 一本色道久久88—综合亚洲精品| 国产精品毛片一区二区| 91情侣视频| 熟女少妇精品一区二区三区|