戴佳斌 張 潔 吳立輝
1.東華大學人工智能研究院,上海,201620 2.東華大學信息科學與技術學院,上海,201620 3.上海應用技術大學機械工程學院,上海,201418
晶圓制造系統(tǒng)具有制造設備多、在制品規(guī)模大、工藝路線復雜、多層重入等特點,是典型的復雜制造系統(tǒng)[1]。晶圓加工周期是晶圓制造系統(tǒng)的關鍵生產(chǎn)指標,對晶圓加工周期進行準確預測有利于晶圓制造企業(yè)提前預估訂單完成時間、合理制定生產(chǎn)計劃、優(yōu)化生產(chǎn)排程,對提高晶圓準時交貨率與客戶滿意度等具有重要意義[2]。
晶圓加工周期受大規(guī)模、復雜關聯(lián)的生產(chǎn)特征數(shù)據(jù)影響,準確預測困難[3]。國內(nèi)外學者圍繞晶圓加工周期預測開展了大量研究。TAI等[4]、YANG等[5]采用統(tǒng)計分析方法估計晶圓加工周期的分布規(guī)律,構建概率統(tǒng)計分布模型預測加工周期,但該方法對晶圓加工周期數(shù)據(jù)集高度敏感,預測模型的穩(wěn)定性與準確性較差。YANG等[6]、HSIEH等[7]采用仿真分析方法構建晶圓制造系統(tǒng)模型,通過仿真分析預測晶圓加工周期,然而該方法需要大量時間構建生產(chǎn)仿真模型,預測結果的時效性不足,預測模型的適應性不強。SCHELASIN[8]、CHUANG等[9]采用了排隊論或排隊網(wǎng)絡等數(shù)學分析方法對晶圓加工周期進行建模預測,然而該方法的建模需大量時間,且預測精度較低。
近年來,隨著工業(yè)互聯(lián)網(wǎng)技術的發(fā)展,晶圓制造系統(tǒng)中與晶圓加工周期相關的設備狀態(tài)、工藝參數(shù)、物流搬運系統(tǒng)狀態(tài)、在制品等大規(guī)模生產(chǎn)特征數(shù)據(jù)被實時采集與存儲,構建了良好的大數(shù)據(jù)基礎平臺。以各類神經(jīng)網(wǎng)絡為基礎的數(shù)據(jù)驅動方法逐漸用于晶圓加工周期的預測。WANG等[10]設計了一種雙邊長短期記憶的新型循環(huán)神經(jīng)網(wǎng)絡,通過挖掘晶圓層與層之間的相似性,較準確地預測了晶圓的單層加工周期。CHEN等[11]結合PCA、FCM和BPN構建了一種模糊神經(jīng)網(wǎng)絡模型用于晶圓加工周期預測。CHIEN等[12]提出了基于高斯-牛頓回歸法與BPN的晶圓加工周期預測方法。TIRKEL[13]利用數(shù)據(jù)庫中發(fā)現(xiàn)的知識與BPN神經(jīng)網(wǎng)絡構建了晶圓加工周期預測模型。WANG等[14]采用網(wǎng)絡反卷積去除晶圓特征間的間接相關性,建立了預測晶圓加工周期的BPN模型。
相較于傳統(tǒng)的統(tǒng)計分析、仿真分析、數(shù)學分析等方法,基于長短期記憶神經(jīng)網(wǎng)絡、BPN網(wǎng)絡的數(shù)據(jù)驅動方法具有較好的適應性與預測穩(wěn)定性,然而這些數(shù)據(jù)驅動方法存在以下不足:①晶圓制造過程中,大量生產(chǎn)特征數(shù)據(jù)內(nèi)部及關鍵生產(chǎn)特征數(shù)據(jù)與晶圓加工周期之間具有復雜的相關性,現(xiàn)有的數(shù)據(jù)驅動預測模型設計未充分考慮上述復雜相關性的影響,難以有效保障晶圓加工周期的預測精度;②相同批次晶圓在加工過程中經(jīng)歷的加工設備及采用的加工工藝存在相似性,所獲得的晶圓生產(chǎn)特征數(shù)據(jù)樣本之間的時間相關性強,現(xiàn)有的數(shù)據(jù)驅動晶圓加工周期預測模型未考慮樣本的相關性因素,模型訓練效率較低。
為此,本文提出一種融合雙重注意力機制與并行門控循環(huán)單元(dual attention mechanism and gated recurrent unit, DAM-GRU)的晶圓加工周期預測方法,在數(shù)據(jù)預處理的基礎上,通過構建并行GRU網(wǎng)絡挖掘生產(chǎn)特征數(shù)據(jù)樣本之間的時間相關性,設計DAM來學習關鍵生產(chǎn)特征的相關度信息,從而提高晶圓加工周期的預測精度與預測效率。
數(shù)據(jù)驅動的晶圓加工周期預測問題以晶圓制造過程中采集的生產(chǎn)特征數(shù)據(jù)集合X={x1,x2,…,xL}為輸入?yún)?shù),以預測的晶圓加工周期y為輸出指標。生產(chǎn)特征數(shù)據(jù)包括設備負載率、各工序的加工時間、晶圓優(yōu)先級、物流搬運系統(tǒng)狀態(tài)、在制品數(shù)量。這些數(shù)據(jù)具有以下特點:
(1)大規(guī)模特性。晶圓制造需數(shù)十次重入氧化、外延、光刻、蝕刻等加工區(qū),加工工序多達300~1000道。每道工序需要專用設備加工,與加工周期相關的設備、工藝、物流、在制品等相關生產(chǎn)特征參數(shù)達數(shù)千個。
(2)生產(chǎn)特征數(shù)據(jù)關聯(lián)的復雜性。晶圓逐層加工,每一層電路的加工需重入各加工區(qū)內(nèi)的相同設備組 ,采用大量相似工藝,導致部分設備的狀態(tài)與工藝相關的生產(chǎn)特征數(shù)據(jù)存在強關聯(lián)性。由于加工過程中的工藝約束,工藝路線上下游設備間的耦合性強,導致晶圓制造過程中采集的生產(chǎn)特征數(shù)據(jù)強關聯(lián)。
(3)生產(chǎn)特征數(shù)據(jù)樣本相關性強。晶圓制造過程中,相同批次的晶圓lot通常同時進入晶圓加工車間,因此采用的加工工藝、經(jīng)歷的加工設備、對應的物流狀態(tài)、系統(tǒng)在制品狀態(tài)等具有強相似性,導致晶圓的生產(chǎn)特征數(shù)據(jù)樣本在時間上具有較強的相關性。
基于DAM-GRU的晶圓加工周期預測方法框架如圖1所示。數(shù)據(jù)預處理包括兩個環(huán)節(jié):特征提取與特征數(shù)據(jù)樣本集分類。特征提取基于Relief-F方法對生產(chǎn)特征數(shù)據(jù)集進行降維處理,篩選與加工周期相關的關鍵特征子集,獲得關鍵特征的關聯(lián)矩陣W、特征與加工周期關聯(lián)的向量F。特征數(shù)據(jù)樣本通過模糊C均值(fuzzy C-means, FCM)算法實現(xiàn)基于工藝相似性的分類,將生產(chǎn)特征數(shù)據(jù)樣本集合分解為多個并行數(shù)據(jù)樣本子集合。
圖1 基于DAM-GRU的晶圓加工周期預測方法框架
通過樣本數(shù)據(jù)子集合構建并行DAM-GRU預測模型,各DAM-GRU由輸入層、特征關聯(lián)層、注意力(Attention)層、預測輸出層構成。輸入層主要從數(shù)據(jù)樣本子集合獲取輸入數(shù)據(jù)樣本,并對數(shù)據(jù)進行最大-最小值[1]歸一化處理,消除特征量綱差異的影響。特征關聯(lián)層由并行GRU單元網(wǎng)絡構成,并通過模擬同批次晶圓的加工過程與加工工藝相似性,挖掘晶圓生產(chǎn)特征數(shù)據(jù)樣本之間的時間相關性,提高預測模型的訓練效率。注意力層通過設計關鍵生產(chǎn)特征間的相關注意力及特征與加工周期相關的注意力網(wǎng)絡,強化關鍵生產(chǎn)特征對加工周期的貢獻差異,提高預測模型的精度。預測輸出層為全連接網(wǎng)絡層,通過對注意力層輸出的隱藏狀態(tài)向量進行加權求和,實現(xiàn)對晶圓加工周期的預測輸出。
2.1.1基于Relief-F的特征選擇
晶圓制造生產(chǎn)特征數(shù)據(jù)的大規(guī)模、復雜關聯(lián)等特點導致預測模型訓練效率低、預測精度差等問題,因此需對生產(chǎn)特征數(shù)據(jù)進行降維去冗余處理。Relief-F算法的計算時間復雜度與生產(chǎn)特征數(shù)量線性正相關,可量化關鍵生產(chǎn)特征間及特征與預測目標間的復雜相關性,且特征子集能保留數(shù)據(jù)原始信息[15],適用于晶圓加工周期預測問題的生產(chǎn)特征提取?;赗elief-F的晶圓生產(chǎn)特征與加工周期關聯(lián)向量Fin=(F(x1),F(x2),…,F(xL))的計算公式為
(1)
(2)
式中,xi為第i個生產(chǎn)特征;F′(xi)為前一輪計算所得特征xi與晶圓加工周期的相關值;q為特征選取迭代次數(shù);R為每次隨機選取的生產(chǎn)特征數(shù)據(jù)樣本;Hj為與樣本R所屬子集相同的第j臨近樣本;B為與樣本R所屬集合不同的其他數(shù)據(jù)集合;Mj(B)為集合B中與樣本R第j臨近的樣本;k為與樣本R最臨近的樣本數(shù)量設定值;P(B)為集合B中的樣本個數(shù)占總樣本的數(shù)量比例;P(class(R))為R樣本所在集合class(R)中的樣本個數(shù)占總樣本的比例。
關聯(lián)向量Fin歸一化處理后,通過設定的閾值篩選出高相關性特征,形成關鍵生產(chǎn)特征與加工周期的關聯(lián)向量F=(F(x1),F(x2),…,F(xN)),其中,N為關鍵生產(chǎn)特征數(shù)量。基于F計算特征間關聯(lián)矩陣[Wi,j]:
(3)
其中,softmax(*)為歸一化指數(shù)函數(shù)。
2.1.2基于FCM的數(shù)據(jù)集聚類
由于晶圓制造系統(tǒng)加工產(chǎn)品的多樣性,晶圓生產(chǎn)特征數(shù)據(jù)樣本集合會因加工批次及加工工藝的差異而具有明顯的分類特性。本文從加工工藝相似性角度出發(fā),采用FCM算法[16]對生產(chǎn)特征數(shù)據(jù)樣本進行工藝相似性聚類處理,為提高并行DAM-GRU預測模型的學習效果奠定數(shù)據(jù)基礎。
基于FCM的生產(chǎn)特征數(shù)據(jù)樣本聚類步驟如下:
(1)設定聚類中心的數(shù)量C與模糊系數(shù)k,隨機初始化隸屬度矩陣:
(4)
式中,up,q為樣本Xp屬于第q類的隸屬度,p=1,2,…,i;q=1,2,…,j。
(2)基于式(3)計算聚類中心:
(5)
式中,m為生產(chǎn)特征樣本數(shù);
(3)基于聚類中心cj更新隸屬度矩陣U1,更新后的隸屬度ui,j為
(6)
(4)重復步驟(2)、步驟(3),直至
(7)
2.2.1輸入層
輸入層主要從預測模型對應的生產(chǎn)特征數(shù)據(jù)樣本聚類子集合中獲取輸入數(shù)據(jù)樣本X=(X1,X2,…,Xm)T,針對數(shù)據(jù)樣本Xm=(x1,m,x2,m,…,xN,m)各特征數(shù)據(jù)度量單位多、差異大的特點,采用最大-最小值方法[1]對其進行歸一化處理以消除特征量綱差異性影響:
(8)
2.2.2特征關聯(lián)層
特征關聯(lián)層針對輸入層生產(chǎn)特征數(shù)據(jù)樣本對應的晶圓加工工藝相似性及數(shù)據(jù)樣本之間的時間相關性,構建基于并行GRU單元的特征關聯(lián)網(wǎng)絡。GRU是一種用于處理序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡,能保證預測精度和較高的計算效率[17]。并行GRU特征關聯(lián)網(wǎng)絡能模擬晶圓的加工工藝相似性,挖掘晶圓生產(chǎn)特征數(shù)據(jù)樣本之間的時間相關性,具有較高的模型訓練效率。
圖2 GRU單元結構
zt=σ(Wz[ht-1Xt])
(9)
rt=σ(Wr[ht-1Xt])
(10)
(11)
(12)
2.2.3注意力層
注意力層從特征關聯(lián)層獲得隱藏狀態(tài)向量,基于生產(chǎn)特征間關聯(lián)矩陣W構建關鍵特征間相關Attention,通過特征間相關性實現(xiàn)對隱藏層信息的升維。利用升維后的信息生成Attention權重,實現(xiàn)特征間相關性作用下的第一次注意力分配。在此基礎上,通過基于關鍵生產(chǎn)特征與加工周期關聯(lián)向量F構建特征與加工周期相關Attention,強化關鍵生產(chǎn)特征對加工周期的貢獻差異,完成全局信息下的生產(chǎn)特征第二次注意力分配,提高預測模型的精度。注意力層結構設計如圖3所示,雙重注意力的具體實現(xiàn)步驟如下:
圖3 注意力層結構圖
(1)將特征關聯(lián)層輸出的隱藏狀態(tài)向量ht與生產(chǎn)特征間關聯(lián)矩陣W進行哈達瑪積相乘,獲得細粒度化后的隱藏狀態(tài)相關矩陣WH:
WH=Hadamard(W,ht)
(13)
(14)
(4)依次抽取WH的各個列向量,并重復步驟(2)、步驟(3),獲得各個特征相關性作用下的注意力分配矩陣。
(5)對各個特征相關性作用下的注意力分配矩陣進行累加平均處理,獲得各個特征相關性作用下的注意力分配均值矩陣:
(15)
實現(xiàn)特征間相關性作用下的注意力分配。
(6)將WD進行降維處理:
(16)
(7)將注意力分配均值向量Wd和特征與加工周期關聯(lián)向量F進行哈達瑪積相乘,實現(xiàn)特征與加工周期間的相關性作用下的第二次注意力分配。形成的雙重注意力機制作用下的隱藏狀態(tài)向量h′t=Hadamard(F,Wd)可輸出至特征關聯(lián)層與全連接輸出層。
2.2.4預測輸出層
預測輸出層為全連接網(wǎng)絡層,它對注意力層輸出的隱含狀態(tài)向量h′t進行加權求和處理,實現(xiàn)對晶圓加工周期yt的預測輸出。全連接層的計算公式為
yt=h′t·vt
式中,h′t為注意力層輸出;vt為全連接網(wǎng)絡權重;t為預測樣本的序號。
為驗證本文提出的晶圓加工周期預測方法的有效性,采用某晶圓制造企業(yè)的歷史生產(chǎn)數(shù)據(jù)進行實驗分析。該歷史生產(chǎn)數(shù)據(jù)(共20000條)集包括晶圓在各設備中的等待與加工時間、晶圓的在制品數(shù)量、物料搬運系統(tǒng)的負載、晶圓優(yōu)先級等775個生產(chǎn)特征參數(shù),輸出為晶圓加工周期。
實驗驗證涉及的參數(shù)設置主要包含Relief-F閾值0.6、FCM設定參數(shù)(模糊系數(shù)2、迭代次數(shù)100、迭代終止設定值ε=10-8)、DAM-GRU神經(jīng)網(wǎng)絡學習參數(shù)等。DAM-GRU神經(jīng)網(wǎng)絡的學習采用梯度下降法[3],學習參數(shù)設置如下:學習率為0.1,動量為0.9,動量抑制因子為0.5,權重衰減為0.01,迭代次數(shù)為200。評價指標為均方根誤差、平均絕對誤差、平均絕對百分比誤差以及模型訓練時間。
預處理晶圓制造的歷史生產(chǎn)數(shù)據(jù)集,基于Relief-F方法獲得46個關鍵生產(chǎn)特征;為驗證并行GRU網(wǎng)絡與DAM的有效性,分別從并行GRU預測模型與DAM這兩個功能模塊對DAM-GRU預測模型進行消融實驗;為保證實驗結果的可靠性,采用10倍交叉驗證方法[10]選取訓練數(shù)據(jù)集與驗證數(shù)據(jù)集。
3.2.1DAM的有效性驗證
利用DAM-GRU、Self-Attention-GRU和GRU分別構建預測模型進行消融試驗,實驗結果如圖4、表1所示。圖4表明,40個測試集樣本下,DAM-GRU的預測值更接近晶圓加工周期的真實值,DAM-GRU的預測模型具有更高的預測精度。表1中,DAM-GRU預測模型的訓練時間為10.3 s,優(yōu)于Self-Attention-GRU預測模型的訓練時間16.6 s。以上結果表明,雙重注意力機制能通過強化網(wǎng)絡計算過程中的特征相關性差異,提高加工周期的預測精度,且相較于自注意力機制,雙重注意力機制具有更高的訓練效率。
表1 不同模型的訓練時間
圖4 不同預測模型的結果
3.2.2GRU的有效性驗證
將DAM-GRU與DAM-LSTM進行對比消融試驗,結果如圖5、表1所示。圖5表明,相較于DAM-LSTM,DAM-GRU在精度上有小幅提升。表1中,DAM-GRU的訓練時間為10.3 s,相較于DAM-LSTM的14.4 s,訓練效率提高約30%,這對提高晶圓加工車間動態(tài)調(diào)度的實時響應能力具有重要意義。以上結果表明,GRU網(wǎng)絡通過模擬晶圓lot在時間相關性上的關聯(lián)與傳遞特性,挖掘樣本的關聯(lián)關系,能在保持晶圓加工周期預測精度的同時,提高預測模型訓練效率,即本文設計的并行GRU網(wǎng)絡是有效的。
圖5 基于DAM-GRU和DAM-LSTM的預測模型結果
將DAM-GRU與基于BPN、PCA-BPN[11]、MLP[18]、RandomForest的晶圓加工周期預測方法進行對比,驗證DAM-GRU方法在預測精度與預測效率的優(yōu)勢。其中,PCA-BPN將數(shù)據(jù)集特征降低到46個(與DAM-GRU相同),其余預測方法保留原有數(shù)據(jù)集的775個特征進行模型的訓練與測試,同樣采用10倍交叉驗證確保實驗結果的可靠性。對比結果如表2所示。
表2 DAM-GRU與傳統(tǒng)預測模型的結果
從表2中可知:①相較于PCA-BPN,DAM-GRU預測結果的均方根誤差從12.12 h降低到9.43 h,平均絕對誤差從8.96 h降低至7.45 h, 平均絕對百分比誤差從4.52%降低到3.71%,模型訓練時間從13.41 s降低至10.27 s,這證明DAM-GRU較PCA-BPN具有更高的預測精度與預測模型訓練效率;②RandomForest方法的均方根誤差、平均絕對誤差、平均絕對百分比誤差分別為10.98 h、7.89 h和3.98%,與DAM-GRU具有相近的預測精度,但模型訓練效率遠低于DAM-GRU;③DAM-GRU在預測精度及預測模型訓練效率上明顯優(yōu)于MLP、Bagging、DecisionTree、SVM。以上對比分析結果表明,基于并行DAM-GRU的晶圓加工周期預測方法是有效的。
為提高晶圓加工周期的預測精度與預測效率,本文提出一種基于DAM-GRU的晶圓加工周期預測方法。該方法在對數(shù)據(jù)進行預處理的基礎上,通過構建并行GRU神經(jīng)網(wǎng)絡挖掘相鄰晶圓樣本之間的時間相關性,以提高模型預測效率;通過設計雙重注意力機制學習關鍵特征間及特征與加工周期的相關度信息,強化特征對加工周期的貢獻差異,提高模型預測精度。實例研究表明,DAM-GRU方法是有效的。下一步將繼續(xù)挖掘晶圓制造生產(chǎn)特征的關系及其在預測模型訓練過程中的作用,以提高晶圓加工周期預測模型的預測精度及其魯棒性。