汪俊亮 秦 威 張 潔
上海交通大學(xué),上海,200240
基于數(shù)據(jù)挖掘的晶圓制造交貨期預(yù)測方法
汪俊亮秦威張潔
上海交通大學(xué),上海,200240
摘要:晶圓訂單的交貨期預(yù)測對于保證訂單交付的準時性和平順性,具有重要的意義。然而,晶圓制造中的在制品數(shù)量多、生產(chǎn)周期長的特點加劇了交貨期預(yù)測的復(fù)雜性。基于海量晶圓制造數(shù)據(jù),設(shè)計回歸模型來對1669個晶圓加工過程參數(shù)與訂單交貨期指標之間的關(guān)聯(lián)關(guān)系進行分析,并采用費舍爾Z變換篩選得到強相關(guān)變量,對所得到的強相關(guān)變量采用案例推理方法實現(xiàn)了晶圓制造訂單交貨期的精準預(yù)測。
關(guān)鍵詞:晶圓制造;數(shù)據(jù)挖掘;交貨期預(yù)測;案例推理
0引言
交貨期預(yù)測作為晶圓制造運行過程研究中的重要問題,一直受到學(xué)術(shù)界的關(guān)注[1-2]。傳統(tǒng)的交貨期預(yù)測方法主要可以分為四類[3]:直接推理方法、仿真方法、分析方法和統(tǒng)計方法。直接推理方法利用工作特性、靜態(tài)和動態(tài)車間狀態(tài)等信息,通過預(yù)測每道工序的加工時間,從而推理得到訂單的交貨期[4]。該方法簡便、容易計算,但在復(fù)雜的制造過程難以實現(xiàn)交貨期的精準預(yù)測。仿真方法是在交貨時間預(yù)測研究中廣泛采用的先進方法,Vig等[5]基于不同設(shè)計的仿真規(guī)則,進行交貨期的預(yù)測。分析方法采用排隊論、馬爾可夫模型等數(shù)學(xué)工具,嘗試估計訂單交貨時間的平均值和標準差[6]。然而,分析方法的假設(shè)通常過于簡單,不符合真實條件,這導(dǎo)致其應(yīng)用受到限制。統(tǒng)計方法采用回歸方法[7]和關(guān)聯(lián)分析[8]尋找訂單交貨時間和其他變量的關(guān)系,在變量的選擇上仍然采用基于經(jīng)驗的方法。
晶圓制造的設(shè)備種類多、數(shù)量多,在制品數(shù)量和產(chǎn)品工序多,制造工期漫長這些特性使得晶圓制造交貨期預(yù)測問題成為一個復(fù)雜大規(guī)模的問題[9],傳統(tǒng)的交貨期預(yù)測方法難以適應(yīng)。晶圓車間是典型的智能化工廠,其中的智能生產(chǎn)設(shè)備、數(shù)據(jù)通信網(wǎng)絡(luò)和傳感器可將制造過程數(shù)據(jù)源源不斷地采集上來。智能化車間的普及使得以數(shù)據(jù)挖掘和分析為核心的大數(shù)據(jù)技術(shù)被廣泛應(yīng)用在設(shè)備故障預(yù)警[10]、產(chǎn)品質(zhì)量控制[11]和生產(chǎn)成本優(yōu)化[12]等方面。數(shù)據(jù)挖掘方法通過探究數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,為解決大規(guī)模復(fù)雜問題提供了新思路。因此,本文基于數(shù)據(jù)挖掘技術(shù),對海量制造數(shù)據(jù)進行分析,從而實現(xiàn)晶圓制造訂單交貨期的精準預(yù)測。
1問題描述
在晶圓制造車間中,晶圓加工過程的制造數(shù)據(jù)(如晶圓卡等待時間)由傳感器測得,并通過工業(yè)網(wǎng)絡(luò)傳輸搜集,另一部分數(shù)據(jù)(如每個站的剩余總工作量)從制造執(zhí)行系統(tǒng)、資源管理系統(tǒng)等信息系統(tǒng)中獲取。本文對這些有可能影響晶圓交貨期的制造數(shù)據(jù)進行采集,并通過數(shù)據(jù)挖掘和分析方法,判斷篩選與訂單交貨期強相關(guān)的變量,并用于交貨期預(yù)測,所采集的晶圓制造候選變量如表1所示。
表1 預(yù)測訂單交貨期的候選數(shù)據(jù)
晶圓制造中,復(fù)雜多樣的產(chǎn)品工藝路線與大量的車間在制品使得候選數(shù)據(jù)具有海量、高維和異構(gòu)的特點。從數(shù)據(jù)的體量上來說,2000個訂單的工期預(yù)測候選數(shù)據(jù)集就達到了140萬條,具備海量特點;從數(shù)據(jù)的維度上來說,候選數(shù)據(jù)中有訂單特性數(shù)據(jù)、制造設(shè)備狀態(tài)數(shù)據(jù)、物流系統(tǒng)狀態(tài)數(shù)據(jù),具備高維度特點;從數(shù)據(jù)的結(jié)構(gòu)來說,候選數(shù)據(jù)涵蓋時間類型、有比例類型、數(shù)值類型、序次類型等多種數(shù)據(jù)。這些數(shù)據(jù)的特點進一步加劇了計算的復(fù)雜性,因此,采用一種高效數(shù)據(jù)關(guān)聯(lián)關(guān)系分析方法對于復(fù)雜海量的制造數(shù)據(jù)處理具有重要的意義。
2交貨期與晶圓制造數(shù)據(jù)相關(guān)性分析
考慮到數(shù)據(jù)的數(shù)量和種類,采用回歸分析衡量晶圓交貨期和不同候選變量之間的相關(guān)性。對每一個候選變量作費舍爾Z變換來統(tǒng)一各個候選變量和交貨期之間相關(guān)性的強度,定義費舍爾變換Z值高的變量為強相關(guān)變量?;陬A(yù)測網(wǎng)絡(luò)模型和案例推理方法來評估當前訂單與歷史訂單的相似性,從而找出最合適的歷史案例進行訂單交貨期的預(yù)測,本研究的框架如圖1所示。
圖1 基于數(shù)據(jù)挖掘方法的晶圓交貨期預(yù)測框架圖
2.1回歸網(wǎng)絡(luò)數(shù)據(jù)模型
本文采用回歸分析的方法分析候選數(shù)據(jù)和訂單交貨期之間的相關(guān)關(guān)系,并采用費舍爾Z變換衡量變量和訂單交貨期之間的相關(guān)性,進而篩選得到強相關(guān)變量。
單步回歸方法和迭代回歸方法是兩種常用的回歸分析方法。單步回歸方法對實際生產(chǎn)數(shù)據(jù)或仿真數(shù)據(jù)進行單一回歸分析,從而確定回歸系數(shù)的值。迭代回歸方法通過多次調(diào)用回歸分析來計算和修正回歸系數(shù)的值??紤]到海量的數(shù)據(jù)要求和高效的算法要求,本文中采用單步回歸方法,構(gòu)造多種回歸方程對候選變量進行處理,并通過方差r來驗證回歸效果,r越接近0,回歸效果越好。r表達式為
(1)
2.2基于費舍爾Z變換的關(guān)鍵參數(shù)篩選
費舍爾Z變換用于衡量各變量和訂單交貨期之間的相關(guān)性。當X和Y遵循二元正態(tài)分布時,費舍爾Z變換是一種方差近似穩(wěn)定的變換。費舍爾Z變換的定義為
(2)
3訂單相似性匹配與交貨期推理
在通過數(shù)據(jù)的相關(guān)性分析得到晶圓訂單的強相關(guān)變量之后,采用基于案例推理(case-based reasoning,CBR)的方法來預(yù)測訂單交貨期。CBR通過對比當前案例與案例組中的案例之間的區(qū)別[13],尋找最為匹配的案例,從而實現(xiàn)晶圓訂單交貨期的預(yù)測。在晶圓訂單交貨期預(yù)測中,案例為晶圓的訂單,通過訂單強相關(guān)變量的數(shù)值差異來衡量訂單之間的相似性,從而實現(xiàn)案例的搜索和對比。
CBR的步驟具體步驟[14]如下:
(1)檢索。根據(jù)強相關(guān)變量,從案例組庫中查找相似度最高的案例構(gòu)建案例組。除了案例組庫,檢索階段還從相似知識庫中檢索。
(2)再利用。重新利用檢索所得(最相似)的案例組解決方案,構(gòu)建一個建議案例組,從而預(yù)測新案例組的解。
(3)修改。評估已解決案例組的解決方案的正確性,如有必要則提供測試/修復(fù)案例組的解決方案。修改階段可以手動實現(xiàn),也可通過知識匹配自動實現(xiàn)。值得注意的是,修改一個建議解決方案很可能比從頭解決該問題的要求要低。
(4)保留。因為修復(fù)的案例組很可能對解決未來的問題有用,所以將會作為新知識保留在案例組庫中。
當前訂單變量的相似性定義為
(3)
式中,i為歷史數(shù)據(jù)編號,i=1,2,…,n-1;m為強相關(guān)變量的數(shù)目;k為訂單當前的強相關(guān)變量;wk為變量k的Z變換值;vnk為當前訂單的變量k的值;vik為歷史數(shù)據(jù)的變量k的值。
訂單的交貨期預(yù)測準確度可由“精確度”和“穩(wěn)定性”來確定。在本文中,我們采用平均絕對偏差PMAD來衡量精確度,采用交貨期的方差PLV來衡量穩(wěn)定性:
(4)
(5)
4實驗設(shè)計
本文的研究對象是某300 mm晶圓生產(chǎn)線,該生產(chǎn)線主要生產(chǎn)3種類型的晶圓,三者具有完全不同的工藝路線,如表2所示。本文對產(chǎn)品A的訂單完工時間進行預(yù)測研究,該晶圓產(chǎn)品涉及320道包含多重入流的工序。基于該生產(chǎn)線的實際情況,本文建立了虛擬化的晶圓制造仿真系統(tǒng),并獲取了400組晶圓訂單生產(chǎn)數(shù)據(jù)(如表3所示,每組數(shù)據(jù)包括1669個候選變量),作為交貨期預(yù)測的數(shù)據(jù)基礎(chǔ)。系統(tǒng)中每道工序的處理時間在0.95倍至1.05倍的該工序平均處理時間內(nèi)。車間擁有235臺機器,其中的瓶頸工作站是光刻曝光站。先到先服務(wù)規(guī)則長期用于晶圓批次排序調(diào)度,因此不考慮調(diào)度規(guī)則更改對晶圓訂單交貨期的影響。
表2 本文涉及的晶圓制造車間的產(chǎn)品詳情
表3 本文所采用的晶圓訂單交貨期預(yù)測數(shù)據(jù)
通過對候選數(shù)據(jù)與晶圓訂單交貨期的相關(guān)分析,在1669個候選變量中篩選得到304個強相關(guān)的變量,并基于所得的強相關(guān)變量構(gòu)建關(guān)聯(lián)分析網(wǎng)絡(luò),通過案例推理模型和關(guān)聯(lián)網(wǎng)絡(luò)模型實現(xiàn)晶圓訂單的交貨期預(yù)測。在基于案例的推理中,采用前300組數(shù)據(jù)構(gòu)建CRB的案例組庫,針對后100組訂單數(shù)據(jù)進行完工時間預(yù)測,從而評價算法的性能。
試驗結(jié)果(表4)表明: CBR方法和BP神經(jīng)網(wǎng)絡(luò)算法在晶圓交貨期預(yù)測的精準度上都具有不錯的表現(xiàn),但是在預(yù)測結(jié)果的穩(wěn)定性上,CBR方法要明顯優(yōu)于常見的BP神經(jīng)網(wǎng)絡(luò)算法。
表4 CBR方法和BP神經(jīng)網(wǎng)絡(luò)方法的交貨期預(yù)測結(jié)果
5結(jié)語
本文提出了一種基于數(shù)據(jù)挖掘的兩個階段交貨期預(yù)測方法:設(shè)計了一種單步回歸算法從大量候選變量中自動選擇強相關(guān)變量;采用基于案例推理的方法來尋找最匹配的歷史數(shù)據(jù)并預(yù)測訂單交貨期。進一步的研究將從以下兩個方面展開:①采用更多的晶圓車間的實際生產(chǎn)數(shù)據(jù)進行數(shù)值試驗,來評估本文提出方法的有效性;②應(yīng)用多種不同的交貨期預(yù)測方法與CBR方法的預(yù)測準確性、穩(wěn)定性、求解速度進行對比。
參考文獻:
[1]RajanSuri.It’saboutTime:theCompetitiveAdvantageofQuickResponseManufacturing[M].NewYork:ProductivityPress,2010.
[2]MamaniH,MoinzadehK.LeadTimeManagementthroughExpeditinginaContinuousReviewInventorySystem[J].ProductionandOperationsManagement, 2014, 23(1): 95-109.
[3]ChungSH,YangMH,ChengCM.TheDesignofDueDateAssignmentModelandtheDeterminationofFlowTimeControlParametersfortheWaferFabricationFactories[J].IEEETransactiononComponent,Packaging,andManufacturingTechnologyPartC,1997,20:278-287.
[4]SmithML,SeidmanA.DueDateSelectionProcedureforJob-shopSimulation[J].Computers&IndustrialEngineering,1983,7(3):199-207.
[5]VigMM,DooleyKJ.DynamicRulesforDue-dateAssignment[J].TheInternationalJournalofProductionResearch, 1991, 29(7): 1361-1377.
[6]EnnsST.JobShopFlowtimePredictionandTardinessControlUsingQueueingAnalysis[J].InternationalJournalofProductionResearch,1993,31(9):2045-2057.
[7]ShaDY,StorchRL,LiuCH.DevelopmentofaRegression-basedMethodwithCase-basedTuningtoSolvetheDueDateAssignmentProblem[J].InternationalJournalofProductionResearch, 2007, 45(1): 65-82.
[8]KaplanAC,UnalAT.AProbabilisticCost-basedDueDateAssignmentModelforJobShops[J].TheInternationalJournalofProductionResearch,1993, 31(12): 2817-2834.
[9]QinW,ZhangJ,SunY.Multiple-objectiveSchedulingforInterbayAMHSbyUsingGenetic-programming-basedCompositeDispatchingRulesGenerator[J].ComputersinIndustry, 2013, 64(6):694-707.
[10]GEMovesMachinestotheCloud[OL]. [2013-07-18].http://www.Businesswire.com/news/home/0130618006446/en/GE-Moves-Machines-Cloud#.UxQ7No2BS50,1989.
[11]BrownB,ChuiM,ManyikaJ.AreYouReadyfortheEraof“BigData”[J].McKinseyQuarterly, 2011, 4: 24-35.
[12]農(nóng)夫山泉:HANA應(yīng)用在企業(yè)中層層展現(xiàn)[OL]. [2012-04-26].http://www.ileader.com.cn/html/2012/4/26/49926.htm.
[13]GuoYuan,HuJie,PengYinghong.ACBRSystemforInjectionMouldDesignBasedonOntology:aCaseStudy[J].Computer-AidedDesign,2012,44:496-508.
[14]RiesbeckCK,SchankRC.InsideCase-basedReasoning[M].London:PsychologyPress, 1989.
(編輯張洋)
DataMiningforOrders’LTForecastinginWaferFabrication
WangJunliangQinWeiZhangJie
ShanghaiJiaoTongUniversity,Shanghai,200240
Abstract:The accurate prediction of LT plays an important role to help semiconductor manufacturers keep the promises of an accurate and steady delivery-time. However, the large production scale, and long cycle time significantly substantiated the complexity of such a problem. Based on large amounts of manufacturing data, a regression-based model which took account of thousands of parameters was proposed to obtain the correlation among 1669 manufacturing variables and LT. To select “LT-related” variables which had high mean Z-transformed correlations, the Fisher Z-transformation was applied, and the case-based reasoning method was designed to forecast orders’ LT accurately.
Key words:wafer fabrication;data mining;lead-time (LT) forecasting;case-based reasoning
收稿日期:2015-01-09
基金項目:國家自然科學(xué)基金資助重點項目(51435009)
中圖分類號:TH166
DOI:10.3969/j.issn.1004-132X.2016.01.017
作者簡介:汪俊亮,男,1991年生。上海交通大學(xué)機械與動力工程學(xué)院碩士研究生。主要研究方向為制造系統(tǒng)建模與優(yōu)化。秦威,男,1985年生。上海交通大學(xué)機械與動力工程學(xué)院講師、博士。張潔,女,1963年生。上海交通大學(xué)機械與動力工程學(xué)院教授。