李敏波 董偉偉
1.復(fù)旦大學(xué)軟件學(xué)院, 上海,2004332.復(fù)旦大學(xué)上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室, 上海,200433
隨著“工業(yè)互聯(lián)網(wǎng)”和“工業(yè)4.0”等概念的提出,工業(yè)領(lǐng)域的信息化、智能化發(fā)展愈發(fā)受重視,越來(lái)越多的制造企業(yè)建立了生產(chǎn)過(guò)程數(shù)據(jù)采集系統(tǒng)與制造執(zhí)行系統(tǒng),積累了大量工業(yè)數(shù)據(jù)。這些工業(yè)數(shù)據(jù)分布在不同的孤立信息系統(tǒng)中,存在實(shí)時(shí)性高、復(fù)雜多樣和類別不平衡等問(wèn)題?,F(xiàn)有的產(chǎn)品質(zhì)量預(yù)測(cè)方法往往使用單一系統(tǒng)的數(shù)據(jù)集,且只面向于特定的制造領(lǐng)域,具有較大的局限性,難以滿足制造企業(yè)實(shí)時(shí)質(zhì)量抽檢的預(yù)測(cè)需求。常見(jiàn)的產(chǎn)品質(zhì)量預(yù)測(cè)研究往往局限于質(zhì)量預(yù)警和預(yù)測(cè)性維護(hù)等方面,這些研究難以用于實(shí)際的工業(yè)場(chǎng)景[1-3]。汽車零部件制造存在大批量生產(chǎn)、小樣本抽樣檢測(cè)的特點(diǎn),例如輪胎動(dòng)平衡為全檢,而部分輪胎企業(yè)的均勻性檢測(cè)為抽檢,柴油和汽油發(fā)動(dòng)機(jī)的部分試車工況測(cè)試為抽檢。大批量生產(chǎn)的汽車零部件合格率一般在95%以上,而小樣本抽檢的隨機(jī)性會(huì)造成不合格產(chǎn)品檢出率較低,增加產(chǎn)品售后返修及物流成本。
制造數(shù)據(jù)集中,合格與不合格的產(chǎn)品數(shù)量差距懸殊,存在嚴(yán)重的類別不平衡問(wèn)題?,F(xiàn)有的類別不平衡解決方法分為預(yù)處理方法、代價(jià)敏感方法、算法中心方法和混合方法[4-6],其中,預(yù)處理方法包括特征選擇方法、過(guò)采樣方法、欠采樣方法和混合采樣方法。一般來(lái)說(shuō),過(guò)采樣方法具有更高的性能,文獻(xiàn)[7-10]分別利用Lowner John橢球理論、元啟發(fā)式方法、構(gòu)造覆蓋算法的無(wú)參數(shù)數(shù)據(jù)清洗方法和自組織圖方法對(duì)少數(shù)類樣本進(jìn)行過(guò)采樣,極大提高了對(duì)多領(lǐng)域不平衡數(shù)據(jù)集的分類性能。然而在面對(duì)信息繁雜且蘊(yùn)含眾多領(lǐng)域業(yè)務(wù)特征的制造數(shù)據(jù)集時(shí),現(xiàn)有方法仍有進(jìn)一步的改善空間,由此本文提出了基于密度聚類與多工序制造特征的質(zhì)檢數(shù)據(jù)過(guò)采樣方法。
對(duì)制造數(shù)據(jù)不同層次的類別屬性預(yù)測(cè)包括故障預(yù)測(cè)和產(chǎn)品質(zhì)量預(yù)測(cè)。產(chǎn)品質(zhì)量預(yù)測(cè)在本質(zhì)上是一個(gè)二分類問(wèn)題,即將生產(chǎn)制造數(shù)據(jù)集訓(xùn)練出的有效分類模型用于產(chǎn)品的良率預(yù)測(cè)與抽檢產(chǎn)品的選擇。文獻(xiàn)[1-3]利用支持向量機(jī)(SVM)、隨機(jī)森林、決策樹(shù)和深度學(xué)習(xí)等方法,對(duì)車輛氣壓系統(tǒng)和機(jī)床進(jìn)行故障檢測(cè)及預(yù)測(cè)的研究。朱海平等[11]應(yīng)用遺傳算法改良 EWMA控制圖,量化產(chǎn)品質(zhì)量不合格的概率并優(yōu)化相關(guān)參數(shù)。呂旭澤[12]針對(duì)發(fā)動(dòng)機(jī)多工序裝配的回轉(zhuǎn)力矩檢測(cè)誤差波動(dòng)大、影響裝配質(zhì)量的問(wèn)題,構(gòu)建了基于粒子群參數(shù)優(yōu)化與最小二乘支持向量機(jī)的發(fā)動(dòng)機(jī)多工序裝配預(yù)測(cè)曲軸回轉(zhuǎn)力矩模型。趙雙鳳[13]提出了結(jié)合BP 神經(jīng)網(wǎng)絡(luò)和灰色模型的質(zhì)量預(yù)測(cè)模型來(lái)預(yù)測(cè)軸類零件車削加工測(cè)量值。于文靖[14]研究了汽輪機(jī)模鍛葉片加工質(zhì)量預(yù)測(cè),建立了基于粒子群優(yōu)化(PSO)算法與SVM算法并結(jié)合統(tǒng)計(jì)過(guò)程控制(SPC)的多工序質(zhì)量預(yù)測(cè)控制系統(tǒng)。馮爾磊[15]針對(duì)表面安裝工藝中錫膏印刷環(huán)節(jié),提出一種基于層次聚類和PSO優(yōu)化的 RBF神經(jīng)網(wǎng)絡(luò)的錫膏印刷體積預(yù)測(cè)模型。本文提出了將LightGBM、XGBoost、SVM和MNB模型進(jìn)行Stacking集成的汽車關(guān)重件質(zhì)量抽檢預(yù)測(cè)方法。
大數(shù)據(jù)下的質(zhì)量預(yù)測(cè)控制研究主要集中于質(zhì)量管控過(guò)程框架、數(shù)據(jù)挖掘方法、在線質(zhì)量診斷與監(jiān)控、在線質(zhì)量預(yù)測(cè)等領(lǐng)域[16]。常用質(zhì)量預(yù)測(cè)方法主要有灰色預(yù)測(cè)模型、人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型、支持向量回歸(support vector regression, SVR)預(yù)測(cè)模型、模糊預(yù)測(cè)控制模型以及上述算法的整合模型。針對(duì)產(chǎn)品質(zhì)量預(yù)測(cè)及其關(guān)鍵的類別不平衡問(wèn)題,本文研究基于密度聚類與制造業(yè)務(wù)特征(multi class density cluster-manufacture feature-synthetic minority over-sampling technique,MCDC-MF-SMOTE) 的過(guò)采樣方法。
SMOTE(synthetic minority over-sampling technique)-Regular算法采用K最近鄰 (K-nearest neighbor,KNN)分類算法模擬生成新樣本來(lái)解決數(shù)據(jù)集分類的類別不平衡問(wèn)題,但面對(duì)高維且分布復(fù)雜的數(shù)據(jù)集時(shí),該算法的分類模型準(zhǔn)確率不高,因此出現(xiàn)了SMOTE-borderline、k-means-SMOTE、Random-SMOTE和CURE-SMOTE等改良方法,這些方法考慮了不同類別的數(shù)據(jù)分布情況和少數(shù)類噪聲問(wèn)題,利用分布邊界、聚類和生成權(quán)重調(diào)整等方法解決了SMOTE-Regular的諸多問(wèn)題[17]。制造數(shù)據(jù)集不僅具有高維且復(fù)雜的分布特征,不同類別的樣本數(shù)據(jù)還有重疊,直接使用上述SMOTE改進(jìn)方法,難以有效學(xué)習(xí)到數(shù)據(jù)中所有質(zhì)量影響因素的信息,使得產(chǎn)品質(zhì)量預(yù)測(cè)模型難以用到實(shí)際的生產(chǎn)場(chǎng)景。
圖1所示為基于密度聚類和制造業(yè)務(wù)特征的數(shù)據(jù)過(guò)采樣方法框架。首先對(duì)制造數(shù)據(jù)集進(jìn)行適當(dāng)?shù)念A(yù)處理(包括缺失值處理、錯(cuò)誤數(shù)據(jù)修正、數(shù)據(jù)標(biāo)準(zhǔn)化等操作),形成高質(zhì)量且適合模型訓(xùn)練的數(shù)據(jù)集。筆者將數(shù)據(jù)集按產(chǎn)品質(zhì)量類別標(biāo)簽分成兩個(gè)數(shù)據(jù)集:一個(gè)包含所有不合格產(chǎn)品(少數(shù)類)樣本,另一個(gè)包含所有合格產(chǎn)品(多數(shù)類)樣本。接著對(duì)這兩個(gè)數(shù)據(jù)集進(jìn)行密度聚類,形成對(duì)應(yīng)的類簇集合。利用多工序制造特征計(jì)算少數(shù)類簇的數(shù)據(jù)生成權(quán)重,然后利用數(shù)據(jù)生成權(quán)重對(duì)少數(shù)類簇進(jìn)行數(shù)據(jù)生成,并對(duì)利用多數(shù)類簇判斷生成的數(shù)據(jù)是否合理。最終按照分類模型需要重組數(shù)據(jù),形成平衡后的數(shù)據(jù)集。
圖1 MCDC-MF-SMOTE過(guò)采樣方法架構(gòu)Fig.1 Architecture of MCDC-MF-SMOTEoversampling method
密度聚類方法可以根據(jù)數(shù)據(jù)的分布密集程度考察數(shù)據(jù)間的相似性,相比于k-means等方法,不需要指定類簇?cái)?shù)量就能發(fā)現(xiàn)任意形狀的類簇,且對(duì)噪聲數(shù)據(jù)有更高的魯棒性。
為分析不同聚類方法的適應(yīng)性,利用scikit-learn軟件的datasets工具包合成6種不同分布的數(shù)據(jù)集。選擇6種基于不同理論的聚類方法對(duì)合成的數(shù)據(jù)集進(jìn)行聚類實(shí)驗(yàn),圖2中,從左向右依次為K-means、Agglomerative Clustering、Birch、MeanShift、DBSCAN、OPTICS 6種聚類方法對(duì)合成的數(shù)據(jù)集進(jìn)行聚類實(shí)驗(yàn)的結(jié)果,可以看出,k-means、Birch和MeanShift算法會(huì)拆分密度分布相同的類簇,如第六行的數(shù)據(jù)集6,2個(gè)弧形分布數(shù)據(jù)被錯(cuò)誤地截?cái)酁椴煌惔?第六行的第1、3、4列)。Agglomerative Clustering算法易將數(shù)據(jù)集4、5中不同的類簇識(shí)別為同一類簇。OPTICS算法會(huì)將一些密度分布松散的類簇識(shí)別為噪聲,且多次參數(shù)調(diào)整后的效果仍不理想。DBSCAN算法在每一種數(shù)據(jù)集下都有最好的分類表現(xiàn),能有效區(qū)分不同形狀的類簇,且會(huì)引入更少的噪聲數(shù)據(jù)。所以最終選擇DBSCAN算法對(duì)制造質(zhì)量相關(guān)數(shù)據(jù)集進(jìn)行聚類,并在不同類簇中生成少數(shù)類數(shù)據(jù)。
圖2 聚類實(shí)驗(yàn)結(jié)果Fig.2 Experimental results of clustering
產(chǎn)品制造數(shù)據(jù)集包含人員、設(shè)備、物料和操作等影響產(chǎn)品質(zhì)量的制造特征,這些特征在一段時(shí)間內(nèi)通常會(huì)保持相似的狀態(tài)。產(chǎn)品質(zhì)量問(wèn)題往往是由某一工序環(huán)節(jié)的制造偏差造成的,整體來(lái)看,不合格產(chǎn)品會(huì)在某一時(shí)間段內(nèi)重復(fù)出現(xiàn)。圖3為輪胎動(dòng)平衡檢驗(yàn)的產(chǎn)品質(zhì)量趨勢(shì)圖,橫坐標(biāo)為動(dòng)平衡檢驗(yàn)時(shí)刻,縱坐標(biāo)表示產(chǎn)品質(zhì)量,1表示合格產(chǎn)品,0表示不合格產(chǎn)品。紅框標(biāo)注了聚集出現(xiàn)較多不合格品的情況,可利用滑動(dòng)窗口的方法判斷一定時(shí)間內(nèi)生產(chǎn)的不合格產(chǎn)品數(shù)量是否超過(guò)閾值。若超過(guò)閾值,則滑動(dòng)窗口內(nèi)的數(shù)據(jù)包含更多的低質(zhì)量產(chǎn)品的信息,應(yīng)該受到更多的關(guān)注,過(guò)采樣時(shí),可將此類數(shù)據(jù)賦予更大的過(guò)采樣權(quán)重。
圖3 輪胎動(dòng)平衡質(zhì)量趨勢(shì)Fig.3 Quality trend of tire dynamic balance
利用上述分析的制造數(shù)據(jù)集特征和數(shù)據(jù)的密度分布情況,設(shè)計(jì)對(duì)少數(shù)類簇進(jìn)行數(shù)據(jù)生成時(shí)的過(guò)采樣權(quán)重。首先定義樣本D={(x1,y1), (x2,y2), …, (xn,yn)},其中,n為樣本數(shù)量,xi表示樣本i,yi∈{0,1},其中,1表示質(zhì)量合格,0表示不合格。定義滑動(dòng)窗口Ls-e為固定時(shí)間長(zhǎng)度,s、e分別為滑動(dòng)窗口的開(kāi)始時(shí)間與結(jié)束時(shí)間;minA為低質(zhì)量產(chǎn)品的最小出現(xiàn)次數(shù),N0(Ls-e)為滑動(dòng)窗口內(nèi)出現(xiàn)的低質(zhì)量產(chǎn)品數(shù)量;deplen為滑動(dòng)窗口移動(dòng)步長(zhǎng)。N0(Ls-e)>minA時(shí),窗口為有效滑動(dòng)窗口,屬于某個(gè)有效滑動(dòng)窗口的樣本稱為有效滑動(dòng)樣本;按照指定步長(zhǎng)移動(dòng)滑動(dòng)窗口,最終得出有效滑動(dòng)窗口集合T={Ls,1-e,1,Ls,2-e,2,…,Ls,l-e,l}。由于樣本具有時(shí)間屬性,因此可以判斷出每個(gè)樣本是否歸為有效滑動(dòng)樣本。
接著利用基于混合類型距離的DBSCAN算法對(duì)原始樣本進(jìn)行密度聚類,形成少數(shù)類簇Ca={ca,1,ca,2,…,ca,v}和多數(shù)類簇Cb={cb,1,cb,2,…,cb,w},其中,v、w分別為少數(shù)類簇和多數(shù)類簇的數(shù)量。N(ca,v)為ca,v類簇的樣本數(shù)量,D(ca,v)為ca,v類簇空間所包含的多數(shù)類樣本數(shù)量,S(ca,v)為ca,v類簇含有的有效滑動(dòng)樣本的數(shù)量。類簇包含的有效滑動(dòng)樣本越多,該類簇的數(shù)據(jù)權(quán)重越大。最終定義的類簇過(guò)采樣權(quán)重為
(1)
(2)
基于密度聚類和過(guò)采樣權(quán)重定義方法,介紹基于MCDC-MF-SMOTE的整體流程。定義Doriginal為原始樣本;過(guò)采樣率ηOR為數(shù)據(jù)生成后的少數(shù)類樣本數(shù)量與原始多數(shù)類樣本數(shù)量的比值;J為生成數(shù)據(jù)無(wú)效時(shí)所進(jìn)行的重試次數(shù),防止出現(xiàn)死循環(huán);WDMC表示不同類簇的過(guò)采樣權(quán)重計(jì)算過(guò)程算法;Dbalanced為經(jīng)過(guò)該算法處理后的樣本。使用基于混合類型距離Dmix的密度聚類算法DBSCANDmix對(duì)原始樣本進(jìn)行密度聚類,具體算法如下:
輸入:數(shù)據(jù)集Doriginal←{(x1,y1),(x2,y2),…,(xn,yn)},yi={0,1};
DBSCANDmix; 密度聚類算法參數(shù):半徑∈,最小數(shù)量MinPts;
輸出:Dbalanced←{(x1,y1),(x2,y2),…,(xz,yz)},yz={0,1}.
方法:
1./* (1).初始數(shù)據(jù)集預(yù)處理*/
2.Dprocessed←P(Doriginal);
3./* (2).類分割與每個(gè)少數(shù)類簇的權(quán)重定義 */
4.初始化GenWht←?,Dmin←?,Dmaj←?,
Gq←0,i←0,Ca←?,Cb←?,Dnoise←?;
GenWht,Dmin,Dmaj,Ca,Cb←WDMC(Dprocessed,ε
minPts,deplen,Ls-e,minA,β1,β2,β3);
5.Dnoise←Dprocessed(Dmin,Dmaj);
/* (3).根據(jù)少數(shù)類簇的權(quán)重值生成數(shù)據(jù),通過(guò)多數(shù)類簇去除無(wú)效數(shù)據(jù)*/
6.initializeGq←0,Wall←0,Gc←?.
9.fori←1∶vdo
11.endfor
12.whileGq>0do
13.i←i+1,i←i%v;
14.ifGc,i>0do
15.randomly select (xold,0,xold,1)∈Ca,i;
16.initializej←0;
17.whilej 18.j←j+1,xnew←xold,0+Udynamic(0,1)·(xold,1-xold,0); 19./* judge data valid byCb.*/ 20.ifxnewis validthen 21.Gq←Gq-1, 22.Dmin _balanced←Dmin _balanced∪xnew; 23.break; 24.endif 25.endwhile 26.endif 27.endwhile /* (4).數(shù)據(jù)集重構(gòu) */ 28.initializeDbalanced←?; 29.Dbalanced←Dmaj∪Dmin _balanced∪Dnoise; 重點(diǎn)為步驟(3),即根據(jù)少數(shù)類簇權(quán)重生成數(shù)據(jù),根據(jù)多數(shù)類簇判斷生成數(shù)據(jù)的有效性。數(shù)據(jù)無(wú)效時(shí),重新生成數(shù)據(jù)并判斷其有效性。 圖4所示為不同的少數(shù)類簇與多數(shù)類簇的分布,用min標(biāo)識(shí)的紅色區(qū)域表示少數(shù)類簇,用maj標(biāo)識(shí)的綠色區(qū)域表示多數(shù)類簇,橫縱坐標(biāo)都為數(shù)據(jù)的x、y值坐標(biāo),它們共有3種分布方式:非重疊分布、包圍分布、重疊分布。對(duì)于非重疊分布,從少數(shù)類簇區(qū)域中隨機(jī)選擇2個(gè)樣本點(diǎn),取兩點(diǎn)連接線之間隨機(jī)一點(diǎn)為新生成數(shù)據(jù)。對(duì)于包圍分布,當(dāng)生成數(shù)據(jù)落在多數(shù)類族區(qū)域時(shí),重新選擇2個(gè)樣本點(diǎn),并用迭代折半的方法在距離樣本點(diǎn)更近的位置生成數(shù)據(jù)。對(duì)于重疊分布,首先將重疊區(qū)域設(shè)置為invalid area,然后判斷獨(dú)立少數(shù)類簇區(qū)域是非重疊分布還是包圍分布,并按照響應(yīng)方法進(jìn)行數(shù)據(jù)生成。 (a)非重疊分布 (b)包圍分布 MCDC-MF-SMOTE方法能產(chǎn)生有效的平衡數(shù)據(jù)集,提高多個(gè)分類算法的泛化性能,并使LightGBM(light gradient boosting machine)模型獲得最好的產(chǎn)品質(zhì)量預(yù)測(cè)結(jié)果??紤]到汽車零部件生產(chǎn)過(guò)程和相關(guān)制造數(shù)據(jù)集的復(fù)雜性,單一分類算法難以適應(yīng)各種的制造場(chǎng)景。例如Expo和Higgs數(shù)據(jù)集上的二分類問(wèn)題,極限梯度提升(extreme gradient boosting,XGBoost)模型的分類性能強(qiáng)于LightGBM模型。本文提出基于Stacking集成的LXSMS(LightGBM- XGBoost-SVM-MNB Stacking)方法,如圖5所示,具體步驟如下: 圖5 LXSMS方法整體流程Fig.5 Overall flow of LXSMS method (1)數(shù)據(jù)預(yù)處理。該步驟初步梳理制造數(shù)據(jù)集,需要考慮數(shù)據(jù)的類型,如數(shù)值型、時(shí)間型和文本型的屬性以及屬性背后的實(shí)際質(zhì)量相關(guān)性。 (2)多工序制造特征構(gòu)建。經(jīng)過(guò)對(duì)制造數(shù)據(jù)集的預(yù)處理和對(duì)多工序制造質(zhì)量相關(guān)影響因素的了解,利用多個(gè)已有特征構(gòu)建新的組合特征,這些組合特征往往在最終模型中起決定作用。 (3)數(shù)據(jù)集劃分。為保證訓(xùn)練出的模型符合真實(shí)的產(chǎn)品質(zhì)量預(yù)測(cè)場(chǎng)景,需在數(shù)據(jù)平衡及降維之前進(jìn)行數(shù)據(jù)集劃分。首先按照業(yè)務(wù)發(fā)生時(shí)間對(duì)數(shù)據(jù)進(jìn)行先后排序,之后將前80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,將余下的數(shù)據(jù)作為測(cè)試數(shù)據(jù)集。 (4)MCDC-MF-SMOTE算法的數(shù)據(jù)平衡。制造數(shù)據(jù)集存在類別不平衡問(wèn)題,嚴(yán)重影響分類方法的性能,MCDC-MF-SMOTE算法充分考慮了數(shù)據(jù)分布和制造業(yè)務(wù)特征,能生成高質(zhì)量的平衡數(shù)據(jù)集,有效解決該問(wèn)題。 (5)基于特征重要性的維度縮減。數(shù)據(jù)集特征過(guò)多時(shí),部分特征往往是質(zhì)量影響度很小的冗余特征,且模型需要耗費(fèi)更長(zhǎng)的時(shí)間去訓(xùn)練和調(diào)整參數(shù),因此使用隨機(jī)森林對(duì)所有特征進(jìn)行重要性排序并剔除部分排名靠后的特征。該方法能在保證特征蘊(yùn)含足夠知識(shí)的前提下,縮短模型訓(xùn)練時(shí)間,提高模型分類性能。 (6)Stacking集成。第一層基分類器主要采用分類模型LightGBM、XGBoost、SVM(支持向量機(jī))和MNB(多項(xiàng)式先驗(yàn)分布樸素貝葉斯),每個(gè)模型都采用五折交叉驗(yàn)證的方法訓(xùn)練并輸出預(yù)測(cè)結(jié)果到第二層元分類器層。需要注意的是,五折交叉采樣需采用分層抽樣的方式,以保證不同模型使用同樣分布的數(shù)據(jù)。LightGBM模型訓(xùn)練極快且比邏輯回歸模型的分類性能高,所以選擇LightGBM模型作為元分類器,利用第一層得到的預(yù)測(cè)數(shù)據(jù)進(jìn)行訓(xùn)練并得出最終的產(chǎn)品質(zhì)量預(yù)測(cè)結(jié)果。 (7)模型評(píng)估與參數(shù)調(diào)整。評(píng)估模型需綜合考慮模型的訓(xùn)練時(shí)間和受試者工作特征曲線 (receiver operating characteristic curve,ROC)、ROC曲線下的面積(area under curve, AUC)等指標(biāo),并利用網(wǎng)格搜索方法調(diào)整參數(shù)。模型達(dá)到要求時(shí),保存模型為PMML(預(yù)測(cè)模型標(biāo)記語(yǔ)言)格式,并將其應(yīng)用到實(shí)際生產(chǎn)業(yè)務(wù)。 本文實(shí)驗(yàn)數(shù)據(jù)源于青島雙星股份公司MES數(shù)據(jù)庫(kù),輪胎生產(chǎn)均勻性檢驗(yàn)階段采取的是20%隨機(jī)抽檢的方式。利用均勻性檢驗(yàn)之前的所有數(shù)據(jù)訓(xùn)練模型來(lái)預(yù)測(cè)均勻性檢驗(yàn)階段的產(chǎn)品質(zhì)量,輔助進(jìn)行均勻性抽檢工作,降低不合格輪胎的漏檢率。表1所示為相關(guān)數(shù)據(jù)的說(shuō)明。經(jīng)過(guò)數(shù)據(jù)預(yù)處理,最終使用2019年1月到4月的269 835條輪胎生產(chǎn)制造數(shù)據(jù),其中,合格輪胎254 370條、不合格輪胎15 465條,合格率為94.27%,不平衡比為15.4。 表1 輪胎制造數(shù)據(jù)說(shuō)明 準(zhǔn)確率(Precision)和召回率(Recall)僅關(guān)注單一維度的模型性能,難以綜合評(píng)估不平衡數(shù)據(jù)下的模型對(duì)不同類別的泛化能力。AUC、ROC等指標(biāo)有一定偏向性,使用準(zhǔn)確召回率曲線面積(precision-recall curve,AUCPRC)能在一定程度上修正AUC、ROC的偏向性,它是以準(zhǔn)確率ηp為Y軸、召回率ηrec為X軸所形成的曲線下的面積。針對(duì)批量生產(chǎn)的汽車零部件工序抽樣檢驗(yàn)的質(zhì)量預(yù)測(cè)希望預(yù)測(cè)更多的不合格產(chǎn)品,召回率ηrec允許值更小,針對(duì)此類場(chǎng)景,選擇AUCPRC來(lái)綜合評(píng)價(jià)產(chǎn)品質(zhì)量預(yù)測(cè)模型更有意義。同時(shí)結(jié)合抽檢比例的業(yè)務(wù)特征,最終選擇預(yù)測(cè)為合格樣本數(shù)量與總樣本數(shù)量的準(zhǔn)確率ηP、召回率ηrec、綜合評(píng)價(jià)指標(biāo)F1-Score(SF1)和AAUCPRC作為模型的評(píng)價(jià)指標(biāo)。 本次實(shí)驗(yàn)主要使用算法XGBoost、LightGBM和SVM(支持向量機(jī)),其中,GBoost和LightGBM均以binary:logistic為目標(biāo)函數(shù)(objective),已定義評(píng)價(jià)函數(shù)(eval_metric)為AUCPRC,提升類型(booster_type)為梯度提升樹(shù)(gradient boosting decision tree,GBDT)算法,學(xué)習(xí)率(learning_rate)、樹(shù)深(max_depth)和樹(shù)的個(gè)數(shù)(n_estimators)參數(shù)采用網(wǎng)格搜索選取最優(yōu)值,其他參數(shù)取默認(rèn)值。SVM使用sklearn.svm.SVC方法,kernel設(shè)置為rfb,class_weight設(shè)置為balanced,利用網(wǎng)格搜索調(diào)整懲罰系數(shù)C,其他參數(shù)均取默認(rèn)值。過(guò)采樣方法中,Original表示不進(jìn)行過(guò)采樣,其他過(guò)采樣方法均使用python算法庫(kù)對(duì)原始數(shù)據(jù)進(jìn)行處理,MCDC-MF-SMOTE算法設(shè)置ε=10,minPts=3,ηOR=1,β1=β2=β3=1,jump=3,Ls-e=600,minA=3,deplen=10。最終的實(shí)驗(yàn)結(jié)果取五折交叉驗(yàn)證的平均值。結(jié)果如表2所示,可以看出, MCDC-MF-SMOTE方法取得最大的SF1、ηrec和AAUCPRC且ηP均小于0.2,符合輪胎均勻性檢測(cè)按20%比例隨機(jī)抽檢的業(yè)務(wù)要求。相比除了Original的其他過(guò)采樣方法,MCDC-MF-SMOTE的AAUCPRC增大了5%~49%。此外,LightGBM配合MCDC-MF-SMOTE過(guò)采樣方法取得了最大的ηrec、SF1和AAUCPRC值。 表2 不同過(guò)采樣方法實(shí)驗(yàn)結(jié)果 用過(guò)采樣方法處理不平衡數(shù)據(jù)集時(shí),過(guò)采樣率ηOR設(shè)為1表示少數(shù)類樣本采樣數(shù)量與多數(shù)類樣本數(shù)量相同。不同的過(guò)采樣率會(huì)影響分類模型的最終性能,應(yīng)用輪胎制造數(shù)據(jù)集探討MCDC-MF-SMOTE方法的不同過(guò)采樣率對(duì)分類性能的影響。LightGBM和XGBoost使用默認(rèn)參數(shù)設(shè)置,MCDC-MF-SMOTE僅更改ηOR的參數(shù)設(shè)置,采用五折交叉驗(yàn)證,最終結(jié)果取平均值。 實(shí)驗(yàn)結(jié)果如圖6所示,橫軸表示過(guò)采樣率ηOR,ηOR=0表示不進(jìn)行過(guò)采樣??v軸分別表示ηP、ηrec和AAUCPRC的性能指標(biāo)值。可以看出,ηOR較小時(shí),XGBoost有更好的性能。隨著ηOR的增大,XGBoost和LightGBM整體性能都在提升,但LightGBM整體性能的提升速度更高。XGBoost在ηOR超過(guò)4.5、LightGBM在ηOR超過(guò)3后,ηrec和AAUCPRC都趨于穩(wěn)定,且滿足ηP小于0.2。特別是LightGBM的AUCPRC指標(biāo)已經(jīng)到達(dá)了0.803, 比ηOR=1時(shí)的性能提升了約8%。隨著ηOR的進(jìn)一步增大,XGBoost和LightGBM的性能趨于穩(wěn)定,但是ηP卻在逐步增大,超過(guò)了0.2的抽檢閾值,不滿足輔助質(zhì)量抽檢的業(yè)務(wù)需要。整體來(lái)看,LightGBM有著更好的性能,且模型訓(xùn)練耗時(shí)約為XGBoost的1/10。 (a)準(zhǔn)確率 本實(shí)驗(yàn)主要對(duì)比算法LXSMS、LightGBM、XGBoost、SVM、隨機(jī)森林和MNB。選取輪胎制造數(shù)據(jù)集的80%數(shù)據(jù)為訓(xùn)練數(shù)據(jù),余下20%數(shù)據(jù)作為測(cè)試數(shù)據(jù)。每個(gè)算法都采取MCDC-MF-SMOTE方法平衡數(shù)據(jù),并設(shè)置ηOR為其最優(yōu)性能時(shí)的過(guò)采樣率,設(shè)置ε=10,minPts=3,ηOR=1,β1=β2=β3=1,jump=3,Ls-e=600,minA=3,deplen=10。 LXSMS在集成模型的第一層中使用了五折交叉驗(yàn)證,所以除了LXSMS,其他方法的最終實(shí)驗(yàn)結(jié)果取五折交叉驗(yàn)證的平均值。 由表3的實(shí)驗(yàn)結(jié)果可以看出,相比單一模型中表現(xiàn)最好的LightGBM,LXSMS的ηrec和AAUCPRC分別提高了約6%和3%;相比表現(xiàn)最差的MNB,LXSMS的ηrec和AAUCPRC分別提高了約36%和31%。這表明基于Stacking集成的LSXMS方法有著更高的產(chǎn)品質(zhì)量預(yù)測(cè)性能。 表3 不同分類算法的產(chǎn)品質(zhì)量預(yù)測(cè)性能 產(chǎn)品制造是一個(gè)持續(xù)的過(guò)程,會(huì)源源不斷產(chǎn)生新的數(shù)據(jù),隨著時(shí)間的推移,產(chǎn)品質(zhì)量預(yù)測(cè)模型的預(yù)測(cè)能力往往會(huì)持續(xù)下降。為了分析不同模型的穩(wěn)定性即模型對(duì)新數(shù)據(jù)的預(yù)測(cè)能力,本次實(shí)驗(yàn)將269 835條輪胎制造數(shù)據(jù)按照時(shí)間進(jìn)行排序,取前30%的數(shù)據(jù)為訓(xùn)練數(shù)據(jù),后70%的數(shù)據(jù)為測(cè)試數(shù)據(jù),測(cè)試算法LXSMS、LightGBM、XGBoost、SVM、隨機(jī)森林和MNB的穩(wěn)定性。 由圖7可以看出,在每一種數(shù)據(jù)劃分下,LSXMS的ηrec都最大且下降緩慢,有較高的穩(wěn)定性。隨著輪胎數(shù)量的增長(zhǎng),模型的預(yù)測(cè)性能持續(xù)降低,不適應(yīng)產(chǎn)品抽檢的業(yè)務(wù)要求,所以需要在適當(dāng)時(shí)刻,采取增量更新的方式訓(xùn)練新的模型。 圖7 不同分類方法產(chǎn)品質(zhì)量預(yù)測(cè)穩(wěn)定性Fig.7 Stability of product quality prediction bydifferent classification methods 為進(jìn)一步驗(yàn)證LXSMS方法在真實(shí)產(chǎn)品制造場(chǎng)景中的適應(yīng)性,將已標(biāo)記檢驗(yàn)質(zhì)量的269 835條輪胎生產(chǎn)數(shù)據(jù),按照時(shí)間節(jié)點(diǎn)劃分,將2019年3月之前的210 808條數(shù)據(jù)作為模型訓(xùn)練數(shù)據(jù),將2019年4月的59 027條數(shù)據(jù)作為輪胎檢驗(yàn)數(shù)據(jù)。對(duì)于輪胎檢驗(yàn)數(shù)據(jù),設(shè)置隨機(jī)抽檢和模型抽檢對(duì)照實(shí)驗(yàn),并分別進(jìn)行兩種檢驗(yàn)處理:隨機(jī)抽檢從輪胎檢驗(yàn)數(shù)據(jù)中重復(fù)10次隨機(jī)取出20%的輪胎并標(biāo)記為抽檢輪胎,結(jié)果取平均值(輪胎數(shù)量如果為小數(shù)則四舍五入為整數(shù));模型抽檢使用LXSMS方法從訓(xùn)練數(shù)據(jù)中構(gòu)建出初始質(zhì)量預(yù)測(cè)模型,并利用該模型模擬實(shí)時(shí)預(yù)測(cè)過(guò)程,將預(yù)測(cè)不合格的輪胎標(biāo)記為抽檢輪胎。最后使用已知的輪胎質(zhì)量結(jié)果來(lái)判斷兩種抽檢方式的性能,如表4所示。 表4 隨機(jī)抽檢與模型抽檢的性能 從實(shí)驗(yàn)結(jié)果可以看出,模型抽檢在抽檢了17.1%的輪胎后,達(dá)到了85%的不合格輪胎檢出率,而隨機(jī)抽檢只檢出22%的不合格輪胎。由此可見(jiàn),本文提出的LXSMS方法能顯著提高不合格輪胎檢出率,在更低檢驗(yàn)成本的情況下,檢測(cè)出更多的不合格輪胎,幫助企業(yè)提升經(jīng)濟(jì)效益。 深度學(xué)習(xí)常用于圖像、音頻和文本等領(lǐng)域。對(duì)于汽車零部件質(zhì)量抽檢預(yù)測(cè)及其相關(guān)的多工序制造數(shù)據(jù)集來(lái)說(shuō),由于質(zhì)量不合格品的負(fù)小樣本數(shù)據(jù)較少,因此深度學(xué)習(xí)難以取得良好的應(yīng)用效果。 從數(shù)據(jù)量來(lái)說(shuō),制造數(shù)據(jù)集中的有效數(shù)據(jù)往往是較小規(guī)模的樣本,相比動(dòng)輒過(guò)千萬(wàn)的圖像與文本數(shù)據(jù),深度學(xué)習(xí)算法難以訓(xùn)練出高泛化能力的模型?;诩煞椒ǖ腖SXMS能從小樣本數(shù)據(jù)集中充分學(xué)習(xí)到數(shù)據(jù)特征,且支持加入業(yè)務(wù)規(guī)則進(jìn)行精細(xì)化調(diào)整,更加適合中小規(guī)模數(shù)據(jù)集的制造數(shù)據(jù)分析。 從效率來(lái)說(shuō),深度學(xué)習(xí)需要耗費(fèi)更多的計(jì)算成本和更長(zhǎng)的訓(xùn)練時(shí)間,且往往需要高性能GPU的支持,而LSXMS使用CPU即可進(jìn)行訓(xùn)練。模型訓(xùn)練需要能在普通配置的服務(wù)器中進(jìn)行,更符合企業(yè)應(yīng)用要求。 從業(yè)務(wù)來(lái)說(shuō),訓(xùn)練出的質(zhì)量預(yù)測(cè)模型不僅要適應(yīng)復(fù)雜多變的產(chǎn)品質(zhì)量場(chǎng)景,還能對(duì)多工序制造特征進(jìn)行分析,為產(chǎn)品工藝參數(shù)優(yōu)化提供優(yōu)化方向。LXSMS模型能夠提取出小樣本特征的重要性,重要性高的特征蘊(yùn)含著更高的業(yè)務(wù)影響能力;模型支持反饋訓(xùn)練及調(diào)整,能滿足企業(yè)質(zhì)量預(yù)測(cè)的需要。 綜上所述,對(duì)于有限規(guī)模的制造數(shù)據(jù)集來(lái)說(shuō),采用何種模型需要結(jié)合業(yè)務(wù)目標(biāo)來(lái)定,并綜合考慮數(shù)據(jù)量、數(shù)據(jù)特征、訓(xùn)練成本和應(yīng)用場(chǎng)景等問(wèn)題。 基于雙星輪胎制造業(yè)務(wù)背景,設(shè)計(jì)了圖8所示的服務(wù)框架,將LXSMS產(chǎn)品質(zhì)量預(yù)測(cè)方法應(yīng)用于實(shí)際的輪胎制造質(zhì)量抽檢預(yù)測(cè)。 圖8 產(chǎn)品質(zhì)量預(yù)測(cè)服務(wù)框架Fig.8 Service framework of product quality prediction 對(duì)于歷史質(zhì)量檢測(cè)與生產(chǎn)制造數(shù)據(jù),直接使用Logstash工具將數(shù)據(jù)從不同系統(tǒng)中批量導(dǎo)入到Elasticsearch集群,方便對(duì)數(shù)據(jù)進(jìn)行可視化質(zhì)量分析、構(gòu)建初始產(chǎn)品質(zhì)量預(yù)測(cè)模型。 對(duì)生產(chǎn)的實(shí)時(shí)數(shù)據(jù)來(lái)說(shuō),由于PLC只包含終端設(shè)備的生產(chǎn)數(shù)據(jù),輪胎描述和人員編號(hào)等信息需要從MES和ERP等系統(tǒng)抽取集成,而Logstash難以支持復(fù)雜的中間數(shù)據(jù)處理,因此使用Kafka分布式消息隊(duì)列對(duì)所有數(shù)據(jù)進(jìn)行集成,并將數(shù)據(jù)實(shí)時(shí)推送到Elasticsearch集群,為實(shí)時(shí)產(chǎn)品質(zhì)量分析提供數(shù)據(jù)來(lái)源。由于涉及到數(shù)據(jù)的重復(fù)消費(fèi)問(wèn)題,故可以采用“發(fā)布-訂閱”的消息傳遞模式,構(gòu)建多個(gè)consumer.group.id來(lái)實(shí)現(xiàn)數(shù)據(jù)的多次消費(fèi)。其中,待檢驗(yàn)產(chǎn)品數(shù)據(jù)對(duì)應(yīng)動(dòng)平衡檢驗(yàn)工序后所構(gòu)建的待質(zhì)量抽檢預(yù)測(cè)數(shù)據(jù)。檢驗(yàn)后產(chǎn)品數(shù)據(jù)對(duì)應(yīng)均勻性檢驗(yàn)工序后所構(gòu)建的包含實(shí)際已檢驗(yàn)的輪胎數(shù)據(jù)。最終所有數(shù)據(jù)都會(huì)歸檔到Hadoop中,用于構(gòu)建產(chǎn)品質(zhì)量預(yù)測(cè)模型,并導(dǎo)出為支持跨平臺(tái)運(yùn)行的PMML格式文件。該文件由質(zhì)量預(yù)測(cè)模型管理服務(wù)負(fù)責(zé)管理,可以方便地被Java解析并完成實(shí)時(shí)輪胎質(zhì)量預(yù)測(cè)任務(wù)。 針對(duì)輪胎制造數(shù)據(jù)與輪胎檢測(cè)數(shù)據(jù)的不平衡、輪胎均勻性檢測(cè)中不合格品檢出率的預(yù)測(cè)需求,提出了基于密度聚類與多工序制造特征的質(zhì)檢數(shù)據(jù)過(guò)采樣MCDC-MF-SMOTE方法。與其他數(shù)據(jù)過(guò)采樣方法相比,該方法的AAUCPRC提高5%~49%,有效地解決了合格與不合格的產(chǎn)品數(shù)量不平衡對(duì)不合格品抽出率預(yù)測(cè)的影響。為進(jìn)一步提高產(chǎn)品質(zhì)量預(yù)測(cè)方法的適應(yīng)性,提出了基于Stacking集成的汽車零部件抽檢不合格品預(yù)測(cè)LXSMS方法,利用MCDC-MF-SMOTE方法解決小樣本檢測(cè)數(shù)據(jù)類別不平衡問(wèn)題,將LightGBM、XGBoost、SVM和MNB模型進(jìn)行Stacking集成來(lái)預(yù)測(cè)抽檢工序的不合格品。實(shí)驗(yàn)表明,該方法具有更高的穩(wěn)定性和不合格品檢出率的預(yù)測(cè)性能,相比于隨機(jī)抽檢,不合格產(chǎn)品檢出率提高了63%。 對(duì)于汽車零部件大批量生產(chǎn)、小樣本抽檢的不合格品檢出預(yù)測(cè)問(wèn)題,雖然本文所提出的LXSMS集成學(xué)習(xí)方法性能優(yōu)異,但是集成學(xué)習(xí)算法一直存在著模型訓(xùn)練時(shí)間長(zhǎng)的問(wèn)題。未來(lái)需要針對(duì)制造業(yè)小樣本不平衡的數(shù)據(jù)集,研究更高效的模型訓(xùn)練方法,以及更加實(shí)時(shí)穩(wěn)定的模型應(yīng)用策略。2 Stacking集成的產(chǎn)品質(zhì)量預(yù)測(cè)方法
3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
3.1 不同過(guò)采樣方法分類性能對(duì)比實(shí)驗(yàn)
3.2 不同過(guò)采樣率分類性能對(duì)比實(shí)驗(yàn)
3.3 不同分類方法的產(chǎn)品質(zhì)量預(yù)測(cè)性能對(duì)比實(shí)驗(yàn)
3.4 不同分類方法產(chǎn)品質(zhì)量預(yù)測(cè)穩(wěn)定性實(shí)驗(yàn)
3.5 隨機(jī)抽檢與模型抽檢性能對(duì)比實(shí)驗(yàn)
3.6 深度學(xué)習(xí)對(duì)不平衡制造數(shù)據(jù)集的適用性分析
3.7 實(shí)時(shí)產(chǎn)品質(zhì)量預(yù)測(cè)應(yīng)用設(shè)計(jì)
4 結(jié)論