黃梓偉,印四華
(廣東工業(yè)大學(xué)機(jī)電工程學(xué)院,廣州 510006)
隨著社會(huì)的進(jìn)步和生產(chǎn)技術(shù)的發(fā)展,塑料和鋼鐵、混凝土、木材成為當(dāng)今四大工業(yè)材料[1]。受益于人均塑料使用量的增長,世界塑料的總產(chǎn)量在2016—2018年呈現(xiàn)逐年增加的趨勢,在2018年,中國塑料產(chǎn)量占比達(dá)到亞洲塑料產(chǎn)量的30%,高達(dá)1.08億噸,高居亞洲第一[2]。綜合來看,注塑行業(yè)占有龐大的市場,具有廣闊的市場前景。
注塑成型過程屬于典型的間歇過程,本身具有反應(yīng)復(fù)雜、多工序、變量高度耦合等特點(diǎn),由于工作環(huán)境惡劣以及以及設(shè)備老化等問題,注塑機(jī)實(shí)際工作中可能會(huì)出現(xiàn)各種異常,進(jìn)而造成注塑零件質(zhì)量缺陷以及能源浪費(fèi)等問題[3]。企業(yè)通過現(xiàn)場定期巡查的方式檢查注塑機(jī)是否異常,存在效率低下、人工成本高等問題。隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,注塑成型過程采集到的工業(yè)過程數(shù)據(jù)為基于數(shù)據(jù)驅(qū)動(dòng)的注塑機(jī)異常檢測方法提供了數(shù)據(jù)基礎(chǔ)。
基于數(shù)據(jù)驅(qū)動(dòng)的多元統(tǒng)計(jì)分析方法在間歇工業(yè)過程異常檢測中得到了廣泛的應(yīng)用,如多向主成分分析(MPCA)[4-6]和多向偏最小二乘(MPLS)[7-8]通過對(duì)過程數(shù)據(jù)進(jìn)行特征提取,并基于降維處理后的數(shù)據(jù)建立檢測模型,但以上方法要求過程變量服從多元高斯分布以及線性關(guān)系,當(dāng)過程變量不服從非高斯分布或呈現(xiàn)非線性關(guān)系時(shí),勢必提高系統(tǒng)的漏報(bào)率和誤報(bào)率。
考慮到實(shí)際工業(yè)過程變量呈現(xiàn)強(qiáng)非線性,Jessen[9]在KPCA的基礎(chǔ)上提出一種非線性特征提取算法——核熵成分分析(KECA),它是從瑞利熵?fù)p失最小的角度提取過程的非線性特征信息,在數(shù)據(jù)結(jié)構(gòu)特征提取上具有一定的優(yōu)勢。KECA方法被引入間歇工業(yè)過程中,稱為多向核熵成分分析(MKECA)[10-11],但MKECA沒有考慮到復(fù)雜工業(yè)過程具有的多模態(tài)和非高斯特性,異常檢測性能有待提高。針對(duì)多模態(tài)問題,Ma[12]根據(jù)不同模態(tài)數(shù)據(jù)均值和標(biāo)準(zhǔn)差存在差異的特點(diǎn),提出局部近鄰標(biāo)準(zhǔn)化取代全局標(biāo)準(zhǔn)化策略對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,解決了復(fù)雜工業(yè)數(shù)據(jù)存在的多模態(tài)問題。顧幸生等[13]將LNS和MKECA相結(jié)合進(jìn)行特征提取,但其忽略了數(shù)據(jù)的非高斯特性。
MKECA對(duì)降維后的數(shù)據(jù)建立T2和Q統(tǒng)計(jì)量進(jìn)行異常檢測,由于注塑成型過程數(shù)據(jù)存在混合分布的情況,檢測效果受限[14]。Tax等[15]在支持向量機(jī)(SVM)的基礎(chǔ)上提出了支持向量數(shù)據(jù)描述(SVDD)算法,該算法對(duì)數(shù)據(jù)的分布沒有要求,可以應(yīng)用于數(shù)據(jù)不服從多元高斯分布的情況下的異常檢測[16-18]。
綜上,本文針對(duì)注塑成型過程中存在多模態(tài)、混合分布等問題,對(duì)MKECA方法提出相應(yīng)的改進(jìn)。改進(jìn)的MKECA方法首先對(duì)每個(gè)樣本求取局部近鄰集,根據(jù)局部近鄰集的均值和標(biāo)準(zhǔn)差對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化;然后采用MKECA算法進(jìn)行特征提取,利用降維后的訓(xùn)練集對(duì)SVDD進(jìn)行異常檢測,通過對(duì)測試樣本計(jì)算統(tǒng)計(jì)量D以判斷注塑機(jī)是否異常。最終通過實(shí)驗(yàn)驗(yàn)證本方法的對(duì)注塑機(jī)異常檢測的有效性和優(yōu)越性。
注塑機(jī)的大致結(jié)構(gòu)如圖1所示,其主要包括電氣控制系統(tǒng)、液壓傳動(dòng)系統(tǒng)、潤滑系統(tǒng)、合模系統(tǒng)、加熱及冷卻系統(tǒng)、注射系統(tǒng)等部分組成。
圖1 注塑機(jī)結(jié)構(gòu)
注塑成型過程是一個(gè)典型的間歇生產(chǎn)過程:顆粒狀的高分子材料進(jìn)入機(jī)筒,經(jīng)過螺桿的擠壓和加熱裝置加熱后成為熔融態(tài)。在螺桿的推動(dòng)作用下,熔體通過機(jī)筒前端的噴嘴進(jìn)入模具型腔,經(jīng)過一段時(shí)間的冷卻后成為塑料制品。
基于數(shù)據(jù)驅(qū)動(dòng)的多元統(tǒng)計(jì)分析方法具有以下假設(shè):各變量服從高斯分布、線性系統(tǒng)、單一模態(tài)等。工業(yè)過程往往是強(qiáng)非線性過程;由于外界環(huán)境變化以及生產(chǎn)計(jì)劃的更改以及注塑機(jī)本身固有特性等因素,注塑成型過程具有多個(gè)穩(wěn)定工況,需要頻繁更換生產(chǎn)條件,導(dǎo)致其具有多模態(tài)的特性;此外,工業(yè)過程的數(shù)據(jù)往往存在混合分布的特點(diǎn)。
綜上,傳統(tǒng)多元統(tǒng)計(jì)分析方法要求數(shù)據(jù)滿足某些假設(shè),而如果忽略了注塑機(jī)本身存在的特性,簡單采用傳統(tǒng)的多元統(tǒng)計(jì)算法進(jìn)行檢測,必然很難對(duì)注塑成型過程進(jìn)行有效地監(jiān)控,造成異常檢出率不高的后果。
由于工業(yè)過程變量的量綱存在差異,在進(jìn)行數(shù)據(jù)分析之前往往需要全局標(biāo)準(zhǔn)化統(tǒng)一量綱:
式中:xi為原始數(shù)據(jù)集中的每個(gè)樣本;mean(X)為所有樣本的均值;s td(X)為所有樣本的標(biāo)準(zhǔn)差;zi為經(jīng)過標(biāo)準(zhǔn)化的樣本。
經(jīng)過z-score處理后的數(shù)據(jù)消除變量之間量綱不一致的影響,但不能將多模態(tài)數(shù)據(jù)統(tǒng)一為單一模態(tài)。多模態(tài)數(shù)據(jù)具有多中心、各工況分布結(jié)構(gòu)不同的特點(diǎn),故本文采用局部近鄰標(biāo)準(zhǔn)化(LNS)[12]對(duì)方差顯著不同的多模態(tài)數(shù)據(jù)進(jìn)行預(yù)處理:首先根據(jù)歐氏距離計(jì)算出樣本x i與其他樣本的距離,并選取前k個(gè)近鄰樣本組成樣本x i的近鄰集;其次根據(jù)式(2)和式(3)計(jì)算出xi近鄰集N(xi)的均值和標(biāo)準(zhǔn)差,然后根據(jù)式(4)進(jìn)行局部近鄰標(biāo)準(zhǔn)化處理:
式中:m(N(x i))為xi近鄰集N(xi)的均值;s(N(x i))為xi近鄰集N(xi)的標(biāo)準(zhǔn)差。
通過LNS操作將不同分布、不同中心的多模態(tài)數(shù)據(jù)聚合為離散程度和中心近似相同的單模態(tài)數(shù)據(jù)。
核熵成分分析(KECA)是一種非線性特征提取方法,由于其能夠有效減小降維前后數(shù)據(jù)信息損失,改善模型性能,近年來被引入到工業(yè)過程檢測領(lǐng)域[19-20]。
核熵成分分析(KECA)采用瑞利熵對(duì)數(shù)據(jù)信息進(jìn)行度量,其表達(dá)形式為:
式中:H(p)為瑞利熵;p(x)為中心化后的樣本x的概率密度函數(shù)。
由于對(duì)數(shù)函數(shù)的單調(diào)性,式(5)可以轉(zhuǎn)化為:
通過對(duì)V(p)的估計(jì)可求得瑞利熵H(p)。p(x)通過parzen密度估計(jì)法進(jìn)行估計(jì):
將式(7)代入式(6),以均值對(duì)V(p)進(jìn)行估計(jì)即可實(shí)現(xiàn)對(duì)H(p)的分析。因此可得:
式中:I為(N×1)的單位列向量;K為維數(shù)( )N×N的核矩陣。
由式(5)和式(9)可知,瑞利熵H(p)可由樣本核矩陣K求出,對(duì)核矩陣K進(jìn)行特征值分解,可得:
式 中:D=diag(λ1,…,λN)為 特 征 值 對(duì) 角 陣;E=[e1,…,e n]為特征向量矩陣。
將式(10)代入式(9),得:
任一非線性映射樣本φ(x)在特征向量ei的核熵投影ti可表示為:
KECA算法通過在主元空間和殘差空間分別建立T2和Q統(tǒng)計(jì)量,一旦T2或者Q大于對(duì)應(yīng)的閾值,則說明出現(xiàn)異常,T2統(tǒng)計(jì)量和Q統(tǒng)計(jì)量定義如下:
式中:ti為主元向量;∧-1為由選取的前A個(gè)特征值組成的對(duì)角陣的逆陣。
T2統(tǒng)計(jì)量閾值定義如下:
式中:Fα(A,N-A)為帶有A和(N-K)個(gè)自由度、置信水平為α的F分布的臨界值。
Q統(tǒng)計(jì)量閾值Qα定義如下:
式中:;cα為高斯分布(1-α)%的置信限。
SVDD的基本思想是:將數(shù)據(jù)映射到高維特征空間,在高維特征空間構(gòu)造一個(gè)包含幾乎全部目標(biāo)數(shù)據(jù)的體積最小的超球體,落在超球體內(nèi)部及表面的數(shù)據(jù)則是正常數(shù)據(jù),其余則為異常數(shù)據(jù),該算法對(duì)數(shù)據(jù)分布無假設(shè),并且異常監(jiān)控統(tǒng)計(jì)量比較敏感。其原理如圖2所示。
圖2 SVDD模型
故SVDD的優(yōu)化目標(biāo)就是求一個(gè)中心為a,半徑為R的超球面:
式中:x i(i=1,2,…,n)為目標(biāo)數(shù)據(jù);ξi為松弛變量;C為懲罰系數(shù)。
通過引入拉格朗日乘子αi、αj以及核策略將上式最優(yōu)化問題轉(zhuǎn)化為下面的對(duì)偶問題:
由式(17)、(18)得到超球體的半徑滿足:
式中:xk為支持向量。
若測試樣本z屬于目標(biāo)樣本集,則應(yīng)滿足下列條件:
故通過構(gòu)造如下監(jiān)控統(tǒng)計(jì)量以及相應(yīng)控制限進(jìn)行異常檢測:
多批次是注塑成型過程產(chǎn)生的數(shù)據(jù)的主要特征之一,其包括時(shí)間、批次、過程變量三個(gè)維度,用三維矩陣X(I×J×K)表示,其中I代表批次,J代表變量,K代表采樣點(diǎn)。在實(shí)際生產(chǎn)過程中,直接對(duì)三維數(shù)據(jù)建模存在困難,將三維數(shù)據(jù)利用批次-變量展開法展開為二維數(shù)據(jù)再進(jìn)行建模,如圖3所示。
圖3 三維數(shù)據(jù)展開過程
首先將注塑成型過程的原始數(shù)據(jù)X(I×J×K)沿批次展開為X(I×(K×J)),對(duì)其進(jìn)行z-score標(biāo)準(zhǔn)化處理,其次將標(biāo)準(zhǔn)化后的矩陣X(I×(K×J))再沿變量方向重新排列成二維矩陣X((I×K)×J)。采用局部近鄰標(biāo)準(zhǔn)化取代全局標(biāo)準(zhǔn)化對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)的多模態(tài)特性對(duì)異常檢測效果的影響。
(1)采集注塑機(jī)正常工況下的數(shù)據(jù)作為本文所提算法的訓(xùn)練集;
(2)對(duì)訓(xùn)練集按照批次-變量法展開為二維數(shù)據(jù);
(3)為訓(xùn)練集中的每個(gè)樣本尋找近鄰集,并對(duì)近鄰集求均值和標(biāo)準(zhǔn)差,對(duì)樣本進(jìn)行局部標(biāo)準(zhǔn)化處理;
(4)用對(duì)局部近鄰標(biāo)準(zhǔn)化處理的數(shù)據(jù)集進(jìn)行特征提取,去除冗余數(shù)據(jù),得到降維矩陣;
(5)對(duì)基于SVDD方法構(gòu)造統(tǒng)計(jì)量,并根據(jù)公式(19)計(jì)算控制限。
(1)采集異常工況下的數(shù)據(jù)作為算法測試集,采用與離線建模階段相同的方法進(jìn)行展開和局部近鄰標(biāo)準(zhǔn)化處理;
(2)用KECA算法得到對(duì)測試數(shù)據(jù)集的降維特征空間;
(3)計(jì)算每個(gè)樣本點(diǎn)到超球體中心的距離;
(4)根據(jù)公式(21)計(jì)算,判斷其是否超過控制限。
基于改進(jìn)MKECA方法的注塑成型過程異常檢測流程圖如圖4所示。
圖4 基于IMKECA的注塑機(jī)異常檢測策略
本論文采用華南某大型注塑企業(yè)注塑成型過程中采集的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),選擇包括溫度、壓力、注射速度等多個(gè)過程變量用于建模,采集30個(gè)正常批次作為模型的訓(xùn)練集,每個(gè)批次包括10個(gè)變量,400個(gè)采樣點(diǎn)。為了驗(yàn)證模型對(duì)異常的有效性,在200~300采樣時(shí)刻引入注塑機(jī)噴嘴溫度過高異常,構(gòu)成異常數(shù)據(jù)集。
本文通過誤報(bào)率FAR和檢出率FDR對(duì)比各個(gè)算法的異常檢測性能,F(xiàn)AR和FDR的定義分別如下:
圖5~7和表1所示為各方法對(duì)注塑機(jī)異常的檢測結(jié)果,根據(jù)核熵貢獻(xiàn)率選取KECA的主元個(gè)數(shù)是6,SVDD中核函數(shù)采用高斯核函數(shù),核寬為252,LNS的局部近鄰數(shù)k取15,圖中平行線代表95%置信度的閾值,MKECA采用T2和Q統(tǒng)計(jì)量監(jiān)控注塑過程,試驗(yàn)結(jié)果表明:MKECA、LNS-MKECA、LNS-MKECA-SVDD三種算法都能察覺注塑機(jī)異常工況,但是T2統(tǒng)計(jì)量對(duì)異常不敏感,并不能檢測到異常的發(fā)生,由于數(shù)據(jù)存在混合分布和多模態(tài)特性,Q統(tǒng)計(jì)量在異常發(fā)生階段雖然檢測到了異常的發(fā)生,但其漏報(bào)率相對(duì)較高,在異常發(fā)生前和異常結(jié)束后的異常誤報(bào)率也較高。本文所提算法在數(shù)據(jù)預(yù)處理階段,采用局部近鄰標(biāo)準(zhǔn)化消除了數(shù)據(jù)的多模態(tài)結(jié)構(gòu),LNS-MKECA的異常檢出率有所提高,但其忽略了數(shù)據(jù)存在的非高斯分布,檢測結(jié)果仍存在一定的誤報(bào)率。而采用SVDD對(duì)特征提取后的數(shù)據(jù)進(jìn)行異常檢測,不需要數(shù)據(jù)滿足高斯分布的前提假設(shè)。相比MKECA和LNSMKECA算法,本文所提算法具有更高的檢測精度,更低的漏報(bào)率和誤報(bào)率。
圖5 MKECA方法檢測結(jié)果
圖6 LNS-MKECA方法檢測結(jié)果
圖7 IMKECA方法的D統(tǒng)計(jì)量
表1 不同方法的檢出率和誤報(bào)率
本文針對(duì)注塑成型過程存在的強(qiáng)非線性、非高斯分布、多模態(tài)等特性,提出了一種改進(jìn)的MKECA算法對(duì)注塑機(jī)進(jìn)行異常檢測。本方法通過局部近鄰標(biāo)準(zhǔn)化實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的標(biāo)準(zhǔn)化,相比全局標(biāo)準(zhǔn)化,局部近鄰標(biāo)準(zhǔn)化可以有效消除數(shù)據(jù)的多模態(tài)特性,然后采用多向核熵成分分析MKECA進(jìn)行特征提取,最后,考慮到工業(yè)過程數(shù)據(jù)往往服從非高斯分布,采用支持向量數(shù)據(jù)描述SVDD建立異常監(jiān)控統(tǒng)計(jì)量,對(duì)注塑成型過程的各過程變量進(jìn)行異常檢測。
通過企業(yè)采集到的數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明本文所提方法相比其他傳統(tǒng)方法對(duì)異常更為敏感,具有更好的異常檢測效果。