劉玉敏,趙哲耘
(鄭州大學(xué) 商學(xué)院,鄭州 450001)
隨著工業(yè)物聯(lián)網(wǎng)的興起,現(xiàn)代化工廠安裝了大量的信息傳感設(shè)備,這使得實(shí)時(shí)采集能有效反映生產(chǎn)和加工過程運(yùn)行狀態(tài)的數(shù)據(jù)流,進(jìn)而實(shí)現(xiàn)質(zhì)量監(jiān)控成為現(xiàn)實(shí)。這些數(shù)據(jù)流總體反映了連續(xù)生產(chǎn)過程的運(yùn)行狀態(tài),而其運(yùn)行狀態(tài)直接影響產(chǎn)品質(zhì)量的優(yōu)劣。由于過程中受到人、機(jī)、料、法、環(huán)、測等因素的影響,動(dòng)態(tài)過程質(zhì)量模式可分為正常模式和異常模式兩大類。當(dāng)動(dòng)態(tài)數(shù)據(jù)流呈現(xiàn)出質(zhì)量異常模式時(shí),通常表明機(jī)器設(shè)備存在潛在問題,需要作出調(diào)整。因此,對數(shù)據(jù)流進(jìn)行降維,并建立高效的異常監(jiān)控模型,成為了質(zhì)量監(jiān)控的核心問題[1]。
目前,對于過程質(zhì)量異常監(jiān)控方法的研究多圍繞基于特征提取的質(zhì)量異常模式識別展開,其中應(yīng)用的特征主要有時(shí)域特征[2]、形狀特征[3]、小波分解特征[4]等。例如,Hassan[5]提取了原始數(shù)據(jù)的6種時(shí)域特征,該特征具有維度低、表征能力強(qiáng)的特點(diǎn);Ranaee等[6]將形狀特征與時(shí)域特征進(jìn)行混合,利用支持向量機(jī)對6種質(zhì)量模式進(jìn)行了有效的識別。劉玉敏[7]使用一維離散小波分解近似系數(shù)同小波重構(gòu)序列的4個(gè)形狀特征進(jìn)行混合。綜上所述,當(dāng)前特征提取的方法主要是通過單一數(shù)據(jù)特征或混合。然而,研究表明,單一種類特征對于原始數(shù)據(jù)描述能力有限,而高維混合特征會(huì)提高模型的復(fù)雜度進(jìn)而降低其識別效率。因此,如何提取維度低并包含豐富信息的特征,并構(gòu)建與分類任務(wù)復(fù)雜度相匹配的高精度識別模型成為了動(dòng)態(tài)過程質(zhì)量異常模式識別的關(guān)鍵。本文提出了一種基于特征選擇的混合特征集與支持向量機(jī)相結(jié)合的動(dòng)態(tài)過程質(zhì)量異常模式識別方法。
在動(dòng)態(tài)過程中,由于受到不同因素的影響,其質(zhì)量特性數(shù)據(jù)流也呈現(xiàn)不同的波動(dòng)模式。其中,隨機(jī)因素影響下的質(zhì)量特性數(shù)據(jù)流在目標(biāo)值上下隨機(jī)游走,在動(dòng)態(tài)過程中屬于正常模式。當(dāng)質(zhì)量特性數(shù)據(jù)流波動(dòng)呈現(xiàn)趨勢、階躍和周期等狀態(tài)時(shí),表明過程受到異常因素的影響,此刻處于異常狀態(tài)[8],如圖1所示。
雖然動(dòng)態(tài)過程產(chǎn)生的原始數(shù)據(jù)流能夠較為全面地反映動(dòng)態(tài)過程運(yùn)行狀態(tài),但由于高噪聲、高維度等特點(diǎn),若將
其直接應(yīng)用于分類任務(wù)中會(huì)造成較低的識別精度和識別效率。為對數(shù)據(jù)流的整體和局部變化特征進(jìn)行提取和增強(qiáng),使用一維離散小波分解(Discrete Wavelet Transform,DWT)將原始數(shù)據(jù)流轉(zhuǎn)化為高頻細(xì)節(jié)部分和低頻近似部分,經(jīng)過L層變換后,過程數(shù)據(jù)流的整體變化趨勢信息被分解到了最后一層的低頻近似系數(shù)中,而其噪聲被分解在各層的高頻系數(shù)中[9]。記P0X=X,通過正交投影PjX和QjX將j-1層的小波近似系數(shù)Pj-1X分解為:
式(1)至式(3)中,h(n)和g(h)分別為低通、高通濾波器的脈沖響應(yīng),p為權(quán)系數(shù)的長度。cAj和cDj分別為數(shù)據(jù)流在j層小波分解中的低頻近似系數(shù)和高頻細(xì)節(jié)系數(shù);j=1,2,3,...,L,L=0,1,2,...,N/2j-1,N為原始數(shù)據(jù)流長度,j為最大分解層數(shù);φ(t)和ψ(t)分別為定標(biāo)函數(shù)與子波函數(shù)。中點(diǎn)坐標(biāo)為
不同的動(dòng)態(tài)過程質(zhì)量模式都存在其獨(dú)特幾何形狀。形狀特征是在通過對原始數(shù)據(jù)進(jìn)行變換或計(jì)算而得到的能有效表達(dá)各個(gè)質(zhì)量異常模式的數(shù)字量。本文采用以下幾種形狀特征參與特征選擇[10]:
(1)對模式序列不作分段提取,可以得到SB和PSMLSC特征:
式中,N為模式數(shù)據(jù)序列長度;ti為第i個(gè)數(shù)據(jù)點(diǎn)到原點(diǎn)的距離;yi為第 i個(gè)采樣點(diǎn)的采樣值
(2)將模式序列進(jìn)行固定分段,可得到SRANGE和REAE特征:
式中,sjk為模式序列的第j段與第k中點(diǎn)連線的斜率,每段對應(yīng)的n1取值分別為1、16、31、46;MSE為整個(gè)模式序列的最小二乘估計(jì)的均方誤差值,MSEjk為將第j段與第k段數(shù)據(jù)點(diǎn)重組后所得到的序列的最小二乘估計(jì)的誤差值。
(3)對模式序列做不固定分割,其中分割后的兩段數(shù)據(jù)序列的最小二乘估計(jì)的合并均方誤差(PMSE)的最小值點(diǎn)為分割點(diǎn),可以得到ABDPE特征:
式中,B為整個(gè)序列的最小二乘擬合直線的斜率,Bj(j=1,2)分別為分割后的兩段序列的最小二乘擬合直線斜率。
現(xiàn)有的研究表明,時(shí)域特征能夠刻畫樣本數(shù)據(jù)的基本特征,并能有效地對質(zhì)量異常模式進(jìn)行區(qū)分,本文選取了均方幅值、標(biāo)準(zhǔn)差、峰值、方根幅值、平均值、峭度和最大值7個(gè)特征來識別質(zhì)量異常模式,具體公式見表1。
表1 時(shí)域特征
序列前向選擇方法(Sequential Forward Selection,SFS)是一種啟發(fā)式搜索方法,先把目標(biāo)特征集定義為空集,按照特征評估函數(shù),加入使其最大的一個(gè)特征,最后得到達(dá)到要求的特征子集。相比序列前向選擇方法,廣義序列前向選擇方法是根據(jù)特征評估函數(shù)向現(xiàn)有特征集中加入r個(gè)特征,使得特征評估函數(shù)達(dá)到最大值從而得到滿足要求的特征子集?;诜诸惥鹊男蛄星跋蜻x擇方法[11](sequential forward selection based on classification accuracy,CA-SFS)是序列前向選擇法和廣義序列前向選擇法的混合,可根據(jù)需要來靈活改變r(jià)的取值,若添加一個(gè)特征對于分類精度沒有提高,即可加入2個(gè)、3個(gè)甚至更多的特征組合,本文為了避免計(jì)算過于復(fù)雜,在此設(shè)定r≤4。本文將低頻小波近似系數(shù)作為特征選擇起點(diǎn),將分類器的分類精度作為特征評估函數(shù),加入使其分類精度提升最大的特征或特征組合,直到得到滿足要求的特征集?;诜诸惥鹊男蛄星跋蜻x擇識別過程如圖2所示。
圖2 基于分類精度的序列前向選擇識別過程
支持向量機(jī)(Support Vector Machine,SVM)能夠有效地解決小樣本下的線性不可分的二分類問題。其原理是通過核函數(shù)將線性不可分的數(shù)據(jù)映射到高維空間尋找最優(yōu)分類超平面,從而實(shí)現(xiàn)低維空間的非線性分類,結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則使得支持向量機(jī)較其他分類器具有泛化能力強(qiáng)的特點(diǎn)。其分類原理如下:
式中,C為懲罰因子,C的大小會(huì)對分類器的容錯(cuò)能力產(chǎn)生影響;ξi為松弛變量。使用核函數(shù)k(xi,x)替代簡單的內(nèi)積后,可得到SVM的判別函數(shù):
由SVM判別函數(shù)可知,單個(gè)的SVM僅能解決二分類問題,常用的二分類SVM有一對一、一對多、半對半等。而對于本文的六分類問題,需要多個(gè)支持向量機(jī)組成聯(lián)合分類器(MSVM)來實(shí)現(xiàn)對于動(dòng)態(tài)過程的六種模式識別。并且,SVM中罰函數(shù)和核函數(shù)參數(shù)的選擇直接影響到對于分類誤差的寬容度和核映射后的數(shù)據(jù)分布,進(jìn)而對其分類精度造成影響。因此,模型參數(shù)的選擇成為了構(gòu)建支持向量機(jī)分類模型的亟需解決的關(guān)鍵問題[12]。粒子群算法(Particle Swarm Optimization,PSO)是一種基于迭代的優(yōu)化算法,相較于常見的遺傳算法和網(wǎng)格搜索法,具有無需編碼、全局尋優(yōu)能力強(qiáng)、耗時(shí)短等優(yōu)點(diǎn),且能夠避免人工參數(shù)選擇的主觀性和片面性,因此,本文選用PSO算法對支持向量機(jī)的參數(shù)進(jìn)行自動(dòng)尋優(yōu),從而提升識別模型的分類精度。圖3為本文構(gòu)建的多分類支持向量機(jī)模型。
圖3 質(zhì)量異常模式識別模型
核函數(shù)能夠?qū)⒏呔S空間的內(nèi)積轉(zhuǎn)化為低維空間的內(nèi)積,能夠在解決線性不可分問題的同時(shí)避免“維度災(zāi)難”,但核函數(shù)的選擇仍缺乏理論指導(dǎo)。高斯核函數(shù)(Radial Basis Function,RBF)具有較少的核函數(shù)參數(shù),具有較低的訓(xùn)練復(fù)雜度和較好的分類性能,被廣泛用于SVM分類中。因此,本文選用RBF核函數(shù)來實(shí)現(xiàn)支持向量機(jī)分類器的非線性分類(RBF-SVM),公式如下:
由于實(shí)際生產(chǎn)過程中的異常數(shù)據(jù)難以批量獲取,且大都需要破壞性試驗(yàn)來擴(kuò)充異常樣本量,其成本較高、實(shí)用性較差。因此本文采用蒙特卡洛(Monte Carlo,MC)方法生成所需要的正常和異常樣本數(shù)據(jù):
x(t)=μ+γ×σ+d(t)'t=1'2'…'n
式中,μ為設(shè)計(jì)目標(biāo)值;σ為過程能力標(biāo)準(zhǔn)差;γ為隨機(jī)因素造成的波動(dòng)服從高斯白噪聲,過程固有,無法去除或去除成本較高;d(t)為異常因素導(dǎo)致的波動(dòng),可查明原因并消除。每種模式的仿真公式見表2。
表2 Monte Carlo仿真公式
利用蒙特卡洛法生成仿真數(shù)據(jù),其中對每種質(zhì)量模式生成120組仿真樣本,其中隨機(jī)抽取20個(gè)為訓(xùn)練樣本,共計(jì)120組測試樣本,其余600組為測試集,每組樣本均包含連續(xù)60個(gè)質(zhì)量特性觀測點(diǎn)。首先,針對階躍模式與趨勢模式識別率整體較低的特點(diǎn),對原始數(shù)據(jù)進(jìn)行一維離散小波分解,采用Db4母小波函數(shù)對數(shù)據(jù)流進(jìn)行尺度為3的一維離散小波分解,得到一個(gè)低頻近似系數(shù)和三個(gè)高頻細(xì)節(jié)系數(shù)。觀察表明,第三層低頻近似系數(shù)cA3有效去除了原始數(shù)據(jù)中的噪聲信號,保留了動(dòng)態(tài)數(shù)據(jù)流的整體變化特征。
表3 特征選擇實(shí)驗(yàn)過程
表3為特征選擇的實(shí)驗(yàn)過程,從中可以看出,在第一輪的特征選擇中,將全部的12個(gè)形狀特征作為備選,分別依次參與小波特征的混合。從表3可看出,本文特征選擇中使用了四次SFS方法和兩次GSFS方法。因此本文選擇的特征集合為:小波特征集、峭度、最大值、ABDPE、SB、峰值、SRANGE、均方幅值和均值。相比12個(gè)特征全部混合,本文選擇出來的特征與小波特征混合使得識別精度有了顯著提高。選取的混合特征向量為:
Zbest=[cA3峭度最大值A(chǔ)BDPE SB峰值SRANGE均方幅值均值]
本實(shí)驗(yàn)基于Matlab2014b和Libsvm工具箱,并對核函數(shù)參數(shù)g,罰函數(shù)c,加速常數(shù)c1和c2初始化參數(shù)值進(jìn)行設(shè)定。本文模型PSO算法參數(shù)設(shè)定、識別精度及參數(shù)見表4。
表4 RBF-SVM參數(shù)優(yōu)化結(jié)果
(1)實(shí)驗(yàn)一:一般SFS方法和本文所用的CA-SFS方法的識別精度對比
本實(shí)驗(yàn)對比了SFS方法和本文方法所選取的混合特征集,所選取的特征集和對應(yīng)的分類效果如圖4和圖5所示。兩圖橫軸的特征為本次特征選擇中分類精度最高的特征組合維數(shù),從圖4中可看出,當(dāng)使用SFS方法時(shí),精度在97%上下波動(dòng),而第22維識別精度最高達(dá)到97.17%。圖5為本文選擇的CA-SFS方法,本方法是通過將SFS和GSFS方法相結(jié)合來尋找目標(biāo)特征集。本方法所選擇的22維最優(yōu)混合特征集的識別精度達(dá)到了98.3%。實(shí)驗(yàn)表明,本文選擇的方法優(yōu)于SFS方法,在相同特征維數(shù)下,有效地提高了對于質(zhì)量異常模式的總體識別率。
圖4 SFS方法選擇不同數(shù)目特征集的分類準(zhǔn)確性
圖5 本文所提方法選擇特征集的分類準(zhǔn)確性
(2)實(shí)驗(yàn)二:基于不同特征的質(zhì)量模式識別精度對比
為驗(yàn)證本文所選擇特征的有效性,本實(shí)驗(yàn)對比了原始特征、小波形狀混合特征、小波時(shí)域混合特征、小波時(shí)域形狀混合特征(多特征)和本文所提方法得到的混合特征作為PSO-SVM的輸入進(jìn)行質(zhì)量異常模式識別的效果。實(shí)驗(yàn)結(jié)果如表5所示。
從表4的識別結(jié)果進(jìn)行對比后可知:
(1)本文選擇的特征能在較大程度上兼顧特征維數(shù)和分類器的分類效率,但如何改善對于正常模式的識別精度,還需要進(jìn)一步改進(jìn)特征集的表達(dá)能力和識別方法,從而提高模型對于質(zhì)量異常模式的識別精度。
(2)單一種類特征(7維時(shí)域特征、5維形狀特征)與小波特征混合所取得的識別精度相比多特征混合較低。這是因?yàn)閱我环N類的特征使得對質(zhì)量模式表達(dá)能力有限。本文所提方法能夠在整體變化特征的完整性的基礎(chǔ)上剔除時(shí)域特征和形狀特征中多余的信息,提高了模型的識別精度并兼顧其計(jì)算效率。
(3)本文得到的最優(yōu)特征相對于多特征混合具有較高的識別精度,這是因?yàn)樵谫|(zhì)量異常模式識別中,并不是特征的維數(shù)越高識別精度越高,過多的特征具有較多的冗余和噪聲;雖然較低的特征維數(shù)具有訓(xùn)練復(fù)雜度低等優(yōu)點(diǎn),但較少的特征會(huì)造成質(zhì)量異常模式的信息缺失,使得對各模式的識別精度和表達(dá)能力有限。
表5 識別結(jié)果
本文在綜合分析已有特征選擇方法的基礎(chǔ)上,從5維形狀特征和7維時(shí)域特征中選擇出9個(gè)特征與小波低頻近似系數(shù)進(jìn)行混合作為模式分類特征,以粒子群算法進(jìn)行參數(shù)尋優(yōu)過的支持向量機(jī)作為分類器。低頻系數(shù)能夠凸顯質(zhì)量模式的整體變化趨勢,形狀特征和時(shí)域特征能夠強(qiáng)化數(shù)據(jù)的局部特性,理論分析和仿真實(shí)驗(yàn)表明,本文所提方法通過選擇后的特征向量與小波低頻系數(shù)進(jìn)行混合,刪除不必要的特征,保留能提升識別性能的特征集合,提高了分類器的效率和識別精度。但質(zhì)量異常模式識別中,哪些特征能夠?qū)|(zhì)量異常模式做出較為完備的表達(dá)、如何較少小波分解造成的信息缺失,還需要進(jìn)一步研究。
[1]劉玉敏,周昊飛.動(dòng)態(tài)過程質(zhì)量異常模式ANN-SVM識別模型及仿真分析[J].統(tǒng)計(jì)與決策,2016,(9).
[2]Petros X,Talayeh R.A Weighted Support Vector Machine Method for Control Chart Pattern Recognition[J].Computer&Industrial Engineering,2014,(70).
[3]Gauri S K,Chakraborty S.Feature-based Recognition of Control Chart Patterns[J].Computer&Industrial Engineering,2006,(51).
[4]吳長坤,趙麗萍.基于小波分析和SVM的控制圖模式識別[J].中國機(jī)械工程,2010,21(13).
[5]Hassan A,Shariff M.Improved SPC Chart Pattern Recognition Using Statistical Features[J].International Journal of Production Research,2003,41(7).
[6]Ranaee V,Ebrahimzadeh A.Application of the PSO-SVM Model for Recognition of Control Chart Patterns[J].ISA Transaction,2010,49(4).
[7]劉玉敏,周昊飛.基于多特征混合與支持向量機(jī)的動(dòng)態(tài)過程異常監(jiān)控[J].計(jì)算機(jī)集成制造系統(tǒng),2015,21(10).
[8]劉玉敏,周昊飛.基于小波重構(gòu)與SVM-BPNN的動(dòng)態(tài)過程在線智能監(jiān)控[J].系統(tǒng)工程理論與實(shí)踐,2016,36(7).
[9]劉玉敏,趙哲耘.基于多特征與MSVM的動(dòng)態(tài)過程異常監(jiān)控[J].組合機(jī)床與自動(dòng)化加工技術(shù),2017,(2).
[10]宋李俊,趙虎.基于融合特征與支持向量機(jī)的控制圖模式識別[J].計(jì)算機(jī)應(yīng)用研究,2014,31(3).
[11]易超群,李建平,朱成文.一種基于分類精度的特征選擇支持向量機(jī)[J].山東大學(xué)學(xué)報(bào):理學(xué)版,2010,45(7).
[12]張敏,程文明.基于自適應(yīng)粒子群算法和支持向量機(jī)的控制圖模式識別[J].工業(yè)工程,2012,15(5).