王 杰,張雪英,李鳳蓮,杜海文,于麗君,馬 秀
(1.太原理工大學(xué) 信息與計算機(jī)學(xué)院,太原 030024;2.山西中電科新能源技術(shù)有限公司,太原 030024)
近年來,很多領(lǐng)域的數(shù)據(jù)都具有不平衡數(shù)據(jù)的特點(diǎn),即正常類樣本的數(shù)據(jù)量遠(yuǎn)大于異常類樣本的數(shù)據(jù)量,而異常類樣本通常含有更重要的信息,如何提升異常類樣本的檢測性能[1],對于提高行業(yè)產(chǎn)品質(zhì)量具有重要意義。多晶硅作為最主要的光伏產(chǎn)業(yè)材料之一,在鑄錠生產(chǎn)過程中,如果工藝設(shè)計及環(huán)境條件保持不變,多數(shù)產(chǎn)品為正常產(chǎn)品,但由于每次生產(chǎn)所用配料的批次或成分的差異,會產(chǎn)生少數(shù)的異常產(chǎn)品,由此形成不平衡數(shù)據(jù)集。通過分析配料數(shù)據(jù),對產(chǎn)品質(zhì)量進(jìn)行分類預(yù)測,可以有效地指導(dǎo)實(shí)際生產(chǎn)。
目前,工業(yè)上常用的異常檢測方法為工藝試驗(yàn)[2],實(shí)現(xiàn)成本高且難度大。因此,近些年人們開始用機(jī)器學(xué)習(xí)的方法來解決異常檢測問題,主要包括特征降維和不平衡數(shù)據(jù)分類兩部分。在特征降維方面,數(shù)據(jù)維數(shù)過大會提高模型的復(fù)雜度,影響模型運(yùn)行效率和檢測準(zhǔn)確率,對此,馮安然等[3]利用主成分分析(principal component analysis,PCA)在原有數(shù)據(jù)的基礎(chǔ)上,通過線性組合重構(gòu)出方差較大的低維主成分,但該方法只能捕捉數(shù)據(jù)的方差,缺乏對數(shù)據(jù)內(nèi)在結(jié)構(gòu)的刻畫,容易丟失數(shù)據(jù)隱含的關(guān)鍵信息。而基于流形學(xué)習(xí)的擴(kuò)散映射(diffusion maps,DM)[4]通過核函數(shù)得到擴(kuò)散過程中的擴(kuò)散距離,在保持?jǐn)U散距離不變的條件下實(shí)現(xiàn)降維,取涵蓋數(shù)據(jù)主要結(jié)構(gòu)的特征值及相應(yīng)的特征向量,使其在低維空間中仍保持穩(wěn)定的全局關(guān)系,適用于異常檢測時的特征降維[5]。在不平衡數(shù)據(jù)分類方面,支持向量機(jī)(support vector machine,SVM)作為傳統(tǒng)的分類模型,在解決小樣本、非線性問題時分類效果良好,但當(dāng)樣本不平衡率較大時,對于少數(shù)異常類的識別效果很差。而支持向量數(shù)據(jù)描述(support vector data description,SVDD)[6]有很強(qiáng)的單值數(shù)據(jù)處理能力,僅利用正類樣本訓(xùn)練分類模型,適合實(shí)際生產(chǎn)過程中異常類樣本較少導(dǎo)致的數(shù)據(jù)不平衡情況,在異常檢測[7]領(lǐng)域已得到有效應(yīng)用。因此,為充分利用DM和SVDD二者的優(yōu)點(diǎn),本文構(gòu)建了基于DM-SVDD的異常檢測新模型,并針對多晶硅數(shù)據(jù)中存在的字符型和數(shù)值型兩種類型數(shù)據(jù),引入歐氏距離和馬氏距離改進(jìn)擴(kuò)散映射方法。最后,將所提模型用于多晶硅配料數(shù)據(jù)預(yù)測產(chǎn)品質(zhì)量,實(shí)驗(yàn)結(jié)果中G-Mean最優(yōu)提升15.73%,F(xiàn)-Score最優(yōu)提升19.37%,驗(yàn)證了模型的有效性。
擴(kuò)散映射算法通過盡可能保持?jǐn)U散過程中的擴(kuò)散距離來實(shí)現(xiàn)降維,旨在通過樣本點(diǎn)的局部關(guān)系定義全局關(guān)系。對于預(yù)處理后得到的N個維數(shù)為D的樣本序列XS={x1,x2,…,xN},xi∈RD,i=1,2,…,N.
首先構(gòu)造權(quán)重矩陣,對于給定的兩個樣本點(diǎn)xi和xj,利用Gaussian核函數(shù)來定義樣本間的關(guān)聯(lián)程度,即
(1)
式中:μ為高斯核的帶寬,當(dāng)μ一定時,數(shù)據(jù)點(diǎn)之間的距離越近,則關(guān)聯(lián)性越強(qiáng)。進(jìn)而在權(quán)重矩陣的基礎(chǔ)上構(gòu)造轉(zhuǎn)移概率矩陣Km,利用加權(quán)的圖Laplacian歸一化方法,通過式(2)得到矩陣元素:
(2)
(3)
(4)
式(4):wk定義為數(shù)據(jù)點(diǎn)之間的度,表示以某一數(shù)據(jù)點(diǎn)為中心,與其他所有數(shù)據(jù)點(diǎn)之間的權(quán)重之和;φ(xk)表示構(gòu)造擴(kuò)散距離時馬爾可夫過程的平穩(wěn)分布。保持?jǐn)U散距離不變,對矩陣Km進(jìn)行特征分解,求解特征值以及對應(yīng)的特征向量,取d個最大的特征值λ1,λ2,…,λd對應(yīng)的特征向量υ1,υ2,…,υd作為低維嵌入結(jié)果,得到降維后的數(shù)據(jù)XDM=[υ1,υ2,…,υd]T.
SVDD算法通過核函數(shù)將正常類數(shù)據(jù)映射到高維空間中,進(jìn)而在高維空間中構(gòu)造閉合超球面進(jìn)行異常檢測,見圖1.
圖1 支持向量數(shù)據(jù)描述模型Fig.1 Support vector data description model
利用降維處理后XDM的部分正常類樣本數(shù)據(jù)X={x1,x2,…,xl},0 (5) 式中:R和a分別為對應(yīng)高維特征空間中超球面的半徑和球心;ξi為松弛變量;C>0為懲罰參數(shù);φ(·)為映射函數(shù)。通過求解Lagrange對偶問題可將上式轉(zhuǎn)換為式(6): (6) 運(yùn)用二次規(guī)劃求解式(6)可得Lagrange乘子αi,進(jìn)而可求得對應(yīng)超球體的球心a和半徑R,得到超球面的信息。從而可得決策函數(shù)為: 方案一:邏輯模塊用或門,溫度模塊采用10K的NTC熱敏電阻MF58,NTC熱敏電阻由特殊配置的金屬氧化物陶瓷材料制成,電阻隨溫度升高而下降。 f(x)=‖φ(x)-a‖2-R2. (7) 對于未知的樣本點(diǎn)x,計算它到球心a的距離,即公式(7)中的‖φ(x)-a‖.當(dāng)f(x)≤0時,即目標(biāo)點(diǎn)位于球形邊界內(nèi),判為正常類樣本;反之,則為異常類樣本。 本文實(shí)驗(yàn)所用數(shù)據(jù)來源于山西中電科新能源技術(shù)有限公司近月實(shí)際生產(chǎn)的多晶硅數(shù)據(jù),包含正常類樣本123組,異常類樣本16組,不平衡率為7.69%. 結(jié)合多晶硅裝料工藝的實(shí)際情況,通過分析生產(chǎn)中的配料數(shù)據(jù)來進(jìn)行異常產(chǎn)品檢測模型的構(gòu)建和性能分析。多晶硅配料數(shù)據(jù)見表1,其數(shù)據(jù)特征包括:原生料、提純料、循環(huán)料等表示質(zhì)量的數(shù)值型數(shù)據(jù),其中循環(huán)料包括破碎料、頭料和尾料。鑄錠過程中,若選用不同批次的配料,最終硅錠的質(zhì)量會產(chǎn)生差異。因此,本文將表示批次的字符型數(shù)據(jù)數(shù)值化處理后參與實(shí)驗(yàn),如表1中破碎料批次、頭料批次、尾料批次。表中的少子壽命值表示在鑄錠生產(chǎn)后,由少子壽命儀測得的硅錠中少數(shù)載流子存活時間,根據(jù)實(shí)際生產(chǎn)經(jīng)驗(yàn),少子壽命值小于5.8 μs為異常類產(chǎn)品,反之則為正常類產(chǎn)品。 表1 多晶硅數(shù)據(jù)Table 1 Polysilicon ingot data 本文采用K折交叉驗(yàn)證的方法將包含正常類和異常類的139組樣本數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測試集。訓(xùn)練集僅包含正常類數(shù)據(jù),驗(yàn)證集與測試集包含正常類和異常類兩種數(shù)據(jù),來進(jìn)行異常檢測模型的構(gòu)建和性能分析。 基于上述多晶硅數(shù)據(jù),建立改進(jìn)的基于DM-SVDD算法的異常檢測模型,見圖2,其過程敘述如下。 圖2 DM-SVDD模型流程圖Fig.2 Flow chart of DM-SVDD model 1) 改進(jìn)降維處理方法。本文針對所用多晶硅數(shù)據(jù)中的數(shù)值型數(shù)據(jù)和字符型數(shù)據(jù),將字符型數(shù)據(jù)數(shù)值化處理后,提出綜合使用歐氏距離和馬氏距離兩種距離度量方法改進(jìn)DM算法中的K近鄰標(biāo)準(zhǔn)。 D(xi,xj)2=(xi-xj)T(xi-xj) . (8) 由于馬氏距離[8]對于給定的樣本集,綜合考慮了各樣本點(diǎn)之間的關(guān)聯(lián)性,對于不同類型的相似樣本具有較好的區(qū)分度,有利于提高最終的分類精度,故利用馬氏距離度量方法計算數(shù)值型數(shù)據(jù)特征之間的距離。馬氏距離度量方法如式(9)所示,S為對應(yīng)的協(xié)方差矩陣。 DM(xi,xj)2=(xi-xj)TS-1(xi-xj) . (9) 綜合兩種度量方式計算的結(jié)果,確定距離樣本點(diǎn)最近的K個近鄰點(diǎn),根據(jù)樣本點(diǎn)間的距離構(gòu)造新的近鄰圖改進(jìn)DM算法的降維過程。 2) 優(yōu)化模型參數(shù)。為得到誤差最小的異常檢測模型,將數(shù)據(jù)集劃分為:訓(xùn)練集、驗(yàn)證集和測試集三部分。實(shí)驗(yàn)過程中,選取訓(xùn)練集數(shù)據(jù)訓(xùn)練得到初始化的檢測模型,之后運(yùn)用驗(yàn)證集數(shù)據(jù)進(jìn)行模型檢驗(yàn)。本文采用蒙特卡洛尋優(yōu)算法進(jìn)行最優(yōu)參數(shù)選擇,相比于傳統(tǒng)的網(wǎng)格尋優(yōu)算法,蒙特卡洛尋優(yōu)算法是一種全值估計方法,可以更好地處理非線性問題,結(jié)果精確可靠;該方法在給定區(qū)間內(nèi)隨機(jī)選取參數(shù),用隨機(jī)抽樣代替了系統(tǒng)搜索,大大降低了時間復(fù)雜度。 3) 構(gòu)建異常檢測新模型。在SVDD算法中,高斯核泛化性能優(yōu)于其他多項式核函數(shù)[9],故本文采用高斯核函數(shù),運(yùn)用驗(yàn)證集數(shù)據(jù)優(yōu)化模型后得到的最優(yōu)參數(shù),構(gòu)建誤差最小的基于改進(jìn)DM-SVDD算法的異常檢測新模型。 4) 測試模型。將測試集的數(shù)據(jù)輸入改進(jìn)的DM-SVDD異常檢測模型中,通過計算式(7)所示的目標(biāo)函數(shù),比較樣本點(diǎn)到模型球心的距離,得到最終的檢測結(jié)果。 為了評價本文提出的改進(jìn)DM-SVDD模型用于異常檢測的性能,實(shí)驗(yàn)采用多晶硅配料數(shù)據(jù),對比傳統(tǒng)的異常檢測模型,得到三折交叉驗(yàn)證的測試結(jié)果;同時為驗(yàn)證所提模型對于異常類樣本檢測的準(zhǔn)確率,使用測試數(shù)據(jù)進(jìn)行檢測,得到直觀的測試結(jié)果。模型最優(yōu)參數(shù)的選取采用蒙特卡洛方法尋優(yōu)結(jié)果,核函數(shù)選擇高斯核函數(shù),在MATLAB R2014b環(huán)境下進(jìn)行實(shí)驗(yàn)。懲罰參數(shù)C=1/(nv),v∈(0,1],其中v控制了支持向量的上限比例,故搜索區(qū)間設(shè)置為[0.1,1],由于核參數(shù)σ>0,通過實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)σ>16時,結(jié)果基本保持不變,故搜索區(qū)間設(shè)置為[0.125,16]. 由于不平衡數(shù)據(jù)的準(zhǔn)確率易偏向于正常類樣本的正確檢測結(jié)果,本文除了采用準(zhǔn)確率(racc)±標(biāo)準(zhǔn)偏差、查全率(re)±標(biāo)準(zhǔn)偏差、查準(zhǔn)率(rP)±標(biāo)準(zhǔn)偏差、特異度(Sp)±標(biāo)準(zhǔn)偏差4個指標(biāo)進(jìn)行模型評價外,還采用了針對不平衡數(shù)據(jù)分類的評價指標(biāo)F-Score和G-Mean[10],分別如式(10)和式(11)所示,為實(shí)現(xiàn)查全率和查準(zhǔn)率的折中,F(xiàn)-Score中參數(shù)α設(shè)置為0.5. (10) (11) 利用多晶硅配料數(shù)據(jù),訓(xùn)練得到最優(yōu)的改進(jìn)DM-SVDD異常樣本檢測模型,將測試集數(shù)據(jù)輸入模型進(jìn)行檢測分析,同樣采用傳統(tǒng)SVDD算法、PCA-SVDD算法以及未改進(jìn)的DM-SVDD算法分別進(jìn)行模型的訓(xùn)練和檢測。對比4種模型的測試結(jié)果和運(yùn)行時間,見表2和表3. 表2 測試結(jié)果及標(biāo)準(zhǔn)偏差Table 2 Test results and standard deviations % 由表2和表3可知:本文提出的改進(jìn)DM-SVDD算法所構(gòu)建的模型不僅降低了運(yùn)行時間,且準(zhǔn)確率達(dá)到87.97%,在4種算法中檢測性能最優(yōu),同時改進(jìn)的DM-SVDD模型在保證查全率最優(yōu)的前提下,相較于其他3種模型,查準(zhǔn)率最優(yōu)提升了19.73%,特異度最優(yōu)提升了14.89%.在保證正常類樣本檢測準(zhǔn)確率較高的同時,提升了異常類樣本的檢測準(zhǔn)確率。 表3 運(yùn)行時間對比Table 3 Comparison of running time s 為準(zhǔn)確評價模型對于兩類樣本的分類性能,比較G-Mean與F-Score結(jié)果如圖3所示。由圖3可知,改進(jìn)的DM-SVDD算法使G-Mean最優(yōu)提升了16.83%,F(xiàn)-Score最優(yōu)提升了19.37%. 圖3 G-Mean與F-Score比較結(jié)果Fig.3 Comparison of G-Mean and F-Score 為進(jìn)一步說明本文所提模型對于異常類樣本檢測的準(zhǔn)確率,運(yùn)用訓(xùn)練得到的改進(jìn)DM-SVDD異常檢測模型對測試數(shù)據(jù)中14組數(shù)據(jù)進(jìn)行檢測,其中正常類樣本數(shù)據(jù)3組,異常類樣本數(shù)據(jù)11組,檢測結(jié)果如圖4所示。圖中水平直線代表判別閾值,表示模型訓(xùn)練得到超球面后,球面距離球心的距離;樣本2-5、7-14的檢測輸出大于判別閾值,判斷為異常類樣本,樣本1、6的檢測輸出小于判別閾值,判斷為正常類樣本,除樣本3存在誤差以外,其余測試結(jié)果均與實(shí)際情況相符,表明改進(jìn)的DM-SVDD模型能夠有效實(shí)現(xiàn)產(chǎn)品的異常檢測。 圖4 改進(jìn)DM-SVDD模型測試結(jié)果Fig.4 Test results of the improved DM-SVDD model 本文提出了一種改進(jìn)的基于DM-SVDD的異常檢測新模型。DM主要用于特征降維,針對數(shù)據(jù)中存在的數(shù)值型和字符型兩種類型數(shù)據(jù),采用兩種距離度量方法改進(jìn)降維過程;SVDD主要用于不平衡數(shù)據(jù)異常檢測。實(shí)驗(yàn)結(jié)果驗(yàn)證本文所提模型在多晶硅鑄錠異常檢測中的有效性,可用于指導(dǎo)類似的實(shí)際工業(yè)生產(chǎn),發(fā)揮降低生產(chǎn)成本,提高產(chǎn)品質(zhì)量的作用。2 改進(jìn)的DM-SVDD異常檢測模型
2.1 數(shù)據(jù)集
2.2 改進(jìn)的DM-SVDD異常檢測模型
3 實(shí)驗(yàn)設(shè)計及結(jié)果分析
3.1 實(shí)驗(yàn)設(shè)計及評價指標(biāo)
3.2 實(shí)驗(yàn)結(jié)果分析
4 結(jié)束語