亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進(jìn)DM-SVDD算法的異常檢測研究及應(yīng)用

2021-09-22 08:02:46張雪英李鳳蓮杜海文于麗君

太原理工大學(xué)學(xué)報 2021年5期

關(guān)鍵詞：檢測模型

王杰，張雪英，李鳳蓮，杜海文，于麗君，馬秀

(1.太原理工大學(xué) 信息與計算機(jī)學(xué)院，太原 030024；2.山西中電科新能源技術(shù)有限公司，太原 030024)

近年來，很多領(lǐng)域的數(shù)據(jù)都具有不平衡數(shù)據(jù)的特點(diǎn)，即正常類樣本的數(shù)據(jù)量遠(yuǎn)大于異常類樣本的數(shù)據(jù)量，而異常類樣本通常含有更重要的信息，如何提升異常類樣本的檢測性能[1]，對于提高行業(yè)產(chǎn)品質(zhì)量具有重要意義。多晶硅作為最主要的光伏產(chǎn)業(yè)材料之一，在鑄錠生產(chǎn)過程中，如果工藝設(shè)計及環(huán)境條件保持不變，多數(shù)產(chǎn)品為正常產(chǎn)品，但由于每次生產(chǎn)所用配料的批次或成分的差異，會產(chǎn)生少數(shù)的異常產(chǎn)品，由此形成不平衡數(shù)據(jù)集。通過分析配料數(shù)據(jù)，對產(chǎn)品質(zhì)量進(jìn)行分類預(yù)測，可以有效地指導(dǎo)實(shí)際生產(chǎn)。

目前，工業(yè)上常用的異常檢測方法為工藝試驗(yàn)[2]，實(shí)現(xiàn)成本高且難度大。因此，近些年人們開始用機(jī)器學(xué)習(xí)的方法來解決異常檢測問題，主要包括特征降維和不平衡數(shù)據(jù)分類兩部分。在特征降維方面，數(shù)據(jù)維數(shù)過大會提高模型的復(fù)雜度，影響模型運(yùn)行效率和檢測準(zhǔn)確率，對此，馮安然等[3]利用主成分分析(principal component analysis，PCA)在原有數(shù)據(jù)的基礎(chǔ)上，通過線性組合重構(gòu)出方差較大的低維主成分，但該方法只能捕捉數(shù)據(jù)的方差，缺乏對數(shù)據(jù)內(nèi)在結(jié)構(gòu)的刻畫，容易丟失數(shù)據(jù)隱含的關(guān)鍵信息。而基于流形學(xué)習(xí)的擴(kuò)散映射(diffusion maps，DM)[4]通過核函數(shù)得到擴(kuò)散過程中的擴(kuò)散距離，在保持?jǐn)U散距離不變的條件下實(shí)現(xiàn)降維，取涵蓋數(shù)據(jù)主要結(jié)構(gòu)的特征值及相應(yīng)的特征向量，使其在低維空間中仍保持穩(wěn)定的全局關(guān)系，適用于異常檢測時的特征降維[5]。在不平衡數(shù)據(jù)分類方面，支持向量機(jī)(support vector machine，SVM)作為傳統(tǒng)的分類模型，在解決小樣本、非線性問題時分類效果良好，但當(dāng)樣本不平衡率較大時，對于少數(shù)異常類的識別效果很差。而支持向量數(shù)據(jù)描述(support vector data description，SVDD)[6]有很強(qiáng)的單值數(shù)據(jù)處理能力，僅利用正類樣本訓(xùn)練分類模型，適合實(shí)際生產(chǎn)過程中異常類樣本較少導(dǎo)致的數(shù)據(jù)不平衡情況，在異常檢測[7]領(lǐng)域已得到有效應(yīng)用。因此，為充分利用DM和SVDD二者的優(yōu)點(diǎn)，本文構(gòu)建了基于DM-SVDD的異常檢測新模型，并針對多晶硅數(shù)據(jù)中存在的字符型和數(shù)值型兩種類型數(shù)據(jù)，引入歐氏距離和馬氏距離改進(jìn)擴(kuò)散映射方法。最后，將所提模型用于多晶硅配料數(shù)據(jù)預(yù)測產(chǎn)品質(zhì)量，實(shí)驗(yàn)結(jié)果中G-Mean最優(yōu)提升15.73%，F(xiàn)-Score最優(yōu)提升19.37%，驗(yàn)證了模型的有效性。

1 擴(kuò)散映射與支持向量數(shù)據(jù)描述算法原理

1.1 擴(kuò)散映射算法基本原理

擴(kuò)散映射算法通過盡可能保持?jǐn)U散過程中的擴(kuò)散距離來實(shí)現(xiàn)降維，旨在通過樣本點(diǎn)的局部關(guān)系定義全局關(guān)系。對于預(yù)處理后得到的N個維數(shù)為D的樣本序列XS={x1,x2,…,xN},xi∈RD,i=1,2,…,N.

首先構(gòu)造權(quán)重矩陣，對于給定的兩個樣本點(diǎn)xi和xj，利用Gaussian核函數(shù)來定義樣本間的關(guān)聯(lián)程度，即

(1)

式中：μ為高斯核的帶寬，當(dāng)μ一定時，數(shù)據(jù)點(diǎn)之間的距離越近，則關(guān)聯(lián)性越強(qiáng)。進(jìn)而在權(quán)重矩陣的基礎(chǔ)上構(gòu)造轉(zhuǎn)移概率矩陣Km，利用加權(quán)的圖Laplacian歸一化方法，通過式(2)得到矩陣元素：

(2)

(3)

(4)

式(4)：wk定義為數(shù)據(jù)點(diǎn)之間的度，表示以某一數(shù)據(jù)點(diǎn)為中心，與其他所有數(shù)據(jù)點(diǎn)之間的權(quán)重之和；φ(xk)表示構(gòu)造擴(kuò)散距離時馬爾可夫過程的平穩(wěn)分布。保持?jǐn)U散距離不變，對矩陣Km進(jìn)行特征分解，求解特征值以及對應(yīng)的特征向量，取d個最大的特征值λ1,λ2,…,λd對應(yīng)的特征向量υ1,υ2,…,υd作為低維嵌入結(jié)果，得到降維后的數(shù)據(jù)XDM=[υ1,υ2,…,υd]T.

1.2 支持向量數(shù)據(jù)描述算法基本原理

SVDD算法通過核函數(shù)將正常類數(shù)據(jù)映射到高維空間中，進(jìn)而在高維空間中構(gòu)造閉合超球面進(jìn)行異常檢測，見圖1.

圖1 支持向量數(shù)據(jù)描述模型Fig.1 Support vector data description model

利用降維處理后XDM的部分正常類樣本數(shù)據(jù)X={x1,x2,…,xl}，0

(5)

式中：R和a分別為對應(yīng)高維特征空間中超球面的半徑和球心；ξi為松弛變量；C>0為懲罰參數(shù)；φ(·)為映射函數(shù)。通過求解Lagrange對偶問題可將上式轉(zhuǎn)換為式(6)：

(6)

運(yùn)用二次規(guī)劃求解式(6)可得Lagrange乘子αi，進(jìn)而可求得對應(yīng)超球體的球心a和半徑R，得到超球面的信息。從而可得決策函數(shù)為：

方案一：邏輯模塊用或門，溫度模塊采用10K的NTC熱敏電阻MF58，NTC熱敏電阻由特殊配置的金屬氧化物陶瓷材料制成，電阻隨溫度升高而下降。

f(x)=‖φ(x)-a‖2-R2.

(7)

對于未知的樣本點(diǎn)x，計算它到球心a的距離，即公式(7)中的‖φ(x)-a‖.當(dāng)f(x)≤0時，即目標(biāo)點(diǎn)位于球形邊界內(nèi)，判為正常類樣本；反之，則為異常類樣本。

2 改進(jìn)的DM-SVDD異常檢測模型

2.1 數(shù)據(jù)集

本文實(shí)驗(yàn)所用數(shù)據(jù)來源于山西中電科新能源技術(shù)有限公司近月實(shí)際生產(chǎn)的多晶硅數(shù)據(jù)，包含正常類樣本123組，異常類樣本16組，不平衡率為7.69%.

結(jié)合多晶硅裝料工藝的實(shí)際情況，通過分析生產(chǎn)中的配料數(shù)據(jù)來進(jìn)行異常產(chǎn)品檢測模型的構(gòu)建和性能分析。多晶硅配料數(shù)據(jù)見表1，其數(shù)據(jù)特征包括：原生料、提純料、循環(huán)料等表示質(zhì)量的數(shù)值型數(shù)據(jù)，其中循環(huán)料包括破碎料、頭料和尾料。鑄錠過程中，若選用不同批次的配料，最終硅錠的質(zhì)量會產(chǎn)生差異。因此，本文將表示批次的字符型數(shù)據(jù)數(shù)值化處理后參與實(shí)驗(yàn)，如表1中破碎料批次、頭料批次、尾料批次。表中的少子壽命值表示在鑄錠生產(chǎn)后，由少子壽命儀測得的硅錠中少數(shù)載流子存活時間，根據(jù)實(shí)際生產(chǎn)經(jīng)驗(yàn)，少子壽命值小于5.8 μs為異常類產(chǎn)品，反之則為正常類產(chǎn)品。

表1 多晶硅數(shù)據(jù)Table 1 Polysilicon ingot data

本文采用K折交叉驗(yàn)證的方法將包含正常類和異常類的139組樣本數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測試集。訓(xùn)練集僅包含正常類數(shù)據(jù)，驗(yàn)證集與測試集包含正常類和異常類兩種數(shù)據(jù)，來進(jìn)行異常檢測模型的構(gòu)建和性能分析。

2.2 改進(jìn)的DM-SVDD異常檢測模型

基于上述多晶硅數(shù)據(jù)，建立改進(jìn)的基于DM-SVDD算法的異常檢測模型，見圖2，其過程敘述如下。

圖2 DM-SVDD模型流程圖Fig.2 Flow chart of DM-SVDD model

1) 改進(jìn)降維處理方法。本文針對所用多晶硅數(shù)據(jù)中的數(shù)值型數(shù)據(jù)和字符型數(shù)據(jù)，將字符型數(shù)據(jù)數(shù)值化處理后，提出綜合使用歐氏距離和馬氏距離兩種距離度量方法改進(jìn)DM算法中的K近鄰標(biāo)準(zhǔn)。

D(xi,xj)2=(xi-xj)T(xi-xj) .

(8)

由于馬氏距離[8]對于給定的樣本集，綜合考慮了各樣本點(diǎn)之間的關(guān)聯(lián)性，對于不同類型的相似樣本具有較好的區(qū)分度，有利于提高最終的分類精度，故利用馬氏距離度量方法計算數(shù)值型數(shù)據(jù)特征之間的距離。馬氏距離度量方法如式(9)所示，S為對應(yīng)的協(xié)方差矩陣。

DM(xi,xj)2=(xi-xj)TS-1(xi-xj) .

(9)

綜合兩種度量方式計算的結(jié)果，確定距離樣本點(diǎn)最近的K個近鄰點(diǎn)，根據(jù)樣本點(diǎn)間的距離構(gòu)造新的近鄰圖改進(jìn)DM算法的降維過程。

2) 優(yōu)化模型參數(shù)。為得到誤差最小的異常檢測模型，將數(shù)據(jù)集劃分為：訓(xùn)練集、驗(yàn)證集和測試集三部分。實(shí)驗(yàn)過程中，選取訓(xùn)練集數(shù)據(jù)訓(xùn)練得到初始化的檢測模型，之后運(yùn)用驗(yàn)證集數(shù)據(jù)進(jìn)行模型檢驗(yàn)。本文采用蒙特卡洛尋優(yōu)算法進(jìn)行最優(yōu)參數(shù)選擇，相比于傳統(tǒng)的網(wǎng)格尋優(yōu)算法，蒙特卡洛尋優(yōu)算法是一種全值估計方法，可以更好地處理非線性問題，結(jié)果精確可靠；該方法在給定區(qū)間內(nèi)隨機(jī)選取參數(shù)，用隨機(jī)抽樣代替了系統(tǒng)搜索，大大降低了時間復(fù)雜度。

3) 構(gòu)建異常檢測新模型。在SVDD算法中，高斯核泛化性能優(yōu)于其他多項式核函數(shù)[9]，故本文采用高斯核函數(shù)，運(yùn)用驗(yàn)證集數(shù)據(jù)優(yōu)化模型后得到的最優(yōu)參數(shù)，構(gòu)建誤差最小的基于改進(jìn)DM-SVDD算法的異常檢測新模型。

4) 測試模型。將測試集的數(shù)據(jù)輸入改進(jìn)的DM-SVDD異常檢測模型中，通過計算式(7)所示的目標(biāo)函數(shù)，比較樣本點(diǎn)到模型球心的距離，得到最終的檢測結(jié)果。

3 實(shí)驗(yàn)設(shè)計及結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)計及評價指標(biāo)

為了評價本文提出的改進(jìn)DM-SVDD模型用于異常檢測的性能，實(shí)驗(yàn)采用多晶硅配料數(shù)據(jù)，對比傳統(tǒng)的異常檢測模型，得到三折交叉驗(yàn)證的測試結(jié)果；同時為驗(yàn)證所提模型對于異常類樣本檢測的準(zhǔn)確率，使用測試數(shù)據(jù)進(jìn)行檢測，得到直觀的測試結(jié)果。模型最優(yōu)參數(shù)的選取采用蒙特卡洛方法尋優(yōu)結(jié)果，核函數(shù)選擇高斯核函數(shù)，在MATLAB R2014b環(huán)境下進(jìn)行實(shí)驗(yàn)。懲罰參數(shù)C=1/(nv),v∈(0,1]，其中v控制了支持向量的上限比例，故搜索區(qū)間設(shè)置為[0.1,1]，由于核參數(shù)σ>0，通過實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)σ>16時，結(jié)果基本保持不變，故搜索區(qū)間設(shè)置為[0.125,16].

由于不平衡數(shù)據(jù)的準(zhǔn)確率易偏向于正常類樣本的正確檢測結(jié)果，本文除了采用準(zhǔn)確率(racc)±標(biāo)準(zhǔn)偏差、查全率(re)±標(biāo)準(zhǔn)偏差、查準(zhǔn)率(rP)±標(biāo)準(zhǔn)偏差、特異度(Sp)±標(biāo)準(zhǔn)偏差4個指標(biāo)進(jìn)行模型評價外，還采用了針對不平衡數(shù)據(jù)分類的評價指標(biāo)F-Score和G-Mean[10]，分別如式(10)和式(11)所示，為實(shí)現(xiàn)查全率和查準(zhǔn)率的折中，F(xiàn)-Score中參數(shù)α設(shè)置為0.5.

(10)

(11)

3.2 實(shí)驗(yàn)結(jié)果分析

利用多晶硅配料數(shù)據(jù)，訓(xùn)練得到最優(yōu)的改進(jìn)DM-SVDD異常樣本檢測模型，將測試集數(shù)據(jù)輸入模型進(jìn)行檢測分析，同樣采用傳統(tǒng)SVDD算法、PCA-SVDD算法以及未改進(jìn)的DM-SVDD算法分別進(jìn)行模型的訓(xùn)練和檢測。對比4種模型的測試結(jié)果和運(yùn)行時間，見表2和表3.

表2 測試結(jié)果及標(biāo)準(zhǔn)偏差Table 2 Test results and standard deviations %

由表2和表3可知：本文提出的改進(jìn)DM-SVDD算法所構(gòu)建的模型不僅降低了運(yùn)行時間，且準(zhǔn)確率達(dá)到87.97%，在4種算法中檢測性能最優(yōu)，同時改進(jìn)的DM-SVDD模型在保證查全率最優(yōu)的前提下，相較于其他3種模型，查準(zhǔn)率最優(yōu)提升了19.73%，特異度最優(yōu)提升了14.89%.在保證正常類樣本檢測準(zhǔn)確率較高的同時，提升了異常類樣本的檢測準(zhǔn)確率。

表3 運(yùn)行時間對比Table 3 Comparison of running time s

為準(zhǔn)確評價模型對于兩類樣本的分類性能，比較G-Mean與F-Score結(jié)果如圖3所示。由圖3可知，改進(jìn)的DM-SVDD算法使G-Mean最優(yōu)提升了16.83%，F(xiàn)-Score最優(yōu)提升了19.37%.

圖3 G-Mean與F-Score比較結(jié)果Fig.3 Comparison of G-Mean and F-Score

為進(jìn)一步說明本文所提模型對于異常類樣本檢測的準(zhǔn)確率，運(yùn)用訓(xùn)練得到的改進(jìn)DM-SVDD異常檢測模型對測試數(shù)據(jù)中14組數(shù)據(jù)進(jìn)行檢測，其中正常類樣本數(shù)據(jù)3組，異常類樣本數(shù)據(jù)11組，檢測結(jié)果如圖4所示。圖中水平直線代表判別閾值，表示模型訓(xùn)練得到超球面后，球面距離球心的距離；樣本2-5、7-14的檢測輸出大于判別閾值，判斷為異常類樣本，樣本1、6的檢測輸出小于判別閾值，判斷為正常類樣本，除樣本3存在誤差以外，其余測試結(jié)果均與實(shí)際情況相符，表明改進(jìn)的DM-SVDD模型能夠有效實(shí)現(xiàn)產(chǎn)品的異常檢測。

圖4 改進(jìn)DM-SVDD模型測試結(jié)果Fig.4 Test results of the improved DM-SVDD model

4 結(jié)束語

本文提出了一種改進(jìn)的基于DM-SVDD的異常檢測新模型。DM主要用于特征降維，針對數(shù)據(jù)中存在的數(shù)值型和字符型兩種類型數(shù)據(jù)，采用兩種距離度量方法改進(jìn)降維過程；SVDD主要用于不平衡數(shù)據(jù)異常檢測。實(shí)驗(yàn)結(jié)果驗(yàn)證本文所提模型在多晶硅鑄錠異常檢測中的有效性，可用于指導(dǎo)類似的實(shí)際工業(yè)生產(chǎn)，發(fā)揮降低生產(chǎn)成本，提高產(chǎn)品質(zhì)量的作用。