聶 斌 李京亞 姚雪海
天津大學(xué),天津,300072
?
基于ISOMAP降維的復(fù)雜輪廓異常點(diǎn)識別方法
聶斌李京亞姚雪海
天津大學(xué),天津,300072
摘要:高維復(fù)雜輪廓異常點(diǎn)識別方法研究是目前過程輪廓監(jiān)控的重要課題之一。以高維復(fù)雜輪廓為研究對象,建立非參數(shù)輪廓矩陣模型,將基于測地距離的ISOMAP非線性降維技術(shù)與χ2控制圖相結(jié)合,提出新的輪廓異常點(diǎn)識別方法,以實(shí)現(xiàn)高維復(fù)雜輪廓異常點(diǎn)的準(zhǔn)確識別。仿真實(shí)驗(yàn)和實(shí)際案例的應(yīng)用分析結(jié)果證實(shí)該方法在異常點(diǎn)識別的準(zhǔn)確性方面具有良好的性能。
關(guān)鍵詞:異常點(diǎn)識別;等距特征映射(ISOMAP);輪廓;降維
0引言
統(tǒng)計(jì)過程控制(statisticqualitycontrol,SPC)是一種借助數(shù)理統(tǒng)計(jì)理論對過程進(jìn)行控制的方法。SPC可以在過程中及時(shí)發(fā)現(xiàn)問題,確定過程穩(wěn)定性,以保證最終產(chǎn)品的質(zhì)量。Woodall等[1]和Hawkins等[2]將SPC過程分為兩個(gè)重要階段:第一階段以采集到的歷史數(shù)據(jù)作為基礎(chǔ),建立穩(wěn)定運(yùn)行狀態(tài)模型;第二階段根據(jù)已有的模型,在制造過程中,對實(shí)時(shí)數(shù)據(jù)逐個(gè)進(jìn)行監(jiān)控,及時(shí)發(fā)現(xiàn)動(dòng)態(tài)過程中的變異。
輪廓監(jiān)控是近幾年出現(xiàn)的SPC應(yīng)用問題。輪廓是一條反映可測質(zhì)量特性與不同維度變量關(guān)系的曲線。對由一系列輪廓曲線組成的時(shí)間序列數(shù)據(jù)進(jìn)行監(jiān)控被稱為輪廓監(jiān)控。Koh等[3]將輪廓曲線應(yīng)用到鍛造過程控制中。Walker等[4]用垂直密度輪廓曲線(verticaldensityprofiles,VDP)來描述木板質(zhì)量,并嘗試在歷史輪廓中尋找異常點(diǎn)并建立模型。
異常點(diǎn)識別是第一階段輪廓監(jiān)控中的重要組成部分。異常點(diǎn)的存在容易造成分析錯(cuò)誤,如以此為基礎(chǔ)建立模型,將嚴(yán)重影響到第二階段的判斷。因此在進(jìn)行第一階段歷史數(shù)據(jù)建模前,篩選并剔除異常點(diǎn)是有必要的。異常點(diǎn)識別的方法主要分為兩類。第一類是參數(shù)方法,主要針對線性輪廓模型或者可以擬合成簡單非線性組合的輪廓模型。一般的思路是將輪廓數(shù)據(jù)回歸分析后的參數(shù)估計(jì)值視為多元變量,并用多元統(tǒng)計(jì)方法進(jìn)行異常點(diǎn)識別。Tracy[5]將HotellingT2方法應(yīng)用于多變量控制圖中。Kang等[6]考慮參數(shù)間的相關(guān)性,對線性輪廓中參數(shù)估計(jì)值進(jìn)行調(diào)整,然后用多EWMA控制圖進(jìn)行監(jiān)控。第二類是非參數(shù)方法。Nagappan等[7]提出用基于輪廓?dú)埐罱⒌奈宄叨瓤刂茍D法來實(shí)現(xiàn)復(fù)雜輪廓的監(jiān)控。Zhang等[8]針對獨(dú)立同分布且方差為正態(tài)分布的輪廓,提出χ2控制圖方法與穩(wěn)健χ2控制圖方法。Chang等[9]用B樣條來擬合非常規(guī)曲線以實(shí)現(xiàn)監(jiān)控。Girimurugan等[10]采用小波分析的方法解決存在微小變化輪廓的異常點(diǎn)識別問題并取得不錯(cuò)的效果。
近年來,各種處理輪廓的方法相繼出現(xiàn),與此同時(shí),一些問題也逐漸凸顯出來。不同方法對輪廓有不同的要求,如維度要求、數(shù)據(jù)類型要求等。這些方法在準(zhǔn)確性上的提升常依賴于對維度、數(shù)據(jù)類型這些條件的嚴(yán)格控制。為了弱化這種依賴關(guān)系,輪廓數(shù)據(jù)預(yù)處理思想逐漸成型,降維就是其中之一。Ding等[11]分別用主成分分析(PCA)和獨(dú)立成分分析(ICA)的方法對輪廓數(shù)據(jù)進(jìn)行降維處理,為先降維后分析的研究路線奠定了基礎(chǔ)。Colosimo等[12]將先進(jìn)行PCA降維的輪廓處理方法應(yīng)用到機(jī)械組件圓周輪廓的輪廓監(jiān)控中。Shiau等[13]也利用Ding的理論,結(jié)合HotellingT2方法對隨機(jī)非線性的輪廓進(jìn)行了分析。
結(jié)合了線性降維方法的非參數(shù)輪廓處理方法以其較大的靈活性這一特點(diǎn),在輪廓分析領(lǐng)域得到了充分認(rèn)可。但這種方法的應(yīng)用范圍遠(yuǎn)不及輪廓分析本身的應(yīng)用范圍,因此必須對方法適用性進(jìn)行擴(kuò)展。2000年后逐漸走向成熟的非線性降維就是一個(gè)擴(kuò)展方向,Lee等[14]對非線性降維方法作了很好的總結(jié),Neto等[15]曾嘗試將結(jié)合了Laplacian方法的非參數(shù)分析方法應(yīng)用于輪廓異常點(diǎn)分析問題中。
等距特征映射(isometricmapping,ISOMAP)2000年由Tenenbaum等[16]提出,提出后便得到了廣泛重視并被接納。這種基于數(shù)據(jù)點(diǎn)之間測地距離的非線性降維方法能夠盡可能地保存流形中的相鄰關(guān)系,從而實(shí)現(xiàn)全局降維?;诖耍疚奶岢鲆环N結(jié)合了ISOMAP非線性降維與χ2控制圖方法的輪廓異常點(diǎn)識別方法,以實(shí)現(xiàn)復(fù)雜高維輪廓異常點(diǎn)的準(zhǔn)確識別。仿真對比分析與真實(shí)數(shù)據(jù)識別結(jié)果將被用于判斷本文所提方法的準(zhǔn)確性。
1模型提出與假設(shè)
輪廓監(jiān)控第一階段的監(jiān)控對象是已有的輪廓數(shù)據(jù)集。在此,我們假設(shè)有N條輪廓線,第i(i=1,2,…,N)條輪廓由M個(gè)點(diǎn)組成,每個(gè)點(diǎn)都表示特定條件xij下對應(yīng)的質(zhì)量特性yij的值。如果對于所有的i(i=1,2,…,N),xij是一個(gè)固定值,則稱此輪廓是平衡的,此時(shí),我們可以把這組平衡的輪廓看作是一個(gè)N×M的矩陣。
已有的這些輪廓都是隨機(jī)均勻抽樣得到的樣本,由于過程穩(wěn)定性不可知,因此這些輪廓數(shù)據(jù)中可能存在異常點(diǎn)。
假設(shè)用于第一階段的每條輪廓都是非參數(shù)的輪廓,即對于每條受控輪廓,都服從以下模型:
yij=f0(xij)+εijj=1,2,…,M;i∈S0
(1)
而對于其他異常點(diǎn)輪廓,則滿足
yij=fi(xij)+εijj=1,2,…,M;i∈S1
(2)
模型中,εij是對于所有i、j都滿足均值為0、方差為σ2獨(dú)立同分布的隨機(jī)誤差項(xiàng)。集合S0、S1分別是受控輪廓集與異常輪廓集。所有受控的輪廓擬合的f0是某個(gè)確定的函數(shù),而fi可以是不確定的,即異常點(diǎn)不同,fi可以不同。
針對非參數(shù)輪廓的第一階段異常點(diǎn)識別問題,本文提出以下基本流程:首先,采用ISOMAP對歷史輪廓數(shù)據(jù)進(jìn)行降維;然后,對降維后的數(shù)據(jù)用χ2控制圖進(jìn)行分析,找出異常點(diǎn)。
1.1ISOMAP方法
ISOMAP是一種基于數(shù)據(jù)點(diǎn)之間測地距離的非線性降維方法,用以剝離出嵌入在高維空間中的低維子流形。低維流形中最近鄰的點(diǎn)在高維空間中也是近鄰的,由此,可以通過對高維空間中各點(diǎn)與近鄰點(diǎn)路徑距離進(jìn)行分析來揭示低維流形的情況。具體步驟如下[16]:
(1)計(jì)算每個(gè)點(diǎn)的近鄰點(diǎn)(K鄰域或者ε鄰域)。
(2)在樣本集上定義一個(gè)賦權(quán)無向圖。對于任意的點(diǎn)i,需要將i與其他所有點(diǎn)進(jìn)行比較,若i與j互為近鄰點(diǎn)(即j在i的K鄰域或者ε鄰域內(nèi)),則邊的權(quán)值為i和j之間的歐氏距離,若i與j不為近鄰點(diǎn),則令距離為0。
(3)計(jì)算賦權(quán)無向圖中兩點(diǎn)之間的最短距離。采用下面的方法利用歐氏距離來逼近測地距離:首先,計(jì)算初始距離矩陣DG=(dG(i,j)),其中,當(dāng)j為i的近鄰點(diǎn)時(shí),dG(i,j)=dX(i,j),否則dG(i,j)=∞,這里dX(i,j)為i和j的歐氏距離,dG(i,j)為i和j的測地距離;然后,對于每一個(gè)k(k=1,2,…,N),以min(dG(i,j),dG(i,k)+dG(k,j))代替初始的dG(i,j),直到對于任意i與j,dG(i,j)不變時(shí)算法終止,即得到距離矩陣DG=(dG(i,j))。
(4)建立更低維的線性嵌入。應(yīng)用經(jīng)典的多維尺度分析(multidimensional scaling, MDS)方法得到d維歐氏空間的距離矩陣DY=(dY(i,j)),這個(gè)嵌入空間能夠最大限度地保持流形的內(nèi)在幾何特征。新空間里的向量Yi需要使以下E函數(shù)最小:
E=‖τ(DG)-τ(DY)‖L2
(3)
定義τ(D)=-HSH/2,其中S為平方距離矩陣,S=D2,H為中心距離矩陣[17]。在進(jìn)行ISOMAP降維的過程中用戶需要自行設(shè)置相鄰點(diǎn)參數(shù)K或者鄰域半徑參數(shù)ε(二者只需設(shè)定其一),該項(xiàng)參數(shù)的設(shè)定直接影響到最后結(jié)果的準(zhǔn)確性。Samko等[18]給出了ISOMAP中最佳參數(shù)K選擇的方法,具體流程如下:
(1)參數(shù)可能存在區(qū)間的確定,即Kopt∈[Kmin,Kmax]。其中Kmin是能夠使整個(gè)賦權(quán)無向圖鏈接起來的K的最小值,Kmax是K的最大值,K的選擇需滿足以下條件:
(4)
式中,Q為邊緣點(diǎn)的數(shù)量。選擇εmax為max(dX(i,j)),dX(i,j)為ISOMAP的輸入距離。
(2)對選定區(qū)間內(nèi)的每一個(gè)整數(shù)值進(jìn)行成本函數(shù)E(K)的計(jì)算。
(3)選出所有的極小值E(K)以及對應(yīng)的K。
(4)用以下方法找到最終最合適的Kopt:
(5)
式中,ρDGDY為DG與DY的標(biāo)準(zhǔn)線性相關(guān)系數(shù)。
1.2χ2控制圖
χ2控制圖是一種非參數(shù)統(tǒng)計(jì)方法[8],是可以不用對輪廓進(jìn)行擬合而直接對輪廓數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的方法。
若均值μI和協(xié)方差矩陣ΣI均已知,則可以對每一條輪廓求統(tǒng)計(jì)量Δi:
(6)
一般情況下,歷史數(shù)據(jù)中都會存在異常點(diǎn),且μI和ΣI均未知,此時(shí)需要根據(jù)已有的輪廓數(shù)據(jù),通過統(tǒng)計(jì)方法得到未知參數(shù)的近似值,再代入式(6)后判斷輪廓是否為異常點(diǎn)。
Zhang等[8]將χ2控制圖用于歷史數(shù)據(jù)的處理,采用估計(jì)方法得到μI和ΣI的估計(jì)值,然后代入式(6),依次確定每條輪廓是否為異常點(diǎn)。該估計(jì)方法如下:
(7)
(8)
(9)
式(8)中的方差估計(jì)在輪廓方差相等或接近時(shí)偏差很小。但是之前ISOMAP降維后的數(shù)據(jù)將很難保持等方差性,因此Zhang等[8]提出了更加穩(wěn)健的方差估計(jì)方法:
(10)
對于方差特征不同的數(shù)據(jù),應(yīng)該采用不同的估計(jì)方法,因此在異常點(diǎn)識別前必須對輪廓數(shù)據(jù)進(jìn)行齊方差性檢驗(yàn),方差比較接近時(shí)采用式(8)、式(9)給出的估計(jì)方法,而在方差不齊時(shí)使用式(10)給出的估計(jì)方法。
2性能測試
2.1仿真數(shù)據(jù)分析
我們采用第一類錯(cuò)誤發(fā)生率和第二類錯(cuò)誤發(fā)生率來對判定結(jié)果進(jìn)行評價(jià)。第一類錯(cuò)誤發(fā)生率是將正常點(diǎn)判定為異常點(diǎn)的點(diǎn)的數(shù)量與所有正常點(diǎn)數(shù)量的比值,記為eⅠ;第二類錯(cuò)誤發(fā)生率是將異常點(diǎn)判定為正常點(diǎn)的點(diǎn)的數(shù)量與所有異常點(diǎn)數(shù)量的比值,記為eⅡ。具體計(jì)算方法如下:
(11)
(12)
式中,P為仿真過程中設(shè)定的異常點(diǎn)數(shù)量;P1為錯(cuò)判的正常點(diǎn)數(shù)量;P2為錯(cuò)判的異常點(diǎn)的數(shù)量。
本文利用MATLAB軟件進(jìn)行仿真實(shí)驗(yàn)。首先生成隨機(jī)的輪廓(包含正常輪廓與異常輪廓),然后采用本文提出的先ISOMAP降維、后非線性異常點(diǎn)識別的方法對模擬的數(shù)據(jù)進(jìn)行異常點(diǎn)識別,用兩類錯(cuò)誤發(fā)生率來評價(jià)方法的實(shí)用性和有效性。
每次仿真實(shí)驗(yàn)都產(chǎn)生一個(gè)存在異常輪廓的輪廓數(shù)據(jù)集,即生成一個(gè)存在異常行的N×M矩陣,結(jié)合提出的方法,比較檢驗(yàn)出的異常點(diǎn)與設(shè)置的異常點(diǎn)之間的位置差異。
為了盡可能接近一個(gè)非參數(shù)輪廓,我們采用以下函數(shù)來產(chǎn)生輪廓內(nèi)的質(zhì)量特征向量:
(13)
式(13)中,變量有兩個(gè):一個(gè)是參數(shù)a,另一個(gè)是滿足正態(tài)分布N(0,σ2)隨機(jī)變量ε的方差σ2。假設(shè)受控狀態(tài)下,a為0.8,s2為1。每個(gè)輪廓中,變量x從0.02開始以0.02為步長,均勻取800個(gè)點(diǎn),由此800個(gè)點(diǎn)形成一個(gè)輪廓,圖1展示了該輪廓的基本形狀,圖中兩條輪廓的a值分別為0.8和1.1,a=0.8即受控狀態(tài)下的輪廓。
圖1 仿真數(shù)據(jù)形成的輪廓形狀圖
仿真中共隨機(jī)生成200個(gè)輪廓,包括200×p條異常輪廓,其中p為異常比例。用所述方法仿真1000次后,將統(tǒng)計(jì)出的第一類錯(cuò)誤和第二類錯(cuò)誤出現(xiàn)的頻率與Zhang等[8]的方法進(jìn)行對比。在檢驗(yàn)中,置信區(qū)間1-α設(shè)定為0.9。
根據(jù)上述參數(shù)選擇方法,首先選擇參數(shù)K可能存在的區(qū)間。為了能夠產(chǎn)生賦權(quán)無向圖且不至于造成過大的運(yùn)算成本,暫定區(qū)間[3,10]為目標(biāo)區(qū)間。通過計(jì)算降維前后數(shù)據(jù)相關(guān)程度,最終確定參數(shù)K為10。
在進(jìn)行異常值非參數(shù)統(tǒng)計(jì)檢驗(yàn)前,需要最終確定數(shù)據(jù)降維后的維度。根據(jù)Samko等[18]的說明,降維后殘差方差(residual variance, RV)的變化是一個(gè)重要的依據(jù)。圖2展示了維度由1到10變化對應(yīng)的降維后的殘差方差VR變化(所有殘差變化均已作歸一化處理)情況。從圖2中可以看出,降維過程中殘差隨著維度的增大而逐漸變小,說明降維維度不宜過小,維度4是曲線拐點(diǎn)。Tenenbaum等[16]提出,最佳維度應(yīng)選擇降維殘差曲線的拐點(diǎn),故4可以作為最終的降維維度。
圖2 VR與etotal隨降維維度D變化圖
但是降維維度的最優(yōu)選取點(diǎn)并不等同于最終ISOMAP與χ2最優(yōu)維度的選擇。為驗(yàn)證維度4選擇的正確性,圖2還展示了總錯(cuò)誤比率etotal(etotal=eⅠ+eⅡ)隨降維維度變化的關(guān)系??梢钥闯?,隨著維度值逐漸增大,etotal逐漸增大,說明維度取值不宜過大。圖中實(shí)線反映歸一化處理后殘差方差VR相對變化與歸一化處理后總錯(cuò)誤率etotal相對變化總的變化情況,可以看出,曲線兩端高中間低,最低點(diǎn)對應(yīng)的降維維度是4。按相同比重考慮降維殘差和錯(cuò)誤率的重要性,最終得到總相對變化的最低點(diǎn)即為最優(yōu)維度選擇點(diǎn),故維度可選擇為4。
圖3和圖4分別展示的是本文所提的ISOMAP結(jié)合χ2控制圖的異常點(diǎn)識別方法與現(xiàn)有的χ2控制圖異常點(diǎn)識別方法的結(jié)果對比,圖3是eⅠ的結(jié)果對比,圖4是eⅡ的結(jié)果對比,圖中,實(shí)線是本文提出的方法的結(jié)果,虛線是Zhang等[8]所提出的單純用χ2控制圖得到的結(jié)果。
圖3 eI隨參數(shù)a變化圖
圖4 eⅡ隨參數(shù)a變化圖
從圖3、圖4中可以直觀看出,隨著參數(shù)a的變化,本文所提方法的第一類錯(cuò)誤的發(fā)生率eⅠ均明顯小于對比方法的eⅠ;在參數(shù)a小于0.85時(shí),本文所提方法的第二類錯(cuò)誤的發(fā)生率eⅡ小于對比方法的eⅡ,之后本文方法的優(yōu)越性并不顯著。隨著異常比例p的提高,兩種方法的性能逐漸接近。綜合分析,在變化幅度較小的情況下,本文方法既能更加敏感地識別異常點(diǎn),又能避免對穩(wěn)定過程的誤判。因此,所提出的方法適用于對小幅度異常點(diǎn)的識別,在降低第一類錯(cuò)誤發(fā)生率的同時(shí)保證第二類錯(cuò)誤發(fā)生率的穩(wěn)定。
2.2案例數(shù)據(jù)分析
本文采用Walker等[4]的木板垂直密度輪廓組數(shù)據(jù)(簡稱VDP數(shù)據(jù)),運(yùn)用所提出的方法進(jìn)行輪廓異常點(diǎn)識別。VDP數(shù)據(jù)是在木板生產(chǎn)過程中隨機(jī)抽選樣本,對每個(gè)木板樣本不同位置的密度進(jìn)行精確測量得到不同的質(zhì)量輪廓曲線。這組輪廓中共有24條輪廓,每條輪廓內(nèi)有314個(gè)點(diǎn)。
圖5是殘差與降維維度關(guān)系圖,依據(jù)Tenenbaum等[16]的“拐點(diǎn)”理論,維度2是應(yīng)選取的降維維度。為驗(yàn)證此結(jié)果,在具體操作中,多次使用ISOMAP方法分別將原數(shù)據(jù)降維至1~10維,并保留所有數(shù)據(jù),分別進(jìn)行χ2異常點(diǎn)判斷,匯總后得到的結(jié)果如表1所示。由表1看出,降維維度2之后,重復(fù)率高的異常輪廓是輪廓6和輪廓10。
圖5 ISOMAP降維中VR與降維維度D關(guān)系圖
降維維度12345異常輪廓3,66,106,106,106,10降維維度678910異常輪廓6,102,6,10,212,6,103,6,104,6
如圖6所示,輪廓10隨著測量位置的變化,其VDP數(shù)據(jù)值始終低于總體水平,輪廓6在測量位置50~250區(qū)間內(nèi)VDP數(shù)據(jù)值明顯低于對應(yīng)點(diǎn)總體水平,但在兩端位置高于對應(yīng)點(diǎn)總體水平。因此,這兩條輪廓均表現(xiàn)出較為明顯的差異,故該兩條輪廓屬于異常輪廓。由此說明本文方法能夠以合理的降維維度取值有效地識別出異常點(diǎn)的位置。表1與圖6的結(jié)果是對應(yīng)的。
圖6 由ISOMAP與χ2結(jié)合方法識別的異常點(diǎn)
圖7展示的是由單純χ2方法識別的異常點(diǎn),輪廓9和輪廓14在形狀上并無明顯異常,是否是真異常點(diǎn)還值得考究。3號輪廓雖整體位于較高位置,但與相鄰輪廓連接緊密,是否異常也還需要作更細(xì)致的統(tǒng)計(jì)研究。
圖7 由χ2方法識別的異常點(diǎn)
3結(jié)論與展望
本文提出了ISOMAP降維結(jié)合χ2控制圖的輪廓異常點(diǎn)識別方法。該方法通過引入ISOMAP降維方法成功解決了數(shù)據(jù)點(diǎn)多、維度爆炸的輪廓識別問題,能有效提取輪廓控制圖的特征信息;使用χ2控制圖解決了輪廓異常點(diǎn)識別問題。從隨機(jī)輪廓仿真實(shí)驗(yàn)和VDP數(shù)據(jù)案例中不難看出,結(jié)合了ISOMAP的χ2控制圖的輪廓異常點(diǎn)識別方法能準(zhǔn)確識別異常點(diǎn)并保持較低的錯(cuò)誤發(fā)生率。雖然本文在分析方法性能時(shí)并沒有對數(shù)據(jù)類型、數(shù)據(jù)維度作明確要求,但所提方法依然表現(xiàn)出突出的異常點(diǎn)識別能力,因此結(jié)合了ISOMAP的χ2控制圖輪廓異常點(diǎn)識別方法具有很強(qiáng)的適應(yīng)性和應(yīng)用前景。
所提出的方法中降維維度的選擇十分關(guān)鍵,本文所提出的維度選擇方法主要基于已知函數(shù)輪廓,但對于不同形狀輪廓的適用性仍有待研究。
參考文獻(xiàn):
[1]WoodallWH,SpitznerDJ,MontgomeryDC,etal.UsingControlChartstoMonitorProcessandProductQualityProfiles[J].JournalofQualityTechnology, 2004, 36(3): 309-320.
[2]HawkinsDM,PeihuaQ,ChangWK.TheChangepointModelforStatisticalProcessControl[J].JournalofQualityTechnology, 2003, 35(4): 355-366.
[3]KohCKH,ShiJ,BlackJM,etal.TonnageSignatureAttributeAnalysisforStampingProcess[J].Transactions—NorthAmericanManufacturingResearchInstitutionofSME, 1996, 24: 193-198.
[4]WalkerE,WrightSP.ComparingCurvesUsingAdditiveModels[J].JournalofQualityTechnology, 2002, 34(1): 118-129.
[5]TracyND.MultivariateControlChartsforIndividualObservations[J].JournalofQualityTechnology, 1992, 24(2): 88-95.
[6]KangL,AlbinS.On-lineMonitoringWhentheProcessYieldsaLinearProfile[J].JournalofQualityTechnology, 2000, 32(4): 418-426.
[7]NagappanN,WilliamsL,VoukM,etal.UsingIn-processTestingMetricstoEstimatePost-releaseFieldQuality[C]//ISSRE’07.The18thIEEEInternationalSymposiumonSoftwareReliability, 2007.Trollhattan:IEEE, 2007: 209-214.
[8]ZhangH,AlbinS.DetectingOutliersinComplexProfilesUsingaχ2ControlChartMethod[J].IIETransactions, 2009, 41(4): 335-345.
[9]ChangSI,YadamaS.StatisticalProcessControlforMonitoringNon-linearProfilesUsingWaveletFilteringandB-splineApproximation[J].InternationalJournalofProductionResearch, 2010, 48(4): 1049-1068.
[10]GirimuruganS,ChickenE,PignatielloJrJJ,etal.WaveletAnovaforDetectionofLocalandGlobalProfileChanges[C]//Proceedingsofthe2013IndustrialandSystemsEngineeringResearchConference.SanJuan,PuertoRico:IIE. 2013: 3235-3244.
[11]DingY,ZengL,ZhouS.PhaseIAnalysisforMonitoringNonlinearProfilesinManufacturingProcesses[J].JournalofQualityTechnology, 2006, 38(3): 199-216.
[12]ColosimoBM,PacellaM.OntheUseofPrincipalComponentAnalysistoIdentifySystematicPatternsinRoundnessProfiles[J].QualityandReliabilityEngineeringInternational, 2007, 23(6): 707-725.
[13]ShiauJJH,HuangHL,LinSH,etal.MonitoringNonlinearProfileswithRandomEffectsbyNonparametricRegression[J].CommunicationsinStatistics—TheoryandMethods, 2009, 38(10): 1664-1679.
[14]LeeJA,VerleysenM.NonlinearDimensionalityReduction[M].NewYork:SpringerScience&BusinessMedia, 2007.
[15]NetoFM,deMagalh?esMS.ALaplacianSpectralMethodinPhaseIAnalysisofProfiles[J].AppliedStochasticModelsinBusinessandIndustry, 2012, 28(3): 251-263.
[16]TenenbaumJB,deSilvaV,LangfordJC.AGlobalGeometricFrameworkforNonlinearDimensionalityReduction[J].Science, 2000, 290(5500): 2319-2323.
[17]MardiaKV,KentJT,BibbyJM.MultivariateAnalysis[M].London:AcademicPress, 1979.
[18]SamkoO,MarshallAD,RosinPL.SelectionoftheOptimalParameterValuefortheIsomapAlgorithm[J].PatternRecognitionLetters, 2006, 27(9): 968-979.
(編輯蘇衛(wèi)國)
收稿日期:2015-06-30
中圖分類號:TH165.4
DOI:10.3969/j.issn.1004-132X.2016.12.008
作者簡介:聶斌,男,1971年生。天津大學(xué)管理與經(jīng)濟(jì)學(xué)部工業(yè)工程系副教授、碩士研究生導(dǎo)師。主要研究方向?yàn)榻y(tǒng)計(jì)過程控制、可靠性工程等。李京亞,女,1990年生。天津大學(xué)管理與經(jīng)濟(jì)學(xué)部碩士研究生。姚雪海,男,1989年生。天津大學(xué)管理與經(jīng)濟(jì)學(xué)部碩士研究生。
DetectingOutliersinComplexProfileswithISOMAP
NieBinLiJingyaYaoXuehai
TianjinUniversity,Tianjin, 300072
Abstract:Researches of outlier-detection methods for the high-dimensional complex profiles are as an important branch of profile monitoring. Considering the complexity of some high-dimensional profiles, a matrix model for non-parametric profile was set up. Based on this model, a combined method was proposed, where ISOMAP could reduce the dimensionality based on geodesic distance and χ2 control chart could identify profile outliers. The proposed method shows good performance in the accuracy of outlier detection by both simulation studies and real case studies.
Key words:outlier detection; isometric mapping(ISOMAP); profile; dimension-deduction