沈維蕾 趙 韓 周 蓉
合肥工業(yè)大學(xué),合肥,230009
統(tǒng)計(jì)過程控制(statistical process control,SPC)是一種通過監(jiān)控工序過程來保證工序能夠在充分發(fā)揮其過程能力的基礎(chǔ)上,制造出合格產(chǎn)品的方法。SPC的主要工具是控制圖[1]。當(dāng)控制圖發(fā)出一個失控狀態(tài)的信號時,表示生產(chǎn)過程發(fā)生了變化[2]。但是在確定過程變化的實(shí)際時間點(diǎn)時,控制圖并不是很有效的工具。為了解決這個問題,有些學(xué)者提出了變點(diǎn)模型,但是并不能很好地處理實(shí)際應(yīng)用中很普遍的可變抽樣策略[3]。因此,本文基于模糊聚類理論以及統(tǒng)計(jì)方法,提出一種新的模糊統(tǒng)計(jì)聚類方法來處理實(shí)際應(yīng)用中的變點(diǎn)問題。
聚類就是按照一定的要求和規(guī)律對事物進(jìn)行區(qū)分和分類的過程[4]。聚類分析則是指用數(shù)學(xué)的方法研究和處理給定對象的分類,它是多元統(tǒng)計(jì)分析方法中的一種。傳統(tǒng)的聚類分析是一種硬劃分,它把每個待辨識的對象嚴(yán)格劃分到某類中,具有非此即彼的性質(zhì),因此這種類別劃分的界限是分明的。而實(shí)際上大多數(shù)對象并沒有嚴(yán)格的屬性,它們在性態(tài)和類屬方面存在著中介性,具有亦此亦彼的性質(zhì),因此適合進(jìn)行軟劃分。模糊集理論的提出為這種軟劃分提供了有力的分析工具,并稱之為模糊聚類分析。
1.2.1 變點(diǎn)的定義
變點(diǎn)指的是某一時刻,在此前后的觀測值或數(shù)據(jù)遵循兩個不同的分布模型[5]。對于均值控制圖來說,當(dāng)工序過程中的均值存在一個突變時,變點(diǎn)模型可按下式來構(gòu)造:
其中,Xi為該過程的第i個輸出值。開始時,Xi服從于正態(tài)分布N(μ0,σ20),當(dāng)該過程到達(dá)t點(diǎn)時,Xi卻服從于另一個不同均值的正態(tài)分布N(μ1,σ20),其中μ0≠μ1。我們把這種在過程中引起分布變化的點(diǎn)t稱為變點(diǎn)。
1.2.2 變點(diǎn)估計(jì)中的聚類方法
將聚類方法應(yīng)用于變點(diǎn)估計(jì)之中,其本質(zhì)就是將控制圖中的觀測值進(jìn)行分類,以找出變點(diǎn)。只有將所有獨(dú)立而又連續(xù)的觀測值全部分為在控狀態(tài)聚類和失控狀態(tài)聚類這兩種類別,才能準(zhǔn)確地找出變點(diǎn)。這種分類在研究中又稱為模式分類[6]。
使用聚類方法來估計(jì)變點(diǎn),其實(shí)質(zhì)也是聚類方法應(yīng)用于模式識別的一個方面。在以前的研究中,經(jīng)常采用變點(diǎn)模型來進(jìn)行變點(diǎn)的估計(jì),而本文采用聚類分析來找出變點(diǎn),這兩種方法有很多相似點(diǎn)[7]。
當(dāng)控制圖接受一個失控的信號時(即觀測值超出控制界限),可以得出不同的聚類所確定的目標(biāo)函數(shù)[7]。在基于目標(biāo)函數(shù)的基礎(chǔ)上,可以確定出最佳的兩種聚類,即在控狀態(tài)類和失控狀態(tài)類。
假設(shè)控制圖在某t時刻發(fā)出了一個失控信號,現(xiàn)研究的主要目的是找出均值從μ0變到μ1(μ0≠μ1)的這一點(diǎn)即變點(diǎn)t??紤]到控制圖對于聚類的約束條件,將變點(diǎn)t之前的所有觀測值都?xì)w為在控狀態(tài)類,而將變點(diǎn)t之后的所有觀測值都?xì)w為失控狀態(tài)類。所有點(diǎn)中使得目標(biāo)函數(shù)最小的那一點(diǎn),就認(rèn)為它是變點(diǎn)t。
隸屬函數(shù)是用于表征模糊集合的數(shù)學(xué)工具,它是用來刻畫處于中介過渡事物對差異雙方所具有的傾向性。本文討論的問題主要是估計(jì)正態(tài)分布下連續(xù)生產(chǎn)過程中的均值變點(diǎn)問題,因此一個樣本對于其所屬聚類的隸屬概率等于該樣本所服從分布的概率。因此我們假設(shè)真正的變點(diǎn)發(fā)生在t時刻,于是每個樣本的隸屬度可按下式計(jì)算:
不久,那個一杭在醫(yī)院里遇到的墨鏡男匆匆進(jìn)來,把一個皺巴巴的記事本和一個U盤雙手遞給范堅(jiān)強(qiáng)。范堅(jiān)強(qiáng)點(diǎn)了點(diǎn)頭,那人出去了。范堅(jiān)強(qiáng)翻開記事本,走到一杭面前,念了起來:“9月23日,早上發(fā)生了一起車禍……9月25日,有個穿警察制服的人來找我……9月27日,一個戴墨鏡的年輕人來找我,……臨走,給了我一萬塊錢。我請他放心,我絕不會出賣范老板……”范堅(jiān)強(qiáng)抬頭看了一眼一杭,說:“你看看,是這個記事本吧?”
式中,IFC為在控狀態(tài)類;OFC為失控狀態(tài)類;Yi為第i個樣本相適應(yīng)的隨機(jī)變量;f(Y;θ0)為在控狀態(tài)參數(shù)為θ0的過程分布函數(shù);f(Y;θ1)為失控狀態(tài)參數(shù)為θ1的過程分布函數(shù)。
這里的μ1為該過程處于失控狀態(tài)下的均值。
為了在眾多可能的分類中找出合理的分類結(jié)果,要確立合理的聚類準(zhǔn)則,即聚類的目標(biāo)函數(shù)。聚類的目標(biāo)函數(shù)很多,硬聚類常使用的目標(biāo)函數(shù)有最小平方誤差和。而模糊聚類常用的目標(biāo)函數(shù)眾多,如熵函數(shù)、似然函數(shù)、似然對數(shù)函數(shù)等[8]。本文采用的目標(biāo)函數(shù)為
當(dāng)t使得該函數(shù)取得最小值時,則t最有可能為變點(diǎn)。該函數(shù)主要評估在控狀態(tài)聚類和失控狀態(tài)聚類不同組合之間的效果。
首先生成服從μ=100、σ=5(本節(jié)模擬運(yùn)算中變量全用量綱一單位)的正態(tài)分布的隨機(jī)數(shù)列,在t=100時,將生成服從μ=100+δ(其中δ=1,1.5,2,3)、σ=5的正態(tài)分布的隨機(jī)數(shù)列。然后分別采用三種方法(模糊統(tǒng)計(jì)聚類法、休哈特控制圖法、FCM)[9]來找出該隨機(jī)數(shù)列的變點(diǎn),每一種方法循環(huán)1000次并求出其平均值和標(biāo)準(zhǔn)差。抽樣方法采用的固定抽樣樣本(n1,n2)分別為(2,2)、(4,4)、(8,8)。表1給出了該組試驗(yàn)的結(jié)果數(shù)據(jù)。
表1 三種方法在隨機(jī)模擬1000次之后的數(shù)據(jù)對比
通過表1可以看出,本文方法顯著地提高了控制圖中的變點(diǎn)估計(jì)的精度與穩(wěn)定性,說明本文方法在固定抽樣樣本的變點(diǎn)檢測上顯然要好于其他兩種方法。
首先生成服從μ=100、σ=5的正態(tài)分布的隨機(jī)數(shù)列,在t=100時,將自動生成μ=100+δ(其中δ=1,1.5,2,3)、σ=5的正態(tài)分布的隨機(jī)數(shù)列。試驗(yàn)中將上警告線設(shè)置為UCL,下警告線設(shè)置為LCL,抽樣策略采用(n1,n2)= (2,8)。即在前一樣本點(diǎn)處于上警告線和下警告線之間時,取小樣本n1=2進(jìn)行平均運(yùn)算求得樣本點(diǎn);如果前一樣本點(diǎn)在上警告線和下警告線之外但又未超出上下控制線時,取大樣本n2=8進(jìn)行平均運(yùn)算取得樣本點(diǎn)。為了減小隨機(jī)誤差對試驗(yàn)的影響,將試驗(yàn)隨機(jī)模擬1000次,求出最后的平均值和標(biāo)準(zhǔn)差。
由表2可以看出,本文方法對于可變抽樣控制圖的變點(diǎn)估計(jì)同樣有著很高的精確性。特別是在均值變點(diǎn)呈小幅度變化時,這種方法的優(yōu)越性更加凸顯。但是另一方面,在突變幅度變得很大時,無論是本文方法還是其他方法,其應(yīng)用效果都趨于一致。這主要是由休哈特控制圖的性質(zhì)和它們在大幅度突變時都有著良好表現(xiàn)的相似性而決定的[10]。
表2 三種方法在隨機(jī)模擬1000次以后的變點(diǎn)均值數(shù)據(jù)對比
某發(fā)動機(jī)缸體的制造技術(shù)標(biāo)準(zhǔn)為φ86.5+0.030mm。通過對生產(chǎn)線上的發(fā)動機(jī)缸體直徑進(jìn)行持續(xù)記錄,并研究這些記錄數(shù)據(jù)的波動來判斷該生產(chǎn)線是否處于正常的生產(chǎn)狀態(tài)。如果該工序過程發(fā)生異常,則通過模糊統(tǒng)計(jì)聚類方法來找出工序過程發(fā)生異常的變點(diǎn)。通過與均值控制圖和比較來評價模糊統(tǒng)計(jì)聚類方法。
下面給出該公司2011-05-05至2011-06-01發(fā)動機(jī)缸體生產(chǎn)線上的全部采樣數(shù)據(jù)(每天依次采集4個數(shù)據(jù),單位為mm):
根據(jù)以上數(shù)據(jù)繪制出均值控制圖,如圖1所示。
由圖1似乎可以得出以下結(jié)論:5月30日(即樣本點(diǎn)為26)以前生產(chǎn)過程處于正常狀態(tài),5月30日控制圖發(fā)出失控信號,因此生產(chǎn)工序過程可能在5月30日或5月31日發(fā)生了變化。但是這個結(jié)論顯然是不正確的,因?yàn)榭刂茍D發(fā)出失控信號并不能代表工序過程在此時發(fā)生了異常,控制圖本身并不能給出變點(diǎn)的確切時間。因此,下面將使用模糊統(tǒng)計(jì)聚類方法來對這些數(shù)據(jù)進(jìn)行再一次分析,并估計(jì)其變點(diǎn)即工序過程發(fā)生變化的確切時間點(diǎn)。
圖1 發(fā)動機(jī)缸體生產(chǎn)線的均值控制圖
將數(shù)據(jù)作為一個數(shù)列,以控制圖中顯示的失控點(diǎn)(即樣本點(diǎn)為26)作為遍歷算法的起點(diǎn)。通過計(jì)算每個樣本點(diǎn)的隸屬函數(shù),可以求出所有樣本點(diǎn)的目標(biāo)函數(shù)[11]。通過對目標(biāo)函數(shù)值進(jìn)行比較判斷,得出的結(jié)論是,當(dāng)樣本點(diǎn)為19時,即在5月23日工序過程發(fā)生了突變。這也就說明生產(chǎn)線發(fā)生異常變化的實(shí)際時間是5月23日,與控制圖中的失控點(diǎn)5月30日相差很大。采集數(shù)據(jù)并進(jìn)行分析的目的就是改善生產(chǎn)線,使之處于正常狀態(tài)下,因此找出生產(chǎn)過程發(fā)生變化的實(shí)際點(diǎn)是非常重要的,圖2是通過仿真后得出的聚類分析圖。
圖2 控制圖上樣本點(diǎn)的聚類分析
從以上的對比中可以發(fā)現(xiàn),模糊統(tǒng)計(jì)聚類方法在實(shí)際應(yīng)用中具有很大的意義。通過模糊統(tǒng)計(jì)聚類方法可以精確地找出均值或者標(biāo)準(zhǔn)差發(fā)生突變的確切時間,在僅有發(fā)生質(zhì)量問題的趨勢和隱患時,及時查找原因并進(jìn)行整改,使生產(chǎn)過程回到正常水平。
(1)將模糊聚類分析應(yīng)用到控制圖中,可以準(zhǔn)確地知道均值或者標(biāo)準(zhǔn)差發(fā)生突變的確切時間,在僅有發(fā)生質(zhì)量問題的趨勢和隱患時,及時查找原因并進(jìn)行整改,使生產(chǎn)過程回到正常水平。
(2)模糊聚類分析方法無論在固定抽樣策略還是可變抽樣策略下,對于控制圖的變點(diǎn)估計(jì)都有著良好的效果。
(3)將模糊聚類分析方法運(yùn)用于發(fā)動機(jī)缸體制造的過程控制之中,得到了滿意的效果,證明該方法是有效性的、可行性的。
[1]伍愛.質(zhì)量管理學(xué)[M].3版.廣州:暨南大學(xué)出版社,2010.
[2]袁太平.基于成組技術(shù)的項(xiàng)目過程質(zhì)量控制研究[D].天津:河北工業(yè)大學(xué),2006.
[3]張公緒,孫靜.新編質(zhì)量管理學(xué)[M].2版.北京:高等教育出版社,2003.
[4]高新波.模糊聚類分析及應(yīng)用[M].西安:西安電子科技大學(xué)出版社,2004.
[5]陳希儒.變點(diǎn)統(tǒng)計(jì)分析簡介[J].數(shù)理統(tǒng)計(jì)與管理,1991(2):53-54.
[6]鄭立偉.基于成組技術(shù)的質(zhì)量控制方法與工具研究[D].天津:天津大學(xué),2004.
[7]Zarandi M H F,Alaeddini A.A General Fuzzystatistical Clustering Approach for Estimating the Time of Change in Variable Sampling Control Charts[J].Information Sciences,2010,180(16):3033-3014.
[8]Alaeddini A,Ghazanfari M,Nayeri M A.A Hybrid Fuzzy-statistical Clustering Approach for Estimating the Time of Changes in Fixed and Variable Sampling Control Charts[J].Information Sciences,2009,179(11):1769-1784.
[9]何清.模糊聚類分析理論與應(yīng)用研究進(jìn)展[J].模糊系統(tǒng)與數(shù)學(xué),1998,12(2):89-90.
[10]袁芳,田錚,蘇曉麗,等.獨(dú)立序列均值與方差變點(diǎn)的累積和估計(jì)及應(yīng)用[J].控制理論及應(yīng)用,2010,27(3):396-398.
[11]張建明.質(zhì)量管理中的模糊聚類分析方法[J].科學(xué)管理,2001(2):8-9.