王志堅,鄭健松
(1.華南師范大學(xué) 經(jīng)濟(jì)與管理學(xué)院,廣州510631;2.廣東財經(jīng)大學(xué) 統(tǒng)計與數(shù)學(xué)學(xué)院,廣州 510320)
控制圖是有效偵測變異的方法之一。常規(guī)控制圖因其簡單實(shí)用且檢出能力較強(qiáng),故一開始就被用于工業(yè)生產(chǎn)中。而今,在眾多學(xué)科領(lǐng)域都會使用控制圖方法進(jìn)行系統(tǒng)控制,但使用最多的還是休哈特常規(guī)控制圖。然而,構(gòu)造常規(guī)控制圖的統(tǒng)計量大都缺乏抗干擾性,是敏感的和不穩(wěn)健的。常規(guī)休哈特控制圖由上控制限(UCL)、下控制限(LCL)和中心線(CL)和時序數(shù)據(jù)組成。其控制限的表達(dá)式為(通常取控制參數(shù)k=3),其中樣本均值?和標(biāo)準(zhǔn)差?顯然是不穩(wěn)健。因此,異常值的存在通常會擴(kuò)大控制限的間距,同時改變控制中心線的位置,導(dǎo)致控制圖漏發(fā)或虛發(fā)報警,從而在產(chǎn)品質(zhì)量監(jiān)控過程中會嚴(yán)重干擾人們對產(chǎn)品合格率的判斷。故在大數(shù)據(jù)時代,有必要對傳統(tǒng)控制圖進(jìn)行穩(wěn)健改進(jìn)。
通過梳理文獻(xiàn)可以發(fā)現(xiàn)過去學(xué)者們多是從不同角度給出了控制限的穩(wěn)健估計,但大多沒有考慮控制中心的穩(wěn)健性;在穩(wěn)健估計方法上,學(xué)者們也鮮有從權(quán)函數(shù)的視角來同時研究控制中心及控制限的穩(wěn)健性。鑒于此,本文嘗試分別采用均值、標(biāo)準(zhǔn)差的傳統(tǒng)穩(wěn)健估計量不同組合及基于Hampel權(quán)函數(shù)的加權(quán)三均值及加權(quán)標(biāo)準(zhǔn)差構(gòu)建出幾種穩(wěn)健休哈特控制圖,并比較其監(jiān)控效果。
常規(guī)休哈特控制圖是針對隨機(jī)過程yt=μ+et來進(jìn)行監(jiān)控,其中et~N(0,σ2),μ=E(yt)。其對應(yīng)的中心線(CL)、上控制限(UCL)、下控制限(LCL)通常表示如下:
基本原理是利用正態(tài)分布的3σ原則。下面通過模擬來說明離群值對控制限的影響,隨機(jī)模擬產(chǎn)生50個均值?=0,標(biāo)準(zhǔn)差?=1的隨機(jī)數(shù),構(gòu)造一個值為3.65的離群值(注:這里只需構(gòu)造一個超出常規(guī)控制圖上限或下限的值即可作為離群值,下同)。下面分別用不含離群值和含有離群值的數(shù)據(jù)來分別構(gòu)建控制圖,如圖1所示:
圖1 離群值對常規(guī)控制圖的影響
圖1是不存在離群值和存在離群值的常規(guī)過程控制圖,圖中“虛線”表示不存在離群值的控制限,“實(shí)線”表示含有離群值的控制限。顯然,從圖中可以看出,控制圖受到了離群值影響,離群值拉大了控制限的間距,使得異常情況沒有被檢測到。由此可見,離群值的存在導(dǎo)致了控制圖漏發(fā)報警。
本文提出采用Huber的M估計類方法來構(gòu)建穩(wěn)健控制圖,該方法的關(guān)鍵在于選擇合適的權(quán)函數(shù)作為目標(biāo)函數(shù)。過去學(xué)者們通常傾向于先對序列建立一個模型,由模型得出殘差,殘差越大權(quán)重越小,權(quán)重取值只有0或1。給定一個閾值,當(dāng)殘差值超過閾值就定義該原始數(shù)據(jù)權(quán)重為0,當(dāng)殘差值不超過閾值就定義該原始數(shù)據(jù)權(quán)重為1,顯然該方法能夠降低或減少異常值對控制限的影響,但也存在不足之處。主要表現(xiàn)在:其一,權(quán)重只取0或1會損失原樣本大部分信息;其二,模型的建立是依賴于原始數(shù)據(jù),用含有異常值的原始數(shù)據(jù)構(gòu)建模型,顯然該模型是不可靠的,用不可靠的模型得出的殘差,再基于殘差給出權(quán)重顯然是不科學(xué)的。為克服以上不足,本文借鑒Huber的M估計理論,選取Hampel權(quán)函數(shù)對原序列進(jìn)行變換,再用變換后的序列來構(gòu)建控制中心和控制限。Hampel權(quán)函數(shù)的表達(dá)式如下:
一般取值,a=1.5,b=3.0,c=4.5;顯然Hampel權(quán)函數(shù)對權(quán)重進(jìn)一步細(xì)化,把權(quán)重分為4部分,殘差越大權(quán)重越小,殘差越小權(quán)重越大,從而削弱異常值對控制限的影響。前文指出,三均值、中位數(shù)、切尾均值和縮尾均值等是常用的均值穩(wěn)健估計量;中位絕對離差和平均絕對離差是常用的標(biāo)準(zhǔn)差的穩(wěn)健估計量。下面對含離群值的獨(dú)立同分布序列用不同組合的穩(wěn)健統(tǒng)計量對常規(guī)控制圖控制中心及控制限進(jìn)行改進(jìn)并進(jìn)行模擬比較。
隨機(jī)產(chǎn)生50個均值為0、標(biāo)準(zhǔn)差為1的正態(tài)分布隨機(jī)數(shù),為簡單起見,在此,本文只考察當(dāng)序列中含有一個離群值時對控制中心及控制限的影響,全文用R語言進(jìn)行統(tǒng)計分析。為構(gòu)造一個離群值,在50個隨機(jī)數(shù)中隨機(jī)抽取一個數(shù)再用4去替換之,即用4作序列離群值。需要說明的是,本文所構(gòu)造控制圖中所有的“虛線”表示無離群值的常規(guī)控制圖,“實(shí)線”表示有離群值的穩(wěn)健控制圖。
圖2 常規(guī)控制圖與基于三均值及標(biāo)準(zhǔn)差的穩(wěn)健控制圖
圖2中的“實(shí)線”是均值采用三均值、標(biāo)準(zhǔn)差用普通標(biāo)準(zhǔn)差得到的穩(wěn)健控制圖,圖中顯示穩(wěn)健控制圖能夠?qū)﹄x群值發(fā)出警報,并且沒有出現(xiàn)漏發(fā)、虛發(fā)報警的現(xiàn)象,但離群值的存在拉大了控制限間距,使得穩(wěn)健控制限與常規(guī)控制限相距較遠(yuǎn),說明該穩(wěn)健控制圖的穩(wěn)健改進(jìn)效果欠佳。圖3中穩(wěn)健控制圖中心線及上下限是均值采用中位數(shù),標(biāo)準(zhǔn)差采用平均絕對離差得到的,圖中常規(guī)控制圖與穩(wěn)健控制圖控制中心線幾乎重合,但穩(wěn)健控制限間距較常規(guī)控制限間距要小,說明所選的穩(wěn)健統(tǒng)計量過于穩(wěn)健而導(dǎo)致把穩(wěn)健控制限拉的過緊,使得有一個正常點(diǎn)剛好“踩線”,被發(fā)出虛假警報。因此,該穩(wěn)健控制圖的穩(wěn)健改進(jìn)是不可靠的。
圖3 常規(guī)控制圖與基于中位數(shù)及平均絕對離的穩(wěn)健控制圖
圖4 常規(guī)控制圖與基于截尾均值及平均絕對離差的穩(wěn)健控制圖
圖5 常規(guī)控制圖與含基于縮尾均值及中位絕對離差的穩(wěn)健控制圖
圖4中穩(wěn)健控制圖中心線及上、下限是均值采用截尾均值,標(biāo)準(zhǔn)差采用平均絕對離差得到,圖中常規(guī)控制圖與穩(wěn)健控制圖控制中心線幾乎重合,但控制上、下限卻相差很大,穩(wěn)健控制限較常規(guī)控制限間距更小,使得從圖中可以看出至少有5個點(diǎn)被發(fā)出虛假警報。因此,該穩(wěn)健控制圖的穩(wěn)健改進(jìn)效果不理想。圖5穩(wěn)健控制圖中心線及上、下限是均值采用縮尾均值,標(biāo)準(zhǔn)差采用中位絕對離差得到,圖中常規(guī)控制圖與穩(wěn)健控制圖控制中心線幾乎重合,但控制上、下限卻相差很大,說明所選的穩(wěn)健統(tǒng)計量過于穩(wěn)健而導(dǎo)致把控制限拉的過緊,使得至少有7個點(diǎn)被發(fā)出虛假警報。因此,該穩(wěn)健控制圖的穩(wěn)健改進(jìn)效果不理想。
圖6 常規(guī)控制圖與基于加權(quán)三均值及加權(quán)標(biāo)準(zhǔn)差的穩(wěn)健控制圖
圖6將Hample函數(shù)加權(quán)后的序列用三均值法求得均值,得到控制中心的值,得到的序列再對標(biāo)準(zhǔn)差用傳統(tǒng)方法構(gòu)建出穩(wěn)健控制圖。從圖中看出,常規(guī)控制圖與穩(wěn)健控制圖的中心限及控制上下限基本是重合的。并且穩(wěn)健控制圖沒有出現(xiàn)虛假報警及漏報警的現(xiàn)象,說明穩(wěn)健改進(jìn)效果很好。將各穩(wěn)健估計方法對控制圖的中心線及控制限改進(jìn)的結(jié)果與不含離群值的常規(guī)控制圖的中心及控制限進(jìn)行對比,結(jié)果如表1所示。
表1 各穩(wěn)健估計方法對控制中心及控制限估計結(jié)果對比
從表1中也可以看出,最接近不含離群值常規(guī)控制圖的中心及控制限穩(wěn)健估計方法是本文提出的加權(quán)的三均值法及加權(quán)的標(biāo)準(zhǔn)差法,相差最大的是縮尾均值及中位絕對離差法。因此對于含有離群值的獨(dú)立同分布序列穩(wěn)健控制圖的構(gòu)造,本文提出的加權(quán)穩(wěn)健估計方法最優(yōu)。故在構(gòu)造穩(wěn)健控制圖過程中對于穩(wěn)健統(tǒng)計量的選取須持謹(jǐn)慎態(tài)度。
下面比較幾種穩(wěn)健控制圖對離群值的監(jiān)控效果。本文以2016年6月13日至2016年11月17日的美國國際集團(tuán)(AIG)的收益率數(shù)據(jù)為樣本數(shù)據(jù),共有112個。為了解數(shù)據(jù)的分布狀況,將該數(shù)據(jù)的收盤價圖、收益率圖、收益率Q-Q圖和直方圖進(jìn)行探索性分析,如圖7所示:
圖7 AIG數(shù)據(jù)的探索性數(shù)據(jù)分析圖
從圖7左上圖可以看出,右上角收益率圖很明顯可以看出有多個離群值;左下角和右下角圖均說明收益率序列已偏離正態(tài)分布。同時收益率序列的正態(tài)性檢驗(yàn)結(jié)果為p-value=7.889e-10,即p-value非常小,說明收益率序列不服從正態(tài)分布。因此可以推測序列中存在異常值。
本文用時間序列異常值穩(wěn)健檢測方法對AIG股票對數(shù)收益率進(jìn)行離群值檢測,共檢測到6個離群值,其中革新型離群值(IO)3個,可加性離群值(AO)3個。下面對AIG股票對數(shù)收益率分別采用不同的穩(wěn)健控制限方法構(gòu)造穩(wěn)健控制圖來對收益率序列進(jìn)行監(jiān)測。
圖8 常規(guī)控制圖與基于加權(quán)三均值及加權(quán)標(biāo)準(zhǔn)差的穩(wěn)健控制圖
圖8是采用本文提出的加權(quán)三均值及加權(quán)標(biāo)準(zhǔn)差構(gòu)造控制限的穩(wěn)健控制圖,從圖中可以看出穩(wěn)健控制中心與常規(guī)控制中心基本重合,而穩(wěn)健控制限較常規(guī)控制限間距要小,穩(wěn)健控制圖檢測到6個離群值,而常規(guī)控制圖有4個,很顯然常規(guī)控制圖受到離群值影響,拉大了控制限間距,出現(xiàn)漏報警。
圖9 基于三均值及標(biāo)準(zhǔn)差的穩(wěn)健控制圖
圖10 基于中位數(shù)及平均絕對離差穩(wěn)健控制圖
圖9是采用三均值及標(biāo)準(zhǔn)差構(gòu)造控制限的穩(wěn)健控制圖,從圖中可以看出穩(wěn)健控制中心與常規(guī)控制中心基本重合,而穩(wěn)健控制限較常規(guī)控制限間距要大,穩(wěn)健控制圖檢測到2個離群值。圖10是采用中位數(shù)及平均絕對離差構(gòu)造控制限的穩(wěn)健控制圖,從圖中可以看出穩(wěn)健控制中心與常規(guī)控制中心基本重合,而穩(wěn)健控制限較常規(guī)控制限間距要小,穩(wěn)健控制圖檢測到8個離群值。
圖11(見下頁)是采用截尾均值及平均絕對離差構(gòu)造控制限的穩(wěn)健控制圖,從圖中可以看出穩(wěn)健控制中心與常規(guī)控制中心基本重合,而穩(wěn)健控制限較常規(guī)控制限間距要小,穩(wěn)健控制圖檢測到8個離群值。圖12(見下頁)是采用縮尾均值及中位絕對離差構(gòu)造控制限的穩(wěn)健控制圖,從圖中可以看出穩(wěn)健控制中心與常規(guī)控制中心基本重合,而穩(wěn)健控制限較常規(guī)控制限間距要小很多,使得穩(wěn)健控制圖檢測到16個離群值。下面將各穩(wěn)健控制圖與常規(guī)控制圖對離群值檢測結(jié)果列于表2,由于控制圖中會存在漏報警及虛報警現(xiàn)象,在此,本文對控制圖中離群值檢測的報警正確率定義如下:
圖11 基于截尾均值及平均絕對離差的穩(wěn)健控制圖
圖12 基于縮尾均值及中位絕對離差穩(wěn)健控制圖
用報警正確率來度量個控制圖的監(jiān)控效果。
表2 各穩(wěn)健控制圖與常規(guī)控制圖對離群值檢測結(jié)果對比
從表2可看出,用本文提出的加權(quán)三均值及加權(quán)標(biāo)準(zhǔn)差構(gòu)造的穩(wěn)健控制圖對離群值的監(jiān)控效果最優(yōu),報警正確率為100%;其次為中位數(shù)、截尾均值分別與平均絕對離差構(gòu)造的穩(wěn)健控制圖,報警正確率均為75%;最后的是三均值與標(biāo)準(zhǔn)差構(gòu)造的穩(wěn)健控制圖,報警正確率只有16.7%,顯然這是由于該穩(wěn)健控制圖中只有位置參數(shù)是穩(wěn)健估計量,而尺度參數(shù)是不穩(wěn)健引起的。
針對常規(guī)休哈特控制圖中控制限的不穩(wěn)健性,本文首先從控制圖的構(gòu)造原理及一個模擬例子分析了傳統(tǒng)控制圖的不穩(wěn)健性;其次隨機(jī)產(chǎn)生50個均值為0、標(biāo)準(zhǔn)差為1的正態(tài)分布隨機(jī)數(shù),并構(gòu)造一個離群值,以中位數(shù)、截尾均值、縮尾均值、三均值及本文提出的權(quán)函數(shù)三均值作為位置參數(shù)的穩(wěn)健估計量,以平均絕對離差、中位絕對離差及本文提出的加權(quán)標(biāo)準(zhǔn)差作為尺度參數(shù)的穩(wěn)健估計量來構(gòu)造穩(wěn)健控制限,從而構(gòu)建出幾種不同的穩(wěn)健控制圖,模擬和實(shí)證研究均表明本文提出的基于Hampel權(quán)函數(shù)的加權(quán)三均值及加權(quán)標(biāo)準(zhǔn)差構(gòu)造的穩(wěn)健控制圖監(jiān)控效果優(yōu)于傳統(tǒng)位置、尺度穩(wěn)健估計量構(gòu)建的控制圖。