廣東工業(yè)大學(xué)自動化學(xué)院 黃觀納 徐維超 王彥光
關(guān)于時間序列數(shù)據(jù)的變點研究在諸多領(lǐng)域擁有廣泛的應(yīng)用。對于給定的時間序列數(shù)據(jù),本文采用滑動窗口思想計算型的曼-惠特尼統(tǒng)計量序列,根據(jù)加權(quán)移動平均思想加入權(quán)重參數(shù),得到改進的曼-惠特尼統(tǒng)計量序列,并根據(jù)改進型曼-惠特尼統(tǒng)計量序列的極值分布指定判定變點的策略。實驗表明:參數(shù)對于檢測變點的性能具有雙向性,雖然提高檢測準確率,但需要提高平均檢測誤差作為代價。
近年來,時間序列數(shù)據(jù)的研究是一個廣泛研究的課題,在工業(yè)生產(chǎn),醫(yī)學(xué),氣象,圖像,金融等領(lǐng)域起著很重要的作用。時間序列數(shù)據(jù)是一組隨著時間變化的序列數(shù)據(jù),研究時間序列數(shù)據(jù)的性質(zhì)是否發(fā)生變化隸屬于變點檢測問題,在工業(yè)故障檢測,醫(yī)學(xué)中的心電圖和腦電圖,氣候方面的突發(fā)事件分析,人工智能領(lǐng)域的圖像的邊緣檢測和分割技術(shù)以及語音辨析技術(shù)都能看到兩種課題的結(jié)合。根據(jù)時間序列數(shù)據(jù)變化性質(zhì)不同,變點檢測模型可以分為均值突變模型和方差突變模型等;根據(jù)時間序列數(shù)據(jù)長度的有限性,變點檢測模型可以分為離線變點檢測模型和在線變點檢測模型。
變點檢測早期應(yīng)用于統(tǒng)計控制過程(SPC),基于統(tǒng)計控制過程中的控制圖算法,許多經(jīng)典的變點檢測算法如Shewhart控制圖,CUSUM控制圖,EWMA控制圖相繼被提出并廣泛應(yīng)用于變點檢測領(lǐng)域。而早期的變點檢測算法主要基于參數(shù)方法,在某些領(lǐng)域存在著局限性。當(dāng)系統(tǒng)采集的數(shù)據(jù)難以知道服從什么分布時,不局限于系統(tǒng)采集的數(shù)據(jù)的性質(zhì)和參數(shù)的非參數(shù)方法更加適用,如Pettitt(1979)提出的一種曼-惠特尼統(tǒng)計量的非參數(shù)變點檢測方法,D.M.Hawkins(2003)提出的一種基于T假設(shè)檢驗的非參數(shù)變點檢測模型以及ROSS提出的基于Cramer-von-Mises統(tǒng)計量與Kolmogormov-Smirnov統(tǒng)計量的非參數(shù)變點檢測模型等。本文的變點檢測模型基于曼-惠特尼統(tǒng)計量性質(zhì)并改進,對時間序列數(shù)據(jù)進行離線變點檢測并分析影響性能的因素。
變點檢測可以描述為:變點檢測的過程是檢測時間序列數(shù)據(jù)的性質(zhì)是否發(fā)生變化及何時發(fā)生變化的過程。給定一個由獨立同分布的隨機變量組成的時間序列,其中服從累積概率密度函數(shù)為均值,為方差,變點檢測數(shù)學(xué)模型如下:
定義τ為變點的位置,而Δ指的是這里要研究的均值突變的幅度。上述模型是變點離線模型,而當(dāng)n趨向無窮大時,S轉(zhuǎn)變?yōu)闀r間序列數(shù)據(jù)流,模型則可以推廣為在線變點模型。
曼惠特尼統(tǒng)計量廣泛應(yīng)用于突變點檢測研究,它的定義如下:給定兩個由獨立同分布的隨機變量組成的序列,,分別服從累計概率密度函數(shù),因此曼惠特尼統(tǒng)計量可以定義為如下:
其中當(dāng)x>0時,函數(shù)I(x)取1,否則函數(shù)I(x)取0。在零假設(shè)下,當(dāng)時,,假設(shè)m和n都趨近于無窮大時,標準化后的曼惠特尼統(tǒng)計量近似服從標準正態(tài)分布。
結(jié)合上面的變點檢測數(shù)學(xué)模型和曼-惠特尼統(tǒng)計量的性質(zhì),我們采用一種類似滑動窗口的方案取獲取待檢測的時間序列的曼-惠特尼統(tǒng)計量序列。假設(shè),對應(yīng)的曼惠特尼統(tǒng)計量Tm就可以得到,然后X,Y向右移動一個單位,就如滑動窗口一樣,以此類推我們可以得到曼惠特尼統(tǒng)計量序列。
當(dāng)時間序列數(shù)據(jù)S出現(xiàn)變點τ時,窗口X,Y移動到出現(xiàn)變點區(qū)域時,曼惠特尼統(tǒng)計量序列T就會增大(向上突變),直到窗口X,Y完全處于不同的兩個分布,之后曼惠特尼統(tǒng)計量序列T就會下降,知道窗口X,Y完全離開變點區(qū)域。因此我們可以定義檢測的變點位置是曼惠特尼統(tǒng)計量序列T達到最大值的位置,即:
因此我們可以利用滑動窗口的方法去獲取某個時間序列數(shù)據(jù)的曼-惠特尼統(tǒng)計量序列,并判斷曼惠特尼統(tǒng)計量序列最大值的位置是出現(xiàn)突變點的位置。但是,這種情況只是適合出現(xiàn)了突變點的情況,而我們還需要判斷給定的時間序列是否發(fā)生了突變,這就需要設(shè)定判斷突變點的閾值。參考(Hawkins D M,Qiu P,Kang C W.The Changepoint Model for Statistical Process Control),當(dāng)max(T)>thre,我們可以判定該時間序列發(fā)生了突變,這里的閾值thre我們可以根據(jù)零假設(shè)時(時間序列數(shù)據(jù)未發(fā)生突變時)的曼-惠特尼統(tǒng)計量極值分布來決定。令Tmax= max(T),在給定虛警率α(在零假設(shè)情況下,突變點檢測模型允許犯錯的概率),可得:Pr(Tmax>thre)=α,就可以從這里得出判斷突變點的閾值thre。
根據(jù)加權(quán)移動平均思想,我們在上述的曼-惠特尼統(tǒng)計量序列T中加入一個權(quán)重參數(shù),改進的曼-惠特尼統(tǒng)計量如下:
而隨著權(quán)重參數(shù)λ的加入,eTmax的分布與之前的的曼-惠特尼統(tǒng)計量Tmax有所不同,利用極值分布取獲取判定變點的閾值時需要令Pr(eTmax>thre)=α。
為了不失一般性,我們需要根據(jù)蒙特卡羅模擬實驗方法,設(shè)計一套檢驗變點檢測模型的性能指標和實驗方案。對于變點檢測性能指標的定義,選取檢驗準確率和平均誤差作為文中實驗的變點檢測模型的性能指標,它們的具體定義如下:
檢驗準確率(acc):
平均誤差(err):
根據(jù)文獻(Wang Y,Huang G,Yang J,et al.Change Point Detection with Mean Shift Based on AUC from Symmetric Sliding Windows)中的證明,當(dāng)兩個窗口長度一致時,曼-惠特尼統(tǒng)計量的方差最小。令m=n=L,隨著窗口長度的增大,檢驗準確率隨著增大,平均誤差逐漸減小,但到達一定長度后,兩個指標趨向穩(wěn)定。因此,取窗口長度L=50,實驗次數(shù)Ntrial=10000,模擬時間序列為高斯分布隨機序列,λ=0,0.8,0.9,均值突變幅度,Δ=[0,0.25,0.50,...,2.00],對應(yīng)每個λ分別算出在不斷增加的Δ下的檢驗準確率與平均誤差序列,實驗結(jié)果如圖1所示。
從圖中顯示,隨著均值突變幅度增大,檢測準確率逐漸增大;因為這里采取的實驗?zāi)M信號服從標準高斯分布,所以就如圖顯示一樣,當(dāng)均值突變幅度為1時,檢測準確率可以接近于1。相比于其他的λ=0值,當(dāng)λ=0.8,0.9時,檢測準確率在均值突變幅度小于1的范圍內(nèi)表現(xiàn)優(yōu)于未加入?yún)?shù)λ。同時,檢測誤差也隨著均值突變幅度的增大而下降,隨著λ的增大,檢測平均誤差的衰減速度減緩,其中λ=0.9時衰減速度減緩的效果很明顯。加入?yún)?shù)λ可以帶來在突變幅度較小時的檢測準確率的提高,到也會帶來一些誤差上的增加。
圖1 均值突變幅度
本文融合指數(shù)加權(quán)移動平均思想在原先的曼-惠特尼統(tǒng)計量序列加入一個參數(shù)λ,并且通過實驗驗證窗口長度和λ參數(shù)對于變點檢測性能的影響。實驗表明:λ參數(shù)在相對比較低的均值突變時可以提升變點檢測的準確率,而需要犧牲掉檢測平均誤差,因此如何選擇λ參數(shù)需要我們在變點檢測的檢測準確率和檢測平均誤差中折衷考慮。本文的實驗僅限至于高斯隨機分布組成的時間序列數(shù)據(jù),其他分布的時間序列數(shù)據(jù)以及實際數(shù)據(jù)后續(xù)進行深入的探討。