周江娥 胡堯 商明菊
摘 要:多元時間序列中的尾指數(shù)變點檢測在理論和實際應(yīng)用中都有著廣泛應(yīng)用。本文利用單分位數(shù)方法(Single Quantile Method)構(gòu)造檢驗統(tǒng)計量檢測和估計出多元時間序列數(shù)據(jù)尾指數(shù)變點,證明其極限分布。在模擬研究中,分別產(chǎn)生三個經(jīng)典的厚尾分布類型隨機數(shù)進(jìn)行模擬研究,結(jié)果表明,單分位數(shù)方法對多元時間序列尾指數(shù)的變點檢測是有效的,尤其對分布變化造成的尾指數(shù)變化的情形更加敏感與準(zhǔn)確。最后將該方法應(yīng)用于深圳市香蜜湖路市委黨校南行路段車流量數(shù)據(jù),結(jié)果顯示該方法能準(zhǔn)確檢測出交通流變點,根據(jù)存在的變點分析出交通流的變化規(guī)律。
關(guān)鍵詞:單分位數(shù)方法; 變點; 多元時間序列; 厚尾分布; 尾指數(shù)
中圖分類號:O212
文獻(xiàn)標(biāo)識碼: A
通常,我們將樣本用一個分布或者模型進(jìn)行刻畫,變點則是指其分布、模型或其參數(shù)突然發(fā)生改變之點稱為變點,通過變點檢測可以分析出造成該變點的原因,從而找到有效的解決辦法。自Page以來,大量的研究都致力于變點分析這一理論及其在各個領(lǐng)域中的應(yīng)用[1]。在現(xiàn)有的方法中,Cusum檢驗因其在實際應(yīng)用中的易用性而長期流行,與似然法相比,原序列真實分布未知情況可使用Cusum方法。例如文獻(xiàn)[2,3]。在金融和生物統(tǒng)計中,數(shù)據(jù)常具有尖峰厚尾的性質(zhì),尾指數(shù)是描述此特征的一個重要指標(biāo)。實際應(yīng)用中,大多數(shù)文獻(xiàn)關(guān)注的是導(dǎo)致極端事件發(fā)生變化的均值或方差,但尾部的變化(即尾指數(shù)變化)會導(dǎo)致更多的極端事件。
極端現(xiàn)象的統(tǒng)計建模和分析是非常關(guān)鍵的,因為災(zāi)害和恐慌事件(如洪水、大地震和股市崩盤)的潛在風(fēng)險可以事先確定,從而使它們得到充分的管理或預(yù)防。在此基礎(chǔ)上,研究極值理論中的變點檢驗問題,特別是由于尾指數(shù)代表分布的肥胖程度,并確定了樣本最大值等極值漸近分布的形狀,因此本文重點研究分布尾指數(shù)的變點檢測。尾指數(shù)估計問題是幾十年來統(tǒng)計、金融、水文[4]、可靠性和通信工程中的一個核心問題。Quintos et al.和Kim et al.發(fā)展了一種檢測分布尾指數(shù)參數(shù)變點的方法,這兩種方法都是基于Hill的尾指標(biāo)估計,都是針對厚尾分布而進(jìn)行的[5,6]。根據(jù)Lee et al.提出的檢驗程序,考慮尾序過程,構(gòu)造Cusum檢驗并證明尾序列過程在假設(shè)尾指數(shù)保持為常數(shù)的原假設(shè)下弱收斂于布朗運動[7]。
本文將根據(jù)Oka et al.提出的變點估計修正單分位數(shù)方法進(jìn)行樣本尾指數(shù)變點檢測,利用Cusum檢驗思想,主要是針對多元時間序列尾指數(shù)變點檢測[8]。采用單分位數(shù)方法對多元時間序列進(jìn)行樣本尾指數(shù)變點檢測。文章主要從以下方面進(jìn)行:首先,進(jìn)行模型基本假設(shè)介紹、檢驗統(tǒng)計量的構(gòu)造和統(tǒng)計量極限分布的證明;其次,變點存在性檢驗及臨界值的模擬計算;然后,針對三個經(jīng)典厚尾分布類型模擬數(shù)據(jù)進(jìn)行模擬研究,最后,利用本文提出的方法對深圳市香蜜湖路市委黨校南行路段車流量數(shù)據(jù)進(jìn)行變點存在性研究分析。
1 模型理論介紹
1.1 模型基本假設(shè)
利用變點檢測模型檢測多元時間序列中樣本尾指數(shù)的變化,我們假設(shè)所有隨機變量都被定義在概率空間(Ω,P)中。假設(shè)樣本觀測值為{Zit,i=1,…,n,t=1,…,T}是一個非負(fù)隨機變量序列,其i是指某個個體(如:年),t是指時間(如:天)。設(shè)m是將樣本劃分為m+1段的m個未知變點,及T1,…,Tm為對應(yīng)未知變點。對于每個i,假設(shè)Zit~fj,對于t∈[Tj-1,Tj),j=1,…,m+1,其中T0=1,Tm+1=T+1,fj是其分布函數(shù),使得fj在實際應(yīng)用中不同于fj-1和fj+1。為了避免估計的序列樣本量過少,進(jìn)行變點檢測時默認(rèn)對原序列存在以下可能的劃分:Λε={(T1,…,Tm):Tj-Tj-1≥εT,T1≥εT,Tm≤(1-ε)T},其中ε>0是個較小的常數(shù)。Kim et al.提出的基于累積和檢測時間序列尾指數(shù)變化的模型,將其應(yīng)用到多元時間序列尾指數(shù)變點檢測中。尾指數(shù)是衡量樣本尾部分布的肥胖程度的指標(biāo)[9]。對于該變點檢測問題,有如下假設(shè):
2 變點存在性檢驗
2.1 變點存在性檢驗步驟
由尾指數(shù)計算公式得出的各樣本尾指數(shù)情況如表1所示,可以看出在樣本的參數(shù)變化時其尾指數(shù)也隨之變化。 但在實際情況下,我們是無法從散亂的數(shù)據(jù)中觀測到該變化。下面的模擬研究中我們將針對上述三個類型分布數(shù)據(jù)中檢測其尾指數(shù)的變化,即尾指數(shù)變點存在性檢驗。
3.2 臨界值的確定
檢驗統(tǒng)計量的極限分布性質(zhì)檢測尾指數(shù)變點存在情況,由于臨界值通過其極限分布不容易計算,所以通過蒙特卡洛模擬(Monte Carlo simulation)方式獲得檢驗法則中的臨界值,即在給定顯著性水平為α的條件下,分別產(chǎn)生隨機數(shù)εi,且εi~N(0,1)樣本量為1000,模擬10000次,α分別取01,0.05,0.01,計算μn,1,得到10000次模擬最大值的(1-α)分位數(shù)即為對應(yīng)α水平下的臨界值,其結(jié)果展示如表2。
由上表可以看出單分位數(shù)方法對多元時間序列尾指數(shù)變點檢測在顯著性水平α=0.05下準(zhǔn)確度相對最高,且針對三個分布類型數(shù)據(jù)當(dāng)分布從正態(tài)分布變化到t分布時檢測正確率很高,說明該方法針對分布變化導(dǎo)致尾指數(shù)變化情形的變點識別更加精確,且運算速度較快,尤其對于t分布的檢測時間比其他兩種分布都少。
對于多變點檢測,本文采用二分法原理,結(jié)合二分法來對變點個數(shù)和位置的估計簡單描述如下: 第一步,通過上文所述變點存在性檢驗方法在全部數(shù)據(jù)集{Zit}上檢驗變點是否存在,若沒有變點則終止程序,表明整個數(shù)據(jù)集不存在變點; 否則,我們可以估計出第一個變點T^1。第二步,基于變點T^1將數(shù)據(jù)序列{Zit}分為兩個子集{Zit}T^1-1t=1與{Zit}Tt=T^1,則類似地用同樣的方法檢驗子序列{Zit}T^1-1t=1和{Zit}Tt=T^1中是否存在變點,并且相應(yīng)地進(jìn)行位置估計。無論何時,若不能檢驗出某個子序列存在變點,則說明這個子序列中不存在變點; 若檢驗出了變點,則繼續(xù)利用二分法將該序列分開,再在每個子序列中檢驗是否存在變點并進(jìn)行位置估計。一直持續(xù)上述過程,直至所有子序列中不再檢驗出變點為止。運用此方法,僅需要比較子序列沒有變點和僅有一個變點的模型,并且可同時確定變點的個數(shù)和它們的位置,因而該方法簡單而有效。
4 實例分析
本實例分析數(shù)據(jù)源于深圳市局部區(qū)域道路的流量監(jiān)測數(shù)據(jù),主要選取深圳市香蜜湖路市委黨校南行路段2018年3月27號(星期二)、2018年3月30號(星期五)和2018年3月31號(星期六)三天的數(shù)據(jù)為例,數(shù)據(jù)結(jié)構(gòu)為每兩分鐘記錄一次該路段車流量總數(shù)(一天共720個數(shù)據(jù)),根據(jù)實際數(shù)據(jù)得到過車量的時序圖1所示。
分別以深圳市香蜜湖路市委黨校南行路段2018年3月27號(星期二)、2018年3月30號(星期五)和2018年3月31號(星期六)三天的數(shù)據(jù)為例,利用本文的單分位數(shù)方法根據(jù)二分法原理將多變點轉(zhuǎn)化為單變點問題進(jìn)行變點檢測,得到結(jié)果如圖2、圖3所示。
由圖2(左)顯示深圳市香蜜湖路市委黨校南行路段2018年3月27號(星期二)車流量變點檢測情況,檢測結(jié)果顯示存在三個變點,對應(yīng)的位置分別是205、274、555,相對應(yīng)的時間為 06∶46,09∶04、18∶26,2018年3月30號(星期五)車流量變點檢測情況如圖2(右)所示,檢測結(jié)果顯示存在四個變點,對應(yīng)的位置分別是199、217、512、550且相對應(yīng)的時間為 06∶34,07∶10、17∶00、18∶16,從檢測結(jié)果容易看出工作日星期二和星期五有著類似的交通流變化規(guī)律,檢測出早高峰7∶00~9∶00和晚高峰17∶00~19∶00都存在交通流變點,對于星期五而言變化情況更為復(fù)雜,這是因為星期五是一周中工作日的最后一天,人們都有各自的周末安排,在結(jié)束一周的工作后將出行旅游或者和朋友聚餐等活動,這就造成交通流變化規(guī)律有一定的變化,本文的檢測結(jié)果和人們平時的出行規(guī)律相符合,證明了此方法的有效性。
2018年3月31號(星期六)車流量變點檢測結(jié)果如圖3所示。
從圖3中2018年3月31號(星期六)車流量變點檢測結(jié)果得到,在周末變點存在的時間為8∶22,15∶50,17∶56和上述工作日車流量變點檢測結(jié)果相比,周末的早高峰要比工作日來得晚,而晚高峰變點存在情況和工作日相差不大,這是因為周末是人們在經(jīng)過辛苦的一周工作后放松的時間,人們的生活習(xí)慣傾向于更加隨意和散漫,人們都更愿意睡個舒服的懶覺再整理出門,這就導(dǎo)致了路段交通流變點的延遲,說明本文變點檢測方法能有效地檢測出交通流變點存在情況。
5 總結(jié)
本文通過單分位數(shù)方法對多元時間序列尾指數(shù)變化進(jìn)行變點檢測。通過模擬研究證明了該方法的有效性,通過對交通數(shù)據(jù)的實例分析,得到該方法能準(zhǔn)確檢測到交通流中存在的變點,進(jìn)而對于出行者而言了解該信息可以避免出行高峰期,提高出行效率,對于相關(guān)交管部門而言可根據(jù)該信息有效且快速地采取解決方案,一定程度上舒緩交通壓力。
參考文獻(xiàn):
[1][1]Page E S. Continuous inspection schemes [J]. Biometrika, 1954, 41: 100-116.
[2]Brown R L. Techniques for Testing the Constancy of Regression Relations Over Time[J]. Journal of the Royal Statistical Society, 1975, 37(2):149-192.
[3]Lee S, Nishiyama Y, Yoshida N. Test for Parameter Change in Diffusion Processes by Cusum Statistics Based on One-step Estimators[J]. Annals of the Institute of Statistical Mathematics, 2006, 58(2):211-222.
[4]白乙拉,劉國慶,李志軍,等.芬蘭Valkea-Kotinen 湖5月-10月水溫長期變化趨勢分析[J].渤海大學(xué)學(xué)報(自然科學(xué)版),2018,39(4):289-295.
[5]Quintos C, Fan Z, Philips P C B. Structural Change Tests in Tail Behaviour and the Asian Crisis[J]. Review of Economic Studies, 2001, 68(3):633-663.
[6]Kim M, Lee S. Test for tail index change in stationary time series with Pareto-type marginal distribution[J]. Bernoulli, 2009, 15(2):325-356.
[7]Lee S, Ha J, Na N S. The Cusum Test for Parameter Change in Time Series Models[J]. Scandinavian Journal of Statistics, 2003, 30(4):781-796.
[8]Oka T, Qu Z. Estimating structural changes in regression quantiles[J]. Journal of Econometrics, 2011, 162(2):248-267.
[9]Kim M, Lee S. Test for tail index change in stationary time series with Pareto-type marginal distribution[J]. Bernoulli, 2009, 15(2):325-356.
[10]Dupuis, Debbie J. Modeling Waves of Extreme Temperature: The Changing Tails of Four Cities[J]. Journal of the American Statistical Association, 2012, 107(497):24-39.
(責(zé)任編輯:曾 晶)