李望晨 王在翔 肖文靜 張利平△
兩類思想時間序列建模方法在醫(yī)療收入趨勢周期預測中的應(yīng)用*
李望晨1,2王在翔2肖文靜2張利平1,2△
時間序列分析是利用歷史時序資料分析事物本身隨時間變化規(guī)律,經(jīng)數(shù)學模型擬合后提取歷史延續(xù)性信息,慣性外推后預測未來。隨著交叉學科多樣化方法引入,時間序列分析技術(shù)和軟件工具不斷拓展,為不同問題數(shù)據(jù)資料提供適應(yīng)空間[1-4]。經(jīng)濟事物季度或月度數(shù)據(jù)常有周期波動與長期趨勢,觀測數(shù)據(jù)多且有連貫性,周期起伏波動與長期延續(xù)性趨勢明顯。常規(guī)模型方法性能有限,如灰色法適于短期較平緩性隨機時序分析,曲線擬合法適于長期平滑趨勢時序分析,ARIMA法適于長時平穩(wěn)隨機時序分析[5]。于是考慮以下兩種新思路:第一種思路是,對于季節(jié)或周期性變化時間序列數(shù)據(jù),先用季節(jié)效應(yīng)分解法計算處理,將時間序列分解為長期趨勢因素、季節(jié)性因素和隨機波動因素,然后分別提取不同類型規(guī)律性信息。第二種思路是,對季節(jié)性變化數(shù)據(jù)也可直接用季節(jié)效應(yīng)ARIMA法建立模型(簡單季節(jié)模型或乘積季節(jié)模型[6])。前者是針對趨勢性和季節(jié)性的時序數(shù)據(jù)資料,先用低階差分消除長期趨勢,再用周期步長差分消除周期性波動,轉(zhuǎn)化為平穩(wěn)序列后由ARIMA模型對其進行擬合。若短期相關(guān)和季節(jié)效應(yīng)間有交互關(guān)系,應(yīng)考慮后者(即乘積季節(jié)模型)。
針對趨勢和季節(jié)性時序數(shù)據(jù)分析問題,借助算例載體建立模型,比較兩類思路的原理,進行方案設(shè)計和效果比較。算例資料為某醫(yī)院2001-2012年季度收入數(shù)據(jù),建立擬合模型并外推預測。先從數(shù)據(jù)散點圖進行預分析,發(fā)現(xiàn)隨時間呈現(xiàn)周期波動和平緩發(fā)展延續(xù)特點,即以年為周期有季節(jié)波動起伏和長期平滑遞增趨勢,數(shù)據(jù)資料見表1。
表1 某醫(yī)院2001-2012年按季度收入數(shù)據(jù)(萬元)
以X11過程法進行時間序列分解[7],提取季節(jié)指數(shù)因素,并經(jīng)調(diào)整后得到趨勢序列,再分別用ARIMA法或多項式曲線法擬合與外推,將外推值與季節(jié)指數(shù)乘積還原合成預測值,該思想屬于組合預測法的范疇。X11、ARIMA法可用SAS軟件,曲線擬合法可用Excel軟件。
X11過程法可以實現(xiàn)時間序列因素分解目的,然后將分解后的長期趨勢、季節(jié)波動、交易日、不規(guī)則等因素建立模型。該算法較復雜:以多次短期中心移動平均消除不規(guī)則波動,周期移動平均消除長期趨勢,交易周期移動平均消除交易日因素,等等,前后共作11次移動平均,剔除季節(jié)波動影響,交易日影響不存在,計算季節(jié)指數(shù)和長期趨勢。鑒于因素交叉關(guān)聯(lián),該法使用X11乘法模型,借助SAS軟件實現(xiàn)。
原始序列經(jīng)X11法提取季節(jié)指數(shù),分別為96.13%,97.77%,100.26%和105.86%,經(jīng)季節(jié)調(diào)整后得到長期趨勢序列(圖1),以及剩余隨機波動序列(圖2)。
1.ARIMA法 ARIMA就是自回歸移動平均模型,表達式為Φ(B)dxt=Θ(B)εt,設(shè)φi,θj為自回歸和移動平均系數(shù)。Φ(B)=(1-φ1B-…-φpBp), Θ(B)=(1-θ1B-…-θqBq), 其中Bkxt=xt-k為k步延遲算子,d階差分算子為d=(1-B)d。簡明步驟包括模型定階、識別、檢驗和應(yīng)用。{xt}經(jīng)過低階差分后消除增長趨勢得到平穩(wěn)序列,經(jīng)純隨機性檢驗資料有無建模必要。根據(jù)AIC、SBC最小準則定階適合模型結(jié)構(gòu),以t檢驗法識別模型參數(shù)。最后對殘差序列{εt}進行純隨機性檢驗,分析模型是否顯著,最后進行預測應(yīng)用。
圖1 季節(jié)調(diào)整后長期趨勢
圖2 剩余不規(guī)則波動
X11法消除原始序列季節(jié)影響后,以ARIMA法擬合長期發(fā)展趨勢。先經(jīng)差分處理為平穩(wěn)序列,用于擬合數(shù)據(jù)變化規(guī)律。序列經(jīng)二階差分消除趨勢平穩(wěn),不是純隨機平穩(wěn)序列;在p,q≤6中自動尋優(yōu)定階,MA(2)模型BIC=5.843最小,參考自相關(guān)圖和偏自相關(guān)圖最優(yōu)定階。由條件最小二乘法識別參數(shù),最終得到模型表達式(1-B)2xt=(1-1.083 7B+0.335 61B2)εt。經(jīng)分析,擬合后殘差序列為純隨機序列,延遲階數(shù)為6,12,18,24時,P=0.561,0.889,0.975和0.824>0.05,由模型得到趨勢外推值3703,3752,3802,3851,乘以季節(jié)指數(shù)后還原計算2012年醫(yī)院收入預測值3560,3668,3812,4077;計算相對誤差1.04%,1.44%,1.76%,2.29%。
X11過程法消除季節(jié)影響后以曲線擬合法分析長期趨勢,計算增長特征,二階差分與時序有線性變化特點,可確定二次多項式xt=2767.58-10.2318t+0.67456t2為模型表達式,決定系數(shù)R2=0.980,F(xiàn)檢驗P<0.001,說明模型擬合理想,趨勢外推值為3673,3724,3777,3831,乘以季節(jié)指數(shù)還原后得到2012年醫(yī)院收入預測值3531,3641,3787,4055,計算相對誤差1.84%,2.17%,2.41%,2.80%。經(jīng)驗證,三次多項式擬合稍優(yōu)于二次多項式,決定系數(shù)R2=0.991>0.980,F(xiàn)檢驗P<0.0001,建立模型xt=2679.66+11.976t-0.545t2+0.018t3擬合理想,趨勢外推值為3761,3836,3914,3997,乘以季節(jié)指數(shù)還原后為預測值3616,3750,3924,4231,計算相對誤差0.51%,0.75%,1.14%,1.41%。多項式回歸系數(shù)均有統(tǒng)計學意義,不作贅述。
ARIMA作為隨機時序分析法,應(yīng)根據(jù)序列過去值、當前值與殘差制定線性模型;趨勢序列存在較平滑穩(wěn)定變化趨勢,隨時間呈多項式延續(xù)增長特點。經(jīng)季節(jié)調(diào)整后對長期趨勢進行擬合、外推。經(jīng)比較,X11-三次多項式模型(黑色粗線)為最佳,長期趨勢的擬合與外推效果比較分別見圖3~5。三種組合模型對原始序列的擬合及外推效果比較見圖6。
圖3 ARIMA模型
圖4 二次多項式模型
圖5 三次多項式模型
圖6 三種組合模型的擬合外推效果比較
先用低階與周期差分提取趨勢與季節(jié)信息,轉(zhuǎn)化為平穩(wěn)序列后直接用簡單季節(jié)ARIMA模型或乘積季節(jié)ARIMA模型分析,驗證并比較擬合與外推效果。
1.簡單季節(jié)ARIMA模型 趨勢季節(jié)數(shù)據(jù)可經(jīng)周期步長差分提取季節(jié)信息,經(jīng)簡單低階差分提取趨勢信息,根據(jù)提取后的殘差序列作為平穩(wěn)序列擬合依據(jù)。構(gòu)造模型結(jié)構(gòu):
Φ(B)Ddxt=Θ(B)εt,Θ(B)=(1-θ1B-…-θqBq), Φ(B)=(1-φ1B-…-φpBp)。其中D為周期步長,d為差分階數(shù);{εt}為白噪聲序列。對于按年度呈季節(jié)周期、長期趨勢變化序列而言,若存在多項式趨勢則用二階差分,若存在季節(jié)變化特點,則用4步周期差分4=(1-B4),觀察差分處理后序列是否達到平穩(wěn),對其用ARIMA法建立模型。
前面計算顯示季節(jié)效應(yīng)消除后,長期趨勢呈現(xiàn)二次或三次多項式特點。由于差分計算會損失隨機性信息,于是僅用2階差分消除趨勢,再經(jīng)過4步周期差分消除季節(jié)趨勢。不必提取季節(jié)指數(shù)信息,直接建立低階差分ARIMA模型。在SAS程序中由ACF和PACF特點反復調(diào)試模型階數(shù)并識別模型參數(shù)。最后確定(1-0.33455B+0.25349B4)(1-B4)(1-B)2xt=εt為模型表達式。經(jīng)過延遲6,12,18,24時,P=0.6489,0.9700,0.9915,0.8880,表明殘差序列已經(jīng)為純隨機序列,模型顯著。經(jīng)模型預測得到2012年醫(yī)院收入預測值為3567,3670,3815,4079;計算相對誤差0.83%,1.40%,1.68%,2.23%。
2.乘積季節(jié)ARIMA模型。簡單季節(jié)模型中季節(jié)效應(yīng)、趨勢效應(yīng)之間若有交互影響,則需要構(gòu)建乘積季節(jié)模型。低階差分后序列用ARMA(p,q)提取短期相關(guān)性,用ARMA(P,Q)提取季節(jié)效應(yīng)或季節(jié)相關(guān)性。假設(shè)二者有交互效應(yīng)和乘積關(guān)系,則須構(gòu)造為乘積模型結(jié)構(gòu)形式:
ARIMA(p,d,q)×(P,D,Q)S: Φ(B)ΦS(B)Ddxt=Θ(B)ΘS(B)εt;
其中,Θ(B)=(1-θ1B-…-θqBq), Φ(B)=(1-φ1B-…-φpBp);
ΘS(B)=(1-θ1BS-…-θQBQS), ΦS(B)=(1-φ1BS-…-φpBPS)。
二次多項式特點長期趨勢可用二階差分,季度周期可用4步周期差分。為避免過度差分喪失隨機信息,仍用2階、4步差分。同理在SAS中經(jīng)反復調(diào)試模型階數(shù)及識別參數(shù),得到模型ARIMA(4,2,0)×(1,1,0)4,其表達式為(1-0.39647B)(1+0.33027B4)(1-B4)(1-B)2xt=εt。殘差序列延遲6,12,18,24時,P=0.8449,0.9893,0.9957,0.9147,說明為純隨機序列,模型顯著。由乘積季節(jié)模型直接外推2012年醫(yī)院收入預測值3577,3680,3828,4088。計算相對誤差0.56%,1.13%,1.34%,2.01%。經(jīng)模型擬合效果比較,乘積季節(jié)ARIMA模型最佳,季節(jié)效應(yīng)和短期相關(guān)性有交互影響。
以上從兩類建模方案設(shè)計5種擬合模型。第一種方案:X11法與隨機時序分析法(ARIMA)或確定性時序分析法(多項式曲線)建立組合模型。第二種方案:根據(jù)季節(jié)效應(yīng)和短期相關(guān)性間存在簡單加法或交互乘法影響,直接可以建立兩類季節(jié)ARIMA模型。
經(jīng)過模型定階、識別等數(shù)據(jù)計算處理,然后由模型得出2012年預測值、相對誤差。經(jīng)比較分析,模型擬合和外推效果均不錯,優(yōu)劣順序依次為X11-三次多項式、乘積季節(jié)ARIMA、簡單季節(jié)ARIMA、X11-ARIMA、X11-二次多項式。預測值和相對誤差絕對值見表2。
表2 5種模型預測精度比較情況
用X11過程法提取季節(jié)指數(shù),經(jīng)調(diào)整后得到長期趨勢序列,用ARIMA法或曲線擬合法建模擬合外推,與季節(jié)指數(shù)相乘后還原計算預測值。該方案體現(xiàn)組合建模思想。須說明,長期趨勢序列預測效果已經(jīng)很好了,無須對ARIMA法和曲線法再進行加權(quán)組合計算。另一種方案是采用周期差分和低階差分提取季節(jié)變動和長期趨勢因素,將轉(zhuǎn)化后的平穩(wěn)序列建立ARIMA擬合模型,根據(jù)是否季節(jié)效應(yīng)和短期相關(guān)是簡單加法關(guān)系還是復雜交互乘法關(guān)系,分別考慮構(gòu)建簡單季節(jié)模型或乘積季節(jié)模型。
以某醫(yī)院收入的季度數(shù)據(jù)作為實證算例,周期波動穩(wěn)定和長期變化趨勢規(guī)律明顯,數(shù)據(jù)資料豐富連貫,受隨機混雜因素影響小。兩種方案原理不同,第一種體現(xiàn)時間序列分解后的組合建模思想,第二種是對兩類季節(jié)模型的選擇使用。經(jīng)比較發(fā)現(xiàn)乘積季節(jié)ARIMA模型、X11-三次多項式模型擬合性能最佳,擬合與外推效果均不錯。
[1]張利平,于貞杰,張建華,等.六種時間序列組合建模方案在衛(wèi)生費用趨勢擬合中的應(yīng)用研究.中國衛(wèi)生經(jīng)濟,2015,34(8):56-58.
[2]李望晨,王春平,張利平基于時間序列方法適配建模分析的衛(wèi)生支出預測實證研究.中國衛(wèi)生統(tǒng)計,2015,32(2):273-274.
[3]張利平,李望晨.趨勢外推與ARIMA法在衛(wèi)生費用組合預測建模中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2015,32(3):430-432.
[4]李望晨.基于增長特征法與ARIMA的人均衛(wèi)生事業(yè)費趨勢預測比較研究.中國衛(wèi)生統(tǒng)計,2014,31(3):450-452.
[5]李望晨,王素珍,劉洪慶,等.預測問題應(yīng)用設(shè)計中的若干適配對策與實證研究.中國衛(wèi)生統(tǒng)計,2015,32(3):547-549.
[6]張愛紅,周培,申銅倩,等.乘積季節(jié)ARIMA 模型在食源性疾病預測中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2014,31(3):68-73.
[7]申銅倩,劉文東,胡建利,等.X11-ARIMA過程在痢疾疫情預測中的應(yīng)用研究.中國衛(wèi)生統(tǒng)計,2014,31(3):395-397.
(責任編輯:郭海強)
*資助項目:教育部人文社科基金(15YJCZH087);山東省自然科學基金(ZR2015HL101);山東統(tǒng)計科研項目(KT16230,KT16231)
1.濰坊醫(yī)學院“健康山東”重大社會風險預測與治理協(xié)同創(chuàng)新中心(261053)
2.濰坊醫(yī)學院公共衛(wèi)生與管理學院
△通信作者:張利平