李望晨 井 淇 姚 琳 張利平△
1.濰坊醫(yī)學(xué)院“健康山東”重大社會風(fēng)險預(yù)測與治理協(xié)同創(chuàng)新中心(261053) 2.濰坊醫(yī)學(xué)院經(jīng)濟(jì)管理學(xué)院
時間序列分析常見于經(jīng)濟(jì)、管理、衛(wèi)生、醫(yī)療領(lǐng)域指標(biāo)預(yù)測問題,它以預(yù)測事物本身隨時間變化數(shù)據(jù)規(guī)律來提取信息,以數(shù)學(xué)方法擬合歷史數(shù)據(jù)并外推預(yù)測未來。擬合預(yù)測精度最受應(yīng)用工作者關(guān)注[1]。時序資料表現(xiàn)為隨時間變化呈平滑遞增趨勢特點,無明顯擾動、周期性或季節(jié)性,曲線擬合法、ARIMA法為常見方法,算法原理不同但擬合外推性能較好[2]。組合預(yù)測模型設(shè)計目的是集結(jié)每種方法優(yōu)點,提高擬合性能及外推預(yù)測效果。本文針對此類資料特點探索幾種組合建模方法,通過案例比較和驗證組合建模方法對醫(yī)療費(fèi)用預(yù)測的意義。
經(jīng)濟(jì)或衛(wèi)生領(lǐng)域某些指標(biāo)變化規(guī)律往往符合平穩(wěn)增長特點,如住院人次、衛(wèi)生費(fèi)用[3]、門診人次[4]、衛(wèi)生投入、醫(yī)院效益等,此類資料組合預(yù)測模型設(shè)計有相似通用意義。
設(shè)某醫(yī)院費(fèi)用某指標(biāo)時序資料,t1~t13為歷史數(shù)據(jù),t14為待預(yù)測數(shù)據(jù),見表1。
表1 某醫(yī)院費(fèi)用某指標(biāo)時序資料(萬元)
針對時序資料先以單個方法建立模型,再考慮從多個視角建立組合模型,分析組合設(shè)計特點并比較擬合外推性能,為類似增長趨勢變化特點的預(yù)測問題提供參考。
1.曲線擬合法
應(yīng)用前提是歷史數(shù)據(jù)隨時間呈較平滑曲線變化特點,在自身數(shù)據(jù)與時間t之間建立函數(shù)關(guān)系yt=f(t),并用曲線(如直線、拋物線、指數(shù)曲線、邏輯曲線等類型)描述關(guān)系,有時會有多種類型均適用,可在繼續(xù)計算增長特征以后選擇最優(yōu)者,即用差分法尋求增長特征,精確描述序列數(shù)據(jù)變化特點并與曲線模型理論增長性質(zhì)比較。
2.ARIMA法
ARIMA法用于平穩(wěn)序列分析,對遞增趨勢數(shù)據(jù)須作低階差分,差分過度也會喪失信息。序列數(shù)據(jù)須先作純隨機(jī)檢驗,檢驗是否有建模分析意義。首先確定模型結(jié)構(gòu)和階數(shù),可以低階試取或自動尋優(yōu),接下來用條件最小二乘法識別參數(shù)以檢驗參數(shù)顯著性。建模以后須檢驗信息是否提取充分,對殘差序列作純隨機(jī)檢驗。ARIMA法建立歷史序列和殘差序列線性關(guān)系,卻不易直觀解讀數(shù)據(jù)隨時間的真實變動規(guī)律。
3.獨立驗證
該時序資料有增長趨勢,作為非平穩(wěn)序列須作二階差分,通過純隨機(jī)檢驗,由低階到高階逐步試取模型結(jié)構(gòu)。(1+0.20501B+0.4373B2)(1-B)2xt=εt為最終識別模型。殘差序列作純隨機(jī)檢驗,延遲6階P=0.4838>0.05,自相關(guān)系數(shù)為0.101,0.108,0.322,0.174,0.176,0.030;模型對原始數(shù)據(jù)信息提取已經(jīng)較充分,外推預(yù)測值25002.71,95%置信區(qū)間[23345.98,26659.43]。對歷史數(shù)據(jù)擬合4731.68,5367.35,6230.68,7273,9236.36,10854.88,13728.62,14626.73,19121.26,23312.13。兩類方法對歷史數(shù)據(jù)擬合并計算殘差序列。
由此分別計算平均相對誤差絕對值2.52%、5.37%。分別演示擬合效果,見圖1~2。
圖1 修正指數(shù)曲線擬合外推效果
圖2 ARIMA法擬合外推效果
曲線擬合法適于趨勢增長數(shù)據(jù)平滑修勻,歷史數(shù)據(jù)擬合好,近期增長趨勢有類似“拐點”特點,若以指數(shù)遞增外推未來而引起“樂觀”預(yù)測;經(jīng)差分后以ARIMA法提取序列短期相關(guān)性,ARIMA法反映歷史數(shù)據(jù)長期變化,擬合效果也很好,但對后期快速增長趨勢難以適應(yīng),會引起“悲觀”預(yù)測。于是引入多種組合設(shè)計思路折中分析并檢驗擬合外推效果。
上述方法數(shù)學(xué)理論不同、信息應(yīng)用有差異,組合設(shè)計擬合性能或外推精度一般會更優(yōu),線性加權(quán)思路常見[5],即以多種思路將歷史擬合值與原始值接近為依據(jù)計算權(quán)重,將代表方法加權(quán)合成組合模型,進(jìn)一步提高擬合及預(yù)測精度。
1.SSE倒數(shù)法
兩類方法建模擬合后得殘差序列e11,e12,…,e1t與e21,e22,…,e2t。然后計算Q1=143794.15,Q2=571579.14。取倒數(shù)并歸一化為權(quán)重w1=0.799,w2=0.201。兩類方法預(yù)測值加權(quán)組合:0.799×28005+0.201×25002=27401。
2.關(guān)聯(lián)分析法
兩類方法擬合為歷史數(shù)據(jù),計算與真值序列灰色關(guān)聯(lián)系數(shù):0.794,0.672,0.573,0.851,1,0.520,0.637,0.942,0.346,0.420;1,0.917,0.896,0.648,0.876,0.579,0.756,0.410,0.525,0.669。分別合成灰色關(guān)聯(lián)度γ1=0.6756,γ2=0.75275。計算權(quán)重w1=0.4815,w2=0.5185。兩類方法預(yù)測值進(jìn)行加權(quán)組合0.4815×28005+0.5185×25002=26447。
3.相關(guān)分析法
兩類方法擬合歷史數(shù)據(jù),分別計算與原始序列相關(guān)系數(shù):r1=0.998,r2=0.994。計算權(quán)重w1=0.5010,w2=0.4990。兩類方法預(yù)測值加權(quán)組合:0.5010×28005+0.4990×25002= 26502。
4.待定值法
5.平均法
6.結(jié)果列舉
不同方法平均相對誤差ME和外推預(yù)測值F,見表2。
表2 不同方法實施方法的結(jié)果比較
衛(wèi)生領(lǐng)域許多指標(biāo)數(shù)據(jù)隨時間變化呈穩(wěn)定遞增特點,無周期性、季節(jié)性、強(qiáng)干擾性和波折性,曲線擬合法和ARIMA法為兩類時間序列分析方法。曲線擬合法中有許多類型,由數(shù)據(jù)資料平穩(wěn)遞增特點分析,根據(jù)曲線理論性質(zhì)與數(shù)據(jù)變化特點匹配,以增長特征法選擇模型。
通過文中增長型醫(yī)院費(fèi)用案例探索性設(shè)計多類組合模型并對數(shù)據(jù)集選擇、模型特點和結(jié)果分析進(jìn)行解讀。由表1分析,實例資料數(shù)據(jù)有明顯指數(shù)曲線變化特點,曲線擬合法擬合較好,外推時會對增長趨勢慣性延續(xù)反映;ARIMA反映早期平緩變化以及長期變化特點,低估中后期增長趨勢[6]。根據(jù)兩類建模思想進(jìn)行組合分析,確保擬合性能條件下改善外推精度。將多種組合方式給予流程簡述和案例演示,兼顧不同方法原理以及擬合性能,緩解對歷史資料過擬合,“中庸折合”后提高外推預(yù)測精度。如果此規(guī)律慣性延續(xù),則兼顧多類組合模型優(yōu)點,而將其預(yù)測值均數(shù)26491折中為參考值,多類組合方法有綜合設(shè)計意義。
SSE倒數(shù)法、關(guān)聯(lián)分析法、相關(guān)分析法、待定值法、平均法從理論可解釋性、操作可行性角度給出單項方法組合方法,設(shè)計過程中單項預(yù)測方法作用以較大權(quán)重來體現(xiàn),如SSE倒數(shù)法是從殘差平方和最小角度、關(guān)聯(lián)分析法是從擬合序列與真值序列灰色關(guān)聯(lián)系數(shù)最大角度、相關(guān)分析法是從擬合序列與真值序列相關(guān)系數(shù)最大角度、待定值法是從最小化組合模型殘差優(yōu)化分配系數(shù)角度、平均值法是從假設(shè)各單項方法等量體現(xiàn)權(quán)重角度。擬合效果或相對平均誤差均不錯,而SSE倒數(shù)法對于歷史數(shù)據(jù)擬合效果更佳;所有模型共同使用的外推預(yù)測結(jié)果折中分析更有均衡或綜合的實際參考價值。
經(jīng)分析,曲線擬合法擬合性能好,外推時過度反映增長趨勢而高估預(yù)測值;ARIMA法擬合非最好,外推時反應(yīng)早期平緩規(guī)律而低估預(yù)測值。近期不可控變動因素引起趨勢增長不平穩(wěn),趨勢變化“偏離”歷史慣性,ARIMA法以歷史資料為依據(jù)修正。組合建模方式均衡歷史規(guī)律擬合效果,緩解過度擬合或擬合不足問題,在保證擬合效果的前提下,折中互補(bǔ)并改善外推預(yù)測效果。倘若時間序列不僅有遞增發(fā)展趨勢,還有周期性或季節(jié)性變化特點,當(dāng)然亦可由季節(jié)指數(shù)或季節(jié)差分法來提取周期性信息,才能對于消除周期性信息以后的增長型序列參照上述組合方法擬合建模,充分挖掘序列復(fù)雜信息并提高預(yù)測精度。
時間序列方法多用于歷史擬合以后短期外推應(yīng)用,歷史數(shù)據(jù)體現(xiàn)了過去或近期事物發(fā)展規(guī)律,樣本量選取多少也不能一概而論,不同時期歷史數(shù)據(jù)反映不同時期延續(xù)變化規(guī)律信息,歷史信息過度擬合反而降低近期外推性能,將其過度納入反而污染了近期信息而導(dǎo)致預(yù)測效果變差。數(shù)據(jù)資料選擇要根據(jù)方法原理理論、實際數(shù)據(jù)特點、信息復(fù)雜程度和專業(yè)行業(yè)經(jīng)驗來綜合優(yōu)選設(shè)計,從而科學(xué)輔助管理決策工作。