李望晨 崔慶霞 張利平△
基于趨勢外推與ARIMA預(yù)測我國醫(yī)院診療及住院人次*
李望晨1,2,3崔慶霞1,2,3張利平1,2,3△
目的探索我國醫(yī)院診療與入院人次預(yù)測建模方案并比較其差異。方法借助SPSS、SAS軟件,以曲線擬合和ARIMA法建立模型進(jìn)行擬合與預(yù)測。結(jié)果我國醫(yī)院診療與入院人次數(shù)據(jù)均符合二次曲線變化,擬合與預(yù)測效果好;ARIMA法對二階差分后平穩(wěn)序列建模未見更優(yōu)性能,其擬合性能與數(shù)據(jù)段選取無明顯聯(lián)系。結(jié)論數(shù)據(jù)預(yù)分析和方法適配很有必要;ARIMA法在時(shí)間序列分析領(lǐng)域有普適代表性,適于隨機(jī)長期序列建模;傳統(tǒng)曲線擬合法對于趨勢平滑數(shù)據(jù)具有優(yōu)良性能。
診療人次 住院人次 預(yù)測 曲線擬合 ARIMA
預(yù)測研究是根據(jù)過去或現(xiàn)在資料推斷未來的發(fā)展?fàn)顩r,可以為決策提供依據(jù)。時(shí)間序列法對隨時(shí)間變化的時(shí)序資料進(jìn)行擬合,旨在反映現(xiàn)在或過去規(guī)律,預(yù)測未來情況。醫(yī)院診療與住院人次是衡量醫(yī)療服務(wù)效能的指標(biāo),有必要根據(jù)數(shù)據(jù)資料研究其變化規(guī)律并推測未來?;谖覈\療和住院人次數(shù)據(jù)的延續(xù)性特點(diǎn),可以考慮以時(shí)間為自變量進(jìn)行擬合或由序列間的短期自相關(guān)性建立模型。
醫(yī)院診療和入院人次資料隨機(jī)波動(dòng)小、變化較穩(wěn)定,可以選擇利用趨勢外推法[1]和 ARIMA法[2-4]建模,根據(jù)歷史資料進(jìn)行縱向擬合和預(yù)測,為醫(yī)療服務(wù)與衛(wèi)生決策提供實(shí)證參考或方法借鑒。
趨勢外推法一般指曲線擬合法,如直線擬合、多項(xiàng)式曲線、指數(shù)曲線、生長曲線等。其基本思想是針對時(shí)序資料的趨勢變化特點(diǎn),優(yōu)選并建立擬合模型進(jìn)行外推預(yù)測,它要求數(shù)據(jù)變化規(guī)律應(yīng)大致符合曲線特點(diǎn),即符合以時(shí)序值為自變量的函數(shù)yt=f(t),t為時(shí)序。
ARIMA(p,d,q)用于平穩(wěn)序列擬合及預(yù)測,其中p和q分別為自回歸和移動(dòng)平均階數(shù),d為差分次數(shù),其表達(dá)式為(1-φ1B-…-φpBp)(1-B)dxt=(1-θ1B-…-θqBq)εt,其中 Bxt=xt-1為延遲算子,{xt}為原始序列,{εt}為殘差序列,φi、θj為參數(shù)。先對原始序列進(jìn)行純隨機(jī)性、平穩(wěn)性檢驗(yàn),純隨機(jī)序列沒有研究價(jià)值,趨勢性或周期性變化序列要差分變換為平穩(wěn)序列。根據(jù)樣本自相關(guān)圖、偏自相關(guān)圖以及中間檢驗(yàn)結(jié)果判定擬合優(yōu)度,估計(jì)參數(shù)和識別模型,擬合時(shí)序規(guī)律后用于推測未來。
《中國衛(wèi)生統(tǒng)計(jì)年鑒》給出我國醫(yī)院診療和住院人次指標(biāo)資料,統(tǒng)計(jì)指標(biāo)包括總診療人次X1、綜合醫(yī)院診療人次 X2、中醫(yī)醫(yī)院診療人次X3、門急診人次X4、綜合醫(yī)院門急診人次X5、中醫(yī)醫(yī)院門急診人次X6、總?cè)朐喝藬?shù)(萬人)X7、綜合醫(yī)院入院人數(shù)X8、中醫(yī)醫(yī)院入院人數(shù)X9、每百門急診入院人數(shù)(人)X10。
對診療人次指標(biāo)X1~X6進(jìn)行散點(diǎn)圖觀察分析,2003年前數(shù)據(jù)變化不大,此后有較顯著遞增趨勢。原始數(shù)據(jù)見表1。
表1 1997-2011年診療與入院人次統(tǒng)計(jì)資料
1997-2010年數(shù)據(jù)變化呈平穩(wěn)遞增特點(diǎn),可用趨勢外推法對2011年數(shù)據(jù)進(jìn)行預(yù)測研究。利用SPSS軟件實(shí)現(xiàn)曲線擬合,可點(diǎn)選全部曲線類型納入建模過程。經(jīng)綜合對比,二次曲線或三次曲線擬合效果較好。
根據(jù)SPSS軟件得到總診療人次二次曲線yt=13.194-0.599t+0.088t2,三次曲線 yt=12.727-0 279t+0.037t2+0.002t3,據(jù)分析兩者擬合效果幾乎相同。經(jīng)模型檢驗(yàn)并分析擬合指標(biāo),計(jì)算決定系數(shù)并進(jìn)行F檢驗(yàn)。對于二次曲線來說,決定系數(shù)R2為0.989,F(xiàn)檢驗(yàn)統(tǒng)計(jì)量517.986,P值 <0.0001,說明擬合效果有統(tǒng)計(jì)學(xué)意義;對于三次曲線來說,決定系數(shù)為0.991,F(xiàn)檢驗(yàn)統(tǒng)計(jì)量357.800,P值 <0.0001,說明擬合效果有統(tǒng)計(jì)學(xué)意義。經(jīng)比較兩種模型相差不大,三次曲線略微好些。
對各指標(biāo)逐次進(jìn)行建模驗(yàn)證,也發(fā)現(xiàn)較顯著的曲線變化規(guī)律,而且二次曲線和三次曲線也可作為診療和住院指標(biāo)擬合曲線模型。同法對指標(biāo)X1~X10獨(dú)立進(jìn)行擬合。兩種研究思路分別記為二次曲線、三次曲線建模方案I-A、I-B。ARIMA法適于平穩(wěn)序列擬合建模分析,非平穩(wěn)序列應(yīng)差分消除趨勢特征。二次曲線序列yt一階差分ut仍有趨勢性,二階差分u(2)t為常數(shù)、無趨勢,二次曲線變化序列可經(jīng)二階差分化為平穩(wěn)序列,三次曲線也可經(jīng)三階差分化為平穩(wěn)序列。
根據(jù)SAS軟件,實(shí)現(xiàn)醫(yī)院總門診人次建模擬合過程,經(jīng)計(jì)算原始序列為非白噪聲、非平穩(wěn)序列,它有相關(guān)性和遞增趨勢特點(diǎn),原始序列經(jīng)二階差分后才能達(dá)到平穩(wěn)。
采用條件最小二乘法進(jìn)行模型擬合計(jì)算,確定二階移動(dòng)平均模型 MA(2)為最優(yōu)模型:(1-B)2yt=(1-θ1B+θ2B2)εt。其中 θ1=0.76191,t值為 4.44,P值為0.0013<0.05;θ2=-0.98380,對應(yīng) t值為 -5.70,P值為0.0002<0.05,說明參數(shù)計(jì)算結(jié)果均有統(tǒng)計(jì)學(xué)意義。AIC為16.827,SBC為17.797。經(jīng)過殘差自相關(guān)性檢驗(yàn),發(fā)現(xiàn)延遲6期時(shí)卡方統(tǒng)計(jì)量為1.59,自由度為4,P值為0.8110>0.05,自相關(guān)系數(shù)分別為 -0.022,0.020,-0.171,-0.016,0.011,-0.191。說明該模型對原始序列信息提取的效果很好,殘差序列已經(jīng)沒有任何相關(guān)信息可提取,為白噪聲序列,模型對原序列擬合很好,可進(jìn)行預(yù)測,經(jīng)外推得出1~5期的預(yù)測值依次為 23.22,24.32,25.42,26.52,27.61。由于時(shí)間序列適于短期外推,隨時(shí)間延遲預(yù)測誤差大、參考價(jià)值小,因此,2011年預(yù)測值取23.22。后期預(yù)測值可不斷引入新數(shù)據(jù)后重新建模。
須補(bǔ)充說明,若認(rèn)為原始數(shù)據(jù)序列符合三次曲線特點(diǎn),三階差分后用于建立模型,經(jīng)驗(yàn)證,發(fā)現(xiàn)擬合效果和預(yù)測值大致相同,故沒必要考慮該建模方案。
首先,根據(jù)1997-2010年連續(xù)數(shù)據(jù)段制定基于ARIMA法的建模方案II-A,可以依次分別建立各項(xiàng)指標(biāo) X1~X10的擬合模型,令 yt=(1-B)2xt。表達(dá)式依次列出如下:
然后,借助SAS軟件,仍采用ARIMA法,針對所有指標(biāo)分別截取不同數(shù)據(jù)段建立模型、驗(yàn)證性能差異。忽略早期部分?jǐn)?shù)據(jù)影響,截取2003-2010年連續(xù)數(shù)據(jù)段組成建模方案II-B;如果再以2004-2010年數(shù)據(jù)建立模型,因數(shù)據(jù)太少而無法實(shí)現(xiàn)ARIMA法預(yù)測建模,予以舍棄;追加補(bǔ)錄長期的1980-2010年共31個(gè)連續(xù)數(shù)據(jù)段組成建模方案II-C。在方案II-A、II-B、II-C實(shí)施過程中,分別以X1~X10各指標(biāo)時(shí)序資料獨(dú)立進(jìn)行建模,過程不再贅述。
最后,將全部多種時(shí)間序列數(shù)據(jù)段截取,分別用曲線擬合法和ARIMA法建模,將X1~X10各指標(biāo)真實(shí)值、預(yù)測值及相對誤差情況最終分析結(jié)果匯總比較,見表2。
表2 不同建模方案預(yù)測值與真實(shí)值比較
我國診療與住院人次各指標(biāo)數(shù)據(jù)隨年份呈現(xiàn)較明顯的二次曲線變化特點(diǎn),趨勢變化明顯。對X1~X10各指標(biāo)來說,經(jīng)散點(diǎn)圖初步分析發(fā)現(xiàn)數(shù)據(jù)隨時(shí)間大致有相似變化特點(diǎn),可考慮同類建模方法。從擬合過程可知,方案I-A、I-B擬合效果差異不大,但I(xiàn)-A外推效果好些;方案II-A、II-B與II-C相比,擬合與外推效果差異不大;方案I擬合與外推簡單且效果好,二次曲線對診療人次指標(biāo)預(yù)測更好,ARIMA模型對住院人次指標(biāo)預(yù)測更好,二者均有代表性。我國醫(yī)院診療與住院人次各指標(biāo)數(shù)據(jù)有趨勢性和平滑性,可以用簡單曲線擬合技術(shù)與經(jīng)典ARIMA法對其進(jìn)行時(shí)間序列擬合建模。
診療與住院人次的影響因素復(fù)雜,時(shí)間序列模型適于事物自身的時(shí)序變化規(guī)律擬合和短期預(yù)測。醫(yī)院診療和入院人次數(shù)據(jù)變化平滑且有遞增趨勢,若假設(shè)此規(guī)律延續(xù)于未來,可建模擬合縱向規(guī)律并進(jìn)行外推預(yù)測,為指導(dǎo)衛(wèi)生工作提供參考。曲線模型適于擬合增長數(shù)據(jù)平滑變化趨勢,其中二次或三次曲線適合前期變化小而后期呈遞增趨勢的數(shù)據(jù)。ARIMA法為平穩(wěn)序列建模經(jīng)典方法,常需較豐富資料,它對隨機(jī)性波動(dòng)數(shù)據(jù)建模更具代表性。
從1997-2010年我國醫(yī)院診療和住院人次資料早期數(shù)據(jù)隨時(shí)間變化小,后期趨勢顯著且變化穩(wěn)定,其規(guī)律更符合二次或三次曲線特點(diǎn)。ARIMA法采用經(jīng)典原理,具有普適性和代表性,建模時(shí)需較充分資料,擬合長期不規(guī)則規(guī)律更顯優(yōu)勢。本例嘗試用不同歷史數(shù)據(jù)段建立模型,未發(fā)現(xiàn)預(yù)測效果敏感變化。除外,資料中各指標(biāo)數(shù)據(jù)平滑變化,有明顯早期平緩而后平滑的趨勢特點(diǎn),簡單曲線擬合法對該特定資料表現(xiàn)了優(yōu)良性能,這與ARIMA模型作為一般隨機(jī)波動(dòng)性長時(shí)資料擬合分析的經(jīng)典方法并不矛盾。鑒于我國醫(yī)院診療與門診人次系列指標(biāo)數(shù)據(jù)特有的趨勢性與平滑性特點(diǎn),簡單曲線擬合法和ARIMA法都適于擬合外推建模,以預(yù)測未來狀況和指導(dǎo)衛(wèi)生決策。
[1]徐國祥.統(tǒng)計(jì)預(yù)測與決策.上海財(cái)經(jīng)大學(xué)出版社,2008:129-168.
[2]王燕.應(yīng)用時(shí)間序列分析.中國人民大學(xué)出版社,2013,18-134.
[3]劉剛,唐宋,孫文杰.時(shí)間序列分析法在香港結(jié)核病預(yù)測中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2012,29(2):226-228.
[4]馬春柳,劉海霞,李小升.SARIMA模型在醫(yī)院住院人次預(yù)測中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2013,30(3):432-433.
教育部人文社科基金15YJCZH087;山東自然科學(xué)基金ZR2015HL101;山東統(tǒng)計(jì)局課題KT15186,KT15187;山東衛(wèi)計(jì)委課題2014WS0460
1.“健康山東”重大社會(huì)風(fēng)險(xiǎn)預(yù)測與治理協(xié)同創(chuàng)新中心
2.社會(huì)領(lǐng)域健康風(fēng)險(xiǎn)協(xié)同創(chuàng)新中心
3.濰坊醫(yī)學(xué)院公共衛(wèi)生與管理學(xué)院
△通信作者:張利平
(責(zé)任編輯:郭海強(qiáng))