耿文飛,孫晶,黃玲,葛一嫻
發(fā)熱和呼吸系統(tǒng)疾病癥狀、體征是急性呼吸道感染的主要臨床表現(xiàn),全身或其他系統(tǒng)疾病可由其引起或伴隨。住院嚴(yán)重急性呼吸道感染病例(severe acute respiratory infection,SARI)是兒科的常見疾病,對(duì)一些免疫力較低的嬰幼兒,一旦急性呼吸道感染病原體復(fù)雜,發(fā)生感染的范圍廣,感染嚴(yán)重程度較重,通常這些患兒需進(jìn)入重癥監(jiān)護(hù)室(ICU)[1]治療。國(guó)家衛(wèi)計(jì)委自2009年起開展了SARI的監(jiān)測(cè)工作,了解SARI發(fā)生情況有助于持續(xù)監(jiān)測(cè)新發(fā)呼吸道傳染病發(fā)生。SARI是兒科常見疾病,監(jiān)測(cè)SARI是近年來發(fā)現(xiàn)人感染H7N9禽流感、中東呼吸綜合征等新發(fā)傳染病的重要手段,預(yù)測(cè)SARI的病例數(shù)有助于合理安排醫(yī)療資源和發(fā)現(xiàn)新發(fā)呼吸道傳染病。
自回歸滑動(dòng)平均混合(autoregressive integrated moving average,ARIMA)模型是ARMA模型的擴(kuò)展,在流感、甲肝、丙肝等疾病的預(yù)測(cè)研究和應(yīng)用表明,該模型與其他時(shí)間序列方法(AR、MA、ARMA和指數(shù)平滑等)相比能達(dá)到較好的擬合效果,在驗(yàn)證集上通常能取得不錯(cuò)的預(yù)測(cè)效果,與實(shí)際值進(jìn)行比較能較好發(fā)現(xiàn)突發(fā)情況,對(duì)新發(fā)疾病和研究疾病的流行過程能起到較好的作用[2-4]。有效預(yù)測(cè)SARI數(shù)狀況,合理利用衛(wèi)生資源對(duì)急性上呼吸道感染防控工作的開展具有重要指導(dǎo)意義。本研究利用2010~2016年蘭州市城關(guān)區(qū)人民醫(yī)院兒科SARI住院資料,通過對(duì)p、d、q等參數(shù)進(jìn)行不斷調(diào)整從而構(gòu)建ARIMA模型,建立符合我院SARI時(shí)間序特點(diǎn)的ARIMA模型,并通過驗(yàn)證集對(duì)模型預(yù)測(cè)效能進(jìn)行驗(yàn)證,從而確定預(yù)測(cè)SARI趨勢(shì)ARIMA模型,為今后我院SARI防控工作提供參考數(shù)據(jù)。
1.1 臨床資料 查詢蘭州市城關(guān)區(qū)人民醫(yī)院病案管理系統(tǒng)(hospital information system,HIS),整理分析2010年1月1日至2016年12月31日本院住院的兒科病歷,參考國(guó)際疾病(ICD-10)分類編碼[5]和SARI病例定義等信息,分月統(tǒng)計(jì)符合SARI病例定義的兒科住院患者。
1.2 診斷標(biāo)準(zhǔn) 按照《SARI監(jiān)測(cè)項(xiàng)目方案》的規(guī)定:5歲以下患兒急性起病,發(fā)熱(測(cè)量體溫≥37.4 ℃)且符合以下條件之一:(1)咳嗽、咽紅、呼吸音異常、呼吸頻率加快;(2)具有流感樣臨床表現(xiàn)。
1.3 ARIMA分析方法
1.3.1 以自相關(guān)函數(shù)(auto correlation function,ACF)和偏自相關(guān)函數(shù)(partial auto correlation function,PACF) 分析本院SARI時(shí)間序列本身以及不同滯后期的自相關(guān)、偏自相關(guān)系數(shù)。其建模過程主要通過如下步驟完成平穩(wěn)性識(shí)別(單位根檢驗(yàn))、模型識(shí)別(ACF和PACF)、參數(shù)估計(jì)(混合自相關(guān)圖)、模型檢驗(yàn)(擬合優(yōu)度)和比較[6]。根據(jù)時(shí)間序列的不同可選擇模型有MA(q)、AR(p)、ARIMA(p,q)、ARIMA(p,d,q)和ARIMA(p,d,q)×(P,D,Q)s等,其中ARIMA(p,d,q)×(P,D,Q)s為乘積季節(jié)模型,為ARIMA模型中最復(fù)雜的模型,其模型參數(shù)p、d、q以及P、D、Q分別表示非季節(jié)模型和季節(jié)模型中的自回歸的階、差分(季節(jié)差分)次數(shù)、滑動(dòng)平均的階。ARIMA方法把預(yù)測(cè)模型分為3個(gè)階段:模型識(shí)別、參數(shù)估計(jì)、擬合檢測(cè),通過循環(huán)進(jìn)行ARIMA模型的這三個(gè)步驟,最后赤池信息準(zhǔn)則(akaike information criterion,AIC)等值判斷一個(gè)較優(yōu)的模型用于預(yù)測(cè)。
1.3.2 通過ACF圖和PACF圖等方法識(shí)別時(shí)間序列的平穩(wěn)性和季節(jié)性 如時(shí)間序列不平穩(wěn)性檢驗(yàn),可采用最多3階的差分方式,使得時(shí)間序列較為平穩(wěn),將差分后的時(shí)間序列進(jìn)行后期模型識(shí)別和其他參數(shù)估計(jì)[7-8]。
1.3.3 參數(shù)的估計(jì) 通過混合自相關(guān)圖(extended autocorrelation function,EACF)確定模型的p、q兩個(gè)參數(shù),在p、q兩個(gè)參數(shù)存在較多組合的情況下,選擇AIC值最小模型作為ARIMA預(yù)測(cè)模型。模型的質(zhì)量檢驗(yàn),就是對(duì)模型和實(shí)際數(shù)據(jù)的殘差進(jìn)行正態(tài)性檢驗(yàn)和自相關(guān)性檢驗(yàn),較好的ARIMA模型的殘差是正態(tài)分布(即為白噪聲),并且殘差沒有相關(guān)性。殘差經(jīng)不同階數(shù)的ACF、PACF檢驗(yàn)應(yīng)和0沒有顯著性差異;時(shí)間序列的滯后相關(guān)統(tǒng)計(jì)量(Box-Ljung Q,LBQ)應(yīng)沒有顯著性差異。
1.4 統(tǒng)計(jì)學(xué)方法 采用R 3.4.0軟件,涉及的R語言包有tseries、tidyverse和forecast。通過蘭州市城關(guān)區(qū)人民醫(yī)院兒科SARI資料進(jìn)行收集整理,將整理好的時(shí)間序列數(shù)據(jù)集按時(shí)間點(diǎn)進(jìn)行拆分,2010年1月至2016年6月數(shù)據(jù)作為測(cè)試數(shù)據(jù)集,2016年7~12月數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)集,通過模型選擇、參數(shù)估計(jì)、模型檢驗(yàn)等步驟構(gòu)建ARIMA模型。將ARIMA模型獲得的預(yù)測(cè)值與SARI實(shí)際值進(jìn)行比較,計(jì)算模型的誤差值,誤差值越小說明預(yù)測(cè)越精確。
2.1 蘭州市城關(guān)區(qū)SARI數(shù)的月分布特征 將蘭州市城關(guān)區(qū)人民醫(yī)院2010年1月至2016年6月SARI測(cè)試數(shù)進(jìn)行分析,觀察SARI時(shí)間序列圖(圖1),可見SARI總體無明顯的增長(zhǎng)或下降趨勢(shì),但還存在同一年內(nèi)1月和2月SARI病例數(shù)低,6月和7月SARI病例數(shù)高的周期現(xiàn)象。
圖1 2010~2016年蘭州市城關(guān)區(qū)SARI數(shù)分布
2.2 平穩(wěn)性檢驗(yàn) 繪制蘭州市城關(guān)區(qū)人民醫(yī)院2010年1月至2016年6月SARI數(shù)的時(shí)間序列圖。原始序列的ACF圖(圖2)顯示自相關(guān)系數(shù)下降緩慢,提示該時(shí)間序列可能是非平穩(wěn)序列,對(duì)該時(shí)間序列進(jìn)行單位根檢驗(yàn)(ADF檢驗(yàn)),P>0.05。由于可能存在季節(jié)因素,選擇一次非季節(jié)差分和一次季節(jié)差分后,查分后數(shù)據(jù)的ACF和PACF圖顯示差分后的數(shù)據(jù)平穩(wěn),對(duì)差分后的數(shù)據(jù)再次進(jìn)行數(shù)據(jù)平穩(wěn)性檢驗(yàn)(ADF檢驗(yàn)),P=0.01。
圖2 原始序列的ACF圖
2.3 ARIMA模型識(shí)別 由于在平穩(wěn)性檢驗(yàn)中選擇了一次非季節(jié)差分和一次季節(jié)差分,ARIMA模型d、D參數(shù)均為1,由此可確定模型為乘積季節(jié)模型ARIMA(p,1,q)(P,1,Q)12。模型中p、q通過eacf獲得分別為1和2,P、Q采取從低階到高階逐個(gè)進(jìn)行嘗試以檢驗(yàn)各個(gè)模型的擬合優(yōu)度,并進(jìn)行比較。選擇AIC最小(535.18)的ARIMA(1,1,2)×(2,1,0)12型較優(yōu),該模型擬合測(cè)試集結(jié)果較好平均誤差(ME)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、平均百分比誤差(MPE)、平均絕對(duì)百分比誤差(MAPE)、平均絕對(duì)定標(biāo)誤差(MASE)、滯后1階的誤差自相關(guān)(ACF1)等指標(biāo)分別為0.34、11.49、7.99、-10.95、31.30、0.76和0.01。
2.4 ARIMA模型診斷 對(duì)建立的ARIMA(1,1,2)×(2,1,0)12模型進(jìn)行殘差的正態(tài)性檢驗(yàn),結(jié)果顯示,延遲6階、12階、18階、24階的LBQ檢驗(yàn)統(tǒng)計(jì)量的P值分別為0.411 0、0.541 6、0.506 3和0.402 1,說明殘差符合正態(tài)分布(即為白噪聲);殘差的ACF和PACF均提示殘差序列為純隨機(jī)序列,說明所建立的ARIMA(1,1,2)×(2,1,0)12模型的擬合效果較好。
2.5 模型預(yù)測(cè) 利用模型ARIMA(1,1,2)×(2,1,0)12預(yù)測(cè)蘭州市城關(guān)區(qū)2016年6~12月SARI,結(jié)果顯示2016年6~12月SARI實(shí)際值均在該ARIMA模型預(yù)測(cè)值95%CI范圍內(nèi)(表1、圖3),該ARIMA模型預(yù)測(cè)的相對(duì)誤差為22.19%。ARIMA預(yù)測(cè)值和實(shí)際值的動(dòng)態(tài)趨勢(shì)基本一致,說明了該模型能夠準(zhǔn)確獲得SARI時(shí)間序列變化的特點(diǎn),可以使用該模型對(duì)SARI進(jìn)行跟蹤和預(yù)測(cè)。
表1 ARIMA模型對(duì)2016年6~12月蘭州市城關(guān)區(qū)人民醫(yī)院SARI數(shù)預(yù)測(cè)
近年來由于統(tǒng)計(jì)學(xué)習(xí)取得了迅速發(fā)展,在分類和回歸的預(yù)測(cè)上日益準(zhǔn)確。在醫(yī)學(xué)領(lǐng)域中,已有馬爾科夫、隨機(jī)森林等多種方法在疾病發(fā)病、醫(yī)院就診、影像診斷等領(lǐng)域中進(jìn)行預(yù)測(cè)[9]。ARIMA模型是比較常用的時(shí)間序列預(yù)測(cè)方法之一,由于其無需相關(guān)的自變量并有預(yù)測(cè)精度高等特點(diǎn),該方法在各種短期預(yù)測(cè)中得到了充分的肯定。其中,ARIMA乘積模型是一種復(fù)合季節(jié)模型,可有效提取時(shí)間序列的季節(jié)趨勢(shì)與非季節(jié)性成分,提高具有季節(jié)特點(diǎn)的時(shí)間序列數(shù)據(jù)的預(yù)測(cè)精度。已有相關(guān)研究證實(shí)了ARIMA乘積模型在預(yù)測(cè)疾病中的可行性與準(zhǔn)確性[10]。
圖3 ARIMA模型對(duì)2016年6~12月蘭州市城關(guān)區(qū)人民醫(yī)院SARI數(shù)預(yù)測(cè)
為發(fā)現(xiàn)新發(fā)急性呼吸道傳染病,了解流感等急性呼吸道傳染病的臨床變化特點(diǎn),為防控流感等急性呼吸道傳染病的傳播,根據(jù)監(jiān)測(cè)情況國(guó)家衛(wèi)計(jì)委每隔幾年就調(diào)整《SARI哨點(diǎn)監(jiān)測(cè)方案》。本研究利用蘭州市城關(guān)區(qū)2010~2016年數(shù)據(jù)建立了SARI預(yù)測(cè)的ARIMA模型,為SARI監(jiān)測(cè)提供給予一定的技術(shù)支持和預(yù)警。
ARIMA模型無需對(duì)時(shí)間序列的特征作特定分布的假設(shè)[11],無需其他自變量?jī)H借助時(shí)間序列自身的波動(dòng)特點(diǎn),使得ARIMA模型應(yīng)用較廣。本研究通過整理2010~2016年蘭州市城關(guān)區(qū)人民醫(yī)院SARI分月病例數(shù),構(gòu)建了ARIMA(1,1,2)×(2,1,0)12模型。擬合效果指標(biāo)RMSE為11.49,MAPE為31.30,表明該模型擬合了數(shù)據(jù)點(diǎn)范圍內(nèi)的序列特點(diǎn),提示該模型能在一定程度上能反映出我院SARI病例數(shù)的變化規(guī)律,可用ARIMA(1,1,2)×(2,1,0)12模型對(duì)我院就診的SARI病例數(shù)進(jìn)預(yù)測(cè)。2016年7~12月驗(yàn)證數(shù)據(jù)顯示,預(yù)測(cè)值和實(shí)際值比較接近,表明利用ARIMA模型預(yù)測(cè)蘭州市城關(guān)區(qū)人民醫(yī)院SARI數(shù)的可行性。將該模型進(jìn)行實(shí)際應(yīng)用后,如果實(shí)際SARI病例數(shù)在模型預(yù)測(cè)值95%CI范圍內(nèi)波動(dòng),表明當(dāng)月SARI病例數(shù)變化未出現(xiàn)異常情況,如果當(dāng)月SARI病例數(shù)超出預(yù)測(cè)值95%CI,應(yīng)引起高度重視提示可能出現(xiàn)新的流行或新發(fā)急性呼吸道傳染病,這樣可以更好地為SARI進(jìn)行預(yù)報(bào)及干預(yù)提供依據(jù)。應(yīng)用ARIMA模型應(yīng)注意的是:乘積ARIMA模型建立條件需要達(dá)到平穩(wěn)性的要求,往往通過差分實(shí)現(xiàn)序列的平穩(wěn)性;由于時(shí)間序列數(shù)據(jù)異常波動(dòng)無法避免,一次分析所建立的ARIMA模型,不能作為永久不變的預(yù)測(cè)工具[4],只能用于短期預(yù)測(cè)。在SARI監(jiān)測(cè)工作中,應(yīng)不間斷的收集的時(shí)間序列數(shù)據(jù),用新的實(shí)際值重新加入時(shí)間序列后,重新進(jìn)行模型的選擇、參數(shù)估計(jì)和模型驗(yàn)證工作,以修正或重新擬合的ARIMA模型進(jìn)行預(yù)測(cè)工作。目前,國(guó)內(nèi)尚沒有將ARIMA模型進(jìn)行SARI病例數(shù)的短期預(yù)測(cè)的研究,本研究建立的ARIMA(1,1,2)×(2,1,0)12模型,采用了一次非季節(jié)差分和一次季節(jié)差分進(jìn)行數(shù)據(jù)平穩(wěn)化處理,通過混合自相關(guān)圖和AIC值獲得了模型最終參數(shù),該模型在驗(yàn)證集預(yù)測(cè)性能較好。
[1] 彭質(zhì)斌,鄭建東,姜慧,等.全國(guó)兒科住院嚴(yán)重急性呼吸道感染病例哨點(diǎn)監(jiān)測(cè)階段性分析[J].疾病監(jiān)測(cè),2017,32(1):3-5.
[2] 李瓊芬,黃甜,王榮華, 等.傳染病疫情預(yù)測(cè)預(yù)警模型研究進(jìn)展[J].中國(guó)公共衛(wèi)生,2013,29(11):1695-1697.
[3] 龍璐,嚴(yán)薇榮,許奕華,等.癥狀監(jiān)測(cè)系統(tǒng)預(yù)測(cè)預(yù)警模型研究進(jìn)展[J].中國(guó)公共衛(wèi)生,2012,28(5):704-706.
[4] 黃利群,譚愛軍,張麗榮,等.珠海市2006-2008年流感癥狀監(jiān)測(cè)分析及預(yù)測(cè)[J].中國(guó)公共衛(wèi)生,2009,25(8):1013-1015.
[5] 周婧雅,白雪,崔勝男,龐成,劉愛民.我國(guó)ICD-10疾病分類編碼質(zhì)量的系統(tǒng)評(píng)價(jià)[J].中國(guó)醫(yī)院管理,2015,35(12):32-35.
[6] 孫振球.醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M].3版.北京:人民衛(wèi)生出版社,2010:391-403.
[7] 劉剛,唐宋,孫文杰.時(shí)間序列分析法在香港結(jié)核病預(yù)測(cè)中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2012,29(2):226-228.
[8] 劉剛,單芙香.ARIMA模型及其在麻疹發(fā)病率預(yù)測(cè)中的應(yīng)用[J].數(shù)理醫(yī)藥學(xué)雜志,2011,24(4):379-382.
[9] 劉桂芬,劉玉秀,仇麗霞,等.醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M].2版.北京:中國(guó)協(xié)和醫(yī)科大學(xué)出版社,2009:346-365.
[10]張文增,冀國(guó)強(qiáng),史繼新,等.ARIMA模型在細(xì)菌性痢疾預(yù)測(cè)預(yù)警中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(6):636-637.
[11]Hamilton JD.Time series analysis[M].New Jersey:Princeton University Press,1994:43-71.