成都市第三人民醫(yī)院信息部(610031)
郭慧敏 杜 軍△ 黃路非
基于R語言ARIMA模型在慢阻肺急性加重患者發(fā)病預(yù)測(cè)中的應(yīng)用
成都市第三人民醫(yī)院信息部(610031)
郭慧敏 杜 軍△黃路非
目的 建立慢阻肺急性加重入院人次的自回歸積分滑動(dòng)平均模型(ARIMA),科學(xué)預(yù)測(cè)慢阻肺急性加重入院人次,為該病的診治以及合理利用醫(yī)療資源提供理論依據(jù)。方法 使用R語言(v.3.2.3)做模型的識(shí)別、模型的參數(shù)估計(jì)與檢驗(yàn),建立ARIMA模型,對(duì)某院2013-2015年慢阻肺急性加重出院人次進(jìn)行模型擬合,用2016年1~3月的預(yù)測(cè)值與實(shí)際值作比較,檢驗(yàn)?zāi)P偷念A(yù)測(cè)能力,并且預(yù)測(cè)2016年4-6月慢阻肺急性加重入院人次。結(jié)果 經(jīng)過多次檢驗(yàn),確定ARIMA(2,2,1)(1,1,1)12模型預(yù)測(cè)能力最佳,其殘差序列是白噪聲。用2016年1~3月數(shù)據(jù)來檢驗(yàn)?zāi)P?,其MAPE的絕對(duì)值均小于10%,說明模型的擬合優(yōu)度相對(duì)較好,預(yù)測(cè)能力可靠,根據(jù)該模型預(yù)測(cè)2016年4~6月該院慢阻肺急性加重入院人次分別為162、160、159。結(jié)論 ARIMA模型能夠很好的擬合慢阻肺急性加重的入院人次并進(jìn)行短期預(yù)測(cè),模型顯示2016年該院的急性支氣管炎的入院人次將有所上升,為醫(yī)院合理利用醫(yī)療資源提供了有力依據(jù)。
R語言 慢阻肺急性加重 預(yù)測(cè) 回歸滑動(dòng)平均混合模型
慢性阻塞性肺疾病(簡(jiǎn)稱慢阻肺)是一種逐漸削弱患者呼吸功能的破壞性慢性肺部疾病,被稱為呼吸道疾病中最“不動(dòng)聲色”的隱形殺手。患者在日?!胺€(wěn)定期”時(shí)疾病特征不明顯,卻在“急性加重期”時(shí)癥狀驟然出現(xiàn)或原有癥狀急劇惡化[1],對(duì)患者的生活質(zhì)量產(chǎn)生巨大影響, 加速肺功能惡化, 也是患者住院和死亡的主要原因。根據(jù)世界衛(wèi)生組織估計(jì),到2020年,慢阻肺將成為全球第三大死亡原因,預(yù)防慢阻肺急性加重的重要性正日益得到關(guān)注,最新版慢阻肺全球創(chuàng)議(GOLD指南)首次強(qiáng)調(diào)了慢阻肺急性加重風(fēng)險(xiǎn)和癥狀的評(píng)估[2]。本文建立某院慢阻肺急性加重的自回歸積分滑動(dòng)平均模型(autoregressive integrated moving average model,簡(jiǎn)稱ARIMA),探討慢阻肺急性加重入院人次的變化規(guī)律。
R語言是一種為統(tǒng)計(jì)計(jì)算和繪圖而生的語言和環(huán)境,它是一套開源的數(shù)據(jù)分析解決方案,由一個(gè)龐大且活躍的全球性研究型社區(qū)維護(hù)[3],針對(duì)不同的場(chǎng)景和統(tǒng)計(jì)功能R語言的用戶貢獻(xiàn)了大量?jī)?yōu)秀的包(package)。本文采用R語言作為統(tǒng)計(jì)分析的工具。
1.資料來源
從某院病案首頁信息管理系統(tǒng)中檢索2013-2015年出院第一診斷為慢阻肺急性加重(ICD-10編碼為J44.1)的病人為研究對(duì)象[4],以每月的入院人次構(gòu)成時(shí)間序列。
2.原始數(shù)據(jù)獲取
R語言通過RODBC包連接數(shù)據(jù)庫[5],并且提取2013-2015年的研究數(shù)據(jù),建立時(shí)間序列(stats包中的st函數(shù)),以月為單位繪制原始數(shù)據(jù)的時(shí)間序列圖(圖1)。
圖1 某院慢阻肺急性加重患者住院人次時(shí)間序列
3.ARIMA模型建立
ARIMA模型主要步驟[6]為:(1)序列平穩(wěn)化:據(jù)圖1,采用季節(jié)性ARIMA(p,d,q)(P,D,Q)12模型,對(duì)原始數(shù)據(jù)進(jìn)行差分并檢驗(yàn)序列平穩(wěn)性,可以確定d、D;(2)模型識(shí)別:對(duì)處理后的序列做自相關(guān)和偏相關(guān)處理,發(fā)現(xiàn)低階的自相關(guān)系數(shù)較大,但隨著時(shí)滯長(zhǎng)度的增加而衰減,可認(rèn)為處理后的序列符合運(yùn)用ARIMA模型的條件,并且確定p值和q值;(3)模型參數(shù)估計(jì)與檢驗(yàn):通過Ljung-Box檢驗(yàn)等方法檢測(cè)模型殘差,判斷模型的適合性;(4)預(yù)測(cè):利用該院2016年1~3月的慢阻肺急性加重的實(shí)際入院人次,檢驗(yàn)建立模型的預(yù)測(cè)效果,并預(yù)測(cè)2016年4~6月慢阻肺急性加重的入院人次,產(chǎn)生可信區(qū)間。
4.編程與實(shí)現(xiàn)
用R語言(v.3.2.3)作為統(tǒng)計(jì)分析的工具,用RODBC中的函數(shù)提取原始數(shù)據(jù),采用stats包中的函數(shù)對(duì)原始數(shù)據(jù)進(jìn)行時(shí)間序列處理,用funitRoot包中的函數(shù)進(jìn)行單位根檢驗(yàn),用forecast包中的函數(shù)進(jìn)行預(yù)測(cè)。
1.序列平穩(wěn)化
對(duì)原始數(shù)據(jù)進(jìn)行一階差分和二階差分(timeSeries包中的diff函數(shù)),經(jīng)單位根檢驗(yàn)(fUnitRoot包中的unitrootTest函數(shù))一階差分為非穩(wěn)態(tài)序列,二階差分為穩(wěn)態(tài)序列(P<0.05),同時(shí)白噪聲檢驗(yàn)說明序列不是純隨機(jī)性檢驗(yàn),序列具有值得我們提取的相關(guān)信息。由此得到d=2。
2.模型識(shí)別
對(duì)二階差分處理后的數(shù)據(jù)進(jìn)行自相關(guān)和偏相關(guān)(stats包中的acf函數(shù)和pacf函數(shù))處理,得到ACF圖(圖2)和PACF圖(圖3)。觀察圖2得,二階自相關(guān)系數(shù)后都未超出±2倍估計(jì)標(biāo)準(zhǔn)差,即自相關(guān)系數(shù)1階以后截尾,初步確定q=1;觀察圖3得,三階偏相關(guān)系數(shù)后都未超過±2倍估計(jì)標(biāo)準(zhǔn)差,即偏相關(guān)系數(shù)2階以后截尾,初步確定p=2。
圖2 自相關(guān)系數(shù)圖
圖3 偏相關(guān)系數(shù)
3.模型的參數(shù)估計(jì)與檢測(cè)
由以上兩步我們大致可以確定p、d、q的大致范圍,在p、d、q確定的范圍,對(duì)模型反復(fù)調(diào)試和檢驗(yàn)(stats包中的arima函數(shù)),季節(jié)模型的參數(shù)采取0、1、2從低階到高階逐個(gè)嘗試的辦法,根據(jù)模型參數(shù)檢驗(yàn)結(jié)果和參數(shù)間的相關(guān)系數(shù)對(duì)模型反復(fù)調(diào)試和檢驗(yàn),以赤池信息準(zhǔn)則(Akaike Information Criterion,AIC準(zhǔn)則)和決定系數(shù)R2作為依據(jù)確定最優(yōu)模型(表1)。
根據(jù)比較發(fā)現(xiàn)模型ARIMA(2,2,1)(1,1,1)12的AIC=335.78最小并且R2=85.23最大,則我們可以確定模型ARIMA(2,2,1)(1,1,1)12擬合較好,對(duì)殘差序列做自相關(guān)圖(圖4);圖4表明一階殘差序列的自相關(guān)系數(shù)截尾,據(jù)此認(rèn)為殘差序列是白噪聲。同時(shí)做Ljung-Box檢驗(yàn)(stats包中的Box.test函數(shù)),其統(tǒng)計(jì)量無統(tǒng)計(jì)學(xué)意義(P>0.05)。
表1 備選ARIMA模型擬合優(yōu)度統(tǒng)計(jì)量
圖4 殘差序列的自相關(guān)系數(shù)圖
4.預(yù)測(cè)
利用ARIMA(2,2,1)(1,1,1)12模型對(duì)該院慢阻肺急性加重入院人次以及95%可信區(qū)間進(jìn)行檢驗(yàn)(forecast包中的forecast.Arima函數(shù)),結(jié)果見表2;由表2得,預(yù)測(cè)值均在95%可信區(qū)間,而且其平均絕對(duì)百分誤差(MAPE)也非常小,預(yù)測(cè)模型精度高。據(jù)此模型外推,可以預(yù)測(cè)2016年4~6月慢阻肺急性加重入院人次分別為162、160、159,結(jié)果見圖5。
表2 2016年1~3月慢阻肺急性加重入院人次預(yù)測(cè)值與實(shí)際值
圖5 慢阻肺急性加重入院人次擬合曲線
ARIMA模型是由Box和Jenkins(1970)提出的一種時(shí)間序列的建模方法,其預(yù)測(cè)精確度較高,且不需要知道影響預(yù)測(cè)變量的相關(guān)因素,可將各種因素包括未知因素的綜合效應(yīng)統(tǒng)一蘊(yùn)含在時(shí)間變量中, ARIMA模型在醫(yī)療衛(wèi)生領(lǐng)域有廣闊的應(yīng)用前景[7]。
本文通過對(duì)某院的2013-2015年慢阻肺急性加重入院人次建立ARIMA模型,序列經(jīng)過平穩(wěn)化、模型識(shí)別、參數(shù)估計(jì)及檢測(cè)等步驟發(fā)現(xiàn)ARIMA(2,2,1)(1,1,1)12模型可以有效的擬合每月的入院人次,并且做短期預(yù)測(cè);通過對(duì)模型的檢驗(yàn),其月份的誤差率較低,有一定的實(shí)用價(jià)值。通過預(yù)測(cè)可知,2016年4~6月該院的慢阻肺急性加重的入院人次為分別為162、160、159,而且95%可信區(qū)間均包含每月的預(yù)測(cè)值,同時(shí)我們對(duì)比歷史數(shù)據(jù)發(fā)現(xiàn),該病種的入院人次呈逐年上升的趨勢(shì),在配置急性支氣管炎的醫(yī)療資源時(shí)我們應(yīng)該參考該預(yù)測(cè)值,優(yōu)化資源分布,合理利用有限的醫(yī)療資源。
數(shù)據(jù)顯示,慢阻肺急性加重患者每年都有所增長(zhǎng),筆者認(rèn)為由于我國(guó)經(jīng)濟(jì)不斷發(fā)展,人們的生活環(huán)境污染加劇,該醫(yī)院所處城市空氣質(zhì)量日漸惡化,呼吸系統(tǒng)疾病的發(fā)病率逐年上升,人們應(yīng)積極的鍛煉身體,養(yǎng)成良好的生活習(xí)慣,戒除香煙或自覺躲避二手煙、霧霾天等污染源,定期做針對(duì)性的醫(yī)療檢查,是積極面對(duì)這種高發(fā)病率疾病的有效措施。政府應(yīng)當(dāng)對(duì)環(huán)境治理加大力度,提高國(guó)民身體素質(zhì)。
[1]Faustini A,Stafoggia M,Colais P,et al.EpiAir Collaborative Group.Air pollution and multiple acute respiratory outcomes.Eur Respir J,2013,42(2):304-313.
[2]陳亞紅,王辰.2015 年更新版GOLD 慢性阻塞性肺疾病診斷、治療和預(yù)防的全球策略簡(jiǎn)介.《中國(guó)醫(yī)學(xué)前沿雜志(電子版)》,2015,7(2):34-39.
[3]Robert I.Kabacoff著,高濤,肖楠,陳鋼譯.R語言實(shí)戰(zhàn).北京:人民郵電出版社,2013:4-5.
[4]董景五.疾病和有關(guān)健康問題的國(guó)際統(tǒng)計(jì)分類,第1版.人民衛(wèi)生出版社,2008.
[5]孫振球,徐勇勇.醫(yī)學(xué)統(tǒng)計(jì)學(xué),第2版.北京:人民衛(wèi)生出版社,2002:351-371.
[6]郭慧敏,杜軍,練正秋.ARIMA模型應(yīng)用于臨床懸浮紅細(xì)胞用量預(yù)測(cè)的探討.中國(guó)輸血雜志,2014,8(30):829-832.
[7]熊志斌.基于ARIMA與神經(jīng)網(wǎng)絡(luò)集成的GDP時(shí)間序列預(yù)測(cè)研究.數(shù)理統(tǒng)計(jì)與管理,2011,30(2):306-314.
(責(zé)任編輯:劉 壯)
△通信作者:杜軍,E-mail:yixi_370785@163.com
中國(guó)衛(wèi)生統(tǒng)計(jì)2017年2期