楊秋英 郭廣行 陳 卉
基于時(shí)間序列ARIMA模型的艾滋病發(fā)病率預(yù)測研究*
楊秋英①*郭廣行②△陳 卉①
目的:采用自回歸積分移動(dòng)平均(ARIMA)模型對2000-2014年全國艾滋病發(fā)病率建立預(yù)測模型,并使用預(yù)測模型對2015-2017年艾滋病發(fā)病率進(jìn)行預(yù)測。方法:分析2000-2014年全國艾滋病發(fā)病率原始數(shù)據(jù)(國家統(tǒng)計(jì)局統(tǒng)計(jì)),對其進(jìn)行平穩(wěn)化處理,使其符合ARIMA模型的要求,并對ARIMA模型進(jìn)行參數(shù)識別和模型擬合后預(yù)測2015-2017年艾滋病發(fā)病率;在對預(yù)測模型診斷檢驗(yàn)的同時(shí)分析評價(jià)預(yù)測結(jié)果。結(jié)果:2000-2014年全國艾滋病發(fā)病率持續(xù)上升,在2011-2012年間增幅較大,對2015-2017年各年發(fā)病率進(jìn)行預(yù)測,其結(jié)果分別為3.57/10萬、3.80/10萬和4.04/10萬,與2000-2014年趨勢相比依舊呈現(xiàn)持續(xù)上升。結(jié)論:利用全國2000-2014年艾滋病發(fā)病率數(shù)據(jù),采用時(shí)間序列ARIMA模型對其建立預(yù)測模型,并使用該模型對2015-2017年全國艾滋病發(fā)病率預(yù)測,能夠準(zhǔn)確提供艾滋病病毒(HIV)感染數(shù)據(jù)信息,使HIV感染者能及時(shí)認(rèn)識到其危害,有效預(yù)防控制艾滋病的發(fā)生。
艾滋病;發(fā)病率預(yù)測;自回歸積分移動(dòng)平均模型
[First-author’s address] School of Biomedical Engineering, Capital Medical University, Beijing 100069, China.
艾滋病,即獲得性免疫缺陷綜合征(acquired immunodeficiency syndrome,AIDS),是由于人體感染艾滋病病毒(human immunodeficiency virus,HIV)導(dǎo)致全身免疫系統(tǒng)遭到破壞,最終致使人體喪失抵御疾病的能力而導(dǎo)致死亡。
國家衛(wèi)生計(jì)生委、聯(lián)合國艾滋病規(guī)劃署(UNAIDS)、世界衛(wèi)生組織(WHO)聯(lián)合對2014年中國艾滋病疫情進(jìn)行估計(jì):截至2014年底,中國存活艾滋病病毒感染者和艾滋病患者(PLHIV)為50.07萬例,死亡15.87萬例[1];2015年當(dāng)年新發(fā)HIV感染者5.03萬例,死亡1.28萬例,艾滋病已成為我國嚴(yán)重的公共衛(wèi)生問題[2]。
艾滋病嚴(yán)重威脅著人類的生命健康,其患者的3年病死率接近100%[3]。目前的抗病毒治療方法仍存在很大的局限性,不但無法徹底清除體內(nèi)的病毒,且需要終身治療,而長期服藥又會(huì)產(chǎn)生耐藥性,治療費(fèi)用昂貴,給個(gè)人和家庭帶來沉重的經(jīng)濟(jì)負(fù)擔(dān),也給國家的經(jīng)濟(jì)發(fā)展帶來重大的損失。艾滋病發(fā)病率預(yù)測是流行病學(xué)研究中的重要分支之一,通常應(yīng)用各類模型進(jìn)行預(yù)測,但由于實(shí)際問題的可變性和復(fù)雜性,針對實(shí)際問題尋求合適的預(yù)測模型顯得尤其重要且較為困難[4-7]?;诖?,本研究通過對實(shí)際數(shù)據(jù)的分析,結(jié)合全國艾滋病傳播特性,選取自回歸積分移動(dòng)平均模型(autoregressive integrated moving average,ARIMA)模型參數(shù)建立針對實(shí)際情況的模型,實(shí)現(xiàn)艾滋病發(fā)病率的ARIMA模型擬合和預(yù)測,預(yù)測2015-2017年我國未來3年艾滋病的發(fā)病率。
ARIMA模型,即Box-Jenkins模型、博克思-詹金斯法。ARIMA模型根據(jù)原序列是否平穩(wěn)以及回歸中所包含部分的不同,具有3種基本模式:即移動(dòng)平均(moving average,MA)模型、自回歸(autoregressive,AR)模型及ARIMA模型。
ARIMA模型經(jīng)常表示為arima(p,d,q)。當(dāng)序列為平穩(wěn)序列時(shí),ARIMA模型的表達(dá)式為公式1:
式中p為自回歸參數(shù);q為移動(dòng)平均階數(shù);yt是模型的待估計(jì)參數(shù)。當(dāng)序列為非平穩(wěn)序列時(shí),可通過對序列取對數(shù)和作差分處理使其平穩(wěn)化;d為序列成為平穩(wěn)時(shí)所做的差分次數(shù)。
對于單個(gè)被觀察指標(biāo)形成的平穩(wěn)序列,計(jì)算其自相關(guān)和偏自相關(guān)函數(shù),并根據(jù)繪制的函數(shù)圖形確定模型的參數(shù)值。若其偏相關(guān)函數(shù)是截尾,而自相關(guān)函數(shù)是拖尾,則平穩(wěn)序列可采用AR模型進(jìn)行擬合;若其偏相關(guān)函數(shù)是拖尾,而自相關(guān)函數(shù)是截尾,則平穩(wěn)序列可以移動(dòng)平均模型RA進(jìn)行擬合;其他情況則可采用ARIMA模型。
ARIMA建模的過程包括5個(gè)步驟:即數(shù)據(jù)平穩(wěn)化、模型參數(shù)識別、模型的擬合與預(yù)測、模型的診斷檢驗(yàn)和模型預(yù)測結(jié)果分析及評價(jià)[8-10]。
2.1數(shù)據(jù)準(zhǔn)備
(1)原始數(shù)據(jù)。2000-2014年國家統(tǒng)計(jì)局統(tǒng)計(jì)的艾滋病發(fā)病率數(shù)據(jù)如圖1所示:
圖1 2000-2014年艾滋病發(fā)病率趨勢圖(1/10萬)
圖中顯示,2000-2003年艾滋病發(fā)病率基本保持穩(wěn)定,2004-2011年保持持續(xù)增高狀態(tài),2011-2012年增幅跨度較大,2012-2014年又恢復(fù)穩(wěn)定增長。2011-2012年艾滋病發(fā)病率增幅較大的主要原因是,既往感染HIV者陸續(xù)進(jìn)入發(fā)病期。此外,2011-2012年艾滋病疫情出現(xiàn)的特征為感染人群多樣化,流行趨勢復(fù)雜化[1-2]。
(2)平穩(wěn)化處理數(shù)據(jù)。ARIMA模型建模的首要條件是要求預(yù)測的數(shù)列滿足平穩(wěn)化條件,即個(gè)體值圍繞序列均值上下波動(dòng)。對于非平穩(wěn)時(shí)間序列,其平穩(wěn)化處理是對序列取對數(shù)和作差分處理。因此,需要判斷序列的變化趨勢,若存在異方差,則對序列進(jìn)行對數(shù)轉(zhuǎn)換,若存在一定的上升或下降趨勢,則對序列進(jìn)行差分平穩(wěn)化處理[11]。圖1顯示,2000-2014年艾滋病發(fā)病率數(shù)據(jù)序列呈現(xiàn)上升趨勢,不能直接用ARIMA建模,對序列數(shù)據(jù)進(jìn)行一階差分以消除增長趨勢,一階差分后結(jié)果數(shù)據(jù)如圖2所示:
圖2 2000-2014年艾滋病發(fā)病率一階差分圖
圖中顯示,序列數(shù)據(jù)進(jìn)行一階差分后消除了數(shù)據(jù)上升趨勢,除2011-2012年特殊情況外,已趨于平穩(wěn)化,滿足ARIMA模型建?;疽螅捎糜贏RIMA模型建模。
2.2模型參數(shù)識別
數(shù)據(jù)序列一階差分后的結(jié)果為平穩(wěn)序列,則ARIMA模型中參數(shù)d=1,下面需確定p和q。求得一階差分后序列的自相關(guān)函數(shù)(autocorrelation function,ACF)和偏自相關(guān)函數(shù)(partial autocorrelation function,PACF)[12](如圖3所示)。
圖3 一階差分自相關(guān)和偏自相關(guān)函數(shù)示圖
一階差分序列的自相關(guān)圖和偏自相關(guān)函數(shù)圖顯示,相關(guān)值均未超出顯著邊界(0.5),所以ARIMA模型選為ARIMA(0,1,0)。
2.3模型擬合與預(yù)測
模型擬合及預(yù)測2014年后3年(2015-2017年)的艾滋病發(fā)病率,其結(jié)果分別為3.57/10萬、3.8/10萬和4.04/10萬(如圖4所示)。
圖4 ARIMA模型擬合結(jié)果曲線圖
2.4模型診斷檢驗(yàn)
模型殘差的自相關(guān)函數(shù)和偏自相關(guān)函數(shù)顯示,殘差序列at的所有自相關(guān)函數(shù)和偏自相關(guān)函數(shù)的值均為平穩(wěn),則殘差序列中不再包含可供提取的非隨機(jī)成分,此時(shí)的殘差可被視作白噪聲,擬合效果良好;R2=0.910,且擬合程度良好[13](如圖5所示)。
圖5 殘差序列自相關(guān)和偏自相關(guān)函數(shù)示圖
2.5模型預(yù)測結(jié)果分析及評價(jià)
2011年以前艾滋病發(fā)病率基本處于穩(wěn)定或持續(xù)增高狀態(tài),但2011-2012年較特殊,因此選取2010-2014年的5年實(shí)際值、預(yù)測值及95%置信區(qū)間(confidence interval,CI)進(jìn)行分析[14-15]。除2012年外,其他4年的實(shí)際值均落在預(yù)測值的95%CI內(nèi)(見表1)。
表1 2010-2014年實(shí)際值、預(yù)測值及預(yù)測值的95%CI
平均絕對誤差(mean absolute error,MAE)[16-17]表達(dá)式為公式2:
式中,xi為時(shí)間點(diǎn)i時(shí)的實(shí)際值,為時(shí)間點(diǎn)i時(shí)的預(yù)測值,n為預(yù)測次數(shù)。
計(jì)算MAE值結(jié)果,包含2012年在內(nèi)的數(shù)值為MAE=0.482;不包含2012年的數(shù)值為MAE=0.253。從MAE值的結(jié)果表明,擾動(dòng)較大時(shí)對預(yù)測值影響較大。
2000-2014年艾滋病發(fā)病率數(shù)據(jù)表明,其整體呈上升趨勢,尤其在2011-2012年間,發(fā)病率呈現(xiàn)明顯上升趨勢,且從預(yù)測結(jié)果看,未來3年艾滋病發(fā)病率仍上升明顯。究其原因主要為以下因素:①患者本身不知情或者即使知情也不愿接受事實(shí);②經(jīng)濟(jì)方面的影響;③雖被告知使用抗艾滋病藥物,但堅(jiān)持用藥比較困難;④有些患者仍然在傳播;⑤艾滋病的治療只能有效地控制病情而無法徹底治愈[18-19]。
艾滋病發(fā)病率預(yù)測研究作為流行病學(xué)研究的重要研究之一,對艾滋病發(fā)病率實(shí)現(xiàn)ARIMA模型擬合并實(shí)現(xiàn)預(yù)測,有望為我國HIV感染者及時(shí)開展抗病毒治療,更加合理配置艾滋病有限的預(yù)防控制資源,具有一定的現(xiàn)實(shí)意義和理論依據(jù)。
[1]中華人民共和國國家統(tǒng)計(jì)局.2000-2014年年度艾滋病發(fā)病率數(shù)據(jù)[EB/OL].http://data.stats. gov.cn/easyquery.htm?cn=C01&zb=A0O0F01& sj=2014,2016.
[2]國家衛(wèi)生計(jì)生委疾病預(yù)防控制局.2015年全國法定傳染病疫情概況[EB/OL].(2016-02-18)[2016-06-22] http://www.nhfpc.gov.cn/jkj/s3578/201602/b9 217ba14e17452aad9e45a5bcce6b65.shtml.
[3]杜靜軒,楊俊平.預(yù)防艾滋病母嬰傳播與健康教育[J].醫(yī)學(xué)信息,2010,23(11):4048.
[4]胡冰雪,曲波,劉潔,等.ARIMA模型和GM(1,1)模型在全國艾滋病發(fā)病率預(yù)測中的比較研究[J].預(yù)防醫(yī)學(xué)情報(bào)雜志,2014,30(10):813-816.
[5]Liu F,Zhu N,Qiu L,et a1.[Application of R-based multiple seasonal ARIMA model,in predicting the incidence of hand,foot and mouth disease in Shaanxi province][J].Zhonghua Liu Xing Bing Xue Za Zhi,2016,37(8):1117-1120.
[6]顏康康,林雪君,鮑紅紅,等.灰色GM(1,1)模型在艾滋病、淋病、梅毒發(fā)病率預(yù)測研究中的應(yīng)用[J].實(shí)用預(yù)防醫(yī)學(xué),2015,22(3):371-374.
[7]沈艷.基于神經(jīng)網(wǎng)絡(luò)的高校艾滋病發(fā)病率預(yù)測分析[J].科技通報(bào),2015,31(12):28-30.
[8]George EP,Box Gwilym M Jenkins,Gregory C Reinsel.Time Series Analysis:Forecasting and Control[M].5th.Wiley,2015:138-180.
[9]方積乾.生物醫(yī)學(xué)研究的統(tǒng)計(jì)方法[M].北京:高等教育出版社,2010.
[10]錢麗萍.基于ARIMA模型的兒童醫(yī)院門診量預(yù)測研究[D].蘇州:蘇州大學(xué),2015.
[11]Rosychuk RJ,Youngson E,Rowe BH.Presentations to Alberta emergency departments for asthma:a time series analysis[J].Acad Emerg Med,2015,22(8):942-949.
[12]張立棟,李繼影,吳穎,等.不同時(shí)間分辨率的風(fēng)功率時(shí)間序列ARIMA模型預(yù)測[J].中國電力,2016,49(6):176-180.
[13]吳鑑洪.時(shí)間序列中回歸模型的診斷檢驗(yàn)[D].上海:華東師范大學(xué),2007.
[14]韓景靜,曾新,王駿.臨床試驗(yàn)中率差及其置信區(qū)間的估計(jì)方法[J].中國新藥與臨床雜志,2016,35(4):255-259.
[15]楊文光,吳云潔,王建敏.基于熵權(quán)法的小樣本灰色置信區(qū)間估計(jì)[J].鄭州大學(xué)學(xué)報(bào),2016,48(1):51-56.
[16]馬建威,徐浩,陳洪輝.信息推薦系統(tǒng)中的朋友關(guān)系預(yù)測算法設(shè)計(jì)[J].國防科技大學(xué)學(xué)報(bào),2013,35(1):163-168.
[17]王玉祥,喬秀全,李曉峰,等.上下文感知的移動(dòng)社交網(wǎng)絡(luò)服務(wù)選擇機(jī)制研究[J].計(jì)算機(jī)學(xué)報(bào),2010,33(11):2126-2135.
[18]陳品一.基于艾滋病時(shí)空數(shù)據(jù)的防治效果綜合評價(jià)模型研究[D].重慶:第三軍醫(yī)大學(xué),2013.
[19]張志常,劉雁,婁巖.我國大陸地區(qū)各省艾滋病與淋病、梅毒報(bào)告發(fā)病率的系統(tǒng)聚類分析[J].預(yù)防醫(yī)學(xué)情報(bào)雜志,2016,32(7):670-672.
Research on AIDS incidence prediction based on ARIMA
YANG Qiu-ying, GUO Guang-xing, CHEN Hui//China Medical Equipment,2016,13(11):1-4.
Objective: Using ARIMA to build modeling AIDS incidence from 2000 to 2014 in China and predict the incidence from 2015 to 2017. Methods: Applying the AIDS incidence in China from 2000 to 2014, analyzing the original data and smoothing processing to meet the requirements of ARIMA model, identify ARIMA parameter and predict the incidence after model fitting from 2015 to 2017. Finally, diagnostic tests are carried out on the model, and the predicted results are analyzed. Results: The incidence of AIDS continues to rise in china from 2000 to 2014 and appears substantial growth from 2011 to 2012. The annual incidence was predicted from 2015 to 2017, respectively 3.57/100000, 3.80/100000 and 4.04/100000. Compared with the trend from 2000 to 2014, the incidence still continued to show an upward tendency. Conclusion: AIDS incidence in China from 2000 to 2014 is used to model time series ARIMA, and the model is used to predict the AIDS incidence from 2015 to 2017. In order to accurately provide the HIV infection data, HIV infection can be aware of their harm in time, so that AIDS can be prevented and controlled effectively.
Acquired immunodeficiency syndrome; Incidence prediction; Autoregressive integrated moving average model
1672-8270(2016)11-0001-04
R512.91
A
楊秋英,女,(1973- ),博士,講師。首都醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院,研究方向:醫(yī)學(xué)信息學(xué)及模式識別。
10.3969/J.ISSN.1672-8270.2016.11.001
山西省科技廳基礎(chǔ)平臺項(xiàng)目(2014091004-0104)“大數(shù)據(jù)環(huán)境下數(shù)據(jù)分析和預(yù)測方法研究”;首都醫(yī)科大學(xué)基礎(chǔ)-臨床科研合
作基金(14JL16)“北京市MSM人群艾滋病相關(guān)預(yù)測模型研究”
△共同第一作者:郭廣行
①首都醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院 北京 100069
②太原師范學(xué)院地理科學(xué)學(xué)院 山西 太原 030619
y_yangqy@163.com
2016-06-06