曾志平 左中寶 王妙嬋 徐愛芳 武靜
杭州市西溪醫(yī)院檢驗科310023
截至2019年底,全球有約3 800萬HIV感染者,其中2019年新發(fā)感染170萬例[1]。2019年1—10月,我國共檢測HIV2.3億人次,新報告HIV感染者13.1萬例,至2019年10月底,全國報告存活的HIV感染者共95.8萬,是威脅我國居民健康的主要問題之一[2]。雖然國內(nèi)有部分地區(qū)描述分析了當?shù)氐腍IV新近感染者的時空特征[3-4],但基于國家層面僅局限于艾滋病分布時空演化及其影響因素研究[5-6]。本研究擬采用Joinpoint模型、時間序列分析以及空間分析預(yù)測HIV的時空流行特點,為HIV的防控提供科學的指導(dǎo),以進一步減少HIV的產(chǎn)生。
2004—2017年新發(fā)HIV感染者數(shù)據(jù)來自中國疾病預(yù)防控制中心公共衛(wèi)生科學數(shù)據(jù)中心(http://www.phsciencedata.cn/Share/edtShareNew.jsp?id=39208),包括全國31個省級行政區(qū)域(不含港澳臺地區(qū));人口學相關(guān)數(shù)據(jù)來自國家統(tǒng)計局的中國統(tǒng)計年鑒(http://www.stats.gov.cn/tjsj/ndsj/)。
1.Joinpoint回歸
利用Joinpoint軟件分析2004—2017年HIV發(fā)病趨勢的持續(xù)變化。網(wǎng)格搜索法用于尋找顯著趨勢,蒙特卡洛置換檢驗方法模擬每個趨勢的連接點??傮w時間趨勢采用年平均變化率(AAPC)計算。
2.時間序列估計
本研究采用季節(jié)自回歸綜合移動平均(SARIMA)模型對我國HIV發(fā)病流行進行預(yù)測。SARIMA模型可以寫成(p,d,q)(P,D,Q)S的形式,其中p、d、q分別表示非季節(jié)性自回歸階數(shù)、非季節(jié)性差分和非季節(jié)性滑動平均階數(shù);P、D、Q分別表示季節(jié)性自回歸階數(shù)、季節(jié)性差分和季節(jié)性滑動平均階數(shù);s表示季節(jié)性周期(本研究s=12)。時間序列可以分為3個部分:季節(jié)效應(yīng)、趨勢曲線和不規(guī)則噪聲。季節(jié)效應(yīng)是指每年以相似方式重現(xiàn)的趨勢波動,趨勢曲線是時間序列的長期運動,不規(guī)則噪聲指去除趨勢曲線和季節(jié)效應(yīng)后的剩余分量。
SARIMA模型的構(gòu)建可以分為以下步驟:首先,用增廣Dickey-Fuller(ADF)檢驗時間序列的平穩(wěn)性;其次,通過自相關(guān)函數(shù)(ACF)圖、偏自相關(guān)函數(shù)(PACF)圖和逆自相關(guān)函數(shù)(IACF)圖確定模型參數(shù)(p、d、q、P、D和Q),通過對模型參數(shù)的變換,構(gòu)造了一種替代SARIMA模型;最后,利用Akaike信息準則(AIC)和Schwartz-Bayesian準則(SBC)來確定不同SARIMA模型的適合度。最優(yōu)模型具有最低的AIC和SBC值,并通過Box-Ljung檢驗來檢驗最終模型的殘差是否與時間無關(guān)。用平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)檢驗?zāi)P偷念A(yù)測有效性。本次研究使用2004—2016年的HIV發(fā)病率構(gòu)建SARIMA模型,2017年的數(shù)據(jù)來驗證模型的預(yù)測效果。
3.空間自相關(guān)分析
計算HIV發(fā)病率的全局Moran’sⅠ,以檢測空間聚類模式。Moran’sⅠ值為-1~1,而接近1的值表示空間正相關(guān),接近-1的值表示空間負相關(guān),0表示隨機分布。計算局部Moran指數(shù),并進行熱點分析以確定聚類的位置。利用局部Moran指數(shù)確定空間自相關(guān),檢測具有相似相鄰特征和異常值的空間聚類。當發(fā)病率有類似的低值或高值時,這些區(qū)域被認為具有正自相關(guān)(低-低或高-高自相關(guān)),反之則定義為負自相關(guān)(低-高或高-低自相關(guān))。
Joinpoint 4.7.0.0軟件用來觀察2004—2017年HIV發(fā)病趨勢;使用SAS 9.4軟件建立SARIMA模型并預(yù)測HIV發(fā)病率;使用Arcgis 10.2軟件觀察HIV空間分布。P<0.05認為差異有統(tǒng)計學意義。
從2004年1月至2017年12月,本研究共納入HIV感染者748 019例,年平均發(fā)病數(shù)為53 430例。HIV發(fā)病率從2004年的1.02/10萬上升到2017年的6.87/10萬,最高發(fā)病率為2017年。Joinpoint最終選擇模型為1分段點模型(P=0.87),分段點為2006年。2004—2006年,平均百分比變化率(APC)為44.99(95%CI:18.31~77.63,P<0.01);2006—2017年,APC為10.04(95%CI:9.24~10.92),HIV發(fā)病率一直呈上升趨勢,見圖1。2004—2017年,14年的年平均百分比變化率為14.82(95%CI:11.74~18.02)。
圖1 2004—2017年中國HIV發(fā)病率的變化趨勢Joinpoint回歸分析
2.時間趨勢及預(yù)測
在2004—2017年共14年中HIV的發(fā)生呈明顯季節(jié)性,見圖2,并且在12個月內(nèi)季節(jié)周期保持波動。白噪聲檢驗的結(jié)果(χ2=627.87,P<0.01)否定了白噪聲的零假設(shè)。增強Dickey-Fuller(ADF)檢驗不顯著(τ=-2.13,P>0.05,lag=1),對發(fā)病率進行一階12期的季節(jié)性差分。季節(jié)拆分后的HIV發(fā)病率是穩(wěn)定的(τ=-15.61,P<0.01,lag=1),以此構(gòu)建SARIMA模型(圖3)。根據(jù)PACF、ACF和IACF的圖,最佳ARIMA模 型 為(0,1,1)(0,1,1)12,可 以 寫 成(1-B)(1-B12)Xt=εt(1-0.704 74B)(1-0.275 82B12),該模型擁有最小的AIC(148.10)和SBC(154.03)。殘差間無顯著相關(guān)(lag=6,χ2=4.39,P>0.05),殘差為白噪聲,以此構(gòu)建的SARIMA模型預(yù)測2017年的發(fā)病率,圖2展示了預(yù)測和實際值的分布,平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)分別為0.41和0.07,預(yù)測值與2017年原始發(fā)病率數(shù)據(jù)吻合較好。剔除季節(jié)效應(yīng)和不規(guī)則噪聲對HIV的影響后,HIV發(fā)病曲線變得更加平滑(圖2),發(fā)現(xiàn)2004—2017年HIV發(fā)病率呈上升趨勢。
圖2 2004—2017年中國HIV的實際發(fā)病率及隨季節(jié)變化發(fā)病率
圖3 時間序列一階12季節(jié)拆分后的自相關(guān)圖
除西藏地區(qū)在2004年無HIV病例報告外,其余年份和地區(qū)在這14年中均有病例報告。發(fā)病率最低的地區(qū)為天津(2004年,0.03/10萬),發(fā)病率最高的為新疆(2017年,26.81/10萬)。新疆在2006年和2008—2017年的報告發(fā)病率均大于15/10萬,是我國HIV報告發(fā)病率最高的地區(qū);云南省在2006—2017年報告HIV發(fā)病率均大于15/10萬;四川、貴州、重慶和北京等地在這13年內(nèi)HIV的報告發(fā)病率逐年上升,而廣西的HIV報告發(fā)病率在2004—2012逐年上升,在2012—2017年則是逐漸下降。
根據(jù)全局自相關(guān)分析,2004—2017年新發(fā)HIV感染者的分布具有空間相關(guān)性(表1)。Moran指數(shù)在0.14~0.36之間,2016年指數(shù)最高(Moran指數(shù)=0.36,Moran Z-評分=3.65,P<0.01)。根據(jù)局部自相關(guān)分析結(jié)果,2004—2017年共有37個高-高聚集、12個高-低聚集和4個低-高聚集,詳見表2。2004年云南、廣西和貴州表現(xiàn)為高-高聚集,2005—2012年,云南和廣西表現(xiàn)為高-高聚集;2013—2017年,由開始的云南,廣西和貴州3個地區(qū)高-高聚集到2017年的云南、廣西、貴州、重慶和四川5個地區(qū)高-高聚集。除了2004年和2016年,新疆在其余年份均表現(xiàn)為高-低聚集;西藏在2004—2009以及2012—2015年表現(xiàn)為低-高聚集。HIV傳播熱點主要集中在我國西南地區(qū),包括廣西、云南、貴州、四川和重慶,該區(qū)域主要為高-高聚集。
表1 2004—2017年中國新發(fā)HIV感染者全局自相關(guān)分析
表2 2004—2017年中國新發(fā)HIV局部自相關(guān)分析
我國自報道首例艾滋病例以來,HIV的時間和空間流行趨勢一直在發(fā)生變化[5,7-10]。本次研究顯示,2004年1月至2017年12月,我國共報告748 019例HIV感染者,年平均發(fā)病人數(shù)為53 430例,為我國的公共衛(wèi)生帶來了巨大的負擔。了解HIV的時空流行病學模式有助于采取針對性的防控措施,進一步控制我國HIV病例數(shù)量。
本研究顯示,我國2004—2017年HIV發(fā)病率的年平均百分比變化率為14.82(95%CI:11.74~18.02),從2004年的1.02/10萬上升到2017年的6.87/10萬,升高了5.7倍。Joinpoint模型最終選擇為1分段點模型,2004—2006年,APC為44.99(95%CI:18.31~77.63);2006—2017年,APC為10.04(95%CI:9.24~10.92),2006年后HIV發(fā)病率升高速度下降可能與我國采取的一系列政策有關(guān)[11-12]。HIV發(fā)病率在2004—2017年里始終呈上升趨勢,這也與之前的研究[5,9]相吻合。
時間序列分析表明,我國HIV發(fā)病率一直處于增長階段。經(jīng)過模型的建立和篩選,最終選擇的SARIMA為(0,1,1)(0,1,1)12,可以寫成(1-B)(1-B12)Xt=εt(1-0.704 74B)(1-0.275 82B12),預(yù)測的發(fā)病率結(jié)果與真實的結(jié)果一致性較高。剔除時間序列模型的季節(jié)效應(yīng)和不規(guī)則噪聲對HIV發(fā)病率的影響后,HIV發(fā)病曲線變得更加平滑,且一直處于上升趨勢。此外,既往的研究[6,13]表明,艾滋病的發(fā)病率存在季節(jié)性,這也與本研究的結(jié)論一致。
本研究顯示,HIV傳播熱點主要集中在我國西南地區(qū),包括廣西、云南、貴州、四川和重慶,該區(qū)域主要為高-高聚集,這可能與我國各地區(qū)經(jīng)濟、交通、醫(yī)療水平發(fā)展的不平衡[14-15]有關(guān)系,同時我國HIV的發(fā)病率呈現(xiàn)一個從2004年的“少數(shù)地區(qū)低發(fā)病率”到2017年的“多數(shù)地區(qū)高發(fā)病率”的特點。因此在未來的防控措施上,既要保持對新疆、云南、四川和貴州等高發(fā)病率地區(qū)的防控,還要防止疫情進一步向鄰近地區(qū)擴散,做好周邊地區(qū)HIV發(fā)病的防控,這些高發(fā)病率地區(qū)需要更多的政策支持和援助。值得注意的是,廣西HIV報告發(fā)病率在2004—2012年逐年上升,在2012—2017年則是逐漸下降,這可能與該地區(qū)加強干預(yù)防控策略[16-17]有關(guān)。
由于本研究的數(shù)據(jù)來源于被動監(jiān)測系統(tǒng)的報告感染,不可避免地低估了HIV病例總數(shù),此外一些地區(qū)的診斷水平可能導(dǎo)致對HIV發(fā)病率的低估。在今后的研究中,有必要考慮以上因素,以提高數(shù)據(jù)分析的正確率。
利益沖突 所有作者均聲明不存在利益沖突