趙創(chuàng)藝,袁空軍,楊媛,周光清,李海燕
本文要點:
(1)1990—2019年中國全人群慢性阻塞性 肺 疾 ?。–OPD) 患 病 率 從 2 344.40/105增 至3 175.37/105,年均增長1.04%;男性和女性COPD患病率平均每年分別增長0.92%和1.13%。(2)1990—2019年中國全人群COPD死亡率由105.09/105下降至72.94/105,年均降幅為1.29%;男性和女性COPD死亡率平均每年分別下降0.83%和1.83%。(3)1990—2019年中國全人群COPD 傷殘調整壽命年(DALYs)率從2 206.55/105下降至1 400.71/105,年均下降1.56%;男性和女性的COPD DALYs率平均每年分別下降1.37%和1.86%。(4)預測得到2020—2024年中國COPD患病率分 別 為 3 229.77/105、3 262.44/105、3 292.38/105、3 322.31/105、3 352.25/105;死亡率分別為 74.50/105、75.49/105、76.11/105、76.50/105、76.75/105;DALYs率分別為 1 429.56/105、1 452.07/105、1 469.64/105、1 483.35/105、1 494.05/105。
慢性阻塞性肺疾?。–OPD)是一種常見的、可以預防和治療的、以呼吸道持續(xù)性癥狀和氣流受限為主要特征的慢性?。?]。COPD目前居全球死亡原因的第四位,而到2030年COPD將可能成為全球第三大死亡原因[2]。我國每年約有100萬人死于COPD,并有大約500萬人因COPD致殘[3]。2015年,我國≥20歲成年人中有8.6%(9 990萬)的成年人患有COPD,在≥40歲人群中COPD患病率更是高達13.7%[4]。隨著我國吸煙人數(shù)的逐漸增多和人口老齡化程度的不斷加劇,預計我國COPD患病率和疾病負擔將會持續(xù)上升。中國COPD防控形勢嚴峻,有效預測COPD疾病負擔發(fā)展趨勢可為COPD預防和控制策略的制定提供理論支持[5]?;疾÷?、死亡率和傷殘調整壽命年(DALYs)率是衡量人群疾病負擔的重要指標。既往研究多側重于對我國COPD疾病負擔的變化趨勢進行描述與分析,較少涉及對COPD患病率、死亡率和DALYs率未來發(fā)展趨勢的預測[6-8]。COPD患病率、死亡率和DALYs率數(shù)據(jù)呈現(xiàn)一種長期趨勢,且具有隨機波動的特點,而自回歸移動平均(ARIMA)模型和神經(jīng)網(wǎng)絡自回歸(NNAR)模型均是用于擬合呈現(xiàn)長期趨勢、非平穩(wěn)數(shù)據(jù)的常用預測模型[9-11]。本研究通過收集1990—2019年中國COPD患病率、死亡率和DALYs率數(shù)據(jù),分析我國COPD疾病負擔變化趨勢,并分別采用ARIMA和NNAR模型進行建模,擇優(yōu)選擇模型預測2020—2024年中國COPD的疾病負擔。
1.1 數(shù)據(jù)來源 1990—2019年中國COPD患病率、死亡率和DALYs率等數(shù)據(jù)來源于2019年全球疾病負擔(GBD 2019)。GBD 2019采用標準的、可復制的方法估算了全球204個國家和地區(qū)的369種疾病和傷害所造成的疾病負擔情況,并按國家和地區(qū)、年份、性別和年齡組分別報告。疾病負擔的詳細數(shù)據(jù)可從全球健康數(shù)據(jù)交換數(shù)據(jù)庫網(wǎng)站(http://ghdx.healthdata.org/gbd-2019)下載,GBD數(shù)據(jù)是一套具有內部一致性和可比性的高質量數(shù)據(jù),GBD 2019的詳細介紹和使用方法參見文獻[12-13]。
1.2 統(tǒng)計學方法
1.2.1 疾病負擔趨勢分析 利用Excel 2016建立1990—2019年中國COPD患病率、死亡率和DALYs率數(shù)據(jù)庫,對COPD疾病負擔在全人群及不同性別人群中的變化趨勢進行分析,相關指標均采用GBD 2019全球標準人口進行年齡標準化。變化率=(2019年指標值-1990年指標值)/1990年指標值×100%。采用對數(shù)線性回歸模型計算平均年度變化百分比(AAPC),使用Joinpoint Regression Program 4.9.0.0軟件分析率的變化趨勢,AAPC的檢驗采用t檢驗,以P<0.05為差異有統(tǒng)計學意義。
1.2.2 ARIMA、NNAR模型的建立與比較 利用1990—2016年中國COPD患病率、死亡率和DALYs率作為訓練集建立ARIMA和NNAR模型,利用2017—2019年數(shù)據(jù)作為測試集進行模型評價。ARIMA、NNAR模型的建立與比較基于R 4.1.0軟件實現(xiàn)。
1.2.2.1 ARIMA模型建立 ARIMA(p,d,q)是常用的時間序列模型,其中p、d、q分別為自回歸(AR)、為使數(shù)據(jù)平穩(wěn)所需差分和偏自回歸(MA)的階數(shù)。利用“forecast”“tseries”包中的“auto.arima”等函數(shù)實現(xiàn)對ARIMA模型的構建。根據(jù)赤池信息準則(AIC)和貝葉斯準則(BIC)篩選最優(yōu)模型類型及參數(shù)。對模型的殘差序列進行Ljung-Box檢驗,若P>0.05,則通過檢驗,提示為白噪聲,ARIMA模型擬合度較好,否則重新建模。
1.2.2.2 NNAR模型建立 人工神經(jīng)網(wǎng)絡是模擬生物神經(jīng)網(wǎng)絡的數(shù)學模型,允許響應變量和預測變量之間存在復雜非線性關系,其結構主要包括3個層次,即由輸入層(預測變量)形成的底層,由輸出層(響應變量)形成的頂層,以及包含“隱藏神經(jīng)元”的中間層。把時間序列的滯后值作為輸入構建的神經(jīng)網(wǎng)絡,稱為NNAR(p,k)。其中p表示滯后輸入數(shù),k表示隱藏層中的節(jié)點數(shù)。NNAR模型的構建可通過“forecast”包中的“nnetar”等函數(shù)實現(xiàn)。
1.2.2.3 模型比較 采用預測值與實際值的相對誤差、平均絕對百分誤差(MAPE)、平均絕對誤差(MAE)及均方根誤差(RMSE)對模型的擬合和預測效果進行評價。MAPE、MAE、RMSE值越小,模型擬合精度越高,MAPE<15%時提示預測精度較好[14]。最后,利用最佳模型擬合1990—2019年中國COPD疾病負擔,預測得到2020—2024年中國COPD患病率、死亡率和DALYs率。
2.1 1990—2019年中國COPD疾病負擔變化趨勢1990—2019年:(1)中國全人群COPD患病率從2 344.40/105增至 3 175.37/105,增長了 35.45%,年均增長1.04%(P<0.001);男性和女性COPD的患病率均呈上升趨勢,平均每年分別增長0.92%和1.13%(P<0.001)。(2)中國全人群COPD死亡率由105.09/105下降至72.94/105,年均降幅為1.29%(P<0.001);男性和女性的COPD死亡率均呈下降趨勢,平均每年分別下降0.83%和1.83%(P<0.001)。(3)中國全人群DALYs率從 2 206.55/105下降至 1 400.71/105,年均下降 1.56%(P<0.001);男性和女性的COPD DALYs率均呈下降趨勢,平均每年分別下降1.37%和1.86%(P<0.001),見表1。
表1 1990—2019年中國COPD疾病負擔變化情況(1/105)Table 1 Changes in the burden of COPD in China,1990—2019
2.2 COPD患病率預測模型構建 由“auto.arima”函數(shù)得到AIC與BIC最小的COPD患病率預測模型為ARIMA(1,2,0)(AIC=222.97,BIC=228.00)。 對殘差序列進行Ljung-Box檢驗,延遲6階χ2值為1.020(P=0.985),延遲12階χ2值為1.975(P=0.999),差異無統(tǒng)計學意義,提示為白噪聲。在訓練集上:ARIMA(1,2,0)MAPE、MAE、RMSE 分 別 為0.284%、8.048、13.399,提示模型預測性能良好;由“nnetar”函數(shù)得到的COPD患病率模型NNAR(1,1)的 MAPE、MAE和 RMSE分 別 為 0.506%、14.621、19.841。ARIMA(1,2,0)和NNAR(1,1)預測值的動態(tài)趨勢與實際情況基本一致(圖1~2)。無論是在訓練集還是在測試集上,ARIMA(1,2,0)的MAPE、MAE和RMSE值均小于NNAR(1,1),即ARIMA模型更優(yōu),見表2。
圖1 ARIMA(1,2,0)COPD患病率預測模型的擬合和預測效果Figure 1 Goodness of fit and prediction performance of the ARIMA(1,2,0)COPD prevalence prediction model
圖2 NNAR(1,1)COPD患病率預測模型的擬合和預測效果Figure 2 Goodness of fit and prediction performance of the NNAR(1,1)COPD prevalence prediction model
2.3 COPD死亡率預測模型構建 ARIMA(0,1,1)(AIC=79.74,BIC=83.51)為AIC與BIC最小的COPD死亡率預測模型。對模型進行Ljung-Box檢驗,延遲6階、12階統(tǒng)計量分別為χ2=2.403(P=0.879)和χ2=5.151(P=0.953),提示模型擬合效果良好。在訓練集上,ARIMA(0,1,1)MAPE、MAE、RMSE分別為0.810%、0.730、0.965;NNAR(1,1)模型的 MAPE、MAE和RMSE分別為1.033%、0.921、1.107。從模型的擬合和預測情況來看,ARIMA(0,1,1)和NNAR(1,1)預測值的動態(tài)趨勢與實際情況基本一致(圖3~4);由圖3可知,2017—2019年實際COPD死亡率均在ARIMA(0,1,1)預測值80%CI內。無論是在訓練集還是在測試集上,ARIMA(0,1,1)的MAPE、MAE和RMSE值均小于NNAR(1,1),即ARIMA模型更優(yōu),見表2。
圖3 ARIMA(0,1,1)COPD死亡率預測模型的擬合和預測效果Figure 3 Goodness of fit and prediction performance of the ARIMA(0,1,1)COPD mortality prediction model
圖4 NNAR(1,1)COPD死亡率預測模型的擬合和預測效果Figure 4 Goodness of fit and prediction performance of the NNAR(1,1)COPD mortality prediction model
2.4 COPD DALYs率預測模型構建 ARIMA(0,1,2)(AIC=225.59,BIC=230.62)為AIC與BIC最小的COPD DALYs率預測模型。對模型進行Ljung-Box檢驗,延遲6階、12階統(tǒng)計量分別為χ2=0.726(P=0.994)和χ2=3.534(P=0.991),提示模型擬合效果良好。在訓練集上,ARIMA(0,1,2)MAPE、MAE、RMSE值均低 于 NNAR(1,1)(0.622% 比 0.823%,11.305比14.982,15.321比18.240)。從模型的擬合和預測情況來看,ARIMA(0,1,2)和NNAR(1,1)預測值的動態(tài)趨勢與實際情況基本一致(圖5~6)。在測試集上,ARIMA(0,1,2)MAPE、MAE、RMSE值亦均低于NNAR(1,1),提示ARIMA模型更優(yōu),見表2。
圖5 ARIMA(0,1,2)COPD DALYs率預測模型的擬合和預測效果Figure 5 Goodness of fit and prediction performance of ARIMA(0,1,2)DALYs rate prediction model for COPD
圖6 NNAR(1,1)COPD DALYs率預測模型的擬合和預測效果Figure 6 Goodness of fit and prediction performance of NNAR(1,1)DALYs rate prediction model for COPD
表2 基于ARIMA和NNAR的中國COPD疾病負擔預測模型擬合和預測效果比較Table 2 Comparison of the goodness of fit and performance in predicting the burden of COPD in China between ARIMA and NNAR-based models
2.5 COPD疾病負擔預測結果 由訓練集和測試集MAPE、MAE、RMSE結果可知,ARIMA模型在預測中國COPD患病率、死亡率、DALYs率上的性能更優(yōu),最終利用ARIMA模型擬合1990—2019年中國COPD疾病負擔,預測得到2020—2024年中國COPD患病率、死亡率和DALYs率。2020—2024年中國COPD患病率分別為 3 229.77/105、3 262.44/105、3 292.38/105、3 322.31/105、3 352.25/105; 死 亡 率 分 別 為 74.50/105、75.49/105、76.11/105、76.50/105、76.75/105;DALYs率 分 別 為 1 429.56/105、1 452.07/105、1 469.64/105、1 483.35/105、1 494.05/105。 中 國 COPD 疾 病 負 擔 在2020—2024年仍保持上升趨勢,見表3。
表3 基于ARIMA模型的2020—2025中國COPD疾病負擔預測情況(1/105)Table 3 ARIMA model-based prediction of COPD burden in China from 2020 to 2025
隨著疾病譜的不斷變化、慢性非傳染性疾病日益受到重視,通過開展基于國家視角的疾病負擔趨勢分析及預測研究,可為國家公共衛(wèi)生政策的科學制定、醫(yī)療衛(wèi)生資源的合理配置提供依據(jù),也可為衛(wèi)生行政部門確定疾病預防控制的優(yōu)先領域、慢性病防控策略的制定提供參考。本研究結果顯示,1990—2019年中國全人群COPD患病率整體呈上升趨勢。2019年中國全人群COPD患病率為3 175.37/105,在全球范圍內仍處于較高水平[15]。1990—2019年中國全人群COPD死亡率和DALYs率整體呈下降趨勢,但2018年起中國全人群COPD死亡率和DALYs率較先前有所反彈,2019年中國全人群COPD死亡率和DALYs率分別達72.94/105和1 400.71/105,且 COPD DALYs 率高于全球同期平均水平(961.97/105)[16]。既往有學者發(fā)現(xiàn),COPD疾病負擔在不同性別人群中存在的差異并不明顯[17],但本研究發(fā)現(xiàn),1990—2019年男性COPD死亡率平均每年下降幅度為0.83%,低于女性的1.83%,提示應加強和重視對導致男性COPD患者疾病快速進展的危險因素的控制,這也將有助于降低我國COPD疾病負擔。既往研究表明,大氣污染物中的顆粒狀污染物可對COPD患者死亡率產(chǎn)生不利影響,而男性因更易從事長時間暴露于粉塵環(huán)境中的工作,長期高水平吸入細微顆粒物的可能性更高[18-19],再加上中國男性吸煙率一直居高不下,這些因素均增加了男性COPD患者的死亡風險。
本研究分析了1990—2019年中國COPD患病率、死亡率和DALYs率變化特征,建立了COPD患病率、死亡率及DALYs率的ARIMA模型和NNAR模型,并通過ARIMA模型預測得到2020—2024年中國COPD患病率、死亡率和DALYs率,發(fā)現(xiàn)2020—2024年中國COPD疾病負擔呈現(xiàn)上升趨勢。ARIMA作為經(jīng)典的時間序列模型,在擬合周期性、季節(jié)性變化的數(shù)據(jù)方面具有較大的優(yōu)勢,且ARIMA模型充分考慮了既往預測誤差對預測結果產(chǎn)生的影響,因此其預測精度較高[20]。本研究發(fā)現(xiàn),無論在訓練集還是在測試集上,基于ARIMA的COPD患病率、死亡率及DALYs率模型的MAPE、MAE、RMSE值均低于基于NNAR的COPD患病率、死亡率及DALYs率模型,即ARIMA模型的擬合精度更高。ARIMA模型的預測能力也在既往許多研究中得到了證實。例如:周杰等[21]將其用于預測湖南省人畜血吸蟲病感染率;徐潔茹等[20]將其用于擬合1990—2019年女性卵巢癌發(fā)病趨勢,并基于其對女性2020—2029年發(fā)病率進行了預測;梁達等[22]用其來預測青海省肺結核發(fā)病例數(shù)等。ARIMA是一種用于預測疾病流行趨勢的有效方法,但其對數(shù)據(jù)的要求較高,需要時間序列具備平穩(wěn)性/不平穩(wěn)時間序列經(jīng)過d次差分后可轉化為平穩(wěn)時間序列,而每一次差分運算均會造成信息損失。同時ARIMA還存在非線性映射性能較弱、難以擬合不規(guī)則時間序列等不足。
NNAR模型提供了一種可以逼近非線性不平穩(wěn)時間序列的有效方法,具有良好的泛化能力,是一種用于時間序列分析的機器學習方法。目前,將NNAR模型應用于疾病負擔預測的研究相對較少。例如:馬倩倩等[11]將其用于食管癌疾病負擔的預測,張欣等[10]將其用于預測我國丙肝發(fā)病率,吳偉等[23]將其用于預測腎綜合征出血熱發(fā)病例數(shù),上述研究的結果表明,NNAR模型具有較高的精度和較強的適用性。本研究中,雖然NNAR模型對COPD疾病負擔的擬合精度略低于ARIMA模型,但其擬合效果亦較好(DALYs率模型MAPE=0.823%),故NNAR模型同樣具有較好的推廣應用價值。但由于NNAR神經(jīng)網(wǎng)絡中的延時階數(shù)及隱藏的神經(jīng)元個數(shù)無法用科學的方法得出,只能依靠經(jīng)驗獲取,即NNAR模型依舊是“黑盒”模型[24],并且與建立ARIMA模型相比,建立NNAR模型所需的數(shù)據(jù)量更大(旨在提高精確度),上述問題成為NNAR模型推廣與運用的制約因素。
綜上所述,我國COPD疾病負擔仍然呈上升趨勢,COPD防控形勢嚴峻?;鶎俞t(yī)療衛(wèi)生機構是醫(yī)療系統(tǒng)中的“基石”和核心,也是實現(xiàn)COPD可防、可治、可控的重要環(huán)節(jié)。但目前我國基層醫(yī)療衛(wèi)生機構的COPD防治存在明顯“短板”。衛(wèi)生行政部門應著力提升基層醫(yī)療衛(wèi)生機構的COPD篩查、干預能力;推動社區(qū)衛(wèi)生服務中心和鄉(xiāng)鎮(zhèn)衛(wèi)生院配備肺功能檢查儀等設備,同時還需加強對基層醫(yī)務人員的肺功能檢查培訓,進而確保肺功能檢查技術能夠在基層醫(yī)療衛(wèi)生機構實施和推廣。基層醫(yī)療衛(wèi)生機構應組建專業(yè)的健康管理團隊,構建COPD健康教育管理模式,鼓勵健康管理團隊對服務范圍內的COPD患者進行長期隨訪、定期健康宣教,并為其提供多途徑的健康咨詢服務;也可通過開展COPD專題講座,組織社區(qū)義診活動和發(fā)放科普資料等方式,提高居民對COPD的認知水平,擴大戒煙服務的提供范圍,減少吸煙和被動吸煙對居民健康造成的損害。
基于ARIMA和NNAR的COPD患病率、死亡率和DALYs率模型預測值的動態(tài)趨勢與實際情況基本吻合,但ARIMA模型表現(xiàn)更佳。ARIMA模型為疾病負擔的短期預測提供了一種行之有效的方法,對于控制COPD疾病負擔具有一定實際意義。本研究也存在一定不足:(1)盡管GBD 2019擁有廣泛的數(shù)據(jù)來源,并且在分析數(shù)據(jù)過程中使用了新型統(tǒng)計建模技術,但其提供的數(shù)據(jù)可能與基于全國疾病監(jiān)測系統(tǒng)監(jiān)測數(shù)據(jù)計算得出的結果存在一定出入。(2)COPD疾病負擔的變化是多因素共同作用的結果,但本文僅從單變量時間序列角度探討了疾病負擔的變化規(guī)律,未來,研究者在聚焦時間變化對COPD疾病負擔影響的同時,可將其他相關因素納入模型,以提高模型的預測精度。
作者貢獻:趙創(chuàng)藝負責數(shù)據(jù)收集、論文撰寫;袁空軍負責數(shù)據(jù)分析;楊媛負責文獻收集、論文修訂;周光清負責研究設計、論文修訂;李海燕負責論文修訂。
本文無利益沖突。