竇一峰,王富彪,賈新亮,趙一犇,呂勁松
天津市寶坻區(qū)人民醫(yī)院,天津 301800
慢性阻塞性肺疾?。╟hronic obstructive pulmonary disease,COPD)是包括慢性支氣管炎、肺氣腫等肺通氣病理受阻的一組疾病,嚴重危害人類健康[1]。COPD 居全球死亡原因的第4位,世界衛(wèi)生組織(WTO)預計到2030年,COPD 將升至第3 位[2-3]。由于COPD 晚期預后差,嚴重影響患者的勞動能力和生活質量,給整個家庭帶來巨大的經(jīng)濟負擔[4]。針對COPD患病率的預測,目前參考文獻中主要采用統(tǒng)計學中的假設檢驗進行研究,但運用向量自回歸模型(vector autoregression model,VAR)進行預測的文獻較少。同時,向量自回歸是基于數(shù)據(jù)的統(tǒng)計性質建立模型,它把系統(tǒng)中每一個內生變量作為系統(tǒng)中所有內生變量的滯后值的函數(shù)來構造模型,從而將單變量自回歸模型推廣到由多元時間序列變量組成的“向量”自回歸模型,具有不用區(qū)分內生變量和外生變量,是一種無約束模型。基于以上兩點,本文采用VAR探究建立天津市COPD患病率與氣象因素之間的動態(tài)數(shù)量關系并進行預測,以期為更好地對該疾病的預防和控制提供新的參考依據(jù)。
本文中COPD 的患病率數(shù)據(jù)主要來源于天津市疾病預防控制中心收集的全死因監(jiān)測數(shù)據(jù),時間周期為2000—2016年。按照《國際疾病分類》,周期為2000—2002年時采用ICD-9編碼,2003—2016年采用ICD-10編碼[5-6]??紤]到目前死因登記報告中絕大多數(shù)的未特指的肺源性心臟病都是由慢性支氣管炎、肺氣腫引起的,極少數(shù)才是由肺動脈栓塞、原發(fā)性肺動脈高壓等引起的肺源性心臟病,因此本文也將這類疾病劃歸為COPD來統(tǒng)計分析[7]。本文的數(shù)據(jù)由天津市各醫(yī)院統(tǒng)一進行網(wǎng)絡直報,通過層級質檢和抽樣復核相結合的方式對數(shù)據(jù)的可靠性和一致性進行質量控制,保證了數(shù)據(jù)的有效性和準確性。
本文主要應用EViews 10.0 軟件對數(shù)據(jù)進行處理和分析,在建模準備階段主要采用描述性統(tǒng)計分析和平穩(wěn)性檢驗對數(shù)據(jù)進行初步感知,在模型建立與預測階段主要采用VAR[8-10]進行建模和預測,并采用均方根誤差(root mean square error,RMSE),平均絕對誤差(mean absolute error,MAE),平均絕對百分比誤差(mean absolute percentage error,MAPE) 和希爾不等式系數(shù)(thiel inequality coefficient,TIC)對預測效果進行評價。
VAR的理論基礎在于數(shù)據(jù)的統(tǒng)計性質,通過將系統(tǒng)中每個內生變量作為所有內生變量的滯后期的結果來進行建模,因而使得由最初的單變量自回歸模型向多元化序列變量自回歸模型演變,完成從一元到VAR 的升級[11]。VAR對于各模塊的系數(shù)關注不敏感,這是由于改模型中系數(shù)矩陣特別多的原因,所以很難通過分析模型系數(shù)估計值來分析模型所顯示出的結果和意義。本研究主要通過關注特征根檢驗等前提條件[12],能夠比較全面的反應各個變量之間動態(tài)影響的IRF脈沖響應函數(shù)[13],將系統(tǒng)內一個變量的方差分解到各個擾動項上的方差分解步驟[14],來對模型進行分析。
VAR(p) 模型的數(shù)學表達式如下:
其中,yt代表n維內生變量向量,Xt代表d維外生變量向量,p 是滯后階數(shù),樣本個數(shù)為N。n×n 維矩陣A1,…,Ap和B 是要被估計的系數(shù)矩陣。是n 維擾動向量,也稱為沖擊向量或者抖動,因為它沒有結構性的含義,被稱為簡化形式的沖擊向量。
本文收集了2000—2016年共計17年的COPD患病率數(shù)據(jù),整體來看該疾病患病率為4.34%~6.23%,Z 統(tǒng)計量為329.98,P 值小于0.001,APC 值為2.26%,數(shù)據(jù)呈現(xiàn)出明顯的上升趨勢,見表1。
表1 天津市2000—2016年COPD患病率和氣象數(shù)據(jù)描述性分析
時間序列的平穩(wěn)性決定了能否進行VAR 模型分析,這 里 采 用 單 位 根 檢 驗[15](augmented dickey-fuller,ADF)對各個變量進行平穩(wěn)性檢驗。為了克服異方差和消除量綱的影響,本文對數(shù)據(jù)先進行對數(shù)化處理。由表2可知,在的條件下,各序列0 階差分是平穩(wěn)的,1 階差分也是平穩(wěn)的。
表2 天津市2000—2016年COPD患病率和氣象數(shù)據(jù)平穩(wěn)性檢驗結果
本文考慮到VAR 模型是無約束模型,因此設定包含COPD患病率和平均氣溫、平均風速等指標的VAR模型如式(2)所示:
采用模型滯后階數(shù)確定準則,以AIC和SC最小化為判定依據(jù)確定滯后階數(shù)為2,此時的AIC=-9.418 6,SC=-8.993 7。VAR模型結果見表3,其中模型擬合優(yōu)度檢驗結果中R方為0.999 8,調整后的R方為0.999 6,說明模型擬合效果較優(yōu),F(xiàn) 統(tǒng)計量為4 693.735 0,對應的P=0.000 0<0.01。同時根據(jù)COPD 患病率作為因變量的格蘭杰因果檢驗結果可知,整體的卡方值為19.607 7,P=0.003 3<0.05,說明各氣象因素均為COPD 患病率的格蘭杰原因,表明建立的VAR模型是合理有效的。
表3 天津市2000—2016年COPD患病率和氣象數(shù)據(jù)VAR模型結果
隨著時間的推進,將一個脈沖作用在VAR中每個方程的信息上,發(fā)現(xiàn)該次沖擊的影響會逐漸減退直至消失,則說明該系統(tǒng)是穩(wěn)定的,否則是不穩(wěn)定的。對于VAR模型來說,系統(tǒng)的穩(wěn)定性是進行脈沖響應函數(shù)、方差分解等分析的基礎,而衡量VAR是否穩(wěn)定的方式就是借助AR特征根檢驗。本文中由4個內生變量且滯后期為2,因此會產(chǎn)生8個特征根,所建立的VAR模型的所有特征根的倒數(shù)的模均小于1,即根據(jù)圖1 所示,所有點都位于單位圓內,說明本文建立的VAR模型是穩(wěn)定的。
圖1 AR特征根的倒數(shù)的模的單位圓結果
脈沖響應函數(shù)分析是一類描述系統(tǒng)中每一個內生變量的沖擊對其他內生變量所帶來的影響的分析方法。如圖2所示,LNHBL受自身沖擊后產(chǎn)生小幅波動,隨后開始逐步下降直至平穩(wěn)狀態(tài),總體表現(xiàn)為正向長期影響;LNHBL受LNQW 沖擊后呈現(xiàn)正負向交替波動影響;LNHBL 受LNFS和LNSD 的沖擊后,均表現(xiàn)為負向影響,到第5 期影響達到最高點,隨后逐漸減弱,直至到長期穩(wěn)定的趨勢。圖中實線表示的是變量受沖擊后的走勢情況,兩側的虛線表示走勢的兩倍標準誤差。
圖2 VAR模型脈沖響應函數(shù)結果
方差分解提供的是關于每個擾動因素影響VAR模型內各個變量的相對程度的信息,即一個沖擊要素的方差能由其他隨機擾動項解釋多少。表4 給出了COPD 患病率的變動方差由自身和氣象因素導致的結果,COPD 患病率變化貢獻率最大的影響因素是其自身的變化,主要表現(xiàn)為逐年遞減趨勢,從第5期開始下降幅度變緩趨于平穩(wěn),直至第15期貢獻率仍超過24%,風速的變化對COPD患病率的貢獻影響逐年增高,到第6 期后期逐漸趨于平穩(wěn),最終達62.694 5%,其他因素的貢獻率均不超過12%。由圖3可以看出,由各個氣象因素變動解釋的部分逐年增加,說明受氣象因素影響較明顯。
表4 方差分解結果
圖3 方差分解趨勢
基于本文所研究的是COPD 患病率和氣象因素之間的關系,因此選取COPD患病率為被解釋變量,得到VAR模型表達式如式(3)所示。
根據(jù)上述公式采用動態(tài)預測法對2017—2021 年的COPD 發(fā)病率進行預測,采用RMSE、MAE、MAPE 和TIC進行效果評價,如果RMSE、MAE、MAPE 介于0~5 之間,TIC 在0~1 之間,則說明預測結果較好,評價指標值越小,則說明模型的預測精度越高。由表5可知,各個指標均在可接受的范圍內,說明模型可以較好地預測未來5年的COPD患病率。
表5 VAR模型預測COPD患病率結果
從所建立的VAR模型得到的脈沖響應函數(shù)結果來看,氣溫對于COPD的發(fā)病表現(xiàn)為正負交替影響,說明氣溫的驟增和驟減均會使COPD發(fā)病的風險增大,分析原因可能是天津地處華北地區(qū),四季較為分明,尤其冬天早晚溫差較大,對支氣管和心肺功能會有較大影響。通過方差分解結果可知,風速和濕度對于COPD 發(fā)病率的貢獻度較高,分析原因可能是由于空氣中濕度增加以及風速的增大,病毒繁殖和活動能力增強,也有利于污染物的擴散,從而增加了患病的風險,這也與相關文獻研究結果一致[15]。
本研究通過對COPD患病率和氣象因素數(shù)據(jù)建立VAR模型來預測未來COPD 患病率的發(fā)生情況,根據(jù)結果來看,所建立的VAR模型的穩(wěn)定性和擬合效果均較好,模型的預測結果評價指標也說明該模型可以較好的對未來COPD患病率進行預測,其RMSE、MAE、MAPE和希爾不等式系數(shù)均較小,說明利用COPD患病率和氣象資料數(shù)據(jù)所建立的天津市COPD患病率預測的VAR模型的適用性較好,可操作性強,進一步說明運用數(shù)學模型的思想來科學動態(tài)的對COPD發(fā)病率進行研究是可行的。雖然整體上各氣象因素可作為模型預測的變量,但是各氣象因素是否真正對COPD 患病率具有影響作用仍有待進一步研究。未來,通過收集更多的特征信息和數(shù)據(jù)資料,提升數(shù)據(jù)的準確性和全面性,對于疾病患病率的預測可以從模型融合和信息融合的角度進行建模嘗試,并根據(jù)統(tǒng)計和分類等多維度評價指標對模型進行評價分析。