苑斌 石曉峰 霍春青 趙晶 何世華 趙玉華 嚴(yán)靜 費雯 欒曉婷 金海強(qiáng) 孫永安
1菏澤醫(yī)學(xué)專科學(xué)校附屬醫(yī)院神經(jīng)內(nèi)科,山東274000;2菏澤醫(yī)學(xué)??茖W(xué)校教務(wù)處,山東274000;3西藏自治區(qū)人民醫(yī)院神經(jīng)內(nèi)科,拉薩850000;4清華大學(xué)附屬第一醫(yī)院神經(jīng)內(nèi)科,北京100016;5北京大學(xué)第一醫(yī)院神經(jīng)內(nèi)科100034
棘球蚴病是人感染細(xì)粒棘球絳蟲及多房棘球絳蟲的幼蟲(包蟲囊)所致的全球畜牧業(yè)發(fā)達(dá)地區(qū)常見的人畜共患病,其又稱為“包蟲病”。在中國,包蟲病的高發(fā)地集中于以畜牧業(yè)為主要產(chǎn)業(yè)的地區(qū),比如西藏、新疆、內(nèi)蒙古等地區(qū)。包蟲囊主要是通過感染人的肝、腎、腦、肺等臟器,其發(fā)病病程長,嚴(yán)重影響患者身心健康,而且是高度致死的疾病,患者如不經(jīng)及時治療,10年內(nèi)本病病死率為90%。因此掌握西藏高發(fā)地區(qū)流行趨勢,是開展相關(guān)健康教育、預(yù)防治療的前提和基礎(chǔ)。本研究采用X-12自回歸移動平均(X-12-ARIMA)乘積季節(jié)模型對西藏地區(qū)包蟲病月報告病例數(shù)進(jìn)行預(yù)測,從而為其防控提供參考依據(jù)。
1.1 資料來源包蟲病患者的數(shù)據(jù)來源于西藏自治區(qū)人民醫(yī)院。疾病分類標(biāo)準(zhǔn)則按照國際疾病ICD-10的分類,B67為包蟲病的診斷編碼。
1.2 方法
1.2.1 數(shù)據(jù)處理數(shù)據(jù)存儲和管理則采用Microsoft Excel 2013、SAS 9.2對資料數(shù)據(jù)進(jìn)行處理和統(tǒng)計分析。
1.2.2 X-12-ARIMA乘積季節(jié)模型X-12過程:X-12過程是根據(jù)美國人口普查局X-12-ARIMA季節(jié)調(diào)整程序改編,用于調(diào)整具有月度或季度時間序列數(shù)據(jù)。過程包含了X-11過程以及一些新的特征,一個主要提高是應(yīng)用RegARIMA模型,利用該模型進(jìn)行移動假日、月份長度、交易日效應(yīng)等固定效應(yīng)的調(diào)整。
標(biāo)準(zhǔn):具有季節(jié)性的ARIMA模型為ARIMA(p,d,q)×(P,D,Q)S,其中p代表非季節(jié)性自回歸階數(shù),d代表非季節(jié)性差分階數(shù),q代表差分階數(shù)移動平均階數(shù),P代表季節(jié)性自回歸階數(shù),D代表季節(jié)性差分階數(shù),Q代表季節(jié)性移動平均階數(shù)以及S代表季節(jié)性周期。對于一個季節(jié)ARIMA模型來說:(1)確定周期,根據(jù)時序圖進(jìn)行判斷;(2)判斷時間序列是否平穩(wěn),根據(jù)時序圖、自相關(guān)系數(shù)(ACF)和偏自相關(guān)系數(shù)(PACF)進(jìn)行判斷,如果得出非平穩(wěn)時間序列,則進(jìn)一步進(jìn)行差分運算轉(zhuǎn)化為平穩(wěn)序列,并進(jìn)行平穩(wěn)性檢驗;(3)模型定階,根據(jù)X-12模型基本原理、ACF以及PACF來進(jìn)行模型定階,所以擬合模型實質(zhì)為ARIMA(p,q)×(P,Q),綜合前面的d階趨勢差分和D階以周期S為步長的季節(jié)差分運算,對原觀察值序列擬合的乘積模型;(4)參數(shù)估計,使用條件最小二乘估計方法,確定該擬合模型的口徑;(5)模型檢驗及預(yù)測應(yīng)用,對擬合模型進(jìn)行檢驗,并根據(jù)擬合模型對西藏地區(qū)2013至2018年包蟲病月度發(fā)病率進(jìn)行預(yù)測。
2.1 包蟲病發(fā)病基本情況根據(jù)西藏自治區(qū)2013年8月至2018年7月包蟲病月度發(fā)病人數(shù)數(shù)據(jù)顯示,包蟲病發(fā)病具有明顯的季節(jié)效應(yīng)和周期效應(yīng)(表1);其中可看出隨著月份的增加包蟲病發(fā)病率呈現(xiàn)逐漸下降的趨勢,其發(fā)病高峰期為1月至4月。由此可看出西藏自治區(qū)包蟲病月發(fā)病人數(shù)呈現(xiàn)波動性下降。
表1 2013至2018年西藏自治區(qū)包蟲病月度發(fā)病人數(shù)(n)
2.2 模型識別季節(jié)調(diào)整和趨勢成分分解(X-12)分析顯示,西藏自治區(qū)2013至2018年包蟲病月發(fā)病人數(shù)時間序列分解為趨勢因素、季節(jié)因素和不規(guī)則因素。西藏自治區(qū)包蟲病發(fā)病人數(shù)存在季節(jié)趨勢,并先呈下降趨勢,具有一定的周期性。
X-12的趨勢成分分解分析中,在假定穩(wěn)定性的前提下確定是否存在季節(jié)性檢驗,檢驗結(jié)果提示(F=11.41,P<0.001)。結(jié)合原始數(shù)據(jù)序列、季節(jié)指數(shù)及季節(jié)性檢驗,提示包蟲病月發(fā)病人數(shù)存在明顯的高峰和低谷現(xiàn)象。
結(jié)合乘法模型在剔除季節(jié)和趨勢成分后得到西藏自治區(qū)包蟲病月發(fā)病人數(shù)的不規(guī)則成分影響程度大于1,則說明包蟲病月發(fā)病人數(shù)受不規(guī)則成分影響較大。
2.3參數(shù)估計和模型診斷X-12模型中,根據(jù)序列圖可看出2013至2018年包蟲病月發(fā)病人數(shù)為不穩(wěn)定的序列,存在波動性下降趨勢。對于時序圖,首先進(jìn)行差分運算,再根據(jù)時序圖的趨勢進(jìn)行1階12步差分,差分后檢驗得出平穩(wěn)序列。初步判斷時間序列模型為ARIMA(p,1,q),采用IDENTIFY語句根據(jù)ACF和PACF以及AUTODML的自動選擇過程,確定最終選擇ARIMA(1,1,0)×(1,1,0)12模型為最佳模型,模型殘差和參數(shù)檢驗見表2、表3、圖1。
表2 不同延遲階數(shù)殘差的白噪聲檢驗
表3 精確ARIMA最大似然估計
2.4 回代擬合及模型預(yù)測根據(jù)模型預(yù)測結(jié)果和擬合誤差,即運用ARIMA(1,1,0)×(1,1,0)12模型進(jìn)行回代擬合并對包蟲病月發(fā)病人數(shù)進(jìn)行預(yù)測,將序列擬合值和序列觀察值聯(lián)合作圖,可以觀察到擬合效果良好;并對2018至2019年包蟲病月發(fā)病人數(shù)進(jìn)行預(yù)測,并根據(jù)月發(fā)病人數(shù)可以得出西藏自治區(qū)包蟲病月發(fā)病人數(shù),見圖2。
圖1 2013至2018年西藏自治區(qū)包蟲病月發(fā)病人數(shù)1階12步差分后時序圖
圖2 2013至2019年包蟲病月發(fā)病人數(shù)與預(yù)測發(fā)病人數(shù)擬合效果比較
包蟲病是一種人獸共患的由棘球?qū)俳{蟲幼蟲引起的寄生蟲病,在畜牧發(fā)達(dá)地區(qū)存在高發(fā)病率、高病死率以及高復(fù)發(fā)率的特點,給當(dāng)?shù)鼐用裨斐蓢?yán)重的經(jīng)濟(jì)負(fù)擔(dān)及健康問題[1]。并且中國是全世界包蟲病發(fā)病最嚴(yán)重的國家之一[2]。在中國,青海、西藏、甘肅、寧夏等經(jīng)濟(jì)與醫(yī)療條件相對落后的地方,包蟲病廣泛流行。2016年西藏自治區(qū)對包蟲病進(jìn)行普查,發(fā)現(xiàn)該地區(qū)包蟲病患病率為1.66%,全區(qū)包括7個地(市)的74個縣(區(qū))均有不同程度的流行[3]。狗、羊、牛是該病常見的宿主。西藏地區(qū)為畜牧區(qū),衛(wèi)生條件相對較差,牧民與包蟲病宿主接觸頻繁,易通過糞-口途徑感染。人感染棘球?qū)俳{蟲幼蟲后,幼蟲則會進(jìn)入人體的門靜脈系統(tǒng),從而滯留于肝臟內(nèi),并在肝內(nèi)逐漸長大,壓迫周圍肝組織和肝內(nèi)膽管,常引起肝細(xì)胞不可逆損傷和阻塞性黃疸,晚期病死率高,號稱“蟲癌”[4]。
對于包蟲病,目前研究主要集中于預(yù)防、診斷及治療,而國際公認(rèn)此病的預(yù)防要遠(yuǎn)勝過治療。在中國,包蟲病分布地區(qū)比較廣泛而且發(fā)病人數(shù)也較多,包蟲病的防治則需要消耗比較多的人力、物力以及財力,同時還要保證防治機(jī)制的可持續(xù)性,這些問題都增加了此病防治的難度[5-6]。
隨著對包蟲病研究的不斷深入及國家對傳染性疾病防控力度的不斷加大,西部地區(qū)包蟲病的發(fā)病率顯著降低。但包蟲病具有高復(fù)發(fā)率的特點,包蟲病預(yù)防工作意義深遠(yuǎn)。國家衛(wèi)計委于2016年下發(fā)了關(guān)于包蟲病防治的“十三五”規(guī)劃,將包蟲病列為我國重點防治的寄生蟲病之一[7]。
目前ARIMA模型在傳染病的發(fā)病預(yù)測中得到廣泛應(yīng)用。比如王永斌等[8]運用此模型預(yù)測了我國梅毒的發(fā)病率,姚英和沈毅[9]預(yù)測了杭州市手足口病的發(fā)病趨勢。美國學(xué)者Box和英國統(tǒng)計學(xué)家Jenkins在20世紀(jì)70年代提出ARIMA模型,該模型分為兩個:簡單模型和乘積季節(jié)模型,并且發(fā)現(xiàn)此模型短期預(yù)測精確度高[10]。ARIMA乘積季節(jié)模型可以充分的提取趨勢信息和季節(jié)信息,并能借助模型參數(shù)進(jìn)行量化表達(dá)[11]。因其在傳染病發(fā)病率預(yù)測中具有簡便、適用和短期預(yù)測精度較高的優(yōu)點,故本文應(yīng)用ARIMA乘積季節(jié)模型預(yù)測包蟲病的發(fā)病率,從而為包蟲病的防治提供有效的依據(jù)。
然而,ARIMA模型也有其局限性,主要包括以下幾點:(1)獲得的歷史數(shù)據(jù)較少,所建立的模型的有效性則相對低;反之,收集的數(shù)據(jù)越多則能建立更為優(yōu)化的模型。(2)環(huán)境因素的改變極易導(dǎo)致預(yù)測效果不理想。(3)長期預(yù)測精度相對較低。因此為了提高此模型的精準(zhǔn)性,在實際工作中,提高數(shù)據(jù)的準(zhǔn)確性是重中之重。如果在研究過程中,研究對象的趨勢發(fā)生較大變化時,則需要重新收集新的數(shù)據(jù),實時對模型進(jìn)行修正和重新擬合,使該模型的預(yù)測結(jié)果與當(dāng)年包蟲病實際發(fā)病情況一致。