劉忠典,黎燕寧
(廣西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院統(tǒng)計(jì)學(xué)教研室,南寧 530021)
2019年12月,湖北省武漢市出現(xiàn)了新型冠狀病毒肺炎(COVID-19)疫情,疫情蔓延至今。COVID-19已納入乙類傳染病,并采用甲類傳染病的管理方法[1]。COVID-19 大流行是二戰(zhàn)以后最為嚴(yán)重的全球危機(jī),影響了地球上所有國(guó)家[2]。研究COVID-19疫情的發(fā)展趨勢(shì),并構(gòu)建合理的預(yù)測(cè)模型,對(duì)科學(xué)有效防控COVID-19 的疫情具有重要意義。目前,國(guó)內(nèi)外專家學(xué)者已對(duì)COVID-19建立相關(guān)的預(yù)測(cè)模型[3-6],如平滑指數(shù)模型、GM(1,1)模型、SEIR流行病動(dòng)力學(xué)模型和改進(jìn)的SEIR 與AI 相結(jié)合等。然而,流行病學(xué)模型需要確定參數(shù),并依賴許多假設(shè);人工智能算法需要大量數(shù)據(jù),且具有高復(fù)雜性和不確定性[7]。為了克服這些局限性,本文嘗試使用ARIMA模型,該模型具有結(jié)構(gòu)簡(jiǎn)單、適用性強(qiáng)和數(shù)據(jù)解釋能力強(qiáng)等優(yōu)點(diǎn)[8],被廣泛應(yīng)用于傳染病的短期預(yù)測(cè)[8-10]?,F(xiàn)有的研究大多針對(duì)全球和湖北省疫情發(fā)展?fàn)顩r,而基層公共衛(wèi)生建設(shè)和醫(yī)療救治能力薄弱的西部地區(qū)研究較少。一旦類似疫情暴發(fā),將面臨巨大挑戰(zhàn)。故本文選擇西部具有代表性的廣西壯族自治區(qū),分析其COVID-19 確診病例時(shí)空分布特征,構(gòu)建ARIMA模型預(yù)測(cè)廣西疫情的發(fā)展趨勢(shì),深入了解其流行病學(xué)特征,為今后類似的新發(fā)傳染病疫情暴發(fā)時(shí),對(duì)其流行病學(xué)分布、發(fā)展趨勢(shì)及預(yù)警防控提供科學(xué)依據(jù)和借鑒意義。
1.1 數(shù)據(jù)來(lái)源
數(shù)據(jù)來(lái)源廣西壯族自治區(qū)衛(wèi)生健康委員會(huì)官網(wǎng)(http://wsjkw.gxzf.gov.cn/)公布數(shù)據(jù),以2020-1-22廣西出現(xiàn)第一例COVID-19確診病例開始,收集1、2月份廣西COVID-19 確診病例,以1-22 至2-11 確診病例數(shù)據(jù)為樣本,樣本數(shù)的70%(即1-22 至2-4)為訓(xùn)練數(shù)據(jù),30%(即2-5至2-11)為驗(yàn)證數(shù)據(jù)。地圖數(shù)據(jù)來(lái)源于全國(guó)地理信息資源目錄服務(wù)系統(tǒng)(https://www.webmap.cn/main.do?method=index)。
1.2 方法
1.2.1 時(shí)空特征分析 本文運(yùn)用ArcGIS 10.5 軟件繪制廣西各市疫情地區(qū)分布圖,根據(jù)《廣西新冠肺炎疫情分區(qū)分級(jí)精準(zhǔn)防控方案》將各市劃分為高(累計(jì)確診病例數(shù)超過(guò)50例)、中(有新增確診病例,但累計(jì)確診病例數(shù)未超50 例)、低(無(wú)確診病例,或者連續(xù)14 d內(nèi)無(wú)新增確診病例)風(fēng)險(xiǎn)地區(qū),R語(yǔ)言繪制1、2 月時(shí)間趨勢(shì)圖,從時(shí)間和空間屬性分析廣西COVID-19疫情的流行特征。
1.2.2 自回歸求和移動(dòng)平均模型(ARIMA)ARIMA模型是一種分析隨機(jī)時(shí)間序列并進(jìn)行預(yù)測(cè)的方法。構(gòu)建步驟包括:平穩(wěn)性檢驗(yàn),檢驗(yàn)時(shí)間序列是否平穩(wěn),如不平穩(wěn),則可通過(guò)差分操作[11-12]將其轉(zhuǎn)變?yōu)槠椒€(wěn)時(shí)序,消除序列的趨勢(shì)性,并確定參數(shù)d的值;參數(shù)估計(jì),使用自相關(guān)性(ACF)圖和偏自相關(guān)性(PACF)圖確定參數(shù)q和p值;擬合和評(píng)估模型,使用ACF、PACF 圖及博克斯—皮爾斯(Box-Pierce)檢驗(yàn)來(lái)判斷模型殘差序列是否為白噪聲,若結(jié)果中P>0.05,則為白噪聲,即模型可以更好地?cái)M合數(shù)據(jù),運(yùn)用構(gòu)建的模型進(jìn)行預(yù)測(cè)。以絕對(duì)平均百分誤差(MAPE)為標(biāo)準(zhǔn),值越小,模型精度越高[13]。用數(shù)學(xué)公式表示為:
再結(jié)合平均百分誤差(MAPE)、均方標(biāo)準(zhǔn)誤差(MASE)、赤池信息量準(zhǔn)則(AIC)等擬合指標(biāo)來(lái)選擇最優(yōu)模型。
1.2.3 統(tǒng)計(jì)學(xué)方法 運(yùn)用ArcGIS 10.5 繪制廣西各市疫情地區(qū)分布圖,R語(yǔ)言(R-Studio 1.4.1103環(huán)境,R版本4.0.3)base包plot()和diff()函數(shù)分別繪制廣西各市1、2 月的時(shí)間趨勢(shì)圖和進(jìn)行差分操作,stats包acf()和pacf()函數(shù)分別進(jìn)行自相關(guān)性和偏自相關(guān)性檢驗(yàn),以及arima()和Box.test()函數(shù)分別構(gòu)建ARIMA 模型和進(jìn)行Box-Pierce 檢驗(yàn),forecast 包forecast()函數(shù)進(jìn)行了預(yù)測(cè),以廣西2020-1-22 至2020-2-11 新冠肺炎確診病例數(shù)據(jù)為樣本,以樣本的70%(即1-22至2-4)為訓(xùn)練數(shù)據(jù),30%(2-5至2-11)為驗(yàn)證數(shù)據(jù)。以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2.1 空間分布
廣西1 月份疫情(圖1)分為二個(gè)層次,南寧市、桂林市和北海市等處于中風(fēng)險(xiǎn)地區(qū);欽州市、崇左市和貴港市等處于低風(fēng)險(xiǎn)地區(qū)。廣西2 月份疫情(圖2)分為三個(gè)層次,南寧市屬于高風(fēng)險(xiǎn)地區(qū);北海市、柳州市和桂林市等屬于中風(fēng)險(xiǎn)地區(qū);欽州市、梧州市和賀州市等屬于低風(fēng)險(xiǎn)地區(qū)。
圖1 2020年1月廣西COVID-19地區(qū)分布圖
圖2 2020年2月廣西COVID-19地區(qū)分布圖
2.2 時(shí)間趨勢(shì) 自2020-1-22 第一例COVID-19 確診后,各市都一直處于增長(zhǎng)趨勢(shì),其中北海市、桂林市和南寧市增長(zhǎng)較快;其它地級(jí)市增長(zhǎng)相對(duì)較為平緩,見(jiàn)圖3。2020-2 月前半月確診病例增長(zhǎng)較為明顯,特別是南寧市和北海市;后半月增長(zhǎng)明顯減弱;從圖中可判斷2-17為廣西COVID-19確診人數(shù)增長(zhǎng)拐點(diǎn),見(jiàn)圖4。
圖3 2020年1月廣西COVID-19增長(zhǎng)趨勢(shì)圖
圖4 2020年2月廣西COVID-19增長(zhǎng)趨勢(shì)圖
2.3 ARIMA模型預(yù)測(cè)分析
2.3.1 平穩(wěn)性檢驗(yàn) 圖5 顯示了1-22 至2-4 新冠肺炎確診病例的時(shí)序圖,可看出數(shù)據(jù)具有上升趨勢(shì),表明其不穩(wěn)定。對(duì)其進(jìn)行一階差分操作,如圖6 所示,可以看出數(shù)據(jù)序列基本趨于平穩(wěn),符合ARIMA建模要求。
圖5 COVID-19確診人數(shù)趨勢(shì)圖
圖6 COVID-19確診人數(shù)一階差分后的趨勢(shì)圖
2.3.2 參數(shù)估計(jì) 數(shù)據(jù)一階差分后,序列基本趨于平穩(wěn),確定模型中參數(shù)d=1。對(duì)一階差分后的序列進(jìn)行ACF、PACF分析(圖7、圖8),ACF圖顯示第一個(gè)時(shí)滯后,逐漸趨向于0,即第一時(shí)滯截?cái)?,q=0或1;PACF圖顯示相關(guān)值未超過(guò)有效邊界(0.5),p=0。根據(jù)AIC 最小信息準(zhǔn)則及相關(guān)模型擬合指數(shù)(表1),選擇模型為ARIMA(0,1,0)。
表1 不同ARIMA模型的評(píng)價(jià)指標(biāo)
圖7 COVID-19確診人數(shù)一階差分后自相關(guān)性圖
圖8 COVID-19確診人數(shù)一階差分后偏自相關(guān)性圖
2.3.3 模型擬合和評(píng)估 模型殘差進(jìn)行自相關(guān)性、偏自相關(guān)性分析(圖9、圖10),ACF圖顯示滯自相關(guān)值基本沒(méi)有超過(guò)邊界值(0.5),PACF 圖顯示相關(guān)值未超過(guò)有效邊界(0.5);進(jìn)行Box-Pierce 檢驗(yàn),P>0.05,見(jiàn)表2。結(jié)果顯示,模型殘差序列為白噪聲,其模型擬合指數(shù)值也較小,故ARIMA(0,1,0)模型擬合效果良好,可用于進(jìn)一步預(yù)測(cè)。
圖9 殘差自相關(guān)性圖
圖10 殘差偏自相關(guān)性圖
表2 ARIMA模型的預(yù)測(cè)指標(biāo)
2.3.4 模型預(yù)測(cè) 利用ARIMA(0,1,0)模型,進(jìn)行步長(zhǎng)為7 的預(yù)測(cè),即預(yù)測(cè)2-5 至2-11 的累計(jì)COVID-19確診人數(shù),見(jiàn)表3和圖11;可以看出預(yù)測(cè)值和真實(shí)值基本吻合,相對(duì)誤差相對(duì)較小,真實(shí)值位于預(yù)測(cè)區(qū)間內(nèi)。
表3 廣西新冠肺炎確診人數(shù)預(yù)測(cè)對(duì)比表
圖11 廣西預(yù)測(cè)人數(shù)和置信區(qū)間
自湖北省武漢市暴發(fā)COVID-19 疫情以來(lái),疫情蔓延至中國(guó)每一個(gè)省份,廣西作為中國(guó)西南部的一個(gè)自治區(qū),自2020-1-22 出現(xiàn)首例確診病例,疫情影響到全區(qū)各市。分析其COVID-19疫情的流行特征,結(jié)果表明:(1)全區(qū)中疫情最為嚴(yán)重的地級(jí)市有南寧市、桂林市和北海市。南寧市是首府城市,桂林市和北海市是旅游城市,交通便利,流動(dòng)人口較多,疫情較為嚴(yán)重。這和其他省份的研究結(jié)果相似[14-15];(2)廣西COVID-19疫情嚴(yán)重程度呈現(xiàn)“低—高—低”的曲線變化,初期感染程度較輕,可能是與武漢市較遠(yuǎn)有關(guān),疫情爆發(fā)的初始階段為一月底和二月初,可能與春節(jié)期間人口流動(dòng)大有關(guān)[14],從二月中旬開始,廣西區(qū)內(nèi)COVID-19疫情得到有效控制,確診病例增速大大放緩,表明政府等有關(guān)部門防控新冠疫情的相應(yīng)措施可能發(fā)揮了有效作用。
本文構(gòu)建了ARIMA模型,預(yù)測(cè)COVID-19確診病例的動(dòng)態(tài)變化趨勢(shì),以MAPE 為評(píng)價(jià)標(biāo)準(zhǔn),再結(jié)合MPE、MASE、AIC 等擬合指標(biāo),選擇最優(yōu)模型為ARIMA(0,1,0),MAPE為5.46。本次研究結(jié)果與其他研究結(jié)果類似,認(rèn)為使用ARIMA 模型適宜預(yù)測(cè)COVID-19 在不同國(guó)家的趨勢(shì)[10,16]。在伊朗,Moftakhar等[17]研究表明ARIMA模型比人工神經(jīng)網(wǎng)絡(luò)更準(zhǔn)確。Ceylan 等[16]構(gòu)建ARIMA 模型預(yù)測(cè)意大利、西班牙和法國(guó)COVID-19 流行病學(xué)趨勢(shì),MPAE分別為4.752、5.849 和5.634。因此ARIMA(0,1,0)模型被認(rèn)為是合理的高精度預(yù)測(cè)模型,可應(yīng)用于COVID-19 的預(yù)測(cè)。這將有助于有效配置醫(yī)療資源,對(duì)COVID-19的科學(xué)防治具有指導(dǎo)意義。
本研究也存在著不足之處:由于COVID-19 存在潛伏期,前期COVID-19檢測(cè)技術(shù)不完善,有部分疑似COVID-19 感染者未能及時(shí)診斷為確診病例,各地區(qū)報(bào)告確診病例時(shí)間不一,可能存在遲報(bào)和誤報(bào)的情況,導(dǎo)致每日公布的確診病例數(shù)與真實(shí)值不符;以及一些防控措施的實(shí)施,從而影響到ARIMA模型的預(yù)測(cè)效果。