楊淘 肖樂瑤 張陸豪 邱則滿 左欣延 吳少暉
摘要:本文基于降維和聚類的思想對新冠狀病毒建立ARIMA模型進(jìn)行研究和預(yù)測,采用聚類分析、因子分析,時間序列分析的方法。通過構(gòu)造量化疫情嚴(yán)重程度的指標(biāo),對選取的13個國家進(jìn)行因子分析,計算因子得分,利用因子得分進(jìn)行聚類分析,將13個國家分為三類國家。其次根據(jù)官方發(fā)布的新冠疫情數(shù)據(jù),采用時間序列分析方法來建立不同的ARIMA模型進(jìn)行擬合巴西、印度和中國這三個具有代表性的國家的疫情走勢及預(yù)測未來一個月的趨勢,并通過模型和參數(shù)的顯著性檢驗(yàn),最后發(fā)現(xiàn)未來一個月的預(yù)測數(shù)據(jù)和實(shí)際數(shù)據(jù)吻合較好。
關(guān)鍵詞:COVID-19 聚類分析 因子分析 ARIMA 預(yù)測
一、引言
新型冠狀病毒的出現(xiàn),讓全球的公共衛(wèi)生體系遭受到一定的挑戰(zhàn)。本文鑒于多次流行病學(xué)爆發(fā)的數(shù)據(jù)和趨勢特征、走向和轉(zhuǎn)折預(yù)警,同時結(jié)合病原學(xué)、流行病學(xué)方面和傳播、途徑、方式等的共同特點(diǎn),希望能從統(tǒng)計學(xué)角度出發(fā),構(gòu)建對疫情趨勢和轉(zhuǎn)折的預(yù)測模型,分析影響其傳播的關(guān)鍵因素,以數(shù)理統(tǒng)計學(xué)的理論知識為橋梁,實(shí)現(xiàn)對病毒的經(jīng)驗(yàn)到理性的認(rèn)知,以發(fā)展的眼光把數(shù)據(jù)連成一個清晰的藍(lán)圖,更好地在現(xiàn)實(shí)生活中做出最佳決策。
二、數(shù)據(jù)預(yù)處理
2.1樣本選擇
本文針對全球疫情發(fā)展?fàn)顩r,選擇了美國、巴西、日本、德國、印度、意大利、加拿大、西班牙、韓國、英國、法國、俄羅斯、中國共13個比較有代表性的國家作為樣本。樣本數(shù)據(jù)來源于國家和省市衛(wèi)健委。
由于各個國家疫情集中爆發(fā)的時間段不同,為了使疫情爆發(fā)情況具有橫向比較性,本文統(tǒng)一將累計確診人數(shù)達(dá)到100人及以上作為疫情集中爆發(fā)的標(biāo)志,以此日期開始,分析該國之后的疫情發(fā)展趨勢。
2.2數(shù)據(jù)處理
針對收集整理后的數(shù)據(jù),本文對其進(jìn)行了缺失值處理及異常值處理。
2.3構(gòu)造量化疫情嚴(yán)重程度的指標(biāo)
確診、死亡、治愈和新增確診人數(shù)是各國披露疫情情況使用的主要數(shù)據(jù),但由于各個國家的人口基數(shù)、確診人數(shù)基數(shù)都有較大差別,這些指標(biāo)的橫截面可比性不高,也不能直接涵蓋疫情的爆發(fā)速度的信息。因此本文利用這三個指標(biāo),基于前人研究的基礎(chǔ)構(gòu)建了11個具有橫向可比性的衍生指標(biāo):每百萬人的累計確診、日確診增速、日死亡增速、日治愈增速、致死率、治愈率、當(dāng)日新增確診增速、當(dāng)日新增死亡增速、當(dāng)日新增治愈增速、每百萬人現(xiàn)存感染、現(xiàn)存感染占累計確診比,并利用這11個衍生指標(biāo)對疫情建立相關(guān)模型,進(jìn)行橫向?qū)Ρ取?/p>
三、基于降維和分類思想分析各國疫情趨勢
3.1方法及原理
從收集的13個國家的相關(guān)數(shù)據(jù)和資料來看,可以發(fā)現(xiàn)部分國家的疫情趨勢、針對疫情采取的政策等有較多相似之處,因此對國家進(jìn)行分類分析處理。要客觀地整理國家類別,應(yīng)采用因子分析和聚類分析的方法。
因子分析是一種基于降維思想的數(shù)據(jù)簡化技術(shù)。它通過研究眾多變量之間的內(nèi)部依賴關(guān)系,探求觀測數(shù)據(jù)中的基本結(jié)構(gòu),并用少數(shù)幾個假想變量來表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。
聚類分析則是基于分類思想,將個體或?qū)ο蠓诸悾沟猛活愔械膶ο笾g的相似性與其他類的對象的相似性更強(qiáng)的一種方法。其目的是使類間對象的同質(zhì)性最大化和類與類間對象的異質(zhì)性最大化。
將因子分析法和聚類分析法相結(jié)合,即可將在疫情相關(guān)方面相似的國家分為同一類別,便于對全球疫情趨勢做出分析并給出相應(yīng)的建議。
3.2因子分析結(jié)果
在疫情嚴(yán)重程度衍生指標(biāo)的基礎(chǔ)上,引入了政策變量作為虛擬變量,對12個變量采用主成分法和正交旋轉(zhuǎn)法進(jìn)行因子分析。參照前人的研究,將政策分為“類SARS策略”和“類大流感策略”兩種,其中,中國和韓國采取的策略為前者,其余11個國家采取的策略為后者。
結(jié)果中,四個因子的方差貢獻(xiàn)率已達(dá)到89%,因此選用四個因子做后續(xù)的分析。從正交旋轉(zhuǎn)后的因子載荷矩陣可以計算各個國家的四個因子的得分。
3.3聚類分析結(jié)果
將四個因子放入R中進(jìn)行聚類分析,將13個國家歸為三大類。聚類結(jié)果如圖1所示,即Ⅰ類國家為美國、巴西;Ⅱ類國家為印度、德國、西班牙、意大利、法國、韓國、日本、英國、俄羅斯、加拿大;Ⅲ類國家為中國。
可以發(fā)現(xiàn),Ⅲ類國家是針對疫情采取了嚴(yán)格的防疫政策并有較好成效的國家;Ⅱ類國家是針對疫情采取過一定的防疫措施,但沒有做到長時間且嚴(yán)格的管理導(dǎo)致累計確診人數(shù)增速大致呈先下降再加快的趨勢的國家;Ⅰ類國家則是在疫情期間,一直采取放任政策且累計確診人數(shù)爆發(fā)式增長的國家。
基于聚類分析的結(jié)果,本文將對三個類別分別建立數(shù)學(xué)模型分析其疫情趨勢并預(yù)測未來走勢,提出相應(yīng)的防疫建議。
四、建立數(shù)學(xué)模型分析并預(yù)測疫情趨勢
4.1模型的建立
目前,對疫情的預(yù)測大多是應(yīng)用傳播動力學(xué)模型和統(tǒng)計學(xué)模型如時間序列分析等,但傳染病動力學(xué)模型需要對各種模型參數(shù)有較精確的了解,很難準(zhǔn)確獲取。而時間序列模型只需收集感染人數(shù)和病例數(shù)據(jù)歷史序列,則可構(gòu)建預(yù)測模型來進(jìn)行短期預(yù)測,有較高的準(zhǔn)確性。
ARIMA模型(自回歸移動平均模型)主要運(yùn)用于分析非平穩(wěn)的、不具有季節(jié)性變化趨勢的時間序列。具有短期預(yù)測性強(qiáng)且簡單易操作的優(yōu)點(diǎn),同時被廣泛運(yùn)用于傳染病的預(yù)測預(yù)警。在該模型中,新冠疫情數(shù)據(jù)可以看作時間序列觀測數(shù)據(jù),得到觀察值后,分析的重點(diǎn)是通過有效的手段提取序列中所蘊(yùn)含的確定性的信息。ARIMA(p,d,q)模型結(jié)構(gòu)如下:
4.2模型的應(yīng)用
我們從由上面聚類分析得到的三類國家中各挑選一個具有代表性的國家進(jìn)行預(yù)測,其中Ⅰ類國家選擇巴西,Ⅱ類國家選擇印度,Ⅲ類選擇中國。最終給出不同類型國家的ARIMA模型及其擬合和預(yù)測效果。
4.2.1 Ⅰ類國家
這類國家我們以巴西為例進(jìn)行詳細(xì)分析,根據(jù)收集到的巴西COVID-19疫情相關(guān)數(shù)據(jù),我們使用2020年2月26日到11月13日的數(shù)據(jù)進(jìn)行分析,得到ARIMA(2,2,5)模型的擬合優(yōu)度較高。使用該模型預(yù)測在近一個月時間(11.14-12.13)內(nèi)的疫情趨勢,得巴西確診人數(shù)升速度減慢,但仍呈上升趨勢,隨著時間不斷推移,推斷一個月后巴西最終感染確診人數(shù)為6576503人左右。將預(yù)測的11月14日至12月14日的數(shù)值與官方給出的數(shù)據(jù)進(jìn)行比較,發(fā)現(xiàn)該模型對巴西新冠肺炎疫情預(yù)測中,預(yù)測時間越遠(yuǎn)則預(yù)測精度越差,且實(shí)際值高于預(yù)測值。
4.2.2 Ⅱ類國家
該類國家我們以印度為例進(jìn)行詳細(xì)分析,根據(jù)搜集到的印度COVID-19疫情相關(guān)數(shù)據(jù),使用2020年1月30日到11月13日的數(shù)據(jù)進(jìn)行分析,建立得到ARIMA(0,2,3)模型進(jìn)行預(yù)測,結(jié)果顯示在近一個月時間(11.14-12.13)內(nèi),印度COVID-19疫情上升速度加快,隨著時間不斷推移,推斷一個月后印度最終感染確診人數(shù)為10198435人左右。將預(yù)測的數(shù)值與官方給出的數(shù)據(jù)進(jìn)行比較得到圖5。由圖5可以發(fā)現(xiàn)ARIMA(0,2,3)對印度新冠肺炎疫情預(yù)測中,在前半段時間內(nèi)的預(yù)測精度非常高,后面預(yù)測時間越遠(yuǎn)雖然預(yù)測精度變差但誤差不大。
4.2.3 Ⅲ類國家
該類國家本文以中國為例進(jìn)行詳細(xì)分析,根據(jù)搜集到的中國COVID-19疫情相關(guān)數(shù)據(jù),使用2020年1月30日到11月26日的數(shù)據(jù)進(jìn)行分析,得到擬合優(yōu)度較高的ARIMA(0,2,1)模型進(jìn)行預(yù)測,結(jié)果顯示2020年12月8日至2021年1月7日期間,中國累計確診人數(shù)上升速度加快,隨著時間不斷推移,推斷在1月7日中國最終感染確診人數(shù)為10198435人左右。將預(yù)測數(shù)值與官方給出的數(shù)據(jù)進(jìn)行比較發(fā)現(xiàn),時間越長,預(yù)測精度變差,但誤差保持較小水平,兩者之間幾乎保持平行距離。
4.3 模型討論
在ARIMA模型的預(yù)測中,可以發(fā)現(xiàn)真實(shí)值幾乎都大于預(yù)測值,這說明了此時間序列模型在實(shí)際應(yīng)用中存在這一定的滯后性,這可能與在建模忽略了受到自然、社會及其他關(guān)聯(lián)因素有關(guān)。但這仍然起到了一定的參考作用,如在其他一些不明原因的傳染病疫情的防控和預(yù)測時提供一種參考方法。
五、結(jié)論與建議
以巴西為代表的Ⅰ類國家,采取了不合理的防疫政策,累計確診人數(shù)持續(xù)增長,增長速度也一直保持在一個水平。以印度為代表的Ⅱ類國家,在疫情前期有采取過一定的防疫措施,而一段時間后政策變得寬松,沒有繼續(xù)采取嚴(yán)格的隔離措施,因此疫情前期確診人數(shù)增速較緩慢,后期確診人數(shù)不斷攀升且增速上升。以中國為代表的Ⅲ類國家,從疫情初期一直采取著嚴(yán)格的防疫政策,累計確診人數(shù)在上升到一定程度后保持穩(wěn)定,疫情得到了較好的控制。
針對三個國家所建立的ARIMA模型都能較好地擬合真實(shí)的疫情趨勢,將三個模型的短期預(yù)測結(jié)果和現(xiàn)實(shí)值進(jìn)行對比,也能說明模型的擬合效果較好,如印度的預(yù)測中平均相對誤差可以達(dá)到0.009。根據(jù)預(yù)測結(jié)果,三類國家的累計確診人數(shù)在未來仍會不斷增加,但Ⅲ類國家的增速會比Ⅰ類國家和Ⅱ類國家平緩。
5.2 建議
利用ARIMA模型擬合預(yù)測的結(jié)果,I類國家和Ⅱ類國家仍處于疫情發(fā)展期,Ⅲ類國家處于疫情平穩(wěn)期,Ⅰ類國家和Ⅱ類國家應(yīng)制定并實(shí)施嚴(yán)格的防疫策略,令居民做好個人防護(hù),必要時采取強(qiáng)硬的隔離措施,政府部門積極開展輿情監(jiān)控,普及疫情防控,做好疫情防控的工作,減少大型聚集活動,通過多種途徑做好工作和特定人群個人防護(hù)的指導(dǎo),減少人群中可能的接觸或暴露,采取嚴(yán)格的出入境管制措施;Ⅲ類國家則不可掉以輕心,應(yīng)繼續(xù)保持,防止疫情的二次爆發(fā)。
現(xiàn)如今,新冠疫情仍在全球蔓延,利用本文中基于聚類分析思想建立ARIMA模型的方法,可以對短期內(nèi)疫情的趨勢做出預(yù)測,為疫情防控提供參考。
六、參考文獻(xiàn)
[1]高惠璇. 應(yīng)用多元統(tǒng)計分析. 北京:北京大學(xué)出版社. 2005.1
[2]易丹輝、王燕. 應(yīng)用時間序列分析(第5版).北京:中國人大學(xué)出版社. 2019.7
[3]溫亮、黃清臻等. 運(yùn)用ARIMA模型預(yù)測巴基斯坦新型冠狀病毒肺炎疫情發(fā)展趨勢的結(jié)果分析. 解放軍預(yù)防醫(yī)學(xué)雜志. 2020(08)-0096-05
【作者簡介】
楊淘(2000.6-),女,漢族,廣東佛山人,本科生學(xué)歷,華南農(nóng)業(yè)大學(xué)學(xué)生,研究方向:統(tǒng)計學(xué)。