◇玉林師范學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院 鐘德炎 陳麗華 吳榮火
目的:基于我國公開數(shù)據(jù)中有關(guān)新型冠狀病毒肺炎(COVID-19)的死亡病例時機數(shù)據(jù),預(yù)測以后的死亡病例。方法:結(jié)合時間序列理論,建立尚有確診的時間序列的殘差自回歸模型。結(jié)果:殘差自回歸模型預(yù)測效果較好,有一定的參考價值。
2019年12月以來[1],湖北省武漢市因不明原因出現(xiàn)了多例新型冠狀病毒肺炎的患者。與此同時,全世界多個國家也受到了新型冠狀病毒肺炎的影響,全球受新冠肺炎疫情影響的國家和地區(qū)數(shù)量已達(dá)101個[2]。這是一種急性感染性肺炎,具有人傳染人的能力,感染初期病人有發(fā)熱、乏力、干咳的征狀,嚴(yán)重者可出現(xiàn)呼吸困難、呼吸窘迫綜合征或濃毒癥休克,可增加進(jìn)入重癥監(jiān)護(hù)室(ICU)的概率和病死率[3]。疫情期間,引起了很多人的恐慌,擔(dān)心疫情得不到控制,擔(dān)心死亡的病例越來越多。因此,對因新冠狀病毒肺炎而死亡的病例進(jìn)行研究具有重要意義,本文將通過我國每日的數(shù)據(jù)進(jìn)行時間序列分析。
殘差自回歸模型常用于有確定性趨勢的時間序列數(shù)據(jù),基本思想是先利用確定性因素分解法提取時間序列中的主要確定性信息,如果信息提取充分,則殘差序列的自相關(guān)性不顯著,可以利用確定性回歸模型進(jìn)行擬合;但如果殘差序列的自相關(guān)性顯著,則需要進(jìn)一步對殘差序列擬合自回歸模型提取隨機因素信息[4]。
殘差自回歸是一種分析非平穩(wěn)時間序列的研究方法[5]。殘差自回歸模型表達(dá)式有兩種情況:以時間為自變量的情況下,表達(dá)式為:
以歷史觀察值為自變量的情況下,表達(dá)式為:
本研究數(shù)據(jù)來源于中國人民共和國國家衛(wèi)生健康委員會官網(wǎng)(http://www.nhc.gov.cn/),選取2020年1月20日到2020年3月10日新型冠狀病毒肺炎(COVID-19)相關(guān)數(shù)據(jù)。
模型的建立基于R軟件。首先判斷原序列的平穩(wěn)性,根據(jù)死亡病例據(jù)繪制時序圖(見圖1)。
圖1 2020年1月20日到2020年3月10日死亡病例時序圖
通過時序圖,可以看出死亡病例在2020年1月20日到3月10日有明顯的趨勢,初步判斷該時間序列為非平穩(wěn)的時間序列。且根據(jù)ADF檢驗結(jié)果顯示:Dickey-Fuller=-2.7077,p-value=0.2899>0.05,即存在單位根,明確時間序列為非平穩(wěn)的時間序列。死亡人數(shù)的時間序列具有明顯的確定性趨勢,且沒有季節(jié)效應(yīng),所以選擇以殘差自回歸模型對數(shù)據(jù)進(jìn)行擬合。首先分別對以時間t為自變量和以歷史觀察值為自變量的兩個確定性趨勢模型進(jìn)行構(gòu)建,通過R軟件進(jìn)行分析,得出兩個確定性趨勢模型的結(jié)果。
模型一:t為自變量的確定性趨勢模型
模型二:歷史觀察值為自變量的模型
首先通過殘差序列的自相關(guān)圖和偏自相關(guān)圖來確定自回歸模型的階數(shù)。
由圖2可知,自相關(guān)系數(shù)拖尾,偏自相關(guān)系數(shù)1階截尾。因此,對模型一的殘差序列擬合AR(1)模型。由圖3可知,自相關(guān)系數(shù)拖尾,偏自相關(guān)系數(shù)2階截尾,即對模型二的殘差序列擬合AR(2)模型。由擬合結(jié)果得:
圖2 模型一殘差自相關(guān)和偏自相關(guān)圖
圖3 模型二殘差自相關(guān)和偏自相關(guān)圖
擬合模型一的殘差序列自回歸模型為:
擬合模型二的殘差序列自回歸模型為:
綜合上面的分析,對2020年1月20日到2020年3月10日因新型冠狀病毒肺炎確死亡病例的時間序數(shù)據(jù),我們可以通過以下殘差自回歸模型進(jìn)行擬合。
建立模型的重要意義就是通過模型來進(jìn)行預(yù)測,所以在這里通過自回歸殘差模型對2020年3月11日到2020年3月15日因新型冠狀病毒肺炎的死亡病例進(jìn)行預(yù)測,并將預(yù)測結(jié)果和實際結(jié)果進(jìn)行比較。模型預(yù)測效果的指標(biāo)體系很多,一般使用平均相對誤差這一相對指標(biāo),其定義條件一般認(rèn)為MAPE值小于10%,則是預(yù)測精度較高的預(yù)測結(jié)果。預(yù)測結(jié)果見表1。計算方法為:
由表1可知,用殘差自相關(guān)模型預(yù)測2020年3月11日到2020年3月15日的死亡病例的相對誤差可知在8.06%以內(nèi),且平均相對誤差是4.812%<10%,即該模型的預(yù)測效果較好。
表1 2020年3月11日-3月15日的死亡人數(shù)比較表