安傳波,劉宇航,周子欣,朱家明
一種優(yōu)化的Logistic模型的流行病分類方法
安傳波,劉宇航,周子欣,朱家明
(安徽財經(jīng)大學(xué) 統(tǒng)計與應(yīng)用數(shù)學(xué)學(xué)院,安徽 蚌埠 233030)
對流行病的分類進行定量約束,為了確定某感染病是否為大流行病,分別搜集了以H1N1為代表的“大流行病”重災(zāi)區(qū)樣本和以SARS為代表的“流行病”重災(zāi)區(qū)樣本,并定義每次流行病的“重災(zāi)區(qū)”。其次分別選取感染率、病死率、醫(yī)療條件、人口密度等指標作為解釋變量建立二分類Logistic模型,通過得到的被解釋變量的預(yù)測值(即該病是否為大流行病的概率)來判斷該病是否為大流行病。最后,由于疾病流行性問題的復(fù)雜性,在模型中依次引入平方項重新回歸,通過定義不同的訓(xùn)練集和測試集,得到最優(yōu)的回歸方程,最終得到將病死率的平方項引入回歸模型中,模型分類的準確率更高。
分類Logistic模型;重災(zāi)區(qū);訓(xùn)練組;測試組;病死率
定義某個傳染病是否為大流行病,對國家的宏觀調(diào)動、疾病的防控、減少疫情帶來的損失具有重大意義。在冠狀病毒引發(fā)的病毒性肺炎(COVID-19)爆發(fā)之前,世衛(wèi)組織只在2009年的H1N1流感爆發(fā)期間,宣布該傳染病為大流行病。WHO表示:“大流行病(Pandemic)”是指某疾病的發(fā)病蔓延迅速,涉及地域廣,人口比例大,在短時間內(nèi)可以越過省界國界甚至洲界形成世界性流行。本文分別對H1N1(大流行?。┖蚆ERS、SARS(流行?。┍l(fā)期間“重災(zāi)區(qū)”的相關(guān)指標數(shù)據(jù)進行采樣,構(gòu)造出模型的數(shù)據(jù)源,以該病是否為大流行病為因變量(二分類)進行邏輯回歸,通過求出的回歸系數(shù)構(gòu)造判斷表達式,再對模型引入非線性解釋變量進行優(yōu)化,對每一個回歸方程的數(shù)據(jù)分為訓(xùn)練組和測試組,用訓(xùn)練組的數(shù)據(jù)來估計出模型,再用測試組的數(shù)據(jù)來進行測試,得到最優(yōu)的回歸方程,用解釋變量依概率收斂的數(shù)值判斷傳染病是否為大流行病。
國內(nèi)學(xué)者對傳染病的分類問題展開了大量的研究工作,但大多都只局限于定性的研究。如袁鴻昌[1]指出流行病學(xué)研究方法可以分為實驗和觀察兩大類別進行定性分類。同時,也有少量學(xué)者進行了定量分析的研究。如李曉毅等[2]將貝葉斯判別和逐步判別相結(jié)合,對突發(fā)傳染病的實際監(jiān)控數(shù)據(jù)進行分析, 與歷史數(shù)據(jù)庫中的被人們所認知的各類傳染病進行對比研究,對突發(fā)傳染病進行分類判別。林寰等[3]結(jié)合實例論述了累積比數(shù)模型、不約束的部分比例模型、連續(xù)比模型及相鄰比模型等4種模型的構(gòu)成、特點、適用條件及可以對流行病有序分類得到的結(jié)果。胡龍飛等[4]將傳染病的醫(yī)學(xué)本質(zhì)、流行病學(xué)原則、檢疫等處理檢驗的有效性等影響因素進行等級評估,通過賦值加權(quán)法、危險因素聚類分析,對傳染病進行分類。李傅冬[5]通過對近些年浙江省傳染病暴發(fā)疫情和突發(fā)公共衛(wèi)生事件進行全面整理分析,得出浙江省常見的傳染病病種作為本研究的疾病范圍。應(yīng)用貝葉斯分類算法建立分類模型,采用SAS軟件完成程序編寫,進行流行病的定性分類。
綜上所述,學(xué)者們從定性定量兩個角度確定了流行病分類的主要標準。在定性方面,主要通過感官分析和實驗觀察,在定量方面則主要采用貝葉斯判別分類和聚類等分類模型進行流行病的判別,都取得了豐碩的成果。
本文對流行病深入分析,查閱相關(guān)文獻,最終從流行病的客觀反映、傳播途徑、感染環(huán)境等影響因素中選取6類指標,分成定量和定性兩類,并對兩類指標進行以下幾點說明:
(1)感染人數(shù)和死亡人數(shù)為絕對量,其大小受該國的面積、氣溫、相關(guān)政策等多方面的影響,因此,本文只將感染率和病死率這兩個相對量作為回歸自變量引入回歸方程。
(2)為了增加模型的精確度,用某地區(qū)人均GDP(美元)定量衡量該地區(qū)的經(jīng)濟狀況[6]
(3)對于醫(yī)療條件變量,根據(jù)相關(guān)文獻,發(fā)達地區(qū)的醫(yī)療設(shè)備、醫(yī)療條件都處在領(lǐng)先地位,因此,以某地區(qū)否為發(fā)達地區(qū)將全世界各個地區(qū)的的醫(yī)療條件分為“優(yōu)”和“良”兩類。
(4)世界人口密度主要分為兩個梯度。中國、印度、美國三國人口總量占到全球人口總量的44%左右,遠高于其他國家。因此,以中國、印度、美國為代表的第一梯度為人口大國,其余國家均并入第二梯度。具體指標分類如圖1所示。
重災(zāi)區(qū)是指在流行病爆發(fā)期間,按照確診人數(shù)的數(shù)量,確診人數(shù)總量在總確診人數(shù)中占比超過1%的區(qū)域。從百度百科搜索引擎和快易數(shù)據(jù)網(wǎng)得到H1N1和SRAS兩類流行病的樣本數(shù)據(jù)。根據(jù)上述定義,分別從H1N1流感樣本中選擇8個地區(qū),從SARS流感樣本中選擇4個地區(qū)。
(1)目前,由于新冠疫情在全球仍處在爆炸式增長階段,且流行病的傳播機理和影響因素錯綜復(fù)雜,用某個確定的模型來預(yù)測流行病相關(guān)問題的準確性有待商榷。
(2)由于大規(guī)模流行病爆發(fā)的次數(shù)不多,一些尚有記載的流行病的具體信息較少,該類數(shù)據(jù)的獲取十分復(fù)雜和模糊。因此,如果以疾病種類為采樣點,樣本數(shù)據(jù)較少,以各類疾病下疫情較為嚴重的“重災(zāi)區(qū)”作為采樣點,提高結(jié)果的準確度和普適性。
(3)是否為“大流行”病是病毒本身的屬性,其具體反應(yīng)在某個地區(qū)或者某個國家在某個時間段內(nèi)的流行程度。因此,應(yīng)該用該病在傳播期間在某個地區(qū)的流行程度來定義,最終選擇將不同流行病的“重災(zāi)區(qū)”相關(guān)指標代入的分類模型,以判斷其是否為“大流行”。
2.3.1 定量數(shù)據(jù)的處理
為了減弱數(shù)據(jù)的異方差性,反映被解釋變量和解釋變量的彈性,將人均GDP取對數(shù),作為獨立的解釋變量進行回歸。
2.3.2 定性數(shù)據(jù)的分類
根據(jù)上述指標解釋,本文將醫(yī)療條件、人口密度創(chuàng)建為啞變量。
2.3.3 數(shù)據(jù)的可視化
在定義“重災(zāi)區(qū)”后,以不同流行病爆發(fā)期間的“重災(zāi)區(qū)”為采樣點,由于不同疾病的爆發(fā)和流行地區(qū)不同,通過對相關(guān)樣本點的數(shù)據(jù)進行采集,作為邏輯回歸的回歸數(shù)據(jù)。最終確定H1N1選擇美國、中國、墨西哥、法國、英國、意大利、印度、挪威8個地區(qū)為采樣點,SARS選擇中國香港、中國臺灣、中國、加拿大、新加坡、越南6個地區(qū)為采樣點,具體數(shù)據(jù)如圖2所示。
圖2 H1N1和SARS重災(zāi)區(qū)折線圖
在社會科學(xué)諸如社會學(xué)、心理學(xué)、人口學(xué)以及經(jīng)濟學(xué)當中,Logistic回歸模型是對二分類因變量進行回歸分析時應(yīng)用最為普遍的多元量化分析方法,既可以有連續(xù)的自變量,也可以有分類的自變量,通過Logistic回歸分析,可以得到自變量的權(quán)重,進而預(yù)測事件發(fā)生的可能性,其公式如下:
(1)創(chuàng)建因變量。以是否為大流行病的0-1變量為因變量,“0”表示該病不是大流行病,“1”表示該病為大流行病;以之前篩選后的因素為自變量,分別為感染率、病死率、人口密度、經(jīng)濟狀況、醫(yī)療條件的Logistic模型。
(2)建立連接函數(shù)。為了把看成事件發(fā)生的概率,選擇Sigmoid函數(shù)作為連接函數(shù):
求出樣品的對數(shù)似然函數(shù),帶入數(shù)據(jù)求出事件發(fā)生概率:
由于引入的變量中存在虛擬變量,為了防止多重共線性的影響,只抽取兩個設(shè)定啞變量的其中一個進行回歸分析。代入提取的數(shù)據(jù)集,通過SPSS進行邏輯回歸,迭代5次得到的回歸方程以及回歸系數(shù)顯著性結(jié)果為
根據(jù)回歸結(jié)果可以看出,該疾病是否為大流行與該病的病死率(0.01*)、持續(xù)時間(0.001**)和醫(yī)療條件(0.01*)有很大關(guān)系,與該地區(qū)經(jīng)濟狀況關(guān)系不大,由于此次虛擬變量中選取人口密度小和經(jīng)濟狀況差這兩類情況作為參照,可以得到以下結(jié)論[7]:
(1)病死率以及疫情持續(xù)時間是判斷該病是否為大流行的主要依據(jù),某類流行病的持續(xù)時間越長,病死率越高,該流行病更有可能為大流行病。這也與現(xiàn)實情況相同,某些病雖然存在很大的傳播性和感染率,但是病死率較低,生命是任何防疫工作的中心,只要病死率維持在很低的水平,該病就不會造成太大的恐慌和損失。
(2)可以看到,疫情在醫(yī)療條件好的地區(qū)爆發(fā)的可能性比醫(yī)療條件差的地區(qū)爆發(fā)的可能性小,疫情在人口密度大的地區(qū)比人口密度小的地區(qū)爆發(fā)的可能性大,這也與現(xiàn)實情況相符合。
根據(jù)SPSS生成的結(jié)果對該回歸模型的已知參數(shù)進行再預(yù)測,結(jié)果如表1。
表1 再預(yù)測結(jié)果表
根據(jù)表1,該回歸模型對已知樣本再預(yù)測的準確率為100%,說明該預(yù)測模型較為準確。此外,由于目前中國的新冠疫情處于收尾階段,根據(jù)附錄提取出此次中國新冠疫情的相關(guān)指標進行模型的驗證,相關(guān)指標具體值如表2所示。
表2 相關(guān)指標值表
將感染率和病死率分別平方,依次加入到模型中進行回歸,得到3個回歸方程的表達式如下:
利用Matlab自帶的Randperm()函數(shù)在所取樣本中隨機抽出3個樣本,作為測試組,其余樣本作為預(yù)測組,對以上4組回歸函數(shù)進行多次預(yù)測,平均成功率如表3所示。
表3 多次預(yù)測結(jié)果表
通過上述研究,本文利用選取感染率、病死率、醫(yī)療條件、人口密度等指標作為解釋變量建立二分類Logistic模型,通過得到的被解釋變量的預(yù)測值(即該病是否為大流行病的概率)來判斷該病是否為大流行病。最后利用交叉驗證的思想對模型進行了修正,定義不同的訓(xùn)練集和測試集,得到最優(yōu)的回歸方程,最終得到將病死率的平方項引入回歸模型中,模型分類的準確率更高。為此可以為有關(guān)部門防范“大流行病”提供一下建議[8]:
(1)嚴格控制病死率是防范該流行病成為“大流行病”的首要考慮因素,相關(guān)醫(yī)療和生物部門需要及時了解各類疾病的病理結(jié)構(gòu),加緊藥物研發(fā)和臨床診斷,將病死率控制到最低。
(2)進行緊急隔離,防止疫情持續(xù)擴散。人口密度和疫情持續(xù)時間對該病是否為“大流行病”都有著決定性作用,要及時疏散人群,堅決落實感染者的隔離工作,及時反饋感染者信息,同時加大社交媒體的宣講普及,提醒未感染市民做好自我防護,避免疫情大規(guī)模擴散。
(3)加強醫(yī)療衛(wèi)生體系的建設(shè),目前全球一體化的進程愈發(fā)明朗,國家與國家之間的連接更加緊密,任何地區(qū)受到流行病的影響都會波及其他國家,各國之間應(yīng)該精誠合作,積極建設(shè)全球化的醫(yī)療衛(wèi)生系統(tǒng),為全球人民的生命安全保駕護航。
[1] 袁鴻昌. 流行病學(xué)研究方法的類型及其分類原則[J]. 哈爾濱醫(yī)藥,1988(01): 61-64
[2] 李曉毅,徐兆棣. 突發(fā)傳染病的貝葉斯逐步分類判別[J]. 中國衛(wèi)生統(tǒng)計,2009, 26(03): 323-324, 327
[3] 林寰,潘曉平,李苑. 流行病學(xué)中有序分類結(jié)果變量的回歸模型介紹及應(yīng)用[J]. 現(xiàn)代預(yù)防醫(yī)學(xué),2006(05): 704-706
[4] 胡龍飛,呂志平,林愛華. 中國國境口岸監(jiān)測傳染病分類研究(一)——應(yīng)用賦值加權(quán)和聚類分析法對傳染病進行分類[J].中國國境衛(wèi)生檢疫雜志,2006(02): 65-72
[5] 李傅冬. 基于貝葉斯分類算法的浙江省常見傳染病輔助分類模型研究[D]. 杭州:浙江大學(xué),2013
[6] 原華榮. 世界人口分布的趨勢及特征[J]. 西北人口,1991(04): 25-30
[7] Weiss R A, Mcmichael A J. Social and environmental risk factors in the emergence of infectious diseases[J]. Nature Medicine, 2004, 10(12): S70-76
[8] 熊成龍,蔣露芳,姜慶五.-冠狀病毒引起人類疾病的流行與控制[J]. 上海預(yù)防醫(yī)學(xué),2020(1): 20-20
Epidemiological classification method based on optimized logistic model
AN Chuan-bo,LIU Yu-hang,ZHOU Zi-xin,ZHU Jia-ming
(School of Statistics and Applied Mathematics, Anhui University of Finance and Economics, Anhui Bengbu 233030, China)
In this paper, we quantitatively restrict the classification of epidemics. In order to determine whether an infectious disease is a pandemic, we collected samples of "pandemic" severely affected areas represented by H1N1 and "epidemic" severely affected areas represented by SARS. Define the "heavy disaster area" for each epidemic sample. Secondly, select the infection rate, mortality, medical condition, population density and other indicators as explanatory variables to establish a binary classification logistic model, and judge the disease by the predicted value of the explained variable (that is, the probability of whether the disease is a pandemic) whether it is a pandemic. Finally, due to the complexity of the disease epidemic problem, we re-regressed by introducing square terms in the model in turn, by defining different training sets and test sets, we got the optimal regression equation, and finally got the square term of the mortality rate into the regression model in the model classification accuracy is higher.
classification logistic model;heavy disaster area;training group;test group;mortality
2020-09-21
國家自然科學(xué)基金項目“自然資源資產(chǎn)與經(jīng)濟增長、經(jīng)濟安全的協(xié)調(diào)機制與策略研究”(71934001);安徽省教研項目“大數(shù)據(jù)背景下學(xué)科競賽對新經(jīng)管人才創(chuàng)新能力培養(yǎng)研究”(2018jyxm1305);大數(shù)據(jù)背景下數(shù)學(xué)類專業(yè)課程“數(shù)學(xué)建模”教學(xué)內(nèi)容的研究(acjyyb2018006)
安傳波(2000-),男,安徽六安人,本科,主要從事經(jīng)濟統(tǒng)計學(xué)應(yīng)用研究,839072347@qq.com。
朱家明(1973-),男,安徽宿州人,副教授,碩士,主要從事應(yīng)用數(shù)學(xué)研究,zhujm1973@163.com。
R181.3;O212.1
A
1007-984X(2021)01-0083-06