王明齋,李佳,芮佳,王瑤,楊蒙,王琦琦,陳田木,鄭蓉蓉?
結(jié)核病是由結(jié)核桿菌引起的經(jīng)由呼吸道傳播的慢性傳染病。盡管多年來我國結(jié)核病防控已經(jīng)取得了很大進展,但仍面臨諸多困難和挑戰(zhàn),實現(xiàn)結(jié)核病消除目標仍任重道遠。疫情統(tǒng)計預(yù)測對于結(jié)核病控制乃至制定規(guī)劃目標具有重要參考價值。當前,結(jié)核病疫情數(shù)學(xué)建模研究較多,如常微分方程模型和鏈二項分布模型等[1,2],但數(shù)學(xué)模型太過于復(fù)雜,不利于在基層公共衛(wèi)生部門推廣和運用。為此,本文對11種常見的統(tǒng)計預(yù)測模型及其原理、模型擬合優(yōu)度檢驗原理與最優(yōu)模型篩選等進行介紹,并通過具體實例介紹操作方法,探討模型在結(jié)核病等傳染病疫情預(yù)測中的應(yīng)用價值。
模型方程為:Y=b0+(b1×t)。
該模型是線性回歸模型中最簡單的一種,利用普通最小二乘法(Ordinary Least Squares,OLS)對回歸系數(shù)進行參數(shù)估計,其OLS估計量具有很好的統(tǒng)計學(xué)性質(zhì)[3],適用于進行簡單的疫情預(yù)測。但是由于直線回歸的局限性,在建立直線回歸模型的基礎(chǔ)上,隨著t逐漸遠離,回歸模型的預(yù)測能力將顯著下降。
對解釋變量t進行一定變化后化為線性模型,對該模型直接進行OLS估計,得到模型的參數(shù)估計值,以建立預(yù)測模型[3,4]。
(1)對數(shù)曲線模型(Logarithmic)模型方程為:Y=b0+(b1×ln(t))。
對數(shù)曲線圖形為一條單調(diào)遞增并且增長速度逐漸減慢的曲線,理論上自然地區(qū)新發(fā)傳染病,其增長趨勢較接近于對數(shù)曲線,因而在很多情況下對數(shù)曲線模型的擬合度更優(yōu)。
(2)反函數(shù)模型(Inverse)
模型方程為:Y=b0+(b1/t)。
也稱倒數(shù)模型,此類模型最顯著的特征是,當t無限增大時,函數(shù)模型將無限靠近其漸近線或極值[3]。而就傳染病而言,很難確定發(fā)病率或發(fā)病人數(shù)的閾值,因而反函數(shù)模型的應(yīng)用常被限制。
(3)二次函數(shù)(Quadratic)
模型方程為:Y=b0+(b1×t)+(b2×t2)
二次函數(shù)的典型特征為存在一個最值,當發(fā)病人數(shù)呈現(xiàn)出典型的“單峰”變化趨勢,可考慮使用二次函數(shù)。
(4)三次函數(shù)(Cubic)
模型方程為:Y=b0+(b1×t)+(b2×t2)+(b3×t3)。
與上述模型相比,非線性模型中的參數(shù)求解更為復(fù)雜,常利用曲線直線化方法來尋找曲線回歸模型中參數(shù)的最小二乘估計[5]。常見的非線性模型有以下四種。
(1)復(fù)合函數(shù)(Compound):Y=b0×(b1t)。
(2)冪函數(shù)(Power):Y=b0×(tb1)。
(3)指數(shù)曲線(Exponential):Y=b0×(eb1×t)。在應(yīng)用指數(shù)曲線時通常會兩邊同時取對數(shù)進行數(shù)據(jù)處理,再進行最小二乘估計。很多研究表明,大量事物的發(fā)展,其定量特征表現(xiàn)為隨時間按指數(shù)或接近指數(shù)規(guī)律增長[6],因此,指數(shù)曲線具有較高的應(yīng)用價值。
(4)廣義S形曲線。曲線圖象呈現(xiàn)出初期較慢,中期發(fā)展迅速,后期趨緩并最終達到飽和的這種S形變化過程。常見的廣義S形曲線有以下三種函數(shù)形式:①S形曲線(S):Y=eb0+(b1/t);②生長曲線
(Growth):Y=eb0+(b1×t);③Logistic曲線(Logistic):Y=1/(1/u+(b0×b1t))。在生物領(lǐng)域內(nèi)都存在大量S形技術(shù)指標,對這類指標的統(tǒng)計分析常借助最小二乘估計進行擬合、控制和預(yù)測[7]。
在上述的11種時間序列模型中,t為時間,是自變量,可以是日、周、月、年;Y為因變量,常為發(fā)病人數(shù)或患病人數(shù),t、Y均可根據(jù)研究者收集的數(shù)據(jù)類型來確定。本研究時間t以月為單位,因變量Y為每月報告新病例數(shù)。b0、b1、b2、b3、u是以數(shù)據(jù)進行曲線擬合得到的模型系數(shù)[8]。時間序列分析是對變量隨時間發(fā)展變化的一種研究,并利用以往的統(tǒng)計數(shù)據(jù)建立外推預(yù)測方法的數(shù)學(xué)模型,上述的11種時間序列模型屬于趨勢外推法,常用于中短期的預(yù)測分析,但對于波動性較大的序列不適合做精確預(yù)測[9]。利用趨勢外推模型可對傳染病的發(fā)病趨勢進行簡單的預(yù)測,揭示傳染病流行、暴發(fā)的發(fā)展過程,揭示流行和發(fā)展規(guī)律,分析流行和暴發(fā)的原因,為制定預(yù)防控制策略和措施、合理配置醫(yī)療衛(wèi)生服務(wù)資源提供科學(xué)依據(jù)[10]。
采用決定系數(shù)R2來度量回歸線的擬合優(yōu)度,R2取值介于0 ~1之間,越接近1,模型的回歸效果越好,越接近0,模型的回歸效果越差,并對其進行方差分析以求得顯著性水平[11]。
采用相對誤差ê和絕對誤差e進行評價(對預(yù)測誤差取絕對值以消除正負號的影響),計算公式如下[11]:
其中,Ya和Yt分別表示實際數(shù)據(jù)和模型模擬數(shù)據(jù)。
通常而言,根據(jù)擬合優(yōu)度檢驗結(jié)果選擇有統(tǒng)計學(xué)意義的模型,再通過準確性評價進行模型驗證后篩選可靠的模型。即根據(jù)各模型決定系數(shù)大小依次排序結(jié)合P值進行模型選擇,在P<0.05的模型中優(yōu)先選擇決定系數(shù)比較大的模型。 若通過以上兩個步驟未選擇合適的模型,則建模失敗,此時可以同過模型校正的方式重新建模和篩選直至篩選出合適的模型為止;若合適的模型存在多個時,可以通過實際生物學(xué)意義進行綜合判斷選擇最優(yōu)或者多個模型同時應(yīng)用。
該11個模型的優(yōu)缺點類似。主要優(yōu)點是模型原理簡單、易于理解,操作簡便(在SPSS軟件里簡單操作即可),要求數(shù)據(jù)簡單(僅需要發(fā)病率或發(fā)病數(shù)隨時間變化的數(shù)據(jù)即可),有利于基礎(chǔ)公共衛(wèi)生人員開展快速的發(fā)病趨勢預(yù)測。主要缺點是自變量為時間,即把疾病的發(fā)生歸因于時間,未考慮疾病的傳播機制,也未考慮環(huán)境與社會經(jīng)濟、干預(yù)措施等其他影響因素。
本研究以廈門市結(jié)核病報告疫情數(shù)據(jù)為例開展模型建立、擬合優(yōu)度檢驗、模型篩選和預(yù)測研究。
收集《全國傳染病疫情報告管理信息系統(tǒng)》中2005年1月至2019年6月報告的廈門市結(jié)核病疫情數(shù)據(jù)。以2005年1月至2018年12月疫情數(shù)據(jù)為建模數(shù)據(jù)集,2019年1月至6月疫情數(shù)據(jù)為驗證數(shù)據(jù)集。數(shù)據(jù)顯示,廈門市報告結(jié)核病疫情2005年相對其他年份較高,之后有逐年緩慢下降趨勢,但在2018年起略有上升趨勢。
采用IBM SPSS 21.0軟件“分析”工具中的“曲線估計”功能開展11種模型的建模研究,因變量選擇已收集整理的廈門市2005年1月至2018年12月報告的結(jié)核病疫情數(shù)據(jù)(新發(fā)病例數(shù)),自變量選擇時間(time),以月為單位。
模型與數(shù)據(jù)擬合結(jié)果顯示,11種模型均有統(tǒng)計學(xué)意義(P<0.05)(表1)。其中R2最大為Cubic模型,其次為Quadratic模型和Logarithmic模型。
將擬合效果最優(yōu)的3個模型進行模型驗證。結(jié)果顯示,2019年實際報告數(shù)據(jù)有2個月份數(shù)據(jù)不在Cubic 模型95%CI之內(nèi),提示其驗證效果欠佳(圖1)。Logarithmic模型和Quadratic 模型95%CI均能包含驗證數(shù)據(jù)集,提示該兩個模型通過了模型驗證,可以用于預(yù)測。Logarithmic模型平均絕對誤差為28、平均相對誤差為16.99%,Quadratic 模型平均絕對誤差為24、平均相對誤差為12.82%,提示Quadratic模型驗證效果優(yōu)于Logarithmic模型。Quadratic模型預(yù)測2019年7 ~12月報告發(fā)病數(shù)分別為191(95%CI:124-259)、192(95%CI:124-260)、193(95%CI:125-261)、194(95%CI:126-262)、195(95%CI:127-263)和196(95%CI:128-264)。預(yù)測病例數(shù)略有上升趨勢。
表1 11種模型擬合優(yōu)度檢驗結(jié)果
圖1擬合優(yōu)度較高的3個模型驗證及預(yù)測情況
Logarithmic模型、Quadratic 模型和Cubic模型的方程如下:
本研究通過理論介紹和實例操作介紹了常見統(tǒng)計預(yù)測模型及其在結(jié)核病預(yù)測中的應(yīng)用。建模的關(guān)鍵點包括數(shù)據(jù)選擇、擬合優(yōu)度檢驗和模型驗證等。擬合優(yōu)度檢驗在整個建模中具有最為關(guān)鍵的意義。曲線擬合是先根據(jù)專業(yè)知識、經(jīng)驗或點分布趨勢,選擇一個適合變量間關(guān)系的曲線類型,再用曲線直線化或其它數(shù)學(xué)方法,根據(jù)實測數(shù)據(jù)求出曲線回歸方程[5]。在許多研究中,對于同一組數(shù)據(jù),研究者通常會嘗試多種曲線類型進行擬合,再通過比較其決定系數(shù)、顯著性水平及模型適用范圍來選擇較優(yōu)的曲線模型。在實際應(yīng)用時往往要用不同的方法互相補充,對計算的結(jié)果,結(jié)合有關(guān)影響因素進行必要的修正,使預(yù)測結(jié)果更精確[12]。
總的來說,本文介紹的11種預(yù)測模型的優(yōu)點是模型簡潔,可操作性強,利用目前普及的具有曲線擬合能力的軟件(如SPSS)即可得出模型方程,適用于基層人員進行簡單預(yù)測。但是曲線擬合方程不能處理時間滯后變量,然而時間序列資料常常存在變量間時間滯后關(guān)系,因此采用普通線性模型和曲線擬合分析方法研究時間序列資料可能會產(chǎn)生一定的誤差[13]。模型擬合優(yōu)度結(jié)果顯示,雖然決定系數(shù)均有統(tǒng)計學(xué)意義,但其最大為0.487,說明僅用時間作為自變量的模型不能很好地解釋結(jié)核病的發(fā)病規(guī)律,這也是該類模型的最主要局限性。更多的影響因素如傳播特征、環(huán)境和社會經(jīng)濟因素、干預(yù)措施等在今后研究中應(yīng)給予進一步考慮。
我國結(jié)核病感染率高,起病隱匿、發(fā)病緩慢,該特征使得觀測到的大量數(shù)據(jù)明顯滯后,因此相較于急性發(fā)病的傳染病,使用曲線擬合的方法對結(jié)核病進行預(yù)測誤差更大。然而,影響結(jié)核病發(fā)病率的因素諸如地理、社會、耐藥等十分復(fù)雜,時間序列分析克服了影響預(yù)測對象的因素錯綜復(fù)雜、不易分析和數(shù)據(jù)資料不易得到的難題,以時間t綜合替代各種影響因素,根據(jù)原始數(shù)列的特點選擇適宜的模型建立時序模型。其過程簡便、經(jīng)濟、適用、短期預(yù)測精度較高[13]。因此,基層人員運用基于時間序列分析的曲線擬合方法對結(jié)核病疫情進行簡單預(yù)測可行性高,具有較高的應(yīng)用價值。