北京協(xié)和醫(yī)學(xué)院,中國(guó)醫(yī)學(xué)科學(xué)院,國(guó)家心血管病中心,阜外心血管病醫(yī)院,心血管疾病國(guó)家重點(diǎn)實(shí)驗(yàn)室(100037)
嚴(yán)若華 王 楊 李 衛(wèi)△
既往數(shù)據(jù)較少時(shí)預(yù)測(cè)患病率的不同方法比較
北京協(xié)和醫(yī)學(xué)院,中國(guó)醫(yī)學(xué)科學(xué)院,國(guó)家心血管病中心,阜外心血管病醫(yī)院,心血管疾病國(guó)家重點(diǎn)實(shí)驗(yàn)室(100037)
嚴(yán)若華 王 楊 李 衛(wèi)△
目的比較既往數(shù)據(jù)較少時(shí)不同方法在疾病預(yù)測(cè)中的應(yīng)用。方法利用我國(guó)建國(guó)以來(lái)四次大規(guī)模高血壓抽樣調(diào)查的數(shù)據(jù),分別采用幾何級(jí)數(shù)法、logistic函數(shù)模型和GM(1,1)灰色模型對(duì)患病率進(jìn)行估計(jì),并通過(guò)對(duì)比各方法的擬合效果、理論依據(jù)和臨床意義等,評(píng)價(jià)其可靠性和準(zhǔn)確性。結(jié)果所有方法用于高血壓患病率的短期預(yù)測(cè)(2~3年),結(jié)果都比較相似,2005年患病率的估計(jì)值均處在(19.3±1.0)%之間。但隨著預(yù)測(cè)時(shí)間的延長(zhǎng),不同方法給出的疾病趨勢(shì)則有了較大幅度的差異,截至2050年,GM(1,1)灰色模型(R2=0.9863)的預(yù)測(cè)結(jié)果已達(dá)到86.44%,幾何級(jí)數(shù)法給出的估計(jì)值也超過(guò)75%,而logistic函數(shù)模型(R2=0.6933)認(rèn)為患病率仍只有33.53%。其中l(wèi)ogistic模型估計(jì)較保守,并假設(shè)患病率始終不會(huì)超過(guò)上限40%;而幾何級(jí)數(shù)法和GM(1,1)模型給出的預(yù)測(cè)值將快速增長(zhǎng),于2060年之前突破100%。結(jié)論幾何級(jí)數(shù)法結(jié)合了數(shù)據(jù)的數(shù)學(xué)意義和臨床意義,適用于中短期的患病率估計(jì),而logistic回歸模型給出的患病率趨勢(shì)在理論上符合人們對(duì)未來(lái)疾病發(fā)展的預(yù)估,更適合遠(yuǎn)期推斷。GM(1,1)灰色模型與原始數(shù)據(jù)的擬合程度較高,且不要求提供大量相關(guān)信息,因此也較為適合數(shù)據(jù)點(diǎn)較少的短期預(yù)測(cè)。
高血壓 患病率 預(yù)測(cè) 幾何級(jí)數(shù)法 logistic函數(shù) 灰色模型
目前用于疾病預(yù)測(cè)的方法主要包括時(shí)間序列模型、多元回歸分析模型等[1]。前一種方法通過(guò)分析疾病既往的發(fā)展規(guī)律來(lái)推測(cè)未來(lái)的趨勢(shì),因此依賴于大量、密集的樣本數(shù)據(jù),需要對(duì)疾病隨時(shí)間的變化情況有全面的了解;而后一種方法則需考慮相關(guān)因素對(duì)疾病的影響,因此要在建立模型之前收集諸多變量,了解它們對(duì)疾病的影響效果及其自身的發(fā)展趨勢(shì)。此外,起源于隨機(jī)過(guò)程理論的Markov狀態(tài)轉(zhuǎn)移模型[2]也被用于疾病的預(yù)測(cè),在建模時(shí)要將總體人群的年齡增長(zhǎng)納入考量,因此需要完整的分年齡別的患病率數(shù)據(jù)資料。
這些方法雖然已廣泛應(yīng)用于實(shí)際,但當(dāng)疾病的既往數(shù)據(jù)較少時(shí),資料所提供的信息卻無(wú)法支持模型的建立。尤其是一些慢性非傳染性疾病的患病率數(shù)據(jù),需要通過(guò)大規(guī)模的抽樣調(diào)查采集,而這些調(diào)查又面臨著范圍廣、周期長(zhǎng)等困難,實(shí)施較為不便,因此該類疾病的既往資料普遍較少,難以進(jìn)行數(shù)據(jù)處理和分析。我們希望能夠找到一些方法,在數(shù)據(jù)量不足的情況下,也可以用于疾病預(yù)測(cè)并得到相對(duì)精確可靠的結(jié)論,為及時(shí)準(zhǔn)確地了解人群的患病情況提供可參考的依據(jù)。
本文以全國(guó)15歲以上人群的高血壓流行狀況為例,介紹幾何級(jí)數(shù)法、logistic函數(shù)模型和GM(1,1)灰色模型在疾病預(yù)測(cè)中的應(yīng)用,并通過(guò)估計(jì)未來(lái)的患病率發(fā)展情況,分析各方法的擬合效果、理論依據(jù)和臨床意義等,對(duì)幾種方法進(jìn)行比較。
1.幾何級(jí)數(shù)法
幾何級(jí)數(shù)法假設(shè)患病率的年均增長(zhǎng)率保持不變,其中
記恒定的增長(zhǎng)率為r,若最近一次調(diào)查(2002年)得到的患病率為P0,則(2002+t)年的患病率可以表示為Pt=P0(1+r)t。
2.logistic函數(shù)模型
已知疾病流行狀況的歷史信息,我們可以考慮以時(shí)間為自變量x、患病率為因變量y,采用logistic函數(shù)建模:
它所描述的是“S型”生存曲線的發(fā)展?fàn)顩r,即在經(jīng)歷過(guò)一段時(shí)間的快速上升后逐漸趨于平緩,最終無(wú)限接近但永不超越一個(gè)界值k。
3)在全球變暖背景下,西太平洋暖池和次表層SST都有明顯的年代際增溫趨勢(shì)(Wang and Vikram,2008),故將計(jì)算得到的熱含量和江南雨季降水同時(shí)進(jìn)行去除線性趨勢(shì)處理,只討論兩者年際變化的相關(guān)關(guān)系。
3.GM(1,1)灰色模型
一階微分灰色模型是灰色理論系統(tǒng)的基礎(chǔ),通過(guò)少量的、不完全的信息,建立微分預(yù)測(cè)模型,對(duì)事物發(fā)展規(guī)律作出模糊性的長(zhǎng)期描述。
已知變量Y(0)={Y(0)(i),i=1,2,…,n}為連續(xù)n年調(diào)查得到的患病率的原始數(shù)據(jù),對(duì)Y(0)進(jìn)行一次累加得Y(1)={Y(1)(x),x=1,2,…,n},其中
此時(shí)可對(duì)Y(1)建立微分方程
該微分方程的解為
我國(guó)自建國(guó)以來(lái)共進(jìn)行過(guò)四次大規(guī)模的高血壓抽樣調(diào)查[4-5]。調(diào)查對(duì)象為在我國(guó)有常住戶口的15歲及以上人口(無(wú)法與調(diào)查人員合作的精神疾病患者除外),抽樣方法采用多階段不等比例整群抽樣方法,抽樣人數(shù)根據(jù)預(yù)期分析指標(biāo)和實(shí)際經(jīng)費(fèi)條件在省市自治區(qū)內(nèi)調(diào)整。調(diào)查所得的患病率結(jié)果分別為:1959年5.11%、1979年7.73%、1991年13.58%和2002年17.65%。可以發(fā)現(xiàn),高血壓患病率在近50年來(lái)呈明顯上升趨勢(shì),且上升幅度較大。
為了解如今高血壓的流行狀況,并對(duì)未來(lái)的疾病發(fā)展趨勢(shì)有一個(gè)預(yù)估,我們將這四個(gè)數(shù)據(jù)點(diǎn)分別代入之前介紹的方法,可以得到如下三個(gè)模型表達(dá)式(Pt為第t年的患病率預(yù)測(cè)值):
幾何級(jí)數(shù)法中,首先計(jì)算出歷次調(diào)查間隔內(nèi)的年均增長(zhǎng)率并計(jì)算其平均值,得到r=3.1035%,進(jìn)而第t年的患病率即可表示為;Pt=17.65×(1+0.031)t-2002;
logistic函數(shù)模型中,利用最小二乘法估計(jì)各擬合函數(shù)的系數(shù),可得其中界值k取40,是因?yàn)槲覀兘Y(jié)合擬合效果和臨床意義兩方面的因素,并對(duì)比美國(guó)近年來(lái)的高血壓流行狀況,認(rèn)為如果及時(shí)進(jìn)行干預(yù)和防控,我國(guó)高血壓患病率在未來(lái)可以維持在30%~40%左右;
采用GM(1,1)模型進(jìn)行預(yù)測(cè),需要知道從1959年到2002年每一年的患病率情況,由于目前我們只有1959、1979、1991、2002年這四年的全國(guó)普查數(shù)據(jù),因此還需利用分段線性插值函數(shù)來(lái)估計(jì)兩次調(diào)查間患病率的變化。之后代入微分方程求解,得到
圖1 各方法預(yù)測(cè)結(jié)果比較
通過(guò)上述公式,可以計(jì)算出任意一年高血壓患病率的預(yù)測(cè)值,結(jié)果如圖1所示。所有方法在短期預(yù)測(cè)(2~3年)中的結(jié)果都很相似,2005年患病率的估計(jì)值均處在(19.3±1.0)%之間;而隨著預(yù)測(cè)時(shí)間的延長(zhǎng),不同方法給出的患病率趨勢(shì)則有了較大幅度的差異。我們以2015、2030和2050年為例,對(duì)比各方法的中長(zhǎng)期預(yù)測(cè)結(jié)果,同時(shí)通過(guò)決定系數(shù)R2評(píng)價(jià)模型的擬合效果:
其中Yi和分別代表各方法的多個(gè)預(yù)測(cè)結(jié)果及其均值。ei為預(yù)測(cè)誤差,可以得到表1給出的結(jié)果。
表1 各方法預(yù)測(cè)結(jié)果及擬合效果比較
本文介紹了幾何級(jí)數(shù)法、logistic函數(shù)模型和GM(1,1)灰色模型在疾病預(yù)測(cè)中的應(yīng)用,并以全國(guó)15歲以上人群的高血壓流行狀況為例,對(duì)這些方法的應(yīng)用進(jìn)行了詳細(xì)的說(shuō)明。
從短期預(yù)測(cè)的角度考慮,三種方法給出的估計(jì)結(jié)果相似。其中幾何級(jí)數(shù)法不同于其他兩種方法,除了考慮數(shù)據(jù)的數(shù)學(xué)意義之外,還從臨床的角度出發(fā),基于既往數(shù)據(jù)和一個(gè)簡(jiǎn)單的假設(shè)進(jìn)行建模,更具可靠性;此外它還在沿用外推法[6]和算術(shù)級(jí)數(shù)法[7]基本思路的同時(shí),加入了對(duì)過(guò)去疾病發(fā)展規(guī)律及患病率基數(shù)的考量,更加符合實(shí)際,因此在短期預(yù)測(cè)中不失為一種良好的估計(jì)手段。
從長(zhǎng)期預(yù)測(cè)的角度上考慮,除logistic函數(shù)模型以外,其余兩種方法均估計(jì)患病率將在50年內(nèi)升至100%,也就是說(shuō),我國(guó)可能很快就將面臨大量人群患病的困境,這種患病率快速上升的趨勢(shì)并不符合人們對(duì)疾病發(fā)展的預(yù)期。我們認(rèn)為,這是由于疾病的既往資料不足,難以精確了解數(shù)據(jù)的分布規(guī)律,一些模型對(duì)于近期的預(yù)測(cè)仍較具意義,而在長(zhǎng)期推斷(≥10年)中則缺乏依據(jù)。相比較而言,logistic函數(shù)模型的預(yù)測(cè)結(jié)果雖然較為保守,但在長(zhǎng)期預(yù)測(cè)中仍具有更大的優(yōu)勢(shì)。
從擬合效果的角度上考慮,所有模型的決定系數(shù)都達(dá)到0.95以上,這可能是因?yàn)樵紨?shù)據(jù)點(diǎn)過(guò)少,大多數(shù)模型均可以與觀測(cè)有良好的契合。其中GM(1,1)灰色模型的R2更接近1,且不要求提供大量相關(guān)信息,因此較為適合少量數(shù)據(jù)點(diǎn)的預(yù)測(cè)。
這三類方法在不同的預(yù)測(cè)時(shí)間和精度要求下,可以發(fā)揮各自的優(yōu)勢(shì),然而它們也存在一定問(wèn)題和局限性。如幾何級(jí)數(shù)法,雖然它的預(yù)測(cè)結(jié)果與此前疾病的增長(zhǎng)趨勢(shì)契合,在中短期預(yù)測(cè)中具有更高的精度,但模型依賴于較強(qiáng)的假設(shè),一旦患病率有所波動(dòng),就會(huì)引起較大程度的誤差;logistic函數(shù)模型是三者中較為可靠的一種,它的趨勢(shì)在理論上符合人們對(duì)未來(lái)疾病發(fā)展的預(yù)估,同時(shí)上限的選擇也依賴于疾病的實(shí)際發(fā)展,具有現(xiàn)實(shí)意義,然而logistic函數(shù)并不能判定患病率的上界和達(dá)到上界的年限,因此所得結(jié)果只能作為保守估計(jì)的一個(gè)參考;GM(1,1)灰色模型所需數(shù)據(jù)點(diǎn)少,不需要大量信息,但如果調(diào)查時(shí)間不連續(xù),則需要用到插值模型估計(jì)歷次調(diào)查期間的患病率情況,從而影響估計(jì)精度。
此外,近年來(lái)還有一些其他方法被大量用于疾病預(yù)測(cè),如簡(jiǎn)單函數(shù)的回歸模型[8-9]、BP神經(jīng)網(wǎng)絡(luò)[1]等。前者需要依靠患病率的歷史信息,選取合適的函數(shù)對(duì)數(shù)據(jù)進(jìn)行擬合,但當(dāng)數(shù)據(jù)點(diǎn)過(guò)少時(shí),函數(shù)的次數(shù)不宜超過(guò)二次,此時(shí)幾乎所有回歸模型都可以對(duì)觀測(cè)達(dá)到良好的擬合程度,并且它們的曲線趨勢(shì)均將升至100%;后者雖然可以充分逼近任意復(fù)雜的非線性關(guān)系,但模型的可重復(fù)性不強(qiáng),同時(shí)在學(xué)習(xí)樣本較少時(shí),該方法會(huì)給出傾向于低估的結(jié)論。此外,至今還沒(méi)有明確的方法用于判斷網(wǎng)絡(luò)隱含層的層數(shù)和節(jié)點(diǎn)數(shù),以及如何選取每一層之間的傳遞函數(shù),因此網(wǎng)絡(luò)結(jié)構(gòu)的選取沒(méi)有可靠的依據(jù),結(jié)論難以解釋。
綜上所述,幾何級(jí)數(shù)法、灰色模型和logistic函數(shù)模型在既往數(shù)據(jù)較少的預(yù)測(cè)中均具有較大的優(yōu)勢(shì),其中前兩種方法適用于中短期的患病率估計(jì),而后一種更適合遠(yuǎn)期推斷。更進(jìn)一步,相對(duì)于灰色模型,幾何級(jí)數(shù)法計(jì)算更為簡(jiǎn)單,因此更加實(shí)用;而患病率的增長(zhǎng)趨勢(shì)并不明顯時(shí),幾何級(jí)數(shù)法難以獲取恒定的年增長(zhǎng)率,此時(shí)灰色模型就很適用于少量、不完全的信息估計(jì)。在實(shí)際預(yù)測(cè)中,我們可以根據(jù)不同的預(yù)測(cè)目的選取合適的方法建模。
值得注意的是,隨著預(yù)測(cè)時(shí)間的延長(zhǎng),估計(jì)的可靠性降低,因此在進(jìn)行患病率預(yù)測(cè)時(shí),我們應(yīng)收集盡可能多的調(diào)查數(shù)據(jù),并保證最近一次調(diào)查的時(shí)間在10年之內(nèi),以期對(duì)如今的疾病流行狀況有較為可靠的估計(jì)。這也在另一方面督促政策制定者,盡量每十年對(duì)重要疾病進(jìn)行一次大規(guī)模普查,以便我們能及時(shí)準(zhǔn)確地了解疾病發(fā)展情況,做好防治工作。
1.王瑋,許偉,鄭亞軍,等.基于BP神經(jīng)網(wǎng)絡(luò)的圍產(chǎn)兒出生缺陷患病率預(yù)測(cè).中國(guó)流行病學(xué)雜志,2007,28(5):507-509.
2.Moran A,Gu DF,Zhao D,et al.Future Cardiovascular Disease in China:Markov Model and Risk Factor Scenario Projections From the Coronary Heart Disease Policy Model—China.Circ Cardiovasc Qual Outcomes,2010,3:243-252.
3.李立明.中國(guó)居民營(yíng)養(yǎng)與健康狀況調(diào)查報(bào)告之四2002高血壓.北京:人民衛(wèi)生出版社,2008.
4.全國(guó)心血管病防治研究辦公室,全國(guó)腦血管病防治研究辦公室.全國(guó)1991年高血壓抽樣調(diào)查工作手冊(cè).杭州:1991.
5.衛(wèi)生部心血管中心.中國(guó)心血管病報(bào)告2011.北京:中國(guó)大百科全書(shū)出版社,2012:13-31.
6.The American Heart Association Statistics Committee and Stroke Statistics Subcommittee.Heart Disease and Stroke Statistics-2012 Update.Circulation,2012,125:e3-e5;e88-e96.
7.李媛秋,代敏,陳元立,等.中國(guó)省區(qū)水平肺癌死亡率估計(jì)方法研究.中國(guó)肺癌雜志,2011,14(2):120-126.
8.金光楠,蔡振群.GM(1,1)灰色模型在預(yù)測(cè)麻風(fēng)病患病率中的應(yīng)用.數(shù)理醫(yī)藥學(xué)雜志,2007,20(5):720,727.
9.余鳳章.百日咳患病率的微分預(yù)測(cè)法.國(guó)際流行病學(xué)傳染病學(xué)雜志,1977,(4):170-171.
10.磨良群,孫傳真,董國(guó)富.廣西麻風(fēng)病發(fā)病率和患病率的預(yù)測(cè).廣西醫(yī)學(xué),1990,12(6):407-411.
11.任正洪.2005-2011年我國(guó)肺結(jié)核發(fā)病的時(shí)間流行病學(xué)特征及趨勢(shì).中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(2):158-161.
(責(zé)任編輯:劉 壯)
Comparison of Different Methods to Predict the Prevalencewith Little Survey Data
Yan Ruohua,Wang Yang,LiWei(State Key Laboratory of Cardiovascular Disease,F(xiàn)uwaiHospital,National Center for Cardiovascular Diseases,Peking Union Medical College and Chinese Academy of Medical Sciences,Beijing(100037),China)
ObjectiveTo compare differentmethods for epidemical prediction of diseases which have little prevalence survey data.MethodsWe take the prevalence of hypertension in China as an example,using geometric progressionmethod,and formulating a logisticmodel and a grey model to fit the data.At last we evaluatemodels′reliability and precision by compare their fitting efficiency,theoretical basis and clinical significance.ResultsAs the example illustrates,the greater the predicted time interval,themore distinction w ill be displayed among the prevalence trend given by differentmethods.All forecasting results are about 19.3%in 2005,however,till 2050,the predicted prevalence of grey model(R2=0.9863)has reached 86.44%,and that of logistic model(R2=0.6933)is only 33.53%.Logistic model give a relatively conservative result,while geometric progression method and GM(1,1)model predict that the prevalence w ill exceed 100%before 2060.ConclusionGeometric progressionmethod and grey model aremore suitable for short-term forecasts(2 or 3 years),while logistic model hasmore advantage in long-term prediction(≥10 years).
Hypertension;Prevalence;Prediction;Geometric progression;Logistic model;Grey model
△通信作者:李衛(wèi)E-mail:liwei@m(xù) rbc-nccd.com