劉蕊
【摘 要】:文章主要針對Bootstrap方法在醫(yī)學(xué)統(tǒng)計(jì)中的應(yīng)用進(jìn)行具體分析,主要包括原理方法、模擬分析和實(shí)例應(yīng)用幾部分,希望能給相關(guān)人士提供有效參考。
【關(guān)鍵詞】:Bootstrap方法;醫(yī)學(xué)統(tǒng)計(jì);模擬分析
【中圖分類號】R212【文獻(xiàn)標(biāo)識碼】B【文章編號】1672-3783(2019)09-03--01
引言:在利用樣本對某個(gè)整天統(tǒng)計(jì)量進(jìn)行估計(jì)分析的過程中,通常期望能夠掌握統(tǒng)計(jì)量估值準(zhǔn)確度,只有掌握統(tǒng)計(jì)量抽樣分布,才能掌握通過樣本統(tǒng)計(jì)量對整體統(tǒng)計(jì)量進(jìn)行準(zhǔn)確預(yù)估的方法,但在大部分情況下,想要推導(dǎo)總體統(tǒng)計(jì)量抽樣分布存在較大的難度,而Bootstrap方法的提出能夠有效解決這一問題。
一 Bootstrap原理
在對未知統(tǒng)計(jì)量實(shí)施抽樣分布的過程中,通常都是利用刀切法對統(tǒng)計(jì)量準(zhǔn)確定的反映指標(biāo)進(jìn)行估算。但這種方法實(shí)施中的可用信息較少,甚至在部分條件下會因?yàn)閿?shù)據(jù)集中某一被測數(shù)值產(chǎn)生微小波動(dòng),而影響統(tǒng)計(jì)計(jì)量結(jié)果,導(dǎo)致計(jì)算失效,而Bootstrap方法能夠有效解決這一問題。Bootstrap方法主要運(yùn)算邏輯如下:某一統(tǒng)計(jì)量準(zhǔn)確度相關(guān)評價(jià)指標(biāo)都是在其抽樣分布中提取出來的。如果該統(tǒng)計(jì)量是通過對某一總體容量為N的樣本進(jìn)行估計(jì)所產(chǎn)生的,則其抽樣分布便可以將這一統(tǒng)計(jì)量內(nèi)部各個(gè)數(shù)值相對頻數(shù)呈現(xiàn)出來,抽樣分布由統(tǒng)計(jì)量估計(jì)中的計(jì)算公式好總體分布所決定的[1]。
二 Bootstrap方法
在使用Bootstrap方法的過程中,應(yīng)該滿足基礎(chǔ)的假設(shè)條件,即被測樣本應(yīng)該將總體準(zhǔn)確反映出來。應(yīng)用過程中的主要機(jī)制是先找出被測數(shù)據(jù)集,也可以叫做原始數(shù)據(jù)集,其中包括N種觀測點(diǎn),隨后需要結(jié)合相關(guān)分析結(jié)果,對統(tǒng)計(jì)量公式進(jìn)行準(zhǔn)確計(jì)算,并在數(shù)據(jù)集中隨機(jī)選擇N種觀測對象,形成一種樣本,便叫做Bootstrap樣本。隨機(jī)抽樣中,原始數(shù)據(jù)集的各種數(shù)據(jù)被抽到的次數(shù)也各不相同,其中有的只被抽到了一次,而有的超出了一次,也存在沒有被抽到過的樣本。通過被抽樣本,結(jié)合提前預(yù)定的公式,對統(tǒng)計(jì)量進(jìn)行計(jì)算,并得到自己所需要的數(shù)值,像這樣重復(fù)估計(jì)和抽樣的工作,便叫做復(fù)制,將所有估計(jì)出來的統(tǒng)計(jì)量數(shù)值集中到一起,創(chuàng)建數(shù)據(jù)集,并通過這種數(shù)據(jù)集準(zhǔn)確反映出統(tǒng)計(jì)量抽樣分布,假如其抽樣是一種正態(tài)分布形式可以通過標(biāo)準(zhǔn)差公式計(jì)算,能夠得出統(tǒng)計(jì)量百分之九十五的可信區(qū)間,以及標(biāo)準(zhǔn)誤差。如果其抽樣并非是正態(tài)分布狀態(tài),可以通過第97.5或2.5的百分位數(shù)對百分十九十五的可信區(qū)間進(jìn)行估算[2]。
模擬分析和實(shí)例應(yīng)用
例一:在一個(gè)呈正態(tài)分布、標(biāo)準(zhǔn)差是1,而均數(shù)為0的總體內(nèi)隨機(jī)選出一個(gè)擁有100樣本含量的樣本,并通過這種樣本對總體均數(shù)進(jìn)行準(zhǔn)確估算,并估計(jì)95%可信區(qū)間以及標(biāo)準(zhǔn)誤差??梢韵雀鶕?jù)正態(tài)分布原理對樣本可信區(qū)間、標(biāo)準(zhǔn)誤差和平均數(shù)進(jìn)行準(zhǔn)確計(jì)算,隨后通過Bootstrap方法對95%可信區(qū)間以及標(biāo)準(zhǔn)誤差進(jìn)行準(zhǔn)確估計(jì)。通過STATA軟件處理上述問題,具體流程如下:將樣本含量設(shè)定為100,產(chǎn)生總體為正態(tài)標(biāo)準(zhǔn)分布隨機(jī)數(shù),結(jié)合正態(tài)分布原理計(jì)算標(biāo)注差和平均數(shù),最終的運(yùn)算結(jié)果是標(biāo)準(zhǔn)差為1.0747,而均數(shù)是-0.0177,按照標(biāo)準(zhǔn)差的計(jì)算公式,計(jì)算出來的百分十九十五可信區(qū)間為(-0.2284,0.1929),而標(biāo)準(zhǔn)誤差是0.107。
將上述一百個(gè)隨機(jī)數(shù)當(dāng)成原始數(shù)據(jù)集,并在其中隨機(jī)選擇1000個(gè)容量是一百的數(shù)據(jù)樣本,并對1000個(gè)樣本均數(shù)進(jìn)行計(jì)算,通過均數(shù)來估算x標(biāo)準(zhǔn)差。通過STATA軟件中的BSTRAP實(shí)施Bootstrap操作,進(jìn)行再抽樣計(jì)算,具體流程如下所示:先定義一種名字為MEAN的程序,并將$_1里面的數(shù)值存儲到MESNX變量當(dāng)中,將用來描述x聘書分布狀態(tài)的統(tǒng)計(jì)量準(zhǔn)確計(jì)算出來,將x均數(shù)存儲至$_1當(dāng)中,并對程序MEAN實(shí)施一千次的Bootstrap操作運(yùn)算。Bootstrap方法再抽樣后的最終計(jì)算結(jié)果如下:變量MEANX均數(shù)是0.0138,97.5%分位數(shù)是0.1976,,25%的分位數(shù)是-0.2115,標(biāo)準(zhǔn)差是0.1058,由此可見Bootstrap方法再抽樣后計(jì)算出來的x均數(shù),以及通過對原始數(shù)據(jù)進(jìn)行分析觀測所得到的x均數(shù)兩者之間的差值是0.0039,估計(jì)標(biāo)準(zhǔn)差值時(shí)0.105,十分接近于上面計(jì)算出來的標(biāo)準(zhǔn)差值0.1074.通過Bootstrap方法計(jì)算標(biāo)準(zhǔn)差值,隨后通過標(biāo)準(zhǔn)差估計(jì)可信區(qū)間,均數(shù)依然選擇-0.0177,最終計(jì)算出來的可信區(qū)間是(-0.2253,0.1898),Bootstrap一千個(gè)樣本均數(shù)從第2.5個(gè)百分位數(shù)至97.5個(gè)百分位數(shù)之間的區(qū)間為(-0.2115,0.1976),和上面計(jì)算出來的百分之九十五的可信區(qū)間基本相同。此次案例證明,通過Bootstrap方法在抽樣方法,能夠?qū)鶖?shù)可信區(qū)間和標(biāo)準(zhǔn)差進(jìn)行準(zhǔn)確計(jì)算。
例二,50例鏈球菌咽峽炎病患身體中的潛伏期如下所示,并對這種疾病的中位潛伏時(shí)間進(jìn)行估算。潛伏期18個(gè)小時(shí)的有1例,30個(gè)小時(shí)的有7例,42個(gè)小時(shí)的有11例,54個(gè)小時(shí)的有11例,66個(gè)小時(shí)的有7例,78個(gè)小時(shí)的有5例,90個(gè)小時(shí)的有4例,102個(gè)小時(shí)的有2例,114個(gè)小時(shí)的有2例。上述五十例的咽峽炎病患中位潛伏時(shí)間為54個(gè)小時(shí),如果通過這一數(shù)值來估算鏈球菌咽峽炎中位潛伏時(shí)間,由于不知道總體分布,可以通過Bootstrap方法計(jì)算,具體流程如下:先把一個(gè)程序定義成MEDIAN,隨后把$_1里面的數(shù)值儲存到MIDPEERIOD變量內(nèi),對描述PERIOD的分布頻數(shù)統(tǒng)計(jì)量,將PERIOD中位數(shù)存儲到$_1當(dāng)中,針對MEDIAN程序重復(fù)實(shí)施一千次的Bootstrap運(yùn)算。最終通過Bootstrap方法計(jì)算出來的咽峽炎相關(guān)中位潛伏時(shí)間結(jié)果如下:MIDPERIOD變量的標(biāo)準(zhǔn)差是0.8949,均數(shù)是54.27,而97.5%的分位數(shù)是66,2.5%的分位數(shù)是42,由此能夠看出利用Bootstrap方法再抽樣計(jì)算出來的咽峽炎病患中位潛伏時(shí)間和現(xiàn)實(shí)分析觀測中所得到的中位潛伏時(shí)間的均值差距只有0.27,而估算標(biāo)準(zhǔn)差值是0.8949,通過百分位數(shù)估算得到的百分十九十五可信區(qū)間為(42,66)個(gè)小時(shí)。估計(jì)出來的抽樣分布質(zhì)量和復(fù)制的次數(shù)之間具有直接聯(lián)系,通常情況下,在測量標(biāo)準(zhǔn)差值的過程中,只需在復(fù)制過程中重復(fù)50到200次即可,如果想要估算出百分之九十五的可信區(qū)間,則需要進(jìn)一步詳細(xì)了解分布特征,從而提高估計(jì)的準(zhǔn)確性,通過1000次重復(fù)能夠得到良好的結(jié)果。
結(jié)語:綜上所述,當(dāng)公式架設(shè)條件沒有得到滿足、缺少恰當(dāng)?shù)墓綄y(tǒng)計(jì)量進(jìn)行預(yù)估以及總體分布呈現(xiàn)出一種未知的環(huán)境下,可以通過Bootstrap方法對統(tǒng)計(jì)量準(zhǔn)確度進(jìn)行合理反應(yīng),并對標(biāo)準(zhǔn)誤差進(jìn)行準(zhǔn)確預(yù)估。
參考文獻(xiàn)
陳景武,馮國雙.現(xiàn)代醫(yī)學(xué)統(tǒng)計(jì)方法在衛(wèi)生事業(yè)管理研究中的應(yīng)用[J].中國衛(wèi)生事業(yè)管理,2014(03):185-186.
劉勤,金丕煥.Bootstrap方法及其在醫(yī)學(xué)統(tǒng)計(jì)中的應(yīng)用[J].中華預(yù)防醫(yī)學(xué)雜志,2018(01):53-54.