林潔 孫志明
[摘要] 目的 分析和探討運(yùn)用SAS、PASS、Stata 3種軟件在兩均數(shù)(率)比較中進(jìn)行樣本量估計(jì)的結(jié)果差異,推薦合適的樣本量估計(jì)軟件。 方法 通過設(shè)定不同的參數(shù)情況,分別運(yùn)用3種軟件計(jì)算各自樣本量,并且與公式計(jì)算結(jié)果進(jìn)行比較。 結(jié)果 在兩均數(shù)比較時(shí),Stata和PASS的樣本量估計(jì)結(jié)果最準(zhǔn)確,不同的參數(shù)會影響SAS的結(jié)果;在兩個(gè)率比較時(shí),SAS最準(zhǔn)確,PASS的準(zhǔn)確性與樣本量大小有關(guān)系,Stata結(jié)果偏大且受不同參數(shù)的影響。 結(jié)論 不同軟件計(jì)算結(jié)果并不一致,綜合考慮推薦用SAS軟件進(jìn)行兩樣本均數(shù)(率)比較的樣本量估計(jì)。
[關(guān)鍵詞] 樣本量估計(jì);SAS;PASS;Stata
[中圖分類號] R181 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1673-7210(2015)06(c)-0133-05
樣本量(sample size)是指承受研究實(shí)施的樣本所包含之觀察單位數(shù),或樣本例數(shù)。除個(gè)別設(shè)計(jì)方法外,在研究設(shè)計(jì)中必須確定需要多少實(shí)驗(yàn)對象或觀察對象。樣本量對研究效果有重要影響,在小樣本研究中尤其如此[1]。一系列規(guī)范的的醫(yī)學(xué)研究報(bào)告,如加強(qiáng)觀察性流行病學(xué)研究報(bào)告質(zhì)量的聲明和臨床試驗(yàn)報(bào)告統(tǒng)一標(biāo)準(zhǔn)等均要求在研究報(bào)告中描述“如何計(jì)算樣本含量”[2-6]。開展一項(xiàng)研究,往往因?yàn)楦鞣N因素(人力、物力、經(jīng)費(fèi)等)限制,只能對總體中的一部分進(jìn)行研究,即研究樣本,然后由樣本統(tǒng)計(jì)量推斷總體參數(shù)。樣本過小,結(jié)果不穩(wěn)定,不能真實(shí)地反映總體規(guī)律;而樣本量過大,會增大研究的難度,并造成人力、物力的浪費(fèi)[7]。所以合理的樣本量,一方面,可以在既定的經(jīng)費(fèi)下保證精確度和可靠性;另一方面,可以在既定的精確度和可靠性合理利用資源,保證抽樣推斷的最大效果。
目前可以用于估計(jì)樣本含量的軟件很多,其中較常用的有SAS、Stata、PASS等。SAS是由美國北卡羅來納州立大學(xué)1966年開發(fā)的統(tǒng)計(jì)分析軟件,在國際上被譽(yù)為統(tǒng)計(jì)分析的標(biāo)準(zhǔn)軟件,在各個(gè)領(lǐng)域得到了廣泛應(yīng)用[8];Stata是Statacorp于1985年開發(fā)的統(tǒng)計(jì)程序,在全球范圍內(nèi)被廣泛應(yīng)用于經(jīng)濟(jì)學(xué)、社會學(xué)及流行病學(xué)等領(lǐng)域;PASS是由Hintze等人研發(fā),專門用于計(jì)算樣本量的統(tǒng)計(jì)軟件,操作簡便快捷。然而各軟件計(jì)算結(jié)果是否一致,研究者該選擇何種類型的樣本量計(jì)算軟件是研究中亟待解決的實(shí)際問題。本次研究的主要目的是以計(jì)算兩均數(shù)(率)之差的樣本量為例來比較SAS、Stata、PASS 3種軟件的結(jié)果差異,探討各軟件計(jì)算樣本量的優(yōu)缺點(diǎn)。
1 資料與方法
1.1 兩均數(shù)比較
1.1.1樣本量計(jì)算公式
兩均數(shù)比較時(shí),樣本量取決于以下4個(gè)條件:①假設(shè)檢驗(yàn)的第Ⅰ類錯(cuò)誤α;②假設(shè)檢驗(yàn)的第Ⅱ類錯(cuò)誤β,或檢驗(yàn)效能1-β;③兩總體均數(shù)之差δ;④σ總體標(biāo)準(zhǔn)差[9-11]。假設(shè)兩組樣本量相等,所需樣本量可由下式估計(jì):
1.1.2 參數(shù)設(shè)置
根據(jù)公式(1)假設(shè)第Ⅰ類錯(cuò)誤α=0.10,0.05,0.01;檢驗(yàn)效能1-β=0.80,0.90,0.95;組1總體均數(shù)μ1=1,兩總體均數(shù)之差δ=0.10,0.20,0.30…,2.0;總體標(biāo)準(zhǔn)差σ=1;雙側(cè)檢驗(yàn)。
1.1.2.1 SAS 9.3程序:
procpower;
twosamplemeans
meandiff=0.1 0.20.3 0.4 0.8 1.2 1.6 2
stddev=1
groupweights=(11)
power=0.8 0.9 0.95
alpha=0.01 0.05 0.1
ntotal=.;
run;
1.1.2.2 Stata10 命令:
sampsi 1.1 1,a(0.1) power(0.8) sd1(1)
不同參數(shù)下,Stata命令語句類似,只需替換sampsi命令后面的兩組均數(shù)值,以及第Ⅰ類錯(cuò)誤α、檢驗(yàn)效能power和組1標(biāo)準(zhǔn)差sd1括號里的值。
1.1.2.3 PASS 11主菜單選擇 PASS 11關(guān)于兩均數(shù)比較樣本量估計(jì)的參數(shù)設(shè)置主菜單選擇見圖1。
1.2 兩個(gè)率比較
比較兩樣本率的目的是推斷它們各自所代表的總體率是否相等。
1.2.1 樣本量計(jì)算公式兩個(gè)率比較
樣本量取決于以下3個(gè)條件:①假設(shè)檢驗(yàn)的第Ⅰ類錯(cuò)誤α;②假設(shè)檢驗(yàn)的第Ⅱ類錯(cuò)誤β,或檢驗(yàn)效能1-β;③兩總體率p1,p2[9-11]。假設(shè)兩組樣本量相等,所需樣本量可由下式估計(jì):
1.2.2 參數(shù)設(shè)置
根據(jù)公式(2)假設(shè)第Ⅰ類錯(cuò)誤α=0.10,0.05,0.01;檢驗(yàn)效能 1-β=0.80,0.90,0.95;兩總體率p2=0.10,Δp=0.025,0.05,0.10,…,0.80;雙側(cè)檢驗(yàn)。
1.2.2.1 SAS 9.3程序[12]:
procpower;
twosamplefreq
groupweights=(11)
pdiff=0.025 0.05 0.10.20.30.40.50.60.70.8
refproportion=0.1
power=0.80.90.95
alpha=0.100.050.01
ntotal=.;
run;
1.2.2.2 Stata 10 命令:
sampsi0.1250.1,a(0.1)power(0.8)
不同參數(shù)下,Stata命令語句類似,只需替換sampsi命令后面的兩個(gè)率的值,以及第Ⅰ類錯(cuò)誤α、檢驗(yàn)效能power括號里的值。
1.2.2.3 PASS 11主菜單選擇 PASS 11關(guān)于兩個(gè)率比較樣本量估計(jì)的參數(shù)設(shè)置見圖2。
2 結(jié)果
2.1 兩均數(shù)比較的樣本量估計(jì)結(jié)果
通過給參數(shù)α、β和δ/σ賦予不同的取值,分別運(yùn)用3種軟件和公式計(jì)算得出的兩均數(shù)比較樣本量估計(jì)結(jié)果,見表1。
從表1中可以看出,無論第Ⅰ類錯(cuò)誤(α)、檢驗(yàn)效能(1-β)以及總體均數(shù)之差與總體標(biāo)準(zhǔn)差的比值(δ/σ)如何變化,Stata估計(jì)的樣本量與公式計(jì)算結(jié)果完全一致。PASS的結(jié)果與公式計(jì)算也基本結(jié)果一致,但發(fā)現(xiàn)α=0.05或0.1,1-β=0.80,δ/σ=4.0時(shí),公式計(jì)算的樣本量為1,而PASS為2,可能是因?yàn)橥ㄟ^PASS軟件估計(jì)的樣本量最小值為2,為了驗(yàn)證這一假設(shè),于是增大δ/σ至1000,發(fā)現(xiàn)PASS的結(jié)果仍為2,于是可得結(jié)論P(yáng)ASS估計(jì)的樣本量下限為2。SAS的結(jié)果略大于其他3種方法,發(fā)現(xiàn)當(dāng)α和1-β一定時(shí),隨著δ/σ的增大,樣本量增加的幅度有增大趨勢;當(dāng)α和δ/σ一定時(shí),隨著1-β的增大,樣本量增加的幅度有減小趨勢;當(dāng)1-β和δ/σ一定時(shí),增幅隨α變化的趨勢不明顯。通過模擬發(fā)現(xiàn),SAS僅比公式多出1、2例,所以可以忽略。
2.2 兩個(gè)率比較的樣本量估計(jì)結(jié)果
通過給參數(shù)α、β和Δp賦予不同的取值,分別運(yùn)用3種軟件和公式計(jì)算得出的兩個(gè)率比較的樣本量估計(jì)結(jié)果,見表2。
從表2中可以看出,無論第Ⅰ類錯(cuò)誤(α)、檢驗(yàn)效能(1-β)以及率差(Δp)如何變化,SAS估計(jì)的樣本量與公式計(jì)算結(jié)果完全一致。當(dāng)所得樣本量≥117時(shí),發(fā)現(xiàn)PASS與公式計(jì)算結(jié)果一致;當(dāng)樣本量≤101時(shí),PASS結(jié)果比公式略小。而Stata計(jì)算出的樣本量則較大,發(fā)現(xiàn)當(dāng)α和1-β一定時(shí),隨著Δp的增大,樣本量增加的幅度有增大趨勢;當(dāng)α和Δp一定時(shí),隨著1-β的增大,樣本量增加的幅度有減小趨勢;當(dāng)1-β和Δp一定時(shí),隨著α的增大,樣本量增加的幅度有增大的趨勢。
綜上所述,在兩均數(shù)比較時(shí),Stata和PASS樣本量估計(jì)結(jié)果最準(zhǔn)確,不同的參數(shù)設(shè)置會影響SAS的計(jì)算結(jié)果;在兩個(gè)率比較時(shí),SAS最準(zhǔn)確,PASS的準(zhǔn)確性與樣本量大小有關(guān)系,Stata結(jié)果偏大且受不同參數(shù)的影響。
3 討論
本文對兩種常見研究類型的樣本量估計(jì)進(jìn)行了比較,發(fā)現(xiàn)3種軟件計(jì)算結(jié)果并不完全一致。SAS在兩個(gè)率比較時(shí)得出的樣本量準(zhǔn)確性最高,而在兩均數(shù)比較時(shí)得出的樣本量略大,但經(jīng)模擬實(shí)驗(yàn)發(fā)現(xiàn),無論將參數(shù)進(jìn)行何種組合設(shè)置,結(jié)果發(fā)現(xiàn)每組結(jié)果僅比公式多出1、2例,這對實(shí)際的樣本收集影響不大;PASS和Stata在估計(jì)兩均數(shù)比較樣本量時(shí)準(zhǔn)確性最高,但PASS在估計(jì)兩個(gè)率比較的樣本量時(shí),當(dāng)樣本量低于100左右時(shí),會低估樣本量,無形的降低了檢驗(yàn)效能;相反Stata則高估樣本量,可能會增加實(shí)際樣本收集的難度,同樣也會增加研究成本,尤其是當(dāng)每例樣本的成本較大時(shí)更為明顯。因此,在實(shí)際運(yùn)用中,推薦運(yùn)用SAS進(jìn)行這兩種類型的樣本量估計(jì),而對于其他研究類型,將在后續(xù)研究中進(jìn)行探討。
以上樣本含量的研究是基于理論之上,而實(shí)際研究中,樣本量的估計(jì)還要考慮研究中面臨的一些實(shí)際問題,如研究對象的選擇、完成研究所需的經(jīng)費(fèi)等成本問題。除此之外,還需要考慮研究對象的依從性和失訪等因素,通常會將樣本量增大20%左右。倫理也是在確定樣本量時(shí)必須考慮的因素,如果確定了較大的樣本量,但實(shí)際效果不明顯,或?yàn)檫_(dá)到所需的研究結(jié)果,在較長期限內(nèi)讓研究對象承受生理上的不適。這些都是需要研究者權(quán)衡的因素[13-15]。
[參考文獻(xiàn)]
[1] 陸守曾,陳峰.醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M].北京:中國統(tǒng)計(jì)出版社,2009:166-170.
[2] Begg C,Cho M,Eastwood S,et al. Improving the quality of reporting of randomized controlled trials. The CONSORT statement [J]. JAMA,1996,276:637-639.
[3] 王波,詹思延.觀察性流行病學(xué)研究報(bào)告規(guī)范——STROBE介紹[J].中華流行病學(xué)雜志,2006,27(6):547-549.
[4] 陳茹,段芳芳,詹思延.如何撰寫高質(zhì)量的流行病學(xué)研究論文第二講分子流行病學(xué)研究報(bào)告規(guī)范—STROBE—ME介紹[J].中華流行病學(xué)雜志,2013,34(7):740-744.
[5] 林小燕,蘇文亮,方曉義.CONSORT標(biāo)準(zhǔn)評價(jià)心理學(xué)隨機(jī)對照研究報(bào)告的質(zhì)量——以國內(nèi)網(wǎng)絡(luò)成癮干預(yù)研究為例[J].中國心里衛(wèi)生雜志,2013,27(12):883-889.
[6] 盛曉陽.參照CONSORT2010聲明撰寫平行對照隨機(jī)臨床研究論文[J].臨床兒科雜志,2013,31(2):198-200.
[7] 董芬,李超,彭曉霞,等.臨床研究中樣本含量計(jì)算的意義、計(jì)算方法及注意事項(xiàng)[J].中國卒中雜志,2009,4(10):854-859.
[8] 朱世武.SAS編程技術(shù)教程[M].北京:清華大學(xué)出版社,2007:1.
[9] 金丕煥,鄧偉.優(yōu)效性、等效性和非劣效性試驗(yàn)的統(tǒng)計(jì)檢驗(yàn)和樣本大小的估計(jì)[M].上海:復(fù)旦大學(xué)出版社,2004:86-92.
[10] 吳興,李嬋娟,丁伯福,等.兩均數(shù)比較的有效性臨床試驗(yàn)樣本量估計(jì)[J].數(shù)理醫(yī)學(xué)雜志,2013,26(5):517-519.
[11] 李嬋娟,蔣志偉,王銳,等.隨機(jī)對照藥物臨床試驗(yàn)樣本量估計(jì)[J].中國臨床藥理學(xué)與治療學(xué),2011,16(10):1132-1136.
[12] 朱玲湘,唐欣然,段重陽.樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)——率的比較(五)[J].中國衛(wèi)生統(tǒng)計(jì),2013,(1):146-149.
[13] Sakpal T. Sample size estimation in clinical trail [J]. PerspectClin Res,2010,1(2):67-69.
[14] 李雪迎.臨床研究樣本量的統(tǒng)計(jì)學(xué)估算[J].中國介入心臟病學(xué)雜志,2014,(7):430-430.
[15] Billoir E,Navratil V,Blaise BJ. Sample size calculation in metabolic phenotyping studies [J]. Bridf Bioinform,2015,19:1-8.
(收稿日期:2015-03-15 本文編輯:程 銘)