林 潔 孫志明
1.國(guó)家人口計(jì)生委計(jì)劃生育藥具不良反應(yīng)監(jiān)測(cè)中心,江蘇南京210036;2.江蘇省計(jì)劃生育科學(xué)技術(shù)研究所,江蘇南京210036
SAS、PASS、Stata三種常用軟件樣本量計(jì)算方法及結(jié)果差異的比較
林 潔1,2孫志明1,2
1.國(guó)家人口計(jì)生委計(jì)劃生育藥具不良反應(yīng)監(jiān)測(cè)中心,江蘇南京210036;2.江蘇省計(jì)劃生育科學(xué)技術(shù)研究所,江蘇南京210036
目的分析和探討運(yùn)用SAS、PASS、Stata 3種軟件在兩均數(shù)(率)比較中進(jìn)行樣本量估計(jì)的結(jié)果差異,推薦合適的樣本量估計(jì)軟件。方法通過(guò)設(shè)定不同的參數(shù)情況,分別運(yùn)用3種軟件計(jì)算各自樣本量,并且與公式計(jì)算結(jié)果進(jìn)行比較。結(jié)果在兩均數(shù)比較時(shí),Stata和PASS的樣本量估計(jì)結(jié)果最準(zhǔn)確,不同的參數(shù)會(huì)影響SAS的結(jié)果;在兩個(gè)率比較時(shí),SAS最準(zhǔn)確,PASS的準(zhǔn)確性與樣本量大小有關(guān)系,Stata結(jié)果偏大且受不同參數(shù)的影響。結(jié)論不同軟件計(jì)算結(jié)果并不一致,綜合考慮推薦用SAS軟件進(jìn)行兩樣本均數(shù)(率)比較的樣本量估計(jì)。
樣本量估計(jì);SAS;PASS;Stata
樣本量(sample size)是指承受研究實(shí)施的樣本所包含之觀察單位數(shù),或樣本例數(shù)。除個(gè)別設(shè)計(jì)方法外,在研究設(shè)計(jì)中必須確定需要多少實(shí)驗(yàn)對(duì)象或觀察對(duì)象。樣本量對(duì)研究效果有重要影響,在小樣本研究中尤其如此[1]。一系列規(guī)范的的醫(yī)學(xué)研究報(bào)告,如加強(qiáng)觀察性流行病學(xué)研究報(bào)告質(zhì)量的聲明和臨床試驗(yàn)報(bào)告統(tǒng)一標(biāo)準(zhǔn)等均要求在研究報(bào)告中描述“如何計(jì)算樣本含量”[2-6]。開展一項(xiàng)研究,往往因?yàn)楦鞣N因素(人力、物力、經(jīng)費(fèi)等)限制,只能對(duì)總體中的一部分進(jìn)行研究,即研究樣本,然后由樣本統(tǒng)計(jì)量推斷總體參數(shù)。樣本過(guò)小,結(jié)果不穩(wěn)定,不能真實(shí)地反映總體規(guī)律;而樣本量過(guò)大,會(huì)增大研究的難度,并造成人力、物力的浪費(fèi)[7]。所以合理的樣本量,一方面,可以在既定的經(jīng)費(fèi)下保證精確度和可靠性;另一方面,可以在既定的精確度和可靠性合理利用資源,保證抽樣推斷的最大效果。
目前可以用于估計(jì)樣本含量的軟件很多,其中較常用的有SAS、Stata、PASS等。SAS是由美國(guó)北卡羅來(lái)納州立大學(xué)1966年開發(fā)的統(tǒng)計(jì)分析軟件,在國(guó)際上被譽(yù)為統(tǒng)計(jì)分析的標(biāo)準(zhǔn)軟件,在各個(gè)領(lǐng)域得到了廣泛應(yīng)用[8];Stata是Statacorp于1985年開發(fā)的統(tǒng)計(jì)程序,在全球范圍內(nèi)被廣泛應(yīng)用于經(jīng)濟(jì)學(xué)、社會(huì)學(xué)及流行病學(xué)等領(lǐng)域;PASS是由Hintze等人研發(fā),專門用于計(jì)算樣本量的統(tǒng)計(jì)軟件,操作簡(jiǎn)便快捷。然而各軟件計(jì)算結(jié)果是否一致,研究者該選擇何種類型的樣本量計(jì)算軟件是研究中亟待解決的實(shí)際問題。本次研究的主要目的是以計(jì)算兩均數(shù)(率)之差的樣本量為例來(lái)比較SAS、Stata、PASS 3種軟件的結(jié)果差異,探討各軟件計(jì)算樣本量的優(yōu)缺點(diǎn)。
1.1 兩均數(shù)比較
1.1.1 樣本量計(jì)算公式
兩均數(shù)比較時(shí),樣本量取決于以下4個(gè)條件:①假設(shè)檢驗(yàn)的第Ⅰ類錯(cuò)誤α;②假設(shè)檢驗(yàn)的第Ⅱ類錯(cuò)誤β,或檢驗(yàn)效能1-β;③兩總體均數(shù)之差δ;④σ總體標(biāo)準(zhǔn)差[9-11]。假設(shè)兩組樣本量相等,所需樣本量可由下式估計(jì):
1.1.2 參數(shù)設(shè)置
根據(jù)公式(1)假設(shè)第Ⅰ類錯(cuò)誤琢=0.10,0.05,0.01;檢驗(yàn)效能1-茁=0.80,0.90,0.95;組1總體均數(shù)滋1=1,兩總體均數(shù)之差啄=0.10,0.20,0.30…,2.0;總體標(biāo)準(zhǔn)差σ=1;雙側(cè)檢驗(yàn)。
1.1.2.1 SAS 9.3程序:
1.1.2.2 Stata10命令:
sampsi 1.1 1,a(0.1)power(0.8)sd1(1)
不同參數(shù)下,Stata命令語(yǔ)句類似,只需替換sampsi命令后面的兩組均數(shù)值,以及第Ⅰ類錯(cuò)誤α、檢驗(yàn)效能power和組1標(biāo)準(zhǔn)差sd1括號(hào)里的值。
1.1.2.3 PASS 11主菜單選擇PASS 11關(guān)于兩均數(shù)比較樣本量估計(jì)的參數(shù)設(shè)置主菜單選擇見圖1。
圖1 PASS 11關(guān)于兩均數(shù)比較樣本量估計(jì)的參數(shù)設(shè)置
1.2 兩個(gè)率比較
比較兩樣本率的目的是推斷它們各自所代表的總體率是否相等。
1.2.1 樣本量計(jì)算公式兩個(gè)率比較
樣本量取決于以下3個(gè)條件:①假設(shè)檢驗(yàn)的第Ⅰ類錯(cuò)誤琢;②假設(shè)檢驗(yàn)的第Ⅱ類錯(cuò)誤茁,或檢驗(yàn)效能1-茁;③兩總體率p1,p2[9-11]。假設(shè)兩組樣本量相等,所需樣本量可由下式估計(jì):
圖2 PASS 11關(guān)于兩個(gè)率比較樣本量估計(jì)的參數(shù)設(shè)置
2.1 兩均數(shù)比較的樣本量估計(jì)結(jié)果
通過(guò)給參數(shù)琢、茁和啄/滓賦予不同的取值,分別運(yùn)用3種軟件和公式計(jì)算得出的兩均數(shù)比較樣本量估計(jì)結(jié)果,見表1。
從表1中可以看出,無(wú)論第Ⅰ類錯(cuò)誤(琢)、檢驗(yàn)效能(1-茁)以及總體均數(shù)之差與總體標(biāo)準(zhǔn)差的比值(啄/滓)如何變化,Stata估計(jì)的樣本量與公式計(jì)算結(jié)果完全一致。PASS的結(jié)果與公式計(jì)算也基本結(jié)果一致,但發(fā)現(xiàn)琢=0.05或0.1,1-茁=0.80,啄/滓=4.0時(shí),公式計(jì)算的樣本量為1,而PASS為2,可能是因?yàn)橥ㄟ^(guò)PASS軟件估計(jì)的樣本量最小值為2,為了驗(yàn)證這一假設(shè),于是增大啄/滓至1000,發(fā)現(xiàn)PASS的結(jié)果仍為2,于是可得結(jié)論P(yáng)ASS估計(jì)的樣本量下限為2。SAS的結(jié)果略大于其他3種方法,發(fā)現(xiàn)當(dāng)琢和1-茁一定時(shí),隨著啄/滓的增大,樣本量增加的幅度有增大趨勢(shì);當(dāng)琢和啄/滓一定時(shí),隨著1-茁的增大,樣本量增加的幅度有減小趨勢(shì);當(dāng)1-茁和啄/滓一定時(shí),增幅隨琢變化的趨勢(shì)不明顯。通過(guò)模擬發(fā)現(xiàn),SAS僅比公式多出1、2例,所以可以忽略。
2.2 兩個(gè)率比較的樣本量估計(jì)結(jié)果
通過(guò)給參數(shù)琢、茁和Δp賦予不同的取值,分別運(yùn)用3種軟件和公式計(jì)算得出的兩個(gè)率比較的樣本量估計(jì)結(jié)果,見表2。
從表2中可以看出,無(wú)論第Ⅰ類錯(cuò)誤(琢)、檢驗(yàn)效能(1-茁)以及率差(Δp)如何變化,SAS估計(jì)的樣本量與公式計(jì)算結(jié)果完全一致。當(dāng)所得樣本量≥117時(shí),發(fā)現(xiàn)PASS與公式計(jì)算結(jié)果一致;當(dāng)樣本量臆101時(shí),PASS
1.2.2 參數(shù)設(shè)置
根據(jù)公式(2)假設(shè)第Ⅰ類錯(cuò)誤琢=0.10,0.05,0.01;檢驗(yàn)效能1-茁=0.80,0.90,0.95;兩總體率p2=0.10,Δp=0.025,0.05,0.10,…,0.80;雙側(cè)檢驗(yàn)。
1.2.2.1 SAS 9.3程序[12]:
procpower;
twosamplefreq
groupweights=(11)
pdiff=0.025 0.05 0.10.20.30.40.50.60.70.8
refproportion=0.1
power=0.80.90.95
alpha=0.100.050.01
ntotal=.;
run;
1.2.2.2 Stata 10命令:
sampsi0.1250.1,a(0.1)power(0.8)
不同參數(shù)下,Stata命令語(yǔ)句類似,只需替換sampsi命令后面的兩個(gè)率的值,以及第Ⅰ類錯(cuò)誤α、檢驗(yàn)效能power括號(hào)里的值。
1.2.2.3 PASS 11主菜單選擇PASS 11關(guān)于兩個(gè)率比較樣本量估計(jì)的參數(shù)設(shè)置見圖2。
結(jié)果比公式略小。而Stata計(jì)算出的樣本量則較大,發(fā)現(xiàn)當(dāng)琢和1-茁一定時(shí),隨著Δp的增大,樣本量增加的幅度有增大趨勢(shì);當(dāng)琢和Δp一定時(shí),隨著1-茁的增大,樣本量增加的幅度有減小趨勢(shì);當(dāng)1-茁和Δp一定時(shí),隨著琢的增大,樣本量增加的幅度有增大的趨勢(shì)。
表1 不同參數(shù)下4種方法的兩均數(shù)比較樣本量估計(jì)結(jié)果
表2 不同參數(shù)下4種方法的兩個(gè)率比較樣本量估計(jì)結(jié)果
綜上所述,在兩均數(shù)比較時(shí),Stata和PASS樣本量估計(jì)結(jié)果最準(zhǔn)確,不同的參數(shù)設(shè)置會(huì)影響SAS的計(jì)算結(jié)果;在兩個(gè)率比較時(shí),SAS最準(zhǔn)確,PASS的準(zhǔn)確性與樣本量大小有關(guān)系,Stata結(jié)果偏大且受不同參數(shù)的影響。
本文對(duì)兩種常見研究類型的樣本量估計(jì)進(jìn)行了比較,發(fā)現(xiàn)3種軟件計(jì)算結(jié)果并不完全一致。SAS在兩個(gè)率比較時(shí)得出的樣本量準(zhǔn)確性最高,而在兩均數(shù)比較時(shí)得出的樣本量略大,但經(jīng)模擬實(shí)驗(yàn)發(fā)現(xiàn),無(wú)論將參數(shù)進(jìn)行何種組合設(shè)置,結(jié)果發(fā)現(xiàn)每組結(jié)果僅比公式多出1、2例,這對(duì)實(shí)際的樣本收集影響不大;PASS和Stata在估計(jì)兩均數(shù)比較樣本量時(shí)準(zhǔn)確性最高,但PASS在估計(jì)兩個(gè)率比較的樣本量時(shí),當(dāng)樣本量低于100左右時(shí),會(huì)低估樣本量,無(wú)形的降低了檢驗(yàn)效能;相反Stata則高估樣本量,可能會(huì)增加實(shí)際樣本收集的難度,同樣也會(huì)增加研究成本,尤其是當(dāng)每例樣本的成本較大時(shí)更為明顯。因此,在實(shí)際運(yùn)用中,推薦運(yùn)用SAS進(jìn)行這兩種類型的樣本量估計(jì),而對(duì)于其他研究類型,將在后續(xù)研究中進(jìn)行探討。
以上樣本含量的研究是基于理論之上,而實(shí)際研究中,樣本量的估計(jì)還要考慮研究中面臨的一些實(shí)際問題,如研究對(duì)象的選擇、完成研究所需的經(jīng)費(fèi)等成本問題。除此之外,還需要考慮研究對(duì)象的依從性和失訪等因素,通常會(huì)將樣本量增大20%左右。倫理也是在確定樣本量時(shí)必須考慮的因素,如果確定了較大的樣本量,但實(shí)際效果不明顯,或?yàn)檫_(dá)到所需的研究結(jié)果,在較長(zhǎng)期限內(nèi)讓研究對(duì)象承受生理上的不適。這些都是需要研究者權(quán)衡的因素[13-15]。
[1]陸守曾,陳峰.醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M].北京:中國(guó)統(tǒng)計(jì)出版社,2009:166-170.
[2]Begg C,Cho M,Eastwood S,et al.Improving the quality of reporting of randomized controlled trials.The CONSORT statement[J].JAMA,1996,276:637-639.
[3]王波,詹思延.觀察性流行病學(xué)研究報(bào)告規(guī)范——STROBE介紹[J].中華流行病學(xué)雜志,2006,27(6):547-549.
[4]陳茹,段芳芳,詹思延.如何撰寫高質(zhì)量的流行病學(xué)研究論文第二講分子流行病學(xué)研究報(bào)告規(guī)范—STROBE—ME介紹[J].中華流行病學(xué)雜志,2013,34(7):740-744.
[5]林小燕,蘇文亮,方曉義.CONSORT標(biāo)準(zhǔn)評(píng)價(jià)心理學(xué)隨機(jī)對(duì)照研究報(bào)告的質(zhì)量——以國(guó)內(nèi)網(wǎng)絡(luò)成癮干預(yù)研究為例[J].中國(guó)心里衛(wèi)生雜志,2013,27(12):883-889.
[6]盛曉陽(yáng).參照CONSORT2010聲明撰寫平行對(duì)照隨機(jī)臨床研究論文[J].臨床兒科雜志,2013,31(2):198-200.
[7]董芬,李超,彭曉霞,等.臨床研究中樣本含量計(jì)算的意義、計(jì)算方法及注意事項(xiàng)[J].中國(guó)卒中雜志,2009,4(10):854-859.
[8]朱世武.SAS編程技術(shù)教程[M].北京:清華大學(xué)出版社,2007:1.
[9]金丕煥,鄧偉.優(yōu)效性、等效性和非劣效性試驗(yàn)的統(tǒng)計(jì)檢驗(yàn)和樣本大小的估計(jì)[M].上海:復(fù)旦大學(xué)出版社,2004:86-92.
[10]吳興,李嬋娟,丁伯福,等.兩均數(shù)比較的有效性臨床試驗(yàn)樣本量估計(jì)[J].數(shù)理醫(yī)學(xué)雜志,2013,26(5):517-519.
[11]李嬋娟,蔣志偉,王銳,等.隨機(jī)對(duì)照藥物臨床試驗(yàn)樣本量估計(jì)[J].中國(guó)臨床藥理學(xué)與治療學(xué),2011,16(10):1132-1136.
[12]朱玲湘,唐欣然,段重陽(yáng).樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)——率的比較(五)[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2013,(1):146-149.
[13]Sakpal T.Sample size estimation in clinical trail[J].PerspectClin Res,2010,1(2):67-69.
[14]李雪迎.臨床研究樣本量的統(tǒng)計(jì)學(xué)估算[J].中國(guó)介入心臟病學(xué)雜志,2014,(7):430-430.
[15]Billoir E,Navratil V,Blaise BJ.Sample size calculation in metabolic phenotyping studies[J].Bridf Bioinform,2015,19:1-8.
Com paring the differences between SAS,PASS and Stata for sam p le size calculation
LIN Jie1,2SUN Zhiming1,2
1.NPFPC Contraceptives Adverse Reaction Monitoring Center,National Population and Family Planning Commission, Jiangsu Province,Nanjing 210036,China;2.Jiangsu Institute of Planned Parenthood Research,Jiangsu Province, Nanjing 210036,China
Objective To analyze the differences between SAS,PASSand Stata for sample size calculation in a test of twomeans(rates)and recommend the appropriate software for sample size calculation.M ethods By setting different parameters,sample sizeswere calculated using three kinds of software respectively and compared with the formula results. Results In two sample means test,Stata and PASS had themost accurate results,the results in SASwere affected by different parameters.In two sample rates test,the SAS resultswere the best of three,the accuracy of PASSwas related with the sample size,the results in Stata were larger than others and affected by different parameters.Conclusion The results are not consistent using different software,SAS is recommended for two samplemean(rate)of sample size calculation.
Sample size calculation;SAS;PASS;Stata
R181
A[文獻(xiàn)標(biāo)識(shí)碼]1673-7210(2015)06(c)-0133-05
2015-03-15本文編輯:程銘)
江蘇省衛(wèi)計(jì)委指導(dǎo)性科技項(xiàng)目(JSFPC2014012)。
林潔(1987-),女,漢族,碩士;研究方向:衛(wèi)生統(tǒng)計(jì)與藥物警戒流行病學(xué)。
孫志明(1973-),男,漢族,碩士,副研究員;研究方向:藥物警戒流行病學(xué)。