魏鳳江,胡良平
(1.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室,天津 300070; 2.天津醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院遺傳學(xué)系,天津 300070;3.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計(jì)學(xué)咨詢(xún)中心,北京 100850;4.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專(zhuān)業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
PASS軟件在觀察性研究設(shè)計(jì)樣本含量估算中的應(yīng)用
魏鳳江1,2,胡良平3,4*
(1.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室,天津 300070; 2.天津醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院遺傳學(xué)系,天津 300070;3.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計(jì)學(xué)咨詢(xún)中心,北京 100850;4.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專(zhuān)業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
樣本含量估算是科研人員進(jìn)行科研設(shè)計(jì)所關(guān)注的重要問(wèn)題之一,合理估算樣本含量是試驗(yàn)設(shè)計(jì)中的一個(gè)重要內(nèi)容。本文應(yīng)用PASS 11.0軟件對(duì)臨床研究中觀察性研究(即隊(duì)列研究、病例-對(duì)照研究和橫斷面研究)的樣本含量進(jìn)行計(jì)算。探討PASS軟件在科研過(guò)程中計(jì)算樣本含量的實(shí)用性和準(zhǔn)確性,為科研工作者在進(jìn)行觀察性研究設(shè)計(jì)階段進(jìn)行科學(xué)的樣本含量估算提供參考。
樣本含量;隊(duì)列研究;病例-對(duì)照研究;橫斷面研究
樣本含量(sample size)是指承受研究者實(shí)施的樣本所包含之觀察單位數(shù)或樣本例數(shù)。除個(gè)別設(shè)計(jì)方法外,在研究設(shè)計(jì)中必須確定需要多少試驗(yàn)對(duì)象或觀察對(duì)象。因?yàn)槿肆?、物力、?jīng)費(fèi)等各種因素的限制,開(kāi)展一項(xiàng)研究往往只能對(duì)總體中的一部分進(jìn)行研究,即研究樣本,然后由樣本統(tǒng)計(jì)量推斷總體參數(shù)或總體分布。樣本含量過(guò)小,結(jié)果不穩(wěn)定,不能真實(shí)地反映總體規(guī)律;而樣本含量過(guò)大,會(huì)增大研究的難度,并造成人力、物力的浪費(fèi)。所以合理的樣本含量一方面可以在既定的科研經(jīng)費(fèi)下保證精確度和可靠性,另一方面可以合理利用資源,保證統(tǒng)計(jì)推斷的最大效果。目前,能夠估算樣本含量的方法較多,應(yīng)用較廣泛的方法是以公式為基礎(chǔ)的SAS編程;也可以利用SAS/STAT模塊中的GLMPOWER和POWER兩個(gè)過(guò)程,對(duì)樣本含量和檢驗(yàn)效能進(jìn)行更加深入的探討,但是對(duì)于編程軟件不太精通的人士,SAS軟件使用難度很大。PASS,即Power Analysis and Sample Size,是由美國(guó)NCSS公司開(kāi)發(fā)的一款樣本含量計(jì)算軟件,覆蓋了幾乎各種場(chǎng)合下的樣本含量計(jì)算方法,其界面友好,操作簡(jiǎn)單,可以滿(mǎn)足臨床科研需要[1]。本文采用PASS軟件對(duì)觀察性研究設(shè)計(jì)(即隊(duì)列研究、病例-對(duì)照研究和橫斷面研究)中樣本含量的計(jì)算方法進(jìn)行舉例說(shuō)明。
樣本含量計(jì)算公式[2]:
【例1】某醫(yī)生擬采用隊(duì)列研究設(shè)計(jì)方法評(píng)價(jià)某藥物預(yù)防腦卒中再發(fā)的效果,得知不用藥者腦卒中的再發(fā)概率為23%,估計(jì)RR值為0.5,設(shè)α=0.05,β=0.10,問(wèn)至少需要多大樣本含量[3]?
PASS操作如下:
Proportions(+號(hào)展開(kāi))→TwoIndependentProportions(+號(hào)展開(kāi))→Test(Inequality)(單擊展開(kāi))TestsforTwoProportions(Ratios)
按照?qǐng)D1標(biāo)識(shí),分別在相應(yīng)位置輸入α值、β值、RR值、P0值。最后,輸出結(jié)果顯示用藥組和非用藥組各需要225人。見(jiàn)圖2。
圖1 PASS軟件隊(duì)列研究計(jì)算樣本量操作示意圖
圖2 PASS軟件隊(duì)列研究計(jì)算樣本含量結(jié)果
3.1 不配對(duì)但病例數(shù)與對(duì)照數(shù)相等時(shí)的樣本含量
樣本含量計(jì)算公式[4]:
【說(shuō)明】如果無(wú)p1的估計(jì)值,但有備擇假設(shè)中的優(yōu)勢(shì)比的估計(jì)值OR,則可用下式計(jì)算p1:
式中OR應(yīng)取優(yōu)勢(shì)比OR的可能數(shù)值中之最小值。
【例2】在一個(gè)病例對(duì)照研究中,已知對(duì)照人群的暴露率p0=0.33,預(yù)計(jì)暴露的OR=2.8,設(shè)定α=0.05,β=0.10,若要進(jìn)行假設(shè)檢驗(yàn),試估計(jì)病例組和對(duì)照組所需的樣本含量[5]。PASS操作如下:
Proportions(+號(hào)展開(kāi))→TwoIndependentProportions(+號(hào)展開(kāi))→Test(Inequality)(單擊展開(kāi))TestsforTwoProportions(OddsRatios)
按照?qǐng)D3標(biāo)識(shí),分別在相應(yīng)位置輸入α值、β值、OR值、P0值。最后,輸出結(jié)果顯示病例組和對(duì)照組各需要82人。見(jiàn)圖4。
圖3 PASS軟件病例對(duì)照研究計(jì)算樣本量操作示意圖
圖4 PASS軟件病例對(duì)照研究計(jì)算樣本量結(jié)果
3.2 不配對(duì)且病例數(shù)與對(duì)照數(shù)不等時(shí)的樣本含量
設(shè)病例組例數(shù)與對(duì)照組例數(shù)之比為1∶C,則病例組的樣本含量可按下述公式計(jì)算[4]:
PASS操作:參照例2,R(Sample Allocation Ratio)鍵入c值。
3.3 配對(duì)的病例-對(duì)照研究所需的樣本含量
1∶1配對(duì)的病例-對(duì)照研究中,調(diào)查結(jié)果有四種情況,即++、--、+-、-+。其中++和--稱(chēng)為一致結(jié)果,+-和-+稱(chēng)為不一致結(jié)果。配對(duì)調(diào)查的優(yōu)點(diǎn)是可以對(duì)某些干擾因素的作用作均衡處理,并可能減少樣本含量。其樣本含量(或?qū)ψ訑?shù)N)的計(jì)算公式為:
N≈n/(p0q1+p1q0)
式中p1為估計(jì)的病例組中暴露者的比例;p0為估計(jì)的對(duì)照組中暴露者的比例;n為不一致的對(duì)子數(shù)。
如果將例2按照配對(duì)的病例-對(duì)照研究進(jìn)行觀察,則所需樣本含量計(jì)算如下:
PASS操作如下:
Proportions(+號(hào)展開(kāi))→TwoCorrelatedProportions(+號(hào)展開(kāi))→Test(Inequality)(單擊展開(kāi))TestsforTwoCorrelatedProportionsinaMatchedCase-con-trolDesign(OddsRatios)
按照下面圖5標(biāo)識(shí),分別在相應(yīng)位置輸入α值、β值、OR值、P0值。最后,輸出結(jié)果顯示需要103對(duì)樣本。見(jiàn)圖6。
圖5 PASS軟件配對(duì)病例對(duì)照研究計(jì)算樣本含量操作示意圖
圖6 PASS軟件配對(duì)病例對(duì)照研究計(jì)算樣本含量結(jié)果
橫斷面研究中的主要研究方法是抽樣調(diào)查,常見(jiàn)的抽樣方法有簡(jiǎn)單隨機(jī)抽樣、系統(tǒng)抽樣、分層隨機(jī)抽樣、整群抽樣和多級(jí)抽樣。本文示例主要是應(yīng)用單純隨機(jī)抽樣獲取樣本的樣本含量計(jì)算方法。
4.1 定量資料
樣本含量計(jì)算公式[5]:
式中n、δ、σ、S分別為樣本含量、允許誤差、總體標(biāo)準(zhǔn)差、樣本標(biāo)準(zhǔn)差;uα、tα分別為與u臨界值表、t臨界值表中雙側(cè)概率欄所對(duì)應(yīng)的臨界值。
【例3】在血吸蟲(chóng)病防治工作中,需要調(diào)查血吸蟲(chóng)患者血紅蛋白含量(g/L),根據(jù)以往經(jīng)驗(yàn),標(biāo)準(zhǔn)差為30,這次希望誤差不超過(guò)5(即置信區(qū)間上限與下限之差為10),取α=0.05,在這些條件下,要估計(jì)患者的血紅蛋白含量,問(wèn)需調(diào)查多少名患者?
PASS操作如下:
Means(+號(hào)展開(kāi))→OneMeans(+號(hào)展開(kāi))→ConfidenceIntervals(單擊展開(kāi))ConfidenceIntervalsforOneMeans
按照下面圖7標(biāo)識(shí),分別在相應(yīng)位置輸入α值、β值、δ值。最后,輸出結(jié)果顯示需調(diào)查141人。見(jiàn)圖8。
圖7 PASS軟件橫斷面研究(計(jì)量資料)計(jì)算樣本量操作示意圖
圖8 PASS軟件橫斷面研究(計(jì)量資料)計(jì)算樣本量結(jié)果
4.2 定性資料
式中n、δ、p分別為樣本含量、允許誤差、總體率π的估計(jì)值。
【例4】擬用抽樣調(diào)查了解某地小學(xué)生蛔蟲(chóng)感染率。假定以往該地小學(xué)生蛔蟲(chóng)感染率P=50%,要求誤差不超過(guò)3%,如取α=0.05,問(wèn)需調(diào)查多少人?
PASS操作如下:
Proportions(+號(hào)展開(kāi))→OneProportions(+號(hào)展開(kāi))→Confi-denceIntervals(單擊展開(kāi))ConfidenceIntervalsforOnePropor-tion
按照下面圖9標(biāo)識(shí),分別在相應(yīng)位置輸入α值、p值、δ值。最后,輸出結(jié)果顯示需調(diào)查1 068人。見(jiàn)圖10。
圖9 PASS軟件橫斷面研究(定性資料)計(jì)算樣本量操作示意圖
圖10 PASS軟件橫斷面研究(定性資料)計(jì)算樣本量結(jié)果
PASS軟件目前涵蓋的統(tǒng)計(jì)學(xué)檢驗(yàn)超過(guò)680種,覆蓋了幾乎所有臨床試驗(yàn)設(shè)計(jì)所需的樣本含量計(jì)算方法,在NCSS官網(wǎng)上有軟件的使用說(shuō)明、視頻及試用版可以免費(fèi)下載,經(jīng)過(guò)20年不斷進(jìn)行調(diào)試和完善,該軟件已成為臨床試驗(yàn)樣本含量估算的較好選擇。
臨床觀察性研究的樣本含量估計(jì)只有相對(duì)意義,并非絕對(duì)精確的數(shù)值。因?yàn)闃颖竞抗烙?jì)是有條件的,而這種條件在重復(fù)研究中不是一成不變的。實(shí)際研究中往往同時(shí)探索幾個(gè)因素,而每個(gè)因素都有其各自的OR值及p0,這時(shí)估計(jì)樣本大小常以最小的OR和最適的p0(距50%最遠(yuǎn))為準(zhǔn)進(jìn)行估計(jì),以使所有的因素都能獲得較高的檢驗(yàn)效率。
以上樣本含量的研究是基于理論之上,而在實(shí)際研究中,樣本含量的估計(jì)還要考慮研究中面臨的一些實(shí)際問(wèn)題,如研究對(duì)象的選擇、完成研究所需的經(jīng)費(fèi)等問(wèn)題。除此之外。還需要考慮研究對(duì)象的依從性和失訪等因素,通常會(huì)將樣本含量增大20%左右。倫理也是在確定樣本含量時(shí)必須考慮的因素。如果確定了較大的樣本量,但實(shí)際效果不明顯,或?yàn)檫_(dá)到所需的研究結(jié)果,在較長(zhǎng)期限內(nèi)讓研究對(duì)象承受生理上的不適,這些都是需要研究者權(quán)衡的因素[6]。
[1] 王媛媛,孫瑞華.PASS軟件實(shí)現(xiàn)臨床試驗(yàn)中非劣效、等效和優(yōu)效性檢驗(yàn)的樣本量估算[J].中華流行病學(xué)雜志,2016,37(5):741-744.
[2] 胡良平.SAS實(shí)驗(yàn)設(shè)計(jì)與統(tǒng)計(jì)分析[M]. 北京: 人民衛(wèi)生出版社,2010: 211.
[3] 胡良平.統(tǒng)計(jì)學(xué)三型理論在實(shí)驗(yàn)設(shè)計(jì)中的應(yīng)用[M]. 北京: 人民軍醫(yī)出版社,2006: 215.
[4] 金丕煥.醫(yī)用統(tǒng)計(jì)方法[M]. 2版. 上海: 復(fù)旦大學(xué)出版社, 2006: 514-517.
[5] 孫振球.醫(yī)學(xué)科學(xué)研究與設(shè)計(jì)[M]. 北京: 人民衛(wèi)生出版社,2010: 125-127, 135.
[6] Billoir E, Navratil V, Blaise BJ.Sample size calculation in metabolic phenotyping studies[J]. Brief Bioinform, 2015,16(5):813-819.
ApplicationofPASSinthesamplesizeestimationoftheobservationalstudydesign
WeiFengjiang1,2,HuLiangping3,4*
(1.DepartmentofHealthStatistics,SchoolofPublicHealth,TianjinMedicalUniversity,Tianjin300070,China;2.DepartmentofGenetics,CollegeofBasicMedicalSciences,TianjinMedicalUniversity,Tianjin300070,China;3.ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China;4.SpecialtyCommitteeofClinicalScientificResearchStatisticsofWorldFederationofChineseMedicineSocieties,Beijing100029,China*Correspondingauthor:HuLiangping,E-mail:lphu812@sina.com)
To estimate the sample size is one of the most important issues in the research design, and it is an important part of the experimental design to determine the sample size rationally. In this paper, we used PASS 11.0 software to calculate the sample size of the observational studies including cohort study, case-control study and cross-sectional study. In order to evaluate the practicability and accuracy of PASS software for the purpose of providing reference for the sample size estimation in the observational study design.
Sample size; Cohort study; Case-control study; Cross-sectional study
R195.1
A
10.11886/j.issn.1007-3256.2017.05.002
2017-08-13)
(本文編輯:陳 霞)
國(guó)家高技術(shù)研究發(fā)展計(jì)劃課題資助(2015AA020102)