劉一松,郭春雪,胡 完,呂辰龍,胡良平
在生理學研究中如何正確估計樣本含量*
劉一松,郭春雪,胡 完,呂辰龍,胡良平△
(軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心 ,北京100850)
目的:引起生理學研究人員對樣本含量估計重要性的認識。方法:論述樣本含量估計的意義及存在的問題,介紹常用的樣本含量估計方法以及獲取其他樣本含量估計方法的途徑。結果:清楚地表述了估計樣本含量必需明白的基本概念、前提條件,并通過實例給出了兩種場合下所需樣本含量的估計過程和結果。結論:在估計樣本含量時,必須明確資料將選用何種統(tǒng)計分析方法處理 ,并且應滿足有關的前提條件 ,才能得到正確的估計結果。
生理學; 樣本含量估計; 成組設計; 兩兩比較
【DOI】10.13459/j.cnki.cjap.2016.03.026
生理學研究中究竟使用多少樣本量才算合適,一直是困擾科研工作者的一道難題。樣本含量過大或過小都存在一定弊端。若樣本量過小,獲得的觀測指標平均值或某種率則不穩(wěn)定,意味著抽樣誤差大或結果的重現(xiàn)性差,推論總體的精密度和準確度都會比較差,造成檢驗效能(power,即發(fā)現(xiàn)客觀存在的差別的能力)的不足,從而導致不能發(fā)現(xiàn)總體間實際存在的差異;若樣本量過大,不僅浪費人力、物力、財力和時間,還會增加實際工作的困難,可能引入更多的混雜因素,從而對研究結果造成不良影響[1]。樣本含量估計的意義在于有助于研究者用最合理的資源去發(fā)現(xiàn)在專業(yè)上可能有意義的差異。
隨著全球醫(yī)療衛(wèi)生事業(yè)的發(fā)展和相關法規(guī)的健全,樣本含量的估計在臨床研究領域已經(jīng)引起足夠的重視,成為臨床試驗研究(也包括調(diào)查研究)設計階段不可或缺的重要環(huán)節(jié)[2-5]。但在以動物和樣品為受試對象的基礎醫(yī)學研究領域內(nèi),卻常直接給出不合理的樣本量或沒有提及科學的樣本含量估計方法。比如在2015年3月本刊發(fā)表的《百草枯對活性氧類物質(zhì)的產(chǎn)生和中性粒細胞凋亡的影響》[6]一文中,原文作者研究PQ對中性粒細胞凋亡的影響,設計了陰性對照組和三種不同濃度的PQ組,從原文作者的分組情況看,該實驗設計類型應該為單因素4水平設計,正確的做法是按照原文作者想要達到的研究目的結合所需的前提條件來估計每組所需的樣本含量(參見后面的例子)。原文中給出每組樣本含量僅僅只有4例,在重復試驗如此少的情況下,樣本的個體差異性和隨機誤差導致的偏倚會對結果造成十分嚴重的影響。每組過少的例數(shù)也使一般正態(tài)性檢驗方法得出的結論不可靠,研究者很難正確判斷資料的分布類型;又如在《蝎源活性肽對帕金森病大鼠凋亡因子改變的影響》[7]、《運動結合單不飽和脂肪酸攝入對大鼠胰島素抵抗的影響》[8]、《鈣敏感受體對大鼠糖尿病性心肌病的影響》[9]等文獻中,都是直接給出了實驗的樣本含量,而未提及得出該樣本含量的任何依據(jù)。
正確估計樣本含量應該是在保證研究結論具有一定可靠性的前提下,用統(tǒng)計學方法確定最少的研究對象(或觀察單位)數(shù)。為什么在實際科研工作中,很多研究人員往往不重視甚至忽略了這個問題呢?重要的原因可能是由于研究者思想上尚未引起足夠的重視,再加上醫(yī)學統(tǒng)計學知識的局限,于是常習慣地隨意設定一個樣本量。其實,在很多的陰性結果(P>0.05)中,一個很重要的原因就是樣本量太少,使實際上存在的差別沒有顯現(xiàn)出來,難以獲得正確的研究結果。
那是否所有的陰性結果都是由于樣本含量不足導致的呢?顯然這種想法是不正確的。當假設檢驗未能拒絕原假設時,研究者首先想到的往往是樣本含量可能不足,于是擴大例數(shù)再實驗,其結果可能有兩種:(1)指標取值大致保持原水平,因n增大而P值降低,最終達到P≤α而獲得預期結論;(2)組間的差異增大,于是n雖增加而P值未變或反而升高。第一種結果通常表示設計正確,預期目的達到。第二種則提示研究者:問題不在樣本含量而可能在未找準找全且未有效控制對評價指標有影響的重要非實驗因素方面,此時再擴大例數(shù)也是徒勞的或事倍功半的。
事實上,估計樣本含量是一項比較繁瑣的事情。因為需要提供一系列前提條件且能找到相應的統(tǒng)計學方法之后,才有可能去實際估計。在實驗設計中,擬對定量指標的平均值或定性指標的率進行假設檢驗時,常需提供的前提條件有如下幾條:(1)與結果精確度有關的前提條件:①定出檢驗水準:即事先規(guī)定本次實驗允許犯Ⅰ型(或假陽性)錯誤的概率α,通常規(guī)定α=0.05,同時還應明確是單側檢驗還是雙側檢驗,α定得越小,所需的樣本含量越大。②提出所期望的檢驗效能或稱把握度1-β[這里,β為犯Ⅱ型(或假陰性)錯誤的概率],即在特定的α水準下,若總體對比的參數(shù)之間確實存在著差別,此時該次實驗能發(fā)現(xiàn)此差別的概率。要求的檢驗效能越大,所需的樣本含量就越大。在科研設計時,檢驗效能不宜低于0.75,一般取0.8比較適宜。③需要對實驗過程中的樣本損耗作一個估計。假設研究者估計本次實驗過程中將有10%的動物死亡或者損耗而無法完成實驗,則應將通過計算得到的樣本量除以0.9,此時得到的結果才能作為實驗最終需要的樣本量。(2)與評價指標有關的前提條件:必須知道由樣本推斷總體的一些信息。比較兩總體均數(shù)或概率之間的差別是否具有統(tǒng)計學意義時,應當知道總體參數(shù)間的差值δ的信息。如兩總體均數(shù)間的差值δ=μ1-μ2的信息(或有關于μ1和μ2的估計值),兩總體概率間的差值δ=π1-π2的信息(或有關于和的估計值)。此外,確定兩均數(shù)比較的樣本含量時,還需要有關總體標準差σ的信息(或有關于總體標準差σ的估計值)。若希望進行非劣效性檢驗、等效性檢驗或優(yōu)效性檢驗時,需要提供在臨床上有意義的界值δ(此界值一般應由多位臨床專家共同討論來商定)。這些信息可以通過查閱資料、借鑒前人的經(jīng)驗或進行預試驗尋找參考值[10]。(3)與設計類型和比較類型有關的前提條件:前面提到“兩總體”,其真實含義是指所采用的是“單因素兩水平設計(常簡稱為成組設計)”。換句話說,擬采用什么實驗設計類型(因為除了單因素兩水平設計之外,還有單組設計、配對設計、單因素多水平設計、某種特定的多因素設計)是估計樣本含量的重要前提條件之一;而擬采用的比較類型(包括差異性檢驗、非劣效性檢驗、等效性檢驗或優(yōu)效性檢驗)也是估計樣本含量的重要前提條件之一。
運用專業(yè)的統(tǒng)計軟件來計算樣本含量是科學、嚴謹以及簡便的方法,也是實驗研究和臨床試驗研究中普遍采用的方法。目前能實現(xiàn)樣本含量計算的軟件有SAS、PASS、STATA、nQuery等,本文中實例運行將采用PASS軟件來完成。
因篇幅所限,本文僅介紹兩種設計類型且評價指標為定量指標的情形,即成組設計一元定量資料均值檢驗與單因素多水平設計一元定量資料均值檢驗時的樣本含量估計。希望借此引起廣大實際科研工作者對制訂科學完善科研設計方案、特別是有根據(jù)地估計合理的樣本含量的高度重視,從而起到一個拋磚引玉的作用。其他各種情形下如何估計樣本含量,后面將給出可供參考的文獻,以便讀者查閱。
例1成組設計一元定量資料均值檢驗時樣本含量估計:在動物鎮(zhèn)咳試驗中,比較中藥復方Ⅰ與復方Ⅱ使小鼠推遲發(fā)生咳嗽的時間,復方Ⅰ與復方Ⅱ的平均數(shù)分別為31.67s和44.00s(即δ=44.00-31.67 =12.33 s)。設兩組標準差相等,且為25 s,α=0.05(雙側),β=0.10,要得出兩組之間的差別有統(tǒng)計學意義的結論,問需要用多少只小鼠[11]?(不考慮實驗中耗損且兩組樣本量相等)
解答:已知的前提條件:
軟件用法:打開NCSS-PASS軟件后,選擇相應的MEANS→Two IndependentMeans→Test(Inequality)→Tests for Two Means(Two-Sample T-Test)[Differences]界面,按要求填入?yún)?shù),點擊運行后即可得到運行結果:N1=N2=87,即每組87只,總共需要174只小鼠來進行實驗才能達到所要求的檢驗效能。在實際科研中,由于實驗條件和經(jīng)費的限制,研究者往往需要通過多次調(diào)整估計樣本量的參數(shù)來探索性計算樣本含量,然后對條件和結果進行綜合考慮,選取適合開展研究又具有科學依據(jù)的樣本量作為最終的結果。通過PASS軟件的操作,我們就可以輕松完成這項工作,比如輸入power(1-β)這一欄時,我們同時輸入0.70、0.75、0.80、0.85、0.90這五個值,檢驗水準α則同時輸入0.05和0.10兩種情況,在不同水準下分別來觀察樣本量與檢驗效能之間的關系,點擊運行后結果見下面的表1。
Tab.1 The resultof sample size calculation in animal antitussive test
從表1中可以看出,當鎖定檢驗水準且保持其他參數(shù)不變,只改變初始檢驗效能initial power時,每組的樣本含量隨著initial power的降低而減少,說明了樣本含量的減少將降低實驗發(fā)現(xiàn)兩總體之間差別的能力。表格中第一行N1、N2的結果即為例1問題的答案,設定了檢驗水準為0.05、initial power= 0.90,軟件通過內(nèi)部迭代后計算所得的結果為每組87例。此時再用已經(jīng)算得的樣本量反推power,得到實際的檢驗效能actual power為0.90198。軟件計算可以方便地給出多種條件下運算的結果,供研究者結合實驗自身條件選擇最合適的樣本量和檢驗效能組合來開展實驗。
圖1中位于上方的曲線α為0.05,下方的曲線α為0.1,其他估計參數(shù)則完全相同。直觀地反映了相同條件下,檢驗水準取值越小,實驗所需樣本含量越多。當確定好檢驗水準時,隨著檢驗效能逐漸接近于1,所需樣本量增加的速度越來越快[12]。
例2、單因素多水平設計一元定量資料均值檢驗時的樣本含量估計。
在定量資料單因素多水平設計中,常會見到以下分組情況:對照組(0劑量)、低劑量組、中劑量組、高劑量組。研究者擬采取的統(tǒng)計分析方法也不僅僅是用單因素多水平設計一元定量資料方差分析來比較四個總體平均值之間差異是否有統(tǒng)計學意義,而是想研究所有分組之間、對照組與三種不同劑量組之間、效應值最高的組與其他三組之間分別進行兩兩比較的結果,來達到多方位考察不同劑量藥物對研究指標的影響的目的。這三種兩兩比較的方法對應的名稱分別是:Tukey-Kramer法(所有水平之間兩兩比較)、Hsu法(效應值最高的組與其他組分別兩兩比較)、Dunnett法(對照組與三種不同劑量組之間分別兩兩比較)。
Fig.1 The relationship between N and Power in animal antitussive test
假設某項研究想用這三種兩兩比較的方法考察四個總體均值之間的差異。設定檢驗水準α= 0.05,預實驗顯示標準差為6.3,且可認為各組標準差相等(即滿足所謂的方差齊性要求)。正常情況下,研究指標的均值為63.4,研究者認為該值上升25%可認為是實驗有意義的表現(xiàn),所以δ=0.25× 63.4=15.85即為該實驗最小可捕捉的差異值。當取檢驗效能為0.7、0.8、0.9時,分別計算三種兩兩比較方法下,差別有統(tǒng)計學意義時,所需樣本含量(每組樣本量相等),結果見表2。
解答:已知的前提條件:
α=0.05(雙側),β=0.10;四組均值都是63.4;四組的標準差都是6.3;有實際意義的差值為15. 85;還需要指定擬采用的兩兩比較方法,例如,Tukey-Kramer法。
軟件用法:打開NCSS-PASS軟件后,選擇相應的MEANS→ANOVA→Multiple Comparisons界面,按要求填入?yún)?shù)后,就得到所需要的總樣本含量為52例,每組13例。
當輸入power(1-β)這一欄時,若我們同時輸入0.70、0.80、0.90這三個值,由于PASS軟件只能通過點擊界面窗口進行操作,當選擇“Type of Multiple Comparison”時,需要分別選擇Tukey-Kramer法、Hsu法、Dunnett法進行三次重復操作才能完成。運行后結果整理如下,見表2。
Tab.2 The resultof sample size calculation in threemultiple comparisonsmethods
從表2中可以看出,三種兩兩比較方法中,Tukey-Kramer法由于要求所有的水平組合兩兩比較都有意義,所需樣本含量最多;而Hus法只要滿足效應最高的組與其他組兩兩比較有意義,比較容易得出有差異的結論,因此所需樣本含量最少。研究人員可根據(jù)自身實驗的要求,選擇對應的樣本含量估計方法,來得到最合理的結果。
本文直接指出了生理學研究中實驗設計階段樣本量估計方面存在的問題,介紹了單因素兩種設計類型一元定量資料均值假設檢驗時估計所需要樣本含量的具體方法。估計樣本含量不是隨意找一個計算公式就可計算出結果的工作,需要給定諸如擬采用的統(tǒng)計分析方法是什么和擬選定的實驗設計類型是什么等多個前提條件下,再利用具有樣本含量估計功能的軟件來計算才有可能得到正確的估算結果。因篇幅所限,還有幾十種不同應用場合下如何估計樣本含量的方法以及多種實現(xiàn)樣本含量估計的統(tǒng)計軟件的使用方法,請讀者參見電子工業(yè)出版社出版的《SAS統(tǒng)計分析教程》[13]樣本含量與檢驗效能估計的相關章節(jié),以及人民衛(wèi)生出版社出版的《臨床研究樣本含量估計》[14]。
還需指出的是,在進行科研課題的實驗前,一定要制訂出科學完善的科研設計方案,在課題實施過程中應有實時嚴格的質(zhì)量控制。資料將選用何種統(tǒng)計分析方法進行處理在設計中要有明確規(guī)定,這樣,在完全按照原設計進行實驗時,所估計的樣本含量才有效。
樣本含量的估計常常涉及到不同估計方法的取舍和復雜的公式及運算實現(xiàn),既要考慮與統(tǒng)計學有關的條件,又要考慮其它的某些條件(如資料質(zhì)量、依從性、分配比例等)[15]。如果存在后者的干擾,按估計的樣本量進行實驗,可能達不到預期的目標??蒲腥藛T遇到此類困難時可以求助有經(jīng)驗的統(tǒng)計學從業(yè)人員,從實際專業(yè)角度和統(tǒng)計學角度共同確定樣本量的計算方法,這也是制訂出科學完善的科研設計方案中的一個極其重要環(huán)節(jié)。
[1]陶麗新.臨床試驗中成組設計四種類似統(tǒng)計問題的比較研究[D].北京:中國人民解放軍軍事醫(yī)學科學院,2011.
[2]Young D,Lamb SE,Shah S,et al.High-Frequency Oscillation for Acute Respiratory Distress Syndrome[J].N Engl J Med,2013,368(9),806-813.
[3]Vain NE,Satragno DS,Gorenstein AN,et al.Effect of gravity on volume of placental transfusion:a multicentre,randomised,non-inferiority trial[J].Lancet,2014,384: 235-40.
[4]Harley Goldberg,William Firtch,Mark Tyburski,et al.Oral Steroids for Acute Radiculopathy Due to a Herniated Lumbar Disk?A Randomized Clinical Trial[J].JAMA,2015,313 (19):1915-1923.
[5]Kieboom JK,Verkade HJ,Burgerhof JG,etal.Outcome after resuscitation beyond 30minutes in drowned children with cardiac arrest and hypothermia:Dutch nationwide retrospective cohort study[J].BMJ,2015,350:h418.
[6]秦開秀,李醇文,方 艷,等.百草枯對活性氧類物質(zhì)的產(chǎn)生和中性粒細胞凋亡的影響[J].中國應用生理學雜志,2015,31(2):111-114.
[7]徐 紅,安 冬,殷盛明,等.蝎源活性肽對帕金森病大鼠凋亡因子改變的影響[J].中國應用生理學雜志,2015,31(3):225-229.
[8]魏珊珊,梁丹丹,嚴曉波,等.運動結合單不飽和脂肪酸攝入對大鼠胰島素抵抗的影響[J].中國應用生理學雜志,2015,31(3):269-271.
[9]賈 振,孫 建,李鴻珠,等.鈣敏感受體對大鼠糖尿病性心肌病的影響[J].中國應用生理學雜志,2015,31(1):35-37.
[10]胡良平,鮑曉蕾,周詩國,等.樣本量估計與檢驗效能分析(一)[J].中西醫(yī)結合學報 ,2011,9(10):1070-1074.
[11]胡良平.統(tǒng)計學三型理論在實驗設計中的應用[M].北京:人民軍醫(yī)出版社,2006:220-221.
[12]趙 健 ,龔婷婷 ,范肖肖,等.科研設計中樣本含量估計所需條件不足時的幾種處理措施[J].現(xiàn)代預防醫(yī)學,2013,40(8):1418-1420.
[13]胡良平.SAS統(tǒng)計分析教程[M].北京:電子工業(yè)出版社,2010:690-706.
[14]吳圣賢.臨床研究樣本含量估算[M].北京:人民衛(wèi)生出版社,2008:3-85.
[15]李嬋娟 ,蔣志偉,王 銳,等.隨機對照藥物臨床試驗樣本量估計[J].中國臨床藥理學與治療學,2011,16(10):1132-1136.
How to scientifically estimate sample size in physiological research
LIU Yi-song,GUOChunue,HUWan,LV Chen-long,HU Liang-ping△
(Consulting Center of Biomedical Statistics,Academy of Military Medical Sciences,Beijing 100850,China)
【ABSTRACT】Objective:To bring aboutphysiological researchers'attention of the importanceof sample size estimation.Methods:The significance aswellas the currentproblemsof sample size estimationwere illustrated and the commonly-used sample size estimationmethodswere introduced.Results:The basic concepts and necessary premises of sample size estimation were stated.The estimation processes and results under two different circumstanceswereelaborated in detailvia examples.Conclusion:To attain the properestimated sample sizes,the computationmust satisfy the necessary premiseswhich included the appropriate statistical analysismethods to be used.
physiological research; sample size estimation; two-sample parallel design; multiple comparisons
R181
A
1000-6834(2016)03-284-05
2015-06-15
2015-10-12
Tel:010-66932127;E-mail:lphu812@sina.com