亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        從重復(fù)原則視角審視體育科學(xué)實驗設(shè)計中的樣本量問題

        2023-06-15 03:25:32張連成劉潔呂嘉玉高淑青
        體育科學(xué) 2023年1期
        關(guān)鍵詞:樣本量實驗設(shè)計原則

        張連成,劉潔,呂嘉玉,高淑青

        從重復(fù)原則視角審視體育科學(xué)實驗設(shè)計中的樣本量問題

        張連成,劉潔,呂嘉玉,高淑青

        (天津體育學(xué)院 競技運動心理與生理調(diào)控重點實驗室,天津 301617)

        重復(fù)原則是實驗設(shè)計的基本原則之一,也是研究者控制實驗受試者個體差異的常用手段。遵循重復(fù)原則可以降低實驗誤差,改善實驗精度,提高研究的效度和研究的可重復(fù)性。體育科學(xué)領(lǐng)域?qū)嶒炑芯恐羞`背重復(fù)原則的問題主要包括:多因素實驗設(shè)計中某種處理缺乏必要重復(fù)、重復(fù)測量代替重復(fù)實驗以及混淆實驗分析單位導(dǎo)致偽重復(fù)、沒有科學(xué)估算樣本量等,這嚴(yán)重影響了實驗的嚴(yán)謹(jǐn)性,其實驗結(jié)果的可重復(fù)性令人擔(dān)憂。為提高體育科學(xué)實驗研究的可重復(fù)性,研究者應(yīng)該重視遵循重復(fù)原則,合理把握樣本量。體育科學(xué)實驗研究在遵循重復(fù)原則時需要注意4個問題:1)厘清實驗處理的最小單元;2)確定實驗分析單位,避免偽重復(fù);3)確定最小重復(fù)次數(shù);4)科學(xué)估算樣本量,估算時除了要考慮值、效果量和統(tǒng)計功效外,還需要考慮精度等因素。

        重復(fù)原則;可重復(fù)性;樣本量;精度;統(tǒng)計功效

        近年來很多學(xué)科爆發(fā)了可重復(fù)性危機(jī)??芍貜?fù)性是科學(xué)研究中的一個基本原則(Ayer et al., 2017),即科學(xué)結(jié)果應(yīng)經(jīng)得起反復(fù)推敲,并且由同行進(jìn)行驗證。然而,在實踐中,重復(fù)或驗證以前的研究結(jié)果面臨著挑戰(zhàn)。研究表明,在心理學(xué)領(lǐng)域,已發(fā)表的研究假陽性結(jié)果占比過高(Schweizeret al., 2016),且只有39%的研究被認(rèn)為是可重復(fù)的(Nosek et al., 2015)。雜志對1 576名科學(xué)家進(jìn)行的調(diào)查顯示,超過70%的研究人員未能重現(xiàn)其他學(xué)者的實驗,并且超過50%的研究人員無法重復(fù)自己的實驗(Baker, 2016)。對此有學(xué)者提出研究操作可疑、存在發(fā)表偏倚和過度依賴虛無假設(shè)檢驗等,都有可能是可重復(fù)率低的原因(胡傳鵬等,2016)。在體育學(xué)領(lǐng)域,張力為等(2021)探討了預(yù)防體育科學(xué)研究中可重復(fù)性危機(jī)的方法,如提前注冊、做好樣本量規(guī)劃等。但體育科學(xué)領(lǐng)域?qū)﹀e誤估算樣本量、可重復(fù)性危機(jī)問題還沒有給予足夠關(guān)注,更沒有像心理學(xué)領(lǐng)域那樣開展大規(guī)模的重復(fù)實驗。

        國外有學(xué)者分析了2009—2013年在運動和運動心理學(xué)領(lǐng)域的4種主要期刊上發(fā)表的所有定量研究的樣本量,結(jié)果顯示有50%的研究存在總樣本量不足的問題(Schweizeret al., 2016),進(jìn)而強(qiáng)調(diào)樣本大小在化解可重復(fù)性危機(jī)中的重要作用,認(rèn)為可重復(fù)率低可能是樣本量不足、檢驗功效低的研究設(shè)計所致的。于此,提高研究可重復(fù)性的首要任務(wù)應(yīng)是做好實驗設(shè)計,科學(xué)估算樣本量,實驗設(shè)計中應(yīng)遵循“隨機(jī)、對照、重復(fù)、均衡”4項原則,否則可能導(dǎo)致錯誤結(jié)論(王琪等,2010)。其中,重復(fù)有助于隨機(jī)等組效果的體現(xiàn)、發(fā)現(xiàn)真實存在的差異、提高實驗效度并保持結(jié)果穩(wěn)定,有利于他人對其進(jìn)行重復(fù);如果某項實驗隨意設(shè)置樣本量且過程中違背重復(fù)原則,則該實驗被他人重復(fù)的可能性幾乎為零。

        綜上所述,本文將在闡述重復(fù)原則相關(guān)概念的基礎(chǔ)上,關(guān)注體育科學(xué)實驗中樣本量估算和重復(fù)原則應(yīng)用的問題,針對如何規(guī)范體育科學(xué)實驗中的重復(fù)原則提出建議。

        1 重復(fù)原則與可重復(fù)性

        1.1 重復(fù)原則的概念

        重復(fù)有3層含義:重復(fù)取樣、重復(fù)測量和重復(fù)實驗(胡良平等,2004)。重復(fù)取樣是指從同一個樣本中多次取樣,測量某定量指標(biāo)的數(shù)值,目的是保證樣本中某定量觀測指標(biāo)含量的分布盡可能均勻,避免將個別情況誤認(rèn)為普遍情況,把偶然性或者巧合現(xiàn)象當(dāng)成必然的規(guī)律;重復(fù)測量是指受試對象在接受某種處理后,在不同時間點或?qū)ΨQ的不同部位上重復(fù)觀測某個定量指標(biāo),目的是掌握定量指標(biāo)隨時間推移(或部位改變)的動態(tài)變化情況;重復(fù)實驗是指實驗研究中的受試對象要達(dá)到一定的數(shù)量,即在相同實驗條件下要對足夠數(shù)量的受試對象進(jìn)行觀察。通常在研究過程中都要追求重復(fù)實驗,也就是將研究方案應(yīng)用于多個被試中進(jìn)行實驗。雖然單被試實驗設(shè)計在某些研究中有著特殊的貢獻(xiàn),但在需要量化推廣的隨機(jī)抽樣研究中只征用1個被試,這樣的實驗結(jié)果是不可靠的,不足以將其作為普適性結(jié)果進(jìn)行推廣。

        實驗設(shè)計中的重復(fù)原則多指實驗內(nèi)部重復(fù)原則,是現(xiàn)代科學(xué)研究中的規(guī)范性原則,即在相同的實驗條件下要獨立重復(fù)實驗足夠次數(shù),這里的“獨立”是指要用不同的個體或樣品做實驗,而不是在同一個體或樣品上做多次實驗,進(jìn)而揭示出隨機(jī)現(xiàn)象的基本規(guī)律(柳偉偉等,2010)。

        1.2 重復(fù)原則與可重復(fù)性的關(guān)系

        重復(fù)原則與可重復(fù)性是兩個概念。有學(xué)者提出,實驗的可重復(fù)性是指實驗的過程和結(jié)果均可重復(fù),一個成功的實驗不會因不同的時間、空間、實驗者而異,即可重復(fù)性指的是針對同一研究問題,其他研究者的獨立研究可以借助作者提供的方案再現(xiàn)實驗結(jié)果(何華青等,2008)。判定一個實驗成功與否的標(biāo)準(zhǔn)是看其是否具有可重復(fù)性,這是科學(xué)家們普遍認(rèn)可的一條準(zhǔn)則(何華青等,2008)。想要重復(fù)實驗結(jié)果,首先要實現(xiàn)實驗本身結(jié)果的穩(wěn)定,只有實驗結(jié)果穩(wěn)定,他人才能更好地對該實驗進(jìn)行重復(fù)。即在實驗中遵循重復(fù)原則,合理把握樣本量,提高實驗效度,是提高研究可重復(fù)性的基礎(chǔ)。

        由此可見,科學(xué)實驗需要遵守重復(fù)原則,在相同實驗條件下要對足夠數(shù)量的受試對象進(jìn)行觀察,以提高研究的可重復(fù)性。其中,內(nèi)部重復(fù)是重復(fù)實驗處理,增加樣本量,是重復(fù)原則的要求;外部重復(fù)是重復(fù)整個實驗過程,提高研究的可重復(fù)性,是可重復(fù)性的要求。提示,研究者可以根據(jù)某一研究主題設(shè)計系列研究,在自己的系列研究中加入重復(fù)實驗,以達(dá)到“真重復(fù)”。這樣的研究雖費時費力,但更具科學(xué)價值,也更有利于解決可重復(fù)性危機(jī)問題。

        1.3 重復(fù)原則的作用

        體育科學(xué)研究中的許多實驗都屬于隨機(jī)實驗,其實驗結(jié)果不能事先準(zhǔn)確斷定。雖然隨機(jī)化能在很大程度上消除非實驗因素所產(chǎn)生的影響,但若樣本量過小,則可能把個別或偶然現(xiàn)象誤認(rèn)為是普遍或必然現(xiàn)象,在實際工作中產(chǎn)生負(fù)面影響甚至造成重大損失。并且,要想正確地反映隨機(jī)實驗結(jié)果出現(xiàn)的一般規(guī)律,必須進(jìn)行大量的獨立重復(fù)實驗,因此,在實驗中遵守重復(fù)原則十分重要。重復(fù)可以排除隨機(jī)誤差的干擾和影響,真實地反映隨機(jī)變量的統(tǒng)計規(guī)律性,是消除非實驗因素影響的一種重要手段(柳偉偉等,2010)。其在科學(xué)研究中的具體作用如下:

        第一,穩(wěn)定標(biāo)準(zhǔn)差,反映隨機(jī)變量的規(guī)律性。實驗研究需要由樣本去推斷總體,即由樣本的特征去推斷其所在總體的規(guī)律。由于實驗研究對象之間的異質(zhì)性,實驗結(jié)果具有隨機(jī)性。因此,合理把握樣本特征非常重要,其中對樣本規(guī)律的把握應(yīng)將隨機(jī)變量的異質(zhì)性充分展示出來,這就需要通過進(jìn)行重復(fù)實驗來實現(xiàn)。只有重復(fù)實驗,才能穩(wěn)定標(biāo)準(zhǔn)差,使樣本的均數(shù)與總體保持一致。這樣,樣本的異質(zhì)性才能代表總體的異質(zhì)性,進(jìn)而確保真實地反映隨機(jī)變量的統(tǒng)計規(guī)律。

        第二,降低實驗誤差,提高實驗精度。誤差主要由樣本量決定,在體育科學(xué)研究中,樣本含量越小,其抽樣誤差越大,可重復(fù)性越差,檢驗效能越低,研究結(jié)論將缺乏科學(xué)性、真實性(祁國杰等,2011)。并且個體差異是客觀存在的且抽樣誤差不可避免,因此,在特定實驗條件下,完全有可能出現(xiàn)效果量(effect size)偏小或偏大的實驗結(jié)果。針對此情況,研究者可以通過增加重復(fù)次數(shù)以減少實驗分配給實驗處理帶來的偏差,進(jìn)而使實驗組與對照組的差異能夠準(zhǔn)確顯露出來,在正確估計實驗誤差與明確組間差異的基礎(chǔ)上,科學(xué)地做出統(tǒng)計推斷,為結(jié)論的可重復(fù)性提供保障。據(jù)此可以得知,重復(fù)原則對于提高實驗精度以及判斷治療效果可靠性都非常重要,并為結(jié)論可靠性提供了合理的評估指南。

        第三,穩(wěn)定實驗結(jié)果,提高研究可重復(fù)性。要實現(xiàn)研究的效應(yīng)穩(wěn)定,即通過某個實驗觀察到的結(jié)果在后續(xù)實驗中仍然可以被發(fā)現(xiàn),則需要對大量被試進(jìn)行重復(fù)實驗。由前文提到的兩點可知,遵循重復(fù)原則不僅減少了實驗結(jié)果的可變性,排除偶然因素的影響,還提高了實驗的精度,進(jìn)而精確估計其取值范圍,將隨機(jī)現(xiàn)象的規(guī)律顯現(xiàn)出來,得出科學(xué)的、真實的、規(guī)律性的結(jié)論,為總體差異檢驗和結(jié)果的穩(wěn)定奠定了基礎(chǔ)。提示,在實驗設(shè)計中遵循重復(fù)原則可以提高研究的可重復(fù)性,降低發(fā)生重復(fù)性危機(jī)的可能性。

        2 體育科學(xué)實驗中違背重復(fù)原則的常見問題

        2.1 多因素實驗設(shè)計中某種處理缺乏必要重復(fù)

        多因素實驗設(shè)計有被試內(nèi)設(shè)計(可也稱重復(fù)測量設(shè)計)和被試間設(shè)計兩種形式。重復(fù)測量設(shè)計是在不同條件、不同時間、對稱部位、鄰近區(qū)域等對同一受試對象進(jìn)行重復(fù)觀測獲得指標(biāo)數(shù)據(jù)的一種實驗設(shè)計類型(游永豪等,2010),被試在重復(fù)測量因素上可以重復(fù)實驗,能夠節(jié)省樣本量。被試間設(shè)計中由于被試只接受一種實驗處理,則需要更大樣本量。

        根據(jù)重復(fù)原則,在每一個實驗處理中都需要足夠的重復(fù)次數(shù)。采用完全被試間設(shè)計又存在多個因素時,就會產(chǎn)生多種實驗處理。此時,雖然整個研究的樣本量很大,但是在具體的實驗單元中可能存在重復(fù)不足的現(xiàn)象。例如,對于2×2×3的完全被試間設(shè)計來說,共有12種實驗處理方式,如果此時只有20名被試參加實驗,那么就會產(chǎn)生某種實驗處理下只有1名被試的情況,違背重復(fù)原則。此外,一些動物實驗需要在運動后不同時間進(jìn)行取材,也可能會產(chǎn)生重復(fù)不足的現(xiàn)象。例如,某項研究為探討運動后不同時間的線粒體分裂過程,需要將大鼠分為實驗組和運動組,運動組還需要在運動后即刻、6 h、12 h、24 h、48 h和72 h分別進(jìn)行6次取材;此時,如果僅有16只大鼠,則每次取材的大鼠數(shù)量不足2只,那么后續(xù)運動干預(yù)后的各取材組就很可能出現(xiàn)樣本量不足,違背重復(fù)原則。

        綜上,進(jìn)行重復(fù)實驗時,首先要明確實驗設(shè)計中有多少種實驗處理方式,保證每種實驗處理下至少有2名被試。當(dāng)然,在實際操作中進(jìn)行樣本量選取時,只選取2人進(jìn)行實驗是遠(yuǎn)遠(yuǎn)不夠的,因此,根據(jù)實驗設(shè)計類型及其處理方式進(jìn)行相應(yīng)的重復(fù)是十分必要的。

        2.2 重復(fù)測量代替重復(fù)實驗以及混淆實驗分析單位導(dǎo)致偽重復(fù)

        偽重復(fù)主要指實驗中的樣本量(實驗重復(fù)次數(shù))小于真實樣本量(最小實驗重復(fù)次數(shù))。換句話說,是指研究者雖然在實驗過程中進(jìn)行了重復(fù),但并不是以實驗?zāi)康摹嶒炞钚√幚韱挝缓蛯嶒炘O(shè)計等為標(biāo)準(zhǔn)進(jìn)行的科學(xué)重復(fù),主要是由研究者對于“重復(fù)”的操作性定義不清晰、最小重復(fù)次數(shù)計算方面存在困難等原因?qū)е?。Lazic等(2018)指出,46%的研究將偽重復(fù)(重復(fù)測量)誤認(rèn)為是真正的重復(fù)。例如,Serdar等(2021)指出,在動物研究的實驗設(shè)計中,常使用技術(shù)重復(fù)(重復(fù)測量)而不是生物重復(fù)(重復(fù)實驗):假設(shè)一個研究小組正在調(diào)查一種治療藥物對血糖水平的影響,如果研究人員測量3只接受實際治療的小鼠和3只接受安慰劑的小鼠的血糖水平,則是一個生物學(xué)上的重復(fù),即重復(fù)實驗;如果對接受實際治療的單個小鼠的血糖水平和接受安慰劑的單個小鼠的血糖水平分別測量3次,則是技術(shù)上的重復(fù),即重復(fù)測量。兩種設(shè)計都將提供6個數(shù)據(jù)點來計算值,但從第二種實驗設(shè)計獲得的值毫無意義,因為每個治療組只有一個樣本。綜上可知,對單個小鼠的多次測量是偽重復(fù),而對不同小鼠進(jìn)行獨立測量則是真重復(fù)。這一問題在許多科學(xué)研究中大多被低估、忽視或隱瞞。

        在體育科學(xué)實驗研究中也是如此,一些研究缺乏代表性抽樣,通常是從相關(guān)人群中進(jìn)行非隨機(jī)抽樣。如果在統(tǒng)計模型中沒有考慮到這種非隨機(jī)抽樣,則會導(dǎo)致不確定性區(qū)間過于狹窄,其結(jié)果將難以推廣,且可重復(fù)性低(Lazic et al., 2020)。此外,還有一些研究中被試個體不具有統(tǒng)計學(xué)獨立性,樣本總量很多,但是難以推廣至總體,進(jìn)而導(dǎo)致偽重復(fù)。例如,為了探討新的體育教學(xué)方法是否優(yōu)于傳統(tǒng)體育課程,研究者僅選取了2個班級進(jìn)行干預(yù),一個班級實施新教學(xué)方法,一個班級實施傳統(tǒng)教學(xué)方法,則實質(zhì)上每種干預(yù)方式下只有1個樣本。如果實施新教學(xué)方法的班級表現(xiàn)優(yōu)于另外一個班級,那么該結(jié)果不能有效展示教學(xué)方法這個變量的隨機(jī)性,因此至少需要在2個班級進(jìn)行新教學(xué)方法的實驗,同樣傳統(tǒng)的教學(xué)方法也要應(yīng)用于2個及以上班級。這提示,如果在實驗中發(fā)生了偽重復(fù),則會影響實驗的內(nèi)部效度和外部效度,其實驗結(jié)果不具備推廣性。

        綜上可知,當(dāng)一個研究想對其結(jié)果進(jìn)行推廣時,應(yīng)在實驗設(shè)計階段注意對被試進(jìn)行重復(fù)實驗而不是重復(fù)測量,另外需要注意分析單位,避免發(fā)生偽重復(fù),降低實驗效度進(jìn)而影響實驗結(jié)果。

        2.3 沒有科學(xué)估計樣本含量

        樣本量是科學(xué)實驗中最關(guān)鍵的統(tǒng)計量之一,原因如下:1)一項研究是否真實有效,取決于樣本量的大小。2)樣本量大小在精確估計效應(yīng)大小方面起著重要的作用。3)一項研究是否可以重復(fù),得到類似的結(jié)果,也取決于樣本量的大小。因此,正確估計樣本含量體現(xiàn)了統(tǒng)計研究設(shè)計中的重復(fù)原則,可以降低研究中的抽樣誤差。同時,足夠的樣本量也是保證實驗研究中組間均衡性的基礎(chǔ)(張效嘉等,2016)。

        2.3.1 樣本量過小

        雖然較小的樣本產(chǎn)生漏檢的可能性較高已成為共識,但許多研究人員沒有意識到較小的樣本產(chǎn)生假陽性的可能性也較高(Button et al., 2013),并且小樣本研究中的效應(yīng)大小通常偏大,因為小樣本更容易受到抽樣數(shù)據(jù)中偶然變化的影響。同時,當(dāng)樣本較小時,大于真實效應(yīng)的研究才會被公開發(fā)表,而小于真實效應(yīng)的研究則會被丟棄,從而產(chǎn)生偏倚(Ioannidis, 2005)。這樣的結(jié)果雖然容易發(fā)表,但會降低研究的可重復(fù)性,造成重復(fù)性危機(jī)。在體育科學(xué)研究領(lǐng)域中,有許多樣本量過小的案例。

        例如,某研究探討核心力量對老年人跌倒的影響,將老年人隨機(jī)分為核心力量練習(xí)組和對照組,每組被試僅有9名。若根據(jù)文章內(nèi)的統(tǒng)計量將效果量設(shè)置為0.5,設(shè)置為0.05,統(tǒng)計功效為0.8,則每組至少需要34人;如果將效果量設(shè)置為大效果量0.8,此時每組也應(yīng)至少需要15人。再如,某研究選擇10位慢性心力衰竭患者,隨機(jī)分成2組,每組5人,探討用心肺運動實驗指導(dǎo)制定個體化運動處方對慢性心力衰竭患者康復(fù)的療效。該研究采用的是成組設(shè)計,樣本量較小且沒有推算過程,雖然結(jié)果顯示兩組差異顯著,但計算該實驗的檢驗效能后發(fā)現(xiàn),不管是單側(cè)檢驗還是雙側(cè)檢驗,檢驗功效都很低,即該實驗可能犯了Ⅱ型錯誤。這提示,過小的樣本量雖然可能產(chǎn)生較大的效果量,有利于公開發(fā)表,但這個結(jié)果并不容易重復(fù),實驗的效果量虛高以及研究結(jié)果呈現(xiàn)假陽性的可能性更大。

        比較極端的例子還有一些研究者使用1名被試開展實驗。例如,某項比較3種不同品牌籃球鞋足跟部壓縮性能的研究,隨機(jī)選取1名籃球?qū)I(yè)的大學(xué)生穿著3種品牌籃球鞋,測試其在正常步行速度下的足底壓力分布情況,結(jié)合材料力學(xué)試驗機(jī)對3種不同類型的鞋底材料進(jìn)行壓縮實驗,并對相關(guān)數(shù)據(jù)進(jìn)行分析。該研究完全忽略了個體之間的差異性,違背重復(fù)原則,其結(jié)論只適用于個案而無法推廣至大眾。

        綜上所述,即使某些研究在選取被試時遵循了隨機(jī)原則,但不可否認(rèn)研究者并未對樣本容量進(jìn)行考量,違背重復(fù)原則。實驗法的一個顯著特點就是精確性,但由于個體差異的存在,必然導(dǎo)致實驗結(jié)果有一定的誤差,因此研究者必須堅持重復(fù)原則,在大量重復(fù)的實驗中,降低個體差異所帶來的實驗誤差,保證實驗的精度。

        2.3.2 樣本量過大

        檢驗功效與樣本量的大小有關(guān),樣本量越大發(fā)現(xiàn)陽性結(jié)果的概率越高(Cohen, 1992)。但在現(xiàn)實研究過程中,過大的樣本量則可能導(dǎo)致人力、物力資源的浪費。例如,在功能性磁共振成像研究領(lǐng)域,即使是樣本量相對較小的研究也可能花費數(shù)萬美元,大部分地區(qū)的資助系統(tǒng)通常無法實現(xiàn)大樣本(>100)的常規(guī)采集(Mumford et al., 2008)。并且在體育科學(xué)領(lǐng)域,如果研究對象為高水平運動員,則可選取的被試范圍較小,同樣無法實現(xiàn)大樣本。此外,大樣本量雖然容易產(chǎn)生顯著差異,但如果不提高實驗的檢驗功效,則容易產(chǎn)生假陽性結(jié)果。在許多情況下,大樣本量的研究會產(chǎn)生系統(tǒng)性偏倚或缺失大量信息,甚至缺失關(guān)鍵變量,進(jìn)而放大由其他研究設(shè)計問題引起的偏差。

        Celik等(2014)提出,如果有兩項隨機(jī)臨床實驗比較了肺炎的新療法,這兩項實驗都產(chǎn)生了具有統(tǒng)計學(xué)意義的結(jié)果。一項實驗的研究對象是150名患者,另一項實驗的研究對象則是15 000名患者。在二者都具有統(tǒng)計學(xué)意義的前提下,應(yīng)該首選哪種治療方法?許多人可能更傾向于基于大樣本量的實驗研究結(jié)果,然而,當(dāng)樣本量足夠大時,產(chǎn)生顯著性差異并不是難事。換句話說,雖然基于大樣本量的實驗有許多優(yōu)點,但其觀察到的顯著差異并不能說明該治療方法效果極好。因為,在恒定的精確值水平下,個體患者更有可能從小型實驗所得結(jié)果中受益。在大樣本量中確定的治療效果雖然具有統(tǒng)計學(xué)意義,但在個人層面上幾乎是微不足道的。因此,在處理大數(shù)據(jù)集時,應(yīng)較少關(guān)注值的大小,而更多地關(guān)注效果量的大小,后者可以幫助確定發(fā)現(xiàn)的差異是否有意義(Bakker et al., 2019)。同樣,在體育科學(xué)領(lǐng)域也存在選取樣本量過大的案例,例如,某研究采用2×3的完全被試內(nèi)設(shè)計,探討振動刺激對肌肉激活的影響,根據(jù)該研究中的相關(guān)指標(biāo)(中等效果量為0.25,=0.05,統(tǒng)計功效為0.8)進(jìn)行計算后發(fā)現(xiàn)樣本量應(yīng)為19人,而該研究選取46人則會導(dǎo)致研究成本大大提高,也浪費資源。

        綜上,在實驗設(shè)計中,過小的樣本量容易產(chǎn)生假陽性的結(jié)果,雖然有利于公開發(fā)表,但可重復(fù)性低并且結(jié)果不具有推廣性;過大的樣本量雖易產(chǎn)生顯著性差異,但會浪費大量的人力物力,且實際效果可能微不足道。此外,現(xiàn)有研究大多關(guān)注總樣本量的大小,忽視實驗中每組被試的數(shù)量,容易導(dǎo)致總樣本量看似足夠,但實際每組被試數(shù)目不足以實現(xiàn)每種處理方式的重復(fù),提示未來研究要根據(jù)實際的實驗設(shè)計科學(xué)計算樣本量。

        3 體育科學(xué)實驗設(shè)計中如何選擇樣本量

        一般實驗過程中,初始條件與實驗條件均難免控制得完全一致,因此重復(fù)次數(shù)越多,未必誤差就越小,即對于實驗的重復(fù)次數(shù)不能一味地追求多,而需要根據(jù)實驗要求和實驗條件進(jìn)行判斷,結(jié)合具體情況做出合理的估計。例如,若個體之間差異較大,需要進(jìn)行重復(fù)的次數(shù)就多;反之,若差異較小,重復(fù)次數(shù)也應(yīng)該相應(yīng)地減少。在進(jìn)行相關(guān)實驗設(shè)計時,不可能完成無數(shù)次重復(fù)驗證,但是不做重復(fù)或僅重復(fù)2~3次,其可靠性是值得懷疑的。因此,本文結(jié)合前人研究以及相關(guān)案例,對于體育科學(xué)實驗設(shè)計中如何遵循重復(fù)原則提出以下建議。

        3.1 厘清實驗處理單位,實現(xiàn)必要重復(fù)

        首先,厘清實驗設(shè)計中的實驗處理單位對于遵循重復(fù)原則是必要的,這里的實驗處理單位指的是實驗中最小的獨立部分。實驗處理單位通常是各種實驗處理的交互,需要清楚每個實驗有多少種處理方式,實驗處理單位越多,需要的樣本量越大。析因設(shè)計是多因素多水平全面組合的一種設(shè)計方法,析因設(shè)計中最簡單就是2×2的析因?qū)嶒灒侵?個研究因素分別有2個水平,一共構(gòu)成4個實驗處理單位;再拓展一下,如2×3×4則表示3個研究因素分別含有2、3和4個水平,一共構(gòu)成24個實驗處理單位。析因設(shè)計的優(yōu)點是能夠全面地分析每一種組合,但缺點也很明顯,如果因素和水平增加,則實驗實施的難度會越來越大,實驗消耗的物力精力也均較大。各實驗條件下都應(yīng)該開展足夠的重復(fù)實驗,各實驗因素需同時施加,因此需要厘清實驗處理單位,以更好地遵循重復(fù)原則。

        3.2 確定實驗分析單位,避免偽重復(fù)

        實驗分析單位是指在進(jìn)行實驗數(shù)據(jù)分析時用于比較結(jié)果差異的最小計量單位。例如,在探討不同教學(xué)方式效果時,要明確此時最小的實驗分析單位是班級或?qū)W校,而不是學(xué)生個體,所以在進(jìn)行重復(fù)時應(yīng)對班級或?qū)W校進(jìn)行重復(fù),這樣才能得到真實的實驗結(jié)果。例如,Chen等(2013)為探討建構(gòu)主義課堂對課堂中體育活動的影響,隨機(jī)選取30所小學(xué)的1 043個班級,以學(xué)校為單位進(jìn)行干預(yù),這些學(xué)校被隨機(jī)分配到試驗性課程組(=15)或控制性課程組(=15),最終得出建構(gòu)主義教學(xué)方法可以促進(jìn)學(xué)生的知識學(xué)習(xí),而不會減少課堂上的體育活動的結(jié)論。

        3.3 確定最小重復(fù)次數(shù)

        在重復(fù)原則相關(guān)研究中,重復(fù)次數(shù)指的是重復(fù)實驗的次數(shù),本質(zhì)上與樣本量相關(guān)。如前文所述,確定最小重復(fù)次數(shù)在研究過程中是必要的。但在不同的科學(xué)領(lǐng)域,最小重復(fù)次數(shù)并不相同。趙鼎新(2015)指出,某一類自然或社會現(xiàn)象所呈現(xiàn)的各種規(guī)律的背后總是存在著某種總體性規(guī)律,總體性規(guī)律一旦被揭示,原來已知的各種規(guī)律就會成為這種總體性規(guī)律的具體表現(xiàn)形式或組成部分。但對于社會科學(xué)來說,其研究對象是人,在常用的社會科學(xué)方法中,訪談?wù){(diào)查時訪談?wù)吆褪茉L者的特征,以及兩者之間的互動方式都難以得到有效的控制;采用觀察法所觀察到的往往是研究者的感官能夠和愿意接受的信號;問卷調(diào)查最多只“控制”了問卷設(shè)計者注意到的和想控制的“變量”,并且調(diào)查結(jié)果會顯著地受到提問方式的影響;實驗法則因為個體之間的差異性而難以得出普遍適用的結(jié)論。因此,對于自然科學(xué)來說,有些研究只要得到結(jié)論,則其具有普適性,不需要過多的重復(fù),如太陽東升西落;而在社會科學(xué)中,有必要計算重復(fù)實驗的次數(shù)來提高發(fā)現(xiàn)總體規(guī)律的能力,從而減少Ⅱ型錯誤。

        對于重復(fù)的次數(shù)是否有一個標(biāo)準(zhǔn)?在生物學(xué)領(lǐng)域,大多數(shù)研究人員都選擇了重復(fù)3次,原因是在重復(fù)3次的情況下,才能得到除了標(biāo)準(zhǔn)差之外的其他統(tǒng)計量,并且這個重復(fù)次數(shù)還取決于樣本之間的標(biāo)準(zhǔn)偏差、效應(yīng)大小、潛在生物學(xué)的噪聲以及所使用的特定統(tǒng)計分析方法(Naegle et al., 2015)。另一種確定實驗重復(fù)次數(shù)的方法是使用操作特性曲線,操作特性曲線是一種圖表,它根據(jù)反映零假設(shè)為假時的參數(shù)來計算產(chǎn)生Ⅱ型錯誤的可能性(Juristoetal., 2001)。操作特性曲線可作為實驗者決定重復(fù)次數(shù)的指南,以確保設(shè)計對備選方案之間的潛在重要差異敏感,并確保在分析過程中正確拒絕無效假設(shè)。簡而言之,操作特性曲線可用于計算實驗中的重復(fù)次數(shù),以提高統(tǒng)計能力。

        Juristo等(2001)通過操作特性曲線以及相關(guān)案例得出,對于單因素設(shè)計的實驗來說,至少需要6次重復(fù)才能使得實驗結(jié)果穩(wěn)定;對于雙因素設(shè)計的實驗來說,如果在估計時間的標(biāo)準(zhǔn)偏差時沒有出現(xiàn)嚴(yán)重錯誤,則4次重復(fù)足以穩(wěn)定實驗結(jié)果。其他設(shè)計類型的實驗?zāi)壳斑€沒有得到相關(guān)研究的驗證,提示未來可以根據(jù)實驗類型對最小重復(fù)次數(shù)進(jìn)行科學(xué)計算與推論。此外,雖然上述研究針對不同實驗類型得出了相應(yīng)的重復(fù)次數(shù),但在實踐中,重復(fù)次數(shù)往往要高于這個數(shù)量才能保證實驗結(jié)果的穩(wěn)定性,提高其可重復(fù)性。因此,在實際研究中,需要使用G*Power、PASS等軟件進(jìn)行樣本量的科學(xué)估算,根據(jù)實驗類型及樣本量的大小推算重復(fù)次數(shù)。

        3.4 科學(xué)估算樣本量

        樣本量的影響因素有很多,如實驗問題、實驗?zāi)繕?biāo)、檢驗效能、檢驗水準(zhǔn)、單雙側(cè)檢驗、實驗設(shè)計類型、預(yù)期效果量、置信區(qū)間、總體個體差異等,這就需要我們盡可能全面地對其進(jìn)行估算。Abt等(2020)為了解估算樣本量的方法,對中3年的研究進(jìn)行了數(shù)據(jù)分析,結(jié)果顯示,120篇研究中只有12篇包含基于檢驗功效的先驗樣本大小估計,1篇使用精度方法估計樣本大小,其他研究均沒有對樣本量的計算過程進(jìn)行說明。提示,樣本量估算還沒有得到體育科學(xué)各領(lǐng)域?qū)W者的廣泛重視。對樣本量的估算是研究準(zhǔn)備階段的重要組成部分,不同的研究問題、研究對象、研究設(shè)計及數(shù)據(jù)處理方法對樣本量的要求不同,樣本量是否適宜對研究的質(zhì)量有重要影響。

        足夠且適當(dāng)?shù)臉颖玖坎拍鼙WC重復(fù)原則的要求,進(jìn)而發(fā)現(xiàn)真實存在的實驗效益,如果研究人員不能正確估計樣本量,只是一味地增加樣本量,那么該研究產(chǎn)生假陽性結(jié)果的可能性就會增加。此外,為了更好地提高可重復(fù)性,也應(yīng)對重復(fù)研究時所選取的樣本量進(jìn)行科學(xué)的計算,而不是完全與被重復(fù)研究樣本量一致?,F(xiàn)階段,為應(yīng)對可重復(fù)性危機(jī),各領(lǐng)域存在一些爭論,但大多數(shù)學(xué)者都提出科學(xué)估算樣本量是一個重要的應(yīng)對措施(劉佳等,2018)。當(dāng)?shù)玫疥幮越Y(jié)論時(>0.05),需要關(guān)心檢驗功效的大小,即實驗產(chǎn)生陰性結(jié)果的原因是檢驗功效過低還是比較的兩組之間差異確實不顯著。如果此時檢驗效能較高(>75%),陰性結(jié)果可解釋為后者;反之,如果檢驗效能低于75%,則需適當(dāng)增加樣本含量后再作分析。因此,早期考慮樣本含量可以有效檢驗實驗的可行性,進(jìn)行重復(fù)研究時估算樣本含量可以提高研究的可重復(fù)性。

        目前,根據(jù)實驗?zāi)康牟煌?,估算樣本量的方法主要有兩種。為了拒絕零假設(shè)時,可以選擇基于統(tǒng)計功效估算樣本量的方法。但對于某些實驗,尤其是對臨床醫(yī)學(xué)領(lǐng)域的優(yōu)效性實驗、等效性實驗以及非劣效性實驗來說,僅僅得出干預(yù)結(jié)果具有顯著性是遠(yuǎn)遠(yuǎn)不夠的,還需要給出臨界值,在正負(fù)臨界值之間[-Δ、Δ]為等效性;95%置信區(qū)間的下限大于預(yù)先設(shè)定的臨界值Δ,則為優(yōu)效性檢驗;95%置信區(qū)間的下限大于負(fù)的臨界值(-Δ),為非劣效性檢驗(黃欽等,2007)。因此,為了使實驗結(jié)果更精準(zhǔn),厘清干預(yù)條件在何種情況下才為顯著,要選擇基于精度估算樣本量的方法。二者的使用方法和所得結(jié)果均有差異,本文將通過一個案例對兩種方法進(jìn)行詳細(xì)介紹:假設(shè)一位研究人員為探討一種新藥物對抑郁癥的影響,將抑郁癥患者隨機(jī)分為治療組和對照組,治療組接受新藥物的干預(yù)并保持日常的活動,對照組則接受安慰劑代替活性藥物并保持日常的活動。根據(jù)之前的調(diào)查,研究人員預(yù)估組內(nèi)標(biāo)準(zhǔn)差(假設(shè)兩組的標(biāo)準(zhǔn)差相等)為20,=0.05,區(qū)間估計的置信水平為95%,那么如何通過兩種方法科學(xué)估算該實驗所需樣本量?

        3.4.1 依據(jù)統(tǒng)計功效估算

        為應(yīng)對由于樣本量不合適而造成的研究結(jié)果可重復(fù)性低的問題,目前常采用G*Power等軟件計算合適的樣本數(shù)量。在假設(shè)檢驗中,既定的統(tǒng)計模型包含4個參數(shù):值、效果量、樣本量和統(tǒng)計功效。當(dāng)其中3個參數(shù)確定之后,可計算出第4個參數(shù)的值。通常設(shè)定=0.05,統(tǒng)計功效為0.8(更好的標(biāo)準(zhǔn)是0.9或0.95),效果量的默認(rèn)值為中等效果量,可作為沒有特別依據(jù)時設(shè)定效果量的參考,但如果有前人實證研究或元分析的結(jié)果,則可據(jù)此計算得出(張力為等,2021)。在使用軟件時,要根據(jù)統(tǒng)計檢驗類型進(jìn)行檢驗方法選擇,這就需要我們明確自己的實驗設(shè)計類型,厘清最小實驗單元。本文以G*Power為例,依據(jù)檢驗功效估算樣本量的具體步驟如下:1)確定設(shè)計方法;2)確定資料類型;3)考慮統(tǒng)計方法;4)確定基本參數(shù);5)計算樣本含量;6)校正樣本含量。

        例如,為比較兩組均數(shù)之間的差異,首先應(yīng)在G*Power中選擇獨立樣本檢驗,將值設(shè)為0.05,統(tǒng)計功效設(shè)置為0.8,效果量選擇中等效果量0.5,所得結(jié)果如圖1所示,即要想滿足檢驗功效為0.8,該實驗每組樣本量至少為64人,若想要達(dá)到更好的檢驗功效(如0.95),則每組樣本量至少為105人。提示,一項研究想要得到更大的統(tǒng)計功效,有必要增加相應(yīng)的樣本量。此外,如果假設(shè)有明確的方向性,可以采用單尾檢驗,如此,上述案例中在進(jìn)行單尾檢驗時,實驗每組的樣本量至少為51人,降低了所需樣本量。

        圖1 通過G*Power估算的樣本量

        Figure 1.Sample Size Estimated by G*Power

        3.4.2 依據(jù)參數(shù)精度估算

        Abt等(2020)提出,科學(xué)估算樣本量不能只考慮值、效果量和統(tǒng)計功效,還需要考慮實驗的精度。該作者進(jìn)一步提出了根據(jù)精度計算樣本量的做法,即參數(shù)精度估計法(accuracy in parameter estimation, AIPE),與傳統(tǒng)基于功效的樣本量估計不同,AIPE方法將樣本量的估計建立在一定置信區(qū)間寬度的基礎(chǔ)上。其目標(biāo)不是獲取具有統(tǒng)計意義的參數(shù)估計值,而是為了準(zhǔn)確估計相應(yīng)總體參數(shù)值(Kelley et al., 2003),該方法也得到了的認(rèn)可。具體來說,精度通常用置信區(qū)間的半寬度來衡量,置信區(qū)間可以表示為標(biāo)準(zhǔn)偏差的比例或因變量的度量,其寬度與樣本大小成比例(Cumming, 2014)。精度的高低決定著檢驗力的大小,即置信區(qū)間越窄,得到的點估計越有可能準(zhǔn)確地表示真實的總體值。因此,根據(jù)精度去估算相應(yīng)的樣本量是有必要的。

        對于上述案例,在使用AIPE方法的情況下,研究人員需要估計期望的置信區(qū)間寬度或半寬度。為估算合適的樣本量,使用PASS軟件,選擇置信區(qū)間估算兩組平均值差異的方法,將檢驗功效設(shè)置為0.8,置信區(qū)間寬度取值為5,此時每組的樣本量至少為54人(圖2),若將置信區(qū)間寬度取值為2.5,則需要的樣本量將增加4倍,每組至少211人(圖3)。提示,在使用精度估算樣本量時,置信區(qū)間的寬窄起著重要的作用,置信區(qū)間的寬度越窄,所需樣本量越大,實驗結(jié)果越精確。

        很明顯,這兩種方法從一開始就不同,并且在同一研究中可以產(chǎn)生不同的樣本大小。研究者需要根據(jù)研究目的科學(xué)合理規(guī)劃樣本量。

        3.4.3 進(jìn)行重復(fù)研究時估算樣本量

        為了提高研究的可重復(fù)性,不僅要在實驗設(shè)計時科學(xué)估算樣本量,在進(jìn)行重復(fù)研究時也應(yīng)該根據(jù)原始研究的值計算實驗的復(fù)制概率或預(yù)測能力,進(jìn)而估算最佳樣本量。Zwet等(2022)匯總了Cochrane Collaboration數(shù)據(jù)庫中4萬項實驗的數(shù)據(jù)信息,發(fā)現(xiàn)若要重復(fù)=0.05的輕微顯著性結(jié)果,概率小于30%;在=0.005時,重復(fù)該結(jié)果的概率也只有50%。該研究還計算了估計效果方向正確的概率,結(jié)果顯示,當(dāng)=0.05時,重復(fù)時方向正確的概率為93%;當(dāng)=0.005時,則重復(fù)時方向正確的概率為99%。最后,該研究根據(jù)原始研究的值計算了進(jìn)行重復(fù)研究時所需的樣本量,以獲得某些特定的檢驗功效,結(jié)果顯示,重復(fù)=0.05的結(jié)果時,樣本量應(yīng)是原始研究樣本量的16倍才能達(dá)到80%的功效,而=0.005時,樣本量應(yīng)是原始研究樣本量的72倍。

        綜上可知,不同的研究有不同的理想效果量,也有各自適宜的樣本容量大小,所以樣本量并不以絕對的數(shù)量作為評判標(biāo)準(zhǔn)。在估算樣本含量時,首先要確定實驗設(shè)計方案,在其基礎(chǔ)上進(jìn)行估算;其次要確定資料類型(計量、計數(shù)等)以及數(shù)據(jù)分析時要使用的統(tǒng)計方法(單因素分析、相關(guān)與回歸、多因素分析等);最后要確定基本參數(shù),綜合考慮值、效果量、統(tǒng)計功效以及精度(置信區(qū)間寬度)。在進(jìn)行重復(fù)研究時,應(yīng)根據(jù)原始研究的值以及想要達(dá)到的統(tǒng)計功效值進(jìn)行樣本量的估算,從而提高研究的可重復(fù)性。

        圖2 置信區(qū)間寬度為5時所需樣本量

        Figure 2.The Sample Size at Confidence Interval Width of 5

        圖3 置信區(qū)間寬度為2.5時所需樣本量

        Figure 3.The Sample Size at Confidence Interval Width of 2.5

        4 小結(jié)

        近些年來科學(xué)界的可重復(fù)危機(jī)提示我們,應(yīng)注重研究的可重復(fù)性,提高科學(xué)研究的真實有效性。為應(yīng)對可重復(fù)性危機(jī),科學(xué)界發(fā)起了開放科學(xué)(open science)的革命,提出提前注冊、開放數(shù)據(jù)庫等策略。作者認(rèn)為論文的質(zhì)量是保證科學(xué)研究可重復(fù)性的第一步,而這其中最重要的一環(huán)便是要遵循重復(fù)原則。本文從重復(fù)原則的角度回顧了體育科學(xué)實驗中的樣本量問題,并提出規(guī)范性的建議,以期體育領(lǐng)域?qū)W者在未來的實驗中科學(xué)估算樣本量、更好地遵循實驗的重復(fù)原則、確保研究的科學(xué)有效性,提高實驗的精度,進(jìn)而提高研究的可重復(fù)性。

        何華青,吳彤,2008.實驗的可重復(fù)性研究:新實驗主義與科學(xué)知識社會學(xué)比較[J].自然辯證法通訊,30(4):42-48,111.

        胡傳鵬,王非,過繼成思,等,2016.心理學(xué)研究中的可重復(fù)性問題:從危機(jī)到契機(jī)[J].心理科學(xué)進(jìn)展,24(9):1504-1518.

        胡良平,劉惠剛,李子建,2004.醫(yī)學(xué)論文中統(tǒng)計分析錯誤辨析與釋疑(16):實驗設(shè)計原則的正確把握[J].中華醫(yī)學(xué)雜志,84(16):91-93..

        黃欽,趙明,2007.對臨床試驗統(tǒng)計學(xué)假設(shè)檢驗中非劣效、等效和優(yōu)效性設(shè)計的認(rèn)識[J].中國臨床藥理學(xué)雜志,23(1):63-67.

        劉佳,霍涌泉,陳文博,等,2018.心理學(xué)研究的可重復(fù)性“危機(jī)”:一些積極應(yīng)對策略[J].心理學(xué)探新,38(1):86-90.

        柳偉偉,胡良平,賈元杰,等,2010.實驗設(shè)計中的重復(fù)原則[J].藥學(xué)服務(wù)與研究,10(5):330-334.

        祁國杰,游永豪,溫愛玲,2011.實驗設(shè)計在體育科學(xué)中應(yīng)用的現(xiàn)狀與評價[J].體育科學(xué),31(3):81-86.

        王琪,胡良平,毛瑋,等,2010.如何把握實驗設(shè)計的隨機(jī)原則[J].藥學(xué)服務(wù)與研究,10(3):171-174.

        游永豪,藺新茂,羅利華,2010.幾種多因素實驗設(shè)計及統(tǒng)計分析方法在體育科研中應(yīng)用[J].北京體育大學(xué)學(xué)報,33(8):75-78.

        張力為,彭凡,2021.體育科學(xué)如何應(yīng)對可重復(fù)性危機(jī)?[J].體育學(xué)研究,35(6):1-11.

        張效嘉,胡良平,2016.精神衛(wèi)生科研如何嚴(yán)格遵守試驗設(shè)計四原則之重復(fù)原則[J].四川精神衛(wèi)生,29(4):303-306.

        趙鼎新,2015.社會科學(xué)研究的困境:從與自然科學(xué)的區(qū)別談起[J].社會學(xué)評論,3(4):3-18.

        ABT G, BOREHAM C, DAVISON G, et al., 2020 Power, precision, and sample size estimation in sport and exercise science research [J]. J Sports Sci, 38(17): 1933-1935.

        AYER V, PIETSCH C, VOMPRAS J, et al., 2017. Conquaire: Towards an architecture supporting continuous quality control to ensure reproducibility of research[J]. D-Lib Magazine, 23(1/2).

        BAKER M, 2016. Reproducibility crisis[J]. Nature, 533(26): 353-366.

        BAKKER A, CAI J, ENGLISH L, et al., 2019. Beyond small, medium, or large: Points of consideration when interpreting effect sizes [J]. Ed. Studies Math, 102(1): 1-8.

        BUTTON K S, IOANNIDIS J, MOKRYSZ C, et al., 2013. Power failure: Why small sample size undermines the reliability of neuroscience[J]. NatRevNeurosci, 14(5): 365-376.

        CELIK S, YAZICI Y, YAZICI H, 2014. Are sample sizes of randomized clinical trials in rheumatoid arthritis too large?[J]. EurJClinInves, 44(11): 1034-1044.

        CHEN A, MARTIN R, SUN H, et al., 2013. Is in-class physical activity at risk in constructivist physical education?[J]. ResQuarExercSport, 78(5): 500-509.

        COHEN J, 1992. A power primer[J]. Tutor Quant Meth Psychol, 3(2):79-79.

        CUMMING G, 2014. The new statistics: Why and how [J]. PsycholSci, 25(1): 7-29.

        IOANNIDIS J P A, 2005. Why most published research findings are false[J]. PLoSMed, 2(8): e124.

        JURISTO N, MORENO A M, 2001. How many times should an experiment be replicated?[M]//Basics of Software Engineering Experimentation. Boston, Springer: 337-346.

        KELLEY K, MAXWELL S E, RAUSCH J R, 2003. Obtaining power or obtaining precision: Delineating methods of sample-size planning[J]. EvalHealProfess, 26(3): 258-287.

        LAZIC S E, CLARKE-WILLIAMS C J, MUNAFò M R, 2018. What exactly is ‘N’in cell culture and animal experiments?[J]. PLoSBiol, 16(4): e2005282.

        LAZIC S E, MELLOR J R, ASHBY M C, et al., 2020. A Bayesian predictive approach for dealing with pseudoreplication[J]. SciRep, 10(1): 1-10.

        MUMFORD J A, NICHOLS T E, 2008. Power calculation for group fMRI studies accounting for arbitrary design and temporal autocorrelation[J]. Neuroimage, 39(1): 261-268.

        NAEGLE K, GOUGH N R, YAFFE M B, 2015. Criteria for biological reproducibility: What does “n” mean?[J]. SciSigna, 8(371): fs7-fs7.

        NOSEK B A, KUHLMANN T, STIEGER S, 2015. Estimating the reproducibility of psychological science[J]. Science, 349(6251): aac4716.

        SCHWEIZER G, FURLEY P, 2016. Reproducible research in sport and exercise psychology: The role of sample sizes[J]. Psychol Sport Exer, 100(23): 114-122.

        SERDAR C C, Cihan M, Yücel D, et al., 2021. Sample size, power and effect size revisited: Simplified and practical approaches in pre-clinical, clinical and laboratory studies[J]. BiochemMedica, 31(1): 27-53.

        ZWET E W V, GOODMAN S N, 2022. How large should the next study be? Predictive power and sample size requirements for replication studies[J]. Statistics Med, 41(16): 3090-3101.

        Examination of Sample Size in Experimental Designs of Sports Sciences Based on Replication Principle

        ZHANG Liancheng,LIU Jie,LYU Jiayu,GAO Shuqing

        Replication principle is one fundamental principle of experimental design, and it is also a common means for researchers to control the individual differences of experimental subjects. Following the replication principle can enablefewer experimental errors, higher experimental precision, higher research validity and replicability. Major problems that violate the replicationprinciple of experimental studiesin the field ofsports science are: lack of necessary replications of a certain treatment in a multi-factor experimental design, pseudoreplication caused byrepeated measuresrather than experiments, pseudoreplicationcaused by confusion of experimental analysis units, and no scientific estimation of sample size. These problemshave had a seriousimpacton experiment integrity and resulted in concerns over the reproducibility of experimental results. Researchers should attach importance tothe adherence to the replication principle and to a reasonable sample sizein order to increase the replicability of sports science experiments. In line with the replication principle, emphasis should be put on four issues in experimental studiesof sports sciences: 1) Clarify the minimum unit of experimental treatment; 2) Determine the experimental analysis unit to avoid pseudoreplication; 3) Determine the minimum amount of replications; 4) Perform sample sizeestimationsscientifically, consider precision and other factorsbesidesvalue, effect size and statistical power.

        1000-677X(2023)01-0090-08

        10.16469/j.css.202301010

        2022-11-10;

        2023-01-04

        張連成(1981-),男,教授,博士,研究方向為運動心理學(xué),E-mail: zlc-hhht@163.com。

        G804.8

        A

        猜你喜歡
        樣本量實驗設(shè)計原則
        醫(yī)學(xué)研究中樣本量的選擇
        不同的溫度
        幼兒畫刊(2021年11期)2021-11-05 08:26:02
        有趣的放大鏡
        幼兒畫刊(2021年10期)2021-10-20 01:44:40
        哪個涼得快?
        幼兒畫刊(2020年2期)2020-04-02 01:26:22
        無字天書
        幼兒畫刊(2019年2期)2019-04-08 00:53:30
        航空裝備測試性試驗樣本量確定方法
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        堅守原則,逐浪前行
        無罪推定原則的理解與完善
        自適應(yīng)樣本量調(diào)整中Fisher合并P值法和傳統(tǒng)檢驗法的模擬比較
        亚洲国产夜色在线观看| 精品视频一区二区三区在线观看 | 亚洲av无码久久寂寞少妇| 精品不卡久久久久久无码人妻| 性色av一区二区三区密臀av| 中文字幕日韩人妻少妇毛片| 亚洲h在线播放在线观看h| 97久久精品人人妻人人| 少妇极品熟妇人妻高清| 久久精品国产亚洲av蜜点| 色一情一区二区三区四区| 国产亚洲欧美在线观看的| 亚洲一区二区三区综合网| 淫片一区二区三区av| 亚洲第一页综合图片自拍| 99久久综合精品五月天| 久久久人妻一区精品久久久| 麻豆91蜜桃传媒在线观看| 99精品一区二区三区无码吞精 | 最新国产激情视频在线观看| 国产av无码专区亚洲avjulia| 国产亚洲精品第一综合麻豆| 日本一区二区三区中文字幕视频| 国产一区二区三区成人| 狠狠人妻久久久久久综合蜜桃| 天堂网www在线资源| 在线一区二区三区视频观看| 在线视频中文字幕一区二区三区| 国产精品午夜爆乳美女视频| 久久亚洲AV成人一二三区| 日本在线无乱码中文字幕| 999国产精品999久久久久久| 中文字幕无码不卡免费视频| 亚洲午夜久久久精品国产| 免费久久久一本精品久久区| 人人爽人人爽人人爽人人片av | 抖射在线免费观看视频网站| 亚洲精一区二区三av| 亚洲av永久无码国产精品久久| www.91久久| 毛片在线播放亚洲免费中文网|