王鑫靚
摘 要:該文結(jié)合植物生長(zhǎng)調(diào)節(jié)劑對(duì)草坪草生長(zhǎng)的影響試驗(yàn)結(jié)果,闡述了在重復(fù)測(cè)量實(shí)驗(yàn)的方差分析中對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn)的重要性,并介紹了應(yīng)用Python語(yǔ)言實(shí)現(xiàn)檢驗(yàn)的方式。
關(guān)鍵詞:植物生長(zhǎng)調(diào)節(jié)劑;重復(fù)測(cè)量;方差分析
中圖分類號(hào) S688.4文獻(xiàn)標(biāo)識(shí)碼 A文章編號(hào) 1007-7731(2020)09-0177-04
Application and Program of Repeated Measures Anova Data Test in Plant Growth Regulator Research
Wang Xinliang
(School of Statistics, Renmin University of China, Beijing 100872, China)
Abstract: Combined with the experimental example of the effect of plant growth regulators on the growth of lawn grass,thispaper expounds the importance of testing the data in the variance analysis of repeated measurement experiments,and introduces the way to implement testing in Python.
Key words: Plant growth regulator; Repeated measurement; Analysis of variance
1 引言
在科學(xué)試驗(yàn)中,常常會(huì)遇到對(duì)試驗(yàn)對(duì)象進(jìn)行同一個(gè)因素不同水平的處理,并在一段時(shí)間內(nèi)觀察處理組與對(duì)照組的差值變化情況。這種試驗(yàn)通常會(huì)使用設(shè)立對(duì)照組的重復(fù)測(cè)量設(shè)計(jì),并通過(guò)方差分析比較不同處理水平組均值的直接差異情況[1]。例如,生物試驗(yàn)中為了解生長(zhǎng)調(diào)節(jié)劑在不同濃度情況下對(duì)植物生長(zhǎng)的影響,可以使用方差分析法去解決[2]。
重復(fù)測(cè)量(Repeated Measures)設(shè)計(jì)是試驗(yàn)設(shè)計(jì)的一種,是指對(duì)同一研究對(duì)象的同一因變量在不同時(shí)間或場(chǎng)景的重復(fù)觀測(cè)值,其目的是研究不同處理間是否存在顯著差異,同時(shí)也可以研究處理因素和時(shí)間之間的交互效應(yīng)[3]。通常重復(fù)測(cè)量設(shè)計(jì)中的研究因素分為2個(gè)部分:(1)處理因素:根據(jù)不同的處理水平分組再加上對(duì)照組(組間因素),在試驗(yàn)設(shè)計(jì)中將分組因素作為組間因素考慮,分組因素的不同水平可以包括對(duì)照組及進(jìn)行不同處理的分組(因素水平>2);(2)重復(fù)測(cè)量因素:根據(jù)時(shí)間進(jìn)行的N次測(cè)量(組內(nèi)因素),將不同測(cè)量時(shí)間作為組內(nèi)因素考慮,重復(fù)測(cè)量次數(shù)>3。重復(fù)測(cè)量的數(shù)據(jù)必須滿足一定的條件才可以進(jìn)行方差分析,因此,在分析前需要對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行檢驗(yàn)[4]。
數(shù)據(jù)檢驗(yàn)是進(jìn)行統(tǒng)計(jì)分析工作的重要前提,由此得到的結(jié)論才可靠有效。在對(duì)生物試驗(yàn)數(shù)據(jù)的研究分析中,方差分析法是最常用的方法之一,但數(shù)據(jù)檢驗(yàn)的重要性往往被研究者忽視。不同的試驗(yàn)設(shè)計(jì)和研究目的,需要不同的統(tǒng)計(jì)分析方法,對(duì)于數(shù)據(jù)的假設(shè)檢驗(yàn)也會(huì)因此而有所區(qū)別。SAS、SPSS等統(tǒng)計(jì)軟件是很多科研人員經(jīng)常使用的工具,隨著大數(shù)據(jù)時(shí)代的到來(lái)以及計(jì)算機(jī)技術(shù)的不斷發(fā)展,程序語(yǔ)言逐漸替代傳統(tǒng)的統(tǒng)計(jì)軟件,成為數(shù)據(jù)分析的強(qiáng)大工具[5]。以R語(yǔ)言或Python語(yǔ)言為例,程序語(yǔ)言靈活的使用形式、強(qiáng)大的擴(kuò)展能力以及豐富的結(jié)果展現(xiàn)方式,都是其優(yōu)勢(shì)所在[6]。本文在前人研究的基礎(chǔ)上,詳細(xì)介紹了對(duì)單因素重復(fù)測(cè)量進(jìn)行方差分析時(shí)所需數(shù)據(jù)檢驗(yàn)的原理、內(nèi)容和方法,并提出了應(yīng)用Python語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)檢驗(yàn)的方法。
2 試驗(yàn)設(shè)計(jì)
在研究植物生長(zhǎng)調(diào)節(jié)劑對(duì)草坪草生長(zhǎng)影響的試驗(yàn)中,將草坪草樣本隨機(jī)分成3組,每組20株。第1組設(shè)為對(duì)照組,該組草坪草不進(jìn)行任何試劑處理;第2組設(shè)為處理組1,該組草坪草由100mg/L防落素與50mg/L烯效唑的復(fù)配組合處理;第3組設(shè)為處理組2,該組草坪草由100mg/L防落素與300mg/L縮節(jié)胺的復(fù)配組合處理。在處理樣本草坪草后的30d內(nèi),定期測(cè)量樣本株高,每7d1次,共計(jì)4次。
防落素為苯酚類植物生長(zhǎng)調(diào)節(jié)劑,主要用于防止落花、落果,抑制豆類生根,促進(jìn)坐果,誘導(dǎo)無(wú)核果,并有催熟增長(zhǎng)作用。烯效唑?yàn)槿蝾愔参锷L(zhǎng)調(diào)節(jié)劑,是赤霉酸生物合成的拮抗劑,對(duì)草本或木本的單子葉植物均有強(qiáng)烈的生長(zhǎng)抑制作用,主要抑制節(jié)間細(xì)胞的伸長(zhǎng),產(chǎn)生植物生長(zhǎng)延緩作用。藥物被植物的根吸收,在植物體內(nèi)進(jìn)行傳導(dǎo),莖葉噴霧時(shí),可向上內(nèi)吸傳導(dǎo),但沒(méi)有向下傳導(dǎo)的作用。同時(shí),烯效唑又是麥角甾醇生物合成抑制劑,有4種立體異構(gòu)體。現(xiàn)已證實(shí),E-型異構(gòu)體活性最高,它們的結(jié)構(gòu)與多效唑類似,只是烯效唑有碳雙鍵,而多效唑沒(méi)有,這是烯效唑比多效唑殘效期短的一個(gè)原因,同時(shí)烯效唑E-型結(jié)構(gòu)的活性是多效唑的10倍以上。若烯效唑的4種異構(gòu)體混合在一起,則活性大大降低。縮節(jié)胺為內(nèi)吸性植物生長(zhǎng)延緩劑,能抑制細(xì)胞伸長(zhǎng),抑制赤霉素的生物合成,延緩營(yíng)養(yǎng)體生長(zhǎng),使植株矮小化,株型緊湊,能增加葉綠素含量,提高葉片同化能力。
3 試驗(yàn)數(shù)據(jù)及檢驗(yàn)
對(duì)于2因素重復(fù)測(cè)量數(shù)據(jù),可以使用Two-way Repeated Measures Anova進(jìn)行分析,但需要對(duì)數(shù)據(jù)進(jìn)行以下幾種假設(shè)檢驗(yàn),并以Python語(yǔ)言實(shí)現(xiàn)。
3.1 檢驗(yàn)1:描述性統(tǒng)計(jì)檢驗(yàn) 對(duì)收集到的試驗(yàn)數(shù)據(jù)進(jìn)行初步分析,檢驗(yàn)數(shù)據(jù)的完整性,即根據(jù)試驗(yàn)內(nèi)容觀察因變量(測(cè)量值)是否是唯一且連續(xù)變化值;組間因素的水平數(shù)(包括對(duì)照組)是否為3組;組內(nèi)因素的水平數(shù)(測(cè)量次數(shù))是否都有2個(gè)或2個(gè)以上;引例試驗(yàn)是否為4次。進(jìn)一步查看數(shù)據(jù)的總體情況后,可通過(guò)Python程序?qū)崿F(xiàn)數(shù)據(jù)的描述統(tǒng)計(jì)。確認(rèn)數(shù)據(jù)的完整性后Python程序計(jì)算出4次引例試驗(yàn)中3組數(shù)據(jù)的均值、標(biāo)準(zhǔn)差及標(biāo)準(zhǔn)誤,結(jié)果如圖1所示。
試驗(yàn)在不同時(shí)間點(diǎn)對(duì)樣本進(jìn)行了多次測(cè)量,可以通過(guò)繪制均值折線圖描述每組數(shù)據(jù)的趨勢(shì),以初步分析數(shù)據(jù)的發(fā)展方向。通過(guò)Python程序?qū)崿F(xiàn)的3組數(shù)據(jù)均值折線圖如圖2所示。由圖2可知,第1組和第3組隨著時(shí)間的推移,株高呈現(xiàn)明顯的增長(zhǎng)趨勢(shì),表明對(duì)照組和處理組2生長(zhǎng)明顯,且測(cè)量數(shù)值處于同一水平,猜測(cè)100mg/L防落素與300mg/L縮節(jié)胺的復(fù)配組合無(wú)法有效抑制草坪草的內(nèi)源生長(zhǎng)素。而第2組的生長(zhǎng)趨勢(shì)并不明顯,且觀察值與第1組和第3組相比少了很多,可以猜測(cè),100mg/L防落素與50mg/L烯效唑的復(fù)配組合可以有效抑制樣品的再生長(zhǎng)。通過(guò)折線圖可以對(duì)主效應(yīng)和交互效應(yīng)有初步的判斷,但并不能因此做出差異推斷,還需要對(duì)數(shù)據(jù)做進(jìn)一步檢驗(yàn)。
3.2 檢驗(yàn)2:數(shù)據(jù)分布檢驗(yàn) 各組數(shù)據(jù)之間的差異推斷可通過(guò)單因素方差分析求得,進(jìn)行方差分析之前需要做F分布,只有服從正態(tài)分布總體才適用于F分布的假設(shè)檢驗(yàn),否則,檢驗(yàn)結(jié)果是沒(méi)有意義的[7]。圖示法(直方圖、QQ圖等)是正態(tài)分布常用的檢驗(yàn)方法,具備簡(jiǎn)單和直觀性,可采用直方圖對(duì)樣本測(cè)量數(shù)據(jù)進(jìn)行檢驗(yàn),引例試驗(yàn)應(yīng)用Python程序?qū)崿F(xiàn)的直方圖如圖3所示。
除了圖示法,S-W檢驗(yàn)(Shapiro-Wilk)和K-S檢驗(yàn)(Kolmogorov-Smirnov)也是正態(tài)分布常用的檢驗(yàn)方法,這是比較頻率分布f(x)與理論分布g(x)或者2個(gè)觀測(cè)值分布的檢驗(yàn)方法,檢驗(yàn)功效一般隨樣本容量的增大而增大。S-W檢驗(yàn)是一種基于相關(guān)性的算法,計(jì)算可得到1個(gè)相關(guān)系數(shù),系數(shù)越接近1,表明數(shù)據(jù)和正態(tài)分布擬合得越好,適用于小樣本場(chǎng)合(3≤n≤50);K-S檢驗(yàn)適用于樣本量大于50的大樣本場(chǎng)合。檢驗(yàn)數(shù)據(jù)時(shí)通常會(huì)根據(jù)樣本量的大小選擇適用的檢驗(yàn)方法,本試驗(yàn)中每組草坪草的樣本量為20,所以選用S-W檢驗(yàn)。計(jì)算結(jié)果返回2個(gè)值,一個(gè)是統(tǒng)計(jì)數(shù)(test statistic),一個(gè)是P值(p-value),如果p值小于顯著性水平(P<0.05),則拒絕原假設(shè),該分布可以認(rèn)為是正態(tài)分布。引例試驗(yàn)各分組數(shù)據(jù)應(yīng)用Python程序?qū)崿F(xiàn)的正態(tài)檢驗(yàn)結(jié)果如圖4所示。
3.3 檢驗(yàn)3:球性檢驗(yàn) 在方差分析的F檢驗(yàn)中,是以各試驗(yàn)組內(nèi)總體方差齊性為前提的,因此,在對(duì)數(shù)據(jù)進(jìn)行方差分析之前,還需對(duì)各個(gè)試驗(yàn)組內(nèi)的總體方差先進(jìn)行齊性檢驗(yàn)。如果各個(gè)試驗(yàn)組內(nèi)總體方差為齊性,且F檢驗(yàn)的結(jié)果表明多個(gè)樣本所屬總體平均數(shù)差異顯著,這時(shí)才可以將多個(gè)樣本所屬總體平均數(shù)的差異歸因于各種試驗(yàn)處理的不同所致;如果各個(gè)試驗(yàn)組總體方差不齊,那么經(jīng)過(guò)F檢驗(yàn)所得多個(gè)樣本所屬總體平均數(shù)差異顯著的結(jié)果,可能有一部分歸因于各個(gè)試驗(yàn)組內(nèi)總體方差不同所致[8]。
由于重復(fù)測(cè)量的試驗(yàn)是對(duì)同一組樣本數(shù)據(jù)在不同時(shí)間點(diǎn)的測(cè)量,因此觀察結(jié)果一般都存在一定的內(nèi)相關(guān)性,由于這種內(nèi)相關(guān)性不能滿足一元方差分析法對(duì)獨(dú)立性的要求,此時(shí)若仍然使用一元方差分析方法,會(huì)導(dǎo)致一類錯(cuò)誤率增加。球形假設(shè)是利用協(xié)方差矩陣的球?qū)ΨQ性來(lái)判斷試驗(yàn)組內(nèi)各水平的自相關(guān)程度。重復(fù)測(cè)量通常要求試驗(yàn)中有3次或3次以上的測(cè)量值,如果測(cè)量數(shù)據(jù)的協(xié)方差矩陣主對(duì)角線元素(即方差)相等,非主對(duì)角線元素(即協(xié)方差)為0,說(shuō)明重復(fù)測(cè)量的各觀測(cè)值之間沒(méi)有相關(guān)性,即各變量間無(wú)關(guān),這種情況下的數(shù)據(jù)滿足球形檢驗(yàn)的假設(shè)[9]。如果數(shù)據(jù)不能滿足球性檢驗(yàn)的假定,也可以對(duì)與時(shí)間有關(guān)的F統(tǒng)計(jì)量的自由度進(jìn)行校正,常用的校正方法包括G-G法(Greeenhouse-Geisser)、H-F法 (Huynh-Feldt)、L-B下界法(Lower-bound)等,或不使用一元方差分析法,而改用多元方差分析方法。如果重復(fù)測(cè)量的數(shù)據(jù)之間實(shí)際上不存在相關(guān)性,則一元方差分析和多元方差分析的結(jié)果是一致的,此時(shí)稱數(shù)據(jù)滿足球性檢驗(yàn)。因此球性檢驗(yàn)是重復(fù)測(cè)量數(shù)據(jù)必要的檢驗(yàn)步驟。
常用的球性檢驗(yàn)方法包括巴特利特球性檢驗(yàn)法(Bartlett′s Test of Sphericity),它是以相關(guān)系數(shù)矩陣為基礎(chǔ)的。也就是說(shuō),巴特利特球性檢驗(yàn)法的原假設(shè)H0為相關(guān)系數(shù)矩陣是一個(gè)單位陣,對(duì)于研究對(duì)象內(nèi)因素的各個(gè)水平組合而言,即相關(guān)系數(shù)矩陣對(duì)角線的所有元素均為1,所有非對(duì)角線上的元素均為0。巴特利特球性檢驗(yàn)法的統(tǒng)計(jì)量是根據(jù)相關(guān)系數(shù)矩陣的行列式得到的。如果該值較大,且其對(duì)應(yīng)的相伴概率值小于指定的顯著水平時(shí),則拒絕原假設(shè)H0,表明相關(guān)系數(shù)矩陣不是單位陣,原有變量之間存在相關(guān)性;相反,則原假設(shè)H0成立,原有變量之間不存在相關(guān)性。
使用Python代碼對(duì)引例試驗(yàn)的數(shù)據(jù)進(jìn)行球性檢驗(yàn)時(shí),首先計(jì)算出數(shù)據(jù)幀均值的相關(guān)系數(shù)矩陣,然后再使用bartlett函數(shù)進(jìn)行球性檢驗(yàn),得到的結(jié)果如圖5所示。
Python程序計(jì)算結(jié)果顯示,引例數(shù)據(jù)不滿足球性檢驗(yàn),表明引例試驗(yàn)的分組因素和時(shí)間因素之間存在相關(guān)關(guān)系,即存在交互作用。這種情況下,單獨(dú)分析主效應(yīng)的意義不大,而應(yīng)當(dāng)檢驗(yàn)處理分組的單獨(dú)效應(yīng)。本文引例試驗(yàn)中,在使用不同混合試劑對(duì)樣本草進(jìn)行處理后,不同的混合試劑在時(shí)間上反應(yīng)出來(lái)的效應(yīng)互有關(guān)聯(lián),并非獨(dú)立性數(shù)據(jù),此時(shí),應(yīng)當(dāng)比較處理組和對(duì)照組在不同時(shí)間觀測(cè)值的差異。
4 結(jié)論
數(shù)據(jù)檢驗(yàn)是在進(jìn)行數(shù)據(jù)分析前必不可少的步驟之一,不同的試驗(yàn)?zāi)康?、試?yàn)設(shè)計(jì)均會(huì)影響到數(shù)據(jù)分析方法的選擇。如本文試驗(yàn)引例中,對(duì)重復(fù)測(cè)量的數(shù)據(jù)進(jìn)行方差分析時(shí)發(fā)現(xiàn),數(shù)據(jù)檢驗(yàn)的球性檢驗(yàn)結(jié)果無(wú)法滿足,此時(shí)可以在校正自由度后使用一元方差分析法,或者接受多元方差分析的結(jié)果。Python語(yǔ)言作為數(shù)據(jù)分析語(yǔ)言的代表,具有目的明確、操作簡(jiǎn)單的優(yōu)勢(shì),在進(jìn)行數(shù)據(jù)檢驗(yàn)時(shí),使用Python或其他程序語(yǔ)言可以更加準(zhǔn)確有效的完成檢驗(yàn)工作,以便進(jìn)一步分析數(shù)據(jù)。
參考文獻(xiàn)
[1]劉麗華,郭德金.方差分析中的分組比較[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2004,21(6):370-371.
[2]孫曉梅,張守攻,王笑山,等.生長(zhǎng)調(diào)節(jié)劑對(duì)落葉松雜種生根和幼苗生長(zhǎng)的影響[J].北京林業(yè)大學(xué)學(xué)報(bào),2006,28(2):68-72.
[3]楚潔,臧桐華,葉冬青,等.重復(fù)測(cè)量設(shè)計(jì)與隨機(jī)區(qū)組設(shè)計(jì)原理及應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2004,21(3):174-175.
[4]Finney DJ. Repeated measurements:what is measured and what repeats?[J]. Statistics in medicine,1990,9(6):639-644.
[5]Littell RC,Henry PR,Ammerman CB.Statistical analysis of repeated measures data using SAS procedures.American Society of Animal Science[J]. Journal of Animal Science,1998,76:1216-1231.
[6]肖明魁.基于python的單因素方差分析和兩兩比較[J].電腦知識(shí)與技術(shù),2019(26).
[7]劉加妹,彭景楩.生物實(shí)驗(yàn)數(shù)據(jù)的單因素方差分析[J].動(dòng)物學(xué)雜志,2001,36(6):34-37.
[8]潘曉平,倪宗瓚,殷菲.一種穩(wěn)健的方差齊性檢驗(yàn)方法[J].現(xiàn)代預(yù)防醫(yī)學(xué),2002,29:774-776.
[9]許衛(wèi)華,溫澤淮,王奇.重復(fù)測(cè)量資料的單獨(dú)效應(yīng)分析及多重比較[J].廣州中醫(yī)藥大學(xué)學(xué)報(bào),2017,34(5):766-770.
(責(zé)編:張宏民)