王磊 閔佳鑫 申紅芳 鄂志國(guó)
(中國(guó)水稻研究所/水稻生物學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,杭州 310006;第一作者:wanglei05@caas.cn;*通訊作者:ezhiguo@caas.cn)
在R 語(yǔ)言[1]及在農(nóng)業(yè)試驗(yàn)數(shù)據(jù)分析基本應(yīng)用的兩篇文章的第一篇[2],對(duì)R 語(yǔ)言作了初步介紹以及非?;镜暮?jiǎn)單應(yīng)用后,本文采用蓋鈞鎰主編的教材《試驗(yàn)統(tǒng)計(jì)方法》[3]中的示例數(shù)據(jù)集,重點(diǎn)介紹利用R 語(yǔ)言在農(nóng)業(yè)試驗(yàn)數(shù)據(jù)分析中的一些較為常用的方法,主要有t檢驗(yàn)、方差分析以及均值的多重比較、卡平方檢驗(yàn)等,最后提出R 語(yǔ)言使用的幾點(diǎn)建議。
假設(shè)有兩組樣本,我們希望通過t 檢驗(yàn)比較這兩組樣本平均數(shù),以檢驗(yàn)兩組樣本所屬的總體均值有無(wú)差異。因?yàn)閮山M樣本數(shù)據(jù)對(duì)應(yīng)的試驗(yàn)設(shè)計(jì)和取樣等方面的不同而分為成組數(shù)據(jù)的平均數(shù)比較和成對(duì)數(shù)據(jù)平均值比較兩種情形。t 檢驗(yàn)用到的函數(shù)是基礎(chǔ)程序包stats 中的函數(shù)t.test()。我們以《試驗(yàn)統(tǒng)計(jì)方法》中的兩個(gè)示例作為例子,介紹利用t.test()作出成組數(shù)據(jù)和成對(duì)數(shù)據(jù)的t 檢驗(yàn)。
我們以《試驗(yàn)統(tǒng)計(jì)方法》中的例5.3 數(shù)據(jù)集[3]作為例子,介紹利用函數(shù)t.test()進(jìn)行成組數(shù)據(jù)的平均數(shù)比較。
例1 兩種密度產(chǎn)量的差異。調(diào)查某農(nóng)場(chǎng)栽插密度為30萬(wàn)苗/667 m2和35萬(wàn)苗/667 m2的稻田各5 塊,得平均產(chǎn)量(kg/667 m2):400、420、435、460、425和450、440、445、445、420,試檢驗(yàn)兩種密度單位面積(667 m2)產(chǎn)量的差異顯著性。
根據(jù)題意,我們希望檢驗(yàn)兩種密度單位面積(667 m2)產(chǎn)量對(duì)應(yīng)的總體均值的差異顯著性。利用函數(shù)c()分別輸入密度為30萬(wàn)苗和35萬(wàn)苗5 塊稻田的單位面積(667 m2)產(chǎn)量:
從計(jì)算結(jié)果可知,兩組樣本數(shù)據(jù)的平均值分別是428 kg/667 m2和440/667 m2,t值=-1.0776,自由度(df)=6.1086,P值(p-value)=0.3219,大于0.05。另外,我們注意到計(jì)算結(jié)果的標(biāo)題是Welch Two Sample t-test,即兩組樣本的Welch t 檢驗(yàn),這是兩組樣本對(duì)應(yīng)的總體方差不要求相等的t 檢驗(yàn)。函數(shù)t.test()對(duì)兩個(gè)總體方差的默認(rèn)設(shè)置是不等:var.equal=FALSE,對(duì)應(yīng)的t 檢驗(yàn)即為Welch t 檢驗(yàn)。如果假設(shè)兩樣本的總體方差相同,對(duì)應(yīng)的函數(shù)參數(shù)var.equal 的設(shè)置為var.equal=TRUE,這是常規(guī)的t 檢驗(yàn),這時(shí)函數(shù)t.test()的t 檢驗(yàn)為:
我們注意到常規(guī)的t 檢驗(yàn)的P值=0.3126,略小于Welch t 檢驗(yàn)得到的P值。由于Welch t 檢驗(yàn)不要求兩組樣本對(duì)應(yīng)的總體方差相等,所以Welch t 檢驗(yàn)的結(jié)果更為可靠,在實(shí)際的t 檢驗(yàn)中,推薦使用Welch t 檢驗(yàn)。對(duì)于這一例子的數(shù)據(jù),30萬(wàn)苗/667 m2和35萬(wàn)苗/667 m2的5 塊稻田單位面積(667 m2)平均產(chǎn)量相差12 kg,差異不大,基于常規(guī)的t 檢驗(yàn)和Welch t 檢驗(yàn),統(tǒng)計(jì)上都不顯著(P>0.05)。
我們以《試驗(yàn)統(tǒng)計(jì)方法》中例5.6 的數(shù)據(jù)集[3]作為例子介紹成對(duì)樣本數(shù)據(jù)t 檢驗(yàn),這時(shí),兩組數(shù)據(jù)的總體方差是否相等已經(jīng)無(wú)關(guān)緊要了。
例2 選生長(zhǎng)期、發(fā)育進(jìn)度、植株大小和其他方面都比較一致的兩株番茄構(gòu)成一組,共得7 組,每組中一株接種A 處理病毒,另一株接種B 處理病毒,以研究A處理和B 處理方法的鈍化病毒效果。處理A和處理B病毒在番茄上產(chǎn)生的病痕數(shù)目見表1,試檢驗(yàn)兩種處理方法的差異顯著性。
表1 A、B 兩處理病毒在番茄上產(chǎn)生的病痕數(shù)
成對(duì)樣本數(shù)據(jù)的檢驗(yàn)可以采用兩種方法。第一種方法是類似于成組樣本數(shù)據(jù)的t 檢驗(yàn),但利用函數(shù)t.test()的設(shè)置兩組數(shù)據(jù)是否成對(duì)的參數(shù)paired,paired 默認(rèn)設(shè)置是否,即paired=FALSE,因?yàn)槭浅蓪?duì)數(shù)據(jù),所以paired 需要設(shè)置為真,即paired=TRUE。
還有一種方法,是先計(jì)算成對(duì)數(shù)據(jù)之差d,然后利用函數(shù)t.test()對(duì)計(jì)算得到的差數(shù)d 進(jìn)行單樣本的t 檢驗(yàn)。
顯然兩種計(jì)算方法計(jì)算結(jié)果相同。根據(jù)計(jì)算結(jié)果,我們可知,差數(shù)平均值(mean of the difference 或者mean of x)= -0.8285714,即處理A和B 對(duì)應(yīng)的病毒在番茄上產(chǎn)生平均病痕數(shù)之差約為-8.3,t 檢驗(yàn)的t值=-4.1499,自由度(df)= 6,對(duì)應(yīng)的P值(p-value)=0.006012 <0.01,所以兩種病毒接種處理方法的效果差異極顯著。由此我們可以得出結(jié)論,A 處理病毒與B 處理病毒的鈍化效果產(chǎn)生的病痕數(shù)平均值差異是-8.3,差異頗大,而且統(tǒng)計(jì)上也極顯著。
比較兩組數(shù)據(jù)均值用的是t 檢驗(yàn),比較兩組以上的均值需要采用方差分析方法。方差分析的計(jì)算可以采用基礎(chǔ)包stats 中的函數(shù)aov()或者lm()。下面以《試驗(yàn)統(tǒng)計(jì)方法》中的一個(gè)單向分組數(shù)據(jù)示例(例6.1和例6.3)[3]介紹用函數(shù)aov()對(duì)單向分組數(shù)據(jù)的方差分析。其他試驗(yàn)設(shè)計(jì)類型數(shù)據(jù)的方差分析大致類似,只是不同的試驗(yàn)設(shè)計(jì)對(duì)應(yīng)函數(shù)aov()中不同的模型公式。
例3 以A、B、C、D 4 種藥劑處理水稻種子,其中A 為對(duì)照,每個(gè)處理各得4個(gè)苗高觀察值(cm),其結(jié)果如表2 。試對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行分析。
表2 水稻施用不同藥劑處理的苗高(cm)
首先利用函數(shù)c()按照藥劑從A 到D 分別依次錄入各自的4個(gè)苗高數(shù)據(jù),保存為數(shù)據(jù)向量y,而相應(yīng)的藥劑分類變量是用向量元素重復(fù)函數(shù)rep()生成的,保存為字符向量group,其中LETTERS 是R 的內(nèi)置大寫字母常量,A、B、C、D 只需用LETTERS[1:4]表達(dá)即可,each=4 表示4個(gè)字母分別重復(fù)4次,而字符#表示注釋行標(biāo)記,該字符的右側(cè)的注釋內(nèi)容代碼運(yùn)行時(shí)跳過忽略。
我們利用函數(shù)aov()進(jìn)行方差分析,將方差分析結(jié)果保存為myaov,然后利用函數(shù)summary()給出方差分析表。aov()中的設(shè)置y ~group 是單向分組數(shù)據(jù)對(duì)應(yīng)的方差分析模型公式。不同的試驗(yàn)設(shè)計(jì)或者數(shù)據(jù)結(jié)構(gòu)(如雙向分組數(shù)據(jù)等)需要采用各自特定的方差分析模型公式。
基于計(jì)算得到的方差分析表,我們給出了標(biāo)準(zhǔn)的方差分析表(表3),表中也列出了計(jì)算結(jié)果的英文名稱。在論文寫作時(shí),欄目表頭的英文術(shù)語(yǔ)有所不同,如Sum Sq和Mean Sq 一般寫為SS和MS。計(jì)算結(jié)果中的最后一行Signif. codes 表示顯著性標(biāo)記的說明:如果顯著性F 檢驗(yàn)的P值<0.001,用***標(biāo)記;P值<0.01,用** 標(biāo)記;P值<0.05,用* 標(biāo)記;P值<0.1,用.標(biāo)記;P值>0.1,不標(biāo)記。同時(shí)也注意到,在計(jì)算結(jié)果中并沒有給出方差分析表(表3)中最后一行“總計(jì)(Total)”中的“自由度”和“平方和”的數(shù)值,這兩個(gè)數(shù)值需要我們自己計(jì)算。
表3 例3 的4 種藥劑的試驗(yàn)數(shù)據(jù)的方差分析結(jié)果
在計(jì)算得到的方差分析表中的第一列最右邊的數(shù)字是藥劑因子group 的F 檢驗(yàn)對(duì)應(yīng)的P值,等于5.10e-05,顯然小于0.001(右邊標(biāo)注為***),4 種藥劑相互之間的差異極其顯著(P <0.001),說明試驗(yàn)數(shù)據(jù)有非常強(qiáng)的證據(jù)表明4 種藥劑中至少有一對(duì)總體均值是不等的。接下來(lái),我們需要探究4 種藥劑中兩兩之間的均值差異的顯著性。
因?yàn)槔? 方差分析中的藥劑主效極顯著,不同藥劑對(duì)水稻苗高有不同效應(yīng),那么試驗(yàn)者自然會(huì)感興趣到底是其中那幾對(duì)藥劑之間有不同效應(yīng),這就需要我們對(duì)這4 種藥劑的總體均值之間的差異性進(jìn)行統(tǒng)計(jì)檢驗(yàn),即開展藥劑均值之間的多重比較。常用的多重比較方法有最小顯著差數(shù)檢驗(yàn)法(LSD 法)、Duncan 新復(fù)極差法(Duncan 法)、Tukey 固定極差檢驗(yàn)法(Tukey 法)和Student-Newman-Keul 復(fù)極差檢驗(yàn)法(SNK 法或NK法)。不少程序包都提供了這些多重比較的檢驗(yàn)方法,這里我們采用程序包agricolae 的函數(shù)LSD.test()、duncan.test()、HSD.test()和SNK.test()進(jìn)行相應(yīng)的多重比較[4],這幾個(gè)函數(shù)來(lái)自同一程序包,使用方法相同。
在例3 的方差分析中,我們已經(jīng)利用函數(shù)aov()對(duì)試驗(yàn)數(shù)據(jù)作了方差分析,基于函數(shù)aov()的計(jì)算結(jié)果保存為myaov,我們將采用程序包agricolae 的函數(shù)LSD.test()對(duì)藥劑的藥效進(jìn)行LSD 多重比較。首先需要裝載程序包agricolae,然后再調(diào)用函數(shù)LSD.test(),其中藥劑變量的名稱為group(兩側(cè)需添加雙引號(hào)),alpha=0.05表示顯著性水平α = 0.05,console=TRUE 表示在控制臺(tái)窗口顯示計(jì)算結(jié)果(默認(rèn)為不顯示)。
輸出結(jié)果較多,我們注意到以字母表示的多重比較結(jié)果是最后一部分。為了節(jié)省篇幅,我們只給出字母表示的多重比較結(jié)果,為此,我們先將多重比較的計(jì)算結(jié)果保存為L(zhǎng)SD5,然后利用函數(shù)names()查看輸出結(jié)果的組件:
所以,LSD5 共有5個(gè)組件部分,其中g(shù)roups 是用字母表示的多重比較排列結(jié)果,我們利用美元$符號(hào)獲取該部分的輸出結(jié)果:
或者,直接寫為:
注意,此時(shí)用以設(shè)置是否在控制臺(tái)窗口顯示計(jì)算結(jié)果的參數(shù)console 不需設(shè)置為TRUE,默認(rèn)設(shè)置即可,因而函數(shù)中不必出現(xiàn)該參數(shù)。
類似地,我們可以計(jì)算得出,1%顯著性水平下的多重比較結(jié)果:
Duncan 新復(fù)極差法的多重比較可以采用程序包agricolae 中的函數(shù)duncan.test()。duncan.test()的用法與LSD.test()用法相同,得到5%和1%顯著性水平的Duncan 新復(fù)極差多重比較的結(jié)果。
這是TUKEY 在1952年提出的一種多重比較方法,該方法以控制試驗(yàn)錯(cuò)誤率為目標(biāo),又叫固定極差的q 檢驗(yàn)法[5]。我們采用agricolae 中的函數(shù)HSD.test()進(jìn)行Tukey 法的多重比較。用法與LSD.test()和duncan.test()相同。
SNK 法也被稱為q 法[3],它是Tukey 法的一個(gè)發(fā)展,相對(duì)于Tukey 法,顯得較為不保守(傾向于發(fā)現(xiàn)較多的差異)。我們采用程序包agricolae 的函數(shù)SNK.test()比較4 種藥劑均值,類似于前述的幾種多種比較方法,得到5%和1%顯著性水平的SNK 法多重比較的結(jié)果。
從計(jì)算可知,5%水平下4 種不同方法的多重比較的結(jié)果有所不同,但在1%水平下,結(jié)果相同,效果最好的藥劑D 極顯著地好于效果較差的藥劑A和C,藥劑A和C 沒有顯著差異,效果排第2 的藥劑B 只是與藥劑C 有極顯著差異。
卡平方(χ2)檢驗(yàn)可用于樣本間的方差同質(zhì)性比較、計(jì)數(shù)數(shù)據(jù)的適合性以及基于列聯(lián)表的兩個(gè)變量的獨(dú)立性等問題。我們利用基礎(chǔ)包stats 中的函數(shù)chisq.test()對(duì)《試驗(yàn)統(tǒng)計(jì)方法》中的1個(gè)兩對(duì)等位基因遺傳試驗(yàn)的數(shù)據(jù)集(例7.6)[3]進(jìn)行適合性檢驗(yàn)以及1個(gè)列聯(lián)表(例7.9)進(jìn)行列變量和行變量的獨(dú)立性檢驗(yàn)。
例4 兩對(duì)等位基因遺傳試驗(yàn),如果基因?yàn)楠?dú)立分配,則F2代4 種表現(xiàn)型在理論上的比率為9∶3∶3∶1。有一水稻遺傳試驗(yàn),以稃尖有色非糯品種與稃尖無(wú)色糯性品種雜交。其F2代品種得表4 結(jié)果。試檢查實(shí)際結(jié)果是否符合為9∶3∶3∶1 的理論比率。
表4 F2 代表型的觀察次數(shù)
我們用函數(shù)chisq.test()作試驗(yàn)數(shù)據(jù)與理論比率的適合性卡方檢驗(yàn),其中x和p 是函數(shù)參數(shù),用于設(shè)置試驗(yàn)觀察值頻數(shù)以及理論比率。
從結(jié)果可知卡方值(X-squared)= 92.706,P值(pvalue)<2.2e-16,幾乎為0,從而試驗(yàn)數(shù)據(jù)有極強(qiáng)的證據(jù)拒絕原假設(shè),即有極強(qiáng)的證據(jù)表明該水稻稃尖和糯性性狀在F2的稃尖表型分類結(jié)果不符合9∶3∶3∶1 的理論比率,也就是說,該兩對(duì)等位基因并非獨(dú)立遺傳,而可能為連鎖遺傳。
例5 進(jìn)行大豆等位酶Aph 的電泳分析,193 份野生大豆和223 份栽培大豆的等位基因型的次數(shù)列于表5 中,試分析大豆Aph等位酶的等位基因型頻率是否因物種而不同。
表5 野生大豆和栽培大豆Aph等位酶的等位基因型次數(shù)分布
對(duì)于試驗(yàn)得到的列聯(lián)表數(shù)據(jù),研究者感興趣檢驗(yàn)大豆等位酶Aph 的等位基因型頻率是否因物種而不同,對(duì)應(yīng)的統(tǒng)計(jì)檢驗(yàn)是獨(dú)立性檢驗(yàn),相應(yīng)的原假設(shè)H0和備選假設(shè)Ha分別是:
H0:大豆Aph等位酶的等位基因型頻率與物種無(wú)關(guān);
Ha:大豆Aph等位酶的等位基因型頻率與物種有關(guān)。
我們?nèi)匀焕煤瘮?shù)chisq.test()進(jìn)行列聯(lián)表的獨(dú)立性檢驗(yàn),但列聯(lián)表數(shù)據(jù)必須以矩陣的格式輸入,用到的函數(shù)是矩陣函數(shù)matrix(),其中用到2個(gè)參數(shù):第一個(gè)參試nrow 用以設(shè)置矩陣行數(shù),這里矩陣行數(shù)為2,所以nrow=2;另外一個(gè)參數(shù)是byrow 用以設(shè)置數(shù)據(jù)在矩陣的排列順序,默認(rèn)值為FALSE,按照列的順序排列,即byrow=FALSE。
我們按照參數(shù)byrow 的默認(rèn)設(shè)置byrow=FALSE和按照行的順序排列的設(shè)置byrow=TRUE 分別輸入數(shù)據(jù)生成矩陣mymat,體會(huì)兩種不同設(shè)置的差別(注意其中函數(shù)c()中的數(shù)據(jù)的不同排列順序)。
# 按照默認(rèn)的列的順序排列
然后利用函數(shù)chisq.test()進(jìn)行列聯(lián)表的獨(dú)立性檢驗(yàn):
從計(jì)算結(jié)果可知,卡方值(X-squared)= 154.04,自由度(df)= 2, 相應(yīng)的P值(p-value)<2.2e-16 ,所以數(shù)據(jù)有非常強(qiáng)的證據(jù)拒絕H0,即野生大豆和栽培大豆的Aph等位基因型頻率有顯著差別。
我們介紹了如何利用R 語(yǔ)言對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行t 檢驗(yàn)、方差分析、均值的多重比較以及卡平方檢驗(yàn)等常用的統(tǒng)計(jì)分析方法,在分析計(jì)算中,只是需要掌握加載已經(jīng)下載安裝的所需程序包,然后調(diào)用程序包中的函數(shù),設(shè)置好函數(shù)相關(guān)的參數(shù)即可,并不需要關(guān)心具體的統(tǒng)計(jì)分析是如何做的。如果這些也算作編程的話,那么這樣的編程應(yīng)該是比較容易掌握的。
不同類型和不同特點(diǎn)的數(shù)據(jù)、以及不同的研究目的需要不同的分析方法,而R 提供了不同研究領(lǐng)域上萬(wàn)個(gè)多種多樣的程序包[6],當(dāng)然,其中有一些是一般性的統(tǒng)計(jì)分析程序包,如R 自帶的基礎(chǔ)程序包stats、混合線性模型分析程序包lme4等,不過,不同的研究領(lǐng)域都有對(duì)應(yīng)的程序包可以選擇使用,如本文介紹的程序包agricolae 就是由秘魯科學(xué)家Felipe de Mendiburu 在農(nóng)業(yè)研究機(jī)構(gòu)工作時(shí)開發(fā)的專門用于農(nóng)業(yè)科研數(shù)據(jù)分析的程序包[4]。所以,R 語(yǔ)言就在一般的商業(yè)化軟件與專業(yè)程序員之間建起了一個(gè)豐富的折中選擇。這是R語(yǔ)言的特點(diǎn),不僅體現(xiàn)了R 語(yǔ)言開發(fā)者研發(fā)的初衷,也是R 語(yǔ)言在世界范圍如此受歡迎的重要原因[7]。
在利用R分析數(shù)據(jù)時(shí),有幾點(diǎn)建議:
1)數(shù)據(jù)的輸入或者讀入是分析的起點(diǎn),也是關(guān)鍵點(diǎn),其中尤其要注意R 函數(shù)所要求的數(shù)據(jù)格式大多是長(zhǎng)形(long-format)。如對(duì)例3 的數(shù)據(jù)方差分析,不能按照表2 的格式輸入數(shù)據(jù),第1 列是藥劑類型,第2 列到第5 列是苗高的4次重復(fù)觀察值,而是應(yīng)該以2 列的格式(長(zhǎng)形)輸入數(shù)據(jù),其中第一列是藥劑類型,第二列是對(duì)應(yīng)的苗高觀察值數(shù)據(jù):
如果是從文本文件或者Excel 工作表讀入,那么數(shù)據(jù)的格式應(yīng)該類似,如從Excel 電子表保存為csv 格式的數(shù)據(jù)形式見圖1。
圖1 例3數(shù)據(jù)用以讀入的csv 的格式
2)本文在利用R 函數(shù)的數(shù)據(jù)分析中,都沒有用到函數(shù)中用于設(shè)置數(shù)據(jù)分析數(shù)據(jù)集的參數(shù)data,這是因?yàn)槲覀冊(cè)赗 控制臺(tái)窗口直接輸入或者生成數(shù)據(jù)變量,R 函數(shù)可以直接調(diào)用,如果數(shù)據(jù)集是讀入的,那么在相應(yīng)的R 函數(shù)中需要利用參數(shù)選項(xiàng)data 設(shè)置分析數(shù)據(jù)集。例如,我們?cè)诶? 中讀入圖1 中所示的csv 格式的數(shù)據(jù)(文件名為gjy61.csv,保存在當(dāng)前工作文件夾中),那么讀入數(shù)據(jù)集以及數(shù)據(jù)的方差分析為:
另外還有幾種比較常用的關(guān)聯(lián)變量的方法,尤其是有些R 函數(shù)不提供設(shè)置數(shù)據(jù)集的參數(shù)選項(xiàng)時(shí)會(huì)用到,有利用函數(shù)attach()或者with()關(guān)聯(lián)數(shù)據(jù)集中變量的方法,還有更直接利用美元符號(hào)的方法。
3)本文分析示例數(shù)據(jù)用到的幾個(gè)不同的R 函數(shù),其中函數(shù)的參數(shù)設(shè)置都比較少。R 函數(shù)一般都提供了較多的參數(shù)選項(xiàng),從而我們?cè)诰唧w的數(shù)據(jù)分析中可以按照分析要求選取合適的參數(shù)進(jìn)行設(shè)置。具體的函數(shù)參數(shù)選項(xiàng)可以通過R 系統(tǒng)的幫助功能或者直接在網(wǎng)上查詢。如函數(shù)t.test()使用方法為:
其中的參數(shù)paired=FALSE和var.equal=FALSE 在例1和例2 的數(shù)據(jù)分析時(shí)已經(jīng)用到了,更多的其他各項(xiàng)參數(shù)設(shè)置解釋如下:
x和y= NULL:x和y 都為數(shù)據(jù)向量,其中y =NULL 表示如果是單樣本t 檢驗(yàn),y可以忽略;
alternative:用于設(shè)置是雙尾假設(shè)("two.sided")還是單尾假設(shè)("less" 或"greater"),如在例1 中,試驗(yàn)者在試驗(yàn)開始前已經(jīng)比較肯定密植能夠提高產(chǎn)量,試驗(yàn)的目的是希望對(duì)此檢驗(yàn),那么alternative 的設(shè)置為alternative="less",或者簡(jiǎn)寫為alt="less"。注意默認(rèn)是alt="two.sided",即如果t 檢驗(yàn)是雙尾檢驗(yàn),那么這一選項(xiàng)可以忽略;
mu=0:表示檢驗(yàn)總體均值是否為0(單樣本) 或者兩個(gè)樣本總體均值是否相等,如在例1 中試驗(yàn)者希望檢驗(yàn)密植能否增產(chǎn)5 kg 以上,那么mu=-5(負(fù)數(shù)是因?yàn)閤 是較低產(chǎn)量30萬(wàn)苗/667 m2的稻田產(chǎn)量);
conf.level=0.95:表示總體均值(單樣本)或者兩樣本均值差數(shù)的置信區(qū)間的置信度設(shè)置,默認(rèn)置信度為95%;
data:用于設(shè)置分析的數(shù)據(jù)集。
函數(shù)t.test()的參數(shù)選項(xiàng)設(shè)置,其中的許多參數(shù)的默認(rèn)設(shè)置我們很多時(shí)候都是接受的,如alternative="two.sided", mu=0, paired=FALSE, var.equal=FALSE, conf.level=0.95,那么函數(shù)t.test() 中都可以忽略,正如我們?cè)诶? 的數(shù)據(jù)分析中所做的。
4)網(wǎng)上有豐富的R 語(yǔ)言的資源,這是R 語(yǔ)言流行的另外一個(gè)重要原因[7]。例如,想用R 分析試驗(yàn)數(shù)據(jù),但覺得不知如何著手時(shí),一種比較快捷有效的辦法是通過網(wǎng)上查詢類似試驗(yàn)數(shù)據(jù)的例子,將例子中的R 代碼拷貝到R 軟件中程序腳本窗口,并將例子中的數(shù)據(jù)替換為自己的試驗(yàn)數(shù)據(jù),然后運(yùn)行代碼進(jìn)行分析。不過在具體的分析過程中,我們至少需要清楚采用哪種統(tǒng)計(jì)分析方法分析自己的試驗(yàn)數(shù)據(jù),并能正確解讀分析結(jié)果。例如,在分析例1 的試驗(yàn)數(shù)據(jù)時(shí),比較兩組樣本的均值所采用的方法是t 檢驗(yàn),那么我們可以在百度按照兩個(gè)關(guān)鍵詞“R 語(yǔ)言t 檢驗(yàn)”查詢相關(guān)內(nèi)容和例子。
通過本文的介紹,期望有更多的農(nóng)業(yè)科技工作者下載開始使用這一具有強(qiáng)大的統(tǒng)計(jì)計(jì)算功能、便捷的數(shù)據(jù)可視化系統(tǒng)以及免費(fèi)開源的R 語(yǔ)言。