張久權
(中國農(nóng)業(yè)科學院煙草研究所,青島 266101)
試驗設計和統(tǒng)計分析所涉及的內(nèi)容較多,有些需要掌握比較高深的統(tǒng)計理論和數(shù)學方面的知識。國外許多研究機構(包括醫(yī)學和農(nóng)業(yè)等)都有專門的統(tǒng)計學專家負責進行試驗設計和統(tǒng)計分析。試驗設計正確與否,統(tǒng)計分析是否合理,對結論的正確性至關重要。如果在這方面出了問題,所得結論往往不合理,甚至是錯誤的。從來稿看,試驗設計和統(tǒng)計分析方面的問題較多,有些問題比較嚴重。作者辛辛苦苦做了幾年的試驗,最后才發(fā)現(xiàn)試驗設計不合理,統(tǒng)計方法存在問題,導致退稿,造成損失和遺憾。下面,我列舉一些常見問題以及解決方法,供大家參考。
對于“試驗設計”部分的內(nèi)容,作者應該說明該試驗包括哪幾個因子,各因子的水平,因子之間的關系(如因子處理結構),試驗單元(如小區(qū)),處理如何分配到試驗單元,重復數(shù),田間排列方法(隨機區(qū)組,完全隨機,裂區(qū)等)。如果是正交試驗,還需要對因子處理用表格進行說明。如果是室內(nèi)試驗,也應該注意對試驗單元的排列方式進行描述。試驗地點和年份,是否是多點多年試驗?觀察記載項目和操作,取樣時間和操作等都應該交待清楚。如果論文中包括多個試驗,應該分別對每一個試驗進行描述。
例:
試驗設3種土壤:紫色土(Z)、牛肝土田(N)、砂泥田(S)。5個施氮量水平:N1、N2、N3、N4、N5分別為0.0、67.5、135.0(當?shù)亓晳T施氮量)、202.5、270.0 kg/hm2,土柱施氮量按其橫截面積折算。試驗共15個處理,3次重復。
試驗共2個因子(土壤、氮肥),土壤因子包括3個水平,氮肥因子5個水平,共15個處理組合。遺憾的是,作者沒有說明這15個處理組合是如何分配到各小區(qū)的,田間排列方法是什么?這2項內(nèi)容對后面的統(tǒng)計分析至關重要。
我們先來看一個煙草葉面噴施鉀肥試驗的例子:
試驗設噴硫酸鉀與不噴(CK)2個處理,3次重復,小區(qū)面積50 m×50 m,小區(qū)排列方式為完全隨機。
存在的問題是在噴硫酸鉀的同時,也噴施了一定量的水。如果噴施時天氣很干旱,就很難判斷到底是鉀肥還是水,或者是二者一起產(chǎn)生的效果。如果我們將CK改為噴施等量的水,問題就解決了。
因此,我們在進行試驗設計時,一定要堅持“唯一差異”原則,在進行處理間比較時,除了試驗處理不同外,其他所有條件應當保持相同或盡量一致,才能使處理間的結果具有可比性。
我們所進行的統(tǒng)計分析,都是依賴于各種統(tǒng)計分布(如正態(tài)分布),而許多分布函數(shù)最基本的假設條件就是變量是隨機的。如果我們做試驗設計時,對試驗單元不進行隨機化,就違背了統(tǒng)計分布的基本條件,所得結果就會缺乏理論根據(jù)。隨機化的另一個重要目的是獲得無偏的誤差估計量,從而進行正確的統(tǒng)計推斷。
個別學者對隨機化原則不理解,或者雖然知道但因怕麻煩不認真執(zhí)行,甚至為了提高論文的刊用率,隨便冠以隨機化的字眼,這樣就失去了科學研究的真正目的。因此,在進行試驗設計時,我們應該從統(tǒng)計學的角度認真做好隨機化的工作。比如,采用合理的排列方式(完全隨機、隨機區(qū)組、拉丁方等),將處理組合指定到某個試驗單元(如小區(qū))時,采用隨機數(shù)字表等。
有些學者對統(tǒng)計分析的認識不足,或者因為對統(tǒng)計分析了解不多,也為了省事,做試驗設計時,很少考慮以后的統(tǒng)計分析,不進行隨機化處理,采用簡單的排列方式(如,順序排列,對比法試驗等)。這樣,雖然進行了大量的試驗操作,但所得結果的可靠性和科學性會大打折扣。
有的學者試驗設計進行得很好,操作時也進行了隨機化處理,但沒有進行統(tǒng)計分析。撰寫論文時對結果只是進行簡單地定性描述,單憑數(shù)值的大小主觀判斷結果是否具有差異,有的甚至用“顯著”、“極顯著”等統(tǒng)計專用術語。這些都是不可取的,會大大降低稿件的錄用率。因此,建議作者在撰寫論文的“結果”部分之前,認真做好統(tǒng)計分析。如果你自己不會,完全可以請同事幫忙完成。
我們在審稿中發(fā)現(xiàn)的另一個較普遍的問題是:試驗設計合理,統(tǒng)計分析方法正確,但作者在進行結果描述時,卻完全拋開了統(tǒng)計分析結果,按自己的思路說處理A比處理B效果好,雖然他們之間沒有顯著差異。當然,統(tǒng)計分析只是一個數(shù)學推斷的分析手段,存在I類或II類誤差,對最終結果的解釋,還是要靠學者的專業(yè)知識。但誤差只是個別情況,但在沒有充足的理由否定統(tǒng)計結果時,我們還是要盡量參考統(tǒng)計分析結果。
統(tǒng)計檢驗依賴于統(tǒng)計模型,每種分布模型的隨機變量都對數(shù)據(jù)有一定的要求,如樣本的獨立性、數(shù)據(jù)的分布型(如,正態(tài)分布)、數(shù)據(jù)的類型等。目前,由于統(tǒng)計軟件的使用比較方便,學者往往對應該如何選用合適的統(tǒng)計方法考慮甚少,直接將數(shù)據(jù)輸入計算機,幾秒種后出來一大堆結果,這些結果很容易造成誤導。為了防止不懂統(tǒng)計的人員誤用,國外著名統(tǒng)計軟件SAS,故意將界面做的很差,只給一些簡單的分析提供界面,其他許多功能強大或復雜的分析都需要分析人員理解統(tǒng)計原理后自己編程進行分析的。
選擇正確的統(tǒng)計方法,有時需要咨詢專業(yè)的統(tǒng)計人員,也可以參考相關書目。筆者在此僅舉幾個例子:
對于獨立的雙樣本,當數(shù)據(jù)呈正態(tài)分布時,可以做t檢驗,否則就要進行非參數(shù)Mann Whitney U 檢驗;對于非獨立雙樣本呈正態(tài)分布的數(shù)據(jù),可以進行配對樣本t檢驗;當數(shù)據(jù)為非正態(tài)時,應采用非參數(shù)統(tǒng)計中的2個相關樣本檢驗方法進行。當分組在3組或3組以上時就必須采用方差分析法。對于獨立的多組樣本,采用單方向ANOVA分析,當結果差異顯著時,還需要進一步進行多重比較分析。
值得一提的是,對于非參數(shù)統(tǒng)計,它們中的許多方法假設條件簡單,不需要正態(tài)分布??梢杂闷溥M行序數(shù)、計數(shù)、比例、比率、分類等數(shù)據(jù)類型的統(tǒng)計分析。
有些試驗,尤其是農(nóng)業(yè)試驗,常常需要進行多點或多年試驗。在進行這樣的試驗統(tǒng)計分析時,有些學者只是按各地點或年份進行單獨分析,或者取平均數(shù)進行分析,這都是不可取的。
多年或多點試驗數(shù)據(jù)之間有可能存在相關性,許多統(tǒng)計方法可以對此進行檢測。如果這些數(shù)據(jù)在空間或時間上相互獨立,我們可以采用一些參數(shù)或非參數(shù)的統(tǒng)計分析方法對其進行分析;如果數(shù)據(jù)在空間或時間上相關,可以采用區(qū)域化變量分析(regionalized variable analysis)和時間序列分析方法進行分析。
統(tǒng)計分析固然重要,但我們不能過分依賴統(tǒng)計結果。有的人把5%或1%水準當作圣典,這是不可取的。其實,當初Fisher選用5%、1%這2個水準完全是出于對5、1這2個數(shù)據(jù)尺度方便的考慮。由于某種原因,這個標準就通過教科書沿用下來并成為“固定的標準水準”了。根據(jù)具體情況,把顯著水準定在 6%或4%也無可厚非。
統(tǒng)計分析的基礎是概率論,而統(tǒng)計結論的理論依據(jù)是小概率事件。如果得出的概率為 4%,就表明該個體屬于該總體的可能性只有4%,也就是說96%的可能性不屬于該總體。由此推斷他們之間存在顯著差異。一般來說,P值越小,就越有理由認為差異越顯著,但并不是說小概率事件就不發(fā)生。因此,下結論時就不能絕對化。
統(tǒng)計分析得出結論,兩組間數(shù)據(jù)達5%顯著或1%極顯著差異,但差異有多大,這要由它們之間實際相差大小,再結合專業(yè)知識才能確定,并不能由P< 0.05或P< 0.01來決定。統(tǒng)計上說的差異顯著(P< 0.05),差異極顯著(P< 0.01)是統(tǒng)計學術語,不能說P值越小,處理間的差異就越大。例如,2個烤煙品種紅花大金元和K326,紅花大金元的產(chǎn)量比K236的高,統(tǒng)計分析結果表明差異達極顯著水準,此并不表示紅花大金元在產(chǎn)量方面比K326高很多,只是表示紅花大金元比K326的產(chǎn)量高的可能性非常大。紅花大金元的產(chǎn)量是否比K326的高很多,要由其具體的產(chǎn)量數(shù)據(jù)來說話。為了避免歧義,建議用“差異有極顯著意義”、“差異有顯著意義”代替以前的“差異極顯著”、“差異顯著”。
有的作者在投稿時,將方差分析等統(tǒng)計分析的中間結果詳細用表列出,這是完全不必要的。如果前面已經(jīng)交待清楚了試驗設計,包括小區(qū)排列方式和重復數(shù),采用的統(tǒng)計方法,方差分析結果列出P值就可以了。其實,讀者最關心的是后面的多重比較結果。
一般來說,進行方差分析,如果處理間差異達到顯著或極顯著,就有必要選擇合適的多重比較方法進行多重比較,找出具體是哪些處理間存在差異。如果方差分析結果表明處理間差異不顯著,表示處理間存在差異的可能性非常小,就沒有必要做多重比較了。但從來稿中,我們常??吹饺缦卤?所示的情況。
表1 不同處理成熟期煙株各部位煙葉的SPAD值
表1多重比較結果表明,上部葉、中部葉4個處理間差異不顯著,下部葉差異達顯著水準但沒達到極顯著水準。由于作者沒有提供方差分析的P值,我們不知道做方差分析時處理間是否達到5%顯著差異。在一般情況下,如果方差分析結果表明差異顯著,做多重比較時處理間會出現(xiàn)差異。因此,建議作者提供P值。只有在處理間差異達到顯著或極顯著后,才能進一步做多重比較,這樣一般不會出現(xiàn)全是“a”的情況。如果萬一出現(xiàn),也有可能是所采用的多重比較方法不對,需要進行調(diào)整。總之,在做表時,不要將全“a”或“A”一一列出。