亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        單一響應變量統(tǒng)計分析在煙草學研究中應用的若干問題

        2014-11-24 08:37:31楊錦忠宋希云
        中國煙草學報 2014年4期
        關鍵詞:煙草分析方法

        楊錦忠,宋希云

        青島農(nóng)業(yè)大學/山東省旱作農(nóng)業(yè)技術重點實驗室,青島 266109

        統(tǒng)計分析專欄

        單一響應變量統(tǒng)計分析在煙草學研究中應用的若干問題

        楊錦忠,宋希云

        青島農(nóng)業(yè)大學/山東省旱作農(nóng)業(yè)技術重點實驗室,青島 266109

        正確選擇和應用統(tǒng)計分析方法是研究工作成敗的重要因素之一。本文在簡述統(tǒng)計分析一般流程、解答生物統(tǒng)計學應用常見問題的基礎上,重點介紹了如何根據(jù)響應變量和解釋變量的性質(zhì)及其組合,正確選擇和應用統(tǒng)計方法的原則與要點,強調(diào)了統(tǒng)計診斷的重要性。此外,還介紹了隨機模擬抽樣、重復測量、穩(wěn)健回歸、分位數(shù)回歸、廣義線性模型、Bootstrap技術、元分析、測量誤差模型等最新統(tǒng)計方法的應用場合。

        響應變量;解釋變量;統(tǒng)計方法選擇;統(tǒng)計分析流程;統(tǒng)計診斷;統(tǒng)計應用指南

        計算技術及計算手段今非昔比,極大地推動了統(tǒng)計分析及其應用進步,新的方法和應用領域不斷出現(xiàn)。包括許多開源和免費軟件在內(nèi)的統(tǒng)計分析程序日益普及,科技人員足不出戶就可以完成任意復雜的分析計算??墒?,科技論文的統(tǒng)計錯誤也著實令人擔擾,即使世界頂級刊物也不例外。據(jù)報道[1],在《科學》和《自然》等世界前五名雜志上發(fā)表的513篇神經(jīng)科學論文中,有79篇使用了不正確的統(tǒng)計方法,約占受檢論文總數(shù)的15%。我國科學研究中應用統(tǒng)計分析的深度和廣度正在不斷增加,學術論文中也同樣存在諸如分析方法選擇不當、分析選項失誤、分析結果解釋失真、結果應用有誤等統(tǒng)計錯誤。為進一步提升我國煙草學術論文的統(tǒng)計分析水平,本文擬就單一響應變量的統(tǒng)計分析應用的常見問題,特別是如何選擇正確的分析方法,提出針對性的建議。

        1 統(tǒng)計分析方法選擇概述

        1.1 關聯(lián)試驗研究與統(tǒng)計分析的兩種變量

        從試驗研究角度看,任何試驗數(shù)據(jù)都是由變量及其取值組成的。變量有兩大類:響應變量(response variable)和解釋變量(explanatory variable)相對應。以煙草學為例,響應變量表示研究者最關注的煙草性狀,如產(chǎn)量或者品質(zhì)等,打算通過研究剖析其變化規(guī)律或者進行預測。解釋變量則表示能夠影響響應變量的其它因素,如煙草的基因型、生產(chǎn)措施、土壤因素、環(huán)境因素等。由此可知,在因果關系研究中,結果是響應變量,原因是解釋變量;在遺傳關系研究中,一般來說親代是解釋變量,子代是響應變量;在方差分析中,被分析的變量,如產(chǎn)量是響應變量,各種具體的變異來源,如處理、試驗因素等是解釋變量;在回歸分析中,依變量是響應變量,自變量是解釋變量。值得指出的是,一個變量屬于響應變量還是解釋變量,并不是固定不變的,而是因分析目標而異。例如,品種比較試驗中,煙草基因型是解釋變量(產(chǎn)量是響應變量),但是在品種識別研究中,煙草基因型卻是響應變量(煙草各種性狀是解釋變量)。

        1.2 統(tǒng)計分析的一般流程

        生物統(tǒng)計學教科書一般都側重于介紹統(tǒng)計原理與方法,很少涉及科研活動的分析實踐。如何避免失誤,最大限度地挖掘試驗數(shù)據(jù)中包含的信息,則是分析實踐必須考慮的問題。這一問題的答案就是借鑒學術界的成功經(jīng)驗,認真執(zhí)行統(tǒng)計分析的一般流程,養(yǎng)成良好的分析習慣。完整的分析流程包括核實數(shù)據(jù)、選擇合理的分析方法并付諸行動、進行統(tǒng)計診斷、分析結果解釋與報告等環(huán)節(jié)。

        首先,要仔細審核錄入計算機的數(shù)據(jù)正確性。

        其次,審查數(shù)據(jù)中是否存在異常值、離群點。結合煙草學專業(yè)知識運用統(tǒng)計方法對數(shù)據(jù)進行整理,同時對是否存在異常值、離群點進行判斷和甄別。常用的統(tǒng)計方法主要包括描述統(tǒng)計量和統(tǒng)計圖,描述統(tǒng)計量主要有最大/小值、標準差和變異系數(shù)等;統(tǒng)計圖主要有:次數(shù)分布直方圖、任意兩個連續(xù)型變量的相關散點圖、連續(xù)性變量對離散型變量的盒形圖和柱形圖。

        如發(fā)現(xiàn)異常值或者離群點后,結合專業(yè)知識可以直接刪除,即當作缺失值。一般不建議用平均值替換缺失值,因為違背了隨機性要求。許多統(tǒng)計軟件碰到有缺失值的變量時,會將整個記錄刪除然后進行后續(xù)分析,這樣必然發(fā)生信息損失,并且有可能形成不平衡數(shù)據(jù)。目前解決缺失值問題的較好辦法是,利用計算機進行隨機模擬抽樣,然后再逐一分析模擬樣本,最后合并全部模擬樣本的分析結果,結合專業(yè)知識得出結論,SAS軟件有這一功能模塊。如果是回歸分析問題,則使用穩(wěn)健回歸(Robust regression)方法(如廣義極大似然、嶺回歸、主成分回歸等)取代最小二乘法,可以有效減輕離群點的干擾,獲得較好結果。另外,通過單位變換或者線性變換,使參與計算的所有變量保持在相同的數(shù)量級,可以有效降低計算誤差。

        第三,選擇恰當?shù)姆椒ǚ治鰯?shù)據(jù)(詳見下文)。選定某一種方法后,確定適當?shù)姆治鲞x項,包括圖形輸出和統(tǒng)計診斷選項,以對各種假定進行檢驗,要充分利用這一功能,起碼作者認為非常重要的科學發(fā)現(xiàn)和技術發(fā)明一定要過統(tǒng)計診斷關。對于復雜的統(tǒng)計方法,最好請教經(jīng)驗豐富的領域專家和統(tǒng)計專家。

        第四,查看計算機軟件運行日志和分析結果。切記不要忽略運行日志。若日志報告了錯誤,提出了警告,則要仔細檢查數(shù)據(jù)和分析程序,找出問題所在并加以解決,然后重新分析,有時甚至需要重新選擇分析方法。

        查看分析結果時,先結合圖形輸出看統(tǒng)計診斷結果,然后再看參數(shù)估計和顯著性檢驗結果。只有診斷顯示基本正常時,才能使用參數(shù)估計和顯著性檢驗結果。否則,一切分析結果都是無效的,甚至是錯誤的。例如,如果響應變量對解釋變量的散點圖呈現(xiàn)明顯的大喇叭形狀,說明誤差方差與自變量相關,此時不能使用普通最小二乘回歸,而應該使用加權最小二乘法,或者使用分位數(shù)回歸(Quantile regression)[2]。普通最小二乘回歸只能描述自變量對于依變量均值變化的影響,而分位數(shù)回歸能更精確地描述自變量對于依變量的各種分位數(shù)以及條件分布形狀的影響?,F(xiàn)在已有分位數(shù)回歸軟件,如免費的Quantreg[3]。

        最后,對分析結果進行專業(yè)解釋,并闡述產(chǎn)生結果的原因。專業(yè)解釋力求通俗易懂。解釋時要注意區(qū)分因果關系和非因果關系。分析結論是應用統(tǒng)計分析工具的產(chǎn)物,僅提供了處理效應的估計及其顯著性,在某種意義上僅是一種“概率證明”。若要論證結論的可靠性,最好能夠找到產(chǎn)生結果的原因,作為證據(jù)。概率論證和專業(yè)論證相互補充,結論才更具有說服力。

        1.3 選擇統(tǒng)計方法的一般考慮

        統(tǒng)計分析方法是為了滿足人們解決實踐問題的需要而逐步發(fā)展起來的,所以,在選擇統(tǒng)計分析方法時,首先應當回答以下幾個問題:試驗目的和分析目標是什么?響應變量是什么?有哪些解釋變量?變量的類型和數(shù)目?試驗設計的類型?試驗數(shù)據(jù)是否滿足統(tǒng)計方法的基本假定?試驗數(shù)據(jù)的性質(zhì)在很大程度上決定了采用什么樣分析方法。在計算機統(tǒng)計軟件普及之前,分析步驟繁瑣、計算復雜、工作量大是方法選擇的限制因素之一,現(xiàn)在計算手段問題已經(jīng)不復存在,最大限制因素是科技人員的統(tǒng)計學知識和統(tǒng)計咨詢意愿。

        所謂單一響應變量的統(tǒng)計分析乃指研究者在分析時只關注一個響應變量的變化,欲明確一個或者幾個解釋變量是如何引起響應變量變化的。在明確分析單個響應變量之后,根據(jù)兩種變量的組合不同,可以采用的統(tǒng)計分析方法隨之改變。表1給出了它們之間的對應關系。

        表1 解釋變量和響應變量不同組合對應的統(tǒng)計方法選擇Tab. 1 Selection of statistical methods based on response and explanatory variables

        例如,株高、產(chǎn)量、施肥量等取值可以連續(xù)變化的變量即所謂連續(xù)型變量,而取值數(shù)目有限的變量是離散型變量,又進一步劃分為二值變量(如發(fā)病、不發(fā)?。?、等級變量(如災害等級、煙葉等級)、名義變量(如煙草品種名稱)。

        根據(jù)統(tǒng)計理論,煙草研究的分析目標有:(1)明確響應變量的各種性質(zhì),諸如描述統(tǒng)計量,即平均數(shù)、變異數(shù)、峰度和偏倚度、以及概率分布類型等;(2)明確統(tǒng)計量的差異,如比較煙葉豐產(chǎn)性(平均數(shù))或者穩(wěn)產(chǎn)性(變異數(shù));(3)解析響應變量發(fā)生變化的原因并進行定量估算和甄別;(4)建立響應變量與解釋變量之間的數(shù)量關系式并進行預測或者控制;如此等等。若響應變量是新定義的煙草性狀,則描述統(tǒng)計就成為認識新性狀的首選分析方法。

        值得指出,統(tǒng)計方法的選擇應該早在試驗研究設計階段就進行,否則,等試驗結束之后再考慮,就可能出現(xiàn)測定指標不全、數(shù)據(jù)量偏少、數(shù)據(jù)取值范圍偏頗、條件控制失當?shù)葐栴},嚴重時導致統(tǒng)計分析失敗,無法實現(xiàn)研究的預期目標。

        2 統(tǒng)計分析應用的若干熱點問題

        2.1 參數(shù)的點估計和區(qū)間估計

        點估計是統(tǒng)計描述的重要內(nèi)容,區(qū)間估計則是統(tǒng)計推斷的重要內(nèi)容。盡管區(qū)間估計的計算復雜性和工作量都大得多,但是,當今計算機統(tǒng)計軟件非常普及,相對于漫長的試驗數(shù)據(jù)收集過程而言,統(tǒng)計分析的計算時間極其短暫,因此,推薦盡可能使用區(qū)間估計。

        經(jīng)典統(tǒng)計學的區(qū)間估計是基于先驗概率分布,如正態(tài)分布建立的,由于研究對象的概率分布常常是未知的,其應用受到很大限制。現(xiàn)代統(tǒng)計學發(fā)明了許多區(qū)間估計的新方法,例如基于重抽樣技術的Bootstrap[4-5],Jackknife等。這些方法原則上能夠解決包括區(qū)間估計在內(nèi)的各種統(tǒng)計問題,如參數(shù)估計、顯著性檢驗等。

        2.2 t-檢驗、F-檢驗與非參數(shù)檢驗

        同樣是用于兩個總體平均數(shù)的比較,t-檢驗的基本假定多(試驗指標服從正態(tài)分布,試驗誤差是獨立的、隨機的),非參數(shù)檢驗少(常常只要求試驗指標的分布是對稱的)。所以,非參數(shù)檢驗的普適性大得多。不過,非參數(shù)檢驗是相當保守的方法,當試驗數(shù)據(jù)符合t-檢驗的基本假定時,使用非參數(shù)檢驗將增加犯第二類錯誤的風險。

        同樣是用于多個總體平均數(shù)的比較,F(xiàn)-檢驗的基本假定多(試驗指標服從正態(tài)分布,試驗誤差是獨立的、隨機的,全部處理的試驗誤差是同質(zhì)的),非參數(shù)檢驗少(常常只要求試驗指標的分布是對稱的)。所以,非參數(shù)檢驗的普適性大得多。不過,非參數(shù)檢驗是相當保守的假設檢驗方法,當試驗數(shù)據(jù)符合F-檢驗的基本假定時,使用非參數(shù)檢驗將增加犯第二類錯誤的風險。

        2.3 假設檢驗

        假設檢驗,又稱顯著性檢驗,是經(jīng)典統(tǒng)計推斷的重要內(nèi)容。假設檢驗的結果分“顯著”和“不顯著”,極易引起讀者誤解,甚至作者誤釋。即使結論是“顯著”,也只是對總體特征的定性推斷,不象區(qū)間估計那樣作定量推斷。鑒于上述原因,假設檢驗已經(jīng)在越來越多的場合受到質(zhì)疑。

        另外,煙草學領域的數(shù)據(jù)采集能力已經(jīng)大大超越過去,樣本容量和同源樣品的試驗測試項目(即試驗指標)都大大增加,傳統(tǒng)的假設檢驗方法面臨著新考驗。對來自同源樣品的多個試驗指標分別進行顯著性檢驗,由于這些指標之間相關性會導致實際的顯著水平會低于其名義值,必須對此進行矯正,例如在農(nóng)學方面的應用[6]。

        2.4 “顯著”和“不顯著”

        顯著性檢驗(即假設檢驗)的結論,不外乎兩種:“顯著”或者“不顯著”。它們究竟是什么意思呢?我國在上個世紀30年代從國外引進了生物統(tǒng)計學,“顯著”一詞對應英文的“Significant”一詞。“Significant”是一個多義詞,意思是“有意義的;重要的;有效的;非偶然的”。根據(jù)顯著性檢驗的統(tǒng)計學原理,“Significant”最貼切的譯文是“非偶然的”,“Not significant”自然就成了“偶然的”。由于歷史的原因,“顯著”和“不顯著”的譯法一直沿襲下來了。

        2.5 處理間差異顯著時的處理效應

        只要將試驗誤差控制得非常小,或者重復次數(shù)足夠多,處理間差異即使非常微小,也可能獲得“差異顯著”的結論。但是,從專業(yè)實踐角度看,這種微小的處理效應卻不見得有應用價值。例如,處理間的煙草產(chǎn)量僅有0.25%差異,統(tǒng)計分析表明差異顯著,但是,從應用角度看這種差異是微不足道的。只有處理間差異大而且顯著的處理效應才能夠認為是重要的。

        煙草學領域的數(shù)據(jù)采集能力已經(jīng)大大超越過去,大樣本數(shù)據(jù)越來越多。在這種背景下,更應該明確處理效應的顯著性確切含義,嚴格區(qū)分處理效應的統(tǒng)計學顯著性和煙草學重要性。

        2.6 解釋與報告分析結果

        分析結果的適用范圍既取決于試驗設計,又取決于分析時對效應類型的假定。根據(jù)固定效應模型得到的結果,穩(wěn)妥的解釋類似于這樣:在與試驗相同或者相似條件下,供試處理具有某種效果。由一個或少數(shù)地點試驗結果推演到整個地區(qū),由一個或少數(shù)煙草品種試驗結果推演到煙草作物,都是根據(jù)專業(yè)知識進行的類比,不屬于統(tǒng)計分析范疇,無論作者還是讀者都必須充分認識到這一點。根據(jù)隨機效應模型得出的結論適用范圍大于固定效應模型。要防止按固定效應模型分析,卻按隨機模型下結論的做法。即使按隨機效應模型分析,試驗結論的可靠性還主要取決于參試處理的代表性。

        服從正態(tài)分布的變量一般報告算術平均數(shù)和標準差,其它分布的變量則報告中位數(shù)和百分位距,大樣本數(shù)據(jù)還要報告峰度和偏度。面向純專業(yè)人員的報告,還應列出參數(shù)的區(qū)間估計,即對于被研究總體的平均數(shù)、平均數(shù)差異、方差、變異系數(shù)、相關系數(shù)、回歸系數(shù)、回歸預測值都要給出區(qū)間估計。有關統(tǒng)計分析結果報告的更多建議參見文獻[7]。

        2.7 綜合分析不同研究者的試驗結果

        當回顧前人研究進展時,不應該滿足于只使用文字概括和歸納它們的異同,而應當進行元分析(Meta-analysis)。元分析是文獻綜述的一種量化方法,對同一問題的多項研究結果作系統(tǒng)性評價和總結,借助各種統(tǒng)計分析技術獲得一般規(guī)律性認識,已在生命科學中得到廣泛應用[8-9]。簡單做法是對處理效應按單變量描述統(tǒng)計進行匯總,復雜做法是進行處理效應的差異顯著性檢驗[10]。

        2.8 統(tǒng)計分析的結論

        可以把統(tǒng)計分析當作一個黑箱系統(tǒng),輸入是試驗數(shù)據(jù),輸出是試驗結論,統(tǒng)計方法是系統(tǒng)過程。結論是否有效、可靠,取決于輸入和系統(tǒng)過程的質(zhì)量。因此,評價統(tǒng)計分析結論時,要考慮以下幾個方面問題。首先,試驗數(shù)據(jù)是否有效。由于試驗處理違背隨機原則、試驗實施發(fā)生差錯、數(shù)據(jù)采集發(fā)生差錯、數(shù)據(jù)抄錄差錯、甚至偽造數(shù)據(jù)等,造成試驗數(shù)據(jù)本身存在錯誤,就會導致無效,甚至錯誤的試驗結論。只有正確可靠的試驗數(shù)據(jù)才有可能得出有效的結論。其次,統(tǒng)計方法的使用是否得當。任何一種統(tǒng)計方法都是一個數(shù)學定理,定理成立的前提是它的所有條件都得到滿足。如果試驗數(shù)據(jù)不滿足統(tǒng)計分析的基本假定,生搬硬套統(tǒng)計方法,統(tǒng)計分析的顯著性和置信度就不再擁有字面上的意義,此時,分析結論變得無效了。只有當試驗數(shù)據(jù)滿足統(tǒng)計分析的基本假定時,分析結果才是有效的。第三,是否對分析結果進行合理解釋。分析結果常常以數(shù)字、公式或者圖表的形式出現(xiàn),由于對統(tǒng)計方法的原理不甚了解,一知半解,作者常常會錯誤地解釋分析結果,或者解釋不準確,引起讀者誤解。只有對分析結果結合專業(yè)知識進行正確解釋,才是有效的試驗結論。第四,研究性質(zhì)。根據(jù)試驗數(shù)據(jù)來源可以把研究分為兩類:觀察性研究和實驗性研究。前者是非隨機化的研究,在自然狀態(tài)下對研究對象的特征進行觀查、記錄,后者是在人為控制條件下,遵循試驗設計之隨機、重復和局部控制三原則實施試驗。一般而言,與觀察性研究相比,實驗性研究的統(tǒng)計分析結論更有說服力。觀察性研究的最大風險來自漏掉對響應變量有重要作用的因素,以及誤把伴隨因素當作原因。最后,能否從生物學角度闡明分析結果的合理性。分析結果是試驗數(shù)據(jù)的高度概括與抽象,這種歸納若能夠從生物學角度(包括遺傳學、生理學、生物化學、生物物理等分支學科)論述其合理性,則試驗結論就擁有了統(tǒng)計學和生物學的雙重證據(jù),說服力大大增加。這方面例子可以參閱文獻[11]。

        統(tǒng)計分析的結論是否符合客觀,是否有用,除上述因素外,還取決于試驗數(shù)據(jù)的信息量是否充足。信息量不足常常會得出違背客觀的結論。統(tǒng)計方法在一定程度上能夠排除偶然現(xiàn)象的干擾,獲得對事物本質(zhì)的認識。這個“程度”的大小,取決于試驗數(shù)據(jù)的信息量。信息量越大,試驗結論就越能夠揭示事物的本質(zhì)。當比較兩個總體的平均數(shù)(不妨假定二者不相等)時,如果試驗數(shù)據(jù)的信息量足夠大(此處指試驗誤差小和重復次數(shù)多),則獲得“顯著”結論的可能性就高,否則,信息量不足,就可能獲得“不顯著”結論。又如,在區(qū)間估計中,區(qū)間長度決定了估計的精度,置信度則反映估計的把握大小。在一定的置信度下,如90%,信息量不足(此處指試驗誤差大和重復次數(shù)少)造成區(qū)間太寬,失去實用價值。

        3 統(tǒng)計方法的選擇

        一般統(tǒng)計咨詢都習慣于基于統(tǒng)計理論提出統(tǒng)計方法的適用情形,本文嘗試根據(jù)試驗研究任務提出統(tǒng)計方法建議。

        3.1 單個處理(樣本)的統(tǒng)計分析

        單樣本的統(tǒng)計分析工具最為豐富[5],根據(jù)研究目標,可以選擇的分析內(nèi)容包括:總體分布類型(如正態(tài)、二項、負二項、泊松、指數(shù)、韋布爾等)檢驗,均值、方差、偏度、峰度、變異系數(shù)等參數(shù)檢驗與區(qū)間估計,樣本容量估計,數(shù)據(jù)的可視化展示(如直方圖、莖葉圖、盒形圖),如此等等。

        3.2 兩個處理比較試驗的統(tǒng)計分析

        兩個處理無配對數(shù)據(jù)進行t-檢驗,應先做F-檢驗以判斷方差同質(zhì)性。若同質(zhì),則用等方差t-檢驗,否則用異方差的t-檢驗。t-檢驗要求響應變量符合正態(tài)分布,不符合正態(tài)性假定的數(shù)據(jù),要使用適合于離散型響應變量的非參數(shù)統(tǒng)計。

        對于2×2和2×R列聯(lián)表,建議使用Fisher氏精確檢驗,不使用卡方檢驗??ǚ綑z驗只是精確檢驗的近似,精度隨期望次數(shù)而減小,期望次數(shù)小于5時效果很差。

        兩處理數(shù)據(jù)不僅要進行差異顯著性檢驗,有條件時還要進行區(qū)間估計,后者更容易理解、更全面。針對兩個處理的均值比較的情形,表2羅列了不同試驗數(shù)據(jù)性質(zhì)和響應變量性質(zhì)對應的統(tǒng)計方法,供大家參考。

        表2 響應變量性質(zhì)影響兩個處理均值比較方法的選擇Tab. 2 Effect of response variables on the selection of comparison methods for 2 treatments of average

        上述方法適用于兩個處理間均值比較。若比較它們的方差,則在響應變量服從或者可以變換為正態(tài)分布時,用F-檢驗。否則,使用Levene檢驗。

        3.3 多個處理比較試驗的統(tǒng)計分析

        當處理水平是連續(xù)型變量的不同值時,應當進行回歸分析和相關分析。若響應變量也是連續(xù)型變量,則先繪制散點圖觀察變化趨勢,再根據(jù)專業(yè)理論或者散點圖趨勢選擇直線回歸還是曲線回歸,以及曲線的類型。經(jīng)典的線性回歸假定自變量沒有誤差,這在某些場合下并不符合事實,例如,利用土壤速效氮含量預測作物產(chǎn)量的線性回歸問題,土壤氮濃度就有誤差。此時,應該使用回歸的測量誤差模型或者EIV模型[12]。特別地,若響應變量是非正態(tài)的,則不宜使用常見的直線相關分析,而應當作秩相關分析等非參數(shù)檢驗。若響應變量是離散型變量,可以進行判別分析,或者進行l(wèi)ogistic回歸分析。對于非正態(tài)數(shù)據(jù),還可以考慮采用廣義線性模型(見下節(jié)詳述)。

        當處理水平可以看作是離散型變量的不同取值時,若響應變量是連續(xù)型變量,進行方差分析;若響應變量是離散型變量,則進行卡平方檢驗。

        在選擇處理均值的多重比較方法時,應當避免使用國內(nèi)常用的Duncan檢驗,因為它只控制比較水平的第一類錯誤率,卻不能控制整體水平的第一類錯誤率,容易出現(xiàn)假顯著,國際上有的學術雜志甚至禁止論文使用該方法。對于正態(tài)分布的響應變量,單一自由度比較法適用于早在試驗設計時就列入計劃的正交對比,Dunnett法適用于檢驗對照與每個處理的差異,Hsu法適用于檢驗比較每個處理與剩余處理中最好者的差異,Tukey法適用于檢驗任意兩個處理之間的差異。上述次序也是各種方法檢驗功率由大到小的順序。非正態(tài)分布的連續(xù)型響應變量可以使用Kruskal-Wallis檢驗或者Dunn檢驗進行多重比較[5]。

        比較多個處理的方差是否相等,即所謂的方差齊性檢驗,在煙草中有重要應用,因為均勻性(方差越小均勻性越好)是煙草工業(yè)的重要質(zhì)量指標,而且許多統(tǒng)計方法諸如方差分析、回歸分析、主成分分析、判別分析等都要求滿足方差齊性假定。若響應變量符合正態(tài)分布,則使用Bartlett檢驗方差齊性,否則,使用Levene檢驗。國內(nèi)常用的Bartlett檢驗對非正態(tài)性非常敏感,效果不理想(實際的第一類錯誤概率大于名義顯著性水平)。

        3.4 多因素試驗的統(tǒng)計分析

        對于多因素多水平試驗結果(全部試驗因素、區(qū)組,以及附加的或者隱含的觀測變量都是解釋變量)的統(tǒng)計分析,國內(nèi)常見教科書介紹的各種試驗設計的方差分析,實際上只適用于響應變量符合正態(tài)分布的情形。若有連續(xù)型解釋變量,則多元回歸分析、協(xié)方差分析、通用線性模型分析更有效,能夠提供更豐富信息。表3概括了此類試驗數(shù)據(jù)針對響應變量和解釋變量組合可供選擇的主要統(tǒng)計方法。

        表3 多因素試驗的響應變量和解釋變量組合對統(tǒng)計方法選擇的影響Tab. 3 Effect of response and explanatory variables in multi-factor experiments on the selection of statistical methods

        計算機性能的快速提升為復雜試驗數(shù)據(jù)分析技術的廣泛應用提供了必要條件,反過來促進了統(tǒng)計分析技術的進步,近年來發(fā)展迅速的廣義線性模型(Generalized linear model)就是一例。目前廣義線性模型分析可以應用于符合下列指數(shù)族分布的響應變量:正態(tài)、指數(shù)、珈馬、逆高斯、泊松、二項式、多項式。在此情形下,經(jīng)典的多元回歸分析、協(xié)方差分析、通用線性模型只是廣義線性模型的特例[13-14]。

        煙草學研究經(jīng)常需要在不同時間對同一小區(qū)或者植株進行重復測量。例如,煙葉采收期長達6~12周,需要多次采收。這就是所謂的重復測量現(xiàn)象(Repeated measures),國內(nèi)農(nóng)學類統(tǒng)計教科書稱之為時間裂區(qū)。重復測量可以看作為一個隱含的試驗因素,屬于解釋變量。對于含有重復測量的數(shù)據(jù),建議不再按時間裂區(qū)進行分析,而使用專門的分析方法,因為后者提供了非常豐富的分析選項,如復合對稱、一階自回歸、非均質(zhì)自回歸、非確定結構和收斂的Toeplitz等[15],從而能夠獲得更客觀的結果。

        3.5 多個試驗的聯(lián)合分析

        相同的試驗方案,在不同地點和年份或者季節(jié)實施,得到大量的數(shù)據(jù)。對這些數(shù)據(jù)進行聯(lián)合分析,除增加誤差自由度,提高分析精度外,還可以剖析地點或者年份效應,以及它們與試驗因素的互作,加深對響應變量變化規(guī)律的認識,擴大試驗結論的適用范圍。在聯(lián)合分析之前,先要解決方差齊性問題。

        首先,進行單個試驗的分析,獲得每個試驗的誤差方差,然后,進行方差齊性檢驗(亦稱同質(zhì)性檢驗)。若符合齊性假定,則進行聯(lián)合分析,否則,通過適當數(shù)據(jù)轉換,直至符合要求后再進行聯(lián)合分析,或者選擇能夠分析異質(zhì)方差數(shù)據(jù)的方法。

        若要進行方差分析,還必須先明確地點和年份的效應類型。生物學試驗的年份一般都是隨機效應,地點或為固定效應(當結論應用范圍局限于參試地點時),或為隨機效應(當結論推廣至更多地點時,參試地點只是全部地點集合的一個子集)。

        4 結束語

        煙草學研究內(nèi)容包羅萬象,相應的數(shù)據(jù)分析需求也非常多,國內(nèi)常見農(nóng)學類生物統(tǒng)計學書籍中介紹的統(tǒng)計方法在滿足這些需求方面已經(jīng)發(fā)揮了很大作用,但是,其中絕大多數(shù)方法因正態(tài)性假定而受到很大應用限制,所幸現(xiàn)代統(tǒng)計學和計算機軟件的極速發(fā)展為我們突破這種限制提供了非常豐富的選擇。本文從響應變量和解釋變量角度入手,依據(jù)研究處理和試驗任務的復雜程度不同,分別介紹了如何選擇各種適宜的統(tǒng)計分析方法,特別是各種新技術的應用場合,強調(diào)了統(tǒng)計診斷對于正確分析試驗數(shù)據(jù)的重要性。此外,還分析了多年來從事生物統(tǒng)計學教學和咨詢中發(fā)現(xiàn)的共性問題,希望生物統(tǒng)計學這一研究工具在煙草學研究中能夠發(fā)揮更大作用。本文僅僅展示了適用于煙草學研究統(tǒng)計方法的冰山一角,側重于單個響應變量數(shù)據(jù)的分析,關于多個響應變量數(shù)據(jù)的分析問題將另文專門介紹。

        [1]Nieuwenhuis S, Forstmann B U, Wagenmakers E J.Erroneous analyses of interactions in neuroscience: a problem of significance[J]. Nature Neuroscience, 2011,14:1105-1107.

        [2]Koenker R, Bassett J G. Regression quantiles [J].Econometric, 1978, 46: 33-50.

        [3]Koenker R, Portnoy S, Tian P, et al. Quantreg: Quantile Regression [M]. R package version 5. New York:Cambridge University Press, 2013.

        [4]Efron B. Bootstrap Methods: Another Look at the Jackknife[J]. The Annals of Statistics, 1979, 7 (1): 1-26.

        [5]茆詩松. 統(tǒng)計手冊[M]. 北京:科學出版社,2006.

        [6]趙春明,韓仲志,楊錦忠,等. 玉米果穗DUS性狀測試的圖像處理應用研究[J]. 中國農(nóng)業(yè)科學, 2009, 42(11):4100-4105.

        [7]楊錦忠,宋希云. 煙草學術論文的統(tǒng)計學表達與展示[J].中國煙草學報, 2013,19 (4):114-118.

        [8]楊錦忠,陳明利,張洪生. 中國1950s到2000s玉米產(chǎn)量-密度關系的Meta分析[J]. 中國農(nóng)業(yè)科學, 2013, 46 (17):3562-3570.

        [9]楊錦忠,張洪生,杜金哲. 玉米產(chǎn)量-密度關系年代演化趨勢的Meta分析[J]. 作物學報, 2013, 39 (3):515-519.

        [10]Fleiss J L. The statistical basis of meta-analysis [J].Statistical Methods in Medical Research, 1993, 2: 121-145.

        [11]楊錦忠,張洪生,趙延明,等. 玉米穗粒重與果穗三維幾何特征關系的定量研究[J].中國農(nóng)業(yè)科學, 2010,43(21):4367-4374.

        [12]Fuller W A. Measurement Error Models [M]. New York:John Wiley & Sons, 1987.

        [13]Hardin J, Hilbe J. Generalized Linear Models and Extensions [M]. College Station: Stata Press, 2007.

        [14]費宇. 線性和廣義線性混合模型及其統(tǒng)計診斷[M]. 北京:科學出版社, 2013.

        [15]盧紋岱. SPSS統(tǒng)計分析[M]. 4 ed.北京:電子工業(yè)出版社,2010.

        Guides to statistical techniques for single response variables in tobacco science research

        YANG Jinzhong, SONG Xiyun
        Shandong Provincial Key Laboratory of Dry Farming Techniques, Qingdao Agricultural University, Qingdao 266109, China

        Responsible selection of statistical techniques is one of the key factors in tobacco science research. Principles and requirements for selection and use of statistical techniques were introduced according to combinations and features of both response and explanatory variables, with focus on significance of statistical diagnosis option. Such new statistical methods as random simulation of missing values,repeated measures, robust regression, quantile regression, generalized linear models, bootstrap techniques, meta-analysis and measurement error models were also discussed as to when and where they can be applied by tobacco research professionals.

        response variable; explanatory variable; statistical method selection; statistical analysis procedure; statistical diagnosis;statistical guide

        10.3969/j.issn.1004-5708.2014.04.020

        O29 文獻標志碼:A 文章編號:1004-5708(2014)04-0108-07

        泰山學者崗位(20090510); 山東省旱地作物水分高效利用創(chuàng)新團隊(20121025)

        楊錦忠(1963—),教授,從事數(shù)字農(nóng)業(yè)研究,Email:jzyang@qau.edu.cn

        宋希云(1961—),教授,從事作物遺傳育種研究,Tel: 0532-86080009, Email: songxy@qau.edu.cn

        2013-10-12

        猜你喜歡
        煙草分析方法
        煙草具有輻射性?
        隱蔽失效適航要求符合性驗證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        煙草依賴的診斷標準
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        煙草中茄酮的富集和應用
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        日本高清www午色夜高清视频| 亚洲精品乱码久久久久久| 中文字幕乱码高清完整版| 亚洲av无码第一区二区三区| 国产精品国产三级在线高清观看| 一区二区视频资源在线观看| 极品人妻少妇av免费久久| 粉嫩被粗大进进出出视频| 少妇三级欧美久久| 久久午夜伦鲁鲁片免费| 精品露脸熟女区一粉嫩av| 久久精品国产免费观看| 国产激情对白一区二区三区四| 中文字幕日本女优在线观看| 不卡av网站一区二区三区| 毛片无码国产| 欧美在线综合| 日本女优中文字幕四季视频网站| 日本一区二区三区视频网站| 中文字幕一区二区三区乱码| 欧洲一区在线观看| 日本av一区二区在线| 亚洲香蕉成人av网站在线观看| 天天干成人网| 人妻丰满熟妇av一区二区| 激情五月开心五月麻豆| 999国内精品永久免费观看 | 国产成人亚洲综合无码精品| 97超碰中文字幕久久| 亚洲乱码无人区卡1卡2卡3| 少妇寂寞难耐被黑人中出| AV熟妇导航网| 国产激情在线观看免费视频| 色一情一乱一伦| 亚洲欧美日韩综合在线观看| 97超碰中文字幕久久| 欧美大胆性生话| 国产av国片精品| 亚洲综合精品在线观看中文字幕| 亚洲精品国产精品乱码视色| 免费无码一区二区三区蜜桃大|