于向鴻 肖陽
摘要對(duì)缺失原始數(shù)據(jù)的數(shù)據(jù)資料進(jìn)行了方差分析。從方差分析的基本原理入手,對(duì)基本統(tǒng)計(jì)數(shù)據(jù)進(jìn)行反向推理,得到處理間和誤差項(xiàng)的各項(xiàng)離差平方和、自由度以及均方,從而可以實(shí)現(xiàn)缺失原始數(shù)據(jù)下的方差分析,并編寫了SAS程序予以實(shí)現(xiàn)整個(gè)計(jì)算和方差分析過程。
關(guān)鍵詞方差分析;缺失原始數(shù)據(jù);二次數(shù)據(jù);SAS
中圖分類號(hào)O212 文獻(xiàn)標(biāo)識(shí)碼A文章編號(hào)0517-6611(2017)08-0014-02
Research on the One Way Analysis of Variance with the Loss of Original Data
YU Xianghong, XIAO Yang
(Statistics Office, Graduate School of the Chinese Academy of Agricultural Sciences, Beijing 100081)
AbstractWe completed the analysis of variance without original data. Based on principle of analysis of variance and basic statistics, it was carried out mathematic deduction to obtain sum of square, degree of freedom and mean square of errors and treatments, so analysis of variance could be accomplished in the condition of loss original data. In the end, SAS procedure was programmed to realize the whole process of calculation.
Key wordsANOVA;The loss of original data;Second data;SAS
方差分析(Analysis of Variance,簡(jiǎn)稱ANOVA)是英國統(tǒng)計(jì)學(xué)家Fisher首次在科學(xué)試驗(yàn)中提出的數(shù)據(jù)分析方析,是一種重要的科研數(shù)據(jù)的基本統(tǒng)計(jì)分析方法,目前在農(nóng)業(yè)和生物學(xué)等領(lǐng)域有著廣泛的應(yīng)用[1-2]。
方差分析法就是利用方差的可分解性,從總變異中分解出組間(處理)變異和組內(nèi)(重復(fù))變異,并把組間變異與組內(nèi)變異進(jìn)行對(duì)比,進(jìn)行顯著性檢驗(yàn),從而得到各個(gè)處理之間的真實(shí)差異[3]。
在科學(xué)研究領(lǐng)域,由于時(shí)代變遷、人員更替等原因?qū)е略伎蒲袛?shù)據(jù)丟失,或者公開發(fā)表的學(xué)術(shù)論文中沒有原始數(shù)據(jù),而只有各處理的均值、標(biāo)準(zhǔn)差或者標(biāo)準(zhǔn)誤以及重復(fù)數(shù)等基本統(tǒng)計(jì)數(shù)據(jù),這樣的數(shù)據(jù)也被稱作二次數(shù)據(jù),數(shù)據(jù)中大量的原始細(xì)節(jié)信息已經(jīng)丟失,要對(duì)其進(jìn)行方差分析較難。
方差分析中最簡(jiǎn)單、最常見的是單因素方差分析[4],所有復(fù)雜的方差分析在基本原理上等同于單因素方差分析,筆者以常見的單因素方差分析為例(以下提到的方差分析均指單因素方差分析),通過對(duì)方差分析基本原理的分析,對(duì)均值、重復(fù)數(shù)和標(biāo)準(zhǔn)差數(shù)據(jù)進(jìn)行了反向推算,最終得到各項(xiàng)的離差平方和、自由度以及均方,實(shí)現(xiàn)了缺失原始數(shù)據(jù)的方差分析。
1方差分析的基本原理
1.1單因子試驗(yàn)概述
單因子試驗(yàn)為只考慮1個(gè)試驗(yàn)因子對(duì)試驗(yàn)指標(biāo)產(chǎn)生影響的試驗(yàn),是最常見、最簡(jiǎn)單的科學(xué)試驗(yàn)[5]。記因子為A,有r個(gè)水平:A1,A2,…,Ar,此處也稱為r個(gè)處理。又設(shè)在Ai水平下重復(fù)進(jìn)行mi次試驗(yàn),i=1,2,…,r,總試驗(yàn)處理數(shù)n=m1+m2+…+mr。記yij為因子A在第i個(gè)水平下第j次試驗(yàn)的觀測(cè)值,則它的總平均值為:
=1nri=1mij=1yij=1nri=1mii(1)
式中,i為水平Ai下mi次重復(fù)試驗(yàn)的均值。
1.2離差平方和的計(jì)算
這n個(gè)數(shù)據(jù)的變異來源用離差平方和SST來表示:
SST=ri=1mij=1(yij-)2(2)
利用代數(shù)運(yùn)算可將SST分解為2個(gè)離差平方和:
SST=ri=1mij=1(yij-i)2+ri=1mi(i-)2(3)
式中,第1個(gè)離差平方和稱為組內(nèi)平方和,又稱誤差平方和,記為SSe;第2個(gè)離差平方和稱為組間平方和或因子A的平方和,記為SSA。則有:
SSe=ri=1mij=1(yij-i)2(4)
SSA=ri=1mi(i-)2(5)
SST=SSA+SSe(6)
1.3自由度的計(jì)算
總自由度dfT=n-1,因子A的自由度dfA=r-1,誤差項(xiàng)的自由度:
dfe=ri=1(mi-1)(7)
滿足等式:
dfT=dfA+dfe(8)
1.4均方的計(jì)算
因子A的均方MSA和誤差項(xiàng)的均方MSe分別為:
MSA=SSAdfAMSe=SSedfe(9)
取F統(tǒng)計(jì)量為因子A的均方與誤差項(xiàng)的均方之比:
F=MSAMSe(10)
則此F統(tǒng)計(jì)量服從第一自由度為dfA,第二自由度為dfe的F分布。
1.5方差分析表
根據(jù)方差分析的基本原理,即可在0.05的顯著性水平下對(duì)F統(tǒng)計(jì)量進(jìn)行檢驗(yàn)[6],得到方差分析表(表1)。
2缺失原始數(shù)據(jù)的方差分析
對(duì)于原始數(shù)據(jù)缺失的科研數(shù)據(jù),通常只給出各處理(即
因子A的水平)的均值、標(biāo)準(zhǔn)差(或方差)或均值的標(biāo)準(zhǔn)誤以及重復(fù)數(shù)。標(biāo)準(zhǔn)差、方差和標(biāo)準(zhǔn)誤之間可以相互換算,只要知道其中任何1項(xiàng)即可得出其他2項(xiàng),通常給出的是標(biāo)準(zhǔn)差。該研究以數(shù)據(jù)給出各處理(r個(gè)處理)的均值i、標(biāo)準(zhǔn)差Si和重復(fù)數(shù)mi(i=1,2,…,r)為例進(jìn)行分析,方差分析的所有統(tǒng)計(jì)量都可以由這幾個(gè)基本統(tǒng)計(jì)量計(jì)算得到。
2.1離差平方和的計(jì)算
對(duì)于給定的標(biāo)準(zhǔn)差Si,首先取平方轉(zhuǎn)換成方差S2i。首先需進(jìn)行總平均值的計(jì)算,總平均值其實(shí)質(zhì)為各處理的加權(quán)平均值:
=1nri=1mii=ri=1miiri=1mi(11)
計(jì)算因子A的離差平方和,其實(shí)質(zhì)為加權(quán)的離差平方和:
SSA=ri=1mi(i-)2(12)
計(jì)算誤差項(xiàng)的離差平方和:
SSe=ri=1mij=1(yij-)2
=ri=1(mi-1)S2i(13)
2.2自由度的計(jì)算
因子A的自由度dfA=r-1,誤差項(xiàng)的自由度dfe=ri=1(mi-1),總自由度dfT=ri=1mi-1。
2.3均方的計(jì)算
計(jì)算因子A的均方:
MSA=SSAdfA=1r-1ri=1mi(i-)2(14)
計(jì)算誤差項(xiàng)的均方:
MSe=SSedfe=ri=1(mi-1)S2iri=1(mi-1)(15)
3方差分析計(jì)算實(shí)例
3.1實(shí)例
考察3種不同配方的飼料(因子A)對(duì)豬的育肥效果[7],試驗(yàn)指標(biāo)為豬的日增重(y,單位g),每種飼料飼喂5頭豬,但由于參與第3種飼料試驗(yàn)的1頭豬因病中途退出試驗(yàn),只剩下4頭豬完成試驗(yàn)。由于某種原因,原始試驗(yàn)數(shù)據(jù)缺失,最后只有3種飼料育肥試驗(yàn)的重復(fù)數(shù)、平均日增重和日增重的標(biāo)準(zhǔn)差,試驗(yàn)數(shù)據(jù)如表2所示。
對(duì)上述試驗(yàn)數(shù)據(jù)中3種飼料間育肥效果是否存在顯著差異進(jìn)行方差分析。
3.2方差分析結(jié)果
根據(jù)公式(11)~(15),可以計(jì)算試驗(yàn)因子(飼料A)和誤差項(xiàng)(e)的自由度、離差平方和、均方以及F統(tǒng)計(jì)量和其顯著性P值,可得到如下方差分析表(表3)。
方差分析結(jié)果顯示,F(xiàn)=6.041 6,P=0.017,在0.05顯著性水平下,P=0.017(<0.05),表明3種飼料(因子A)間對(duì)豬的育肥效果存在顯著差異,還可以進(jìn)一步進(jìn)行3種飼料育肥效果均值的多重比較[8]。
4結(jié)論與討論
通過對(duì)方差分析基本原理進(jìn)行剖析和推導(dǎo),以平均值、標(biāo)準(zhǔn)差以及重復(fù)數(shù)等數(shù)據(jù)為基礎(chǔ)進(jìn)行計(jì)算,最終可以得到處理間和誤差項(xiàng)的各項(xiàng)離差平方和、自由度以及均方,從而可以實(shí)現(xiàn)缺失原始數(shù)據(jù)一樣的方差分析,使二次數(shù)據(jù)得到充分利用。
同時(shí)運(yùn)用該方法,對(duì)于公開發(fā)表的學(xué)術(shù)論文里的方差
分析結(jié)果,在沒有原始數(shù)據(jù)的情況下也可以進(jìn)行方差分析的核驗(yàn)。
該研究只對(duì)最常見、最簡(jiǎn)單的單因素方差分析進(jìn)行了分析和推導(dǎo),得到了缺失原始數(shù)據(jù)的方差分析,而對(duì)于其他更復(fù)雜的方差分析在原理上相同,也可以進(jìn)行類似的分析[10]。
對(duì)于試驗(yàn)指標(biāo)的均值的多重比較,因?yàn)檎`差項(xiàng)的均方已經(jīng)得到,相對(duì)就較為簡(jiǎn)單,需要進(jìn)行下一步的均值多重比較即可得到[11],該研究不再贅述。
結(jié)合科研上的實(shí)例,運(yùn)用強(qiáng)大SAS軟件[12]進(jìn)行編程,實(shí)現(xiàn)了缺失原始數(shù)據(jù)的方差分析的 SAS程序[13],大大簡(jiǎn)化了分析過程,極大地提高了計(jì)算效率和準(zhǔn)確性。
參考文獻(xiàn)
[1] 郭萍.單因素方差分析在數(shù)理統(tǒng)計(jì)中的應(yīng)用[J].長春大學(xué)學(xué)報(bào),2014,24(10):1370-1373.
[2] 高卓.單因素方差分析應(yīng)用的實(shí)證研究[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,30(3):4-6.
[3] 阮敬.SAS統(tǒng)計(jì)分析從入門到精通[M].北京:人民郵電出版社,2009:53-54.
[4] 劉加妹,彭景楩.生物實(shí)驗(yàn)數(shù)據(jù)的單因素方差分析[J].動(dòng)物學(xué)雜志,2001,36(6):34-37.
[5] 茆詩松,周紀(jì)薌,陳穎.試驗(yàn)設(shè)計(jì)[M].北京:中國統(tǒng)計(jì)出版社,2004:13-22.
[6] 蓋鈞鎰.試驗(yàn)統(tǒng)計(jì)方法[M].北京:中國農(nóng)業(yè)出版社,2006:101-103.
[7] MIROSLAV K,LAMBERSON W R.Biostatistics for Animal Science[M].Cambridge:CABI Publishing,2004:212-226.
[8] 高惠璇.實(shí)用統(tǒng)計(jì)方法與SAS系統(tǒng)[M].北京:北京大學(xué)出版社,2001:43-46.
[9] 胡小平,王長發(fā).SAS基礎(chǔ)及統(tǒng)計(jì)實(shí)例教程[M].西安:西安地圖出版社,2001:116-122.
[10] 高惠璇.SAS系統(tǒng):SAS/STAT軟件使用手冊(cè)[M].北京:中國統(tǒng)計(jì)出版社,1997:250-263.
[11] SAS Institute Inc.Statistic II:ANOVA and Regression[M].Kerry,USA:SAS Institute Inc.,2005:156-161.
[12] 夏坤莊,徐唯,潘紅蓮.深入解析SAS:數(shù)據(jù)處理、分析優(yōu)化與商業(yè)應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2014:334-340.
[13] 劉榮.SAS統(tǒng)計(jì)分析與應(yīng)用實(shí)例[M].北京:電子工業(yè)出版社,2013:56-58.