陳壽雨
【摘要】針對統(tǒng)計學(xué)教學(xué)過程中有關(guān)方差分析教學(xué)內(nèi)容的重點和難點問題,通過結(jié)合一個具體的例子來講解方差分析的概念、原理和前提條件等知識點,有助于克服方差分析教學(xué)內(nèi)容較為抽象、理論性較強的難點,從而更好地幫助學(xué)生理解和掌握方差分析的知識。
【關(guān)鍵詞】統(tǒng)計學(xué)、教學(xué)方法? 方差分析(ANOVA )? 萊文方差等同性檢驗
一、引言
方差分析是一種常用的統(tǒng)計分析方法,屬于統(tǒng)計學(xué)教學(xué)中的重點和難點之一。從統(tǒng)計方法上課,方差分析是較為復(fù)雜的一種假設(shè)檢驗的方法,回歸分析的結(jié)果中也涉及到方差分析的內(nèi)容,所以對學(xué)習(xí)統(tǒng)計學(xué)課程的學(xué)生來說,正確理解和掌握方差分析的思想和原理顯然非常重要。但從授課教師的角度,一些教師往往會發(fā)現(xiàn)方差分析的內(nèi)容不好講,也講不好,無法讓學(xué)生較好地理解方差分析的原理。本文基于筆者多年統(tǒng)計學(xué)課程教學(xué)的經(jīng)驗總結(jié),圍繞方差分析的概念、原理和前提條件等教學(xué)內(nèi)容,與同行探討教學(xué)方法。
二、方差分析的概念
方差分析(Analysis of Variance,縮寫為ANOVA),是由英國統(tǒng)計與遺傳學(xué)家,現(xiàn)代統(tǒng)計科學(xué)的奠基人之一,R.A.Fisher發(fā)明的,用于檢驗多個總體均值是否全相等的一種統(tǒng)計推斷方法。例如,一個國家不同地區(qū)的成年男性平均身高是否相等呢?對于該問題的分析就可以使用方差分析的方法。假設(shè)該國分為北部、中部和南部等三個區(qū)域,成年男性平均身高分別用來表示,則相應(yīng)零假設(shè)和備擇假設(shè)為:
H0:μ1=μ2=μ3? ?H1:μj不相等,j=1,2,3
如果最后零假設(shè)無法被拒絕,可以得出三個地區(qū)成年男性的平均身高不存在顯著差異,即地區(qū)因素對身高沒有影響;反之,如果最后拒絕零假設(shè),從而支持被擇假設(shè),則可以得出三個地區(qū)成年男生的平均身高存在顯著差異,至少有一個地區(qū)的平均身高與另一個地區(qū)不一樣,說明地區(qū)因素對身高有影響。因此,方差分析也可以用于研究一個自變量(通常為分類變量)對別一個變量(數(shù)值變量)是否有影響的問題。如果只涉及到一個自變量,該方差分析方法稱為單因素方差分析,涉及兩個自變量則稱為雙因素方差分析。本文主要圍繞單因素方差分析的教學(xué)。方差分析的名稱容易造成學(xué)生的誤解,使一些學(xué)生誤認為方差分析是比較多個總體方差。其實,方差分析是用來比較總體均值是否相同的,但由于使用計算“方差”的方法,故把該方法稱作方差分析。
三、方差分析的原理
為了比較多個總體的均值是否相等,方差分析將通過計算樣本數(shù)據(jù)的方差大小進行判斷。假設(shè)在北部、中部和南部分別隨機、獨立地抽取一定樣本容量的樣本,這里為了便于分析,從三地分別抽取3名成年男性,樣本容量為9,并記錄身高的樣本數(shù)據(jù),如下圖所示。
方差分析就是比較樣本數(shù)據(jù)中北部、中部和南部這三組數(shù)據(jù)的組間方差和各組數(shù)據(jù)的組內(nèi)方差的大小,并構(gòu)造F檢驗統(tǒng)計量進行檢驗。組間方差度量樣本數(shù)據(jù)中組與組之間的變異,從數(shù)據(jù)結(jié)構(gòu)的角度看表現(xiàn)為數(shù)據(jù)的橫向差異。造成組間數(shù)據(jù)變異有兩個因素,一個是地區(qū)因素,另一個是隨機因素。組內(nèi)方差度量樣本數(shù)據(jù)中各組內(nèi)部的數(shù)據(jù)變異,是由于抽樣的隨機性導(dǎo)致,表現(xiàn)為數(shù)據(jù)的縱向差異。如果組間數(shù)據(jù)的方差明顯地超過組內(nèi)數(shù)據(jù)的方差,很可能表明地區(qū)因素會顯著影響成年男性的身高,從而不同地區(qū)成年男性的平均身高存在差異。
為了計算組間方差(MSA),需要先求組間平方和(SSA)和相應(yīng)的自由度(C-1),其中C為組數(shù),這里為3。組間方差等于組間平方和與相應(yīng)自由度的比值。
MSA=
組間平方和用每組的均值與所有數(shù)據(jù)的均值之差的平方再乘以該組觀測值的個數(shù)來表示。組間平方和越大,說明各組之間的數(shù)據(jù)差異越大,當(dāng)然如果組數(shù)越多組間平方和也會越大,因此這里不用直接用平方和直接進行比較。
為了計算組內(nèi)方差(MSW),需要先求組內(nèi)平方和(SSW)和相應(yīng)的自由度(N-C),其中N為所有觀測值的個數(shù),這里為9。組內(nèi)方差等于組內(nèi)平方和與相應(yīng)自由度的比值。
MSA=
組內(nèi)平方和用每組的觀測值與該組數(shù)據(jù)的均值之差的平方和來表示。組內(nèi)平方和越大,說明各組內(nèi)部的數(shù)據(jù)差異越大,當(dāng)然如果各組的觀測值越多,則組內(nèi)平方和也會越大。
有了組間方差和組內(nèi)方差,就可以造成出F檢驗統(tǒng)計量,再與臨界值比較,可以就以做出統(tǒng)計決策。
FSTAT=
其中,服從分子自由度為C-1,分母自由度為N-C的F分布,其臨界值可以在指定顯著性水平下通過查表獲得。
在樣本量較大情況下,手工計算顯然耗時耗力,方差分析的相關(guān)
算一般需要通過統(tǒng)計軟件來完成。以下是用EXCEL進行方差分析的輸出結(jié)果。
EXCEL共輸出2個表格,第一個表格是對樣本數(shù)據(jù)進行描述分析,從中可以發(fā)現(xiàn)各組觀測值的個數(shù)、均值和方差。第二個表格為方差分析的結(jié)果。方差分析把數(shù)據(jù)的差異區(qū)分為組間差異和組間差異,SS為平方差,從表中可以SSA=0.020,SSW=0.018,df為自由度,組間平方和對應(yīng)的自由度C-1=2,組內(nèi)平均和對應(yīng)的自由度為N-C=6。MS為均方,組間均方MSA=0.010,組內(nèi)均方MSW=0.003。F為檢驗統(tǒng)計量,其值為MSA/MSW=3.307。在0.05顯著性水平下,F(xiàn)的臨界值約為5.14。如果使用P值法進行假設(shè)檢驗,EXCEL也給了相應(yīng)的P值,約為0.108。根據(jù)EXCEL單因素方差分析的輸出結(jié)果,不管使用臨界值還是P值法,在0.05的顯著性水下,我們都可以得出不拒絕零假設(shè)的結(jié)論,即三個地區(qū)成年男性的平均身高不存在顯著差異,同時也表明地區(qū)因素沒有顯著地影響成年男生的身高。
四、方差分析的前提條件
在統(tǒng)計方法的教學(xué)過程中,都要強調(diào)使用某種統(tǒng)計方法的前提假設(shè)條件,如果條件滿足,就不能使用相應(yīng)的統(tǒng)計方法。在方差分析的教學(xué)過程中,同樣需要強調(diào)方差分析的三個前提假設(shè),即樣本是隨機、獨立抽樣的,每個總體是正態(tài)分布并且方差相等。其中抽樣的隨機性和獨立性相對容易做到,總體是否為正態(tài)分布可以通過直方圖等方法進行判斷。最后總體方差相等是一個非常重要的條件,如果該條件不滿足,就不能進行方差分析。如果各總組(各組)本身方差大小存在顯著差異,就不能從數(shù)據(jù)中發(fā)現(xiàn)由于地區(qū)因素造成的數(shù)據(jù)變異到底有多大。關(guān)于總體同方差假設(shè)是否成立可能用萊文方差等同性檢驗來解決。
萊文方差等同性檢驗第一步是對各組樣本數(shù)據(jù)排序,找中位數(shù);第二步計算各組觀測值與其中位數(shù)之差的絕對值;第三步對絕對值做單因素方差分析;第四步得出結(jié)論。
根據(jù)萊文方差等同性檢驗的EXCEL輸出結(jié)果,可以得出三個地區(qū)成年男性身高的方差不存在顯著差異,可以進行方差分析。
五、小結(jié)
針對統(tǒng)計學(xué)課程教學(xué)中相關(guān)方差分析的內(nèi)容較為抽象、理論性較強的特點,為了幫助學(xué)生更好地掌握方差分析的知識,筆者通過多輪的教學(xué)實踐,認為從具體例子出發(fā),進行啟發(fā)示教學(xué),比起一開始就講授方差分析的理論知識,能更利于學(xué)生的理解和掌握方差分析的內(nèi)容。
參考文獻:
[1]萊文.商務(wù)統(tǒng)計學(xué)[M].中國人民大學(xué)出版社, 2017.
[2]安德森.經(jīng)濟與商務(wù)統(tǒng)計[M]. 機械工業(yè)出版社, 2017.
[3]賈俊平.統(tǒng)計學(xué)[M]. 中國人民大學(xué)出版社, 2018.