高卓
(華南農(nóng)業(yè)大學(xué)珠江學(xué)院,廣東 廣州 510900)
單因素方差分析應(yīng)用的實證研究
高卓
(華南農(nóng)業(yè)大學(xué)珠江學(xué)院,廣東 廣州 510900)
單因素方差分析用于完全隨機(jī)設(shè)計的多個樣本均值間的比較,其統(tǒng)計推斷是推斷各樣本所代表的各總體均值是否相等.通過實例來完成單因素方差分析,并分析了單因素方差分析的優(yōu)點(diǎn)和缺點(diǎn).
單因素方差分析;總體;均值
20世紀(jì)20年代英國統(tǒng)計學(xué)家R.A.Fisher首次引入方差分析,它是通過分析數(shù)據(jù)的誤差來源檢驗多個總體的均值是否相同,也就是給出一個或多個自變量對因變量是否獨(dú)立的初步判斷.可以根據(jù)自變量的個數(shù)將方差分析分為單因素方差分析和雙因素方差分析.方差分析的理論簡單,但計算量相對比較大,然而隨著計算機(jī)的迅速發(fā)展,方差分析日顯其優(yōu)勢,在經(jīng)濟(jì)學(xué)、生物學(xué)、醫(yī)藥學(xué)、社會學(xué)等多方面都得到了廣泛應(yīng)用.
為了方便,先看一個實例,表1是2011級某班一二年級的高等數(shù)學(xué)(上、下)、線性代數(shù)、概率論與數(shù)理統(tǒng)計四門大學(xué)數(shù)學(xué)課程的成績,試分析該班的四門課成績有沒有顯著差異.
本例中要檢驗的因素是四門大學(xué)數(shù)學(xué)課程成績,用A表示,因素下的四個分類型變量分別為高等數(shù)學(xué)(上)、高等數(shù)學(xué)(下)、線性代數(shù)和概率論與數(shù)理統(tǒng)計四個總體稱為因素的四個水平,用Aj表示,xij稱為第j個水平的第i個觀測值.方差分析就是從數(shù)據(jù)的誤差來源來分析多個總體的均值是否相等,在本例中就是指高等數(shù)學(xué)(上)、高等數(shù)學(xué)(下)、線性代數(shù)和概率論與數(shù)理統(tǒng)計這四個總體的均值是否相等.
一般地,在單因素試驗中,假設(shè)實驗因素A有s個水平A1,A2,…,As,在水平Aj(j=1,2,…,s)下進(jìn)行nj(nj≥2)次獨(dú)立試驗.建立如下假設(shè):
H0:μ1=μ2=…=μs,H0:μ1,μ2,…,μs不全相等.
每個總體系統(tǒng)內(nèi)部的誤差,主要是由隨機(jī)抽樣所引起的隨機(jī)誤差,稱為組內(nèi)誤差,組內(nèi)誤差平方和,記為SSA:
各總體之間的誤差,主要是由隨機(jī)抽樣引起的隨機(jī)誤差和系統(tǒng)誤差,稱為組間誤差,組間誤差平方和記為
數(shù)據(jù)總的誤差平方和記為SST:
其中,xij表示第j個水平的第i個觀測值,xˉ·j表示水平Aj下的均值,xˉ表示全部數(shù)據(jù)的總均值.
總的誤差平方和可分解為:
表1
這是因為上式中交叉項
上述證明表明數(shù)據(jù)總的誤差主要來自兩方面,一方面是組內(nèi)誤差,另一方面是組間誤差.可以證明,當(dāng)s個總體的均值相等時n-s).F值越大說明在總方差中,組間方差波動越大,s個水平的均值相差越大,越有利于拒絕s個總體均值相等的假設(shè);F值越小,說明總方差中,組間方差波動越小,方差的波動主要是由隨機(jī)誤差引起的,越有利于接受s個總體的均值相等的假設(shè).如果規(guī)定顯著性水平為α,當(dāng)F>Fα(s-1,n-s)時,拒絕原假設(shè),F(xiàn) 對于上述實例,假如給定顯著性水平α=0.05,我們首先求出四個因素的樣本均值分別為·1= 71.422=67.883=74.14=88.16,可以看出因素的四個總體均值確實有差異. 用excel中的單因素方差分析工具分析上述例題,得到如下結(jié)果(表2): 表2 方差分析:單因素方差分析 從上面分析可以看出F=20.06776>Fα(s-1,n-s)= 2.650677.在顯著性水平α=0.05下,可以相信該班四門課成績有顯著差異. 單因素方差分析的優(yōu)點(diǎn)是通過比較觀測變量總的誤差平方和各部分所占的比例,推斷自變量對因變量帶來了顯著影響.在總的誤差平方和中,如果組間誤差平方和所占比例較大,則說明因變量的變動主要是由自變量引起的,可以主要由自變量來解釋,自變量給因變量帶來了顯著影響;反之,如果組間誤差平方和所占比例小,則說明因變量的變動不是主要由自變量引起的,不可以主要由自變量來解釋,自變量的不同水平?jīng)]有給因變量帶來顯著影響,因變量的變動是由隨機(jī)變量因素引起的. 單因素方差分析的基本分析只能判斷自變量是否對因變量產(chǎn)生了顯著影響.如果自變量確實對因變量產(chǎn)生了顯著影響,也就是表明試驗中各總體均值間存在顯著差異,但并不意味著每兩個總體均值間的差異都顯著,也不能具體說明哪些總體均值間有顯著差異,哪些差異不顯著.有必要進(jìn)行兩兩總體均值間的比較,以具體判斷兩兩總體均值間的差異顯著性,這就要用到多個均值兩兩間的相互比較的多重比較.有興趣的讀者可以查找有關(guān)多重比較的資料. 〔1〕林偉初.概率論與數(shù)理統(tǒng)計[M].上海:同濟(jì)大學(xué)出版社,2009.153-159. 〔2〕印德中.EXCEL在方差分析中的應(yīng)用[J].中國現(xiàn)代教育裝備,2011(17):23-25. 〔3〕李玉毛.單因素方差分析在經(jīng)濟(jì)數(shù)據(jù)分析中的應(yīng)用[J].赤峰學(xué)院學(xué)報(自然科學(xué)版),2012,28(2): 18-19. 〔4〕賈俊平,等.統(tǒng)計學(xué)(第四版)[M].北京:中國人民大學(xué)出版社,2009. 〔5〕曾五一.統(tǒng)計學(xué)導(dǎo)論[M].北京:科學(xué)出版社,2007. O213 A 1673-260X(2014)03-0004-03 華南農(nóng)業(yè)大學(xué)珠江學(xué)院2012年度科技基金項目資助(HZKJ201220)3 單因素方差分析應(yīng)用實例
4 結(jié)束語