于晶晶
首都經(jīng)濟貿(mào)易大學 北京 100070
Cochran’s Q檢驗在多元多水平分組實驗數(shù)據(jù)中的歸納
于晶晶
首都經(jīng)濟貿(mào)易大學 北京 100070
在統(tǒng)計分析中,多元多水平數(shù)據(jù)越來越多的被應用到現(xiàn)代科學的各個領域,對于這類數(shù)據(jù)分析方法的需求也隨之上升。目前,對于二元數(shù)據(jù)在完全隨機分組實驗里的研究是最基本也是最普遍的一種分析,然而這種二元數(shù)據(jù)的分析并非簡單易行。通常的方法是GLMM分析方法,因為這能夠保證檢驗擁有很好的精度和適當?shù)牡谝活愬e誤水平。然而GLMM分析方法在計算上較為復雜且時常出現(xiàn)非收斂性。反觀Cochran’s Q檢驗不但擁有GLMM分析的優(yōu)勢,同時簡易的計算方法和結(jié)果的收斂性使得這種方法更加有效。以前的研究我可GLMM分析方法已經(jīng)被更廣泛的歸納,但Cochran’s Q檢驗僅僅應用于兩元多水平的實驗數(shù)據(jù)分析中。因此本文利用實例來闡述并解釋Cochran’s Q檢驗在多元多水平數(shù)據(jù)中的應用。
多元多水平;完全隨機分組實驗;Cochran’s Q檢驗;GLMM;Wald統(tǒng)計量
隨著多元多水平數(shù)據(jù)在生物學,經(jīng)濟學,社會科學等多個領域中的廣泛出現(xiàn)和應用,對這類數(shù)據(jù)分析方法的需求也日益增多。作為其中的代表,GLMM分析方法可以很好的解決這類數(shù)據(jù)在完全隨機分組實驗中的問題,但其計算的繁瑣程度,分析的復雜性,以及結(jié)果收斂性的不足也限制了此方法的應用。Cochran’s Q檢驗以簡單的計算,被頻繁應用于多水平數(shù)據(jù)在完全隨機分組實驗中的分析,Stuart教授在1955年的研究中對于Cochran’s Q檢驗有個歸納,但僅僅針對于二元數(shù)據(jù)。在另一項之前的研究中,Minton教授和Evans教授于2013年發(fā)現(xiàn)Cochran’s Q檢驗和GLMM分析方法在檢驗精度以及第一類錯誤水平上,相對于其他一些統(tǒng)計檢驗有較明顯的優(yōu)勢,而GLMM分析方法已經(jīng)被廣泛的應用以及歸納,但Cochran’s Q檢驗的開發(fā)和應用才剛剛延伸到二元多水平數(shù)據(jù)。本文的研究目的在于通過兩個具體的實例,向讀者展示Cochran’s Q檢驗對于二元多水平數(shù)據(jù)的分析以及延伸到對于多元多水平數(shù)據(jù)的分析。
多元多水平數(shù)據(jù)在完全隨機分組實驗中的分析是基于二元多水平數(shù)據(jù)在完全隨機分組實驗中的分析,所以在此我們先回顧一下二元多水平數(shù)據(jù)在完全隨機分組實驗中的數(shù)理基礎。
我們定義Yij為二重水平中第j個變量的第i個分組為:
假設原假設中等概率的假設是正確的,那么協(xié)方差陣中對于第j個變量的第i個水平是一個單獨貝努利變量,他的結(jié)果可以表示為1成功,2失?。?/p>
由于貝努利變量只有兩個結(jié)果,非1即2,所以我們可以將表達式簡化為:
基于上面的表達式以及假設原假設是正確的,我們可以得出:
因此Y的協(xié)方差陣是:
在帶入估計量πi后,我們可以得到一個關于協(xié)方差陣穩(wěn)定的估計量。
在1955年,Stuart教授將Cochran’s Q檢驗延伸到可以分析二元多水平數(shù)據(jù)的完全隨機分組實驗,但是從二元向多元的延伸并沒有出現(xiàn)在他的論文中,所以在下文中,我們將基于之前的分析研究,將Cochran’s Q檢驗從二元多水平數(shù)據(jù)的應用拓展到多元多水平數(shù)據(jù)的應用。
職中語文是提高學生語文表達能力與人文素養(yǎng)的重要課程,應該為學生的個人發(fā)展、社會需要、適應生活而服務。常規(guī)語文教學往往難以達到預期的目標,進行職業(yè)教育語文教學改革,促進語文教學專業(yè)化、個性化,走與市場相結(jié)合的道路十分必要。
定義多重貝努力變量Yijk對于第j個變量,第k個水平以及第i個分組
在原假設之下,處于同一水平下的t個變量的概率應該相同,對于第i個分組,概率的期望值為:
把第k個水平中的所有分組加和之后,我們可以得到估計量:
一個單獨的多重貝努力變量(例如Yij)的協(xié)方差陣為:
假設原假設是正確的,在把第i個分組和第j個變量加和之后,協(xié)方差陣為:
或者表達為
帶入估計量之后,我們就可以得到多重貝努力變量的協(xié)方差陣的估計量。在多重貝努力變量進行Cochran’s Q檢驗時,統(tǒng)計量W的表達式為
其中H是一個(t-1)(s-1)乘以ts的矩陣,而Wald的統(tǒng)計量也如之前一樣,漸進的服從于自由度為H矩陣的秩例如((t-1)(s-1))的卡方分布。
實例:
為了驗證之前數(shù)理理論的正確性,我們會用以下一個例子來將理論付諸于實際問題。
Remedios Vallimor是一位就讀于美國華盛頓州立大學食品科學科學學院的博士生,他在研究乙醇濃度對于葡萄酒味覺影響的論文中使用了以下數(shù)據(jù),在小組成員品評葡萄酒味覺時使用了3種不同濃度的乙醇,分別為8%,12%以及16%。本次試驗使用了完全隨機分組實驗,一共有三個變量,對于每一種葡萄酒的水果香氣我們定級為三個級別,為低(0),中(1)以及高(2),匯總后的數(shù)據(jù)如下表所示:
表2:8%,12%以及16%乙醇溶度對于葡萄酒味覺的影響
本次試驗的目的在于調(diào)查不同濃度的乙醇水平,對于葡萄酒味覺的影響是不是顯著的不同。基于原假設等概率的假設,那么相關的差異列表如下(此處只列出一部分):
表3:三個不同水平下單元編號, 單元數(shù)值以及估計概率
從上表中的數(shù)值我們可以得出,Y的表達式,并且對于第j個變量的所有水平,我們可以得出協(xié)方差陣為:
在結(jié)合各個水平相對應的數(shù)值,我們可以得到他們的加和:
例如:單元編號002數(shù)值為2,單元編號020數(shù)值為1,單元編號200數(shù)值為1,單元編號220數(shù)值為2,那么總數(shù)值為6:
再結(jié)合三個變量,我們可以得到估計協(xié)方差陣:
利用下面的對比矩陣,我們便可以計算出總體的Cochran’s Q檢驗。
經(jīng)過檢驗,得出的統(tǒng)計值為12.9405,自由度為4,P值為0.0116,由此可以得出結(jié)論:這三種不同的乙醇濃度會導致葡萄酒的口味有顯著差異。由于總體的檢驗結(jié)論拒絕了原假設,那么就希望能夠更進一步的探索出具體這三種不同濃度的乙醇之間的相互比較?;贑ochran’s Q檢驗的表達式,可以很方便的得出兩兩比較需要使用的原假設以及在計算中需要使用的矩陣H。
計算后我們得出三組比較分別得Wald統(tǒng)計量為: = 2.9418, = 12.1817 and = 4.2872.在95%的置信區(qū)間范圍內(nèi),當自由度為2時,臨界值為5.99,通過將Wald統(tǒng)計量于臨界值相比較,我們可以得出,8%與12%的對比,以及12%與16%的對比都并不顯著,但是8%與16%的比較則有顯著地差距。同樣的,我們再一次利用SAS中Proc NLMixed的模塊計算出極大似然統(tǒng)計值,結(jié)果為13.4,自由度為4,P值為0.0095,由此我們可以同樣的到拒絕原假設的結(jié)論。而利用這種方法得到的結(jié)果與我們Cochran’s Q檢驗的結(jié)果非常接近,也驗證了我們理論的正確性及實用性。
當討論和研究多元多水平數(shù)據(jù)在完全隨機分組實驗中的分析時,Cochran’s Q檢驗這種分析方法為我們提供了便捷的計算以及準確的結(jié)果。就如上述的例子,利用Cochran’s Q檢驗得到的結(jié)果,與利用計算更為復雜的GLMM分析方法所得出的結(jié)論非常接近。盡管僅通過一個例子很難全方位的展示該理論的準確性以及實用性,但是我仍然堅信該理論能夠很好地應用于科學研究之中。對于該檢驗的其他側(cè)面,例如精度以及第一類錯誤的水平等,會在之后的研究,利用電腦模擬的方法進行檢測,并與其他的主流檢驗方法進行比較。
于晶晶(1990-),女,北京市,研究生在讀,學歷:研究生,研究方向:數(shù)據(jù)挖掘。