胡純嚴(yán) ,胡良平 ,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029
隨機(jī)完全區(qū)組設(shè)計簡稱為隨機(jī)區(qū)組設(shè)計或配伍組設(shè)計[1-2],它是考察一個試驗因素和一個區(qū)組因素對定量觀測結(jié)果影響的一個節(jié)省樣本含量的試驗設(shè)計方法。本文將介紹該設(shè)計類型的要點、定量資料一元方差分析的模型和計算公式,以及基于SAS軟件實現(xiàn)定量資料一元方差分析的具體方法。
在單因素多水平的試驗研究場合中,若全部受試對象可以按某種重要的屬性(例如動物的窩別、樣品的批次、患者的血型、受試對象的工作車間等)被分成幾個小組,則此時就可采用隨機(jī)完全區(qū)組設(shè)計取代單因素多水平設(shè)計,以便排除區(qū)組因素對結(jié)果變量的影響。
隨機(jī)完全區(qū)組設(shè)計的具體實施方法:基于定量觀測指標(biāo),依據(jù)研究目的和專業(yè)知識,確定試驗因素及其水平,并找出對定量觀測指標(biāo)影響最明顯且來自受試對象的一個屬性變量(也叫區(qū)組因素),將屬性變量取值(即水平)相同的受試對象劃分為一個大組;設(shè)試驗因素有r個水平,區(qū)組因素有s個水平。先從依據(jù)研究目的確定的具有同質(zhì)性的總體中隨機(jī)抽取s組受試對象,應(yīng)確保每組受試對象的個數(shù)≥r;再從每組中隨機(jī)抽取r個受試對象并隨機(jī)分配進(jìn)入r個試驗組中;最后,從每個受試對象身上測定定量觀測指標(biāo)的數(shù)值。隨機(jī)完全區(qū)組設(shè)計的呈現(xiàn)模式見表1。
表1 隨機(jī)完全區(qū)組設(shè)計一元定量資料的呈現(xiàn)模式
假定試驗因素A與區(qū)組因素B之間的交互作用不存在或可以忽略不計,于是,它們之間各水平組合條件下可以不做重復(fù)試驗;又假定試驗因素A和區(qū)組因素B分別有r和s個水平。隨機(jī)完全區(qū)組設(shè)計定 量 資 料 一 元 方 差 分 析 模 型[3-4]見式(1):
在式(1)中,Yij為兩因素A、B的(i,j)水平組合下定量觀測結(jié)果,μ為全部條件下定量觀測結(jié)果的總體平均值,ai為試驗因素A的第i個水平的效應(yīng),bj為區(qū)組因素B的第j個水平的效應(yīng),它們滿足以下關(guān)系式:
在以上各式中,μij為兩因素A、B的(i,j)水平組合下定量觀測結(jié)果的總體平均值。
基于最大似然法,可得到式(2)、式(3)、式(4)的最大似然估計值,分別見式(7)、式(8)、式(9):
為檢驗一切μij是否相等,可改為檢驗以下兩個假設(shè)。
檢驗試驗因素A的無效假設(shè)與備擇假設(shè)分別見式(10)、式(11)。
檢驗區(qū)組因素B的無效假設(shè)與備擇假設(shè)分別見式(12)、式(13)。
從前面式(1)的第1個式子可以看出,隨機(jī)完全區(qū)組設(shè)計定量資料一元方差分析模型共有r×s個,即便將式(7)、式(8)、式(9)代入其中,獲得基于觀測數(shù)據(jù)的全部模型的最終計算結(jié)果,仍然沒有解決所需要回答的問題:即試驗因素A各水平對觀測結(jié)果的影響差別是否有統(tǒng)計學(xué)意義[對應(yīng)的檢驗假設(shè)為前文的式(10)和式(11)]?區(qū)組因素B各水平對觀測結(jié)果的影響差別是否有統(tǒng)計學(xué)意義[對應(yīng)的檢驗假設(shè)為前文的式(12)和式(13)]?為了回答這兩個問題,需要構(gòu)造出兩個F檢驗統(tǒng)計量,分別見式(14)、式(15):
在式(14)和式(15)中,MSA、MSB、MSE分別代表試驗因素A、區(qū)組因素B和試驗誤差E的均方;SST、SSA、SSB、SSE分別代表全部數(shù)據(jù)(簡稱“T”)、試驗因素A、區(qū)組因素B和試驗誤差E的離均差平方和;而dfT、dfA、dfB、dfE分別代表總變異T、試驗因素A、區(qū)組因素B和試驗誤差E的自由度。各項離均差平方和的計算公式如下:
各項自由度的計算公式如下:
將以上主要公式匯集在一張表中,見表2。
表2 隨機(jī)完全區(qū)組設(shè)計兩因素各水平組合下進(jìn)行一次試驗的方差分析表
【例1】為探索丹參對肢體缺血再灌注損傷的影響,研究者將30只純種新西蘭實驗用大白兔按窩別分為10個區(qū)組,每個區(qū)組的3只大白兔(來自同一窩)隨機(jī)接受三種不同處理,即在松止血帶前分別給予丹參 2 mL/kg(A1)、丹參1 mL/kg(A2)、生理鹽水2 mL/kg(A3),并分別測定松止血帶前、后1小時內(nèi)大白兔血中白蛋白含量(g/L),計算白蛋白的減少量[5],見表3。問三種處理的平均值之間差異是否有統(tǒng)計學(xué)意義。
表3 隨機(jī)完全區(qū)組設(shè)計下三種處理后大白兔血中白蛋白減少量(g/L)
【例2】某研究者希望研究三種減肥方案(試驗因素)的效果,分別從兩個工作地點(即區(qū)組因素,其兩個水平分別為“辦公室”與“車間”)中隨機(jī)選取女工15名,再將每個工作地點中的15名女工隨機(jī)均分入三種減肥方案組中。試驗開始之前,測定她們的空腹體重;在接受試驗一定時間之后,再測定空腹體重,用第1次測定結(jié)果減去第2次測定結(jié)果,得到體重改變量(正值為體重減少量,負(fù)值為體重增加量)[6],見表4。問哪種減肥方案效果最佳?
表4 三種減肥方案中辦公室和車間女工的體重改變量(磅)
3.2.1 對例1的分析與解答
【分析與解答】設(shè)例1資料所需要的SAS程序如下:
以上第一部分為隨機(jī)完全區(qū)組設(shè)計定量資料一元方差分析總模型的輸出結(jié)果,F(xiàn)=6.61,P=0.000 2,表明方差分析模型具有統(tǒng)計學(xué)意義(誤差項的自由度=18)。
以上第二部分輸出的是隨機(jī)完全區(qū)組設(shè)計定量資料一元方差分析的主要結(jié)果,結(jié)果表明:處理因素A對白蛋白減少量的影響是不同的(F=32.64,P<0.000 1);而窩別因素對白蛋白減少量的影響無統(tǒng)計學(xué)意義,即窩別對結(jié)果的影響可以忽略不計。
為節(jié)省篇幅,下面僅給出采用TUKEY法對三種處理下的三個均值進(jìn)行兩兩比較的結(jié)果,見圖1。由圖1可看出:處理組1、2、3的均值分別為2.580、2.976和4.170;兩兩比較結(jié)果顯示,處理組1與組2的均值之間差異無統(tǒng)計學(xué)意義,而它們與處理組3的均值差異均有統(tǒng)計學(xué)意義。說明相對于生理鹽水而言,大白兔接受1 mL/kg或2 mL/kg的丹參處理后,白蛋白的含量明顯下降。
圖1 采用TUKEY法對三種處理下的三個均值進(jìn)行兩兩比較的結(jié)果
由于窩別因素對結(jié)果的影響可以忽略不計,故本例資料采用單因素三水平設(shè)計定量資料一元方差分析更合適,這樣可以增大誤差項的自由度,使分析結(jié)果更加穩(wěn)定??刹捎萌缦耂AS過程步:
【SAS輸出結(jié)果及解釋】
以上為單因素三水平設(shè)計定量資料一元方差分析總模型的輸出結(jié)果,F(xiàn)=34.67,P<0.000 1,表明方差分析模型具有統(tǒng)計學(xué)意義(誤差項的自由度=27)。
以上第一行結(jié)果是單因素三水平設(shè)計定量資料一元方差分析的主要結(jié)果,結(jié)果表明:處理因素A對白蛋白減少量的影響是不同的(F=34.67,P<0.000 1)。
采用TUKEY法對三種處理下的三個均值進(jìn)行兩兩比較的結(jié)果同圖1,不再贅述。
3.2.2 對例2的分析與解答
【分析與解答】設(shè)例2資料所需要的SAS程序如下:
【SAS程序說明】第1個過程步是進(jìn)行隨機(jī)完全區(qū)組設(shè)計定量資料一元方差分析;而第2個過程步是進(jìn)行單因素(指因素A:減肥方案)三水平設(shè)計定量資料一元方差分析(前提條件是區(qū)組因素?zé)o統(tǒng)計學(xué)意義,否則,不可以使用第2個過程步)。
【SAS輸出結(jié)果及解釋】
以上第一部分結(jié)果表明:隨機(jī)完全區(qū)組設(shè)計定量資料一元方差分析模型有統(tǒng)計學(xué)意義(F=5.33,P=0.005 4),誤差項的自由度為26。
以上第二部分結(jié)果表明:減肥方案A的3個水平組均值之間差別有統(tǒng)計學(xué)意義(F=7.51,P=0.002 7),表明不同減肥方案的減肥效果是不同的;而工作地點B之間差異無統(tǒng)計學(xué)意義(F=0.96,P=0.335 3),表明不同工作地點對減肥效果的影響可忽略不計。
由圖2可知:方案3與方案1的均值之間差異無統(tǒng)計學(xué)意義,而方案3和方案1的均值與方案2的均值之間差異均有統(tǒng)計學(xué)意義。方案3、1、2對應(yīng)的體重減少量的均值依次為9.4、6.1和2.0磅。
圖2 采用SNK法對三種減肥方案下的三個均值進(jìn)行兩兩比較的結(jié)果
由圖3可知:方案3與方案1的差異無統(tǒng)計學(xué)意義,而方案1與方案2的差異也無統(tǒng)計學(xué)意義,但方案3與方案2的差異有統(tǒng)計學(xué)意義。
圖3 采用TUKEY法對三種減肥方案下的三個均值進(jìn)行兩兩比較的結(jié)果
由于工作地點因素對結(jié)果的影響可以忽略不計,故本例資料采用單因素三水平設(shè)計定量資料一元方差分析(見前文的第2個SAS過程步)更合適,這樣可以增大誤差項的自由度,使分析結(jié)果更加穩(wěn)定。其SAS輸出結(jié)果如下:
以上為單因素三水平設(shè)計定量資料一元方差分析總模型的輸出結(jié)果,F(xiàn)=7.52,P=0.002 5,表明方差分析模型有統(tǒng)計學(xué)意義(誤差項的自由度=27)。
以上第一行是單因素三水平設(shè)計定量資料一元方差分析的主要結(jié)果,結(jié)果表明:減肥方案因素A對體重減少量的影響是不同的(F=7.52,P=0.002 5)。
對減肥方案因素A的三個水平下的均值進(jìn)行兩兩比較,基于SNK法和TUKEY法得到的結(jié)果分別與圖2和圖3的結(jié)果相同,為節(jié)省篇幅,此處從略。
隨機(jī)完全區(qū)組設(shè)計最適合用于區(qū)組因素對定量結(jié)果具有不可忽視的影響的試驗研究場合,在實際的試驗研究中,有時可能同時存在多個重要的非試驗因素,在設(shè)計試驗時,可以將它們復(fù)合成一個區(qū)組因素。
從方差分析的角度來看,方差分析方法對定量資料的前提條件要求很苛刻,無論試驗研究中涉及多少個因素,要求每個因素都必須滿足“獨立性”“正態(tài)性”和“方差齊性”三個前提條件。值得注意的是,獨立性是針對整個試驗資料中任何兩個定量數(shù)據(jù)而言的,即任何兩個定量數(shù)據(jù)之間是互相獨立的;正態(tài)性是針對任何一個因素的某一個水平而言的,即該因素每個特定水平下定量資料應(yīng)服從正態(tài)分布;而方差齊性則是針對任何一個因素的全部水平而言的,即該因素各水平下總體方差應(yīng)相等。僅當(dāng)前述提及的三個前提條件都滿足時,方差分析的結(jié)果才是正確的。否則,建議采用混合效應(yīng)模型分析方法處理資料[4]。
在例2的兩兩比較的分析結(jié)果中,SNK法與TUKEY法給出的結(jié)果略有不同,其原因在于這兩種方法控制的誤差類型不同[7-8]。相對來說,TUKEY法給出的結(jié)果可信度更高。
本文概述了隨機(jī)完全區(qū)組設(shè)計的要點,介紹了隨機(jī)完全區(qū)組設(shè)計定量資料的方差分析模型和計算公式,借助SAS軟件對兩個實例進(jìn)行了分析,對輸出結(jié)果作出了解釋,并給出了統(tǒng)計結(jié)論和專業(yè)結(jié)論。