胡純嚴 ,胡良平 ,2*
(1.軍事科學院研究生院,北京 100850;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
由于析因設(shè)計所需要的水平組合數(shù)很多,不可避免地增大了樣本含量。當研究者對試驗研究涉及的眾多因素的情況了解甚少時,即使選用正交設(shè)計,其所需要的樣本含量仍然較多。此時,可考慮選用分式析因設(shè)計。本文將介紹分式析因設(shè)計相關(guān)的基本概念、具體實施方法以及采用SAS實現(xiàn)定量資料方差分析和回歸分析的方法。
將一個標準的析因設(shè)計按某種規(guī)則拆分成幾部分,其中,每一部分稱為原先析因設(shè)計的一個分式析因設(shè)計或分數(shù)析因設(shè)計[1-2]。
在一個多因素試驗研究中,若高階交互作用效應不存在或可以忽略不計,采用分式析因設(shè)計可以大幅度減少因素的水平組合數(shù),即所需的樣本含量更少。那么,減少的樣本含量多少取決于研究者對試驗結(jié)果精確度的要求。若對精確度要求較高,所需要的樣本含量就相對較大。
由于分式析因設(shè)計可在較大幅度地減少因素水平組合數(shù)的前提條件下,盡可能容納較多的因素,這就不可避免地導致某些因素或交互作用項的效應出現(xiàn)混雜。所謂“效應混雜”,就是某些效應項重疊在一起,例如,在設(shè)計表上,當交互作用AB與CD出現(xiàn)在同一列上時,從該列上計算出來不同水平之間的離均差平方和,就分不清它們各自的數(shù)量分別是多少。
分式析因設(shè)計中的混雜情況有三類:分解Ⅲ設(shè)計、分解Ⅳ設(shè)計和分解Ⅴ設(shè)計[1,3]。
分解Ⅲ設(shè)計精確度最低,所需樣本含量較少。在此類設(shè)計中,主效應彼此之間沒有混雜,但主效應與兩因素交互作用效應混雜,且兩因素交互作用效應相互混雜。二水平因素的分解Ⅲ設(shè)計有很多種,例如
分解Ⅳ設(shè)計精確度居中,所需樣本含量居中。在此類設(shè)計中,主效應彼此之間沒有混雜,主效應與兩因素交互作用效應之間沒有混雜,但兩因素交互作用效應彼此之間存在混雜,例如設(shè)計和設(shè)計。二水平因素的分解Ⅳ設(shè)計還有如下幾種:設(shè)計[3]。
分解Ⅴ設(shè)計精確度最高,所需樣本含量較多。在此類設(shè)計中,主效應或兩因素交互作用效應與其他主效應或兩因素交互作用效應之間沒有混雜,但兩因素交互作用效應與三因素交互作用效應存在混雜,例如設(shè)計。二水平因素的分解Ⅴ設(shè)計還有設(shè)計[3]。
分解Ⅴ設(shè)計以上的設(shè)計,其精確度更高,但所需要的水平組合數(shù)也更多,例如設(shè)計(即分解Ⅵ設(shè)計,水平組合數(shù)為32)和設(shè)計(即分解Ⅶ設(shè)計,水平組合數(shù)為64)。
以上是二水平因素的分式析因設(shè)計,此外,還有三水平因素和混合水平因素的分式析因設(shè)計[3-4]。因篇幅所限,此處從略。
根據(jù)試驗因素的數(shù)目、水平數(shù)以及對計算結(jié)果精確度的要求,分式析因設(shè)計的種類非常多;由于不同的分式析因設(shè)計在設(shè)計表各列上出現(xiàn)的混雜情況不同,因此,不可能采用一個統(tǒng)一的方差分析公式解決所有分式析因設(shè)計定量資料的分析問題。
方差分析的基本思想:針對每個特定的分式析因設(shè)計,在接受其基本假設(shè)(例如,某些高階交互作用效應不存在或可以忽略不計)成立的前提條件下,首先查看設(shè)計表中是否有空列,若有空列,則可用于估計第一類試驗誤差,也就具備進行方差分析的基本條件;其次,查看設(shè)計表的各行上是否進行了2次及以上獨立重復試驗,若已進行,則可用于估計第二類試驗誤差;第三,應明確設(shè)計表各列上估計的效應是否混雜。
若兩類試驗誤差都無法估計,就不能進行方差分析;出現(xiàn)混雜的列上得出的計算結(jié)果是不正確的,因為它不是該列所代表的因素的效應或某個交互作用項的效應的真實值,而是混雜在一起的多個項的綜合效應。
一般來說,若從設(shè)計表中無法直接估計試驗誤差,可先計算各列不同水平對應結(jié)果的平均值,采用最大值減去最小值求出極差。將設(shè)計表中極差最小的一列或多列視為“空白列”(因為它們的效應很小,對試驗結(jié)果的影響微乎其微),它們將被用于估計第一類試驗誤差。
【例1】某化學試驗涉及4個二水平因素:溫度(A)、壓力(B)、甲醛的濃度(C)和攪拌速度(D)。若采用24析因設(shè)計,因素的水平組合數(shù)為16,擬采用設(shè)計,即進行24析因設(shè)計的二分之一實施。試驗安排與結(jié)果見表1[3]。試分析4個因素對過濾率的影響是否有統(tǒng)計學意義。
表1 4個二水平因素的試驗設(shè)計及結(jié)果Table 1 Design and the experimental results of four two-level factors
【例2】一項關(guān)于潤滑油質(zhì)量的試驗,涉及4個三水平因素:A、B、C和D(它們的專業(yè)含義從略)。各因素均取相同間隔的水平1、2、3。由于這是一個預試驗,擬采用-34設(shè)計,即34-1設(shè)計,實際上就是4個三水平因素析因設(shè)計的三分之一實施。試驗安排與結(jié)果見表2[4]。試分析4個因素對定量試驗結(jié)果的影響是否有統(tǒng)計學意義,并分別分析因素的線性部分和二次項部分是否有統(tǒng)計學意義。
表2 4個三水平因素析因設(shè)計的三分之一實施及試驗結(jié)果Table 2 One-third implementation and the experimental results of four three-level factorial designs
3.2.1 對例1的分析與解答
【分析與解答】所需要的SAS程序如下:
【SAS程序說明】第一個和第二個過程步(PROC UNIVARIATE和PROC PRINT)用于計算各列因素的兩個水平下過濾率平均值之差量(簡稱為“效應”);第三個過程步(PROC GLM)用于進行方差分析[5];第四個過程步(PROC REG)用于進行多重線性回歸分析[5]。
【SAS輸出結(jié)果及解釋】
以上是各列的效應輸出結(jié)果,其中,第2~5列對應4個因素各自的效應,后3列對應3個兩因素之間的交互作用的效應。因素B的效應和交互作用AB的效應很小,故可以將它們合并到誤差項中去。
由第三個過程步輸出的結(jié)果可知,因素x1(A)、因素x3(C)、因素x4(D)、交互作用x1*x3和交互作用x1*x4這5項對過濾率的影響均有統(tǒng)計學意義,與它們對應的檢驗統(tǒng)計量F值和P值如下。x1:F=222.15,P=0.004 5;x3:F=120.62,P=0.008 2;x4:F=167.54,P=0.005 9;x1*x3:F=210.62,P=0.004 7;x1*x4:F=222.15,P=0.004 5。
由第四個過程步輸出的結(jié)果可知,多重線性回歸模型中的各項均有統(tǒng)計學意義。基于回歸系數(shù)的計算結(jié)果,可寫出多重線性回歸模型:
基于上述多重線性回歸方程,可以對過濾率進行預測。例如,當3個因素都取1水平時,則有:
文獻[3]給出了與此例對應的完全析因設(shè)計(24析因設(shè)計)資料及回歸方程如下:
基于上述多重線性回歸方程,可以對過濾率進行預測。例如,當3個因素都取1水平時,則有:Y?=70.06+10.81+4.94+7.31-9.06+8.31=92.37(%)。
由此可知,采用24析因設(shè)計的二分之一的設(shè)計(即24-1設(shè)計),可以獲得與原設(shè)計(指24析因設(shè)計)十分近似的統(tǒng)計分析結(jié)果和結(jié)論。
3.2.2 對例2的分析與解答
【分析與解答】所需要的SAS程序如下:
【SAS輸出結(jié)果及解釋】
由第一個過程步定義的總模型的方差分析輸出結(jié)果可知,總模型有統(tǒng)計學意義(F=11.87,P<0.000 1)。
由第一個過程步定義的總模型中各因素的方差分析輸出結(jié)果可知,因素A(F=16.34,P<0.000 1)、因素B(F=10.06,P=0.001 2)和因素C(F=20.06,P<0.000 1)對定量結(jié)果的影響均有統(tǒng)計學意義,而因素D(F=1.03,P=0.377 2)則無統(tǒng)計學意義。
由第二個過程步的輸出結(jié)果可知,就4個因素對結(jié)果影響的線性部分(分別為AL、BL、CL和DL)的方差分析結(jié)果而言,因素A(F=31.98,P<0.000 1)、因素B(F=20.06,P<0.000 1)和因素 C(F=40.09,P<0.000 1)的線性部分均有統(tǒng)計學意義,因素D(F=1.55,P=0.228 8)的線性部分無統(tǒng)計學意義。
由第三個過程步的輸出結(jié)果可知,4個因素對定量結(jié)果影響的二次方部分(分別為AQ、BQ、CQ和DQ)的方差分析結(jié)果均無統(tǒng)計學意義(具體的F值和P值從略)。
由第四個過程步的輸出結(jié)果可知,因素B(即x2)(F=21.11,P=0.000 1)、因素 C(即 x3)(F=43.98,P<0.000 1)和因素A的平方項(即x12)(F=35.85,P<0.000 1)對結(jié)果的影響均有統(tǒng)計學意義。對應的多重線性回歸方程如下:
與相同規(guī)模的析因設(shè)計相比,一個特定的分式析因設(shè)計可安排的因素個數(shù)相同,但因素的水平組合數(shù)更少。對于二水平因素而言,通??梢詼p少二分之一或四分之三或八分之七;對于三水平因素而言,通常可以減少三分之一或九分之八或二十七分之二十六。然而,其結(jié)果的精確度會降低:減少的組合數(shù)越多,精確度越低。一系列分式析因設(shè)計的表格見文獻[3,6]。
本文介紹了分式析因設(shè)計的基本概念以及二水平因素和三水平因素的分式析因設(shè)計的具體實施,基于SAS軟件實現(xiàn)了二分之一24析因設(shè)計和三分之一34析因設(shè)計定量資料一元方差分析,并對定量資料進行多重線性回歸分析,給出了可用于預測的多重線性回歸方程。