胡良平
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029
在一項試驗研究中,通常都會涉及多個試驗因素,從每個因素中各取一個水平組合起來,就形成了一個特定的“試驗條件”。在有多個試驗因素的研究場合中,以不同的方式選取因素的水平組合,就對應(yīng)著不同的“試驗設(shè)計類型”。例如,將所有試驗因素的水平全面組合且在各種組合條件下進行兩次或兩次以上獨立重復(fù)試驗,此安排就被稱為“析因設(shè)計”;又例如,依據(jù)正交原理從全部水平組合中選取部分水平組合來安排試驗,就被稱為“正交設(shè)計”[1]。以此類推,還有“均勻設(shè)計”“最優(yōu)設(shè)計”和“正交組合設(shè)計”等[2-3]。
前面所說的每個試驗條件常被稱為“試驗點”,也就是說,每個“試驗點”實際上就是由擬考察的試驗因素各取一個水平的一種組合。若試驗結(jié)果是定量的,在各試驗點上實施試驗后,就可以觀測到一個或多個具體的數(shù)值。在實際問題中,當(dāng)定量觀測結(jié)果的取值越大越好時,就稱此類定量指標(biāo)為“高優(yōu)指標(biāo)”;反之,就稱為“低優(yōu)指標(biāo)”。若定量指標(biāo)取中等值為優(yōu),這種情況并不多見,不屬于本文討論的范疇。
所謂“理想試驗點”,也被稱為“最優(yōu)試驗條件”,是指“高優(yōu)指標(biāo)”或“低優(yōu)指標(biāo)”獲得最優(yōu)取值時所對應(yīng)的“試驗點”或“試驗條件”。
本文涉及到三種統(tǒng)計分析方法:方差分析、回歸分析、結(jié)合分析。一般來說,方差分析的主要目的是考察各因素對定量指標(biāo)的影響,一方面希望能將全部因素及其交互作用對定量結(jié)果的影響分出主次關(guān)系,另一方面希望能揭示出每個因素各水平對定量結(jié)果影響之間的差異。回歸分析的主要目的是構(gòu)建因變量依賴自變量變化而變化的回歸模型,同時篩選出對因變量具有統(tǒng)計學(xué)意義的自變量,有時,還需要在給定自變量取不同值的條件下,預(yù)測因變量的數(shù)值;而結(jié)合分析的主要目的是希望給出各因素對“偏好評分”影響大小的“重要性”的度量,同時希望給出每個屬性(或因素)的每個水平作用大小的“效用值”的度量。
從上面的介紹似乎可以認為上述三種分析方法是完全不同的,事實上,它們都屬于回歸模型分析法。因為方差分析模型本質(zhì)上就是一種簡單的回歸模型,而結(jié)合分析模型實際上是將屬性(或因素)的每個水平當(dāng)作一個“二值自變量”,并基于“效用值”可疊加的假定構(gòu)建出來的回歸模型[4]。
在SAS/STAT的TRANSREG過程中有一個名為“BOX-COX變換”的樣例:在紡織研究中,紗線的壽命主要受三個試驗因素的影響[5]。見表1。
表1 影響紗線壽命的三個主要試驗因素及其水平
注:表中圓括號之前的數(shù)字為因素的“真實水平”,圓括號內(nèi)為因素的“代碼水平”
由表1可知,這是一個涉及三個3水平試驗因素的試驗研究,若將3個試驗因素的水平全面組合,就有27種不同的試驗條件,每個試驗條件下的試驗結(jié)果為紗線的壽命長短(單位不詳),是一個計量變量。研究者在27種不同試驗條件下都只進行了一次試驗,即沒有進行重復(fù)試驗,其試驗結(jié)果(用Fail表示)和27種水平組合見表2。
表2 三個3水平因素水平全面組合條件下紗線壽命數(shù)據(jù)
表2中結(jié)果變量Fail的頻數(shù)分布見圖1。由圖1可知,結(jié)果變量Fail呈極嚴(yán)重的正偏態(tài)分布。
圖1 結(jié)果變量Fail的頻數(shù)分布直方圖
上述樣例的專業(yè)問題實際上就是一個具有三因素析因設(shè)計結(jié)構(gòu)的一元計量資料的統(tǒng)計處理問題。由于在因素各水平組合條件下未進行重復(fù)試驗,所以,表2中的“安排”不能被稱為一個“標(biāo)準(zhǔn)的析因設(shè)計”,而只能叫做具有“析因結(jié)構(gòu)”。統(tǒng)計處理的困難在于:其一,結(jié)果變量偏離正態(tài)分布很遠;其二,未進行重復(fù)試驗,樣本含量嚴(yán)重不足,無法分析因素之間可能存在的交互作用效應(yīng)的大小。
一般來說,在多因素試驗研究場合,當(dāng)結(jié)果變量為計量變量時,統(tǒng)計分析的任務(wù)是研究哪些因素對結(jié)果的影響是主要的、哪些是次要的;因素之間各級交互作用的效應(yīng)大?。挥袝r,研究者還希望求出“理想試驗點”,即在多個試驗因素分別取什么樣的水平組合條件下,所得到的試驗結(jié)果在專業(yè)上是最滿意的。就本例而言,在什么樣的試驗條件下,紗線的壽命最長(它屬于“高優(yōu)指標(biāo)”)。
第一,可以對計量因變量采取BOX-COX變換,使其服從或近似服從正態(tài)分布[5-6]。第二,可以對定性自變量(即試驗因素)采取變量擴展變換,例如“CLASS變換”或“POINT變換”或“EPOINT變換”或“QPOINT變換”[5]。實際上,前述提及的那些“變量擴展變換”類似于將定性變量數(shù)量化,也就是給定性變量的水平重新編碼,并引入交互作用項。第三,將原本屬于“方差分析的任務(wù)”改換為“回歸分析任務(wù)”,即構(gòu)建變換后的因變量關(guān)于變量擴展變換產(chǎn)生的自變量的回歸模型。第四,借助“結(jié)合分析”[7-8]的思路和方法,獲得各試驗因素對結(jié)果變量的“重要性”評價及試驗因素各水平的“分值效用”大小,得出“理想試驗點(即全部因素最佳的水平組合對應(yīng)的試驗條件)”。
利用以下SAS程序,可以形成待分析的SAS數(shù)據(jù)集:
proc format;
value a -1=80 =9 1=10;
value l -1=250 0=300 1=350;
value o -1=40 0=45 1=50;
run;
data yarn;
input Fail Amplitude Length Load @@;
format amplitude a. length l. load o.;
label fail = 'Time in Cycles until Failure';
datalines;
674-1-1-1370-1-10292-1-113380-1-12660-102100-111701-1-11181-10901-111414-10-11198-100634-101102200-162000043800144210-13321002201013636-11-13184-1102000-111156801-11070010566011114011-1884110360111
;
run;
利用以下SAS程序,可以直方圖形式呈現(xiàn)結(jié)果變量Fail的頻數(shù)分布情況:
proc univariate data=yarn normal;
var fail;
histogram fail;
run;
以上程序運行的結(jié)果如圖1所示。
對結(jié)果變量Fail進行BOX-COX變換,同時,對定性自變量進行QPOINT變量擴展變換。所需要的SAS程序如下:
ods graphics on;
proc transreg details data=yarn ss2 utilities
plots=(transformation(dependent) obp);
model BoxCox(fail / convenientlambda=-2 to 2 by 0.05) =
qpoint(length amplitude load);
output out=aaa approximations;
run;
【SAS程序說明】“proc transreg”調(diào)用TRANSREG過程;“model語句”等號左邊為對因變量Fail進行“BOX-COX變換”,此變換的一個關(guān)鍵參數(shù)叫做“l(fā)ambda”,經(jīng)過嘗試,需在(-2,2)范圍內(nèi)按步長為0.05去選擇具體的lambda值并代入計算,選擇使對數(shù)似然函數(shù)取最大值時的lambda值。當(dāng)此值帶有很多位小數(shù)時,盡可能取一個簡約的數(shù)值(即“convenient”的含義)。“qpoint變量擴展變換”是對三個定性變量進行二次反應(yīng)面變換,即在三個定性變量的基礎(chǔ)上,增加它們的平方項和二次交叉乘積項。
利用以下SAS程序,可以直方圖形式顯示對因變量Fail進行BOX-COX變換的結(jié)果(注:tfail是對變量fail采用BOX-COX變量變換后的變量)。
proc univariate data=aaa normal;
var tfail;
histogram tfail/normal;
run;
以上SAS程序的輸出結(jié)果見圖2:
圖2 經(jīng)過BOX-COX變換后的結(jié)果變量tfail的頻數(shù)分布直方圖
對變換后的因變量tfail進行假設(shè)檢驗,所得結(jié)果如下:
Goodness-of-FitTestsforNormalDistribution檢驗統(tǒng)計量PKolmogorov-SmirnovD0.08312402Pr>D>0.150Cramer-vonMisesW-Sq0.02172925Pr>W-Sq>0.250Anderson-DarlingA-Sq0.13498929Pr>A-Sq>0.250
由圖2和以上關(guān)于正態(tài)性檢驗結(jié)果可知,經(jīng)過BOX-COX變換后的結(jié)果變量tfail服從正態(tài)分布。
上述“model語句”實際上創(chuàng)建了一個經(jīng)BOX-COX變換后的因變量tfail關(guān)于經(jīng)QPOINT變量擴展變換后的三個定性自變量及其所有二次項的“二次反應(yīng)曲面回歸模型”。見圖3。
由圖3中倒數(shù)第2列可知,三個試驗因素的主效應(yīng)項(即一次項)都具有統(tǒng)計學(xué)意義;而由它們產(chǎn)生的所有二次項都沒有統(tǒng)計學(xué)意義。
圖3 二次反應(yīng)曲面回歸模型的參數(shù)估計與假設(shè)檢驗結(jié)果
反映回歸模型對資料擬合效果的輸出結(jié)果如下:
RootMSE0.19383R-Square0.9725DependentMean6.33466AdjR-Sq0.9579CoeffVar3.05987Lambda0.0000
以上結(jié)果表明:模型對資料的擬合效果較好,R2=0.9725,校正的R2=0.9579。
利用以下SAS程序,可以獲得更簡約的回歸模型。
proc transreg details data=yarn ss2 utilities
plots=(transformation(dependent) obp);
model BoxCox(fail / convenientlambda=-2 to 2 by 0.05) =
class(length amplitude load/zero=sum);output out=aaa approximations;
run;
簡約回歸模型的輸出結(jié)果見圖4。
圖4 僅含主效應(yīng)回歸模型的參數(shù)估計與假設(shè)檢驗結(jié)果
由圖4可知,三個試驗因素都有3個水平,都以中間水平為“基準(zhǔn)”,除中間水平無統(tǒng)計學(xué)意義外,其他均有統(tǒng)計學(xué)意義。
反映回歸模型對資料擬合效果的輸出結(jié)果如下:
RootMSE0.18942R-Square0.9691DependentMean6.33466AdjR-Sq0.9598CoeffVar2.99029Lambda0.0000
以上結(jié)果表明:模型對資料的擬合效果較好,R2=0.9691,校正的R2=0.9598。
與前面的結(jié)果相比,簡約回歸模型比復(fù)雜回歸模型的R2略低,但校正的R2反而略高。
關(guān)于各試驗因素的“重要性”和“效用值”的輸出結(jié)果見圖5。由圖5第4列可知,三個試驗因素的重要性分別為:紗線測試樣品的長度(A)占44.851%、負載循環(huán)時的振幅大小(B)占34.000%,負載量(C)占21.149%。由圖5第2列可知,“Utility”為各試驗因素的各水平的“效用值”,當(dāng)結(jié)果變量屬于“高優(yōu)指標(biāo)”時,將各試驗因素正的最大效用值對應(yīng)的“水平”組合在一起,就構(gòu)成了“理想試驗點”。就本例而言,在理想試驗點為“l(fā)ength 350”“Amplitude 8”和“Load 40”所構(gòu)成的試驗條件下,即當(dāng)紗線長度取350 mm、振幅取8 mmd和負載量取40 g時,紗線壽命最長。
圖5 各試驗因素的“重要性”及其各水平的“效用值”的輸出結(jié)果
在多因素試驗研究中,要了解各因素對試驗結(jié)果的影響情況,特別是因素之間各級交互作用的效應(yīng),最合適的試驗設(shè)計類型為多因素析因設(shè)計。然而,多因素析因設(shè)計至少應(yīng)滿足兩個特點:第一,全部試驗點應(yīng)該由所有試驗因素水平的全面組合而成;第二,在各試驗點條件下,至少要做兩次獨立重復(fù)試驗。本文中的樣例滿足了前面提及的第一點,但不滿足第二點,嚴(yán)格來說,此樣例在試驗設(shè)計上是存在瑕疵的。
通常的方差分析或多重回歸分析對資料都有很高的要求,例如正態(tài)性和方差齊性等。樣例中的因變量呈嚴(yán)重的正偏態(tài)分布,通過采用BOX-COX變換,使其偏斜情況得到了很好的校正。將結(jié)合分析與回歸分析有機地結(jié)合在一起,不僅可以獲得各試驗因素對試驗結(jié)果影響情況的分析結(jié)果,還能獲得關(guān)于各試驗因素重要性的評價以及確定出理想的試驗點。
SAS中的TRANSREG過程具有很強且多樣性的變量變換能力,它集方差分析、回歸分析和結(jié)合分析于一體,能夠很好地處理不符合傳統(tǒng)統(tǒng)計學(xué)要求的復(fù)雜資料,獲得滿意的統(tǒng)計分析結(jié)果。