胡良平
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029
在一項(xiàng)試驗(yàn)研究中,通常都會(huì)涉及多個(gè)試驗(yàn)因素,從每個(gè)因素中各取一個(gè)水平組合起來,就形成了一個(gè)特定的“試驗(yàn)條件”。在有多個(gè)試驗(yàn)因素的研究場合中,以不同的方式選取因素的水平組合,就對應(yīng)著不同的“試驗(yàn)設(shè)計(jì)類型”。例如,將所有試驗(yàn)因素的水平全面組合且在各種組合條件下進(jìn)行兩次或兩次以上獨(dú)立重復(fù)試驗(yàn),此安排就被稱為“析因設(shè)計(jì)”;又例如,依據(jù)正交原理從全部水平組合中選取部分水平組合來安排試驗(yàn),就被稱為“正交設(shè)計(jì)”[1]。以此類推,還有“均勻設(shè)計(jì)”“最優(yōu)設(shè)計(jì)”和“正交組合設(shè)計(jì)”等[2-3]。
前面所說的每個(gè)試驗(yàn)條件常被稱為“試驗(yàn)點(diǎn)”,也就是說,每個(gè)“試驗(yàn)點(diǎn)”實(shí)際上就是由擬考察的試驗(yàn)因素各取一個(gè)水平的一種組合。若試驗(yàn)結(jié)果是定量的,在各試驗(yàn)點(diǎn)上實(shí)施試驗(yàn)后,就可以觀測到一個(gè)或多個(gè)具體的數(shù)值。在實(shí)際問題中,當(dāng)定量觀測結(jié)果的取值越大越好時(shí),就稱此類定量指標(biāo)為“高優(yōu)指標(biāo)”;反之,就稱為“低優(yōu)指標(biāo)”。若定量指標(biāo)取中等值為優(yōu),這種情況并不多見,不屬于本文討論的范疇。
所謂“理想試驗(yàn)點(diǎn)”,也被稱為“最優(yōu)試驗(yàn)條件”,是指“高優(yōu)指標(biāo)”或“低優(yōu)指標(biāo)”獲得最優(yōu)取值時(shí)所對應(yīng)的“試驗(yàn)點(diǎn)”或“試驗(yàn)條件”。
本文涉及到三種統(tǒng)計(jì)分析方法:方差分析、回歸分析、結(jié)合分析。一般來說,方差分析的主要目的是考察各因素對定量指標(biāo)的影響,一方面希望能將全部因素及其交互作用對定量結(jié)果的影響分出主次關(guān)系,另一方面希望能揭示出每個(gè)因素各水平對定量結(jié)果影響之間的差異。回歸分析的主要目的是構(gòu)建因變量依賴自變量變化而變化的回歸模型,同時(shí)篩選出對因變量具有統(tǒng)計(jì)學(xué)意義的自變量,有時(shí),還需要在給定自變量取不同值的條件下,預(yù)測因變量的數(shù)值;而結(jié)合分析的主要目的是希望給出各因素對“偏好評分”影響大小的“重要性”的度量,同時(shí)希望給出每個(gè)屬性(或因素)的每個(gè)水平作用大小的“效用值”的度量。
從上面的介紹似乎可以認(rèn)為上述三種分析方法是完全不同的,事實(shí)上,它們都屬于回歸模型分析法。因?yàn)榉讲罘治瞿P捅举|(zhì)上就是一種簡單的回歸模型,而結(jié)合分析模型實(shí)際上是將屬性(或因素)的每個(gè)水平當(dāng)作一個(gè)“二值自變量”,并基于“效用值”可疊加的假定構(gòu)建出來的回歸模型[4]。
在SAS/STAT的TRANSREG過程中有一個(gè)名為“BOX-COX變換”的樣例:在紡織研究中,紗線的壽命主要受三個(gè)試驗(yàn)因素的影響[5]。見表1。
表1 影響紗線壽命的三個(gè)主要試驗(yàn)因素及其水平
注:表中圓括號之前的數(shù)字為因素的“真實(shí)水平”,圓括號內(nèi)為因素的“代碼水平”
由表1可知,這是一個(gè)涉及三個(gè)3水平試驗(yàn)因素的試驗(yàn)研究,若將3個(gè)試驗(yàn)因素的水平全面組合,就有27種不同的試驗(yàn)條件,每個(gè)試驗(yàn)條件下的試驗(yàn)結(jié)果為紗線的壽命長短(單位不詳),是一個(gè)計(jì)量變量。研究者在27種不同試驗(yàn)條件下都只進(jìn)行了一次試驗(yàn),即沒有進(jìn)行重復(fù)試驗(yàn),其試驗(yàn)結(jié)果(用Fail表示)和27種水平組合見表2。
表2 三個(gè)3水平因素水平全面組合條件下紗線壽命數(shù)據(jù)
表2中結(jié)果變量Fail的頻數(shù)分布見圖1。由圖1可知,結(jié)果變量Fail呈極嚴(yán)重的正偏態(tài)分布。
圖1 結(jié)果變量Fail的頻數(shù)分布直方圖
上述樣例的專業(yè)問題實(shí)際上就是一個(gè)具有三因素析因設(shè)計(jì)結(jié)構(gòu)的一元計(jì)量資料的統(tǒng)計(jì)處理問題。由于在因素各水平組合條件下未進(jìn)行重復(fù)試驗(yàn),所以,表2中的“安排”不能被稱為一個(gè)“標(biāo)準(zhǔn)的析因設(shè)計(jì)”,而只能叫做具有“析因結(jié)構(gòu)”。統(tǒng)計(jì)處理的困難在于:其一,結(jié)果變量偏離正態(tài)分布很遠(yuǎn);其二,未進(jìn)行重復(fù)試驗(yàn),樣本含量嚴(yán)重不足,無法分析因素之間可能存在的交互作用效應(yīng)的大小。
一般來說,在多因素試驗(yàn)研究場合,當(dāng)結(jié)果變量為計(jì)量變量時(shí),統(tǒng)計(jì)分析的任務(wù)是研究哪些因素對結(jié)果的影響是主要的、哪些是次要的;因素之間各級交互作用的效應(yīng)大??;有時(shí),研究者還希望求出“理想試驗(yàn)點(diǎn)”,即在多個(gè)試驗(yàn)因素分別取什么樣的水平組合條件下,所得到的試驗(yàn)結(jié)果在專業(yè)上是最滿意的。就本例而言,在什么樣的試驗(yàn)條件下,紗線的壽命最長(它屬于“高優(yōu)指標(biāo)”)。
第一,可以對計(jì)量因變量采取BOX-COX變換,使其服從或近似服從正態(tài)分布[5-6]。第二,可以對定性自變量(即試驗(yàn)因素)采取變量擴(kuò)展變換,例如“CLASS變換”或“POINT變換”或“EPOINT變換”或“QPOINT變換”[5]。實(shí)際上,前述提及的那些“變量擴(kuò)展變換”類似于將定性變量數(shù)量化,也就是給定性變量的水平重新編碼,并引入交互作用項(xiàng)。第三,將原本屬于“方差分析的任務(wù)”改換為“回歸分析任務(wù)”,即構(gòu)建變換后的因變量關(guān)于變量擴(kuò)展變換產(chǎn)生的自變量的回歸模型。第四,借助“結(jié)合分析”[7-8]的思路和方法,獲得各試驗(yàn)因素對結(jié)果變量的“重要性”評價(jià)及試驗(yàn)因素各水平的“分值效用”大小,得出“理想試驗(yàn)點(diǎn)(即全部因素最佳的水平組合對應(yīng)的試驗(yàn)條件)”。
利用以下SAS程序,可以形成待分析的SAS數(shù)據(jù)集:
proc format;
value a -1=80 =9 1=10;
value l -1=250 0=300 1=350;
value o -1=40 0=45 1=50;
run;
data yarn;
input Fail Amplitude Length Load @@;
format amplitude a. length l. load o.;
label fail = 'Time in Cycles until Failure';
datalines;
674-1-1-1370-1-10292-1-113380-1-12660-102100-111701-1-11181-10901-111414-10-11198-100634-101102200-162000043800144210-13321002201013636-11-13184-1102000-111156801-11070010566011114011-1884110360111
;
run;
利用以下SAS程序,可以直方圖形式呈現(xiàn)結(jié)果變量Fail的頻數(shù)分布情況:
proc univariate data=yarn normal;
var fail;
histogram fail;
run;
以上程序運(yùn)行的結(jié)果如圖1所示。
對結(jié)果變量Fail進(jìn)行BOX-COX變換,同時(shí),對定性自變量進(jìn)行QPOINT變量擴(kuò)展變換。所需要的SAS程序如下:
ods graphics on;
proc transreg details data=yarn ss2 utilities
plots=(transformation(dependent) obp);
model BoxCox(fail / convenientlambda=-2 to 2 by 0.05) =
qpoint(length amplitude load);
output out=aaa approximations;
run;
【SAS程序說明】“proc transreg”調(diào)用TRANSREG過程;“model語句”等號左邊為對因變量Fail進(jìn)行“BOX-COX變換”,此變換的一個(gè)關(guān)鍵參數(shù)叫做“l(fā)ambda”,經(jīng)過嘗試,需在(-2,2)范圍內(nèi)按步長為0.05去選擇具體的lambda值并代入計(jì)算,選擇使對數(shù)似然函數(shù)取最大值時(shí)的lambda值。當(dāng)此值帶有很多位小數(shù)時(shí),盡可能取一個(gè)簡約的數(shù)值(即“convenient”的含義)?!皅point變量擴(kuò)展變換”是對三個(gè)定性變量進(jìn)行二次反應(yīng)面變換,即在三個(gè)定性變量的基礎(chǔ)上,增加它們的平方項(xiàng)和二次交叉乘積項(xiàng)。
利用以下SAS程序,可以直方圖形式顯示對因變量Fail進(jìn)行BOX-COX變換的結(jié)果(注:tfail是對變量fail采用BOX-COX變量變換后的變量)。
proc univariate data=aaa normal;
var tfail;
histogram tfail/normal;
run;
以上SAS程序的輸出結(jié)果見圖2:
圖2 經(jīng)過BOX-COX變換后的結(jié)果變量tfail的頻數(shù)分布直方圖
對變換后的因變量tfail進(jìn)行假設(shè)檢驗(yàn),所得結(jié)果如下:
Goodness-of-FitTestsforNormalDistribution檢驗(yàn)統(tǒng)計(jì)量PKolmogorov-SmirnovD0.08312402Pr>D>0.150Cramer-vonMisesW-Sq0.02172925Pr>W-Sq>0.250Anderson-DarlingA-Sq0.13498929Pr>A-Sq>0.250
由圖2和以上關(guān)于正態(tài)性檢驗(yàn)結(jié)果可知,經(jīng)過BOX-COX變換后的結(jié)果變量tfail服從正態(tài)分布。
上述“model語句”實(shí)際上創(chuàng)建了一個(gè)經(jīng)BOX-COX變換后的因變量tfail關(guān)于經(jīng)QPOINT變量擴(kuò)展變換后的三個(gè)定性自變量及其所有二次項(xiàng)的“二次反應(yīng)曲面回歸模型”。見圖3。
由圖3中倒數(shù)第2列可知,三個(gè)試驗(yàn)因素的主效應(yīng)項(xiàng)(即一次項(xiàng))都具有統(tǒng)計(jì)學(xué)意義;而由它們產(chǎn)生的所有二次項(xiàng)都沒有統(tǒng)計(jì)學(xué)意義。
圖3 二次反應(yīng)曲面回歸模型的參數(shù)估計(jì)與假設(shè)檢驗(yàn)結(jié)果
反映回歸模型對資料擬合效果的輸出結(jié)果如下:
RootMSE0.19383R-Square0.9725DependentMean6.33466AdjR-Sq0.9579CoeffVar3.05987Lambda0.0000
以上結(jié)果表明:模型對資料的擬合效果較好,R2=0.9725,校正的R2=0.9579。
利用以下SAS程序,可以獲得更簡約的回歸模型。
proc transreg details data=yarn ss2 utilities
plots=(transformation(dependent) obp);
model BoxCox(fail / convenientlambda=-2 to 2 by 0.05) =
class(length amplitude load/zero=sum);output out=aaa approximations;
run;
簡約回歸模型的輸出結(jié)果見圖4。
圖4 僅含主效應(yīng)回歸模型的參數(shù)估計(jì)與假設(shè)檢驗(yàn)結(jié)果
由圖4可知,三個(gè)試驗(yàn)因素都有3個(gè)水平,都以中間水平為“基準(zhǔn)”,除中間水平無統(tǒng)計(jì)學(xué)意義外,其他均有統(tǒng)計(jì)學(xué)意義。
反映回歸模型對資料擬合效果的輸出結(jié)果如下:
RootMSE0.18942R-Square0.9691DependentMean6.33466AdjR-Sq0.9598CoeffVar2.99029Lambda0.0000
以上結(jié)果表明:模型對資料的擬合效果較好,R2=0.9691,校正的R2=0.9598。
與前面的結(jié)果相比,簡約回歸模型比復(fù)雜回歸模型的R2略低,但校正的R2反而略高。
關(guān)于各試驗(yàn)因素的“重要性”和“效用值”的輸出結(jié)果見圖5。由圖5第4列可知,三個(gè)試驗(yàn)因素的重要性分別為:紗線測試樣品的長度(A)占44.851%、負(fù)載循環(huán)時(shí)的振幅大小(B)占34.000%,負(fù)載量(C)占21.149%。由圖5第2列可知,“Utility”為各試驗(yàn)因素的各水平的“效用值”,當(dāng)結(jié)果變量屬于“高優(yōu)指標(biāo)”時(shí),將各試驗(yàn)因素正的最大效用值對應(yīng)的“水平”組合在一起,就構(gòu)成了“理想試驗(yàn)點(diǎn)”。就本例而言,在理想試驗(yàn)點(diǎn)為“l(fā)ength 350”“Amplitude 8”和“Load 40”所構(gòu)成的試驗(yàn)條件下,即當(dāng)紗線長度取350 mm、振幅取8 mmd和負(fù)載量取40 g時(shí),紗線壽命最長。
圖5 各試驗(yàn)因素的“重要性”及其各水平的“效用值”的輸出結(jié)果
在多因素試驗(yàn)研究中,要了解各因素對試驗(yàn)結(jié)果的影響情況,特別是因素之間各級交互作用的效應(yīng),最合適的試驗(yàn)設(shè)計(jì)類型為多因素析因設(shè)計(jì)。然而,多因素析因設(shè)計(jì)至少應(yīng)滿足兩個(gè)特點(diǎn):第一,全部試驗(yàn)點(diǎn)應(yīng)該由所有試驗(yàn)因素水平的全面組合而成;第二,在各試驗(yàn)點(diǎn)條件下,至少要做兩次獨(dú)立重復(fù)試驗(yàn)。本文中的樣例滿足了前面提及的第一點(diǎn),但不滿足第二點(diǎn),嚴(yán)格來說,此樣例在試驗(yàn)設(shè)計(jì)上是存在瑕疵的。
通常的方差分析或多重回歸分析對資料都有很高的要求,例如正態(tài)性和方差齊性等。樣例中的因變量呈嚴(yán)重的正偏態(tài)分布,通過采用BOX-COX變換,使其偏斜情況得到了很好的校正。將結(jié)合分析與回歸分析有機(jī)地結(jié)合在一起,不僅可以獲得各試驗(yàn)因素對試驗(yàn)結(jié)果影響情況的分析結(jié)果,還能獲得關(guān)于各試驗(yàn)因素重要性的評價(jià)以及確定出理想的試驗(yàn)點(diǎn)。
SAS中的TRANSREG過程具有很強(qiáng)且多樣性的變量變換能力,它集方差分析、回歸分析和結(jié)合分析于一體,能夠很好地處理不符合傳統(tǒng)統(tǒng)計(jì)學(xué)要求的復(fù)雜資料,獲得滿意的統(tǒng)計(jì)分析結(jié)果。