◆俞鐘行/文
2×2×2列聯(lián)表在醫(yī)學(xué)、社會學(xué)領(lǐng)域應(yīng)用頗廣,正交表L8(27)在質(zhì)量管理領(lǐng)域應(yīng)用普遍。說起來,2×2×2列聯(lián)表和正交表L8(27)都是處理3個(gè)因素2個(gè)水平8個(gè)數(shù),但它們之間似乎從未有過交集。在跨界研究趨勢的引導(dǎo)下,本文試用L8(27)來處理2×2×2列聯(lián)表的一個(gè)較為高端的醫(yī)學(xué)問題,發(fā)現(xiàn)其便利、直觀、高效、精準(zhǔn),是一條值得嘗試的路徑。
《醫(yī)學(xué)統(tǒng)計(jì)學(xué)(第四版)》[1]中采用病例對照研究,研究避孕藥與等位基因在靜脈血栓發(fā)生中的作用。該研究共調(diào)查324人,其中病例155人、對照169人,數(shù)據(jù)記錄在表1的2×2×2列聯(lián)表中,欲對避孕藥與基因的交互作用進(jìn)行分析。2×2×2列聯(lián)表有3個(gè)維度,稱為行、列、層,在表1中以X、Y、Z表示。每個(gè)維度有2個(gè)水平,不失一般性,這里以1和-1表示。應(yīng)用列聯(lián)表,往往是為了挖掘和展示數(shù)據(jù)中隱藏的關(guān)聯(lián),但有時(shí)還想對2×2×2列聯(lián)表中的數(shù)據(jù)建模,這就要應(yīng)用高級統(tǒng)計(jì)方法——對數(shù)線性模型及SAS軟件了。
表1 基因與口服避孕藥對照研究頻數(shù)表
本例獲得的最優(yōu)模型為:μijk=exp(μ+λiX+λjY+λkZ+λikXZ+λjkYZ),比全模型少了二階交互項(xiàng)XYZ和一階交互項(xiàng)XY。
得到的理論頻數(shù)如表2中相應(yīng)括弧內(nèi)的數(shù)字所示。
表2 基因與口服避孕藥對照研究頻數(shù)表
現(xiàn)在把基因與口服避孕藥對照研究看作L8(27)正交試驗(yàn),具體分析步驟如下。
①把表1中的8個(gè)數(shù)據(jù)填到表3最右列W的8個(gè)空格中,把它們看作是8次試驗(yàn)的結(jié)果;
②作極差分析,如X列、K(+1)行對應(yīng)的174,是X列取1時(shí)對應(yīng)的W列4個(gè)數(shù)的和,依次類推。可以用Excel的內(nèi)置函數(shù)sumif來作K(+1)和K(-1)的計(jì)算,非常方便。X的極差(R)=174-150=24,依次類推。于是得到所有因素及交互作用的極差從大到小的排序,極差越大、排序越靠前,表明此因素或交互作用越強(qiáng)。可以看到此項(xiàng)研究的關(guān)注點(diǎn)——是否服避孕藥(X)與不同基因類型(Y)的交互作用大?。ㄒ詷O差的排序表示)是最小的。
③在Excel裝上“數(shù)據(jù)分析”模塊,用其中的“回歸”對表3的上9行、右8列作分析。因?yàn)樽鳛椤癥值輸入?yún)^(qū)域”的W列只有8個(gè)數(shù)據(jù),若把含因素的7列都放到“X值輸入?yún)^(qū)域”內(nèi),回歸會出錯(cuò)。但是把極差最弱的那列XY刪去,再作回歸,就可以得到很好的結(jié)果。見圖1。
表3 基因與口服避孕藥對照研究L8(27)分析
此圖自上而下有3 個(gè)表。第一個(gè)表第1 行是復(fù)相關(guān)系數(shù)Multiple R=0.999975,標(biāo)準(zhǔn)誤差=0.707107,都很好。第二個(gè)表Significance F其實(shí)就是方程的p值=0.013295,殘差平方和/總計(jì)平方和=0.0005,都很小,說明回歸方程擬合得好。第三個(gè)表的Coefficients列給出了回歸方程的常數(shù)項(xiàng)、各因素及交互作用的系數(shù),并且從P-value一列看到,沒有超過0.10的,2/3的項(xiàng)在0.05以下。而且各因素、交互作用的極差排序與它的P-value排序是一致的,即極差越大則P-value越小。這給了我們啟示,在數(shù)據(jù)建模時(shí)若需要刪除項(xiàng),就先刪極差排序在最后的,因?yàn)樗诨貧w方程里也是統(tǒng)計(jì)最不顯著的。這相當(dāng)于用“后退法”作逐步回歸。建立數(shù)據(jù)模型-回歸方程如下。
W=40.5+3X-30.25Y-1.75Z+12.75XZ+9YZ-8.5XYZ。
④把表3中8次試驗(yàn)X、Y和Z取的值代入上述回歸方程,可以得到擬合值。它們和實(shí)測值相比,都是增大或減小了0.25。然而在表2中,理論值(即擬合值)和實(shí)測值的差距都超過0.25,所以,該“簡單”方法比“高級”方法的結(jié)果要更好一點(diǎn)。
原例所選的最優(yōu)模型中沒有二階交互項(xiàng)XYZ,好像很符合分析交互效應(yīng)的“效應(yīng)排序原則”[2]。它指出:(1)低階效應(yīng)應(yīng)比高階效應(yīng)更重要;(2)同階效應(yīng)的重要性應(yīng)是相同的。但是,它同時(shí)指出:這個(gè)原則在因子效應(yīng)的數(shù)目較大而不能全部進(jìn)行估計(jì)時(shí)特別有效,這是一個(gè)經(jīng)驗(yàn)原則。本文討論的例子只有3個(gè)因子,用L8(27)進(jìn)行分析時(shí),對所有低階效應(yīng)和高階效應(yīng)都作了完備的分析。而且,在作L8(27)極差分析時(shí),明顯地看到高階效應(yīng)XYZ比低階效應(yīng)XY、X和Z都強(qiáng)。同時(shí),看到由于用基于L8(27)的方法時(shí)保留了XYZ項(xiàng),所得的數(shù)學(xué)模型擬合得更好。《世界級質(zhì)量管理方法》一書中有個(gè)“摩托羅拉波焊24全析因設(shè)計(jì)”的例子[3],由于16次試驗(yàn)可以估計(jì)所有的主效應(yīng)和各階交互作用,因此看到有個(gè)三因子交互作用就比有的二因子交互作用強(qiáng),可見這種情況并非罕見。