胡純嚴(yán) ,胡良平 ,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
多因素設(shè)計(jì)有很多種,它們之間的主要區(qū)別在于以下7個(gè)方面:①因素的性質(zhì)、個(gè)數(shù)及水平數(shù)不盡相同;②全部因素的水平是否需要全面組合(每種組合被稱為一個(gè)“試驗(yàn)點(diǎn)”);③在各試驗(yàn)點(diǎn)上是否進(jìn)行重復(fù)試驗(yàn);④是否存在某些因素的水平是固定的,另一些因素的水平是隨機(jī)選取的;⑤因素在施加時(shí)是否存在先后順序之分;⑥從客觀實(shí)際角度看,因素之間是否存在自然屬性上的嵌套關(guān)系;⑦各因素對(duì)定量結(jié)果的影響是否存在主次之分。具備最后兩點(diǎn)或其中之一的多因素設(shè)計(jì)類型被稱為嵌套設(shè)計(jì)。嵌套設(shè)計(jì)是一種實(shí)用的多因素設(shè)計(jì)方法,本文將詳細(xì)介紹該設(shè)計(jì)的主要特點(diǎn)、設(shè)計(jì)方法、定量資料一元方差分析的計(jì)算公式以及基于SAS軟件實(shí)現(xiàn)定量資料方差分析的方法。
嵌套設(shè)計(jì)也被稱為系統(tǒng)分組設(shè)計(jì)[1]?!扒短住庇袃煞N含義:其一,因素之間存在包含關(guān)系或嵌套關(guān)系;其二,因素對(duì)定量結(jié)果的影響有主次之分[2]。嵌套設(shè)計(jì)就是依據(jù)實(shí)際問題中因素之間的相互關(guān)系或各因素對(duì)結(jié)果的影響情況,以譜系圖的形式呈現(xiàn)出全部因素及其水平。例如,假定A、B、C這三個(gè)二水平因素之間存在包含關(guān)系,或者它們對(duì)結(jié)果的影響存在主次關(guān)系,可用結(jié)構(gòu)圖描述其關(guān)系。見圖1。因素A(兩個(gè)水平分別為A1和A2)為大組因素,因素B(兩個(gè)水平分別為B1和B2)為中組因素,因素C(兩個(gè)水平分別為C1和C2)為小組因素。
圖1 3個(gè)二水平因素的嵌套設(shè)計(jì)結(jié)構(gòu)圖Figure 1 Nested design structure diagram of three two-level factors
由圖1可知,嵌套設(shè)計(jì)近似一個(gè)2×2×2=23析因設(shè)計(jì)的架構(gòu)[1-2],但它們之間卻存在諸多不同之處。嵌套設(shè)計(jì)的特點(diǎn)如下:①因素之間可能存在自然屬性上的相互包含或嵌套關(guān)系,而不是相互獨(dú)立的關(guān)系;或者受試對(duì)象具有分組再分組的條件,基于此,嵌套設(shè)計(jì)又稱為系統(tǒng)分組設(shè)計(jì)[3]。②因素之間可能在對(duì)定量結(jié)果的影響上存在主次關(guān)系,而不是平等關(guān)系。③位于大組因素各水平之下的中組因素和小組因素的水平個(gè)數(shù)可以保持不變,但也可以變化;甚至水平的具體取值也可改變(參見后文表4),通常,中組或小組因素的水平是從眾多水平中隨機(jī)選取的[4-5]。④由于中組因素的每個(gè)水平并非都會(huì)出現(xiàn)在大組因素的每個(gè)水平之下,同樣,小組因素的每個(gè)水平也并非都會(huì)出現(xiàn)在中組因素的每個(gè)水平之下,因此,在嚴(yán)格的嵌套設(shè)計(jì)中,各層級(jí)因素之間沒有交互作用[4]。
針對(duì)嵌套設(shè)計(jì)的第二個(gè)和第三個(gè)特點(diǎn),在對(duì)取自嵌套設(shè)計(jì)的定量資料進(jìn)行方差分析時(shí),分析大組因素時(shí)需采用中組因素的均方作為誤差均方;分析中組因素時(shí)需采用小組因素的均方作為誤差均方;分析小組因素時(shí)需采用模型誤差均方作為誤差均方。
假設(shè)有一個(gè)三因素嵌套設(shè)計(jì)一元定量資料,試驗(yàn)因素分別為A、B、C,其水平數(shù)分別為m、n、p。在每種試驗(yàn)條件下進(jìn)行了r次獨(dú)立重復(fù)試驗(yàn),那么,總的受試對(duì)象數(shù)即為N=mnpr。三因素嵌套設(shè)計(jì)定量資料一元方差分析表見表1[4-5]。
表1 三因素嵌套設(shè)計(jì)一元定量資料的方差分析表Table 1 Analysis of variance table for the univariate quantitative data in three-factor nested design
表1中各統(tǒng)計(jì)量計(jì)算公式如下:
在以上各式中,i=1,2,…,m;j=1,2,…,n;k=1,2,…,p;l=1,2,…,r。
3.1.1 試驗(yàn)因素存在自然屬性上的嵌套關(guān)系
【例1】為研究蘿卜葉子中M物質(zhì)的含量,隨機(jī)采集3個(gè)蘿卜(A1、A2、A3),在每個(gè)蘿卜上隨機(jī)取幾片葉子(B1、B2、B3),蘿卜葉子中M物質(zhì)含量的測(cè)定結(jié)果見表2[2]。顯然,M物質(zhì)的含量,不僅取決于不同的葉子,更主要是與所取自的蘿卜有關(guān),即不同蘿卜之間的變異大于同一個(gè)蘿卜上的葉子之間的變異。試分析不同蘿卜、不同葉片中的M物質(zhì)含量的均值之間差異是否有統(tǒng)計(jì)學(xué)意義。
表2 蘿卜葉子中M物質(zhì)含量的測(cè)定結(jié)果Table 2 Measurement results of the substance M in the radish leaves
【例2】某公司擬分批次從3個(gè)供應(yīng)商(S1、S2、S3)處購買某種原材料,已知該原材料的純度在不同批次之間的變異很大,并可能影響產(chǎn)品質(zhì)量。從每個(gè)供應(yīng)商處隨機(jī)分別抽取四批原材料,并在每批原材料中分別抽取三件測(cè)定其純度。設(shè)計(jì)格式和資料見表3[4]。表3中的數(shù)據(jù)Y是“純度值-93”的結(jié)果,目的是簡化手工計(jì)算的復(fù)雜程度。試分析不同供應(yīng)商、不同批次所對(duì)應(yīng)的原材料純度均值之間差異是否有統(tǒng)計(jì)學(xué)意義。
表3 原材料純度的測(cè)量結(jié)果(Y=純度值-93)Table 3 Measurement results of raw material purity(Y=purity value-93)
3.1.2 試驗(yàn)因素對(duì)定量結(jié)果的影響存在主次之分
【例3】某項(xiàng)化合物的試驗(yàn)研究涉及催化劑的種類和溫度(℃)。依據(jù)專業(yè)知識(shí),催化劑對(duì)該化合物轉(zhuǎn)化率的影響大于溫度的影響,且不同催化劑條件下所對(duì)應(yīng)的溫度不完全相同。設(shè)計(jì)格式和資料見表4[2]。試分析不同催化劑(其水平分別為甲、乙、丙)、不同溫度(℃)(其水平分別為70、80、90;55、65、75;90、95、100)所對(duì)應(yīng)的轉(zhuǎn)化率均值之間的差別是否有統(tǒng)計(jì)學(xué)意義。
表4 某化合物在不同催化劑和不同溫度下的轉(zhuǎn)化率Table 4 Conversion rate of a compound under different catalysts and temperatures
3.1.3 嵌套設(shè)計(jì)與析因設(shè)計(jì)并存的設(shè)計(jì)
【例4】在印刷電路板上手動(dòng)插入電子元件,以提高組裝操作的速度。研究者設(shè)計(jì)了3種裝配夾具(F1、F2、F3)和2個(gè)不同的工作場(chǎng)所(L1、L2)。從每個(gè)工作場(chǎng)所隨機(jī)抽取4位操作者(O1、O2、O3、O4),他們對(duì)每個(gè)裝配夾具重復(fù)操作兩次。試驗(yàn)結(jié)果為裝配時(shí)間(秒)。設(shè)計(jì)格式和資料見表5[4]。試分析3種夾具、2個(gè)工作場(chǎng)所、4位操作者所對(duì)應(yīng)的裝配時(shí)間均值之間差異是否有統(tǒng)計(jì)學(xué)意義。
表5 不同操作者在不同工作場(chǎng)所裝配夾具所用的時(shí)間Table 5 Time spent by different operators assembling fixtures in different workplaces
3.2.1 對(duì)例1的分析與解答
【分析與解答】所需要的SAS程序如下:
【SAS程序說明】數(shù)據(jù)中的“.”代表缺失數(shù)據(jù)。
【SAS輸出結(jié)果及解釋】
由第一部分輸出結(jié)果可知,不同葉片的M物質(zhì)含量的均值之間差異有統(tǒng)計(jì)學(xué)意義(F=10.52,P=0.001 3)。
由第二部分輸出結(jié)果可知,3個(gè)蘿卜的葉子中M物質(zhì)含量的均值之間差異有統(tǒng)計(jì)學(xué)意義(F=8.52,P=0.036 1)。值得注意的是,分析因素A(即大組因素)時(shí),應(yīng)采用因素B(即中組因素)的均方作為誤差均方[6]。
【結(jié)論】不同蘿卜的葉子中M物質(zhì)含量差異有統(tǒng)計(jì)學(xué)意義,且同一個(gè)蘿卜上不同葉片中的M物質(zhì)含量差異也有統(tǒng)計(jì)學(xué)意義。
3.2.2 對(duì)例2的分析與解答
【分析與解答】所需要的SAS程序如下:
【SAS程序說明】第一個(gè)過程步調(diào)用GLM過程進(jìn)行嵌套設(shè)計(jì)定量資料一元方差分析,需要用“TEST語句”為大組因素指定誤差項(xiàng)[“b(s)”的含義是因素b嵌套在因素s之下];而第三個(gè)過程步調(diào)用NESTED過程,只需將大組因素寫在“class語句”中的第一位,將中組因素寫在“class語句”中的第二位。
【SAS輸出結(jié)果及解釋】
由第一個(gè)過程步(GLM過程)的第1部分輸出結(jié)果可知,4批原材料的純度之間差異有統(tǒng)計(jì)學(xué)意義(F=2.94,P=0.016 7)。
由第一個(gè)過程步(GLM過程)的第2部分輸出結(jié)果可知,3個(gè)供應(yīng)商提供的原材料的純度之間差異無統(tǒng)計(jì)學(xué)意義(F=0.97,P=0.415 8)。
由第三個(gè)過程步(NESTED過程步)輸出結(jié)果可知,3個(gè)供應(yīng)商提供的原材料的純度之間差異無統(tǒng)計(jì)學(xué)意義(F=0.97,P=0.415 8),4批原材料的純度之間差異有統(tǒng)計(jì)學(xué)意義(F=2.94,P=0.016 7)。
【說明】采用GLM過程計(jì)算時(shí),需要通過“TEST語句”為大組因素和中組因素分別指定誤差項(xiàng),因此,解讀輸出結(jié)果時(shí)需謹(jǐn)慎;而采用NESTED過程計(jì)算時(shí),可直接輸出所需要的正確結(jié)果。
【結(jié)論】原材料的批次不同,產(chǎn)品純度存在差異;但3個(gè)供應(yīng)商提供的原材料的純度比較接近。
3.2.3 對(duì)例3的分析與解答
【分析與解答】所需要的SAS程序如下:
【SAS程序說明】在以上SAS程序中,因素B的3個(gè)水平分別用1、2、3表示,而在表4中,因素B的水平值隨著因素A的水平改變而改變。若嚴(yán)格按表4中因素的真實(shí)水平呈現(xiàn),SAS程序如下:
后面的內(nèi)容與前一段SAS程序相同,此處從略。
上面兩段SAS程序輸出結(jié)果完全相同。
【SAS輸出結(jié)果及解釋】
由第一部分輸出結(jié)果可知,在不同溫度條件下,化合物轉(zhuǎn)化率的均值之間差異有統(tǒng)計(jì)學(xué)意義(F=12.15,P=0.000 7)。
由第二部分輸出結(jié)果可知,在三種催化劑條件下,化合物轉(zhuǎn)化率均值之間差異有統(tǒng)計(jì)學(xué)意義(F=14.63,P=0.004 9)。
【結(jié)論】化合物轉(zhuǎn)化率均值會(huì)隨著催化劑的改變而變化,也會(huì)隨溫度的改變而變化。具體地說,在甲催化劑條件下,轉(zhuǎn)化率普遍較高,并且當(dāng)溫度居中(80℃)時(shí),轉(zhuǎn)化率最高;在乙催化劑條件下,轉(zhuǎn)化率普遍較低,并且溫度最高(75℃)時(shí),轉(zhuǎn)化率最低。
3.2.4 對(duì)例4的分析與解答
【分析與解答】所需要的SAS程序如下:
【SAS程序說明】“O(L)”的含義是因素O嵌套在因素L之下;第一個(gè)“TEST語句”的含義是用“F*O(L)”作為誤差項(xiàng)分析“因素F”和“交互作用F*L”;第二個(gè)“TEST語句”的含義是用“O(L)”作為誤差項(xiàng)分析“因素L”。
【SAS輸出結(jié)果及解釋】
由輸出結(jié)果可知,操作者O(L)對(duì)試驗(yàn)結(jié)果的影響具有統(tǒng)計(jì)學(xué)意義(F=5.14,P=0.001 6);交互作用F*O(L)對(duì)試驗(yàn)結(jié)果的影響具有統(tǒng)計(jì)學(xué)意義(F=2.35,P=0.030 0);因素F(即夾具種類)對(duì)試驗(yàn)結(jié)果的影響具有統(tǒng)計(jì)學(xué)意義(F=7.55,P=0.007 6);因素L(即工作場(chǎng)所)對(duì)試驗(yàn)結(jié)果的影響無統(tǒng)計(jì)學(xué)意義(F=0.34,P=0.580 7)。
【結(jié)論】3種夾具對(duì)應(yīng)的試驗(yàn)結(jié)果均值之間差異有統(tǒng)計(jì)學(xué)意義,2個(gè)工作場(chǎng)所對(duì)應(yīng)的試驗(yàn)結(jié)果均值之間差異無統(tǒng)計(jì)學(xué)意義,4位操作者對(duì)應(yīng)的試驗(yàn)結(jié)果均值之間差異有統(tǒng)計(jì)學(xué)意義。
對(duì)于嵌套設(shè)計(jì)而言,從因素分層角度來看,受試對(duì)象可以按多個(gè)因素進(jìn)行逐層分組;從組間變異度角度來看,大組因素水平組之間的變異大于中組因素水平組之間的變異,中組因素水平組之間的變異大于小組因素水平組之間的變異。
嵌套設(shè)計(jì)中一個(gè)值得關(guān)注的情形是:位于中層或底層因素的水平個(gè)數(shù)以及水平的具體取值是可變的,有時(shí)是隨機(jī)選取的。因此,嵌套設(shè)計(jì)定量資料的方差分析方法屬于混合效應(yīng)線性模型;若所有因素都是隨機(jī)效應(yīng)因素,則需要采用方差分量模型分析[4,6]。
本文介紹了嵌套設(shè)計(jì)的基本概念和設(shè)計(jì)特點(diǎn),總結(jié)出3類嵌套設(shè)計(jì):試驗(yàn)因素存在自然屬性上的嵌套關(guān)系、試驗(yàn)因素對(duì)定量結(jié)果的影響存在主次之分以及嵌套設(shè)計(jì)與析因設(shè)計(jì)并存的設(shè)計(jì)?;?個(gè)實(shí)例,借助SAS軟件實(shí)現(xiàn)了嵌套設(shè)計(jì)定量資料一元方差分析,并對(duì)SAS輸出結(jié)果作出詳細(xì)解讀。