胡純嚴(yán) ,胡良平 ,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在構(gòu)建廣義線性回歸模型、Cox比例和非比例風(fēng)險回歸模型的過程中,常涉及參數(shù)的檢驗問題,例如:檢驗部分或全部回歸系數(shù)是否為0;還會涉及前述提及的各種情形下回歸系數(shù)的區(qū)間估計問題;在處理復(fù)雜抽樣設(shè)計定性資料時,可能會涉及一維頻數(shù)分布表資料和二維頻數(shù)分布表資料的獨(dú)立性假設(shè)檢驗問題。本文介紹解決前述提及的三類問題所需要的Wald’s檢驗及其SAS實現(xiàn)。
設(shè)logistic回歸模型中只有一個自變量,則檢驗回歸系數(shù)β是否為0,可用以下兩個公式[1-3]之一:
設(shè)logistic回歸模型中的回歸系數(shù)向量β具有K個分量,在SAS/STAT的PHREG過程中,給出的5個檢驗統(tǒng)計量(即似然比檢驗統(tǒng)計量、一般評分檢驗統(tǒng)計量、Wald’s檢驗統(tǒng)計量、穩(wěn)健評分檢驗統(tǒng)計量和穩(wěn)健Wald’s檢驗統(tǒng)計量)都服從自由度df=K的χ2分布。這5種檢驗都可以用于檢驗回歸模型中全部回歸系數(shù)是否都等于0,即H0:β=0。其中,一般Wald’s檢驗統(tǒng)計量和穩(wěn)健Wald’s檢驗統(tǒng)計量的定義[4-5]如下:
Binder于1992年將權(quán)重整合到分析之中,推導(dǎo)出β?的穩(wěn)健中間方差估計量:
式(5)中,I(β?)是觀測的信息矩陣,a?2=aa'。
注意:當(dāng)wi≡1,V?S(β?)=D'D,此處,D是DFBETA殘差矩陣(說明:DFBETA變量與回歸分析資料中每一個觀測有關(guān),它是用來度量每個觀測對回歸系數(shù)影響大小的一個差量 δβ?i= β?- β?(i),其中 β?是全部觀測所對應(yīng)的回歸系數(shù)或回歸系數(shù)向量,而β?(i)是第i個觀測不在回歸模型中所對應(yīng)的回歸系數(shù)或回歸系數(shù)向量)。
【說明】Wald’s檢驗統(tǒng)計量可用于檢驗單個回歸系數(shù)或全部回歸系數(shù)是否為0;可用于檢驗已進(jìn)入回歸模型中的自變量是否可以被刪除;還可用于估計回歸系數(shù)的置信區(qū)間。
關(guān)于回歸系數(shù)β的線性假設(shè)可以表述如下:
式(6)中,L是線性假設(shè)的系數(shù)矩陣;c是常數(shù)向量;回歸系數(shù)β的向量包含斜率參數(shù)和截距參數(shù)。與檢驗假設(shè)H0對應(yīng)的約束Wald’s χ2檢驗統(tǒng)計量見式(7):
【說明】當(dāng)取常數(shù)向量c=0時,此檢驗方法可用于檢驗回歸模型中參數(shù)是否為0。
1.3.1 概述
在SAS/STAT的SURVEYFREQ過程中,針對復(fù)雜抽樣設(shè)計(包括整群抽樣和分層抽樣)頻數(shù)資料,有兩種檢驗二維列聯(lián)表資料中行、列兩變量之間獨(dú)立性假設(shè)的新方法,即廣義Wald’s χ2檢驗與廣義Wald’s對數(shù)線性χ2檢驗。其中,廣義Wald’s χ2檢驗法是基于加權(quán)觀察頻數(shù)與加權(quán)期望頻數(shù)之差量構(gòu)造出來的;而廣義Wald’s對數(shù)線性χ2檢驗法是基于對數(shù)優(yōu)勢比構(gòu)造出來的。在構(gòu)造這兩種檢驗方法的過程中,都將復(fù)雜抽樣設(shè)計考慮在內(nèi)。在大樣本條件下,前述提及的兩種檢驗統(tǒng)計量均服從自由度df=(R-1)(C-1)的χ2分布。然而,依據(jù)實際的顯著性水平和檢驗效能來考量,前述提及的兩種檢驗方法已顯示出較差的表現(xiàn),特別是對于具有大的格頻數(shù)或相對較小群數(shù)的二維列聯(lián)表資料更是如此。為此,有多位統(tǒng)計學(xué)家提出了改進(jìn)的建議,即采用F檢驗(用于2×2列聯(lián)表資料)和校正F檢驗(用于非2×2列聯(lián)表資料)。F檢驗和校正F檢驗比前述提及的兩種χ2檢驗更穩(wěn)定[4]。
1.3.2 廣義Wald’s χ2檢驗統(tǒng)計量
在二維列聯(lián)表資料中行、列兩變量之間獨(dú)立性假設(shè)成立的條件下,期望格頻數(shù)的計算方法如下:
式(8)中,N?r.與N?.c分別代表第r行與第c列上估計的頻數(shù),N?代表估計的總頻數(shù)??傮w加權(quán)頻數(shù)等于期望頻數(shù)的無效假設(shè),可以采用下式表達(dá):
式(9)中,r=1,2,…,(R-1),c=1,2,…,(C-1)。于是,廣義Wald’s檢驗統(tǒng)計量的定義見下式:
式(10)中,Y?是由(R-1)(C-1)個觀察加權(quán)頻數(shù)與期望加權(quán)頻數(shù)之差量(N?rc-Erc)組成的數(shù)組,HV?(N?)H'是Y?的方差的估計值,V?(N?)是N?rc估計值的協(xié)方差矩陣。在SAS/STAT的SURVEYFREQ過程中,方差估計方法共有6種,即臺勞級數(shù)方差估計量、復(fù)制方差估計量、自助法、平衡重復(fù)復(fù)制(BBR)法、Fay’s BBR法和刀切法[4],因篇幅所限,此處從略。H是一個Q×P階矩陣,其中,Q=(R-1)(C-1),P=R×C。H矩陣的元素為Y?的元素關(guān)于N?的元素的偏導(dǎo)數(shù)。
1.3.3 廣義Wald’s對數(shù)線性χ2檢驗統(tǒng)計量
對于R行C列的二維列聯(lián)表資料,廣義Wald’s對數(shù)線性檢驗基于一個(R-1)(C-1)維的數(shù)組導(dǎo)出,其元素Y?rc定義如下:
式(11)中,N?rc是二維表中第(r,c)格上被估計的總頻數(shù)。行與列變量之間的獨(dú)立性假設(shè)可采用下式來表達(dá):
式(12)中,r=1,2,…,(R-1),c=1,2,…,(C-1)。于是,廣義Wald’s對數(shù)線性檢驗統(tǒng)計量的定義見下式:
式(13)中,Y?是 Y?rc的(R-1)(C-1)維的數(shù)組,V?(Y?)是Y?的方差估計值,其計算見下式:
式(14)中,V?(N?)是估計量 N?rc的協(xié)方差矩陣;D是一個對角矩陣,其對角線上的元素為估計的總數(shù)N?rc;A是一個Q×P階矩陣,其中,Q=(R-1)(C-1),P=RC×RC。
1.3.4 Wald’s F檢驗統(tǒng)計量與Wald’s校正F檢驗統(tǒng)計量
基于公式(10)得到Wald’s F檢驗統(tǒng)計量見式(15):
式(15)中,F(xiàn)W服從分子自由度df1=(R-1)(C-1)、分母自由度為df2的F分布。
對于大于2×2表的二維列聯(lián)表資料,需要計算校正的F檢驗統(tǒng)計量?;诠剑?0)得到Wald’s校正F檢驗統(tǒng)計量見式(16):
式(16)中,k=df1=(R-1)(C-1),s=df2。
上面提及的df2的取值與抽樣設(shè)計和方差估計方法有關(guān)。如果采用臺勞級數(shù)法估計方差,df2=群數(shù)-層數(shù);如果沒有群數(shù),df2=觀測數(shù)-層數(shù);若不是分層設(shè)計,df2=群數(shù)-1。如果采用復(fù)制法估計方差,df2=復(fù)制數(shù)。如果采用BBR法估計方差,df2=層數(shù)。如果采用自助法和刀切法估計方差,df2=群數(shù)-層數(shù);如果沒有群數(shù),df2=觀測數(shù)-層數(shù);若不是分層設(shè)計,df2=群數(shù)-1。
1.3.5 Wald’s對數(shù)線性F檢驗統(tǒng)計量與校正Wald’s對數(shù)線性F檢驗統(tǒng)計量
基于公式(13)得到Wald’s對數(shù)線性F檢驗統(tǒng)計量見式(17):
基于公式(13)得到校正Wald’s對數(shù)線性F檢驗統(tǒng)計量見式(18):
在式(17)和式(18)中,有關(guān)變量或符號的含義與式(15)和式(16)后面的解釋完全相同,此處從略。
【例1】為研究2型糖尿病患病的危險因素,某研究者隨機(jī)選取某市社區(qū)常見慢性非傳染性疾病的篩查中檢出的2型糖尿病患者113例,同時在社區(qū)隨機(jī)選取120名正常人,收集他們的相關(guān)資料,包括年齡(歲),性別(0=男性,1=女性),吸煙情況(0=不吸煙,1=吸煙),飲酒情況(0=不飲酒,1=飲酒),2型糖尿?。∕D)家族史(0=無,1=有),動脈粥樣硬化血栓形成(AT)家族史(0=無,1=有),收縮壓(mmHg)、舒張壓(mmHg)。用1和0分別表示患與未患2型糖尿病。表1列出了部分研究對象的資料[6]。試采用合適的方法分析哪些因素易導(dǎo)致受試對象患2型糖尿病。
表1 2型糖尿病相關(guān)危險因素的調(diào)查資料
【例2】文獻(xiàn)[4]提供了一個關(guān)于學(xué)生信息系統(tǒng)(SIS)的顧客滿意度調(diào)查資料。這次抽樣調(diào)查的抽樣設(shè)計是兩階段分層隨機(jī)抽樣設(shè)計。在第1階段的各層中,根據(jù)學(xué)校的規(guī)模,采用按比例和無放回的概率抽樣方式抽取學(xué)校。從每一個被抽取的學(xué)校中,隨機(jī)抽取5名工作人員(包括3名教師以及2名管理者或指導(dǎo)者)完成SIS滿意度問卷調(diào)查。SAS數(shù)據(jù)集SIS_Survey包含抽樣結(jié)果和數(shù)據(jù)分析所需要的抽樣設(shè)計信息。主要變量及含義如下:
Response(結(jié)果變量,即對SIS的滿意程度):很不滿意、不滿意、中立、滿意、很滿意;State(州):喬治亞州、美國南卡羅來納州、美國北卡羅來納州;Newuser(用戶類型):新用戶、續(xù)用用戶;School(學(xué)校):第1階段的抽樣單位;SamplingWeight(抽樣權(quán)重):基于每個抽樣階段來計算并根據(jù)是否缺失數(shù)據(jù)進(jìn)行調(diào)整;SchoolType(學(xué)校類型):高中、初中;Department(部門):教師、管理者或指導(dǎo)者。其中,State(州)和Newuser(用戶類型)是兩個分層因素,共形成6層;School(學(xué)校)是群,共抽取了370個群??倶颖竞繛?70×5=1850人。
基于此資料進(jìn)行以下兩種分析:①試分析Response(結(jié)果變量,即對SIS的滿意程度)的頻數(shù)分布;②試分析SchoolType(學(xué)校類型)與Response(結(jié)果變量,即對SIS的滿意程度)兩變量之間是否互相獨(dú)立。
2.2.1 分析例1資料所需的SAS程序
【分析與解答】設(shè)所需要的SAS程序如下:
【程序說明】因本例中的數(shù)據(jù)很多,以文本格式存儲在D盤文件夾MXWTTJXS中,數(shù)據(jù)文件名為prg35_3.dat;model語句中的選項“sle=0.5 sls=0.02”是為了演示SAS軟件在逐步回歸分析過程中的具體表現(xiàn),即選變量進(jìn)入回歸方程采用的是評分檢驗;而從回歸模型中刪除自變量采用的是Wald’s檢驗。同時,還可以看到:檢驗回歸模型中全部自變量的回歸系數(shù)同時為0時,采用了3種檢驗方法,包括似然比檢驗、評分檢驗和Wald’s檢驗;估計回歸系數(shù)的置信區(qū)間采用的是Wald’s檢驗。
【SAS輸出結(jié)果及解釋】
以上輸出的是采用3種檢驗方法檢驗回歸模型中3個回歸系數(shù)同時為0的檢驗結(jié)果,因P值都小于0.05,說明3個自變量對因變量的影響都具有統(tǒng)計學(xué)意義,應(yīng)該保留在回歸模型中。
【說明】因篇幅所限,上面僅呈現(xiàn)了部分與Wald’s檢驗有關(guān)的輸出結(jié)果,故不適合給出統(tǒng)計結(jié)論和專業(yè)結(jié)論。
2.2.2 分析例2資料中第1個問題所需的SAS程序
【分析與解答】設(shè)所需要的SAS程序如下:
【程序說明】tables語句中指定結(jié)果變量;strata語句中指定分層變量;cluster語句中指定群變量;weight語句中指定權(quán)重變量。第1個過程步產(chǎn)生單因素(這里實際上是定性的結(jié)果變量Response)頻數(shù)分布表;第2個過程步是采用 Rao-Scott’s χ2檢驗進(jìn)行擬合優(yōu)度檢驗。
【SAS輸出結(jié)果及解釋】
以上輸出的是擬合優(yōu)度檢驗的結(jié)果。
【統(tǒng)計結(jié)論與專業(yè)結(jié)論】擬合優(yōu)度檢驗的結(jié)果為P<0.0001,說明評價結(jié)果(Response)5個檔次中的頻數(shù)不等,“中立”的頻數(shù)最高,“很滿意”的頻數(shù)最低。
2.2.3 分析例2資料中第2個問題所需的SAS程序
【分析與解答】設(shè)所需要的SAS程序如下:
【SAS輸出結(jié)果及解釋】
以上輸出的是采用 Rao-Scott’s χ2檢驗法對SchoolType(學(xué)校類型)與Response(結(jié)果變量,即對SIS的滿意程度)兩變量之間互相獨(dú)立假設(shè)的檢驗結(jié)果。因P>0.05,說明兩變量之間的獨(dú)立性假設(shè)成立,即兩種學(xué)校類型下評價結(jié)果的頻數(shù)分布基本相同。
【說明】Rao-Scott’s χ2檢驗法是校正設(shè)計后的Pearson’s χ2檢驗法,因篇幅所限,該方法的計算公式從略,可參閱文獻(xiàn)[4]。
【統(tǒng)計結(jié)論與專業(yè)結(jié)論】對學(xué)生信息系統(tǒng)(SIS)的評價結(jié)果不會隨著學(xué)校類型的改變而改變,也就是說,各類學(xué)校給出的評價結(jié)果5種檔次的頻數(shù)分布與前面所呈現(xiàn)的“單變量頻數(shù)分布”的結(jié)果(即全部被調(diào)查對象給出的評價結(jié)果)基本一致。
Wald’s檢驗的應(yīng)用場合比較多,不僅在廣義線性回歸模型的構(gòu)建過程中的多個環(huán)節(jié)(例如:在檢驗全部回歸系數(shù)是否為0、從回歸模型中是否需要剔除某些自變量、求回歸系數(shù)和優(yōu)勢比的置信區(qū)間等)上發(fā)揮了重要作用,而且在分析復(fù)雜抽樣調(diào)查所得到的定性資料[7-10]方面,也起著不可或缺的作用。然而,在以下兩種場合下,Wald’s檢驗不如似然比檢驗的效果好[1]:情形一,樣本含量較??;情形二,回歸系數(shù)的絕對值很大。
本文介紹了廣泛應(yīng)用于定性資料統(tǒng)計分析的一類假設(shè)檢驗方法,即Wald’s檢驗。在定性資料和生存資料的回歸分析中,常用的Wald’s檢驗有:一般Wald’s檢驗、穩(wěn)健Wald’s檢驗和Wald’s約束χ2檢驗;而在復(fù)雜抽樣調(diào)查定性資料的獨(dú)立性檢驗中,常用的Wald’s檢驗有:廣義Wald’s檢驗、廣義Wald’s對數(shù)線性檢驗、Wald’s F檢驗、Wald’s校正F檢驗、Wald’s對數(shù)線性F檢驗和校正Wald’s對數(shù)線性F檢驗。本文結(jié)合兩個實例并借助SAS軟件,實現(xiàn)了前述提及的大多數(shù)檢驗。