黃福強 許 軍 安勝利△
【提 要】 目的 構建用于評價三分組資料組間協(xié)變量均衡性的指標(簡稱FQ統(tǒng)計量);比較假設檢驗法、標準化差異法和FQ統(tǒng)計量這三種方法檢驗三分組資料組間協(xié)變量均衡性的能力。方法 利用合并方差構建FQ統(tǒng)計量;采用有序多分類和無序多分類logistic回歸計算各組研究個體的傾向性評分值;采用Monte Carlo模擬比較上述三種方法檢驗三分組資料組間協(xié)變量均衡性的能力。結果 假設檢驗法檢驗三組間協(xié)變量均衡性的能力受樣本量大小的影響,而標準化差異法和FQ統(tǒng)計量則不受樣本量大小的影響。標準化差異法和FQ統(tǒng)計量檢驗三組間協(xié)變量均衡性的能力均高于假設檢驗法,且兩者保持高度一致。當協(xié)變量的FQ統(tǒng)計量小于0.2時,認為協(xié)變量在三組間的分布達到均衡。結論 標準化差異法與FQ統(tǒng)計量是有效的協(xié)變量均衡性檢驗方法,而FQ統(tǒng)計量的計算步驟較標準化差異法簡便,因此更具有應用的優(yōu)勢。
傾向性評分的概念由Rosenbaum和Rubin在1983年提出,該方法的基本原理是降維,即用一個傾向性評分值來概括多個協(xié)變量的影響并整合成為一個綜合的分數(shù)[1]。Rubin和Rosenbaum提出傾向性評分的概念及后續(xù)的理論研究中,都是針對兩分組資料[2],傾向性評分目前也主要應用于兩分組資料[3]。后續(xù)Imbens提出了多分組傾向性評分的概念,與兩分組傾向性評分方法進行了比較,并且從理論上證明了多分組傾向性評分方法的可行性[4]。
在傾向性評分匹配前后需要對放入傾向性評分模型中的協(xié)變量進行均衡性檢驗,Flury和Reidwyl在1986年首次提出了標準化差異法(standardized differences,SD)來評價組間協(xié)變量的均衡性[5]。研究表明,當標準化差異小于0.1時,認為兩組間協(xié)變量的均衡性良好[6]。標準化差異法多見于兩分組資料,目前對于多組間協(xié)變量均衡性的評價方法多是采用不同組間標準化差異的最大值作為評價指標,當不同組間標準化差異的最大值小于0.1時,認為組間的協(xié)變量達到均衡[7]。但此方法的計算步驟繁瑣,不便于實際應用。本研究擬構建三分組資料組間協(xié)變量均衡性評價的新指標(以下簡稱FQ統(tǒng)計量),用于直接評價三分組資料組間協(xié)變量的均衡性。
對于多分組資料,合并標準差的定義為:
當組間樣本量相同時,合并標準差的定義為[8]:
因此,在三分組1:1:1的傾向性評分匹配中,合并標準差的定義為:
在二分組資料中,評價組間協(xié)變量均衡性的常用指標為標準化差異值,對于連續(xù)型協(xié)變量,其定義為:
對于二分類協(xié)變量,它的定義為:
上式中,ptreatment和pcontrol分別表示處理組和對照組某協(xié)變量的陽性率。
由二分組協(xié)變量均衡性的評價指標標準化差異值和合并標準差的定義,將標準化差異法延伸到三分組資料,構建出三分組資料組間協(xié)變量均衡性評價的新指標,即FQ統(tǒng)計量。
對于三分組資料的連續(xù)型協(xié)變量,將FQ統(tǒng)計量定義為:
對于三分組資料的二分類協(xié)變量,將FQ統(tǒng)計量定義為:
上式中,p1、p2和p3分別表示三組中某協(xié)變量的陽性率。
(1)在SAS 9.3采用Monte Carlo模擬數(shù)據(jù),假定樣本量為1500,為每個研究個體模擬產生兩個服從二項分布的變量(x1和x2)和兩個服從正態(tài)分布的變量(x3和x4),具體參數(shù)如下:
Bi~Bernoulli(0.5)
Ci~N(0,1)
(2)為每個研究個體產生一個分組狀態(tài)G,G為三分類分組因素,以x1、x2、x3和x4為協(xié)變量建立如下模型:
logit(Pi,j)=β0+β1x1+β2x2+β3x3+β4x4
上式中,Pi,j為第i個研究個體被分到第j組的概率;βi(i=1,2,3,4)為回歸系數(shù),其中ORi=exp(βi),設OR1=OR3=1.1,OR2=OR4=1.5;β0為常數(shù)項,通過調整β0可以控制研究個體被分到某一組的概率,本研究將三組的樣本量比例設置為1:1:1。
(4)重復(1)~(3)步驟1500次,得到樣本量為1500的數(shù)據(jù)集。
(5)為模擬的數(shù)據(jù)集計算x1和x3三組之間兩兩的標準化差異,保存最大的標準化差異值,并計算x1和x3的FQ統(tǒng)計量。分別將x1和x3的最大標準化差異值進行升值排序,觀察FQ統(tǒng)計量的變化趨勢。
(1)分組因素為有序三分類
①在SAS 9.3采用Monte Carlo模擬數(shù)據(jù),假定樣本量初始值為300,為每個研究個體模擬產生兩個服從二項分布的變量(x1和x2)和兩個服從正態(tài)分布的變量(x3和x4),具體參數(shù)如下:
Bi~Bernoulli(0.5)
Ci~N(0,1)
②為每個研究個體產生一個分組狀態(tài)G,G為三分類分組因素,以x1、x2、x3和x4為協(xié)變量建立如下模型[9]:
logit(Pi,j)=β0+β1x1+β2x2+β3x3+β4x4
上式中,Pi,j為第i個研究個體被分到第j組的概率。βi(i=1,2,3,4)為回歸系數(shù),其中ORi=exp(βi),設OR1=OR3=1,OR2=OR4=1.5。β0為常數(shù)項,通過調整β0可以控制研究個體被分到某一組的概率,本研究將三組的樣本量比例設置為1:1:1。
④重復①~②步驟300次,得到樣本量為300的數(shù)據(jù)集。采用χ2檢驗、最大標準化差異法和FQ統(tǒng)計量檢驗協(xié)變量x1的均衡性;采用one way ANOVA、最大標準化差異法和FQ統(tǒng)計量檢驗協(xié)變量x3的均衡性。
⑤保持OR1=OR3=1,OR2=OR4=1.5不變,重復①~④步驟1000次,記錄1000次中x1和x3不均衡的次數(shù),并計算檢出率。
⑥保持OR1=OR3=1,OR2=OR4=1.5不變。逐漸增大樣本量,分別對樣本量300和1800~6000之間進行模擬,當樣本量變化在1800~6000之間時,每重復一次樣本量增加600,每改變一次樣本量,重復①~⑤步驟。
⑦ 設定OR1=1.4,OR3=1.2,OR2=OR4=1.5,并保持不變,逐漸增大樣本量,分別對樣本量100~1500之間進行模擬,每重復一次樣本量增加200。每改變一次樣本量,重復①~⑤步驟。
⑧ 設定OR1=OR3=1,OR2=OR4=1.5,固定OR2=OR4=1.5,固定樣本量為600,逐漸增大OR1和OR3,同時調整常數(shù)項β0保持三組間的樣本量比例為1:1:1,重復步驟①~⑤,每重復一次OR1和OR3的值都增加0.1,OR1和OR3的變化范圍為1~2。
(2)分組因素為無序三分類
①與有序三分類①相同
②為每個研究個體產生一個分組狀態(tài)G,G為三分類分組因素,以x1、x2、x3和x4為協(xié)變量建立如下模型[10]:
上式中,P(G=1)、P(G=2) 和P(G=3) 分別為研究個體被分到第一組、第二組和第三組的概率。βij(i=1,2,3,4;j=1,2)為回歸系數(shù),其中ORij=exp(βij),設OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5。β0j(j=1,2)為常數(shù)項,通過調整β0j(j=1,2)可以控制研究個體被分到某一組的概率,本研究將三組的樣本量比例設置為1:1:1。
③P(G=1)、P(G=2)和P(G=3)分別為研究個體被分到第一組、第二組和第三組的概率,則有
為將三組的樣本量比例控制在1:1:1,利用SAS函數(shù)rantbl求得分組因素:
G=rantb(0,P(G=1),P(G=2),P(G=3))
④與有序三分類④相同
⑤固定OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5,重復①~④步驟1000次,記錄1000次中x1和x3不均衡的次數(shù),并計算檢出率。
⑥固定OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5。該步驟剩余部分與有序三分類⑥相同。
⑦設定OR11=OR31=1,OR12= 1.4,OR32=1.2,OR21=OR41=OR22=OR42=1.5,并保持不變,逐漸增大樣本量。該步驟剩余部分與有序三分類⑦相同
⑧設定OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5,固定OR11=OR31=1,OR21=OR41=OR22=OR42=1.5,逐漸增大OR12和OR32,同時調整常數(shù)項β0j(j=1,2)保持三組間的樣本量比例為1:1:1,重復步驟①~⑤,每重復一次OR12和OR32的值都增加0.1,OR12和OR32的變化范圍為1~2。
按最大標準化差異值升值排序后,x1和x3的FQ統(tǒng)計量分布如圖1和圖2所示(選取部分結果)。
圖1 二分類協(xié)變量x1
圖2 連續(xù)型協(xié)變量x3
按x1和x3的最大標準化差異值進行升值排序后,x1和x3FQ統(tǒng)計量的值呈現(xiàn)遞增次序,當x1和x3的最大標準化差異值為0.1時,對應x1和x3FQ統(tǒng)計量的值為0.2。對于三分組資料,目前大多研究者評價三組間協(xié)變量均衡性的方法是:采用不同組間標準化差異的最大值作為評價指標,當不同組間標準化差異的最大值小于0.1時,即認為組間的協(xié)變量達到均衡。由圖1~2可見,當協(xié)變量FQ統(tǒng)計量的值小于0.2時,則協(xié)變量的最大標準化差異值小于0.1,因此初步確定0.2作為FQ統(tǒng)計量評價三組間協(xié)變量是否均衡的界值,下文將對該界值的合理性進行驗證。
(1)OR1=OR3=1(OR12=OR32=1)時,假設檢驗法、標準化差異法和FQ統(tǒng)計量的檢出率如圖3和圖4所示。
圖3 二分類協(xié)變量x1的檢出率隨樣本量變化的趨勢
圖4 連續(xù)型協(xié)變量x3的檢出率隨樣本量變化的趨勢
結果顯示,對于二分類變量x1和連續(xù)型變量x3,假設檢驗法因為I類錯誤的控制,其檢出率始終處于5%左右。標準化差異法和FQ統(tǒng)計量的檢出率隨樣本量的增大而減小,兩者的檢驗結果保持高度一致。當樣本量較小時,標準化差異法和FQ統(tǒng)計量的檢出率高于假設檢驗法;當樣本量達到6000(即每組的樣本量達到2000)時,標準化差異法和FQ統(tǒng)計量的檢出率均趨于0。
(2)OR1=1.4,OR3=1.2(OR12=1.4,OR32=1.2)時,假設檢驗法、標準化差異法和FQ統(tǒng)計量的檢出率如圖5和圖6所示。
由圖5和圖6所示,對于二分類協(xié)變量x1和連續(xù)型協(xié)變量x3,標準化差異法和FQ統(tǒng)計量的檢出率不受樣本量大小的影響,即使在小樣本情況下,標準化差異法和FQ統(tǒng)計量也能檢驗出協(xié)變量的不均衡性,而假設檢驗法的檢出率隨樣本量的增大而增大。標準化差異法和FQ統(tǒng)計量的檢出率高于假設檢驗法,并且處于平穩(wěn)狀態(tài),標準化差異法和FQ統(tǒng)計量的檢出率保持高度一致。
圖6 連續(xù)型協(xié)變量x3的檢出率隨樣本量變化的趨勢
(3)假設檢驗法、標準化差異法和FQ統(tǒng)計量的檢出率隨OR值變化的結果分別見圖7和圖8。
圖7 二分類協(xié)變量x1的檢出率隨OR值變化的趨勢(n=600)
由圖7和圖8所示,當OR值較小時,標準化差異法和FQ統(tǒng)計量的檢出率均高于假設檢驗法,且標準化差異法和FQ統(tǒng)計量的檢出率保持高度一致,隨著OR值的增大,假設檢驗法的檢出率與準化差異和FQ統(tǒng)計量的檢出率趨于一致。當改變樣本量模擬時,結果保持不變,可以得出,標準化差異法和FQ統(tǒng)計量檢驗協(xié)變量不均衡的能力要強于假設檢驗法。
圖8 連續(xù)型協(xié)變量x3的檢出率隨OR值變化的趨勢(n=600)
本研究構建的FQ統(tǒng)計量可用于檢驗三分組資料組間協(xié)變量的均衡性,當協(xié)變量FQ統(tǒng)計量的值小于0.2時,可認為協(xié)變量在三組間的分布達到均衡。模擬結果顯示,分組因素無論是有序三分類還是無序三分類,協(xié)變量無論是連續(xù)型變量還是二分類變量,FQ統(tǒng)計量和標準化差異法的檢出率都保持高度一致。FQ統(tǒng)計量和標準化差異法的檢出率不受樣本量大小的影響,即使在小樣本情況下,FQ統(tǒng)計量和標準化差異法也能檢驗出協(xié)變量的不均衡性,這兩種方法檢驗協(xié)變量不均衡的能力均強于假設檢驗法,而FQ統(tǒng)計量的計算步驟較標準化差異法簡便,因此更具有應用的優(yōu)勢。經驗證,當三組的樣本比例為1:2:3、2:3:4時,結論與樣本比例為1∶1∶1時一致,因此對于三組樣本不等的情況,本文的結論仍然適合。
本研究僅模擬了二分類協(xié)變量和連續(xù)型協(xié)變量的情況,對于多分類協(xié)變量和非正態(tài)連續(xù)型協(xié)變量的情況有待進一步的研究。