南方醫(yī)科大學生物統(tǒng)計學系(510515)
劉 薇 吳 軍 曹穎姝 陳平雁△
?
多分類結(jié)局指標中兩類別占比之比的統(tǒng)計推斷方法*
南方醫(yī)科大學生物統(tǒng)計學系(510515)
劉 薇 吳 軍 曹穎姝 陳平雁△
目的 針對多分類結(jié)局指標數(shù)據(jù),就某兩類占比之比構(gòu)建相應的假設(shè)檢驗及置信區(qū)間估計方法。方法 先根據(jù)Delta法構(gòu)建對數(shù)變換后比值的方差,然后用正態(tài)近似法構(gòu)建其假設(shè)檢驗方法,分別基于Koopman法、對數(shù)變換法和校正的對數(shù)變換法構(gòu)建其置信區(qū)間。通過模擬驗證假設(shè)檢驗方法的一類錯誤、檢驗效能和置信區(qū)間覆蓋率。最后以實例進行說明。結(jié)果 基于占比比值的假設(shè)檢驗方法可以較好的控制一類錯誤。三種置信區(qū)間方法的覆蓋率均在95%左右,其中基于Koopman法更優(yōu)。當樣本量太小(如不足20例)時,所有方法均不夠穩(wěn)健。結(jié)論 本研究構(gòu)建的多分類結(jié)局指標某兩類占比之比的統(tǒng)計推斷方法表現(xiàn)能滿足應用需求,并推薦基于Koopman法的置信區(qū)間估計。
多項分布 占比比值 假設(shè)檢驗 置信區(qū)間 Koopman法
單樣本率、兩獨立樣本率及相關(guān)樣本率的統(tǒng)計推斷及置信區(qū)間方法[1-3]目前已經(jīng)十分成熟且應用相當廣泛。我們前期的研究已經(jīng)提出了多分類結(jié)局指標中比較其中某兩類占比差值的檢驗方法及置信區(qū)間構(gòu)建方法[4],本研究則欲建立兩類占比比值的統(tǒng)計推斷方法。
假設(shè)多分類結(jié)局指標有k個不同類別,每類發(fā)生的概率為π1,π2,…,πk,且π1+π2+…+πk=1。用xi表示第i類的頻數(shù),則X=(x1,x2,…,xk)服從參數(shù)為n,π的多項分布,其中π=(π1,π2,…,πk)為相應的概率向量。根據(jù)多項分析理論可知:
第i個類別發(fā)生率的方差為:
(1)
第i及j類別發(fā)生率的協(xié)方差為:
(2)
第i及j類別發(fā)生的相關(guān)系數(shù)為:
(3)
兩個占比可以用差值或比值進行比較,本研究只針對比值構(gòu)建其相應統(tǒng)計推斷方法。兩占比之比本文用符號PR(percentratio)表示。不失一般性,假設(shè)第1、2類為研究所關(guān)心的類別,相應的占比參數(shù)為π1和π2,觀測頻數(shù)為a和b。假設(shè)檢驗和置信區(qū)間構(gòu)建具體推導如下:
1.假設(shè)檢驗
針對PR,可以構(gòu)建如下原假設(shè)及備擇假設(shè):
進一步將原假設(shè)及備擇假設(shè)改寫為:
H0:log(π1)-log(π2)=0;H1:log(π1)-log(π2)≠0;
記log(PR)=log(π1)-log(π2),將log(PR)在(p1,p2)處進行Taylor展開得
根據(jù)大樣本理論在原假設(shè)下可構(gòu)建檢驗統(tǒng)計量
(4)
式中,zPR近似服從標準正態(tài)分布。應用中,PR值及其方差可用樣本進行估計,即
(5)
2.置信區(qū)間
對于PR的置信區(qū)間,本研究基于對數(shù)變換法、校正的對數(shù)變換法及Koopman法進行推導。
(1)對數(shù)變換法[2]
(6)
(2)校正的對數(shù)變換法[5]
同方法(1)但是取p1=(a+0.5)/(n+0.5),p2=(b+0.5)/(n+0.5)
(3)基于Koopman法思想推導[6]
根據(jù)Koopman方法思想,令θ=π1/π2,首先構(gòu)建假設(shè)H0:θ=θ0,H1:θ≠θ0,此時可以構(gòu)建統(tǒng)計量如下:
ln(L) =aln(p1)+bln(p2)+cln(p3)
(7)
基于三項分布F(π1,π2,π3)的數(shù)據(jù)資料,對本研究提出的假設(shè)檢驗方法和置信區(qū)間方法采用Monte Carlo模擬進行驗證。模擬參數(shù)設(shè)置樣本量n從小到大設(shè)置10、20、30、40、50、100六種情況,π1,π2,π3參數(shù)組合見表1。假設(shè)檢驗均為雙側(cè)檢驗,檢驗水準為0.05,置信水平為常用的雙側(cè) 。模擬采用SAS9.4編程實現(xiàn),每種情況模擬10000次。
表1 參數(shù)設(shè)置
*π3=1-π1-π2
1.假設(shè)檢驗模擬結(jié)果
假設(shè)檢驗方法的一類錯誤和檢驗效能模擬結(jié)果見表2和表3。從模擬結(jié)果中可以看出除了發(fā)生率為0.05的參數(shù)設(shè)置,其他參數(shù)情況下隨著樣本量增大本研究提出的檢驗方法其一類錯誤能較好的控制在0.05左右。樣本量越小發(fā)生率越低,一類錯誤越保守。檢驗效能模擬結(jié)果顯示,相同樣本量下隨著兩組占比之比的增大檢驗效能逐漸增大。
2.置信區(qū)間模擬結(jié)果
對于占比之比指標的三種置信區(qū)間覆蓋率模擬結(jié)果見圖1。從整體來看其波動較小,且各種樣本量設(shè)置下其規(guī)律較為一致。當發(fā)生率較低時對數(shù)變換法及校正的對數(shù)變換法偏向保守,隨著發(fā)生率的增加又逐漸偏向激進。基于Koopman思想的方法則在各種參數(shù)設(shè)置下都要優(yōu)于其他兩種方法,除樣本量較小時其波動較大外,其他情況下均很好的控制在95% 左右。
表2 一類錯誤的模擬結(jié)果(%)
表3 檢驗效能的模擬結(jié)果(%)
在某冠狀動脈疾病的危險因素研究中,105名已形成冠狀動脈斑塊患者的斑塊類型的分布見表4,試比較鈣化斑塊與非鈣化之間的差異是否有統(tǒng)計學意義。
根據(jù)上述資料背景,求得鈣化斑塊占比與非鈣化占比的比值為PR=3.5(0.467/0.133);由公式(4)和公式(5)求得Z=3.642,P<0.001,即鈣化斑塊占比顯著高于非鈣化占比。由公式(6)和公式(7)還可分別求得三種方法估計的95%置信區(qū)間,即對數(shù)變換法、連續(xù)性校正對數(shù)變換法和Koopman法分別為[1.995,6.142]、[1.961,5.944]和[1.949,6.286]。
圖1 PR值置信區(qū)間覆蓋率模擬結(jié)果
表4 不同類型冠狀動脈斑塊的分布
對于多分類結(jié)局指標,本研究基于理論推導,構(gòu)建了其兩類別占比之比的假設(shè)檢驗方法及置信區(qū)間估計方法,并通過模擬進行驗證。
就假設(shè)檢驗方法而言,基于占比之比的檢驗方法其理論基礎(chǔ)除了基于大樣本理論之外[7],其方差推導中還用到了delta法近似[8],兩步近似使得其方法的誤差變大,然而模擬結(jié)果顯示雖然當樣本量較小及發(fā)生率較低時偏保守,但是隨著樣本量的增大它能較好的控制一類錯誤。
就置信區(qū)間估計方法而言,應用正態(tài)近似的對數(shù)變換法是較為常用的方法。本研究借鑒Koopman思想構(gòu)建適合多分類結(jié)局指標兩類別間占比之比的置信區(qū)間源于Fagerland[9]研究的啟發(fā),該研究針對兩獨立樣本PR值的置信區(qū)間方法進行模擬比較,結(jié)果顯示Koopman法都要優(yōu)于其他方法。而且本研究模擬結(jié)果顯示基于Koopman思想的方法在各種參數(shù)設(shè)置下都要優(yōu)于對數(shù)變換的方法,在應用中推薦使用該方法。
我們的前期研究提出了針對多分類結(jié)局指標占比之差的統(tǒng)計推斷及置信區(qū)間構(gòu)建方法[4],并經(jīng)模擬驗證得出其表現(xiàn)優(yōu)越,可以滿足應用需求。對于特定數(shù)據(jù),占比之差和占比之比指標在應用中并無孰優(yōu)孰劣,只是當事件發(fā)生率較低時,尤其是比值分母接近0或為0時,差值在估計穩(wěn)定性上要優(yōu)于比值。我們考慮后續(xù)對提出的差值及比值的統(tǒng)計推斷及置信區(qū)間構(gòu)建方法進行綜合模擬比較,以指導實踐應用。
綜上所述,本文提出的針對多分類結(jié)局指標中兩類別占比比值的假設(shè)檢驗及其置信區(qū)間方法均能較好的滿足應用需求。
[1]Newcombe RG.Improved confidence intervals for the difference between binomial proportions based on paired data.Stat Med,1998,17(22):2635-2650.
[2]Newcombe RG.Interval estimation for the difference between independent proportions:comparison of eleven methods.Stat Med,1998,17(8):873-890.
[3]Agresti A,Coull BA.Approximate is Better than “Exact”for Interval Estimation of BinomialProportions.The American Statistician,1998,52(2):119-126.
[4]吳軍,段重陽,陳平雁.多分類結(jié)局指標中兩類別占比之差的統(tǒng)計推斷方法.中國衛(wèi)生統(tǒng)計,2016,33(3):404-407.
[5]Gart JJ,Nam J.Approximate interval estimation of the ratio of binomial parameters:a review and corrections for skewness.Biometrics,1988,44(2):323-338.
[6]Koopman PAR.Confidence Intervals for the Ratio of Two Binomial Proportions.Biometrics,1984,40(2):513.
[7]Fleiss JL,Levin B,Paik MC.Statistical Methods for Rates and Proportions,Third Edition.John Wiley & Sons,2003,354-376.
[8]周勇主編.廣義估計方程估計方法.北京:科學出版社,2013,208-340.
[9]Fagerland MW,Lydersen S,Laake P.Recommended confidence intervals for two independent binomial proportions.Stat Methods Med Res,2015,24(2):224-254.
(責任編輯:郭海強)
Statistical Inference Methods for the Percent Ratio Between Two Categories of the Multinomial Outcome
Liu Wei,Wu Jun,Cao Yingshu,et al
(DepartmentofBiostatistics,SouthernMedicalUniversity(510515),Guangzhou)
Objective Statistical inference methods for comparisons between two categories of the multinomial outcome are not available now.This study aims to develop hypothesis testing and interval estimation methods based on the percent ratio(PR).Methods Firstly,the variance of log transformed PR was constructed based on the delta method and the hypothesis testing method was established using normal approximation method.The confidence interval was estimated based on Koopman method,logarithm transformation method and adjusted logarithm transformation method.Type I error,statistical power and the coverage rate of confidence interval were assessed by Monte Carlo simulation methods.Results Type I error of the developed hypothesis testing method was well controlled.All coverage rates of constructed 95%confidence interval methods were around.Koopman method was superior to logarithm transformation method and adjusted logarithm transformation method,but all methods were unstablewhen the sample size was too small(for instance,less than 20).Conclusion The hypothesis testing method and confidence interval methods brought up in the paper can meet application requirements and the CI estimation method base on Koopman's method is recommended for confidence interval estimation.
Multinomial outcome;Percent ratio;Hypothesis testing;Confidence interval;Koopman′s method
國家自然基金資助(81673270)
△通信作者:陳平雁