南方醫(yī)科大學(xué)生物統(tǒng)計學(xué)系(510515) 吳 軍 段重陽 陳平雁
多分類結(jié)局指標(biāo)中兩類別占比之差的統(tǒng)計推斷方法*
南方醫(yī)科大學(xué)生物統(tǒng)計學(xué)系(510515) 吳 軍 段重陽 陳平雁△
目的多分類結(jié)局指標(biāo)中兩類占比的比較目前尚無相應(yīng)統(tǒng)計方法,本研究旨在建立多類別中某兩類占比差的統(tǒng)計推斷方法。方法根據(jù)多項分布理論,用正態(tài)近似法建立兩類別發(fā)生占比差的假設(shè)檢驗方法,分別基于Wald法和Newcombe法構(gòu)建其置信區(qū)間,包括連續(xù)性校正和非連續(xù)性校正兩種情形。通過模擬驗證假設(shè)檢驗方法的一類錯誤及檢驗效能和置信區(qū)間方法的覆蓋率,最后以實例進(jìn)行說明。結(jié)果基于占比差的假設(shè)檢驗在大樣本下可以較好的控制一類錯誤。兩種方法置信區(qū)間的覆蓋率均在95%左右,Newcombe法優(yōu)于Wald法,但在發(fā)生率較低時兩種方法均不理想。結(jié)論本文提出多分類結(jié)局指標(biāo)中兩類占比差的假設(shè)檢驗及置信區(qū)間方法均能滿足應(yīng)用需求,其中置信區(qū)間方法推薦Newcombe法,但當(dāng)樣本量太?。ㄈ?0例左右),所有方法均失效,建議使用描述方法。
多項分布 占比差 假設(shè)檢驗 置信區(qū)間 Newcombe法
對于多分類結(jié)局指標(biāo),若需要比較其中的兩類占比,如人群的職業(yè)分布中比較其中教師與醫(yī)務(wù)人員的占比有無差異,霍奇金淋巴瘤人群中比較臨床病理分型結(jié)節(jié)硬化型與混合細(xì)胞型的占比有無差異等,目前的分析方法僅限于統(tǒng)計描述,尚無相應(yīng)的統(tǒng)計推斷方法。為此,本研究將建立多分類結(jié)局指標(biāo)中比較其中某兩類占比的統(tǒng)計推斷方法,為應(yīng)用領(lǐng)域提供新的分析工具。
假設(shè)某研究可能出現(xiàn)的結(jié)局有k種,其發(fā)生的概率分別為 π1,π2,…,πk,結(jié)局具有排他性,即滿足 π1+π2+…+πk=1。記第i種結(jié)局的頻數(shù)為 xi,則向量X=(x1,x2,…,xk)服從參數(shù)為 n,π的多項分布,其中π=(π1,π2,…,πk)為相應(yīng)的概率向量。根據(jù)多項分析理論可知:
第i個結(jié)局發(fā)生率的方差為:
第i及j結(jié)局發(fā)生率的協(xié)方差為:
第i及j結(jié)局發(fā)生的相關(guān)系數(shù)為:
兩個占比的比較可以有差值比較和比值比較兩類方法,本研究將解決差值的比較問題。兩占比之差本文用符號PD(percent difference)表示。不失一般性,假設(shè)第1、2類為研究所關(guān)心的類別,相應(yīng)地,π1和π2分別為占比參數(shù),a和b分別為第1、2類事件的觀測頻數(shù)。下面分別推導(dǎo)假設(shè)檢驗和置信區(qū)間估計方法。
檢驗的原假設(shè)及備擇假設(shè)分別為:
欲檢驗π1是否等于π2,可檢驗占比差PD=π1-π2是否等于0,PD的方差根據(jù)公式(1)、公式(2)可以表示為:
根據(jù)中心極限定理,當(dāng)樣本量夠大時,在原假設(shè)下可構(gòu)建檢驗統(tǒng)計量
式中,zPD近似服從標(biāo)準(zhǔn)正態(tài)分布。應(yīng)用中,PD值及其方差可用樣本進(jìn)行估計,即
對于多分類結(jié)局指標(biāo)中兩類別發(fā)生占比之差的置信區(qū)間,我們分別用Wald法及Newcombe法進(jìn)行推導(dǎo),同時考慮有無連續(xù)性校正的情形。
(1)Wald法
PD值的(1-α)%置信區(qū)間根據(jù) Wald法理論[1-2]可以構(gòu)建為:
(2)連續(xù)性校正Wald法
在上述 Wald法基礎(chǔ)上進(jìn)行連續(xù)性校正[1-2],可得其校正后的置信區(qū)間為:
(3)基于Newcombe思想的方法
基于 Newcombe思想[1-2]對單組率、兩獨立樣本占比差及兩配對樣本占比差置信區(qū)間構(gòu)建思路,我們構(gòu)建的多分類結(jié)局指標(biāo)中兩類別占比差(1-α)%置信區(qū)間為
其中,
式中,dl1=α/n-l1、du1=u1-α/n,l1、u1為|ξ-α/n|
當(dāng)α=0時l1=0,α=n時u1=1。
同理 dl2=b/n-l2、du2=u2-b/n,l2、u2為|ξ-b/n|
當(dāng) b=0時 l2=0,b=n時 u2=1。
公式(11)中,r為公式(3)ρ(π1,π2)的樣本估計值,即
當(dāng)a或者b為0時r=0。
(4)連續(xù)性校正Newcombe法
對Newcombe法進(jìn)行連續(xù)性校正,只需將上述公式中計算l1、u1及l(fā)2、u2的公式修改如下式即可。
此時可解得:
將公式(16)計算結(jié)果代入公式(11)即可得出經(jīng)連續(xù)性校正的Newcombe法置信區(qū)間。
采用Monte Carlo模擬技術(shù)對我們提出的上述方法進(jìn)行驗證。以三項分布資料為例,假設(shè)數(shù)據(jù)服從F(π1,π2,π3)的多項分布,樣本量考慮 20、50、100三種情況,π1,π2,π3參數(shù)組合見表1,共考慮42種參數(shù)組合。每種情況模擬10000次,假設(shè)檢驗的檢驗水準(zhǔn)設(shè)為雙側(cè)0.05,置信水平設(shè)為95%。模擬采用SAS 9.4編程實現(xiàn)。
表1 參數(shù)設(shè)置
兩種假設(shè)檢驗方法的一類錯誤及檢驗效能的模擬結(jié)果見表2。從模擬結(jié)果中可以看出基于占比差的檢驗方法在樣本量設(shè)置為20時,未能控制住一類錯誤,但隨著樣本量的增大其一類錯誤能較好的控制在設(shè)定的0.05左右。檢驗效能模擬結(jié)果顯示,相同樣本量時隨著兩組占比差的增大檢驗效能逐漸增大,相同占比差情況下兩組率越小,占比差的標(biāo)準(zhǔn)誤越小,因而檢驗效能越高。
表2 一類錯誤及檢驗效的能模擬結(jié)果
對于占比差指標(biāo)的四種置信區(qū)間覆蓋率模擬結(jié)果見圖1。當(dāng)樣本量為20時各種方法在不同參數(shù)設(shè)置下均波動較大,此種波動與分類資料的性質(zhì)有關(guān)[3],尤其是基于Newcombe思想的方法,而且當(dāng)兩類占比均較小時四種方法均失效。當(dāng)樣本量增到50時,各方法都能較好的控制在95%左右,其中連續(xù)性校正的Wald法較為保守,Wald法較為激進(jìn),基于Newcombe思想的方法及其對應(yīng)的連續(xù)性校正法更為接近于設(shè)定的95%,其中以連續(xù)性校正法Newcombe法更優(yōu)。當(dāng)樣本量增到100時,整體結(jié)果與樣本量為50時相同,但是此時基于Newcombe思想的兩種方法極為接近,不分優(yōu)劣。從整體來看基于連續(xù)性校正的Wald法保守,Wald法激進(jìn),大樣本下基于Newcombe思想的兩種方法均較優(yōu),小樣本下發(fā)生率較大時基于連續(xù)性校正的Newcombe法較優(yōu),但小樣本下發(fā)生率較小時所有方法均較差。
某研究欲研究不同冠狀動脈斑塊形成的危險因素,隨機抽取了280人進(jìn)行64層螺旋CT冠狀動脈檢查,記錄有無冠狀動脈斑塊及斑塊種類,并調(diào)查了相關(guān)的影響因素。其中斑塊類型分布見表3?,F(xiàn)欲知道鈣化斑塊與非鈣化之間的差異是否有統(tǒng)計學(xué)意義,并且將兩者之間的差異大小給出定量分析。分析結(jié)果見表4,可知鈣化斑塊比例要顯著高于非鈣化斑塊。
本研究通過理論推導(dǎo)建立了多分類結(jié)局指標(biāo)中兩類別占比差的假設(shè)檢驗方法及其區(qū)間估計方法,并經(jīng)模擬驗證。就假設(shè)檢驗方法而言,基于占比差的檢驗方法由于其理論基礎(chǔ)基于大樣本理論,所以在小樣本下一類錯誤控制較差,當(dāng)樣本量增大時則能較好的控制在設(shè)定的檢驗水準(zhǔn)。
圖1 PD值置信區(qū)間覆蓋率模擬結(jié)果
表3 冠狀動脈斑塊分布結(jié)果
表4 利用本文分析方法所得分析結(jié)果
就占比差區(qū)間估計方法而言,本研究提出了Wald法、連續(xù)性校正Wald法、基于Newcombe思想的方法及其對應(yīng)的連續(xù)性校正方法。Wald法較為簡單且意義直觀。Newcombe法則是基于 W ilson 1927[7]年提出的單組率置信區(qū)間構(gòu)建的一類方法,目前已建立了單樣本率[4]、兩獨立樣本率[5]及配對樣本率[6]的置信區(qū)間方法,并經(jīng)模擬驗證得出其優(yōu)于其他現(xiàn)有方法的結(jié)論,從而在應(yīng)用中廣泛使用,其中兩獨立樣本率差的置信區(qū)間方法更是得到了FDA的官方推薦。本文因此選擇借鑒其思想構(gòu)建適合多分類結(jié)局指標(biāo)兩類間占比差的置信區(qū)間。經(jīng)模擬驗證得出基于Newcombe思想的兩種方法均要優(yōu)于Wald法及其連續(xù)性校正方法。大樣本下我們推薦使用基于Newcombe思想的兩種方法,小樣本且當(dāng)發(fā)生率較大時推薦使用基于連續(xù)性校正的Newcombe法,但是當(dāng)樣本量小且發(fā)生率較小時所有方法均失效,從應(yīng)用層面看,樣本量為20例左右的多分類數(shù)據(jù)建議用描述方法。
綜上所述,本文提出的針對多分類結(jié)局指標(biāo)中兩類別占比差的假設(shè)檢驗及其置信區(qū)間方法均能較好的滿足應(yīng)用需求。
[1]May WL,Johnson WD.Confidence intervals for differences in correlated binary proportions.Stat Med,1997,16(18):2127-2136.
[2]Fleiss JL,Levin B,Paik MC.Statistical methods for rates and proportions.John Wiley&Sons,2013.
[3]劉江美,陳平雁.單樣本率確切概率檢驗的樣本量與檢驗效能非單調(diào)變化關(guān)系的研究.中國衛(wèi)生統(tǒng)計,2012,29(2):164-167.
[4]Newcombe RG.Two-sided confidence intervals for the single proportion:comparison of seven methods.Stat Med,1998,17(8):857-872.
[5]Newcombe RG.Interval estimation for the difference between independent proportions:comparison of eleven methods.Stat Med,1998,17(8):873-890.
[6]Newcombe RG.Improved confidence intervals for the difference between binomial proportions based on paired data.Stat Med 1998,17(22):2635-2650.
[7]Wilson EB.Probable Inference,the Law of Succession,and Statistical Inference.Journal of the American Statistical Association,1927,22(158):209-212.
Statistical Inference Methods for the Percent Difference Between Two Categories of the Multinomial Outcome
Wu Jun,Duan Chongyang,Chen Pingyan(Department of Biostatistics,School of Public Health and Subtropical Medicine,Southern Medical University(510515),Guangzhou)
ObjectiveNo statistical inference method has been developed to define the significant difference between two categories of the multinomial outcome.This study aims to develop hypothesis test methods and interval estimation methods base on the percent difference(PD).MethodsHypothesis test method was developed based on the theory of large sample and multinomial distribution.The confidence interval was estimated based on the Wald method and the Newcombe′s method separately,including the corresponding continuity-corrected methods.Type Ierror and power of the hypothesis test and the coverage rate of confidence interval were tested by Monte Carlo simulation methods.ResultsThe type Ierror of the developed hypothesis test method was well controlled under large sample.Confidence interval methods based on Newcombe′s method with or without continuity-correction were better than Wald methods in the coverage rate.However,all of the interval estimation methods suffered from poor coverage rates when the percent of the two categories was too low.ConclusionBoth the hypothesis test and confidence interval methods brought up in the paper can meet application requirements and the methods based on Newcombe's method are recommended for confidence interval estimation.All methods work badly under small sample(such as 20),so descriptive methods are recommended for that case.
Multinomial outcome;Percent difference;Hypothesis testing method;Confidence interval;Newcombe′s method
國家自然基金資助(81273191)
△通信作者:陳平雁
(責(zé)任編輯:郭海強)