亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        如何正確運用χ2檢驗
        ——似然比檢驗與SAS實現(xiàn)

        2022-01-07 12:50:32胡純嚴(yán)胡良平
        四川精神衛(wèi)生 2021年6期
        關(guān)鍵詞:對數(shù)向量樣本

        胡純嚴(yán) ,胡良平 ,2*

        (1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)

        在采用國際通用統(tǒng)計軟件(如SAS、SPSS、R等)對列聯(lián)表資料進(jìn)行獨立性檢驗和對多因素資料進(jìn)行回歸分析時,在輸出結(jié)果中常會出現(xiàn)似然比χ2檢驗的結(jié)果。其方法名稱至少有以下4種,即Likelihood Ratio、-2Log L、2Log L 和Deviance;若查閱文獻(xiàn)[1-3],可知似然比χ2檢驗統(tǒng)計量的定義至少有3種;若深入學(xué)習(xí)統(tǒng)計學(xué)方面的文獻(xiàn)[4-6],可知似然比χ2檢驗的變種大約有10種。本文從實際出發(fā),介紹前述提及內(nèi)容中最常用部分,通過實例并借助SAS軟件實現(xiàn)統(tǒng)計計算。

        1 基本概念

        1.1 似然

        在日常生活中,人們經(jīng)常會提及“機會”,有時還會用到“幾率”,更專業(yè)的名詞是“概率”。通常,“似然”就是“概率”的同義詞。其實,它們都是用來度量隨機事件發(fā)生可能性大小的一個數(shù)量。然而,在統(tǒng)計學(xué)上,“似然”具有更多特定的含義,它是在給定產(chǎn)生數(shù)據(jù)的概率模型的前提條件下,觀測數(shù)據(jù)出現(xiàn)的概率(或概率密度)?!八迫弧北挥脕肀容^模型中的參數(shù)取多個不同的可能的候選值時,以確定參數(shù)真值最可能的估計值[1]。換句話說,通過給模型中的參數(shù)設(shè)定多個不同的數(shù)值來計算似然值,選取似然值最大時所對應(yīng)的參數(shù)值為模型中參數(shù)的最佳估計值,在統(tǒng)計學(xué)上稱為參數(shù)的最大似然估計值(簡寫為MLE)。

        1.2 似然比與對數(shù)似然比

        所謂似然比,就是將模型中的參數(shù)或參數(shù)向量取兩組不同的數(shù)值,分別代入一個似然函數(shù)表達(dá)式中,再將這兩個表達(dá)式以商的形式呈現(xiàn)出來。于是,該商就被稱為似然比。對這個似然比取對數(shù),就得到對數(shù)似然比。

        似然函數(shù)一般都由特定問題中隨機變量的概率密度函數(shù)(對連續(xù)型隨機變量而言)或概率函數(shù)(對離散型隨機變量而言)在各觀測點上取值的乘積構(gòu)造而成。也就是說,似然比的分子與分母都是由N(樣本含量)項似然連乘之積構(gòu)成。對似然比取對數(shù)變換,就可以將分子與分母中的連乘運算轉(zhuǎn)化成連加運算。于是,在求對數(shù)似然函數(shù)最大值的過程中,可以達(dá)到簡化計算的目的。

        2 似然比統(tǒng)計量的三種定義

        2.1 基于參數(shù)向量的空間大小構(gòu)造似然比統(tǒng)計量

        設(shè)觀測數(shù)據(jù)xobs被隨機地抽自一個總體,該總體由一個依賴于未知參數(shù)向量θ的聯(lián)合密度函數(shù)f(x;θ)來描述,我們必須作出一個關(guān)于θ的假設(shè)(見下文中的H0和H1)??傮w的分布可以是離散的或連續(xù)的或兼有離散和連續(xù)兩種成分,例如,包括可能具有刪失數(shù)據(jù)的情形。

        函數(shù)L(θ)=f(xobs;θ)被稱為似然函數(shù)。讓Θ代表可能的參數(shù)向量的集合,讓Θ0代表Θ的一個子集。設(shè)擬檢驗的假設(shè)如下:H0:θ∈ Θ0;H1:θ? Θ0。于是,Neyman和Pearson于1928年提出的似然比統(tǒng)計量[1-2]如式(1):

        由式(1)定義的λ<1。在式(1)中,L(θ?)代表 θ在整個Θ中變化時似然函數(shù)取得的最大值;L(θ?0)代表θ在整個Θ0中變化時似然函數(shù)取得的最大值。使似然比統(tǒng)計量λ取得最大值的參數(shù)向量θ?被稱為θ的最大似然估計量;而θ?0是在無效假設(shè)成立的條件下θ的最大似然估計量。

        如果無效假設(shè)為真,即真實的參數(shù)向量在Θ0中,那么,也就意味著θ?和θ?0都接近于真實的參數(shù)向量。因此,λ就接近于1。

        2.2 基于兩個嵌套統(tǒng)計模型來構(gòu)造似然比統(tǒng)計量

        假定模型P嵌套于模型K內(nèi),并設(shè)模型P與模型K的似然函數(shù)分別為L(P,Y)與L(K,Y)。按下式構(gòu)造似然比λ統(tǒng)計量[4-6]:

        由式(2)定義的λ<1。

        2.3 基于全模型與部分模型來構(gòu)造似然比統(tǒng)計量

        假定全模型(即含全部自變量的模型)中的參數(shù)向量為bfull(參數(shù)個數(shù)為k),部分模型(即含部分自變量的模型)中的參數(shù)向量為bpartial(參數(shù)個數(shù)為r),并設(shè)全模型與部分模型的似然函數(shù)分別為L(bfull,Y)與L(bpartial,Y)。按下式構(gòu)造似然比λ統(tǒng)計量:

        由式(3)定義的λ>1。

        2.4 三種定義之間的區(qū)別

        從本質(zhì)上來看,上述三種定義是完全相同的。其區(qū)別僅在于:對似然比統(tǒng)計量取對數(shù)后,計算結(jié)果的絕對值相同,但相差一個符號。這就是為什么國際通用統(tǒng)計軟件(例如SAS)和數(shù)理統(tǒng)計學(xué)教科書中給出的對數(shù)似然函數(shù)值有時以正值(表示為2lnλ或2logλ)形式表達(dá),有時以負(fù)值(表示為-2lnλ或-2logλ)形式表達(dá)的原因。其中,當(dāng)λ>1與λ<1時,系數(shù)分別為“2”與“-2”都是基于數(shù)學(xué)原理推導(dǎo)所需要的常數(shù)。也就是說,對于同一個資料,采用式(1)和式(2)得到的“-2lnλ”與采用式(3)得到的“2lnλ”是相等的,且都為正數(shù)。

        3 似然比與對數(shù)似然比χ2檢驗統(tǒng)計量

        3.1 名稱的約定

        人們不能直接依據(jù)前面的式(1)、式(2)和式(3)中的任何一個進(jìn)行假設(shè)檢驗,因為它們都只是一般統(tǒng)計量,它們并不服從某種已知的概率分布。因此,無法直接進(jìn)行統(tǒng)計推斷。然而,對似然比統(tǒng)計量取對數(shù)變換,并乘以必要的系數(shù)就可構(gòu)造出新統(tǒng)計量,若能證明其服從某種已知的概率分布,就可利用它和收集到的觀測數(shù)據(jù)進(jìn)行假設(shè)檢驗了。

        2倍(或-2倍)對數(shù)似然比檢驗統(tǒng)計量如下[說明:分別由式(1)、式(2)和式(3)得到]:

        文獻(xiàn)[2]明確告知,對數(shù)似然比檢驗統(tǒng)計量近似地服從自由度df=k-r的χ2分布(即極限分布),記為χ2k-r,其中,k與r分別為全模型與部分模型中的參數(shù)個數(shù)。在數(shù)理統(tǒng)計學(xué)教科書中,常把對數(shù)似然比χ2檢驗簡稱為似然比χ2檢驗,還被稱為廣義似然比χ2檢驗和最大似然比χ2檢驗[1]。

        【說明】為了與文獻(xiàn)和統(tǒng)計軟件中的名稱一致,本文也沿用簡稱,即采用“似然比χ2檢驗”取代“對數(shù)似然比χ2檢驗”。

        3.2 似然比χ2檢驗的種類及應(yīng)用場合

        3.2.1 概述

        依據(jù)不同的條件或假設(shè),似然函數(shù)及似然比χ2檢驗統(tǒng)計量有很多變種。若把最原始的似然比χ2檢驗稱為一般似然比χ2檢驗,在文獻(xiàn)中還會看到以下變種的似然比χ2檢驗,即校正似然比χ2檢驗、剖面(或輪廓)似然比χ2檢驗、擬似然比χ2檢驗、偽似然比χ2檢驗和Rao-Scott似然比χ2檢驗等。

        3.2.2 一般似然比χ2檢驗統(tǒng)計量

        為了進(jìn)行列聯(lián)表資料的獨立性檢驗,可以采用多種方法,包括 Pearson’s χ2檢驗、一般似然比 χ2檢驗(簡稱似然比χ2檢驗)和Fisher’s精確檢驗等。其中,似然比χ2檢驗的計算見下式:

        在式(7)中,eij為第(i,j)網(wǎng)格上的理論頻數(shù),其計算見下式:

        在式(8)中,ni·與n·j分別代表第i行與第j列上的合計頻數(shù)。

        3.2.3 校正似然比χ2檢驗統(tǒng)計量

        在SAS/STAT的SURVEYPHREG過程中,校正似然比檢驗統(tǒng)計量見下式:

        式(10)中,L(·)代表偏偽似然函數(shù),β?代表估計的K個回歸參數(shù)組成的向量。

        【說明】此檢驗可用來檢驗整個回歸模型中全部回歸系數(shù)是否為0。

        3.2.4 剖面(或輪廓)似然比χ2檢驗統(tǒng)計量

        剖面(或輪廓)似然函數(shù)不是一個一般的似然函數(shù),而是在給定感興趣的參數(shù)值的條件下,讓所有多余參數(shù)取遍其參數(shù)空間中的一切值,從而能被最大化的一個似然函數(shù)。

        對于數(shù)據(jù)y,讓θ和φ分別代表統(tǒng)計模型f(y|θ,φ)中感興趣的參數(shù)與多余參數(shù)。一旦y被觀測到,似然函數(shù)就是L(θ,φ)=Pr(y|θ,φ)。那么,剖面似然函數(shù)P(θ)被定義成如下形式:P(θ)=L[θ,φ?(θ)],此處φ?(θ)是給定θ的條件下φ的最大似然估計。因此,剖面似然函數(shù)是隨著多余參數(shù)φ延著路徑φ=φ?(θ)移動通過其參數(shù)空間過程中產(chǎn)生的似然函數(shù)的值。由此可知,剖面似然比檢驗統(tǒng)計量的定義如下:

        在式(11)中,PL服從自由度df=k的χ2分布,其中k是θ的維數(shù)。

        【說明】可用此方法檢驗全回歸模型是否可簡化。

        3.2.5 擬似然比χ2檢驗統(tǒng)計量

        在獨立同分布(iid)假設(shè)下,Koenker和Machado于1999年提出了兩種類型的擬似然比檢驗,其檢驗統(tǒng)計量分別記為LR1和LR2,分別見式(12)和式(13):

        在式(12)和式(13)中,df1和df2分別是簡化模型與擴展模型的自由度;τ為分位水平[即分位數(shù),τ∈ (0,1)];D1(τ)和D2(τ)分別為簡化模型和擴展模型的檢查損失之和,其計算分別見下式:

        在式(14)和式(15)中,s?(τ)是估計的稀疏函數(shù),在獨立同分布(iid)假設(shè)下,其計算見下式:

        式(16)中的誤差F的分布具有靈活性,但不局限于非對稱的拉普拉斯分布。估計s?(τ)的算法比較復(fù)雜,可參閱文獻(xiàn)[4],此處從略。

        【說明】此方法可用于分位數(shù)回歸分析,檢驗擴展回歸模型與簡化回歸模型之間的差別是否具有統(tǒng)計學(xué)意義。

        3.2.6 偽似然比χ2檢驗統(tǒng)計量

        在SAS/ETS的ENTROPY過程中,有如下表述:Mittelhammer和Cardell于2000年使用條件最大化熵函數(shù)F作為偽似然函數(shù),構(gòu)造出偽似然比檢驗統(tǒng)計量見下式:

        當(dāng)對回歸模型中參數(shù)施加線性限制進(jìn)行檢驗時,上式與下面的Wald檢驗統(tǒng)計量具有相同的極限分布。

        讓H0:Lβ=m,此處L是β的元素的獨立線性組合的一個集合。那么,在這個無效假設(shè)成立的前提條件下,下面的Wald檢驗統(tǒng)計量TW服從中心χ2極限分布,其自由度為L的秩。

        Mittelhammer和Cardell于2000年還提出了一個與前面兩個檢驗統(tǒng)計量等價的拉格朗日乘數(shù)檢驗統(tǒng)計量,見下式:

        在式(19)中,G是F的梯度(說明:一個函數(shù)對于其自變量分別求偏導(dǎo)數(shù),這些偏導(dǎo)數(shù)所組成的向量就是函數(shù)的梯度),其值可在限制參數(shù)的優(yōu)化點上被估計。

        【說明】此方法可用于需要對模型中某些參數(shù)施加限制或約束的場合。

        3.2.7 Rao-Scott似然比χ2檢驗統(tǒng)計量

        3.2.7.1 概述

        Rao-Scott似然比χ2檢驗是一個似然比檢驗的校正設(shè)計版本,它涉及觀察和期望頻數(shù)之比。該檢驗具有兩種形式,分別被稱為一階Rao-Scott似然比檢驗和二階Rao-Scott似然比檢驗。這個檢驗的計算通過將設(shè)計校正應(yīng)用于基于估計的總樣本量的加權(quán)似然比檢驗統(tǒng)計量,主要用途是列聯(lián)表資料的擬合優(yōu)度檢驗。

        3.2.7.2 一維表資料的Rao-Scott似然比χ2檢驗統(tǒng)計量

        設(shè)一維表資料的水平數(shù)為C,則一維表資料的Rao-Scott似然比χ2檢驗統(tǒng)計量如下式:

        在式(20)中,G2服從自由度df=C-1的χ2分布;n是樣本含量,N?是估計的總體樣本含量,N?i是估計的第i水平組的總體樣本含量,Ei是在無效假設(shè)下估計的第i水平組的期望總體樣本含量。對于等比例的無效假設(shè)而言,每個水平組的期望總體樣本含量可按下式計算:

        對于用戶指定的第i水平組的無效比例P0i,則第i水平組的期望總體樣本含量可按下式計算:

        3.2.7.3 二維表資料的Rao-Scott似然比χ2檢驗統(tǒng)計量

        設(shè)二維表資料的行、列水平數(shù)分別為R、C,則二維表資料的Rao-Scott似然比χ2檢驗統(tǒng)計量如下式:

        在式(23)中,G2服從自由度df=(R-1)(C-1)的χ2分布;n是樣本含量,N?是估計的總體樣本含量,N?ij是估計的第(i,j)網(wǎng)格上的總體樣本含量,Eij是在無效假設(shè)下估計的第(i,j)網(wǎng)格上的期望總體樣本含量,其計算見式(24):

        4 實例與SAS實現(xiàn)

        4.1 問題與數(shù)據(jù)

        【例1】設(shè)某研究者對10例某疾病患者進(jìn)行了5年隨訪觀察,并記錄他們的結(jié)局情況[1],最終的結(jié)果為:4例死亡、6例存活。假設(shè)該疾病患者的死亡概率為π,試基于已經(jīng)得到的試驗數(shù)據(jù)估計π最可能的取值。

        【例2】有一個新藥的毒理試驗:受試對象為大鼠,設(shè)各批次試驗藥物的劑量為x,死亡大鼠數(shù)為r,試驗大鼠數(shù)為n。4批試驗的條件和結(jié)果[1]見表1?;谠囼灲Y(jié)果構(gòu)建死亡率關(guān)于藥物劑量的回歸模型,檢驗藥物劑量對死亡率是否具有統(tǒng)計學(xué)意義。

        表1 新藥毒理試驗條件及大鼠相關(guān)數(shù)據(jù)

        4.2 分析與解答

        4.2.1 對例1的分析與解答

        對每一位患者來說,觀察結(jié)果y都是一個二值隨機變量的一種取值,即y=1(死亡)或y=0(存活)。在統(tǒng)計學(xué)上,稱y是一個服從兩點分布的隨機變量。一般假定,10例患者的結(jié)果之間是互相獨立的,對他們進(jìn)行觀察,相當(dāng)于進(jìn)行了10次獨立重復(fù)試驗,同時進(jìn)行10次兩點分布為具有試驗次數(shù)n的二項分布。根據(jù)問題中給定的觀察結(jié)果:死亡數(shù)k=4、死亡概率為π(未知),則依據(jù)二項分布概率計算原理可知,對應(yīng)的概率(似然函數(shù))計算如下:

        為了比較π=0.1與π=0.5中哪一個更接近本問題中真實的死亡率,可計算兩個似然值:L(π)=L(0.1)=210×0.14×0.96=0.011160,L(π)=L(0.5)=210×0.54×0.56=0.205078。所以,π=0.5比π=0.1更可能作為本問題中的死亡概率。當(dāng)然,如果借助計算程序來計算,可得到最大概率約為0.250823所對應(yīng)的死亡率π=0.4。

        【結(jié)論】本問題中死亡率的真值π=0.4。

        4.2.2 例2的分析與解答

        【分析與解答】設(shè)所需要的SAS程序如下:

        【說明】這是一個結(jié)果變量為二值變量的多重logistic回歸模型分析問題[7-9]。

        【SAS輸出結(jié)果及解釋】

        以上是“檢驗全局原假設(shè):BETA=0”的輸出結(jié)果,其中,Wald χ2檢驗得到 P=0.1186>0.05,認(rèn)為劑量x對死亡率的影響無統(tǒng)計學(xué)意義;而似然比χ2檢驗和評分χ2檢驗都得到P<0.001的結(jié)果,認(rèn)為劑量x對死亡率的影響有統(tǒng)計學(xué)意義。特別是似然比χ2檢驗,χ2=15.7447,P<0.0001。

        以上是參數(shù)估計和輪廓似然置信區(qū)間輸出結(jié)果。

        【說明】為節(jié)省篇幅,以上僅保留了與似然比檢驗有關(guān)的結(jié)果。

        【結(jié)論】由似然比χ2檢驗結(jié)果可知,藥物劑量對死亡率的影響具有統(tǒng)計學(xué)意義;劑量越大,死亡率越高。

        5 討論與小結(jié)

        5.1 討論

        似然比檢驗的用途比較廣、變種比較多,掌握起來具有一定的難度。準(zhǔn)確把握該方法的關(guān)鍵在于以下兩點:其一,構(gòu)建似然函數(shù)的方法;其二,掌握常見似然函數(shù)的種類。構(gòu)建似然函數(shù)方法的要領(lǐng)是概率乘法原理,即將各觀測點上離散型隨機變量概率函數(shù)連乘或?qū)⒏饔^測點上連續(xù)型隨機變量概率密度函數(shù)連乘;而掌握常見似然函數(shù)的種類,涉及較復(fù)雜的數(shù)理統(tǒng)計知識[2-5],因篇幅所限,此處從略。

        由前文對例2的分析結(jié)果可知,Wald χ2檢驗法的靈敏度較低,而似然比χ2檢驗法的靈敏度非常高。隨著定量自變量的離散度逐漸減小,前述兩種檢驗方法的檢驗結(jié)果之間的偏差也逐漸縮小。例如:若將例2中的藥物劑量修改為“10、24、36、48”,其他數(shù)據(jù)保持不變,則有關(guān)“檢驗全局原假設(shè):BETA=0”的輸出結(jié)果如下:

        若將例2中的藥物劑量修改為“2、4、6、8”,其他數(shù)據(jù)保持不變,則有關(guān)“檢驗全局原假設(shè):BETA=0”的輸出結(jié)果如下:

        文獻(xiàn)[1]深入分析了“Wald χ2檢驗法和似然比χ2檢驗法”這兩種檢驗方法的異同點,并揭示出“剖面似然比χ2檢驗法”的優(yōu)缺點。

        5.2 小結(jié)

        本文呈現(xiàn)了似然比檢驗統(tǒng)計量的3種定義,分析了它們之間的異同點;總結(jié)了6種常用的似然比檢驗方法及其應(yīng)用場合。通過兩個實例并借助SAS軟件實現(xiàn)了統(tǒng)計計算,對SAS輸出結(jié)果中與似然比檢驗有關(guān)的內(nèi)容進(jìn)行了詳細(xì)解讀。

        猜你喜歡
        對數(shù)向量樣本
        向量的分解
        含有對數(shù)非線性項Kirchhoff方程多解的存在性
        指數(shù)與對數(shù)
        用樣本估計總體復(fù)習(xí)點撥
        聚焦“向量與三角”創(chuàng)新題
        指數(shù)與對數(shù)
        對數(shù)簡史
        推動醫(yī)改的“直銷樣本”
        隨機微分方程的樣本Lyapunov二次型估計
        向量垂直在解析幾何中的應(yīng)用
        亚洲最大中文字幕熟女| 日韩精人妻无码一区二区三区| 国产精品一级黄色大片| 中文字幕漂亮人妻在线| 少妇被粗大的猛烈进出免费视频 | 国产精品9999久久久久仙踪林| 亚洲精品成人网站在线观看| 久久久精品免费国产四虎| 97成人精品在线视频| 夜夜爽日日澡人人添| av片在线观看免费| 高清一级淫片a级中文字幕| 婷婷开心五月亚洲综合| 婷婷色香五月综合缴缴情| 大伊香蕉在线精品视频75| 日本xxxx色视频在线观看| 国产亚洲一本大道中文在线| 91av小视频| 国产一区二区黑丝美女| 亚洲av午夜一区二区三| 好看的欧美熟妇www在线| 超碰Av一区=区三区| 亚洲av色精品国产一区二区三区| 98色婷婷在线| 中文字幕精品久久久久人妻红杏1 丰满人妻妇伦又伦精品国产 | 国产成人亚洲精品无码青| 国产在线观看免费观看| 男人深夜影院无码观看| 国产三级精品三级在线专区2| 99国产精品自在自在久久| 欧美第五页| 日韩熟女精品一区二区三区视频 | 免费女同毛片在线不卡| 在线观看一级黄片天堂| 久久精品国产亚洲av大全| 欧美日韩激情在线一区二区| 日韩美腿丝袜三区四区| 国产乡下三级全黄三级| 久久尤物AV天堂日日综合| 伊人久久综合狼伊人久久| 精品无码一区二区三区爱欲|