胡純嚴(yán) ,胡良平 ,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在臨床資料中,定性資料(特指結(jié)果變量及其取值)[1-6]出現(xiàn)的頻率高。分析定性資料的統(tǒng)計(jì)分析方法主要有“差異性分析(通常適用于原因變量的個(gè)數(shù)≤2)[1-3]”和“l(fā)ogistic回歸分析(通常被用于原因變量的個(gè)數(shù)>2)[4-6]”兩大類。在前述提及的兩類統(tǒng)計(jì)分析方法中,“χ2檢驗(yàn)”都是不可或缺的。
在經(jīng)典統(tǒng)計(jì)學(xué)和貝葉斯統(tǒng)計(jì)學(xué)中,“概率分布”是統(tǒng)計(jì)分析的重要基礎(chǔ)[7-11],若離開了它,假設(shè)檢驗(yàn)、區(qū)間估計(jì)、回歸分析、判別分析和多元分析幾乎無法進(jìn)行。由數(shù)理統(tǒng)計(jì)知識(shí)可知,一旦掌握了某個(gè)隨機(jī)變量的概率分布,就等于掌握了其變化規(guī)律。概率分布的種類很多,通常可以分為兩大類,即“離散型隨機(jī)變量的概率分布”和“連續(xù)型隨機(jī)變量的概率分布”。本文介紹的χ2分布是在統(tǒng)計(jì)分析中被廣泛使用的一個(gè)連續(xù)型隨機(jī)變量的概率分布,它具有兩種表現(xiàn)形式,即“χ2分布”和“非中心χ2分布”[10-11]。本文對(duì)χ2檢驗(yàn)的基礎(chǔ)知識(shí),即“χ2分布及相關(guān)內(nèi)容”進(jìn)行介紹。
χ2分布是從正態(tài)分布派生出來的一個(gè)連續(xù)型概率分布。盡管如此,由于許多分布可以用χ2分布來近似,甚至在多元統(tǒng)計(jì)分析中也常用到它,故χ2分布在數(shù)理統(tǒng)計(jì)中一直占有重要地位[11]。
χ2分布分別由 I.J.Bienayme(1858)、F.R.Helmert(1876)和K.Pearson(1900)發(fā)現(xiàn),開始主要用于列聯(lián)表資料的“獨(dú)立性”分析和“評(píng)價(jià)回歸模型對(duì)資料擬合效果好壞”的擬合優(yōu)度檢驗(yàn)[12];在定性資料回歸模型的構(gòu)建過程中,χ2分布常用于篩選自變量[13];在廣義線性回歸模型和混合效應(yīng)回歸模型的構(gòu)建中,χ2分布常用于兩個(gè)回歸模型對(duì)同一個(gè)資料擬合效果的比較[13]。
1.1.1χ2分布的定義
設(shè)隨機(jī)變量Y1,Y2,…,Yn獨(dú)立同分布,且Yi~N(0,1),則隨機(jī)變量的分布稱為具有n個(gè)自由度的χ2分布,并記為。見式(1):
1.1.2χ2分布的概率密度函數(shù)及其圖形
χ2分布概率密度函數(shù)的圖形見下圖:
1.1.3χ2分布的性質(zhì)
1.1.3.1χ2分布的極限分布為正態(tài)分布
由圖1可看出如下特點(diǎn):①自由度n越大,曲線越趨于對(duì)稱;②當(dāng)自由度n→∞時(shí),χ2分布趨向于正態(tài)分布。
圖1 具有幾種不同自由度的χ2分布概率密度函數(shù)的圖形
1.1.3.2χ2分布的期望和方差
式(4)的“E”代表“期望(通俗的表述為‘均值’)”;“Vɑr”代表“方差”。
1.1.3.3χ2分布具有可加性
1.2.1 非中心χ2分布的定義
設(shè)隨機(jī)變量Y1,Y2,…,Yn相互獨(dú)立,且Yi~N(μi,1),則隨機(jī)變量的分布稱為具有n個(gè)自由度且非中心參數(shù)為的χ2分布,并記為見式(6):
在上式中,當(dāng)δ=0時(shí),非中心χ2分布就退化成為前面定義的χ2分布χ2n。
【說明】因篇幅所限,該分布的性質(zhì)從略。
χ2分布是從正態(tài)分布派生出來的一個(gè)分布;χ2分布的極限分布為標(biāo)準(zhǔn)正態(tài)分布[7,11]。用數(shù)學(xué)語言表述如下:
若Xn~,n=1,2,…,則當(dāng)n→∞時(shí),有下面的關(guān)系式成立:
另一方面,由來自正態(tài)分布的均值與離均差平方和或方差可構(gòu)造出服從χ2分布的隨機(jī)變量。事實(shí)上,若X1,X2,…,Xn(n≥2)是從總體N(μ,σ2)中抽出的樣本,令:
由本文式(1)定義的χ2分布可知,它是由n個(gè)互相獨(dú)立且都服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方之和構(gòu)成的,故當(dāng)其自由度為1時(shí),χ2檢驗(yàn)統(tǒng)計(jì)量的平方根就是Z檢驗(yàn)統(tǒng)計(jì)量(說明:在SAS軟件和部分統(tǒng)計(jì)學(xué)教科書中,通常用Z表示服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量或檢驗(yàn)統(tǒng)計(jì)量)。
在SAS軟件中,χ2分布的分布函數(shù)為:
probchi(x,df,nc)
該函數(shù)計(jì)算服從自由度為df,非中心參數(shù)為nc的χ2分布的隨機(jī)變量小于給定x的事件的概率。如果nc沒有規(guī)定或取為0,那么被計(jì)算的就是中心χ2分布曲線下累計(jì)概率。
【例1】試計(jì)算自由度為5,中心χ2分布曲線下χ2值小于20的概率值。
【分析與解答】所需要的SAS程序如下:
以上結(jié)果表明,當(dāng)χ2=20、自由度df=5、非中心參數(shù)nc=0的條件下,χ2分布曲線下且位于橫坐標(biāo)軸上“0~20”區(qū)間內(nèi)的累計(jì)概率為0.99875。
在SAS軟件中,χ2分布的分位數(shù)函數(shù)為:
cinv(P,df,nc)(0≤P≤1,df>0,nc≥0)
該函數(shù)計(jì)算自由度為df,非中心參數(shù)為nc的χ2分布的P分位數(shù)。取nc=0或不規(guī)定此項(xiàng)參數(shù)時(shí),表明是中心χ2分布。
【例2】試計(jì)算自由度為3,非中心參數(shù)為4.5的χ2分布的P=0.95的分位數(shù)。
【分析與解答】所需要的SAS程序如下:
以上結(jié)果表明,當(dāng)累計(jì)概率P=0.95、自由度df=3、非中心參數(shù)nc=4.5的條件下,χ2分布曲線下橫坐標(biāo)軸上的分位數(shù)x=16.8463(注意:這里的“x”是一個(gè)服從自由度df=3、非中心參數(shù)nc=4.5的χ2分布的隨機(jī)變量)。
【例3】試基于SAS函數(shù)“cinv(P,df,nc)”產(chǎn)生χ2分布臨界值表。
【分析與解答】在很多統(tǒng)計(jì)學(xué)教科書的附錄中,一般都會(huì)給出常用統(tǒng)計(jì)用表,其中,χ2分布臨界值表可以利用SAS函數(shù)“cinv(P,df,nc)”且令nc=0計(jì)算出來。現(xiàn)給出所需要的SAS程序如下:
【程序說明】“D O d=1 T O 4 0,5 0,6 0,7 0,8 0,9 0,100”語句表明,自由度df的取值為1、2、…、39、40、50、60、70、80、90、100,共46種取值,即產(chǎn)生的χ2分布臨界值表有 46 行;“alpha=0.995,0.990,0.975,0.950,0.900,0.750,0.500,0.250,0.100,0.050,0.025,0.010,0.005;p=1-alpha;”兩個(gè)語句表明,χ2分布曲線下右側(cè)尾端概率分別為0.995、0.990、…、0.005,共13種取值。也就是說,以上SAS程序共計(jì)算出46×13=498個(gè)χ2分布臨界值(本質(zhì)上就是χ2分布曲線下橫坐標(biāo)上的“分位數(shù)”的數(shù)值)。
【說明】因輸出的數(shù)據(jù)較多,此處從略。
χ2分布是一種連續(xù)型隨機(jī)變量的概率分布,然而,它不同于其他連續(xù)型隨機(jī)變量的概率分布(如“正態(tài)分布”等)。因研究者應(yīng)用統(tǒng)計(jì)學(xué)的過程中,諸如“正態(tài)分布”“t分布”和“F分布”的連續(xù)型概率分布常作為“Z檢驗(yàn)”“t檢驗(yàn)”和“方差分析(或稱F檢驗(yàn))”的理論依據(jù),直接應(yīng)用于定量資料的差異性分析;而χ2分布作為“χ2檢驗(yàn)”的理論依據(jù),一般只應(yīng)用于定性資料的差異性分析(如各種列聯(lián)表資料的差異性分析)、不同統(tǒng)計(jì)模型對(duì)同一個(gè)統(tǒng)計(jì)資料擬合優(yōu)度的比較等場(chǎng)合。但也有例外,即χ2檢驗(yàn)可應(yīng)用于單因素多水平設(shè)計(jì)一元定量資料多個(gè)方差的齊性檢驗(yàn)之中。χ2分布和χ2檢驗(yàn)之所以可以應(yīng)用于前述提及的各種場(chǎng)合,因?yàn)樵谀切﹫?chǎng)合下所構(gòu)造出的“檢驗(yàn)統(tǒng)計(jì)量”服從χ2分布。
本文針對(duì)處理定性資料所需要的χ2檢驗(yàn),介紹了與其有關(guān)的理論基礎(chǔ),即χ2分布和非中心χ2分布。重點(diǎn)展示了χ2分布的定義、概率密度函數(shù)的圖形和主要性質(zhì);基于SAS軟件中的兩個(gè)SAS函數(shù)呈現(xiàn)了χ2分布的計(jì)算方法(包括累計(jì)概率的計(jì)算和分位數(shù)的計(jì)算)和結(jié)果解釋。
科研方法專題策劃人——胡良平教授簡(jiǎn)介
胡良平,男,1955年8月出生,教授,博士生導(dǎo)師,曾任軍事醫(yī)學(xué)科學(xué)院研究生部醫(yī)學(xué)統(tǒng)計(jì)學(xué)教研室主任和生物醫(yī)學(xué)統(tǒng)計(jì)學(xué)咨詢中心主任、國(guó)際一般系統(tǒng)論研究會(huì)中國(guó)分會(huì)概率統(tǒng)計(jì)系統(tǒng)專業(yè)理事會(huì)常務(wù)理事、中國(guó)生物醫(yī)學(xué)統(tǒng)計(jì)學(xué)會(huì)副會(huì)長(zhǎng)、北京大學(xué)口腔醫(yī)學(xué)院客座教授和《中華醫(yī)學(xué)雜志》等10余種雜志編委;現(xiàn)任世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì)會(huì)長(zhǎng)、國(guó)家食品藥品監(jiān)督管理局評(píng)審專家和3種醫(yī)學(xué)雜志編委;主編統(tǒng)計(jì)學(xué)專著48部、參編統(tǒng)計(jì)學(xué)專著10部;發(fā)表第一作者和通信作者學(xué)術(shù)論文300余篇、發(fā)表合作論文130余篇;獲軍隊(duì)科技成果和省部級(jí)科技成果多項(xiàng);參加并完成三項(xiàng)國(guó)家標(biāo)準(zhǔn)的撰寫工作、參加三項(xiàng)國(guó)家科技重大專項(xiàng)課題研究工作。在從事統(tǒng)計(jì)學(xué)工作的30年中,為幾千名研究生、醫(yī)學(xué)科研人員、臨床醫(yī)生和雜志編輯講授生物醫(yī)學(xué)統(tǒng)計(jì)學(xué),在全國(guó)各地作統(tǒng)計(jì)學(xué)學(xué)術(shù)報(bào)告100余場(chǎng),舉辦數(shù)十期全國(guó)統(tǒng)計(jì)學(xué)培訓(xùn)班,培養(yǎng)20多名統(tǒng)計(jì)學(xué)專業(yè)碩士和博士研究生。近幾年來,參加國(guó)家級(jí)新藥和醫(yī)療器械項(xiàng)目評(píng)審數(shù)十項(xiàng)、參加100多項(xiàng)全軍重大重點(diǎn)課題的統(tǒng)計(jì)學(xué)檢查工作。歸納并提煉出有利于透過現(xiàn)象看本質(zhì)的“八性”和“八思維”的統(tǒng)計(jì)學(xué)思想,獨(dú)創(chuàng)了逆向統(tǒng)計(jì)學(xué)教學(xué)法和三型理論。擅長(zhǎng)于科研課題的研究設(shè)計(jì)、復(fù)雜科研資料的統(tǒng)計(jì)分析和SAS與R軟件實(shí)現(xiàn)、各種層次的統(tǒng)計(jì)學(xué)教學(xué)培訓(xùn)和咨詢工作。