胡良平
(1.軍事科學(xué)院研究生院,北京 100850; 2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029
資料類型的種類數(shù)量取決于“劃分方法”,“傳統(tǒng)劃分方法”將資料類型劃分為以下三類,即計量資料、計數(shù)資料和等級資料;而“現(xiàn)代劃分方法”將資料類型劃分為以下四類,即計量資料、計數(shù)資料、名義資料(包括二分類定性資料和多分類定性資料)和有序資料。其中,常簡稱“計量資料”與“計數(shù)資料”為“定量資料”;簡稱“名義資料”與“有序資料”為“定性資料”。
值得注意的是:“傳統(tǒng)劃分方法”中“計數(shù)資料”的概念是不正確的,其把諸如“性別”“血型”“職業(yè)”這樣的定性(二分類或多分類)變量及其取值錯誤地定義為“計數(shù)資料”,其理由是:在所考察的變量(如:性別)各水平組之下,受試者數(shù)目是“正整數(shù)”,故將其視為“計數(shù)資料”,這是“形而上學(xué)”思維導(dǎo)致的“錯誤定義”!
正確識別資料類型的方法是看變量在每個個體上的取值或表現(xiàn)。如:“性別”在每個個體上的取值不是“男性”就是“女性”,所以“性別”是一個定性變量或名義變量或二值變量;“血型”是一個定性變量或多分類變量;顯然,兩種以上分級的“療效”(如:治愈、顯效、好轉(zhuǎn)、無效、死亡)就應(yīng)被稱為“有序資料或等級資料”;而“身高”“體重”“收縮壓和舒張壓”“體重指數(shù)”這些指標(biāo)的測定結(jié)果應(yīng)被稱為“計量資料”,因為它們可以取小數(shù),還有“度量衡單位”;至于某街道各戶居民家庭人口數(shù)資料、某地區(qū)1 000例癲癇患者治療出院后,醫(yī)生對他們進(jìn)行1年的隨訪觀察,收集每例患者在隨訪1年內(nèi)癲癇復(fù)發(fā)次數(shù)的資料,就應(yīng)被稱為“計數(shù)資料”,因為其數(shù)值為“0”或“非0的正整數(shù)”。
2.1.1 隨機(jī)變量
變量的取值在試驗或觀察之前是無法準(zhǔn)確知道的,例如:假設(shè)讓某人連續(xù)打靶10次,設(shè)X代表打中“靶心”的次數(shù),于是,X就是一個隨機(jī)變量。
2.1.2 兩種離散型隨機(jī)變量
若某隨機(jī)變量只能取實數(shù)域某區(qū)間內(nèi)的“0”或“整數(shù)”(在多數(shù)實際問題中,為“正整數(shù)”),則這類隨機(jī)變量就被稱為“離散型隨機(jī)變量”,例如:某市每戶家庭人口數(shù)等。若某隨機(jī)事件可能發(fā)生、也可能不發(fā)生,為研究方便,令該事件發(fā)生為“1”、不發(fā)生為“0”,于是,該隨機(jī)事件也轉(zhuǎn)化成了一個離散型隨機(jī)變量。
在實際問題中,“離散型隨機(jī)變量”有以下兩種類型:①計數(shù)型。變量在每個個體上的取值要么為“0”,要么為“非0的整數(shù)”,多數(shù)場合下,為“正整數(shù)”,例如:用某種藥物治療某種難治性疾病的1 000例患者,治愈例數(shù)X就是一個計數(shù)型隨機(jī)變量。②定性型。變量在每個個體上的取值只是一個“類別”或“等級”,由研究者對其進(jìn)行重新“賦值”,例如:將“療效”中的“有效”賦值為“1”,“無效”賦值為“0”;同理,研究者可以給五種療效等級分別賦值為“1,2,3,4,5”或“1,4,9,15,24”。但在更多場合下,會將具有五個等級的“療效”轉(zhuǎn)換為四個“啞變量”,每個“啞變量”都是一個“二值變量”,它們都以某一個療效等級(例如:死亡)為“基準(zhǔn)”。這些問題中的“隨機(jī)變量”都屬于“定性型的隨機(jī)變量”。
2.1.3 連續(xù)型隨機(jī)變量
若某隨機(jī)變量可取實數(shù)域某區(qū)間內(nèi)的任何值,則該隨機(jī)變量就被稱為“連續(xù)型隨機(jī)變量”,例如:某地區(qū)正常成年人的體重、血壓、體重指數(shù)數(shù)值等。
2.2.1 頻率與概率及其相互關(guān)系
在樣本中,隨機(jī)事件A出現(xiàn)的可能性大小的度量,被稱為事件A發(fā)生的頻率。通常,在n次獨立重復(fù)試驗中,若事件A出現(xiàn)了k次,則稱式(1)為事件A出現(xiàn)的頻率。
(1)
在總體中,隨機(jī)事件A出現(xiàn)的可能性大小的度量,被稱為事件A發(fā)生的概率。通常,當(dāng)n→∞時,用n次獨立重復(fù)試驗的頻率fn(A)作為概率P(A)的估計值,見式(2)。
(2)
頻率與概率都是用來描述隨機(jī)事件發(fā)生可能性大小的度量,頻率是對樣本而言,而概率則是總體的屬性。
2.2.2 率與率的標(biāo)準(zhǔn)誤
率,通常劃分為百分率、千分率,僅僅是基數(shù)不同;有時還稱為樣本率、總體率,這完全取決于計算率時所對應(yīng)的分母。若分母是由樣本中的全部個體組成,則應(yīng)被稱為樣本頻率,簡稱樣本率;若分母是由總體中的全部個體組成,則應(yīng)被稱為總體概率,簡稱概率。
只有樣本率才有標(biāo)準(zhǔn)誤,因為總體率是一個固定的常數(shù),不存在抽樣誤差。那么,何為率的標(biāo)準(zhǔn)誤呢?試想,從一個無限總體中反復(fù)有放回地抽取樣本大小為n的個體組成樣本,記錄導(dǎo)致隨機(jī)事件A發(fā)生的個體數(shù)量,設(shè)為k1,則樣本率P1=k1/n;若從事先定義的總體中,再隨機(jī)抽取n個個體,又可計算出第二批試驗所對應(yīng)的樣本率P2=k2/n;…;這樣反復(fù)抽樣,假定共抽了m批(m≥2)。不難想象,Pi,i=1,2,…,m,這m個樣本率不完全相等。度量它們波動大小的變異指標(biāo)被稱為率的標(biāo)準(zhǔn)誤,由數(shù)理統(tǒng)計知識可知,率的標(biāo)準(zhǔn)誤見式(3)。
(3)
2.2.3 概率分布的含義
對于非數(shù)學(xué)工作者來說,“概率分布”一詞是比較難以理解的。但當(dāng)人們把“概率”暫時比作“100斤大米”,把“分布”暫時理解成“分配”,于是,“概率分布”就變成“分配100斤大米”了。問題是:分配給誰?按什么“方案”進(jìn)行分配?例如:按“相等原則”把“100斤大米”分配給“10個人”。若用“X”代表這10個人的通用名,用“1~10”代表他們的具體名字、用W代表每人分到的大米重量、用P代表每人分到的大米占全部大米的比重,則可用如下形式呈現(xiàn)前面的“分配方案”。
X:12345678910W:10101010101010101010P:0.10.10.10.10.10.10.10.10.10.1
在上面的“分配方案”中,最后一行的全部數(shù)值之和為“1”,它被稱為“總概率”,常簡稱為“概率”。實際上,就是把概率“1”分配給“10個人”,故“概率分布”就是“概率分配”之意。
接下來,將上面的具體問題“抽象化”,使其適用于任何所研究的事物或問題。把“X”視為某事物中所關(guān)心的結(jié)果所代表的“隨機(jī)變量”,需要列出“X”的所有可能取值(如:上例中,有10個人參加分配大米);把“P”視為按“分配原則”所決定的“分配比例”或“X”取各個特定值對應(yīng)的“概率”。將一個實際問題中的“X”與“P”及其具體取值均呈現(xiàn)出來,就是這個實際問題所對應(yīng)的“概率分布”。對于上面的例子,其概率分布如下。
X:12345678910P:0.10.10.10.10.10.10.10.10.10.1
2.2.4 離散型隨機(jī)變量概率分布的定義
將某個指定的離散型隨機(jī)變量的所有可能取值一一列舉出來,再將該隨機(jī)變量取每個特定值的可能性,即概率也一一列舉出來,將這兩部分信息同時呈現(xiàn)出來,就稱其為該離散型隨機(jī)變量的概率分布。
離散型隨機(jī)變量只能取有限個或可列個數(shù)值,其取值分別為x1,x2,…,xi,…,相應(yīng)的概率為pi=P(X=xi),i=1,2,…,它的概率分布常以分布列的形式表示,見式(4):
(4)
任一離散型隨機(jī)變量的分布列{pi}都應(yīng)滿足下面的兩個公式:
①pi≥0,i=1,2,…;
(5)
(6)
在式(4)中,若每個pi都可通過一個公式計算出來,則稱該計算公式為該離散型隨機(jī)變量“X”的“概率函數(shù)”。由此可知,要掌握一個實際問題中的離散型隨機(jī)變量“X”的變化規(guī)律,必須提供兩方面的信息:①X的一切可能取值;②X的概率函數(shù)或X取每一個特定值所對應(yīng)的概率。
在“2.3”小節(jié)中將介紹兩種在統(tǒng)計建模中常用的“離散型隨機(jī)變量概率分布”。
2.2.5 連續(xù)型隨機(jī)變量概率分布的定義
2.2.5.1 概述
由于連續(xù)型隨機(jī)變量的取值充滿一個區(qū)間,無法一一列出,因此對于連續(xù)型隨機(jī)變量的概率分布,不能像離散型隨機(jī)變量那樣使用分布列去描述??虅澾B續(xù)型隨機(jī)變量概率分布的一個方法是用概率分布函數(shù)去描述,但在理論和實際中更方便、常用的是“概率密度函數(shù)”。
2.2.5.2 定義
設(shè)連續(xù)型隨機(jī)變量X有概率分布函數(shù)F(x),則F(x)的導(dǎo)數(shù)f(x)=F'(x)稱為X的概率密度函數(shù)。
“密度函數(shù)”這個名詞的來由可解釋如下:取定一個點x,則按分布函數(shù)的定義,事件{x
連續(xù)型隨機(jī)變量X的概率密度函數(shù)f(x)具有以下三個基本性質(zhì):
①f(x)≥0
(7)
(8)
③ 對任意常數(shù)a
(9)
2.2.5.3 “概率密度函數(shù)”的概念
對于非數(shù)學(xué)工作者,很難理解“概率密度函數(shù)”的真實含義。首先,在直角坐標(biāo)系中,它的圖像是一條“曲線”。例如:標(biāo)準(zhǔn)正態(tài)分布的概率密度曲線。見圖1。
圖1 標(biāo)準(zhǔn)正態(tài)分布概率密度函數(shù)的圖形
從圖1可觀察到如下特點:
②圖形關(guān)于直線“x=0”對稱;
③圖形以x軸為其漸近線;
④曲線上有兩個對稱的拐點A和B,拐點到直線“x=0”的距離等于1;
⑤曲線的位置由期望值μ決定,μ為位置參數(shù);
⑥曲線的“胖瘦”由方差σ2來決定,σ為形狀參數(shù),也叫做隨機(jī)變量X的標(biāo)準(zhǔn)差;
⑦用變量變換的方法可以使一般正態(tài)分布轉(zhuǎn)變成標(biāo)準(zhǔn)正態(tài)分布,圖1就是標(biāo)準(zhǔn)正態(tài)概率密度函數(shù)圖(μ=0、σ=1)。
橫坐標(biāo)軸上的變量就是所研究的“連續(xù)型隨機(jī)變量X”,曲線在橫坐標(biāo)軸上所覆蓋的“范圍”就是“連續(xù)型隨機(jī)變量X”的“取值區(qū)間”[對于標(biāo)準(zhǔn)正態(tài)分布而言,整個區(qū)間為(-∞,+∞)]。整個曲線下的“面積”為“1”,這個“1”就是“連續(xù)型隨機(jī)變量X”在全部取值區(qū)間上取值的“概率”。于是,若在該曲線上任取兩點,從這兩點向橫坐標(biāo)軸作垂線,其交點分別記為“X1”與“X2”,設(shè)它們之間的曲線下面積為“P*”,則這個“P*”就是“X在閉區(qū)間[X1,X2]上取值的概率”。
由此可知,所謂“概率密度函數(shù)”,就是通過它可以計算出“連續(xù)型隨機(jī)變量X”在任何一個指定區(qū)間內(nèi)取值的“概率”。在橫坐標(biāo)軸的不同位置上,取幾個相等寬度的“區(qū)間”,“連續(xù)型隨機(jī)變量X”在這些區(qū)間上取值的概率是不相等的,形象地理解成:落入各區(qū)域上的“雨點”的“密集程度”不同。所以,“概率密度函數(shù)”中的“密度”兩個字,其真實含義是“大小”,即計算“連續(xù)型隨機(jī)變量X”在不同區(qū)間上取值的“概率大小”的“函數(shù)”被數(shù)學(xué)家和統(tǒng)計學(xué)家稱為“概率密度函數(shù)”。
服從特定概率分布規(guī)律的“連續(xù)型隨機(jī)變量概率分布”有很多,其中,最常見的有“正態(tài)分布”“t分布”“χ2分布”和“F分布”,因篇幅所限,此處從略。
2.3.1二項分布
2.3.1.1引言
有很多隨機(jī)現(xiàn)象或試驗,每進(jìn)行一次觀察或試驗只有兩種對立結(jié)果中的一種出現(xiàn)。如成功與失敗、生存與死亡等。假定在群體中,絲蟲病的患病率p=0.1,不患絲蟲病的概率q=1-p=0.9。若隨機(jī)抽查三人,則可能出現(xiàn)下面四種情形之一。
抽查結(jié)果對應(yīng)的概率計算公式概率值全是陽性ppp(=p3)0.001兩陽一陰ppq+pqp+qpp(=C23p2q1)0.027一陽兩陰pqq+qpq+qqp(=C13p1q2)0.243全是陰性qqq(=q3)0.729
如果用X表示隨機(jī)抽出的三人中患絲蟲病的人數(shù),則X=i的概率可概括地表達(dá)為:
若獨立重復(fù)上述試驗n次,稱為n重Bernoulli試驗,各種結(jié)果的出現(xiàn)有一定的分布規(guī)律,稱為Bernoulli分布,這是因為此分布最初由瑞士數(shù)學(xué)家和統(tǒng)計學(xué)家J.Bernoulli(1654年-1705年)發(fā)現(xiàn)。又因此分布的概率函數(shù)是二項展開式中的一項,故此分布又被稱為二項分布。
2.3.1.2 定義
(10)
(11)
服從二項分布的離散型隨機(jī)變量X的分布函數(shù)見式(12):
(12)
2.3.1.3 性質(zhì)
(1)概率函數(shù)b(m;n,p)的圖形
當(dāng)n和p取不同值時,概率分布的形狀就有所不同。當(dāng)隨著n增大且p接近0.5時,二項分布逐漸接近正態(tài)分布。下面僅給出n=20且p分別取0.25、0.50和0.75三種情況下二項分布概率函數(shù)圖形。見圖2。
圖2 n=20,p=0.25、0.50、0.75時 二項分布的概率函數(shù)折線圖
(2)期望值與方差
設(shè)X~b(m;n,π),π為總體率,則X可視為n個相互獨立的服從二點分布的隨機(jī)變量Xi(i=1,2,…,n)之和,即X=X1+X2+…+Xn,二點分布的期望值與方差分別為:
E(Xi)=0×(1-π)+1×π=π
(13)
Var(Xi) =E[Xi-E(Xi)]2=E(Xi-π)2
=(0-π)2(1-π)+(1-π)2π=π(1-π)
(14)
根據(jù)期望值與方差的性質(zhì)可得:
E(X) =E(X1+X2+…+Xn)
=E(X1)+E(X2)+…+E(Xn)=nπ
(15)
Var(X) =Var(X1+X2+…+Xn)
=Var(X1)+Var(X2)+…+Var(Xn)
=nπ(1-π)
(16)
E(p)=π
(17)
(18)
(3)二項分布的可加性
若X1,X2,…,Xm獨立,且Xi~B(ni;p),i=1,2,…,m,X=X1+X2+…+Xm,則X~B(n;p),其中n=n1+n2+…+nm。
2.3.2 泊松(Poisson)分布
2.3.2.1 引言
在自然界中,有一系列看起來彼此互不相干的隨機(jī)變量,它們卻遵從同一種分布規(guī)律。如某交換臺在某一段時間內(nèi)所接到的呼喚次數(shù);某公共汽車站在等長的一段時間內(nèi)的乘客數(shù);每米布上的瑕疵點數(shù);每件鋼鐵鑄件上的缺陷數(shù);放射性分裂落到某區(qū)域內(nèi)的質(zhì)點數(shù);顯微鏡下落在某區(qū)域中的血球或微生物的計數(shù);細(xì)菌、血細(xì)胞、粉塵等在單位面積或容積內(nèi)的計數(shù);在單位空間中的某些野生動物或昆蟲數(shù);在一定人群中某種患病率很低的非傳染性疾病的患病數(shù)或死亡數(shù)等。上述離散型隨機(jī)變量,一般認(rèn)為,它們的分布規(guī)律是由法國數(shù)學(xué)家Simeon Denis Poisson(1781-1840)于1837年發(fā)現(xiàn)的,故稱為Poisson分布(然而,有證據(jù)表明:在此之前約一個世紀(jì),此分布可能已被DeMoivre發(fā)現(xiàn))。這種分布常用于描述單位時間或平面或空間中罕見“質(zhì)點”總數(shù)的隨機(jī)分布規(guī)律,可視為n很大,π很小時二項分布的極限情形。
2.3.2.2 定義
若離散型隨機(jī)變量X的取值為非負(fù)整數(shù),且相應(yīng)的概率函數(shù)為:
(19)
則稱隨機(jī)變量X服從Poisson分布,記作X~P(k;λ)。
2.3.2.3 性質(zhì)
(1)概率函數(shù)P(k;λ)的圖形
當(dāng)λ取不同值時,概率分布的形狀就有所不同。當(dāng)隨著其均值λ不斷增大,泊松分布逐漸接近正態(tài)分布。下面僅給出λ分別取2.5、5.0和10.0三種情況下泊松分布概率函數(shù)圖形,見圖3。
圖3 λ=2.5,5.0,1.0時泊松分布的概率函數(shù)折線圖
(2)均值與方差
E(X)=λ
(20)
Var(X)=λ
(21)
(3)極值
(22)
當(dāng)λ不是整數(shù)時,P(k;λ)在λ=[λ](這里中括號表示取整運(yùn)算)處達(dá)到極大值;當(dāng)λ是整數(shù)時,P(k;λ)在k=λ及k=λ-1處同時達(dá)到極大值。
(4)用正態(tài)分布近似處理泊松分布資料的條件
泊松分布是非對稱的,但當(dāng)λ愈大時非對稱性愈不明顯;當(dāng)λ=10時,分布已相當(dāng)對稱了。一般來說,當(dāng)λ≥20時,泊松分布的資料可按正態(tài)分布處理。
(5)用泊松分布近似處理二項分布資料的公式
當(dāng)n很大,p很小,np=λ為一常數(shù)時,二項分布近似于泊松分布。p愈小,近似程度愈好。即
(23)
(6)泊松分布的可加性
如果相互獨立的k個隨機(jī)變量均服從泊松分布,則它們之和仍服從泊松分布,且其均數(shù)為k個隨機(jī)變量的均數(shù)之和。
2.3.3 負(fù)二項分布
2.3.3.1 引言
在二項分布中,獨立重復(fù)試驗的次數(shù)是固定的,如果讓指定結(jié)果(如陽性)發(fā)生的次數(shù)固定,則第r次發(fā)生指定結(jié)果時,所需要的試驗次數(shù)X是一隨機(jī)變量,它的概率分布就是負(fù)二項分布。負(fù)二項分布中,重復(fù)試驗相互獨立并且發(fā)生某一事件的概率保持不變,這與二項分布一致。
負(fù)二項分布常用于描述生物的群聚性,如釘螺在土壤中的分布、昆蟲的空間分布等。醫(yī)學(xué)上可用于描述傳染性疾病的分布和致病生物的分布,在毒理學(xué)的顯性致死試驗或致癌試驗中也都有應(yīng)用。
2.3.3.2 定義
如果離散型隨機(jī)變量X的概率函數(shù)為下面的式(24):
(24)
則稱隨機(jī)變量X服從負(fù)二項分布,記作X~Nb(r,p)。式中p與r分別為指定結(jié)果發(fā)生的概率與次數(shù)。
實際中常用未發(fā)生指定結(jié)果的次數(shù)Y代替試驗次數(shù)X,這時記Y=X-r,m=k-r,式(24)可改寫為下面的式(25):
(25)
2.3.3.3 性質(zhì)
(1)概率函數(shù)Nb(n,p)的圖形
該分布中有兩個參數(shù),分別為r和p,它們?nèi)〔煌禃r,分布圖形各異。下面給出r=5,p=0.3、0.5和0.7條件下負(fù)二項分布概率函數(shù)圖。見圖4。
圖4 r=5,p=0.3、0.5、0.7時 負(fù)二項分布的概率函數(shù)折線圖
(2)期望值與方差
(26)
(27)
對于隨機(jī)變量Y,期望值和方差分別為
(28)
(29)
(3)負(fù)二項分布的退化與擴(kuò)展
當(dāng)r=1時,負(fù)二項分布退化為幾何分布。此外,若X1,…,Xm是相互獨立同分布的隨機(jī)變量,其分布為幾何分布,則它們的和X1+…+Xm服從負(fù)二項分布Nb(n,p)。
在式(16)中,如果允許r為任意正實數(shù),則稱此分布為一般的負(fù)二項分布,這個分布已被證實在眾多應(yīng)用中能很好地擬合觀測數(shù)據(jù)。當(dāng)r為正整數(shù)時,負(fù)二項分布被稱為Pascal分布。
(4)聚集指數(shù)
r值的大小可以衡量分布的離散程度,即聚集趨向的程度,被稱為聚集指數(shù),在很多文獻(xiàn)中常用字母k來表示它。
文獻(xiàn)[2]中提供了表1前兩列數(shù)據(jù),試估計每個細(xì)胞單位內(nèi)白細(xì)胞數(shù)的算術(shù)平均值和方差。
表1 每個細(xì)胞單位內(nèi)的白細(xì)胞數(shù)及頻數(shù)
基于表1中的前兩列數(shù)據(jù),按下面的公式可以計算出“每個細(xì)胞單位內(nèi)白細(xì)胞數(shù)的算術(shù)平均值和方差”:
因X的算術(shù)平均值近似等于其方差,由上面的式(20)和式(21)可知:本例中的“每細(xì)胞單位內(nèi)的白細(xì)胞數(shù)X”近似服從均值λ≈2.82的泊松分布。于是,將此均值代入式(19)就可計算出X分別取表1中第1列各數(shù)值時對應(yīng)的概率;再乘以其頻數(shù)(見表1中第2列數(shù)據(jù)),就可獲得表1中第3列的數(shù)據(jù),該列數(shù)據(jù)就是按λ≈2.82的泊松分布計算出來的。
文獻(xiàn)[3]中有關(guān)于“馬蹄形蟹及其伴隨者”的觀測數(shù)據(jù),其簡略形式見表2。
表2 雌蟹伴隨者個數(shù)的平均值和方差
在表2中,人們關(guān)心的“變量”是“每個雌蟹周圍有幾個伴隨的雄蟹”。倒數(shù)第2列為不同“背夾寬度”的雌蟹平均有幾個伴隨的雄蟹,最后一列為該變量的“方差”。若假定該變量服從泊松分布,那么,該變量的“方差”就明顯大于其“均值”了。在統(tǒng)計學(xué)上,稱這種“計數(shù)資料”為“過離散的計數(shù)資料”。
在文獻(xiàn)[4]中,為了了解和預(yù)測人體吸入氧氣的效率,收集了30名中年男性的健康狀況調(diào)查資料。共調(diào)查了7個指標(biāo),分別是:吸氧效率(y),年齡(x1,歲),體重(x2,kg),跑1.5 km所需時間(x3,min),休息時的心率(x4,次/分),跑步時的心率(x5,次/分),最高心率(x6,次/分)。見表3。
表3 30名中年男性的健康狀況調(diào)查資料
注:id,觀測對象編號;y,吸氧效率;x1,年齡;x2,體重;x3,跑1.5 km所需時間;x4,休息時的心率;x5,跑步時的心率;x6,最高心率
試求出表3中最后3列的“均值”與“方差”。
計算結(jié)果如下:
Obsmx4vx4mx5vx5mx6vx6153.451658.0559169.645105.103173.77483.9806
以上輸出結(jié)果中,“mx”與“vx”分別代表“均值”與“方差”??梢钥闯觯簒5和x6的方差均明顯小于其均值,尤其是x6,其“均值”約為“方差”的2.07倍,或者說,“方差”不到“均值”的一半。
在SAS幫助信息[5]中提供了一組數(shù)據(jù):一個名叫“William Sealy Gosset”(簡稱 “W.S.Gosset”,其曾以筆名“Student”發(fā)表了著名的“t分布”)的化學(xué)家采用血細(xì)胞計量器計算了同樣大小器皿中“酵母細(xì)胞”的個數(shù),個數(shù)范圍為0~5,對應(yīng)的器皿數(shù)(簡稱頻數(shù))如表4所示。
表4 “W.S.Gosset s”酵母細(xì)胞計數(shù)
一般認(rèn)為:細(xì)胞計數(shù)近似服從泊松分布,但統(tǒng)計學(xué)家Karl Pearson研究了表4資料后,認(rèn)為該組資料不服從泊松分布,他利用兩個二項分布構(gòu)成的混合模型來刻劃此資料的分布規(guī)律。后來,統(tǒng)計學(xué)工作者逐漸認(rèn)識了這種數(shù)據(jù)分布規(guī)律,稱它為“零膨脹計數(shù)資料”,采用改進(jìn)的泊松分布模型來描述它,此類模型被稱為“零膨脹計數(shù)資料泊松分布回歸模型”;事實上,還有一種類似的模型,被稱為“零膨脹計數(shù)資料負(fù)二項分布回歸模型”。這兩個“零膨脹計數(shù)資料回歸模型”的共同點為取“0”值的次數(shù)很多;不同點為取“非0正整數(shù)”值的那部分計數(shù)資料,分別服從泊松分布或負(fù)二項分布。
3.4.1 概述
所謂計數(shù)資料回歸模型就是采用一個回歸模型或方程來描述計數(shù)的因變量隨影響因素或自變量變化而變化的依賴關(guān)系。也就是說,因變量一定是“計數(shù)變量”,而且,至少要有一個自變量。
3.4.2 適合選用“二項分布回歸模型”的場合
當(dāng)離散型隨機(jī)變量Y的方差明顯小于其均值[分別見式(16)與式(15)]時,適合選用“二項分布回歸模型”。例如:在表3中,若以x6為“因變量”,以x1-x5為“自變量”,建立“計數(shù)資料回歸模型”時,宜選用“二項分布回歸模型”。
遺憾的是,表3的數(shù)據(jù)結(jié)構(gòu)不符合擬合“二項分布回歸模型”的要求。因為擬合此回歸模型時,因變量要求是“二值的”或“Y/N”(即以分組形式呈現(xiàn)的“各組陽性數(shù)/各組觀察或試驗總例數(shù)”)。
3.4.3 適合選用“泊松分布回歸模型”的場合
由于服從泊松分布隨機(jī)變量的方差等于均值[分別見式(21)與式(20)],此時,常習(xí)慣采用泊松分布回歸模型。
3.4.4 適合選用“負(fù)二項分布回歸模型”的場合
當(dāng)離散型隨機(jī)變量的方差明顯大于其均值時,資料的分布就偏離泊松分布,此時,采用“負(fù)二項分布回歸模型”取代“泊松分布回歸模型”可以較好地提高模型對計數(shù)資料的擬合效果。這是由于服從負(fù)二項分布的離散型隨機(jī)變量Y的方差[見式(27)]與均值[見式(26)]之比為“1/q”,又由于q(1-p)是一個小于1的數(shù),故方差一般會大于其均值,其程度取決于q值的大小。例如,設(shè)q分別為0.1、0.4和0.8時,則方差分別是均值的10.00倍、2.50倍和1.25倍。
3.4.5 適合選用“零膨脹泊松分布回歸模型”的場合
當(dāng)離散型隨機(jī)變量在“0”處取值的次數(shù)較多,且在“非0正整數(shù)”范圍內(nèi)取值所對應(yīng)的方差近似等于均值時,宜選用“零膨脹泊松分布回歸模型”。
3.4.6適合選用“零膨脹負(fù)二項分布回歸模型”的場合
當(dāng)離散型隨機(jī)變量在“0”處取值的次數(shù)較多,且在“非0正整數(shù)”范圍內(nèi)取值所對應(yīng)的方差明顯大于均值時,宜選用“零膨脹負(fù)二項分布回歸模型”。
具體地說,如何針對以上提及的具有5種分布特點的計數(shù)資料進(jìn)行相應(yīng)的回歸建模,參見本期專題的其他三篇文章。