摘 要: FISHER確切概率法是雙總體的比率假設檢驗的重要方法,也是數(shù)理統(tǒng)計教學的重要內(nèi)容,但現(xiàn)有的課本對該方法原理的介紹都過于簡略,以致學生往往很難理解和掌握該方法。本文針對這一實際情況,對FISHER確切概率法進行詳細系統(tǒng)的證明,并指出了講解該方法的要點,同時結(jié)合MATLAB程序?qū)崿F(xiàn)該方法, 教師可以在課堂上演示。實踐證明,這種深入剖析且可視化的講解方法,大大提高了學生的學習興趣,收到了良好的教學效果。
關(guān)鍵詞: 比率假設檢驗 FISHER確切概率法 MATLAB程序算法
前言
雙總體的比率假設檢驗是數(shù)理統(tǒng)計學科中比率假設檢驗的一項重要內(nèi)容,在大樣本的情形下,根據(jù)中心極限定理,用正態(tài)逼近法進行檢驗。20世紀英國統(tǒng)計學家FISHER提出了確切概率法,該方法在大小樣本的情形下都可以使用。相比較正態(tài)逼近法,該方法適用范圍廣且比較精確,可以檢驗水平保證不超過給定的α;缺點是計算麻煩。所幸隨著計算機的高速發(fā)展,計算已然不成問題,但仍存在難以理解其原理的問題。筆者在教學過程中發(fā)現(xiàn),現(xiàn)有的數(shù)理統(tǒng)計和醫(yī)學統(tǒng)計教科書對該方法的介紹都是點到即止,對原理剖析得不夠透徹,增加了理解難度,學生普遍反映難以理解該方法。因此筆者在此詳細探究FISHER確切概率法的證明過程,以補充教科書的不足;根據(jù)學生反饋對難點進行重點講解;并給出了MATLAB程序?qū)崿F(xiàn)該方法的的詳細算法,教師可在課堂上演示,以加深學生對該方法的理解,提高學生的學習興趣。
1.FISHER確切概率法[1]
1.1問題的提出
例:某公安局有兩個刑偵組,在過去一年內(nèi)第一組接手25件人命案,結(jié)果偵破了23件,第二組接手35件人命案,結(jié)果偵破了30件。問:兩個組的偵破能力有無區(qū)別?
對該問題進行數(shù)學解釋,設第一組偵破率為p,
X=1表示第一組偵破成功,其概率為p0表示第一組未能偵破成功,其概率為1-p
即X服從均值為p的伯努利分布,X,…,X為來自總體X的樣本,n=25。
同理設第二組偵破率為p,
Y=1表示第二組偵破成功,其概率為p0表示第二組未能偵破成功,其概率為1-p
即Y服從均值為p的伯努利分布,Y,…,Y為來自總體Y的樣本,m=35。
兩兩總體X,Y獨立,x,…,x,y,…,y為對應的觀察值,原假設為H∶p=p,則本質(zhì)為一個雙總體的比例假設檢驗。顯然,該問題p=x=0.92,np(1-p)=1.84<5;p=∑y=0.857,mp(1-p)=4.29<5不是大樣本情形,不能用正態(tài)逼近法來解決,只能用FISHER確切概率法來解決。FISHER確切概率法也是假設檢驗方法的一種,回顧假設檢驗的步驟,現(xiàn)在需要找出一個在原假設成立時已知概率分布的隨機變量,然后根據(jù)這次該隨機變量值的出現(xiàn)是否是小概率事件來判斷原假設是否成立。
事實上,若H成立,當t=x+y固定時,則檢驗統(tǒng)計量S=∑X是一個服從超幾何分布的隨機變量[2],該結(jié)論在教材上都是直接指出,而沒有詳細的解釋和證明,學生普遍反映不能理解,下面將給出該結(jié)論的詳細證明。
1.2檢驗統(tǒng)計量所服從的分布
統(tǒng)計量S=X在t=x+y固定情況下概率是一個條件概率,由條件概率公式可以得出:
P(S=i|S+S=t)=。
而P(S=i,S+S=t)
=P(S=i,S=t-i)
=P(S=i)P(S=t-i)(X,Y獨立可得)
=cp(1-p)cp(1-p)(由伯努利分布的定義可得)。
在原假設H∶p=P成立時,上式可以化簡得到:
P(S=i,S+S=t)
=ccp(1-p)。
原假設H∶p=p成立時,根據(jù)伯努利分布有P(S+S=t)=cp(1-p)。
因此,P(S=i|S+S=t)
=
=。
由超幾何分布的概率函數(shù)可知,檢驗統(tǒng)計量服從超幾何分布。超幾何隨機變量是離散型的隨機變量,它的值可列的。顯然,檢驗統(tǒng)計量S的取值s滿足s≥0,s≥t-m,s≤n,s≤t,因此它的范圍為[max(t-m,0),max(t-m,0)+1,…,min(n,t)]。
已知了檢驗統(tǒng)計量的分布,接下來的任務就是根據(jù)其分布來確定該統(tǒng)計量的取值出于哪些范圍是屬于小概率事件,而該范圍就是拒絕域,即接下來的任務就是如何確定拒絕域。因為這之前學生接觸過的檢驗統(tǒng)計量一般為正態(tài)分布、t分布、卡方分布等連續(xù)型的隨機變量,很少接觸這種離散型的檢驗統(tǒng)計量,所以學生可能一時不知道該如何確定這種離散型統(tǒng)計量的假設檢驗拒絕域,這時可以通過借鑒連續(xù)型統(tǒng)計量的情形來引導學生推導。
1.3拒絕域的確定
借鑒連續(xù)型的情形,對于給定的檢驗水平α,我們希望找到兩個整數(shù)c和c,使得P(S≤c|S+S=t)=,P(S≥c|S+S=t)=,類似連續(xù)型情形可以確定拒絕域為[max(t-m,0),c]∪[c,min(n,t)](見圖1)。
圖1 拒絕域的確定
然而這種希望不一定能實現(xiàn),因為檢驗統(tǒng)計量是離散的,所以滿足P(S≤c|S+S=t)=的c不一定存在。放寬條件,尋找d和d,使得
P(S≤d|S+S=t)≤(1)
P(S≥d|S+S=t)≤(2)
這樣的d和d一定存在,但并不唯一,選擇滿足(1)等式的最大的正整數(shù)為e,滿足(2)等式的最小的正整數(shù)為e,確定拒絕域為{s≤e∪s≥e}。相對于隨機取滿足(1)(2)的拒絕域{s≤d∪s≥d},前者有較優(yōu)良的性質(zhì),即它們的檢驗水平都是≤α,但是犯第二類錯誤的概率前者是小于等于后者的(對這一點學生也需要一點時間去理解,可以舉他們熟悉的置信區(qū)間在相同的置信度下取區(qū)間長度最小進行類比,以便于他們接受)。
1.4拒絕域的轉(zhuǎn)換
雖然已經(jīng)知道了檢驗統(tǒng)計量的分布,確定了拒絕域的形式為{s≥e∪s≤e},求出滿足條件的e和e肯定是可以的,但在計算上很麻煩。值得慶幸的事,該定義域可以進行等價轉(zhuǎn)換。
將P(S=i|S+S=t)簡記為p(i),
則P(S≤e|S+S=t)=p(i)≤,
P(S≥e|S+S=t)=p(i)≤,
顯然s≤ep(i)≤(因為e是滿足(1)式中最大的正整數(shù)),而s≥ep(i)≤(因為e是滿足(2)式中最小的正整數(shù)。因此拒絕域轉(zhuǎn)換為min(p(i),p(i))≤,等同于2min(p(i),p(i))≤α
1.5問題的解決
對于例題,n=25,m=35,t=53,p(i)=代入公式,2min(p(i),p(i))=2min(0.374,0.878)>0.05,沒有落入拒絕域,所以接受原假設,認為兩個組的偵破能力(偵破率)無區(qū)別。
2.MATLAB程序算法[3][4]
2.1MATLAB簡介
Matlab(MatrixLaboratory,即“矩陣實驗室”)是最優(yōu)秀的數(shù)值計算軟件。主要特點有:功能強大適用范圍廣;編程效率高;界面友好用戶使用方便;語句簡單內(nèi)涵豐富;功能齊備的自動控制軟件工具包等。它已經(jīng)成為線性代數(shù)、自動控制理論、數(shù)理統(tǒng)計、數(shù)字信號分析與處理等高級課程的基本數(shù)學工具。
2.2主要算法
整個算法的流程見圖2。
圖3 子函數(shù)P(begin)的算法流程
核心算法是p(i)的計算,采用遞推來簡化計算。
p(i+1)=
=
=
=×
p(i+1)=p(i)×。
3.結(jié)語
鑒于很多教科書上對FISHER確切概率法原理的闡述過于簡單,筆者從原假設H∶p=p入手,詳細闡述了該方法的原理,并給出了詳細的MATLAB算法流程,教師可以在課堂上演示,達到較好的教學效果。對于H∶p≥p和H∶p≤p的情況教師可以讓學生參看教科書自行推導,有編程基礎(chǔ)的學生可以動手嘗試一下寫實現(xiàn)包括三種原假設FISHER確切概率法的程序。實踐證明,這種誘導型的教育方法可以較好地增強學生的參與性和調(diào)動學生的主動性,收到較好的教學效果。
參考文獻:
[1]陳家鼎.數(shù)理統(tǒng)計學講義[M].北京:高等教育出版社,2006.
[2]徐勇勇.醫(yī)學統(tǒng)計學[M].北京:高等教育出版社,2002.
[3]張志涌.MATLAB教程[M].北京:北京航空航天大學出版社,2006.
[4]張瑞豐.精通MATLAB 6.5[M].北京:中國水利水電出版社,2004.
注:南方醫(yī)科大學公共衛(wèi)生與熱帶醫(yī)學院院長基金(GW200832)