何正文
(廣東省肇慶市百花中學(xué) 526000)
超幾何分布和二項分布是高中階段最重要的兩種離散型隨機(jī)變量的概率分布,超幾何分布和二項分布是人教A版選修2-3第二章隨機(jī)變量及其分布列中的兩種重要分布,也是高考概率統(tǒng)計大題中重點(diǎn)考查的內(nèi)容,二者的區(qū)別難以分清.本文就二者的聯(lián)系和區(qū)別進(jìn)行思考.
先看一下課本給出的兩種分布的概念:
這個概念的給出還是挺耐人尋味的,出自正品次品混合取件的例子,有點(diǎn)類似于判例法,這在高中課本中僅此一例.如果嚴(yán)格按照定義,要先計算分布列,然后才能判定是否服從超幾何分布,這樣本來也無可厚非,但對于解題來說可能就不太方便了,更多的時候我們需要先判定再計算.而且定義中引入了大量字母,公式也略顯復(fù)雜,對學(xué)生來講難以把握.簡單總結(jié)就是:總體較少且分兩類,則樣本中關(guān)注類的個數(shù)服從超幾何分布.依據(jù)這個簡易概念去判定就會方便多了.
這個概念相對較好把握,簡單總結(jié)就是:獨(dú)立重復(fù)試驗中成功次數(shù)服從二項分布,關(guān)鍵就是獨(dú)立重復(fù)試驗的判定.
這兩種分布從概念來看有很大的不同,甚至看不到有什么相似之處,但在具體問題中的就不像看定義這樣簡單易區(qū)分了.我們不妨就用課本中的例子通過改編來體會一下二者的區(qū)別.
例1 在含有M件次品的N件產(chǎn)品中,按下列取法依次取n件,求取到的次品數(shù)X的分布列:
(1)不放回地取;
(2)有放回地取.
分析 第(1)問中,不放回地取,最終取出n件,總體顯然分為正品和次品兩類,則所取n件樣本中次品類的個數(shù)一定會服從超幾何分布.而第(2)問中,有放回地取,每次取出后放回,則每次取出次品的概率相同,是n次獨(dú)立重復(fù)試驗,則取到的次品數(shù)X一定會服從二項分布.
通過兩道小題的比較分析,我們不難得到初步結(jié)論:當(dāng)總體個數(shù)較少時,“有放回”地取件,目標(biāo)類的個數(shù)服從二項分布,“不放回”地取件,目標(biāo)類的個數(shù)服從超幾何分布.
再看一個例子.
例2 二十世紀(jì)50年代,日本熊本縣水俁市的許多居民都患了運(yùn)動失調(diào)、四肢麻木等癥狀,人們把它稱為水俁病.經(jīng)調(diào)查發(fā)現(xiàn)一家工廠排出的廢水中含有甲基汞,使魚類受到污染,人們長期食用含高濃度甲基汞的魚類引起汞中毒.引起世人對食品安全的關(guān)注.《中華人民共和國環(huán)境保護(hù)法》規(guī)定食品的汞含量不得超過1.00ppm.羅非魚是體型較大,生命周期長的食肉魚,其體內(nèi)汞含量比其他魚偏高.現(xiàn)從一批羅非魚中隨機(jī)地抽出15條作樣本,經(jīng)檢測得各條魚的汞含量的莖葉圖(以小數(shù)點(diǎn)前一位數(shù)字為莖,小數(shù)點(diǎn)后一位數(shù)字為葉)如下:
羅非魚的汞含量(ppm)01321598732112354
(1)在這15條樣本魚中,任取3條,記η表示抽到的魚汞含量超標(biāo)的條數(shù),求η的分布列及Eη.
(2)以此15條魚的樣本數(shù)據(jù)來估計這批魚的總體數(shù)據(jù).若從這批數(shù)量很大的魚中任選3條魚,記ξ表示抽到的魚汞含量超標(biāo)的條數(shù),求ξ的分布列及Eξ.
分析 (1)由題知,15條魚作為樣本總體,個數(shù)較少且明顯分為汞含量超標(biāo)和汞含量不超標(biāo)兩類,個數(shù)分別為5條和10條,任取3條,則這3條中的汞含量超標(biāo)類的魚的條數(shù)η顯然服從超幾何分布,η的可能值為0,1,2,3.
則η的分布列為:
η0123P(η)249145912091291
ξ0123P(ξ)C03(13)0(23)3C13(13)1(23)2C23(13)2(23)1C23(13)3(23)0
所以Eξ=1.
通過對例2的分析,我們發(fā)現(xiàn)考察對象從樣本變到總體后,分布類型由超幾何分布變?yōu)榱硕椃植迹?/p>
我們更愿意通過對大量魚群中的一條魚“漠視”,忽略它對魚群的影響,這樣概率的計算就會變得容易很多,我們的統(tǒng)計和計算工作都大大地簡化了!超幾何分布就近似“變?yōu)椤绷硕椃植迹@個變化其實是兩種分布概率的一種近似,對應(yīng)取值的概率用兩種分布去計算肯定不相等,但隨著總體趨于無窮大,我們可以推測,他們的概率會越來越接近!在本例中,從有限到無限,從超幾何分布到二項分布,客觀上并沒有轉(zhuǎn)變,其實是我們主觀選擇的結(jié)果!我們選擇了一個“錯誤”的分布來減少計算量!這也是不得已而為之,而這也是用樣本估計總體的一個不得已的選擇.
所以我們對兩種分布的進(jìn)一步結(jié)論是:考察對象“有限”時服從超幾何分布,“無限”時則服從二項分布.
在例2中其實還有一個很有意思的地方我們可以關(guān)注一下,兩種分布的期望值是相同的!這是不是巧合呢?
通過剛才的分析我們已經(jīng)知道,當(dāng)總體數(shù)目非常大時,超幾何分布與二項分布對應(yīng)取值的概率近似相等,那它們的期望也是近似相等的,這很好理解.那為什么總體數(shù)目非常少的時候,超幾何分布的期望值算出來和二項分布也是相等的呢?我們還是繼續(xù)從例2中體會一下.
這一個結(jié)論還可以通過代數(shù)的方法進(jìn)行證明,過程如下:
通過上面的思考與證明,我們發(fā)現(xiàn)兩種分布的期望確實是相同的!
超幾何分布與二項分布這兩種重要的離散型隨機(jī)變量的分布之間關(guān)系基本已經(jīng)理清了,“有放回”和“無放回”的區(qū)別,“有限”和“無限”時的轉(zhuǎn)化,期望值的“巧合”,無不體現(xiàn)出二者的千絲萬縷的聯(lián)系.