李 勇 楊 平 王 雁
(1.北京師范大學(xué)統(tǒng)計學(xué)院 100875;2.北京日壇中學(xué) 100020)
數(shù)學(xué)抽象是數(shù)學(xué)的核心素養(yǎng)之一,其內(nèi)涵是用已經(jīng)掌握的數(shù)學(xué)知識描述問題情景本質(zhì),為進一步解決問題奠定基礎(chǔ).在教學(xué)過程中,常將數(shù)學(xué)抽象融入新知識的教學(xué)過程中,以熏陶學(xué)生的數(shù)學(xué)抽象能力.本文探討在高中知識背景限制下分類變量獨立性檢驗問題情景的數(shù)學(xué)抽象,研究該問題的數(shù)學(xué)等價刻畫.
在人民教育出版社出版的普通高中課程標準實驗教科書《數(shù)學(xué)選修2-3(A版)》中,以吸煙與肺癌是否有關(guān)系為問題背景介紹了獨立性檢驗的基本思想與實施步驟,其出發(fā)點是:“吸煙與患肺癌沒有關(guān)系”等價于“吸煙與患肺癌獨立”.一個自然的問題是為什么會有這種等價關(guān)系?能否用學(xué)生們之前學(xué)習(xí)過的數(shù)學(xué)和概率知識刻畫“吸煙與患肺癌沒有關(guān)系”?
為了回答這些問題,需要引入必要的符號進行數(shù)學(xué)抽象.現(xiàn)在的研究對象是由人組成的有限總體Ω,在該總體上定義了兩個變量,分別是吸煙變量X和肺癌變量Y,它們都是分類變量:對于總體中任何一人ω∈Ω,吸煙變量和肺癌變量的定義分別為
這樣“吸煙與肺癌沒有關(guān)系”的數(shù)學(xué)刻畫就是“吸煙者中患肺癌的比例與不吸煙者中患肺癌的比例相等”,即
(1)
顯然可以先獲取所有個體的吸煙和肺癌變量數(shù)據(jù),然后通過精確計算(1)式兩端的比例得到問題的答案,這是一種純數(shù)學(xué)的解答思路.但是在實際應(yīng)用中,由于獲取總體中所有個體變量數(shù)據(jù)的成本非常高,人們不得不考慮用部分個體數(shù)據(jù)來推斷問題的答案是什么,這就需要確定判斷的出發(fā)點和依據(jù),即要從其它角度分析“吸煙與肺癌沒有關(guān)系”的等價數(shù)學(xué)刻畫,即(1)的等價刻畫問題.
若能將(1)的左右兩端都看成概率,就可以依據(jù)頻率穩(wěn)定于概率的思想,通過相應(yīng)的兩個頻率是否接近推斷 “吸煙肺癌沒有關(guān)系” 是否成立.可從古典概率的角度看待(1)式兩端的分式:由于總體Ω為有限總體,可以把它看成是古典概型的基本事件空間,那么用已經(jīng)學(xué)習(xí)過的古典概率計算公式和條件概率的知識就可以得到
因此與“吸煙與肺癌沒有關(guān)系”等價的條件概率刻畫是
(2)
下面就以古典概型的視角看待總體Ω:在總體中任取一人,就不能預(yù)知吸煙變量的取值,也不能預(yù)知肺癌變量的取值,他們的隨機變化規(guī)律由古典概型所決定.
從“吸煙與肺癌沒有關(guān)系”的條件概率刻畫,可以進一步探討“吸煙與肺癌沒有關(guān)系”的條件分布列的等價刻畫.事實上,由(2)可知
=P(Y=0|X=0),
因此在X=1條件下Y的條件概率分布列
Y01在X=1條件下Y的條件概率PY=0|X=1()PY=1|X=1()
等于在X=0條件下Y的條件分布列
Y01在X=0條件下Y的條件概率PY=0|X=0()PY=1|X=0()
這就是“吸煙與肺癌沒有關(guān)系”的條件分布列刻畫.
依據(jù)條件分布列刻畫,可以將“吸煙與肺癌沒有關(guān)系”解釋為:吸煙變量的取值不會影響肺癌變量的條件概率分布列,即吸煙變量的取值不會影響肺癌變量隨機變化規(guī)律.這樣,對于普查數(shù)據(jù),也可以用條件概率分布列或密度圖的對比來解答兩個分類變量是否有關(guān)系問題;對于好的樣本觀測數(shù)據(jù),頻率會穩(wěn)定于概率,可以借助于頻率條形圖來推斷吸煙與肺癌是否有關(guān)系,以及解答吸煙是否更容易導(dǎo)致肺癌等問題.
相對而言,概率比條件概率更簡單,若能直接用概率刻畫“吸煙與肺癌沒有關(guān)系”,就會提高研究效率,下面我們討論“吸煙與肺癌沒有關(guān)系”的概率刻畫問題.
如果(2)成立,則有
注意到
=P(B)-P(AB),
可得
P(AB)(1-P(A))
=(P(B)-P(AB))P(A),
整理可得
P(AB)=P(A)P(B)
(3)
即事件A和B相互獨立.
而由事件A和B相互獨立可得
P({X=u}∩{Y=v})=P(X=u)P(Y=v)(4)
即事件{X=u}和事件{Y=v}都相互獨立,此時稱分類變量X和Y相互獨立.因此(3)等價于(4), 即等價于X和Y相互獨立.
即(2)成立.因此(2)等價于分類變量X和Y相互獨立,也等價于(3).為討論方便,稱(3)為“吸煙與肺癌沒有關(guān)系”的概率刻畫,稱(4)為“吸煙與肺癌沒有關(guān)系”的獨立性刻畫.
綜前所述,可以從不同的角度刻畫“吸煙與肺癌是否有關(guān)系問題”:從純數(shù)學(xué)的角度出發(fā),得到了該問題的等價刻畫(1);從古典概型的角度出發(fā),得到了該問題的條件概率刻畫(2)、概率刻畫(3)和獨立性刻畫(4).這四種刻畫都有各自的特點和應(yīng)用價值,下分別加以總結(jié).
1.數(shù)學(xué)刻畫(1)不需要任何概率統(tǒng)計知識,是該問題情景的數(shù)學(xué)本質(zhì)描述.直接從數(shù)學(xué)刻畫出發(fā),可以利用普查數(shù)據(jù)解答所關(guān)心的問題,但在實際應(yīng)用中普查的成本成為能否應(yīng)用這種解答方法的關(guān)鍵.
2.產(chǎn)生條件概率刻畫(2)的關(guān)鍵在于我們在總體Ω上構(gòu)建了古典概型,使得X和Y都成為隨機變量.這種刻畫比數(shù)學(xué)刻畫更為復(fù)雜,好處是可以通過條件概率知識解釋兩個變量之間有關(guān)系或者沒有關(guān)系的含義,也為利用頻率穩(wěn)定于概率的思想推斷問題結(jié)論奠定基礎(chǔ).
3.在條件概率刻畫的基礎(chǔ)上,利用概率知識建立了概率刻畫(3).概率刻畫的好處是更容易應(yīng)用頻率穩(wěn)定于概率的思想進行推斷,以解決普查成本過高的問題.
4.在概率刻畫的基礎(chǔ)上,利用概率知識建立了獨立性刻畫.獨立性刻畫可以用來解釋兩個變量之間有關(guān)系或者沒有關(guān)系的含義:兩個變量之間有關(guān)系等價于它們之間不是相互獨立;兩個變量之間沒有關(guān)系等價于它們之間相互獨立.特別地,獨立性刻畫還解釋了人們將這類問題稱之為獨立性檢驗問題的原因.
通過對于“吸煙與肺癌是否有關(guān)系問題”的四個等價刻畫的探討,使我們認識到:對于給定的問題,可以從不同的角度去刻畫和研究,以縮減問題研究成本和更好地認識問題的本質(zhì);通過這些探討,可以使學(xué)生反復(fù)體會以問題為導(dǎo)向的數(shù)學(xué)抽象的過程,培養(yǎng)他們的數(shù)學(xué)抽象能力.