甘大旺(特級教師)
在各個版本最新的高中數(shù)學(xué)教材中,統(tǒng)計內(nèi)容的份量均再一次增加,但相應(yīng)的學(xué)法研究、復(fù)習(xí)輔導(dǎo)并沒有隨之“升溫”.因此,本文就高中概率統(tǒng)計的一個知識點“獨立性檢驗”進(jìn)行詮釋,例談其在高考備考中的應(yīng)用.
獨立性檢驗是統(tǒng)計學(xué)中兩種卡方檢驗之一,高中數(shù)學(xué)中獨立性檢驗的第一步是依題意完善或作出2×2列聯(lián)表,如表1所示.
表1
其中,x1,x2是一類變量X的兩個互斥狀態(tài),y1,y2是另一類變量Y的兩個互斥狀態(tài),a,b,c,d是分別具有狀態(tài)x1與y1,x1與y2,x2與y1,x2與y2的樣本頻數(shù),且都要求頻數(shù)均不小于5.
詮釋2改變列聯(lián)表中第2行與第3行的位置、第2列與第3列的位置,都不會改變隨機(jī)變量K2值的大小,如下列3種變換(如圖1),也分別滿足
圖1
(cb-da)2=(ad-bc)2,
(bc-ad)2=(ad-bc)2,
(da-cb)2=(ad-bc)2.
高中獨立性檢驗的第三步是根據(jù)下列統(tǒng)計學(xué)上的概率臨界值表,間接判定兩類變量“X與Y有關(guān)系”的可信程度(如表2).
表2
詮釋3因為獨立性檢驗的基本思想類似于反證法,所以直接用所算K2值對比表2中臨界值k就可查找兩類變量“X與Y有關(guān)系”出錯的至多概率,從而“X與Y有關(guān)系”判斷正確的至少概率(把握性)是1-P(K2>k).
詮釋4借助概率臨界值表,可以逆向延伸和理解K2 例1為了考察某種藥物預(yù)防疾病的效果,進(jìn)行動物試驗,得到如表3所示的藥物效果與動物試驗的列聯(lián)表. 表3 由以上數(shù)據(jù)給出以下結(jié)論:① 能在犯錯誤的概率不超過0.05的前提下認(rèn)為藥物有效;② 不能在犯錯誤的概率不超過0.025的前提下認(rèn)為藥物有效;③ 能在犯錯誤的概率不超過0.010的前提下認(rèn)為藥物有效;④ 不能在犯錯誤的概率不超過0.005的前提下認(rèn)為藥物有效. 其中,正確結(jié)論的個數(shù)是________. 解析 根據(jù)列聯(lián)表,計算得 查概率臨界值表知,結(jié)論①成立的充分條件是K2≥3.841,所以結(jié)論①正確;結(jié)論②成立的充分條件是K2<5.024,所以結(jié)論②錯誤;結(jié)論③成立的充分條件是K2≥6.635,所以結(jié)論③錯誤;結(jié)論④成立的充分條件是K2<7.879,所以結(jié)論④正確. 綜上所述,正確結(jié)論的個數(shù)是2. 點評 查閱獨立性檢驗的概率臨界值表時,要貼近實際問題,看準(zhǔn)、看懂、用準(zhǔn)“有關(guān)”或“無關(guān)”“出錯誤”或“有把握”“至少”或“至多”等關(guān)鍵詞. 例2某共享單車經(jīng)營企業(yè)欲向某市投放單車,為制定經(jīng)營策略,該企業(yè)在已經(jīng)投放單車的乙市分兩組進(jìn)行隨機(jī)調(diào)研,針對15至45歲的人群,按比例隨機(jī)抽取300份問卷,統(tǒng)計結(jié)果見表4. 表4 (1)從統(tǒng)計數(shù)據(jù)可直接得出“是否經(jīng)常使用共享單車與年齡界限(記作m歲)有關(guān)”的結(jié)論,在用獨立性檢驗的方法說明該結(jié)論正確時,為使犯錯誤的概率盡量小,年齡m應(yīng)該取25還是35?請說明理由. (2)對于(1)中所取的年齡界限m的值,大約有多少把握認(rèn)為“經(jīng)常使用共享單車與年齡達(dá)到m歲有關(guān)”? 解析 (1)取m=25,整理數(shù)據(jù)繪制列聯(lián)表(如表5所示). 表5 再取m=35,整理數(shù)據(jù)繪制列聯(lián)表(如表6所示). 表6 點評 對于兩類分類變量X與Y的2×2列聯(lián)表,相應(yīng)算出的K2越大(小),判定“X與Y有關(guān)”的出錯概率就越小(大),即認(rèn)為“X與Y有關(guān)”的把握性就越大(小). 練習(xí)1如果兩個分類變量X與Y的2×2列聯(lián)表如表7所示. 表7 對于同一樣本,以下數(shù)據(jù)說明X與Y有關(guān)系的可能性最大的一組是( );可能性最小的一組是( ). A.a=45,b=15 B.a=40,c=20 C.a=35,c=25 D.a=30,c=30 練習(xí)2某工廠兩個車間的工人在一次技術(shù)比賽中的成績,可以繪制成列聯(lián)表(如表8). 表8 于是,推斷“比賽成績與車間有關(guān)系”錯誤的概率屬于區(qū)間( ). A. (0.3, 0.4) B. (0.4, 0.5) C. (0.5, 0.6) D. (0.6, 0.7) 練習(xí)4某制造企業(yè)有25周歲以上(含25周歲)職工300名,25周歲以下職工200名.為調(diào)查職工的日平均生產(chǎn)量是否與年齡有關(guān),現(xiàn)從中分層抽取了100名職工,先統(tǒng)計了他們某月的日平均生產(chǎn)件數(shù),然后按員工年齡在“25周歲以上(含25周歲)”和“25周歲以下”分為兩組,再將兩組職工的日平均生產(chǎn)件數(shù)分成5組分別進(jìn)行統(tǒng)計,得到如圖2所示的頻率分布直方圖.企業(yè)授予日平均生產(chǎn)件數(shù)至少80件的職工為“生產(chǎn)能手”. 圖2 (1)繪制職工類別(“生產(chǎn)能手”與“非生產(chǎn)能手”)與年齡的2×2列聯(lián)表; (2)試問:有多大的把握認(rèn)為“生產(chǎn)能手與所在的年齡組有關(guān)”? 提示:(1)“25周歲以上”年齡組有60人,“25周歲以下”年齡組有40人,再對照兩個頻率分布直方圖,繪制2×2列聯(lián)表,如表9所示. 表92 備考舉例
3 備考練習(xí)