摘" 要:列聯(lián)表是對分類變量進行獨立性檢驗的有力工具,在歷年高考中考查的頻率都比較高.從一般的r × s列聯(lián)表出發(fā),闡明運用列聯(lián)表進行卡方獨立性檢驗的本質(zhì)思想,并以2022年高考試題為例,說明2 × 2列聯(lián)表和2 × 3列聯(lián)表的計算過程. 最后從本質(zhì)出發(fā),推出常用公式,以期加深教師與學生對列聯(lián)表的理解.
關鍵詞:列聯(lián)表;卡方檢驗;獨立性;相關性
一、引言
《普通高中數(shù)學課程標準(2017年版2020年修訂)》中要求:通過實例理解2 × 2列聯(lián)表的統(tǒng)計意義及其在獨立性檢驗中的應用. 高中階段的列聯(lián)表主要是作為計算兩個分類變量之間的相關性的工具出現(xiàn)的,歷年高考經(jīng)??疾榱新?lián)表的這種用法. 例如,2022年全國甲卷文科第17題、2022年全國新高考Ⅰ卷第20題、2021年全國甲卷理科第17題、2020年全國Ⅲ卷文(理)科第18題中均出現(xiàn)過2 × 2列聯(lián)表. 并且高考試題中通常會附上卡方統(tǒng)計量的計算公式,以及卡方檢驗中常用小概率的臨界值表,學生直接將數(shù)據(jù)代入公式進行計算,將計算結(jié)果與臨界值進行比較就能夠得到答案. 由于考查形式較為單一,即便不理解公式的意義也能算出答案,使得這部分內(nèi)容很容易成為教學盲區(qū),教師一帶而過,學生很難學明白,遇到這類題目便機械套用公式,不理解列聯(lián)表出現(xiàn)的意義及其本質(zhì),因此只會對2 × 2列聯(lián)表進行計算,換成2 × 3列聯(lián)表或3 × 3列聯(lián)表等形式時往往就會束手無策. 文章將對列聯(lián)表中包含的信息及其用法進行詳細闡釋,以加深教師對列聯(lián)表的理解,提高學生的數(shù)據(jù)分析素養(yǎng).
二、明確形式,獲取信息
列聯(lián)表指的是兩個定性分類變量的頻數(shù)或頻率表,一個變量用于對行進行分類,另一個變量用于對列進行分類,單元格內(nèi)的值為對應變量的頻數(shù)(頻率). 對于頻數(shù)列聯(lián)表,可以通過計算得到相應的頻率. 假設樣本總數(shù)為n,兩個分類變量為X和Y,X有r個不同的類別,記為A1,A2,…,Ar,Y有s個不同的類別,記為B1,B2,…,Bs. 用nij(i = 1,…,r;j = 1,…,s)表示變量X屬于第i類Ai,且變量Y屬于第j類Bj的樣本數(shù),即事件AiBj實際發(fā)生的頻數(shù). 將分類樣本數(shù)據(jù)交叉整理的結(jié)果用表格呈現(xiàn),得到的便是一個r × s列聯(lián)表,形式如表1所示. 高考試題中出現(xiàn)的2 × 2列聯(lián)表是最為常見的形式,又被稱為四格表.
根據(jù)列聯(lián)表中的樣本信息可知,樣本總數(shù)[n=][i=1rj=1snij],事件AiBj實際發(fā)生的頻率可以表示為[pij=nijn]. 變量X的類別Ai發(fā)生的實際頻數(shù)可以表示為Ai對應的一行頻數(shù)相加,即[ni?=j=1snij],頻率為這一行的頻率相加,即[pi?=j=1spij];變量Y的類別Bj發(fā)生的實際頻數(shù)可以表示為Bj對應的一列頻數(shù)相加,即[n?j=i=1rnij],頻率為這一列的頻率相加,即[p?j=i=1rpij].
從列聯(lián)表中能夠清晰地看出各組個案實際分布情況,能夠計算出事件AiBj發(fā)生的實際頻率,直觀地呈現(xiàn)兩個變量之間的關系. 但僅依靠描述性的頻率分析結(jié)果并不能說明兩個變量之間的關系及關系的強弱,還需要經(jīng)過嚴格的檢驗才能證明變量間的相關性.
三、探索本質(zhì),理解內(nèi)涵
列聯(lián)表中兩個變量獨立性的檢驗有很多種方式,其中最傳統(tǒng)、最常用的就是卡方檢驗. 卡方檢驗是廣泛用于分類資料統(tǒng)計推斷的一種假設檢驗方法. 假設檢驗的主要思想是“小概率事件在一次試驗中幾乎不可能出現(xiàn)”,當研究者做出一個假設,在該假設下能夠推斷出所選擇的統(tǒng)計量應當服從某種已知分布,那么根據(jù)樣本數(shù)據(jù)計算出來的統(tǒng)計量就應當以大概率1 - α落在數(shù)軸上該分布的某個區(qū)間內(nèi),若統(tǒng)計量以小概率α落在了該區(qū)間以外的區(qū)域,則稱發(fā)生了“小概率事件”,說明一開始的假設不成立,需要予以拒絕. 其中,1 - α對應的區(qū)域稱為接受域,α對應的區(qū)域稱為拒絕域,區(qū)域的邊界值需要結(jié)合已知分布,查找對應的分布表來確定. 圖1所示為自由度為υ的卡方分布的臨界值與拒絕域.
假設檢驗的過程采用的是概率反證法. 通常研究者想要收集信息拒絕的假設稱為零假設,記為H0,與它對立的是備擇假設,備擇假設是研究者希望予以支持的,記為H1. 檢驗時只對零假設進行檢驗,當能夠得到與零假設矛盾的結(jié)果時,便可以證明想要支持的結(jié)論了.
在兩個變量間的卡方獨立性檢驗中,通常將零假設設為:兩個分類變量[X]與[Y]相互獨立. 當零假設成立時,事件Ai與Bj相互獨立,此時應當有[PAiBj=PAiPBj]. 用[pij]表示事件AiBj的理論頻率,[pi?=ni?n]表示事件Ai的理論頻率,[p?j=n?jn]表示事件Bj的理論頻率,則[pij=pi?p?j]. 由大數(shù)定律可知,此時可以用頻率估計概率,得到事件AiBj的理論頻數(shù)為[Nij=npij=npi?p?j=nni?nn?jn]. 根據(jù)表1中的實際頻數(shù)信息可以得到所有事件的理論頻數(shù)如表2所示.
為了對零假設進行檢驗,卡爾·皮爾遜(Karl Pearson)從實際頻數(shù)與理論頻數(shù)的偏差角度出發(fā),構造了卡方統(tǒng)計量[χ2=實際頻數(shù)-理論頻數(shù)2理論頻數(shù)],該統(tǒng)計量的極限分布是自由度[υ=r-1s-1]的卡方分布,其構造思路與方差公式的構造有異曲同工之妙. 卡方統(tǒng)計量的值越大,說明實際頻數(shù)與理論頻數(shù)的差距就越大,零假設就越不可靠,落入拒絕域的可能性就越大,那么兩個變量相關的可能也就越大. 這個方法通常適用于樣本量大于40,且列聯(lián)表每格中的理論頻數(shù)均大于5,或小于5的格子占比小于20%的情況. 當數(shù)據(jù)不符合要求時,就需要對卡方檢驗公式進行校正,或改用其他檢驗方法.
四、呈現(xiàn)實例,說明過程
基于卡方檢驗的思想,要想對兩個變量的獨立性進行檢驗,應當先根據(jù)列聯(lián)表中的實際頻數(shù)計算出相應的理論頻數(shù),隨后將其代入卡方統(tǒng)計量的公式中,得到卡方值χ2. 接著查找卡方分布表得到臨界值[χ2αυ]. 將χ 2與[χ2αυ]進行比較:若[χ2gt;χ2αυ],則落入拒絕域,拒絕零假設;反之,接受零假設.
下面以2022年全國新高考Ⅰ卷第20題的題目情境為例,說明通過列聯(lián)表中的數(shù)據(jù)進行卡方檢驗的計算過程.
案例:一醫(yī)療團隊為研究某地的一種地方性疾病與當?shù)鼐用竦男l(wèi)生習慣(衛(wèi)生習慣分為良好和不夠良好兩類)的關系,在已患該疾病的病例中隨機調(diào)查了100例(稱為病例組),同時在未患該疾病的人群中隨機調(diào)查了100人(稱為對照組),得到如表3所示的數(shù)據(jù).
試根據(jù)小概率值α = 0.01的獨立性檢驗,分析這種地方性疾病與當?shù)鼐用竦男l(wèi)生習慣是否有關.
解析:根據(jù)題意可以提出零假設H0:患病與當?shù)鼐用竦男l(wèi)生習慣無關聯(lián). 則相對應的H1為:患病與當?shù)鼐用竦男l(wèi)生習慣有關聯(lián). 可以得到在H0成立的條件下,各組理論頻數(shù)如表4所示.
將表3中的實際頻數(shù)與表4中的理論頻數(shù)代入[χ2=實際頻數(shù)-理論頻數(shù)2理論頻數(shù)]中,得[χ2=40-25225+][10-25225+60-75275+90-75275=24],當1 - α = 0.99時,α = 0.01,自由度[υ=2-12-1=1],查卡方分布表可得臨界值[χ20.011=6.635],χ2 = 24 gt; 6.635,落入了拒絕域. 因此,根據(jù)小概率值α = 0.01的獨立性檢驗,可以推斷H0不成立,即認為患有這種地方性疾病與當?shù)鼐用竦男l(wèi)生習慣有關聯(lián),此推斷犯錯誤的概率不大于0.01.
按照這種計算方式,對于2 × 3列聯(lián)表也能快速得到答案. 下面將原題中的“不夠良好”與“良好”改為“優(yōu)秀”“良好”“較差”三個類別,考慮如下變式.
變式:一醫(yī)療團隊為研究某地的一種地方性疾病與當?shù)鼐用竦男l(wèi)生習慣(衛(wèi)生習慣分為優(yōu)秀、良好、較差三類)的關系,在已患該疾病的病例中隨機調(diào)查了100例(稱為病例組),同時在未患該疾病的人群中隨機調(diào)查了100人(稱為對照組),得到如表5所示的數(shù)據(jù).
試根據(jù)小概率值α = 0.01的獨立性檢驗,分析這種地方性疾病與當?shù)鼐用竦男l(wèi)生習慣是否有關.
解析:根據(jù)題意提出零假設H0:患病與當?shù)鼐用竦男l(wèi)生習慣無關聯(lián). 相對應的H1為:患病與當?shù)鼐用竦男l(wèi)生習慣有關聯(lián). 可以得到在H0成立的條件下,各組理論頻數(shù)如表6所示.
將表5中的實際頻數(shù)與表6中的理論頻數(shù)代入[χ2=實際頻數(shù)-理論頻數(shù)2理論頻數(shù)]中,有[χ2=20-25225+][30-25225+30-35235+40-35235+50-40240+30-40240=][8.429],當1 - α = 0.99時,α = 0.01,自由度[υ=2-1×][3-1=2,χ20.012=9.210,χ2=8.429lt;9.210,] 落入了接受域,接受零假設. 故依據(jù)小概率值α = 0.01的獨立性檢驗,沒有充分證據(jù)推斷H0不成立,可以認為H0成立,即患有這種地方性疾病與當?shù)鼐用竦男l(wèi)生習慣無關. 進一步分析可以發(fā)現(xiàn),若小概率α = 0.05,此時[χ20.052=5.991,χ2=8.429gt;5.991,] 落入了拒絕域,即根據(jù)小概率值α = 0.05的獨立性檢驗,可以推斷H0不成立,認為患有這種地方性疾病與當?shù)鼐用竦男l(wèi)生習慣有關聯(lián),此推斷犯錯誤的概率不大于0.05. 可以看出,是否接受零假設,與α的選擇有很大關系.
這種計算方式,需要將所有格子的理論頻數(shù)算出來,當變量分類較多時,計算過程就會較煩瑣. 能否對統(tǒng)計量的計算公式進行化簡,使得僅用列聯(lián)表中的實際頻數(shù)就能夠得到統(tǒng)計量的值呢?下面結(jié)合已知信息,對公式進行推導.
五、推導公式,簡化計算
對于表1中r × s列聯(lián)表的情形,在零假設成立的條件下,事件AiBj的理論頻數(shù)為[Nij=npij=npi?p?j=nni?nn?jn],獨立事件Ai與Bj發(fā)生的所有可能之和均為1,即[i=1rpi?=][i=1rni?n=1],[j=1sp?j=j=1sn?jn=1]. 在此基礎上,由卡方統(tǒng)計量計算公式可以得到[χ2=i=1rj=1snij-Nij2Nij=ni=1rj=1snij2ni?n?j+][i=1rj=1sni?nn?jn-i=1rj=1s2nijn=ni=1rj=1snij2ni?n?j-1.] 公式[χ2=][ni=1rj=1snij2ni?n?j-1]不需要計算理論頻數(shù),但其中包含了列聯(lián)表中的所有初始頻數(shù)信息,用于計算統(tǒng)計量具有一定合理性. 按照這個公式對上文中的案例及其變式進行計算,所得結(jié)果與直接用[χ2=實際頻數(shù)-理論頻數(shù)2理論頻數(shù)]計算一致.
對于人教A版《普通高中教科書·數(shù)學》選擇性必修第三冊(以下統(tǒng)稱“教材”)8.3.2節(jié)中2 × 2列聯(lián)表的一般形式,根據(jù)表格中的信息能夠得到四個格子對應的理論頻數(shù)分別為[a+ca+bn],[b+da+bn],[a+cc+dn],[b+dc+dn]. 將這四個格子對應的理論頻數(shù)分別代入[χ2=實際頻數(shù)-理論頻數(shù)2理論頻數(shù)]中,就可以得到[χ2=a-a+ca+bn2a+ca+bn+b-b+da+bn2b+da+bn+][c-a+cc+dn2a+cc+dn+d-b+dc+dn2b+dc+dn=nad-bc2a+bc+da+cb+d.][χ2=nad-bc2a+bc+da+cb+d]便是教材與高考中給出的卡方統(tǒng)計量計算公式. 可以看出,該公式的來源也是實際頻數(shù)偏離理論頻數(shù)的程度. 按照這個公式對2022年全國新高考Ⅰ卷第20題第(1)小題進行計算,能夠得到[χ2=200×40×90-60×10240+60×10+90×40+10×60+90=24,] 這個結(jié)果與直接用[χ2=實際頻數(shù)-理論頻數(shù)2理論頻數(shù)]計算是一致的,但過程簡化了很多,因此在2 × 2列聯(lián)表的情形下,這個公式更為常用.
六、結(jié)束語
列聯(lián)表對數(shù)據(jù)的整理使研究者能夠快速獲取所需信息,是尋找兩個或多個定性分類變量間關系的有力工具,它在醫(yī)學、心理學、社會學等方面都發(fā)揮著重要的作用. 卡方檢驗只是列聯(lián)表分析的一種常見方式,并不是唯一選擇,似然比檢驗及通過回歸模型進行檢驗等方式均占有一席之地. 通過列聯(lián)表進行卡方獨立性檢驗的主要思想是判斷在兩個變量相互獨立時各事件理論上的頻數(shù)與實際觀測得到的頻數(shù)之間的偏差. 若偏差太大,就可以認為兩個變量并不獨立,這個“太大”的程度,就是通過比較卡方統(tǒng)計量與相應臨界值的大小來判斷的.
囿于高中階段學生的認知水平,教師對概率與統(tǒng)計主題內(nèi)容的教學往往顯得束手束腳. 講解過多,學生難以理解;講解過少,知識僅浮于表面. 因此,教師應當加強自身對這部分知識的理解,然后才能在教學中抓住本質(zhì),將復雜的思想簡明地表達出來,避免讓學生機械套用公式做題,進而達到提升學生數(shù)據(jù)分析素養(yǎng)的目的.
參考文獻:
[1]中華人民共和國教育部. 普通高中數(shù)學課程標準(2017年版2020年修訂)[M]. 北京:人民教育出版社,2020.
[2]吳傳生. 經(jīng)濟數(shù)學:概率論與數(shù)理統(tǒng)計(第3版)[M]. 北京:高等教育出版社,2015.
[3]陳希孺. 數(shù)理統(tǒng)計學簡史[M]. 長沙:湖南教育出版社,2002.
[4]魏宗舒. 概率論與數(shù)理統(tǒng)計教程(第二版)[M]. 北京:高等教育出版社,2008.
基金項目:教育部人文社會科學研究規(guī)劃基金項目——中小學核心素養(yǎng)測評的模型建構與實證研究(19YJA880012);
中央高校基本科研業(yè)務費項目——新高考分省市命題分學科質(zhì)量評價指標體系研究(CCNUTEI2021-13).
作者簡介:李子瞻(1996— ),女,碩士研究生,主要從事數(shù)學課程與數(shù)學教學研究;
李俊岳(1997— ),男,碩士研究生,主要從事數(shù)學課程與數(shù)學教學研究;
胡典順(1965— ),男,教授,博士生導師,主要從事數(shù)學課程與數(shù)學教學研究.