■西北師范大學(xué)附屬中學(xué) 盧會(huì)玉
眾所周知,獨(dú)立性檢驗(yàn)是統(tǒng)計(jì)學(xué)的一種檢驗(yàn)方式,它是根據(jù)數(shù)據(jù)判斷兩類因子彼此相關(guān)或相互獨(dú)立的假設(shè)檢驗(yàn)。若要推斷的論述為H1:“X與Y有關(guān)系”,可以利用獨(dú)立性檢驗(yàn)來考查兩個(gè)變量是否有關(guān)系,并且能較精確地給出這種判斷的可靠程度。具體的做法是,由表中的數(shù)據(jù)算出隨機(jī)變量K2(即K的平方)的值,K2的值越大,說明“X與Y有關(guān)系”成立的可能性越大。獨(dú)立性檢驗(yàn)也是高考中的高頻考點(diǎn)。若兩個(gè)變量有關(guān)系,但又沒有確切到可由其中的一個(gè)去精確地決定另一個(gè)的程度,這種關(guān)系稱為相關(guān)關(guān)系。如果兩個(gè)變量的取值呈現(xiàn)正相關(guān)或負(fù)相關(guān),而且散點(diǎn)落在一條直線附近,這兩個(gè)變量就具有線性相關(guān)關(guān)系。與線性相關(guān)有關(guān)的考查也是非常常見的。成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析,對(duì)同學(xué)們的數(shù)學(xué)建模、數(shù)學(xué)抽象、數(shù)據(jù)分析、數(shù)學(xué)運(yùn)算等核心素養(yǎng)的提高,是非常具有意義的。
下文用幾道例題對(duì)成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析進(jìn)行盤點(diǎn)與分析。
有時(shí)會(huì)借助散點(diǎn)圖對(duì)成對(duì)數(shù)據(jù)進(jìn)行分析,散點(diǎn)圖中點(diǎn)的分布從左下角到右上角,兩個(gè)變量正相關(guān);點(diǎn)的分布從左上角到右下角,兩個(gè)變量負(fù)相關(guān)。有時(shí)會(huì)借助樣本相關(guān)系數(shù)對(duì)成對(duì)數(shù)據(jù)進(jìn)行分析:當(dāng)r>0時(shí),正相關(guān);當(dāng)r<0時(shí),負(fù)相關(guān);|r|越接近于1,相關(guān)性越強(qiáng)。有時(shí)借助回歸方程對(duì)成對(duì)數(shù)據(jù)進(jìn)行分析:當(dāng)>0時(shí),正相關(guān);當(dāng)<0時(shí),負(fù)相關(guān)。
例1某統(tǒng)計(jì)部門對(duì)四組數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析后,獲得如圖1所示的散點(diǎn)圖。
圖1
下面關(guān)于相關(guān)系數(shù)的比較,說法正確的是( )。
A.r4<r2<r1<r3
B.r2<r4<r1<r3
C.r2<r4<r3<r1
D.r4<r2<r3<r1
解析:由圖可知:r3,r1所對(duì)應(yīng)的圖中的散點(diǎn)呈現(xiàn)正相關(guān),而且r1對(duì)應(yīng)的相關(guān)性比r3對(duì)應(yīng)的相關(guān)性要強(qiáng),故0<r3<r1;r2,r4所對(duì)應(yīng)的圖中的散點(diǎn)呈現(xiàn)負(fù)相關(guān),且根據(jù)散點(diǎn)的分布情況可知r2<r4<0。
因此,r2<r4<r3<r1,選C。
例2對(duì)兩個(gè)變量x,y進(jìn)行線性相關(guān)檢驗(yàn),得線性相關(guān)系數(shù)r1=0.899 5,對(duì)兩個(gè)變量u,v進(jìn)行線性相關(guān)檢驗(yàn),得線性相關(guān)系數(shù)r2=-0.956 8,則下列判斷正確的是( )。
A.變量x與y正相關(guān),變量u與v負(fù)相關(guān),變量x與y的線性相關(guān)性較強(qiáng)
B.變量x與y負(fù)相關(guān),變量u與v正相關(guān),變量x與y的線性相關(guān)性較強(qiáng)
C.變量x與y正相關(guān),變量u與v負(fù)相關(guān),變量u與v的線性相關(guān)性較強(qiáng)
D.變量x與y負(fù)相關(guān),變量u與v正相關(guān),變量u與v的線性相關(guān)性較強(qiáng)
解析:依題意知r1=0.899 5,r2=-0.956 8,所以x,y正相關(guān),u,v負(fù)相關(guān)。又|r1|<|r2|<1,故u,v的線性相關(guān)性較強(qiáng),選C。
例3重慶市位于北半球亞熱帶內(nèi)陸地區(qū),其氣候特征恰如幾句俗諺:春早氣溫不穩(wěn)定,夏長酷熱多伏旱,秋涼綿綿陰雨天,冬暖少雪云霧多。尤其是10月份,晝夜溫差很大,某數(shù)學(xué)興趣小組欲研究晝夜溫差大小與患感冒人數(shù)多少之間的關(guān)系,他們分別到氣象局與某醫(yī)院抄錄了2021年10月其中六天的晝夜溫差情況與因患感冒而就診的人數(shù),得到資料(表1)。
表1
(2)分析數(shù)據(jù)發(fā)現(xiàn):第六日就診人數(shù)y6=30,第一日就診患者中有3個(gè)小孩,其他患者全是大人。現(xiàn)隨機(jī)地從第一日所有就診患者中選出2人,若2人中至少有1個(gè)小孩的概率為
①求y1的值;
②若y2<y3<y4<y5,求y2,y3,y4,y5的值(只寫結(jié)果,不寫求解過程)。
例4某地經(jīng)過多年的環(huán)境治理,已將荒山改造成了綠水青山。為估計(jì)一林區(qū)某種樹木的總材積量,隨機(jī)選取了10 棵這種樹木,測(cè)量每棵樹的根部橫截面積(單位:m2)和材積量(單位:m3),得到如下數(shù)據(jù)(表2)。
表2
(1)估計(jì)該林區(qū)這種樹木平均一棵的根部橫截面積與平均一棵的材積量。
(2)求該林區(qū)這種樹木的根部橫截面積與材積量的樣本相關(guān)系數(shù)(精確到0.01)。
(3)現(xiàn)測(cè)量了該林區(qū)所有這種樹木的根部橫截面積,并得到所有這種樹木的根部橫截面積總和為186 m2。已知樹木的材積量與其根部橫截面積近似成正比,利用以上數(shù)據(jù)給出該林區(qū)這種樹木的總材積量的估計(jì)值。
解決非線性回歸問題的關(guān)鍵點(diǎn)是合理轉(zhuǎn)化為線性回歸問題,對(duì)運(yùn)算能力的要求非常高。
例55G 網(wǎng)絡(luò)是指第五代移動(dòng)網(wǎng)絡(luò)通信技術(shù),它的主要特點(diǎn)是傳輸速度快,峰值傳輸速度可達(dá)每秒數(shù)十GB。作為新一代移動(dòng)通信技術(shù),它將要支持的設(shè)備遠(yuǎn)不止智能手機(jī),而是會(huì)擴(kuò)展到未來的智能家居、智能穿戴等設(shè)備。某科技創(chuàng)新公司基于領(lǐng)先技術(shù)的支持,經(jīng)濟(jì)收入在短期內(nèi)逐月攀升,該公司1月份至6 月份的經(jīng)濟(jì)收入y(單位:萬元)關(guān)于月份x的數(shù)據(jù)如表3所示,并根據(jù)數(shù)據(jù)繪制了如圖2 所示的散點(diǎn)圖。
圖2
表3
(1)根據(jù)散點(diǎn)圖,判斷y=ax+b與y=cedx(a,b,c,d均為常數(shù))哪一個(gè)更適合作為經(jīng)濟(jì)收入y關(guān)于月份x的回歸方程類型。(給出判斷即可,不必說明理由)
(2)根據(jù)(1)的結(jié)果及表中數(shù)據(jù),求出y關(guān)于x的回歸方程。(結(jié)果保留兩位小數(shù))
(3)根據(jù)(2)所求得的回歸方程,預(yù)測(cè)該公司7月份的經(jīng)濟(jì)收入。(結(jié)果保留兩位小數(shù))
表4
其中u=lny,ui=lnyi(i=1,2,3,4,5,6)。
解析:(1)由散點(diǎn)圖可知,y=cedx更適合作為經(jīng)濟(jì)收入y關(guān)于月份x的回歸方程類型。
獨(dú)立性檢驗(yàn)不論是理解還是運(yùn)算相對(duì)都要簡單一些,正確解答的關(guān)鍵還是先理解題意后計(jì)算。
例62022 年北京冬奧組委發(fā)布的《北京2022年冬奧會(huì)和冬殘奧會(huì)經(jīng)濟(jì)遺產(chǎn)報(bào)告(2022)》顯示,北京冬奧會(huì)已簽約45 家贊助企業(yè),冬奧會(huì)贊助成為一項(xiàng)跨度時(shí)間較長的營銷方式。為了解該45 家贊助企業(yè)每天銷售額與每天線上銷售時(shí)間之間的相關(guān)關(guān)系,某平臺(tái)對(duì)45 家贊助企業(yè)進(jìn)行跟蹤調(diào)查,其中每天線上銷售時(shí)間不少于8小時(shí)的企業(yè)有20家,余下的企業(yè)中,每天的銷售額不足30萬元的企業(yè)占統(tǒng)計(jì)后得到如下2×2列聯(lián)表(表5)。
表5
(1)請(qǐng)完成上面的2×2 列聯(lián)表,能否有99%的把握認(rèn)為贊助企業(yè)每天的銷售額與每天線上銷售時(shí)間有關(guān)?
(2)按銷售額在上述贊助企業(yè)中采用分層抽樣方法抽取5家企業(yè),在銷售額不足30萬元的企業(yè)中抽取時(shí),記“抽到線上銷售時(shí)間不少于8小時(shí)的企業(yè)數(shù)”為X,求X的分布列和數(shù)學(xué)期望。
附:
表6
參考公式:
解析:(1)由題意,可得下面的2×2列聯(lián)表(表7)。
表7
根據(jù)上面的列聯(lián)表得:
故有99%的把握認(rèn)為贊助企業(yè)每天的銷售額與每天的線上銷售時(shí)間有關(guān)。
所以隨機(jī)變量X的分布列如表8所示。
表8
例7共享汽車,是指許多人合用一輛車,即開車人對(duì)車輛只有使用權(quán),而沒有所有權(quán),有點(diǎn)類似于在租車行業(yè)里的短時(shí)間租車。它手續(xù)簡便,打個(gè)電話或通過網(wǎng)上就可以預(yù)約訂車。某市為了了解不同年齡的人對(duì)共享汽車的使用體驗(yàn),隨機(jī)選取了100名使用共享汽車的體驗(yàn)者,讓他們根據(jù)體驗(yàn)效果進(jìn)行評(píng)分。
臨界值表(表9)。
表9
(2)現(xiàn)將100名消費(fèi)者的年齡劃分為“青年”和“中老年”,評(píng)分劃分為“好評(píng)”和“差評(píng)”,整理得到如下數(shù)據(jù),請(qǐng)將列聯(lián)表(表10)補(bǔ)充完整并判斷是否有99.9%的把握認(rèn)為對(duì)共享汽車的評(píng)價(jià)與年齡有關(guān)。
表10
因?yàn)?.9>0.75,所以可以判斷對(duì)共享汽車使用體驗(yàn)的評(píng)分與年齡的相關(guān)性很強(qiáng)。
(2)根據(jù)題意可得列聯(lián)表(表11)。
表11
解得:
成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析是高考考查的高頻考點(diǎn),如果每一種考查方向的關(guān)鍵點(diǎn)是明晰的,運(yùn)算也是精準(zhǔn)的,那對(duì)于同學(xué)們來說就會(huì)比較順利。另一方面,成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析,對(duì)同學(xué)們的終身發(fā)展也是非常有意義的。