■王佩其
1.隨機抽樣
隨機抽樣包括簡單隨機抽樣、系統(tǒng)抽樣和分層抽樣,三種方法雖然有所不同,但無論哪種抽樣,每個個體被抽取的可能性都相等。
2.數(shù)據(jù)處理的常用圖表
(1)莖葉圖:當(dāng)我們收集的樣本數(shù)據(jù)不是很多,且又不是太分散時,可以用莖葉圖進行處理,莖葉圖可以保留所有數(shù)據(jù),而且可以隨時記錄數(shù)據(jù)。
(2)頻率分布表:當(dāng)數(shù)據(jù)較多且是一些特殊數(shù)據(jù)時,可以考慮列出頻率分布表,頻率分布表可以較清晰地看出數(shù)據(jù)之間的聯(lián)系。
(3)頻率分布直方圖:有時數(shù)據(jù)較為復(fù)雜,要想從數(shù)據(jù)中獲得較為準(zhǔn)確的結(jié)果,僅靠一方面的分析還可能不理想,此時可以通過頻率分布表來繪制頻率分布直方圖,借助圖形產(chǎn)生結(jié)論。
(4)散點圖:對于附加條件的數(shù)據(jù),可借助散點圖,利用基本函數(shù)的圖像來處理。
3.四種樣本數(shù)字特征的應(yīng)用
樣本的數(shù)字特征主要是指樣本數(shù)據(jù)的平均數(shù)、眾數(shù)、中位數(shù)、標(biāo)準(zhǔn)差(方差)。
眾數(shù)體現(xiàn)了樣本數(shù)據(jù)的最大集中點,容易計算,但它只能表達樣本數(shù)據(jù)中很少一部分信息,顯然對其他數(shù)據(jù)信息的忽略使其無法客觀地反映總體特征。
中位數(shù)是樣本數(shù)據(jù)所占頻率的等分線,它不受少數(shù)幾個極端值的影響,容易計算,它僅利用了數(shù)據(jù)中排在中間數(shù)據(jù)的信息,但它對極端值的不敏感有時也會成為缺點。
平均數(shù)與每一個樣本的數(shù)據(jù)有關(guān),“越離群”的數(shù)據(jù),對平均數(shù)的影響也越大,所以任何一個樣本數(shù)據(jù)的改變都會引起平均數(shù)的改變,這是眾數(shù)、中位數(shù)都不具有的性質(zhì)。也正因為這個原因,與眾數(shù)、中位數(shù)比較起來,平均數(shù)可以反映出更多的關(guān)于樣本數(shù)據(jù)全體的信息,但平均數(shù)受數(shù)據(jù)中的極端值的影響較大,使平均數(shù)在估計總體時可靠性降低。
4.求線性回歸方程的方法
(1)回歸分析是對具有相關(guān)關(guān)系的兩個變量進行統(tǒng)計分析的方法。兩個變量具有相關(guān)關(guān)系是回歸分析的前提。
(2)散點圖是定義在具有相關(guān)關(guān)系的兩個變量基礎(chǔ)上的,對于性質(zhì)不明確的兩組數(shù)據(jù),可先作散點圖,在圖上看它們有無關(guān)系,關(guān)系的密切程度,然后再進行相關(guān)的回歸分析。
(3)求回歸直線方程,只有在散點圖大致呈線性時,求出的回歸直線方程才有實際意義,否則求出的回歸直線方程毫無意義。求回歸直線方程通常用待定系數(shù)法。
例1我國古代數(shù)學(xué)專著《九章算術(shù)》中有一衰分問題:今有北鄉(xiāng)八千一百人,西鄉(xiāng)七千四百八十八人,南鄉(xiāng)六千九百一十二人,凡三鄉(xiāng),發(fā)役三百人,則北鄉(xiāng)遣( )。
解:由題意可知,這是一個分層抽樣問題,其中北鄉(xiāng)可抽取的人數(shù)為300×應(yīng)選B。
評注:本題屬于分層抽樣問題,是高考中出現(xiàn)頻率最高的抽樣問題。分層抽樣適用于總體中個體差異較大的情況,其解題思路如下:①求某層應(yīng)抽個體數(shù)量,即按該層所占總體的比例計算。②已知某層個體數(shù)量,求總體容量,即根據(jù)分層抽樣就是按比例抽樣,列比例式進行計算。
例2為了解某校教師使用多媒體進行教學(xué)的情況,采用簡單隨機抽樣的方法,從該校400名授課教師中抽取20名,調(diào)查了他們上學(xué)期使用多媒體進行教學(xué)的次數(shù),結(jié)果用莖葉圖表示如圖1所示。據(jù)此可估計該校上學(xué)期400名教師中,使用多媒體進行教學(xué)次數(shù)在[16,30)內(nèi)的人數(shù)為 。
圖1
解:觀察莖葉圖,可知抽取的20名教師中使用多媒體教學(xué)次數(shù)在[16,30)內(nèi)的有8人,所以該區(qū)間段的頻率為,因此全校400名教師使用多媒體進行教學(xué)次數(shù)在[16,30)內(nèi)的人數(shù)為400×0.4=160。
評注:莖葉圖便于數(shù)據(jù)的記錄和表示。由莖葉圖可以清晰地看到數(shù)據(jù)的分布情況,但當(dāng)樣本容量較大時,作圖較煩瑣。
例3一次科技知識競賽,兩組學(xué)生的成績?nèi)绫?所示(滿分為100分)。
表1
已經(jīng)計算得知兩組成績的平均數(shù)都是80分,請根據(jù)你所學(xué)過的統(tǒng)計知識,進一步判斷這兩個組在這次競賽中的成績誰優(yōu)誰差,說明理由。
解:甲組成績的眾數(shù)為90分,乙組成績的眾數(shù)為70分,從成績的眾數(shù)比較看,甲組的成績好一些。
由表中數(shù)據(jù)可知,兩組均有學(xué)生50人,兩組的平均數(shù)都是80分。利用方差公式容易得到s2甲=172,s2乙=256。因為s2甲<s2乙,所以甲組的成績比乙組的成績穩(wěn)定。
甲、乙兩組成績的中位數(shù)、平均數(shù)都是80分,其中甲組成績不低于80分的有33人,乙組成績不低于80分的有26人,從這一角度來看甲組的成績較好。
從成績統(tǒng)計表來看,甲組的成績不低于90分的有20人,乙組的成績不低于90分的有24人,所以乙組成績集中在高分段的人數(shù)多,同時乙組得滿分的人數(shù)比甲組得滿分的人數(shù)多6。從這些角度來看,乙組的成績較好。
評注:在實際問題中,僅靠平均數(shù)不能完全反映問題,還要研究方差,方差描述了數(shù)據(jù)相對平均數(shù)的離散程度。在平均數(shù)相同的情況下,方差越大,離散程度越大,數(shù)據(jù)波動性越大,穩(wěn)定性越差;方差越小,數(shù)據(jù)越集中,穩(wěn)定性越好。
例4某電子商務(wù)公司對10000名網(wǎng)絡(luò)購物者2018年度的消費情況進行統(tǒng)計,發(fā)現(xiàn)消費金額(單位:萬元)都在區(qū)間[0.3,0.9]內(nèi),其頻率分布直方圖如圖2所示。
圖2
(1)直方圖中的a=____。
(2)在這些購物者中,消費金額在區(qū)間[0.5,0.9]內(nèi)的購物者的人數(shù)為____。
解:(1)由頻率分布直方圖及頻率之和等于1,可得0.2×0.1+0.8×0.1+1.5×0.1+2×0.1+2.5×0.1+a×0.1=1,解得a=3。
(2)消費金額在區(qū)間[0.5,0.9]內(nèi)的頻率為0.2×0.1+0.8×0.1+2×0.1+3×0.1=0.6,所以消費金額在區(qū)間[0.5,0.9]內(nèi)的購物者的人數(shù)為0.6×10000=6000。
評注:頻率分布直方圖是高考考查的熱點。用樣本的頻率分布來估計總體分布的重點是頻率分布表和頻率分布直方圖的繪制以及用樣本的頻率分布估計總體分布,難點是頻率分布表和頻率分布直方圖的理解及應(yīng)用。在計數(shù)和計算時一定要準(zhǔn)確,在繪制小矩形時寬窄要一致。通過頻率分布表和頻率分布直方圖可以對總體作出估計。