田載今
研究問題時需要關(guān)注各種相關(guān)信息,這些信息通常以數(shù)字形式呈現(xiàn),即統(tǒng)計中所稱的數(shù)據(jù),數(shù)據(jù)不僅能簡潔地表達(dá)信息,而且能定量地刻畫信息,便于我們科學(xué)地分析信息,因而數(shù)據(jù)是研究問題的重要依據(jù),隨著計算機和云計算的迅速發(fā)展,大數(shù)據(jù)時代已經(jīng)到來,海量數(shù)據(jù)的處理得到越來越廣泛的應(yīng)用.
統(tǒng)計學(xué)是研究數(shù)據(jù)處理的學(xué)科,統(tǒng)計的全過程包括:收集數(shù)據(jù)、整理數(shù)據(jù)、分析數(shù)據(jù)(發(fā)現(xiàn)并研究數(shù)據(jù)的分布特征),并依此推斷、評判已發(fā)生的事或預(yù)測將發(fā)生的事,在統(tǒng)計過程中,已收集到而未進一步處理的數(shù)據(jù)叫作原始數(shù)據(jù).一般情況下,直接面對一組未經(jīng)整理的原始數(shù)據(jù),難以發(fā)現(xiàn)其分布特征.因此,通常需要對原始數(shù)據(jù)進一步加工整理,使其分布狀況變得清晰.從中得出相應(yīng)的特征值作為數(shù)據(jù)代表,再從研究數(shù)據(jù)代表人手,深入研究相關(guān)問題.
一組數(shù)據(jù)的分布特征可以從不同方面進行分析,下面從數(shù)據(jù)分布的集中趨勢和離散程度兩方面,討論統(tǒng)計中常用的平均數(shù)、中位數(shù)、眾數(shù)和方差等數(shù)據(jù)代表.
一、描述集中趨勢的數(shù)據(jù)代表
“一組數(shù)據(jù)圍繞哪個中心數(shù)值分布?”這是分析數(shù)據(jù)時通常關(guān)注的一個問題.它關(guān)系到一組數(shù)據(jù)的平均水平或一般情況,對統(tǒng)計推斷有重要參考價值.在統(tǒng)計學(xué)中,把一組數(shù)據(jù)向某一中心數(shù)值靠攏的情形,稱為這組數(shù)據(jù)的集中趨勢.在描述數(shù)據(jù)的集中趨勢時,常從平均數(shù)、中位數(shù)和眾數(shù)中選擇合適的數(shù)據(jù)代表.
如果以一組數(shù)據(jù)大小的平均水平描述集中趨勢,則可用平均數(shù)作為數(shù)據(jù)代表.平均數(shù)由全部原始數(shù)據(jù)計算得出.如果以一組數(shù)據(jù)大小的中間水平描述集中趨勢,則可用中位數(shù)作為數(shù)據(jù)代表.一組數(shù)據(jù)按大小排列時,中位數(shù)在居中位置.如果以一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)描述集中趨勢,則可用眾數(shù)作為數(shù)據(jù)代表,眾數(shù)是一組原始數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù).一組數(shù)據(jù)的眾數(shù)可能有一個,也可能有多個,還可能一個也沒有,平均數(shù)、中位數(shù)和眾數(shù)各有各的作用,分別適合從不同角度分析數(shù)據(jù)的集中趨勢.
平均數(shù)是最常用的一個數(shù)據(jù)代表,它反映了一組數(shù)據(jù)大小的平均水平.需要注意的是,如果一組數(shù)據(jù)中有極端數(shù)據(jù),即與多數(shù)數(shù)據(jù)相比過大或過小的個別數(shù)據(jù),則它會使平均數(shù)的值與多數(shù)數(shù)據(jù)存在較大差距.如仍以平均數(shù)代表該組數(shù)據(jù)的中心數(shù)值,則不能恰如其分地反映這組數(shù)據(jù)的分布狀態(tài).這種情形下,選擇中位數(shù)或眾數(shù)作為數(shù)據(jù)代表,能更好地反映一組數(shù)據(jù)的集中趨勢.
例1 表1為一條自動包裝線某月每天包裝物品的數(shù)量及相應(yīng)的天數(shù).
(l)分別求出表中數(shù)據(jù)的平均數(shù)、中位數(shù)和眾數(shù).
(2)用平均數(shù)作為數(shù)據(jù)代表,能客觀反映這個月每天包裝物品數(shù)量的一般情況嗎?
解:(1)通過計算加權(quán)平均數(shù),得表中數(shù)據(jù)的平均數(shù)為
(20+2355×10+2360×4+2365×14+2370)÷30=2283.
表中共有30天的數(shù)據(jù),這30個數(shù)據(jù)從小到大排列時,處于正中間位置的第15和第16兩個數(shù)據(jù)的平均數(shù)為(2360+2365)÷2=2362.5.因此2362.5是該組數(shù)據(jù)的中位數(shù).
30個數(shù)據(jù)中,2365出現(xiàn)14次,出現(xiàn)次數(shù)最多,因此2365是該組數(shù)據(jù)的眾數(shù).
(2)觀察表中數(shù)據(jù)不難發(fā)現(xiàn),30天中有29天的數(shù)據(jù)都不小于2355,它們都大于平均數(shù),且與平均數(shù)的差都不小于72.這30天中有1天的數(shù)據(jù)20遠(yuǎn)小于平均數(shù)2283,這可能是某一天自動包裝線有突發(fā)故障造成的反常結(jié)果,顯然,20這個極端數(shù)據(jù),使得正常情況下應(yīng)有的平均數(shù)的值變?。绻砸云骄鶖?shù)2283作為數(shù)據(jù)代表,則與自動包裝線每天工作的一般狀況差距較大.而以中位數(shù)2362.5或眾數(shù)2365作為數(shù)據(jù)代表,則能較客觀地反映一般情形下包裝物品數(shù)量的實際情況.因此,此問題不宜用平均數(shù)作為數(shù)據(jù)代表描述數(shù)據(jù)的集中趨勢.
二、描述離散程度的數(shù)據(jù)代表
“一組數(shù)據(jù)中,各個數(shù)據(jù)與這組數(shù)據(jù)的中心數(shù)值(例如平均數(shù))的偏離程度有多大?”這是分析數(shù)據(jù)時通常關(guān)注的另一個問題,在統(tǒng)計學(xué)中,把這種偏離程度稱為這組數(shù)據(jù)的離散程度(或離中程度),它反映了一組數(shù)據(jù)大小的波動狀態(tài).我們結(jié)合下面的問題對數(shù)據(jù)離散程度予以說明.
表2是某一周內(nèi)甲、乙兩個書店接待顧客人數(shù)的記錄.
計算可知,甲、乙兩個書店該周內(nèi)平均每天接待顧客人數(shù)分別約為146.9和147.1.兩者非常接近,我們再考慮兩組數(shù)據(jù)的波動狀態(tài).先觀察數(shù)據(jù)散點圖,圖1和圖2中的點分別表示甲、乙兩個書店的顧客數(shù)量,各點的橫坐標(biāo)為時間(星期一到星期日),縱坐標(biāo)為顧客人數(shù).圖中的水平線與縱軸交點的縱坐標(biāo)是7個數(shù)據(jù)的平均數(shù).
比較兩圖,直觀上可以發(fā)現(xiàn):圖1中各數(shù)據(jù)點分布較緊密,波動較小,即總體上看各點與平均值對應(yīng)的水平線的偏離度較?。簣D2中各數(shù)據(jù)點分布較松散,波動較大,即總體上看各點與平均值對應(yīng)的水平線的偏離度較大.這里的偏離度是對7個點偏離度的平均水平而言,是根據(jù)各數(shù)據(jù)點與平均數(shù)直線的距離大小而得出的.盡管與平均數(shù)直線相比,有些數(shù)據(jù)點高,有些數(shù)據(jù)點低,但各點與直線的距離都是非負(fù)的值.即高度差的絕對值,兩組數(shù)據(jù)相比,甲店數(shù)據(jù)的離散程度較小,乙店數(shù)據(jù)的離散程度較大.
統(tǒng)計學(xué)中常用方差對一組數(shù)據(jù)的波動情況(即各數(shù)據(jù)與平均數(shù)的偏離狀態(tài))作定量的刻畫,描述數(shù)據(jù)的離散程度.計算方差的方法為:(1)計算一組數(shù)據(jù)的平均數(shù);(2)計算各數(shù)據(jù)與平均數(shù)之差的平方和;(3)用所得平方和除以這組數(shù)據(jù)的個數(shù).設(shè)一組數(shù)據(jù)為x1,x2,…,xn(共n個),記其平均數(shù)為x,方差為s2.則
例2 分別計算上面問題中甲、乙兩個書店某一周接待顧客人數(shù)的方差.南所得方差你能看出哪種可能性?
解:由以上所述可知,甲、乙兩個書店某一周平均每天接待顧客人數(shù)分別為146.9和147.1(保留到0.1).計算兩組數(shù)據(jù)的方差,得甲店數(shù)據(jù)的方差s2甲=32.1,乙店數(shù)據(jù)的方差sz=272.1.比較兩個方差,得S2甲.
為什么計算方差要用各數(shù)據(jù)與平均數(shù)之差的平方和,而不直接把各數(shù)據(jù)與平均數(shù)之差相加呢?一般情形下,一組數(shù)據(jù)中可能有些數(shù)據(jù)比平均數(shù)大,有些數(shù)據(jù)比平均數(shù)小.它們與平均數(shù)之差會有正有負(fù),如果直接把這些差相加,就會出現(xiàn)正負(fù)相抵.例如,一組數(shù)據(jù)為1,2,3,4,5,平均數(shù)為3,各數(shù)據(jù)與平均數(shù)之差分別為-2,一1,0,1,2.這些差之和為0,但這并不意味著這組數(shù)據(jù)都是緊靠著平均數(shù)的,用各數(shù)據(jù)與平均數(shù)之差的平方和,則利用了平方的非負(fù)性,防止出現(xiàn)做加法時正負(fù)相抵而隱藏了相關(guān)數(shù)據(jù)對平均數(shù)的偏離,方差名稱中的“方”正是“平方”的簡稱.
對方差的算式進行恒等變形:
這給出了方差的另一種算法:各數(shù)據(jù)平方的平均數(shù)減各數(shù)據(jù)平均數(shù)的平方.
從上面幾例可以看出,得出平均數(shù)、中位數(shù)、眾數(shù)和方差這四種常用數(shù)據(jù)代表的方法不同,這些數(shù)據(jù)代表所表示的意義也不同,在反映一組數(shù)據(jù)的分布特征時,它們有各自的側(cè)重點.根據(jù)實際問題的需要,選取合適的數(shù)據(jù)代表來認(rèn)識一組數(shù)據(jù)的集中趨勢與離散程度,是分析數(shù)據(jù)的常用做法.
中學(xué)生數(shù)理化·八年級數(shù)學(xué)人教版2024年6期