北京大學(xué)附屬中學(xué)(100086)單治超
統(tǒng)計(jì)學(xué)是對(duì)數(shù)據(jù)進(jìn)行收集、整理、展示、分析和解釋,以幫助人們更有效地進(jìn)行決策的科學(xué).隨著現(xiàn)代科學(xué)技術(shù)特別是計(jì)算機(jī)科學(xué)、人工智能的迅猛發(fā)展,人們獲取數(shù)據(jù)和處理數(shù)據(jù)的能力都得到很大的提升.統(tǒng)計(jì)學(xué)在近幾十年里得到突飛猛進(jìn)的發(fā)展,越來(lái)越多成熟的統(tǒng)計(jì)方法和技術(shù)應(yīng)運(yùn)而生.
中學(xué)數(shù)學(xué)課程和大學(xué)數(shù)學(xué)課程當(dāng)中都有統(tǒng)計(jì)部分的內(nèi)容,但風(fēng)格卻不盡相同.中學(xué)的統(tǒng)計(jì)側(cè)重于講授方法,背后的原理提得不多,方法的合理性常通過(guò)直觀加以把握.而大學(xué)的統(tǒng)計(jì)則側(cè)重于概念和證明,嚴(yán)謹(jǐn)性更高,但對(duì)于方法的直觀性介紹得相對(duì)較少.事實(shí)上,要想學(xué)好統(tǒng)計(jì)學(xué),直觀性和嚴(yán)謹(jǐn)性都非常重要,二者不可偏廢.
本文介紹中學(xué)統(tǒng)計(jì)方法背后的數(shù)學(xué)原理,希望實(shí)現(xiàn)中學(xué)統(tǒng)計(jì)和大學(xué)統(tǒng)計(jì)的銜接,對(duì)一線教師的教學(xué)起到一定幫助.
總體與樣本無(wú)疑是統(tǒng)計(jì)學(xué)中最基本的概念.
中學(xué)教材中寫(xiě)道:“所考察問(wèn)題涉及的對(duì)象全體是總體,總體中每個(gè)對(duì)象都是個(gè)體,抽取的部分對(duì)象組成總體的一個(gè)樣本”.“簡(jiǎn)單隨機(jī)抽樣就是從總體中不加任何分組、劃類(lèi)、排隊(duì)等,完全隨機(jī)地抽取個(gè)體”.
大學(xué)教材[1]中寫(xiě)道:“總體就是一個(gè)概率分布”.“按照總體的分布獨(dú)立地選取若干個(gè)體得到的樣本稱為簡(jiǎn)單隨機(jī)樣本”.
中學(xué)教材里的總體是一個(gè)有限集(允許重復(fù)元素存在),大學(xué)教材里的總體是一個(gè)概率分布.二者表面上不同.但是有限集可以看成是有限個(gè)元素上的概率分布,每個(gè)元素的概率就是該元素所占的比例.
當(dāng)然,大學(xué)教材里總體的概念更富一般性,概率分布未必是有限個(gè)元素上的概率分布,更多的情形下概率分布是某連續(xù)型隨機(jī)變量的概率分布.但是對(duì)于中學(xué)教材里的總體概念,當(dāng)總體中個(gè)體很多時(shí),相應(yīng)的有限個(gè)元素上的概率分布可以與連續(xù)型隨機(jī)變量的分布非常接近.此時(shí)我們可以近似認(rèn)為總體服從該連續(xù)型隨機(jī)變量的概率分布.
此外還有一點(diǎn)需要注意:中學(xué)教材里的簡(jiǎn)單隨機(jī)抽樣多指無(wú)放回抽樣,此時(shí)先后抽取樣本,彼此是不獨(dú)立的.但是當(dāng)總體中個(gè)體很多時(shí),我們可以認(rèn)為先后抽取的樣本是近似獨(dú)立的.于是中學(xué)教材里的簡(jiǎn)單隨機(jī)抽樣與大學(xué)教材里的簡(jiǎn)單隨機(jī)抽樣含義也大致相同.
我們?cè)購(gòu)拇髮W(xué)統(tǒng)計(jì)的角度理解分層抽樣的概念.所謂“總體可以分成有明顯差別的、互不重疊的幾部分”可以這樣理解(不妨以分兩層為例):兩層分別服從概率分布F1和F2,兩層所占的比例分別是p和1?p,那么總體的分布F就滿足F(x)=pF1(x)+(1?p)F2(x).按照分層抽樣抽取n個(gè)樣本,就相當(dāng)于按照概率分布F1獨(dú)立抽取np(不妨設(shè)為整數(shù))個(gè)樣本,再按照概率分布F2獨(dú)立抽取n(1?p)個(gè)樣本.
中學(xué)教材里提出分層抽樣比簡(jiǎn)單隨機(jī)抽樣更合理,但是并沒(méi)有提出支撐性的理論依據(jù).本文后續(xù)會(huì)在某一方面給出分層抽樣合理性的理論依據(jù).
教材提到:很多時(shí)候處理數(shù)據(jù)時(shí)會(huì)去掉一個(gè)最小值和一個(gè)最大值,其合理性從直觀上予以把握.事實(shí)上,從理論角度我們有如下的結(jié)論:
性質(zhì)1一組數(shù)據(jù)(不少于3 個(gè))去掉一個(gè)最小值和一個(gè)最大值之后,方差一定變小或不變.
證明不妨設(shè)x1≤x2≤...≤xn且平均數(shù)是0,不妨設(shè)|x1|≥xn,這組數(shù)據(jù)的方差是
去掉一個(gè)最小值和一個(gè)最大值之后,方差一定小于等于
于是只需證明
當(dāng)n是偶數(shù)時(shí),
當(dāng)n是奇數(shù)時(shí),
從證明過(guò)程中不難發(fā)現(xiàn),當(dāng)且僅當(dāng)n是偶數(shù),且一半數(shù)據(jù)相等,另一半數(shù)據(jù)也相等時(shí),去掉一個(gè)最小值和一個(gè)最大值之后方差不變.
先看總體平均數(shù)的估計(jì).
中學(xué)教材里說(shuō):“大數(shù)定律可以保證,當(dāng)樣本的容量越來(lái)越大時(shí),估計(jì)的誤差很小的可能性將越來(lái)越大”.
這句話是不準(zhǔn)確的,讓我來(lái)舉一個(gè)反例:
例如總體中只有四個(gè)數(shù)據(jù)?2,?1,1,2,其平均數(shù)是0.從中隨機(jī)抽取兩個(gè)樣本,平均數(shù)的絕對(duì)值小于的概率是;但從中隨機(jī)抽取三個(gè)樣本,平均數(shù)的絕對(duì)值小于的概率是0.教材中所說(shuō)的單調(diào)性并不成立.
準(zhǔn)確的表述應(yīng)為大學(xué)里所學(xué)的大數(shù)定律:如果總體服從期望μ有限的概率分布,那么對(duì)于任意ε >0,.
中學(xué)范圍內(nèi)要求總體個(gè)數(shù)有限,樣本容量并不能任意大,僅僅知道極限行為是不夠的,我們還需要定量的估計(jì).這時(shí)需要用到中心極限定理:設(shè)總體的方差σ2<∞,那么近似服從正態(tài)分布N(0,σ2),其中的“近似”是有明確的定量估計(jì)的.
下面從理論上證明分層抽樣的優(yōu)勢(shì):
“總體可以分成有明顯差別的、互不重疊的幾部分”可以這樣理解(不妨以分兩層為例):兩層分別服從概率分布F1和F2,兩層所占的比例分別是p和1?p,那么總體的分布F就滿足F(x)=pF1(x)+(1?p)F2(x).
設(shè)F1的期望和方差是μ1和的期望和方差是μ2和那么F的期望是μ=pμ1+(1?p)μ2,方差是如果按照簡(jiǎn)單隨機(jī)抽樣抽取n個(gè)樣本,那么近似服從正態(tài)分布N(0,σ2).
可是如果我們采取分層抽樣:按照概率分布F1獨(dú)立抽取np(不妨設(shè)為整數(shù))個(gè)樣本,再按照概率分布F2獨(dú)立抽取n(1?p)個(gè)樣本.此時(shí)設(shè)樣本平均數(shù)為,那么同樣根據(jù)中心極限定理,近似服從N(0,σ′2),其中只要μ1?=μ2,就有σ′2<σ2,所以比收斂到μ的速度更快,因此在樣本容量相同的條件下,分層抽樣得到的樣本用來(lái)估計(jì)總體的平均數(shù)就更為準(zhǔn)確.
但是值得注意的是:采取分層抽樣必須按照各層的比例來(lái)抽樣,如果比例出錯(cuò),那么相當(dāng)于上面的p變成了p′,此時(shí)Y近似于μ′=p′μ1+(1?p′)μ2而不是μ.
教材上舉了一個(gè)例子:1936年美國(guó)總統(tǒng)選舉前,一家很有名的雜志社通過(guò)電話簿和各種俱樂(lè)部信息等抽取了約240萬(wàn)人,調(diào)查他們的選舉意向.根據(jù)調(diào)查數(shù)據(jù),羅斯福的預(yù)測(cè)得票率只有43%,可是最終羅斯福的實(shí)際得票率是62%.
事實(shí)上,在1936年的美國(guó),一般只有富人才擁有電話、能參加俱樂(lè)部,因此這家雜志社通過(guò)電話簿和各種俱樂(lè)部信息所做的采樣,相當(dāng)于是一種比例不正確的分層抽樣.因此得到錯(cuò)誤的結(jié)論就在所難免.
文獻(xiàn)[2]中舉了一個(gè)類(lèi)似的例子:專(zhuān)欄作者安·蘭德斯問(wèn)她的讀者,如果可以重新來(lái)過(guò),是否還會(huì)生孩子?回答的人中有70%堅(jiān)定地說(shuō)“不要”.事實(shí)上她邀請(qǐng)讀者回答這個(gè)問(wèn)題時(shí),回應(yīng)最熱烈的恰恰是那些后悔生孩子的父母.
值得一提的是,雖然用樣本的數(shù)字特征可以估計(jì)總體的數(shù)字特征,但是對(duì)估計(jì)值不可濫用,否則可能會(huì)起到誤導(dǎo)的作用.
文獻(xiàn)[2]中舉了這樣的例子:
一項(xiàng)從2003年7 月到2004年2 月進(jìn)行的蓋洛普民意調(diào)查提出問(wèn)題:“你支持還是反對(duì)憲法修正案規(guī)定只有男女才能結(jié)婚,而不允許男同性戀和女同性戀者建立婚姻關(guān)系?”該項(xiàng)調(diào)查隨機(jī)抽取了2527 個(gè)樣本,發(fā)現(xiàn)“支持該憲法修正案的人的比例為51%”.我們是否由此可以推斷:多數(shù)人支持該憲法修正案?
事實(shí)上,設(shè)總體中支持該修正案的人的比例為p,那么抽取的樣本中支持該修正案的人的比例近似服從正態(tài)分布,根據(jù)樣本中支持該修正案的人的比例為51%,可以有95%的把握認(rèn)為p在49%和53%之間,而“p >50%”的把握其實(shí)并非很高.大學(xué)數(shù)理統(tǒng)計(jì)里講區(qū)間估計(jì),講置信度,正是因?yàn)辄c(diǎn)估計(jì)可能造成這樣的誤導(dǎo)作用.
用樣本的分布可以估計(jì)總體的分布,其理論依據(jù)在于:
設(shè)總體服從概率分布F,設(shè)它是一個(gè)連續(xù)型隨機(jī)變量,且密度函數(shù)僅在有限個(gè)點(diǎn)不連續(xù),那么抽取n個(gè)簡(jiǎn)單隨機(jī)樣本繪出頻率分布直方圖,當(dāng)組距(是n的函數(shù))隨著n趨于無(wú)窮大而趨于0 時(shí),其上邊界會(huì)趨近于概率密度曲線.
事實(shí)上,設(shè)a是概率密度函數(shù)的一個(gè)連續(xù)點(diǎn),設(shè)取n個(gè)簡(jiǎn)單隨機(jī)樣本時(shí),a所處的區(qū)間是In,那么相應(yīng)的頻率分布直方圖中a對(duì)應(yīng)的點(diǎn)的高度等于它近似等于當(dāng)n趨于無(wú)窮大時(shí),它趨于概率密度p(a).
學(xué)生在學(xué)習(xí)頻率分布直方圖時(shí),常常提問(wèn)頻率為什么要除以組距.在固定分組的情況下把頻率除以組距相當(dāng)于做了個(gè)伸縮變換,確實(shí)看不出其意義.但是按照上文的解釋,樣本容量充分大,組距充分小時(shí),頻率分布直方圖與概率密度曲線充分接近,那么除以組距就非常有必要.
教材指出:一元線性回歸模型是否合理要看樣本相關(guān)系數(shù)的大小.以r表示樣本相關(guān)系數(shù),則有
|r|越小,說(shuō)明兩個(gè)變量之間的線性相關(guān)性越弱,也就是得出的回歸直線方程越?jīng)]有價(jià)值,即方程越不能反映真實(shí)的情況;|r|越大,說(shuō)明兩個(gè)變量之間的線性相關(guān)性越強(qiáng),也就是得出的回歸直線方程越有價(jià)值.
教材上只是給出了這條結(jié)論,沒(méi)有給出解釋.學(xué)生在學(xué)習(xí)過(guò)程中經(jīng)常忘記:|r|大時(shí),線性相關(guān)性到底強(qiáng)還是弱?
由柯西不等式:
當(dāng)且僅當(dāng)存在b,對(duì)任意時(shí)取等號(hào),這又等價(jià)于存在a,b,對(duì)任意i,yi=a+bxi.
因此|r|=1,當(dāng)且僅當(dāng)y就是x的線性函數(shù).
值得注意的是:樣本相關(guān)系數(shù)僅僅是檢驗(yàn)一元線性回歸模型是否合理的標(biāo)準(zhǔn)之一.使用一元線性回歸模型首先要考慮實(shí)際意義.
考慮導(dǎo)彈高度隨時(shí)間變化的軌跡.根據(jù)物理學(xué)關(guān)于斜上拋運(yùn)動(dòng)的知識(shí),導(dǎo)彈的運(yùn)行軌跡應(yīng)該近似是一條拋物線.可是由于導(dǎo)彈的初速很大,所以最開(kāi)始導(dǎo)彈的運(yùn)行軌跡會(huì)非常接近直線,用線性回歸的擬合效果會(huì)非常好.但是如果我們相信回歸直線能夠擬合導(dǎo)彈運(yùn)行的完整軌跡,那么我們將會(huì)得到結(jié)論:導(dǎo)彈永遠(yuǎn)不會(huì)落地!
顯著性水平是統(tǒng)計(jì)學(xué)中非常重要的概念.中學(xué)教材在講授獨(dú)立性檢驗(yàn)時(shí)引入了這個(gè)概念.我們把中學(xué)教材上的表述摘錄如下:
任意給定一個(gè)α(稱為顯著性水平,通常取為0.05,0.01等),可以找到滿足條件P(χ2≥k)=α的數(shù)k(稱為顯著性水平α對(duì)應(yīng)的分位數(shù)).如果根據(jù)樣本數(shù)據(jù)算出χ2的值后,發(fā)現(xiàn)χ2≥k成立,就稱在犯錯(cuò)誤的概率不超過(guò)α的前提下,可以認(rèn)為A與B不獨(dú)立(也稱為A與B有關(guān)),或者說(shuō),有1?α的把握認(rèn)為A與B有關(guān).若χ2 值得注意的,我們的結(jié)論是“在犯錯(cuò)誤的概率不超過(guò)α的前提下,可以認(rèn)為A與B不獨(dú)立”,而不是說(shuō)“A與B不獨(dú)立”.事實(shí)上,如果我們反復(fù)做獨(dú)立性檢驗(yàn)很多次,即使每個(gè)接受檢驗(yàn)的對(duì)象中A與B都是獨(dú)立的,仍然以相當(dāng)大的概率存在若干個(gè)接受檢驗(yàn)的對(duì)象χ2≥k.然后我們認(rèn)為這幾個(gè)接受檢驗(yàn)的對(duì)象中A與B不獨(dú)立,就會(huì)得到很荒謬的結(jié)論. 文獻(xiàn)[3]中舉了一個(gè)具體的例子:10 萬(wàn)種基因中,大約有10 種真的會(huì)對(duì)精神分裂癥產(chǎn)生影響.但其余的99990 種基因,也會(huì)有或者說(shuō)大約5000 種基因會(huì)通過(guò)顯著性檢驗(yàn).當(dāng)人們歡呼“天啊,我發(fā)現(xiàn)了精神分裂癥基因”時(shí),虛假結(jié)果是真實(shí)結(jié)果的500 倍. 這種做獨(dú)立性檢驗(yàn)的方法可以形象地被比喻為“對(duì)數(shù)據(jù)進(jìn)行嚴(yán)刑拷打,直到它們招供才罷手”.在上面的例子中,99990 個(gè)無(wú)辜的基因中就有大約5000 種被“屈打成招”. 綜上所述,中學(xué)階段介紹的很多統(tǒng)計(jì)方法,在直觀上容易被人接受,但是如果經(jīng)過(guò)仔細(xì)推敲,背后的數(shù)學(xué)原理并不簡(jiǎn)單.在統(tǒng)計(jì)學(xué)的學(xué)習(xí)過(guò)程中,應(yīng)該把每個(gè)方法在直觀上的合理性和數(shù)學(xué)原理上的合理性都想清楚,才能真正理解這種統(tǒng)計(jì)方法,進(jìn)而在實(shí)際場(chǎng)合有效地加以運(yùn)用,避免得到荒謬的結(jié)論.8 小結(jié)