李悅 袁智強
摘要:《一元線性回歸模型》一課,借鑒美國統(tǒng)計學(xué)會提出的“提出問題—收集數(shù)據(jù)—分析數(shù)據(jù)—解釋結(jié)果”四環(huán)節(jié)教學(xué)模式,嘗試運用動態(tài)數(shù)學(xué)軟件GeoGebra,幫助學(xué)生充分經(jīng)歷數(shù)據(jù)分析過程。具體地,創(chuàng)設(shè)兒子身高和父親身高相關(guān)關(guān)系的問題情境,收集學(xué)生及其父親身高的真實數(shù)據(jù),運用GeoGebra軟件的動態(tài)作圖和較大規(guī)模計算功能,讓學(xué)生能夠直觀、便捷地探索如何尋找最佳擬合直線;引導(dǎo)學(xué)生解釋實驗發(fā)現(xiàn)的最佳擬合直線背后的數(shù)學(xué)思考過程,體會其中蘊含的數(shù)學(xué)思想。
關(guān)鍵詞:數(shù)據(jù)分析;GeoGebra軟件;《一元線性回歸模型》
本文系教育部人文社會科學(xué)研究青年基金項目“創(chuàng)新型STEM教師培養(yǎng)的探索性研究”(批準(zhǔn)號:18YJC880115)的階段性研究成果。“統(tǒng)計的研究對象是數(shù)據(jù),核心是數(shù)據(jù)分析?!雹壑腥A人民共和國教育部.普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(2017年版2020年修訂)[S].北京:人民教育出版社,2020:31,7。“數(shù)據(jù)分析是指針對研究對象獲取數(shù)據(jù),運用數(shù)學(xué)方法對數(shù)據(jù)進(jìn)行整理、分析和推斷,形成關(guān)于研究對象知識的素養(yǎng)。”③對于人教A版高中數(shù)學(xué)選擇性必修第三冊第8章第2節(jié)《一元線性回歸模型》一課,我們基于美國統(tǒng)計學(xué)會為中小學(xué)以及幼兒園制訂的《統(tǒng)計教育評價與教學(xué)指導(dǎo)綱要》中提出的“提出問題—收集數(shù)據(jù)—分析數(shù)據(jù)—解釋結(jié)果”四環(huán)節(jié)教學(xué)模式,嘗試運用動態(tài)數(shù)學(xué)軟件GeoGebra,幫助學(xué)生充分經(jīng)歷數(shù)據(jù)分析過程,提升數(shù)據(jù)分析素養(yǎng)。
一、教學(xué)過程
(一)提出問題,引發(fā)思考
教師帶領(lǐng)學(xué)生回憶之前學(xué)過的“成對數(shù)據(jù)的統(tǒng)計相關(guān)性”,然后觀看“姚明家族身高”短視頻新聞,引出問題:兒子身高與父親身高這兩個變量究竟有什么關(guān)系?通過這一與現(xiàn)實生活密切相關(guān)的問題,激發(fā)學(xué)生的好奇心和求知欲。
(二)收集數(shù)據(jù),觀察探索
在課前布置作業(yè),請所有男生回家了解自己父親身高的基礎(chǔ)上,教師采取現(xiàn)場收集數(shù)據(jù)的方式,隨機抽取14位男生將父親的身高與自己的身高通過平板電腦填入教師下發(fā)的在線文檔中。由此,讓學(xué)生直接產(chǎn)生數(shù)據(jù),接觸數(shù)據(jù),提高對生活中常見數(shù)據(jù)的敏感度,培養(yǎng)學(xué)生的數(shù)據(jù)意識。
(三)分析數(shù)據(jù),技術(shù)整合
這一環(huán)節(jié)是本課教學(xué)的重點之一,教師運用GeoGebra軟件展示數(shù)據(jù)的散點圖,引導(dǎo)學(xué)生分析數(shù)據(jù),嘗試?yán)煤瘮?shù)模型近似描述數(shù)據(jù)的相關(guān)關(guān)系,并且通過軟件作圖與計算,充分探討如何尋找最佳擬合直線(一次函數(shù)模型)。具體教學(xué)過程如下:
師(將通過在線文檔收集到的數(shù)據(jù)粘貼到GeoGebra的表格區(qū),并選中表格區(qū)的“父親身高”與“兒子身高”,點擊右鍵 ,選擇“創(chuàng)建—點列”,畫出散點圖)觀察散點圖,看看點的分布有何特點,從而探討兒子身高和父親身高有何關(guān)系。
生直觀上可發(fā)現(xiàn),散點大致分布在一條從左下角至右上角的直線附近,這表明兒子身高和父親身高呈線性關(guān)系。
(教師出示問題1:兒子身高和父親身高這兩個變量之間的關(guān)系可以用函數(shù)模型刻畫嗎?)
生從散點圖可以看出,這些點大致分布在一條直線附近,可以用一次函數(shù)模型來刻畫兩者之間的關(guān)系。
師非常好!我們可以看到,散點分布在一條直線附近,但不在同一條直線上。例如,兩個父親身高均為172 cm,但是他們兒子的身高不同,一個是166 cm,另一個是170 cm??梢园l(fā)現(xiàn),兩者之間的關(guān)系不是簡單的函數(shù)關(guān)系,因此不能用函數(shù)模型來刻畫,但是可以用一次函數(shù)來刻畫父親身高對兒子身高的影響。
[教師出示問題2:我們選擇直線模型(一次函數(shù))來刻畫父親身高對兒子身高的影響,那么,如何找到最佳直線,使樣本數(shù)據(jù)的散點在整體上與此直線最接近? ]
生畫出一條直線,測量出各點到直線的距離,使得距離之和最小。
生畫出一條直線,使得直線兩側(cè)分布的點的個數(shù)相同。
生在散點圖中多取幾對點,確定幾條直線,再分別求出各直線的斜率、縱截距的平均值,即為所求直線的斜率和縱截距。
師同學(xué)們的想法都非常好!我們不妨實踐一下,看這些方法是否真的可行。事實上,利用傳統(tǒng)的工具完成這些任務(wù)是非常麻煩的,并且不一定能達(dá)到我們的目的。我們嘗試使用GeoGebra來操作。(同步在GeoGebra中操作,得到圖1所示的結(jié)果)隨便選兩點O、P確定一條直線l,在指令欄輸入“T_2=序列(線段(元素(T_2,i),交點(垂線(元素(T_1,i),f),f)),i,1,14)”,即將所有的點向直
線l引垂線,并求出每個垂線段長(即點到直線的距離)的序列T2;在指令欄輸入“D1=總和(T_2)”,求出點到直線的距離之和。此時,我們要使得D1的值最小,不妨改變O、P的位置,移動直線。我請一位同學(xué)上來移動兩點的位置,其他同學(xué)觀察能否找到使D1的值最小的直線。
生(同步在GeoGebra中操作)先移動其中一個點,發(fā)現(xiàn)距離和也在發(fā)生變動,使可觀察到的D1的值最小;再移動另一個點,使可觀察到的D1的值最小。但我發(fā)現(xiàn),這時再進(jìn)行微小的移動,總會發(fā)現(xiàn)D1的值比之前還要小,所以,無法確定所找到的D1的值是不是最小值。這種方法不妥。
師同學(xué)們可以發(fā)現(xiàn),移動直線可以將點到直線的距離之和變小,但是無法確定該值何時最小。接下來,我們探討一下第二種方法,考慮直線兩側(cè)點的分布情況。還是請一位同學(xué)上來移動直線,其他同學(xué)觀察直線兩側(cè)點分布情況的變化。
生(同步在GeoGebra中操作)當(dāng)直線在一定的范圍內(nèi)移動時,均可使直線兩側(cè)分布的點數(shù)相同,都是7。也就是說,使直線兩側(cè)分布點數(shù)相同的直線有無數(shù)條,無法判斷哪條是最佳直線。
師同樣地,考慮第三種方法。(同步在GeoGebra中操作)首先,取不同對的點,可以確定不同的直線,從而得到不同的斜率、縱截距及其平均值。其次,用我們學(xué)過的計數(shù)原理,在14個點構(gòu)成的散點圖中最多可以取14×13÷2=91(對)點,在沒有三點共線的情況下最多可以確定14條直線,但是,其中會有直線沒有斜率與縱截距,這時便無法求出斜率與縱截距的平均值。(稍停)可見,以上方法雖然都有一定的道理,但是都比較難確定哪條直線為最佳擬合直線。請同學(xué)們再思考一下:能否找到其他標(biāo)準(zhǔn)?
(學(xué)生遲疑。)
師在許多實際問題中,x是沒有誤差的固定值,只有y才是有誤差的觀測值,所以只考慮y偏離直線的程度即可。而點到直線的距離同時考慮了x和y偏離直線的程度。
生那就讓樣本數(shù)據(jù)點離直線的豎直距離之和最小。
師非常好!用各點到直線的豎直距離來刻畫各點與該直線的接近程度。也就是說,樣本觀測值與直線的預(yù)測(解釋)值之間的偏差越小,說明直線的擬合效果越佳。但豎直距離是縱坐標(biāo)之差的絕對值,絕對值求和不方便計算,怎么辦?
(學(xué)生討論。)
生可以平方后求和。
師很好!那就是用各點到直線豎直距離的平方和,即偏差平方和刻畫“整體接近程度”。(同步在GeoGebra中操作,得到圖2所示的結(jié)果)在指令欄輸入“T_3=序列(多邊形(元素(T_1,i),交點(垂線(元素(T_1,i),x軸),f),4),i,1,14)”,畫出偏差平方和的圖像。同學(xué)們可以看到,要求各點到直線豎直距離的平方和,就是要求以各點到直線的豎直距離為邊長的正方形的面積和。(將課前設(shè)計好
的課件發(fā)給學(xué)生)同學(xué)們可以改變直線的位置,尋找小正方形面積和的最小值。
(學(xué)生自主探索,用時2分鐘。)
師請同學(xué)們分享一下自己找到的最小值。
生139.54。
師還有同學(xué)找到比這個值更小的嗎?
生128.8。
師還有比這個更小的嗎?
生128.78。
師同學(xué)們可以看到,偏差平方和為128.78時,直線的方程為y=0.74x+43.93。接下來,給同學(xué)們2分鐘時間進(jìn)行驗證。
(學(xué)生驗證。)
師同學(xué)們驗證好了嗎?(同步在GeoGebra中操作)在指令欄輸入“線性回歸Y(T_1)”,會得到擬合直線的方程為y=074x+43.93。該直線即為使各散點到直線的偏差平方和最小的直線。
(四)解釋結(jié)果,揭示思想
這一環(huán)節(jié),教師引導(dǎo)學(xué)生解釋實驗發(fā)現(xiàn)的最佳擬合直線(線性回歸模型)背后的數(shù)學(xué)思考過程,從而經(jīng)歷完整的統(tǒng)計問題解決過程,體會數(shù)學(xué)研究抽象出一般模型、通過推理與計算嚴(yán)格論證的根本追求和總體思路,并且?guī)椭鷮W(xué)生進(jìn)一步理解其中蘊含的數(shù)學(xué)思想。具體教學(xué)過程如下:
師兒子身高和父親身高之間關(guān)系的最佳擬合直線,我們是通過GeoGebra軟件強大的計算功能,快速計算各種情況下的偏差平方和找到的?,F(xiàn)在請同學(xué)們思考一下——
(教師出示問題3:現(xiàn)實生活中,當(dāng)我們拿到樣本數(shù)據(jù)后,該如何計算以找到最佳擬合直線的方程,即擬合函數(shù)呢?學(xué)生思考。)
師前面說了,不能用一次函數(shù)模型來表示兒子身高與父親身高兩個變量之間的關(guān)系,只能用一次函數(shù)模型來刻畫父親身高對兒子身高的影響,而影響兒子身高的其他因素應(yīng)作為隨機誤差。我們用x表示父親的身高,Y表示兒子的身高,e表示隨機誤差。假定隨機誤差e的均值為0,方差為與父親身高無關(guān)的定值σ2,可以構(gòu)建Y關(guān)于x的線性回歸模型,即Y=bx+a+e,
E(e)=0,D(e)=σ2。其中,父親身高為xi的所有男生的身高組成一個子總體,該子總體的均值為bxi+a,即該子總體的均值與父親的身高是線性函數(shù)關(guān)系。但當(dāng)一個男生父親的身高為xi時,這個男生的身高yi卻不一定為bxi+a,而是該子總體中的一個觀測值,這個觀測值與均值之間有一個誤差項|ei|=|yi-(bxi+a)|。誤差項越小,表示樣本數(shù)據(jù)點與直線的豎直距離越小。對一組真實的數(shù)據(jù)(xi,yi)(i=1,2,…,n),設(shè)最佳擬合直線的方程為y=bx+a,根據(jù)我們前面討論的尋找最佳擬合直線的方法,即使樣本數(shù)據(jù)點與直線豎直距離的平方和最小,就是要確定什么的值,使什么最???
生確定a、b的值,使∑ni=1(yi-bxi-a)2的值最小。
師你可以通過數(shù)學(xué)上求二次多項式最小值的方法,確定a、b的值嗎?
(學(xué)生遲疑。)
師注意,這里有很多字母,首先要分清哪些是未知數(shù)或變量、哪些是已知數(shù)或常量。
生a、b是變量,xi、yi是常量。
師所以,這個式子本質(zhì)上是一個二元二次多項式。求一元二次多項式,即一元二次函數(shù)的最值,最根本的方法是什么?
生配方法。
師同學(xué)們可以試著求一下a、b分別等于多少時,∑ni=1(yi-bxi-a)2取最小值。實在求不出來,可以看一看教材第109頁的推導(dǎo)過程。
(學(xué)生活動。)
師得到了a、b,也就得到了最佳擬合直線的方程。我們將其稱為Y關(guān)于x的經(jīng)驗回歸方程,將相應(yīng)的擬合直線稱為經(jīng)驗回歸直線,將這種求經(jīng)驗回歸方程的方法叫作最小二乘法。由經(jīng)驗回歸方程可以發(fā)現(xiàn),經(jīng)驗回歸直線過點(x,y),我們將其稱為樣本中心點。(稍停)再來看前面我們收集的兒子身高與父親身高的14組數(shù)據(jù),利用推導(dǎo)出來的公式可以計算出其經(jīng)驗回歸方程中的a、b分別為多少?
(學(xué)生用電腦程序計算。)
生b=0.74,a=43.93。
師這和我們剛剛運用GeoGebra軟件所求的經(jīng)驗回歸方程一致。
(教師出示問題4:請同學(xué)們利用剛剛求出的經(jīng)驗回歸方程,求出當(dāng)x=176 時,Y為多少?如果一位父親的身高數(shù)據(jù)是176,那么其兒子的身高數(shù)據(jù)一定為所求的值嗎?)
生Y≈174。兒子的身高不一定為174cm,影響兒子身高的還有諸多其他因素,只是按經(jīng)驗來說一般平均為該值,用回歸方程求出來的值為總體中兒子平均身高的估計值。
師沒錯。而且,經(jīng)驗回歸方程y=0.74x+43.94的斜率可以解釋為父親的身高每增加1 cm,兒子的身高平均增加0.74 cm。通過對該模型的分析,還可以發(fā)現(xiàn),高個子父親有生高個子兒子的趨勢,但一群高個子父親的平均身高要高于其兒子的平均身高;矮個子父親有生矮個子兒子的趨勢,但一群矮個子父親的平均身高要低于其兒子的平均身高。英國著名統(tǒng)計學(xué)家高爾頓把這種后代的身高向中間值靠近的趨勢稱為“回歸現(xiàn)象”。后來,人們就把用一個變量的變化去推測另一個變量的變化的方法稱為“回歸分析”。(稍停)用最小二乘法求得的經(jīng)驗回歸模型擬合效果如何?是否還能進(jìn)行優(yōu)化?請同學(xué)們帶著問題回去思考一下。
二、教學(xué)思考
本節(jié)課基于統(tǒng)計教學(xué)的“四環(huán)節(jié)”教學(xué)模式,運用動態(tài)數(shù)學(xué)軟件GeoGebra,讓學(xué)生充分經(jīng)歷了統(tǒng)計問題解決的數(shù)據(jù)分析過程。課上,教師創(chuàng)設(shè)現(xiàn)實情境,引導(dǎo)學(xué)生提出問題,進(jìn)而收集真實數(shù)據(jù),多元分析數(shù)據(jù),充分經(jīng)歷“從猜想到證實或證偽、從嘗試到確定或否定”的數(shù)學(xué)探究過程,尋找解決問題的方案。
注重信息技術(shù)與數(shù)學(xué)教學(xué)的深度融合是高中數(shù)學(xué)新課標(biāo)理念之一。統(tǒng)計教學(xué)往往需要收集和分析(包括制表、作圖、計算以及隨機模擬等)大量數(shù)據(jù),因此,信息技術(shù)的運用顯得尤為重要。本節(jié)課最大的亮點是,教師運用GeoGebra軟件的動態(tài)作圖和較大規(guī)模計算功能,讓學(xué)生能夠直觀、便捷地探索“如何找到最佳直線,使樣本數(shù)據(jù)的散點在整體上與此直線最接近”,從而充分經(jīng)歷從實驗發(fā)現(xiàn)到理論推導(dǎo)的數(shù)學(xué)探究過程,對客觀數(shù)據(jù)中蘊含的統(tǒng)計規(guī)律有從感性到理性的認(rèn)識與思考,更深刻地理解數(shù)據(jù)分析的內(nèi)涵。
此外,值得一提的是,單純通過實驗探索得到通過豎直距離(偏差)平方和最小尋找最佳擬合直線的方法,說服力還是有些不足的。所以,教學(xué)中,教師在充分放手的基礎(chǔ)上適時介入,補充了一定的道理,引導(dǎo)學(xué)生得出上述方法。