張唯一
摘要: 用統(tǒng)計軟件處理數(shù)據(jù)已成為統(tǒng)計學習的必要組成部分。統(tǒng)計圖的繪制和統(tǒng)計量的計算是統(tǒng)計建模難點。以高中數(shù)學一元線性回歸建模為例,教師設(shè)置定量探究不同因素對PM2.5濃度的影響這一問題情境,利用數(shù)學教學軟件GeoGebra,指導學生繪制散點圖,計算回歸方程,對回歸模型擬合并作效果評估,不僅能將學生從制圖和計算中解放出來,高效開展建?;顒?,而且有利于調(diào)動學生在實際中使用統(tǒng)計方法的積極性。
關(guān)鍵詞:一元線性回歸模型;散點圖;GeoGebra;統(tǒng)計建模
統(tǒng)計學是采用收集數(shù)據(jù)、分析數(shù)據(jù)等手段來認識未知現(xiàn)象的一門科學。用統(tǒng)計方法解決實際問題,必然涉及數(shù)據(jù)處理問題。當數(shù)據(jù)量大時,純粹依靠紙筆計算,數(shù)據(jù)處理的工作量是非常大的,以致很多統(tǒng)計方法難以應用。隨著計算機技術(shù)的發(fā)展,各種專業(yè)統(tǒng)計軟件被開發(fā)出來,處理大量數(shù)據(jù)不再困難,這大大促進了統(tǒng)計方法的應用和統(tǒng)計學的發(fā)展。當今,用統(tǒng)計軟件處理數(shù)據(jù)已成為統(tǒng)計學習的必要組成部分。在高中數(shù)學課程中,《普通高中數(shù)學課程標準(2017年版)》對統(tǒng)計中使用信息技術(shù)提出要求 :對于必修課程的一維數(shù)據(jù),“可以鼓勵學生盡可能運用計算器、計算機進行模擬活動,處理數(shù)據(jù)”;對于選擇性必修課程的成對數(shù)據(jù),明確要求“會使用統(tǒng)計軟件進行數(shù)據(jù)分析”。
如何根據(jù)隨機性數(shù)據(jù)推斷變量之間關(guān)系?建立統(tǒng)計模型是解決這類問題的常用方法。開展有效的統(tǒng)計建?;顒?,是應用統(tǒng)計知識解決實際問題的必經(jīng)過程。在解決實際問題的過程中數(shù)據(jù)處理量較大,學生學會借助信息技術(shù)工具處理數(shù)據(jù)對于高效建模非常重要。下面結(jié)合人教A版《普通高中教科書數(shù)學選擇性必修第三冊》“建立統(tǒng)計模型進行預測”中,定量探究不同因素對PM2.5濃度的影響這個案例,介紹在回歸分析中建模的過程與方法,以及信息技術(shù)的應用要領(lǐng)。此案例收集了24個監(jiān)測點汽車流量、平均氣溫、空氣濕度、風速、PM2.5濃度等數(shù)據(jù),因為不影響后續(xù)行文,這里不再呈現(xiàn)。教科書采用的信息技術(shù)是R語言,借助編程實現(xiàn)統(tǒng)計計算和統(tǒng)計制圖。為了降低使用信息技術(shù)的難度,這里采用操作相對容易的數(shù)學教學軟件GeoGebra(以下簡稱“GGB軟件”)。
一、利用散點圖觀察變量之間的關(guān)系
顯然探究不同因素對PM2.5濃度的影響,是一個研究變量之間關(guān)系的問題。為了初步了解數(shù)據(jù)分布的特征,對數(shù)據(jù)進行可視化表示是統(tǒng)計中常用且有效的手段。對數(shù)據(jù)進行可視化表示,不僅可以直觀判斷變量之間的關(guān)系,而且可以為后續(xù)進一步開展定量研究提供思路和方向上的指引。學生利用軟件畫圖不僅速度快,省時、省力,而且標準、美觀,有利于更好地觀察數(shù)據(jù)的特征。
為了簡單起見,我們研究PM2.5濃度與汽車流量兩個變量之間的關(guān)系。首先判斷兩個變量有沒有關(guān)系,若有關(guān)系是什么關(guān)系。觀察兩個定量變量的成對觀測數(shù)據(jù)分布特征,最常用的是散點圖。散點圖的繪制可以由GGB軟件完成。學生將PM2.5濃度與汽車流量數(shù)據(jù)輸入軟件的表格區(qū)(見表1),選中兩列數(shù)據(jù)(B2:C25),點擊工具欄中“雙變量回歸分析”,即可得到以汽車流量為橫軸、PM2.5濃度為縱軸的散點圖(如圖1)。
如何利用散點分布的特征尋找兩個變量之間關(guān)系?觀察散點圖,可以發(fā)現(xiàn):PM2.5濃度隨汽車流量的增加呈增長趨勢,但汽車流量增加對應的PM2.5濃度并不一定增加,甚至還有個別汽車流量相同而對應的PM2.5濃度不同的情況。由此判斷兩個變量不是函數(shù)關(guān)系,而是相關(guān)關(guān)系。
二、借助一元線性回歸模型刻畫變量之間的關(guān)系
可以看到,參數(shù)估計的計算量較大,當數(shù)據(jù)量大時更是如此。利用GGB軟件計算時,只需要操作鼠標,就可以得到回歸方程并進行預測。軟件計算不僅速度快,而且準確度高。
在圖1界面的左下角,選擇回歸模型為“線性”,可得到回歸方程y=138.597 6x-99.688 4,以及其對應的直線(如圖2)。學生根據(jù)此回歸方程進行預測:只要在左下角空白框中輸入汽車流量的值,就可得到對應的平均PM2.5濃度。
三、對模型的擬合效果進行評估
評估模型的擬合效果,是統(tǒng)計建模的重要環(huán)節(jié)。在高中,模型的擬合效果主要是根據(jù)R2的大小和殘差圖散點的分布進行評估。相關(guān)計算和繪圖可以由GGB軟件完成。
對于上述一元線性回歸模型的擬合效果,在圖2界面中,左上角點擊“∑x”(顯示統(tǒng)計),可得到R2為0.672 5(如圖3);在左上角選擇“殘差圖”,可得到殘差圖(如圖4)。由R2可知模型擬合的效果一般,還有改進的空間。觀察殘差圖發(fā)現(xiàn),殘差在汽車流量不同取值時不是一個常數(shù),而是隨著汽車流量的增加而增加,這說明回歸模型中對于隨機誤差的方差假定(D(e)=σ2)不合理。
雖然學生在高中階段只學習一元線性回歸模型,但利用GGB軟件,還可以嘗試用不同的回歸模型擬合數(shù)據(jù)。只要在圖2界面的左下角,選擇其他類型的回歸模型,如“對數(shù)”“多項式”“冪”等,就可以快捷得到不同的經(jīng)驗方程的曲線,以及R2和殘差圖。學生可以比較不同模型的R2和殘差圖,將擬合效果相對好的作為最終選擇的回歸模型。
上述案例證明,在信息技術(shù)輔助下作回歸分析,學生可以完整參與統(tǒng)計建?;顒?。從數(shù)據(jù)直觀表示到建立模型再到預測,中學涉及的所有建模過程都可以在GGB軟件中完成,這個過程在統(tǒng)計建模中具有一般性。事實上,各種統(tǒng)計方法在統(tǒng)計軟件中都可以找到相應的實現(xiàn)功能。從應用統(tǒng)計方法角度看,重要的是數(shù)據(jù)分析的思路,學生要學會選用合適的統(tǒng)計方法,并對統(tǒng)計的結(jié)果作合理的解釋,而統(tǒng)計制圖和統(tǒng)計計算工作可以交給統(tǒng)計軟件完成。
在高中數(shù)學統(tǒng)計建?;顒又?,教師合理使用統(tǒng)計軟件對教學大有裨益:不僅將學生從機械、煩瑣的數(shù)據(jù)處理中解放出來,專注于尋找數(shù)據(jù)分析思路、選擇統(tǒng)計方法、解釋結(jié)果等創(chuàng)造性工作,使活動順利開展,而且降低實際問題中使用統(tǒng)計方法的難度,提高其主動使用統(tǒng)計方法解決實際問題的積極性。
(作者系人民教育出版社中學數(shù)學編輯室副主任、副編審)
責任編輯:祝元志