劉紫璇,劉新紅,郭蕾,胡繼飛,徐英杰
(北京石油化工學院,北京 102617)
高校學生考試成績往往是檢驗學生學習效果和教師教學水平的重要依據(jù)。《高等數(shù)學》、《線性代數(shù)》和《概率論與數(shù)理統(tǒng)計》(簡稱概率統(tǒng)計)是全國普通高校理工類專業(yè)的公共基礎必修課,3門數(shù)學課程的成績往往展現(xiàn)了大學生的某些數(shù)學能力。數(shù)學成績不僅關系到學生對后繼課程的學習,而且直接關系到學生能力的培養(yǎng)和形成。通常學生的數(shù)學成績取決于多方面的因素,如學生自身的數(shù)學基礎、學習態(tài)度、學習習慣、教師的教學能力以及家庭環(huán)境等。
大學數(shù)學考試歷史悠久,受到社會的高度認可和高等院校師生的極大關注。為提高數(shù)學課程的教學效果,幫助學生通過數(shù)學類課程考試,專家學者從不同角度研究了學生的數(shù)學成績以及尋找影響數(shù)學成績的因素[1-2],希望通過成績分析和理論研究,有針對性地進行教學改革,達到提升學生數(shù)學成績的目的。另外,在分析學生成績時,諸多單個學生成績呈現(xiàn)出數(shù)據(jù)冗雜、不直觀,為避免因數(shù)據(jù)龐雜造成分析困難和主觀誤差,在分析學生成績時,可通過軟件和數(shù)學模型解決數(shù)據(jù)繁多的棘手問題。
筆者以我校材料與工程學院16級學生的數(shù)學類課程成績?yōu)檠芯繉ο?,通過統(tǒng)計軟件R并利用分位回歸模型,研究了高考數(shù)學成績、高等數(shù)學成績、線性代數(shù)成績、概率統(tǒng)計成績之間的關系,分析他們之間的影響程度,為提高大學生的數(shù)學成績提供理論支撐。
Koenker和Bassett于1978年提出分位回歸(Quantile Regression)模型[3]。該模型較傳統(tǒng)線性回歸模型更靈活、更實用。根據(jù)因變量的條件分位數(shù)對自變量X進行回歸,這樣得到所有分位數(shù)下的回歸模型。普通最小二乘回歸只能描述自變量影響因變量Y局部變化范圍,而分位回歸模型能精確地描述自變量對因變量的全局影響,而且可以清楚地刻畫自變量對因變量條件分布形狀的影響。分位回歸能夠捕捉到分布的尾部特征,當自變量對不同部分因變量的分布產生不同的影響時,如出現(xiàn)左偏或右偏的情況時,能更加全面的描繪分布的特征,從而得到更全面的分析,而且其分位回歸系數(shù)估計比最小二乘回歸系數(shù)估計更加穩(wěn)健。分位回歸模型廣泛應用于政治、經濟、自然災害等領域[4-8]。
設隨機變量Y的分布函數(shù)為F(y),則Y的第τ分位數(shù)為:
Qτ(Y)=inf{y:F(y)≥τ}
對于1組隨機樣本X,則
Qτ(Y|x)=XTατ
稱為τ的條件分位數(shù)函數(shù),X為P維向量,ατ是回歸系數(shù)組成的向量,可以通過
當τ=0.5時,該模型簡化為中位數(shù)回歸,而樣本中位數(shù)回歸是最小化殘差絕對值和的解,即
參數(shù)的估計可采用線性規(guī)劃中的單純形算法、內點法、預處理內點法、稀疏Frisch-Newton法及罰方法。單純形算法適合樣本量不大和自變量個數(shù)不多的變量,其優(yōu)點是當數(shù)據(jù)中存在大量離群點時,單純形算法估計出來的參數(shù)穩(wěn)定性比較好,缺點是在處理大量數(shù)據(jù)時運算的速度會顯著降低。對于樣本量比較大時,可采用內點法或預處理內點法。對于樣本量大、自變量個數(shù)很多時,可采用稀疏Frisch-Newton法。而對于罰方法主要包括“l(fā)asso”和 “scad”。這些算法均比較成熟,使用R軟件包中quantreg可實現(xiàn)。參數(shù)的檢驗主要是顯著性檢驗。
模型檢驗主要包括擬似然比檢驗、擬合優(yōu)度及殘差形態(tài)檢驗等。擬似然比檢驗是由Koenker首先提出,用于檢驗整個模型的顯著性。假設所有參數(shù)均為0,構造的統(tǒng)計量為:
分位回歸模型的擬合優(yōu)度是Koenker和Machado提出的,其值介于0與1之間,表達式為:
分位回歸模型主要有2種模式:(1)位置漂移模型,不同分位點的估計結果之間的斜率相同或近似,只是截距不同。表現(xiàn)為不同分位點下的擬合曲線是平行的;(2)位置—尺度漂移模型,不同分位點的估計結果之間的斜率和截距都不同。表現(xiàn)為不同分位點下的擬合曲線不是平行的。可以通過R軟件中KhmaladzeTest函數(shù)檢驗得到[9]。
數(shù)學類課程包括高考數(shù)學、高等數(shù)學上、高等數(shù)學下、線性代數(shù)和概率統(tǒng)計。由于各地高考制度不同,評分標準不同,只整理了高考數(shù)學考試成績滿分150分的考生成績,剔除掉特殊生源考生,最后只對我校材料與工程學院16級93名學生的數(shù)學類課程成績進行分析。
5門課程成績的初步統(tǒng)計分析結果如表1所示,5門課程成績的箱線圖如圖1所示。高考數(shù)學成績、高等數(shù)學上成績和高等數(shù)學下成績比較集中,而線性代數(shù)成績和概率統(tǒng)計成績相對較分散。5門課程成績的QQ圖如圖2所示,5門課程成績的Shapiro檢驗如表2所示。從表1、表2、圖1和圖2可以看出,5門數(shù)學類課程考試成績都具有明顯的偏態(tài)和尖峰的特點,Shapiro檢驗的P值都小于5%,拒絕原假設正態(tài)分布,這些都表明5門課程的成績都不服從正態(tài)分布。
表1 5門課程成績的基本統(tǒng)計分析
圖2 5門課程成績的QQ圖Fig.2 QQ chart of the scores in five courses
圖1 5門課程成績的箱線圖Fig.1 Box chart of the scores in five courses
高考數(shù)學高等數(shù)學上高等數(shù)學下線性代數(shù)概率統(tǒng)計Shapiro檢驗0.96650.95640.79750.95750.9510P值0.01400.00270.00000.00320.0012
通過R軟件對5門課程成績進行相關性分析,得到Pearson相關系數(shù),結果如表3所示。5門課程分別在大學1年級之前、大學1年級和大學2年級時完成,課程順序為高考數(shù)學、高等數(shù)學上、高等數(shù)學下、線性代數(shù)、概率統(tǒng)計。
表3 5門課程成績的相關分析
Table 3 Analysis of the correlation between the scores in five courses
高考數(shù)學高等數(shù)學上高等數(shù)學下線性代數(shù)概率統(tǒng)計高考數(shù)學1.00000.14080.20730.24420.1809高等數(shù)學上0.14081.00000.68600.45780.6102高等數(shù)學下0.20730.68601.00000.42870.5954線性代數(shù)0.24420.45780.42871.00000.2925概率統(tǒng)計0.18090.61020.59540.29251.0000
相關分析結果顯示:(1)高考數(shù)學成績即學生進入大學學習的數(shù)學基礎與后繼數(shù)學課程都有一定的關系,但相關程度并不高,與線性代數(shù)相關程度最高,也只有0.244 2。(2)高等數(shù)學上的成績與后期數(shù)學類課程相關程度最大,與高考數(shù)學的相關程度最低,相關系數(shù)只有0.140 8。(3)高等數(shù)學上與線性代數(shù)的相關程度為0.457 8,高等數(shù)學下成績與線性代數(shù)的相關程度為0.428 7,兩者基本持平。主要是由于高等數(shù)學上、高等數(shù)學下成績與線性代數(shù)課程的學習內容不一致造成的。另外,高等數(shù)學上、高等數(shù)學下成績與概率統(tǒng)計成績的相關程度基本相同。
分位回歸模型是處理非正態(tài)分布、極端數(shù)據(jù)、多個變量間相互依賴關系的一種有效的數(shù)學方法。利用該方法并借助統(tǒng)計軟件R,對概率統(tǒng)計成績與其他4門數(shù)學課程成績之間建立5%、10%、25%、50%、75%及95%的分位回歸模型,并對模型的合理性和系數(shù)進行顯著性檢驗。
高考數(shù)學、高等數(shù)學上、高等數(shù)學下、線性代數(shù)及概率統(tǒng)計的成績分別用X1、X2、X3、X4及Y表示,分位回歸模型為:
其中:由截距項、X1、X2、X3和X4組成設計矩陣,α0τ、α1τ、α2τ、α3τ、α4τ是相應τ分位數(shù)的回歸系數(shù)。
最小二乘回歸模型為:
其中:由截距項、X1、X2、X3和X4組成設計矩陣,α0、α1、α2、α3、α4為最小二乘回歸模型系數(shù)。
利用R中的quantreg包得到概率統(tǒng)計成績與其他4門數(shù)學類課程成績之間的分位回歸模型,利用R軟件中1 m函數(shù)得到最小二乘回歸模型,參數(shù)估計結果如表4所示。
表4 參數(shù)估計結果
注:*表示在顯著水平是10%的情況下,參數(shù)是顯著的。
5個回歸系數(shù)的顯著性檢驗結果如圖3所示。由圖3可以看出,該結果更為直觀,反映的信息也更多。系數(shù)的置信帶蘊藏著關于因變量條件分布的位置和尺度變化的信息。以高等數(shù)學上對應的回歸系數(shù)α2τ為例,各分位點的系數(shù)估計值用黑點表示,而灰色帶表示其95%的置信帶。觀察其縱坐標可以看出,系數(shù)估計的置信帶在小于85%分位點處都在0以上,所以其系數(shù)在小于85%分位點處均顯著。其他回歸參數(shù)的信息分析類似。
圖3 5個回歸系數(shù)的顯著性檢驗Fig.3 Significance test of five regression coefficients
由表4可以看出:(1)不論是低的分位數(shù),還是高的分位數(shù),高考數(shù)學成績對概率統(tǒng)計成績都沒有任何影響;(2)在較低的分位數(shù)5%和10%處,線性代數(shù)成績對概率統(tǒng)計成績的影響是負的,這是由于材料與工程學院學生在大學1年級同時學習線性代數(shù)和高等數(shù)學上有關,學習數(shù)學類課程負擔過大,影響高等數(shù)學上的成績,進而影響概率統(tǒng)計的成績呈現(xiàn)負增長趨勢。(3)在5%、10%、25%、50%、75%的分位回歸中,高等數(shù)學上的成績對概率統(tǒng)計成績的影響程度分別為0.759 5、0.545 4、0.546 6、0.666 2、0.393 8,都是顯著的,是主要影響因素,但對于概率統(tǒng)計成績特別好的學生來說,高等數(shù)學上成績基本不影響概率統(tǒng)計成績,但是高等數(shù)學下的成績對其影響顯著,在其他條件不變,高等數(shù)學下成績增加單位1,概率統(tǒng)計成績增加0.357 9。(4)最小二乘回歸模型的估計與中位數(shù)回歸模型的估計有相同點是高等數(shù)學上對概率統(tǒng)計成績的影響都是正的,不同的是影響程度不同,分別為0.496 1和0.666 2。另外,在最小二乘回歸中,高等數(shù)學下成績顯著影響概率統(tǒng)計,其他條件不變的情況下,高等數(shù)學下成績提高1分,概率統(tǒng)計成績平均提高0.422 7。這些區(qū)別主要是由這些數(shù)據(jù)是尖峰厚尾的特點造成的。其模型檢驗結果如表5所示。
圖4 10%分位點和90%分位點之間的比較Fig.4 Comparison between 10% and 90% quantiles
從表5可以看出,似然比檢驗的P值比較小,每個分位回歸模型都是顯著的。但從擬合優(yōu)度可以看出,擬合效果一般。
表5 模型檢驗
下面檢驗分位回歸模型中斜率是否相等,F(xiàn)值為5.421 3,對應的P值為1.341e-10,P值遠小于5%,故不同分位點下高考數(shù)學、高等數(shù)學上、高等數(shù)學下、線性代數(shù)對概率統(tǒng)計的影響機制不同。通過KhmaladzeTest檢驗,位置漂移模型T統(tǒng)計量值3.808 748大于位置尺度漂移模型的T統(tǒng)計量值3.095 953,可見相對而言,拒絕“位置漂移模型”的概率更大,故相對而言“位置尺度漂移模型”更加合適一些。
10%(差)和90%(好)的分位回歸估計的概率統(tǒng)計成績如圖4所示。從圖4(a)可以發(fā)現(xiàn),對于學習成績差的學生而言,在不同分位點估計的概率統(tǒng)計成績差別都很大。而對于學習成績好的學生而言,低于20%的分位數(shù)差別比較大,大于20%分位點的概率統(tǒng)計的成績差別不大。由圖4(b)可以看出學習差的學生和學習好的學生的概率統(tǒng)計成績的分布曲線。學習差的學生的概率統(tǒng)計成績集中于60~70,比較分散;而學習好的學生的概率統(tǒng)計成績集中于90附近,比較集中。
高考數(shù)學成績對材料與工程學院學生的數(shù)學類課程成績影響不大,后繼數(shù)學類課程成績主要靠學習大學的數(shù)學課程的日積月累。
在5%和10%的分位回歸模型中,線性代數(shù)成績對概率統(tǒng)計成績的影響是負的。原因是線性代數(shù)與概率統(tǒng)計課程內容基本不相關;其次,材料與工程學院學生在1年級同時學習高等數(shù)學和線性代數(shù),高等數(shù)學課程內容多、任務繁重,對于較差學生而言,負擔過大,建議材料與工程學院學生在大學2年級時再開線性代數(shù)課程。
高等數(shù)學是概率統(tǒng)計課程的先修課,從分位回歸模型中也得到了有效驗證。高等數(shù)學成績每提高1分,不同分位點處的概率統(tǒng)計成績得到不同的提高,可以引導不同分位點處的學生及時調整學習進度,養(yǎng)成良好的學習方法和學習習慣,啟發(fā)教師進行針對性地教學改革,提升教學效果。該模型不僅可應用于學生數(shù)學成績的預測,同時對學生規(guī)劃自己的學習和教師的教學輔導起到一定的參考作用。