艾冬梅, 黃若誠, 梁曉一, 寧曉鈞
(1. 北京科技大學數(shù)理學院,北京100083; 2. 北京科技大學研究生院,北京100083)
?
Poisson回歸模型及Lasso變量選擇在研究生成績影響因素分析中的應(yīng)用
艾冬梅1,黃若誠1,梁曉一1,寧曉鈞2
(1. 北京科技大學數(shù)理學院,北京100083;2. 北京科技大學研究生院,北京100083)
[摘要]探究學生成績的主要影響因素是研究學生成績評價體系中一個重要方向.依據(jù)某大學三年研究生入學信息數(shù)據(jù),利用方差分析研究其入學成績的影響因素;利用Poisson回歸模型結(jié)合Lasso變量選擇方法,探究入學專業(yè)課成績、培養(yǎng)類別等對研究生學業(yè)課程成績是否有顯著影響,其結(jié)果為研究生院的招生工作提供了數(shù)據(jù)支持,對大學教學方法改進、教學質(zhì)量提高和新生錄取工作具有十分重要的現(xiàn)實指導(dǎo)意義.
[關(guān)鍵詞]研究生成績; Poisson回歸模型; Lasso; 方差分析
1引言
國內(nèi)各大高校都在推進校園建設(shè)的數(shù)字化和信息化.在各高校的研究生培養(yǎng)過程中,均已使用較為完善的學生信息管理系統(tǒng).大量的研究生數(shù)據(jù)經(jīng)過日積月累,形成了寶貴的信息資源.然而,在日常行政管理中,這些數(shù)據(jù)僅用于簡單的查詢和統(tǒng)計,其所蘊含的內(nèi)在信息沒有得到妥善的發(fā)掘和利用.其中影響研究生入學成績、課程成績的相關(guān)因素尤為值得關(guān)注,確定這些影響因素,制定適當?shù)募钫?、教學模式,可以有效提升教學管理質(zhì)量.
目前國內(nèi)外對學生成績數(shù)據(jù)有廣泛的研究.吳兆奇等人利用Logistic回歸模型分析學生成績,并探索其中的關(guān)鍵影響因素[1];閆在在等人利用Probit模型分析學生補考率影響因素[2];俞福能通過多元線性回歸分析法,根據(jù)學生專業(yè)課成績與基礎(chǔ)課成績的相關(guān)性,建立了回歸方程,進行定量分析[3];楊淑菊利用主成分分析法分析每個學生成績的影響主成分和綜合得分[4];Angeline利用Apriori算法分析學生學業(yè)表現(xiàn)與出勤率、作業(yè)完成情況等因素之間的關(guān)聯(lián)規(guī)則[5];Pandey等人利用決策樹算法分析并預(yù)測學生學業(yè)表現(xiàn)[6].
本文首先通過方差分析對某大學研究生院三年的研究生報名、錄取數(shù)據(jù)進行研究,探究影響研究生入學成績的因素.然后利用Poisson回歸模型分析各個屬性變量及入學成績對研究生課程成績的影響,并結(jié)合Lasso方法對自變量加以選擇和系數(shù)估計,根據(jù)回歸系數(shù)分析研究生課程成績的影響因素,從而為研究生院的招生工作提供了數(shù)據(jù)支持.
2Poisson回歸模型及Lasso變量選擇
2.1Poisson回歸模型
高校信息管理系統(tǒng)中包含大量離散變量,比如研究生所屬院系、本科畢業(yè)院校類別、錄取類別等.在分析這類屬性與其他變量之間的關(guān)聯(lián)時,往往會產(chǎn)生計數(shù)數(shù)據(jù)(count data),即取值為自然數(shù)的隨機變量,用來表示某種屬性類型出現(xiàn)的次數(shù).在高校數(shù)據(jù)中,同一屬性下不同類型的計數(shù)值相差不會很大,即其計數(shù)數(shù)據(jù)不會“過度分散”(overdispersed),因此本文采用Poisson分布作為研究生信息數(shù)據(jù)屬性計數(shù)變量的標準模型,并在此基礎(chǔ)上建立Poisson回歸模型[7].
一般地,假設(shè)隨機變量Y表示某一事件發(fā)生的次數(shù),且服從期望為μ的Poisson分布,則
本文將研究生所修的優(yōu)秀課程數(shù)(課程成績高于90分)記為因變量Y,將研究生入學考試成績、本科畢業(yè)院校類別、培養(yǎng)方式等可能影響研究生學業(yè)成績的因素作為自變量,經(jīng)過數(shù)據(jù)整合,可分別擬合出Poisson回歸模型,并通過分析自變量系數(shù),探究各因素對學業(yè)成績的影響程度.
在選取作為自變量的因素中,除入學考試成績是連續(xù)變量以外,其余自變量多為離散變量,比如本科畢業(yè)院校類別、培養(yǎng)方式等.此類因素一般可取多個離散值,不易直接加以回歸分析,故引進虛擬變量.設(shè)一個離散自變量可取k個不同的值,則可以引入k-1個虛擬變量,每個虛擬變量分別用0或1表示此樣本是否屬于某一類別,若全部k-1個虛擬變量均為0,則表示該樣本屬于第k個類別[9].
由于大量虛擬變量的引入,同時根據(jù)本文方差分析的結(jié)果,諸如本科畢業(yè)院校類別、培養(yǎng)方式等自變量與同為自變量的入學成績有顯著關(guān)聯(lián),這將導(dǎo)致普通的最小二乘法或極大化似然函數(shù)法估計參數(shù)不穩(wěn)定,因此本文引入Lasso進行Poisson回歸模型的變量選擇,并估計自變量系數(shù)[10].
2.2Poisson回歸模型Lasso變量選擇在Poisson模型中的應(yīng)用
基于Lasso變量選擇的Poisson回歸模型方法,在極大化似然函數(shù)的過程中,引入懲罰項,要求系數(shù)向量β的l1范數(shù)不超過某一個參數(shù)λ.這個最優(yōu)化過程的等價形式是
上述公式中參數(shù)λ的最優(yōu)值可以通過交叉檢驗的方式確定.本文將選擇交叉檢驗中使得回歸預(yù)測值的標準誤差最小的λ作為最終參數(shù),并根據(jù)該參數(shù)下自變量系數(shù)的估計值,分析各自變量因素對研究生學業(yè)成績的促進或削弱作用.利用R語言glmnet包實現(xiàn)Poisson回歸、Lasso變量選擇以及交叉檢驗的過程[11].
3數(shù)據(jù)分析
3.1數(shù)據(jù)預(yù)處理與研究生入學分數(shù)影響因素分析
數(shù)據(jù)來自某大學2011-2013年研究生院三年研究生報名、錄取和課程信息數(shù)據(jù)庫,共5384條學生數(shù)據(jù),通過對原始數(shù)據(jù)進行集成、規(guī)范、清理、補遺和轉(zhuǎn)化,建立了錄取學院、入學考試成績、培養(yǎng)方式、優(yōu)秀課程數(shù)等30個字段.首先利用方差分析來探究研究生入學分數(shù)的影響因素:若在某因素的不同水平下,研究生入學分數(shù)呈現(xiàn)顯著差異,則說明該因素是影響研究生入學分數(shù)的重要因素.由于各年度、各學院乃至各個專業(yè)的錄取分數(shù)標準有所不同,本文通過Z-變換對研究生入學分數(shù)加以標準化,使各年度、各專業(yè)研究生標準化錄取分數(shù)均服從標準正態(tài)分布,從而消除了錄取標準不同的影響.通過對錄取研究生信息原始數(shù)據(jù)中的字段進行初步篩選,最終對性別(包括男、女等2個屬性值)、錄取類別(包括定向、非定向、自籌、委培等4個屬性值)、報考年齡段(包括22歲以下、22到25歲之間、25歲以上等3個屬性值)、畢業(yè)院校類別(包括985院校、211研究生院校、211非研究生院校、一本院校、二本院校、三本院校以及本校7個屬性值)、是否應(yīng)屆(包括應(yīng)屆、非應(yīng)屆等2個屬性值)等5項因素加以方差分析.
利用R語言中的Bartlett檢驗函數(shù)對性別因素進行方差齊性檢驗,結(jié)果如表1所示:p值為0.2393,大于0.05,故接受方差齊性假設(shè).在此基礎(chǔ)上,利用R語言中的方差分析函數(shù)(aov)對研究生錄取分數(shù)進行關(guān)于性別的單因素方差分析,結(jié)果如表2所示.
表1 性別因素方差齊性檢驗表
表2 性別因素方差分析表
由表2可知,關(guān)于性別的方差分析p值為0.6443,大于0.05,故應(yīng)接受原假設(shè),即不同性別之間研究生錄取分數(shù)無顯著差異.因此性別不是影響研究生錄取的主要因素.而對研究生錄取分數(shù)進行關(guān)于錄取類別的單因素方差分析的結(jié)果如表3所示.
表3 錄取類別因素方差分析表
由表3可知錄取類別因素對應(yīng)的p值為7.0266e-95,故應(yīng)拒絕原假設(shè),即不同錄取類別之間研究生錄取分數(shù)具有顯著差異.因此錄取類別是影響研究生錄取的主要因素.同樣,研究生的本科畢業(yè)院校類別和報考年齡段屬性對研究生入學成績有顯著影響,其p值分別為8.9623e-05和3.6811e-05.而是否應(yīng)屆對研究生入學成績無顯著影響, p值為0.2875.綜合上述分析結(jié)果,研究生入學成績的影響因素為錄取類別、本科畢業(yè)院校類別、報考年齡.
3.2研究生學業(yè)成績的Poisson回歸分析
由于各學院課程設(shè)置各有不同,本文以數(shù)理學院的數(shù)據(jù)為例.數(shù)理學院研究生三年入學、課程數(shù)據(jù),共202條記錄.將研究生完成學業(yè)任務(wù)后的優(yōu)秀課程數(shù)(課程成績高于90分) 作為因變量Y,將研究生入學考試成績、本科畢業(yè)院校類別、培養(yǎng)方式等可能影響研究生學業(yè)成績的因素作為自變量,引入包含虛擬變量與Lasso變量選擇的Poisson回歸模型,并估計各入選自變量的系數(shù),從而分析其對研究生學業(yè)成績造成的影響.借助R語言glmnet包中的函數(shù)cv.glmnet(X,y,family=”poisson”),通過交叉檢驗得到最優(yōu)化結(jié)果,最終Poisson回歸模型的入選自變量如表4所示.
表4 Poisson回歸模型入選自變量表
4結(jié)論
本文通過方差分析與結(jié)合Lasso變量選擇的Poisson回歸分析方法對積累的各類研究生數(shù)據(jù)進行處理,將隱藏在豐富數(shù)據(jù)中的寶貴信息揭示出來,對研究生培養(yǎng)水平有啟迪意義的.通過分析對研究生入學成績以及研究生課程成績的影響因素,可以為學校研究生院工作的開展提供更為科學的依據(jù),達到促進研究生培養(yǎng)的目標明確化、工作科學化,為院系領(lǐng)導(dǎo)的決策提供理論支持,加強學校研究生院建設(shè),促進研究生培養(yǎng)管理.
但是原始數(shù)據(jù)仍然存在一定的人為因素偏差,比如入學數(shù)據(jù)中,不同院校入學成績的評分標準存在較大差異,面試過程中考官的嚴格程度各有不同;課程數(shù)據(jù)中,任課教師的授課態(tài)度、課程是否必修均會影響最終成績對研究生水平的反映等,同時高校原始數(shù)據(jù)的豐富性、多樣性和準確性仍有待加強.應(yīng)根據(jù)院系間、師生間的溝通與反饋,建立科學合理的質(zhì)量評價體系,廣泛收集優(yōu)質(zhì)、準確、關(guān)聯(lián)性強的研究生入學及培養(yǎng)數(shù)據(jù),為更扎實合理的數(shù)據(jù)分析和挖掘打下基礎(chǔ).
[參考文獻]
[1]吳兆奇, 關(guān)蓬萊, 吳曉明. 考試成績的LOGISTIC回歸模型研究[J]. 統(tǒng)計與決策, 2007(5): 21-23.
[2]閆在在, 鄭麗霞, 賴俊峰,等. 基于Probit模型的學生補考率影響因素分析[J]. 大學數(shù)學, 2013, 29(5): 134-137.
[3]俞能福. 多元線性回歸在分析學生成績相關(guān)性中的應(yīng)用[J]. 大學數(shù)學, 2007, 23(2): 42-46.
[4]楊淑菊. 主成分分析法在學生成績評價中的應(yīng)用[J]. 數(shù)學的實踐與認識, 2012, 42(16): 131-133.
[5]Angeline D M D. Association Rule Generation for Student Performance Analysis using Apriori Algorithm[J]. The SIJ Transactions on Computer Science Engineering & its Applications, 2013, 1(1):12-16.
[6]Pandey M, Sharma V K. A Decision Tree Algorithm Pertaining to the Student Performance Analysis and Prediction[J]. International Journal of Computer Applications, 2013, 61(13):1-5.
[7]張堯庭. 線性模型與廣義線性模型[J]. 統(tǒng)計教育, 1995 (4): 18-23.
[8]郭志剛, 巫錫煒. 泊松回歸在生育率研究中的應(yīng)用[J]. 中國人口科學, 2006 (4): 2-15.
[9]陳希孺. 廣義線性模型(一)[J]. 數(shù)理統(tǒng)計與管理, 2002, 21(5): 54-61.
[10]Hossain, S., Ahmed, E. Shrinkage and penalty estimators of a Poisson regression model [J]. Australian and New Zealand Journal of Statistics, 2012, 54(3): 359-373.
[11]Friedman, J., Hastie, T., Tibshirani, R. Regularization paths for generalized linear models via coordinate descent [J]. Journal of statistical software, 2010, 33(1): 1-22.
Application of Poisson Regression Model Variable Selection with Lasso in the Graduates’ Score Analyses
AIDong-mei1,HUANGRuo-cheng1,LIANGXiao-yi1,NINGXiao-jun2
(1. School of Mathematics and Physics, University of Science and Technology Beijing, Beijing 100083, China;2. Graduate School, University of Science and Technology Beijing, Beijing 100083, China)
Abstract:Research of the main factors affecting the students’ score is a very important part of the students achievement evaluation system. If the several factors which include enrollment category, university category, gender have a significant influence on graduates’ entrance exam score were studied by ANOVA in this paper. Quantitative analysis of the correlation between the discrete variables, admission scores and course scores were analyzed by Poisson regression with Lasso approach, which provides data support for graduate school enrollment work.
Key words:graduates’ score; Poisson regression model; Lasso; analysis of variance
[收稿日期]2015-11-27
[基金項目]北京科技大學研究生教育發(fā)展基金項目 艾冬梅(1968-),女,博士,高工,從事數(shù)學建模、數(shù)學教學改革等研究.Email:aidongmei@sina.com
[中圖分類號]O211.3
[文獻標識碼]B
[文章編號]1672-1454(2016)02-0030-05