亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Poisson回歸模型及Lasso變量選擇在研究生成績影響因素分析中的應(yīng)用

        2016-06-16 02:31:50艾冬梅黃若誠梁曉一寧曉鈞
        大學數(shù)學 2016年2期
        關(guān)鍵詞:方差分析

        艾冬梅, 黃若誠, 梁曉一, 寧曉鈞

        (1. 北京科技大學數(shù)理學院,北京100083; 2. 北京科技大學研究生院,北京100083)

        ?

        Poisson回歸模型及Lasso變量選擇在研究生成績影響因素分析中的應(yīng)用

        艾冬梅1,黃若誠1,梁曉一1,寧曉鈞2

        (1. 北京科技大學數(shù)理學院,北京100083;2. 北京科技大學研究生院,北京100083)

        [摘要]探究學生成績的主要影響因素是研究學生成績評價體系中一個重要方向.依據(jù)某大學三年研究生入學信息數(shù)據(jù),利用方差分析研究其入學成績的影響因素;利用Poisson回歸模型結(jié)合Lasso變量選擇方法,探究入學專業(yè)課成績、培養(yǎng)類別等對研究生學業(yè)課程成績是否有顯著影響,其結(jié)果為研究生院的招生工作提供了數(shù)據(jù)支持,對大學教學方法改進、教學質(zhì)量提高和新生錄取工作具有十分重要的現(xiàn)實指導(dǎo)意義.

        [關(guān)鍵詞]研究生成績; Poisson回歸模型; Lasso; 方差分析

        1引言

        國內(nèi)各大高校都在推進校園建設(shè)的數(shù)字化和信息化.在各高校的研究生培養(yǎng)過程中,均已使用較為完善的學生信息管理系統(tǒng).大量的研究生數(shù)據(jù)經(jīng)過日積月累,形成了寶貴的信息資源.然而,在日常行政管理中,這些數(shù)據(jù)僅用于簡單的查詢和統(tǒng)計,其所蘊含的內(nèi)在信息沒有得到妥善的發(fā)掘和利用.其中影響研究生入學成績、課程成績的相關(guān)因素尤為值得關(guān)注,確定這些影響因素,制定適當?shù)募钫?、教學模式,可以有效提升教學管理質(zhì)量.

        目前國內(nèi)外對學生成績數(shù)據(jù)有廣泛的研究.吳兆奇等人利用Logistic回歸模型分析學生成績,并探索其中的關(guān)鍵影響因素[1];閆在在等人利用Probit模型分析學生補考率影響因素[2];俞福能通過多元線性回歸分析法,根據(jù)學生專業(yè)課成績與基礎(chǔ)課成績的相關(guān)性,建立了回歸方程,進行定量分析[3];楊淑菊利用主成分分析法分析每個學生成績的影響主成分和綜合得分[4];Angeline利用Apriori算法分析學生學業(yè)表現(xiàn)與出勤率、作業(yè)完成情況等因素之間的關(guān)聯(lián)規(guī)則[5];Pandey等人利用決策樹算法分析并預(yù)測學生學業(yè)表現(xiàn)[6].

        本文首先通過方差分析對某大學研究生院三年的研究生報名、錄取數(shù)據(jù)進行研究,探究影響研究生入學成績的因素.然后利用Poisson回歸模型分析各個屬性變量及入學成績對研究生課程成績的影響,并結(jié)合Lasso方法對自變量加以選擇和系數(shù)估計,根據(jù)回歸系數(shù)分析研究生課程成績的影響因素,從而為研究生院的招生工作提供了數(shù)據(jù)支持.

        2Poisson回歸模型及Lasso變量選擇

        2.1Poisson回歸模型

        高校信息管理系統(tǒng)中包含大量離散變量,比如研究生所屬院系、本科畢業(yè)院校類別、錄取類別等.在分析這類屬性與其他變量之間的關(guān)聯(lián)時,往往會產(chǎn)生計數(shù)數(shù)據(jù)(count data),即取值為自然數(shù)的隨機變量,用來表示某種屬性類型出現(xiàn)的次數(shù).在高校數(shù)據(jù)中,同一屬性下不同類型的計數(shù)值相差不會很大,即其計數(shù)數(shù)據(jù)不會“過度分散”(overdispersed),因此本文采用Poisson分布作為研究生信息數(shù)據(jù)屬性計數(shù)變量的標準模型,并在此基礎(chǔ)上建立Poisson回歸模型[7].

        一般地,假設(shè)隨機變量Y表示某一事件發(fā)生的次數(shù),且服從期望為μ的Poisson分布,則

        本文將研究生所修的優(yōu)秀課程數(shù)(課程成績高于90分)記為因變量Y,將研究生入學考試成績、本科畢業(yè)院校類別、培養(yǎng)方式等可能影響研究生學業(yè)成績的因素作為自變量,經(jīng)過數(shù)據(jù)整合,可分別擬合出Poisson回歸模型,并通過分析自變量系數(shù),探究各因素對學業(yè)成績的影響程度.

        在選取作為自變量的因素中,除入學考試成績是連續(xù)變量以外,其余自變量多為離散變量,比如本科畢業(yè)院校類別、培養(yǎng)方式等.此類因素一般可取多個離散值,不易直接加以回歸分析,故引進虛擬變量.設(shè)一個離散自變量可取k個不同的值,則可以引入k-1個虛擬變量,每個虛擬變量分別用0或1表示此樣本是否屬于某一類別,若全部k-1個虛擬變量均為0,則表示該樣本屬于第k個類別[9].

        由于大量虛擬變量的引入,同時根據(jù)本文方差分析的結(jié)果,諸如本科畢業(yè)院校類別、培養(yǎng)方式等自變量與同為自變量的入學成績有顯著關(guān)聯(lián),這將導(dǎo)致普通的最小二乘法或極大化似然函數(shù)法估計參數(shù)不穩(wěn)定,因此本文引入Lasso進行Poisson回歸模型的變量選擇,并估計自變量系數(shù)[10].

        2.2Poisson回歸模型Lasso變量選擇在Poisson模型中的應(yīng)用

        基于Lasso變量選擇的Poisson回歸模型方法,在極大化似然函數(shù)的過程中,引入懲罰項,要求系數(shù)向量β的l1范數(shù)不超過某一個參數(shù)λ.這個最優(yōu)化過程的等價形式是

        上述公式中參數(shù)λ的最優(yōu)值可以通過交叉檢驗的方式確定.本文將選擇交叉檢驗中使得回歸預(yù)測值的標準誤差最小的λ作為最終參數(shù),并根據(jù)該參數(shù)下自變量系數(shù)的估計值,分析各自變量因素對研究生學業(yè)成績的促進或削弱作用.利用R語言glmnet包實現(xiàn)Poisson回歸、Lasso變量選擇以及交叉檢驗的過程[11].

        3數(shù)據(jù)分析

        3.1數(shù)據(jù)預(yù)處理與研究生入學分數(shù)影響因素分析

        數(shù)據(jù)來自某大學2011-2013年研究生院三年研究生報名、錄取和課程信息數(shù)據(jù)庫,共5384條學生數(shù)據(jù),通過對原始數(shù)據(jù)進行集成、規(guī)范、清理、補遺和轉(zhuǎn)化,建立了錄取學院、入學考試成績、培養(yǎng)方式、優(yōu)秀課程數(shù)等30個字段.首先利用方差分析來探究研究生入學分數(shù)的影響因素:若在某因素的不同水平下,研究生入學分數(shù)呈現(xiàn)顯著差異,則說明該因素是影響研究生入學分數(shù)的重要因素.由于各年度、各學院乃至各個專業(yè)的錄取分數(shù)標準有所不同,本文通過Z-變換對研究生入學分數(shù)加以標準化,使各年度、各專業(yè)研究生標準化錄取分數(shù)均服從標準正態(tài)分布,從而消除了錄取標準不同的影響.通過對錄取研究生信息原始數(shù)據(jù)中的字段進行初步篩選,最終對性別(包括男、女等2個屬性值)、錄取類別(包括定向、非定向、自籌、委培等4個屬性值)、報考年齡段(包括22歲以下、22到25歲之間、25歲以上等3個屬性值)、畢業(yè)院校類別(包括985院校、211研究生院校、211非研究生院校、一本院校、二本院校、三本院校以及本校7個屬性值)、是否應(yīng)屆(包括應(yīng)屆、非應(yīng)屆等2個屬性值)等5項因素加以方差分析.

        利用R語言中的Bartlett檢驗函數(shù)對性別因素進行方差齊性檢驗,結(jié)果如表1所示:p值為0.2393,大于0.05,故接受方差齊性假設(shè).在此基礎(chǔ)上,利用R語言中的方差分析函數(shù)(aov)對研究生錄取分數(shù)進行關(guān)于性別的單因素方差分析,結(jié)果如表2所示.

        表1 性別因素方差齊性檢驗表

        表2 性別因素方差分析表

        由表2可知,關(guān)于性別的方差分析p值為0.6443,大于0.05,故應(yīng)接受原假設(shè),即不同性別之間研究生錄取分數(shù)無顯著差異.因此性別不是影響研究生錄取的主要因素.而對研究生錄取分數(shù)進行關(guān)于錄取類別的單因素方差分析的結(jié)果如表3所示.

        表3 錄取類別因素方差分析表

        由表3可知錄取類別因素對應(yīng)的p值為7.0266e-95,故應(yīng)拒絕原假設(shè),即不同錄取類別之間研究生錄取分數(shù)具有顯著差異.因此錄取類別是影響研究生錄取的主要因素.同樣,研究生的本科畢業(yè)院校類別和報考年齡段屬性對研究生入學成績有顯著影響,其p值分別為8.9623e-05和3.6811e-05.而是否應(yīng)屆對研究生入學成績無顯著影響, p值為0.2875.綜合上述分析結(jié)果,研究生入學成績的影響因素為錄取類別、本科畢業(yè)院校類別、報考年齡.

        3.2研究生學業(yè)成績的Poisson回歸分析

        由于各學院課程設(shè)置各有不同,本文以數(shù)理學院的數(shù)據(jù)為例.數(shù)理學院研究生三年入學、課程數(shù)據(jù),共202條記錄.將研究生完成學業(yè)任務(wù)后的優(yōu)秀課程數(shù)(課程成績高于90分) 作為因變量Y,將研究生入學考試成績、本科畢業(yè)院校類別、培養(yǎng)方式等可能影響研究生學業(yè)成績的因素作為自變量,引入包含虛擬變量與Lasso變量選擇的Poisson回歸模型,并估計各入選自變量的系數(shù),從而分析其對研究生學業(yè)成績造成的影響.借助R語言glmnet包中的函數(shù)cv.glmnet(X,y,family=”poisson”),通過交叉檢驗得到最優(yōu)化結(jié)果,最終Poisson回歸模型的入選自變量如表4所示.

        表4 Poisson回歸模型入選自變量表

        4結(jié)論

        本文通過方差分析與結(jié)合Lasso變量選擇的Poisson回歸分析方法對積累的各類研究生數(shù)據(jù)進行處理,將隱藏在豐富數(shù)據(jù)中的寶貴信息揭示出來,對研究生培養(yǎng)水平有啟迪意義的.通過分析對研究生入學成績以及研究生課程成績的影響因素,可以為學校研究生院工作的開展提供更為科學的依據(jù),達到促進研究生培養(yǎng)的目標明確化、工作科學化,為院系領(lǐng)導(dǎo)的決策提供理論支持,加強學校研究生院建設(shè),促進研究生培養(yǎng)管理.

        但是原始數(shù)據(jù)仍然存在一定的人為因素偏差,比如入學數(shù)據(jù)中,不同院校入學成績的評分標準存在較大差異,面試過程中考官的嚴格程度各有不同;課程數(shù)據(jù)中,任課教師的授課態(tài)度、課程是否必修均會影響最終成績對研究生水平的反映等,同時高校原始數(shù)據(jù)的豐富性、多樣性和準確性仍有待加強.應(yīng)根據(jù)院系間、師生間的溝通與反饋,建立科學合理的質(zhì)量評價體系,廣泛收集優(yōu)質(zhì)、準確、關(guān)聯(lián)性強的研究生入學及培養(yǎng)數(shù)據(jù),為更扎實合理的數(shù)據(jù)分析和挖掘打下基礎(chǔ).

        [參考文獻]

        [1]吳兆奇, 關(guān)蓬萊, 吳曉明. 考試成績的LOGISTIC回歸模型研究[J]. 統(tǒng)計與決策, 2007(5): 21-23.

        [2]閆在在, 鄭麗霞, 賴俊峰,等. 基于Probit模型的學生補考率影響因素分析[J]. 大學數(shù)學, 2013, 29(5): 134-137.

        [3]俞能福. 多元線性回歸在分析學生成績相關(guān)性中的應(yīng)用[J]. 大學數(shù)學, 2007, 23(2): 42-46.

        [4]楊淑菊. 主成分分析法在學生成績評價中的應(yīng)用[J]. 數(shù)學的實踐與認識, 2012, 42(16): 131-133.

        [5]Angeline D M D. Association Rule Generation for Student Performance Analysis using Apriori Algorithm[J]. The SIJ Transactions on Computer Science Engineering & its Applications, 2013, 1(1):12-16.

        [6]Pandey M, Sharma V K. A Decision Tree Algorithm Pertaining to the Student Performance Analysis and Prediction[J]. International Journal of Computer Applications, 2013, 61(13):1-5.

        [7]張堯庭. 線性模型與廣義線性模型[J]. 統(tǒng)計教育, 1995 (4): 18-23.

        [8]郭志剛, 巫錫煒. 泊松回歸在生育率研究中的應(yīng)用[J]. 中國人口科學, 2006 (4): 2-15.

        [9]陳希孺. 廣義線性模型(一)[J]. 數(shù)理統(tǒng)計與管理, 2002, 21(5): 54-61.

        [10]Hossain, S., Ahmed, E. Shrinkage and penalty estimators of a Poisson regression model [J]. Australian and New Zealand Journal of Statistics, 2012, 54(3): 359-373.

        [11]Friedman, J., Hastie, T., Tibshirani, R. Regularization paths for generalized linear models via coordinate descent [J]. Journal of statistical software, 2010, 33(1): 1-22.

        Application of Poisson Regression Model Variable Selection with Lasso in the Graduates’ Score Analyses

        AIDong-mei1,HUANGRuo-cheng1,LIANGXiao-yi1,NINGXiao-jun2

        (1. School of Mathematics and Physics, University of Science and Technology Beijing, Beijing 100083, China;2. Graduate School, University of Science and Technology Beijing, Beijing 100083, China)

        Abstract:Research of the main factors affecting the students’ score is a very important part of the students achievement evaluation system. If the several factors which include enrollment category, university category, gender have a significant influence on graduates’ entrance exam score were studied by ANOVA in this paper. Quantitative analysis of the correlation between the discrete variables, admission scores and course scores were analyzed by Poisson regression with Lasso approach, which provides data support for graduate school enrollment work.

        Key words:graduates’ score; Poisson regression model; Lasso; analysis of variance

        [收稿日期]2015-11-27

        [基金項目]北京科技大學研究生教育發(fā)展基金項目 艾冬梅(1968-),女,博士,高工,從事數(shù)學建模、數(shù)學教學改革等研究.Email:aidongmei@sina.com

        [中圖分類號]O211.3

        [文獻標識碼]B

        [文章編號]1672-1454(2016)02-0030-05

        猜你喜歡
        方差分析
        Excel在生物統(tǒng)計學雙因素無重復(fù)方差分析中的應(yīng)用
        Excel在生物統(tǒng)計學雙因素無重復(fù)方差分析中的應(yīng)用
        Excel在生物統(tǒng)計學單因素方差分析中的應(yīng)用
        Excel在動物科學試驗中的應(yīng)用
        Excel在《生物統(tǒng)計學》雙因素有重復(fù)方差分析中的應(yīng)用與探討
        考試周刊(2017年6期)2017-02-13 10:43:50
        高校二手書市場細分研究
        應(yīng)用統(tǒng)計學課堂教學組織實踐與探索
        大學教育(2016年7期)2016-07-27 00:32:08
        金華市大學生幸福感調(diào)查研究
        “互聯(lián)網(wǎng)+”時代的出租車資源配置
        科技視界(2016年11期)2016-05-23 11:26:04
        農(nóng)機單因素試驗設(shè)計與分析
        日本岛国一区二区三区| 久久久久无码精品国产app| 天天鲁一鲁摸一摸爽一爽| 国产喷水福利在线视频| 日本一区二区三区中文字幕视频| 国产高清大片一级黄色| 日韩三级一区二区不卡| 亚洲人成影院在线无码按摩店 | 亚洲Av午夜精品a区| 国产人妖一区二区在线| 亚洲av狠狠爱一区二区三区| 国产成人久久精品一区二区三区 | 亚洲美女毛片在线视频| 精品少妇一区一区三区| 久久久久久久99精品国产片| 亚洲av日韩av永久无码下载| 无码人妻丰满熟妇啪啪网站 | 蜜桃日本免费观看mv| 亚洲欧美日韩中文在线制服| 午夜不卡亚洲视频| 中文字幕乱码在线婷婷| 日韩精品中文一区二区三区在线| 久久久国产乱子伦精品作者| 亚洲丁香五月激情综合| 中文字幕麻豆一区二区| 日韩一本之道一区中文字幕| 色偷偷色噜噜狠狠网站30根 | 久久综合精品国产丝袜长腿| 久久精品国产久精国产69| 亚洲一区二区自偷自拍另类| 久久婷婷色香五月综合缴缴情 | 中文字幕av伊人av无码av| 欧美粗大猛烈老熟妇| 亚洲国产成人AⅤ片在线观看| 国产av精品久久一区二区| 黄片视频免费在线播放观看 | 婷婷色中文字幕综合在线| 国内视频一区| 国产精品一二三区亚洲| 欧美成人秋霞久久aa片| 福利视频一二三在线观看|