亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘算法的本科生學(xué)習(xí)質(zhì)量分析

        2022-07-26 09:31:34高雅奇穆軍妮劉培昌
        微型電腦應(yīng)用 2022年6期
        關(guān)鍵詞:本科生森林分類(lèi)

        高雅奇, 穆軍妮, 劉培昌

        (北京第二外國(guó)語(yǔ)學(xué)院,網(wǎng)絡(luò)與信息中心(圖書(shū)館), 北京 100024)

        0 引言

        高等教育大眾化情境下,全面提升教育質(zhì)量,改進(jìn)本科教育教學(xué)成為國(guó)際高等教育界的共識(shí),各高校將重視本科教學(xué)、提高人才培養(yǎng)質(zhì)量放在高校發(fā)展重中之重的地位[1]。隨著中國(guó)高等教育的內(nèi)涵式發(fā)展,學(xué)生學(xué)習(xí)的質(zhì)量成為一流本科教育的關(guān)鍵指向[2]?!督逃筷P(guān)于全面提高高等教育質(zhì)量的若干意見(jiàn)》《統(tǒng)籌推進(jìn)世界“雙一流”建設(shè)總體方案[2015]64號(hào)》《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》等相關(guān)政策文件都肯定了“質(zhì)量為重”的中心思想?;诮逃|(zhì)量評(píng)價(jià)的內(nèi)部增值觀也體現(xiàn)了教育質(zhì)量提升的結(jié)果[3]。本科生教育階段是高等教育的主要階段,本科生學(xué)習(xí)質(zhì)量的高低是考評(píng)高校辦學(xué)質(zhì)量的核心要素[4]。然而,隨著高等教育的大眾化,學(xué)生的學(xué)習(xí)質(zhì)量因各種因素?zé)o法得到保障。因此,如何獲取影響學(xué)生學(xué)習(xí)質(zhì)量的關(guān)鍵因素,進(jìn)而提高學(xué)生的學(xué)習(xí)質(zhì)量是研究的主要目的。

        1 研究設(shè)計(jì)

        參考國(guó)內(nèi)大部分高校通用的績(jī)點(diǎn)成績(jī)計(jì)算方法對(duì)本次研究進(jìn)行設(shè)計(jì):某一課程的績(jī)點(diǎn)成績(jī)=課程分?jǐn)?shù)/10-5;學(xué)分績(jī)點(diǎn)成績(jī)=學(xué)分×績(jī)點(diǎn)即學(xué)分×(課程分?jǐn)?shù)/10-5)(90分以上按90分計(jì)算);學(xué)生在校期間總的績(jī)點(diǎn)成績(jī)=該生所修全部科目的學(xué)分績(jī)點(diǎn)成績(jī)之和/該生所修全部科目的學(xué)分之和。根據(jù)學(xué)生績(jī)點(diǎn)成績(jī)生成該生學(xué)習(xí)質(zhì)量(以XXZL命名)字段值,名次在同年級(jí)同專(zhuān)業(yè)前20%及以內(nèi)的學(xué)生學(xué)習(xí)質(zhì)量設(shè)為1等, 名次在20%~40%的學(xué)生學(xué)習(xí)質(zhì)量設(shè)為2等,以此類(lèi)推,名次在后20%的學(xué)生學(xué)習(xí)質(zhì)量為5等,并將最后一等設(shè)定為預(yù)警等級(jí)。

        本次研究抽取本科生在校期間與研究主題相關(guān)的基礎(chǔ)數(shù)據(jù),構(gòu)建影響學(xué)生學(xué)習(xí)質(zhì)量分類(lèi)模型,并對(duì)模型加以訓(xùn)練。以訓(xùn)練好的模型對(duì)本科生的學(xué)習(xí)質(zhì)量進(jìn)行預(yù)測(cè),實(shí)現(xiàn)對(duì)預(yù)警等級(jí)學(xué)生的反饋,從而有效促進(jìn)學(xué)生管理工作開(kāi)展、為學(xué)校改進(jìn)本科教育教學(xué)和提高學(xué)生質(zhì)量提供可行性的支撐。

        2 數(shù)據(jù)獲取及預(yù)處理

        2.1 數(shù)據(jù)獲取

        與本科生學(xué)習(xí)相關(guān)的數(shù)據(jù)主要涉及學(xué)生基本信息、學(xué)籍信息、校園行為等數(shù)據(jù)。學(xué)生學(xué)習(xí)質(zhì)量建模時(shí)需要從北京某高校的一卡通系統(tǒng)、教務(wù)系統(tǒng)、財(cái)產(chǎn)系統(tǒng)、圖書(shū)館自動(dòng)化系統(tǒng)、門(mén)禁系統(tǒng)、校園網(wǎng)計(jì)費(fèi)系統(tǒng)中抽取如下信息:學(xué)號(hào)、國(guó)籍、地區(qū)、民族、性別、所在年級(jí)、所在院系、所在專(zhuān)業(yè)、學(xué)科門(mén)類(lèi)、學(xué)生類(lèi)別、培養(yǎng)層次、學(xué)制、是否學(xué)分制、校園日均消費(fèi)、年均消費(fèi)天數(shù)、年上網(wǎng)時(shí)長(zhǎng)、年圖書(shū)外借冊(cè)數(shù)、年自習(xí)室刷卡次數(shù)。抽取的時(shí)間段設(shè)定為2013年1月至2019年12月。研究共收集到9 744位本科生在校期間的數(shù)據(jù)。

        2.2 數(shù)據(jù)預(yù)處理

        1)數(shù)據(jù)清洗

        數(shù)據(jù)清洗的主要目的是從業(yè)務(wù)以及模型的相關(guān)需要方面考慮,篩選出需要的數(shù)據(jù)。原始數(shù)據(jù)集中53條數(shù)據(jù)的績(jī)點(diǎn)成績(jī)?yōu)榭眨瑸榱吮阌谀P头治?,?duì)其進(jìn)行過(guò)濾處理。因此,研究的樣本量最終確定為9 691位學(xué)生數(shù)據(jù)。

        2)缺失值處理

        原始數(shù)據(jù)集存在數(shù)據(jù)缺失的情況,若將有缺失值的記錄刪除,會(huì)影響樣本的數(shù)據(jù)量。為達(dá)到較好的建模效果,采用取代法對(duì)缺失值進(jìn)行插補(bǔ)。對(duì)于數(shù)值型的數(shù)據(jù),如日均消費(fèi)、年均消費(fèi)天數(shù)等,采用其他記錄的均值插補(bǔ)缺失值;對(duì)于字符型的數(shù)據(jù),采用以其他記錄中出現(xiàn)次數(shù)最多的值代替缺失值。

        3)數(shù)據(jù)變換

        在構(gòu)建模型前,需要將原始數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)換成適合挖掘任務(wù)及算法需要的格式。采用的數(shù)據(jù)變換方式如下。

        (1)數(shù)據(jù)規(guī)約。將分類(lèi)變量轉(zhuǎn)換為字符型并定義代碼含義,如性別變量,以“0”代表女性、“1”代表男性。各變量指標(biāo)及含義見(jiàn)表1。

        表1 本科生學(xué)習(xí)質(zhì)量影響因素及含義

        3 模型建立

        3.1 數(shù)據(jù)劃分

        對(duì)數(shù)據(jù)樣本采用隨機(jī)抽樣的方法抽取80%作為訓(xùn)練樣本,用于模型訓(xùn)練;余下的20%作為測(cè)試樣本,用于模型結(jié)果檢驗(yàn)。訓(xùn)練數(shù)據(jù)集包含7 752條數(shù)據(jù),測(cè)試數(shù)據(jù)集包含1 939條數(shù)據(jù),可通過(guò)對(duì)訓(xùn)練集和測(cè)試集數(shù)值型變量的分布情況對(duì)比驗(yàn)證訓(xùn)練集與測(cè)試集的劃分是否合理,具體描述性分析如表2所示。數(shù)值型變量包含上網(wǎng)時(shí)長(zhǎng)、借書(shū)數(shù)量、消費(fèi)天數(shù)、入館天數(shù)、日均消費(fèi)。

        表2 訓(xùn)練樣本描述性統(tǒng)計(jì)

        由上述對(duì)比可知,訓(xùn)練集數(shù)據(jù)與測(cè)試集數(shù)據(jù)的數(shù)據(jù)分布較一致,劃分相對(duì)合理,根據(jù)訓(xùn)練集生成的模型可以用測(cè)試集數(shù)據(jù)對(duì)其進(jìn)行性能評(píng)估。

        3.2 算法選擇

        在研究中選擇3種算法進(jìn)行比較,即決策樹(shù)算法、隨機(jī)森林算法和Boosting算法。采用R語(yǔ)言中各算法的默認(rèn)參數(shù)構(gòu)建模型,并對(duì)三者的擬合結(jié)果進(jìn)行對(duì)比,確定研究最終選取的算法。

        (1)驗(yàn)證方法

        交叉驗(yàn)證法是驗(yàn)證機(jī)器學(xué)習(xí)算法模型效果的常用測(cè)試方法。采用最常用的10折交叉驗(yàn)證法,即將初始采樣分成10個(gè)互斥的子樣本,以1個(gè)子樣本作為模型的測(cè)試數(shù)據(jù),另外9個(gè)樣本作為訓(xùn)練數(shù)據(jù)。共進(jìn)行10次訓(xùn)練和測(cè)試,以10次結(jié)果的均值作為對(duì)算法性能的最終估計(jì)。

        (2)算法性能評(píng)估

        表3 三種模型10折交叉驗(yàn)證結(jié)果

        由表3可知,隨機(jī)森林算法的R-squared均值高于決策樹(shù)及Boosting算法,其擬合效果最佳。因此,選用隨機(jī)森林算法對(duì)本科生學(xué)習(xí)質(zhì)量影響因素進(jìn)行研究。

        3.3 特征篩選及貢獻(xiàn)度排序

        在模型訓(xùn)練過(guò)程中,為了構(gòu)建簡(jiǎn)化的、易于理解的模型,需要從全部特征中篩選相關(guān)性強(qiáng)的特征子集作為最優(yōu)特征子集。特征篩選不僅可以縮短模型訓(xùn)練時(shí)間,改善模型的通用性,還可以降低模型過(guò)擬合的風(fēng)險(xiǎn)[5]。

        (1)特征篩選

        常用的特征選擇方法包括正向選擇法、后退選擇法和逐步回歸法,研究采用正向選擇法選擇特征變量。得出本科生學(xué)習(xí)質(zhì)量的隨機(jī)森林分類(lèi)模型包含學(xué)科類(lèi)別代碼、專(zhuān)業(yè)代碼、院系所號(hào)、所在年級(jí)、上網(wǎng)時(shí)長(zhǎng)、借書(shū)數(shù)量、消費(fèi)天數(shù)、入館天數(shù)、日均消費(fèi)、國(guó)籍、性別、學(xué)制、地區(qū)碼等13個(gè)特征指標(biāo)時(shí)擬合程度最好。

        (2)特征貢獻(xiàn)度

        篩選出特征集后,需要對(duì)其各項(xiàng)特征變量在模型中貢獻(xiàn)度機(jī)型進(jìn)行評(píng)估,隨機(jī)森林模型的feature importance函數(shù)可評(píng)估各個(gè)特征變量在模型中的重要性,即以完整的模型性能減去某個(gè)特征后的模型性能標(biāo)注特征對(duì)模型的貢獻(xiàn)度,計(jì)算出的各特征對(duì)模型的貢獻(xiàn)度如圖1所示,年借書(shū)數(shù)量對(duì)模型的貢獻(xiàn)度最高,入館天數(shù)、消費(fèi)天數(shù)和性別特征對(duì)模型分類(lèi)性能也非常重要。

        圖1 隨機(jī)森林分類(lèi)模型特征貢獻(xiàn)度

        (3)特征驗(yàn)證

        為了驗(yàn)證隨機(jī)森林分類(lèi)模型篩選出的特征及排序是否合理,可將其與決策樹(shù)和Boosting模型的特征篩選情況進(jìn)行對(duì)比。決策樹(shù)算法篩選出的特征包含9個(gè),用feature importance函數(shù)進(jìn)行排序,前6個(gè)特征與隨機(jī)森林模型的特征指標(biāo)及順序相同,之后依次為所在年級(jí)、上網(wǎng)時(shí)長(zhǎng)、院系所號(hào)特征。Boosting算法篩選出的分類(lèi)模型包含11個(gè)特征指標(biāo),通過(guò)計(jì)算各特征的F-score值對(duì)特征的貢獻(xiàn)度進(jìn)行排序:前5個(gè)與隨機(jī)森林模型的特征指標(biāo)及順序相同,之后依次為上網(wǎng)時(shí)長(zhǎng)、地區(qū)碼、所在年級(jí)、院系所號(hào)、學(xué)科分類(lèi)碼、學(xué)生分類(lèi)碼特征。可見(jiàn)在不同模型中的特征選取和排序情況比較類(lèi)似,隨機(jī)森林模型的特征篩選和貢獻(xiàn)度是合理的。

        3.4 模型參數(shù)調(diào)優(yōu)

        模型需要進(jìn)行參數(shù)調(diào)優(yōu)的主要原因在于訓(xùn)練出的模型可能存在過(guò)擬合和欠擬合問(wèn)題。過(guò)擬合,一般是指模型缺乏泛化能力;欠擬合,一般指訓(xùn)練出的模型距離擬合曲線較遠(yuǎn),擬合度不高[6]。當(dāng)模型的復(fù)雜度上升會(huì)使模型的性能增加,也會(huì)增加過(guò)擬合的風(fēng)險(xiǎn);當(dāng)模型的復(fù)雜度減小,又可能出現(xiàn)欠擬合情況。綜合以上情況,需要做好對(duì)構(gòu)建模型的參數(shù)調(diào)優(yōu)工作。隨機(jī)森林分類(lèi)模型如果采用默認(rèn)值容易發(fā)生過(guò)擬合現(xiàn)象,可對(duì)以下參數(shù)采取限制措施。

        (1)對(duì)樹(shù)的深度做限制,防止樹(shù)的深度太深。樹(shù)的深度越小,計(jì)算量越小,模型的計(jì)算速度越快。為了找到最佳深度,可增加一個(gè)集合驗(yàn)證集,當(dāng)tree depth=9時(shí),模型準(zhǔn)確率趨于穩(wěn)定并不會(huì)隨著tree depth的增加明顯提高,故選定tree depth=9。

        (2)限制最小樣本數(shù):當(dāng)節(jié)點(diǎn)包含的節(jié)點(diǎn)過(guò)少時(shí)就停止分裂節(jié)點(diǎn)。隨機(jī)森林模型的默認(rèn)最小樣本數(shù)為1,經(jīng)實(shí)驗(yàn)當(dāng)minimun node size增大到2時(shí),模型的指標(biāo)狀態(tài)最優(yōu)。

        (3)森林中決策樹(shù)的數(shù)量限制,隨機(jī)森林模型的默認(rèn)決策樹(shù)數(shù)量為1 000,實(shí)驗(yàn)證明,當(dāng)ntree=1 000時(shí)模型的錯(cuò)誤率基本收斂,而再增加ntree的數(shù)量模型效果不會(huì)顯著提高,故選定ntree=1 000。

        4 模型性能評(píng)估

        以測(cè)試集對(duì)構(gòu)建的森林分類(lèi)模型進(jìn)行評(píng)估。

        4.1 準(zhǔn)確率及精度評(píng)估

        表4 隨機(jī)森林分類(lèi)模型混淆矩陣

        4.2 ROC曲線評(píng)估

        ROC曲線顯示分類(lèi)模型在所有分類(lèi)閾值下的效果。ROC空間將假正例率FPR定義為X軸,真正例率TPR定義為Y軸。橫坐標(biāo)為用曲線下面積AUC表示ROC曲線下的面積,AUC的值介于0和1之間,AUC值越大代表分類(lèi)模型的性能越好[18]。為驗(yàn)證特征篩選是否提高了分類(lèi)模型的性能,可將經(jīng)特征篩選與未經(jīng)特征篩選的隨機(jī)森林分類(lèi)模型進(jìn)行對(duì)比,其ROC曲線如圖2所示。圖2(a)為未經(jīng)特征篩選的ROC驗(yàn)證曲線,平均AUC值為86.12%;圖2(b)為經(jīng)特征篩選后的ROC驗(yàn)證曲線,平均AUC值為89.76%。經(jīng)過(guò)特征篩選后,隨機(jī)森林模型的驗(yàn)證性能提升了4.22%。

        (a) 未經(jīng)特征篩選

        (b) 經(jīng)特征篩選圖2 隨機(jī)森林模型驗(yàn)證ROC曲線

        4.3 小結(jié)與建議

        從測(cè)試集的1 939條數(shù)據(jù)中隨機(jī)抽取100條數(shù)據(jù),展示模型的預(yù)測(cè)效果。以虛線代表學(xué)習(xí)質(zhì)量的真實(shí)值,實(shí)線代表學(xué)習(xí)質(zhì)量的預(yù)測(cè)值,結(jié)果如圖3所示。

        圖3 模型預(yù)測(cè)對(duì)比圖

        由圖3可以觀察到模型的預(yù)測(cè)準(zhǔn)確率較高,模型的預(yù)測(cè)準(zhǔn)確率達(dá)到79.11%。模型本身具有較好的準(zhǔn)確度和穩(wěn)定性,可為改進(jìn)高校教學(xué)管理和提高學(xué)生學(xué)習(xí)質(zhì)量提供參考依據(jù)。

        (1)高校應(yīng)著力于學(xué)校學(xué)習(xí)環(huán)境的改善[7],盡可能地為學(xué)生營(yíng)造良好的學(xué)習(xí)氛圍,多種途徑多種方式引導(dǎo)和鼓勵(lì)學(xué)生增加閱讀量和自主學(xué)習(xí)的時(shí)間和能力。

        (2)地域因素、家庭因素及語(yǔ)言環(huán)境都是影響學(xué)生學(xué)習(xí)質(zhì)量的重要因素,高校應(yīng)關(guān)注不同學(xué)生的需要和個(gè)性差異,重點(diǎn)關(guān)注新疆、西藏等少數(shù)民族地區(qū)及海外留學(xué)生。

        (3)性別差異也是影響學(xué)生學(xué)習(xí)質(zhì)量的重要因素。高校應(yīng)充分重視性別差異造成的成績(jī)分化現(xiàn)象,利用各種有效措施來(lái)改善這種局面, 提高學(xué)生學(xué)習(xí)成績(jī)和實(shí)際的運(yùn)用能力。

        (4)高校應(yīng)建立良好的鼓勵(lì)機(jī)制,轉(zhuǎn)變教學(xué)方法、增強(qiáng)課堂氛圍,調(diào)動(dòng)學(xué)生的學(xué)習(xí)熱情與激情。

        (5)合理區(qū)間內(nèi),上網(wǎng)時(shí)間的增加不會(huì)影響學(xué)生的學(xué)習(xí)質(zhì)量反而會(huì)促進(jìn)作用,高校應(yīng)適當(dāng)引導(dǎo)學(xué)生正確使用網(wǎng)絡(luò),指導(dǎo)學(xué)生更好地、更有效地使用各種學(xué)習(xí)資源。

        5 總結(jié)

        研究基于機(jī)器學(xué)習(xí)算法,以經(jīng)過(guò)預(yù)處理的本科生在校期間的相關(guān)數(shù)據(jù)為樣本進(jìn)行模型訓(xùn)練,建立學(xué)習(xí)質(zhì)量和影響因素之間的映射關(guān)系,并就各影響因素對(duì)學(xué)生學(xué)習(xí)質(zhì)量的重要程度進(jìn)行排序。實(shí)驗(yàn)效果顯示,隨機(jī)森林算法的學(xué)習(xí)質(zhì)量預(yù)測(cè)模型預(yù)測(cè)準(zhǔn)確率接近80%。但在學(xué)習(xí)質(zhì)量的影響特征因素選取方面還不全面,未來(lái)仍需繼續(xù)改進(jìn),進(jìn)一步提升模型的分類(lèi)性能。

        猜你喜歡
        本科生森林分類(lèi)
        分類(lèi)算一算
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        哈Q森林
        哈Q森林
        哈Q森林
        哈Q森林
        中醫(yī)藥大學(xué)本科生流行病學(xué)教學(xué)改革初探
        探索如何提高藥學(xué)本科生實(shí)習(xí)的質(zhì)量
        人妻少妇av中文字幕乱码免费| 男女裸交无遮挡啪啪激情试看| 狠狠色噜噜狠狠狠狠888奇禾| 久久亚洲成a人片| 精品国产a毛片久久久av| 亚洲精品国产精品乱码视色| 国产国拍亚洲精品mv在线观看| 99热这里只有精品4| 国产精品久久国产精品久久| 亚洲色图三级在线观看| 激情内射日本一区二区三区| 日本免费一区尤物| 国产目拍亚洲精品二区| 亚洲国产高清精品在线| 久久丫精品国产亚洲av不卡| 国产精品 精品国内自产拍| 国产精品黄色在线观看| 一边做一边说国语对白| 18禁美女裸身无遮挡免费网站 | 边啃奶头边躁狠狠躁| 91精品国产色综合久久不卡蜜| 亚洲中文字幕一二区精品自拍| 国产猛男猛女超爽免费视频| 亚洲国产人在线播放首页| 无码AV无码免费一区二区| 美女视频在线观看网址大全| 亚洲中文字幕成人无码| 国产综合自拍| 亚洲精品综合久久中文字幕| 国产婷婷色一区二区三区| 女人做爰高潮呻吟17分钟| 欧美亚洲日韩国产人成在线播放| 日本一二三四区在线观看| 欧美性猛交xxxx富婆| 最新国产精品亚洲二区| 国产精品国产三级国产an不卡| 国产成人精品999视频| 欧洲色综合| 国产亚洲精品视频在线| 日日摸夜夜添夜夜添高潮喷水| 亚洲欧洲精品成人久久曰影片|