亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        影響“大學(xué)計(jì)算機(jī)程序設(shè)計(jì)”成績(jī)的高考生信息屬性分析*

        2021-09-24 06:12:40趙亞慧崔榮一趙琳琳
        科技與創(chuàng)新 2021年18期
        關(guān)鍵詞:學(xué)習(xí)成績(jī)森林樣本

        趙亞慧,崔榮一,金 城,趙琳琳,崔 旭

        (延邊大學(xué)工學(xué)院,吉林 延邊朝鮮族自治州133002)

        1 引言

        影響大學(xué)課程學(xué)習(xí)效果的因素很多,而且很復(fù)雜,如何利用歷史數(shù)據(jù)自動(dòng)分析影響學(xué)習(xí)成績(jī)的因素,是提高教學(xué)研究效率的重要工作?!按髮W(xué)計(jì)算機(jī)程序設(shè)計(jì)”課程一般被安排在大學(xué)一年級(jí),而一年級(jí)的課程學(xué)習(xí)成績(jī)會(huì)直接受入學(xué)前各種因素的影響。

        通過(guò)分析高考考生信息和一年級(jí)學(xué)習(xí)成績(jī)的相關(guān)性,發(fā)現(xiàn)影響入學(xué)后學(xué)生學(xué)習(xí)成績(jī)的主要因素,對(duì)教學(xué)設(shè)計(jì)具有十分重要的預(yù)見(jiàn)性?xún)r(jià)值,有利于針對(duì)不同學(xué)生群體合理組織和落實(shí)教學(xué)工作。

        針對(duì)上述問(wèn)題,國(guó)內(nèi)學(xué)者進(jìn)行了相關(guān)研究工作,部分結(jié)果表明:學(xué)生的高考數(shù)學(xué)成績(jī)與學(xué)生入學(xué)后的大學(xué)數(shù)學(xué)專(zhuān)業(yè)課成績(jī)無(wú)顯著相關(guān)性[1];學(xué)生的高考成績(jī)與學(xué)生入學(xué)后的考試成績(jī)呈弱相關(guān)性[2];偏重記憶的文科類(lèi)課程與高考成績(jī)的關(guān)聯(lián)性較大,邏輯推理類(lèi)課程與高考成績(jī)的關(guān)聯(lián)則較弱[3]。這些研究主要是基于統(tǒng)計(jì)方法,對(duì)于沒(méi)有明顯統(tǒng)計(jì)學(xué)規(guī)律的多元復(fù)雜數(shù)據(jù),其效果并不理想。

        本文旨在通過(guò)對(duì)高考考生信息和大學(xué)一年級(jí)程序設(shè)計(jì)課程學(xué)習(xí)成績(jī)相關(guān)性的自動(dòng)分析,發(fā)現(xiàn)影響程序設(shè)計(jì)學(xué)習(xí)成績(jī)的入學(xué)前的主要因素,其主要技術(shù)路線(xiàn)是:利用高考考生數(shù)據(jù)和一年級(jí)程序設(shè)計(jì)期末考試成績(jī)訓(xùn)練隨機(jī)森林機(jī)器學(xué)習(xí)模型[4],建立根據(jù)考生數(shù)據(jù)預(yù)測(cè)一年級(jí)成績(jī)的分類(lèi)器;使用局部可理解的模型無(wú)關(guān)解釋?zhuān)↙ocal interpretable model-agnostic explanations,LIME)技術(shù)對(duì)影響分類(lèi)器的高考考生信息主要特征進(jìn)行相關(guān)性分析,得出主要影響因素。

        2 相關(guān)技術(shù)

        2.1 隨機(jī)森林算法

        利用機(jī)器學(xué)習(xí)方法可以從一類(lèi)數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)規(guī)律,主要分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)[5]。決策樹(shù)是一種廣泛應(yīng)用于現(xiàn)實(shí)領(lǐng)域的樹(shù)狀分類(lèi)器,但當(dāng)數(shù)據(jù)復(fù)雜時(shí)該算法的準(zhǔn)確率較低。為了解決這一問(wèn)題,BREIMAN提出了隨機(jī)森林算法[6-8],該算法具有解釋性好、結(jié)構(gòu)簡(jiǎn)單、計(jì)算開(kāi)銷(xiāo)小等優(yōu)點(diǎn)[9]。

        隨機(jī)森林算法的具體步驟如下。

        輸入:樣本集D={(x1,y1),(x2,y2),…,(xm,ym)}。

        決策樹(shù)迭代次數(shù)為T(mén)。

        輸出:隨機(jī)森林f(x)。

        Step1:fort=1 toT。

        對(duì)訓(xùn)練集進(jìn)行第t次隨機(jī)采樣,共采集m次,由此得到包含m個(gè)樣本的采樣集Dt;用采樣集Dt訓(xùn)練第t個(gè)決策樹(shù)模型Gt(x)。

        Step 2:在形成的T個(gè)決策樹(shù)中,利用投票表決法確定結(jié)果類(lèi)型。

        2.2 局部可理解的模型無(wú)關(guān)解釋?zhuān)↙IME)技術(shù)

        可解釋性是機(jī)器學(xué)習(xí)中尚未得到解決的重要問(wèn)題,一個(gè)機(jī)器學(xué)習(xí)模型是否可解釋決定該模型的終極價(jià)值。如果模型不可解釋?zhuān)瑹o(wú)法相信模型的預(yù)測(cè)結(jié)果是否合理正確。

        LIME是由RIBEIRO等人2016年發(fā)表的開(kāi)源工具,旨在解釋能真實(shí)地反映分類(lèi)器在被預(yù)測(cè)樣本上的行為,而且能解釋任何模型,不需要進(jìn)行模型適配。它是對(duì)不可知模型的局部解釋?zhuān)瑤椭藗兝斫夂徒忉審?fù)雜機(jī)器學(xué)習(xí)模型如何作出決策。該工具可以用于解釋任何分類(lèi)模型,包括隨機(jī)森林、梯度提升樹(shù)、神經(jīng)網(wǎng)絡(luò)等。而且它可以應(yīng)用于多種輸入數(shù)據(jù)中,比如表格數(shù)據(jù)、圖像數(shù)據(jù)或者文本數(shù)據(jù)。

        為了搞清楚哪一部分輸入對(duì)預(yù)測(cè)結(jié)果產(chǎn)生貢獻(xiàn),LIME利用輸入值在其周?chē)鑫⑿_動(dòng),觀察模型的預(yù)測(cè)行為。然后根據(jù)這些擾動(dòng)的數(shù)據(jù)點(diǎn)距離原始數(shù)據(jù)的距離分配權(quán)重,基于它們學(xué)習(xí)得到一個(gè)可解釋的模型和預(yù)測(cè)結(jié)果。

        利用LIME計(jì)算調(diào)整特征屬性貢獻(xiàn)度的基本流程如下:在原始樣本中隨機(jī)替換掉若干特征,以此得到含有噪聲的數(shù)據(jù);計(jì)算模型對(duì)的預(yù)測(cè)值;求出原樣本與生成樣本之間的距離,并將其作為權(quán)重;利用生成樣本、預(yù)測(cè)值和權(quán)重訓(xùn)練一個(gè)簡(jiǎn)單的線(xiàn)性模型g;計(jì)算模型g擬合樣本的結(jié)果與模型預(yù)測(cè)樣本結(jié)果之間的差值,然后根據(jù)差值對(duì)模型進(jìn)行解釋?zhuān)ú钪翟叫?,貢獻(xiàn)度越大)。

        3 基于分類(lèi)的成績(jī)影響因素分析方法

        3.1 數(shù)據(jù)收集與整理

        本文以某大學(xué)計(jì)算機(jī)專(zhuān)業(yè)一年級(jí)“C語(yǔ)言程序設(shè)計(jì)”課程為例,收集2014—2016級(jí)3個(gè)年級(jí)的學(xué)生高考報(bào)名個(gè)人信息,包括高考成績(jī)、學(xué)生生源、民族、考生類(lèi)別和入學(xué)第一年的C語(yǔ)言期末考試成績(jī)。3個(gè)年級(jí)的學(xué)生人數(shù)分別為115人、157人和145人。

        3個(gè)年級(jí)學(xué)生的高考考生信息特征屬性及其分布如表1所示。由表1可知,在性別方面,男生數(shù)量略高于女生;在民族結(jié)構(gòu)方面,漢族學(xué)生占57.2%,少數(shù)民族學(xué)生占42.8%;在考生類(lèi)別方面,城市考生占58.7%;在生源方面,考生主要來(lái)自吉林省,占比49.9%。

        表1 各特征對(duì)模型的貢獻(xiàn)度

        將采集的學(xué)生C語(yǔ)言成績(jī)按分?jǐn)?shù)段分為5類(lèi):100~90(第1類(lèi)),89~80(第2類(lèi)),79~70(第3類(lèi)),69~60(第4類(lèi)),59~0(第5類(lèi))。

        3.2 基于預(yù)測(cè)與模型解釋的主要信息屬性判定

        確定高考考生信息中對(duì)一年級(jí)C語(yǔ)言成績(jī)具有重要影響的信息屬性的過(guò)程分為兩個(gè)部分:建立成績(jī)預(yù)測(cè)模型和解釋模型。

        3.2.1 建立成績(jī)預(yù)測(cè)模型

        這一部分的目標(biāo)是根據(jù)高考考生信息預(yù)測(cè)大學(xué)一年級(jí)時(shí)C語(yǔ)言成績(jī),步驟如下:將整理后的數(shù)據(jù)按9∶1分為訓(xùn)練集和測(cè)試集;利用各年級(jí)的訓(xùn)練集數(shù)據(jù)訓(xùn)練隨機(jī)森林模型,并通過(guò)調(diào)整隨機(jī)森林的參數(shù)得到最優(yōu)的預(yù)測(cè)模型;利用Bootstrap方法從訓(xùn)練集中隨機(jī)抽取多個(gè)訓(xùn)練樣本子集,并對(duì)每個(gè)子集分別進(jìn)行隨機(jī)森林建模;利用測(cè)試集對(duì)各隨機(jī)森林進(jìn)行測(cè)試,并綜合多棵隨機(jī)森林的測(cè)試結(jié)果,以投票方式得出最終的C語(yǔ)言課程成績(jī)預(yù)測(cè)模型。

        3.2.2 模型解釋

        使用LIME工具計(jì)算其對(duì)隨機(jī)森林模型的貢獻(xiàn)度,確定對(duì)C語(yǔ)言成績(jī)影響最大的高考考生信息的屬性,步驟如下:對(duì)數(shù)據(jù)集進(jìn)行擾動(dòng),并獲得基于擾動(dòng)數(shù)據(jù)集的預(yù)測(cè)結(jié)果;根據(jù)新的樣本和目標(biāo)實(shí)例的接近程度對(duì)其進(jìn)行加權(quán);使用擾動(dòng)數(shù)據(jù)集訓(xùn)練加權(quán)的可解釋模型;通過(guò)分析可解釋模型的訓(xùn)練結(jié)果來(lái)分析預(yù)測(cè)模型。

        4 數(shù)據(jù)處理及結(jié)果分析

        利用隨機(jī)森林算法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,為獲取最佳分類(lèi)效果,本文利用實(shí)驗(yàn)確定模型參數(shù),結(jié)果如下:

        根據(jù)表1中的貢獻(xiàn)度結(jié)果,本文將各年級(jí)中排序?yàn)榍?的特征作為最大的相關(guān)性特征。這些特征包括考生生源、民族、總成績(jī)、數(shù)學(xué)成績(jī)和語(yǔ)文成績(jī)5個(gè)特征。在所有特征中任取5種特征,并按不重復(fù)原則組合方案進(jìn)行排列組合,共得到126種組合方式。為驗(yàn)證本文選擇的特征方案為最佳方案,本文對(duì)126種不同的特征組合使用隨機(jī)森林進(jìn)行了訓(xùn)練和測(cè)試,結(jié)果表明,在所有的特征組合方案中,本文提出的特征選擇方案的準(zhǔn)確率最高(68%),是最優(yōu)組合方案。

        在本文提出的特征組合方案中,5種特征與C語(yǔ)言成績(jī)相關(guān)度最大的原因如下:高考總成績(jī)是反映一個(gè)學(xué)生學(xué)習(xí)能力的重要指標(biāo),因此C語(yǔ)言成績(jī)與高考總成績(jī)呈一定相關(guān)性;因少數(shù)民族考生錄取分?jǐn)?shù)標(biāo)準(zhǔn)與漢族考生有差異,且入學(xué)初期會(huì)存在一定的漢語(yǔ)表達(dá)障礙,因此少數(shù)民族學(xué)生在大一初期的學(xué)習(xí)成績(jī)偏低;學(xué)好“計(jì)算機(jī)程序設(shè)計(jì)”課程需要學(xué)生具有較好的邏輯思維能力,而數(shù)學(xué)成績(jī)?cè)谝欢ǔ潭壬夏荏w現(xiàn)一個(gè)學(xué)生的邏輯思維能力,因此數(shù)學(xué)成績(jī)與C語(yǔ)言成績(jī)具有較大的相關(guān)性;語(yǔ)文成績(jī)能夠體現(xiàn)學(xué)生的表達(dá)能力和理解能力,其對(duì)學(xué)習(xí)和理解知識(shí)至關(guān)重要,因此語(yǔ)文成績(jī)與C語(yǔ)言成績(jī)也具有較大的相關(guān)性。

        5 結(jié)論

        本文利用基于隨機(jī)森林算法和LIME解釋工具對(duì)C語(yǔ)言成績(jī)的高考考生信息影響因素進(jìn)行了分析,結(jié)果表明,考生生源、總成績(jī)、民族、數(shù)學(xué)成績(jī)和語(yǔ)文成績(jī)5種特征與C語(yǔ)言成績(jī)的相關(guān)性最高。本文的研究結(jié)果有助于教師根據(jù)新生的實(shí)際情況設(shè)計(jì)出具有針對(duì)性的教學(xué)模式,以提高學(xué)生的學(xué)習(xí)成績(jī)。

        在今后的研究中筆者們將進(jìn)一步擴(kuò)大實(shí)驗(yàn)數(shù)據(jù)以提高擬合模型的能力,同時(shí)引進(jìn)模型解釋領(lǐng)域的新成果,提高判別模型預(yù)測(cè)性能因素的合理性、準(zhǔn)確性,獲得更具普適性的因果證據(jù),為大學(xué)一年級(jí)教學(xué)設(shè)計(jì)提供有價(jià)值的依據(jù)。

        猜你喜歡
        學(xué)習(xí)成績(jī)森林樣本
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        名落孫山
        推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        哈Q森林
        哈Q森林
        哈Q森林
        村企共贏的樣本
        哈Q森林
        大學(xué)生學(xué)習(xí)動(dòng)機(jī)與學(xué)習(xí)成績(jī)的相關(guān)研究
        人間(2015年21期)2015-03-11 15:24:34
        亚洲精品第一页在线观看| 精品人无码一区二区三区| 精品人妻少妇嫩草av无码专区| 香蕉免费一区二区三区| 久久人妻少妇嫩草av蜜桃| 在线观看日本一区二区| 亚洲av日韩av天堂久久不卡| 日韩亚洲精品中文字幕在线观看| 国产l精品国产亚洲区久久| 东京热久久综合久久88| 啪啪视频一区二区三区入囗| 白白色福利视频在线观看| 国产在线观看女主播户外| 久久99精品久久久大学生| 久久精品免视看国产成人| 久久精品人妻一区二区三区| AⅤ无码精品视频| 婷婷开心五月综合基地| 国产一区二区长腿丝袜高跟鞋| 成 人色 网 站 欧美大片在线观看 | 久久尤物AV天堂日日综合| 中文字幕成人乱码亚洲| 久久99天堂av亚洲av| 中文无码日韩欧| 99热这里有免费国产精品| 东京热东京道日韩av| 四虎影在永久在线观看| 国产精品午夜无码av天美传媒| 久久精品熟女不卡av高清| 国产三级国产精品国产专播| 亚洲日韩中文字幕无码一区| 色94色欧美sute亚洲线路二| 久青青草视频手机在线免费观看| 亚洲精选自偷拍一区二| 日本道精品一区二区三区| 国产精品天天看大片特色视频 | 美女露出粉嫩小奶头在视频18禁| 国产精品免费大片| 人妻少妇精品无码系列| 精品人妻av区二区三区| 女女同恋一区二区在线观看|