亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隨機森林的大學(xué)英語四級通過率預(yù)測模型

2021-06-25 11:10:40袁樂泉朱亞輝

電子測試 2021年4期

袁樂泉，朱亞輝

(陜西學(xué)前師范學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,陜西西安，710100)

0 引言

隨著國際化進程的不斷推進，英語能力已經(jīng)成為衡量高校人才能力的重要指標(biāo)之一，大學(xué)英語四級成績也成為眾多公司招聘的門檻之一。通過預(yù)測大學(xué)英語四級成績，既可以對學(xué)生英語四級成績進行合理化評估，也可以有針對性地向成績高危的學(xué)生進行成績預(yù)警，幫助學(xué)生順利通過大學(xué)英語四級考試。常用的數(shù)據(jù)挖掘模型包括決策樹[1]、貝葉斯網(wǎng)絡(luò)和支持向量機[2]等，雖然能夠?qū)Υ髮W(xué)英語四級成績進行預(yù)測，但它們的預(yù)測準(zhǔn)確率不高。

隨機森林模型具有泛化能力較強、對輸入數(shù)據(jù)誤差的不敏感性、具備分析輸入特征重要度功能等優(yōu)點，具有較強的通用性。近年來，許多學(xué)者[3,4]應(yīng)用隨機森林模型進行預(yù)測，并取得了較高的預(yù)測準(zhǔn)確率。因此，本項目利用隨機森林模型對某學(xué)院大學(xué)生英語四級通過率進行預(yù)測，旨在預(yù)測和識別處于成績高危的學(xué)生，督促其認(rèn)真學(xué)習(xí)英語知識，提高大學(xué)英語四級成績。

1 隨機森林算法簡述

隨機森林是由LeoBreiman[5]提出的一種經(jīng)典的機器學(xué)習(xí)算法，它是由弱模型決策回歸樹（Classification And Regression Tree, CART）結(jié)合裝袋算法(Bagging)和隨機特征子空間(Random Subspace Method, RSM)構(gòu)成。CART既能用于回歸也能用于分類，相應(yīng)的隨機森林也可用于分類和回歸分析，其基本結(jié)構(gòu)如圖1所示[1]。

圖1 隨機森林模型基本結(jié)構(gòu)

構(gòu)建隨機森林的主要步驟大致如下：

（1）boostrap方法隨機抽樣，每個樣本均構(gòu)建一棵決策樹；

（2）每棵決策樹持續(xù)分裂，直到節(jié)點的所有訓(xùn)練樣例都屬于同一類；

（3）構(gòu)建好的多棵決策樹組成隨機森林，用隨機森林分類器對待測試數(shù)據(jù)進行分類。

2 大學(xué)英語四級通過率預(yù)測模型

根據(jù)隨機森林基本原理，采用隨機森林預(yù)測大學(xué)英語四級通過率的模型構(gòu)建基本流程為：

Step 1：特征向量的建立

大學(xué)英語四級通過率主要受到大學(xué)生基本信息（性別、民族、專業(yè)）、高考英語成績、大學(xué)英語成績（共計4學(xué)期）、大學(xué)生課外英語使用情況（英語社交參與、英語APP使用、英文期刊訂閱、英語學(xué)習(xí)資料件數(shù)）等因素的影響。例如：1）女生較男生更適合語言的學(xué)習(xí)，女生英語四級的通過率優(yōu)于男生[6]。表1給出了某院校男、女生英語四級的通過率，從表1可以看出，女生英語四級通過率遠(yuǎn)高于男生；漢族學(xué)生英語四級通過率優(yōu)于少數(shù)民族；文科專業(yè)學(xué)生英語四級通過率優(yōu)于理科專業(yè)學(xué)生；2）從高考成績和大學(xué)英語成績能夠直接反映學(xué)生實際的英語水平；3）除了開設(shè)英語課以外，還需要在課外通過其他方式進行學(xué)習(xí)，例如英語APP使用、是否訂閱英語期刊等。

表1 男女生英語四級通過率[7]

Step 2：采用CART決策樹作為隨機森林中的基分類器。

由k個分類器集合而成的隨機森林模型可以表示為：

其中，T是輸入特征集，hq(T)代表基分類器，每個基分類器是一棵CART決策樹。

基于隨機森林算法的大學(xué)英語四級通過率預(yù)測方法原理如下：

(1）設(shè)置隨機森林模型中基分類器的個數(shù)k，基于boostrap抽樣方法，隨機且有放回地從含有n個訓(xùn)練樣本的數(shù)據(jù)集中抽取n個樣本作為一個子樣本集，重復(fù)k次上述抽樣過程，得到k個子樣本集。

(2）利用CART算法為每個boostrap子樣本集構(gòu)建決策樹?；贑ART算法的決策樹使用基尼指數(shù)作為特征選擇與分裂的衡量標(biāo)準(zhǔn)。

(3）將k棵CART決策樹組成隨機森林，每個樣本包含9個特征，設(shè)定一個常數(shù)m=2，構(gòu)建每棵決策樹時，隨機地從9個特征維度中抽取2個特征作為一個特征子集，決策樹每次從特征子集中選擇最優(yōu)分裂特征，按照基尼指數(shù)最小的原則進行分裂。

(4）k棵CART決策樹按照分類結(jié)果進行投票，投票數(shù)最多的類別作為隨機森林模型的分類結(jié)果。

3 實證分析

本研究從某院數(shù)據(jù)庫中提取1000位本科生的性別（女賦值為1，男賦值為0）、民族（漢族賦值為1，少數(shù)民族賦值為0）、專業(yè)（文科賦值為1，理科賦值為0）、高考英語成績、4個學(xué)期的大學(xué)英語成績、大學(xué)生課外英語使用情況統(tǒng)計數(shù)據(jù)，將它們作為大學(xué)英語四級通過率預(yù)測模型的輸入變量；大學(xué)英語四級通過類別作為分類變量，其中通過類別標(biāo)記為1，沒有通過類別標(biāo)記為0。

基于隨機森林算法的大學(xué)英語四級通過率預(yù)測模型構(gòu)建步驟如下：

Step1：輸入包含特征的樣本數(shù)據(jù)集。輸入經(jīng)過處理的1000個樣本，設(shè)定輸入變量與分類變量。隨機選擇70%的專利樣本作為訓(xùn)練集，30%作為測試集，用于模型預(yù)測效果的檢驗。

Step 2：根據(jù)大學(xué)英語四級通過率預(yù)測模型的輸入變量個數(shù)和分類變量，設(shè)置模型參數(shù)如下：k= 2 ,M= 9 ,m=2，并根據(jù)基尼指數(shù)最小的規(guī)則進行決策樹的分裂，知道直到所有特征全部分裂結(jié)束。

Step3 ：所有的CART決策樹按照分類結(jié)果進行投票，投票數(shù)較多的類別作為隨機森林模型的分類結(jié)果。

為了驗證基于隨機森林算法的大學(xué)英語四級通過率預(yù)測模型的效果，在測試集上計算分類結(jié)果的預(yù)測準(zhǔn)確率、召回率、命中率，結(jié)果如下：預(yù)測準(zhǔn)確率=90%，召回率=89.5%，命中率=93.3%。結(jié)果表明，基于隨機森林算法的大學(xué)英語四級通過率預(yù)測模型具有較好地分類效果，預(yù)測結(jié)果較為準(zhǔn)確。

4 結(jié)束語

本文將隨機森林模型應(yīng)用到大學(xué)英語四級通過率預(yù)測，以學(xué)生基本情況（性別、民族、專業(yè)）、高考英語成績、大學(xué)英語成績（共計4學(xué)期）、大學(xué)生課外英語使用統(tǒng)計數(shù)據(jù)為輸入變量，以通過和未通過作為分類變量，模型預(yù)測準(zhǔn)確率達到90%，召回率達到89.5%,命中率為93.3%，表明基于隨機森林的大學(xué)英語四級通過率預(yù)測模型是有效的。