王淵志
摘 要:隨著數(shù)字化在教育考試領(lǐng)域的不斷推進(jìn),考試成績(jī)數(shù)據(jù)分析已成為考試管理領(lǐng)域的一大課題。本文以寧波市大學(xué)外語(yǔ)等級(jí)考試成績(jī)數(shù)據(jù)為基礎(chǔ),利用決策樹(shù)模型挖掘出影響考試成績(jī)的關(guān)鍵因素,為高校進(jìn)一步提高大學(xué)外語(yǔ)教學(xué)水平提供科學(xué)有效的參考。
關(guān)鍵詞:大學(xué)外語(yǔ)等級(jí)考試;成績(jī);決策樹(shù)
中圖分類(lèi)號(hào):G424.74? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? 文章編號(hào):1674-2346(2022)01-0096-05
1? ? 大學(xué)外語(yǔ)等級(jí)考試成績(jī)分析的意義
大學(xué)外語(yǔ)等級(jí)考試是教育部考試中心負(fù)責(zé)實(shí)施的全國(guó)性的教學(xué)考試,目的在于對(duì)高校學(xué)生實(shí)際外語(yǔ)應(yīng)用能力進(jìn)行客觀、準(zhǔn)確的測(cè)量,這項(xiàng)考試因?yàn)轭}目設(shè)計(jì)科學(xué)合理、考務(wù)流程規(guī)范,在社會(huì)上認(rèn)可度很高,很多用人單位將該考試成績(jī)作為招錄工作人員的重要參考依據(jù)之一。對(duì)學(xué)校而言,考試成績(jī)既直接體現(xiàn)了學(xué)生的學(xué)習(xí)效果,又能評(píng)價(jià)教師日常教學(xué)水平。因此各個(gè)高校對(duì)于大學(xué)外語(yǔ)等級(jí)考試的成績(jī)十分關(guān)注,如何提高大學(xué)外語(yǔ)等級(jí)考試成績(jī),推進(jìn)外語(yǔ)教學(xué),從而提升學(xué)生的實(shí)際外語(yǔ)水平成為眾多高校追求的目標(biāo)。
目前,學(xué)校使用教育部考試中心研發(fā)的大學(xué)外語(yǔ)等級(jí)考試考務(wù)管理系統(tǒng),主要包括報(bào)名信息錄入、照片采集、試場(chǎng)編排、準(zhǔn)考證打印、缺考違紀(jì)數(shù)據(jù)錄入、成績(jī)導(dǎo)入等功能,對(duì)系統(tǒng)數(shù)據(jù)往往停留在查詢、增刪等基礎(chǔ)的應(yīng)用方面,個(gè)別學(xué)校通過(guò)導(dǎo)出到EXCEL功能,進(jìn)行簡(jiǎn)單的成績(jī)統(tǒng)計(jì),得出的結(jié)果往往比較單一,數(shù)據(jù)的價(jià)值沒(méi)有完全被開(kāi)發(fā)。如果把數(shù)據(jù)挖掘技術(shù)應(yīng)用于成績(jī)分析,可以幫助學(xué)校深入了解學(xué)生各項(xiàng)成績(jī)之間的關(guān)聯(lián),找出影響成績(jī)的各項(xiàng)因素,對(duì)于提高教學(xué)質(zhì)量,提升人才培養(yǎng)水平大有幫助。
2? ? 決策樹(shù)分類(lèi)方法介紹
本文采用分類(lèi)方法中的代表-決策樹(shù)算法,嘗試對(duì)影響考試成績(jī)幾個(gè)關(guān)鍵要素進(jìn)行分析。分類(lèi)方法的定義如下:找出同類(lèi)事物共同性質(zhì)的特征性知識(shí)和不同事物之間的差異性特征知識(shí)?;跊Q策樹(shù)的分類(lèi)算法是一種以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,即從一系列無(wú)序無(wú)規(guī)則的元組中推導(dǎo)出分類(lèi)規(guī)則,以樹(shù)的形式呈現(xiàn)。決策樹(shù)采用自頂至下的貪婪算法,在其內(nèi)部結(jié)點(diǎn)選擇分類(lèi)效果最優(yōu)的屬性向下分支,直到這棵樹(shù)能明確地分類(lèi)訓(xùn)練樣本,或所有屬性都被使用。決策樹(shù)中比較著名的是C4.5 算法。通過(guò)這種算法得出的結(jié)論很容易把邏輯上的關(guān)系以一種非常直觀的方法清晰地表達(dá)出來(lái)。對(duì)于判斷因素少、邏輯組合較為簡(jiǎn)單的項(xiàng)目尤為適合。決策樹(shù)尤其擅長(zhǎng)處理非數(shù)值型數(shù)據(jù),數(shù)據(jù)預(yù)處理工作量相對(duì)較少。
采用決策樹(shù)技術(shù)進(jìn)行分類(lèi)包含兩個(gè)步驟:(1)使用訓(xùn)練樣本構(gòu)造并優(yōu)化一棵決策樹(shù),搭建模型。從實(shí)際應(yīng)用上看,這個(gè)過(guò)程就是從樣本中獲取知識(shí),進(jìn)行機(jī)器學(xué)習(xí)的過(guò)程。(2)依靠構(gòu)造完成的決策樹(shù)對(duì)輸入數(shù)據(jù)進(jìn)行分類(lèi)。從根結(jié)點(diǎn)依次判斷輸入記錄的屬性值,直至某個(gè)葉結(jié)點(diǎn)停止,從而找到該記錄對(duì)應(yīng)的類(lèi)。其中建樹(shù)與剪枝環(huán)節(jié)是建立決策樹(shù)模型的關(guān)鍵步驟。
3? ? 決策樹(shù)在大學(xué)英語(yǔ)四級(jí)成績(jī)分析中的應(yīng)用
大學(xué)外語(yǔ)等級(jí)考試的開(kāi)考科目包括英語(yǔ)四級(jí)、英語(yǔ)六級(jí)、日語(yǔ)四級(jí)、日語(yǔ)六級(jí)、法語(yǔ)四級(jí)等。目前全國(guó)每次均有近1000萬(wàn)人參加考試,其中寧波市報(bào)考人數(shù)達(dá)到10萬(wàn)人,在浙江省內(nèi)居首位。報(bào)考人數(shù)最多科目為英語(yǔ)四級(jí),本文主要以2019年下半年寧波市英語(yǔ)四級(jí)考試成績(jī)作為分析樣本。
該樣本包括考試成績(jī)記錄41222條,來(lái)自寧波16所高校。按學(xué)校層次分為重點(diǎn)本科、普通本科、高職??婆c成教四大類(lèi),按專業(yè)類(lèi)別分為理工類(lèi)、醫(yī)藥類(lèi)、人文類(lèi)、經(jīng)管類(lèi)、藝術(shù)體育類(lèi)五大類(lèi)。
本文借助Visual Studio SSDT+SQL Server工具,采用決策樹(shù)算法,對(duì)報(bào)考數(shù)據(jù)中的學(xué)校類(lèi)別、考生專業(yè)、入學(xué)年級(jí)、性別、考生學(xué)歷等項(xiàng)目進(jìn)行挖掘分析,找出關(guān)聯(lián)特征,為高校改進(jìn)教學(xué)安排提供參考。主要包括以下幾個(gè)步驟:(1)對(duì)報(bào)考數(shù)據(jù)進(jìn)行預(yù)數(shù)理,即去除無(wú)關(guān)字段,離散化保留字段;(2)將報(bào)考數(shù)據(jù)分類(lèi)為訓(xùn)練集與測(cè)試集,并通過(guò)SSDT中的決策樹(shù)算法建立挖掘模型;(3)模型準(zhǔn)確率驗(yàn)證。
3.1? ? 數(shù)據(jù)預(yù)處理
為了獲得數(shù)據(jù)挖掘所需的凈化數(shù)據(jù),必須對(duì)海量數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)清理,本文使用SQLSEVER2014軟件實(shí)現(xiàn)。
(1)去除不相關(guān)字段。由于數(shù)據(jù)直接從系統(tǒng)中導(dǎo)出,數(shù)據(jù)整齊,數(shù)據(jù)噪聲情況不存在。但數(shù)據(jù)集合中共有35個(gè)字段,這些字段給挖掘提供了海量的信息,但是如果使用過(guò)多的字段作為輸入值,反而會(huì)使挖掘結(jié)果可讀性下降,影響到最終結(jié)果的獲取和分析,有必要去掉數(shù)據(jù)集中與數(shù)據(jù)挖掘關(guān)系不大的字段,如班級(jí)、班級(jí)名稱、校區(qū)、編排座位等信息,保留了其中專業(yè)名稱、年級(jí)、性別、準(zhǔn)考證號(hào)(標(biāo)志數(shù)據(jù)的主鍵)、總分、缺考、報(bào)名學(xué)校、學(xué)歷名稱等字段供挖掘使用。
(2)所屬學(xué)校歸類(lèi)。16所高校按照學(xué)校層次可分為重點(diǎn)本科、普通本科、高職專科與成教四大類(lèi),將報(bào)名學(xué)校列替換為學(xué)校類(lèi)別。
(3)專業(yè)歸類(lèi)。由于考生就讀專業(yè)較多,不利于數(shù)據(jù)挖掘,根據(jù)專業(yè)性質(zhì)歸為理工類(lèi)、醫(yī)藥類(lèi)、人文類(lèi)、經(jīng)管類(lèi)、藝體類(lèi)5種。
(4)總分離散化處理。由于總分為連續(xù)數(shù)值,不適合決策樹(shù)算法。新增“是否通過(guò)”與“是否優(yōu)秀”字段??偡执笥诘扔?25分,“是否通過(guò)”為真??偡执笥诘扔?50,“是否優(yōu)秀”為真。
3.2? ? 創(chuàng)建挖掘項(xiàng)目
使用 VS2017新建Analysis Service多維數(shù)據(jù)和數(shù)據(jù)挖掘項(xiàng)目,在關(guān)聯(lián)數(shù)據(jù)源后,選取70%的記錄作為訓(xùn)練集,指定挖掘結(jié)構(gòu)為決策樹(shù),采用“準(zhǔn)考證”為主鍵,選擇“學(xué)校類(lèi)別”、“專業(yè)類(lèi)別”、“入學(xué)年級(jí)”、“性別”、“考生學(xué)歷”作為輸入列,選擇“是否缺考”、“是否通過(guò)”、“是否優(yōu)秀”作為可預(yù)測(cè)列,生成通過(guò)率、優(yōu)秀率與實(shí)考率3個(gè)挖掘模型,從而發(fā)現(xiàn)通過(guò)率、優(yōu)秀率、實(shí)考率與輸入字段之間的規(guī)律。
3.3? ? 驗(yàn)證模型準(zhǔn)確性
為了保證模型具有較好的精確度和健壯性,將剩余的30%的數(shù)據(jù)視為測(cè)試集,用來(lái)測(cè)試和驗(yàn)證模型是否準(zhǔn)確。經(jīng)驗(yàn)證,通過(guò)率、優(yōu)秀率、實(shí)考率的測(cè)試結(jié)果預(yù)測(cè)概率超過(guò)80%,說(shuō)明模型結(jié)果真實(shí)可靠。
4? ? 決策樹(shù)分析
由于生成的決策樹(shù)模型對(duì)應(yīng)的規(guī)則較多,且樹(shù)型較大。本文以通過(guò)率、優(yōu)秀率、實(shí)考率為例,從模型中抽取出一些強(qiáng)關(guān)聯(lián)型規(guī)則加以分析。
4.1? ? 通過(guò)率決策樹(shù)分析
部分強(qiáng)關(guān)聯(lián)規(guī)則:
IF 年級(jí)=“19級(jí)” then 通過(guò)率在65%左右
IF 年級(jí)=“19級(jí)”and 學(xué)校類(lèi)別=“重點(diǎn)本科”then 通過(guò)率接近90%
IF 年級(jí)=“19級(jí)”and 學(xué)校類(lèi)別=“重點(diǎn)本科” and 專業(yè)類(lèi)別=“經(jīng)管類(lèi)”then 通過(guò)率超過(guò)97%
IF 年級(jí)=“19級(jí)”and 學(xué)校類(lèi)別<>“重點(diǎn)本科”then 通過(guò)率在60%以上
IF 年級(jí)〈〉“19級(jí)” then 通過(guò)率不到25%
IF 年級(jí)〈〉“19級(jí)”,學(xué)校類(lèi)別<>“重點(diǎn)本科” then 通過(guò)率僅有12%
可以發(fā)現(xiàn),決定大學(xué)英語(yǔ)四級(jí)能否通過(guò)的首要因素是考生的年級(jí)。根據(jù)現(xiàn)行政策,考生第一學(xué)年允許報(bào)考英語(yǔ)四級(jí),因此多數(shù)考生都不會(huì)放棄第一學(xué)年考試的機(jī)會(huì),而且由于剛?cè)雽W(xué),學(xué)習(xí)熱情較高。反觀19級(jí)以前的考生,這些考生大多是重考生,未能在首次考試中一次性通過(guò),一般而言英語(yǔ)基礎(chǔ)不夠扎實(shí),而英語(yǔ)學(xué)科需要長(zhǎng)期積累,基礎(chǔ)不實(shí)的考生往往再次考試通過(guò)率也比較低。
對(duì)于19級(jí)考生,學(xué)校類(lèi)別決定了通過(guò)率。重點(diǎn)本科的通過(guò)率明顯高于其他類(lèi)別的考生。顯然,重點(diǎn)本科的生源素質(zhì)確實(shí)是高于其他層次考生,生源素質(zhì)直接影響了四級(jí)的通過(guò)率,這與日常經(jīng)驗(yàn)得出的判斷是一致的。對(duì)于普通學(xué)??忌詣e因素對(duì)通過(guò)率起了關(guān)鍵的作用,女生的通過(guò)率比男生高出15個(gè)百分點(diǎn)。對(duì)于重點(diǎn)本科學(xué)生,就讀于經(jīng)管與人文專業(yè)的考生的通過(guò)率要高于其他學(xué)科。
4.2? ? 優(yōu)秀率決策樹(shù)分析
部分強(qiáng)關(guān)聯(lián)規(guī)則:
IF 學(xué)校類(lèi)別=“重點(diǎn)本科”then 優(yōu)秀率在30%以上
IF 學(xué)校類(lèi)別=“重點(diǎn)本科”專業(yè)類(lèi)別=“人文”then 優(yōu)秀率在40%以上
IF 學(xué)校類(lèi)別=“重點(diǎn)本科”專業(yè)類(lèi)別=“經(jīng)管”then 優(yōu)秀率在45%以上
決定大學(xué)英語(yǔ)四級(jí)優(yōu)秀率的首要因素是學(xué)校的類(lèi)別。重點(diǎn)本科高校聚集了大批最優(yōu)秀的考生,這類(lèi)考生參加四級(jí)考試優(yōu)秀率自然要遠(yuǎn)遠(yuǎn)高于其他類(lèi)別學(xué)校的考生。其中重點(diǎn)本科高校的考生,修讀人文與經(jīng)管類(lèi)學(xué)科的優(yōu)秀率要高于其他學(xué)科,藝體類(lèi)的考生優(yōu)秀率最低。高職??瓶忌?,受制于生源素質(zhì),優(yōu)秀率很低,只有極個(gè)別的人文學(xué)科考生達(dá)到了優(yōu)秀,而非人文專業(yè)的無(wú)一優(yōu)秀。
4.3? ? 實(shí)考率決策樹(shù)分析
部分強(qiáng)關(guān)聯(lián)規(guī)則:
IF 年級(jí)=“19”then 實(shí)考率在95%以上
IF 年級(jí)=“19” 學(xué)校類(lèi)別〈〉“成教”then 實(shí)考率接近97%
IF 年級(jí)〈〉“19”then 實(shí)考率在 80%以上
IF 年級(jí)=“18”then 實(shí)考率在 85%以上
決定實(shí)考率高低的首要因素還是年級(jí),這與通過(guò)率的首要因素保持一致。19級(jí)的考生,第一次參加考試,往往比較重視這項(xiàng)考試。而19級(jí)前的考生,往往是多次參加考試,其對(duì)考試的重視程度不如19級(jí)的考生,因此缺考人數(shù)明顯增加。對(duì)于19級(jí)的考生而言,成教學(xué)生與其他全日制學(xué)生產(chǎn)生了明顯的差異。成教學(xué)生英語(yǔ)基礎(chǔ)較差,考生自信心不足,無(wú)法認(rèn)真對(duì)待這項(xiàng)考試,因此有一半考生放棄了考試。全日制學(xué)生首次報(bào)名缺考比較少。對(duì)于19級(jí)的全日制學(xué)校的學(xué)生而言,性別依然是決定到實(shí)考率的關(guān)鍵因素,女生的實(shí)考率要比男生高出3個(gè)百分點(diǎn)。
5? ? 結(jié)語(yǔ)
影響通過(guò)率首要因素是考生年級(jí),第一學(xué)年的考生通過(guò)率明顯高于其他年級(jí)。影響優(yōu)秀率首要因素是考生學(xué)校類(lèi)別,重點(diǎn)高校的考生優(yōu)秀率明顯高于其他類(lèi)別。影響實(shí)考率首要因素是考生年級(jí),第一學(xué)年考生的實(shí)考率明顯高于其他年級(jí)。
實(shí)驗(yàn)表明,3個(gè)模型的預(yù)測(cè)準(zhǔn)確率超過(guò)80 %,分析結(jié)果也符合現(xiàn)實(shí)認(rèn)知。當(dāng)然該模型還存在不足,比如對(duì)成績(jī)庫(kù)中相關(guān)字段選取過(guò)程人為因素較大,未采用更為先進(jìn)的算法等,都值得進(jìn)一步研究。
參考文獻(xiàn)
[1]袁樂(lè)泉,朱亞輝.基于隨機(jī)森林的大學(xué)英語(yǔ)四級(jí)通過(guò)率預(yù)測(cè)模型[J].電子測(cè)試,2021(4):54-55.
[2]葉澤俊.基于數(shù)據(jù)挖掘的大學(xué)英語(yǔ)四級(jí)通過(guò)率預(yù)測(cè)建模研究[J].長(zhǎng)春師范大學(xué)學(xué)報(bào),2019(12):8.
[3]欒紅波.數(shù)據(jù)挖掘在大學(xué)英語(yǔ)教學(xué)和測(cè)評(píng)中的研究與應(yīng)用[D].北京:北京郵電大學(xué),2017:22-25.
The Application of Decision Tree in the Analysis of College Foreign Language Test Scores
WANG Yuan-zhi
(Ningbo Education Examinations Authority,Ningbo,Zhejiang 315000,China)
Abstract: With the continuous advancement of digitalization in the field of education examinations,the analysis of examination result data has become a major topic in the field of examination management.Based on the scores data of Ningbo’s College Foreign Language Test,this paper uses the Decision Tree model to dig out the key factors that affect test scores so as to provide scientific and effective reference for colleges and universities to further improve college foreign language teaching.
Key words: College Foreign Language Test;score;Decision Tree