摘要:中國科教事業(yè)飛速進步,大學(xué)生數(shù)量越來越多,高校畢業(yè)生綜合素質(zhì)低、能力不足等問題越來越突出。創(chuàng)建與素質(zhì)教育要求相符合,促進教師發(fā)展、學(xué)生成長以及提高教育教學(xué)質(zhì)量的教育評估體系,是新課程改革中的重要任務(wù)。本研究基于大數(shù)據(jù)決策樹的學(xué)生成績預(yù)測模型,根據(jù)學(xué)生學(xué)習(xí)狀態(tài),間接建立成績預(yù)測系統(tǒng),以解決學(xué)生成績預(yù)測困難、模型復(fù)雜等問題,通過研究發(fā)現(xiàn),基于大數(shù)據(jù)決策樹系統(tǒng)預(yù)測學(xué)生成績精準(zhǔn)率達到94%,對學(xué)生成績的監(jiān)控極為有利,而且也可預(yù)測學(xué)生成績的提升。
關(guān)鍵詞:大數(shù)據(jù);決策樹;學(xué)生成績;預(yù)測模型
近年來,隨著我國高校教學(xué)、學(xué)生與科研等數(shù)據(jù)不斷積累,數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用于各個行業(yè),教育數(shù)據(jù)挖掘也成了越來越多專家學(xué)者的關(guān)注和研究方向。尤其是2017年在武漢召開的第十屆國際教育數(shù)據(jù)挖掘大會,將研究數(shù)字挖掘的熱潮推向新高度。中國科教事業(yè)飛速進步,大學(xué)生數(shù)量越來越多,高校畢業(yè)生綜合素質(zhì)低、能力不足等問題越來越突出,而創(chuàng)建與素質(zhì)教育要求相符合,促進教師發(fā)展、學(xué)生成長以及提高教育教學(xué)質(zhì)量的教育評估體系,是新課程改革中的重要任務(wù)[1]。
我國教育部門頒布的《基礎(chǔ)教育課程改革綱要》中明確提出,應(yīng)創(chuàng)建實現(xiàn)學(xué)生均衡發(fā)展的評估體系,該評估體系既要重點關(guān)注學(xué)生學(xué)業(yè)成績,又要挖掘?qū)W生多方潛能,幫助學(xué)生正確認識自我,創(chuàng)建自信心,從而將評價體系的教育功能充分發(fā)揮出來,使學(xué)生綜合水平得到提升[2]。所以,科技飛速發(fā)展的現(xiàn)階段,高校應(yīng)充分發(fā)揮數(shù)據(jù)挖掘技術(shù)的功能,通過分析預(yù)測學(xué)生成績,創(chuàng)建大數(shù)據(jù)決策樹,對學(xué)生成績的影響因素進行科學(xué)分析,預(yù)測學(xué)生發(fā)展趨勢,幫助教師客觀評價學(xué)生和正確引導(dǎo)學(xué)生,保證學(xué)生實現(xiàn)全面發(fā)展。
一、大數(shù)據(jù)決策樹系統(tǒng)的框架
大數(shù)據(jù)決策樹系統(tǒng)的模塊組成包括數(shù)據(jù)源、數(shù)據(jù)獲取和處理、預(yù)測成績及預(yù)測對象,其中數(shù)據(jù)源主要為輔導(dǎo)員、任課教師、學(xué)生及舍友等與該學(xué)生學(xué)習(xí)成績存在密切相關(guān)性的信息來源。大數(shù)據(jù)決策樹系統(tǒng)基于學(xué)校教學(xué)現(xiàn)狀,選擇和學(xué)生成績有密切關(guān)系的2~3個數(shù)據(jù)源,其中數(shù)據(jù)獲取模塊的功能可以解決快速從數(shù)據(jù)源中獲取高效信息的問題[3]。
信息化時代下,通過互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等相關(guān)信息平臺傳遞信息,是獲取數(shù)據(jù)的重要途徑。數(shù)據(jù)處理模塊的功能是將原始數(shù)據(jù)轉(zhuǎn)變?yōu)槟軌蛑苯虞斎氪髷?shù)據(jù)算法,一般需要基于原始數(shù)據(jù)特性,對數(shù)據(jù)展開標(biāo)準(zhǔn)化、缺失值和異常值的處理,作為大數(shù)據(jù)決策樹系統(tǒng)關(guān)鍵模塊,成績預(yù)測模塊根據(jù)相關(guān)算法和成績模塊預(yù)測學(xué)生的未來成績[4]。成績預(yù)測結(jié)果產(chǎn)生后,需要學(xué)生反思現(xiàn)階段的學(xué)習(xí)狀態(tài),同時向數(shù)據(jù)源處輸出學(xué)生成績,為下次預(yù)測學(xué)習(xí)成績奠定基礎(chǔ),此為預(yù)測對象模塊的重中之重。大數(shù)據(jù)決策樹框架如圖1所示。
二、基于大數(shù)據(jù)決策樹的學(xué)生成績分析與預(yù)測模型設(shè)計
大數(shù)據(jù)決策樹系統(tǒng)有五大模塊,各模塊分析學(xué)生成績與預(yù)測模型設(shè)計如下:
(一)數(shù)據(jù)源、數(shù)據(jù)獲取和預(yù)測對象
以往數(shù)據(jù)源獲取和管理方法沒有與高校網(wǎng)絡(luò)信息平臺發(fā)展現(xiàn)狀相結(jié)合,造成數(shù)據(jù)獲取與反饋效率非常低。為實現(xiàn)信息傳遞效率與準(zhǔn)確率的提升,預(yù)測模型設(shè)計結(jié)合互聯(lián)網(wǎng)信息平臺,設(shè)計信息傳遞模塊,圖2為信息平臺為中心的整體結(jié)構(gòu)示意圖。
現(xiàn)階段,被廣泛用于數(shù)據(jù)處理和人工智能領(lǐng)域的編程語言為Python,大數(shù)據(jù)決策樹系統(tǒng)通過Python語言實現(xiàn),其網(wǎng)絡(luò)信息提交和獲取庫包的功能非常強大,其中包括Httplib、Urllib以及Urllib2,同時還應(yīng)用正則表達和數(shù)據(jù)處理模塊。具體實現(xiàn)過程如下。
連接互聯(lián)網(wǎng)信息平臺,關(guān)鍵函數(shù)為:
HTTPConnection(host[,port[,stict[,timeout]]])
在以上關(guān)鍵函數(shù)中,port代表網(wǎng)絡(luò)信息平臺端口號;host代表網(wǎng)絡(luò)信息平臺對應(yīng)地址信息或者域名;timeout代表超時時間,如果連接時間超時,系統(tǒng)就會發(fā)出信息異常信號[5]。
將相關(guān)數(shù)據(jù)請求發(fā)送至互聯(lián)網(wǎng)信息平臺,關(guān)鍵函數(shù)為:
通過HTTP連接過程中應(yīng)用到的request方式,將數(shù)據(jù)請求發(fā)送至互聯(lián)網(wǎng)信息平臺中,其中M表示的是請求發(fā)送方式,根據(jù)通信協(xié)議自主選擇get與post方式。Address代表資源獲取對應(yīng)地址,最后選擇所需提交至服務(wù)器數(shù)據(jù),兩者均會對通信協(xié)議進行有效安裝,同時選擇對應(yīng)資源地址,這樣就能將數(shù)據(jù)提交給網(wǎng)絡(luò)信息平臺[6]。
對網(wǎng)絡(luò)信息平臺的響應(yīng)獲取函數(shù)為:
HTTP響應(yīng)對象是返回值,所含信息包括獲取響應(yīng)字節(jié)數(shù)據(jù)、頭部數(shù)據(jù)。依照所得響應(yīng)數(shù)據(jù)規(guī)則,能夠?qū)⒃撓到y(tǒng)所需數(shù)據(jù)解析出來。
(二)相關(guān)數(shù)據(jù)處理
大數(shù)據(jù)決策樹系統(tǒng)中,數(shù)據(jù)處理模塊包括處理缺失值、處理離散量和連續(xù)量兩大部分,主要目的在于轉(zhuǎn)換所得原始數(shù)據(jù),利用大數(shù)據(jù)算法對標(biāo)準(zhǔn)數(shù)據(jù)進行有效輸入。
1.處理異常值
近年來,高校互聯(lián)網(wǎng)信息平臺存在逐漸完善的反饋機制與數(shù)據(jù)更新狀態(tài),加之HTTP協(xié)議握手制度,自高校網(wǎng)絡(luò)信息平臺中直接獲取數(shù)據(jù)通常會存在異常值問題,這已并非數(shù)據(jù)準(zhǔn)確率問題,重點是數(shù)據(jù)缺失[7]。對缺失值處理效果進行綜合考慮,通過數(shù)據(jù)統(tǒng)計特性值對大數(shù)據(jù)決策樹系統(tǒng)進行有效處理,依照不同缺失值特性對其統(tǒng)計特性進行選擇,采用Python語言將統(tǒng)計特性關(guān)鍵代碼提取出來,所用庫是科學(xué)計算庫Numpy。
2.處理數(shù)據(jù)量
本次預(yù)測模型設(shè)計所用方法為決策樹算法,所以需要應(yīng)用到離散數(shù)據(jù)量。依照離散狀態(tài),可將離散數(shù)據(jù)劃分為不同類別。在連續(xù)值方面,必須離散化處理,才能實現(xiàn)數(shù)據(jù)區(qū)分度的提升。Python庫內(nèi),通過離散化方式cut( ),以下為具體定義:
cut(D,B,R=False,L=NULL)
在以上定義中,D代表的是一維數(shù)據(jù),R代表分組區(qū)間的閉合與否;B代表的是分割點值;L則表示對應(yīng)分組標(biāo)簽,在對離散化方法進行應(yīng)用過程中,應(yīng)基于B對D進行離散化,同時返回離散化數(shù)據(jù)對象,使數(shù)據(jù)實現(xiàn)連續(xù)離散化目的。
(三)建立成績預(yù)測模塊
當(dāng)前,成績預(yù)測算法主要集中于預(yù)測運動員、體育生的成績,通常成績預(yù)測會對歷史成績與對象狀態(tài)進行預(yù)測,并將最終預(yù)測數(shù)據(jù)直接計算出來,該思路或較低預(yù)測精度,很難滿足實際應(yīng)用需求。如果預(yù)測模型比較復(fù)雜,則有助于提升預(yù)測精度,然而也會出現(xiàn)運算量大、預(yù)測結(jié)果過擬合等問題,這就要提出基于預(yù)測對象分類的成績預(yù)測算法,即不直接預(yù)測學(xué)生的成績,關(guān)鍵在于劃分預(yù)測對象成績變化為各個區(qū)間,對學(xué)生成績變化量進行分類預(yù)測,依照分類結(jié)果,間接預(yù)測學(xué)生成績,預(yù)測流程如圖3所示。
現(xiàn)階段,大數(shù)據(jù)分類算法包括決策樹算法、K-Means、神經(jīng)網(wǎng)絡(luò)以及支持向量機等,相關(guān)研究選擇K-Means算法對花朵授粉和減速箱狀態(tài)進行分類。但是K-Mean算法中,確定K值始終是這一算法的難點。也有研究采用支持向量機理論對手語、表情和暫態(tài)穩(wěn)定故障進行分類,但該算法對缺失數(shù)據(jù)環(huán)節(jié)進行預(yù)測的敏感度較低,也很難解決非線性問題。還有文獻研究,通過神經(jīng)網(wǎng)絡(luò)算法對草地和圖像進行分類,結(jié)果發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)非線性擬合能力非常強,但是神經(jīng)網(wǎng)絡(luò)的參數(shù)比較多,而且存在較大的運算量。
三、基于大數(shù)據(jù)決策樹的學(xué)生成績預(yù)測
本次應(yīng)用大數(shù)據(jù)決策樹中的ID3算法,根據(jù)待分類數(shù)據(jù)內(nèi)各特征信息增益進行決策樹葉子節(jié)點與根節(jié)點構(gòu)造?;诖髷?shù)據(jù)決策樹算法的運算過程如下。
a.計算信息熵,具體計算公式為:
也就是說,各特征概率與概率值自然對數(shù)的和,表征數(shù)據(jù)集有序程度。大數(shù)據(jù)決策樹下的構(gòu)思理念,就是采用最少根節(jié)點,提高數(shù)據(jù)集的有序性。
b.所謂信息熵增益,其實就是某屬性刪除后和該屬性刪除前信息熵的差,大數(shù)據(jù)決策樹要求將信息熵增益屬性最大值當(dāng)作新根節(jié)點,由此就能構(gòu)造大數(shù)據(jù)決策樹。
四、基于大數(shù)據(jù)決策樹學(xué)生成績分析的實驗驗證
選取某高校的175名學(xué)生為研究對象,對其期末考試進行實驗驗證。預(yù)測對象實驗如下:所選特征包括學(xué)生階段心理測評狀態(tài)(Psy)、作業(yè)完成率(Work)、出勤率(Attend)、學(xué)分成績(Cur)、平時成績(Usual)。階段心理測評狀態(tài)屬于離散數(shù)據(jù),其他屬于連續(xù)數(shù)據(jù)。
對五大特征數(shù)據(jù)信息增益進行計算,明確相對應(yīng)決策樹根節(jié)點,將不同特征的信息熵增益計算出來,具體如表1所示。從表1數(shù)據(jù)可知,作業(yè)完成率屬性信息增益較高,將作業(yè)完成率視為第一根節(jié)點,對決策樹進行創(chuàng)建,從五類領(lǐng)域劃分學(xué)生狀態(tài),采用I-V表示。
通過決策樹預(yù)測學(xué)生成績,結(jié)果見表2。
從表2可以看出,模型預(yù)測學(xué)生成績的正確率為94%,可見該體系存在有效性與正確性。
五、結(jié)束語
基于大數(shù)據(jù)決策樹的學(xué)生成績預(yù)測模型,根據(jù)學(xué)生學(xué)習(xí)狀態(tài),為其間接建立成績預(yù)測系統(tǒng),有助于學(xué)生成績預(yù)測困難、模型復(fù)雜等問題的有效解決。研究發(fā)現(xiàn),基于大數(shù)據(jù)決策樹系統(tǒng)預(yù)測學(xué)生成績的準(zhǔn)確率為94%,有助于監(jiān)控高校學(xué)生成績。但該系統(tǒng)也有不足之處,具體在于:人為因素會對學(xué)生成績特征選取產(chǎn)生影響,成績一次性特征增加了數(shù)據(jù)收集難度。
作者單位:孫劍 瀘州職業(yè)技術(shù)學(xué)院四川瀘州
參 ?考 ?文 ?獻
[1]胡柳青,趙剛.基于數(shù)據(jù)挖掘下機器學(xué)習(xí)算法對學(xué)生成績影響因素的研究[J].南昌航空大學(xué)學(xué)報(自然科學(xué)版),2021,35(03):43-48,97.
[2]吳曉倩,權(quán)麗麗,陳誠,等.基于大數(shù)據(jù)決策樹算法的學(xué)生成績分析與預(yù)測模型仿真[J].電子設(shè)計工程,2020,28(24):138-141,146.
[3]蘇錦.數(shù)據(jù)關(guān)聯(lián)分析與挖掘技術(shù)在學(xué)生信息中的應(yīng)用研究[D].廣西大學(xué),2019.
[4]吳強,方睿,韓斌,等.基于決策樹-LMBP神經(jīng)網(wǎng)絡(luò)的學(xué)生成績分析及預(yù)測模型的研究[J].成都信息工程大學(xué)學(xué)報,2018,33(03):274-280.
[5]金詩譜.基于屬性相關(guān)性分析的高校學(xué)生成績分析應(yīng)用研究[J].西安文理學(xué)院學(xué)報(自然科學(xué)版),2018,21(01):30-33.
[6]胡在林.關(guān)聯(lián)規(guī)則和決策樹組合算法在學(xué)生成績分析中的應(yīng)用與研究[D].青島理工大學(xué),2017.
[7]黃炎,王紫玉,黃方亮.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用與研究[J].蘭州文理學(xué)院學(xué)報(自然科學(xué)版),2016,30(03):64-68,78.