張新蕾,張春蕾
(1.天津市和平區(qū)勸業(yè)場小學,天津,300041;2.河北工業(yè)大學經(jīng)濟管理學院,天津,300401)
在大數(shù)據(jù)時代的背景之下,教育與信息技術(shù)深度融合衍生出以云計算、大數(shù)據(jù)處理、機器學習等新手段為載體的數(shù)據(jù)驅(qū)動教學模式,引領(lǐng)教育走向“互聯(lián)網(wǎng)+”的個性化新時代。在海量的教育大數(shù)據(jù)中,無論是學習者還是教育者,普遍關(guān)注的是學生的學業(yè)等級評價。這不僅是評估教育者教學質(zhì)量的重要指標,而且是評價學習者綜合素養(yǎng)的重要依據(jù)。在素質(zhì)教育理念的引領(lǐng)下,成績雖然不再是衡量學生綜合素質(zhì)的唯一因素,但它仍然是當下學業(yè)等級評價中較為重要的參考依據(jù)。因此,挖掘影響學生成績的重要因素顯得尤為迫切。本研究對天津市某地區(qū)1000名小學五年級學生閱讀學習的相關(guān)數(shù)據(jù)進行分析,挖掘影響學生學業(yè)發(fā)展的重要因素。
許多研究者利用多種技術(shù)手段,從不同學段、不同學科切入,挖掘影響學生成績的因素并進行相關(guān)性分析。例如,易芳等人對中小學生學習成績主要影響因素進行元分析,結(jié)果顯示在學生的個人因素中,學習動機、自我效能感與學習成績的關(guān)聯(lián)度最高。[1]楊建奇等人對影響學生成績的因素進行相關(guān)性和方差分析后得出,家庭因素、網(wǎng)絡(luò)接觸、早戀均能影響學生成績。[2]
隨著機器學習技術(shù)的發(fā)展,諸多學者開始借助數(shù)據(jù)處理技術(shù)挖掘影響學生成績的因素,并對學生的學習成績進行預測分析。例如,吳青等人運用決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)和支持向量機(SVM),分別構(gòu)造了不同的學習成績預測模型,比較得出基于貝葉斯網(wǎng)絡(luò)的成績預測模型具有較好的分類性能,自主學習行為是高校學員在線學習成績的直接影響因素。[3]謝娟英等人利用密度全局K-means 算法對UCI機器學習庫中葡萄牙兩所學校的學生成績數(shù)據(jù)集和我國蒲城縣第三高級中學學生成績數(shù)據(jù)集進行聚類、關(guān)聯(lián)、成績預測分析后得出,父母的陪伴、母親受教育程度、學習態(tài)度直接影響學生成績。[4]
隨機森林(Random Forest)是近年來新興的一種機器學習算法,它以決策樹為基分類器,采用Bootstrap方法從原始訓練樣本集中有放回地抽取多個訓練樣本集,以實現(xiàn)樣本的隨機選取,并將抽取的多個樣本集生成不同決策樹以形成隨機森林。[5]在決策樹的生長過程中,特征選擇采用隨機的方式分裂每一個節(jié)點,保證了特征屬性的隨機選擇。這樣生成的多棵決策樹組合在一起就形成隨機森林,最終對所有的決策數(shù)據(jù)進行投票,投票數(shù)最多的作為隨機森林算法的最終輸出結(jié)果。
為了提高預測模型的性能和預測精度,部分學者采用了集合多個分類器處理數(shù)據(jù)的隨機森林算法。何韻竹等人利用高校大學生成績數(shù)據(jù)集,對幾類經(jīng)典的數(shù)據(jù)挖掘算法進行研究,表明隨機森林算法具有較高的分類性能,能分析出影響學生綜合學習效果的重要因素。[5]王岳卿利用多元線性回歸、支持向量機和隨機森林算法,從家庭因素方面對學習葡萄牙語的學生成績進行預測并構(gòu)建模型,對比得出隨機森林算法具有較強的預測性。[6]顧金池利用多元線性回歸、決策樹模型以及隨機森林算法建立學生成績預測模型,表明學生學習時間、母親受教育程度成為影響大學成績最主要的兩個因素。[7]
基于上述研究可知,運用機器學習的數(shù)據(jù)處理技術(shù)預測學生成績,并對影響成績的因素進行挖掘和分析,已受到研究者關(guān)注。但現(xiàn)有研究也反映了數(shù)據(jù)處理技術(shù)預測學生成績的局限性。從研究內(nèi)容看,數(shù)據(jù)較多源于中高等教育,缺少對基礎(chǔ)教育領(lǐng)域的調(diào)查和研究,而且著重從學生、學校、家庭、社會等較為宏觀層面分析影響因素,缺少對學習者自身機制的挖掘。從研究方法看,部分學者多采用決策樹、神經(jīng)網(wǎng)絡(luò)等單一分類器建立成績預測模型,而單一分類器的性能和預測精度易受參數(shù)影響,具有不穩(wěn)定性。還有學者雖然綜合介紹了多種數(shù)據(jù)處理算法,但其研究中對各模型運行環(huán)境和具體運行過程涉及較少,導致數(shù)據(jù)處理算法的可操作性不強,推廣較少。
對此,本研究運用隨機森林算法對小學五年級學生的閱讀、學習等方面的數(shù)據(jù)及期末語文成績數(shù)據(jù)進行分析,構(gòu)建學生語文成績等級預測模型,并根據(jù)特征重要性排序分析影響學生語文成績的重要因素。
本研究通過問卷調(diào)查和現(xiàn)場訪談,收集了天津市某地區(qū)1000名小學五年級學生的相關(guān)數(shù)據(jù),經(jīng)過數(shù)據(jù)預處理,保留有效數(shù)據(jù)960條,每條數(shù)據(jù)記錄包括學生的基本情況(性別、家庭所在地、是否獨生子女、父/母親的學歷、父/母親每天的陪伴時長)、閱讀情況(是否喜歡閱讀、每天閱讀時長、每周閱讀量、閱讀時是否邊讀邊做標記、父母對閱讀是否了解/支持、教師是否指導閱讀方法等)、學習及課余(是否想上大學、課上聽講狀態(tài)、課前預習情況、作業(yè)完成情況、寫作業(yè)前復習情況、每周娛樂游戲時長、每周鍛煉時長等)共計28個特征屬性和0(優(yōu)秀)、1(良好)、2(合格)、3(不合格)共計4個成績類別屬性。
數(shù)據(jù)預處理,即對原始數(shù)據(jù)中的缺失值、重復值、異常值進行刪除,對性別、家庭類別、是否獨生子等屬性數(shù)據(jù)進行量化,對學生成績數(shù)據(jù)進行離散化。為了避免各維屬性間因取值范圍的差異對模型訓練造成影響,本研究還對數(shù)據(jù)進行標準化處理。
預測模型構(gòu)建,即采用隨機森林算法構(gòu)建學生成績的預測模型,對學生語文成績進行預測。隨后,本研究利用隨機森林算法中的Gini指數(shù)對特征重要性進行排序,挖掘影響學生學業(yè)發(fā)展的重要因素。
隨機森林是一種靈活、簡易、實用性較強的機器學習算法,在樣本集和特征集上兩次引入隨機性,使算法具有較好的抗噪能力。同時,隨機森林算法能夠通過Gini值實現(xiàn)對特征重要性的排序,從而為特征的選擇和分析提供依據(jù)。[8]
本研究借助python的工具包scikit-learn(sklearn)完成實驗,通過對數(shù)據(jù)的預處理,得到學生成績有效數(shù)據(jù)960條。然后,本研究將70%的數(shù)據(jù)用于訓練模型,30%的數(shù)據(jù)用于后續(xù)測試,具體建立過程如下。[9]第一,導入算法模塊,即導入sklearn包中隨機森林算法建模所需模塊。第二,實例化模型類并設(shè)置模型參數(shù)。第三,創(chuàng)建數(shù)據(jù),即導入預處理的特征集(X)與類別標簽(Y),分割訓練集與測試集。其中,X包含0—27共28個屬性,Y包含0—3共4個類別。本研究利用train_test_split()函數(shù)將數(shù)據(jù)劃分為訓練集與測試集,其中,test_size劃分比例設(shè)為0.3,即70%的樣本作為訓練集,其余30%的樣本作為測試集用于后續(xù)測試。第四,模型建立與訓練。
基于上述的隨機森林算法的預測模型,本研究用70%的數(shù)據(jù)集完成參數(shù)調(diào)優(yōu)和模型訓練,用30%的測試數(shù)據(jù)集進行測試。實驗結(jié)果顯示,該模型的預測準確率為88.89%,能較好地實現(xiàn)對五年級學生期末語文成績等級評價的預測。
1.不同類別的學生在各項特征的重要性分布
實驗結(jié)果表明,基于隨機森林算法的成績預測模型達到了較高的預測精度,可以為學生提供學業(yè)預警,增強教師對學生學習的規(guī)劃和指導。依據(jù)模型的預測結(jié)果,將模型中Gini指數(shù)各變量重要性的得分情況進行可視化后發(fā)現(xiàn),屬性12、13、19、21、22等的重要性排名靠前,屬性0、1、2、14、27等的重要性排名靠后。各類特征變量的重要性分布如圖1所示,據(jù)此可以找出影響小學生語文成績的重要因素。
如圖1所示,重要性排名靠前的是屬性12、13、19、21、22,分別對應(yīng)父母對閱讀是否支持、每周閱讀量、課上聽講狀態(tài)、作業(yè)完成情況、寫作業(yè)前復習情況。其中,每周閱讀量(屬性13)是影響學生語文成績最為重要的因素。屬性3、8、9、18、26等的重要性分值緊隨其后,說明母親的學歷、每天閱讀時長、對閱讀能否幫助提高語文成績的認知、是否想上大學、每周鍛煉時長等對語文成績存在一定影響。屬性10、16、23、24、27等對語文成績的影響不大,即學生閱讀時是否邊讀邊做標記、教師是否指導閱讀方法、學生課后寫作業(yè)時長及每周課外補習班時長和每周缺勤時長等與語文學習成績的關(guān)聯(lián)較弱。而屬性0、1、15等的重要性分值相對較低,說明性別、家庭所在地、教師是否布置閱讀任務(wù)等對成績的影響微弱。
圖1 影響小學生語文成績的各項特征重要性分布圖
分析可知,影響小學生語文成績的因素不僅有學生自身因素,而且有家庭因素。值得注意的是,在眾多因素中,學生每周閱讀量及父母對閱讀是否支持成為影響成績的兩個極為重要因素。這一發(fā)現(xiàn)在幫助教師和家長關(guān)注學生的課上和課后學習情況的同時,還可以引導教師和家長加強對學生閱讀情況的關(guān)注,也為教育研究者制訂下一步的教學規(guī)劃提供新思路。
2.重要特征排序
為進一步發(fā)掘影響學生成績關(guān)鍵因素,根據(jù)Gini指數(shù)得到的特征重要性分值,本研究提取了分值排名前8個重要屬性,其重要性排序如圖2所示。不同成績類別的學生在重要特征的屬性值如圖3所示。
圖2 影響學習成績的重要特征排序圖
圖3 不同成績類別學生重要特征屬性值分布圖
在圖2、圖3中,屬性13表示每周閱讀量,屬性12表示父母對閱讀是否支持,屬性22表示寫作業(yè)前復習情況,屬性19表示課上聽講狀態(tài),屬性21表示作業(yè)完成情況,屬性18表示是否想上大學,屬性3表示母親的學歷,屬性9表示閱讀能否幫助提高語文成績。由此分析得出,語文成績的影響因素如下。
一是閱讀活動的影響。在影響學生成績的特征變量中,屬性13排在首位,其次是屬性12。由此看來,閱讀已經(jīng)成為影響學生語文成績的首要因素。隨著教育改革不斷深化,尤其是統(tǒng)編版教材的廣泛使用,閱讀變得更為重要。從屬性9的排序看,學生已經(jīng)意識到閱讀的重要性,但閱讀實踐還需要一個過程。從重要特征的屬性分布圖可知,成績優(yōu)秀的學生的閱讀量均值遠遠高于其他三類學生,四個類別的學生在屬性12上呈現(xiàn)出梯度性。由此可以看出,父母越支持孩子閱讀,孩子的語文成績越高,側(cè)面反映出家庭環(huán)境對閱讀的重要作用。這也說明了廣泛開展中小學生閱讀活動的重要性。學生多讀經(jīng)典、原著,才能在系統(tǒng)閱讀、大量閱讀、深層次閱讀中發(fā)現(xiàn)問題、思考問題、提升素養(yǎng)、增長知識見識。[10]
二是學習活動的影響。屬性22、19、21被普遍認為是影響語文成績的因素,但與屬性19、21相比,屬性22略勝一籌。這充分說明了,作為學習內(nèi)容輸入的過程和學習結(jié)果輸出的過程,課上聽講狀態(tài)和作業(yè)完成情況跟學生的學習成績有關(guān),但寫作業(yè)前復習情況影響著輸入與輸出間的內(nèi)化吸收。在內(nèi)化吸收過程中,學生通過不斷加工整理知識框架,在腦海中形成知識圖譜,進而呈現(xiàn)在作業(yè)上。從屬性22的屬性值來看,四個類別的學生存在明顯的差異,成績優(yōu)秀和成績良好的學生課后復習情況遠遠優(yōu)于其他兩類學生,但所有學生課后復習的整體情況不容樂觀。這提醒教育工作者務(wù)必關(guān)注學生學習后的復習情況,引導學生對已學知識進行內(nèi)化吸收。
三是學習動機的影響。除閱讀活動和學習活動外,屬性18也成為影響學生成績的重要因素。這說明學生的學習不僅要有實際的行動,而且要有強烈的學習主觀愿望和學習動機。因為強烈的愿望和動機能夠促使學生端正學習態(tài)度,提高學習積極性,進而收獲良好的學習效果。如圖3所示,學習目標明確和學習動力較強的學生更容易獲得較高的成績等級。這進一步明確了,教育工作者需加強對學生學習態(tài)度和正向價值觀的引領(lǐng),通過良好學習態(tài)度和積極價值觀的引領(lǐng),幫助學生形成正向?qū)W習力,激發(fā)學生學習興趣。
四是家庭環(huán)境的影響。在影響學生成績的前八項特征中,除了學生自身的因素,家庭環(huán)境因素對學生成績也有一定影響。屬性3反映了母親受教育程度對學生成績的影響,屬性12從側(cè)面反映出家庭環(huán)境通過影響學生閱讀情況進而對學生成績產(chǎn)生影響。從圖3得出,成績優(yōu)秀/良好學生的屬性3、12的屬性值均高于其他兩類學生。由此可見,良好的家庭環(huán)境和氛圍能為學生提供更好的學習環(huán)境,為學生健康快樂地學習成長保駕護航。因此,家長要注重家庭、注重家教、注重家風,自覺成為立德樹人的有生力量。[10]
本研究運用隨機森林算法構(gòu)建出學生成績預測模型,并對收集到的有效數(shù)據(jù)進行實驗分析。實驗結(jié)果顯示,該預測模型具有較高的預測準確率和精度,有助于實現(xiàn)對學生的學業(yè)預測,能夠幫助教師及時提醒幫扶成績相對落后學生取得學業(yè)的進步。本研究還運用模型中的Gini指數(shù)找出影響學生成績的因素,其中小學生的每周閱讀量對其語文成績的影響最大,即學生閱讀活動與語文成績的關(guān)系最為密切。這不僅為教育工作者制訂未來教學規(guī)劃、加強學校管理提供了參考和依據(jù),而且為因材施教提供了有效途徑,同時為家長如何做好家庭教育指明了方向,為倡導全民閱讀、構(gòu)建書香校園、推進語文教學的變革發(fā)展提供理論支撐。