欒紅波+文福安
摘要:“數(shù)據(jù)驅(qū)動學校,分析變革教育”的大數(shù)據(jù)時代已經(jīng)來臨,數(shù)據(jù)挖掘這一技術(shù)在教育行業(yè)隨之誕生。隨著社會對英語的應用日益增加,英語學習日益重要,大數(shù)據(jù)及數(shù)據(jù)挖掘技術(shù)在英語教學與學習中的應用與研究將成為新的發(fā)展趨勢。本研究是基于大學英語技能訓練系統(tǒng)產(chǎn)生的教學數(shù)據(jù)進行的挖掘分析,選取和學生成績相關(guān)的數(shù)據(jù)作為特征,以學生考試成績?yōu)槟繕?,運用GBDT模型進行模型訓練,實現(xiàn)了學生成績的預測,經(jīng)過評估、分析發(fā)現(xiàn)用數(shù)據(jù)挖掘技術(shù)可以比較準確的預估學生成績,驗證了數(shù)據(jù)挖掘技術(shù)在大學英語學習中的應用,以及GBDT模型對結(jié)果預測的影響,對學生學習和教師教學有很大的指導作用和使用價值。
關(guān)鍵詞:數(shù)據(jù)挖掘;大學英語;預測
中圖分類號:TP391.1 文獻標識碼:A DOI:10.3969/j.issn.1003-6970.2016.03.017
0引言
近年來,教育改革一直是社會關(guān)注的重點問題之一。隨著社會的不斷進步,高端科學技術(shù)、產(chǎn)品在社會的各個領域中得到了廣泛應用,使得人們生活質(zhì)量在不斷提高。同樣,教育行業(yè)的教學質(zhì)量也隨之在不斷地提升,教學方法、手段不斷、教學環(huán)境等處于更新?lián)Q代過程中。隨著互聯(lián)網(wǎng)的快速發(fā)展,大數(shù)據(jù)隨之而生,使數(shù)據(jù)挖掘技術(shù)在教育領域中不斷地得到應用,為學校、教師、學生都提供了便利的教學條件,而對于數(shù)據(jù)挖掘技術(shù)在教育領域的應用也受到廣泛的關(guān)注。在英語學習過程中,影響學生學習英語的因素很多,需要對各因素進行綜合分析。在大數(shù)據(jù)時代,如何從大量數(shù)據(jù)中找出有價值的信息并利用這些信息預測未知的或未來值的過程變得愈加重要,數(shù)據(jù)挖掘技術(shù)就是通過構(gòu)建相關(guān)模型,探索信息之間的相關(guān)關(guān)系。
1數(shù)據(jù)挖掘技術(shù)理論
1.1數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘(data mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中提取隱含其中的、事先未知的、但又具有潛在價值的信息和知識過程。數(shù)據(jù)挖掘是一門由多個學科交叉與融合而形成的新興學科,集成了眾多學科中成熟的工具和技術(shù),包括數(shù)據(jù)庫技術(shù)、統(tǒng)計學、機器學習、模式識別、人工智能和神經(jīng)網(wǎng)絡等。
數(shù)據(jù)挖掘的技術(shù)有很多種,按照不同的分類有不同的分類法。一般分為有監(jiān)督算法和無監(jiān)督算法,其中有監(jiān)督算法主要有邏輯回歸、決策樹等,無監(jiān)督學習主要包括聚類、最鄰近距離、支持向量機等。從應用角度上可以分為分類算法、回歸算法、聚類分析算法、關(guān)聯(lián)規(guī)則、時序和偏差檢查算法。
1.2 GBDT算法簡介
決策樹是一個具有樹狀結(jié)構(gòu)的模型,可以看成if-then的規(guī)則結(jié)合,從根節(jié)點開始在每個節(jié)點上按照給定標準選擇測試屬性,然后按照相應屬性的所有可能取值向下建立分枝、劃分訓練樣本,直到一個節(jié)點上的所有樣本都被劃分到同一個類,或者某一節(jié)點中的樣本數(shù)量低于給定值時為止,這一階段最關(guān)鍵的操作是在樹的節(jié)點上選擇最佳劃分方式。最佳劃分結(jié)點方法的選擇標準有信息增益、基尼指數(shù)等。
GBDT的全稱是Gradient Boosting Deeision Tree,其中Gradient Boosting和Deeision Tree是兩個獨立的概念。Boosting是用一些弱分類器的組合來構(gòu)造一個強分類器,GBDT即通過迭代多棵樹來共同決策。其核心就在于每一棵樹都是之前所有樹結(jié)論和的殘差,這個殘差就是一個加預測值后能得真實值的累加量。因此,GBDT是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結(jié)論累加起來做最終結(jié)果。GBDT是一個應用很廣泛的算法。本文主要應用GBDT算法做回歸。
2英語考試成績預測的實現(xiàn)
本研究運用GBDT算法對大學英語技能訓練系統(tǒng)中學生成績進行預測,歷經(jīng)了數(shù)據(jù)提取、數(shù)據(jù)預處理、特征選擇、訓練模型、預測未知數(shù)據(jù)等關(guān)鍵步驟,如圖1。其中,數(shù)據(jù)提取、預處理及特征選擇是處理訓練數(shù)據(jù)集的過程,模型訓練階段及參數(shù)調(diào)整是個不斷優(yōu)化、反復執(zhí)行的過程,直到得到預期的結(jié)果。
2.1數(shù)據(jù)提取和預處理
本研究主要從大學英語技能訓練系統(tǒng)中提取學生信息,分別選取了2013至2014年春、秋季四個學年中一、二年級學生數(shù)據(jù),最終的數(shù)據(jù)文件類型選擇以純文本形式存儲表格數(shù)據(jù)的CSV格式。
數(shù)據(jù)預處理是在數(shù)據(jù)挖掘前的數(shù)據(jù)準備工作,數(shù)據(jù)的好壞是預測結(jié)果好壞的前提條件,其目的是去除與目標不相關(guān)的數(shù)據(jù)屬性和內(nèi)容,為數(shù)據(jù)挖掘提供干凈、準確、更有針對性的數(shù)據(jù),減少挖掘算法的數(shù)據(jù)處理量,提高挖掘效率和最終結(jié)果的準確度。數(shù)據(jù)預處理的方法有很多,主要有數(shù)據(jù)選取、數(shù)據(jù)清理、數(shù)據(jù)屬性取值一致化、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)簡化等。
本次實驗按照上面所述的數(shù)據(jù)預處理規(guī)則進行相應處理,最終得到8000條數(shù)據(jù)作為訓練樣本。
2.2特征選擇
特征選擇是選擇獲得相應模型和算法最好性能的特征集,在數(shù)據(jù)挖掘中占有相當重要的地位。本次研究通過使用scikit-learn的MINE工具計算各個特征與預測目標的相關(guān)性,得到每個特征的相關(guān)性后對所選特征進行排序,經(jīng)過對數(shù)據(jù)各維度進行選取,特征主要分為兩種,一種為數(shù)值型特征,如答題時長、自評分數(shù)等,另一種為類別型特征,如性別、題型等。特征確定后,對每個特征進行編碼,將每個無序特征轉(zhuǎn)化為數(shù)值向量,就是所謂的詞向量模型。變換后的向量長度對于詞典長度,每個詞對應于向量中的一個元素。
本次實驗通過特征處理,確定了對挖掘?qū)W生成績預測比較重要的特征,如學號、姓名、性別、答題時長、題型等18個維度。下表1列出了部分特征及數(shù)據(jù)。
2.3模型訓練
模型訓練是根據(jù)已知數(shù)據(jù)尋找模型參數(shù)的過程,通過給定數(shù)據(jù)和模型假設空間,可以構(gòu)建出優(yōu)化問題,確定相關(guān)參數(shù)使得預測目標最優(yōu)化,即模型訓練的過程是不斷的調(diào)試,直至最優(yōu)。
本次研究使用K-fold交叉驗證法,將數(shù)據(jù)訓練集隨機劃分為訓練和測試兩部分,通過Python語言、seikit-learn及其它相關(guān)第三方庫進行模型訓練。
輸入訓練集,使用GBDT模型,選擇損失函數(shù)、樹的最大深度、最小葉子節(jié)點個數(shù)及其它相關(guān)參數(shù),反復調(diào)整、優(yōu)化參數(shù),使之經(jīng)過數(shù)據(jù)挖掘技術(shù)預測的目標——學生英語成績最接近真實的數(shù)據(jù)。
輸入測試數(shù)據(jù),確定預測的目標是否接近真實英語成績,驗證所選模型及相關(guān)參數(shù)的正確性、合理性。
3預測結(jié)果及分析
本研究采用數(shù)據(jù)挖掘回歸方法GBDT模型,以大學英語技能訓練系統(tǒng)中兩個學年的學生英語考試的相關(guān)數(shù)據(jù)為訓練數(shù)據(jù),在Python及相關(guān)的學習包數(shù)據(jù)挖掘環(huán)境中,通過對相關(guān)屬性的不斷精簡,最終構(gòu)建了大學英語考試學生成績的預測模型,并實現(xiàn)了學生成績的預測,從而得到與學生真實成績比較相近的分數(shù)。該模型以題型、答題時間、自評成績等18個特征最終為GBDT的形成因素,構(gòu)建決策樹6課,最小樣本葉子結(jié)點6個,最大深度為5。下表2為訓練數(shù)據(jù)的部分真實成績與預測成績,其中滿分為50分。
實驗結(jié)果使用MAE(Mean Absolute Error)進行評估,MAE表示預測值與真實值之間的差距,其值越小越好,最終得到所有數(shù)據(jù)集的MAE為0.7,其中79.86%的數(shù)據(jù)誤差為0,即預測的準確度為79.86%。對比真實成績與預測成績曲線圖,發(fā)現(xiàn)兩條曲線很相近,說明預測的分數(shù)很接近真實分數(shù)。
上實驗結(jié)果表明,GBDT模型能夠?qū)Υ髮W英語考試成績進行比較準確預測,通過數(shù)據(jù)挖掘技術(shù),對學生考試成績進行分析評估,提取出各個層次的學生對教學過程中英語知識的掌握程度,進行有針對性的教學。
4結(jié)論
本文用大學英語技能訓練系統(tǒng)中和成績相關(guān)特征的數(shù)據(jù),使用GBDT模型實現(xiàn)了學生成績的預測,通過實驗證明數(shù)據(jù)挖掘技術(shù)在英語成績的預測的準確性、可行性。數(shù)據(jù)挖掘技術(shù)在教育行業(yè)中得到很好的應用,在大數(shù)據(jù)時代,運用數(shù)據(jù)挖掘技術(shù)必將改變教育的傳統(tǒng)面貌。本研究對大學英語成績的預測有助于學生英語學習,以及教師對考試結(jié)果的深入了解。