張偉宏
(福建廣播電視大學(xué)職業(yè)學(xué)院,福建福州,350013)
課堂、考試、師生互動、校園和家校的各種教育活動過程和設(shè)備使用中,只要有教育活動的地方,都會收集到大量數(shù)據(jù)。如何發(fā)現(xiàn)這些數(shù)據(jù)背后的隱藏的大概率規(guī)律以及給出解決方法,才是教育質(zhì)量評價的價值體現(xiàn)。
教育大數(shù)據(jù)分為廣義和狹義,廣義的教育大數(shù)據(jù)泛指所有來源于各種教育活動中所產(chǎn)生的復(fù)雜的、具有多維特征的數(shù)據(jù);而狹義的教育大數(shù)據(jù)是指學(xué)習(xí)者在特定學(xué)習(xí)環(huán)境如學(xué)生管理系統(tǒng)、在線學(xué)習(xí)等平臺下產(chǎn)生的行為數(shù)據(jù)。[1]
教育大數(shù)據(jù)不同以往的數(shù)據(jù)的獨特之處在于,通過對教育教學(xué)活動的數(shù)據(jù)加以分析挖掘,可以對授課等教育過程起到啟發(fā)、調(diào)整的作用。教育大數(shù)據(jù)讓我們從原來宏觀的大課堂教學(xué)到微觀的個體化“培育”,從而實現(xiàn)真正的個性化教育。教學(xué)管理者日常所做的成績分析,僅僅是對學(xué)習(xí)效果的考核和評價。通過對學(xué)生教育大數(shù)據(jù)進行分析、預(yù)測,可為教學(xué)管理者正確認識教學(xué)環(huán)境、教學(xué)方法、教學(xué)手段等教學(xué)相關(guān)因子與成績的關(guān)系,從而促使教學(xué)管理者有目的改進以及有針對性地糾正學(xué)生的不良學(xué)習(xí)行為。
2017年6月25日至28日,第十屆教育數(shù)據(jù)挖掘國際會議在武漢召開,這是EDM大會首次在中國舉行,說明數(shù)據(jù)挖掘?qū)逃淖饔迷趪鴥?nèi)的得到了重視。數(shù)據(jù)挖掘技術(shù)在中國起步雖晚,但是發(fā)展已經(jīng)越來越好,目前數(shù)據(jù)分析挖掘技術(shù)已經(jīng)成功地應(yīng)用于市場營銷和金融業(yè)等領(lǐng)域,但在教育上的應(yīng)用還不廣泛也不完善。隨著科技發(fā)展和教設(shè)的智能化,教育數(shù)據(jù)通過網(wǎng)絡(luò)采集的更加容易,數(shù)據(jù)量迅速增長,這為數(shù)據(jù)分析提供了信息基礎(chǔ)。
尤其是網(wǎng)絡(luò)教學(xué),在網(wǎng)絡(luò)學(xué)習(xí)中可以記錄學(xué)生關(guān)于學(xué)習(xí)行為的各種數(shù)據(jù),如點擊了什么網(wǎng)頁,停留多長時間,哪些是最喜歡的頁面,平均多長時間做一道題花,做題的順序有沒有跳躍,有沒有時間檢查、檢查幾遍、查出幾道錯誤。[2]隨著科學(xué)技術(shù)的發(fā)展,學(xué)校逐漸擁有越來越多的可用的、高質(zhì)量的數(shù)據(jù),就整個教育領(lǐng)域而言,數(shù)據(jù)是海量的。這些數(shù)據(jù)是寶貴的財富,給未來教育帶來更大的可能,但如何進行信息挖掘,則對教育研究者的想象力提出了挑戰(zhàn)。
Bhardwaj和Pal對300名學(xué)生表現(xiàn)進行研究,結(jié)果表明:學(xué)生學(xué)業(yè)成績與學(xué)生在高中的成績、居住位置、教學(xué)媒體的應(yīng)用、母親的教育程度、學(xué)生的其他生活習(xí)慣、家庭年收入和家庭狀況是非常相關(guān)的。[3]舒忠梅和屈瓊斐分別采用逐步回歸、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘技術(shù),分析學(xué)生的學(xué)習(xí)成績的影響因子,結(jié)果表明學(xué)生在學(xué)習(xí)上所花費的時間是影響學(xué)生學(xué)習(xí)成績的主要因素,也驗證了勤能補拙這個道理。黃岡師范學(xué)院熊寬江等選取漢語言文學(xué)專業(yè)2009級某班級學(xué)生的成績記錄,對學(xué)生進行分類,探索學(xué)生的潛在能力。可見越來越多的專家參與教育大數(shù)據(jù)的分析和挖掘行業(yè)中,應(yīng)用方法也更加多樣化。
為達到數(shù)據(jù)挖掘的目標(biāo),將數(shù)據(jù)分析和挖掘技術(shù)基礎(chǔ)上總結(jié)歸納如下五類技術(shù)方法:
1.預(yù)測。預(yù)知事件發(fā)展的可能性能夠綜合考評多個預(yù)測變量推斷被預(yù)測變量,例如,通過對某門課程學(xué)習(xí)中,學(xué)生花費的時間、平時成績情況、對課程態(tài)度等,預(yù)測學(xué)習(xí)者在該門課程的學(xué)習(xí)中取得通過的幾率。[4]
2.聚類。根據(jù)數(shù)據(jù)的特點,通過自然集中距離相近的數(shù)據(jù)點將一個完整的數(shù)據(jù)集劃分成不同的子集或群體,在劃分興趣小組是,通過聚類可以把有相同興趣的學(xué)生歸為一組,通過聚類給予學(xué)生選擇提示,避免的盲目的選擇。
3.關(guān)系挖掘。探索發(fā)現(xiàn)各種變量因子之間的關(guān)系,并對其進行分析以供教育指導(dǎo)使用,例如:探討學(xué)生的各種學(xué)習(xí)活動和學(xué)習(xí)結(jié)果的之間的關(guān)系,從而按照指導(dǎo)意義改進教學(xué)內(nèi)容及教學(xué)手段方法。
4.可視的機器學(xué)習(xí)模式。用一種便于人類理解的方式描述數(shù)據(jù),以便人們能夠快速地判斷和區(qū)分?jǐn)?shù)據(jù)特征,該方法主要以可視化數(shù)據(jù)分析技術(shù)為主,用以改善機器學(xué)習(xí)模型。
5.模式發(fā)現(xiàn)。通過對數(shù)據(jù)項的聚類、數(shù)據(jù)關(guān)系挖掘等過程,構(gòu)建了一種供未來分。析的有效解釋模型。通過這些技術(shù),就能夠通過大數(shù)據(jù)來創(chuàng)建為提高學(xué)習(xí)成績而提供支持的學(xué)習(xí)分析系統(tǒng)。這些技術(shù)將幫助教育工作者在教育過程中及時調(diào)整方法和方式,更加有效地引導(dǎo)學(xué)生朝著個性化的學(xué)習(xí)進程邁進。[4]
數(shù)據(jù)進行分析和挖掘的方法多樣,可以使用可視化數(shù)據(jù)分析工具也可以設(shè)計程序,如工作做常用的EXCEL也可以作為數(shù)據(jù)分析挖掘的工作。筆者在教學(xué)工作中采用計算機相關(guān)技術(shù)對本校學(xué)生的數(shù)據(jù)進行分析和挖掘,以下是兩例應(yīng)用案例。
經(jīng)常需要將WORD和EXCEL文檔數(shù)據(jù)提取合并,并按一定格式輸出。由于原始素材來源不同、格式不同,導(dǎo)致數(shù)據(jù)格式、排版格式上存在著差異。所以在數(shù)據(jù)分析挖掘前需要對數(shù)據(jù)加以清理,統(tǒng)一標(biāo)準(zhǔn)。
表1是學(xué)生名單,表2是學(xué)生畢業(yè)就業(yè)情況表。要求生成畢業(yè)生就業(yè)情況登記表(表3)。
1.原始數(shù)據(jù)存在問題
表1 學(xué)生名單
表2 學(xué)生畢業(yè)就業(yè)情況表
(1)原始數(shù)據(jù)包含三年的畢業(yè)生數(shù)據(jù),將近3000人,數(shù)據(jù)量大。
(2)學(xué)生名單和學(xué)生畢業(yè)就業(yè)情況表數(shù)據(jù)格式不規(guī)范,各部門在表現(xiàn)形式上多樣化。
(3) 數(shù)據(jù)錄入方式多樣導(dǎo)致錯別字多。
2.數(shù)據(jù)清理
(1)規(guī)范原始數(shù)據(jù),確認文字的對齊方式、時間格式、電話格式、籍貫表示、專業(yè)表示等,如:表1中“姬取沖”的電話沒有區(qū)號。
(2)比照兩表姓名、性別,糾正錯字、漏字。如表1“陳詳妹”與表2“陳祥妹”的文字錯誤。
3.設(shè)計程序生成所需報表和圖表
程序中用到的以上兩個表文件:表1是2003級所有班級學(xué)生的詳細資料,一個工作表只包含一個班級,工作表以班級命名,如工作表名031JS1,表示03級計算機一班。表2是2003級所有班級學(xué)生就業(yè)信息,全部在一個工作表中。因為學(xué)號具有唯一性,可以作為兩表的索引。在這里以表1為主文件,表2為輔助文件,先從表1中找出學(xué)號、姓名、性別、班級、出生年月、家庭住址、聯(lián)系電話;然后通過表1中學(xué)號(T_NO)在表2中找出 專業(yè)、畢業(yè)時間、就業(yè)單位、單位電話、就業(yè)時間、就業(yè)單位+工種、單位電話;最后將這些數(shù)據(jù)填充到表5(畢業(yè)生就業(yè)情況登記表),得到以“班級+學(xué)生”命名的畢業(yè)生就業(yè)情況登記表報表。
該例子使用程序設(shè)計的方式分析挖掘數(shù)據(jù)并顯示就業(yè)情況圖表,適合對計算機知識如編程語言、數(shù)據(jù)結(jié)構(gòu)有較深的造詣的專業(yè)人員。
通過挖掘得出的規(guī)則,結(jié)合教育分析、指導(dǎo)教學(xué)工作,提高教學(xué)質(zhì)量。分析的對象為福建鐵路機電學(xué)校的六門專業(yè)的全部專業(yè)課成績數(shù)據(jù),本文以2016-2017 學(xué)年第一學(xué)期所學(xué)的《計算機基礎(chǔ)》為例。計算機基礎(chǔ)上課方式采用的是在多媒體機房,統(tǒng)稱實驗課。分析挖掘數(shù)據(jù)源中學(xué)生的相關(guān)數(shù)據(jù),來判斷哪些因素對學(xué)生的等級考試通過率會造成影響,如性別差別導(dǎo)致學(xué)習(xí)差距,課程興趣導(dǎo)致學(xué)習(xí)差距,平時成績導(dǎo)致學(xué)習(xí)差距,或者幾個因子的組合。
1.確定數(shù)據(jù)來源
程序以筆者設(shè)計的家校通系統(tǒng)數(shù)據(jù)庫為基礎(chǔ)以及學(xué)生的調(diào)查信息經(jīng)過ETL數(shù)據(jù)集成、清理、轉(zhuǎn)換及歸約等轉(zhuǎn)換后生成的。數(shù)據(jù)分成兩部分,60%用來建模,剩下40%用來檢測。本模塊中選擇與成績相關(guān)性較大的性別、計算機基礎(chǔ)平時成績、上機時間三個屬性作為建立學(xué)業(yè)水平測試分類決策樹模型的依據(jù),學(xué)生成績分析基本數(shù)據(jù)示例如表3所示。
數(shù)據(jù)源采用福建鐵路機電學(xué)校2016級所有專業(yè)的500多位學(xué)生成績信息。
(1)表中計算機基礎(chǔ)平時成績分為:一般,良好,優(yōu)秀;
(2)上機時間為計算機實驗課出勤情況,系統(tǒng)經(jīng)過離散化處理后分成:實驗課曠課的為D,實驗課早退遲到的為C,上滿兩節(jié)實驗課的為B,課后仍然上機訓(xùn)練的為A;
(3)分類屬性為:學(xué)業(yè)水平測試>=60 的為“通過”, 學(xué)業(yè)水平測試<60 的為“不通過”。
2.建立決策樹模型
以表3所示的數(shù)據(jù)為數(shù)據(jù)源,應(yīng)用C4.5算法建立決策樹模型,其步驟如下:
表3 學(xué)業(yè)水平考試預(yù)測基本訓(xùn)練集
(1) 對表3中的計算機基礎(chǔ)平時成績、性別、上機時間三個屬性分別計算信息增益率。通過計算得到:Gainiratio(計算機基礎(chǔ)平時成績 )>Gainiratio(上機時間 )>Gainiratio(性別 ) 。
(2)通過(1)的計算結(jié)果可知,“計算機基礎(chǔ)平時成績”屬性具有最高的信息增益,所以其被首先選擇作為根結(jié)點。創(chuàng)建一個根節(jié)點,并根據(jù)“計算機基礎(chǔ)平時成績”屬性的取值將數(shù)據(jù)劃分成“優(yōu)秀”、“良好”、“一般”三個樹的分支,通過該屬性值劃分?jǐn)?shù)據(jù)集合。
(3)對劃分的每個子數(shù)據(jù)集遞歸執(zhí)行(1)(2)。
通過以上步驟,建立如圖1所示的決策樹模型。由于訓(xùn)練數(shù)據(jù)集是來家校通系統(tǒng)中數(shù)據(jù),再經(jīng)過ETL的數(shù)據(jù)集成、清理、轉(zhuǎn)換及歸約等處理轉(zhuǎn)換后,不會存在噪聲數(shù)據(jù),同樣也會消除數(shù)據(jù)空缺等現(xiàn)象,屬于高質(zhì)量的數(shù)據(jù)。
圖1 學(xué)業(yè)水平測試預(yù)測模型
3.生成分類規(guī)則
決策樹的應(yīng)用是能直接從結(jié)果中提取分類規(guī)則,并以IF……THEN的構(gòu)架顯示分類規(guī)則。該規(guī)則表現(xiàn)形式讓用戶容易理解,建模數(shù)據(jù)量的越大,生成的規(guī)則越準(zhǔn)確。由此模塊可得到如下表4的規(guī)則用來判定學(xué)生的學(xué)業(yè)水平測試是否通過。
表4 分類規(guī)則
4. 指導(dǎo)分類教學(xué)
通過對決策樹的分析不難發(fā)現(xiàn),男生通過的概率比女生大,可就算平時成績好的如果上機時間較少的也通不過考試;只要經(jīng)常上機做練習(xí)的學(xué)生,不論男女,就算平時成績一般,通過概率也很大;女生需要更多的上機練習(xí);通過該決策樹將學(xué)生分成通過和不通過兩個類別,對劃分出處于不通過的學(xué)生群體要更加關(guān)注,了解不同的個體差距,真正做的因材施教。
教育數(shù)據(jù)挖掘是應(yīng)用數(shù)據(jù)挖掘技術(shù)從教與學(xué)活動所產(chǎn)生的數(shù)據(jù)中找出具有指導(dǎo)意義信息的過程。數(shù)據(jù)挖掘?qū)⑷娓倪M教育的方方面面,它對于教育領(lǐng)域帶來的將是異于傳統(tǒng)教育的發(fā)展性思維方式,提升教學(xué)效率和教育科學(xué)性,并會帶來終身教育的個性化匹配。數(shù)據(jù)挖掘?qū)W(xué)習(xí)、教學(xué)、科研、管理、決策、就業(yè)、招生等許多方面帶來巨大的影響。大數(shù)據(jù)分析挖掘相關(guān)技術(shù)的出現(xiàn),使得教師更好地理解學(xué)生,合理的選擇恰當(dāng)?shù)慕虒W(xué)方法,這將給教與學(xué)的過程帶來翻天覆地的變革。
表5 XXX學(xué)校畢業(yè)生就業(yè)情況登記表