謝光敏,羅光明,趙文杰,郭 妍
(四川水利職業(yè)技術(shù)學(xué)院信息工程學(xué)院,成都 610039)
隨著信息技術(shù)的不斷發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)悄然來(lái)臨,人們將進(jìn)入全新的生活,適應(yīng)新的工作環(huán)境。2015 年國(guó)務(wù)院發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,明確了數(shù)據(jù)已成為國(guó)家基礎(chǔ)性戰(zhàn)略資源,要求抓住數(shù)據(jù)發(fā)展的機(jī)遇,有效推動(dòng)科技、文化、教育等領(lǐng)域的發(fā)展[1]。高校作為集教學(xué)、科研、實(shí)踐、育人、管理為一體的綜合場(chǎng)所,在高校開展各項(xiàng)育人工作中會(huì)產(chǎn)生海量的數(shù)據(jù),但絕大部分?jǐn)?shù)據(jù)沒(méi)有得到充分的利用,導(dǎo)致許多問(wèn)題無(wú)法解決。比如,學(xué)生學(xué)習(xí)效率不高、專業(yè)匹配度不高、就業(yè)率低等。因此,急需利用大數(shù)據(jù)技術(shù)來(lái)解決高校面臨的問(wèn)題。
本文根據(jù)每個(gè)學(xué)生的能力水平、學(xué)習(xí)興趣、學(xué)習(xí)風(fēng)格等數(shù)據(jù),采用個(gè)性化的教學(xué)策略,讓每個(gè)學(xué)生得到最適合自己的教育方式,提高學(xué)生學(xué)習(xí)效率。也可以根據(jù)學(xué)生學(xué)習(xí)情況、考試成績(jī)、社會(huì)實(shí)踐,結(jié)合就業(yè)形勢(shì)來(lái)提高學(xué)生精準(zhǔn)就業(yè)率,真正實(shí)現(xiàn)高校育人精準(zhǔn)化。
大數(shù)據(jù)網(wǎng)絡(luò)育人平臺(tái)是一款能夠全面統(tǒng)籌科研、文化、課程、實(shí)踐、網(wǎng)絡(luò)各領(lǐng)域的育人資源和育人能量,實(shí)現(xiàn)高校育人工作互聯(lián)互通,協(xié)同協(xié)作的“新”平臺(tái)。當(dāng)今社會(huì),大數(shù)據(jù)技術(shù)已經(jīng)成為人們邁向信息化、數(shù)字化必不可少的核心力量。本平臺(tái)通過(guò)數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)分析、數(shù)據(jù)可視化等技術(shù)[2]實(shí)現(xiàn)一個(gè)全方位的育人平臺(tái)。總體技術(shù)框圖如圖1所示。
圖1 大數(shù)據(jù)育人系統(tǒng)技術(shù)框圖
本文采用的數(shù)據(jù)采集工具為Kettle[3],其可以采集本地?cái)?shù)據(jù)、單機(jī)數(shù)據(jù)庫(kù)數(shù)據(jù)、網(wǎng)頁(yè)數(shù)據(jù),進(jìn)行多源異構(gòu)數(shù)據(jù)整合,得到一個(gè)更加完整的數(shù)據(jù);與此同時(shí),也能使后續(xù)的數(shù)據(jù)分析結(jié)果更加可靠,提高數(shù)據(jù)的價(jià)值,解決數(shù)據(jù)孤島問(wèn)題。通過(guò)Kettle采集到完整的數(shù)據(jù),數(shù)據(jù)中可能存在缺失值、重復(fù)值、異常值。針對(duì)存在的問(wèn)題,采用Python 語(yǔ)言,結(jié)合Pandas和Numpy庫(kù),來(lái)完成數(shù)據(jù)清洗,從而去除錯(cuò)誤、不準(zhǔn)確和不完整的數(shù)據(jù),提高數(shù)據(jù)處理效率和數(shù)據(jù)準(zhǔn)確性。對(duì)于清洗后的數(shù)據(jù),我們可以采用聚類分析、關(guān)聯(lián)規(guī)則挖掘、異常檢測(cè)、特征提取、預(yù)測(cè)分析等方法來(lái)最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。最后通過(guò)圖形或圖表等可視化方式進(jìn)行展示,以便于幫助數(shù)據(jù)分析者更好地發(fā)現(xiàn)數(shù)據(jù)中存在的規(guī)律和關(guān)系,加強(qiáng)對(duì)數(shù)據(jù)的理解。
常用的數(shù)據(jù)采集方法有網(wǎng)絡(luò)爬取、Kettle 工具采集。平臺(tái)主要用于學(xué)校育人管理,所以采用內(nèi)網(wǎng)模式部署,因此網(wǎng)絡(luò)爬取的方式不適用于本平臺(tái)。由于數(shù)據(jù)是由學(xué)校官方提供,一般為文本數(shù)據(jù)(比如excel,csv文件)和數(shù)據(jù)庫(kù)數(shù)據(jù)(比如教務(wù)系統(tǒng)、財(cái)務(wù)系統(tǒng)、科研系統(tǒng)等信息化平臺(tái))。因此,本文采用Kettle作為數(shù)據(jù)采集工具。
Kettle采集工具是由UI層、核心層和數(shù)據(jù)源層三部分組成,其中UI層由工作區(qū)、轉(zhuǎn)化/步驟控件、資源庫(kù)、作業(yè)控件和流程控制控件五部分組成。核心層的核心組件由作業(yè)(Job),轉(zhuǎn)換(Transform)和步驟(Step)三部分構(gòu)成??梢灾С諮DBC/JNDI,LDAP,VFS,F(xiàn)TP,Mail,HTTP,WebService,SOAP 等格式的文件。數(shù)據(jù)源層則是由數(shù)據(jù)庫(kù)、文件系統(tǒng)、LDAP 對(duì)象和應(yīng)用服務(wù)器組成,整個(gè)模型架構(gòu)如圖2所示。
圖2 kettle工具模型架構(gòu)
一般在以下三種情況下采集的數(shù)據(jù)需要進(jìn)行數(shù)據(jù)清洗:第一種情況是數(shù)據(jù)存在缺失;第二種情況是數(shù)據(jù)存在重復(fù)或冗余;第三種情況是數(shù)據(jù)存在極端值或異常值。
1.3.1 數(shù)據(jù)清洗判定
數(shù)據(jù)存在缺失值的情況,可以通過(guò)熱流圖判定、info 方法判定、apply 方法統(tǒng)計(jì)缺失值等方式進(jìn)行缺失值判定。數(shù)據(jù)存在重復(fù)或冗余,通過(guò)唯一標(biāo)識(shí)符、數(shù)據(jù)哈希值進(jìn)行重復(fù)值判定。數(shù)據(jù)存在異常值,通過(guò)均值標(biāo)準(zhǔn)差、上下四中位數(shù)中位差方式進(jìn)行異常值判定。清洗方法判定如圖3所示。
圖3 數(shù)據(jù)清洗判定
1.3.2 數(shù)據(jù)清洗方法
數(shù)據(jù)存在缺失值可通過(guò)刪除法、填充法處理;數(shù)據(jù)存在重復(fù)值采用刪除法;數(shù)據(jù)存在異常值采用刪除、重寫等方法進(jìn)行處理。清洗方法如圖4所示。
圖4 數(shù)據(jù)清洗方法
本文以提高學(xué)生學(xué)習(xí)效率為例,首先需要采集學(xué)生的學(xué)習(xí)數(shù)據(jù),主要包括課堂表現(xiàn)、作業(yè)完成情況、考試成績(jī)、在線學(xué)習(xí)情況、課外活動(dòng)情況、圖書館進(jìn)出及圖書借閱數(shù)據(jù)等。學(xué)習(xí)數(shù)據(jù)需要經(jīng)過(guò)預(yù)處理,包括數(shù)據(jù)清洗、特征選擇和數(shù)據(jù)歸一化等。
通過(guò)對(duì)學(xué)習(xí)數(shù)據(jù)進(jìn)行挖掘,分析出學(xué)生的學(xué)習(xí)模式、難點(diǎn)和瓶頸,以及學(xué)習(xí)進(jìn)度和效果等。數(shù)據(jù)挖掘過(guò)程大致分為如下步驟:
(1)聚類分析:通過(guò)聚類分析算法,將學(xué)習(xí)數(shù)據(jù)分為不同的類,從而識(shí)別出不同的學(xué)習(xí)模式和趨勢(shì)。例如,可以使用K-means算法[4]將學(xué)生分為優(yōu)等生、中等生和差等生等不同的人群。
(2)關(guān)聯(lián)規(guī)則挖掘:通過(guò)關(guān)聯(lián)規(guī)則挖掘算法,找出學(xué)習(xí)數(shù)據(jù)之間的關(guān)聯(lián)性,從而發(fā)現(xiàn)學(xué)習(xí)對(duì)象之間的聯(lián)系和規(guī)則。例如,可以發(fā)現(xiàn)不同課程之間的關(guān)聯(lián)性,從而為學(xué)生提供交叉學(xué)科的學(xué)習(xí)建議和資源。
(3)異常檢測(cè):通過(guò)異常檢測(cè)算法,識(shí)別和學(xué)習(xí)數(shù)據(jù)中的異常行為和趨勢(shì),從而發(fā)現(xiàn)學(xué)生的學(xué)習(xí)異常行為和需求。例如,可以檢測(cè)出學(xué)生的異常成績(jī)和行為,及時(shí)發(fā)現(xiàn)學(xué)生的學(xué)習(xí)問(wèn)題和需求。
(4)特征提?。和ㄟ^(guò)特征提取算法,從學(xué)習(xí)數(shù)據(jù)中提取有用的特征,從而更好地理解學(xué)生的學(xué)習(xí)行為和需求。例如,可以提取學(xué)生的學(xué)習(xí)時(shí)間、學(xué)習(xí)頻率、作業(yè)完成情況等特征,更好地理解學(xué)生的學(xué)習(xí)習(xí)慣和學(xué)習(xí)需求。
(5)預(yù)測(cè)分析:通過(guò)預(yù)測(cè)分析算法,利用學(xué)習(xí)數(shù)據(jù)預(yù)測(cè)未來(lái)的趨勢(shì)和結(jié)果,從而制定更好的學(xué)習(xí)計(jì)劃和策略。例如,可以預(yù)測(cè)學(xué)生的考試成績(jī)和職業(yè)發(fā)展方向,為學(xué)生提供科學(xué)的學(xué)習(xí)計(jì)劃、職業(yè)規(guī)劃,提高學(xué)校精準(zhǔn)就業(yè)率等。
根據(jù)分析結(jié)果,為每個(gè)學(xué)生提供個(gè)性化的學(xué)習(xí)方案,例如,提供針對(duì)性的學(xué)習(xí)資源、學(xué)習(xí)建議和輔導(dǎo)等。通過(guò)實(shí)時(shí)監(jiān)控學(xué)生的學(xué)習(xí)行為和成績(jī),及時(shí)發(fā)現(xiàn)學(xué)生的學(xué)習(xí)問(wèn)題,并給予相應(yīng)的反饋和指導(dǎo)。定期分析學(xué)生的學(xué)習(xí)數(shù)據(jù),評(píng)估學(xué)生的學(xué)習(xí)效果和進(jìn)步,為學(xué)生學(xué)習(xí)計(jì)劃的調(diào)整提供參考。
經(jīng)過(guò)上述數(shù)據(jù)分析結(jié)果,大數(shù)據(jù)一體化育人平臺(tái)可以為每個(gè)學(xué)生提供個(gè)性化的學(xué)習(xí)方案和實(shí)時(shí)反饋,從而提高學(xué)生的學(xué)習(xí)效率和效果。具體來(lái)說(shuō),平臺(tái)可以通過(guò)以下措施實(shí)現(xiàn)大數(shù)據(jù)技術(shù)提高學(xué)生學(xué)習(xí)效率和精準(zhǔn)就業(yè)率:
(1)建立學(xué)生的學(xué)習(xí)檔案,全面記錄學(xué)生的學(xué)習(xí)情況和行為。
(2)利用數(shù)據(jù)挖掘技術(shù),分析學(xué)生的學(xué)習(xí)數(shù)據(jù),為每個(gè)學(xué)生提供個(gè)性化的學(xué)習(xí)方案和反饋。
(3)提供在線學(xué)習(xí)平臺(tái),方便學(xué)生隨時(shí)隨地進(jìn)行學(xué)習(xí),并記錄學(xué)生的學(xué)習(xí)行為和成績(jī)。
(4)建立完善的數(shù)據(jù)分析系統(tǒng),定期對(duì)學(xué)生的學(xué)習(xí)數(shù)據(jù)進(jìn)行分析和評(píng)估,為學(xué)生學(xué)習(xí)計(jì)劃的調(diào)整提供參考。
(5)提供針對(duì)性的學(xué)習(xí)資源和建議,幫助學(xué)生更好地理解和掌握知識(shí),提高學(xué)習(xí)效率。
通過(guò)以上措施,平臺(tái)可以利用大數(shù)據(jù)技術(shù)提高學(xué)生的學(xué)習(xí)效率和效果,為學(xué)生提供更加科學(xué)和個(gè)性化的學(xué)習(xí)服務(wù),為學(xué)生提供更為精準(zhǔn)的就業(yè)環(huán)境。
數(shù)據(jù)分析結(jié)果以更加直觀和易于理解的方式進(jìn)行可視化展示,從而更好地利用數(shù)據(jù)來(lái)提高學(xué)生學(xué)習(xí)效率和精準(zhǔn)就業(yè)率。下面列舉幾種常見(jiàn)的展示方式:
(1)趨勢(shì)圖:可以將學(xué)生的學(xué)習(xí)成績(jī)、學(xué)習(xí)時(shí)間、學(xué)習(xí)頻率等數(shù)據(jù)以趨勢(shì)圖的形式展示,從而展示學(xué)生的學(xué)習(xí)趨勢(shì)和變化。
(2)散點(diǎn)圖:可以通過(guò)散點(diǎn)圖展示學(xué)生的學(xué)習(xí)成績(jī)和學(xué)習(xí)時(shí)間之間的關(guān)聯(lián)性,從而展示學(xué)生的學(xué)習(xí)效率和效果。
(3)熱力圖:可以通過(guò)熱力圖展示學(xué)生的學(xué)習(xí)行為和習(xí)慣,如學(xué)習(xí)時(shí)間、學(xué)習(xí)頻率、作業(yè)完成情況等,從而展示學(xué)生的學(xué)習(xí)方式和習(xí)慣。
(4)柱狀圖:可以將不同課程之間的關(guān)聯(lián)性以柱狀圖的形式展示,從而展示課程之間的相互關(guān)系和影響。
(5)表格:可以將不同學(xué)習(xí)模式和趨勢(shì)以表格的形式展示,從而展示不同學(xué)習(xí)模式和趨勢(shì)之間的區(qū)別和特點(diǎn)。
通過(guò)以上方法,學(xué)??梢詫⑼ㄟ^(guò)大數(shù)據(jù)技術(shù)提高學(xué)生學(xué)習(xí)效率的分析結(jié)果以更加直觀和易于理解的方式進(jìn)行可視化展示,從而讓用戶更好地利用數(shù)據(jù)來(lái)提高學(xué)生學(xué)習(xí)效率和精準(zhǔn)就業(yè)率。
本文大數(shù)據(jù)育人平臺(tái)可通過(guò)多種方式將分析結(jié)果進(jìn)行共享,便于授課教師、輔導(dǎo)員或管理員實(shí)時(shí)掌握分析結(jié)果。
(1)數(shù)據(jù)庫(kù)共享:將分析結(jié)果存儲(chǔ)在數(shù)據(jù)庫(kù)中,并設(shè)置相應(yīng)的權(quán)限,使不同的人員可以根據(jù)自己的權(quán)限進(jìn)行查看和下載。
(2)文件共享:將分析結(jié)果以文件的形式共享,并設(shè)置相應(yīng)的權(quán)限和密碼,使不同的人員可以根據(jù)自己的權(quán)限進(jìn)行查看和下載。
(3)鏈接共享:將分析結(jié)果以鏈接的形式共享,并設(shè)置相應(yīng)的權(quán)限和密碼,使不同的人員可以通過(guò)鏈接直接查看和下載。
(4)電子郵件或即時(shí)通訊工具:將分析結(jié)果以電子郵件或即時(shí)通訊的方式發(fā)送給相應(yīng)的人員,讓他們可以直接查看和下載。
大數(shù)據(jù)技術(shù)的不斷發(fā)展,使其在教育領(lǐng)域的應(yīng)用也越來(lái)越廣泛。本文利用大數(shù)據(jù)技術(shù)構(gòu)建一個(gè)高校網(wǎng)絡(luò)育人平臺(tái),該平臺(tái)可以提高學(xué)生學(xué)習(xí)效率,提高精準(zhǔn)就業(yè)率。
首先,平臺(tái)可以利用大數(shù)據(jù)技術(shù)分析學(xué)生的學(xué)習(xí)數(shù)據(jù),包括課堂表現(xiàn)、作業(yè)完成情況、測(cè)試成績(jī)、在線學(xué)習(xí)行為等,從而了解學(xué)生的學(xué)習(xí)模式、難點(diǎn)和瓶頸,以及學(xué)習(xí)進(jìn)度和效果等。
其次,平臺(tái)利用大數(shù)據(jù)技術(shù)可以為學(xué)生提供個(gè)性化的學(xué)習(xí)方案和反饋,根據(jù)學(xué)生的不同情況,提供針對(duì)性的學(xué)習(xí)資源、學(xué)習(xí)建議和輔導(dǎo)等,從而幫助學(xué)生更好地理解和掌握知識(shí),提高學(xué)習(xí)效率。
此外,平臺(tái)利用大數(shù)據(jù)技術(shù)還可以預(yù)測(cè)學(xué)生的未來(lái)學(xué)習(xí)趨勢(shì)和職業(yè)發(fā)展方向,為學(xué)生提供科學(xué)的學(xué)習(xí)計(jì)劃和職業(yè)規(guī)劃建議,從而幫助學(xué)生更好地實(shí)現(xiàn)精準(zhǔn)就業(yè)。
綜上所述,本文提出的網(wǎng)絡(luò)育人平臺(tái)利用大數(shù)據(jù)技術(shù)可以提高學(xué)生學(xué)習(xí)效率,從而提高精準(zhǔn)就業(yè)率。學(xué)??梢酝ㄟ^(guò)建立學(xué)生的學(xué)習(xí)檔案、利用數(shù)據(jù)挖掘技術(shù)[5]分析學(xué)習(xí)數(shù)據(jù)、提供個(gè)性化的學(xué)習(xí)方案和反饋、預(yù)測(cè)未來(lái)學(xué)習(xí)趨勢(shì)和職業(yè)發(fā)展方向等方式,實(shí)現(xiàn)大數(shù)據(jù)技術(shù)提高學(xué)生學(xué)習(xí)效率的目標(biāo),為學(xué)生提供更加科學(xué)和個(gè)性化的學(xué)習(xí)服務(wù)。