◆黃志宏 巫莉莉
優(yōu)質(zhì)數(shù)字化教育資源共享是課程建設(shè)的根本出發(fā)點,加快數(shù)字化資源建設(shè)是高校教學(xué)質(zhì)量和教學(xué)改革工程的重要舉措之一,是促進課程建設(shè)、提高教學(xué)質(zhì)量的關(guān)鍵環(huán)節(jié)。2018 年4 月13 日發(fā)布的《教育部關(guān)于印發(fā)〈教育信息化2.0行動計劃〉的通知》(教技〔2018〕6 號)中明確提出:“國家將實施教育大資源共享計劃,利用大數(shù)據(jù)技術(shù)采集、匯聚互聯(lián)網(wǎng)上豐富的教學(xué)、科研、文化資源,為各級各類學(xué)校和全體學(xué)習(xí)者提供海量、適切的學(xué)習(xí)資源服務(wù),打破教育資源開發(fā)利用的傳統(tǒng)壁壘?!盵1]
目前高校雖然都在陸續(xù)開展數(shù)字化教育資源的共享建設(shè),但在建設(shè)過程中仍存在一些問題。
1)數(shù)字化教育資源數(shù)據(jù)海量且共享度低,價值密度較低的數(shù)據(jù)無法有效提純。
2)數(shù)據(jù)資源維度少,師生的個性化標(biāo)簽太少,數(shù)字化教育資源無法與師生精準(zhǔn)匹配,實現(xiàn)因材施教及個性化教學(xué),從而導(dǎo)致數(shù)字化教育資源共享應(yīng)用推廣成效不佳。
為了解決上述問題,需要借助大數(shù)據(jù)分析技術(shù)對師生的教學(xué)過程數(shù)據(jù)進行分析,幫助教師對海量的數(shù)字化教育資源進行優(yōu)化篩選,向?qū)W生推送適合自己的學(xué)習(xí)內(nèi)容,實現(xiàn)個性化教學(xué)。
平臺框架校園數(shù)字化教育資源共享應(yīng)用平臺以虛擬化平臺為基礎(chǔ)支撐,基于大數(shù)據(jù)實驗平臺和管理平臺中的數(shù)據(jù)采集、清洗、存儲、分析技術(shù),對在線課程平臺中的師生教學(xué)過程數(shù)據(jù)進行分析研究,對學(xué)生學(xué)習(xí)狀態(tài)進行評估,構(gòu)建學(xué)生個人行為畫像,并向?qū)W生推薦個性化學(xué)習(xí)所需的圖書館優(yōu)秀數(shù)字資源和互聯(lián)網(wǎng)教育資源。平臺框架如圖1 所示。
關(guān)鍵技術(shù)
1)大數(shù)據(jù)技術(shù)[2-4]。數(shù)據(jù)采集是大數(shù)據(jù)生命周期的第一個環(huán)節(jié),就是綜合利用FTP、http、WebService、JDBC、syslog 等接口以及網(wǎng)絡(luò)爬蟲工具,獲取信息系統(tǒng)業(yè)務(wù)數(shù)據(jù)、設(shè)備日志數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),它是大數(shù)據(jù)知識服務(wù)模型的根本。
數(shù)據(jù)清洗是過濾掉海量數(shù)據(jù)中沒價值的、錯誤干擾數(shù)據(jù),保留滿足業(yè)務(wù)分析所需的有效數(shù)據(jù)。通過制定對應(yīng)的ETL 數(shù)據(jù)清洗策略來保證數(shù)據(jù)質(zhì)量,同時保障根據(jù)時間演進不斷更新數(shù)據(jù)模式,確定數(shù)據(jù)實體及其之間的關(guān)系,最終將數(shù)據(jù)按照統(tǒng)一的格式進行存儲,以便提供給上層進行數(shù)據(jù)分析。
數(shù)據(jù)存儲是采用關(guān)系數(shù)據(jù)庫、大數(shù)據(jù)分布式存儲、數(shù)據(jù)倉庫并行的模式將數(shù)據(jù)加載在大數(shù)據(jù)管理平臺,依據(jù)相關(guān)規(guī)范,合理制定并完成數(shù)據(jù)存儲及異構(gòu)數(shù)據(jù)關(guān)聯(lián),將提供的數(shù)據(jù)細化到字段級別。數(shù)據(jù)倉庫主要是對清洗后的數(shù)據(jù)進行加載、入庫、存儲的操作。
圖1 數(shù)字化教育資源共享應(yīng)用技術(shù)平臺框架
圖2 數(shù)字化教育資源共享應(yīng)用技術(shù)平臺功能圖
數(shù)據(jù)建模是抽象描述現(xiàn)實世界的一種工具和方法,是通過抽象的實體及實體之間聯(lián)系的形式,來表示現(xiàn)實世界中事務(wù)的相互關(guān)系的一種映射。數(shù)據(jù)模型抽象表現(xiàn)的是實體和實體之間的關(guān)系,通過對實體和實體之間關(guān)系的定義和描述,來表達實際的業(yè)務(wù)中具體的業(yè)務(wù)關(guān)系。
2)非結(jié)構(gòu)化數(shù)據(jù)處理。非結(jié)構(gòu)化數(shù)據(jù)的處理主要包括對視頻數(shù)據(jù)、音頻數(shù)據(jù)、圖片數(shù)據(jù)以及文檔數(shù)據(jù)的處理。視頻數(shù)據(jù)是非結(jié)構(gòu)化類型數(shù)據(jù)中相對最為復(fù)雜的數(shù)據(jù)類型,具有編碼格式繁多、數(shù)據(jù)規(guī)模龐大、描述信息維度多、機器識別解析難度高等特點。對于視頻數(shù)據(jù)的處理,可通過轉(zhuǎn)碼工具,將各種不同的視頻格式數(shù)據(jù)在不明顯影響清晰度等數(shù)據(jù)質(zhì)量的前提下轉(zhuǎn)換為統(tǒng)一格式的視頻數(shù)據(jù),并按文件大小以及視頻時長進行統(tǒng)一規(guī)格的切片。同時提取視頻中的音頻信息并轉(zhuǎn)化為文字信息,以識別該視頻數(shù)據(jù)的內(nèi)容信息,并將此作為檢索數(shù)據(jù)的重要依據(jù)標(biāo)簽之一。
音頻數(shù)據(jù)處理任務(wù)可以分為兩類,一是來自原始音頻數(shù)據(jù)的分類處理任務(wù),二是來自視頻格式數(shù)據(jù)中提取的音頻數(shù)據(jù)處理任務(wù)。這兩類任務(wù)核心目標(biāo)是通過技術(shù)手段獲取音頻數(shù)據(jù)中的語音信息,在將其轉(zhuǎn)化為文本信息后,實現(xiàn)音頻數(shù)據(jù)的分類和標(biāo)簽化處理,以供檢索。
圖片數(shù)據(jù)處理主要通過來自數(shù)據(jù)源的信息、源文件的描述信息和人工鑒別與分類的方式獲取圖片數(shù)據(jù)的分類和檢索信息,同時借助OCR 等圖片識別工具,對圖片中的文字信息加以識別,從而提取更全面的圖片數(shù)據(jù)所包含的特征信息,實現(xiàn)更精準(zhǔn)的分類與檢索。
文檔數(shù)據(jù)處理主要通過OpenOffice 組件,針對Office(Word、Excel、PPT)文件以及PDF 等常用的文檔數(shù)據(jù)進行分析處理,從而形成文檔數(shù)據(jù)的分類與檢索信息。
平臺功能模塊數(shù)字化教育資源共享應(yīng)用技術(shù)平臺包含數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲、數(shù)據(jù)建模、應(yīng)用服務(wù)五大功能模塊,如圖2 所示。
1)數(shù)據(jù)采集模塊。數(shù)據(jù)采集模塊主要采集來自校內(nèi)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)和來自校外互聯(lián)網(wǎng)的數(shù)據(jù)。業(yè)務(wù)數(shù)據(jù)采集主要是數(shù)據(jù)采集模塊通過DB 接口、Socket 接口、WebService接口、FTP 文件接口工具、ETL 工具、網(wǎng)絡(luò)爬蟲等數(shù)據(jù)工具采集分布式數(shù)據(jù),關(guān)系數(shù)據(jù)庫中結(jié)構(gòu)化、半結(jié)構(gòu)以及非結(jié)構(gòu)化的數(shù)據(jù),來源于教務(wù)系統(tǒng)、圖書管理系統(tǒng)的業(yè)務(wù)數(shù)據(jù),以及在線教學(xué)平臺的視頻資料、音頻資料、文本資料、訪問日志和師生教學(xué)過程數(shù)據(jù)。數(shù)據(jù)采集模塊通過設(shè)定不一樣的采集頻率策略,使用任務(wù)調(diào)度模塊調(diào)用接口采集工具對接口的數(shù)據(jù)進行采集、清洗和入庫處理。同時,在這過程中對數(shù)據(jù)質(zhì)量進行監(jiān)控。
外部數(shù)據(jù)采集主要是數(shù)據(jù)采集模塊采用通用的網(wǎng)絡(luò)爬蟲工具對外部網(wǎng)站、論壇上的相關(guān)數(shù)據(jù)進行采集,使用網(wǎng)絡(luò)爬蟲或網(wǎng)站公開的API 等方式從關(guān)聯(lián)網(wǎng)站獲取數(shù)據(jù),并使用分詞等技術(shù)對爬取的數(shù)據(jù)進行處理。此外,數(shù)據(jù)采集模塊可實現(xiàn)附件與正文的自動關(guān)聯(lián),可將圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來,存儲為統(tǒng)一的本地數(shù)據(jù)文件,并轉(zhuǎn)換成結(jié)構(gòu)化的方式存儲[5]。
2)數(shù)據(jù)清洗模塊[2]。數(shù)據(jù)清洗模塊的任務(wù)是按照一定規(guī)則過濾不符合要求的殘缺數(shù)據(jù)、不正確數(shù)據(jù)和冗余數(shù)據(jù),然后把過濾后的數(shù)據(jù)按照業(yè)務(wù)需求進行存儲。數(shù)據(jù)清洗首先根據(jù)業(yè)務(wù)定義和規(guī)則分析數(shù)據(jù)源數(shù)據(jù)是否存在不正常的數(shù)據(jù)結(jié)構(gòu);接著對結(jié)果集中的數(shù)據(jù)進行屬性適配,并基于清洗規(guī)則進行數(shù)據(jù)匹配;最后將正常和非正常數(shù)據(jù)分別存入清洗結(jié)果集和異常結(jié)果集,并把結(jié)果集存入數(shù)據(jù)庫,記錄清洗結(jié)果。
為了保證清洗后的數(shù)據(jù)可以為數(shù)據(jù)建模、挖掘分析、應(yīng)用開發(fā)提供數(shù)據(jù)服務(wù),數(shù)據(jù)清洗模塊在數(shù)據(jù)清洗過程中通過保證數(shù)據(jù)的精確性、完整性、一致性、有效性、唯一性、時間性和穩(wěn)定性,實現(xiàn)數(shù)據(jù)的可靠性和可用性。
3)數(shù)據(jù)存儲模塊。數(shù)據(jù)存儲模塊采取關(guān)系數(shù)據(jù)庫存儲和大數(shù)據(jù)系統(tǒng)存儲并行的策略:關(guān)系數(shù)據(jù)庫存儲,采用Oracle 數(shù)據(jù)庫集群;大數(shù)據(jù)數(shù)據(jù)庫存儲,采用HBase 數(shù)據(jù)庫;大數(shù)據(jù)文件系統(tǒng),采用HDFS 存儲。業(yè)務(wù)系統(tǒng)中結(jié)構(gòu)化的關(guān)系型數(shù)據(jù)主要存儲在Oracle RAC 中,海量高速增長的互聯(lián)網(wǎng)數(shù)據(jù)則存儲在大數(shù)據(jù)文件系統(tǒng)中。數(shù)據(jù)存儲模塊通過標(biāo)準(zhǔn)化數(shù)據(jù)接口,為上層應(yīng)用服務(wù)。
4)數(shù)據(jù)建模模塊。數(shù)據(jù)建模模塊主要通過定義和描述業(yè)務(wù)指標(biāo)和數(shù)據(jù)源之間的關(guān)系模型,定義業(yè)務(wù)指標(biāo)的概念描述,確定業(yè)務(wù)指標(biāo)的數(shù)據(jù)維度,設(shè)計各功能的數(shù)學(xué)模型,使大數(shù)據(jù)功能符合業(yè)務(wù)邏輯的要求。
5)應(yīng)用服務(wù)模塊[6]。應(yīng)用服務(wù)模塊基于學(xué)校目前的在線學(xué)習(xí)平臺,對學(xué)生的學(xué)習(xí)行為及教師的教學(xué)行為進行綜合分析,利用大數(shù)據(jù)技術(shù)分析出學(xué)生在網(wǎng)絡(luò)上的學(xué)習(xí)行為,如學(xué)習(xí)效果、學(xué)習(xí)興趣等,幫助學(xué)生去學(xué)習(xí)適合自己的學(xué)習(xí)內(nèi)容;同時針對學(xué)校教師的教學(xué)情況進行大數(shù)據(jù)分析,幫助教師去優(yōu)化其在線教育資源的授課模式。
①師生教學(xué)互動分析。教師及學(xué)生在學(xué)校的教學(xué)行為是高校關(guān)注的重點。平臺通過采集在線教學(xué)平臺中師生教學(xué)過程數(shù)據(jù),能對學(xué)生的學(xué)習(xí)行為以及教師的教學(xué)行為進行分析,分析出教師的教學(xué)行為差異對學(xué)生學(xué)習(xí)效果的影響、學(xué)生每章節(jié)的學(xué)習(xí)質(zhì)量、學(xué)生在線人數(shù)、學(xué)生訪問活躍度,提供教師活躍度、教師工作明細、資源建設(shè)情況、網(wǎng)站訪問情況、課程的互動明細等數(shù)據(jù)。
②數(shù)字化教育資源使用情況分析。通過對網(wǎng)絡(luò)教育資源覆蓋情況和網(wǎng)絡(luò)教與資源的集中熱度進行分析,可以了解學(xué)生對數(shù)字化教育資源的選取與利用情況,以便向?qū)W生推送更加適合自己的教育資源,推動學(xué)生的學(xué)習(xí)從以教師主講的單向指導(dǎo)模式向建設(shè)性、發(fā)現(xiàn)性的學(xué)習(xí)模式轉(zhuǎn)變,變被動學(xué)習(xí)為主動學(xué)習(xí),變教師傳播知識為學(xué)生自己重新構(gòu)建知識,有效地培養(yǎng)了學(xué)生的信息素養(yǎng)和建構(gòu)知識的能力。
③課程綜合分析。統(tǒng)計學(xué)校每學(xué)期在線教育平臺的課程,從各專業(yè)培養(yǎng)方案和教學(xué)計劃中開設(shè)的課程等不同維度進行分析,為不同專業(yè)任課教師崗位人數(shù)設(shè)置提供依據(jù),科學(xué)合理地配置師資力量。具體功能包括熱門課程排名、課程師資評價分析及排名、統(tǒng)計所有任課教師人數(shù)、選修學(xué)生人數(shù)、平均授課學(xué)時、統(tǒng)計每個教師負責(zé)學(xué)生人數(shù)、每周授課學(xué)時等。
④教學(xué)數(shù)據(jù)分析。通過對各類教學(xué)數(shù)據(jù)的分析,匯總班級學(xué)生學(xué)習(xí)的整體進度,幫助教師掌握學(xué)生的在線時段;提供每位學(xué)生的章節(jié)學(xué)習(xí)情況、資料使用情況;對于學(xué)習(xí)進度落后于規(guī)定計劃的學(xué)生,可以進行在線督促;提供學(xué)習(xí)明細、學(xué)生在線統(tǒng)計、學(xué)生訪問活躍度、教師活躍度、教師工作明細、資源建設(shè)情況、課程互動明細、同類課程平均值等數(shù)據(jù);通過對學(xué)生典型學(xué)習(xí)特征進行抽取,通過標(biāo)簽的方式對其進行畫像描述,從整體上呈現(xiàn)其學(xué)習(xí)狀態(tài);通過挖掘?qū)W生學(xué)習(xí)過程數(shù)據(jù)發(fā)現(xiàn)其學(xué)習(xí)規(guī)律和特征,對不符合規(guī)律的異常行為進行判斷并預(yù)警和干預(yù);根據(jù)學(xué)生的學(xué)習(xí)數(shù)據(jù),分析其學(xué)習(xí)特征及偏好,并基于此推薦個性化的學(xué)習(xí)內(nèi)容和學(xué)習(xí)活動;支持查看用戶情況,查看統(tǒng)計班級學(xué)生、團隊人數(shù)、訪問占比、訪問時長等數(shù)據(jù)。
⑤教學(xué)能力評估。全面考慮教師的教學(xué)工作量和教學(xué)效果,建立教師的教學(xué)能力評估模型,作為教師評優(yōu)和開課量的參考,也為評估教師的綜合能力提供基礎(chǔ)教學(xué)能力數(shù)據(jù),同時可以向?qū)W生提供選課參考。具體功能為統(tǒng)計學(xué)生評教情況、學(xué)生成績等數(shù)據(jù),考核教師的教學(xué)質(zhì)量,綜合分析教學(xué)工作數(shù)量、課程開設(shè)數(shù)、選課人數(shù)、學(xué)生評教分?jǐn)?shù)、學(xué)生成績等指標(biāo)。
數(shù)據(jù)整合,降低成本投入數(shù)字化教育資源是一種無形的數(shù)字資產(chǎn),充分地挖掘與運用這座可無限開采的數(shù)據(jù)“金礦”,可實現(xiàn)數(shù)據(jù)“資產(chǎn)”價值的最大化。教育改革既要有膽魄,更要有科學(xué)依據(jù),將教育活動中所產(chǎn)生的教育數(shù)據(jù)進行采集,依據(jù)大數(shù)據(jù)分析出的結(jié)果,給管理部門提供客觀的決策依據(jù),可以合理減少人力、物力投入[7]。
個性化學(xué)習(xí),決策有依據(jù)教育政策的制定不再是簡單的經(jīng)驗?zāi)7?,而是強調(diào)更精細化地捕捉各個層面的變化數(shù)據(jù),以及由數(shù)據(jù)展現(xiàn)的復(fù)雜相關(guān)性和因果關(guān)系,推動學(xué)生個性化學(xué)習(xí),將教育治理與政策決策帶來的危機轉(zhuǎn)化為機遇。同時,隨著數(shù)字化教育資源的分析推廣,高校管理者在教育決策過程中能夠更加清晰地了解教育現(xiàn)狀,及時掌握全面有價值的信息,在此基礎(chǔ)上制定出更加符合教育現(xiàn)代化要求的教育策略,并最終保障其有效地落地實施[8-9]。
為了推動高校教育教學(xué)模式的不斷創(chuàng)新和改革,優(yōu)化教學(xué)管理方式,提高學(xué)生個性化自主學(xué)習(xí)的能力,將來需要構(gòu)建更加先進的教學(xué)理論模型,對多源、多維度的數(shù)據(jù)資源和師生的教學(xué)行為進行挖掘分析。教師及學(xué)生個人行為的標(biāo)簽越豐富,優(yōu)質(zhì)數(shù)字化教育資源的匹配越精準(zhǔn)?!?/p>