楊曉賢 翁雯 吳嘉琪
摘? 要: 在大數(shù)據(jù)環(huán)境下,如何高效地存儲和檢索教育資源成為教育大數(shù)據(jù)亟待解決的問題。智慧教育涉及教學、管理和資源等全流程,而教育大數(shù)據(jù)在時間空間上分散孤立,數(shù)據(jù)內涵差異巨大,大量結構化與非結構化數(shù)據(jù)共存。從學生和教師的用戶角度來看,高校缺乏提供個性化服務的能力,在教學和生活方面都還存在很大的提升空間。本文就大數(shù)據(jù)平臺在智慧教育中的應用提出一些思考,重點研究教育大數(shù)據(jù)之間的動態(tài)關聯(lián),教育大數(shù)據(jù)語義推薦,教育大數(shù)據(jù)搜索和可視化等多方面技術。
關鍵詞: 教育大數(shù)據(jù);教育技術;知識圖譜;動態(tài)關聯(lián);數(shù)據(jù)檢索和可視化
中圖分類號: :TP399? ? 文獻標識碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.10.069
本文著錄格式:楊曉賢,翁雯,吳嘉琪. 大數(shù)據(jù)平臺在智慧教育中的應用思考[J]. 軟件,2020,41(10):270272
【Abstract】: In the context of big data, how to store and retrieve educational resources efficiently has become an urgent problem to be solved. Intelligent education involves the whole process of teaching, management and resources, while the big data of education are scattered and isolated in time and space, with huge differences in data content, and a large amount of structured and unstructured data. From the perspective of students and teachers, universities lack the ability to provide personalized services, and there is still much room for improvement. This paper shows our thoughts on the application of big data platform in intelligent education, focusing on the dynamic correlation, semantic recommendation, searching and visualization for education big data.
【Key words】: Big data on education; Educational technology; Knowledge graph; Dynamic correlation; Data retrieval and visua lization
0? 引言
當前我國教育現(xiàn)代化不斷發(fā)展,數(shù)字教育資源不斷豐富,信息化教學的應用不斷拓展和深入,教育管理信息化初見成效。爆炸式增長的教育資源已經呈現(xiàn)出海量大數(shù)據(jù)特征,尤其是視頻、文本、音頻等非結構化教育資源的形式相對不固定[1]。教育領域的大數(shù)據(jù)管理已面臨巨大挑戰(zhàn),而傳統(tǒng)的關系型數(shù)據(jù)庫管理系統(tǒng)無法滿足以數(shù)據(jù)為中心的大數(shù)據(jù)管理的需求[2-3],如何高效地存儲和檢索教育數(shù)據(jù)成為教育行業(yè)亟待解決的問題[4-5]。近年來,智慧教學成為高校教學改革的新需求,其中整合教育教學資源并能提供方便、有效的檢索方法將是未來高等學校教學改革的重要基礎[6],例如數(shù)據(jù)挖掘和內容、智能數(shù)據(jù)分析、教育數(shù)據(jù)檢索、教育教學預警等,將是高校全周期育人的重要基礎保障。
針對智慧教育的大數(shù)據(jù)平臺建設,在調研大量實際需求和建設方案之后,我們認為教育大數(shù)據(jù)具備在時間空間上分散孤立、數(shù)據(jù)內涵差異巨大、大量結構化與非結構化數(shù)據(jù)共存等特征。需要動態(tài)關聯(lián)[7]、語義推薦和可視化等相關技術和方法來支持大數(shù)據(jù):(1)動態(tài)關聯(lián):教育數(shù)據(jù)關聯(lián)大多必須手動完成,并且數(shù)據(jù)量增長速度呈幾何級數(shù),而新數(shù)據(jù)往往需要重新更新,動態(tài)關聯(lián)不僅需要展現(xiàn)領域層面上的從屬關系,而且還需要體現(xiàn)實體多屬性關系。(2)語義推薦:查詢教育大數(shù)據(jù)不僅需要先理解用戶的真正查詢意圖,而且還要根據(jù)用戶關鍵字推理知識圖譜推薦相似內容,最后對查詢結果進行相似度排序并返回給用戶。(3)可視化:展示隱藏在教育大數(shù)據(jù)內部之間的關系,讓用戶能夠從多維角度對數(shù)據(jù)展開分析和理解,從而獲得有價值的信息,減少重復的信息檢索工作。
因此,在大數(shù)據(jù)環(huán)境下,研究適合于教育大數(shù)據(jù)管理和維護平臺[8-9],同時考慮智慧教育新特征,如何更好地支持數(shù)據(jù)關聯(lián)關系的“活性”和“自動更新”,其中“活性”表現(xiàn)在關聯(lián)關系是動態(tài)的、分內容的、允許動態(tài)配置的,“自動更新”則表現(xiàn)在關聯(lián)關系是具有自我認知的,能實時更新關聯(lián)的知識庫。針對這些問題,從智慧教育的角度重新審視教育資源建設的目標“解決教學到知識獲取技術的鴻溝”,本文將探討面向智慧教育的大數(shù)據(jù)平臺建設的相關問題,包括問題分析,應用場景研討,關鍵技術等,支持教學教育改革,支持高水平大學建設。
1? 教育大數(shù)據(jù)管理的技術問題分析
傳統(tǒng)的數(shù)據(jù)庫是固定數(shù)據(jù)的實體,數(shù)據(jù)與數(shù)據(jù)之間的關聯(lián)性通常依賴數(shù)據(jù)庫表的主鍵/外鍵設置,數(shù)據(jù)庫中的表與表之間的聯(lián)系設置好后就固定了,一般不允許改變。這種設計模式下的數(shù)據(jù)庫對于多維空間、超層次關系的關聯(lián)關系處理能力就變得非常薄弱。因此,我們認為可以在關系型數(shù)據(jù)庫作為結構化數(shù)據(jù)存在的基礎上,引入非關系型數(shù)據(jù)庫對非結構化教育資源進行靈活存儲。其中基礎教育數(shù)據(jù)包括結構化數(shù)據(jù),諸如來自教務處的學生選課信息和成績數(shù)據(jù),以及信息化辦公室的教職工和學生的基本數(shù)據(jù);而非結構化教育資源則可以用來存儲一些輔助的非固定格式的數(shù)據(jù)、圖形、圖像以及聲音等。兩者的結合與互補能有效地支持大數(shù)據(jù)存儲和管理。
教育大數(shù)據(jù)的更新涉及大量數(shù)據(jù)更新以及數(shù)據(jù)之間的關聯(lián)關系更新。一方面,當前大多數(shù)高校的課程資源網站功能單一,形成數(shù)據(jù)孤島,需要對這些教育數(shù)據(jù)的關聯(lián)關系進行更新和維護。另一方面,數(shù)據(jù)本身存在內容語義,需要通過特征抽取算法,或自動或半自動地標識教育大數(shù)據(jù)的特征,對這些數(shù)據(jù)進行管理。因此,我們認為,引入知識圖譜概念,采用特征提取技術,基于本體描述方法對大數(shù)據(jù)之間關聯(lián)關系進行存儲會是一種高效的解決方法。借助于知識圖譜所描述的教育領域本體,一方面做到教育信息之間的關聯(lián),一方面有助于動態(tài)更新。
用戶在使用大數(shù)據(jù)平臺時,核心的問題是能快速、準確地檢索到所需要的數(shù)據(jù)?!翱焖佟北砻饔脩舻牡却龝r間不會過長,系統(tǒng)能在有限的時間內返回結果;“準確”表明平臺能正確識別用戶檢索需求,從某種意義上來說,不僅實現(xiàn)傳統(tǒng)的關鍵字檢索,而且還實現(xiàn)基于知識圖譜所描述的關聯(lián)關系進行必要的推理,最終返回的檢索結果是符合用戶意圖的有有價值的信息。因此,我們認為,引入搜索引擎和智能推理技術,用人工智能實現(xiàn)數(shù)據(jù)推薦將會是平臺運行的重要保證。
數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。在面對智慧教育大數(shù)據(jù)時需要思考:一方面如何將其科學地統(tǒng)計歸類,另一方面如何將其準確地展示出來。因此,我們認為,可以引入數(shù)據(jù)可視化觀念,在大數(shù)據(jù)平臺構建相關模塊,包括文本可視化,時空數(shù)據(jù)可視化,多維數(shù)據(jù)可視化等,將有助于用戶直觀了解分布規(guī)律和內在特征,從而獲得有價值的信息,減少重復的信息檢索工作,提高搜索效率。
2? 教育大數(shù)據(jù)的應用場景研討
2.1? 學生需求
在智慧教育環(huán)境下,學生可以獲取包括電子講義、課程錄像等各類課程資料或者圖書館館藏學習資料等,這些都是新智慧校園帶來的便利[10-11]。在教育監(jiān)督方面,學生可以通過刷校園卡、人臉識別、app以及小程序等多種形式完成上課簽到,在課堂上使用手機掃描二維碼進行搶答或討論,與教師進行更多的溝通和交流。在校園生活方面,學生可以通過校園卡綁定的各項功能進行校園內消費,還可以通過學校提供的各種自助平臺使自己的校園生活更加的豐富和方便。然而,如何對這些數(shù)據(jù)進行存儲?抽取哪些特征數(shù)據(jù)描述學生肖像?如何主動發(fā)現(xiàn)存在異常的學生以及預警可能出現(xiàn)異常的學生?
2.2? 教師需求
在智慧教育環(huán)境下,實現(xiàn)場景化、沉浸式、游戲型、互動式的創(chuàng)新教學方式,為教師減輕了教學任務上的重負[12]。如何存儲管理教學過程中產生的大量教育數(shù)據(jù)值得深思。在課程管理方面,教師可以利用提供的大數(shù)據(jù)技術實現(xiàn)智能備課和輔助授課,包括個性化資源推薦、教學資源管理等。在成績管理方面,大數(shù)據(jù)技術也可以幫助教師開展電子閱卷和成績評估工作,例如客觀題自動評分、作業(yè)/實驗/報告的抄襲檢測等。在教學輔助方面,一方面可以幫助教師隨時掌握學生的學習狀態(tài),例如通過自動統(tǒng)計功能生成每位學生的實時學習報告,包括上課活動量情況、課程完成情況和章節(jié)學習次數(shù)趨勢等,另一方面通過數(shù)據(jù)分析功能得到課程目標達成度結果幫助教師有針對性地調整教學內容和方法。
2.3? 學校管理需求
隨著高校智慧校園網軟硬件設施逐步完善,學校及各處室、各專業(yè)部門都能通過學?;虿块T網站開展工作,拓寬了信息交流的渠道。但網站結構功能單一、數(shù)據(jù)孤島依然存在,各部門各自為政,無法實現(xiàn)對學生學習情況的統(tǒng)一管理和數(shù)據(jù)分析等。因此,從教育教學質量保證需求來看,不僅需要統(tǒng)一數(shù)據(jù)格式以方便管理,使得數(shù)據(jù)能在不同的管理信息系統(tǒng)之間流動起來,實現(xiàn)一站式數(shù)據(jù)管理,而且還需要對這些數(shù)據(jù)進行關聯(lián)分析和動態(tài)更新,例如教育教學的課程預警、考試成績的質量分析、學生個人成長分析等。
從學校人才培養(yǎng)需求來看,大數(shù)據(jù)平臺能更有效地支持做好全周期育人,尤其是教育教學資源收集、整理、挖掘、推薦,更好地支持智慧教育這一新要求,將原先分散的、零碎的課程資源等進行合理存儲管理后,采用智能算法支持相關課程學習資料推薦。此外,各類教學數(shù)據(jù)分類呈現(xiàn)能更加直觀地讓管理人員掌握當前教育教學情況,把控教學質量,科學合理修訂學校的人才培養(yǎng)方案。
3? 如何建設教育大數(shù)據(jù)的應對方法
3.1? 教育大數(shù)據(jù)動態(tài)關聯(lián)
目前教育大數(shù)據(jù)的關聯(lián)大多依靠人工實現(xiàn),需要非常大的人力成本,并且隨著教育大數(shù)據(jù)不斷增多必須重復更新關聯(lián)?;诖耍梢詫⒅R圖譜概念引入到大數(shù)據(jù)平臺,并作為其支持工具能很好地實現(xiàn)動態(tài)關聯(lián)。采用本體的設計理念對教育數(shù)據(jù)進行表達能夠更好地利用教育數(shù)據(jù)所蘊含的語義信息,從而提高檢索的效率。在教育數(shù)據(jù)領域本體的構建上,考慮到本體建模的方便性和語義網知識表達的通用性,描述教育資源的關聯(lián)關系。
(1)教育大數(shù)據(jù)收集與資源融合。在教育數(shù)據(jù)方面,大數(shù)據(jù)可能來自不同的途徑,其數(shù)據(jù)內容、數(shù)據(jù)格式和數(shù)據(jù)質量千差萬別,有時甚至會遇到數(shù)據(jù)格式不能轉換或數(shù)據(jù)轉換格式后丟失信息等棘手問題,因此,應對方法是突破多源異構大數(shù)據(jù)的數(shù)據(jù)形態(tài),能做到數(shù)據(jù)融合融通。
(2)建立面向教育資源的領域本體,支持構建知識圖譜。尤其是非結構化數(shù)據(jù)的描述,由于數(shù)據(jù)屬性多樣性和不確定性,采用本體描述教育資源的知識圖譜是非常合適。由于教育資源數(shù)據(jù)在各個領域存在多種從屬關系,應對方法是采用本體描述教育資源的多關聯(lián)機制。
(3)動態(tài)關聯(lián)使數(shù)據(jù)具備活性。教育數(shù)據(jù)的關聯(lián)性實現(xiàn)更準確和專業(yè)的抓取和整理技術、進而提供盡可能全面準確的教育領域相關信息。應對方法是采用教育知識圖譜,結合人工智能的特征提取技術,實現(xiàn)更新數(shù)據(jù),支持更新關聯(lián)知識。
3.2? ?教育大數(shù)據(jù)語義推薦
查詢教育大數(shù)據(jù)首先需要準確理解用戶的查詢意圖,然后根據(jù)用戶關鍵字推理領域本體的從屬關鍵字,最后基于相似度對查詢結果進行排序并返回給用戶。應對方法是采用分布式倒排索引的搜索引擎技術,實現(xiàn)教育大數(shù)據(jù)的高效檢索,更好地支持本科教學和人才培養(yǎng)應用。
(1)通過分布式云存儲體系實現(xiàn)海量數(shù)據(jù)存儲應用。分布式云存儲體系實現(xiàn)海量數(shù)據(jù)存儲技術、負載均衡方法及分級存儲等方面,有利于不斷發(fā)展云存儲系統(tǒng)體系結構,最大限度地滿足教育大數(shù)據(jù)的需求,是對多源數(shù)據(jù)融合的高效數(shù)據(jù)存儲方法。
(2)基于倒排索引的搜索引擎技術應用。利用深度學習技術,數(shù)據(jù)挖掘技術以及特征描述技術,抽取數(shù)據(jù)特征后建立倒排索引文件,支持快速檢索,此外,通過對教育領域知識圖譜的知識推理,實現(xiàn)相關數(shù)據(jù)的檢索。
(3)個性化推薦技術應用。根據(jù)用戶行為的偏好模型,采用相似度算法對返回查詢結果進行排序。針對大數(shù)據(jù)推薦存在的問題,結合協(xié)同過濾算法、基于內容推薦算法、基于文本相似度推薦算法,提升大數(shù)據(jù)平臺的用戶體驗度。
3.3? 教育大數(shù)據(jù)可視化
展示隱藏在教育大數(shù)據(jù)內部之間關系,讓用戶能夠從多維角度對數(shù)據(jù)展開分析和理解,從而獲得有價值的信息,減少重復的信息檢索工作。應對方法是采用搜索引擎支持用戶檢索相關數(shù)據(jù),同時通過可視化分析技術展示檢索結果。
(1)搜索引擎技術應用。當用戶檢索教育素材大數(shù)據(jù)時,在知識圖譜基礎上結合本體推理機制,推理查詢關鍵字在知識本體庫中的父子關系,兄弟關系,以及復雜的約束關系,理解教育素材大數(shù)據(jù)在橫向和縱向的語義關系,提高檢索工作的效率和質量。
(2)數(shù)據(jù)關聯(lián)分析和可視化技術應用。采用人工智能算法對各種教育數(shù)據(jù)進行關聯(lián)分析,對檢索數(shù)據(jù)以視覺表現(xiàn)形式進行可視化展現(xiàn)。這涉及教育數(shù)據(jù)的數(shù)據(jù)整理和分析,以及可視化展示數(shù)據(jù)多維度之間的關系,將不同教育數(shù)據(jù)關聯(lián)起來呈現(xiàn)。
4? 結論
近年來,隨著各高校在線課程資源的建設和發(fā)展,教育教學數(shù)據(jù)呈海量式增長,亟需進行資源整合并提供便利的檢索平臺。然而,當前大多數(shù)高校的課程資源網站功能單一、存在數(shù)據(jù)孤島、無法融合并提供知識檢索,需要“解決教學到知識獲取技術的鴻溝”[10,13-14]。本文針對智慧教育問題,探討了大數(shù)據(jù)平臺建設的問題和應對方法。下一步的工作重點將對大數(shù)據(jù)平臺設計的關鍵技術進行實踐,努力搭建實用可行的基礎支撐平臺。
參考文獻
[1]馬文龍, 朱妤晴, 蔣德鈞, 熊勁, 張立新, 孟瀟, 包云崗. Key-Value型NoSQL本地存儲系統(tǒng)研究[J]. 計算機學報, 2018, 41(8): 1721-1751.
[2]杜小勇, 盧衛(wèi), 張峰. 大數(shù)據(jù)管理系統(tǒng)的歷史、現(xiàn)狀與未來[J]. 軟件學報, 2019, 30(1): 1-15.
[3]劉永楠, 李建中, 高宏. 海量不完整數(shù)據(jù)的核心數(shù)據(jù)選擇問題的研究[J]. 計算機學報, 2018, 41(4): 915-930.
[4]許正興, 高海燕, 王慧. 創(chuàng)新教育導向下的智慧學習模式建構與實踐路徑[J]. 教師教育學報, 2020, 7(3): 23-28.
[5]孫達明, 張雨新, 王震生, 曾艷. 基于專業(yè)教學資源庫的混合式學習模式實踐研究[J]. 當代教育實踐與教學研究,? 2020, 9: 13-14+74.
[6]王建民. 領域大數(shù)據(jù)應用開發(fā)與運行平臺技術研究[J]. 軟件學報, 2017, 28(6): 1516-1528
[7]王玢, 吳雅婧, 陽小龍, 孫奇福. 關聯(lián)性驅動的大數(shù)據(jù)處理任務調度方案[J], 軟件學報 2017, 28(12): 3385-3398
[8]吳信東, 嵇圣硙. MapReduce與Spark用于大數(shù)據(jù)分析之比較[J]. 軟件學報, 2018, 29(6): 1770-1791.
[9]齊金山, 梁循, 李志宇, 等. 大規(guī)模復雜信息網絡表示學習: 概念、方法與挑戰(zhàn)[J]. 計算機學報 2018, 40(10): 2394- 2420.
[10]高洪皓, 卞敏捷, 高玨, 陳章進. 基于分類分層和項目制結合的大學計算機基礎教學模式探索[J]. 當代教育理論與實踐, 2018, 10(6): 29-33.
[11]楊麗君. 基于大數(shù)據(jù)技術的高校教育改革質量評價[J]. 計算機產品與流通, 2020, 5: 198.
[12]李明瑤. 大數(shù)據(jù)時代在線教育的個性訴求與資源優(yōu)化[J]. 教育理論與實踐, 2020, 40(4): 23-28.
[13]朱斐. 面向工程教育專業(yè)認證的《軟件項目管理》實驗教學探索[J]. 軟件, 2018, 39(12): 187-190.
[14]劉強. 人工智能在計算機網絡技術中的實踐與探索[J]. 軟件, 2018, 39(11): 242-245.