王俊松,朱 辰,邊薈凇,金易琛
(南京信息職業(yè)技術(shù)學(xué)院, 江蘇 南京 210023)
高職院校經(jīng)過(guò)多年的信息化建設(shè),建成了門(mén)類(lèi)眾多的業(yè)務(wù)系統(tǒng),這些業(yè)務(wù)系統(tǒng)的深入應(yīng)用產(chǎn)生大量業(yè)務(wù)數(shù)據(jù),且數(shù)據(jù)總量仍然在迅速增長(zhǎng)。 但是隨著數(shù)據(jù)量的增長(zhǎng),也暴露出一些問(wèn)題。 數(shù)據(jù)孤島化:由于各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)無(wú)法互聯(lián)互通,隨著業(yè)務(wù)系統(tǒng)數(shù)量增加,數(shù)據(jù)孤島的數(shù)量持續(xù)上升,數(shù)據(jù)的開(kāi)放共享十分困難。數(shù)據(jù)質(zhì)量差:數(shù)據(jù)中心沒(méi)有明確的數(shù)據(jù)血統(tǒng),無(wú)法保證數(shù)據(jù)的一致性,因而也無(wú)法形成高質(zhì)量數(shù)據(jù),給數(shù)據(jù)的查詢、使用和分析帶來(lái)很大困難。 權(quán)屬邊界不清:沒(méi)有形成“一數(shù)一源”的權(quán)威數(shù)據(jù),未明確數(shù)據(jù)的權(quán)屬關(guān)系。數(shù)據(jù)安全堪憂:部門(mén)間數(shù)據(jù)流轉(zhuǎn)往往使用Excel 等傳統(tǒng)方式,無(wú)法保證數(shù)據(jù)的安全性[1]。 未建立成熟的數(shù)據(jù)授權(quán)訪問(wèn)機(jī)制。 開(kāi)放共享難:由于沒(méi)有成熟的數(shù)據(jù)運(yùn)營(yíng)工具,數(shù)據(jù)的開(kāi)放共享的技術(shù)成本較高,常常依賴(lài)于產(chǎn)生數(shù)據(jù)的業(yè)務(wù)系統(tǒng)廠商的支持,缺乏主動(dòng)性。 數(shù)據(jù)資產(chǎn)不明:無(wú)法對(duì)數(shù)據(jù)進(jìn)行有效管理,難以形成有價(jià)值的數(shù)據(jù)資產(chǎn),進(jìn)而無(wú)法有效釋放數(shù)據(jù)價(jià)值。
數(shù)據(jù)中心建設(shè)的技術(shù)層面要解決數(shù)據(jù)集成、數(shù)據(jù)治理和數(shù)據(jù)應(yīng)用的全流程的平臺(tái)支持。 由于不同數(shù)據(jù)源帶來(lái)的數(shù)據(jù)類(lèi)型多、數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,同時(shí)面向數(shù)據(jù)的各類(lèi)操作流程繁多,如何選擇一個(gè)高效的處理平臺(tái)及系統(tǒng)架構(gòu)非常重要。 數(shù)據(jù)中心建設(shè)的應(yīng)用層面要根據(jù)高職院校的實(shí)際需求,抽象出不同層次不同角色關(guān)注的數(shù)據(jù)應(yīng)用模型。 如何同時(shí)關(guān)注不同用戶、不同層次的數(shù)據(jù)需求,需要分別建設(shè)面向基礎(chǔ)數(shù)據(jù)業(yè)務(wù)、應(yīng)用場(chǎng)景和主題場(chǎng)景的數(shù)據(jù)模型。 數(shù)據(jù)中心的管理層面解決數(shù)據(jù)治理背景下校內(nèi)多部門(mén)的協(xié)同治理問(wèn)題。 學(xué)校現(xiàn)有的職能部門(mén)相對(duì)獨(dú)立,而大數(shù)據(jù)應(yīng)用需要優(yōu)化現(xiàn)有組織模式,提高溝通和協(xié)作的效率,逐漸打破各部門(mén)數(shù)據(jù)和業(yè)務(wù)相對(duì)封閉的狀態(tài),在學(xué)校層面進(jìn)行整體的數(shù)字治理系統(tǒng)設(shè)計(jì)、開(kāi)發(fā)和建設(shè),推動(dòng)學(xué)校治理體系和治理能力現(xiàn)代化。
數(shù)據(jù)中臺(tái)是實(shí)現(xiàn)校園大數(shù)據(jù)應(yīng)用的核心技術(shù)。 數(shù)據(jù)中臺(tái)[2]匯集結(jié)構(gòu)化數(shù)據(jù)、系統(tǒng)日志數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)以及互聯(lián)網(wǎng)數(shù)據(jù)等,通過(guò)建立數(shù)據(jù)集成、治理與應(yīng)用的標(biāo)準(zhǔn)化流程,實(shí)現(xiàn)跨系統(tǒng)、跨組織邊界的數(shù)據(jù)高效互通,通過(guò)建立業(yè)務(wù)數(shù)據(jù)模型并應(yīng)用各類(lèi)數(shù)據(jù)挖掘和人工智能工具,實(shí)現(xiàn)海量數(shù)據(jù)的綜合分析與知識(shí)發(fā)現(xiàn),從而為管理者提供輔助決策,為師生及業(yè)務(wù)部門(mén)提供智慧服務(wù)。
智慧校園數(shù)據(jù)源應(yīng)盡可能多地包含學(xué)校內(nèi)部及外部數(shù)據(jù),包括業(yè)務(wù)系統(tǒng)數(shù)據(jù)、機(jī)器日志數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等多源異構(gòu)數(shù)據(jù),通過(guò)數(shù)據(jù)集成工具集成到數(shù)據(jù)中心。 針對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)等不同類(lèi)型數(shù)據(jù),應(yīng)用Sqoop、Kettle、Flume 和網(wǎng)絡(luò)爬蟲(chóng)等工具,制定相對(duì)應(yīng)的集成策略。 結(jié)構(gòu)化數(shù)據(jù)通常選擇Oracle或MySQL;結(jié)構(gòu)化數(shù)據(jù)的多表關(guān)聯(lián)和查詢可以用MPP;半結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)解析可以用Spark&Hbase 或ELK;互聯(lián)網(wǎng)及網(wǎng)站日志數(shù)據(jù)解析可以用MongoDB 等。數(shù)據(jù)計(jì)算主要包含離線計(jì)算服務(wù)、實(shí)時(shí)計(jì)算服務(wù)和面向海量結(jié)構(gòu)化數(shù)據(jù)處理的分布式數(shù)據(jù)庫(kù)服務(wù)等。
數(shù)據(jù)治理[3]核心要素包括主數(shù)據(jù)、元數(shù)據(jù)和數(shù)據(jù)質(zhì)量。 依據(jù)對(duì)主數(shù)據(jù)的標(biāo)準(zhǔn)管理,實(shí)現(xiàn)主數(shù)據(jù)的標(biāo)準(zhǔn)化。 通過(guò)對(duì)元數(shù)據(jù)的管理實(shí)現(xiàn)不同表之間的數(shù)據(jù)血緣分析以及數(shù)據(jù)標(biāo)準(zhǔn)建立。 數(shù)據(jù)質(zhì)量管理通過(guò)對(duì)數(shù)據(jù)的完整性、一致性和關(guān)聯(lián)性等規(guī)則進(jìn)行數(shù)據(jù)檢核,形成數(shù)據(jù)質(zhì)量報(bào)告。 數(shù)據(jù)服務(wù)提供數(shù)據(jù)資源服務(wù)和數(shù)據(jù)計(jì)算服務(wù)。 通過(guò)數(shù)據(jù)訪問(wèn)服務(wù)接口的標(biāo)準(zhǔn)化,實(shí)現(xiàn)應(yīng)用和數(shù)據(jù)分離。 服務(wù)層采用微服務(wù)架構(gòu),將數(shù)據(jù)資源和數(shù)據(jù)計(jì)算封裝成SOA、RESTful 架構(gòu)對(duì)外提供服務(wù),基于標(biāo)準(zhǔn)化接口實(shí)現(xiàn)對(duì)數(shù)據(jù)訪問(wèn)、數(shù)據(jù)計(jì)算的API 封裝,以便于上層應(yīng)用的調(diào)用,并支持機(jī)器學(xué)習(xí)算法分析功能。數(shù)據(jù)服務(wù)為大數(shù)據(jù)應(yīng)用開(kāi)發(fā)和數(shù)據(jù)分析挖掘提供平臺(tái)及服務(wù),平臺(tái)依賴(lài)于底層分布式批處理框架、分布式流數(shù)據(jù)實(shí)時(shí)框架以及機(jī)器學(xué)習(xí)算法庫(kù)等相關(guān)基礎(chǔ)設(shè)施,數(shù)據(jù)服務(wù)功能包含數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)算法[4]與數(shù)據(jù)可視化等服務(wù)。
數(shù)據(jù)畫(huà)像抽象數(shù)據(jù)信息全貌,通過(guò)整合數(shù)據(jù)資源發(fā)掘數(shù)據(jù)應(yīng)用價(jià)值,為師生和管理人員提供各類(lèi)服務(wù)和決策支持。 研究數(shù)據(jù)中臺(tái)下的高職院校數(shù)據(jù)應(yīng)用體系,將數(shù)據(jù)畫(huà)像分類(lèi)為基礎(chǔ)大數(shù)據(jù)、應(yīng)用大數(shù)據(jù)和主題大數(shù)據(jù)3 個(gè)層次,如圖1 所示。 分析不同層次管理模式,業(yè)務(wù)數(shù)據(jù)互動(dòng)流程,數(shù)據(jù)管理規(guī)范,明確多層聯(lián)動(dòng)下數(shù)據(jù)生成、存儲(chǔ)、訪問(wèn)、使用、更新及消除在內(nèi)全生命周期內(nèi)的參與人員、數(shù)據(jù)流轉(zhuǎn)過(guò)程、數(shù)據(jù)監(jiān)管負(fù)責(zé)機(jī)構(gòu)等直接影響數(shù)據(jù)使用效果的關(guān)鍵節(jié)點(diǎn),從全校宏觀角度出發(fā),逐步細(xì)化至核心業(yè)務(wù)場(chǎng)景,構(gòu)建數(shù)據(jù)治理體系,提升數(shù)據(jù)質(zhì)量,促進(jìn)高職院校數(shù)字化轉(zhuǎn)型的開(kāi)展與實(shí)施。
圖1 高校數(shù)據(jù)畫(huà)像系統(tǒng)應(yīng)用架構(gòu)
基礎(chǔ)大數(shù)據(jù)是從各類(lèi)業(yè)務(wù)系統(tǒng)中抽取出來(lái),依據(jù)制定的數(shù)據(jù)標(biāo)準(zhǔn)轉(zhuǎn)換得到的業(yè)務(wù)領(lǐng)域數(shù)據(jù)。 當(dāng)前高職院校的業(yè)務(wù)系統(tǒng)主要包含教務(wù)、教學(xué)、學(xué)工、人事、科研、就業(yè)等領(lǐng)域的管理或服務(wù)系統(tǒng)。 基礎(chǔ)大數(shù)據(jù)建設(shè)主要環(huán)節(jié)是數(shù)據(jù)標(biāo)準(zhǔn)的建立及數(shù)據(jù)治理。 依據(jù)教育部教育信息化技術(shù)標(biāo)準(zhǔn)委員建立的教育行業(yè)標(biāo)準(zhǔn)為重要參考,結(jié)合學(xué)校的實(shí)際需求,制定學(xué)校級(jí)統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)、代碼集標(biāo)準(zhǔn)、編碼規(guī)則和應(yīng)用標(biāo)準(zhǔn)。 數(shù)據(jù)治理是基礎(chǔ)大數(shù)據(jù)的質(zhì)量的決定因素,除了上述的基于規(guī)則的數(shù)據(jù)校驗(yàn),還需要業(yè)務(wù)領(lǐng)域人員針對(duì)實(shí)際應(yīng)用場(chǎng)景的語(yǔ)義級(jí)校驗(yàn)。 基礎(chǔ)大數(shù)據(jù)可以實(shí)現(xiàn)面向機(jī)器端的接口調(diào)用,同時(shí)也可接收用戶的直接查詢調(diào)用,這種情形下的主要開(kāi)發(fā)難點(diǎn)是分級(jí)授權(quán)。
基礎(chǔ)大數(shù)據(jù)與業(yè)務(wù)子系統(tǒng)是一一映射的,而應(yīng)用大數(shù)據(jù)則是依賴(lài)基礎(chǔ)大數(shù)據(jù)的相對(duì)獨(dú)立的各類(lèi)場(chǎng)景應(yīng)用,這類(lèi)應(yīng)用數(shù)量繁多,主要是解決每一個(gè)具體的問(wèn)題。 例如:在迎新業(yè)務(wù)中用來(lái)反映迎新動(dòng)態(tài)大數(shù)據(jù);在疫情防控中用來(lái)反映師生疫情風(fēng)險(xiǎn)的疫情防控大數(shù)據(jù);在網(wǎng)上教學(xué)中用來(lái)反映師生互動(dòng)的學(xué)生在線學(xué)習(xí)互動(dòng)大數(shù)據(jù)等。 應(yīng)用大數(shù)據(jù)為各類(lèi)場(chǎng)實(shí)現(xiàn)精細(xì)化管理與服務(wù)提供數(shù)據(jù)支持。
主題大數(shù)據(jù)聚焦學(xué)校重點(diǎn)關(guān)注要素,涵蓋學(xué)校治理、專(zhuān)業(yè)、課程、教師和學(xué)生5 個(gè)層面,通過(guò)數(shù)據(jù)分析與挖掘?qū)崿F(xiàn)面向用戶的數(shù)據(jù)服務(wù)與面向治理的決策支持。 學(xué)校畫(huà)像:以學(xué)校核心業(yè)績(jī)整體把控為目標(biāo),自上而下反饋不同層級(jí)建設(shè)工作的開(kāi)展實(shí)施情況,針對(duì)建設(shè)項(xiàng)目和實(shí)施責(zé)任部門(mén)實(shí)現(xiàn)數(shù)據(jù)下探和數(shù)據(jù)定點(diǎn),對(duì)可能存在的風(fēng)險(xiǎn)進(jìn)行預(yù)估和防范。 系統(tǒng)可以實(shí)現(xiàn)指標(biāo)的自動(dòng)采集,對(duì)于執(zhí)行不理想和存在風(fēng)險(xiǎn)的指標(biāo),系統(tǒng)支持自動(dòng)向管理部門(mén)、執(zhí)行部門(mén)進(jìn)行預(yù)警,支持分項(xiàng)目組的多指標(biāo)預(yù)警。 課程畫(huà)像:面向教師團(tuán)隊(duì),提供課程運(yùn)行、線上教學(xué)活動(dòng)、課程評(píng)價(jià)等數(shù)據(jù),幫助團(tuán)隊(duì)了解課程教學(xué)狀況、優(yōu)勢(shì)和不足,明確改進(jìn)方向。 專(zhuān)業(yè)畫(huà)像:在學(xué)校專(zhuān)業(yè)評(píng)估數(shù)據(jù)的基礎(chǔ)上,從招生情況、專(zhuān)業(yè)建設(shè)和就業(yè)情況3 個(gè)維度呈現(xiàn)專(zhuān)業(yè)發(fā)展?fàn)顩r,助力專(zhuān)業(yè)建設(shè)的持續(xù)改進(jìn)和布局優(yōu)化。 教師和學(xué)生畫(huà)像:由下到上設(shè)計(jì)統(tǒng)計(jì)層、模型層和挖掘?qū)印?其中統(tǒng)計(jì)層實(shí)現(xiàn)縱向分級(jí)下鉆和橫向切片對(duì)比。 模型層通過(guò)對(duì)基本數(shù)據(jù)建模,構(gòu)建多維度、可復(fù)用的數(shù)據(jù)中間件。 挖掘?qū)永脭?shù)據(jù)挖掘算法,對(duì)基本數(shù)據(jù)或中間件進(jìn)行挖掘分析,例如利用關(guān)聯(lián)分析算法,挖掘與學(xué)生學(xué)習(xí)成績(jī)強(qiáng)關(guān)聯(lián)的相關(guān)因素。
健全的管理體系是實(shí)時(shí)數(shù)據(jù)治理的體制機(jī)制保障。首先設(shè)置學(xué)校網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組作為信息化數(shù)據(jù)資源管理工作的領(lǐng)導(dǎo)機(jī)構(gòu),負(fù)責(zé)學(xué)校信息化數(shù)據(jù)資源建設(shè)的統(tǒng)籌工作。 設(shè)置專(zhuān)門(mén)的信息化主管部門(mén)作為領(lǐng)導(dǎo)小組的日常辦事機(jī)構(gòu),負(fù)責(zé)組織、協(xié)調(diào)和推動(dòng)學(xué)校信息化數(shù)據(jù)資源建設(shè)工作,負(fù)責(zé)制定信息化數(shù)據(jù)資源建設(shè)規(guī)劃、標(biāo)準(zhǔn)、規(guī)范等實(shí)施辦法并監(jiān)督落實(shí),負(fù)責(zé)公共數(shù)據(jù)平臺(tái)建設(shè)、運(yùn)行、管理和對(duì)外服務(wù)。 繼而按照“誰(shuí)產(chǎn)生、誰(shuí)負(fù)責(zé)、誰(shuí)維護(hù)”的原則,各責(zé)任部門(mén)負(fù)責(zé)本部門(mén)數(shù)據(jù)資源的統(tǒng)籌規(guī)劃、建設(shè)和目錄編制,執(zhí)行學(xué)校相關(guān)的標(biāo)準(zhǔn)、規(guī)范,按要求向公共數(shù)據(jù)平臺(tái)提供權(quán)威數(shù)據(jù),進(jìn)行數(shù)據(jù)全生命周期管理,并對(duì)數(shù)據(jù)質(zhì)量負(fù)責(zé)。 各部門(mén)負(fù)責(zé)人為本部門(mén)信息化數(shù)據(jù)資源管理的責(zé)任人。 各部門(mén)信息化聯(lián)絡(luò)員具體負(fù)責(zé)本部門(mén)信息化數(shù)據(jù)資源與學(xué)校公共數(shù)據(jù)平臺(tái)對(duì)接、數(shù)據(jù)資源的日常管理、運(yùn)維等工作。
職業(yè)院校大數(shù)據(jù)應(yīng)用的技術(shù)體系、應(yīng)用體系和管理體系的成熟度將決定著數(shù)據(jù)應(yīng)用的深度和廣度。 在前期的實(shí)踐探索中諸多院校已經(jīng)獲得了階段性成效,很好地發(fā)揮了數(shù)據(jù)的價(jià)值,但是在建設(shè)過(guò)程中存在的協(xié)同機(jī)制問(wèn)題和數(shù)據(jù)治理科學(xué)性問(wèn)題阻礙了數(shù)據(jù)的進(jìn)一步應(yīng)用。 首先,數(shù)據(jù)治理不僅依賴(lài)于數(shù)據(jù)技術(shù)進(jìn)步和數(shù)據(jù)應(yīng)用創(chuàng)新,更需要發(fā)揮全校多元主體作用,通過(guò)多樣化治理手段構(gòu)建覆蓋全校各層面的數(shù)據(jù)治理體系。 應(yīng)進(jìn)一步完善數(shù)據(jù)治理相關(guān)的規(guī)章制度,為數(shù)據(jù)治理的“常態(tài)化”提供體制機(jī)制保障。 其次,無(wú)論是數(shù)據(jù)質(zhì)量檢測(cè)方案的制定,還是協(xié)同相關(guān)業(yè)務(wù)部門(mén)進(jìn)行數(shù)據(jù)質(zhì)量整改,應(yīng)探索更具有科學(xué)性、可行性和高效性的工作流程,提高數(shù)據(jù)治理效能,加快釋放數(shù)據(jù)價(jià)值的腳步。
數(shù)據(jù)治理和大數(shù)據(jù)應(yīng)用當(dāng)前已成為高職信息化建設(shè)的主要突破口,2022 年3 月國(guó)家智慧教育公共服務(wù)平臺(tái)正式上線,其中國(guó)家職業(yè)教育智慧教育平臺(tái)將直接集成院校數(shù)據(jù)中心,形成學(xué)校級(jí)畫(huà)像,平臺(tái)的持續(xù)推進(jìn)并充分運(yùn)用將會(huì)帶動(dòng)職業(yè)院校的大數(shù)據(jù)應(yīng)用探索與研究,有助于把職業(yè)教育規(guī)模優(yōu)勢(shì)轉(zhuǎn)化為教育發(fā)展的新優(yōu)勢(shì),推動(dòng)職業(yè)教育的整體數(shù)字化轉(zhuǎn)型。