張米ZHANG Mi;鐘樂海ZHONG Le-hai;邢偉寅XING Wei-yin
(綿陽職業(yè)技術(shù)學(xué)院,綿陽 621000)
隨著國(guó)務(wù)院《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》文件的印發(fā)以及國(guó)家大數(shù)據(jù)戰(zhàn)略的實(shí)施,高校信息化建設(shè)逐步向智能化、數(shù)據(jù)化方向發(fā)展。同時(shí),伴隨著我國(guó)移動(dòng)互聯(lián)網(wǎng)、云計(jì)算技術(shù)的發(fā)展,以及計(jì)算機(jī)存儲(chǔ)能力的提升,近年來高校內(nèi)產(chǎn)生的數(shù)據(jù)量也日益增長(zhǎng)。目前,將大數(shù)據(jù)運(yùn)用于教學(xué)與科研是一種趨勢(shì),通過對(duì)遍布教、學(xué)、研多層面的數(shù)據(jù)進(jìn)行整合,能夠從根本上為教育、科研帶來全方位的提升。但目前存在著數(shù)據(jù)數(shù)據(jù)采集困難、數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)不規(guī)范、數(shù)據(jù)共享難度大等諸多數(shù)據(jù)質(zhì)量問題。而數(shù)據(jù)治理是保證數(shù)據(jù)質(zhì)量的必需手段,數(shù)據(jù)治理的效果取決于是否建立一個(gè)科學(xué)、合理的治理體系。本文從高校大數(shù)據(jù)管理現(xiàn)狀出發(fā),嘗試探索高職院校大數(shù)據(jù)治理體系,為高職院校的數(shù)據(jù)治理提供參考。
目前,各高校為邁入人工智能時(shí)代,都積極投身到信息化校園建設(shè)中,努力從數(shù)字化校園向智慧校園轉(zhuǎn)變。然而,在推進(jìn)的過程中,業(yè)務(wù)數(shù)據(jù)單獨(dú)管理、數(shù)據(jù)管理標(biāo)準(zhǔn)不一致等,導(dǎo)致“信息孤島”現(xiàn)象嚴(yán)重、數(shù)據(jù)質(zhì)量低、冗余度高、可用性低、共享難等問題。具體表現(xiàn)在:
信息化建設(shè)初期,各業(yè)務(wù)部門為方便內(nèi)部業(yè)務(wù)管理,依據(jù)部門業(yè)務(wù)特征,單獨(dú)建立業(yè)務(wù)系統(tǒng)平臺(tái)。由于缺乏統(tǒng)一的數(shù)據(jù)管理標(biāo)準(zhǔn)和規(guī)劃,系統(tǒng)平臺(tái)間相互獨(dú)立,代碼標(biāo)準(zhǔn)、數(shù)據(jù)標(biāo)準(zhǔn)不一致導(dǎo)致信息交換和數(shù)據(jù)資源共享困難,加大了數(shù)據(jù)清洗、整合的難度。
數(shù)據(jù)是金礦,高校擁有高質(zhì)量的數(shù)據(jù),由于數(shù)據(jù)僅僅存儲(chǔ)于數(shù)據(jù)庫中,沒有合理的整合和處理,導(dǎo)致缺少實(shí)用的數(shù)據(jù)應(yīng)用與服務(wù)。
高校信息化是全民信息化,信息化發(fā)展需要校內(nèi)各業(yè)務(wù)部門人員的參與,但目前存在信息化水平不高、管理經(jīng)驗(yàn)缺乏、數(shù)據(jù)監(jiān)管不全面、管理標(biāo)準(zhǔn)缺失等問題。當(dāng)出現(xiàn)突發(fā)問題時(shí),缺乏有效的定位方法,并且無法提前感知風(fēng)險(xiǎn)。
IT&Iot數(shù)據(jù)+業(yè)務(wù)系統(tǒng)數(shù)據(jù)+網(wǎng)絡(luò)數(shù)據(jù),構(gòu)成了校園全息數(shù)據(jù),但由于缺乏統(tǒng)一的數(shù)據(jù)管理標(biāo)準(zhǔn)和規(guī)范,導(dǎo)致數(shù)據(jù)質(zhì)量低下、可用性不高,無法清晰的掌控?cái)?shù)據(jù)資產(chǎn)。
實(shí)現(xiàn)全校結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的采集,按照國(guó)家標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)的整合,清洗,提升數(shù)據(jù)的質(zhì)量,全面掌握學(xué)校數(shù)據(jù)資產(chǎn)的情況。
數(shù)據(jù)源于業(yè)務(wù),同時(shí)也服務(wù)于業(yè)務(wù),建立標(biāo)準(zhǔn)、便捷、易用、透明的數(shù)據(jù)管理方式,提高數(shù)據(jù)服務(wù)在應(yīng)用開發(fā)、使用過程中的效率,最終實(shí)現(xiàn)數(shù)據(jù)的業(yè)務(wù)化。
數(shù)據(jù)平臺(tái)作為半開放的平臺(tái),高校、企業(yè)、師生共同在該平臺(tái)上構(gòu)建上層應(yīng)用服務(wù),打造高校的應(yīng)用服務(wù)生態(tài)圈。最終,為師生提供豐富的應(yīng)用服務(wù)選擇。
圖1為數(shù)據(jù)服務(wù)平臺(tái)的總體架構(gòu),按照“理、采、存、管、服、用”的解決方案思路,將數(shù)據(jù)服務(wù)平臺(tái)分為數(shù)據(jù)治理、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用三大模塊。①數(shù)據(jù)治理層主要梳理分析源數(shù)據(jù)模型,制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),構(gòu)建數(shù)據(jù)模型;根據(jù)構(gòu)建的數(shù)據(jù)模型,將源數(shù)據(jù)中的數(shù)據(jù)根制定的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行采集;采用大數(shù)據(jù)存儲(chǔ)技術(shù)(Hadoop/Clickhouse)和關(guān)系型數(shù)據(jù)存儲(chǔ)技術(shù)(Oracle/Mysql)來存儲(chǔ)過程數(shù)據(jù)和主數(shù)據(jù)。②數(shù)據(jù)管理層主要包括數(shù)據(jù)質(zhì)量、安全、和主數(shù)據(jù)管理三個(gè)方面的內(nèi)容。數(shù)據(jù)模型是數(shù)據(jù)治理的根基,治理的目的是服務(wù)和共享,平臺(tái)提供基礎(chǔ)數(shù)據(jù)服務(wù),包括數(shù)據(jù)運(yùn)算服務(wù)、數(shù)據(jù)共享服務(wù)和預(yù)警服務(wù)。③數(shù)據(jù)應(yīng)用層主要根據(jù)學(xué)校的實(shí)際需求進(jìn)行定制個(gè)性化的分析和服務(wù)平臺(tái),如校情大數(shù)據(jù)、智慧教學(xué)大數(shù)據(jù)、智慧學(xué)工大數(shù)據(jù)和個(gè)人數(shù)據(jù)中心等。
圖1 數(shù)據(jù)服務(wù)平臺(tái)總體架構(gòu)
3.2.1 制定數(shù)據(jù)標(biāo)準(zhǔn)
大數(shù)據(jù)的獲取依賴于自動(dòng)化的收集機(jī)制以及明確的數(shù)據(jù)來源。高職院校治理大數(shù)據(jù)主要來源于學(xué)校內(nèi)外部的多個(gè)主體。內(nèi)部主體包括:學(xué)生數(shù)據(jù)子集,如學(xué)工平臺(tái)學(xué)生基礎(chǔ)信息、教務(wù)系統(tǒng)課程學(xué)習(xí)信息、一卡通平臺(tái)學(xué)生消費(fèi)信息、就業(yè)系統(tǒng)學(xué)生就業(yè)創(chuàng)業(yè)信息、圖書管理平臺(tái)學(xué)生借閱信息等;教師數(shù)據(jù)子集,如人事系統(tǒng)教師基礎(chǔ)信息,科研平臺(tái)教師科研信息,學(xué)工平臺(tái)教師工作信息等;以及元數(shù)據(jù)和其他信息。外部主體包括政府、企業(yè)、校友群等,這些數(shù)據(jù)也會(huì)包括多個(gè)數(shù)據(jù)子集。要實(shí)現(xiàn)跨部門、跨系統(tǒng)、跨業(yè)務(wù)的處理,必然要形成統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范。根據(jù)專家調(diào)研結(jié)果,以國(guó)家標(biāo)準(zhǔn)、教育部推薦標(biāo)準(zhǔn)和其他學(xué)校數(shù)據(jù)標(biāo)準(zhǔn)作為參考,兼顧標(biāo)準(zhǔn)之間的兼容性、一致性和可擴(kuò)展性,制定了相應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范。
3.2.2 構(gòu)建數(shù)據(jù)模型
在《中華人民共和國(guó)教育行業(yè)標(biāo)準(zhǔn)》的基礎(chǔ)上,根據(jù)學(xué)校的數(shù)據(jù)建設(shè)標(biāo)準(zhǔn)和高校數(shù)據(jù)治理的經(jīng)驗(yàn)構(gòu)建了14個(gè)數(shù)據(jù)子集,并構(gòu)建200多個(gè)基礎(chǔ)的數(shù)據(jù)模型用于學(xué)校各類型的數(shù)據(jù)存儲(chǔ)。
高校產(chǎn)生的數(shù)據(jù)量大且種類繁多,為理清數(shù)據(jù)所反映的主題和內(nèi)容,特此引入了主題數(shù)據(jù),即主數(shù)據(jù)。通過主數(shù)據(jù)管理,再次進(jìn)行數(shù)據(jù)整合,把反映主題業(yè)務(wù)真實(shí)情況最準(zhǔn)確、最及時(shí)的數(shù)據(jù)集成為對(duì)某一事件或主題的數(shù)據(jù)指標(biāo)。如在高職院校的專業(yè)發(fā)展中,主數(shù)據(jù)主要表現(xiàn)為學(xué)生基本信息、教師基本信息、院系機(jī)構(gòu)信息、專業(yè)信息、班級(jí)信息、課程信息等指標(biāo)。
3.2.3 數(shù)據(jù)采集與清洗
在治理體系中,融合了多源全息數(shù)據(jù),包括校內(nèi)數(shù)據(jù)(業(yè)務(wù)系統(tǒng)數(shù)據(jù),如教務(wù)、學(xué)工、圖書、一卡通等)和校外數(shù)據(jù)(網(wǎng)絡(luò)爬蟲數(shù)據(jù),如互聯(lián)網(wǎng)數(shù)據(jù)),包含了原始結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。為滿足我們流式實(shí)時(shí)采集和批量定時(shí)采集的需求,具體采集過程如下:
通過學(xué)生上網(wǎng)數(shù)據(jù),獲取日志數(shù)據(jù)、Wi-Fi節(jié)點(diǎn)數(shù)據(jù)、智慧教室物聯(lián)數(shù)據(jù);
通過FLUME,獲取位置數(shù)據(jù)、網(wǎng)絡(luò)行為數(shù)據(jù)、學(xué)生/教師認(rèn)證數(shù)據(jù);
通過外網(wǎng)爬蟲,獲取URL、WEB、站點(diǎn)信息;
通過內(nèi)網(wǎng)爬蟲,獲取校內(nèi)網(wǎng)業(yè)務(wù)數(shù)據(jù)、校內(nèi)網(wǎng)URL、校內(nèi)網(wǎng)WEB;
通過嵌入式Agent,獲取URL、WEB、站點(diǎn)信息;
通過Piwik,獲取網(wǎng)頁軌跡、操作行為、操作路徑;
ETL+可視化數(shù)據(jù)采集工具,獲取實(shí)時(shí)/非實(shí)時(shí)業(yè)務(wù)系統(tǒng)數(shù)據(jù)。
將從多源系統(tǒng)中抽取的現(xiàn)存數(shù)據(jù)以及歷史數(shù)據(jù),按照一定的規(guī)則把殘缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)以及重復(fù)數(shù)據(jù)過濾掉。對(duì)于過濾掉的數(shù)據(jù),做個(gè)備份文件,發(fā)送給業(yè)務(wù)系統(tǒng)部門以便修正錯(cuò)誤,同時(shí)為將來驗(yàn)證數(shù)據(jù)提供依據(jù),也避免將有用的數(shù)據(jù)過濾掉。
3.2.4 數(shù)據(jù)存儲(chǔ)與校驗(yàn)
為了確保數(shù)據(jù)的高質(zhì)量,治理體系增加了數(shù)據(jù)校驗(yàn)組件,數(shù)據(jù)校驗(yàn)組件會(huì)根據(jù)數(shù)據(jù)標(biāo)準(zhǔn),校驗(yàn)數(shù)據(jù)治理組件傳輸過來的數(shù)據(jù),對(duì)不符合要求的數(shù)據(jù),直接丟棄并將結(jié)果反饋給數(shù)據(jù)治理組件,以便數(shù)據(jù)治理組件對(duì)其組件進(jìn)行調(diào)整,以滿足校驗(yàn)規(guī)則的要求。最后將符合校驗(yàn)規(guī)則的高質(zhì)量數(shù)據(jù)存儲(chǔ)在分布式數(shù)據(jù)庫中。
3.2.5 數(shù)據(jù)應(yīng)用展示
在數(shù)據(jù)治理以及數(shù)據(jù)管理的基礎(chǔ)上,構(gòu)建上層應(yīng)用,如校情大數(shù)據(jù)分析、教學(xué)大數(shù)據(jù)、學(xué)工大數(shù)據(jù)、個(gè)人數(shù)據(jù)中心等全場(chǎng)景數(shù)據(jù)應(yīng)用,為學(xué)校的教學(xué)、科研、管理與服務(wù)提供決策支撐。
圖2 校情大數(shù)據(jù)分析應(yīng)用
圖3 學(xué)工大數(shù)據(jù)分析應(yīng)用
通過數(shù)據(jù)治理的實(shí)施以及大數(shù)據(jù)中心平臺(tái)的建成,為智慧校園的推進(jìn)解決了數(shù)據(jù)孤島、數(shù)據(jù)準(zhǔn)確性以及一致性問題,使信息化建設(shè)的過程事半功倍。目前,高職院校數(shù)據(jù)治理還處于一個(gè)初步探索階段,同時(shí)數(shù)據(jù)治理本身也是一個(gè)需要持續(xù)推進(jìn)、逐步完善、分布迭代的過程,因此,我們也要不斷推進(jìn)數(shù)據(jù)治理過程,以達(dá)到“連續(xù)的、螺旋上升”的數(shù)據(jù)質(zhì)量保證體系,實(shí)現(xiàn)大數(shù)據(jù)治理體系與智慧校園建設(shè)的深度融合,為高職院校的教育、科研、管理等工作做出貢獻(xiàn),同時(shí)也為師生更好地工作、學(xué)習(xí)提供便利。