俞天均
[摘 要]近年來,高職院校教育信息化建設發(fā)展迅速,信息化建設和管理水平得到顯著提升,雖然校園網的信息資源不斷豐富,應用系統(tǒng)逐步完善,但數(shù)據(jù)治理相關問題日益突出。為了提升數(shù)據(jù)質量和數(shù)據(jù)價值,以及擴大數(shù)據(jù)的應用范圍,文章提出高職院校有必要啟動全面的數(shù)據(jù)治理工作,以滿足快速增長的智慧服務對各類高質量數(shù)據(jù)的廣泛需求。
[關鍵詞]“雙高”;高職;數(shù)據(jù)治理
doi:10.3969/j.issn.1673 - 0194.2023.22.073
[中圖分類號]G717[文獻標識碼]A[文章編號]1673-0194(2023)22-0224-03
1? ? ?高職院校數(shù)據(jù)治理的背景
2020年2月,教育部印發(fā)《2020年教育信息化和網絡安全工作要點》,重點提到了教育行業(yè)的數(shù)據(jù)管理問題。文件將“全面推進教育治理能力優(yōu)化行動”列為重點工作內容,并且明確提出“推進政務信息系統(tǒng)整合共享……按照‘一數(shù)一源的原則,完成《教育管理信息化數(shù)據(jù)標準體系框架》等數(shù)據(jù)標準的制定和發(fā)布。建立教育部直屬機關數(shù)據(jù)溯源圖譜。推動教育數(shù)據(jù)的有序共享,擴大數(shù)據(jù)共享范圍,提高數(shù)據(jù)共享效率,更好地支撐各地政務服務應用……”。
為貫徹落實《四川省職業(yè)教育改革實施方案》,根據(jù)四川省教育廳、四川省財政廳《關于實施四川省高水平高等職業(yè)學校和高水平專業(yè)群建設計劃的意見》(川教〔2021〕24號)和《關于開展四川省高水平高等職業(yè)學校和高水平專業(yè)群建設計劃項目申報的通知》(川教函〔2021〕86號)要求,四川省教育廳擬立項建設22所高水平高等職業(yè)學校(含8所“國家雙高”建設學校)、50個高水平專業(yè)群和15所高水平高等職業(yè)培育學校。四川信息職業(yè)技術學院為C檔高水平高職院校建設單位,物聯(lián)網應用技術專業(yè)群和軟件技術專業(yè)群為C檔高水平建設專業(yè)群。學校“雙高”建設方案項目九“升級智慧校園,打造高職院信息化標桿”中將“提升數(shù)據(jù)治理水平,實現(xiàn)智能化決策支持”列為重要基礎建設內容。
四川信息職業(yè)技術學院目前由于技術限制和沒有信息標準約束指導等問題,部門對數(shù)據(jù)的管理只實現(xiàn)了基本的數(shù)據(jù)交換,未從根本上解決數(shù)據(jù)標準、數(shù)據(jù)集成、數(shù)據(jù)質量、數(shù)據(jù)開放的問題,嚴重阻礙學校信息化建設向智慧校園發(fā)展的持續(xù)推進。
2? ? ?高職院校數(shù)據(jù)治理面臨的問題
在新時代背景下,如何推動教育數(shù)據(jù)健康有序的發(fā)展,已經成為高校適應新時代教育發(fā)展的要求,也是高校在競爭日益激烈的環(huán)境中取得優(yōu)勢的關鍵[1]。近年來,高職院校信息化建設伴隨學校的發(fā)展而發(fā)展,信息化設備、業(yè)務系統(tǒng)、信息資源等不斷得到豐富和完善,信息化建設和管理水平也得到顯著的提升。各層面對數(shù)據(jù)依賴和需求不斷增加,且更加多樣性和綜合化。目前主要面臨以下問題。
2.1? ?數(shù)據(jù)采集困難
高職院?,F(xiàn)有數(shù)據(jù)集成工具功能不足。以四川信息職業(yè)技術學院所使用的Oracle數(shù)據(jù)集成器(Oracle Data Integrator,ODI)這一數(shù)據(jù)集成工具為例,該工具不但功能缺項,還原始、老舊、難用,是數(shù)據(jù)采集工作中的“雞肋”,阻礙了數(shù)據(jù)高效和準確采集。
2.2? ?開放共享混亂
數(shù)據(jù)共享管理比較混亂,當教職工需要數(shù)據(jù)時,到處打電話問哪個部門有數(shù)據(jù)、誰在管理數(shù)據(jù),再以不規(guī)范的流程獲得數(shù)據(jù)。
2.3? ?數(shù)據(jù)時效性差
系統(tǒng)間數(shù)據(jù)同步機制原始。以四川信息職業(yè)技術學院為例,目前有部分系統(tǒng)(如網絡教學系統(tǒng))采取電子表格方式導入數(shù)據(jù),這樣手動導入數(shù)據(jù),更新周期慢,影響業(yè)務正常開展。
2.4? ?可用數(shù)據(jù)少
數(shù)據(jù)重復、數(shù)據(jù)錯誤、數(shù)據(jù)缺值、數(shù)據(jù)失效、數(shù)據(jù)沖突等質量問題,導致數(shù)據(jù)無法共享,無法利用[2]。以四川信息職業(yè)技術學院為例,除部門信息、人員基本信息、崗位職務信息通過“智慧川信”數(shù)據(jù)庫以視圖的方式進行共享外,很多數(shù)據(jù)都沒有被集中采集、管理和應用,這直接導致整個平臺無有效數(shù)據(jù)可用,嚴重影響了相關工作。
總之,目前高職院校對數(shù)據(jù)治理的認識和管理還處于較低層次,對數(shù)據(jù)的利用也還處于初級階段。
3? ? ?解決高職院校數(shù)據(jù)治理面臨問題的建議
數(shù)據(jù)治理(Data Governance)是在數(shù)字技術與治理理論的交叉融合過程中衍生出來的,信息化時代數(shù)據(jù)成為社會發(fā)展的核心要素[3]。為了有效開展數(shù)據(jù)治理,首先需要建設數(shù)據(jù)治理平臺,然后開展數(shù)據(jù)治理工作。通過數(shù)據(jù)治理平臺的建設,從根本上解決信息標準、數(shù)據(jù)集成、數(shù)據(jù)質量、數(shù)據(jù)模型、數(shù)據(jù)開放共享和數(shù)據(jù)安全等問題。通過信息標準建設解決信息標準不統(tǒng)一、數(shù)據(jù)多源頭等問題;通過數(shù)據(jù)集成建設解決基礎數(shù)據(jù)不完整、數(shù)據(jù)孤島等問題;通過數(shù)據(jù)質量管理建設提高數(shù)據(jù)的準確性和規(guī)范性;通過數(shù)據(jù)建模建設解決代碼標準不統(tǒng)一、數(shù)據(jù)管理冗余重復等問題;數(shù)據(jù)開放共享建設解決數(shù)據(jù)開放、數(shù)據(jù)共享的問題;數(shù)據(jù)安全建設解決大數(shù)據(jù)中心運維監(jiān)測與數(shù)據(jù)集成和開放安全性等相關問題。
3.1? ?制定信息標準,規(guī)范數(shù)據(jù)管理
信息標準作為數(shù)據(jù)治理的重要組成部分,對規(guī)范和指導、落實和推進數(shù)據(jù)治理具有重要作用[4]。數(shù)據(jù)標準管理用以規(guī)范數(shù)據(jù)資產的結構、格式、規(guī)范、準確性和一致性。結合高校的業(yè)務場景,將標準梳理為公共屬性、代碼集和編碼規(guī)則3個部分。
(1)標準管理:支持標準的生成和維護,可以按照實際的業(yè)務需求,生成標準細則,可對標準進行增刪改查導入導出的操作。支持標準版本生成及對標準版本之間的差異比對。通過標準的血緣查看各單位、業(yè)務系統(tǒng)、表、字段之間的關聯(lián)和標準的變動帶來的影響。
(2)標準檢索:使用者通過輸入關鍵字詞的形式在數(shù)據(jù)標準中匹配關聯(lián)出相應的標準細項,依據(jù)檢索目的在結果中瀏覽標準明細,程序通過算法記憶搜索熱詞,降低檢索操作的復雜程度。
(3)標準監(jiān)測:通過程序識別平臺中添加的業(yè)務系統(tǒng)的元數(shù)據(jù)信息,將業(yè)務系統(tǒng)中標準相關的信息同數(shù)據(jù)標準進行比對,通過可視化報告的形式提示給系統(tǒng)管理員,監(jiān)測業(yè)務系統(tǒng)和標準之間的差異。
(4)標準評價:通過信息項的關聯(lián)和標準監(jiān)測,生成標準評價報告,直觀地通過評分和報告的形式展示業(yè)務系統(tǒng)的現(xiàn)狀和提升的方式,并對業(yè)務系統(tǒng)和標準吻合程度的變化趨勢進行可視化呈現(xiàn)。
(5)標準引用:標準發(fā)布后,主版本的標準將推送至系統(tǒng)前臺展示,展示的標準支持被業(yè)務部門通過接口調用的方式引用,引用后,可對引用標準的業(yè)務系統(tǒng)進行監(jiān)測,觀測其標準落地的情況。
3.2? ?集成數(shù)據(jù)資源,匯聚形成數(shù)據(jù)湖
鑒于高職院校教育數(shù)據(jù)的龐大性和異質性,數(shù)據(jù)的整合和分析是非常關鍵的一步。如何將不同的數(shù)據(jù)結構化并以計算機能夠明白的方式進行編碼是其中的核心[5]。以需求為驅動,以數(shù)據(jù)多樣性的全域思想為指導,采集全業(yè)務、多終端、多形態(tài)的數(shù)據(jù)。鑒于數(shù)據(jù)的多樣性,本文主要通過下面3種方式采集數(shù)據(jù)。
(1)抽取—轉換—加載(Extract-Transform-Load,ETL)數(shù)據(jù)采集:ETL數(shù)據(jù)集成處理架構是從數(shù)據(jù)源抽取所需的數(shù)據(jù),經過數(shù)據(jù)清洗,由數(shù)據(jù)湖將數(shù)據(jù)傳送到數(shù)據(jù)倉庫,完成數(shù)據(jù)倉庫的構建。也可以根據(jù)上層的應用需求,隨時從數(shù)據(jù)湖中抽取想要的原始數(shù)據(jù)進行建模分析。
(2)離線數(shù)據(jù)采集:具備線下數(shù)據(jù)維護和處理的能力,通過權限的控制,讓非專業(yè)的用戶可對規(guī)定范圍內的數(shù)據(jù)完成上傳、編輯、刪除、查看等操作,可視化的操作界面和友好的文字提示極大降低了數(shù)據(jù)維護的成本。
(3)機器數(shù)據(jù)采集:依托于大數(shù)據(jù)的體系架構,具備Flume、二進制、簡單網絡管理協(xié)議(Simple Network Management Protocol,SNMP)、Sqoop采集的能力,可以全面監(jiān)測數(shù)據(jù)采集趨勢圖,完整查看數(shù)據(jù)輸出到HDFS路徑監(jiān)控。
3.3? ?設計數(shù)據(jù)模型,契合數(shù)據(jù)標準
通過構建統(tǒng)一的、符合標準的數(shù)據(jù)模型,解決線下管理數(shù)據(jù)模型分散、無可視化管控過程,數(shù)據(jù)模型和數(shù)據(jù)標準分離,無法有效落地等問題。
(1)模型設計:提供數(shù)據(jù)建模的能力,通過引用數(shù)據(jù)標準屬性和代碼對數(shù)據(jù)模型進行標準化設計,從根源上保證數(shù)據(jù)模型與數(shù)據(jù)標準的一致性,方便數(shù)據(jù)管理。
(2)模型管理:實現(xiàn)數(shù)據(jù)模型建設全過程的流程化和透明化,支持數(shù)據(jù)模型的版本管理,可對不同版本的模型進行比對,查看變更明細,輔助實施人員管理不同版本的模型,并可回溯到任意節(jié)點的模型設計狀態(tài),強化模型管控能力。
3.4? ?配置質量檢測規(guī)則和任務,不斷提升數(shù)據(jù)質量
數(shù)據(jù)質量是保證數(shù)據(jù)挖掘、分析和應用效果的基礎。通過數(shù)據(jù)質量管理可以獲得干凈、清晰、完整的數(shù)據(jù),進而反哺業(yè)務,發(fā)揮數(shù)據(jù)價值的作用,也是大數(shù)據(jù)建設的重要前提,系統(tǒng)從數(shù)據(jù)使用的角度監(jiān)控數(shù)據(jù)資產的質量,并以可視化報告的形式反映質量問題,輔助高校持續(xù)不斷提升數(shù)據(jù)質量。
(1)質量檢測規(guī)則配置:通過可視化的界面對質量檢測規(guī)則進行配置,包括但不限于對數(shù)據(jù)資產數(shù)據(jù)空置率、填充率、合規(guī)性、數(shù)據(jù)總量、用戶量、數(shù)據(jù)重復率、數(shù)據(jù)驗證、數(shù)據(jù)一致性、數(shù)據(jù)質量通用規(guī)則進行自定義配置。
(2)質量檢測任務:靈活自由配置質量檢測的任務,并基于一定的頻率和周期執(zhí)行。
(3)質量需求管理:收集和分類數(shù)據(jù)使用過程中產生的問題,為后續(xù)質量模塊功能的開發(fā)和質量檢測規(guī)則的制定提供重要依據(jù)。
(4)數(shù)據(jù)質量報告:基于數(shù)據(jù)質量檢測規(guī)則和任務,可定期形成數(shù)據(jù)質量報告。提供豐富多樣的圖表展示和多維度的統(tǒng)計展示,使得枯燥的數(shù)據(jù)質量情況更加形象生動,幫助各部門(二級學院)對數(shù)據(jù)質量有統(tǒng)一的認識,也幫助數(shù)據(jù)管理者對數(shù)據(jù)資產質量情況有更為準確的了解,為提升數(shù)據(jù)資產的質量,尋找優(yōu)化空間,為制訂質量提升方案提供依據(jù)和指導。
3.5? ?構建數(shù)據(jù)開放體系,形成數(shù)據(jù)共享樞紐
數(shù)據(jù)目錄是數(shù)據(jù)共享和實現(xiàn)數(shù)據(jù)前后臺聯(lián)通、業(yè)務與數(shù)據(jù)管理聯(lián)動的載體。數(shù)據(jù)共享管理主要是實現(xiàn)對外的數(shù)據(jù)發(fā)布和共享。數(shù)據(jù)對外開放可以將數(shù)據(jù)中符合共享開放層級的信息作為數(shù)據(jù)商品,以合規(guī)安全的形式完成開放發(fā)布。數(shù)據(jù)共享是高校開展數(shù)據(jù)資產運營的前提條件。
(1)數(shù)據(jù)目錄:以目錄的形式,將數(shù)據(jù)按照業(yè)務屬性或部門歸屬,劃分到各個目錄中,可以按照目錄對數(shù)據(jù)進行統(tǒng)計、監(jiān)測和溯源。目錄分為主題目錄和部門目錄兩部分,部門目錄以部門為視角展示部門數(shù)據(jù)資產的情況,包括資產內容、資產質量等;主題目錄可以將數(shù)據(jù)以不同主題注冊為數(shù)據(jù)資產,提供用戶申請和使用。
(2)數(shù)據(jù)清單:提供將數(shù)據(jù)發(fā)布為數(shù)據(jù)資產的能力,以應用程序接口(Application Program Interface,API)、ETL接口、數(shù)據(jù)庫(Data Base,DB)直連、文本等格式發(fā)布數(shù)據(jù),在數(shù)據(jù)發(fā)布時,可以控制數(shù)據(jù)的具體參數(shù),并將數(shù)據(jù)注冊到具體的目錄中,提供用戶使用。
(3)開放監(jiān)測:產品支持通過接口調用頻率的監(jiān)控、調用次數(shù)的監(jiān)控、調用地址黑白名單的控制、異常調用的監(jiān)測、控制數(shù)據(jù)訪問時間等手段,實現(xiàn)對數(shù)據(jù)調用的控制,保證數(shù)據(jù)的安全。
3.6? ?筑牢數(shù)據(jù)安全,助力數(shù)據(jù)治理可持續(xù)發(fā)展
數(shù)據(jù)安全管理是指通過管理和技術手段,通過對數(shù)據(jù)的安全定級、脫敏規(guī)則的設置及敏感數(shù)據(jù)操作日志的引用和監(jiān)測,保證數(shù)據(jù)資產使用過程的安全。
(1)數(shù)據(jù)安全等級劃分:按照數(shù)據(jù)安全相關法律政策的要求和高校實際的業(yè)務場景,通過評估數(shù)據(jù)安全風險、制定數(shù)據(jù)安全管理制度規(guī)范,對數(shù)據(jù)進行安全分級分類。根據(jù)不同安全等級,對數(shù)據(jù)定制不同的申請審批和使用策略,保證數(shù)據(jù)被合法合規(guī)、安全地采集、傳輸、存儲和使用。
(2)數(shù)據(jù)脫敏:支持設置數(shù)據(jù)脫敏規(guī)則、脫敏算法,包括但不限于數(shù)據(jù)加密、數(shù)據(jù)替換、數(shù)據(jù)掩碼、數(shù)據(jù)重排、數(shù)據(jù)偏移、數(shù)據(jù)階段、數(shù)據(jù)組合等。平臺支持多種可逆、不可逆數(shù)據(jù)脫敏算法,用戶可以自行指定所需要數(shù)據(jù)進行脫敏處理。通過識別用戶設置脫敏任務,輻射數(shù)據(jù)中臺管理系統(tǒng)的相關模塊,由系統(tǒng)自動完成數(shù)據(jù)流轉過程中的脫敏操作。
(3)日志審計:審計數(shù)據(jù)安全,監(jiān)測用戶身份和行為,記錄數(shù)據(jù)的操作日志,對異常行為進行監(jiān)控。
4? ? ?結束語
在高職院?!半p高”建設教育信息化道路上,隨著“數(shù)據(jù)為王”時代的到來,數(shù)據(jù)治理工作是繞不開的“坎”,每個學校的基礎、能力又不盡相同,要想跟上時代的發(fā)展步伐,只有在不斷學習的基礎上結合自身實際去研究和實踐,才可能走出適合自己的數(shù)據(jù)治理道路,為學校的“雙高”建設添磚加瓦。
主要參考文獻
[1]董曉輝,馬威.高校數(shù)據(jù)治理的價值與特征[J].網絡安全與數(shù)據(jù)治理,2023(2):43-47.
[2]董曉輝,鄭小斌,彭義平.高校教育大數(shù)據(jù)治理的框架設計與實施[J].中國電化教育,2019(8):63-71.
[3]代玉,王慧珍.高等教育領域數(shù)據(jù)治理的邏輯框架與實施路徑[J].黑龍江高教研究,2021(10):41-45.
[4]劉金松.數(shù)據(jù)治理:高等教育治理工具轉型研究[J].中國電化教育,2018(12):39-45.
[5]許曉東,王錦華,卞良,等.高等教育的數(shù)據(jù)治理研究[J].高等工程教育研究,2015(5):25-30.