姚洪
(蘇州科技大學 天平學院,江蘇 蘇州215009)
隨著信息化的發(fā)展,教育信息化2.0 的提出,信息化越來越得到高校單位高層的重視,而數(shù)據(jù)作為最重要的數(shù)字資產,如何高效的管理和治理數(shù)據(jù),是當下信息化發(fā)展的一個重要課題。隨著華為數(shù)據(jù)中臺概念的提出,高校單位開始意識數(shù)據(jù)的治理的重要性,數(shù)據(jù)即是資產,也是財富,對數(shù)據(jù)的存儲和分析是是高效的利用數(shù)據(jù)的基礎,高校的利用數(shù)據(jù)可以高效的實現(xiàn)事務的發(fā)展。
本文針對大數(shù)據(jù)在高校的應用,提出了一套基于數(shù)據(jù)中臺的數(shù)據(jù)治理系統(tǒng),利用數(shù)據(jù)中臺實現(xiàn)業(yè)務數(shù)據(jù)的流轉,數(shù)據(jù)流向的梳理,數(shù)據(jù)質量的清洗,數(shù)據(jù)提供的能力。結合用戶的實現(xiàn)的業(yè)務需求,定制化符合用戶要求的數(shù)據(jù)流,數(shù)據(jù)質量和數(shù)據(jù)能力與實際事務流程的實現(xiàn)點對點的融合,進而實現(xiàn)事務的線上辦事等各種應用系統(tǒng)的建設。利用數(shù)據(jù)治理最大限度的挖掘數(shù)據(jù)的隱含價值,幫助用戶通過數(shù)據(jù)梳理業(yè)務,更好科學進行發(fā)展。
數(shù)據(jù)治理類型可分為應對型治理和主動型治理。應對型數(shù)據(jù)治理指的是通過客戶關系管理(CRM)等“前臺”應用程序,以及企業(yè)資源規(guī)劃(ERP)等“后臺”應用程序授權主數(shù)據(jù)(比如客戶、供應商、產品等)[4]。
數(shù)據(jù)治理可以更有效地將數(shù)據(jù)價值轉化為實際業(yè)務價值。而當前數(shù)據(jù)的“井噴”狀態(tài)仍在持續(xù),機器學習、AI(人工智能)等一類對數(shù)據(jù)質量高依賴的技術也非常的火熱,全球數(shù)字化轉型浪潮也在有條不紊的全面推進中,殼及數(shù)據(jù)治理勢在必行且在未來也將會持續(xù)在數(shù)字戰(zhàn)略計劃里占據(jù)核心地位[5]。而現(xiàn)有的基于數(shù)據(jù)治理相關理論基礎可明確本文要設計和實現(xiàn)的數(shù)據(jù)治理系統(tǒng)的目標及預期效果。
數(shù)據(jù)中臺是一個相對性概念,是對于數(shù)據(jù)后臺和數(shù)據(jù)前臺,將數(shù)據(jù)分為三層,數(shù)據(jù)后臺是各分散業(yè)務數(shù)據(jù),這些數(shù)據(jù)存儲在各業(yè)務系統(tǒng)里,不具有數(shù)據(jù)提供能力和數(shù)據(jù)服務能力;而數(shù)據(jù)前臺是提供給用戶的已經(jīng)治理的有效數(shù)據(jù);數(shù)據(jù)中臺是鏈接數(shù)據(jù)后臺和數(shù)據(jù)前后,將無質量的后臺數(shù)據(jù)匯集在一起,形成大數(shù)據(jù),通過數(shù)據(jù)治理,梳理出有效的數(shù)據(jù)來。
數(shù)據(jù)中臺是數(shù)據(jù)三層結構中的中間層,主要功能是負責據(jù)匯集,數(shù)據(jù)治理和數(shù)據(jù)能力三方面,為應用服務提供個性化數(shù)據(jù)服務能力。
圖1 數(shù)據(jù)治理系統(tǒng)操作流程圖
在大數(shù)據(jù)時代,本課題考慮采用最新的數(shù)據(jù)中臺建設思想來解決數(shù)據(jù)中臺建設過程中可能會出現(xiàn)的問題,實現(xiàn)智能數(shù)據(jù)的構建、管理和應用,為智慧應用的深度建設奠定基礎。
基于數(shù)據(jù)中臺的數(shù)據(jù)治理系統(tǒng)以全業(yè)務散分數(shù)據(jù)為基礎,將數(shù)據(jù)進梳理,通過元數(shù)據(jù)對數(shù)據(jù)進顆粒度度量,用于進數(shù)據(jù)驅動。
數(shù)據(jù)治理系統(tǒng)可以分為以下幾個模塊:數(shù)據(jù)管理、數(shù)據(jù)質量管理、數(shù)據(jù)監(jiān)測查詢這個四部分,這四部分以元數(shù)據(jù)為驅動,以業(yè)務需求的動力,以數(shù)據(jù)能力為目的。
元數(shù)據(jù)管理實現(xiàn)數(shù)據(jù)源的梳理,數(shù)據(jù)引流,數(shù)據(jù)模型的建模,元數(shù)據(jù)屬性模型的建模等。
主數(shù)據(jù)管理實現(xiàn)數(shù)據(jù)的分類,數(shù)據(jù)的編編輯等。
數(shù)據(jù)質量管理實現(xiàn)數(shù)據(jù)的規(guī)制管理,質量校驗,數(shù)據(jù)的血緣關系的梳理及數(shù)據(jù)共享與交換等。
數(shù)據(jù)監(jiān)控實現(xiàn)數(shù)據(jù)的異常行為分析,全文檢索等。
圖1 給出了數(shù)據(jù)治理系統(tǒng)的操作流程圖,當用戶新增數(shù)據(jù)治理操作時可按照該操作流程進行,其中數(shù)據(jù)治理信息管理部分負責數(shù)據(jù)治理操作的基本信息的管理。數(shù)據(jù)的管理與操作以及系統(tǒng)的操作等過程均會受到監(jiān)測,以便及時發(fā)現(xiàn)并解決異常問題。
在創(chuàng)建數(shù)據(jù)表時數(shù)據(jù)庫管理人員已給每個屬性加以說明,但在數(shù)據(jù)分析階段獲取的結果可能與原先的說明不吻合,所以需要為每個應用在數(shù)據(jù)分析階段的屬性配置提供新的注釋和說明,功能流程圖如圖2 所示。
圖2 屬性配置功能流程圖
在屬性配置環(huán)節(jié)僅是給每一屬性添加了前端呈現(xiàn)的相關說明,但對varchar 類型屬性來說,為方便存儲并節(jié)省空間,所以會選擇數(shù)值類型的數(shù)字進行存儲,而數(shù)值型數(shù)據(jù)并不能用作直觀的數(shù)據(jù)分析,所以利用編碼設置功能來實現(xiàn)原先存儲數(shù)值型數(shù)據(jù)的轉換,功能流程圖如圖3 所示。
圖3 編碼設置功能流程圖
系統(tǒng)獲取數(shù)據(jù)源的相關元數(shù)據(jù)信息時會一次性完成信息的獲取,但就用戶而言,難以理解直接呈現(xiàn)的數(shù)據(jù)信息,因此需要在前端部分分為數(shù)據(jù)預覽與單源元數(shù)據(jù)管理兩部分。元數(shù)據(jù)可分為技術元數(shù)據(jù)、業(yè)務元數(shù)據(jù)與過程元數(shù)據(jù)三類,系統(tǒng)自動采集計算這三類數(shù)據(jù)后展示在Web 頁面,如圖4 所示。
圖4 元數(shù)據(jù)信息頁面呈現(xiàn)
本文針對大數(shù)據(jù)在高校的應用,提出了一套基于數(shù)據(jù)中臺的數(shù)據(jù)治理系統(tǒng),以全業(yè)務散分數(shù)據(jù)為基礎,將數(shù)據(jù)進梳理,通過元數(shù)據(jù)對數(shù)據(jù)進顆粒度度量,用于進數(shù)據(jù)驅動,利用數(shù)據(jù)中臺實現(xiàn)業(yè)務數(shù)據(jù)的流轉,數(shù)據(jù)流向的梳理,數(shù)據(jù)質量的清洗,數(shù)據(jù)提供的能力。數(shù)據(jù)治理要貼合業(yè)務需求,才有意義,因此數(shù)據(jù)治理是一個定制化數(shù)據(jù)服務,拋開業(yè)務談數(shù)據(jù)治理是沒有意義,本文只是高校數(shù)據(jù)治理研究的冰山一角。