張永智 何可人
(常州大學 信息化建設(shè)與管理處 江蘇省常州市 213164)
信息化技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、VR技術(shù)、人工智能等在社會中的積極應用,正逐步影響和改變著人們的工作和生活。同時,智能信息技術(shù)應用于教育的呼聲也越來越高。智慧校園是教育信息化的高級體現(xiàn),重塑學生日常學習和生活,構(gòu)建共享、智能、便捷、豐富的校園教育環(huán)境,為高校的管理、教學、學習提供全方位支撐。全量數(shù)據(jù)中心則作為各個信息化業(yè)務系統(tǒng)的基礎(chǔ)運行平臺,為智慧校園提供服務,因此可以認為全量數(shù)據(jù)中心是智慧校園的核心之一。
經(jīng)過多年的信息化建設(shè),許多高校已初步完成數(shù)字化校園的相關(guān)應用系統(tǒng)建設(shè),為學校的校務管理、師生服務、對外交流做出了很大的貢獻。但是隨著校園規(guī)模的擴大、師生數(shù)量的增加和業(yè)務的日益繁雜,數(shù)字化校園時期的業(yè)務信息系統(tǒng)基本是按照業(yè)務條線縱向建設(shè)的,目前存在著各種“痛”點[1-5]。
各業(yè)務系統(tǒng)之間關(guān)聯(lián)度不高,除了賬號等基礎(chǔ)共享數(shù)據(jù)外,很少進行數(shù)據(jù)交換,缺乏深度融合和跨業(yè)務系統(tǒng)的數(shù)據(jù)分析。業(yè)務系統(tǒng)所采用的數(shù)據(jù)標準或者代碼標準也不盡相同,客觀上造成了“數(shù)據(jù)孤島”。
業(yè)務信息系統(tǒng)的使用與線下數(shù)據(jù)傳遞,導入導出方式并存。導致業(yè)務系統(tǒng)中的數(shù)據(jù)更新不及時,多線上報,造成混亂,數(shù)據(jù)可信度低。
有些數(shù)據(jù)缺少權(quán)威數(shù)據(jù)源,各業(yè)務系統(tǒng)都有錄入和存儲,準確性不高;數(shù)據(jù)記錄丟失或缺少必要的屬性,完整性不高;業(yè)務系統(tǒng)數(shù)據(jù)之間不能有效交換,冗余數(shù)據(jù)、沖突數(shù)據(jù)、垃圾數(shù)據(jù)都普遍存在;數(shù)據(jù)產(chǎn)生過程中,上下游、關(guān)聯(lián)關(guān)系缺失或有誤,影響數(shù)據(jù)分析結(jié)果,不能有效支持管理決策。
基礎(chǔ)源頭數(shù)據(jù)的不足或缺失,造成數(shù)據(jù)治理效果一般,無法支撐上層數(shù)據(jù)共享,應用,分析,賦能等使用。對學校的校情、師生畫像、科研動向、虛擬校園、孿生校園等缺乏全面的數(shù)據(jù)支持。
高校數(shù)據(jù)越來越呈現(xiàn)多元化的發(fā)展態(tài)勢,從數(shù)據(jù)存儲的量級、數(shù)據(jù)提供的方式、數(shù)據(jù)管理的要求以及數(shù)據(jù)的隱私和安全等方面考慮,傳統(tǒng)的數(shù)據(jù)中心架構(gòu)模式已無法滿足高校當下對于數(shù)據(jù)深層次挖掘利用的需求。
高校信息化的建設(shè)過程,也是融合信息系統(tǒng)、互通應用資源、提供多樣化服務、處理海量化數(shù)據(jù)、支持個性化應用與服務的過程。“數(shù)據(jù)”是建設(shè)智慧校園的底層支撐環(huán)境,只有將校園內(nèi)各個業(yè)務系統(tǒng)數(shù)據(jù)壁壘打通,智慧校園建設(shè)才算有一定成效。因此,“全量數(shù)據(jù)中心”將成為智慧校園建設(shè)的核心匯聚點,各種來源、不同類型的數(shù)據(jù)源源不斷地匯聚到數(shù)據(jù)中心,提供對校園內(nèi)全面、完整的數(shù)據(jù)管理。本文中的全量數(shù)據(jù)中心采用基于大數(shù)據(jù)技術(shù)的Hadoop分布式系統(tǒng)框架進行建設(shè)。Hadoop可利用集群實現(xiàn)對海量數(shù)據(jù)的高效專業(yè)化處理,是一個對大規(guī)模數(shù)據(jù)存儲、計算、分析、挖掘的軟件平臺,具有低成本、高效率等優(yōu)點,能可靠地存儲和處理PB級的數(shù)據(jù)[6-7]。全量數(shù)據(jù)中心的建設(shè)不僅構(gòu)建出全校的數(shù)據(jù)底盤,還可以共享數(shù)據(jù)并進行安全交換。同時,利用Hadoop強大的計算、分析能力可對具有廣泛應用價值的教育海量數(shù)據(jù)進行深入挖掘,發(fā)現(xiàn)數(shù)據(jù)背后的價值。本文中的全量數(shù)據(jù)中心總體架構(gòu),主要包括數(shù)據(jù)源、數(shù)據(jù)集成、數(shù)據(jù)治理、數(shù)據(jù)服務、數(shù)據(jù)應用等,如圖 1所示。
數(shù)據(jù)源主要是指校內(nèi)涉及人、財、物、教、學、研,以及生活、娛樂、交通、能耗、安防等各個方面不同部門產(chǎn)生的,來源不同、多種格式的數(shù)據(jù)。理清作為基礎(chǔ)數(shù)據(jù)來源的各業(yè)務系統(tǒng)數(shù)據(jù)的數(shù)據(jù)類型、數(shù)據(jù)庫類別、數(shù)據(jù)同步方式等。當前高校所產(chǎn)生的數(shù)據(jù)類型主要分為結(jié)構(gòu)化和非結(jié)構(gòu)化兩種;其中結(jié)構(gòu)化數(shù)據(jù)來源眾多,由人事、教務、財務、科研等不同業(yè)務系統(tǒng)產(chǎn)生,它們大多使用關(guān)系型數(shù)據(jù)庫(如Oracle、SQL Server、MySQL、Sybase等);非結(jié)構(gòu)化數(shù)據(jù)主要是指以文本、文檔、日志、視頻、音頻等文件形式存儲的數(shù)據(jù);其應用越來越豐富,存儲量也與日俱增,它的主要來源是各日志系統(tǒng)、安防監(jiān)控系統(tǒng)和不同文件系統(tǒng)。隨著物聯(lián)網(wǎng)技術(shù)廣泛應用,校園物聯(lián)網(wǎng)應用產(chǎn)生的數(shù)據(jù)也是全量數(shù)據(jù)中心數(shù)據(jù)的重要補充。另外,還有一些特殊的數(shù)據(jù)來源,比如在線和離線錄入采集工具采集到的數(shù)據(jù),在線調(diào)查表匯總來的數(shù)據(jù),還有很多其它臨時應用產(chǎn)生的數(shù)據(jù)。
數(shù)據(jù)集成是把不同來源、格式、特點、性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中,從而為用戶提供全面的數(shù)據(jù)共享,保證數(shù)據(jù)的一致,減少冗余,提高利用率[8]。數(shù)據(jù)采集可使用ETL工具抽取各業(yè)務系統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù),同時也可使用Flume、Kafka等進行采集,匯總?cè)肴繑?shù)據(jù)中心,構(gòu)建出整個學校唯一的全量數(shù)據(jù)集合。鑒于數(shù)據(jù)源的多樣、數(shù)據(jù)類型和結(jié)構(gòu)不一致,還需對部分來源數(shù)據(jù)進行適配才能實現(xiàn)數(shù)據(jù)統(tǒng)一集成。數(shù)據(jù)集成的控制管理可以利用易用的任務編排方式,對任務執(zhí)行過程和結(jié)果監(jiān)控,同時還需具備任務的調(diào)度能力。根據(jù)用戶需要啟動多線程乃至于多進程并行傳輸海量數(shù)據(jù),分布式部署,可水平擴展吞吐能力。實現(xiàn)包括 Oracle、SQL Server、MySQL、PostgreSQL、HDFS、Hive、ADS、HBase等各種異構(gòu)數(shù)據(jù)庫之間以批量、實時、同步、異步方式完成系統(tǒng)間數(shù)據(jù)的移動和轉(zhuǎn)換[3]。
數(shù)據(jù)治理首先從數(shù)據(jù)標準化開始,對照基于國標或者通用的規(guī)范的key-value字典庫構(gòu)建的標準代碼庫,再結(jié)合學校標準,對數(shù)據(jù)進行域、主題、模型、表名、字段等統(tǒng)一規(guī)范。按照規(guī)則映射標準代碼庫,進行數(shù)據(jù)轉(zhuǎn)換、校驗、拼接、賦值等處理,統(tǒng)一歸集。使用數(shù)據(jù)轉(zhuǎn)換規(guī)則時查找數(shù)據(jù)字典,將所有不同的表示方式統(tǒng)一成一種表示方式數(shù)據(jù)規(guī)范處理規(guī)則[2]。數(shù)據(jù)標準不再是一個靜態(tài)的文檔或者參考模型,而是整體智慧校園建設(shè)必須遵循的統(tǒng)一信息標準。由于業(yè)務數(shù)據(jù)的來源廣,必定會帶來“臟數(shù)據(jù)”,這些“臟數(shù)據(jù)”主要是錯誤數(shù)據(jù)、不完整的數(shù)據(jù)、相似重復的數(shù)據(jù)。針對不同類型的“臟數(shù)據(jù)”,執(zhí)行數(shù)據(jù)修改變換、過濾或補缺、排序合并等清洗動作。
數(shù)據(jù)質(zhì)量就是要保證數(shù)據(jù)完整性、一致性、準確性、及時性。可依據(jù)數(shù)據(jù)質(zhì)量監(jiān)控預設(shè)的規(guī)則對集成后的歸集數(shù)據(jù)進行檢測。預設(shè)的規(guī)則內(nèi)容可以是判空檢查、代碼檢查、唯一性檢查、文本檢查等,也可以設(shè)置數(shù)據(jù)檢測范圍、檢測時間等檢測規(guī)則,既可采用默認的規(guī)則模板,也可自主編寫規(guī)則表達式,如自定義的SQL跨表關(guān)聯(lián)規(guī)則等。質(zhì)量監(jiān)控是全過程的,發(fā)現(xiàn)“異常數(shù)據(jù)”進行鎖定、攔截,避免錯誤數(shù)據(jù)流入下游應用。檢測周期中,記錄、匯總、統(tǒng)計,最終會形成數(shù)據(jù)質(zhì)量檢驗報告。依據(jù)對檢驗報告進行分析,對各分類和匯總數(shù)據(jù)進行質(zhì)量評估,暴露數(shù)據(jù)存在的問題,包括數(shù)據(jù)集成問題、實施規(guī)范問題、源頭業(yè)務系統(tǒng)本身數(shù)據(jù)質(zhì)量問題等,從而推動所有系統(tǒng)數(shù)據(jù)的質(zhì)量提升。
Hadoop分布式基礎(chǔ)軟件框架主要由HDFS和MapReduce系統(tǒng)組成。分布式文件系統(tǒng)(HDFS)用于海量數(shù)據(jù)存儲,高效管理數(shù)據(jù)存儲集群中所有節(jié)點上的文件。其中,NameNode是元數(shù)據(jù)節(jié)點,DataNode是數(shù)據(jù)存儲節(jié)點?;贖adoop,同時也可采用Hive、HBase數(shù)據(jù)庫。Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,還提供了SQL查詢功能。HBase是一種基于Hadoop的存儲key/value的NoSQL數(shù)據(jù)庫,支持實時查詢。分布式計算框架(MapReduce)用于并行處理計算海量的數(shù)據(jù)。MapReduce架構(gòu)體系主要由 Client、JobTracker、TaskTracker以及Task四部分組成。海量且多來源的數(shù)據(jù)融合一般是維度建模,主要實現(xiàn)跨越數(shù)據(jù)的整合,整合的形式可以是匯總、關(guān)聯(lián),也包括解析,形成動態(tài)的數(shù)據(jù)大盤,為數(shù)據(jù)開發(fā)和深度分析做準備。
數(shù)據(jù)開發(fā)貫穿于數(shù)據(jù)治理全過程,采用工作流模式,一站式開發(fā)管理,聚焦數(shù)據(jù)價值挖掘和探索。兼容多種數(shù)據(jù)計算引擎,支持關(guān)系型和非關(guān)系型數(shù)據(jù)庫。高校的數(shù)據(jù)挖掘是從多年辦學的海量數(shù)據(jù)里“挖掘”有價值的規(guī)則和模型的過程。通過分類、聚類、模式挖掘、相關(guān)性挖掘、規(guī)則提取、預測等方式供人為判斷以及建立科學的評估模型等方法,借助復雜算法挖掘數(shù)據(jù)背后的潛在價值,精準診斷當前學校發(fā)展、學生學習、教師提升等方面存在的問題,極大提高評價結(jié)果的可信度[9]。當大數(shù)據(jù)技術(shù)應用于全量數(shù)據(jù)中心時,可利用機器學習算法智能分析數(shù)據(jù),找規(guī)律,構(gòu)造出目標過程模型。通過對全量數(shù)據(jù)中心中的海量數(shù)據(jù)進行合并關(guān)聯(lián)、特征提取、多維分析等,構(gòu)建數(shù)據(jù)模型,最終形成對目標的全面綜合描述。數(shù)據(jù)來源越多,數(shù)據(jù)量越大,特征維度覆蓋就越全,數(shù)據(jù)模型就越準確,就越能提供全面且定位準確的服務能力。
數(shù)據(jù)管理采用構(gòu)建元數(shù)據(jù)方式進行集中管理。元數(shù)據(jù)主要描述數(shù)據(jù)的范圍、類別、定義、數(shù)據(jù)關(guān)系等,形成統(tǒng)一規(guī)范的數(shù)據(jù)資產(chǎn)目錄內(nèi)容,通過對各業(yè)務系統(tǒng)數(shù)據(jù)的有效組織和管理,理清學校整體數(shù)據(jù)信息資源脈絡,全面掌握數(shù)據(jù)信息狀況。為了數(shù)據(jù)檢索方便,采用分類目錄導航和自由檢索的方式,結(jié)果智能排序,提高數(shù)據(jù)提供方的溝通效率。另外,對數(shù)據(jù)資產(chǎn)的全文搜索,即根據(jù)表征數(shù)據(jù)資產(chǎn)的元數(shù)據(jù)相關(guān)的屬性查找,包括表、字段、工作流、任務等相關(guān)的元數(shù)據(jù),實現(xiàn)數(shù)據(jù)的快速查找。通過數(shù)據(jù)來源、數(shù)據(jù)加工過程及任務控制等因素,建立數(shù)據(jù)間的上下游血緣依賴關(guān)系。查看數(shù)據(jù)間的血緣關(guān)系,可追溯數(shù)據(jù)的加工鏈路源以及下游應用的情況。對數(shù)據(jù)的血緣分析以及數(shù)據(jù)健康、數(shù)據(jù)分布、集中度、數(shù)據(jù)熱度等的分析,形成數(shù)據(jù)資產(chǎn)地圖。
數(shù)據(jù)安全就是數(shù)據(jù)治理過程中,采取一定的技術(shù)手段和控制策略保證數(shù)據(jù)本身安全。建設(shè)全量數(shù)據(jù)中心的核心價值是實現(xiàn)數(shù)據(jù)價值,所以數(shù)據(jù)的安全是保證全量數(shù)據(jù)中心正常運行的基礎(chǔ)。數(shù)據(jù)安全包括數(shù)據(jù)存儲的安全、數(shù)據(jù)傳輸過程中的安全,數(shù)據(jù)的一致性、數(shù)據(jù)訪問安全等[2]。核心敏感數(shù)據(jù)進行加密算法保護,數(shù)據(jù)脫敏控制,數(shù)據(jù)安全等級管理等方式,防止數(shù)據(jù)在存儲、傳輸、訪問的過程中損壞或泄露。利用第三方工具、動態(tài)跟蹤分析等方法,對全量數(shù)據(jù)中心系統(tǒng)和程序進行安全漏洞檢測,及時發(fā)現(xiàn)問題。利用大數(shù)據(jù)分析技術(shù),對各類信息資產(chǎn)進行安全威脅檢測,在攻擊發(fā)生前進行識別預測并實施預防措施[2]。
經(jīng)過數(shù)據(jù)治理后的數(shù)據(jù)以服務化形式對外開放共享,這樣上層業(yè)務在使用全量數(shù)據(jù)中心時,并不直接看到原始數(shù)據(jù),而是面對數(shù)據(jù)的能力服務;在達到數(shù)據(jù)共享的同時,也共享數(shù)據(jù)的分析、計算、服務等能力[10]。數(shù)據(jù)API服務能力是指將關(guān)系型數(shù)據(jù)庫的表通過可視化配置快速生成標準的數(shù)據(jù)接口。API統(tǒng)一管理,實時監(jiān)測接口調(diào)用統(tǒng)計,上報異常接口調(diào)用日志。數(shù)據(jù)可視化服務是對已經(jīng)處理并治理完成的數(shù)據(jù)進行多維,多渠道顯示終端的可視化展示,可采用兼容性高的可視化圖表庫ECharts等。海量數(shù)據(jù)分析可以提供更全面的數(shù)據(jù)能力服務,數(shù)據(jù)分析結(jié)果也可通過可視化配置,選擇更直觀的數(shù)據(jù)報表和圖形的方式向外展示。數(shù)據(jù)報表可以是標準報表、自定義報表。數(shù)據(jù)服務中還需要跟蹤調(diào)用者的調(diào)用記錄,包括總調(diào)用次數(shù)、錯誤率統(tǒng)計;審核數(shù)據(jù)開放權(quán)限,授權(quán)調(diào)用者獲取數(shù)據(jù)范圍、內(nèi)容等。數(shù)據(jù)推送是數(shù)據(jù)向上層應用系統(tǒng)進行主動傳遞的服務,可實時,動態(tài)提供數(shù)據(jù)能力服務。
全量數(shù)據(jù)中心集中存儲著全校統(tǒng)一標準的、權(quán)威的數(shù)據(jù),是校內(nèi)業(yè)務應用的基礎(chǔ)支撐平臺。全量數(shù)據(jù)中心提供共享數(shù)據(jù)給上層業(yè)務系統(tǒng),構(gòu)建跨部門、跨系統(tǒng)的數(shù)據(jù)互通體系。實現(xiàn)網(wǎng)上辦公,“一網(wǎng)通辦”虛擬服務;同時,提供只有全量數(shù)據(jù)中心可以提供的多維度、全方位的數(shù)據(jù)分析結(jié)果。依托校園大數(shù)據(jù)環(huán)境對數(shù)據(jù)進行的提取、分析,構(gòu)建基礎(chǔ)的校情系統(tǒng),更全面的師生畫像系統(tǒng),為智慧校園管理與服務賦能;通過人臉識別、實施追蹤、智能預警等,提升高校的校園安全環(huán)境,形成校內(nèi)智能管控;通過智慧教學,VR/AR課堂,遠程教學,既提供豐富的教學手段和沉浸式學習環(huán)境,又有利于學生學習興趣和學習效率的提升;通過面向社會層面的線上云課堂、社會教學等,發(fā)揮智慧化高校教育的社會職能;通過線上數(shù)字孿生校園整體構(gòu)建,提升高校的辦學影響力。
全量數(shù)據(jù)中心的數(shù)據(jù)經(jīng)過多個處理節(jié)點,以“流水線”的方式生成最終有價值的數(shù)據(jù)。全量數(shù)據(jù)中心的數(shù)據(jù)處理是長鏈路、多時段的,可能每天或者每小時都會有數(shù)據(jù)輸入。每次數(shù)據(jù)處理都需要經(jīng)歷一套標準的數(shù)據(jù)加工流程。各業(yè)務系統(tǒng)中的標準數(shù)據(jù)和非標準數(shù)據(jù)經(jīng)過數(shù)據(jù)集成后歸集到數(shù)據(jù)倉庫,再通過數(shù)據(jù)治理、大數(shù)據(jù)計算、數(shù)據(jù)開發(fā)等處理,形成統(tǒng)一標準的高質(zhì)量數(shù)據(jù),為數(shù)據(jù)服務和業(yè)務應用提供支撐。同時,將應用產(chǎn)生的數(shù)據(jù)再次沉淀到數(shù)據(jù)中心,被再一次循環(huán)利用。全量數(shù)據(jù)中心的數(shù)據(jù)流向閉環(huán)如圖 2所示。
數(shù)據(jù)流向具體步驟:
(1)通過數(shù)據(jù)供需梳理各業(yè)務部門需要歸集的數(shù)據(jù);
(2)通過數(shù)據(jù)交換中控,利用ETL工具(或其他數(shù)據(jù)集成工具),實現(xiàn)各業(yè)務系統(tǒng)數(shù)據(jù)統(tǒng)一映射到數(shù)據(jù)中心前置庫,再向數(shù)據(jù)倉庫歸集,為后續(xù)的數(shù)據(jù)治理做準備;
(3)通過與標準資源庫進行數(shù)據(jù)對比,參照國家標準、行業(yè)標準,完成數(shù)據(jù)的清洗、轉(zhuǎn)化、交換等步驟后形成標準化數(shù)據(jù),歸集到主題資源庫;
(4)數(shù)據(jù)治理過程中,通過定義統(tǒng)一的元數(shù)據(jù)模型,屏蔽底層不同數(shù)據(jù)源的差異,形成管理數(shù)據(jù)倉庫數(shù)據(jù)資源的元數(shù)據(jù)資源庫;
(5)依托數(shù)據(jù)治理平臺,實現(xiàn)數(shù)據(jù)的存儲、計算、開發(fā)等步驟后形成標準、干凈的基礎(chǔ)應用資源庫和分析結(jié)果資源庫;
(6)再根據(jù)上層應用的具體業(yè)務需求、個性化業(yè)務定制,重構(gòu)出不同的業(yè)務數(shù)據(jù)模型,提供服務,共享數(shù)據(jù),豐富應用場景。
高校信息化的發(fā)展水平正逐漸成為評判高校辦學水平的重要標志,智慧校園建設(shè)工作的重要性也越來越凸顯。利用大數(shù)據(jù)技術(shù)構(gòu)建智慧校園中的全量數(shù)據(jù)中心不僅是現(xiàn)有各類業(yè)務應用得以順暢運行的基礎(chǔ)與核心,同時,也為智慧校園中的智能化應用提供基礎(chǔ)支撐。未來,智慧校園完全可以借助全量數(shù)據(jù)中心,向更高層次的智能化校園演進。