魏祥麗
(北華航天工業(yè)學院圖書館,廊坊 065000)
國家標準化管理委員會2018年6月7日發(fā)布的國家標準《智慧校園總體框架》(GB/T 36342-2018)指出,智慧校園是數字校園的進一步發(fā)展和提升,實現校園物理空間和信息空間的有機銜接,保證校園范圍內的所有人隨時隨地都能方便快捷地獲取資源和服務。這就需要校園數據開放共享。智慧校園總體框架分為基礎設施層、支撐平臺層、應用平臺層、應用終端和信息安全體系等,其中容納數據交換、數據處理、數據服務和統(tǒng)一接口等功能的支撐平臺層,是智慧校園大數據計算及服務的核心層,保障智慧校園的各類應用正常持續(xù)運行。數據中臺可以從數據層面打破“煙囪式”的系統(tǒng)建設,規(guī)范數據的存儲、轉換、分析和應用,最大化數據的價值,實現數據的業(yè)務化。因此,數據中臺在智慧校園總體架構中能夠起到支撐作用。
校園在信息化發(fā)展的過程中建設了多個信息系統(tǒng),比如統(tǒng)一校園門戶、教務系統(tǒng)、人事系統(tǒng)、學工系統(tǒng)等,這些系統(tǒng)獨立運行,造成了以下問題:①校園內各項垂直業(yè)務各自為營,各類應用系統(tǒng)煙囪式建立,缺少互聯(lián)互通接口;②各系統(tǒng)的底層存儲介質沒有統(tǒng)一的數據標準,缺乏數據共享接口,導致數據孤島現象;③存在數據不全、冗余、錯誤等數據質量問題。以上問題導致各應用之間數據共享程度低、數據獲取難、數據不好用,嚴重制約了智慧校園的建設。
因此,為了解決上述問題,亟需依托大數據技術構建校園數據中臺,實現從數據接入到數據服務的全生命周期數據處理方法,為智慧校園建設提供數據和服務支撐。數據中臺在智慧校園的建設中有以下幾點意義:①數據中臺的核心是讓數據用起來,盤活校園全域數據,實現數據統(tǒng)一采集、集中管理、整合分析,實現數據共享,做到數據處處可見、人人可用;②數據中臺將穩(wěn)定、通用的業(yè)務能力下沉到中臺層,簡化前臺以提升前臺的響應能力,能夠為領導決策、部門賦能和師生個人業(yè)務提供快速準確的數據服務;③實現服務的可重用性,通用性強的基礎服務通過抽取和封裝直接供外部調用,可以大大降低開發(fā)成本。
數據中臺將全校數據進行資產化管理,具備數據采集匯聚、數據開發(fā)分析、數據服務可視化、數據賦能應用四大核心能力,以數據驅動校園管理決策,促進校園從功能提供向數據服務轉變,提升校園智慧化服務水平。
數據中臺讓數據充分發(fā)揮其隱藏的價值,實現業(yè)務數據化、數據資產化、資產平臺化、平臺服務化,當需要構建新的業(yè)務應用時,通過提供的服務接口迅速實現業(yè)務,即服務業(yè)務化,形成數據與業(yè)務的閉環(huán),如圖1所示。
圖1 數據與業(yè)務閉環(huán)
本文在立足智慧校園的建設目標之上,結合其他領域比較成熟的數據中臺技術路徑,給出了智慧校園數據中臺架構,如圖2所示。
圖2 智慧校園數據中臺架構
數據中臺將多源異構數據進行采集、清洗、存儲、分析,形成一個可靠的、穩(wěn)定的大數據資產層,并以接口和組件的形式與各業(yè)務單元共享,從而打通前臺需求和后臺資源,在滿足數據分析需求的同時,為業(yè)務創(chuàng)新提供依據。
數據源指的是校園全域數據,根據校園數據的來源分為內部數據和外部數據,根據數據的存儲形式分為結構化數據、半結構化數據和非結構化數據。
數據采集是數據中臺接入數據的入口,數據采集的主要工作是實現數據同步,將來自異構數據源、異構網絡的校園原始數據,通過標準手段統(tǒng)一采集、匯集形成校園“數據湖”,為數據中臺的后續(xù)工作做準備。
校園數據經過數據采集層存儲到各種介質中,數據流進入數據開發(fā)層,首先進行數據倉庫的建設,然后利用大數據處理技術對數據進行挖掘、分析,生成數據資產,為用戶提供前端可視化頁面查看、使用數據。其中,數據倉庫有兩種,分別是離線數倉和實時數倉,兩者的主要區(qū)別在于時效性、存儲介質和處理組件。實時數倉時效性要求高,一般為分鐘級別甚至秒級別,而離線數倉對時效性要求一般為T+1天。對于存儲介質,實時數據采集之后一般存儲到Clickhouse、ES等中,離線數據可以存儲在Hive、HDFS 等中。對于處理組件,借助目前主流的引擎spark、Flink 等實現實時開發(fā)平臺,實時數據要求強大的計算能力實時處理采集來的數據,針對離線數據,基于離線數倉建模理論、結合業(yè)務場景,抽取出一個離線開發(fā)平臺。實時開發(fā)平臺和離線開發(fā)平臺可以為智能運維賦能。
數據服務層對外提供數據服務,實現數據中臺的核心能力——數據轉化為服務。數據服務層依據中臺的方法論OneData、OneService,提供統(tǒng)一的服務接口用來被調用,為數據應用層賦能。
數據中臺的數據流向從數據源到數據采集至存儲介質,然后進行數據開發(fā)實現數據資產化,再通過數據服務暴露給各種業(yè)務應用賦能,在整個過程中有兩個重要的平臺,一個是運維管理,一個是數據治理平臺。
數據治理平臺包括元數據管理、數據質量管理、數據血緣管理、數據標準管理等,其中數據血緣管理用來幫助追蹤問題數據,當數據分析出現問題時追溯問題數據從哪來,一步步追溯問題環(huán)節(jié)。數據標準管理為校園數據提供一套統(tǒng)一的數據標準,保障智慧校園數據中臺數據的規(guī)范性和有效性。數據治理得好,才能提高數據質量,讓數據更好地為業(yè)務應用賦能。
運維管理平臺是數據中臺持續(xù)運營的重要保障,主要包括監(jiān)控告警、部署管理、故障診斷、任務調度、日志審計等,對異常情況進行及時處理,確保數據的準確性、完整性。
綜上,運維管理和數據治理這兩個平臺能夠保證數據中臺正常持續(xù)運轉。
智慧校園應用層通過調用數據中臺服務層API接口實現校園智慧服務。包括教務科研應用(如科研管理、教學資源、在線學習等)、學生服務(如招生管理、就業(yè)服務等)、后勤服務(公寓管理、安保管理、車輛調度等)、管理決策(領導決策、個人畫像、專業(yè)評估等)等。數據中臺能夠為校園業(yè)務應用提供多方位的分析機制,為智慧校園的運行提供高效支撐。
數據中臺的核心是讓數據產生價值,為了實現這一目標,需要三個關鍵步驟:①盡可能地收集數據;②更好地整理數據;③挖掘數據潛藏的價值。
為了盡可能全面地獲取校園數據,需要利用多種手段將校園全域數據采集到數據中臺的大數據平臺中。數據采集主要包括結構化數據采集和非結構化數據采集,對于結構化業(yè)務系統(tǒng)數據,通過sqoop 腳本進行采集,寫入到大數據平臺的Hive 中。對于非結構化數據,比如業(yè)務系統(tǒng)產生的日志數據,則利用Kafka 進行采集,形成一個個消息,再通過Spark Streaming對產生的消息進行批量采集。
數據采集之后進入數據倉庫的建設,根據數據倉庫的建設思路,原始數據采集過來之后經過ETL 過程進行清洗、轉換、集成,形成ODS,然后對數據進行輕度綜合形成數據倉庫。數據倉庫的建設底層采用大數據技術Spark、Hive、SparkSQL來操作整個處理過程。
ETL 的關鍵操作是T(數據轉換),數據轉換包括表粒度數據同步、多表同步、數據庫整庫同步。單表來說,直接把數據原封不動搬過去,但是對于異構數據源,不同數據庫字段表達方式可能不一樣,數據無法在數據中臺中流通。為了打通數據,解決數據孤島的問題,需要制定統(tǒng)一的數據標準,把不同數據庫的字段映射成統(tǒng)一的表達形式。教育部2021 年3 月26 日發(fā)布《高等學校數字校園建設規(guī)范(試行)》,指出高校數據標準建設應符合GB/T 29808的要求。本文結合教育部要求制定校園數據標準,完成異構數據源之間字段、數據類型等的映射,實現數據統(tǒng)一管理、統(tǒng)一定義。
數據采集、整理之后形成數據倉庫,通過大數據手段挖掘數據價值。利用數據挖掘算法發(fā)現數據的底層規(guī)律,通過機器學習建立數據模型,進而去開展人工智能。
數據的挖掘分析方式有三種,分別是在線分析、近線分析和離線分析。在線分析將業(yè)務數據實時寫入關系型數據庫中,通過前端可視化頁面,利用SQL 語句進行查詢、分析展現數據,這種方式對數據的分析時效性高,數據有變化,能立即反映在前端。但是隨著數據量的增長,關系型數據庫的壓力增大,造成系統(tǒng)性能降低,因此出現了近線分析。相較于在線分析,這種方式的分析結果有一定的延時,幾分鐘或幾小時,但是能提高系統(tǒng)性能,實現時效換性能。這兩種方式適合簡單業(yè)務,對于復雜的、實時性要求不高的業(yè)務數據分析,采用離線分析方式,通常延時一天,每天晚上對當天的數據進行采集分析處理,第二天展示分析結果。
根據分析的業(yè)務,抽取數據倉庫中的一部分數據建立數據集市(DM),在DM 基礎上進行數據標簽建設。利用Kylin 對數據進行多維分析,利用SparkML 進行數據挖掘,利用Elastic-Search 建立數據索引,實現對海量數據的秒級查詢。最后利用eCharts、VUE 等可視化工具將數據分析結果以前端應用的形式展示給用戶。
有了以上基礎,就可以進行各種各樣的智慧校園應用,比如教學科研、學生服務、決策支持、師生畫像等各種智能應用。
數據中臺的應用領域越來越廣泛,其主要原因是數據中臺的核心是讓數據用起來,實現數據資產可視化,使得數據看得見、可以用、容易用。數據資源是智慧校園的“軟財富”,通過構建數據中臺可以盤活校園全量數據,通過可視化界面,校園內人員可以隨時隨地查看權限范圍內的數據,方便快捷使用數據服務,提高校園決策、精細化管理水平,打造健康、持續(xù)運行的智慧校園。