徐 勝
(揚州工業(yè)職業(yè)技術(shù)學院信息中心,江蘇 揚州 225100)
2020年上海社會科學院信息研究所發(fā)布的《2020全球重要城市開放數(shù)據(jù)指數(shù)》顯示:上海、北京、貴陽等5座城市位居榜單前十,充分展示了中國政府在數(shù)據(jù)開放工作中取得的成績。政府的數(shù)據(jù)開放工作成為高校信息化建設(shè)的風向標。隨著高校信息化的逐步推進和深入,各部門的業(yè)務基本實現(xiàn)信息系統(tǒng)應用與管理。在10余年的信息化建設(shè)和服務過程中,業(yè)務部門各自的信息系統(tǒng)聚積了龐大的管理數(shù)據(jù)可供其他業(yè)務部門進行復用和共享。比較典型的如每年新生入校時批量制發(fā)一卡通卡片,即是通過獲取教務或?qū)W工的新生數(shù)據(jù)進行量化的卡片制作。再比如學生辦理離校手續(xù)時,需檢查其借閱書籍是否歸還、學費是否繳清、申領(lǐng)物資是否完好等等,分別需要圖書館借閱信息、財務繳款信息和國資申領(lǐng)歸還記錄。上述場景在學校還有很多,如業(yè)務部門有很多線上管理業(yè)務需要其他部門數(shù)據(jù)的支持才能辦理。這就需要基于校級的數(shù)據(jù)開放平臺進行統(tǒng)一的數(shù)據(jù)共享與管控,以提升數(shù)據(jù)服務業(yè)務的效率。數(shù)據(jù)開放旨在解決高校信息化建設(shè)中“各行其是、信息孤島”的現(xiàn)狀,結(jié)合各部門實際業(yè)務,統(tǒng)籌推進信息系統(tǒng)中數(shù)據(jù)的整合共享工作,從而真正激活高校數(shù)據(jù)資產(chǎn)、打破數(shù)據(jù)孤島。
數(shù)據(jù)開放是指通過數(shù)據(jù)接口、網(wǎng)站等形式,在業(yè)務系統(tǒng)內(nèi)部、系統(tǒng)之間或面向全社會,合理合法公開特定數(shù)據(jù)的獲取與使用權(quán)限[1]。數(shù)字化校園3大平臺建設(shè)項目中的公共數(shù)據(jù)交換平臺[2]對學校日常運作過程中必須使用的基本數(shù)據(jù)進行整合,一定程度上緩解了系統(tǒng)間數(shù)據(jù)交互共享問題,但沒有形成一個可持續(xù)的數(shù)據(jù)交換流程開放模式,無法真正有效地應對大量、不斷變更的數(shù)據(jù)交換需求。數(shù)據(jù)交換平臺沒有提供一個可視化的用戶圖形界面,數(shù)據(jù)質(zhì)量問題只能在影響業(yè)務運行之后暴露出來,數(shù)據(jù)共享嚴重依賴于平臺廠商后臺的接口配置,學校無法真正自主管理。數(shù)據(jù)交換平臺中管理的數(shù)據(jù)范圍有限,面對不同系統(tǒng)新的數(shù)據(jù)需求時,往往要重新對接,存在重復“接口費”這一老大難問題。數(shù)據(jù)獲取粗放式管理,各應用廠商很容易拿到管理員權(quán)限,存在數(shù)據(jù)過度暴露的風險,數(shù)據(jù)安全無法得到保障。
為了摒棄傳統(tǒng)數(shù)據(jù)交換平臺的弊端,實現(xiàn)真正意義上的數(shù)據(jù)共享,首先要完成高校數(shù)據(jù)的治理工作。全量數(shù)據(jù)治理不僅要建立和推進數(shù)據(jù)管理制度,還要避免高校在數(shù)據(jù)平臺建設(shè)后出現(xiàn)的數(shù)據(jù)范圍不足、數(shù)據(jù)量不夠等問題,通過持續(xù)、全面的數(shù)據(jù)治理,制定全校統(tǒng)一的信息標準,對各部門管理的信息系統(tǒng)數(shù)據(jù)進行抽取、傳輸、清洗、整合、存儲,建立起高校統(tǒng)一數(shù)據(jù)倉庫。
高校數(shù)據(jù)資產(chǎn)多數(shù)分布在各業(yè)務系統(tǒng)中,少量的以線下表格等形式存在。管理人員需要系統(tǒng)地厘清學校關(guān)鍵業(yè)務系統(tǒng)及其承載的全部數(shù)據(jù)資產(chǎn),形成本校的數(shù)據(jù)資源目錄,以準確掌握數(shù)據(jù)資產(chǎn)全貌[3];開展對校內(nèi)各部門數(shù)據(jù)和業(yè)務的摸底調(diào)研,內(nèi)容包括:了解業(yè)務部門數(shù)據(jù)現(xiàn)狀,收集本部門需要和產(chǎn)生數(shù)據(jù)的具體來源,匯總數(shù)據(jù)交換與共享過程中的問題、研究數(shù)據(jù)質(zhì)量問題及產(chǎn)生根源,記錄各部門數(shù)據(jù)的分析需求、建立完善的數(shù)據(jù)標準、提升數(shù)據(jù)質(zhì)量等。
資產(chǎn)管理人員要針對各業(yè)務系統(tǒng)中數(shù)據(jù),結(jié)合系統(tǒng)數(shù)據(jù)字典,識別系統(tǒng)中原始數(shù)據(jù)內(nèi)容,理解各字段的業(yè)務含義,過濾掉數(shù)據(jù)庫中的過程數(shù)據(jù)、臨時數(shù)據(jù),篩選出有效的數(shù)據(jù)字段;依據(jù)調(diào)研成果明確每一項數(shù)據(jù)的權(quán)威來源,形成數(shù)據(jù)UCRM矩陣[4];按照權(quán)威數(shù)據(jù)在哪些數(shù)據(jù)表流轉(zhuǎn)流通,記錄下表與表、字段與字段的映射關(guān)系,理清數(shù)據(jù)間的血緣關(guān)系。
管理信息指學校日常管理工作中涉及的信息集合,包括學校概況、學生管理信息、教職工管理信息、教學管理信息、科研管理信息、財務管理信息、辦公管理信息、一卡通數(shù)據(jù)、圖書管理信息等以及有關(guān)代碼信息。管理信息標準[5]的制定意在消除因信息的缺乏、重復、一致性差,信息難以交流,信息系統(tǒng)互不兼容等原因造成的應用脫節(jié)、信息孤島問題。
信息標準編制應“向上靠攏”,對國標、部委標準中已有的規(guī)定,不重復制定,同時兼顧各業(yè)務部門目前正使用的代碼及編碼規(guī)則,并具備一定的前瞻性,以現(xiàn)有系統(tǒng)為基礎(chǔ),著眼于長遠發(fā)展需求,使信息標準具有較長的生命周期。
信息管理人員熟悉學校各個管理業(yè)務,從信息管理角度對高校管理工作進行標準化,研究校內(nèi)各職能部門使用的信息系統(tǒng),把各部門業(yè)務活動中需要和產(chǎn)生的數(shù)據(jù)進行結(jié)構(gòu)化和規(guī)范化,使管理數(shù)據(jù)在橫向和縱向方面連通起來。本文根據(jù)校內(nèi)業(yè)務系統(tǒng)數(shù)據(jù)調(diào)研以及對系統(tǒng)數(shù)據(jù)庫的識別梳理,制定揚州工業(yè)職業(yè)技術(shù)學院管理信息標準,按業(yè)務領(lǐng)域劃分了學生管理、教職工管理、教學管理、科研管理、財務管理等15個數(shù)據(jù)集,根據(jù)業(yè)務環(huán)節(jié),每個數(shù)據(jù)集又細分了多個數(shù)據(jù)類,每個數(shù)據(jù)類對應一張或多張數(shù)據(jù)表的結(jié)構(gòu)。圖1展示了信息標準數(shù)據(jù)子集的層次結(jié)構(gòu)。
創(chuàng)建ODS操作數(shù)據(jù)倉庫(ODS,Operational Data Store),使用ETL[6]數(shù)據(jù)處理工具抽取各業(yè)務系統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)表、代碼表,同時做一些簡單的格式轉(zhuǎn)換和標準映射處理,加載到ODS庫中。ODS庫集中存儲了學校各業(yè)務系統(tǒng)數(shù)據(jù),匯聚形成“數(shù)據(jù)湖”,作為治理工作的數(shù)據(jù)源,避免了治理過程中因直接對業(yè)務系統(tǒng)數(shù)據(jù)庫操作而影響到業(yè)務運行,同時提高數(shù)據(jù)治理效率。
3.2 GXXS 學生管理數(shù)據(jù)集3.2.1 GXXS01學生基本數(shù)據(jù)類3.2.1.1 GXXS0101 本??粕拘畔?T_GXXS_BZKSJBXX)編號字段名稱字段代碼類型長度主鍵空值取值范圍說明/備注1學號XHC100是否2姓名XMC100否是3英文姓名YWXMC100否是4姓名拼音XMPYC100否是5曾用名CYMC100否是6性別碼XBMC20否是7出生日期CSRQC20否是8出生地碼CSDMC20否是9籍貫JGC100否是10民族碼MZMC20否是11國籍/地區(qū)碼GJDQMC20否是GB/T2659《世界各國和地區(qū)名稱代碼》采用三字母代碼,如:CHN中國,USA美國
本文依據(jù)管理信息標準中數(shù)據(jù)集,創(chuàng)建統(tǒng)一數(shù)據(jù)倉庫(UDW, University Unified Data Warehouse),對ODS庫中數(shù)據(jù)進行更深層次的清洗、轉(zhuǎn)換,注釋補全,包括對原始業(yè)務系統(tǒng)數(shù)據(jù)中存在的明顯錯誤進行識別和處理(遺漏值處理、噪音數(shù)據(jù)處理、不一致數(shù)據(jù)處理等),以提升數(shù)據(jù)質(zhì)量,并依據(jù)標明權(quán)威數(shù)據(jù)來源的UCRM矩陣,以及表、字段間映射關(guān)系,加載到UDW庫中,形成標準化業(yè)務數(shù)據(jù)資產(chǎn)。
通過全量數(shù)據(jù)采集與清洗,保證了數(shù)據(jù)在校級層面的統(tǒng)一標準和一致結(jié)構(gòu),同時平臺具備可視化質(zhì)量監(jiān)測模塊,直觀發(fā)現(xiàn)數(shù)據(jù)的內(nèi)容質(zhì)量問題,并針對人事、教務等系統(tǒng)的數(shù)據(jù)問題進行重點溯源和修正,綜合達成“數(shù)據(jù)可用”的目標。
全量數(shù)據(jù)治理完成了高校統(tǒng)一數(shù)據(jù)倉庫的建設(shè),為統(tǒng)一數(shù)據(jù)開放平臺提供了標準統(tǒng)一和高質(zhì)量的數(shù)據(jù)源,能夠?qū)崿F(xiàn)多種方式的數(shù)據(jù)復用共享,節(jié)約了高校應用系統(tǒng)建設(shè)成本,縮短了建設(shè)時間,提高了建設(shè)效率。
為了構(gòu)建更為開放的數(shù)據(jù)服務生態(tài),徹底改變原有封閉的信息化狀況,學校提出了打造“數(shù)據(jù)超市”,將數(shù)據(jù)看作貨架上的“商品”,提供足夠便捷的訪問方式,同時確保“數(shù)據(jù)商品”能夠靈活拓展,滿足學校不斷新增的數(shù)據(jù)需求。統(tǒng)一數(shù)據(jù)開放平臺由“數(shù)據(jù)集市”“可視化數(shù)據(jù)發(fā)布管理”“線上申請”3大核心數(shù)據(jù)業(yè)務組成,各部分功能如下。
1) 數(shù)據(jù)集市:繼承全量數(shù)據(jù)治理的成果,以數(shù)據(jù)集形式提供清晰明了的校內(nèi)數(shù)據(jù)資源目錄,同時提供充分的自主性,便于學校后期靈活維護數(shù)據(jù)資源的上下架。
2) 可視化數(shù)據(jù)發(fā)布管理:面向各平臺和系統(tǒng)提供統(tǒng)一的數(shù)據(jù)出口方式,屏蔽多數(shù)據(jù)源、多物理表、多查詢渠道的復雜性,同時具備可視化、低門檻的操作,管理人員無需懂數(shù)據(jù)庫或開發(fā)技術(shù)便可快速實現(xiàn)數(shù)據(jù)共享接口的發(fā)布。
3) 線上申請:面向應用廠商、校內(nèi)部門、師生個人提供統(tǒng)一的線上數(shù)據(jù)申請入口,豐富的API生態(tài)和配套的數(shù)據(jù)字典,實現(xiàn)數(shù)據(jù)資源的按需申請,省去過去數(shù)據(jù)共享方式需多方來回協(xié)調(diào)數(shù)據(jù)的麻煩。
統(tǒng)一數(shù)據(jù)開放平臺設(shè)置3種人員角色:平臺用戶、開發(fā)者、管理員?!捌脚_用戶”面向校內(nèi)教職工、學生團體,為教職工日??蒲泄ぷ鳌I(yè)務管理,以及學生畢業(yè)設(shè)計、各類賽事提供數(shù)據(jù)服務。“開發(fā)者”角色開放給學校應用系統(tǒng)開發(fā)廠家,以API、直連數(shù)據(jù)庫形式開放數(shù)據(jù)。
平臺運維人員使用“管理員”角色,審核平臺前端用戶、開發(fā)者發(fā)起的數(shù)據(jù)申請。針對不同的用戶角色,平臺提供了數(shù)據(jù)API申請、開放數(shù)據(jù)庫連接申請、文本數(shù)據(jù)下載申請、數(shù)據(jù)計算申請4種數(shù)據(jù)開放形式。
1) 數(shù)據(jù)API申請:基于RESTful架構(gòu),客戶端和服務器之間不需要建立持久的連接,采用了簡單的請求/響應模型,并遵循了統(tǒng)一接口原則訪問資源。瀏覽器(客戶端)使用標準的HTTP方法(GET和POST)向服務端發(fā)送請求。用戶提交API申請,管理員審核通過后,服務端提供一個代表數(shù)據(jù)資源URL供用戶訪問數(shù)據(jù),以json、xml、text等格式返回數(shù)據(jù)。
2) 開放數(shù)據(jù)庫連接申請:用戶應用申請想要直連數(shù)據(jù)庫訪問數(shù)據(jù)信息,后臺接收到申請后,管理員針對需求選擇相應的庫和表,在該數(shù)據(jù)庫下根據(jù)當前時間戳信息創(chuàng)建一個臨時用戶,并對表授權(quán)有且僅有查詢的權(quán)限。服務端返回受訪的數(shù)據(jù)庫相關(guān)信息(服務器地址、數(shù)據(jù)庫類型、數(shù)據(jù)庫名稱、用戶名、密碼等)。
3) 文本數(shù)據(jù)下載申請:平臺用戶需要先在數(shù)據(jù)集市查看數(shù)據(jù)分類及數(shù)據(jù)樣例,確定自己需要的數(shù)據(jù)內(nèi)容,然后在本模塊點擊申請數(shù)據(jù)。用戶選擇數(shù)據(jù)集合下包含的表,選擇需要的字段和時間,審批通過后,可以將數(shù)據(jù)以excel格式下載到本地。
4) 數(shù)據(jù)計算申請:全量數(shù)據(jù)中心配備了由多臺服務器搭建成的Hadoop集群,兼顧了高速運算及海量數(shù)據(jù)存儲的能力。統(tǒng)一數(shù)據(jù)開放平臺提供了使用方法和途徑,實現(xiàn)為各類數(shù)據(jù)分析處理需求賦能。數(shù)據(jù)計算后的結(jié)果以API接口或文本數(shù)據(jù)的形式提供給用戶進行使用。
“開發(fā)者”角色可使用數(shù)據(jù)API申請、開放數(shù)據(jù)庫連接申請以及數(shù)據(jù)計算申請等方式申請數(shù)據(jù),而“平臺用戶”角色只具備文本數(shù)據(jù)下載。用戶使用各自不同角色賬號登錄平臺方可申請數(shù)據(jù),并在管理員審核后返回所需數(shù)據(jù)。統(tǒng)一數(shù)據(jù)開放平臺數(shù)據(jù)申請詳細流程如圖 2所示。
圖2 數(shù)據(jù)開放申請流程Fig.2 Data opening application process
數(shù)據(jù)開放的首要前提是保護好數(shù)據(jù)主體權(quán)益和數(shù)據(jù)安全,避免個人隱私、部門機密、商業(yè)機密與國家機密的泄露[7]。統(tǒng)一數(shù)據(jù)開放平臺作為數(shù)據(jù)交換的樞紐,聚集的數(shù)據(jù)具有容量大、種類多、權(quán)威性高等特點,內(nèi)容可能涉及個人隱私、部門機密和國家安全,因此平臺數(shù)據(jù)安全要確保萬無一失。平臺從數(shù)據(jù)開放全生命周期(資源配置發(fā)布階段、數(shù)據(jù)開放申請階段、數(shù)據(jù)開放審核階段、數(shù)據(jù)調(diào)用運維階段)角度考慮數(shù)據(jù)安全防護,采用相應的技術(shù)手段,有效預防和減少數(shù)據(jù)安全問題的發(fā)生。
1) 資源配置發(fā)布階段:對數(shù)據(jù)資源和用戶角色權(quán)限分級,根據(jù)高校數(shù)據(jù)管理業(yè)務特性設(shè)置不同角色,每個角色提供多種權(quán)限級別,適應多部門協(xié)同數(shù)據(jù)管理的需求。對數(shù)據(jù)表中重要的敏感字段,例如密碼、銀行卡號等,以加密形式進行存儲及數(shù)據(jù)流轉(zhuǎn)。數(shù)據(jù)接口發(fā)布時,利用動態(tài)脫敏[8]技術(shù),對高敏感或與個人隱私高度相關(guān)的字段進行遮蔽、字符轉(zhuǎn)換等脫敏操作。
2) 數(shù)據(jù)開放申請階段:應用系統(tǒng)通過API方式獲取所需數(shù)據(jù),使用access_token作為調(diào)用憑證。依據(jù)token對用戶進行身份驗證以及權(quán)限管理,確保接口調(diào)用合法且有效。開發(fā)者在創(chuàng)建完應用后,系統(tǒng)生成一組與該應用唯一對應的Key、Secret,每次向服務端請求數(shù)據(jù)前將Key、Secret作為參數(shù)發(fā)送請求至服務器,服務端接受到這2個參數(shù)后,生成token返回給客戶端??蛻舳丝稍谙薅ǖ臅r間內(nèi),使用token請求相關(guān)數(shù)據(jù)。下面代碼使用Python語言獲取了學生基礎(chǔ)信息,并以json格式返回數(shù)據(jù):
①#首先需要獲取token,是根據(jù)key和secret生成的
②import requests
③import json
④
⑤token_params={}
⑥token_url="http://dsjapi.ypi.edu.cn/open_api/authentication/get_access_token"
⑦token_params[′key′]="20200918485102751"
⑧token_params[′secret′]="9df420742d065359d7586d9f37030ba97114b3b0"
⑨t(yī)oken_body=requests.post(token_url,json.dumps(token_params),headers={′content-type′: ′application/json′})
⑩res_hash=json.loads(token_body.text)
3) 數(shù)據(jù)開放審核階段:對用戶的數(shù)據(jù)開放申請進行嚴格審核,對隱私數(shù)據(jù)進行“脫敏”處理,并按照隱私數(shù)據(jù)的不同類型與保密要求實行差別化開放;基于條件限制的內(nèi)容過濾功能,可以控制到字段級別的授權(quán),能夠?qū)λ跈?quán)的字段進行加密或添加限制條件的操作;可靈活配置授權(quán)時間,有效時間段內(nèi),平臺用戶可以不間斷獲取數(shù)據(jù)資源。
4) 數(shù)據(jù)調(diào)用運維階段:設(shè)計數(shù)據(jù)訪問黑/白名單,靈活控制接口的啟停,實現(xiàn)調(diào)用過程的自主可控;采用量化數(shù)據(jù)分析完善預警,預知潛在問題威脅;提供完整的數(shù)據(jù)調(diào)用審計以及操作記錄留存功能,支持回溯查詢、分析統(tǒng)計,更為清晰地獲知數(shù)據(jù)的運轉(zhuǎn)情況。
揚州工業(yè)職業(yè)技術(shù)學院已初步建立起由數(shù)據(jù)管理組織架構(gòu)、數(shù)據(jù)標準規(guī)范、數(shù)據(jù)技術(shù)管理的數(shù)據(jù)治理體系,并實現(xiàn)了數(shù)據(jù)采集、匯聚、清洗、管理、開放的完整數(shù)據(jù)鏈路,支撐了教師發(fā)展平臺、云課堂、專業(yè)管理系統(tǒng)、學工系統(tǒng)、學生成長平臺、檔案管理系統(tǒng)、黨建系統(tǒng)、超星圖書館、會議管理系統(tǒng)等17個應用系統(tǒng)的數(shù)據(jù)對接需求(圖3),提供數(shù)據(jù)接口62個,累計調(diào)用接口數(shù)十萬次。統(tǒng)一數(shù)據(jù)開放平臺的建設(shè)極大降低了數(shù)據(jù)的對接門檻和使用成本,大大加快了各類應用服務的建設(shè)進度和上線使用效率。
圖3 統(tǒng)一數(shù)據(jù)開放平臺支撐應用Fig.3 Application supported by unified data open platform
全量數(shù)據(jù)治理統(tǒng)一校內(nèi)各方信息標準,明確了數(shù)據(jù)的權(quán)威來源,逐步提升了數(shù)據(jù)質(zhì)量,基本實現(xiàn)“數(shù)據(jù)全面、標準統(tǒng)一、質(zhì)量較高、來源明確、數(shù)據(jù)及時”的數(shù)據(jù)服務局面,為高校數(shù)據(jù)開放共享提供了全面、完整、權(quán)威的數(shù)據(jù)來源。統(tǒng)一數(shù)據(jù)開放平臺為新建信息系統(tǒng)、各職能部門的業(yè)務辦理、數(shù)據(jù)分析以及跨部門的業(yè)務協(xié)同流程等各類型數(shù)據(jù)需求提供統(tǒng)一、安全、便捷的數(shù)據(jù)出口方式。后續(xù)研究將圍繞數(shù)據(jù)智能門戶進行,讓每一個部門、每一個師生個人、每一個軟件開發(fā)團隊,都能夠了解、感受到數(shù)據(jù)資產(chǎn)的存在感,能夠方便地申請和獲取數(shù)據(jù),從而更積極主動地參與到數(shù)據(jù)資源建設(shè)中來。