蒲天銀,饒正嬋,雷 宏
(1.銅仁學院大數(shù)據(jù)學院,貴州 銅仁 554300;2.銅仁市大數(shù)據(jù)管理局,貴州 銅仁 554300)
目前信息技術(shù)高度發(fā)展,各行各業(yè)每天會產(chǎn)生大量的數(shù)據(jù),因此,數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、大數(shù)據(jù)、云計算等新的數(shù)據(jù)研究領(lǐng)域應(yīng)運而生.與20世紀60年代軟件行業(yè)出現(xiàn)軟件危機相似,當前的數(shù)據(jù)信息雖然看上去很多,但是在實際應(yīng)用中人們發(fā)現(xiàn),大部分數(shù)據(jù)在應(yīng)用前都需要重新過濾,知識再發(fā)現(xiàn),才能得到有效的信息.通過目前的數(shù)據(jù)現(xiàn)象來看,中國軟件評測中心吳志剛提出“數(shù)據(jù)危機”這個說法不無道理,那么,如何有效地解決好數(shù)據(jù)危機問題,數(shù)據(jù)治理就提上了一個極為重要的日程.
關(guān)于數(shù)據(jù)治理的定義一直是學術(shù)界討論的重要話題,然而由于關(guān)注點、表述的不同,至今尚未形成一個統(tǒng)一的定義.現(xiàn)有的研究大致形成了以下兩種觀點:一種觀點認為,數(shù)據(jù)治理是有關(guān)數(shù)據(jù)決策權(quán)和職責的分配.數(shù)據(jù)治理研究所給出了類似的定義,數(shù)據(jù)治理是指針對信息相關(guān)過程的決策權(quán)和職責體系[1].另一種觀點認為,數(shù)據(jù)治理是一個圍繞數(shù)據(jù)全生命周期的活動集合.國際數(shù)據(jù)管理協(xié)會在2009年的報告中對數(shù)據(jù)治理的定義是,數(shù)據(jù)治理是對數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動集合(包括計劃、監(jiān)督和執(zhí)行)[2].
大數(shù)據(jù)時代的到來為數(shù)據(jù)資產(chǎn)的管理和應(yīng)用帶來了新的挑戰(zhàn),大數(shù)據(jù)治理的需求應(yīng)運而生.國際著名數(shù)據(jù)治理專家Sunil Soares將大數(shù)據(jù)治理定義為廣義信息治理計劃的一部分,通過協(xié)調(diào)多個職能部門的目標來制定與大數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護與數(shù)據(jù)變現(xiàn)的政策[3].從本質(zhì)上來講,大數(shù)據(jù)是數(shù)據(jù)存在和發(fā)展的新階段.同樣,大數(shù)據(jù)治理是數(shù)據(jù)治理發(fā)展的階段.
不僅僅行業(yè)數(shù)據(jù)多而復雜,高校數(shù)據(jù)也同樣如此.高校在發(fā)展過程中會產(chǎn)生各類數(shù)據(jù),如學生信息數(shù)據(jù)、職工信息數(shù)據(jù)、科研信息數(shù)據(jù)、教學信息數(shù)據(jù)、資產(chǎn)數(shù)據(jù)、財務(wù)數(shù)據(jù)等等.而每一大類數(shù)據(jù)又包含各種不同小類的數(shù)據(jù),有些數(shù)據(jù)之間存在明顯的重疊.由于高校大多沒有考慮數(shù)據(jù)治理問題,在信息化建設(shè)過程中,各內(nèi)設(shè)管理機構(gòu),根據(jù)自身業(yè)務(wù)建設(shè)信息化管理系統(tǒng),而這些系統(tǒng)相互之間又沒有形成有效的數(shù)據(jù)通道,各自為政,這導致高校雖積累了大量的業(yè)務(wù)數(shù)據(jù)和用戶行為相關(guān)日志數(shù)據(jù),但還是普遍存在數(shù)據(jù)質(zhì)量不達標,冗余數(shù)據(jù)大量存在、數(shù)據(jù)準確性不高以及業(yè)務(wù)單位共享數(shù)據(jù)難度較大等問題,這些問題已嚴重制約了高校的信息化管理及信息化教學水平的提升.
雖然數(shù)字化校園、智慧校園已提出了一段時間,但是,高校在事業(yè)發(fā)展過程中,更多注重科學研究、人才培養(yǎng)等職能建設(shè),對學校的智能化建設(shè)重視不夠,因此,在信息化建設(shè)過程中沒有形成頂端的數(shù)據(jù)管理中控中心,沒有形成良好的規(guī)劃設(shè)計,各業(yè)務(wù)部門分開建設(shè)、管理業(yè)務(wù)系統(tǒng),數(shù)據(jù)之間無法互聯(lián)互通,共享不足,普通存在“數(shù)據(jù)孤島”現(xiàn)象,數(shù)據(jù)流通的范圍、時效性等仍受到嚴重的影響.
由于決策層沒有重視數(shù)據(jù)管理的重要性,相關(guān)職能部門也沒有這方面的思考,因此在實際運行過程中,沒有建立必要的數(shù)據(jù)管理體系,缺少對數(shù)據(jù)使用的精確管理和監(jiān)督,導致管理職責不明確,數(shù)據(jù)沒有權(quán)威性.比如一些高校,有人想要了解學校的實際學生人數(shù),卻不知道應(yīng)該找招生管理部門、學生管理部門、學籍管理部門、學費收繳管理部門中哪一部門.每個部門都有自己的數(shù)據(jù),但都不全面、準確,因此數(shù)據(jù)質(zhì)量當然不高.其問題的本質(zhì)就是高校缺少數(shù)據(jù)管理體系,各職能部門數(shù)據(jù)之間存在明顯的重疊,導致數(shù)據(jù)管理混亂.
高校跨部門的數(shù)據(jù)質(zhì)量管理規(guī)范與標準未建立,各類數(shù)據(jù)的生產(chǎn)、使用、管理、維護等環(huán)節(jié)標準不統(tǒng)一,引起部門之間提升的數(shù)據(jù)結(jié)構(gòu)不一致的問題.如提交教職工信息表,一是格式上不統(tǒng)一,有的部門做成xls格式,而有的部門做成doc格式;二是內(nèi)容上的不統(tǒng)一,有的表格里需要填寫性別、民族,而有的表格不需要.
高校應(yīng)加大對非結(jié)構(gòu)化數(shù)據(jù)采集、儲存和分析工具的建設(shè)力度,便于真正地提升數(shù)據(jù)管理質(zhì)量.數(shù)據(jù)管理經(jīng)歷了從數(shù)據(jù)挖掘、云計算、大數(shù)據(jù)、區(qū)塊鏈等數(shù)據(jù)管理過程,就如何從任意一項數(shù)據(jù)中發(fā)現(xiàn)有效信息這個問題,這是一個最基本的數(shù)據(jù)管理模式.但是目前大部分高校還沒有數(shù)據(jù)分析管理這一過程,即使有,也只是形式上的.如大部分高校未對每年的招生錄取信息進行分析,未對每年的財務(wù)資金收支作具體分析,未對每年的科研項目作詳細分析.而恰恰這些問題都是向決策層提供參考的必需信息,因此高校想要解決“數(shù)據(jù)危機”,進行數(shù)據(jù)分析管理過程是必不可少的.
參考文獻[4]中關(guān)于教育數(shù)據(jù)分類,筆者結(jié)合對當前高校數(shù)據(jù)類型的理解,將教育數(shù)據(jù)從數(shù)據(jù)產(chǎn)生的層次、來源主體、業(yè)務(wù)活動、采集技術(shù)及設(shè)備分類等四方面進行分類,結(jié)果如表1所示.
表1 高校數(shù)據(jù)分類Table 1 Classification of Colleges and Universities Data
表1(續(xù))Table 1(Continued)
表1中的分類只是數(shù)據(jù)治理過程中考慮的部分側(cè)重點,每一大類數(shù)據(jù)中具體的小類數(shù)據(jù)及數(shù)據(jù)項不一定考慮周全.但不管什么樣的數(shù)據(jù)治理,筆者都大到數(shù)據(jù)系統(tǒng)小到具體的數(shù)據(jù)元素.治理方法有考慮管理層的體系機制治理,技術(shù)層面上的應(yīng)用工具方法等.
數(shù)據(jù)治理涉及的范圍廣,可以從頂層體系制度設(shè)計到數(shù)據(jù)具體運行,可以從大數(shù)據(jù)的管理到具體的數(shù)據(jù)元素的管理.無論從哪個角度來看,要做好數(shù)據(jù)治理工作,可以從四個方面加以考慮.
4.2.1 構(gòu)建科學的治理機制體制,確保治理保障有效 國家針對推進大數(shù)據(jù)工作及數(shù)據(jù)安全問題出臺了《國務(wù)院關(guān)于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知》(國發(fā)〔2015〕50號),將出臺的《中華人民共和國數(shù)據(jù)安全法(草案)》;在教育方面,相繼出臺了一系列國家政策文件,規(guī)劃教育大數(shù)據(jù)的建設(shè),指導教育大數(shù)據(jù)的管理和利用.2016年6月,《教育信息化“十三五”規(guī)劃》提出“制訂出臺教育數(shù)據(jù)管理辦法”“實現(xiàn)教育基礎(chǔ)數(shù)據(jù)的有序開放與共享”“利用大數(shù)據(jù)提升教育治理能力”;2019年2月,《中國教育現(xiàn)代化2035》《加快推進教育現(xiàn)代化實施方案(2018—2022年)》做出了面向教育現(xiàn)代化“大力推進教育信息化,構(gòu)建基于信息技術(shù)的新型教育教學模式、教育服務(wù)供給方式以及教育治理模式”的重要部署.
具體落實到數(shù)據(jù)治理過程中,必須從兩個層面來進行分析.筆者在參考文獻[5]提出的模型基礎(chǔ)上進行了部分改進,改進后模型如圖1所示.
圖1 數(shù)據(jù)治理管理機制模型Fig.1 Data Governance Management Mechanism Model
一是從管理層面進行管理制度體系建設(shè),這個體系主要包括管理機制、管理辦法、操作規(guī)范、考核機制.具體來講,第一需要建立完善的管理機制,形成完備的治理人力、物資、后勤保障體系,如高校應(yīng)該高度重視數(shù)據(jù)治理工作,充分利用現(xiàn)代教育中心、網(wǎng)絡(luò)中心或信息中心現(xiàn)有的團隊,加上大數(shù)據(jù)專業(yè)技術(shù)研究隊伍,建立相應(yīng)的數(shù)據(jù)治理組織團隊;第二根據(jù)國家相關(guān)制度與條例,出臺相應(yīng)具體的管理方案;第三需要有可執(zhí)行的操作規(guī)范;第四需要對工作績效設(shè)置一個合理的考核評價機制.
二是從具體的數(shù)據(jù)治理技術(shù)層面強化落實.在這個層面中,主要完成三步曲,即數(shù)據(jù)的采集識別、數(shù)據(jù)具體的治理工作、有效新數(shù)據(jù)的確認.在采集識別階段,主要完成數(shù)據(jù)采集、數(shù)據(jù)識別與分析、新數(shù)據(jù)標準制定、新數(shù)據(jù)最終標準確認.在數(shù)據(jù)治理階段主要完成,數(shù)據(jù)的抽取集成、數(shù)據(jù)的質(zhì)量檢測、數(shù)據(jù)分析與確認、數(shù)據(jù)的清洗與轉(zhuǎn)換.
4.2.2 構(gòu)建學校統(tǒng)一的數(shù)據(jù)標準體系,確保分析維度統(tǒng)一 由現(xiàn)有數(shù)據(jù)可以看出,數(shù)據(jù)相互之間利用率不高,數(shù)據(jù)共享困難,主要還是因為數(shù)據(jù)標準不統(tǒng)一,比如一個學生基本信息表的數(shù)據(jù)字段,現(xiàn)有的很多系統(tǒng)存在數(shù)據(jù)格式、數(shù)據(jù)類型以及數(shù)據(jù)取值范圍不規(guī)范等問題,導致數(shù)據(jù)后期使用存在難以交換的難題,從而使數(shù)據(jù)整合以深度挖掘數(shù)據(jù)價值受到阻礙.建立通用的數(shù)據(jù)標準,分析梳理業(yè)務(wù)流程,形成數(shù)據(jù)標準規(guī)范,同時規(guī)范數(shù)據(jù)管控制度、流程規(guī)范文檔、信息項定義等,可以幫助整個智慧平臺提升數(shù)據(jù)標準性和一致性,為數(shù)據(jù)整合交換打下基礎(chǔ).
4.2.3 定期進行數(shù)據(jù)過濾,確保數(shù)據(jù)干凈有用 從理論上講,經(jīng)過信息處理產(chǎn)生的數(shù)據(jù)在具體的應(yīng)用場景中發(fā)揮效能后,從短期來看可能這些數(shù)據(jù)就沒有用處了,但是數(shù)據(jù)通過數(shù)據(jù)挖掘、大數(shù)據(jù)技術(shù)處理后會發(fā)現(xiàn)其特有的價值.現(xiàn)實中普遍存在數(shù)據(jù)存儲問題、數(shù)據(jù)信息不完整等問題.對于數(shù)據(jù)存在的數(shù)據(jù)不完整、準確率低以及一致性差等問題,可通過數(shù)據(jù)過濾,過濾即按照一定的規(guī)則清理“臟數(shù)據(jù)”.根據(jù)業(yè)務(wù)規(guī)則將預先制定好出現(xiàn)數(shù)據(jù)質(zhì)量問題時的處理規(guī)則放入過濾庫,利用過濾工具對數(shù)據(jù)進行過濾,可以有效提升數(shù)據(jù)質(zhì)量[6].
4.2.4 掌握數(shù)據(jù)治理重點環(huán)節(jié),確保數(shù)據(jù)質(zhì)量提升 判斷一個數(shù)據(jù)有沒有用,是在特定的場景中體現(xiàn)出來的.在大數(shù)據(jù)技術(shù)高度發(fā)展的今天,要保證數(shù)據(jù)治理質(zhì)量,必須從全面性、標準化、共享化、時效性、安全隱私性五大方面加以明確[4](表2).
表2 數(shù)據(jù)治理目標標準屬性表Table 2 Data Governance Target Standard Attribute Table
從表2可以看出,數(shù)據(jù)的共享化和安全隱私性這兩組屬性的矛盾性,此處看似矛盾,實際上并不矛盾,原因如下:
教育數(shù)據(jù)開放指教育領(lǐng)域的數(shù)據(jù)開放,是數(shù)據(jù)開放的一個子集,教育數(shù)據(jù)開放多以數(shù)據(jù)服務(wù)的形式提供,根據(jù)用戶需求和數(shù)據(jù)分析結(jié)果,提供數(shù)據(jù)開放服務(wù)接口,包括原始記錄數(shù)據(jù)服務(wù)、統(tǒng)計分析數(shù)據(jù)服務(wù)、公共數(shù)據(jù)服務(wù)和個性化數(shù)據(jù)服務(wù).數(shù)據(jù)開放性是衡量教育數(shù)據(jù)共享程度的指標,教育數(shù)據(jù)的共享性包括縱向共享、橫向共享和跨界共享.
教育數(shù)據(jù)安全性即指教育數(shù)據(jù)從采集、存儲、分析到使用的整個過程中都能保證數(shù)據(jù)是安全可靠的,即不會遭到破壞或丟失教育數(shù)據(jù).隱私性即指在教育數(shù)據(jù)的整個使用過程中,對數(shù)據(jù)隱私的控制和保護.在教育領(lǐng)域,學生是教育數(shù)據(jù)最大的來源主體,也是教育的主要參與者和服務(wù)者,因此研究者關(guān)于隱私權(quán)的討論也更多關(guān)注的學生的權(quán)利.
構(gòu)建智慧校園的目的就是讓高校數(shù)據(jù)在網(wǎng)上跑動,便于管理與分析,這就必須將數(shù)據(jù)上網(wǎng),在此過程中,特別需要注意開放數(shù)據(jù)與保密數(shù)據(jù)兩者之間的平衡.針對高校教育數(shù)據(jù)的治理,數(shù)據(jù)層次范圍、數(shù)據(jù)格式標準以及如何把握好數(shù)據(jù)治理過程中,涉及到師生信息的開放與隱私矛盾平衡,既做到數(shù)據(jù)的有效共享,體現(xiàn)智慧校園價值,又要能保證師生個人信息秘密,這些方面都是至關(guān)重要的.只有把這些問題一一解決,才能真正達到數(shù)據(jù)治理的目的.