巫莉莉,張 波
(華南農(nóng)業(yè)大學(xué) 現(xiàn)代教育技術(shù)中心, 廣州 510642)
隨著IT時代向DT時代的轉(zhuǎn)變,數(shù)據(jù)變得越來越重要,隨之而來的數(shù)據(jù)質(zhì)量問題也被越來越多的人關(guān)注。數(shù)據(jù)質(zhì)量來源于數(shù)據(jù)產(chǎn)生的過程,其優(yōu)劣將直接影響數(shù)據(jù)價值的高低,進而影響管理者的分析和決策。數(shù)據(jù)質(zhì)量問題的出現(xiàn)催生了數(shù)據(jù)治理技術(shù),數(shù)據(jù)作為一種資產(chǎn)在數(shù)據(jù)治理工作中得到進一步的深化[1]。
數(shù)據(jù)治理是對數(shù)據(jù)全生命周期管理的組織行為,其主要目標是利用數(shù)據(jù)解決問題、創(chuàng)造新的價值,避免數(shù)據(jù)重復(fù)采集、數(shù)出多頭、數(shù)據(jù)不準等情況,解決數(shù)據(jù)質(zhì)量的根本問題,并通過提升數(shù)據(jù)質(zhì)量保證數(shù)據(jù)的高可用性[2-4]。國際數(shù)據(jù)管理協(xié)會(DAMA Internation)總結(jié)了數(shù)據(jù)管理的十大功能,把數(shù)據(jù)治理放在十大功能的核心位置,并指出每個數(shù)據(jù)管理的職能都有助于提升數(shù)據(jù)的質(zhì)量[5]。2018年6月,國家市場監(jiān)督管理總局和國家標準化管理委員會批準《信息技術(shù)服務(wù) 治理 第5部分:數(shù)據(jù)治理規(guī)范》(簡稱《規(guī)范》)國家標準發(fā)布實施,實施日期為2019年1月1日。該《規(guī)范》是在數(shù)據(jù)治理國際標準 ISO/IEC 38505-1《信息技術(shù)IT治理數(shù)據(jù) 治理 第1部分:ISO/IEC 38500在數(shù)據(jù)治理中的應(yīng)用》和ISO/IEC TR 38505-2《信息技術(shù)IT治理數(shù)據(jù) 治理 第2部分:數(shù)據(jù)治理對數(shù)據(jù)管理的影響》之后發(fā)布的具有中國特色的數(shù)據(jù)治理規(guī)范?!兑?guī)范》中指出數(shù)據(jù)治理工作應(yīng)圍繞數(shù)據(jù)質(zhì)量開展,并明確了數(shù)據(jù)質(zhì)量管理的需求[6],為國內(nèi)數(shù)據(jù)治理工作中決策層規(guī)劃、監(jiān)督提供了指引,打通了從治理到實施的路徑[7-8]。
目前,國內(nèi)高校經(jīng)過數(shù)十年信息化建設(shè)的發(fā)展,普遍建設(shè)了多個業(yè)務(wù)系統(tǒng),許多高校進入智慧校園建設(shè)階段。2018年6月,國家市場監(jiān)督管理總局和國家標準化管理委員會發(fā)布了《智慧校園總體框架》國家標準[9],以此標準指導(dǎo)數(shù)據(jù)治理工作的開展,以“用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”為目標,對學(xué)校各業(yè)務(wù)域數(shù)據(jù)進行梳理、清洗、分析和利用,著力解決各業(yè)務(wù)系統(tǒng)長期以來存在的“數(shù)據(jù)不規(guī)范、不統(tǒng)一、不準確、共享難”問題,實現(xiàn)“業(yè)務(wù)驅(qū)動”轉(zhuǎn)為“數(shù)據(jù)驅(qū)動”,從而提升數(shù)據(jù)質(zhì)量、規(guī)范數(shù)據(jù)使用、支撐數(shù)據(jù)應(yīng)用與決策[10-11],將松散的數(shù)據(jù)沉淀為科學(xué)有效的學(xué)校數(shù)據(jù)資產(chǎn),進一步推進學(xué)校信息化發(fā)展。
數(shù)據(jù)質(zhì)量是指在業(yè)務(wù)環(huán)境下,數(shù)據(jù)符合數(shù)據(jù)消費者的使用目的,能滿足業(yè)務(wù)場景具體需求的程度[12]。本文結(jié)合國際標準以及相關(guān)學(xué)者的研究觀點,重新描述了數(shù)據(jù)質(zhì)量的特點[13]:① 數(shù)據(jù)質(zhì)量存在于數(shù)據(jù)的整個生命周期,隨著數(shù)據(jù)的消失而消失;② 數(shù)據(jù)質(zhì)量不僅依賴于數(shù)據(jù)本身的特征,還依賴于數(shù)據(jù)所處的業(yè)務(wù)環(huán)境;③ 數(shù)據(jù)質(zhì)量可以借助業(yè)務(wù)系統(tǒng)來判斷,但獨立于業(yè)務(wù)系統(tǒng)而存在;④ 隨著業(yè)務(wù)需求和時間的變化,數(shù)據(jù)質(zhì)量衡量標準會發(fā)生變化。
影響高校數(shù)據(jù)質(zhì)量的因素有很多,既有管理方面的因素,又有技術(shù)方面的因素,其結(jié)果均表現(xiàn)為數(shù)據(jù)沒有達到預(yù)期的質(zhì)量指標。主要表現(xiàn)在兩方面:
1) 數(shù)據(jù)管理不規(guī)范。數(shù)據(jù)全生命周期的各個階段由于業(yè)務(wù)流程設(shè)計不合理及數(shù)據(jù)錄入(更新)操作不規(guī)范,導(dǎo)致存在數(shù)據(jù)不完整、重復(fù)、格式不規(guī)范以及邏輯錯誤等問題。
2) 數(shù)據(jù)采集不規(guī)范。多源分布式異構(gòu)的數(shù)據(jù)源在采集過程中,由于數(shù)據(jù)清洗、集成的規(guī)則和方法等因素,會產(chǎn)生新的數(shù)據(jù)質(zhì)量問題。
數(shù)據(jù)質(zhì)量對于數(shù)據(jù)治理至關(guān)重要,數(shù)據(jù)質(zhì)量需達到可接受的程度才能更好地發(fā)掘和體現(xiàn)數(shù)據(jù)價值。目前,高校數(shù)據(jù)治理中數(shù)據(jù)質(zhì)量主要面臨以下挑戰(zhàn)[14-15]:
1) 數(shù)據(jù)來源于眾多分散的業(yè)務(wù)系統(tǒng),具有多樣性和復(fù)雜性,需要統(tǒng)一的業(yè)務(wù)數(shù)據(jù)標準,保證數(shù)據(jù)的規(guī)范、完整和準確,以便有效地進行質(zhì)量控制。
2) 遵循“一數(shù)一源”原則,確定數(shù)據(jù)源頭,避免數(shù)據(jù)的多頭采集,以保障數(shù)據(jù)治理核心業(yè)務(wù)數(shù)據(jù)的一致性和準確性。
3) 遵循“伴隨式采集”原則進行數(shù)據(jù)采集。數(shù)據(jù)的產(chǎn)生很大程度依賴于業(yè)務(wù)系統(tǒng),不同業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)也存在一定程度的依賴關(guān)系,因此對業(yè)務(wù)系統(tǒng)的基礎(chǔ)數(shù)據(jù)及數(shù)據(jù)交換的轉(zhuǎn)換規(guī)則要求較高。
數(shù)據(jù)質(zhì)量評估是通過度量數(shù)據(jù)的綜合特征來估計數(shù)據(jù)質(zhì)量與數(shù)據(jù)價值的過程[16]。數(shù)據(jù)質(zhì)量評估是數(shù)據(jù)治理過程中必不可少的重要環(huán)節(jié),目前主要通過數(shù)據(jù)質(zhì)量維度和規(guī)則相結(jié)合來實現(xiàn)高校數(shù)據(jù)治理中的數(shù)據(jù)質(zhì)量評估。
結(jié)合高校數(shù)據(jù)治理中的數(shù)據(jù)質(zhì)量問題,總結(jié)了以下數(shù)據(jù)質(zhì)量的維度:完整性、準確性、正確性、一致性、唯一性和及時性[17-19],通過它們來描述和量化數(shù)據(jù)的質(zhì)量。
1) 完整性是數(shù)據(jù)質(zhì)量最基礎(chǔ)的保障。主要是指數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況。
2) 準確性是用來描述數(shù)據(jù)是否與其對應(yīng)的客觀實體的特征相一致,是否存在異?;蛘咤e誤的信息,通常從命名、數(shù)據(jù)類型、長度、值域、取值范圍、內(nèi)容規(guī)范等方面進行約束。
3) 正確性表示數(shù)據(jù)與客觀事實的符合程度,與準確性是不同的概念。
4) 一致性通常指關(guān)聯(lián)數(shù)據(jù)之間的邏輯關(guān)系是否正確和完整,用來描述統(tǒng)一信息主體在不同的數(shù)據(jù)集中信息屬性是否相同,各實體、屬性是否符合一致性約束關(guān)系。
5) 唯一性用來描述數(shù)據(jù)是否存在重復(fù)記錄,沒有實體多于一次出現(xiàn)。
6) 及時性是一個與時間相關(guān)的維度,主要用來描述從業(yè)務(wù)發(fā)生到對應(yīng)數(shù)據(jù)正確存儲并可正常查看的時間間隔。在確保數(shù)據(jù)完整性、準確性和一致性的前提下,保障數(shù)據(jù)能夠及時產(chǎn)出,更加體現(xiàn)數(shù)據(jù)的價值。
對數(shù)據(jù)質(zhì)量維度與業(yè)務(wù)需求是否相匹配進行評估,制定數(shù)據(jù)質(zhì)量規(guī)則,以便檢查數(shù)據(jù)質(zhì)量是否滿足業(yè)務(wù)規(guī)則的流程并監(jiān)控這些業(yè)務(wù)規(guī)則的符合度。根據(jù)業(yè)務(wù)特性確定質(zhì)量屬性,簡單分為以下規(guī)則:
1) 單字段規(guī)則。字段作為數(shù)據(jù)庫中的最小組成單位,從格式、語法、長度、范圍等進行判斷。具體規(guī)則可表現(xiàn)為:非空、唯一、身份證號校驗、日期校驗、電子郵件校驗、手機號校驗、值域類型、值域范圍校驗、學(xué)號長度檢測等。
2) 跨字段關(guān)聯(lián)規(guī)則。從字段之間的邏輯關(guān)系和函數(shù)依賴關(guān)系等方面進行數(shù)據(jù)質(zhì)量規(guī)則的定義。邏輯關(guān)系和函數(shù)關(guān)系都是指表的不同字段取值之間存在的一種或多種約束關(guān)系,使得彼此的取值相互制約[20]。
3) 業(yè)務(wù)校驗規(guī)則。主要是檢查數(shù)據(jù)是否符合業(yè)務(wù)邏輯,需要業(yè)務(wù)部門參與制定、完善和實施的業(yè)務(wù)校驗規(guī)則。
如表1所示,以學(xué)生個人基本信息為例說明數(shù)據(jù)質(zhì)量規(guī)則與數(shù)據(jù)質(zhì)量維度之間的關(guān)系。
表1 質(zhì)量規(guī)則與質(zhì)量維度關(guān)聯(lián)
數(shù)據(jù)質(zhì)量的提升技術(shù)主要涉及模式層和實例層兩個方面[21]。數(shù)據(jù)集成主要解決模式層的問題,數(shù)據(jù)剖析主要針對實例層的數(shù)據(jù)進行分析,數(shù)據(jù)清洗解決的是實例層的數(shù)據(jù)問題,這3個方面相互交織、相互滲透,但三者從實現(xiàn)目標到使用技術(shù)都有明顯的不同。數(shù)據(jù)集成是目的,而數(shù)據(jù)剖析和數(shù)據(jù)清洗是手段[22]。表2對數(shù)據(jù)集成、數(shù)據(jù)剖析和數(shù)據(jù)清洗進行比較[23]。
表2 數(shù)據(jù)集成、數(shù)據(jù)剖析和數(shù)據(jù)清洗的比較
數(shù)據(jù)集成(data integration)是將不同來源、不同系統(tǒng)、異構(gòu)且相互關(guān)聯(lián)的數(shù)據(jù)源集成到一起,并以統(tǒng)一的訪問接口對外提供數(shù)據(jù)服務(wù),其主要目的是讓用戶能夠以透明的方式訪問這些數(shù)據(jù)源[24-25]。數(shù)據(jù)集成是數(shù)據(jù)治理工作的基礎(chǔ),首先要解決的是數(shù)據(jù)異構(gòu)、分散的問題。在高校數(shù)據(jù)治理中,目前主要通過數(shù)據(jù)視圖或數(shù)據(jù)復(fù)制的方式實現(xiàn)數(shù)據(jù)集成。
數(shù)據(jù)剖析(data profiling)[26]也稱數(shù)據(jù)概要分析,它通過對當(dāng)前數(shù)據(jù)源的數(shù)據(jù)分析,搜集該數(shù)據(jù)源的統(tǒng)計信息,以此來檢驗數(shù)據(jù)的有效性、可用性,對數(shù)據(jù)源進行初步的評估。數(shù)據(jù)剖析以數(shù)據(jù)質(zhì)量維度為指導(dǎo),對數(shù)據(jù)結(jié)構(gòu)、內(nèi)容、關(guān)系、繼承關(guān)系進行識別分析,主要目的是為了發(fā)現(xiàn)數(shù)據(jù)的標準特征,包括數(shù)據(jù)類型、字段長度、列基數(shù)、粒度、值集、格式模式、隱含的規(guī)則、跨列和跨表的數(shù)據(jù)關(guān)系及這些關(guān)系的基數(shù)。分析的結(jié)果可以直接作為元數(shù)據(jù)使用,通常從列分析、表分析和跨表分析3個方面進行數(shù)據(jù)剖析[27-28]。在高校數(shù)據(jù)治理中,通常在數(shù)據(jù)集成的開始階段對不同來源的數(shù)據(jù)進行數(shù)據(jù)剖析。
數(shù)據(jù)清洗(data cleaning)是通過檢測發(fā)現(xiàn)和定位“臟數(shù)據(jù)”,并對這些數(shù)據(jù)進行修補或移除以提升數(shù)據(jù)質(zhì)量的過程[29]。數(shù)據(jù)清洗主要關(guān)注缺失、不正確、邏輯錯誤、相似重復(fù)記錄等“臟數(shù)據(jù)”的檢測和消除[30]。通過定義統(tǒng)一的數(shù)據(jù)格式對數(shù)據(jù)進行合并、重組、消除等操作,將“臟數(shù)據(jù)”有效轉(zhuǎn)化成高質(zhì)量的干凈數(shù)據(jù),提升數(shù)據(jù)質(zhì)量。
確保數(shù)據(jù)質(zhì)量是高校數(shù)據(jù)治理工作中不容忽視的重要環(huán)節(jié)。然而,數(shù)據(jù)質(zhì)量問題不能單純依靠技術(shù)去解決,而是需要依靠“制度+系統(tǒng)+人工”一起協(xié)力完成。
通過數(shù)據(jù)質(zhì)量的評估、反饋和整改,建設(shè)高校數(shù)據(jù)質(zhì)量提升體系(圖1),實現(xiàn)流程化的數(shù)據(jù)質(zhì)量管理的閉環(huán)。對原業(yè)務(wù)系統(tǒng)的數(shù)據(jù)分析形成現(xiàn)狀報告,經(jīng)過數(shù)據(jù)集成和清洗后生成質(zhì)量報告,通過數(shù)據(jù)共享平臺將數(shù)據(jù)質(zhì)量問題反饋到源頭部門進行修正和完善,然后再重新采集入庫,實現(xiàn)完整的流程閉環(huán)及質(zhì)量改進循環(huán)機制。
規(guī)范制度的建設(shè)是數(shù)據(jù)治理目標實現(xiàn)的保障。在高校數(shù)據(jù)治理過程中,制定一系列的數(shù)據(jù)質(zhì)量管理制度,規(guī)范數(shù)據(jù)源頭采集、統(tǒng)一存儲數(shù)據(jù)和使用標準接口,保證數(shù)據(jù)從產(chǎn)生、使用到變更的管理流程規(guī)范;制定統(tǒng)一的數(shù)據(jù)標準,在全校范圍梳理和建立數(shù)據(jù)認責(zé)機制,確定數(shù)據(jù)安全等級以及來源部門,按照“誰產(chǎn)生數(shù)據(jù),誰負責(zé)管理”的原則,數(shù)據(jù)使用部門參與管理,保證數(shù)據(jù)全生命周期的質(zhì)量。
數(shù)據(jù)的過程可視化和質(zhì)量可視化管理極為重要。在高校數(shù)據(jù)治理的實施過程中,通過數(shù)據(jù)質(zhì)量平臺建設(shè)(圖2),實現(xiàn)對數(shù)據(jù)質(zhì)量可視化的呈現(xiàn)和分析,實時、全面地展示數(shù)據(jù)質(zhì)量整體情況,及時發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,優(yōu)化、提升數(shù)據(jù)質(zhì)量,便于后續(xù)數(shù)據(jù)治理和數(shù)據(jù)分析與應(yīng)用的有效開展。
圖1 數(shù)據(jù)質(zhì)量提升體系
圖2 數(shù)據(jù)質(zhì)量平臺
該平臺主要實現(xiàn)以下功能:
1) 數(shù)據(jù)集成規(guī)模展示。對數(shù)據(jù)進行量化和全局的統(tǒng)計,讓管理者對全校的數(shù)據(jù)資源一目了然。
2) 數(shù)據(jù)質(zhì)量分析與統(tǒng)計??勺远x數(shù)據(jù)質(zhì)量規(guī)則,并形成質(zhì)量報告,促使各部門不斷提升本部門數(shù)據(jù)質(zhì)量,形成良性循環(huán)。① 通過數(shù)據(jù)剖析形成現(xiàn)狀報告,理清學(xué)?,F(xiàn)有業(yè)務(wù)系統(tǒng)現(xiàn)狀,針對學(xué)校當(dāng)前數(shù)據(jù)現(xiàn)狀做全面的分析與可視化呈現(xiàn),明確當(dāng)前數(shù)據(jù)質(zhì)量問題,為數(shù)據(jù)質(zhì)量的改善與提升提供基準對比。② 通過數(shù)據(jù)清洗形成以季度、主題域及業(yè)務(wù)系統(tǒng)為單位的數(shù)據(jù)質(zhì)量報告,包括從總體數(shù)據(jù)質(zhì)量到系統(tǒng)、數(shù)據(jù)表及數(shù)據(jù)字段的數(shù)據(jù)質(zhì)量明細,全面掌握數(shù)據(jù)清洗后的數(shù)據(jù)質(zhì)量情況。
3) 數(shù)據(jù)回溯。對數(shù)據(jù)全鏈流程實行監(jiān)控,隨時掌握數(shù)據(jù)的上下行狀態(tài),并可回溯數(shù)據(jù)的歷史進化過程。
在高校數(shù)據(jù)治理過程中,將數(shù)據(jù)質(zhì)量問題分為結(jié)構(gòu)性問題和內(nèi)容性問題。結(jié)構(gòu)性問題通常是指代碼集不一致、填寫不規(guī)范、代碼混淆、格式錯誤等情況,可通過數(shù)據(jù)清洗解決問題。內(nèi)容性問題通常是指數(shù)據(jù)缺失、數(shù)值錯誤、口徑不一致等現(xiàn)象,需要將問題反饋給源頭部門,通過源頭部門改錯補漏,更新源頭數(shù)據(jù),再重新采集入庫。
高校數(shù)據(jù)治理實施主要以人、財、物為主線進行,而人事信息是主線中的關(guān)鍵基礎(chǔ)信息。為了進一步評估學(xué)校人事信息的數(shù)據(jù)質(zhì)量,對評估發(fā)現(xiàn)的異常數(shù)據(jù)進行統(tǒng)計分析。如表3所示,人事信息的異常數(shù)據(jù)集中表現(xiàn)在完整性方面。在數(shù)據(jù)清洗的過程中,身份證件號為空的數(shù)據(jù)通過人事信息里的工號作為主鍵和一卡通人員信息做匹配,完善部分身份證件號,并通過身份證件號完善身份證件類型字段。通過對數(shù)據(jù)清洗前后存在的問題做量化對比,發(fā)現(xiàn)數(shù)據(jù)清洗解決了人事信息里身份證件問題的大部分數(shù)據(jù),剩下的為空數(shù)據(jù)主要是由于歷史數(shù)據(jù)缺失的原因造成。其他人事信息異常數(shù)據(jù)屬于內(nèi)容性問題,需數(shù)據(jù)產(chǎn)生源頭部門修正、完善數(shù)據(jù)或通過改善產(chǎn)生數(shù)據(jù)的業(yè)務(wù)流程來解決。
表3 問題數(shù)據(jù)統(tǒng)計情況記錄
在人事信息數(shù)據(jù)問題的清洗過程中,通過部分算法模型進行數(shù)據(jù)質(zhì)量控制。
算法1出生日期校驗。主要通過身份證號(SFZJH)驗證出生日期(CSRQ)的正確性,算法描述如下:
public class BirthDateAuth {
public static booleanauth(String CSRQ,String SFZJH) {
//判斷輸入條件是否為空
if (CSRQ==null || "".equals(CSRQ) || SFZJH == null || "".equals(SFZJH)) {
return false;
}
//IDCardAuth為判斷身份證號是否有效的函數(shù)
if(!IDCardAuth.auth(SFZJH)){
return false;
}
String birthDate=CSRQ.replaceAll("-","");
String cardBirthdate="";//身份證的生日
if (SFZJH.length() == 18) {
cardBirthdate=SFZJH.substring(6,14);
} else {
cardBirthdate=SFZJH.substring(4,12);
}
if (birthDate.equals(cardBirthdate)) {
return true;
}
return false;
}
}
算法2教師的正式報到時間(BDSJ)的取值應(yīng)大于或等于入職時間(RZSJ)的取值。算法描述如下:
public class TeacherCheckIn {
public static booleanauth(String bdsjStr,String rzsjStr) {
if (bdsjStr == null || rzsjStr == null || "".equals(rzsjStr) || "".equals(rzsjStr)){
return false;
}
DateFormat format=new SimpleDateFormat("yyyy-MM-ddHH:mm:ss");
try {
Date BDSJ=format.parse(bdsjStr);
Date RZSJ=format.parse(rzsjStr);
if (BDSJ.getTime() >=RZSJ.getTime()) {
return true;
} else {
return false;
}
} catch (ParseException e) {
e.printStackTrace();
return false;
}
}
}
數(shù)據(jù)質(zhì)量管理不是一次性行為,需建立持續(xù)監(jiān)測和問題反饋的工作機制,從而多方位優(yōu)化改進。高校數(shù)據(jù)治理工作中,主要從以下幾個方面進行數(shù)據(jù)質(zhì)量問題反饋和跟進:
1) 借助數(shù)據(jù)質(zhì)量平臺,根據(jù)表規(guī)則(表數(shù)據(jù)量、容量、表非空)及字段規(guī)則(非空、值域、正則式、范圍)手動核驗數(shù)據(jù)清洗之后的數(shù)據(jù)存在的質(zhì)量問題,將分析結(jié)果以質(zhì)量報告的形式呈現(xiàn)出來,明確問題所在。然后將質(zhì)量報告反饋給數(shù)據(jù)產(chǎn)生的源頭部門,方便源頭部門查看整體和詳細的質(zhì)量問題,進而提升數(shù)據(jù)質(zhì)量。
2) 借助數(shù)據(jù)共享平臺反饋數(shù)據(jù)質(zhì)量。按人力資源、學(xué)生管理、科研管理、教學(xué)資源與管理、資產(chǎn)管理、財務(wù)管理、行政管理和公共服務(wù)等主題域進行數(shù)據(jù)劃分,通過數(shù)據(jù)共享平臺提供不同維度的數(shù)據(jù)共享服務(wù)。在數(shù)據(jù)共享的過程中,通過數(shù)據(jù)質(zhì)量反饋的流程,借助數(shù)據(jù)共享平臺在線上形成數(shù)據(jù)質(zhì)量問題上報、反饋和問題督辦機制,在數(shù)據(jù)源頭進行數(shù)據(jù)整改。
3) 進行數(shù)據(jù)定期核查,結(jié)合數(shù)據(jù)的重要級別(核心數(shù)據(jù)、重要數(shù)據(jù)等),階段性地推進數(shù)據(jù)整改工作,為后續(xù)數(shù)據(jù)使用及數(shù)據(jù)應(yīng)用分析提供高效、準確的數(shù)據(jù)。
數(shù)據(jù)安全貫穿整個數(shù)據(jù)治理過程。建立完善的數(shù)據(jù)安全保障機制,為數(shù)據(jù)質(zhì)量的提升做好基礎(chǔ)保障工作。
1) 制度保障。制定校級數(shù)據(jù)管理相關(guān)辦法,建立健全數(shù)據(jù)安全管理框架,明確數(shù)據(jù)生產(chǎn)部門、數(shù)據(jù)使用部門、數(shù)據(jù)管理部門等單位的數(shù)據(jù)安全管理職責(zé)。建立數(shù)據(jù)資源的分類分級和保密定級工作,按分類等級和保密等級規(guī)定采取相關(guān)處理措施。
2) 技術(shù)保障。建立數(shù)據(jù)訪問的身份驗證、權(quán)限管理、行為審計及定期備份等多種安全防護機制。做好病毒預(yù)防、入侵檢測和數(shù)據(jù)保密工作,做好網(wǎng)絡(luò)層面的隔離工作,敏感信息限制在校內(nèi)服務(wù)器訪問[31-33]。
3) 隊伍建設(shè)。組建專業(yè)的數(shù)據(jù)管理隊伍,定期和不定期地開展數(shù)據(jù)安全檢查工作。
4) 環(huán)境保障。提供高性能、高可靠、高穩(wěn)定的存儲系統(tǒng),充分保障訪問性能和數(shù)據(jù)安全。
數(shù)據(jù)治理是一個長期的過程,需要建立長效的管理機制來促進數(shù)據(jù)治理工作的開展。在高校數(shù)據(jù)治理過程中,數(shù)據(jù)質(zhì)量的管理也是一個持續(xù)的過程。為了保證高質(zhì)量的數(shù)據(jù),需要職能管理部門的積極配合與參與,逐步推進不同層次和不同維度的數(shù)據(jù)共享,不斷完善質(zhì)量反饋與監(jiān)督機制,健全數(shù)據(jù)質(zhì)量提升體系,形成數(shù)據(jù)質(zhì)量管理的良性循環(huán)。通過數(shù)據(jù)助力數(shù)據(jù)治理,提升數(shù)據(jù)質(zhì)量,為高校師生提供更優(yōu)質(zhì)的數(shù)據(jù)支撐服務(wù),為學(xué)校管理者提供更精準的輔助決策支持,提高學(xué)校的管理和科研水平,促進學(xué)校建設(shè)。