王逸晨
【摘? 要】近年來(lái),隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)應(yīng)用逐漸深入,社會(huì)對(duì)于數(shù)據(jù)共享與開(kāi)放的需求也逐漸增加。與此同時(shí),早期存在的系統(tǒng)割裂、數(shù)據(jù)孤島等問(wèn)題阻礙著政府?dāng)?shù)據(jù)對(duì)于社會(huì)的共享和開(kāi)放。論文通過(guò)分析當(dāng)前背景及現(xiàn)狀,先對(duì)數(shù)據(jù)采集方式進(jìn)行了描述,對(duì)幾大數(shù)據(jù)治理體系核心要素展開(kāi)了分析,最后從數(shù)據(jù)管理制度和數(shù)據(jù)治理平臺(tái)建設(shè)兩方面對(duì)數(shù)據(jù)治理體系建設(shè)進(jìn)行了研究。
【Abstract】In recent years, with the continuous development of information technology, data application is gradually in-depth, and the social demand for data sharing and opening is also gradually increasing. At the same time, such as system fragmentation, data islands, and other early problems hindered the sharing and opening of government data to society. Through the analysis of the current background and status quo, this paper firstly describes the ways of data acquisition, analyzes several key elements of data governance system, and finally studies the construction of data governance system from two aspects: data management system construction and data governance platform construction.
【關(guān)鍵詞】數(shù)據(jù)治理;數(shù)據(jù)采集;數(shù)據(jù)管理制度;數(shù)據(jù)治理平臺(tái)
【Keywords】data governance; data acquisition; data management system; data governance platform
【中圖分類號(hào)】D630.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號(hào)】1673-1069(2020)06-0154-02
1 引言
2020年4月,中共中央、國(guó)務(wù)院印發(fā)《關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見(jiàn)》,提出“著力加快培育數(shù)據(jù)要素市場(chǎng),全面提升數(shù)據(jù)要素價(jià)值”,這是數(shù)據(jù)首次被列為生產(chǎn)要素之一。隨著信息技術(shù)的不斷發(fā)展,社會(huì)對(duì)于數(shù)據(jù)開(kāi)放共享的需求不斷提高,數(shù)據(jù)的價(jià)值不斷凸顯。
一方面,社會(huì)利用政府部門(mén)公開(kāi)的數(shù)據(jù)發(fā)揮了極大的效能。例如,使用醫(yī)療數(shù)據(jù)形成智能健康管理、利用交通數(shù)據(jù)形成智能線路等。另一方面,部分政府部門(mén)的各個(gè)業(yè)務(wù)系統(tǒng)自成一體、各系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)不同、系統(tǒng)間數(shù)據(jù)質(zhì)量參差不齊,數(shù)據(jù)孤島、數(shù)據(jù)壁壘等問(wèn)題日益突出,不僅阻礙了政府部門(mén)內(nèi)、政府部門(mén)間的信息資源共享,也阻礙了政府與社會(huì)間的信息資源共享。
在此背景下,建設(shè)一套科學(xué)有效的數(shù)據(jù)治理體系,統(tǒng)一規(guī)劃數(shù)據(jù)資源、構(gòu)建合理數(shù)據(jù)架構(gòu)、打通內(nèi)外部數(shù)據(jù)具有重要的意義。通過(guò)對(duì)數(shù)據(jù)資源從采集、整合、共享到應(yīng)用等全生命周期進(jìn)行數(shù)據(jù)治理,形成高質(zhì)量的數(shù)據(jù)資源,不斷提升數(shù)據(jù)的服務(wù)能力,促進(jìn)數(shù)據(jù)的使用。
2 數(shù)據(jù)采集
數(shù)據(jù)采集為數(shù)據(jù)治理提供基礎(chǔ)。通過(guò)對(duì)數(shù)據(jù)資源梳理充分識(shí)別需采集的內(nèi)外部數(shù)據(jù)資源,以多種數(shù)據(jù)接入方式將不同類型、不同源頭的數(shù)據(jù)匯總至統(tǒng)一的數(shù)據(jù)池,從而實(shí)現(xiàn)數(shù)據(jù)資源的盤(pán)點(diǎn)、整合。
2.1 數(shù)據(jù)資源梳理
現(xiàn)狀調(diào)研及梳理。通過(guò)問(wèn)卷調(diào)研、現(xiàn)場(chǎng)訪談等形式,對(duì)各部門(mén)信息系統(tǒng)的使用情況和內(nèi)部數(shù)據(jù)資源的管理情況進(jìn)行調(diào)研,梳理、分析并匯總現(xiàn)有系統(tǒng)、數(shù)據(jù)資源類型、數(shù)據(jù)采集頻率、數(shù)據(jù)使用情況,達(dá)到“理清家底”的目的。在調(diào)研過(guò)程中同步了解各部門(mén)對(duì)于其他部門(mén)及外部數(shù)據(jù)資源的需求,為數(shù)據(jù)開(kāi)放和共享建立基礎(chǔ)。
數(shù)據(jù)資源類型梳理。識(shí)別內(nèi)外部數(shù)據(jù)資源的數(shù)據(jù)類型,包括傳統(tǒng)關(guān)系型數(shù)據(jù)(如Oracle、MySQL、SQLServer等)、文件型數(shù)據(jù)(CSV、Excel、Word、PDF等)、多媒體數(shù)據(jù)(視頻、音頻、圖片等)等。根據(jù)不同的數(shù)據(jù)資源類型擬定不同的數(shù)據(jù)接入方案。
2.2 數(shù)據(jù)接入
根據(jù)數(shù)據(jù)來(lái)源、數(shù)據(jù)類型的差異性,準(zhǔn)備多種數(shù)據(jù)接入方式。制定統(tǒng)一的數(shù)據(jù)接入方案,在數(shù)據(jù)歸集時(shí)嚴(yán)格按照約定的數(shù)據(jù)格式接入,保證采集數(shù)據(jù)的質(zhì)量。
以人工導(dǎo)入的方式采集。當(dāng)現(xiàn)有業(yè)務(wù)系統(tǒng)數(shù)據(jù)較復(fù)雜,并且本身有數(shù)據(jù)導(dǎo)出工具時(shí),可以通過(guò)統(tǒng)一的標(biāo)準(zhǔn)導(dǎo)出文件,以人工的方式將文件資源導(dǎo)入統(tǒng)一數(shù)據(jù)池進(jìn)行治理。
以數(shù)據(jù)抽取的方式采集。對(duì)于有成熟接口標(biāo)準(zhǔn)的系統(tǒng),可以通過(guò)API的方式抽取數(shù)據(jù)庫(kù)中的數(shù)據(jù)。抽取時(shí)可使用etl工具對(duì)數(shù)據(jù)進(jìn)行一定加工和轉(zhuǎn)換,制定兩套標(biāo)準(zhǔn)的轉(zhuǎn)換規(guī)則,對(duì)數(shù)據(jù)的輸入和輸出都要進(jìn)行相應(yīng)的轉(zhuǎn)換[1]。
以前置機(jī)的方式采集。當(dāng)遇到跨部門(mén)采集數(shù)據(jù)時(shí),可以部署統(tǒng)一的前置機(jī),被采集方按約定的數(shù)據(jù)結(jié)構(gòu)和文件格式,將數(shù)據(jù)放置到前置機(jī)中,采集方通過(guò)采集策略將數(shù)據(jù)抽取至數(shù)據(jù)池中。
3 數(shù)據(jù)治理體系核心要素
數(shù)據(jù)治理體系的建立,是充分發(fā)揮數(shù)據(jù)價(jià)值的前提條件。建立起可管可信的數(shù)據(jù)治理體系,是解決數(shù)據(jù)“有沒(méi)有用”的關(guān)鍵路徑。按照國(guó)內(nèi)外數(shù)據(jù)治理標(biāo)準(zhǔn),結(jié)合部門(mén)實(shí)際情況,開(kāi)展數(shù)據(jù)治理。
通過(guò)對(duì)數(shù)據(jù)治理核心要素的管控,規(guī)范數(shù)據(jù)采集、編制資源目錄、建立數(shù)據(jù)標(biāo)準(zhǔn)、確保數(shù)據(jù)質(zhì)量、強(qiáng)化數(shù)據(jù)安全,實(shí)現(xiàn)數(shù)據(jù)共享開(kāi)放,探索數(shù)據(jù)綜合利用,才能更好地發(fā)揮數(shù)據(jù)的支撐和應(yīng)用作用。
3.1 元數(shù)據(jù)管理
元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),即數(shù)據(jù)及信息資源的描述性信息。元數(shù)據(jù)管理是數(shù)據(jù)治理的核心和基礎(chǔ),可為信息的管理、發(fā)現(xiàn)和獲取提供一種實(shí)際而簡(jiǎn)便的方法,從而提高數(shù)據(jù)交換效率。
3.2 數(shù)據(jù)資源目錄管理
數(shù)據(jù)資源目錄主要是面向使用者的,為使用者提供統(tǒng)一的信息資源窗口,便于數(shù)據(jù)資源共享交換的檢索與發(fā)現(xiàn)。可根據(jù)已采集的數(shù)據(jù)資源,按照統(tǒng)一的標(biāo)準(zhǔn)規(guī)范,對(duì)系統(tǒng)中的表和字段進(jìn)行梳理,定義目錄名稱、字段名稱、數(shù)據(jù)類型、字段描述等信息項(xiàng),形成業(yè)務(wù)可以理解的信息資源目錄,為應(yīng)用場(chǎng)景的實(shí)際使用提供服務(wù)。數(shù)據(jù)資源目錄不僅包括已有系統(tǒng)的數(shù)據(jù)資源,還包括外部數(shù)據(jù)。
3.3 數(shù)據(jù)標(biāo)準(zhǔn)管理
數(shù)據(jù)標(biāo)準(zhǔn)是一套符合自身實(shí)際,涵蓋定義、操作、應(yīng)用多層次數(shù)據(jù)的標(biāo)準(zhǔn)化體系。數(shù)據(jù)標(biāo)準(zhǔn)的制定應(yīng)以最大原則,結(jié)合國(guó)家標(biāo)準(zhǔn)、各類行業(yè)標(biāo)準(zhǔn)及自身實(shí)際情況進(jìn)行制定。各類數(shù)據(jù)只有遵循一個(gè)統(tǒng)一的標(biāo)準(zhǔn),才能構(gòu)成一個(gè)可流通、可共享的信息平臺(tái)。
3.4 數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)質(zhì)量是指數(shù)據(jù)特性滿足明確的和隱含的要求的程度。數(shù)據(jù)質(zhì)量管理指對(duì)數(shù)據(jù)生命周期各個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問(wèn)題,例如,數(shù)據(jù)空值、數(shù)據(jù)格式不正確、數(shù)據(jù)未按數(shù)據(jù)標(biāo)準(zhǔn)歸集等問(wèn)題。通過(guò)數(shù)據(jù)質(zhì)量管理對(duì)已經(jīng)存在的問(wèn)題進(jìn)行識(shí)別、對(duì)可能發(fā)生的問(wèn)題進(jìn)行預(yù)警。
3.5 主數(shù)據(jù)管理
主數(shù)據(jù)就是各部門(mén)業(yè)務(wù)系統(tǒng)中最核心、最需要共享的數(shù)據(jù),具有高共享、高穩(wěn)定、高價(jià)值的特性。主數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)主要包括主數(shù)據(jù)編碼標(biāo)準(zhǔn)、主數(shù)據(jù)屬性標(biāo)準(zhǔn)及主數(shù)據(jù)集成標(biāo)準(zhǔn)三部分[2]。通過(guò)統(tǒng)一的標(biāo)準(zhǔn),將分散在各個(gè)系統(tǒng)中的數(shù)據(jù)進(jìn)行集中清洗和豐富后,可以應(yīng)用于操作型應(yīng)用系統(tǒng)和分析型應(yīng)用系統(tǒng)。主數(shù)據(jù)管理有利于消除冗余數(shù)據(jù)、提高數(shù)據(jù)處理效率及戰(zhàn)略協(xié)同力。
3.6 數(shù)據(jù)安全管理
采用多種數(shù)據(jù)安全防護(hù)技術(shù)措施,根據(jù)數(shù)據(jù)分類分級(jí)管理的要求,對(duì)敏感數(shù)據(jù)、非敏感數(shù)據(jù)按照權(quán)限分類分級(jí)管理。在數(shù)據(jù)生命周期的各個(gè)階段,對(duì)數(shù)據(jù)進(jìn)行安全防護(hù),防止數(shù)據(jù)泄露,保障數(shù)據(jù)安全。
3.7 數(shù)據(jù)共享
規(guī)劃分層次的數(shù)據(jù)共享模式,制定數(shù)據(jù)交換標(biāo)準(zhǔn),明確數(shù)據(jù)交換共享流程,對(duì)數(shù)據(jù)分類分級(jí),形成部門(mén)內(nèi)數(shù)據(jù)共享與部門(mén)外數(shù)據(jù)開(kāi)放的兩級(jí)數(shù)據(jù)共享體系,滿足內(nèi)部部門(mén)的數(shù)據(jù)需求、協(xié)同部門(mén)的數(shù)據(jù)需求、公眾的數(shù)據(jù)需求。
4 數(shù)據(jù)治理體系建設(shè)
4.1 數(shù)據(jù)管理制度建設(shè)
通過(guò)對(duì)數(shù)據(jù)治理各個(gè)核心要素和關(guān)鍵環(huán)節(jié)制定相應(yīng)的管理辦法,明確組織架構(gòu)、各部門(mén)和崗位職責(zé),充分發(fā)揮各級(jí)部門(mén)的作用,保障數(shù)據(jù)治理的實(shí)施和持續(xù)改進(jìn),加強(qiáng)數(shù)據(jù)治理的統(tǒng)籌規(guī)劃,使制度起到對(duì)數(shù)據(jù)治理工作的支撐作用。數(shù)據(jù)治理制度包括數(shù)據(jù)采集管理辦法、數(shù)據(jù)資源目錄管理辦法、數(shù)據(jù)標(biāo)準(zhǔn)管理辦法、數(shù)據(jù)共享管理辦法、數(shù)據(jù)分類分級(jí)管理辦法、數(shù)據(jù)安全管理辦法等。
4.2 數(shù)據(jù)治理平臺(tái)建設(shè)
數(shù)據(jù)治理平臺(tái)建設(shè)目的是實(shí)現(xiàn)數(shù)據(jù)治理的落地實(shí)施、方法承載、技術(shù)支持和工具配套。數(shù)據(jù)治理平臺(tái)的建設(shè)要以數(shù)據(jù)的開(kāi)放和共享為最終目的,通過(guò)中間件技術(shù)簡(jiǎn)化和統(tǒng)一越來(lái)越復(fù)雜、煩瑣的信息系統(tǒng)平臺(tái)[3]。建立面向服務(wù)的體系結(jié)構(gòu),對(duì)數(shù)據(jù)池中整合后的內(nèi)外部數(shù)據(jù)通過(guò)發(fā)布、訂閱、中間庫(kù)等方式簡(jiǎn)單地實(shí)現(xiàn)數(shù)據(jù)分發(fā),完成數(shù)據(jù)共享。
5 結(jié)語(yǔ)
綜上,建立數(shù)據(jù)治理體系,有助于促進(jìn)數(shù)據(jù)的共享和開(kāi)放,提升數(shù)據(jù)這一生產(chǎn)要素的價(jià)值。通過(guò)數(shù)據(jù)采集識(shí)別現(xiàn)有資源、通過(guò)數(shù)據(jù)治理要素的把控與數(shù)據(jù)治理的實(shí)施整合數(shù)據(jù)資源,實(shí)現(xiàn)從“有什么”到“給什么”的轉(zhuǎn)變,提高數(shù)據(jù)流通性,為數(shù)據(jù)賦能。
【參考文獻(xiàn)】
【1】喬玉濤.基于共享數(shù)據(jù)中心的數(shù)據(jù)治理方法研究[J].科學(xué)技術(shù)創(chuàng)新,2019(13):104-105.
【2】張印.企業(yè)的主數(shù)據(jù)管理模式[J].中國(guó)信息界,2020(02):92-93.
【3】李萌.基于SOA的主數(shù)據(jù)管理架構(gòu)設(shè)計(jì)及實(shí)踐[J].兵工自動(dòng)化,2015,34(08):49-51+64.