吳信東,董丙冰,堵新政,楊 威
1(明略科技集團(tuán),北京 100084)
2(合肥工業(yè)大學(xué) 大知識(shí)科學(xué)研究院,安徽 合肥 230009)
3(大數(shù)據(jù)知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(合肥工業(yè)大學(xué)),安徽 合肥 230009)
4(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230601)
通訊作者:吳信東,E-mail:wuxindong@mininglamp.com
隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)規(guī)模逐漸擴(kuò)大.與此同時(shí),劣質(zhì)數(shù)據(jù)也隨之而來(lái),極大地降低了數(shù)據(jù)挖掘的質(zhì)量,對(duì)信息社會(huì)造成了嚴(yán)重的困擾[1].劣質(zhì)數(shù)據(jù)大量存在于很多領(lǐng)域和機(jī)構(gòu),國(guó)外權(quán)威機(jī)構(gòu)的統(tǒng)計(jì)表明:美國(guó)的企業(yè)信息系統(tǒng)中,1%~30%的數(shù)據(jù)具有各種錯(cuò)誤和誤差[2];13.6%~81%的關(guān)鍵數(shù)據(jù)不完整或陳舊情況存在于美國(guó)的醫(yī)療信息系統(tǒng)中[3].根據(jù)Gartner 的調(diào)查結(jié)果:在全球財(cái)富1 000 強(qiáng)的企業(yè)中,超過(guò)25%的企業(yè)信息系統(tǒng)中存在錯(cuò)誤數(shù)據(jù)[4].
大多數(shù)組織不考慮數(shù)據(jù)質(zhì)量對(duì)大數(shù)據(jù)平臺(tái)建設(shè)、分析應(yīng)用等方面的重要影響而盲目投入,缺乏對(duì)大數(shù)據(jù)資源的整體規(guī)劃和綜合治理,最終導(dǎo)致一些項(xiàng)目實(shí)施的終止和失敗.項(xiàng)目的失敗和數(shù)據(jù)量的激增,使得數(shù)據(jù)治理的重要性逐步得到工業(yè)界和學(xué)術(shù)界的共識(shí).隨著國(guó)家政策支持以及產(chǎn)業(yè)實(shí)際需求的增長(zhǎng),如何通過(guò)數(shù)據(jù)治理提升組織數(shù)據(jù)管理能力、消除數(shù)據(jù)孤島、挖掘數(shù)據(jù)潛在的價(jià)值,將成為重點(diǎn)發(fā)展領(lǐng)域.
數(shù)據(jù)治理的重要前提是建設(shè)統(tǒng)一共享的數(shù)據(jù)平臺(tái),信息系統(tǒng)的建設(shè)發(fā)展到一定階段,數(shù)據(jù)資源將成為戰(zhàn)略資產(chǎn),而有效的數(shù)據(jù)治理才是數(shù)據(jù)資產(chǎn)形成的必要條件.同時(shí),在數(shù)據(jù)共享的時(shí)代,享受大數(shù)據(jù)帶來(lái)便利的同時(shí),也帶來(lái)如個(gè)人隱私泄露的問(wèn)題[5].個(gè)人隱私信息泄露事件頻繁發(fā)生,使得人們更加注重保護(hù)個(gè)人的隱私信息,通常采取一些措施,如在進(jìn)行網(wǎng)站注冊(cè)時(shí)故意填寫(xiě)虛假信息,這將會(huì)嚴(yán)重的影響數(shù)據(jù)的質(zhì)量和完整性,低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果.數(shù)據(jù)治理不僅要規(guī)范數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的價(jià)值和管控風(fēng)險(xiǎn),還要做到隱私保護(hù).
本文首先對(duì)數(shù)據(jù)治理做全面的分析,然后介紹我們自己設(shè)計(jì)的大數(shù)據(jù)治理模型.本文第1 節(jié)介紹數(shù)據(jù)治理的定義和發(fā)展趨勢(shì).第2 節(jié)介紹數(shù)據(jù)規(guī)范技術(shù)的內(nèi)涵以及應(yīng)用方法.第3 節(jié)介紹數(shù)據(jù)清洗的背景以及清洗的基本方法.第4 節(jié)對(duì)數(shù)據(jù)交換的基本概念及其實(shí)現(xiàn)模式進(jìn)行闡述.第5 節(jié)介紹數(shù)據(jù)集成技術(shù)的基本概念和數(shù)據(jù)集成的方法,并說(shuō)明這些方法的應(yīng)用場(chǎng)景.第6 節(jié)從數(shù)據(jù)治理的成熟度模型開(kāi)始,引出數(shù)據(jù)治理框架.第7 節(jié)對(duì)我們提出的HAO 治理模型進(jìn)行詳細(xì)說(shuō)明.第8 節(jié)以公安數(shù)據(jù)治理為例,具體介紹治理模型的具體應(yīng)用.最后是對(duì)數(shù)據(jù)治理技術(shù)的總結(jié)與展望.
至今為止,數(shù)據(jù)治理還沒(méi)有統(tǒng)一標(biāo)準(zhǔn)的定義.IBM 對(duì)于數(shù)據(jù)治理的定義是,數(shù)據(jù)治理是一種質(zhì)量控制規(guī)程,用于在管理、使用、改進(jìn)和保護(hù)組織信息的過(guò)程中添加新的嚴(yán)謹(jǐn)性和紀(jì)律性[6].DGI 則認(rèn)為,數(shù)據(jù)治理是指在企業(yè)數(shù)據(jù)管理中分配決策權(quán)和相關(guān)職責(zé)[6].
數(shù)據(jù)治理的目標(biāo),總體來(lái)說(shuō)就是提高數(shù)據(jù)質(zhì)量,在降低企業(yè)風(fēng)險(xiǎn)的同時(shí),實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)價(jià)值的最大化,包括:
· 構(gòu)筑適配靈活、標(biāo)準(zhǔn)化、模塊化的多源異構(gòu)數(shù)據(jù)資源接入體系;
· 建設(shè)規(guī)范化、流程化、智能化的數(shù)據(jù)處理體系;
· 打造數(shù)據(jù)精細(xì)化治理體系、組織的數(shù)據(jù)資源融合分類(lèi)體系;
· 構(gòu)建統(tǒng)一調(diào)度、精準(zhǔn)服務(wù)、安全可用的信息共享服務(wù)體系.
其次,我們還需理解數(shù)據(jù)治理的職能——數(shù)據(jù)治理提供了將數(shù)據(jù)作為資產(chǎn)進(jìn)行管理所需的指導(dǎo).最后,我們要把握數(shù)據(jù)治理的核心——數(shù)據(jù)資產(chǎn)管理的決策權(quán)分配和指責(zé)分工[7].
由此,數(shù)據(jù)治理從本質(zhì)上看就是對(duì)一個(gè)機(jī)構(gòu)(企業(yè)或政府部門(mén))的數(shù)據(jù)從收集融合到分析管理和利用進(jìn)行評(píng)估、指導(dǎo)和監(jiān)督(EDM)的過(guò)程,通過(guò)提供不斷創(chuàng)新的數(shù)據(jù)服務(wù),為企業(yè)創(chuàng)造價(jià)值[6].
數(shù)據(jù)治理與數(shù)據(jù)管理是兩個(gè)十分容易混淆的概念,治理和管理從本質(zhì)上看是兩個(gè)完全不同的活動(dòng),但是存在一定的聯(lián)系,下面我們對(duì)這兩個(gè)概念進(jìn)行詳細(xì)的解讀.
COBIT5(control objectives for information and related technology)對(duì)管理的定義:管理是按照治理機(jī)構(gòu)設(shè)定的方向開(kāi)展計(jì)劃、建設(shè)、運(yùn)營(yíng)和監(jiān)控活動(dòng)來(lái)實(shí)現(xiàn)企業(yè)目標(biāo)[6].所以,治理過(guò)程是對(duì)管理活動(dòng)的評(píng)估、指導(dǎo)和監(jiān)督,而管理過(guò)程是對(duì)治理決策的計(jì)劃、建設(shè)和運(yùn)營(yíng).具體分析:首先,數(shù)據(jù)治理與數(shù)據(jù)管理包含不同的活動(dòng)即職能,數(shù)據(jù)治理包括評(píng)估指導(dǎo)和監(jiān)督,數(shù)據(jù)管理包括計(jì)劃建設(shè)和運(yùn)營(yíng);其次,數(shù)據(jù)治理是回答企業(yè)決策的相關(guān)問(wèn)題并制定數(shù)據(jù)規(guī)范,而數(shù)據(jù)管理是實(shí)現(xiàn)數(shù)據(jù)治理提出的決策并給予反饋;最后,數(shù)據(jù)治理和數(shù)據(jù)管理的責(zé)任主體也是不同的,前者是董事會(huì),后者是管理層.
近年來(lái),大數(shù)據(jù)已成為國(guó)內(nèi)外專(zhuān)家學(xué)者研究的熱點(diǎn)話(huà)題,目前基本上采用IBM 的5V 模型描述大數(shù)據(jù)的特征:第1 個(gè)V(volume)是數(shù)據(jù)量大,包括采集、存儲(chǔ)和計(jì)算的量都非常大;第2 個(gè)V(velocity)是數(shù)據(jù)增長(zhǎng)速度快,處理速度也快,時(shí)效性要求高;第3 個(gè)V(variety)是種類(lèi)和來(lái)源多樣化,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);第4 個(gè)V(value)是數(shù)據(jù)價(jià)值密度相對(duì)較低,可以說(shuō)是浪里淘沙卻又彌足珍貴;第五個(gè)V(veracity)是各個(gè)數(shù)據(jù)源的質(zhì)量良莠不齊,需要精心甄別[8].隨著數(shù)據(jù)量的激增,可以用“5V+I/O”——體量、速度、多樣性、數(shù)據(jù)價(jià)值和質(zhì)量以及數(shù)據(jù)在線(xiàn)來(lái)概括其特征.這里的“I/O”是指數(shù)據(jù)永遠(yuǎn)在線(xiàn),可以隨時(shí)調(diào)用和計(jì)算,這個(gè)特征是大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最大的區(qū)別.
2014 年,吳信東等人基于大數(shù)據(jù)具有異構(gòu)、自治的數(shù)據(jù)源以及復(fù)雜和演變的數(shù)據(jù)關(guān)聯(lián)等本質(zhì)特征,提出了HACE 定理[9].該定理從大數(shù)據(jù)的數(shù)據(jù)處理、領(lǐng)域應(yīng)用及數(shù)據(jù)挖掘這3 個(gè)層次(如圖1 所示)來(lái)刻畫(huà)大數(shù)據(jù)處理框架[8].
框架的第1 層是大數(shù)據(jù)計(jì)算平臺(tái),該層面臨的挑戰(zhàn)集中在數(shù)據(jù)存取和算法計(jì)算過(guò)程上;第2 層是面向大數(shù)據(jù)應(yīng)用的語(yǔ)義和領(lǐng)域知識(shí),該層的挑戰(zhàn)主要包括信息共享和數(shù)據(jù)隱私、領(lǐng)域和應(yīng)用知識(shí)這兩個(gè)方面;架構(gòu)的第3層集中在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法設(shè)計(jì)上:稀疏不確定和不完整的數(shù)據(jù)挖掘、挖掘復(fù)雜動(dòng)態(tài)的數(shù)據(jù)以及局部學(xué)習(xí)和模型融合[9].第3 層的3 類(lèi)算法對(duì)應(yīng)3 個(gè)階段:首先,通過(guò)數(shù)據(jù)融合技術(shù)對(duì)稀疏、異構(gòu)、不確定、不完整和多源數(shù)據(jù)進(jìn)行預(yù)處理;其次,在預(yù)處理之后,挖掘復(fù)雜和動(dòng)態(tài)的數(shù)據(jù);最后,通過(guò)局部學(xué)習(xí)和模型融合獲得的全局知識(shí)進(jìn)行測(cè)試,并將相關(guān)信息反饋到預(yù)處理階段,預(yù)處理階段根據(jù)反饋調(diào)整模型和參數(shù)[9].
Fig.1 A big data processing framework[9]圖1 大數(shù)據(jù)處理框架[9]
面對(duì)大數(shù)據(jù)興起帶來(lái)的挑戰(zhàn),為了促進(jìn)大數(shù)據(jù)治理的發(fā)展和變革,目前業(yè)界比較權(quán)威的大數(shù)據(jù)治理定義是:大數(shù)據(jù)治理是廣義信息治理計(jì)劃的一部分,它通過(guò)協(xié)調(diào)多個(gè)職能部門(mén)的目標(biāo),來(lái)制定與大數(shù)據(jù)優(yōu)化、隱私與貨幣化相關(guān)的策略[10].此定義指出:大數(shù)據(jù)的優(yōu)化、隱私保護(hù)以及商業(yè)價(jià)值是大數(shù)據(jù)治理的重點(diǎn)關(guān)注領(lǐng)域,大數(shù)據(jù)治理是數(shù)據(jù)治理發(fā)展的一個(gè)新階段,與數(shù)據(jù)治理相比,各種需求的解決在大數(shù)據(jù)治理中變得更加重要和富有挑戰(zhàn)性[6].
· 海量數(shù)據(jù)存儲(chǔ):根據(jù)本地實(shí)際數(shù)據(jù)量級(jí)和存儲(chǔ)處理能力,結(jié)合集中式或分布式等數(shù)據(jù)資源的存儲(chǔ)方式進(jìn)行構(gòu)建,為大數(shù)據(jù)平臺(tái)提供PB 級(jí)數(shù)據(jù)的存儲(chǔ)及備份能力支撐.云計(jì)算[11,12]作為一種新型的商業(yè)模式,它所提供的存儲(chǔ)服務(wù)具有專(zhuān)業(yè)、經(jīng)濟(jì)和按需分配的特點(diǎn),可以滿(mǎn)足大數(shù)據(jù)的存儲(chǔ)需求;
· 處理效率:大數(shù)據(jù)治理提供多樣化的海量數(shù)據(jù)接入及處理能力,包括對(duì)各類(lèi)批量、實(shí)時(shí)、準(zhǔn)實(shí)時(shí)及流式的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)提供快速的計(jì)算能力和搜索能力,比如數(shù)據(jù)加載能力≥130MB/s、億級(jí)數(shù)據(jù)秒級(jí)檢索、百億數(shù)據(jù)實(shí)時(shí)分析≤10s、千億數(shù)據(jù)離線(xiàn)分析≤30m 等等.對(duì)于大數(shù)據(jù)的搜索能力方面,為了保證數(shù)據(jù)安全,大數(shù)據(jù)在云計(jì)算平臺(tái)上的存儲(chǔ)方式一般為密文存儲(chǔ),因此,研究人員設(shè)計(jì)了很多保護(hù)隱私的密文搜索算法[13-22],基于存儲(chǔ)在云平臺(tái)上大數(shù)據(jù)的計(jì)算安全問(wèn)題的解決方法一般采用比較成熟的完全同態(tài)加密算法[23-29];
· 數(shù)據(jù)可靠性:圍繞行業(yè)數(shù)據(jù)元相關(guān)標(biāo)準(zhǔn)規(guī)定,基于行業(yè)元數(shù)據(jù)體系打造大數(shù)據(jù)平臺(tái)采集匯聚、加工整合、共享服務(wù)等全過(guò)程的、端到端的數(shù)據(jù)質(zhì)量稽核管控體系,確保數(shù)據(jù)準(zhǔn)確可靠;
· 數(shù)據(jù)安全性:數(shù)據(jù)價(jià)值是大數(shù)據(jù)平臺(tái)的核心價(jià)值,所以數(shù)據(jù)的安全是保證平臺(tái)運(yùn)行的基礎(chǔ).數(shù)據(jù)安全包括數(shù)據(jù)存儲(chǔ)的安全、數(shù)據(jù)傳輸過(guò)程中的安全,數(shù)據(jù)的一致性、數(shù)據(jù)訪(fǎng)問(wèn)安全等,如圖2 所示.數(shù)據(jù)安全的總體目標(biāo)是保證數(shù)據(jù)的存儲(chǔ)、傳輸、訪(fǎng)問(wèn)、展示和導(dǎo)出安全.數(shù)據(jù)安全措施主要有數(shù)據(jù)脫敏控制[30]、數(shù)據(jù)加密控制、防拷貝管理、防泄漏管理、數(shù)據(jù)權(quán)限管理、數(shù)據(jù)安全等級(jí)管理等.
Fig.2 Data application security schematic圖2 數(shù)據(jù)應(yīng)用安全示意圖
而數(shù)據(jù)治理技術(shù)就是在數(shù)據(jù)治理的過(guò)程中所用到的技術(shù)工具,其中主要包括數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)交換和數(shù)據(jù)集成這4 種技術(shù),下面具體介紹這4 種技術(shù).
數(shù)據(jù)治理的處理對(duì)象是海量分布在各個(gè)系統(tǒng)中的數(shù)據(jù),這些不同系統(tǒng)的數(shù)據(jù)往往存在一定的差異:數(shù)據(jù)代碼標(biāo)準(zhǔn)、數(shù)據(jù)格式、數(shù)據(jù)標(biāo)識(shí)都不一樣,甚至可能存在錯(cuò)誤的數(shù)據(jù).這就需要建立一套標(biāo)準(zhǔn)化的體系,對(duì)這些存在差異的數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn),符合行業(yè)的規(guī)范,使得在同樣的指標(biāo)下進(jìn)行分析,保證數(shù)據(jù)分析結(jié)果的可靠性.例如,對(duì)于數(shù)據(jù)庫(kù)的屬性值而言,可以建立唯一性規(guī)則、連續(xù)性規(guī)則以及空值規(guī)則等來(lái)對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn)和約束:唯一性規(guī)則一般是指為主鍵或其他屬性填寫(xiě)unique 約束,使得給定屬性的每個(gè)值與該屬性的其他值不同;連續(xù)性規(guī)則是指屬性的最大值和最小值之間沒(méi)有缺失值并且每個(gè)值也是唯一的,一般用于檢驗(yàn)數(shù);空值規(guī)則是指使用其他特殊符號(hào)來(lái)代替空值,以及對(duì)于這樣的值應(yīng)該如何處理.
數(shù)據(jù)的規(guī)范化能夠提高數(shù)據(jù)的通用性、共享性、可移植性及數(shù)據(jù)分析的可靠性.所以,在建立數(shù)據(jù)規(guī)范時(shí)要具有通用性,遵循行業(yè)的或者國(guó)家的標(biāo)準(zhǔn).
數(shù)據(jù)治理過(guò)程中可使用的數(shù)據(jù)規(guī)范方法有:規(guī)則處理引擎、標(biāo)準(zhǔn)代碼庫(kù)映射.
(1)規(guī)則處理引擎
數(shù)據(jù)治理為每個(gè)數(shù)據(jù)項(xiàng)制定相關(guān)聯(lián)的數(shù)據(jù)元標(biāo)準(zhǔn),并為每個(gè)標(biāo)準(zhǔn)數(shù)據(jù)元定義一定的處理規(guī)則,這些處理邏輯包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)拼接賦值等.基于機(jī)器學(xué)習(xí)等技術(shù),對(duì)數(shù)據(jù)字段進(jìn)行認(rèn)知和識(shí)別,通過(guò)數(shù)據(jù)自動(dòng)對(duì)標(biāo)技術(shù),解決在數(shù)據(jù)處理過(guò)程中遇到的數(shù)據(jù)不規(guī)范的問(wèn)題.
· 根據(jù)數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)定義規(guī)則模板,圖3 中“出生日期”的規(guī)則如下所示。
? 值域稽核規(guī)則:YYYY:MM:DD 或YYYY-MM-DD;
? 取值范圍規(guī)則:1900 · 將數(shù)據(jù)項(xiàng)與標(biāo)準(zhǔn)庫(kù)數(shù)據(jù)項(xiàng)對(duì)應(yīng)。 借助機(jī)器學(xué)習(xí)推薦來(lái)簡(jiǎn)化人工操作,根據(jù)語(yǔ)義相似度和采樣值域測(cè)試,推薦相似度最高的數(shù)據(jù)項(xiàng)關(guān)聯(lián)數(shù)據(jù)表字段,并根據(jù)數(shù)據(jù)特點(diǎn)選擇適合的轉(zhuǎn)換規(guī)則進(jìn)行自動(dòng)標(biāo)準(zhǔn)化測(cè)試.根據(jù)數(shù)據(jù)項(xiàng)的規(guī)則模板自動(dòng)生成字段的稽核任務(wù). 規(guī)則體系中包含很多數(shù)據(jù)處理的邏輯:將不同數(shù)據(jù)來(lái)源中各種時(shí)間格式的數(shù)據(jù)項(xiàng),轉(zhuǎn)化成統(tǒng)一的時(shí)間戳(timestamp)格式;對(duì)數(shù)據(jù)項(xiàng)做加密或者哈希轉(zhuǎn)換;對(duì)身份證號(hào)做校驗(yàn),檢驗(yàn)是否為合法的18 位身份證號(hào),如果是15 位的,則將其統(tǒng)一轉(zhuǎn)換成18 位;將多個(gè)數(shù)據(jù)項(xiàng)通過(guò)指定拼接符號(hào),連接成一個(gè)數(shù)據(jù)項(xiàng);將某個(gè)常量或者變量值賦給某個(gè)數(shù)據(jù)項(xiàng)等. 規(guī)則庫(kù)中的規(guī)則可以多層級(jí)迭代,形成數(shù)據(jù)處理的一條規(guī)則鏈.規(guī)則鏈上,上一條規(guī)則的輸出作為下一條規(guī)則的輸入,通過(guò)規(guī)則的組合,能夠靈活地支持各種數(shù)據(jù)處理邏輯.例如:對(duì)身份證號(hào)先使用全角轉(zhuǎn)半角的規(guī)則,對(duì)輸出的半角值使用身份證校驗(yàn)轉(zhuǎn)換規(guī)則,統(tǒng)一成18 位的身份證號(hào);再對(duì)18 位身份證號(hào)使用數(shù)據(jù)脫敏規(guī)則,將身份證號(hào)轉(zhuǎn)成脫敏后的字符串. Fig.3 Rule processing schematic圖3 規(guī)則處理示意圖 (2)標(biāo)準(zhǔn)代碼庫(kù)映射 標(biāo)準(zhǔn)代碼庫(kù)是基于國(guó)標(biāo)或者通用的規(guī)范建立的key-value 字典庫(kù),字典庫(kù)遵循國(guó)標(biāo)值域、公安裝備資產(chǎn)分類(lèi)與代碼等標(biāo)準(zhǔn)進(jìn)行構(gòu)建.當(dāng)數(shù)據(jù)項(xiàng)的命名為XXXDM(XXX 代碼)時(shí),根據(jù)字典庫(kù)的國(guó)標(biāo)或部標(biāo)代碼,通過(guò)字典規(guī)則關(guān)聯(lián)出與代碼數(shù)據(jù)項(xiàng)對(duì)應(yīng)的代碼名稱(chēng)數(shù)據(jù)項(xiàng)XXXDMMC(XXX 代碼名稱(chēng)). 例如,我們想要將所有表示性別“男”的字段都轉(zhuǎn)換成“男”這種同一的表示方式,可以先建立一個(gè)數(shù)據(jù)字典,其中的鍵的取值范圍是所有不同表示方式的集合,值為最終我們想要?dú)w一化表示的“男”. 使用數(shù)據(jù)轉(zhuǎn)換規(guī)則時(shí)查找數(shù)據(jù)字典,將所有不同的表示方式統(tǒng)一成一種表示方式. 數(shù)據(jù)質(zhì)量一般由準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性以及可解釋性等特征來(lái)描述,根據(jù)Rahm 等人在2000 年對(duì)數(shù)據(jù)質(zhì)量基于單數(shù)據(jù)源還是多數(shù)據(jù)源以及問(wèn)題出在模式層還是實(shí)例層的標(biāo)準(zhǔn)進(jìn)行分類(lèi),將數(shù)據(jù)質(zhì)量問(wèn)題分為單數(shù)據(jù)源模式層問(wèn)題、單數(shù)據(jù)源實(shí)例層問(wèn)題、多數(shù)據(jù)源模式層問(wèn)題和多數(shù)據(jù)源實(shí)例層問(wèn)題這4 大類(lèi)[31].現(xiàn)實(shí)生活中的數(shù)據(jù)極易受到噪聲、缺失值和不一致數(shù)據(jù)的侵?jǐn)_,數(shù)據(jù)集成可能也會(huì)產(chǎn)生數(shù)據(jù)不一致的情況,數(shù)據(jù)清洗就是識(shí)別并且(可能)修復(fù)這些“臟數(shù)據(jù)”的過(guò)程[32].如果一個(gè)數(shù)據(jù)庫(kù)數(shù)據(jù)規(guī)范工作做得好,會(huì)給數(shù)據(jù)清洗工作減少許多麻煩.對(duì)于數(shù)據(jù)清洗工作的研究基本上是基于相似重復(fù)記錄的識(shí)別與剔除方法展開(kāi)的,并且以召回率和準(zhǔn)確率作為算法的評(píng)價(jià)指標(biāo)[33,34].現(xiàn)有的清洗技術(shù)大都是孤立使用的,不同的清洗算法作為黑盒子以順序執(zhí)行或以交錯(cuò)方式執(zhí)行,而這種方法沒(méi)有考慮不同清洗類(lèi)型規(guī)則之間的交互簡(jiǎn)化了問(wèn)題的復(fù)雜性,但這種簡(jiǎn)化可能會(huì)影響最終修復(fù)的質(zhì)量,因此需要把數(shù)據(jù)清洗放在上下文中結(jié)合端到端質(zhì)量執(zhí)行機(jī)制進(jìn)行整體清洗[35].隨著大數(shù)據(jù)時(shí)代的到來(lái),現(xiàn)在已經(jīng)有不少有關(guān)大數(shù)據(jù)清洗系統(tǒng)的研究[36,37],不僅有對(duì)于數(shù)據(jù)一致性[38-40]以及實(shí)體匹配[41]的研究,也有基于MapReduce 的數(shù)據(jù)清洗系統(tǒng)的優(yōu)化[42]研究.下面對(duì)數(shù)據(jù)清洗具體應(yīng)用技術(shù)以及相關(guān)算法進(jìn)行分析. 從微觀層面來(lái)看,數(shù)據(jù)清洗的對(duì)象分為模式層數(shù)據(jù)清洗和實(shí)例層數(shù)據(jù)清洗[43].數(shù)據(jù)清洗識(shí)別并修復(fù)的“臟數(shù)據(jù)”主要有錯(cuò)誤數(shù)據(jù)、不完整的數(shù)據(jù)以及相似重復(fù)的數(shù)據(jù),根據(jù)“臟數(shù)據(jù)”分類(lèi),數(shù)據(jù)清洗也可以分為3 類(lèi):屬性錯(cuò)誤清洗、不完整數(shù)據(jù)清洗以及相似重復(fù)記錄的清洗,下面分別對(duì)每種情況進(jìn)行具體分析. 3.2.1 屬性錯(cuò)誤清洗 數(shù)據(jù)庫(kù)中很多數(shù)據(jù)違反最初定義的完整性約束,存在大量不一致的、有沖突的數(shù)據(jù)和噪聲數(shù)據(jù),我們應(yīng)該識(shí)別出這些錯(cuò)誤數(shù)據(jù),然后進(jìn)行錯(cuò)誤清洗. (1)屬性錯(cuò)誤檢測(cè) 屬性錯(cuò)誤檢測(cè)有基于定量的方法和基于定性的方法. · 定量的誤差檢測(cè)一般在離群點(diǎn)檢測(cè)的基礎(chǔ)上采用統(tǒng)計(jì)方法來(lái)識(shí)別異常行為和誤差,離群點(diǎn)檢測(cè)是找出與其他觀察結(jié)果偏離太多的點(diǎn),Aggarwal 將關(guān)于離群點(diǎn)檢測(cè)方法又分為6 種類(lèi)型:極值分析、聚類(lèi)模型、基于距離的模型、基于密度的模型、概率模型、信息理論模型[44],并對(duì)這幾種模型進(jìn)行了詳盡的介紹; · 定性的誤差檢測(cè)一般依賴(lài)于描述性方法指定一個(gè)合法的數(shù)據(jù)實(shí)例的模式或約束,因此確定違反這些模式或者約束的就是錯(cuò)誤數(shù)據(jù). 圖4 描述了定性誤差檢測(cè)技術(shù)在3 個(gè)不同方面的不同分類(lèi),下面我們對(duì)圖中提出的3 個(gè)問(wèn)題進(jìn)行分析. · 首先,錯(cuò)誤類(lèi)型是指要檢測(cè)什么.定性誤差檢測(cè)技術(shù)可以根據(jù)捕捉到的錯(cuò)誤類(lèi)型來(lái)進(jìn)行分類(lèi),目前,大量的工作都是使用完整性約束來(lái)捕獲數(shù)據(jù)庫(kù)應(yīng)該遵守的數(shù)據(jù)質(zhì)量規(guī)則,雖然重復(fù)值也違反了完整性約束,但是重復(fù)值的識(shí)別與清洗是數(shù)據(jù)清洗的一個(gè)核心(在后續(xù)小節(jié)將會(huì)單獨(dú)介紹); · 其次,自動(dòng)化檢測(cè).根據(jù)人類(lèi)的參與與否以及參與步驟來(lái)對(duì)定性誤差檢測(cè)技術(shù)進(jìn)行分類(lèi),大部分的檢測(cè)過(guò)程都是全自動(dòng)化的,個(gè)別技術(shù)涉及到人類(lèi)參與; · 最后,商業(yè)智能層是指在哪里檢測(cè).錯(cuò)誤可以發(fā)生在數(shù)據(jù)治理的任何階段,大部分的檢測(cè)都是針對(duì)原始數(shù)據(jù)庫(kù)的,但是有些錯(cuò)誤只能在數(shù)據(jù)治理后獲得更多的語(yǔ)義和業(yè)務(wù)邏輯才能檢測(cè)出來(lái). Fig.4 Classification of qualitative error detection techniques[45]圖4 定性誤差檢測(cè)技術(shù)分類(lèi)[45] 不僅可以使用統(tǒng)計(jì)方法來(lái)對(duì)屬性錯(cuò)誤進(jìn)行檢測(cè),使用一些商業(yè)工具也可以進(jìn)行異常檢測(cè),如數(shù)據(jù)清洗工具以及數(shù)據(jù)審計(jì)工具等.Potter’s Wheel[46]是一種公開(kāi)的數(shù)據(jù)清洗工具,不僅支持異常檢測(cè),還支持后面數(shù)據(jù)不一致清洗所用到的數(shù)據(jù)變換功能. (2)屬性錯(cuò)誤清洗 屬性錯(cuò)誤清洗包括噪聲數(shù)據(jù)以及不一致的數(shù)據(jù)清洗. · 噪聲數(shù)據(jù)的清洗也叫光滑噪聲技術(shù),主要方法有分箱以及回歸等方法:分箱方法是通過(guò)周?chē)徑闹祦?lái)光滑有序的數(shù)據(jù)值但是只是局部光滑,回歸方法是使用回歸函數(shù)擬合數(shù)據(jù)來(lái)光滑噪聲; · 不一致數(shù)據(jù)的清洗在某些情況下可以參照其他材料使用人工進(jìn)行修改,可以借助知識(shí)工程工具來(lái)找到違反限制的數(shù)據(jù),例如:如果知道數(shù)據(jù)的函數(shù)依賴(lài)關(guān)系,通過(guò)函數(shù)關(guān)系修改屬性值.但是大部分的不一致情況都需要進(jìn)行數(shù)據(jù)變換,即定義一系列的變換糾正數(shù)據(jù),也有很多商業(yè)工具提供數(shù)據(jù)變換的功能,例如數(shù)據(jù)遷移工具和ETL 工具等,但是這些功能都是有限的. 3.2.2 不完整數(shù)據(jù)清洗 在實(shí)際應(yīng)用中,數(shù)據(jù)缺失是一種不可避免的現(xiàn)象[42].有很多情況下會(huì)造成數(shù)據(jù)值的缺失,例如填寫(xiě)某些表格時(shí)需要填寫(xiě)配偶信息,那沒(méi)有結(jié)婚的人就無(wú)法填寫(xiě)此字段,或者在業(yè)務(wù)處理的稍后步驟提供值,字段也可能缺失.處理缺失值目前有以下幾種方法. · 忽略元組:一般情況下,當(dāng)此元組缺少多個(gè)屬性值時(shí)常采用此方法,否則該方法不是很有效.當(dāng)忽略了此條元組之后,元組內(nèi)剩下的有值的屬性也不能被采用,這些數(shù)據(jù)可能是有用的; · 人工填寫(xiě)缺失值:這種方法最大的缺點(diǎn)就是需要大量的時(shí)間和人力,數(shù)據(jù)清理技術(shù)需要做到最少的人工干預(yù),并且在數(shù)據(jù)集很大、缺失很多屬性值時(shí),這種方法行不通; · 全局變量填充缺失值:使用同一個(gè)常量來(lái)填充屬性的缺失值.這種方法雖然使用起來(lái)較為簡(jiǎn)單,但是有時(shí)不可靠.例如,用統(tǒng)一的常量“NULL”來(lái)填寫(xiě)缺失值,在后續(xù)的數(shù)據(jù)挖掘中,可能會(huì)認(rèn)為它們形成了一個(gè)有趣的概念; · 中心度量填充缺失值:使用屬性的中心度量來(lái)填充缺失值.中心度量是指數(shù)據(jù)分布的“中間”值,例如均值或者中位數(shù),數(shù)據(jù)對(duì)稱(chēng)分布使用均值、傾斜分布使用中位數(shù); · 使用最可能的值填充:相當(dāng)于數(shù)值預(yù)測(cè)的概念.回歸分析是數(shù)值預(yù)測(cè)最常用的統(tǒng)計(jì)學(xué)方法,此外也可以使用貝葉斯形式化方法的基于推理的工具或決策樹(shù)歸納確定缺失值. 鑒于現(xiàn)在很多人為了保護(hù)自己的隱私或者為了方便,隨意地選擇窗口中給定的值,Hua 等人于2007 年提出了一種識(shí)別偽裝缺失數(shù)據(jù)的啟發(fā)式方法,當(dāng)用戶(hù)不愿意泄露個(gè)人信息時(shí)故意錯(cuò)誤地選擇窗口上的默認(rèn)值(如生日字段),這時(shí)數(shù)據(jù)就會(huì)被捕獲[47]. 3.2.3 相似重復(fù)記錄清洗 · 相似重復(fù)記錄識(shí)別 消除相似重復(fù)記錄,首先應(yīng)該識(shí)別出相同或不同數(shù)據(jù)集中的兩個(gè)實(shí)體是否指向同一實(shí)體,這個(gè)過(guò)程也叫實(shí)體對(duì)齊或?qū)嶓w匹配.文本相似度度量是實(shí)體對(duì)齊的最基礎(chǔ)方法,大致分為4 種:基于字符的(例如編輯距離、仿射間隙距離、Smith-Waterman 距離、Jaro 距離度量、Q-gram 距離[48])、基于單詞的(例如Jaccard 系數(shù))、混合型(例如softTF-IDF)和基于語(yǔ)義的(例如WordNet).隨著知識(shí)表示學(xué)習(xí)在各個(gè)領(lǐng)域的發(fā)展,一些研究人員提出了基于表示學(xué)習(xí)的實(shí)體匹配算法,但均是以TransE 系列模型為基礎(chǔ)構(gòu)建的.TransE[49]首次提出基于翻譯的方法,將關(guān)系解釋為實(shí)體的低維向量之間的翻譯操作,隨之涌現(xiàn)出一些擴(kuò)展的典型算法,下面對(duì)這些算法進(jìn)行簡(jiǎn)單介紹. a)MTransE 算法[50]:基于轉(zhuǎn)移的方法解決多語(yǔ)言知識(shí)圖譜中的實(shí)體對(duì)齊.首先,使用TransE 對(duì)單個(gè)的知識(shí)圖譜進(jìn)行表示學(xué)習(xí);接著,學(xué)習(xí)不同空間的線(xiàn)性變換來(lái)進(jìn)行實(shí)體對(duì)齊.轉(zhuǎn)移方法有基于距離的軸校準(zhǔn)、翻譯向量、線(xiàn)性變換這3 種.該知識(shí)模型簡(jiǎn)單復(fù)用TransE,對(duì)于提高實(shí)體對(duì)齊的精度仍存在很大局限; b)JAPE 算法[51]是針對(duì)跨語(yǔ)言實(shí)體對(duì)齊的聯(lián)合屬性保護(hù)模型,利用屬性及文字描述信息來(lái)增強(qiáng)實(shí)體表示學(xué)習(xí),分為結(jié)構(gòu)表示、屬性表示.IPTransE 算法[52]使用聯(lián)合表示的迭代對(duì)齊,即使用迭代的方式不斷更新實(shí)體匹配.該方法分為3 部分:知識(shí)表示、聯(lián)合表示、迭代對(duì)齊.但這兩種算法都是基于先驗(yàn)實(shí)體匹配,將不同知識(shí)圖譜中的實(shí)體和關(guān)系嵌入到統(tǒng)一的向量空間,然后將匹配過(guò)程轉(zhuǎn)換成向量表示間距離的過(guò)程; c)SEEA 算法[53]分為兩部分:屬性三元組學(xué)習(xí)、關(guān)系三元組學(xué)習(xí).該模型能夠自學(xué)習(xí),不需要對(duì)齊種子的輸入.每次迭代,根據(jù)前面迭代過(guò)程所得到的表示模型,計(jì)算實(shí)體向量間的余弦相似度.并選取前β對(duì)添加到關(guān)系三元組中更新本次表示模型,直到收斂.收斂條件:無(wú)法選取前β對(duì)實(shí)體對(duì). 實(shí)體對(duì)齊方法不僅應(yīng)用于數(shù)據(jù)清洗過(guò)程中,對(duì)后續(xù)的數(shù)據(jù)集成以及數(shù)據(jù)挖掘也起到重要的作用.除此之外,也有很多重復(fù)檢測(cè)的工具可以使用,如Febrl 系統(tǒng)、TAILOR 工具、WHIRL 系統(tǒng)、BigMatch 等,但是很多匹配算法只適用于英文不適合中文,所以中文數(shù)據(jù)清洗工具的開(kāi)發(fā)還需要進(jìn)一步的研究. · 相似重復(fù)記錄清洗 相似重復(fù)記錄的清洗一般都采用先排序再合并的思想,代表算法有優(yōu)先隊(duì)列算法、近鄰排序算法、多趟近鄰排序算法.優(yōu)先隊(duì)列算法比較復(fù)雜,先將表中所有記錄進(jìn)行排序后,排好的記錄被優(yōu)先隊(duì)列進(jìn)行順序掃描并動(dòng)態(tài)地將它們聚類(lèi),減少記錄比較的次數(shù),匹配效率得以提高,該算法還可以很好地適應(yīng)數(shù)據(jù)規(guī)模的變化.近鄰排序算法是相似重復(fù)記錄清洗的經(jīng)典算法,近鄰排序算法是采用滑動(dòng)窗口機(jī)制進(jìn)行相似重復(fù)記錄的匹配,每次只對(duì)進(jìn)入窗口的w條記錄進(jìn)行比較,只需要比較w×N次,提高了匹配的效率.但是它有兩個(gè)很大的缺點(diǎn):首先是該算法的優(yōu)劣對(duì)排序關(guān)鍵字的依賴(lài)性很大,如果排序關(guān)鍵字選擇得不好,相似的兩條記錄一直沒(méi)有出現(xiàn)在滑動(dòng)窗口上就無(wú)法識(shí)別相似重復(fù)記錄,導(dǎo)致很多條相似重復(fù)記錄得不到清洗;其次是滑動(dòng)窗口的值w也很難把控,w值太大可能會(huì)產(chǎn)生沒(méi)必要的比較次數(shù),w值太小又可能會(huì)遺漏重復(fù)記錄的匹配.多趟近鄰排序算法是針對(duì)近鄰排序算法進(jìn)行改進(jìn)的算法,它是進(jìn)行多次近鄰排序算法每次選取的滑動(dòng)窗口值可以不同,且每次匹配的相似記錄采用傳遞閉包,雖然可以減少很多遺漏記錄,但也會(huì)產(chǎn)生誤識(shí)別的情況.這兩個(gè)算法的滑動(dòng)窗口值和屬性值的權(quán)重都是固定的,所以也有一些學(xué)者提出基于可變的滑動(dòng)窗口值和不同權(quán)重的屬性值來(lái)進(jìn)行相似重復(fù)記錄的清洗.以上算法都有一些缺陷,如都要進(jìn)行排序,多次的外部排序會(huì)引起輸入/輸出代價(jià)過(guò)大;其次,由于字符位置敏感性,排序時(shí)相似重復(fù)的記錄不一定排在鄰近的位置,對(duì)算法的準(zhǔn)確性有影響. 數(shù)據(jù)交換是將符合一個(gè)源模式的數(shù)據(jù)轉(zhuǎn)換為符合目標(biāo)模式數(shù)據(jù)的問(wèn)題,該目標(biāo)模式盡可能準(zhǔn)確并且以與各種依賴(lài)性一致的方式反映源數(shù)據(jù)[54,55]. 早期數(shù)據(jù)交換的一個(gè)主要方向是在關(guān)系模式之間從數(shù)據(jù)交換的上下文中尋求一階查詢(xún)的語(yǔ)義和復(fù)雜性.2008 年,Afrati 等人開(kāi)始系統(tǒng)地研究數(shù)據(jù)交換中聚合查詢(xún)的語(yǔ)義和復(fù)雜性,給出一些概念并做出了技術(shù)貢獻(xiàn)[56].在一篇具有里程碑意義的論文中,Fagin 等人提出了一種純粹邏輯的方法來(lái)完成這項(xiàng)任務(wù)[55].從這時(shí)起,在數(shù)據(jù)庫(kù)研究界已經(jīng)對(duì)數(shù)據(jù)交換進(jìn)行了深入研究.近年,Xiao 等人指出,跨越不同實(shí)體的數(shù)據(jù)交換是實(shí)現(xiàn)智能城市的重要手段,設(shè)計(jì)了一種新穎的后端計(jì)算架構(gòu)——數(shù)據(jù)隱私保護(hù)自動(dòng)化架構(gòu)(DPA),促進(jìn)在線(xiàn)隱私保護(hù)處理自動(dòng)化,以無(wú)中斷的方式與公司的主要應(yīng)用系統(tǒng)無(wú)縫集成,允許適應(yīng)靈活的模型和交叉的服務(wù)質(zhì)量保證實(shí)體數(shù)據(jù)交換[57].隨著云計(jì)算和Web 服務(wù)的快速發(fā)展,Wu 等人將基于特征的數(shù)據(jù)交換應(yīng)用于基于云的設(shè)計(jì)與制造的協(xié)作產(chǎn)品開(kāi)發(fā)上,并提出了一種面向服務(wù)的基于云的設(shè)計(jì)和制造數(shù)據(jù)交換架構(gòu)[58]. 完善合理的數(shù)據(jù)交換服務(wù)建設(shè),關(guān)系到大數(shù)據(jù)平臺(tái)是否具有高效、穩(wěn)定的處理數(shù)據(jù)能力. 數(shù)據(jù)整合是平臺(tái)建設(shè)的基礎(chǔ),涉及到多種數(shù)據(jù)的整合手段,其中,數(shù)據(jù)交換、消息推送、通過(guò)服務(wù)總線(xiàn)實(shí)現(xiàn)應(yīng)用對(duì)接等都需要定義一套通用的數(shù)據(jù)交換標(biāo)準(zhǔn),基于此標(biāo)準(zhǔn)實(shí)現(xiàn)各個(gè)系統(tǒng)間數(shù)據(jù)的共享和交換,并支持未來(lái)更多系統(tǒng)與平臺(tái)的對(duì)接.平臺(tái)數(shù)據(jù)交換標(biāo)準(zhǔn)的設(shè)計(jì),充分借鑒國(guó)內(nèi)外現(xiàn)有的各類(lèi)共享交換系統(tǒng)的建設(shè)經(jīng)驗(yàn),采用基于可擴(kuò)展標(biāo)記語(yǔ)言(XML)的信息交換框架.XML 定義了一組規(guī)則,用于以人類(lèi)可讀和機(jī)器可讀的格式編碼文檔,它由國(guó)際萬(wàn)維網(wǎng)聯(lián)盟設(shè)計(jì).XML 文檔格式良好且結(jié)構(gòu)化,因此它們更易于解析和編寫(xiě).由于它具有簡(jiǎn)化、跨平臺(tái)、可擴(kuò)展性和自我描述等特征,XML 成為通過(guò)Internet 進(jìn)行數(shù)據(jù)傳輸?shù)耐ㄓ谜Z(yǔ)言[59].XML 關(guān)心的重點(diǎn)是數(shù)據(jù),而其他的因素如數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)類(lèi)型、表現(xiàn)以及操作,都是有其他的以XML 為核心的相關(guān)技術(shù)完成.基于基本的XML 語(yǔ)言,通過(guò)定義一套數(shù)據(jù)元模型(語(yǔ)義字典)和一套基于XML Schema 的描述規(guī)范來(lái)實(shí)現(xiàn)對(duì)信息的共同理解,基于此套交換標(biāo)準(zhǔn)完成數(shù)據(jù)的交換.數(shù)據(jù)交換概括地說(shuō)有以下兩種實(shí)現(xiàn)模式. (1)協(xié)議式交換 協(xié)議式數(shù)據(jù)交換是源系統(tǒng)和目標(biāo)系統(tǒng)之間定義一個(gè)數(shù)據(jù)交換交互協(xié)議,遵循制定的協(xié)議,通過(guò)將一個(gè)系統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)移植到另一個(gè)系統(tǒng)的數(shù)據(jù)庫(kù)來(lái)完成數(shù)據(jù)交換.Tyagi 等人于2017 年提出一種通用的交互式通信協(xié)議,稱(chēng)為遞歸數(shù)據(jù)交換協(xié)議(RDE),它可以獲得各方觀察到的任何數(shù)據(jù)序列,并提供單獨(dú)的性能序列保證[60];并于2018 年提出了一種新的數(shù)據(jù)交換交互協(xié)議,它可以逐步增加通信大小,直到任務(wù)完成,還導(dǎo)出了基于將數(shù)據(jù)交換問(wèn)題與秘密密鑰協(xié)議問(wèn)題相關(guān)聯(lián)的最小位數(shù)的下限[61].這種交換模式的優(yōu)點(diǎn)在于:它無(wú)需對(duì)底層數(shù)據(jù)庫(kù)的應(yīng)用邏輯和數(shù)據(jù)結(jié)構(gòu)做任何改變,可以直接用于開(kāi)發(fā)在數(shù)據(jù)訪(fǎng)問(wèn)層.但是編程人員基于底層數(shù)據(jù)庫(kù)進(jìn)行直接修改也是這種模式的缺點(diǎn)之一,編程人員首先要對(duì)雙方數(shù)據(jù)庫(kù)的底層設(shè)計(jì)有清楚的了解,需要承擔(dān)較高的安全風(fēng)險(xiǎn);其次,編程人員在修改原有的數(shù)據(jù)訪(fǎng)問(wèn)層時(shí)需要保證數(shù)據(jù)的完整性和一致性.此外,這種模式的另一個(gè)缺點(diǎn)在于系統(tǒng)的可重用性很低,每次對(duì)于不同應(yīng)用的數(shù)據(jù)交換都需要做不同的設(shè)計(jì).下面我們舉一個(gè)通俗易懂的例子:安徽人和新疆人有生意上的往來(lái),但由于彼此說(shuō)的都是家鄉(xiāng)話(huà),交易很難進(jìn)行,于是雙方就約定每次見(jiàn)面都使用安徽話(huà)或者新疆話(huà).假如他們規(guī)定一個(gè)協(xié)議,每次見(jiàn)面都以安徽話(huà)來(lái)交談,那么新疆人每句話(huà)的語(yǔ)法結(jié)構(gòu)和發(fā)音標(biāo)準(zhǔn)都按照安徽話(huà)來(lái)修改,同時(shí)要保證每句話(huà)的完整性和準(zhǔn)確性,保證雙方順利的交談.然而在下次的生意中,新疆人可能面對(duì)的是一位廣東人,那么交流依舊出現(xiàn)了困難,此時(shí)新疆人又需要把自己的新疆話(huà)轉(zhuǎn)換為廣東話(huà). (2)標(biāo)準(zhǔn)化交換 標(biāo)準(zhǔn)化數(shù)據(jù)交換是指在網(wǎng)絡(luò)環(huán)境中建立一個(gè)可供多方共享的方法作為統(tǒng)一的標(biāo)準(zhǔn),使得跨平臺(tái)應(yīng)用程序之間實(shí)現(xiàn)數(shù)據(jù)共享和交換.下面我們依舊以安徽人與新疆人作交易為例來(lái)解釋這種交換模式.為了解決雙方無(wú)法溝通的困境,雙方約定每次見(jiàn)面交易都使用普通話(huà)這種標(biāo)準(zhǔn)來(lái)交流,當(dāng)下次即使遇到全國(guó)各地的人,也可以使用普通話(huà)來(lái)交流,而且大家只需要熟悉普通話(huà)的語(yǔ)法規(guī)則即可,不需要精通各地的語(yǔ)言.這種交換模式的優(yōu)點(diǎn)顯而易見(jiàn),系統(tǒng)對(duì)于不同的應(yīng)用只需要提供一個(gè)多方共享的標(biāo)準(zhǔn)即可,具有很高的可重用性. 實(shí)現(xiàn)基于XML 的數(shù)據(jù)交換平臺(tái)確實(shí)需要一系列的努力和資源來(lái)創(chuàng)建/管理交換,但它不是對(duì)現(xiàn)有系統(tǒng)的大規(guī)模改變而是有限的改變,所以使用基于XML 數(shù)據(jù)交換的關(guān)鍵優(yōu)勢(shì)是信息共享的組織不需要更改其現(xiàn)有的數(shù)據(jù)存儲(chǔ)或標(biāo)準(zhǔn),使得異構(gòu)系統(tǒng)之間可以實(shí)現(xiàn)最大限度的協(xié)同,并能在現(xiàn)有數(shù)據(jù)交換應(yīng)用的基礎(chǔ)上擴(kuò)展更多新的應(yīng)用,從而對(duì)不同企業(yè)間發(fā)展應(yīng)用集成起到促進(jìn)作用. 在信息化建設(shè)初期,由于缺乏有效合理的規(guī)劃和協(xié)作,信息孤島的現(xiàn)象普遍存在,大量的冗余數(shù)據(jù)和垃圾數(shù)據(jù)存在于信息系統(tǒng)中,數(shù)據(jù)質(zhì)量得不到保證,信息的利用效率明顯低下.為了解決這個(gè)問(wèn)題,數(shù)據(jù)集成技術(shù)[62]應(yīng)運(yùn)而生.數(shù)據(jù)集成技術(shù)是協(xié)調(diào)數(shù)據(jù)源之間不匹配問(wèn)題[63-67],將異構(gòu)、分布、自治的數(shù)據(jù)集成在一起,為用戶(hù)提供單一視圖,使得可以透明地訪(fǎng)問(wèn)數(shù)據(jù)源.系統(tǒng)數(shù)據(jù)集成主要指異構(gòu)數(shù)據(jù)集成,重點(diǎn)是數(shù)據(jù)標(biāo)準(zhǔn)化和元數(shù)據(jù)中心的建立. · 數(shù)據(jù)標(biāo)準(zhǔn)化:數(shù)據(jù)標(biāo)準(zhǔn)化的作用在于提高系統(tǒng)的可移植性、互操作性、可伸縮性、通用性和共享性.數(shù)據(jù)集成依據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)包括屬性數(shù)據(jù)標(biāo)準(zhǔn)、網(wǎng)絡(luò)應(yīng)用標(biāo)準(zhǔn)和系統(tǒng)元數(shù)據(jù)標(biāo)準(zhǔn).名詞術(shù)語(yǔ)詞典、數(shù)據(jù)文件屬性字典、菜單詞典及各類(lèi)代碼表等為系統(tǒng)公共數(shù)據(jù),在此基礎(chǔ)上促成系統(tǒng)間的術(shù)語(yǔ)、名稱(chēng)、代碼的統(tǒng)一,促成屬性數(shù)據(jù)統(tǒng)一的維護(hù)管理; · 元數(shù)據(jù)中心的建立:在建立元數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)上,統(tǒng)一進(jìn)行數(shù)據(jù)抽取、格式轉(zhuǎn)換、重組、儲(chǔ)存,實(shí)現(xiàn)對(duì)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)的整合.經(jīng)處理的數(shù)據(jù)保存在工作數(shù)據(jù)庫(kù)中,庫(kù)中所有屬性數(shù)據(jù)文件代碼及各數(shù)據(jù)文件中的屬性項(xiàng)代碼均按標(biāo)準(zhǔn)化要求編制,在整個(gè)系統(tǒng)中保持唯一性,可以迅速、準(zhǔn)確定位.各屬性項(xiàng)的文字值及代碼,也都通過(guò)詞庫(kù)建設(shè)進(jìn)行標(biāo)準(zhǔn)化處理,實(shí)現(xiàn)一詞一義.建立元數(shù)據(jù)中心的基本流程如圖5所示. Fig.5 Metadata center圖5 元數(shù)據(jù)中心 數(shù)據(jù)規(guī)范和數(shù)據(jù)交換的完成,對(duì)數(shù)據(jù)集成的有效進(jìn)行提供了很大的幫助,但在數(shù)據(jù)集成時(shí)仍然需要解決以下難題. 首先是異構(gòu)性.數(shù)據(jù)異構(gòu)分為兩個(gè)方面:其一,不同數(shù)據(jù)源數(shù)據(jù)的結(jié)構(gòu)不同,此為結(jié)構(gòu)性異構(gòu);其二,不同數(shù)據(jù)源的數(shù)據(jù)項(xiàng)在含義上有差別,此為語(yǔ)義性異構(gòu);其次是數(shù)據(jù)源的異地分布性;最后是數(shù)據(jù)源的自治性.數(shù)據(jù)源可以改變自身的結(jié)構(gòu)和數(shù)據(jù),這就要求數(shù)據(jù)集成系統(tǒng)應(yīng)具有魯棒性. 為了解決這些難題,現(xiàn)在有模式集成方法、數(shù)據(jù)復(fù)制方法和基于本體的方法這幾種典型的數(shù)據(jù)集成方法: (1)模式集成方法 模式集成方法為用戶(hù)提供統(tǒng)一的查詢(xún)接口,通過(guò)中介模式訪(fǎng)問(wèn)實(shí)時(shí)數(shù)據(jù),該模式直接從原始數(shù)據(jù)庫(kù)檢索信息(如圖6 所示).該方法的實(shí)現(xiàn)共分為4 個(gè)主要步驟:源數(shù)據(jù)庫(kù)的發(fā)現(xiàn)、查詢(xún)接口模式的抽取、領(lǐng)域源數(shù)據(jù)庫(kù)的分類(lèi)和全局查詢(xún)接口集成[68-73]. Fig.6 Schematic diagram of a pattern integration approach圖6 模式集成方法示意圖 模式集成方法依賴(lài)于中介模式與原始源模式之間的映射[74],并將查詢(xún)轉(zhuǎn)換為專(zhuān)用查詢(xún),以匹配原始數(shù)據(jù)庫(kù)的模式.這種映射可以用兩種方式指定:作為從中介模式中的實(shí)體到原始數(shù)據(jù)源中的實(shí)體的映射——全局視圖(GAV)方法[75],或者作為從原始源中的實(shí)體到中介模式——本地視圖(LAV)方法的映射[76].后一種方法需要更復(fù)雜的推理來(lái)解析對(duì)中介模式的查詢(xún)[67,77,78],但是可以更容易地將新數(shù)據(jù)源添加到穩(wěn)定中介模式中. 模式集成方法的優(yōu)點(diǎn)是為用戶(hù)提供了統(tǒng)一的訪(fǎng)問(wèn)接口和全局?jǐn)?shù)據(jù)視圖;缺點(diǎn)是用戶(hù)使用該方法時(shí)經(jīng)常需要訪(fǎng)問(wèn)多個(gè)數(shù)據(jù)源,存在很大的網(wǎng)絡(luò)延遲,數(shù)據(jù)源之間沒(méi)有進(jìn)行交互.如果被集成的數(shù)據(jù)源規(guī)模比較大且數(shù)據(jù)實(shí)時(shí)性比較高更新頻繁,則一般采用模式集成方法. (2)數(shù)據(jù)復(fù)制方法 數(shù)據(jù)復(fù)制方法是將用戶(hù)可能用到的其他數(shù)據(jù)源的數(shù)據(jù)預(yù)先復(fù)制到統(tǒng)一的數(shù)據(jù)源中,用戶(hù)使用時(shí),僅需訪(fǎng)問(wèn)單一的數(shù)據(jù)源或少量的數(shù)據(jù)源.數(shù)據(jù)復(fù)制方法提供了緊密耦合的體系結(jié)構(gòu),數(shù)據(jù)已經(jīng)在單個(gè)可查詢(xún)的存儲(chǔ)庫(kù)中進(jìn)行物理協(xié)調(diào),因此解析查詢(xún)通常需要很少的時(shí)間[79],系統(tǒng)處理用戶(hù)請(qǐng)求的效率顯著提升;但在使用該方法時(shí),數(shù)據(jù)復(fù)制需要一定的時(shí)間,所以數(shù)據(jù)的實(shí)時(shí)一致性不好保證.數(shù)據(jù)倉(cāng)庫(kù)方法是數(shù)據(jù)復(fù)制方法的一種常見(jiàn)方式[80],第一個(gè)數(shù)據(jù)集成系統(tǒng)便是使用該方法于1991 年在明尼蘇達(dá)大學(xué)設(shè)計(jì)的.該方法的過(guò)程是:先提取各個(gè)異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),然后轉(zhuǎn)換、加載到數(shù)據(jù)倉(cāng)庫(kù)中,用戶(hù)在訪(fǎng)問(wèn)數(shù)據(jù)倉(cāng)庫(kù)查找數(shù)據(jù)時(shí),類(lèi)似訪(fǎng)問(wèn)普通數(shù)據(jù)庫(kù). 對(duì)于經(jīng)常更新的數(shù)據(jù)集,數(shù)據(jù)倉(cāng)庫(kù)方法不太可行,需要連續(xù)重新執(zhí)行提取、轉(zhuǎn)換、加載(ETL)過(guò)程以進(jìn)行同步.根據(jù)數(shù)據(jù)復(fù)制方法的優(yōu)缺點(diǎn)可以看出:數(shù)據(jù)源相對(duì)穩(wěn)定或者用戶(hù)查詢(xún)模式已知或有限的時(shí)候,適合采用數(shù)據(jù)復(fù)制方法.數(shù)據(jù)倉(cāng)庫(kù)方法示意圖如圖7 所示. 下面舉例說(shuō)明這兩種集成方法具體應(yīng)用的區(qū)別:目前我們想要設(shè)計(jì)一個(gè)應(yīng)用程序,該應(yīng)用程序的功能為用戶(hù)可以利用該程序查詢(xún)到自己所在城市的任何信息,包括天氣信息、人口統(tǒng)計(jì)信息等.傳統(tǒng)的思想是,把所有這些信息保存在一個(gè)后臺(tái)數(shù)據(jù)庫(kù)中,但是這種廣度的信息收集起來(lái)難度大且成本高,即使收集到這些資源,它們也可能會(huì)復(fù)制已有數(shù)據(jù)庫(kù)中的數(shù)據(jù),不具備實(shí)時(shí)性. 此時(shí),我們選擇模式集成方法解決該應(yīng)用程序面臨的問(wèn)題,讓開(kāi)發(fā)人員構(gòu)建虛擬模式——全局模式,然后對(duì)各個(gè)單獨(dú)的數(shù)據(jù)源進(jìn)行“包裝”,這些“包裝”只是將本地查詢(xún)結(jié)果(實(shí)際上是由相對(duì)應(yīng)的網(wǎng)站或數(shù)據(jù)庫(kù)返回的結(jié)果)轉(zhuǎn)換為易于處理的表單,當(dāng)使用該應(yīng)用程序的用戶(hù)查詢(xún)數(shù)據(jù)時(shí),看似是本地查詢(xún),實(shí)則數(shù)據(jù)集成系統(tǒng)會(huì)將此查詢(xún)轉(zhuǎn)換為相應(yīng)數(shù)據(jù)源上的相應(yīng)查詢(xún).最后,虛擬數(shù)據(jù)庫(kù)將這些查詢(xún)的結(jié)果反饋給用戶(hù). 如果我們選擇使用數(shù)據(jù)復(fù)制方法來(lái)解決此問(wèn)題的話(huà),首先,我們需要把所有的數(shù)據(jù)信息復(fù)制到數(shù)據(jù)倉(cāng)庫(kù)中,每當(dāng)數(shù)據(jù)(如天氣情況)有所更新時(shí),我們也要手動(dòng)集成到系統(tǒng)中.所以,兩種數(shù)據(jù)集成方法的使用需根據(jù)具體的情形來(lái)選擇. Fig.7 Schematic diagram of data warehouse method圖7 數(shù)據(jù)倉(cāng)庫(kù)方法示意圖 (3)基于本體的數(shù)據(jù)集成 根據(jù)上述介紹,數(shù)據(jù)異構(gòu)有兩個(gè)方面:前兩種方法都是針對(duì)解決結(jié)構(gòu)異構(gòu)而提出的解決方案;而本體技術(shù)致力于解決語(yǔ)義性異構(gòu)問(wèn)題.語(yǔ)義集成過(guò)程中,一般通過(guò)沖突檢測(cè)、真值發(fā)現(xiàn)等技術(shù)來(lái)解決沖突,常見(jiàn)的沖突解決策略有如下3 類(lèi):沖突忽略、沖突避免和沖突消解.沖突忽略是人工干預(yù)把沖突留給用戶(hù)解決;沖突避免是對(duì)所有的情形使用統(tǒng)一的約束規(guī)則;沖突消解又分為3 類(lèi):一是基于投票的方法采用簡(jiǎn)單的少數(shù)服從多數(shù)策略;二是基于質(zhì)量的方法,此方法在第1 種方法的基礎(chǔ)上考慮數(shù)據(jù)來(lái)源的可信度;三是基于關(guān)系的方法,此方法在第2 種方法的基礎(chǔ)上考慮不同數(shù)據(jù)來(lái)源之間的關(guān)系. 本體是對(duì)某一領(lǐng)域中的概念及其之間關(guān)系的顯式描述,基于本體的數(shù)據(jù)集成系統(tǒng)允許用戶(hù)通過(guò)對(duì)本體描述的全局模式的查詢(xún)來(lái)有效地訪(fǎng)問(wèn)位于多個(gè)數(shù)據(jù)源中的數(shù)據(jù)[81].陶春等人針對(duì)基于本體的XML 數(shù)據(jù)集成的查詢(xún)處理提出了優(yōu)化算法[82].目前,基于本體技術(shù)的數(shù)據(jù)集成方法有3 種,分別為:單本體方法、多本體方法和混合本體方法. 由于單本體方法所有的數(shù)據(jù)源都要與共享詞匯庫(kù)全局本體關(guān)聯(lián),應(yīng)用范圍很小,且數(shù)據(jù)源的改變會(huì)影響全局本體的改變.為了解決單本體方法的缺陷,多本體方法應(yīng)運(yùn)而生.多本體方法的每個(gè)數(shù)據(jù)源都由各自的本體進(jìn)行描述,它的優(yōu)點(diǎn)是數(shù)據(jù)源的改變對(duì)本體的影響小,但是由于缺少共享的詞匯庫(kù),不同的數(shù)據(jù)源之間難以比較,數(shù)據(jù)源之間的共享性和交互性相對(duì)較差.混合本體方法的提出,解決了單本體和多本體方法的不足:混合本體的每個(gè)數(shù)據(jù)源的語(yǔ)義都由它們各自的本體進(jìn)行描述,解決了單本體方法的缺點(diǎn).混合本體還建立了一個(gè)全局共享詞匯庫(kù)以解決多本體方法的缺點(diǎn),如圖8 所示.混合本體方法有效地解決了數(shù)據(jù)源間的語(yǔ)義異構(gòu)問(wèn)題. Fig.8 Hybrid ontology approach圖8 混合本體方法 一個(gè)機(jī)構(gòu)的數(shù)據(jù)治理能力越高,所享受到數(shù)據(jù)治理帶來(lái)的價(jià)值也會(huì)越多,如增加收入、減少成本、降低風(fēng)險(xiǎn)等.于是,很多機(jī)構(gòu)想要準(zhǔn)確地評(píng)估本公司的數(shù)據(jù)治理能力,可以利用數(shù)據(jù)治理成熟度模型方法,包括DQM,Dataflux 和IBM 在內(nèi)的一些組織都開(kāi)發(fā)了相類(lèi)似的數(shù)據(jù)治理成熟度模型. 我們先介紹一下DQM 集團(tuán)的數(shù)據(jù)治理成熟度模型[83],此數(shù)據(jù)治理成熟度模型共分為5 個(gè)階段. (1)意識(shí)階段:當(dāng)公司數(shù)據(jù)不統(tǒng)一的情況隨處可見(jiàn),數(shù)據(jù)質(zhì)量很差卻難以提高,數(shù)據(jù)模型的梳理難以進(jìn)行時(shí),公司會(huì)意識(shí)到數(shù)據(jù)治理對(duì)于數(shù)據(jù)平臺(tái)的建設(shè)發(fā)揮著至關(guān)重要的作用,但并沒(méi)有定義數(shù)據(jù)規(guī)則和策略,基本不采取行動(dòng); (2)被動(dòng)的反應(yīng)階段:公司在出現(xiàn)數(shù)據(jù)上的問(wèn)題時(shí),會(huì)去采取措施解決問(wèn)題,但并不會(huì)尋其根源解決根本問(wèn)題,也就是說(shuō),公司的行動(dòng)通常是由危機(jī)驅(qū)動(dòng)的.該類(lèi)反應(yīng)性組織的數(shù)據(jù)仍然是“孤立”存在的,很少進(jìn)行數(shù)據(jù)共享,只是努力達(dá)到監(jiān)管的要求; (3)主動(dòng)的應(yīng)對(duì)階段:處在這個(gè)階段的組織最終可以識(shí)別和解決根本原因,并可以在問(wèn)題出現(xiàn)之前將其化解.這個(gè)階段的組織將數(shù)據(jù)視為整個(gè)企業(yè)的戰(zhàn)略資產(chǎn),而不是像第1 階段將數(shù)據(jù)作為一種成本開(kāi)銷(xiāo); (4)成熟的管理階段:這個(gè)階段的組織擁有一組成熟的數(shù)據(jù)流程,可以識(shí)別出現(xiàn)的問(wèn)題,并以專(zhuān)注于數(shù)據(jù)開(kāi)發(fā)的方式定義策略; (5)最佳階段:一個(gè)組織把數(shù)據(jù)和數(shù)據(jù)開(kāi)發(fā)作為人員、流程和技術(shù)的核心競(jìng)爭(zhēng)力. IBM 的數(shù)據(jù)治理成熟度模型也分為5 個(gè)階段[84],分別是初始階段、基本管理、定義階段(主動(dòng)管理)、量化管理、最佳(持續(xù)優(yōu)化)階段(影響數(shù)據(jù)治理成熟度的關(guān)鍵因素有以下3 個(gè):嚴(yán)格性、全面性以及一致性). (1)IBM 的初始階段是指企業(yè)缺乏數(shù)據(jù)治理流程,沒(méi)有跟蹤管理,也沒(méi)有一個(gè)穩(wěn)定的數(shù)據(jù)治理的環(huán)境,僅僅只能體現(xiàn)個(gè)人的努力和成果,工作尚未開(kāi)展; (2)基本管理階段是指該階段有了初始的流程定義,開(kāi)展了基本的數(shù)據(jù)治理工作,但仍然存在很多問(wèn)題; (3)定義階段是指企業(yè)在相關(guān)成功案例的基礎(chǔ)上積累了相關(guān)的經(jīng)驗(yàn),形成了部分標(biāo)準(zhǔn)但仍不完善的流程; (4)量化管理階段的企業(yè)能夠運(yùn)用先進(jìn)的工具對(duì)數(shù)據(jù)治理的效果進(jìn)行量化,數(shù)據(jù)治理已經(jīng)能取得持續(xù)的效果,并且能根據(jù)既定的目標(biāo)進(jìn)行一致的績(jī)效評(píng)估; (5)最佳階段是持續(xù)地關(guān)注流程的優(yōu)化,達(dá)到了此階段的企業(yè)已經(jīng)具有創(chuàng)新能力,成為行業(yè)的領(lǐng)導(dǎo)者. 從這些企業(yè)的數(shù)據(jù)治理模型可以看出:數(shù)據(jù)治理從來(lái)都不是一次性的程序,而是一個(gè)持續(xù)的過(guò)程,這個(gè)過(guò)程必須是漸進(jìn)式迭代型的,每個(gè)組織必須采取許多小的、可實(shí)現(xiàn)的、可衡量的步驟來(lái)實(shí)現(xiàn)長(zhǎng)期目標(biāo). Khatri 等人使用Weill 和Ross 框架進(jìn)行IT 治理,作為設(shè)計(jì)數(shù)據(jù)治理框架的起點(diǎn)[85],IBM 的數(shù)據(jù)治理委員會(huì)以支撐域、核心域、促成因素和成果這4 個(gè)層次來(lái)構(gòu)建數(shù)據(jù)治理框架[84],如圖9 所示. 圖9 的數(shù)據(jù)治理框架所包含的11 個(gè)域并不是相互獨(dú)立運(yùn)行的而是相關(guān)聯(lián)的,例如,數(shù)據(jù)的質(zhì)量和安全/隱私要求需要在整個(gè)信息生命周期中進(jìn)行評(píng)估和管理.IBM 的數(shù)據(jù)治理框架注重?cái)?shù)據(jù)治理的方法以及過(guò)程,IBM 數(shù)據(jù)治理委員會(huì)最關(guān)鍵的命題是數(shù)據(jù)治理的成果,在下面3 層的支撐作用下,組織最終實(shí)現(xiàn)數(shù)據(jù)治理的目標(biāo)提升數(shù)據(jù)價(jià)值. 在IBM 數(shù)據(jù)治理框架的基礎(chǔ)上加以擴(kuò)充,文獻(xiàn)[6]設(shè)計(jì)了一個(gè)大數(shù)據(jù)背景下的數(shù)據(jù)治理框架,如圖10 所示. 結(jié)合IBM 公司的數(shù)據(jù)治理框架,我們對(duì)文獻(xiàn)[6]給出的大數(shù)據(jù)治理框架進(jìn)行了幾處修改得到圖10.為了與圖9 保持一致,將文獻(xiàn)[6]中大數(shù)據(jù)治理框架圖的“范圍”修改為“核心域”,文獻(xiàn)[6]的大數(shù)據(jù)治理框架圖的“大數(shù)據(jù)質(zhì)量”修改為“數(shù)據(jù)質(zhì)量管理”,文獻(xiàn)[6]的大數(shù)據(jù)治理框架圖的“大數(shù)據(jù)生命周期”修改為“數(shù)據(jù)生命周期管理”.圖10從原則、核心域、實(shí)施與評(píng)估這3 個(gè)方面來(lái)對(duì)大數(shù)據(jù)治理全面地進(jìn)行描述,企業(yè)數(shù)據(jù)治理應(yīng)該遵循戰(zhàn)略一致、風(fēng)險(xiǎn)管理、運(yùn)營(yíng)合規(guī)以及價(jià)值創(chuàng)造這4 個(gè)基本的指導(dǎo)性原則,治理的核心域或者說(shuō)叫決策域包括戰(zhàn)略、組織、數(shù)據(jù)生命周期管理、數(shù)據(jù)質(zhì)量管理、大數(shù)據(jù)服務(wù)創(chuàng)新、大數(shù)據(jù)安全以及大數(shù)據(jù)架構(gòu)這7 個(gè)部分,實(shí)施與評(píng)估維度指出大數(shù)據(jù)治理在實(shí)施評(píng)估時(shí)重點(diǎn)需要關(guān)注促成因素、實(shí)施過(guò)程、成熟度評(píng)估以及審計(jì)這4 個(gè)方面.一個(gè)大數(shù)據(jù)治理組織要在4 個(gè)基本原則下對(duì)7 個(gè)核心域進(jìn)行數(shù)據(jù)治理,不斷地推進(jìn)大數(shù)據(jù)治理的工作. Fig.9 IBM data governance framework[84]圖9 IBM 數(shù)據(jù)治理框架[84] Fig.10 Big data governance framework[6]圖10 大數(shù)據(jù)治理框架[6] 框架頂部的4 個(gè)原則是數(shù)據(jù)治理自上而下的頂層設(shè)計(jì),對(duì)大數(shù)據(jù)治理的實(shí)施具有指導(dǎo)作用,它為所有其他的管理決策確定方向.戰(zhàn)略一致是指數(shù)據(jù)治理的戰(zhàn)略要和企業(yè)的整體戰(zhàn)略保持一致,在制定數(shù)據(jù)治理戰(zhàn)略時(shí)要融合企業(yè)的整體戰(zhàn)略、企業(yè)的文化制度以及業(yè)務(wù)需要,來(lái)繪制數(shù)據(jù)治理實(shí)現(xiàn)藍(lán)圖;大數(shù)據(jù)的到來(lái)不僅伴隨著價(jià)值同時(shí)也會(huì)帶來(lái)風(fēng)險(xiǎn),企業(yè)要保持風(fēng)險(xiǎn)可控有計(jì)劃地對(duì)風(fēng)險(xiǎn)進(jìn)行不定期的評(píng)估工作;運(yùn)營(yíng)合規(guī)是指企業(yè)在數(shù)據(jù)治理過(guò)程中要遵守法律法規(guī)和行業(yè)規(guī)范;企業(yè)的數(shù)據(jù)治理要不斷地為企業(yè)提供創(chuàng)新服務(wù)創(chuàng)造價(jià)值. 框架的核心域也可以叫做決策域,指出數(shù)據(jù)治理需要治理的核心對(duì)象,下面對(duì)數(shù)據(jù)治理的7 個(gè)核心域進(jìn)行一一介紹,其中:戰(zhàn)略制定要根據(jù)大數(shù)據(jù)治理目標(biāo)來(lái)制定,根據(jù)戰(zhàn)略的制定,企業(yè)應(yīng)該設(shè)置對(duì)應(yīng)的組織架構(gòu)把戰(zhàn)略實(shí)施落到實(shí)處,明確各個(gè)部門(mén)相關(guān)職責(zé);數(shù)據(jù)生命周期管理是從數(shù)據(jù)的采集、存儲(chǔ)、集成、分析、歸檔、銷(xiāo)毀的全過(guò)程進(jìn)行監(jiān)督和管理,根據(jù)出現(xiàn)的問(wèn)題及時(shí)優(yōu)化的過(guò)程;數(shù)據(jù)質(zhì)量管理不僅要保障數(shù)據(jù)的完整性、準(zhǔn)確性、及時(shí)性以及一致性,而且還包括問(wèn)題追蹤和合規(guī)性監(jiān)控. 2014 年10 月,美國(guó)摩根大通公司電腦系統(tǒng)發(fā)生數(shù)據(jù)泄露,被竊取的信息包括客戶(hù)姓名、地址、電話(huà)號(hào)碼和電子郵箱地址,將對(duì)7 600 萬(wàn)家庭和700 萬(wàn)小企業(yè)造成影響.2018 年1 月,有一家數(shù)據(jù)分析公司對(duì)Facebook 超過(guò)8 700 萬(wàn)用戶(hù)進(jìn)行非法的數(shù)據(jù)挖掘,接下來(lái)的3 月、9 月以及12 月,Facebook 又多次發(fā)生用戶(hù)數(shù)據(jù)泄露事件.大數(shù)據(jù)背景下的信息開(kāi)放和共享,使得隱私和信息安全問(wèn)題被顯著放大,IBM 數(shù)據(jù)治理專(zhuān)家Soares 在其著作《Big Data Governance an Emerging Imperative》中以清晰的案例介紹電信行業(yè)利用地理位置數(shù)據(jù)來(lái)侵犯?jìng)€(gè)人隱私[10],因此在大數(shù)據(jù)治理過(guò)程中,采取一定的措施和策略保證信息安全和隱私保護(hù)尤為重要.下面從大數(shù)據(jù)安全防護(hù)和隱私保護(hù)兩個(gè)方面來(lái)介紹它們的關(guān)鍵技術(shù). (1)首先,大數(shù)據(jù)安全防護(hù)主要包括以下關(guān)鍵技術(shù). · 大數(shù)據(jù)加密技術(shù):對(duì)平臺(tái)中的核心敏感數(shù)據(jù)進(jìn)行加密保護(hù),結(jié)合訪(fǎng)問(wèn)控制技術(shù),利用用戶(hù)權(quán)限和數(shù)據(jù)權(quán)限的比較來(lái)防止非授權(quán)用戶(hù)訪(fǎng)問(wèn)數(shù)據(jù); · 大數(shù)據(jù)安全漏洞檢測(cè):該技術(shù)可以采用白/黑/灰盒測(cè)試或者動(dòng)態(tài)跟蹤分析等方法,對(duì)大數(shù)據(jù)平臺(tái)和程序進(jìn)行安全漏洞檢測(cè),減少由于設(shè)計(jì)缺陷或人為因素留下的問(wèn)題; · 威脅預(yù)測(cè)技術(shù):利用大數(shù)據(jù)分析技術(shù),對(duì)平臺(tái)的各類(lèi)信息資產(chǎn)進(jìn)行安全威脅檢測(cè),在攻擊發(fā)生前進(jìn)行識(shí)別預(yù)測(cè)并實(shí)施預(yù)防措施; · 大數(shù)據(jù)認(rèn)證技術(shù):利用大數(shù)據(jù)技術(shù)收集用戶(hù)行為和設(shè)備行為數(shù)據(jù),根據(jù)這些數(shù)據(jù)的特征對(duì)使用者進(jìn)行身份判斷; (2)其次,對(duì)于隱私保護(hù),現(xiàn)有的關(guān)鍵技術(shù)分析如下. · 匿名保護(hù)技術(shù):針對(duì)結(jié)構(gòu)化數(shù)據(jù),一般采用數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù);而對(duì)于類(lèi)似圖的非結(jié)構(gòu)化數(shù)據(jù),則一般采用社交網(wǎng)絡(luò)匿名保護(hù)技術(shù); · 數(shù)據(jù)水印技術(shù):水印技術(shù)一般用于多媒體數(shù)據(jù)的版權(quán)保護(hù),但多用于靜態(tài)數(shù)據(jù)的保護(hù),在大數(shù)據(jù)動(dòng)態(tài)性的特點(diǎn)下需要改進(jìn); · 數(shù)據(jù)溯源技術(shù):由于數(shù)據(jù)的來(lái)源不同,對(duì)數(shù)據(jù)的來(lái)源和傳播進(jìn)行標(biāo)記,為使用者判斷信息真?zhèn)翁峁┍憷? · 數(shù)據(jù)審計(jì)技術(shù):對(duì)數(shù)據(jù)存儲(chǔ)前后的完整性和系統(tǒng)日志信息進(jìn)行審計(jì). 大數(shù)據(jù)架構(gòu)是從系統(tǒng)架構(gòu)層面進(jìn)行描述,不僅關(guān)心大數(shù)據(jù)的存儲(chǔ),還關(guān)心大數(shù)據(jù)的管理和分析.我們首先要明確元數(shù)據(jù)和主數(shù)據(jù)的含義:元數(shù)據(jù)是對(duì)數(shù)據(jù)的描述信息,而主數(shù)據(jù)就是業(yè)務(wù)的實(shí)體信息.所以對(duì)于元數(shù)據(jù)和主數(shù)據(jù)的管理是對(duì)基礎(chǔ)數(shù)據(jù)的管理.數(shù)據(jù)治理不僅要降低企業(yè)成本,還要應(yīng)用數(shù)據(jù)創(chuàng)新服務(wù)為企業(yè)增加價(jià)值,大數(shù)據(jù)服務(wù)創(chuàng)新也是大數(shù)據(jù)治理的核心價(jià)值. 大數(shù)據(jù)治理的實(shí)施與評(píng)估主要包括促成因素、實(shí)施過(guò)程、成熟度評(píng)估和審計(jì):促成因素包括企業(yè)的內(nèi)外部環(huán)境和數(shù)據(jù)治理過(guò)程中采用的技術(shù)工具;大數(shù)據(jù)治理是一個(gè)長(zhǎng)期的、閉環(huán)的、循序漸進(jìn)的過(guò)程,在每一個(gè)階段需要解決不同的問(wèn)題,有不同的側(cè)重點(diǎn),所以應(yīng)該對(duì)數(shù)據(jù)生命周期的每個(gè)階段有一個(gè)很好的規(guī)劃,這就是實(shí)施過(guò)程的內(nèi)涵所在;數(shù)據(jù)治理成熟度模型我們已經(jīng)在本節(jié)的上半部分介紹了它的內(nèi)容,但成熟度評(píng)估主要是對(duì)數(shù)據(jù)的安全性、一致性、準(zhǔn)確性、可獲取性、可共享性以及大數(shù)據(jù)的存儲(chǔ)和監(jiān)管進(jìn)行評(píng)估;審計(jì)是第三方對(duì)企業(yè)數(shù)據(jù)治理進(jìn)行評(píng)價(jià)和給出審計(jì)意見(jiàn),促進(jìn)有關(guān)數(shù)據(jù)治理工作內(nèi)容的改進(jìn),對(duì)于企業(yè)的持續(xù)發(fā)展意義重大. 在企業(yè)的數(shù)據(jù)治理過(guò)程中,治理主體對(duì)數(shù)據(jù)治理的需求進(jìn)行評(píng)估來(lái)設(shè)定數(shù)據(jù)治理的目標(biāo)和發(fā)展方向,為數(shù)據(jù)治理戰(zhàn)略準(zhǔn)備與實(shí)施提供指導(dǎo),并全程監(jiān)督數(shù)據(jù)治理的實(shí)施過(guò)程.通過(guò)對(duì)實(shí)施成果的評(píng)估,全面了解本公司數(shù)據(jù)治理的水平和狀態(tài),更好地改進(jìn)和優(yōu)化數(shù)據(jù)治理過(guò)程,以致達(dá)到組織的預(yù)期目標(biāo). 下面介紹我們自己設(shè)計(jì)的HAO 治理模型.該模型從大數(shù)據(jù)開(kāi)始,為HI(人類(lèi)智能)、AI(人工智能)和OI(組織智能)三者協(xié)同的HAO 智能[86]提供數(shù)據(jù)治理支持. HAO 治理模型旨在實(shí)現(xiàn)以下需求. (1)建立全面、動(dòng)態(tài)、可配置的數(shù)據(jù)接入機(jī)制,滿(mǎn)足數(shù)據(jù)采集、數(shù)據(jù)匯聚、任務(wù)配置、任務(wù)調(diào)度、數(shù)據(jù)加密、斷點(diǎn)續(xù)傳等需求; (2)建立標(biāo)準(zhǔn)化的數(shù)據(jù)處理流程,形成面向數(shù)據(jù)內(nèi)容的數(shù)據(jù)規(guī)范、清洗、關(guān)聯(lián)、比對(duì)、標(biāo)識(shí)等轉(zhuǎn)換處理規(guī)范模式,為一個(gè)組織的數(shù)據(jù)融合建庫(kù)提供支撐; (3)統(tǒng)籌建設(shè)多元集成、融合建庫(kù)的數(shù)據(jù)組織模式,按照業(yè)務(wù)類(lèi)型、敏感程度、隱私內(nèi)容等關(guān)鍵要素分級(jí)分類(lèi)推進(jìn)云建庫(kù)和存儲(chǔ)管理,采用特征標(biāo)簽、歸一集成等多種手段實(shí)現(xiàn)不同來(lái)源的數(shù)據(jù)資源關(guān)聯(lián)融合; (4)構(gòu)建知識(shí)圖譜分類(lèi),建設(shè)多渠道、多維度的數(shù)據(jù)服務(wù)模式,面向使用者提供查詢(xún)檢索、比對(duì)排序等基礎(chǔ)數(shù)據(jù)服務(wù),面向?qū)I(yè)人員提供挖掘分析、專(zhuān)家建模等智能數(shù)據(jù)服務(wù); (5)HI 和AI 通過(guò)知識(shí)圖譜和OI 實(shí)現(xiàn)交互和協(xié)同,存取和共享治理過(guò)的集成數(shù)據(jù),并利用大數(shù)據(jù)處理模型(以HACE 定理開(kāi)始的三級(jí)結(jié)構(gòu),如圖1 所示)、云計(jì)算和霧計(jì)算機(jī)制來(lái)實(shí)現(xiàn)數(shù)據(jù)服務(wù)和隱私保護(hù). HAO 治理模型如圖11 所示. Fig.11 Architecture diagram of HAO governance model圖11 HAO 治理模型架構(gòu)圖 該模型具備以下功能. · 支持不同種類(lèi)、不同數(shù)據(jù)源、不同目標(biāo)庫(kù)的數(shù)據(jù)抽取傳輸.常用數(shù)據(jù)源、目標(biāo)庫(kù)類(lèi)型包括Oracle,SqlServer,MySql,Hbase,Hive,GreenPlum,Gbase,PostgreSQL,SOLR,Redis,ODPS,OTS,GDS 等主流數(shù)據(jù)庫(kù),常用文件類(lèi)型包括FTP,XML,CSV,JSON,EXCEL 等,常見(jiàn)消息處理類(lèi)型包括Kafka 和Webservice; · 支持不同類(lèi)型的抽取匯聚任務(wù)配置,主要包括異構(gòu)數(shù)據(jù)庫(kù)之間數(shù)據(jù)傳輸匯聚,不同類(lèi)型、跨服務(wù)器的文件型數(shù)據(jù)傳輸,數(shù)據(jù)庫(kù)和文件類(lèi)、服務(wù)接口間相互傳輸?shù)? · 支持?jǐn)?shù)據(jù)清洗和數(shù)據(jù)規(guī)范的規(guī)則自定義,主要包括NULL 值替換、字符串操作、數(shù)據(jù)類(lèi)型轉(zhuǎn)換、函數(shù)依賴(lài)、正則處理、組合字段、數(shù)據(jù)比對(duì)、自定義SQL 腳本執(zhí)行、JSON 輸出等數(shù)據(jù)轉(zhuǎn)換規(guī)則,以及對(duì)相似重復(fù)記錄和屬性值異常等問(wèn)題數(shù)據(jù)清洗規(guī)則,以及MD5 加密規(guī)則; · 實(shí)現(xiàn)基于數(shù)據(jù)元的異構(gòu)數(shù)據(jù)自動(dòng)解析,并能按照業(yè)務(wù)場(chǎng)景進(jìn)行自定義配置,實(shí)現(xiàn)智能化、可視化、組件式數(shù)據(jù)匯聚整合任務(wù)構(gòu)建; · 通過(guò)構(gòu)建知識(shí)圖譜實(shí)現(xiàn)作業(yè)流程的可視化設(shè)計(jì),各組件、連接線(xiàn)等以圖形控件形式提供,并按不同功能分組,支持復(fù)制、粘貼、剪切、撤銷(xiāo)等功能,數(shù)據(jù)整合任務(wù)在流程設(shè)計(jì)器中可直觀顯示; · 支持插件二次開(kāi)發(fā):提供第三方開(kāi)發(fā)平臺(tái),方便根據(jù)現(xiàn)場(chǎng)實(shí)際業(yè)務(wù)需求,定制項(xiàng)目插件. HAO 治理模型的設(shè)計(jì)準(zhǔn)則包括:(1)數(shù)據(jù)源和治理功能的模塊化;(2)模型的可分解性;(3)快速原型系統(tǒng)構(gòu)建;(4)數(shù)據(jù)更新和融合能力;(5)交互的靈活性和(6)實(shí)時(shí)反應(yīng). 下面對(duì)HAO 治理模型包括的3 個(gè)核心模塊——數(shù)據(jù)接入模塊、數(shù)據(jù)治理模塊、數(shù)據(jù)服務(wù)模塊分別進(jìn)行介紹. 大數(shù)據(jù)工程的數(shù)據(jù)來(lái)源包含企業(yè)內(nèi)部數(shù)據(jù)和企業(yè)外部數(shù)據(jù),其中:企業(yè)內(nèi)部數(shù)據(jù)由資源服務(wù)平臺(tái)、綜合資源庫(kù)、各業(yè)務(wù)系統(tǒng)生產(chǎn)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)和文件服務(wù)器上的文本、圖片等非結(jié)構(gòu)化數(shù)據(jù)組成,其中包括人財(cái)物記錄、財(cái)物報(bào)表、原材料、顧客信息、氣測(cè)數(shù)據(jù)以及企業(yè)的文化和規(guī)章制度等;企業(yè)外部數(shù)據(jù)由社會(huì)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)和設(shè)備采集數(shù)據(jù)組成,外部數(shù)據(jù)一般包括地理環(huán)境、人口數(shù)據(jù)、經(jīng)濟(jì)市場(chǎng)、金融數(shù)據(jù)、社會(huì)關(guān)系、社交數(shù)據(jù)等等. 在數(shù)據(jù)接入之前,首先需要進(jìn)行數(shù)據(jù)采集,如圖12 所示.數(shù)據(jù)采集基于云計(jì)算和分布存儲(chǔ)之上的采集工具,采用標(biāo)準(zhǔn)化、規(guī)范化的抽取模式,實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化資源的統(tǒng)一抽取、整合、加工、轉(zhuǎn)換和裝載.數(shù)據(jù)采集工具主要包括了數(shù)據(jù)層、接入層、交互層和監(jiān)控層.其中,工具的數(shù)據(jù)層即涉及整個(gè)采集平臺(tái)中總體架構(gòu)的數(shù)據(jù)層即數(shù)據(jù)支撐層,工具背后的接入層是采集邏輯處理部分,交互層即對(duì)應(yīng)總體架構(gòu)的采集門(mén)戶(hù). Fig.12 Data acquisition tool architecture diagram圖12 數(shù)據(jù)采集工具架構(gòu)圖 數(shù)據(jù)層指出企業(yè)內(nèi)部和企業(yè)外部數(shù)據(jù)的主要數(shù)據(jù)來(lái)源方式,數(shù)據(jù)庫(kù)可以是指業(yè)務(wù)系統(tǒng)的Oracle;文件方式是各種文件或FTP 接入的文件包;接口主要是用來(lái)企業(yè)對(duì)接外部系統(tǒng)使用的;數(shù)據(jù)流是指可以使用Kafka 平臺(tái)處理的實(shí)時(shí)數(shù)據(jù)流式方式這種來(lái)源.接入層主要提供豐富的工具集,針對(duì)不同的數(shù)據(jù)接入方式提供相應(yīng)的工具組件,依賴(lài)作業(yè)配置引擎和作業(yè)調(diào)度引擎實(shí)現(xiàn)數(shù)據(jù)抽取.監(jiān)控層可監(jiān)控作業(yè)執(zhí)行情況,采集作業(yè)日志,對(duì)問(wèn)題作業(yè)及時(shí)告警,方便后期用戶(hù)排除故障、維護(hù)作業(yè).交互層提供可視化頁(yè)面便捷地實(shí)現(xiàn)數(shù)據(jù)接入與作業(yè)管理. 對(duì)采集后各種類(lèi)型的源數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取,該模型的數(shù)據(jù)抽取支持3 種方式:全量抽取、增量抽取、實(shí)時(shí)抽取,將經(jīng)過(guò)數(shù)據(jù)抽取后的數(shù)據(jù)匯入到匯聚庫(kù)中;對(duì)于其他的數(shù)據(jù)庫(kù)系統(tǒng),可以直接通過(guò)數(shù)據(jù)交換平臺(tái),把數(shù)據(jù)匯入到匯聚庫(kù)中. 數(shù)據(jù)治理模塊主要包括對(duì)匯聚庫(kù)中的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)規(guī)范,必要時(shí)進(jìn)行主題劃分和數(shù)據(jù)關(guān)聯(lián),然后進(jìn)行數(shù)據(jù)集成,治理完成后的數(shù)據(jù)匯聚到數(shù)據(jù)共享中心中. 數(shù)據(jù)清洗是對(duì)數(shù)據(jù)進(jìn)行審查和校驗(yàn),過(guò)濾不合規(guī)數(shù)據(jù)、刪除重復(fù)數(shù)據(jù)、糾正錯(cuò)誤數(shù)據(jù)、完成格式轉(zhuǎn)換,并進(jìn)行清洗前后的數(shù)據(jù)一致性檢查,保證清洗結(jié)果集的質(zhì)量.數(shù)據(jù)清洗的方法除了以上介紹的幾種基本方法以外,該模型還支持自定義清洗規(guī)則,數(shù)據(jù)清洗規(guī)則是由業(yè)務(wù)需求人員與開(kāi)發(fā)人員配合制定數(shù)據(jù)處理邏輯,經(jīng)過(guò)這些規(guī)則進(jìn)行數(shù)據(jù)清洗后,保證數(shù)據(jù)的一致性、準(zhǔn)確性和規(guī)范性更能滿(mǎn)足業(yè)務(wù)上的需求. 數(shù)據(jù)治理技術(shù)及基本方法在前面幾節(jié)進(jìn)行了詳細(xì)介紹. 數(shù)據(jù)服務(wù)模塊以數(shù)據(jù)共享中心構(gòu)建知識(shí)圖譜為起點(diǎn),早在2006 年,Web 創(chuàng)始人Berners-Lee 就提出數(shù)據(jù)鏈接的思想,隨后掀起了語(yǔ)義網(wǎng)絡(luò)的狂潮[87],知識(shí)圖譜在此基礎(chǔ)上形成.但是直到2012 年,知識(shí)圖譜的概念才被谷歌正式提出[88].知識(shí)圖譜是由節(jié)點(diǎn)和邊組成的巨型知識(shí)網(wǎng)絡(luò),節(jié)點(diǎn)代表實(shí)體,邊代表實(shí)體之間的關(guān)系,每個(gè)實(shí)體還由(key-value)鍵值對(duì)來(lái)描述實(shí)體的內(nèi)在特性.新的知識(shí)圖譜中還增加了實(shí)體與實(shí)體之間的事件,即邊表示關(guān)系或事件.楊玉基等人提出用四步法來(lái)構(gòu)建知識(shí)圖譜,即領(lǐng)域本體構(gòu)建、眾包半自動(dòng)語(yǔ)義標(biāo)注、外源數(shù)據(jù)補(bǔ)全、信息抽取[89]. 數(shù)據(jù)服務(wù)模塊基于知識(shí)圖譜面向不同用戶(hù)提供多渠道、多維度的數(shù)據(jù)服務(wù),面向使用者提供模型管理、智能發(fā)現(xiàn)、模型探索、數(shù)據(jù)探索、數(shù)據(jù)訂閱等數(shù)據(jù)服務(wù),面向?qū)I(yè)人員提供挖掘分析、專(zhuān)家建模等智能數(shù)據(jù)服務(wù).模型管理主要是對(duì)實(shí)體、關(guān)系進(jìn)行編輯和處理;智能發(fā)現(xiàn)是根據(jù)日志等元信息,將配置到系統(tǒng)的數(shù)據(jù)源反向推導(dǎo)出物理模型關(guān)系,將多個(gè)異構(gòu)物理模型歸一到同一實(shí)體后自動(dòng)生成語(yǔ)義層的業(yè)務(wù)視圖;模型探索是支持關(guān)鍵詞搜索實(shí)體、關(guān)系等,將搜索結(jié)果拖拽到畫(huà)布探索實(shí)體之間以及關(guān)系之間的核對(duì)關(guān)系,用戶(hù)在了解業(yè)務(wù)模型的同時(shí),也可以了解到業(yè)務(wù)模型背后對(duì)應(yīng)的物理模型,以及物理數(shù)據(jù)表的生產(chǎn)血緣關(guān)系;數(shù)據(jù)探索是對(duì)業(yè)務(wù)模型視圖可以進(jìn)行知識(shí)問(wèn)答式的搜索,在路徑的任意節(jié)點(diǎn)上設(shè)置標(biāo)簽的條件,再在另外的節(jié)點(diǎn)上設(shè)定對(duì)應(yīng)標(biāo)簽的答案,使得用戶(hù)對(duì)數(shù)據(jù)的業(yè)務(wù)關(guān)系充分地了解;數(shù)據(jù)訂閱滿(mǎn)足外部其他平臺(tái)對(duì)本平臺(tái)各類(lèi)數(shù)據(jù)的需求,通過(guò)對(duì)不同用戶(hù)下放的不同權(quán)限,再結(jié)合數(shù)據(jù)資源目錄服務(wù)的開(kāi)放數(shù)據(jù)內(nèi)容,為外部用戶(hù)提供數(shù)據(jù)訂閱/退訂流程,并通過(guò)資源總線(xiàn)服務(wù)完成最終的數(shù)據(jù)投遞. 領(lǐng)域?qū)<覀?人類(lèi)智能,HI)可以根據(jù)知識(shí)圖譜中的實(shí)體、關(guān)系、屬性等核心數(shù)據(jù)進(jìn)行建模,并進(jìn)行高層次的數(shù)據(jù)挖掘分析和加工,可以同知識(shí)圖譜、數(shù)據(jù)分析與加工模塊(AI)和組織智能(OI)相互交互和協(xié)同,實(shí)現(xiàn)HAO智能的大智慧問(wèn)題求解[86].吳信東等人于2008 年所編著的《數(shù)據(jù)挖掘十大算法》一書(shū)詳細(xì)地介紹了用途最廣、影響最大的10 種數(shù)據(jù)挖掘算法[90],并于2018 年,吳信東等人基于分布式計(jì)算對(duì)大數(shù)據(jù)分析的兩種算法——MapReduce 與Spark 從背景、原理以及應(yīng)用場(chǎng)景進(jìn)行了具體的分析與比較[91].HACE 定理的大數(shù)據(jù)處理框架中(如圖1 所示),第1 層架構(gòu)解決了流數(shù)據(jù)存儲(chǔ)的計(jì)算問(wèn)題,第2 層架構(gòu)考慮了隱私保護(hù)和模式發(fā)現(xiàn),第3 層架構(gòu)主要描述復(fù)雜的數(shù)據(jù)挖掘算法,HACE 定理在數(shù)據(jù)服務(wù)模塊如關(guān)聯(lián)分析與計(jì)算以及數(shù)據(jù)挖掘得到了廣泛應(yīng)用[8];自然語(yǔ)言處理的應(yīng)用更加廣泛,例如我們平時(shí)使用的私人助手Siri 以及出行助手等,都能給人們帶來(lái)更加便利的服務(wù).HAO 治理模型涵蓋了數(shù)據(jù)治理的全過(guò)程,從數(shù)據(jù)的采集、交換、清洗、規(guī)范、集成、應(yīng)用等融為一體,完成了智能數(shù)據(jù)治理. HAO 智能的核心是在大數(shù)據(jù)問(wèn)題環(huán)境下,用人機(jī)協(xié)同來(lái)實(shí)現(xiàn)組織智能(HI+AI+OI),所以數(shù)據(jù)治理功能的模塊化和交互的靈活性是上面提到的HAO 治理模型6 個(gè)設(shè)計(jì)準(zhǔn)則中的兩個(gè). 下面以公安數(shù)據(jù)治理為例,具體介紹HAO 治理模型的大數(shù)據(jù)治理過(guò)程. 圖13 描述的是公安數(shù)據(jù)治理框架,平臺(tái)架構(gòu)主要包括數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算、數(shù)據(jù)管理、數(shù)據(jù)應(yīng)用這4 個(gè)部分. (1)數(shù)據(jù)存儲(chǔ):基于分布式的大數(shù)據(jù)存儲(chǔ)平臺(tái),具有很強(qiáng)的存儲(chǔ)能力和擴(kuò)張能力; (2)數(shù)據(jù)計(jì)算:這是數(shù)據(jù)治理的最主要部分,包括數(shù)據(jù)的探查、提取、清洗、轉(zhuǎn)換、集成等.這些計(jì)算任務(wù)都是基于大數(shù)據(jù)分布式的計(jì)算能力,應(yīng)用MapReduce 批處理和spark streaming 流式處理技術(shù),通過(guò)scheduler 任務(wù)調(diào)度器,實(shí)現(xiàn)對(duì)調(diào)度任務(wù)的執(zhí)行、管理與監(jiān)控. ? 數(shù)據(jù)探查:通過(guò)對(duì)數(shù)據(jù)量、數(shù)據(jù)質(zhì)量、數(shù)據(jù)特征等指標(biāo)的分析來(lái)評(píng)估后續(xù)數(shù)據(jù)治理任務(wù)的工作量; ? 數(shù)據(jù)提取:抽取分布在各個(gè)系統(tǒng)中的各種類(lèi)型的源數(shù)據(jù),提取元數(shù)據(jù),基于深度學(xué)習(xí)的語(yǔ)音識(shí)別、圖像識(shí)別、視頻處理技術(shù),實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化的數(shù)據(jù)提取; ? 數(shù)據(jù)清洗:對(duì)缺失數(shù)據(jù)的處理,過(guò)濾掉重復(fù)相似的記錄,清除值錯(cuò)誤的數(shù)據(jù); ? 數(shù)據(jù)轉(zhuǎn)換:將不符合規(guī)范的數(shù)據(jù),按照規(guī)范化的處理規(guī)則,轉(zhuǎn)化成符合標(biāo)準(zhǔn)的數(shù)據(jù),如編碼統(tǒng)一、格式統(tǒng)一、元數(shù)據(jù)統(tǒng)一等; ? 數(shù)據(jù)集成:將轉(zhuǎn)化后的規(guī)范化數(shù)據(jù)進(jìn)行整合,按照一定方式重新組織,如數(shù)據(jù)屬性的融合、關(guān)系融合、數(shù)據(jù)的主題化、標(biāo)簽化等; (3)數(shù)據(jù)管理:對(duì)集成后的數(shù)據(jù)統(tǒng)一維護(hù)與管理,包括對(duì)數(shù)據(jù)質(zhì)量的檢測(cè)、數(shù)據(jù)安全控制、數(shù)據(jù)血緣的監(jiān)控、元素管理等. ? 數(shù)據(jù)質(zhì)量檢測(cè):從各個(gè)維度(唯一性、準(zhǔn)確性、完整性、合法性等)檢測(cè),并形成數(shù)據(jù)質(zhì)量報(bào)告; ? 數(shù)據(jù)安全控制:對(duì)數(shù)據(jù)的使用與訪(fǎng)問(wèn),進(jìn)行權(quán)限的管理與控制; ? 數(shù)據(jù)血緣監(jiān)控:追蹤數(shù)據(jù)的來(lái)源與去向的整個(gè)過(guò)程; ? 元數(shù)據(jù)管理:數(shù)據(jù)知識(shí)庫(kù)的建立與維護(hù),包括對(duì)代碼庫(kù)、標(biāo)準(zhǔn)庫(kù)、標(biāo)簽庫(kù)、模型庫(kù)、圖譜庫(kù)等的管理; (4)數(shù)據(jù)應(yīng)用:這是數(shù)據(jù)價(jià)值最直接的體現(xiàn),基于自然語(yǔ)言處理、數(shù)據(jù)挖掘算法模型等技術(shù)對(duì)數(shù)據(jù)分析挖掘,包括統(tǒng)計(jì)分析、比對(duì)碰撞、關(guān)聯(lián)分析、數(shù)據(jù)挖掘等,將分析結(jié)果提供給上層應(yīng)用,如構(gòu)建專(zhuān)題庫(kù)、主題庫(kù)、構(gòu)建知識(shí)圖譜等. 數(shù)據(jù)處理流程是對(duì)源數(shù)據(jù)到目標(biāo)數(shù)據(jù)整個(gè)處理過(guò)程的監(jiān)管,并描述了數(shù)據(jù)采集、數(shù)據(jù)處理及數(shù)據(jù)展現(xiàn)這3個(gè)方面所用到的技術(shù)架構(gòu)和處理邏輯.本節(jié)主要介紹了處理流程中數(shù)據(jù)接入、數(shù)據(jù)預(yù)處理、數(shù)據(jù)規(guī)范化、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)簽化、數(shù)據(jù)主題化、構(gòu)建知識(shí)圖譜以及數(shù)據(jù)分析與挖掘8 個(gè)方面的內(nèi)容. (1)數(shù)據(jù)接入 公安系統(tǒng)中的源數(shù)據(jù),包括結(jié)構(gòu)化文本、關(guān)系型數(shù)據(jù)庫(kù)、非結(jié)構(gòu)化的文本及視頻、hadoop 平臺(tái)中的數(shù)據(jù)以及流式數(shù)據(jù),經(jīng)過(guò)批處理引擎或流式計(jì)算引擎,接入到統(tǒng)一的數(shù)據(jù)源系統(tǒng)中,形成最初的數(shù)據(jù)集市. (2)數(shù)據(jù)預(yù)處理 在對(duì)數(shù)據(jù)集市中的數(shù)據(jù)做處理前,根據(jù)數(shù)據(jù)規(guī)則庫(kù)定義的規(guī)則,首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)質(zhì)量的評(píng)估、空值率的計(jì)算、數(shù)據(jù)特征分析、數(shù)據(jù)格式的分析等;然后判斷數(shù)據(jù)是否有治理的價(jià)值;然后提取需要治理的數(shù)據(jù)、提取元數(shù)據(jù),經(jīng)過(guò)統(tǒng)一的編碼轉(zhuǎn)換處理后,過(guò)濾掉臟、亂、差的數(shù)據(jù);然后進(jìn)行數(shù)據(jù)去重等清洗處理. (3)數(shù)據(jù)規(guī)范化 數(shù)據(jù)規(guī)范是將預(yù)處理后的數(shù)據(jù),根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)知識(shí)庫(kù)的標(biāo)準(zhǔn),將數(shù)據(jù)統(tǒng)一處理成符合行業(yè)標(biāo)準(zhǔn)、省部級(jí)標(biāo)準(zhǔn)及國(guó)標(biāo)等標(biāo)準(zhǔn)的規(guī)范化數(shù)據(jù),提高數(shù)據(jù)的可移植性、共享性及復(fù)用性.數(shù)據(jù)規(guī)范過(guò)程(標(biāo)準(zhǔn)化過(guò)程)中所依賴(lài)的數(shù)據(jù)規(guī)范來(lái)源于權(quán)威性的行業(yè)規(guī)范、國(guó)標(biāo)、部標(biāo)等,對(duì)數(shù)據(jù)、名稱(chēng)、字段及元數(shù)據(jù)等進(jìn)行標(biāo)準(zhǔn)化. (4)數(shù)據(jù)清洗 數(shù)據(jù)清洗是對(duì)不完整的數(shù)據(jù)、不一致的數(shù)據(jù)以及異常的數(shù)據(jù)進(jìn)行清洗,并過(guò)濾掉重復(fù)相似的記錄. (5)數(shù)據(jù)標(biāo)簽化 數(shù)據(jù)標(biāo)簽根據(jù)數(shù)據(jù)標(biāo)簽庫(kù)可以分為技術(shù)標(biāo)簽和業(yè)務(wù)標(biāo)簽:技術(shù)標(biāo)簽是基于表、字段的技術(shù)元數(shù)據(jù),例如空間占用、條目數(shù)、最新更新時(shí)間、更新頻率、訪(fǎng)問(wèn)頻率、數(shù)據(jù)格式、字段數(shù)據(jù)類(lèi)型、是否壓縮等,通過(guò)規(guī)則引擎進(jìn)行規(guī)則計(jì)算,為庫(kù)、表、字段等打上相應(yīng)的技術(shù)標(biāo)簽,例如最近一天更新的數(shù)據(jù)、大數(shù)據(jù)集、小數(shù)據(jù)集、頻繁更新數(shù)據(jù)集、壓縮文件、圖片、視頻等;業(yè)務(wù)標(biāo)簽基于庫(kù)、表、字段的業(yè)務(wù)定義、描述,值域的具體內(nèi)容,對(duì)于數(shù)據(jù)進(jìn)行業(yè)務(wù)標(biāo)簽生成,例如對(duì)于庫(kù)表來(lái)說(shuō),數(shù)據(jù)來(lái)源/數(shù)據(jù)種類(lèi)(人口、教育、醫(yī)療等)標(biāo)簽、數(shù)據(jù)內(nèi)容標(biāo)簽(姓名、組織、地址、電話(huà)、商品等). (6)數(shù)據(jù)主題化 數(shù)據(jù)按照一定的主題進(jìn)行關(guān)聯(lián)來(lái)構(gòu)造一個(gè)模型.公安數(shù)據(jù)治理分別以人、物、時(shí)空、組織、虛擬標(biāo)識(shí)、案件等作為主題,分別建立模型,如圖14 所示. · 以人作為主題時(shí),提取自然人為主體進(jìn)行描述的數(shù)據(jù)資源,并按照公安部的數(shù)據(jù)分類(lèi)進(jìn)行主題模型的構(gòu)建; · 以物作為主題構(gòu)建模型時(shí),提取特定的物為主體進(jìn)行描述的數(shù)據(jù)資源,針對(duì)不同情況涵蓋不同的內(nèi)容,包括物品、物證、微小痕跡、尸體等; · 以時(shí)空作為主題時(shí),提取以時(shí)間、地點(diǎn)為主體進(jìn)行描述的數(shù)據(jù)資源來(lái)構(gòu)建時(shí)空主體模型; · 以組織作為主題時(shí),提取法人、單位、特定人群組織結(jié)構(gòu)(如:戶(hù))為主體進(jìn)行描述的數(shù)據(jù)資源來(lái)構(gòu)建組織類(lèi)主題模型; · 以虛擬標(biāo)識(shí)作為主題時(shí),以一個(gè)物品的標(biāo)簽或者分類(lèi)信息作為主題進(jìn)行構(gòu)建模型; · 以案件作為主題構(gòu)建模型時(shí),根據(jù)執(zhí)行主體的不同,案件又分為偵查調(diào)查行為和違法犯罪行為:偵查調(diào)查行為是指公安機(jī)關(guān)行使打擊犯罪,維護(hù)社會(huì)治安進(jìn)行偵查破案的行為;而違法犯罪行為是指犯罪嫌疑人進(jìn)行違法犯罪的行為. Fig.14 Public security governance theme model diagram圖14 公安治理主題模型圖 (7)知識(shí)圖譜構(gòu)建 知識(shí)圖譜按照目標(biāo)數(shù)據(jù)可以分為實(shí)體、事件、關(guān)系這3 種類(lèi)型來(lái)建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,將數(shù)據(jù)抽象化的內(nèi)在聯(lián)系,以可視化的形式有效表現(xiàn)出來(lái).圖15 是以人為中心實(shí)體構(gòu)建的一個(gè)簡(jiǎn)單的知識(shí)圖譜.以人為中心實(shí)體,建立人與電話(huà)號(hào)碼所屬關(guān)系、人與護(hù)照所屬關(guān)系及人與人的關(guān)系,同時(shí)建立了人與航班的出行事件、人與旅館的住宿事件. Fig.15 Knowledge gragh of character tracking圖15 人物追蹤知識(shí)圖譜 (8)數(shù)據(jù)分析與挖掘 對(duì)治理后的標(biāo)準(zhǔn)化數(shù)據(jù),采用一定的數(shù)據(jù)挖掘算法模型,對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析、關(guān)聯(lián)分析、比對(duì)碰撞、數(shù)據(jù)挖掘等,為上層應(yīng)用提供數(shù)據(jù)服務(wù).公安機(jī)關(guān)作為偵查一線(xiàn)的最實(shí)用的技術(shù)是數(shù)據(jù)比對(duì)碰撞分析,數(shù)據(jù)比對(duì)碰撞分析是指運(yùn)用計(jì)算機(jī)對(duì)數(shù)據(jù)進(jìn)行分析,將兩組以上同類(lèi)型的數(shù)據(jù)集進(jìn)行梳理,通過(guò)關(guān)聯(lián)查詢(xún),篩選數(shù)據(jù)集取交集的一種方法. 身處于大數(shù)據(jù)時(shí)代,數(shù)據(jù)已經(jīng)成為一個(gè)組織最寶貴的財(cái)富之一,組織如果想要利用龐大且寶貴的數(shù)據(jù)資產(chǎn)來(lái)挖掘其中的商業(yè)價(jià)值,在數(shù)據(jù)挖掘之前就需要使用數(shù)據(jù)治理技術(shù),提高數(shù)據(jù)質(zhì)量,減少實(shí)際挖掘所需要的時(shí)間.通過(guò)第8 節(jié)對(duì)公安數(shù)據(jù)治理流程的具體介紹我們會(huì)發(fā)現(xiàn):數(shù)據(jù)治理技術(shù)融入到數(shù)據(jù)治理的每一個(gè)階段中,而不是孤立使用的,每一個(gè)階段都可能用到多個(gè)數(shù)據(jù)治理技術(shù). 數(shù)據(jù)治理的核心目標(biāo)是在降低風(fēng)險(xiǎn)的同時(shí),為企業(yè)增加價(jià)值.合理的數(shù)據(jù)治理,能夠建立規(guī)范的數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn),消除數(shù)據(jù)的不一致性,提高數(shù)據(jù)質(zhì)量,推動(dòng)數(shù)據(jù)廣泛共享,充分發(fā)揮數(shù)據(jù)對(duì)政府及企業(yè)的業(yè)務(wù)、管理以及戰(zhàn)略決策的重要作用.大數(shù)據(jù)治理對(duì)于確保大數(shù)據(jù)的優(yōu)化、共享和安全是至關(guān)重要的,有效的大數(shù)據(jù)治理計(jì)劃可通過(guò)改進(jìn)決策、縮減成本、降低風(fēng)險(xiǎn)和提高安全合規(guī)等方式,將價(jià)值回饋于業(yè)務(wù),并最終體現(xiàn)為增加收入和利潤(rùn)[6].根據(jù)上述幾節(jié)的描述,數(shù)據(jù)治理包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全合規(guī)、數(shù)據(jù)模型設(shè)計(jì)以及數(shù)據(jù)的應(yīng)用這5 個(gè)基本功能. 一個(gè)組織數(shù)據(jù)治理的好壞是否達(dá)到自己預(yù)期的目標(biāo),可以通過(guò)以下幾個(gè)方面進(jìn)行評(píng)價(jià). · 從數(shù)據(jù)的質(zhì)量方面考慮; a)數(shù)據(jù)的準(zhǔn)確性:經(jīng)過(guò)數(shù)據(jù)治理后的數(shù)據(jù)應(yīng)該是準(zhǔn)確的,而不能在治理過(guò)程中給正確的數(shù)據(jù)帶去噪音; b)數(shù)據(jù)的完整性和一致性:數(shù)據(jù)治理之后,數(shù)據(jù)的完整程度以及數(shù)據(jù)的一致性; c)數(shù)據(jù)的安全性:好的數(shù)據(jù)治理要充分地保護(hù)敏感數(shù)據(jù); · 從數(shù)據(jù)治理的效率進(jìn)行考慮:使用每秒處理多少條數(shù)據(jù)進(jìn)行直觀對(duì)比,這直接影響到數(shù)據(jù)的及時(shí)性; · 數(shù)據(jù)治理模型的成熟度:數(shù)據(jù)治理過(guò)程中,選擇的數(shù)據(jù)模型的成熟度直接影響數(shù)據(jù)治理的結(jié)果; · 從是否能追根溯源,找到數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生的原因; · 人工干預(yù)程度:發(fā)現(xiàn)質(zhì)量問(wèn)題以后,是系統(tǒng)自動(dòng)處理,還是需要人工干預(yù)處理.然而,現(xiàn)在大數(shù)據(jù)治理也面臨一系列的問(wèn)題和挑戰(zhàn). · 隨著數(shù)據(jù)產(chǎn)生方式的不斷擴(kuò)展,大數(shù)據(jù)不僅量大、類(lèi)型多樣,而且數(shù)據(jù)內(nèi)容的維度和知識(shí)范疇的粒度也以多樣性展現(xiàn),體現(xiàn)的是數(shù)據(jù)與知識(shí)之間的立體關(guān)系[92],所以大數(shù)據(jù)治理技術(shù)的復(fù)雜性也將加大; · 數(shù)據(jù)量的龐大和增長(zhǎng)速度之快,就要求數(shù)據(jù)清洗活動(dòng)要具有可伸縮性和及時(shí)性,雖然已經(jīng)提出了多種錯(cuò)誤檢測(cè)的方法,但是仍然有很多錯(cuò)誤不能被檢測(cè)到.要設(shè)計(jì)更具表現(xiàn)力的完整性約束語(yǔ)言,使得數(shù)據(jù)所有者可以輕松地指定數(shù)據(jù)的質(zhì)量規(guī)則,并有效地讓人類(lèi)專(zhuān)家參與錯(cuò)誤檢測(cè)[45]; · 數(shù)據(jù)治理技術(shù)面臨著更加嚴(yán)峻的隱私安全的挑戰(zhàn).多源數(shù)據(jù)的集成技術(shù)使得數(shù)據(jù)之間的關(guān)聯(lián)性無(wú)形地被公開(kāi)化,很可能會(huì)暴露用戶(hù)的個(gè)人隱私.所以,需要研究主動(dòng)降低隱私泄露風(fēng)險(xiǎn)的策略和風(fēng)險(xiǎn)評(píng)估模型,用來(lái)有效地預(yù)測(cè)隱私泄露的風(fēng)險(xiǎn)程度并提供風(fēng)險(xiǎn)預(yù)警[92].Ni 等人于2010 年提供了一種支持隱私感知訪(fǎng)問(wèn)控制機(jī)制的綜合框架,即,一種適用于對(duì)包含個(gè)人身份信息的數(shù)據(jù)實(shí)施訪(fǎng)問(wèn)控制的機(jī)制[93]; · 由于數(shù)據(jù)治理是一個(gè)長(zhǎng)期的過(guò)程,短期投入的人力、技術(shù)不一定能夠得到實(shí)質(zhì)性的回報(bào),所以數(shù)據(jù)治理面臨著更大的投資回報(bào)風(fēng)險(xiǎn). 本文主要介紹了數(shù)據(jù)治理技術(shù),數(shù)據(jù)治理方法不僅需要數(shù)據(jù)治理技術(shù),還需要企業(yè)的制度規(guī)范以及生態(tài)運(yùn)營(yíng)來(lái)配合加強(qiáng)數(shù)據(jù)治理工作.在制度保障方面,一個(gè)組織應(yīng)當(dāng)定義模型設(shè)計(jì)規(guī)范、數(shù)據(jù)開(kāi)發(fā)規(guī)范、數(shù)據(jù)變更規(guī)范、數(shù)據(jù)質(zhì)量管理規(guī)范、數(shù)據(jù)安全規(guī)范、元數(shù)據(jù)規(guī)范等;在組織保障方面,組織應(yīng)當(dāng)設(shè)立數(shù)據(jù)委員會(huì)包括決策小組、安全小組、質(zhì)量小組以及穩(wěn)定性小組等來(lái)執(zhí)行管理職責(zé),設(shè)立數(shù)據(jù)資產(chǎn)部門(mén)包括部門(mén)數(shù)據(jù)負(fù)責(zé)人和數(shù)據(jù)生產(chǎn)團(tuán)隊(duì)來(lái)執(zhí)行建設(shè)職責(zé).一個(gè)組織應(yīng)該對(duì)數(shù)據(jù)治理進(jìn)行長(zhǎng)期的規(guī)劃,建立有效的數(shù)據(jù)治理體系,挖掘數(shù)據(jù)資產(chǎn)的潛力,從而發(fā)揮數(shù)據(jù)資產(chǎn)在企業(yè)中的核心價(jià)值.3 數(shù)據(jù)清洗
3.1 數(shù)據(jù)清洗背景
3.2 數(shù)據(jù)清洗基本方法
4 數(shù)據(jù)交換
4.1 數(shù)據(jù)交換的基本概念
4.2 數(shù)據(jù)交換的實(shí)現(xiàn)模式
5 數(shù)據(jù)集成
5.1 數(shù)據(jù)集成的基本概念
5.2 數(shù)據(jù)集成方法
6 數(shù)據(jù)治理框架
6.1 數(shù)據(jù)治理成熟度模型
6.2 數(shù)據(jù)治理框架
7 HAO 治理模型
7.1 數(shù)據(jù)接入模塊
7.2 數(shù)據(jù)治理模塊
7.3 數(shù)據(jù)服務(wù)模塊
8 數(shù)據(jù)治理具體應(yīng)用
8.1 公安數(shù)據(jù)治理架構(gòu)
8.2 數(shù)據(jù)處理流程
9 總結(jié)與展望