虛擬化模型驅(qū)動(dòng)的分布式數(shù)據(jù)湖構(gòu)建方法研究*

2019-09-14 07:13:00譚景信劉玉龍李慧娟

計(jì)算機(jī)與生活 2019年9期

譚景信，劉玉龍，李慧娟

華北計(jì)算技術(shù)研究所，北京 100083

1 引言

我國(guó)非公有制經(jīng)濟(jì)主體已超過9 000 萬，貢獻(xiàn)了全國(guó)稅收的50%，GDP的60%，社會(huì)固定資產(chǎn)投資的60%，技術(shù)創(chuàng)新的70%，就業(yè)崗位的80%和90%以上的新增就業(yè)，非公有制經(jīng)濟(jì)已經(jīng)成為經(jīng)濟(jì)社會(huì)發(fā)展的重要基礎(chǔ)。工商聯(lián)是黨和政府聯(lián)系非公有制經(jīng)濟(jì)的“橋梁紐帶”，服務(wù)于政府與非公有制經(jīng)濟(jì)群體的雙向服務(wù)需求，這些需求的特點(diǎn)就是體量龐大、不斷變化并具有極強(qiáng)的不確定性。做好工商聯(lián)工作要求兼具廣度和深度的數(shù)據(jù)支撐。廣度是指信息收集工作要盡量全面地覆蓋9 000 多萬的非公有制經(jīng)濟(jì)實(shí)體，真正做到“廣泛聯(lián)系、直接服務(wù)、宣傳到位”；深度是指能夠及時(shí)、高效、深入地了解非公有制經(jīng)濟(jì)實(shí)體的發(fā)展?fàn)顩r和迫切需求，評(píng)估出非公有制經(jīng)濟(jì)運(yùn)行發(fā)展情況。

非公有制經(jīng)濟(jì)群體數(shù)據(jù)是持續(xù)產(chǎn)生的，這些數(shù)據(jù)具有對(duì)象分布廣、類型多、碎片化、不確定性強(qiáng)、異構(gòu)等特點(diǎn)，匯聚起來呈現(xiàn)海量增長(zhǎng)特性。如何有效存儲(chǔ)、治理和利用這些數(shù)據(jù)，實(shí)現(xiàn)對(duì)非公有制經(jīng)濟(jì)發(fā)展態(tài)勢(shì)的分析、挖掘和預(yù)測(cè)，從而支撐工商聯(lián)為黨和政府的輔助決策支持是必須要解決的問題。

面向海量數(shù)據(jù)的匯聚、治理、應(yīng)用，業(yè)界有眾多研究成果和實(shí)踐案例。主要包括傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、新涌現(xiàn)的數(shù)據(jù)池與數(shù)據(jù)湖技術(shù)等。但這些技術(shù)都不能全面滿足所提需求。如：文獻(xiàn)[1]采用了大數(shù)據(jù)平臺(tái)+MPP 型數(shù)據(jù)庫(kù)（GBase 8a MPPCluster）混合架構(gòu)雖然解決了海量數(shù)據(jù)存儲(chǔ)問題，但因其為關(guān)系型數(shù)據(jù)庫(kù)，需要規(guī)范結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)模式與強(qiáng)數(shù)據(jù)依賴關(guān)系。文獻(xiàn)[2]采用了業(yè)務(wù)數(shù)據(jù)Mysql(Oracle)+ETL+緩存數(shù)據(jù)庫(kù)（Mysql）+數(shù)據(jù)倉(cāng)庫(kù)（Hive）架構(gòu)，雖然解決了復(fù)雜結(jié)構(gòu)數(shù)據(jù)聚集問題，但所提非公有制經(jīng)濟(jì)實(shí)體數(shù)據(jù)的分布廣、碎片化、質(zhì)量參差不齊等問題仍不能很好得到解決。同時(shí)，該方案將全國(guó)數(shù)據(jù)通過ETL（extract-transform-load）進(jìn)入集中式數(shù)據(jù)庫(kù)本地化存儲(chǔ)，數(shù)據(jù)搬運(yùn)成本極高。另外該解決方案也不能很好處理多模態(tài)非結(jié)構(gòu)化文件的存儲(chǔ)問題。文獻(xiàn)[3]采用了近期較熱點(diǎn)的數(shù)據(jù)湖技術(shù)，使用了總部/省兩級(jí)部署形式和1+N模式，總部存儲(chǔ)全量的原生態(tài)數(shù)據(jù)，并實(shí)現(xiàn)跨域協(xié)作能力，但隨著時(shí)間的推移，總部數(shù)據(jù)湖數(shù)據(jù)會(huì)因?yàn)槿狈Α磅r活化治理”而可能成為“數(shù)據(jù)沼澤”，該方法也無法解決部分?jǐn)?shù)據(jù)源頭不愿提供原始數(shù)據(jù)的問題。

本文在充分分析工商聯(lián)業(yè)務(wù)特性的基礎(chǔ)上，提出基于虛擬化模型驅(qū)動(dòng)的分布式數(shù)據(jù)湖構(gòu)建方法，面向9 000萬非公有制經(jīng)濟(jì)實(shí)體的信息資源，定義了包括統(tǒng)一的數(shù)據(jù)模型、微分析模型和整套數(shù)據(jù)規(guī)范的虛擬化模型，結(jié)合數(shù)據(jù)邊緣計(jì)算技術(shù)來實(shí)現(xiàn)非公有制經(jīng)濟(jì)實(shí)體內(nèi)部數(shù)據(jù)的自治理（生成融合態(tài)數(shù)據(jù)）以及高時(shí)效性跨區(qū)域非公有制經(jīng)濟(jì)數(shù)據(jù)的協(xié)作與深層挖掘。通過對(duì)比發(fā)現(xiàn)，使用所提方法構(gòu)建的分布式數(shù)據(jù)湖具有邏輯集中而物理分散的特點(diǎn)，通過虛擬化模型構(gòu)建邏輯上的數(shù)據(jù)湖，實(shí)行“有目的”的數(shù)據(jù)搬運(yùn)，既解決了部分非公有制經(jīng)濟(jì)實(shí)體不愿上傳原始數(shù)據(jù)情況下工商聯(lián)分析業(yè)務(wù)對(duì)大數(shù)據(jù)的需求，也很好滿足了實(shí)時(shí)處理業(yè)務(wù)對(duì)鮮活數(shù)據(jù)的需要，同時(shí)減少了數(shù)據(jù)搬運(yùn)成本，提升了經(jīng)濟(jì)性。

2 主流的數(shù)據(jù)存儲(chǔ)方法分析

2.1 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及其局限性分析

傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)實(shí)現(xiàn)架構(gòu)多采用OLTP（on-line transaction processing）+ODS（operational data store）+ETL+OLAP（online analytical processing）+BI（business intelligence）。參見圖1 DW/BI（data warehouse/business intelligence）系統(tǒng)模型圖。

Fig.1 DW/BI system model diagram圖1 DW/BI系統(tǒng)模型圖

數(shù)據(jù)倉(cāng)庫(kù)可以很好地完成面向主題的、集成的和相對(duì)穩(wěn)定的數(shù)據(jù)集合處理，能支持經(jīng)營(yíng)管理中的決策制定過程[4]。但是數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)在處理海量異構(gòu)數(shù)據(jù)和時(shí)效性數(shù)據(jù)需求時(shí)缺陷明顯。主要表現(xiàn)在：

（1）傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)優(yōu)化的數(shù)據(jù)庫(kù)，用于分析來自事務(wù)系統(tǒng)和業(yè)務(wù)線應(yīng)用程序的結(jié)構(gòu)化數(shù)據(jù)，數(shù)據(jù)存儲(chǔ)為面向既定主題的，無法滿足所提工商聯(lián)多源、多態(tài)、無預(yù)置主題的非公有制經(jīng)濟(jì)數(shù)據(jù)存儲(chǔ)需求[5]。

（2）數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)介質(zhì)多為中高性能集中式集群數(shù)據(jù)庫(kù)服務(wù)器，面對(duì)海量數(shù)據(jù)的快速檢索，需要高額的服務(wù)器、存儲(chǔ)的擴(kuò)展和維護(hù)成本。

（3）數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的讀取需依據(jù)嚴(yán)格的數(shù)據(jù)維度關(guān)聯(lián)規(guī)則，無法適用于工商聯(lián)多模態(tài)特性非公有制經(jīng)濟(jì)數(shù)據(jù)資源的數(shù)據(jù)分析[5]。

（4）基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析運(yùn)算多為批處理報(bào)告、BI形式，無法適應(yīng)工商聯(lián)在海量非公有制經(jīng)濟(jì)數(shù)據(jù)的機(jī)器學(xué)習(xí)、預(yù)測(cè)分析、數(shù)據(jù)發(fā)現(xiàn)方面發(fā)展分析需求[6-9]。

2.2 集中式數(shù)據(jù)湖技術(shù)及局限性分析

為解決數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在海量數(shù)據(jù)存儲(chǔ)和運(yùn)算方面的不足，國(guó)外近兩年提出了數(shù)據(jù)湖（data lake）技術(shù)。數(shù)據(jù)湖技術(shù)目前正處于高速發(fā)展中，其優(yōu)勢(shì)是可較好支持多模態(tài)數(shù)據(jù)和異構(gòu)數(shù)據(jù)的存儲(chǔ)和計(jì)算，關(guān)系型、非關(guān)系型數(shù)據(jù)以及文本、圖片、音頻、視頻等原生態(tài)數(shù)據(jù)均被集中存儲(chǔ)于基于HDFS（Hadoop distributed file system）的服務(wù)器集群平臺(tái)之上，這些數(shù)據(jù)在使用前并不進(jìn)行處理，而是在使用時(shí)才去計(jì)算。這種架構(gòu)具有一定的先進(jìn)性，但隨著數(shù)據(jù)的不斷匯聚，集中式數(shù)據(jù)湖會(huì)產(chǎn)生如下問題[10-12]：

（1）由于集中數(shù)據(jù)湖匯聚的是數(shù)據(jù)源產(chǎn)生的原始數(shù)據(jù)，這些數(shù)據(jù)的狀態(tài)和質(zhì)量不可預(yù)見，隨著數(shù)據(jù)量的不斷增長(zhǎng)，數(shù)據(jù)治理難度會(huì)不斷加大，數(shù)據(jù)湖會(huì)因?yàn)槿狈τ行е卫矶兂伞皵?shù)據(jù)沼澤”。

（2）全量的原始數(shù)據(jù)通過ETL 工具持續(xù)搬運(yùn)至數(shù)據(jù)湖中存儲(chǔ)，一是會(huì)持續(xù)占用大量帶寬資源，二是規(guī)模數(shù)據(jù)的搬運(yùn)和治理會(huì)產(chǎn)生延遲，最多能保證T+1 的數(shù)據(jù)時(shí)效性，會(huì)大幅降低對(duì)外發(fā)布數(shù)據(jù)的有效性。

（3）集中式數(shù)據(jù)湖存儲(chǔ)沿時(shí)間軸持續(xù)采集的原始數(shù)據(jù)而不太關(guān)心這些數(shù)據(jù)的可用性，存儲(chǔ)成本和管理成本會(huì)不斷攀升，直至難以承受。

3 虛擬化模型驅(qū)動(dòng)的分布式數(shù)據(jù)湖構(gòu)建方法

3.1 總體架構(gòu)思路

針對(duì)工商聯(lián)業(yè)務(wù)服務(wù)對(duì)象分布廣、類型多、不確定性強(qiáng)等特點(diǎn)帶來的分散、碎片化數(shù)據(jù)收集需求，通過結(jié)合數(shù)據(jù)倉(cāng)庫(kù)和集中式數(shù)據(jù)湖技術(shù)的優(yōu)勢(shì)，并改進(jìn)所存在的不足，采用虛擬化模型驅(qū)動(dòng)技術(shù)、邊緣計(jì)算技術(shù)和數(shù)據(jù)路由技術(shù)，構(gòu)建輻射型的、去中心化和去ETL化的分布式數(shù)據(jù)湖。（1）可彌補(bǔ)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)需要有既定主題、強(qiáng)結(jié)構(gòu)化存儲(chǔ)的不足，可以存儲(chǔ)工商聯(lián)無主題、多模態(tài)原始非公有制經(jīng)濟(jì)數(shù)據(jù)；（2）在中央數(shù)據(jù)庫(kù)強(qiáng)化全局?jǐn)?shù)據(jù)索引網(wǎng)絡(luò)，弱化數(shù)據(jù)物理存儲(chǔ)，構(gòu)建以邏輯模型驅(qū)動(dòng)的一體化分布式數(shù)據(jù)湖，解決集中式數(shù)據(jù)湖存在的“數(shù)據(jù)沼澤”危機(jī)問題；（3）采用云端服務(wù)技術(shù)接入分布在廣大非公有制經(jīng)濟(jì)實(shí)體的邊緣數(shù)據(jù)庫(kù)，消除了傳統(tǒng)ETL 數(shù)據(jù)延時(shí)問題與持續(xù)高帶寬消耗問題。

所提分布式數(shù)據(jù)湖的架構(gòu)設(shè)計(jì)為三層：非公有制經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)庫(kù)層、二級(jí)區(qū)域數(shù)據(jù)庫(kù)層和中央數(shù)據(jù)庫(kù)層，體系架構(gòu)如圖2所示。

（1）數(shù)據(jù)湖末端的非公有制經(jīng)濟(jì)實(shí)體數(shù)據(jù)庫(kù)受數(shù)據(jù)虛擬化模型驅(qū)動(dòng)來實(shí)現(xiàn)以數(shù)據(jù)自清洗和融合為目的的邊緣計(jì)算與微統(tǒng)計(jì)，一是由自身保證數(shù)據(jù)的正確性、可用性；二是按需提交融合態(tài)微統(tǒng)計(jì)數(shù)據(jù)，不必提交節(jié)點(diǎn)內(nèi)部的敏感數(shù)據(jù)。

Fig.2 Distributed data lake architecture diagram圖2 分布式數(shù)據(jù)湖體系架構(gòu)圖

（2）由于非公有制經(jīng)濟(jì)實(shí)體存在不確定強(qiáng)的特點(diǎn)，其節(jié)點(diǎn)數(shù)據(jù)庫(kù)存在數(shù)據(jù)不可持續(xù)提供等不確定因素，如果分布式體系依靠非公有制經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)庫(kù)，一旦此邊緣節(jié)點(diǎn)關(guān)閉前置數(shù)據(jù)庫(kù)，分布式數(shù)據(jù)湖將出現(xiàn)數(shù)據(jù)缺失現(xiàn)象，如果出現(xiàn)大批邊緣節(jié)點(diǎn)的關(guān)閉，分布式數(shù)據(jù)湖將失效。針對(duì)此問題，將基于新經(jīng)濟(jì)地理學(xué)思想構(gòu)建二級(jí)區(qū)域數(shù)據(jù)庫(kù)，其將在統(tǒng)一的模型驅(qū)動(dòng)下匯聚區(qū)域內(nèi)的非公有制經(jīng)濟(jì)實(shí)體的高質(zhì)、原始態(tài)或微統(tǒng)計(jì)數(shù)據(jù)，匯聚的數(shù)據(jù)可以實(shí)現(xiàn)無縫整合，支持區(qū)域經(jīng)濟(jì)的大數(shù)據(jù)分析業(yè)務(wù)。

（3）中央數(shù)據(jù)庫(kù)承載對(duì)工商聯(lián)敏捷需求的支撐，由其統(tǒng)籌全域數(shù)據(jù)索引，按需動(dòng)態(tài)關(guān)聯(lián)二級(jí)區(qū)域數(shù)據(jù)庫(kù)虛擬化模型，生成虛擬數(shù)據(jù)對(duì)象或物理數(shù)據(jù)對(duì)象，以實(shí)現(xiàn)全國(guó)范圍內(nèi)跨域深層數(shù)據(jù)的分析挖掘。

（4）二級(jí)區(qū)域數(shù)據(jù)庫(kù)也可向中央數(shù)據(jù)庫(kù)申請(qǐng)跨區(qū)域數(shù)據(jù)資源，中央數(shù)據(jù)庫(kù)將借助構(gòu)建好的虛擬化數(shù)據(jù)鏈路實(shí)現(xiàn)數(shù)據(jù)路由，構(gòu)成區(qū)域間數(shù)據(jù)路由，最終實(shí)現(xiàn)區(qū)域數(shù)據(jù)協(xié)作。

3.2 構(gòu)建虛擬化數(shù)據(jù)模型實(shí)現(xiàn)去ETL化和去中心化

所提虛擬化模型分為數(shù)據(jù)模型集、微統(tǒng)計(jì)模型集和數(shù)據(jù)管理規(guī)范集，如圖3所示。

3.2.1 數(shù)據(jù)模型集

非公有制經(jīng)濟(jì)實(shí)體受內(nèi)部應(yīng)用系統(tǒng)建設(shè)制約，從全國(guó)范圍看肯定是各自為政建設(shè)的，且水平參差不齊，不同單位的系統(tǒng)元數(shù)據(jù)定義大相徑庭，數(shù)據(jù)項(xiàng)也沒有統(tǒng)一編碼規(guī)則。如何對(duì)這些非公經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)庫(kù)的異構(gòu)數(shù)據(jù)進(jìn)行轉(zhuǎn)換融合，實(shí)現(xiàn)標(biāo)準(zhǔn)、規(guī)?；木酆蠑?shù)據(jù)是迫切需要解決的問題。

提出了數(shù)據(jù)模型驅(qū)動(dòng)數(shù)據(jù)融合概念，構(gòu)建實(shí)體模型、元數(shù)據(jù)模型、數(shù)據(jù)映射模型、數(shù)據(jù)元模型、數(shù)據(jù)質(zhì)量校核模型、數(shù)據(jù)版本模型、資源目錄模型、數(shù)據(jù)服務(wù)模型、安全訪問模型等。模型用以規(guī)范數(shù)據(jù)的采集內(nèi)容、采集格式、治理方式、檢索方式、存儲(chǔ)方式和利用方式。非公有制經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)庫(kù)數(shù)據(jù)模型應(yīng)用過程如圖4所示。

Fig.3 Data virtualization model圖3 數(shù)據(jù)虛擬化模型

Fig.4 Application process of edge database model of non-public economic entities圖4 非公有制經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)庫(kù)模型應(yīng)用過程

（1）聚焦中央數(shù)據(jù)庫(kù)關(guān)注的有價(jià)值的非公有制經(jīng)濟(jì)數(shù)據(jù)形成數(shù)據(jù)實(shí)體規(guī)范，非公有制經(jīng)濟(jì)邊緣數(shù)據(jù)庫(kù)需依據(jù)數(shù)據(jù)實(shí)體模型選取與之相關(guān)的數(shù)據(jù)內(nèi)容進(jìn)行抽象，同時(shí)依據(jù)數(shù)據(jù)映射模型對(duì)數(shù)據(jù)進(jìn)行模式匹配與映射，映射匹配邏輯如下[13-16]。

假設(shè)邊緣非公有制經(jīng)濟(jì)實(shí)體數(shù)據(jù)庫(kù)為A，分布式數(shù)據(jù)湖的二級(jí)區(qū)域數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)為B：

①在數(shù)據(jù)庫(kù)A中包含數(shù)據(jù)集合C，A={C1,C2,…,Ct}。

②在數(shù)據(jù)庫(kù)B中包含數(shù)據(jù)集合D，B={D1,D2,…,Dr}。

③A中C可以表示為列向量的集合，Ci={p1,p2,…,px}。

④A中包含t張表，每張表包含x個(gè)字段，構(gòu)成矩陣

⑤B中D可以表示為列向量的集合，Di={q1,q2,…,qy}。

⑥B中包含r張表，每張表包含y個(gè)字段，構(gòu)成矩陣

⑦數(shù)據(jù)匯聚到二級(jí)區(qū)域數(shù)據(jù)庫(kù)B后，產(chǎn)生數(shù)據(jù)記錄，針對(duì)Di有y個(gè)字段s條記錄，則每個(gè)記錄值為tiys，即

⑧由B和Di綜合來看，實(shí)際構(gòu)成了一個(gè)三維記錄數(shù)值模型，如圖5所示。

Fig.5 Three-dimensional recording numerical model圖5 三維記錄數(shù)值模型

Fig.6 Data pattern matching logic圖6 數(shù)據(jù)模式匹配邏輯

⑨在B中根據(jù)實(shí)體模型和數(shù)據(jù)映射模型會(huì)產(chǎn)生A到B的模式匹配規(guī)則：R=f(C)，R={R1,R2,…,Rm}，在R的作用下對(duì)不同Ci進(jìn)行整合生成Di，從而產(chǎn)生B。規(guī)則R主要包括：數(shù)據(jù)源定義、目標(biāo)數(shù)據(jù)庫(kù)定義、數(shù)據(jù)源表定義、數(shù)據(jù)源數(shù)據(jù)域定義、目標(biāo)數(shù)據(jù)庫(kù)表定義、目標(biāo)數(shù)據(jù)域定義、數(shù)據(jù)更新機(jī)制定義、時(shí)間戳定義、數(shù)據(jù)更新條件組合定義、提交數(shù)據(jù)范圍定義、數(shù)據(jù)受眾范圍定義等。

⑩全國(guó)各地非公有制經(jīng)濟(jì)實(shí)體數(shù)據(jù)映射到不同二級(jí)區(qū)域數(shù)據(jù)庫(kù)，將形成龐大的分布式數(shù)據(jù)湖泊B1到BL，覆蓋整個(gè)非公有制經(jīng)濟(jì)數(shù)據(jù)資源，全國(guó)數(shù)據(jù)矩陣K為：

數(shù)據(jù)模式匹配邏輯如圖6所示。

（2）廣大非公有制經(jīng)濟(jì)實(shí)體對(duì)象映射數(shù)據(jù)的格式依據(jù)數(shù)據(jù)元格式進(jìn)行規(guī)范，依據(jù)數(shù)據(jù)元模型進(jìn)行描述和轉(zhuǎn)換。這兩個(gè)模型對(duì)映射數(shù)據(jù)Di產(chǎn)生數(shù)據(jù)定義規(guī)則H=f(D)，主要內(nèi)容包括字段名稱、字段類型、字段長(zhǎng)度、字段定義描述、字段業(yè)務(wù)含義描述等。

（3）對(duì)標(biāo)準(zhǔn)化的匹配數(shù)據(jù)進(jìn)行暫存。

（4）非公有制經(jīng)濟(jì)實(shí)體根據(jù)數(shù)據(jù)質(zhì)量校核模型對(duì)數(shù)據(jù)自檢驗(yàn)和清洗，以保證數(shù)據(jù)的完整性、有效性和正確性，同時(shí)有全國(guó)編碼的數(shù)據(jù)需要依據(jù)編碼規(guī)則進(jìn)行轉(zhuǎn)換和補(bǔ)充，以保證匯聚數(shù)據(jù)之間的協(xié)作、共享和聚合分析。以上模型生成清洗規(guī)則為O=f(D)，主要包括：校核數(shù)據(jù)域、校核格式、校核算法、校核任務(wù)、校核警戒線、校核輸出日志模式；清洗對(duì)象、清洗算法、清洗任務(wù)、清洗輸出格式、異常數(shù)據(jù)日志模式；編碼轉(zhuǎn)化類型、編碼格式、編碼含義、轉(zhuǎn)換算法、轉(zhuǎn)換任務(wù)、異常數(shù)據(jù)規(guī)范等。

（5）對(duì)清洗后合規(guī)數(shù)據(jù)進(jìn)行持久化存儲(chǔ)。

（6）在二級(jí)區(qū)域數(shù)據(jù)庫(kù)和中央數(shù)據(jù)庫(kù)實(shí)現(xiàn)對(duì)匯聚數(shù)據(jù)的統(tǒng)一存儲(chǔ)、統(tǒng)一資源目錄、統(tǒng)一服務(wù)和統(tǒng)一安全訪問管理。區(qū)域數(shù)據(jù)庫(kù)在數(shù)據(jù)版本模型控制下實(shí)現(xiàn)對(duì)數(shù)據(jù)的有序存儲(chǔ)，版本模型包括數(shù)據(jù)更新記錄與數(shù)據(jù)加工記錄，可以實(shí)現(xiàn)全局?jǐn)?shù)據(jù)溯源與血緣分析；中央數(shù)據(jù)庫(kù)在數(shù)據(jù)目錄模型控制下建立全國(guó)統(tǒng)一資源目錄，實(shí)現(xiàn)全國(guó)數(shù)據(jù)一本底賬；同時(shí)，依據(jù)數(shù)據(jù)服務(wù)規(guī)范構(gòu)建數(shù)據(jù)服務(wù)平臺(tái)，在安全訪問模型控制下為全國(guó)提供有效的數(shù)據(jù)共享。

3.2.2 數(shù)據(jù)微統(tǒng)計(jì)模型集

數(shù)據(jù)微統(tǒng)計(jì)模型集規(guī)定了一組末端非公有制經(jīng)濟(jì)實(shí)體數(shù)據(jù)庫(kù)需統(tǒng)計(jì)的內(nèi)容與統(tǒng)計(jì)算法，統(tǒng)計(jì)功能將通過二級(jí)區(qū)域數(shù)據(jù)庫(kù)云平臺(tái)提供，只將形成融合態(tài)的統(tǒng)計(jì)數(shù)據(jù)保存于二級(jí)區(qū)域數(shù)據(jù)庫(kù)中。統(tǒng)計(jì)數(shù)據(jù)涉及但不限于以下方面：企業(yè)分支機(jī)構(gòu)信息、企業(yè)上市信息、企業(yè)投資信息、企業(yè)財(cái)務(wù)信息、企業(yè)納稅信息、企業(yè)資質(zhì)信息、企業(yè)創(chuàng)新信息等。

3.2.3 數(shù)據(jù)管理規(guī)范

數(shù)據(jù)管理規(guī)范為各級(jí)數(shù)據(jù)庫(kù)和節(jié)點(diǎn)在數(shù)據(jù)產(chǎn)生、清洗、整合、利用、消亡、管理整個(gè)生命周期應(yīng)遵循的數(shù)據(jù)規(guī)范。主要包括：數(shù)據(jù)存儲(chǔ)規(guī)范、數(shù)據(jù)治理規(guī)范、數(shù)據(jù)資源目錄規(guī)范、數(shù)據(jù)服務(wù)規(guī)范等。其規(guī)定了參與數(shù)據(jù)活動(dòng)的相關(guān)方的義務(wù)與責(zé)任、引用的相關(guān)數(shù)據(jù)模型、數(shù)據(jù)傳遞的流程等。從而保障整個(gè)數(shù)據(jù)體系的安全、有效、可持續(xù)運(yùn)轉(zhuǎn)。

3.2.4 去ETL化去中心化的分布式數(shù)據(jù)湖

（1）非公有制經(jīng)濟(jì)實(shí)體數(shù)據(jù)庫(kù)準(zhǔn)備數(shù)據(jù)就緒后，傳統(tǒng)方法是采用ETL 方式進(jìn)行數(shù)據(jù)上傳，但這種方式面對(duì)分布廣泛的數(shù)據(jù)源很難實(shí)施，例如：針對(duì)北京地區(qū)節(jié)點(diǎn)就需要完成4 000 余家企業(yè)同步任務(wù)的配置，整個(gè)運(yùn)維工作是相當(dāng)龐大的；（2）同步如果不采用錯(cuò)峰方式，在短時(shí)間內(nèi)中央數(shù)據(jù)庫(kù)網(wǎng)絡(luò)節(jié)點(diǎn)會(huì)產(chǎn)生高帶寬消耗，但如果錯(cuò)峰會(huì)增加ETL設(shè)計(jì)與運(yùn)維的復(fù)雜度；（3）傳統(tǒng)的集中式存儲(chǔ)需要高昂的硬件設(shè)備資源；（4）集中處理廣泛來源的非公有制經(jīng)濟(jì)數(shù)據(jù)，并且面向全國(guó)的數(shù)據(jù)傳輸也會(huì)給數(shù)據(jù)庫(kù)造成很大壓力。

提出去ETL 和去中心化分布式數(shù)據(jù)湖技術(shù)，依據(jù)新經(jīng)濟(jì)地理學(xué)理論選擇中心城市建設(shè)物理分散的分布式二級(jí)區(qū)域數(shù)據(jù)庫(kù)。

對(duì)二級(jí)區(qū)域數(shù)據(jù)庫(kù)的劃分主要包括：活動(dòng)數(shù)據(jù)域、歷史數(shù)據(jù)域和文件數(shù)據(jù)域，每類數(shù)據(jù)域共涉及參政調(diào)研、非公服務(wù)、組織建設(shè)、思想引導(dǎo)、社會(huì)服務(wù)、綜合管理以及擴(kuò)展業(yè)務(wù)七大數(shù)據(jù)類別。文件數(shù)據(jù)域主要包括：結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)文件以及文本、圖片、音頻和視頻非結(jié)構(gòu)化文件等。

非公有制經(jīng)濟(jì)邊緣數(shù)據(jù)庫(kù)產(chǎn)生內(nèi)部數(shù)據(jù)后，依據(jù)所提虛擬化模型進(jìn)行校核、清洗、轉(zhuǎn)化與微統(tǒng)計(jì)，通過調(diào)用云服務(wù)方式實(shí)時(shí)將數(shù)據(jù)匯聚于二級(jí)區(qū)域數(shù)據(jù)庫(kù)活動(dòng)數(shù)據(jù)域的不同類別數(shù)據(jù)中，同時(shí)將更新的歷史數(shù)據(jù)遷移至歷史數(shù)據(jù)域。

3.3 多源異構(gòu)的數(shù)據(jù)生產(chǎn)節(jié)點(diǎn)和邊緣計(jì)算

將產(chǎn)生多源異構(gòu)數(shù)據(jù)的非公有制經(jīng)濟(jì)實(shí)體節(jié)點(diǎn)定義為端節(jié)點(diǎn)，這些端節(jié)點(diǎn)物理上分散且數(shù)量龐大，是整個(gè)分布式數(shù)據(jù)湖體系中的邊緣節(jié)點(diǎn)，而這些節(jié)點(diǎn)的上級(jí)區(qū)域定義為云端。這些節(jié)點(diǎn)大多為中小企業(yè)，每日產(chǎn)生的數(shù)據(jù)量不多，但種類繁多，且非公有制經(jīng)濟(jì)實(shí)體的出現(xiàn)和消亡具有極強(qiáng)的不確定性，針對(duì)這種碎片化特點(diǎn)，采用邊緣計(jì)算與計(jì)算結(jié)果通過數(shù)據(jù)服務(wù)上傳相結(jié)合的技術(shù)。邊緣非公有制經(jīng)濟(jì)實(shí)體節(jié)點(diǎn)主要包括：非公有制經(jīng)濟(jì)實(shí)體生產(chǎn)數(shù)據(jù)庫(kù)、邏輯前置數(shù)據(jù)庫(kù)、數(shù)據(jù)服務(wù)代理服務(wù)器等。

非公有制經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)處理過程如圖7所示。

非公有制經(jīng)濟(jì)實(shí)體生產(chǎn)數(shù)據(jù)庫(kù)為其內(nèi)部數(shù)據(jù)庫(kù)；邏輯前置數(shù)據(jù)庫(kù)為以虛擬形態(tài)或物理形態(tài)存在，為區(qū)域數(shù)據(jù)庫(kù)準(zhǔn)備抽象數(shù)據(jù)實(shí)體的質(zhì)量合規(guī)數(shù)據(jù)；首次數(shù)據(jù)上傳采用數(shù)據(jù)文件提交形式，增量數(shù)據(jù)上傳通過調(diào)用在數(shù)據(jù)服務(wù)代理上發(fā)布的解析前置數(shù)據(jù)、與云服務(wù)對(duì)接的應(yīng)用API（application programming interface）方式實(shí)現(xiàn)；文件上傳可以調(diào)用云端文件上傳功能，文件如果關(guān)聯(lián)數(shù)據(jù)，則需要開發(fā)與云服務(wù)對(duì)接API，實(shí)現(xiàn)數(shù)據(jù)與文件的同時(shí)上傳。

采用邊緣計(jì)算方式的主要優(yōu)勢(shì)在于，數(shù)據(jù)準(zhǔn)備與處理工作將交由各非公有制經(jīng)濟(jì)實(shí)體節(jié)點(diǎn)分散完成，不用發(fā)送全部數(shù)據(jù)到云端，消除區(qū)域數(shù)據(jù)庫(kù)治理數(shù)據(jù)的復(fù)雜性與數(shù)據(jù)發(fā)送的網(wǎng)絡(luò)壓力；由于數(shù)據(jù)在做拆分或組合后形成前置數(shù)據(jù)，從前置庫(kù)中讀取可以較容易保證數(shù)據(jù)的一致性；云端數(shù)據(jù)服務(wù)將不直接嵌入其業(yè)務(wù)應(yīng)用系統(tǒng)，使數(shù)據(jù)生產(chǎn)與服務(wù)調(diào)用解耦，不用改造其生產(chǎn)應(yīng)用系統(tǒng)。

Fig.7 Process flow diagram of edge data processing of non-public economic entities圖7 非公有制經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)處理過程圖

在邊緣非公有制經(jīng)濟(jì)實(shí)體節(jié)點(diǎn)可實(shí)現(xiàn)實(shí)體自身數(shù)據(jù)分析。區(qū)域分析數(shù)據(jù)可以通過云服務(wù)返回非公有制經(jīng)濟(jì)實(shí)體與其內(nèi)部數(shù)據(jù)相融合，實(shí)現(xiàn)快速邊緣數(shù)據(jù)深度探索，輔助非公有制經(jīng)濟(jì)實(shí)體不斷調(diào)整經(jīng)營(yíng)決策，優(yōu)化產(chǎn)業(yè)結(jié)構(gòu)，進(jìn)行前端產(chǎn)品技術(shù)研發(fā)，構(gòu)建符合自身發(fā)展的產(chǎn)業(yè)鏈、客戶關(guān)系鏈和產(chǎn)業(yè)金融鏈。

3.4 基于分布式架構(gòu)實(shí)現(xiàn)數(shù)據(jù)庫(kù)間路由

提出中央數(shù)據(jù)庫(kù)路由方法來實(shí)現(xiàn)分布式數(shù)據(jù)湖體系中各區(qū)域數(shù)據(jù)庫(kù)之間的數(shù)據(jù)互操作。構(gòu)建完整的資源目錄與數(shù)據(jù)索引體系，實(shí)現(xiàn)憑借路由調(diào)度控制實(shí)現(xiàn)點(diǎn)對(duì)點(diǎn)去中心化二級(jí)區(qū)域數(shù)據(jù)庫(kù)通信。此種方式有效規(guī)避數(shù)據(jù)總線應(yīng)用模式下可能產(chǎn)生的集中式通信“雪崩”效應(yīng)，提高了數(shù)據(jù)庫(kù)的高可用性、高可靠性和高可擴(kuò)展性。

中央數(shù)據(jù)庫(kù)作為分布式數(shù)據(jù)湖路由核心，其將重點(diǎn)實(shí)現(xiàn)數(shù)據(jù)目錄檢索、數(shù)據(jù)服務(wù)發(fā)布和申請(qǐng)審核、數(shù)據(jù)索引、數(shù)據(jù)尋址與路由，但不集中存儲(chǔ)全量數(shù)據(jù)。主要包括：數(shù)據(jù)索引服務(wù)器、目錄服務(wù)器、數(shù)據(jù)服務(wù)管理服務(wù)器、配置服務(wù)器、調(diào)度服務(wù)器、通信服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器。

一個(gè)數(shù)據(jù)庫(kù)數(shù)據(jù)調(diào)用者與跨地域數(shù)據(jù)庫(kù)數(shù)據(jù)提供者的數(shù)據(jù)協(xié)作過程如圖8所示。

數(shù)據(jù)調(diào)用者借助數(shù)據(jù)資源目錄確認(rèn)所需資源并向中央數(shù)據(jù)庫(kù)提出申請(qǐng)。審批后，中央數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)提供者區(qū)域?qū)ぶ?，通知并確認(rèn)其資源準(zhǔn)備就緒，將數(shù)據(jù)庫(kù)連接通道配置信息保存，并通知數(shù)據(jù)調(diào)用者，數(shù)據(jù)調(diào)用者與數(shù)據(jù)提供者間建立點(diǎn)對(duì)點(diǎn)直連，后續(xù)為長(zhǎng)連接過程，數(shù)據(jù)庫(kù)連接將不會(huì)再訪問中央數(shù)據(jù)庫(kù)。中央數(shù)據(jù)庫(kù)持續(xù)監(jiān)控連接過程，確保數(shù)據(jù)合法使用，當(dāng)數(shù)據(jù)利用時(shí)效結(jié)束或出現(xiàn)非法使用數(shù)據(jù)的狀況，中央數(shù)據(jù)庫(kù)通知數(shù)據(jù)調(diào)用者和數(shù)據(jù)提供者，數(shù)據(jù)提供者關(guān)閉數(shù)據(jù)連接，數(shù)據(jù)調(diào)用者失去數(shù)據(jù)庫(kù)直連權(quán)限。

4 虛擬化模型驅(qū)動(dòng)的分布式數(shù)據(jù)湖構(gòu)建方法的優(yōu)勢(shì)

虛擬化模型驅(qū)動(dòng)的分布式邏輯數(shù)據(jù)湖構(gòu)建方法實(shí)現(xiàn)了去中心化分布式存儲(chǔ)，中央數(shù)據(jù)庫(kù)重點(diǎn)建設(shè)全域數(shù)據(jù)索引，實(shí)現(xiàn)全域數(shù)據(jù)管控，同時(shí)承擔(dān)數(shù)據(jù)路由角色，為跨域數(shù)據(jù)協(xié)作提供支撐；中央數(shù)據(jù)庫(kù)可快速應(yīng)對(duì)應(yīng)用需求變化，通過虛擬視圖方式或短期物理存儲(chǔ)方式獲取不同地域非公有制經(jīng)濟(jì)數(shù)據(jù)，保證數(shù)據(jù)時(shí)效性，提高數(shù)據(jù)分析挖掘的可信度；邏輯數(shù)據(jù)湖內(nèi)各級(jí)存儲(chǔ)資源可呈現(xiàn)多模態(tài)化，支持關(guān)系型、非關(guān)系型數(shù)據(jù)以及文本、圖片、音頻、視頻等數(shù)據(jù)存儲(chǔ)；數(shù)據(jù)質(zhì)量治理交由非公有制經(jīng)濟(jì)邊緣數(shù)據(jù)庫(kù)自行承擔(dān)，提高數(shù)據(jù)治理可操作性、數(shù)據(jù)可信度和可用性；中央數(shù)據(jù)庫(kù)將實(shí)現(xiàn)對(duì)存儲(chǔ)資源的動(dòng)態(tài)伸縮利用，減低設(shè)備投資和維護(hù)成本；各區(qū)域由于只存儲(chǔ)本地?cái)?shù)據(jù)，基礎(chǔ)設(shè)施建設(shè)和維護(hù)成本將可控。

所提數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的代表包括早期的國(guó)網(wǎng)系統(tǒng)、銀行系統(tǒng)；隨著大數(shù)據(jù)分析條件的逐步具備和決策支持業(yè)務(wù)對(duì)數(shù)據(jù)總量的需求越來越大，這些數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)逐步向集中式數(shù)據(jù)湖系統(tǒng)發(fā)展，但隨著數(shù)據(jù)量的持續(xù)堆積，集中式數(shù)據(jù)湖的治理問題越發(fā)突出。對(duì)比發(fā)現(xiàn)，所提虛擬化模型驅(qū)動(dòng)的分布式數(shù)據(jù)湖構(gòu)建方法相比傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、集中式數(shù)據(jù)湖技術(shù)，在同時(shí)滿足工商聯(lián)分析業(yè)務(wù)對(duì)大數(shù)據(jù)的需求和實(shí)時(shí)處理業(yè)務(wù)對(duì)鮮活數(shù)據(jù)的需要方面具有優(yōu)勢(shì)，尤其在減少數(shù)據(jù)搬運(yùn)成本，提升經(jīng)濟(jì)性方面存在較明顯的優(yōu)勢(shì)，結(jié)果參見表1。

Fig.8 Process flow diagram of data invoke圖8 數(shù)據(jù)調(diào)用過程圖

5 結(jié)束語

本文提出的虛擬化模型驅(qū)動(dòng)的分布式數(shù)據(jù)湖構(gòu)建方法，是集成碎片化、多模態(tài)非公有制經(jīng)濟(jì)數(shù)據(jù)的較有效方法。所提方法將邊緣計(jì)算、新經(jīng)濟(jì)地理區(qū)域數(shù)據(jù)庫(kù)建設(shè)、大數(shù)據(jù)分析與挖掘、數(shù)據(jù)路由等技術(shù)相融合，實(shí)現(xiàn)了非公有制經(jīng)濟(jì)數(shù)據(jù)在虛擬模型驅(qū)動(dòng)下的區(qū)域協(xié)同。

所提方法在構(gòu)建工商聯(lián)分布式數(shù)據(jù)湖體系中得到了初步的應(yīng)用嘗試，并在持續(xù)完善中。工商聯(lián)分布式數(shù)據(jù)湖體系以全國(guó)工商聯(lián)本級(jí)為中央數(shù)據(jù)庫(kù)節(jié)點(diǎn)，按照新經(jīng)濟(jì)地理學(xué)選取6個(gè)省級(jí)工商聯(lián)作為二級(jí)區(qū)域節(jié)點(diǎn)，建立二級(jí)區(qū)域數(shù)據(jù)庫(kù)，6 個(gè)省級(jí)二級(jí)區(qū)域節(jié)點(diǎn)負(fù)責(zé)聯(lián)系全國(guó)9 000 萬非公有制經(jīng)濟(jì)實(shí)體邊緣節(jié)點(diǎn)，并保持與邊緣節(jié)點(diǎn)的通信暢通。在實(shí)際的業(yè)務(wù)開展過程中，各非公有制經(jīng)濟(jì)實(shí)體作為此體系中的邊緣節(jié)點(diǎn)，不斷產(chǎn)生原始數(shù)據(jù)，并在本地端存儲(chǔ)，這些數(shù)據(jù)由邊緣非公經(jīng)濟(jì)實(shí)體在數(shù)據(jù)模型驅(qū)動(dòng)下完成清洗后，提交主數(shù)據(jù)和融合態(tài)、微統(tǒng)計(jì)數(shù)據(jù)給二級(jí)區(qū)域節(jié)點(diǎn)。全國(guó)工商聯(lián)中央數(shù)據(jù)庫(kù)維護(hù)了一個(gè)完整的數(shù)據(jù)資源目錄和資源門戶，掌控著全國(guó)數(shù)據(jù)的一本底賬，并承擔(dān)了數(shù)據(jù)交換共享“總調(diào)度”的角色，其通過數(shù)據(jù)路由按需訪問二級(jí)區(qū)域數(shù)據(jù)庫(kù)，提取鮮活數(shù)據(jù)進(jìn)行分析，支撐輔助決策需求。此種分布式數(shù)據(jù)湖架構(gòu)確實(shí)在提升大數(shù)據(jù)分析挖掘效能、實(shí)現(xiàn)數(shù)據(jù)的按需搬運(yùn)與虛擬調(diào)用方面成效明顯，很大程度上降低了中央節(jié)點(diǎn)數(shù)據(jù)存儲(chǔ)壓力，同時(shí)也改善了頻繁搬運(yùn)數(shù)據(jù)帶來的高網(wǎng)路帶寬消耗問題，使工商聯(lián)在面向9 000 萬非公有制經(jīng)濟(jì)實(shí)體構(gòu)建高價(jià)值生態(tài)數(shù)據(jù)資產(chǎn)平臺(tái)成為可能。

下一步，將對(duì)所提方法在邊緣節(jié)點(diǎn)是否處于活動(dòng)狀態(tài)，及時(shí)高效地發(fā)現(xiàn)掉線節(jié)點(diǎn)方面的效率問題進(jìn)行優(yōu)化。同時(shí)，在部分區(qū)域中心節(jié)點(diǎn)和邊緣節(jié)點(diǎn)掉線的情況下，如何快速建立數(shù)據(jù)補(bǔ)全機(jī)制，提升分布式數(shù)據(jù)湖體系的自我完善能力和健壯性也是本文下一步需持續(xù)研究的重點(diǎn)。

Table 1 Comparison among data warehouse,centralized data lake and distributed data lake表1 數(shù)據(jù)倉(cāng)庫(kù)、集中式數(shù)據(jù)湖與分布式數(shù)據(jù)湖對(duì)比

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放