譚景信,劉玉龍,李慧娟
華北計(jì)算技術(shù)研究所,北京 100083
我國(guó)非公有制經(jīng)濟(jì)主體已超過9 000 萬(wàn),貢獻(xiàn)了全國(guó)稅收的50%,GDP的60%,社會(huì)固定資產(chǎn)投資的60%,技術(shù)創(chuàng)新的70%,就業(yè)崗位的80%和90%以上的新增就業(yè),非公有制經(jīng)濟(jì)已經(jīng)成為經(jīng)濟(jì)社會(huì)發(fā)展的重要基礎(chǔ)。工商聯(lián)是黨和政府聯(lián)系非公有制經(jīng)濟(jì)的“橋梁紐帶”,服務(wù)于政府與非公有制經(jīng)濟(jì)群體的雙向服務(wù)需求,這些需求的特點(diǎn)就是體量龐大、不斷變化并具有極強(qiáng)的不確定性。做好工商聯(lián)工作要求兼具廣度和深度的數(shù)據(jù)支撐。廣度是指信息收集工作要盡量全面地覆蓋9 000 多萬(wàn)的非公有制經(jīng)濟(jì)實(shí)體,真正做到“廣泛聯(lián)系、直接服務(wù)、宣傳到位”;深度是指能夠及時(shí)、高效、深入地了解非公有制經(jīng)濟(jì)實(shí)體的發(fā)展?fàn)顩r和迫切需求,評(píng)估出非公有制經(jīng)濟(jì)運(yùn)行發(fā)展情況。
非公有制經(jīng)濟(jì)群體數(shù)據(jù)是持續(xù)產(chǎn)生的,這些數(shù)據(jù)具有對(duì)象分布廣、類型多、碎片化、不確定性強(qiáng)、異構(gòu)等特點(diǎn),匯聚起來(lái)呈現(xiàn)海量增長(zhǎng)特性。如何有效存儲(chǔ)、治理和利用這些數(shù)據(jù),實(shí)現(xiàn)對(duì)非公有制經(jīng)濟(jì)發(fā)展態(tài)勢(shì)的分析、挖掘和預(yù)測(cè),從而支撐工商聯(lián)為黨和政府的輔助決策支持是必須要解決的問題。
面向海量數(shù)據(jù)的匯聚、治理、應(yīng)用,業(yè)界有眾多研究成果和實(shí)踐案例。主要包括傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、新涌現(xiàn)的數(shù)據(jù)池與數(shù)據(jù)湖技術(shù)等。但這些技術(shù)都不能全面滿足所提需求。如:文獻(xiàn)[1]采用了大數(shù)據(jù)平臺(tái)+MPP 型數(shù)據(jù)庫(kù)(GBase 8a MPPCluster)混合架構(gòu)雖然解決了海量數(shù)據(jù)存儲(chǔ)問題,但因其為關(guān)系型數(shù)據(jù)庫(kù),需要規(guī)范結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)模式與強(qiáng)數(shù)據(jù)依賴關(guān)系。文獻(xiàn)[2]采用了業(yè)務(wù)數(shù)據(jù)Mysql(Oracle)+ETL+緩存數(shù)據(jù)庫(kù)(Mysql)+數(shù)據(jù)倉(cāng)庫(kù)(Hive)架構(gòu),雖然解決了復(fù)雜結(jié)構(gòu)數(shù)據(jù)聚集問題,但所提非公有制經(jīng)濟(jì)實(shí)體數(shù)據(jù)的分布廣、碎片化、質(zhì)量參差不齊等問題仍不能很好得到解決。同時(shí),該方案將全國(guó)數(shù)據(jù)通過ETL(extract-transform-load)進(jìn)入集中式數(shù)據(jù)庫(kù)本地化存儲(chǔ),數(shù)據(jù)搬運(yùn)成本極高。另外該解決方案也不能很好處理多模態(tài)非結(jié)構(gòu)化文件的存儲(chǔ)問題。文獻(xiàn)[3]采用了近期較熱點(diǎn)的數(shù)據(jù)湖技術(shù),使用了總部/省兩級(jí)部署形式和1+N模式,總部存儲(chǔ)全量的原生態(tài)數(shù)據(jù),并實(shí)現(xiàn)跨域協(xié)作能力,但隨著時(shí)間的推移,總部數(shù)據(jù)湖數(shù)據(jù)會(huì)因?yàn)槿狈Α磅r活化治理”而可能成為“數(shù)據(jù)沼澤”,該方法也無(wú)法解決部分?jǐn)?shù)據(jù)源頭不愿提供原始數(shù)據(jù)的問題。
本文在充分分析工商聯(lián)業(yè)務(wù)特性的基礎(chǔ)上,提出基于虛擬化模型驅(qū)動(dòng)的分布式數(shù)據(jù)湖構(gòu)建方法,面向9 000萬(wàn)非公有制經(jīng)濟(jì)實(shí)體的信息資源,定義了包括統(tǒng)一的數(shù)據(jù)模型、微分析模型和整套數(shù)據(jù)規(guī)范的虛擬化模型,結(jié)合數(shù)據(jù)邊緣計(jì)算技術(shù)來(lái)實(shí)現(xiàn)非公有制經(jīng)濟(jì)實(shí)體內(nèi)部數(shù)據(jù)的自治理(生成融合態(tài)數(shù)據(jù))以及高時(shí)效性跨區(qū)域非公有制經(jīng)濟(jì)數(shù)據(jù)的協(xié)作與深層挖掘。通過對(duì)比發(fā)現(xiàn),使用所提方法構(gòu)建的分布式數(shù)據(jù)湖具有邏輯集中而物理分散的特點(diǎn),通過虛擬化模型構(gòu)建邏輯上的數(shù)據(jù)湖,實(shí)行“有目的”的數(shù)據(jù)搬運(yùn),既解決了部分非公有制經(jīng)濟(jì)實(shí)體不愿上傳原始數(shù)據(jù)情況下工商聯(lián)分析業(yè)務(wù)對(duì)大數(shù)據(jù)的需求,也很好滿足了實(shí)時(shí)處理業(yè)務(wù)對(duì)鮮活數(shù)據(jù)的需要,同時(shí)減少了數(shù)據(jù)搬運(yùn)成本,提升了經(jīng)濟(jì)性。
傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)實(shí)現(xiàn)架構(gòu)多采用OLTP(on-line transaction processing)+ODS(operational data store)+ETL+OLAP(online analytical processing)+BI(business intelligence)。參見圖1 DW/BI(data warehouse/business intelligence)系統(tǒng)模型圖。
Fig.1 DW/BI system model diagram圖1 DW/BI系統(tǒng)模型圖
數(shù)據(jù)倉(cāng)庫(kù)可以很好地完成面向主題的、集成的和相對(duì)穩(wěn)定的數(shù)據(jù)集合處理,能支持經(jīng)營(yíng)管理中的決策制定過程[4]。但是數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)在處理海量異構(gòu)數(shù)據(jù)和時(shí)效性數(shù)據(jù)需求時(shí)缺陷明顯。主要表現(xiàn)在:
(1)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)優(yōu)化的數(shù)據(jù)庫(kù),用于分析來(lái)自事務(wù)系統(tǒng)和業(yè)務(wù)線應(yīng)用程序的結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)存儲(chǔ)為面向既定主題的,無(wú)法滿足所提工商聯(lián)多源、多態(tài)、無(wú)預(yù)置主題的非公有制經(jīng)濟(jì)數(shù)據(jù)存儲(chǔ)需求[5]。
(2)數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)介質(zhì)多為中高性能集中式集群數(shù)據(jù)庫(kù)服務(wù)器,面對(duì)海量數(shù)據(jù)的快速檢索,需要高額的服務(wù)器、存儲(chǔ)的擴(kuò)展和維護(hù)成本。
(3)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的讀取需依據(jù)嚴(yán)格的數(shù)據(jù)維度關(guān)聯(lián)規(guī)則,無(wú)法適用于工商聯(lián)多模態(tài)特性非公有制經(jīng)濟(jì)數(shù)據(jù)資源的數(shù)據(jù)分析[5]。
(4)基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析運(yùn)算多為批處理報(bào)告、BI形式,無(wú)法適應(yīng)工商聯(lián)在海量非公有制經(jīng)濟(jì)數(shù)據(jù)的機(jī)器學(xué)習(xí)、預(yù)測(cè)分析、數(shù)據(jù)發(fā)現(xiàn)方面發(fā)展分析需求[6-9]。
為解決數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在海量數(shù)據(jù)存儲(chǔ)和運(yùn)算方面的不足,國(guó)外近兩年提出了數(shù)據(jù)湖(data lake)技術(shù)。數(shù)據(jù)湖技術(shù)目前正處于高速發(fā)展中,其優(yōu)勢(shì)是可較好支持多模態(tài)數(shù)據(jù)和異構(gòu)數(shù)據(jù)的存儲(chǔ)和計(jì)算,關(guān)系型、非關(guān)系型數(shù)據(jù)以及文本、圖片、音頻、視頻等原生態(tài)數(shù)據(jù)均被集中存儲(chǔ)于基于HDFS(Hadoop distributed file system)的服務(wù)器集群平臺(tái)之上,這些數(shù)據(jù)在使用前并不進(jìn)行處理,而是在使用時(shí)才去計(jì)算。這種架構(gòu)具有一定的先進(jìn)性,但隨著數(shù)據(jù)的不斷匯聚,集中式數(shù)據(jù)湖會(huì)產(chǎn)生如下問題[10-12]:
(1)由于集中數(shù)據(jù)湖匯聚的是數(shù)據(jù)源產(chǎn)生的原始數(shù)據(jù),這些數(shù)據(jù)的狀態(tài)和質(zhì)量不可預(yù)見,隨著數(shù)據(jù)量的不斷增長(zhǎng),數(shù)據(jù)治理難度會(huì)不斷加大,數(shù)據(jù)湖會(huì)因?yàn)槿狈τ行е卫矶兂伞皵?shù)據(jù)沼澤”。
(2)全量的原始數(shù)據(jù)通過ETL 工具持續(xù)搬運(yùn)至數(shù)據(jù)湖中存儲(chǔ),一是會(huì)持續(xù)占用大量帶寬資源,二是規(guī)模數(shù)據(jù)的搬運(yùn)和治理會(huì)產(chǎn)生延遲,最多能保證T+1 的數(shù)據(jù)時(shí)效性,會(huì)大幅降低對(duì)外發(fā)布數(shù)據(jù)的有效性。
(3)集中式數(shù)據(jù)湖存儲(chǔ)沿時(shí)間軸持續(xù)采集的原始數(shù)據(jù)而不太關(guān)心這些數(shù)據(jù)的可用性,存儲(chǔ)成本和管理成本會(huì)不斷攀升,直至難以承受。
針對(duì)工商聯(lián)業(yè)務(wù)服務(wù)對(duì)象分布廣、類型多、不確定性強(qiáng)等特點(diǎn)帶來(lái)的分散、碎片化數(shù)據(jù)收集需求,通過結(jié)合數(shù)據(jù)倉(cāng)庫(kù)和集中式數(shù)據(jù)湖技術(shù)的優(yōu)勢(shì),并改進(jìn)所存在的不足,采用虛擬化模型驅(qū)動(dòng)技術(shù)、邊緣計(jì)算技術(shù)和數(shù)據(jù)路由技術(shù),構(gòu)建輻射型的、去中心化和去ETL化的分布式數(shù)據(jù)湖。(1)可彌補(bǔ)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)需要有既定主題、強(qiáng)結(jié)構(gòu)化存儲(chǔ)的不足,可以存儲(chǔ)工商聯(lián)無(wú)主題、多模態(tài)原始非公有制經(jīng)濟(jì)數(shù)據(jù);(2)在中央數(shù)據(jù)庫(kù)強(qiáng)化全局?jǐn)?shù)據(jù)索引網(wǎng)絡(luò),弱化數(shù)據(jù)物理存儲(chǔ),構(gòu)建以邏輯模型驅(qū)動(dòng)的一體化分布式數(shù)據(jù)湖,解決集中式數(shù)據(jù)湖存在的“數(shù)據(jù)沼澤”危機(jī)問題;(3)采用云端服務(wù)技術(shù)接入分布在廣大非公有制經(jīng)濟(jì)實(shí)體的邊緣數(shù)據(jù)庫(kù),消除了傳統(tǒng)ETL 數(shù)據(jù)延時(shí)問題與持續(xù)高帶寬消耗問題。
所提分布式數(shù)據(jù)湖的架構(gòu)設(shè)計(jì)為三層:非公有制經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)庫(kù)層、二級(jí)區(qū)域數(shù)據(jù)庫(kù)層和中央數(shù)據(jù)庫(kù)層,體系架構(gòu)如圖2所示。
(1)數(shù)據(jù)湖末端的非公有制經(jīng)濟(jì)實(shí)體數(shù)據(jù)庫(kù)受數(shù)據(jù)虛擬化模型驅(qū)動(dòng)來(lái)實(shí)現(xiàn)以數(shù)據(jù)自清洗和融合為目的的邊緣計(jì)算與微統(tǒng)計(jì),一是由自身保證數(shù)據(jù)的正確性、可用性;二是按需提交融合態(tài)微統(tǒng)計(jì)數(shù)據(jù),不必提交節(jié)點(diǎn)內(nèi)部的敏感數(shù)據(jù)。
Fig.2 Distributed data lake architecture diagram圖2 分布式數(shù)據(jù)湖體系架構(gòu)圖
(2)由于非公有制經(jīng)濟(jì)實(shí)體存在不確定強(qiáng)的特點(diǎn),其節(jié)點(diǎn)數(shù)據(jù)庫(kù)存在數(shù)據(jù)不可持續(xù)提供等不確定因素,如果分布式體系依靠非公有制經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)庫(kù),一旦此邊緣節(jié)點(diǎn)關(guān)閉前置數(shù)據(jù)庫(kù),分布式數(shù)據(jù)湖將出現(xiàn)數(shù)據(jù)缺失現(xiàn)象,如果出現(xiàn)大批邊緣節(jié)點(diǎn)的關(guān)閉,分布式數(shù)據(jù)湖將失效。針對(duì)此問題,將基于新經(jīng)濟(jì)地理學(xué)思想構(gòu)建二級(jí)區(qū)域數(shù)據(jù)庫(kù),其將在統(tǒng)一的模型驅(qū)動(dòng)下匯聚區(qū)域內(nèi)的非公有制經(jīng)濟(jì)實(shí)體的高質(zhì)、原始態(tài)或微統(tǒng)計(jì)數(shù)據(jù),匯聚的數(shù)據(jù)可以實(shí)現(xiàn)無(wú)縫整合,支持區(qū)域經(jīng)濟(jì)的大數(shù)據(jù)分析業(yè)務(wù)。
(3)中央數(shù)據(jù)庫(kù)承載對(duì)工商聯(lián)敏捷需求的支撐,由其統(tǒng)籌全域數(shù)據(jù)索引,按需動(dòng)態(tài)關(guān)聯(lián)二級(jí)區(qū)域數(shù)據(jù)庫(kù)虛擬化模型,生成虛擬數(shù)據(jù)對(duì)象或物理數(shù)據(jù)對(duì)象,以實(shí)現(xiàn)全國(guó)范圍內(nèi)跨域深層數(shù)據(jù)的分析挖掘。
(4)二級(jí)區(qū)域數(shù)據(jù)庫(kù)也可向中央數(shù)據(jù)庫(kù)申請(qǐng)跨區(qū)域數(shù)據(jù)資源,中央數(shù)據(jù)庫(kù)將借助構(gòu)建好的虛擬化數(shù)據(jù)鏈路實(shí)現(xiàn)數(shù)據(jù)路由,構(gòu)成區(qū)域間數(shù)據(jù)路由,最終實(shí)現(xiàn)區(qū)域數(shù)據(jù)協(xié)作。
所提虛擬化模型分為數(shù)據(jù)模型集、微統(tǒng)計(jì)模型集和數(shù)據(jù)管理規(guī)范集,如圖3所示。
3.2.1 數(shù)據(jù)模型集
非公有制經(jīng)濟(jì)實(shí)體受內(nèi)部應(yīng)用系統(tǒng)建設(shè)制約,從全國(guó)范圍看肯定是各自為政建設(shè)的,且水平參差不齊,不同單位的系統(tǒng)元數(shù)據(jù)定義大相徑庭,數(shù)據(jù)項(xiàng)也沒有統(tǒng)一編碼規(guī)則。如何對(duì)這些非公經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)庫(kù)的異構(gòu)數(shù)據(jù)進(jìn)行轉(zhuǎn)換融合,實(shí)現(xiàn)標(biāo)準(zhǔn)、規(guī)模化的聚合數(shù)據(jù)是迫切需要解決的問題。
提出了數(shù)據(jù)模型驅(qū)動(dòng)數(shù)據(jù)融合概念,構(gòu)建實(shí)體模型、元數(shù)據(jù)模型、數(shù)據(jù)映射模型、數(shù)據(jù)元模型、數(shù)據(jù)質(zhì)量校核模型、數(shù)據(jù)版本模型、資源目錄模型、數(shù)據(jù)服務(wù)模型、安全訪問模型等。模型用以規(guī)范數(shù)據(jù)的采集內(nèi)容、采集格式、治理方式、檢索方式、存儲(chǔ)方式和利用方式。非公有制經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)庫(kù)數(shù)據(jù)模型應(yīng)用過程如圖4所示。
Fig.3 Data virtualization model圖3 數(shù)據(jù)虛擬化模型
Fig.4 Application process of edge database model of non-public economic entities圖4 非公有制經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)庫(kù)模型應(yīng)用過程
(1)聚焦中央數(shù)據(jù)庫(kù)關(guān)注的有價(jià)值的非公有制經(jīng)濟(jì)數(shù)據(jù)形成數(shù)據(jù)實(shí)體規(guī)范,非公有制經(jīng)濟(jì)邊緣數(shù)據(jù)庫(kù)需依據(jù)數(shù)據(jù)實(shí)體模型選取與之相關(guān)的數(shù)據(jù)內(nèi)容進(jìn)行抽象,同時(shí)依據(jù)數(shù)據(jù)映射模型對(duì)數(shù)據(jù)進(jìn)行模式匹配與映射,映射匹配邏輯如下[13-16]。
假設(shè)邊緣非公有制經(jīng)濟(jì)實(shí)體數(shù)據(jù)庫(kù)為A,分布式數(shù)據(jù)湖的二級(jí)區(qū)域數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)為B:
①在數(shù)據(jù)庫(kù)A中包含數(shù)據(jù)集合C,A={C1,C2,…,Ct}。
②在數(shù)據(jù)庫(kù)B中包含數(shù)據(jù)集合D,B={D1,D2,…,Dr}。
③A中C可以表示為列向量的集合,Ci={p1,p2,…,px}。
④A中包含t張表,每張表包含x個(gè)字段,構(gòu)成矩陣
⑤B中D可以表示為列向量的集合,Di={q1,q2,…,qy}。
⑥B中包含r張表,每張表包含y個(gè)字段,構(gòu)成矩陣
⑦數(shù)據(jù)匯聚到二級(jí)區(qū)域數(shù)據(jù)庫(kù)B后,產(chǎn)生數(shù)據(jù)記錄,針對(duì)Di有y個(gè)字段s條記錄,則每個(gè)記錄值為tiys,即
⑧由B和Di綜合來(lái)看,實(shí)際構(gòu)成了一個(gè)三維記錄數(shù)值模型,如圖5所示。
Fig.5 Three-dimensional recording numerical model圖5 三維記錄數(shù)值模型
Fig.6 Data pattern matching logic圖6 數(shù)據(jù)模式匹配邏輯
⑨在B中根據(jù)實(shí)體模型和數(shù)據(jù)映射模型會(huì)產(chǎn)生A到B的模式匹配規(guī)則:R=f(C),R={R1,R2,…,Rm},在R的作用下對(duì)不同Ci進(jìn)行整合生成Di,從而產(chǎn)生B。規(guī)則R主要包括:數(shù)據(jù)源定義、目標(biāo)數(shù)據(jù)庫(kù)定義、數(shù)據(jù)源表定義、數(shù)據(jù)源數(shù)據(jù)域定義、目標(biāo)數(shù)據(jù)庫(kù)表定義、目標(biāo)數(shù)據(jù)域定義、數(shù)據(jù)更新機(jī)制定義、時(shí)間戳定義、數(shù)據(jù)更新條件組合定義、提交數(shù)據(jù)范圍定義、數(shù)據(jù)受眾范圍定義等。
⑩全國(guó)各地非公有制經(jīng)濟(jì)實(shí)體數(shù)據(jù)映射到不同二級(jí)區(qū)域數(shù)據(jù)庫(kù),將形成龐大的分布式數(shù)據(jù)湖泊B1到BL,覆蓋整個(gè)非公有制經(jīng)濟(jì)數(shù)據(jù)資源,全國(guó)數(shù)據(jù)矩陣K為:
數(shù)據(jù)模式匹配邏輯如圖6所示。
(2)廣大非公有制經(jīng)濟(jì)實(shí)體對(duì)象映射數(shù)據(jù)的格式依據(jù)數(shù)據(jù)元格式進(jìn)行規(guī)范,依據(jù)數(shù)據(jù)元模型進(jìn)行描述和轉(zhuǎn)換。這兩個(gè)模型對(duì)映射數(shù)據(jù)Di產(chǎn)生數(shù)據(jù)定義規(guī)則H=f(D),主要內(nèi)容包括字段名稱、字段類型、字段長(zhǎng)度、字段定義描述、字段業(yè)務(wù)含義描述等。
(3)對(duì)標(biāo)準(zhǔn)化的匹配數(shù)據(jù)進(jìn)行暫存。
(4)非公有制經(jīng)濟(jì)實(shí)體根據(jù)數(shù)據(jù)質(zhì)量校核模型對(duì)數(shù)據(jù)自檢驗(yàn)和清洗,以保證數(shù)據(jù)的完整性、有效性和正確性,同時(shí)有全國(guó)編碼的數(shù)據(jù)需要依據(jù)編碼規(guī)則進(jìn)行轉(zhuǎn)換和補(bǔ)充,以保證匯聚數(shù)據(jù)之間的協(xié)作、共享和聚合分析。以上模型生成清洗規(guī)則為O=f(D),主要包括:校核數(shù)據(jù)域、校核格式、校核算法、校核任務(wù)、校核警戒線、校核輸出日志模式;清洗對(duì)象、清洗算法、清洗任務(wù)、清洗輸出格式、異常數(shù)據(jù)日志模式;編碼轉(zhuǎn)化類型、編碼格式、編碼含義、轉(zhuǎn)換算法、轉(zhuǎn)換任務(wù)、異常數(shù)據(jù)規(guī)范等。
(5)對(duì)清洗后合規(guī)數(shù)據(jù)進(jìn)行持久化存儲(chǔ)。
(6)在二級(jí)區(qū)域數(shù)據(jù)庫(kù)和中央數(shù)據(jù)庫(kù)實(shí)現(xiàn)對(duì)匯聚數(shù)據(jù)的統(tǒng)一存儲(chǔ)、統(tǒng)一資源目錄、統(tǒng)一服務(wù)和統(tǒng)一安全訪問管理。區(qū)域數(shù)據(jù)庫(kù)在數(shù)據(jù)版本模型控制下實(shí)現(xiàn)對(duì)數(shù)據(jù)的有序存儲(chǔ),版本模型包括數(shù)據(jù)更新記錄與數(shù)據(jù)加工記錄,可以實(shí)現(xiàn)全局?jǐn)?shù)據(jù)溯源與血緣分析;中央數(shù)據(jù)庫(kù)在數(shù)據(jù)目錄模型控制下建立全國(guó)統(tǒng)一資源目錄,實(shí)現(xiàn)全國(guó)數(shù)據(jù)一本底賬;同時(shí),依據(jù)數(shù)據(jù)服務(wù)規(guī)范構(gòu)建數(shù)據(jù)服務(wù)平臺(tái),在安全訪問模型控制下為全國(guó)提供有效的數(shù)據(jù)共享。
3.2.2 數(shù)據(jù)微統(tǒng)計(jì)模型集
數(shù)據(jù)微統(tǒng)計(jì)模型集規(guī)定了一組末端非公有制經(jīng)濟(jì)實(shí)體數(shù)據(jù)庫(kù)需統(tǒng)計(jì)的內(nèi)容與統(tǒng)計(jì)算法,統(tǒng)計(jì)功能將通過二級(jí)區(qū)域數(shù)據(jù)庫(kù)云平臺(tái)提供,只將形成融合態(tài)的統(tǒng)計(jì)數(shù)據(jù)保存于二級(jí)區(qū)域數(shù)據(jù)庫(kù)中。統(tǒng)計(jì)數(shù)據(jù)涉及但不限于以下方面:企業(yè)分支機(jī)構(gòu)信息、企業(yè)上市信息、企業(yè)投資信息、企業(yè)財(cái)務(wù)信息、企業(yè)納稅信息、企業(yè)資質(zhì)信息、企業(yè)創(chuàng)新信息等。
3.2.3 數(shù)據(jù)管理規(guī)范
數(shù)據(jù)管理規(guī)范為各級(jí)數(shù)據(jù)庫(kù)和節(jié)點(diǎn)在數(shù)據(jù)產(chǎn)生、清洗、整合、利用、消亡、管理整個(gè)生命周期應(yīng)遵循的數(shù)據(jù)規(guī)范。主要包括:數(shù)據(jù)存儲(chǔ)規(guī)范、數(shù)據(jù)治理規(guī)范、數(shù)據(jù)資源目錄規(guī)范、數(shù)據(jù)服務(wù)規(guī)范等。其規(guī)定了參與數(shù)據(jù)活動(dòng)的相關(guān)方的義務(wù)與責(zé)任、引用的相關(guān)數(shù)據(jù)模型、數(shù)據(jù)傳遞的流程等。從而保障整個(gè)數(shù)據(jù)體系的安全、有效、可持續(xù)運(yùn)轉(zhuǎn)。
3.2.4 去ETL化去中心化的分布式數(shù)據(jù)湖
(1)非公有制經(jīng)濟(jì)實(shí)體數(shù)據(jù)庫(kù)準(zhǔn)備數(shù)據(jù)就緒后,傳統(tǒng)方法是采用ETL 方式進(jìn)行數(shù)據(jù)上傳,但這種方式面對(duì)分布廣泛的數(shù)據(jù)源很難實(shí)施,例如:針對(duì)北京地區(qū)節(jié)點(diǎn)就需要完成4 000 余家企業(yè)同步任務(wù)的配置,整個(gè)運(yùn)維工作是相當(dāng)龐大的;(2)同步如果不采用錯(cuò)峰方式,在短時(shí)間內(nèi)中央數(shù)據(jù)庫(kù)網(wǎng)絡(luò)節(jié)點(diǎn)會(huì)產(chǎn)生高帶寬消耗,但如果錯(cuò)峰會(huì)增加ETL設(shè)計(jì)與運(yùn)維的復(fù)雜度;(3)傳統(tǒng)的集中式存儲(chǔ)需要高昂的硬件設(shè)備資源;(4)集中處理廣泛來(lái)源的非公有制經(jīng)濟(jì)數(shù)據(jù),并且面向全國(guó)的數(shù)據(jù)傳輸也會(huì)給數(shù)據(jù)庫(kù)造成很大壓力。
提出去ETL 和去中心化分布式數(shù)據(jù)湖技術(shù),依據(jù)新經(jīng)濟(jì)地理學(xué)理論選擇中心城市建設(shè)物理分散的分布式二級(jí)區(qū)域數(shù)據(jù)庫(kù)。
對(duì)二級(jí)區(qū)域數(shù)據(jù)庫(kù)的劃分主要包括:活動(dòng)數(shù)據(jù)域、歷史數(shù)據(jù)域和文件數(shù)據(jù)域,每類數(shù)據(jù)域共涉及參政調(diào)研、非公服務(wù)、組織建設(shè)、思想引導(dǎo)、社會(huì)服務(wù)、綜合管理以及擴(kuò)展業(yè)務(wù)七大數(shù)據(jù)類別。文件數(shù)據(jù)域主要包括:結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)文件以及文本、圖片、音頻和視頻非結(jié)構(gòu)化文件等。
非公有制經(jīng)濟(jì)邊緣數(shù)據(jù)庫(kù)產(chǎn)生內(nèi)部數(shù)據(jù)后,依據(jù)所提虛擬化模型進(jìn)行校核、清洗、轉(zhuǎn)化與微統(tǒng)計(jì),通過調(diào)用云服務(wù)方式實(shí)時(shí)將數(shù)據(jù)匯聚于二級(jí)區(qū)域數(shù)據(jù)庫(kù)活動(dòng)數(shù)據(jù)域的不同類別數(shù)據(jù)中,同時(shí)將更新的歷史數(shù)據(jù)遷移至歷史數(shù)據(jù)域。
將產(chǎn)生多源異構(gòu)數(shù)據(jù)的非公有制經(jīng)濟(jì)實(shí)體節(jié)點(diǎn)定義為端節(jié)點(diǎn),這些端節(jié)點(diǎn)物理上分散且數(shù)量龐大,是整個(gè)分布式數(shù)據(jù)湖體系中的邊緣節(jié)點(diǎn),而這些節(jié)點(diǎn)的上級(jí)區(qū)域定義為云端。這些節(jié)點(diǎn)大多為中小企業(yè),每日產(chǎn)生的數(shù)據(jù)量不多,但種類繁多,且非公有制經(jīng)濟(jì)實(shí)體的出現(xiàn)和消亡具有極強(qiáng)的不確定性,針對(duì)這種碎片化特點(diǎn),采用邊緣計(jì)算與計(jì)算結(jié)果通過數(shù)據(jù)服務(wù)上傳相結(jié)合的技術(shù)。邊緣非公有制經(jīng)濟(jì)實(shí)體節(jié)點(diǎn)主要包括:非公有制經(jīng)濟(jì)實(shí)體生產(chǎn)數(shù)據(jù)庫(kù)、邏輯前置數(shù)據(jù)庫(kù)、數(shù)據(jù)服務(wù)代理服務(wù)器等。
非公有制經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)處理過程如圖7所示。
非公有制經(jīng)濟(jì)實(shí)體生產(chǎn)數(shù)據(jù)庫(kù)為其內(nèi)部數(shù)據(jù)庫(kù);邏輯前置數(shù)據(jù)庫(kù)為以虛擬形態(tài)或物理形態(tài)存在,為區(qū)域數(shù)據(jù)庫(kù)準(zhǔn)備抽象數(shù)據(jù)實(shí)體的質(zhì)量合規(guī)數(shù)據(jù);首次數(shù)據(jù)上傳采用數(shù)據(jù)文件提交形式,增量數(shù)據(jù)上傳通過調(diào)用在數(shù)據(jù)服務(wù)代理上發(fā)布的解析前置數(shù)據(jù)、與云服務(wù)對(duì)接的應(yīng)用API(application programming interface)方式實(shí)現(xiàn);文件上傳可以調(diào)用云端文件上傳功能,文件如果關(guān)聯(lián)數(shù)據(jù),則需要開發(fā)與云服務(wù)對(duì)接API,實(shí)現(xiàn)數(shù)據(jù)與文件的同時(shí)上傳。
采用邊緣計(jì)算方式的主要優(yōu)勢(shì)在于,數(shù)據(jù)準(zhǔn)備與處理工作將交由各非公有制經(jīng)濟(jì)實(shí)體節(jié)點(diǎn)分散完成,不用發(fā)送全部數(shù)據(jù)到云端,消除區(qū)域數(shù)據(jù)庫(kù)治理數(shù)據(jù)的復(fù)雜性與數(shù)據(jù)發(fā)送的網(wǎng)絡(luò)壓力;由于數(shù)據(jù)在做拆分或組合后形成前置數(shù)據(jù),從前置庫(kù)中讀取可以較容易保證數(shù)據(jù)的一致性;云端數(shù)據(jù)服務(wù)將不直接嵌入其業(yè)務(wù)應(yīng)用系統(tǒng),使數(shù)據(jù)生產(chǎn)與服務(wù)調(diào)用解耦,不用改造其生產(chǎn)應(yīng)用系統(tǒng)。
Fig.7 Process flow diagram of edge data processing of non-public economic entities圖7 非公有制經(jīng)濟(jì)實(shí)體邊緣數(shù)據(jù)處理過程圖
在邊緣非公有制經(jīng)濟(jì)實(shí)體節(jié)點(diǎn)可實(shí)現(xiàn)實(shí)體自身數(shù)據(jù)分析。區(qū)域分析數(shù)據(jù)可以通過云服務(wù)返回非公有制經(jīng)濟(jì)實(shí)體與其內(nèi)部數(shù)據(jù)相融合,實(shí)現(xiàn)快速邊緣數(shù)據(jù)深度探索,輔助非公有制經(jīng)濟(jì)實(shí)體不斷調(diào)整經(jīng)營(yíng)決策,優(yōu)化產(chǎn)業(yè)結(jié)構(gòu),進(jìn)行前端產(chǎn)品技術(shù)研發(fā),構(gòu)建符合自身發(fā)展的產(chǎn)業(yè)鏈、客戶關(guān)系鏈和產(chǎn)業(yè)金融鏈。
提出中央數(shù)據(jù)庫(kù)路由方法來(lái)實(shí)現(xiàn)分布式數(shù)據(jù)湖體系中各區(qū)域數(shù)據(jù)庫(kù)之間的數(shù)據(jù)互操作。構(gòu)建完整的資源目錄與數(shù)據(jù)索引體系,實(shí)現(xiàn)憑借路由調(diào)度控制實(shí)現(xiàn)點(diǎn)對(duì)點(diǎn)去中心化二級(jí)區(qū)域數(shù)據(jù)庫(kù)通信。此種方式有效規(guī)避數(shù)據(jù)總線應(yīng)用模式下可能產(chǎn)生的集中式通信“雪崩”效應(yīng),提高了數(shù)據(jù)庫(kù)的高可用性、高可靠性和高可擴(kuò)展性。
中央數(shù)據(jù)庫(kù)作為分布式數(shù)據(jù)湖路由核心,其將重點(diǎn)實(shí)現(xiàn)數(shù)據(jù)目錄檢索、數(shù)據(jù)服務(wù)發(fā)布和申請(qǐng)審核、數(shù)據(jù)索引、數(shù)據(jù)尋址與路由,但不集中存儲(chǔ)全量數(shù)據(jù)。主要包括:數(shù)據(jù)索引服務(wù)器、目錄服務(wù)器、數(shù)據(jù)服務(wù)管理服務(wù)器、配置服務(wù)器、調(diào)度服務(wù)器、通信服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器。
一個(gè)數(shù)據(jù)庫(kù)數(shù)據(jù)調(diào)用者與跨地域數(shù)據(jù)庫(kù)數(shù)據(jù)提供者的數(shù)據(jù)協(xié)作過程如圖8所示。
數(shù)據(jù)調(diào)用者借助數(shù)據(jù)資源目錄確認(rèn)所需資源并向中央數(shù)據(jù)庫(kù)提出申請(qǐng)。審批后,中央數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)提供者區(qū)域?qū)ぶ罚ㄖ⒋_認(rèn)其資源準(zhǔn)備就緒,將數(shù)據(jù)庫(kù)連接通道配置信息保存,并通知數(shù)據(jù)調(diào)用者,數(shù)據(jù)調(diào)用者與數(shù)據(jù)提供者間建立點(diǎn)對(duì)點(diǎn)直連,后續(xù)為長(zhǎng)連接過程,數(shù)據(jù)庫(kù)連接將不會(huì)再訪問中央數(shù)據(jù)庫(kù)。中央數(shù)據(jù)庫(kù)持續(xù)監(jiān)控連接過程,確保數(shù)據(jù)合法使用,當(dāng)數(shù)據(jù)利用時(shí)效結(jié)束或出現(xiàn)非法使用數(shù)據(jù)的狀況,中央數(shù)據(jù)庫(kù)通知數(shù)據(jù)調(diào)用者和數(shù)據(jù)提供者,數(shù)據(jù)提供者關(guān)閉數(shù)據(jù)連接,數(shù)據(jù)調(diào)用者失去數(shù)據(jù)庫(kù)直連權(quán)限。
虛擬化模型驅(qū)動(dòng)的分布式邏輯數(shù)據(jù)湖構(gòu)建方法實(shí)現(xiàn)了去中心化分布式存儲(chǔ),中央數(shù)據(jù)庫(kù)重點(diǎn)建設(shè)全域數(shù)據(jù)索引,實(shí)現(xiàn)全域數(shù)據(jù)管控,同時(shí)承擔(dān)數(shù)據(jù)路由角色,為跨域數(shù)據(jù)協(xié)作提供支撐;中央數(shù)據(jù)庫(kù)可快速應(yīng)對(duì)應(yīng)用需求變化,通過虛擬視圖方式或短期物理存儲(chǔ)方式獲取不同地域非公有制經(jīng)濟(jì)數(shù)據(jù),保證數(shù)據(jù)時(shí)效性,提高數(shù)據(jù)分析挖掘的可信度;邏輯數(shù)據(jù)湖內(nèi)各級(jí)存儲(chǔ)資源可呈現(xiàn)多模態(tài)化,支持關(guān)系型、非關(guān)系型數(shù)據(jù)以及文本、圖片、音頻、視頻等數(shù)據(jù)存儲(chǔ);數(shù)據(jù)質(zhì)量治理交由非公有制經(jīng)濟(jì)邊緣數(shù)據(jù)庫(kù)自行承擔(dān),提高數(shù)據(jù)治理可操作性、數(shù)據(jù)可信度和可用性;中央數(shù)據(jù)庫(kù)將實(shí)現(xiàn)對(duì)存儲(chǔ)資源的動(dòng)態(tài)伸縮利用,減低設(shè)備投資和維護(hù)成本;各區(qū)域由于只存儲(chǔ)本地?cái)?shù)據(jù),基礎(chǔ)設(shè)施建設(shè)和維護(hù)成本將可控。
所提數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的代表包括早期的國(guó)網(wǎng)系統(tǒng)、銀行系統(tǒng);隨著大數(shù)據(jù)分析條件的逐步具備和決策支持業(yè)務(wù)對(duì)數(shù)據(jù)總量的需求越來(lái)越大,這些數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)逐步向集中式數(shù)據(jù)湖系統(tǒng)發(fā)展,但隨著數(shù)據(jù)量的持續(xù)堆積,集中式數(shù)據(jù)湖的治理問題越發(fā)突出。對(duì)比發(fā)現(xiàn),所提虛擬化模型驅(qū)動(dòng)的分布式數(shù)據(jù)湖構(gòu)建方法相比傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、集中式數(shù)據(jù)湖技術(shù),在同時(shí)滿足工商聯(lián)分析業(yè)務(wù)對(duì)大數(shù)據(jù)的需求和實(shí)時(shí)處理業(yè)務(wù)對(duì)鮮活數(shù)據(jù)的需要方面具有優(yōu)勢(shì),尤其在減少數(shù)據(jù)搬運(yùn)成本,提升經(jīng)濟(jì)性方面存在較明顯的優(yōu)勢(shì),結(jié)果參見表1。
Fig.8 Process flow diagram of data invoke圖8 數(shù)據(jù)調(diào)用過程圖
本文提出的虛擬化模型驅(qū)動(dòng)的分布式數(shù)據(jù)湖構(gòu)建方法,是集成碎片化、多模態(tài)非公有制經(jīng)濟(jì)數(shù)據(jù)的較有效方法。所提方法將邊緣計(jì)算、新經(jīng)濟(jì)地理區(qū)域數(shù)據(jù)庫(kù)建設(shè)、大數(shù)據(jù)分析與挖掘、數(shù)據(jù)路由等技術(shù)相融合,實(shí)現(xiàn)了非公有制經(jīng)濟(jì)數(shù)據(jù)在虛擬模型驅(qū)動(dòng)下的區(qū)域協(xié)同。
所提方法在構(gòu)建工商聯(lián)分布式數(shù)據(jù)湖體系中得到了初步的應(yīng)用嘗試,并在持續(xù)完善中。工商聯(lián)分布式數(shù)據(jù)湖體系以全國(guó)工商聯(lián)本級(jí)為中央數(shù)據(jù)庫(kù)節(jié)點(diǎn),按照新經(jīng)濟(jì)地理學(xué)選取6個(gè)省級(jí)工商聯(lián)作為二級(jí)區(qū)域節(jié)點(diǎn),建立二級(jí)區(qū)域數(shù)據(jù)庫(kù),6 個(gè)省級(jí)二級(jí)區(qū)域節(jié)點(diǎn)負(fù)責(zé)聯(lián)系全國(guó)9 000 萬(wàn)非公有制經(jīng)濟(jì)實(shí)體邊緣節(jié)點(diǎn),并保持與邊緣節(jié)點(diǎn)的通信暢通。在實(shí)際的業(yè)務(wù)開展過程中,各非公有制經(jīng)濟(jì)實(shí)體作為此體系中的邊緣節(jié)點(diǎn),不斷產(chǎn)生原始數(shù)據(jù),并在本地端存儲(chǔ),這些數(shù)據(jù)由邊緣非公經(jīng)濟(jì)實(shí)體在數(shù)據(jù)模型驅(qū)動(dòng)下完成清洗后,提交主數(shù)據(jù)和融合態(tài)、微統(tǒng)計(jì)數(shù)據(jù)給二級(jí)區(qū)域節(jié)點(diǎn)。全國(guó)工商聯(lián)中央數(shù)據(jù)庫(kù)維護(hù)了一個(gè)完整的數(shù)據(jù)資源目錄和資源門戶,掌控著全國(guó)數(shù)據(jù)的一本底賬,并承擔(dān)了數(shù)據(jù)交換共享“總調(diào)度”的角色,其通過數(shù)據(jù)路由按需訪問二級(jí)區(qū)域數(shù)據(jù)庫(kù),提取鮮活數(shù)據(jù)進(jìn)行分析,支撐輔助決策需求。此種分布式數(shù)據(jù)湖架構(gòu)確實(shí)在提升大數(shù)據(jù)分析挖掘效能、實(shí)現(xiàn)數(shù)據(jù)的按需搬運(yùn)與虛擬調(diào)用方面成效明顯,很大程度上降低了中央節(jié)點(diǎn)數(shù)據(jù)存儲(chǔ)壓力,同時(shí)也改善了頻繁搬運(yùn)數(shù)據(jù)帶來(lái)的高網(wǎng)路帶寬消耗問題,使工商聯(lián)在面向9 000 萬(wàn)非公有制經(jīng)濟(jì)實(shí)體構(gòu)建高價(jià)值生態(tài)數(shù)據(jù)資產(chǎn)平臺(tái)成為可能。
下一步,將對(duì)所提方法在邊緣節(jié)點(diǎn)是否處于活動(dòng)狀態(tài),及時(shí)高效地發(fā)現(xiàn)掉線節(jié)點(diǎn)方面的效率問題進(jìn)行優(yōu)化。同時(shí),在部分區(qū)域中心節(jié)點(diǎn)和邊緣節(jié)點(diǎn)掉線的情況下,如何快速建立數(shù)據(jù)補(bǔ)全機(jī)制,提升分布式數(shù)據(jù)湖體系的自我完善能力和健壯性也是本文下一步需持續(xù)研究的重點(diǎn)。
Table 1 Comparison among data warehouse,centralized data lake and distributed data lake表1 數(shù)據(jù)倉(cāng)庫(kù)、集中式數(shù)據(jù)湖與分布式數(shù)據(jù)湖對(duì)比