繆佳輝,包先雨,黃孫杰,邢 軍*
1.深圳海關(guān)信息中心,廣東 深圳 518045;
2.深圳市檢驗(yàn)檢疫科學(xué)研究院,廣東 深圳 518045
中國(guó)海關(guān)是我國(guó)進(jìn)出關(guān)境的監(jiān)督管理機(jī)關(guān),具有國(guó)際貿(mào)易統(tǒng)計(jì)職能,在履行監(jiān)管職責(zé)的過(guò)程中,積累大量的外貿(mào)數(shù)據(jù)和行政執(zhí)法數(shù)據(jù),信息化數(shù)據(jù)量也隨之日益增加,大數(shù)據(jù)管理面臨著巨大的挑戰(zhàn)與機(jī)遇。近30 年海關(guān)信息化建設(shè)經(jīng)歷了H883 工程、H2000 工程、金關(guān)1 期工程、H2010 工程和金關(guān)二期工程、H2018 工程,從金關(guān)二期工程開(kāi)始引入了云計(jì)算、大數(shù)據(jù)以及物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等技術(shù),海關(guān)數(shù)據(jù)呈現(xiàn)出井噴式量級(jí)增長(zhǎng),相關(guān)數(shù)據(jù)被分隔在十二大應(yīng)用系統(tǒng)、六類技術(shù)基礎(chǔ)系統(tǒng),這些海量數(shù)據(jù)蘊(yùn)藏著豐富的利用價(jià)值,但是大數(shù)據(jù)應(yīng)用層面仍面臨著外部口岸聯(lián)檢單位數(shù)據(jù)開(kāi)發(fā)共享以及部門(mén)內(nèi)部信息壁壘的層層難題,如何靈活運(yùn)用全新量級(jí)的數(shù)據(jù)和應(yīng)對(duì)大數(shù)據(jù)服務(wù),將海關(guān)各部門(mén)的海量數(shù)據(jù)充分集成,打破部門(mén)信息壁壘,使數(shù)據(jù)真正在海關(guān)部門(mén)內(nèi)部流動(dòng)和流轉(zhuǎn),從而更好地服務(wù)上層業(yè)務(wù)系統(tǒng)是海關(guān)目前重點(diǎn)關(guān)注和亟需解決的重點(diǎn)問(wèn)題。
近年來(lái)數(shù)據(jù)處理技術(shù)得以廣泛發(fā)展和應(yīng)用,最基礎(chǔ)的數(shù)據(jù)庫(kù)是“按照數(shù)據(jù)結(jié)構(gòu)來(lái)組織、存儲(chǔ)和管理數(shù)據(jù)的倉(cāng)庫(kù)”,是長(zhǎng)期存儲(chǔ)在計(jì)算機(jī)中的有組織、共享和統(tǒng)一管理的數(shù)據(jù)集合。數(shù)據(jù)集市是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,主要滿足特定的部門(mén)或者用戶的需求,僅面向某個(gè)特定的主題,以多維方式進(jìn)行存儲(chǔ)。而數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的數(shù)據(jù)集,可以反映歷史變化,用于支持管理決策[1]。數(shù)據(jù)倉(cāng)庫(kù)是用于處理交易和業(yè)務(wù)型應(yīng)用系統(tǒng)關(guān)系數(shù)據(jù)的優(yōu)化數(shù)據(jù)庫(kù)。數(shù)據(jù)湖的核心思想是一種系統(tǒng)的架構(gòu)方案,它使用低成本技術(shù)實(shí)現(xiàn)原始數(shù)據(jù)采集、分析和探索大規(guī)模、長(zhǎng)期的存儲(chǔ)方法和技術(shù),是一種解決大數(shù)據(jù)問(wèn)題的思路、一種數(shù)據(jù)治理的方案、一種大規(guī)模數(shù)據(jù)集中存儲(chǔ)并利用的架構(gòu)思想。
如何以更少的投入發(fā)揮更大的作用,是海關(guān)在數(shù)據(jù)管理方面面臨的重大挑戰(zhàn)。在海關(guān)H883工程、H2000 工程、金關(guān)1 期工程階段,海關(guān)數(shù)據(jù)主要來(lái)自業(yè)務(wù)系統(tǒng)和數(shù)據(jù)庫(kù)的傳統(tǒng)關(guān)系型數(shù)據(jù),因此數(shù)據(jù)倉(cāng)庫(kù)可以滿足海關(guān)數(shù)據(jù)管理和存儲(chǔ)的要求。然而從H2010 工程階段,尤其是進(jìn)入金關(guān)二期工程、H2018 工程階段,海關(guān)的信息化高速發(fā)展,來(lái)自于物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等領(lǐng)域的非關(guān)系型數(shù)據(jù)分布在全國(guó)幾十個(gè)署級(jí)系統(tǒng)以及數(shù)百個(gè)關(guān)級(jí)系統(tǒng)以及更高數(shù)量級(jí)的模塊應(yīng)用,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)模式的成本高、響應(yīng)慢、格式少等問(wèn)題日益凸顯,數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)難以滿足海關(guān)大數(shù)據(jù)管理和應(yīng)用的需求。數(shù)據(jù)湖技術(shù)可以同時(shí)滿足關(guān)系型數(shù)據(jù)和非關(guān)系型數(shù)據(jù)的存儲(chǔ),可以存儲(chǔ)來(lái)自業(yè)務(wù)型應(yīng)用系統(tǒng)的關(guān)系數(shù)據(jù),也能存儲(chǔ)來(lái)自移動(dòng)應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備和社交網(wǎng)絡(luò)的非關(guān)系數(shù)據(jù),并且在性價(jià)比、數(shù)據(jù)質(zhì)量、適用用戶類型、數(shù)據(jù)分析領(lǐng)域、靈活性等方面也都優(yōu)于數(shù)據(jù)倉(cāng)庫(kù)[2]。
數(shù)據(jù)湖的概念于2010 年由Pentaho 公司的創(chuàng)始人兼首席技術(shù)官James Dixon[3]首先提出,他把數(shù)據(jù)集市描述成一瓶清洗過(guò)的、包裝過(guò)的和結(jié)構(gòu)化易于使用的水。而數(shù)據(jù)湖更像是在自然狀態(tài)下的水,數(shù)據(jù)流從源系統(tǒng)流向這個(gè)湖,用戶可以在數(shù)據(jù)湖里校驗(yàn),取樣或完全的使用數(shù)據(jù)[4]。數(shù)據(jù)湖是指大規(guī)??蓴U(kuò)展的存儲(chǔ)庫(kù),它以原本格式保存大量原始數(shù)據(jù),而無(wú)需先對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,直到需要時(shí)再進(jìn)行處理,該系統(tǒng)可以在不損害數(shù)據(jù)結(jié)構(gòu)的情況下攝取數(shù)據(jù),然后運(yùn)用不同類型的引擎進(jìn)行分析,包括大數(shù)據(jù)處理、可視化、實(shí)時(shí)分析、機(jī)器學(xué)習(xí)等,以指導(dǎo)作出更好的決策。構(gòu)建數(shù)據(jù)湖通常是為了處理大量且快速到達(dá)的非結(jié)構(gòu)化數(shù)據(jù),并能夠?qū)ζ溥M(jìn)行進(jìn)一步的分析處理。因此,數(shù)據(jù)湖使用動(dòng)態(tài)(不像數(shù)據(jù)倉(cāng)庫(kù)那樣預(yù)制靜態(tài))分析應(yīng)用程序,湖中的數(shù)據(jù)一旦創(chuàng)建即可以訪問(wèn)(與緩慢更改數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)相反)[5]。
數(shù)據(jù)湖適用于存儲(chǔ)所有格式的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及二進(jìn)制數(shù)據(jù)[6]。用戶可以根據(jù)業(yè)務(wù)需求在數(shù)據(jù)湖中進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘,充分利用數(shù)據(jù)的價(jià)值,并且在不同的業(yè)務(wù)部門(mén)、應(yīng)用領(lǐng)域進(jìn)行應(yīng)用。數(shù)據(jù)湖技術(shù)作為大數(shù)據(jù)信息技術(shù)發(fā)展下產(chǎn)生的一種新思想、新技術(shù)、新架構(gòu),已被初步應(yīng)用于社會(huì)公共管理和商業(yè)等領(lǐng)域,并取得了一定的成效[7]。數(shù)據(jù)湖技術(shù)的特點(diǎn)及優(yōu)勢(shì)如下:
(1)存儲(chǔ)成本低。數(shù)據(jù)湖一般采用分布式文件系統(tǒng)(hadoop distributed file system,HDFS)存儲(chǔ)數(shù)據(jù),具備較強(qiáng)的擴(kuò)展能力。數(shù)據(jù)湖本身應(yīng)該內(nèi)置多模態(tài)的存儲(chǔ)引擎,以滿足不同的應(yīng)用對(duì)于數(shù)據(jù)訪問(wèn)需求(綜合考慮響應(yīng)時(shí)間/并發(fā)/訪問(wèn)頻次/成本等因素)。但是,在實(shí)際的使用過(guò)程中,數(shù)據(jù)湖中的數(shù)據(jù)通常并不會(huì)被高頻次的訪問(wèn),而且相關(guān)的應(yīng)用也多在進(jìn)行探索式的數(shù)據(jù)應(yīng)用,為了達(dá)到可接受的性價(jià)比,數(shù)據(jù)湖建設(shè)通常會(huì)選擇相對(duì)便宜的存儲(chǔ)引擎(如S3/OSS/HDFS/OBS),并且在需要時(shí)與外置存儲(chǔ)引擎協(xié)同工作,滿足多樣化的應(yīng)用需求。
(2)數(shù)據(jù)保真性。與數(shù)據(jù)倉(cāng)庫(kù)不同的地方在于,數(shù)據(jù)湖中必須要保存一份原始數(shù)據(jù),無(wú)論是數(shù)據(jù)格式、數(shù)據(jù)模式、數(shù)據(jù)內(nèi)容都不應(yīng)該被修改,數(shù)據(jù)湖強(qiáng)調(diào)的是對(duì)于業(yè)務(wù)數(shù)據(jù)“原汁原味”的保存,有利于開(kāi)展合規(guī)性檢查和內(nèi)部審計(jì),如果數(shù)據(jù)存儲(chǔ)經(jīng)歷了轉(zhuǎn)換、聚合和修改,將很難在需要時(shí)及時(shí)找到原始數(shù)據(jù),并且難以確定數(shù)據(jù)來(lái)源[8]。數(shù)據(jù)倉(cāng)庫(kù)只使用了數(shù)據(jù)的部分屬性,而數(shù)據(jù)湖保留了數(shù)據(jù)的所有最原始、最細(xì)節(jié)的信息,所以可以回答更多的問(wèn)題,允許組織中的各種角色通過(guò)自助分析工具(MR、Spark、SparkSQL 等),對(duì)數(shù)據(jù)進(jìn)行分析,以及利用AI、機(jī)器學(xué)習(xí)的技術(shù),從數(shù)據(jù)中發(fā)掘更多的價(jià)值。
(3)數(shù)據(jù)靈活性。“寫(xiě)入型schema”是數(shù)據(jù)在寫(xiě)入之前,就需要根據(jù)業(yè)務(wù)的訪問(wèn)方式確定數(shù)據(jù)的schema,并完成數(shù)據(jù)導(dǎo)入,這意味著數(shù)據(jù)倉(cāng)庫(kù)的前期成本較高,特別是當(dāng)業(yè)務(wù)模式不清晰、業(yè)務(wù)還處于探索階段時(shí),數(shù)據(jù)倉(cāng)庫(kù)的靈活性不夠。而數(shù)據(jù)湖采用的“讀取型schema”在準(zhǔn)備使用數(shù)據(jù)時(shí)才對(duì)數(shù)據(jù)進(jìn)行定義,數(shù)據(jù)模型的定義靈活性大大提高,更能滿足不同業(yè)務(wù)的需求[8]。這可以讓基礎(chǔ)設(shè)施具備使數(shù)據(jù)“按需”貼合業(yè)務(wù)的能力,當(dāng)業(yè)務(wù)需要時(shí),即可以根據(jù)需求對(duì)數(shù)據(jù)進(jìn)行加工處理。因此,數(shù)據(jù)湖更加適合業(yè)務(wù)高速變化發(fā)展的組織/企業(yè)。
(4)數(shù)據(jù)追溯性。數(shù)據(jù)湖實(shí)現(xiàn)對(duì)一個(gè)組織/企業(yè)中全量數(shù)據(jù)的存儲(chǔ),因此數(shù)據(jù)的生命周期管理至關(guān)重要,包括數(shù)據(jù)的定義、接入、存儲(chǔ)、處理、分析、應(yīng)用等全過(guò)程管理。一個(gè)強(qiáng)大的數(shù)據(jù)湖,能做到對(duì)其間的任意一條數(shù)據(jù)的接入、存儲(chǔ)、處理、消費(fèi)過(guò)程可追溯,能夠清楚的重現(xiàn)數(shù)據(jù)完整的產(chǎn)生過(guò)程和流動(dòng)過(guò)程。
目前,海關(guān)在大力推動(dòng)實(shí)施“智慧海關(guān)、智能邊境、智享聯(lián)通”建設(shè),不斷研究深化、豐富完善“三智”內(nèi)涵,深入推進(jìn)科技興關(guān)和“單一窗口”建設(shè),也對(duì)海關(guān)大數(shù)據(jù)發(fā)展提出新的要求。傳統(tǒng)的海關(guān)信息化系統(tǒng)側(cè)重于功能開(kāi)發(fā),以數(shù)據(jù)分析和應(yīng)用為輔,已基本實(shí)現(xiàn)了業(yè)務(wù)工作的信息化。然而,如何實(shí)現(xiàn)以海關(guān)數(shù)據(jù)為中心的信息技術(shù)轉(zhuǎn)型,將數(shù)據(jù)業(yè)務(wù)化,消除海關(guān)系統(tǒng)內(nèi)部與外部之間的信息壁壘,提供高質(zhì)量、高可用性和高實(shí)時(shí)性的數(shù)據(jù),使數(shù)據(jù)真正在海關(guān)部門(mén)內(nèi)部流動(dòng)和流轉(zhuǎn)起來(lái),支撐系統(tǒng)創(chuàng)新帶動(dòng)業(yè)務(wù)工作高效開(kāi)展,有效提高海關(guān)把關(guān)服務(wù)能力,是海關(guān)關(guān)注的重點(diǎn)問(wèn)題。
通過(guò)構(gòu)建海關(guān)數(shù)據(jù)湖,實(shí)現(xiàn)對(duì)海關(guān)各系統(tǒng)數(shù)據(jù)全量匯聚入湖存儲(chǔ),消除了“數(shù)據(jù)煙囪”和“信息孤島”,并通過(guò)數(shù)據(jù)的復(fù)雜關(guān)聯(lián)計(jì)算和深度分析與挖掘,結(jié)合先進(jìn)的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)技術(shù),完成數(shù)據(jù)匯總、模型搭建及運(yùn)行,以及將計(jì)算和匯總結(jié)果生成特定項(xiàng)目標(biāo)簽、指標(biāo)庫(kù)等,為上層系統(tǒng)提供海量數(shù)據(jù)的預(yù)測(cè)分析、即席查詢、復(fù)雜計(jì)算、數(shù)據(jù)挖掘等功能,提升海關(guān)科技化管理水平。
海關(guān)數(shù)據(jù)湖采用原生數(shù)據(jù)入湖方式,將業(yè)務(wù)數(shù)據(jù)與應(yīng)用系統(tǒng)脫鉤,支撐海關(guān)信息化系統(tǒng)實(shí)時(shí)、準(zhǔn)實(shí)時(shí)和離線數(shù)據(jù)應(yīng)用創(chuàng)新需求,是海關(guān)實(shí)現(xiàn)從傳統(tǒng)信息技術(shù)向大數(shù)據(jù)技術(shù)轉(zhuǎn)型的有效途徑。海關(guān)數(shù)據(jù)湖作為基礎(chǔ)設(shè)施對(duì)所有應(yīng)用系統(tǒng)共享,也是數(shù)據(jù)存儲(chǔ)和訪問(wèn)的唯一出口,統(tǒng)一存儲(chǔ)全系統(tǒng)數(shù)據(jù),通過(guò)開(kāi)放架構(gòu)支撐智慧運(yùn)行管理,能夠作為信息化系統(tǒng)集約化演進(jìn)的紐帶[9]。海關(guān)數(shù)據(jù)湖處理構(gòu)架如圖1 所示,主要包括數(shù)據(jù)存儲(chǔ)(“建湖”)、數(shù)據(jù)匯聚(“引水”)、數(shù)據(jù)治理(“管理”)、數(shù)據(jù)計(jì)算(“利用”)、數(shù)據(jù)服務(wù)(“價(jià)值”)等5 個(gè)部分。
圖1 海關(guān)數(shù)據(jù)湖處理架構(gòu)示意圖Fig.1 Schematic diagram of customs data lake processing structure
海關(guān)數(shù)據(jù)湖存儲(chǔ)利用分布式存儲(chǔ)作為數(shù)據(jù)存儲(chǔ)架構(gòu),分布式存儲(chǔ)有多種技術(shù)方案,但是目前大多利用Hadoop 這種低成本技術(shù)實(shí)現(xiàn)[10]。HDFS作為存儲(chǔ)層,可以接受由Kafka、FLume、Sqoop 或其他數(shù)據(jù)工具的任意格式的數(shù)據(jù)輸入,HDFS 的高拓展性、可靠性、安全性和高吞吐性滿足大數(shù)據(jù)處理的要求。HBase 作為NoSQL 數(shù)據(jù)庫(kù)典型代表,具備高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng)特點(diǎn),同時(shí)也是一個(gè)數(shù)據(jù)模型,通過(guò)Hadoop 提供的容錯(cuò)能力,實(shí)現(xiàn)快速隨機(jī)訪問(wèn)海量結(jié)構(gòu)化數(shù)據(jù)[11]。數(shù)據(jù)導(dǎo)入到數(shù)據(jù)湖后,可以選擇標(biāo)準(zhǔn)存儲(chǔ)(Standard)作為主要存儲(chǔ)方式,也可以選擇成本更低、存儲(chǔ)期限更長(zhǎng)的低頻訪問(wèn)存儲(chǔ)(infrequent access)、歸檔存儲(chǔ)(archive)、冷歸檔存儲(chǔ)(cold archive)作為不經(jīng)常訪問(wèn)數(shù)據(jù)的存儲(chǔ)方式,數(shù)據(jù)湖的數(shù)據(jù)資源支持按主題、組織、專題等維度編目數(shù)據(jù),保障數(shù)據(jù)的可檢索性。
針對(duì)海關(guān)信息化系統(tǒng)海量數(shù)據(jù)規(guī)模特點(diǎn),采用邏輯統(tǒng)一、物理分散的集約數(shù)據(jù)湖架構(gòu),可以有效解決數(shù)據(jù)孤島問(wèn)題,實(shí)現(xiàn)海關(guān)數(shù)據(jù)的高效共享。例如:海關(guān)監(jiān)管現(xiàn)場(chǎng)使用的X 光機(jī)、CT 機(jī)及各類傳感器等物聯(lián)網(wǎng)(internet of things,IOT)設(shè)備產(chǎn)生的文件,通過(guò)離線批量導(dǎo)入或者高速訪問(wèn)網(wǎng)絡(luò)進(jìn)入到存儲(chǔ)集群后通過(guò)Hadoop(HDFS)進(jìn)行分析處理,再進(jìn)入高性能計(jì)算群(high performance computing,HPC)集群網(wǎng)絡(luò)文件系統(tǒng)(network file system,NFS)進(jìn)行仿真計(jì)算,也可以讀取到圖形處理器(graphics processing unit,GPU)集群進(jìn)行訓(xùn)練(S3)。整個(gè)過(guò)程數(shù)據(jù)不需要復(fù)制和移動(dòng),實(shí)現(xiàn)了高效的數(shù)據(jù)共享。數(shù)據(jù)集中存儲(chǔ)和共享實(shí)際上是將存儲(chǔ)資源池化,將存儲(chǔ)與計(jì)算分離(如采用Spark 技術(shù)和亞馬遜云計(jì)算(amazon web services,AWS)、華為云、阿里云等云服務(wù)產(chǎn)品),大大降低存儲(chǔ)成本,有效提高計(jì)算資源的利用率,增強(qiáng)計(jì)算和存儲(chǔ)集群的靈活性。例如:業(yè)務(wù)部門(mén)向數(shù)據(jù)平臺(tái)部門(mén)單獨(dú)申請(qǐng)計(jì)算或存儲(chǔ)資源,采用分離架構(gòu)可以更靈活的分配資源。應(yīng)當(dāng)注意的是,存儲(chǔ)和計(jì)算分離往往伴隨大數(shù)據(jù)的服務(wù)化,需要從云化、資源彈性調(diào)度的角度管理資源。
數(shù)據(jù)只有匯聚引入海關(guān)數(shù)據(jù)湖,才能基于數(shù)據(jù)進(jìn)行分析和挖掘數(shù)據(jù)價(jià)值,從而支撐業(yè)務(wù)部門(mén)決策,驅(qū)動(dòng)海關(guān)業(yè)務(wù)發(fā)展。海關(guān)數(shù)據(jù)湖匯聚來(lái)自海關(guān)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)、外部交換數(shù)據(jù)(如部委交換、國(guó)際交換等)、外部采購(gòu)數(shù)據(jù)、互聯(lián)網(wǎng)采集數(shù)據(jù)、以及系統(tǒng)內(nèi)外部其他數(shù)據(jù),涵蓋了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。對(duì)于屬于潛在挖掘需求的數(shù)據(jù),采取原生生產(chǎn)數(shù)據(jù)方式導(dǎo)入數(shù)據(jù)湖;對(duì)于屬于明確需求的統(tǒng)計(jì)分析型數(shù)據(jù),采取統(tǒng)一模型轉(zhuǎn)換后入湖[12]。數(shù)據(jù)入湖分為物理入湖和虛擬入湖,根據(jù)數(shù)據(jù)使用的場(chǎng)景和需求,一個(gè)邏輯實(shí)體可以有不同的入湖方式。兩種入湖方式相互協(xié)同,共同滿足數(shù)據(jù)聯(lián)接和用戶數(shù)據(jù)消費(fèi)的需求。海關(guān)數(shù)據(jù)湖入湖的技術(shù)手段主要有批量集成、數(shù)據(jù)復(fù)制同步、消息集成、流集成、虛擬化集成等方式,以數(shù)據(jù)源拉(PulL)的方式導(dǎo)入數(shù)據(jù)湖,以采用數(shù)據(jù)源主動(dòng)向數(shù)據(jù)湖推(PusH)的方式入湖。通過(guò)將海關(guān)原生數(shù)據(jù)匯聚入湖,進(jìn)行統(tǒng)一存儲(chǔ)、整合、關(guān)聯(lián)和共享,能夠減少數(shù)據(jù)的重復(fù)采集、存儲(chǔ)和帶寬消耗,從而形成一個(gè)集中式數(shù)據(jù)存儲(chǔ)容納海關(guān)所有數(shù)據(jù)形式的海關(guān)數(shù)據(jù)湖。
數(shù)據(jù)不僅要存下來(lái),更要治理好,否則數(shù)據(jù)湖將變成數(shù)據(jù)沼澤,浪費(fèi)大量的IT 資源[1]。數(shù)據(jù)治理是對(duì)數(shù)據(jù)的全生命周期進(jìn)行管理,海關(guān)數(shù)據(jù)湖能否推動(dòng)海關(guān)業(yè)務(wù)的發(fā)展,數(shù)據(jù)治理至關(guān)重要。海關(guān)系統(tǒng)內(nèi)部收集的數(shù)據(jù)或從其他行業(yè)中采集數(shù)據(jù)種類多樣,格式不一,多數(shù)以原始格式存儲(chǔ),需要不斷對(duì)這些原始數(shù)據(jù)進(jìn)行整合加工,根據(jù)各業(yè)務(wù)組織、場(chǎng)景、需求形成容易分析的干凈數(shù)據(jù),并讓更多的人訪問(wèn)分析數(shù)據(jù)。數(shù)據(jù)湖的數(shù)據(jù)治理包括元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理、主數(shù)據(jù)管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)安全管理和數(shù)據(jù)生命周期管理等方面。通過(guò)數(shù)據(jù)治理可以提高海關(guān)數(shù)據(jù)湖數(shù)據(jù)的質(zhì)量,確保數(shù)據(jù)的安全,實(shí)現(xiàn)數(shù)據(jù)資源在海關(guān)各部門(mén)及外部相關(guān)單位的共享,進(jìn)一步發(fā)揮海關(guān)數(shù)據(jù)的資產(chǎn)作用。
數(shù)據(jù)湖作為海關(guān)的核心數(shù)據(jù)資產(chǎn),數(shù)據(jù)的安全管理是重中之重。隱私和安全性是海關(guān)數(shù)據(jù)湖治理的關(guān)鍵組成部分,包括通過(guò)對(duì)接H4A 管理系統(tǒng)實(shí)現(xiàn)對(duì)用戶的訪問(wèn)控制、身份驗(yàn)證、授權(quán),以及靜態(tài)和動(dòng)態(tài)數(shù)據(jù)加密等。數(shù)據(jù)湖雖然旨在打造一個(gè)開(kāi)放的數(shù)據(jù)源,但對(duì)于海關(guān)數(shù)據(jù)而言,安全性和訪問(wèn)控制措施必不可少,海關(guān)數(shù)據(jù)湖治理和信息安全管理人員應(yīng)全程參與數(shù)據(jù)湖設(shè)計(jì)和建設(shè)過(guò)程,并具備較高的數(shù)據(jù)安全事件閉環(huán)管控水平,提高數(shù)據(jù)安全事件的應(yīng)急處置能力。
上述工作是為進(jìn)行數(shù)據(jù)計(jì)算分析打基礎(chǔ),海關(guān)數(shù)據(jù)湖采用分布式計(jì)算框架,提供多種方式的數(shù)據(jù)分析引擎,如通過(guò)Spark、MR、SparkSQL、Flink 等多模態(tài)高性能分析計(jì)算引擎,對(duì)海量的原始數(shù)據(jù)進(jìn)行分析、抽取、計(jì)算、利用。直接訪問(wèn)海量存儲(chǔ)中的數(shù)據(jù),無(wú)需數(shù)據(jù)提取,減少數(shù)據(jù)轉(zhuǎn)換,支持高并發(fā)讀取和自助數(shù)據(jù)探索分析,提高實(shí)時(shí)分析效率[13]。
計(jì)算和數(shù)據(jù)分離后必然會(huì)帶來(lái)一定的網(wǎng)絡(luò)I/O開(kāi)銷,計(jì)算側(cè)Cache 可有效減少頻繁的網(wǎng)絡(luò)I/O 次數(shù)[13]。同時(shí)萬(wàn)兆網(wǎng)絡(luò)已經(jīng)得以普及,甚至更高。計(jì)算側(cè)Cache 采用多種算法,將數(shù)據(jù)緩存在計(jì)算側(cè),可以使得很多場(chǎng)景下計(jì)算與數(shù)據(jù)分離方案的性能甚至高于一體化方式。
為促進(jìn)海關(guān)數(shù)據(jù)共享和開(kāi)放應(yīng)用,應(yīng)完善海關(guān)數(shù)據(jù)湖平臺(tái)上的數(shù)據(jù)分析和建模工具,結(jié)合各種數(shù)據(jù)情況和應(yīng)用需求,集成各種數(shù)據(jù)開(kāi)發(fā)、獨(dú)立分析、可視化和應(yīng)用部署工具,提供一站式數(shù)據(jù)開(kāi)發(fā)和應(yīng)用服務(wù),促進(jìn)數(shù)據(jù)應(yīng)用生態(tài)的良性循環(huán)。
數(shù)據(jù)湖的價(jià)值需通過(guò)提供數(shù)據(jù)服務(wù)來(lái)體現(xiàn),以及與業(yè)務(wù)的深度融合與集成。海關(guān)數(shù)據(jù)湖服務(wù)提供數(shù)據(jù)基礎(chǔ)應(yīng)用平臺(tái)和數(shù)據(jù)開(kāi)發(fā)平臺(tái),平臺(tái)包括數(shù)據(jù)源管理、數(shù)據(jù)報(bào)表、數(shù)據(jù)報(bào)告以及數(shù)據(jù)運(yùn)算和展示等多種數(shù)據(jù)分析組件,同時(shí)兼容第三方數(shù)據(jù)分析工具。通過(guò)提供自助分析、數(shù)據(jù)可視化等多種方式給數(shù)據(jù)需求部門(mén)(包括業(yè)務(wù)職能部門(mén)、執(zhí)法部門(mén)等)進(jìn)行數(shù)據(jù)消費(fèi),自由發(fā)掘數(shù)據(jù)的潛能和價(jià)值。另外,通過(guò)數(shù)據(jù)湖將業(yè)務(wù)數(shù)據(jù)脫敏后存儲(chǔ)到數(shù)據(jù)湖,開(kāi)放給系統(tǒng)內(nèi)外科研機(jī)構(gòu)進(jìn)行研究性探索,研究成果可反饋應(yīng)用于海關(guān)業(yè)務(wù)工作,從而有效促進(jìn)基于海關(guān)數(shù)據(jù)的產(chǎn)學(xué)研合作與提升。依托數(shù)據(jù)湖提供的數(shù)據(jù)集成和開(kāi)發(fā)能力,以及對(duì)數(shù)據(jù)模型的理解,能夠定制數(shù)據(jù)處理流程,迭代處理原始數(shù)據(jù),從數(shù)據(jù)中提取有價(jià)值的信息,最終獲得超出原始數(shù)據(jù)分析服務(wù)的價(jià)值[14]。
海關(guān)數(shù)據(jù)湖的建設(shè)過(guò)程應(yīng)與海關(guān)業(yè)務(wù)工作緊密結(jié)合,與海關(guān)數(shù)據(jù)倉(cāng)庫(kù)以及數(shù)據(jù)中臺(tái)有所區(qū)別,海關(guān)數(shù)據(jù)湖建設(shè)采用“邊建邊用,邊用邊治理”更敏捷的方式來(lái)構(gòu)建,基本流程如圖2 所示。
圖2 海關(guān)數(shù)據(jù)湖建設(shè)基本流程Fig.2 Basic process of customs data lake construction
步驟1:數(shù)據(jù)摸底。構(gòu)建海關(guān)數(shù)據(jù)湖初始工作是對(duì)系統(tǒng)內(nèi)部的數(shù)據(jù)做一個(gè)全面和深入的摸底,包括數(shù)據(jù)來(lái)源、數(shù)據(jù)類型、數(shù)據(jù)形態(tài)、數(shù)據(jù)模式、數(shù)據(jù)總量、數(shù)據(jù)增量等。通過(guò)摸底工作,進(jìn)一步梳理明確數(shù)據(jù)和組織結(jié)構(gòu)之間關(guān)系,為后續(xù)明確數(shù)據(jù)湖的用戶角色、權(quán)限設(shè)計(jì)、服務(wù)方式奠定基礎(chǔ)。
步驟2:技術(shù)選型。根據(jù)數(shù)據(jù)摸底的情況,確定數(shù)據(jù)湖建設(shè)的技術(shù)選型,如采用分布式對(duì)象存儲(chǔ)系統(tǒng)(S3/OSS/OBS 等)。計(jì)算引擎主要考慮批處理需求和SQL 處理能力,并在應(yīng)用中逐步發(fā)展。如果需要獨(dú)立的資源池,則考慮構(gòu)建專用集群。
步驟3:數(shù)據(jù)接入。根據(jù)第一步的摸排結(jié)果,確定要接入的數(shù)據(jù)源。根據(jù)數(shù)據(jù)源,確定所必需的數(shù)據(jù)接入技術(shù)能力,完成數(shù)據(jù)接入技術(shù)選型,接入的數(shù)據(jù)至少包括:數(shù)據(jù)源元數(shù)據(jù)、原始數(shù)據(jù)元數(shù)據(jù)和原始數(shù)據(jù)。
步驟4:應(yīng)用治理。借助數(shù)據(jù)湖提供的各類計(jì)算引擎對(duì)數(shù)據(jù)進(jìn)行加工處理,形成各類中間數(shù)據(jù)/結(jié)果數(shù)據(jù),并妥善管理保存。數(shù)據(jù)湖應(yīng)該具備完善的數(shù)據(jù)開(kāi)發(fā)、任務(wù)管理、任務(wù)調(diào)度的能力,詳細(xì)記錄數(shù)據(jù)的處理過(guò)程。在治理的過(guò)程中,會(huì)需要更多的數(shù)據(jù)模型和指標(biāo)模型[15]。
步驟5:業(yè)務(wù)支撐。在通用模型基礎(chǔ)上,各個(gè)業(yè)務(wù)部門(mén)定制自己的細(xì)化數(shù)據(jù)模型、數(shù)據(jù)使用流程、數(shù)據(jù)訪問(wèn)服務(wù),以支撐海關(guān)業(yè)務(wù)發(fā)展需要。
以構(gòu)建進(jìn)出口食品風(fēng)險(xiǎn)監(jiān)控?cái)?shù)據(jù)湖為例(見(jiàn)圖3),針對(duì)目前重要食品貿(mào)易國(guó)(地區(qū))風(fēng)險(xiǎn)監(jiān)控?cái)?shù)據(jù)來(lái)源單一、格式多樣化等問(wèn)題,分析關(guān)鍵風(fēng)險(xiǎn)詞庫(kù)并梳理規(guī)律與特點(diǎn),采用基于關(guān)鍵風(fēng)險(xiǎn)詞庫(kù)驅(qū)動(dòng)的統(tǒng)計(jì)與規(guī)則相結(jié)合的無(wú)序非結(jié)構(gòu)化數(shù)據(jù)溪流識(shí)別算法進(jìn)行數(shù)據(jù)摸底,進(jìn)而開(kāi)展六源數(shù)據(jù)溪流的標(biāo)準(zhǔn)化采集技術(shù)研究,包括H2018 海關(guān)業(yè)務(wù)監(jiān)管數(shù)據(jù)庫(kù)、實(shí)驗(yàn)室檢測(cè)信息數(shù)據(jù)庫(kù)(laboratory information management system,LIMS)、境外預(yù)檢信息數(shù)據(jù)庫(kù)、國(guó)際物流供應(yīng)鏈組織/機(jī)構(gòu)信息數(shù)據(jù)庫(kù)、互聯(lián)網(wǎng)風(fēng)險(xiǎn)信息監(jiān)測(cè)數(shù)據(jù)庫(kù)、貿(mào)易國(guó)(地區(qū))政府通報(bào)信息數(shù)據(jù)庫(kù)等。技術(shù)上以Gbase 原生數(shù)據(jù)架構(gòu)格式存儲(chǔ),采用集成高性能應(yīng)用軟件(highperformance analytic appliance,HANA)計(jì) 算、MapReduce 分布式數(shù)據(jù)溪流清洗、多維度關(guān)聯(lián)規(guī)則挖掘、卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)等技術(shù)。六源數(shù)據(jù)標(biāo)準(zhǔn)化采集之后,及時(shí)匯聚并以Gbase 原生數(shù)據(jù)架構(gòu)格式來(lái)存儲(chǔ)食品風(fēng)險(xiǎn)監(jiān)控?cái)?shù)據(jù)。Gbase 支持linux 系列操作系統(tǒng),如RedHat 和SUSE,除了提供企業(yè)管理器、監(jiān)控工具、加載工具、備份/恢復(fù)工具以及集群重分布工具等集群管理工具,GBase 還提供JDBC、ODBC、ADO.NET、CAP 等4 個(gè)對(duì)外的標(biāo)準(zhǔn)開(kāi)發(fā)接口,以方便外部對(duì)GBase 集群的訪問(wèn)。進(jìn)出口食品風(fēng)險(xiǎn)監(jiān)控?cái)?shù)據(jù)湖通過(guò)將原始進(jìn)出口食品風(fēng)險(xiǎn)監(jiān)控?cái)?shù)據(jù)分類存儲(chǔ)到不同數(shù)據(jù)池中,并對(duì)每個(gè)數(shù)據(jù)池中的數(shù)據(jù)轉(zhuǎn)化成統(tǒng)一的GBase 原生格式存儲(chǔ),以便于計(jì)算分析。借助GBase 存儲(chǔ)架構(gòu),可方便地對(duì)大量進(jìn)出口食品風(fēng)險(xiǎn)監(jiān)控?cái)?shù)據(jù)和相關(guān)信息進(jìn)行快速、多角度分析,及時(shí)發(fā)現(xiàn)安全隱患,為食品風(fēng)險(xiǎn)監(jiān)控云服務(wù)平臺(tái)提供數(shù)據(jù)支持。
圖3 進(jìn)出口食品風(fēng)險(xiǎn)監(jiān)控?cái)?shù)據(jù)湖應(yīng)用實(shí)踐Fig.3 Application of import and export food risk monitoring data lake
海關(guān)數(shù)據(jù)湖與傳統(tǒng)大數(shù)據(jù)平臺(tái)相同的地方在于具備處理超大規(guī)模數(shù)據(jù)所需的存儲(chǔ)和計(jì)算能力,能提供多模式的數(shù)據(jù)處理能力,同時(shí)海關(guān)數(shù)據(jù)湖的增強(qiáng)點(diǎn)在于數(shù)據(jù)湖提供了更為完善的數(shù)據(jù)管理能力,具體體現(xiàn)在:
(1)更強(qiáng)大的數(shù)據(jù)接入能力。數(shù)據(jù)接入能力體現(xiàn)在對(duì)于各類外部異構(gòu)數(shù)據(jù)源的定義管理能力,以及對(duì)于外部數(shù)據(jù)源相關(guān)數(shù)據(jù)的抽取遷移能力,抽取遷移的數(shù)據(jù)包括外部數(shù)據(jù)源的元數(shù)據(jù)與實(shí)際存儲(chǔ)的數(shù)據(jù)。
(2)更強(qiáng)大的數(shù)據(jù)管理能力。數(shù)據(jù)管理能力具體又可分為基本管理能力和擴(kuò)展管理能力?;竟芾砟芰κ且粋€(gè)數(shù)據(jù)湖系統(tǒng)所必需的,包括元數(shù)據(jù)管理、數(shù)據(jù)訪問(wèn)控制、數(shù)據(jù)資產(chǎn)管理;而擴(kuò)展管理能力包括任務(wù)管理、流程編排以及與數(shù)據(jù)質(zhì)量、數(shù)據(jù)治理相關(guān)的能力。
(3)可共享的元數(shù)據(jù)。數(shù)據(jù)湖中的各類計(jì)算引擎會(huì)與數(shù)據(jù)湖中的數(shù)據(jù)深度融合,而融合的基礎(chǔ)就是數(shù)據(jù)湖的元數(shù)據(jù)。優(yōu)質(zhì)的數(shù)據(jù)湖系統(tǒng),計(jì)算引擎在處理數(shù)據(jù)時(shí),能從元數(shù)據(jù)中直接獲取數(shù)據(jù)存儲(chǔ)位置、數(shù)據(jù)格式、數(shù)據(jù)模式、數(shù)據(jù)分布等信息,然后直接進(jìn)行數(shù)據(jù)處理,而無(wú)需進(jìn)行人工/編程干預(yù)。
以上闡述了基于數(shù)據(jù)湖技術(shù)特點(diǎn)提出的數(shù)據(jù)湖思想大數(shù)據(jù)應(yīng)用架構(gòu)方案,分析了數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)匯聚、數(shù)據(jù)治理、數(shù)據(jù)計(jì)算、數(shù)據(jù)服務(wù)等方案解決思路,并介紹了建設(shè)海關(guān)數(shù)據(jù)湖的基本流程及應(yīng)用案例分析。構(gòu)建海關(guān)數(shù)據(jù)湖有利于打破數(shù)據(jù)孤島,有效解決和提高海關(guān)數(shù)據(jù)接入質(zhì)量,提高海關(guān)未來(lái)信息化建設(shè)中大數(shù)據(jù)分析和數(shù)據(jù)共享能力,更好發(fā)揮海關(guān)數(shù)據(jù)的價(jià)值。
下一步將進(jìn)行的工作是在海關(guān)積極推進(jìn)“三智”建設(shè)與合作的背景下,利用數(shù)據(jù)湖技術(shù)和思想,找出現(xiàn)代海關(guān)治理中的數(shù)據(jù)分析和共享的解決方案,為構(gòu)建高效協(xié)同的智能邊境,推進(jìn)海關(guān)信息化建設(shè)進(jìn)程;為促進(jìn)全球供應(yīng)鏈的互聯(lián)互通貢獻(xiàn)海關(guān)的科技力量。