蔡珉官 王朋
摘 要:傳統(tǒng)存儲技術(shù)已經(jīng)不適合大數(shù)據(jù)時代的數(shù)據(jù)分析和應用,數(shù)據(jù)湖概念的出現(xiàn)有效解決了數(shù)據(jù)存儲成本高、靈活性低、異構(gòu)數(shù)據(jù)多樣化等問題。目前數(shù)據(jù)湖研究還處于早期階段,缺乏覆蓋數(shù)據(jù)處理全過程的綜述性研究。為了更全面地了解數(shù)據(jù)湖技術(shù),調(diào)查分析了近幾年數(shù)據(jù)湖技術(shù)的研究成果。首先,梳理了數(shù)據(jù)湖發(fā)展歷程和概念,并與其他類似的概念進行了比較;其次,對數(shù)據(jù)湖架構(gòu)進行了調(diào)查,并根據(jù)架構(gòu)特征把數(shù)據(jù)湖關鍵技術(shù)分為存儲、數(shù)據(jù)攝取、數(shù)據(jù)維護、數(shù)據(jù)探索、數(shù)據(jù)治理等部分,分析和討論了關鍵技術(shù)的最新研究進展、技術(shù)方案、研究缺陷以及今后研究方向;最后,調(diào)查了數(shù)據(jù)湖在各個應用領域的典型應用,為各行業(yè)數(shù)據(jù)湖的實施者提供了參考。
關鍵詞:數(shù)據(jù)湖;元數(shù)據(jù)管理;數(shù)據(jù)組織;數(shù)據(jù)發(fā)現(xiàn);數(shù)據(jù)探索
中圖分類號:TP311?? 文獻標志碼:A?? 文章編號:1001-3695(2023)12-002-3529-10
doi:10.19734/j.issn.10013695.2023.05.0173
Survey of data lake technology research
Abstract:Traditional data storage technologies are no longer suitable for data analysis and application in the era of big data.The emergence of the concept of data lake effectively solves the problems of high data storage costs,low flexibility,and heterogeneous data diversification.Currently,the research on data lake is still in the early stage,and there is a lack of comprehensive research and discussion covering the entire process of data processing.In order to understand data lake technology more comprehensively,this paper reviewed the research results of data lake technology in recent years.Firstly,it sorted out the development history and concepts of data lake,and compared them with other similar concepts.Secondly,it investigated the data lake architecture,and divided the key technologies of the data lake into storage,data ingestion,data maintenance,data exploration,and data governance according to the architecture of characteristics.It analyzed and discussed the latest research progress,technical solutions,research deficiencies,and future research directions of key technologies.Finally,it investigated the typical applications of data lake in various application fields,providing references for implementers of data lake in various industries.
Key words:data lake;metadata management;data organization;data discovery;data exploration
云計算、社交媒體、物聯(lián)網(wǎng)、短視頻等新一代互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展帶來了數(shù)據(jù)的爆炸式增長。很多企業(yè)和組織經(jīng)過多年的信息化發(fā)展,已經(jīng)積累了各種類型的海量數(shù)據(jù)。隨著時間的推移,海量數(shù)據(jù)的存儲和分析是每個組織所面臨的挑戰(zhàn),如何有效地處理和分析海量數(shù)據(jù)是每個組織在數(shù)字化轉(zhuǎn)型過程中需要解決的關鍵問題。
大數(shù)據(jù)的興起給數(shù)據(jù)庫研究帶來了許多挑戰(zhàn)。大數(shù)據(jù)具有數(shù)量、多樣性、速度和真實性四個典型特征。針對大數(shù)據(jù)的這些特征,準確地收集、存儲和處理并提供有價值的信息,是目前大數(shù)據(jù)存儲技術(shù)需要研究的內(nèi)容。尤其是物聯(lián)網(wǎng)、社交網(wǎng)絡、科學研究、音/視頻產(chǎn)生了大量的半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù),并且這些復雜多變的數(shù)據(jù)都是煙筒式的分散數(shù)據(jù)集。企業(yè)和組織需要通過更有效的數(shù)據(jù)架構(gòu)來存儲和處理這些雜亂的數(shù)據(jù),以及采用更靈活的方法進行數(shù)據(jù)分析。
雖然很多企業(yè)和組織還在通過傳統(tǒng)的數(shù)據(jù)集和數(shù)據(jù)倉庫進行數(shù)據(jù)處理和分析,但在大數(shù)據(jù)時代擅長處理結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)倉庫已經(jīng)不能滿足復雜數(shù)據(jù)分析的需求。靈活性不高、存儲成本高以及不善于處理多類型數(shù)據(jù),這三點是傳統(tǒng)數(shù)據(jù)存儲技術(shù)所面臨的最大挑戰(zhàn)。
為了實現(xiàn)對這些復雜數(shù)據(jù)全面、靈活的分析,近年來出現(xiàn)了數(shù)據(jù)湖的概念。數(shù)據(jù)湖是以原始數(shù)據(jù)格式存儲各種來源數(shù)據(jù),簡化和改進大數(shù)據(jù)存儲、管理和分析的一種技術(shù)[1]。數(shù)據(jù)湖的優(yōu)點[2,3]引起了大數(shù)據(jù)領域的商業(yè)技術(shù)專家和學術(shù)研究者的廣泛關注,而近幾年對數(shù)據(jù)湖相關的研究也得到了飛速發(fā)展。迄今為止,已經(jīng)提出了多種數(shù)據(jù)湖解決方案和系統(tǒng)架構(gòu),但是由于數(shù)據(jù)湖概念的發(fā)展還處于早期階段,很多研究和方案都是針對特殊的應用領域。而數(shù)據(jù)湖關鍵技術(shù)方面的研究也集中在架構(gòu)和元數(shù)據(jù)管理等部分領域[4],缺乏數(shù)據(jù)處理全過程中各階段詳細技術(shù)分析和討論。尤其是在國內(nèi)數(shù)據(jù)湖概念比較陌生,很多組織和企業(yè)對數(shù)據(jù)湖的概念還沒有充分的認識,而國內(nèi)的學術(shù)領域?qū)?shù)據(jù)湖相關的技術(shù)研究非常有限,很多學者還沒有對數(shù)據(jù)湖和大數(shù)據(jù)技術(shù)平臺相關的概念進行系統(tǒng)地比較和解析。
本文作為數(shù)據(jù)湖技術(shù)的研究綜述,主要貢獻包括:a)為國內(nèi)的數(shù)據(jù)湖實施者提供了目前最先進的技術(shù)和參考方案;b)為數(shù)據(jù)湖研究者提供了比較全面的數(shù)據(jù)湖概念和技術(shù)介紹,為后續(xù)的數(shù)據(jù)湖研究者提供了參考;c)介紹了數(shù)據(jù)湖的一些典型應用,為行業(yè)領域的數(shù)據(jù)湖應用提供了參考。
1 數(shù)據(jù)湖發(fā)展歷程
在谷歌學術(shù)搜索引擎上以“data lake”為關鍵詞搜索每年的文章數(shù)量,得出了圖1所示的統(tǒng)計圖。從圖中可以看到2014年之前,數(shù)據(jù)湖仍處于萌芽階段,文章數(shù)量在低位緩慢增長;2015—2017年,數(shù)據(jù)湖概念開始被業(yè)內(nèi)熟知,并開始積累相關技術(shù),對應論文數(shù)量有了明顯的增加趨勢;2018—2022年,數(shù)據(jù)湖技術(shù)得到了蓬勃發(fā)展,相關文章和論文數(shù)據(jù)量迅速增加。根據(jù)以上分析數(shù)據(jù),數(shù)據(jù)湖發(fā)展可以分為萌芽期、技術(shù)積累期和快速發(fā)展期三個階段。
1.1 萌芽期
此階段,數(shù)據(jù)湖主要在商業(yè)界經(jīng)歷了“提出—炒作—批評—改進”等發(fā)展過程。數(shù)據(jù)湖的概念最早在商業(yè)界以大數(shù)據(jù)平臺的解決方案提出。2010年,pentaho首席技術(shù)官Dixon[5]首次提出了這個方案,嘗試解決傳統(tǒng)數(shù)據(jù)集市只能處理預定義問題的缺陷和數(shù)據(jù)被聚集后丟失數(shù)據(jù)最低級別可見度的問題。其利用Hadoop優(yōu)化了存儲在“湖中”數(shù)據(jù)的組織方式,讓用戶在數(shù)據(jù)湖中提取自己解決問題時需要的數(shù)據(jù)塊。經(jīng)過一年多的發(fā)展,商業(yè)界高管們開始注意到數(shù)據(jù)湖概念,CITO Research公司的Woods[6]呼吁積極采用數(shù)據(jù)湖架構(gòu)作為處理大數(shù)據(jù)的新架構(gòu)和新方法,并提出了具體的解決問題的思路和工具,但這些工具和方法還沒有形成體系,沒有提出完善的整體架構(gòu)方法。
2013年,文獻[7]為了解決傳統(tǒng)數(shù)據(jù)倉庫所面臨的問題,提出了業(yè)務數(shù)據(jù)湖架構(gòu),該架構(gòu)采用了分層設計,包括數(shù)據(jù)接收層、數(shù)據(jù)處理層、數(shù)據(jù)洞察層、數(shù)據(jù)行為層等。該架構(gòu)嘗試以數(shù)據(jù)湖的思想解決數(shù)據(jù)集成和分析數(shù)據(jù)的即時訪問問題,同時還給出了相應的工具,但這些工具只是該公司的技術(shù)方案,并沒有給出具體的數(shù)據(jù)治理內(nèi)容。
2014年,商業(yè)領域普遍接收數(shù)據(jù)湖,以數(shù)據(jù)湖作為數(shù)據(jù)中心,提高可擴展性和靈活性的基礎上以業(yè)務與數(shù)據(jù)緊密結(jié)合,開發(fā)基于業(yè)務的數(shù)據(jù)應用[8]。很多大數(shù)據(jù)供應商開始炒作數(shù)據(jù)湖概念,于是Gartner公司為了大數(shù)據(jù)市場的健康發(fā)展提出了對數(shù)據(jù)湖的批評和質(zhì)疑[9]。其中提出了“數(shù)據(jù)沼澤”的問題,即如果沒有元數(shù)據(jù)管理,數(shù)據(jù)湖里的數(shù)據(jù)是無法使用的數(shù)據(jù),同時也指出需要進行數(shù)據(jù)治理的必要性。Gartner公司的觀點指明了其后幾年數(shù)據(jù)湖技術(shù)發(fā)展的方向。
普華永道將數(shù)據(jù)湖應用到企業(yè)數(shù)據(jù)集成方案,認為低成本存儲、靈活的數(shù)據(jù)模式以及數(shù)據(jù)的方便獲取程度是大數(shù)據(jù)時代數(shù)據(jù)集成需要考慮的內(nèi)容[10]。而IBM公司把數(shù)據(jù)治理和數(shù)據(jù)管理納入到數(shù)據(jù)湖,提出了面向業(yè)務主題的大數(shù)據(jù)分析方案[11]。另外,學術(shù)界也開始關注數(shù)據(jù)湖,并提出建議通過AI和眾包來克服數(shù)據(jù)湖在數(shù)據(jù)集成、訪問和數(shù)據(jù)質(zhì)量等方面所面臨的挑戰(zhàn)[12]。
1.2 技術(shù)積累期
2015—2017年為數(shù)據(jù)湖技術(shù)積累期,在這個階段數(shù)據(jù)湖在商業(yè)界和學術(shù)界得到了更多的認可,豐富了技術(shù)方面的積累。
2015年,IBM的Terrizzano等人[13]在數(shù)據(jù)爭論中提到當前數(shù)據(jù)湖實施過程中的種種挑戰(zhàn),分別在數(shù)據(jù)采集、數(shù)據(jù)梳理、數(shù)據(jù)供應、數(shù)據(jù)保障等方面所碰到的問題進行了詳細的討論。該技術(shù)文檔是蓋特納公司提出數(shù)據(jù)湖質(zhì)疑之后,首次全方位闡述了數(shù)據(jù)湖所面臨的挑戰(zhàn),并指明了今后需解決的問題方向。
2015年,作為國內(nèi)學者,Huang等人[14,15]發(fā)表了大數(shù)據(jù)時代的數(shù)據(jù)湖管理,數(shù)據(jù)湖在學術(shù)界開始得到廣泛的關注,同時期數(shù)據(jù)湖應用方面的研究也開始出現(xiàn)[16,17],這期間數(shù)據(jù)湖相關的專業(yè)圖書也陸續(xù)出版[18,19]。同時許多IT商業(yè)巨頭紛紛推出自己的數(shù)據(jù)湖產(chǎn)品,如谷歌的goods system、微軟的Azure Data Lake Store、SAP的Vora等。
這期間,數(shù)據(jù)湖的研究主要集中在概念定義方面,數(shù)據(jù)湖架構(gòu)研究擴展得非常有限,主要的研究重點還是圍繞著元數(shù)據(jù)管理。而且數(shù)據(jù)湖的應用研究數(shù)量也是非常有限,數(shù)據(jù)湖的用途都停留在大數(shù)據(jù)存儲的方面,沒有達到更深層次的應用高度。
1.3 快速增長期
2018年至今,數(shù)據(jù)湖在商業(yè)界和學術(shù)界得到了蓬勃發(fā)展。這一期間數(shù)據(jù)湖在架構(gòu)、概念、應用、治理等方面都得到了豐富的補充。
首先許多IT大廠商都提出了自己的數(shù)據(jù)湖解決方案,國外有亞馬遜、微軟、谷歌,國內(nèi)有阿里、華為、騰訊、星環(huán)等,在數(shù)據(jù)湖的各個組成部分都可以提供成熟的方法和工具。
與此同時,學術(shù)界對數(shù)據(jù)湖的原型實現(xiàn)相關的研究也得到了廣泛的關注,包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)來源、數(shù)據(jù)準備、數(shù)據(jù)集組織、數(shù)據(jù)集成、數(shù)據(jù)發(fā)現(xiàn)等。也可以看到這一時期出現(xiàn)了大量的數(shù)據(jù)湖應用研究,這些應用領域包括醫(yī)療、電力、智慧城市、教育、通信等各個方面,為大數(shù)據(jù)平臺在各領域的深度融合起到了非常關鍵的作用。這個階段國內(nèi)研究者也開始關注數(shù)據(jù)湖技術(shù),研究領域涉及到數(shù)據(jù)湖架構(gòu)[20]和安全技術(shù)[21,22]。
經(jīng)過近幾年的快速發(fā)展,再加上數(shù)據(jù)湖在產(chǎn)業(yè)界和學術(shù)界不斷突破,給企業(yè)和組織的數(shù)據(jù)湖落地提供更加豐富的解決方案和建議。但是,數(shù)據(jù)湖的概念目前還處于早起階段,其架構(gòu)還沒有形成行業(yè)標準,技術(shù)細節(jié)方面需要解決的難題層出不窮,解決方案過度依賴機器學習等問題需要解決。
2 數(shù)據(jù)湖概念梳理
2.1 數(shù)據(jù)湖定義
回顧數(shù)據(jù)湖相關文獻,學者們對于數(shù)據(jù)湖的定義給出了自己的見解,但到目前為止其定義范圍非常模糊,沒有明確的定義。文獻[13]認為數(shù)據(jù)湖是基于低成本的存儲海量數(shù)據(jù)的方法;文獻[15]提到數(shù)據(jù)湖是現(xiàn)有數(shù)據(jù)架構(gòu)的發(fā)展產(chǎn)物;文獻[23]認為數(shù)據(jù)湖是一個數(shù)據(jù)呼吸系統(tǒng);文獻[24]提出數(shù)據(jù)湖是一種靈活、可擴展的數(shù)據(jù)存儲和管理系統(tǒng);文獻[4]把數(shù)據(jù)湖定義為一種可擴展的數(shù)據(jù)存儲和分析系統(tǒng)。
從上面的定義中可以看到數(shù)據(jù)湖的概念還沒有明確,學者們根據(jù)自身的理解和研究角度把數(shù)據(jù)湖的一些特點進行了概述。本文認為,數(shù)據(jù)湖無疑是應對大數(shù)據(jù)挑戰(zhàn)的一種解決方案,它能夠更廉價、更靈活、更安全地處理各種來源的原始數(shù)據(jù),為大數(shù)據(jù)分析提供有力的支撐。
2.2 數(shù)據(jù)湖與其他概念的比較
2.2.1 數(shù)據(jù)湖和數(shù)據(jù)倉庫
數(shù)據(jù)倉庫概念最早由IBM公司提出,根據(jù)Inmon的定義,數(shù)據(jù)倉庫是支持管理決策的、面向主題的、非易失的、集成的、時時變化的數(shù)據(jù)集合[25]。數(shù)據(jù)湖概念的出現(xiàn),很多人聯(lián)想到數(shù)據(jù)倉庫,有些人甚至認為數(shù)據(jù)湖就是大數(shù)據(jù)時代的數(shù)據(jù)倉庫。因為兩者都集中存儲不同來源數(shù)據(jù),為組織的數(shù)據(jù)集成提供了重要依據(jù);同時兩者都為組織提供了數(shù)據(jù)分析、挖掘和決策方面的數(shù)據(jù)管理和處理平臺。但兩個概念產(chǎn)生的背景和時間有巨大差異,更重要的是兩者在數(shù)據(jù)處理思想上存在著巨大的不同。表1匯總了數(shù)據(jù)倉庫和數(shù)據(jù)湖之間的比較。
兩者之間的主要區(qū)別之一是數(shù)據(jù)獲取方式不同。數(shù)據(jù)倉庫以處理過的數(shù)據(jù)和過濾過的數(shù)據(jù)為獲取對象,而數(shù)據(jù)湖是以原始或未處理過的數(shù)據(jù)為獲取對象。具體來說,數(shù)據(jù)在放入倉庫之前被處理(通過ETL過程),而放入數(shù)據(jù)湖的數(shù)據(jù)是不經(jīng)過數(shù)據(jù)處理的原始數(shù)據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)是清理后的數(shù)據(jù),可以直接執(zhí)行分析,即寫模式。相反,在數(shù)據(jù)湖中采用了讀模式,數(shù)據(jù)是根據(jù)需要選擇性地組織和分析,能夠更加靈活地處理數(shù)據(jù)。
另一個關鍵區(qū)別是使用的主題或目標。數(shù)據(jù)倉庫所獲取到的數(shù)據(jù)通常用于特定主題,因此不會浪費存儲空間,對數(shù)據(jù)分析者的專業(yè)知識要求不高。相反,數(shù)據(jù)湖中使用目的預先沒有確定,可用于今后任何分析目的,分析者要熟知大量未處理過的數(shù)據(jù),需特定技能的數(shù)據(jù)科學家。
數(shù)據(jù)存儲庫的可訪問性或易用性是區(qū)分數(shù)據(jù)倉庫和數(shù)據(jù)湖的另一個方面。由于數(shù)據(jù)倉庫的結(jié)構(gòu)比較固定,調(diào)整數(shù)據(jù)結(jié)構(gòu)的成本非常高,相反,數(shù)據(jù)湖是沒有固定數(shù)據(jù)結(jié)構(gòu),所以具有很高的靈活性。
從表1的對比中可以看出,數(shù)據(jù)湖技術(shù)彌補了大數(shù)據(jù)時代傳統(tǒng)數(shù)據(jù)倉庫面臨的問題,尤其是在廉價存儲成本、架構(gòu)可擴展性、數(shù)據(jù)訪問靈活性等方面,數(shù)據(jù)湖是不可或缺的技術(shù)方案。
2.2.2 數(shù)據(jù)中臺和數(shù)據(jù)湖
中臺的概念最早是由阿里巴巴集團提出的,是企業(yè)內(nèi)部共享業(yè)務思想的產(chǎn)物,而中臺又分為業(yè)務中臺、數(shù)據(jù)中臺、技術(shù)中臺。其中數(shù)據(jù)中臺(data platform) 以數(shù)據(jù)為中心,在數(shù)據(jù)集成(特別是語義集成) 的基礎上以服務的方式提供數(shù)據(jù)的全生命周期管理,為業(yè)務構(gòu)建提供便利,實現(xiàn)數(shù)據(jù)對于應用業(yè)務的價值[26],其本質(zhì)就是數(shù)據(jù)平臺。
數(shù)據(jù)中臺和數(shù)據(jù)湖都是企業(yè)應對內(nèi)外部大數(shù)據(jù)生態(tài)挑戰(zhàn)的數(shù)據(jù)架構(gòu)方案,兩個概念的核心中都包括數(shù)據(jù)統(tǒng)一集成、開放數(shù)據(jù)能力以及靈活數(shù)據(jù)訪問等特點。
雖然兩個概念都產(chǎn)生在大數(shù)據(jù)時代,但針對解決的問題范圍不同。數(shù)據(jù)湖強調(diào)的是應對大數(shù)據(jù)挑戰(zhàn)的數(shù)據(jù)存儲和治理方案,而數(shù)據(jù)中臺是一種全局的數(shù)據(jù)解決方案。數(shù)據(jù)中臺是數(shù)據(jù)湖概念的超集,數(shù)據(jù)中臺除了包含數(shù)據(jù)湖概念特性之外,還需要滿足更多的系統(tǒng)功能,包括數(shù)據(jù)資產(chǎn)管理、治理機制、數(shù)據(jù)安全、數(shù)據(jù)能力共享等。兩者解決的問題背景是不同的。數(shù)據(jù)湖概念的出現(xiàn)帶來了數(shù)據(jù)存儲和探索方式轉(zhuǎn)變,有效應對了大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn),而數(shù)據(jù)中臺則解決了企業(yè)大數(shù)據(jù)平臺實施層面的問題,其關注的問題是如何更好地發(fā)掘數(shù)據(jù)價值,屬于企業(yè)信息管理的范疇。
國內(nèi)很多數(shù)據(jù)廠商和企事業(yè)單位在數(shù)字化轉(zhuǎn)型方案中都引入了數(shù)據(jù)中臺概念,可見數(shù)據(jù)中臺概念在國內(nèi)已經(jīng)覆蓋了數(shù)據(jù)湖的概念。數(shù)據(jù)中臺概念目前更多應用在商業(yè)領域,在學術(shù)領域中仍沒有受到足夠重視。相比之下,數(shù)據(jù)湖概念在國外的學術(shù)領域中發(fā)展得非常迅速,并已經(jīng)形成了一定的學術(shù)體系。從第1章所述的發(fā)展歷程可以看出,盡管數(shù)據(jù)湖仍處在發(fā)展的初期階段,但在業(yè)內(nèi)和學術(shù)領域已經(jīng)形成了共識,是今后大數(shù)據(jù)技術(shù)研究過程中不能忽視的重要內(nèi)容。
3 數(shù)據(jù)湖架構(gòu)
數(shù)據(jù)湖架構(gòu)主要描述了各組件以及組件之間的關系,說明了數(shù)據(jù)的存儲、處理和訪問過程。數(shù)據(jù)湖架構(gòu)研究最初主要涉及到數(shù)據(jù)的劃分、管理和使用方式。隨著研究的進展,數(shù)據(jù)湖的架構(gòu)包含了更深層次的關鍵技術(shù)和方案。
3.1 分區(qū)架構(gòu)
在最初的數(shù)據(jù)湖架構(gòu)設計中,數(shù)據(jù)預處理起著非常重要的作用,其中最主要的架構(gòu)是池架構(gòu)和分區(qū)架構(gòu)[27]。
池架構(gòu)是Inmon[28]設計的數(shù)據(jù)湖架構(gòu),把數(shù)據(jù)根據(jù)不同的特征劃分到原始數(shù)據(jù)池、模擬數(shù)據(jù)池、應用數(shù)據(jù)池、文本數(shù)據(jù)池和歸檔數(shù)據(jù)池五個數(shù)據(jù)池中。在池架構(gòu)中不同池中所存儲的數(shù)據(jù),同時只能使用一個池的數(shù)據(jù)。池架構(gòu)的最大缺陷是沒有保留數(shù)據(jù)原始格式形態(tài),這違背了數(shù)據(jù)湖的思想。
相反,分區(qū)架構(gòu)在保留數(shù)據(jù)的原始格式方面做了很多處理。分區(qū)架構(gòu)中比較有代表性的是數(shù)據(jù)管理廠商Zaloni[19]提出的架構(gòu),在架構(gòu)中根據(jù)數(shù)據(jù)處理程度劃分了臨時加載區(qū)、原始數(shù)據(jù)區(qū)、精煉數(shù)據(jù)區(qū)、可信任數(shù)據(jù)區(qū)、數(shù)據(jù)探索區(qū)、數(shù)據(jù)消費區(qū)。當然,分區(qū)架構(gòu)中的分區(qū)名稱和數(shù)量是不固定的,很多分區(qū)架構(gòu)都有各自的分區(qū)解決方案[27],但也有共同點,就是都按照數(shù)據(jù)的處理程度來劃分分區(qū),也可以根據(jù)自己的需求同時調(diào)用不同分區(qū)中的數(shù)據(jù)。
一些研究者基于分區(qū)架構(gòu)開發(fā)了特殊的架構(gòu)方案,文獻[27]把Lambda架構(gòu)的批處理和數(shù)據(jù)流處理特點結(jié)合到分區(qū)架構(gòu),滿足數(shù)據(jù)湖用戶的及時訪問需求。文獻[24]的分區(qū)架構(gòu)中引入了工作流,不同分區(qū)之間的數(shù)據(jù)處理實現(xiàn)了自動化操作。
分區(qū)架構(gòu)在數(shù)據(jù)湖中的數(shù)據(jù)預處理方面提供了很多方法和建議,但分區(qū)架構(gòu)無法覆蓋數(shù)據(jù)湖所涉及的全部范圍,最近的分區(qū)架構(gòu)中引入了很多技術(shù)架構(gòu)因素[4],可以看出數(shù)據(jù)湖架構(gòu)已經(jīng)開始演變?yōu)楦尤娴募夹g(shù)架構(gòu)。
3.2 數(shù)據(jù)湖技術(shù)架構(gòu)
數(shù)據(jù)湖技術(shù)架構(gòu)能夠更加深入地描述數(shù)據(jù)湖中技術(shù)組件之間的關系,IT廠商和研究者已經(jīng)提出了各種數(shù)據(jù)湖架構(gòu)[24,29~32],這些架構(gòu)的共同點是通過對數(shù)據(jù)處理的不同階段進行分類,劃分了架構(gòu)組件,即分為數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)維護(處理)、數(shù)據(jù)探索等。隨著數(shù)據(jù)湖技術(shù)架構(gòu)的不斷完善,架構(gòu)中增加了數(shù)據(jù)治理相關組件[33],包括數(shù)據(jù)安全、質(zhì)量管理等。
從研究者提出的數(shù)據(jù)湖技術(shù)架構(gòu)中可以看出,數(shù)據(jù)湖的技術(shù)架構(gòu)在數(shù)據(jù)處理階段和數(shù)據(jù)治理方面豐富了許多架構(gòu)內(nèi)容。但其發(fā)展仍處于早期階段,離成熟的架構(gòu)標準還有很長的路要走。主要問題是其主要架構(gòu)邏輯依然借鑒了分區(qū)架構(gòu)的數(shù)據(jù)預處理過程,缺乏數(shù)據(jù)治理相關的組件等。
本文根據(jù)文獻[24,33]技術(shù)架構(gòu)重新設計了全面數(shù)據(jù)數(shù)據(jù)湖技術(shù)架構(gòu),如圖2所示。本文根據(jù)這個數(shù)據(jù)湖技術(shù)架構(gòu),再結(jié)合至今為止研究者在數(shù)據(jù)湖領域的關鍵技術(shù)關注度,把數(shù)據(jù)湖關鍵技術(shù)劃分為數(shù)據(jù)存儲、元數(shù)據(jù)管理、數(shù)據(jù)維護、數(shù)據(jù)探索和數(shù)據(jù)治理五大領域。下一節(jié)將詳細地討論目前最先進的數(shù)據(jù)湖關鍵技術(shù)和方案。
4 數(shù)據(jù)湖關鍵技術(shù)
數(shù)據(jù)湖發(fā)展到現(xiàn)在面臨著各種技術(shù)挑戰(zhàn),各種技術(shù)難題需要不斷地完善和解決。如今數(shù)據(jù)湖是大數(shù)據(jù)技術(shù)研究的一種范式,研究者通過該范式解決大數(shù)據(jù)技術(shù)碰到的各種挑戰(zhàn)。這些關鍵技術(shù)的突破不斷完善大數(shù)據(jù)技術(shù),同時也不斷豐富數(shù)據(jù)湖技術(shù),其中,這些先進的技術(shù)和方案起到了關鍵作用。
4.1 數(shù)據(jù)存儲
數(shù)據(jù)存儲問題一直是數(shù)據(jù)湖概念中最重要的問題也是最基本的問題。在數(shù)據(jù)湖環(huán)境中,存儲系統(tǒng)的選擇關系到存儲成本、可擴展性和安全性,甚至影響到數(shù)據(jù)訪問的有效性和靈活性。數(shù)據(jù)存儲在數(shù)據(jù)湖架構(gòu)中扮演著底層基礎設施角色,影響著整個數(shù)據(jù)處理過程。
廉價方式存儲各種類型原始數(shù)據(jù)是很多數(shù)據(jù)湖實施者關注的問題。在數(shù)據(jù)湖存儲系統(tǒng)中使用最廣泛的是Hadoop的分布式文件存儲系統(tǒng)HDFS[10],HDFS以廉價的方式存儲很多類型的數(shù)據(jù),包括半結(jié)構(gòu)化(例如CSV、XML、JSON)和非結(jié)構(gòu)化(例如圖和視頻)數(shù)據(jù)[24]。
存儲方式方面,數(shù)據(jù)湖可以采用單一存儲系統(tǒng),也可以采用多存儲系統(tǒng)[30,33]。單存儲系統(tǒng)只支持一種類型的數(shù)據(jù)庫,例如CLAMS存儲系統(tǒng)[34]、personal data lake[16]都屬于單一存儲系統(tǒng)。而多存儲系統(tǒng)集成了訪問各種異構(gòu)數(shù)據(jù)的多個數(shù)據(jù)存儲配置。例如,Constance[29]系統(tǒng)和SQRE[35]架構(gòu)都采用了包含關系、文檔、圖形等類型的多存儲數(shù)據(jù)庫系統(tǒng)來存儲獲取到的原始數(shù)據(jù)。多存儲系統(tǒng)是數(shù)據(jù)湖存儲海量異構(gòu)數(shù)據(jù)的必然結(jié)果。
數(shù)據(jù)湖存儲的另一種發(fā)展特點是混合使用關系型和NoSQL存儲,這種存儲方式有效提升了關系型數(shù)據(jù)庫在大數(shù)據(jù)分析中的價值,例如谷歌數(shù)據(jù)湖的Dataset Search[36]、CoreDB[37]、CoreKG[38]等產(chǎn)品和架構(gòu)系統(tǒng)。微軟的Azure數(shù)據(jù)湖存儲系統(tǒng)(ADLS)[39]是對關系數(shù)據(jù)庫和分布式存儲技術(shù)(HDFS)深度集成的云存儲服務。ADLS采用了分層存儲結(jié)構(gòu),通過跨存儲層訪問方式實現(xiàn)了成本和性能之間的最佳權(quán)衡,并且提升了安全性。
云存儲是數(shù)據(jù)湖存儲的一個重要的發(fā)展趨勢[40],尤其是一些商業(yè)數(shù)據(jù)湖都是建立在云存儲,包括AWS、ADLS、阿里云存儲、騰訊云存儲等。相比于本地環(huán)境,數(shù)據(jù)湖的廉價存儲、多用戶、可擴展等特點在云環(huán)境中發(fā)揮的優(yōu)勢更加明顯。
根據(jù)現(xiàn)有文獻的調(diào)查發(fā)現(xiàn),云端存儲異構(gòu)類型數(shù)據(jù)的多存儲系統(tǒng)是數(shù)據(jù)湖存儲技術(shù)發(fā)展的必然趨勢。雖然文獻[41]研究了大數(shù)據(jù)相關的多模型數(shù)據(jù)存儲技術(shù),但是在基于數(shù)據(jù)湖的多存儲機制優(yōu)化問題上,研究者們的討論相對較少,是今后需要進一步完善的研究內(nèi)容。
4.2 數(shù)據(jù)攝取
數(shù)據(jù)攝取旨在將各種異構(gòu)數(shù)據(jù)源的數(shù)據(jù)移入到數(shù)據(jù)湖的過程。大數(shù)據(jù)行業(yè)已經(jīng)提供了非常豐富的數(shù)據(jù)攝取工具,數(shù)據(jù)湖中可以采用這些工具來實現(xiàn)數(shù)據(jù)攝取階段的工作。
數(shù)據(jù)攝入不是簡單的數(shù)據(jù)復制和粘貼,它是一個復雜而重要的階段,必須確保攝入的數(shù)據(jù)在任何時候都可查找、可訪問、可互操作和可重復使用。這個過程中最主要任務是維護所攝取數(shù)據(jù)的元數(shù)據(jù)結(jié)構(gòu),防止數(shù)據(jù)入湖過程中變成不可使用數(shù)據(jù)。
4.2.1 元數(shù)據(jù)獲取
提取元數(shù)據(jù)是數(shù)據(jù)攝入階段主要面臨的挑戰(zhàn),為了適應異構(gòu)數(shù)據(jù)源的不確定性,采用靈活、可擴展的元數(shù)據(jù)結(jié)構(gòu)是非常必要。GEMMS[42]是一個靈活可擴展的數(shù)據(jù)湖元數(shù)據(jù)管理系統(tǒng),該系統(tǒng)可以從異構(gòu)數(shù)據(jù)源中提取元數(shù)據(jù),并將元數(shù)據(jù)存儲在一個可擴展的元模型中。該框架首先通過鍵值對方式存儲元數(shù)據(jù)屬性,再通過結(jié)構(gòu)元數(shù)據(jù)識別原始數(shù)據(jù)結(jié)構(gòu)(例如矩陣、樹、圖形等),最后以附加語義數(shù)據(jù)方式連接到語義模型。
Constance[29]系統(tǒng)是一個智能數(shù)據(jù)湖系統(tǒng),在數(shù)據(jù)攝取階段為了提取盡可能多的元數(shù)據(jù),系統(tǒng)中使用了結(jié)構(gòu)元數(shù)據(jù)發(fā)現(xiàn)(SMD)組件,但該組件主要解決了半結(jié)構(gòu)化數(shù)據(jù)源的元數(shù)據(jù)結(jié)構(gòu)提煉問題。而Sawadogo等人[43]提出了在數(shù)據(jù)湖中提取文本文檔元數(shù)據(jù)結(jié)構(gòu)的方法,彌補了非結(jié)構(gòu)化數(shù)據(jù)中提取元數(shù)據(jù)的問題。Datamaran[44]是一個適合數(shù)據(jù)湖環(huán)境中轉(zhuǎn)換復雜日志文件的算法,該算法以無監(jiān)督方式在半結(jié)構(gòu)化日志數(shù)據(jù)中自動提取元數(shù)據(jù)結(jié)構(gòu)。Datamaran算法解決了數(shù)據(jù)邊界確定、數(shù)據(jù)字段確定、復雜結(jié)構(gòu)、冗余結(jié)構(gòu)以及語義結(jié)構(gòu)等問題。
數(shù)據(jù)攝入階段所獲取的元數(shù)據(jù)通過各種模型進行管理,4.2.2節(jié)中將詳細討論元數(shù)據(jù)管理相關的技術(shù)。
4.2.2 元數(shù)據(jù)建模
自從Gartner公司提出數(shù)據(jù)沼澤問題以后,很多研究者都設法通過元數(shù)據(jù)管理來解決該問題,元數(shù)據(jù)被認為是描述和指引數(shù)據(jù)湖海量數(shù)據(jù)的關鍵[4]。元數(shù)據(jù)管理涉及到數(shù)據(jù)來源管理、數(shù)據(jù)攝入過程、數(shù)據(jù)準確性、數(shù)據(jù)安全性、數(shù)據(jù)集關聯(lián)性等方面[45],而元數(shù)據(jù)建模技術(shù)是元數(shù)據(jù)管理的主要內(nèi)容[42,43]。
數(shù)據(jù)湖元數(shù)據(jù)模型的研究成果非常豐富,已經(jīng)出現(xiàn)了很多元數(shù)據(jù)模型。為了展示所獲取的元數(shù)據(jù),Constance系統(tǒng)[29]采用圖形建模技術(shù)的語義元數(shù)據(jù)匹配(SMM)組件,這個組件包括語義建模、屬性注釋、連鎖記錄、語義豐富等功能。
實現(xiàn)通用元數(shù)據(jù)模型的一個重要挑戰(zhàn)是識別各種類型的元數(shù)據(jù),MEDAL模型[46]中元數(shù)據(jù)類型被劃分為對象內(nèi)(intraobject)、對象間(interobject)、全局(global)元數(shù)據(jù),詳細解釋語義數(shù)據(jù)、數(shù)據(jù)版本、數(shù)據(jù)的血緣關系、相似性等關鍵屬性。而Diamantini等人[47]把元數(shù)據(jù)分為參考業(yè)務元數(shù)據(jù)、操作元數(shù)據(jù)、技術(shù)元數(shù)據(jù),并基于網(wǎng)絡和語義驅(qū)動建模方法增強了元數(shù)據(jù)表現(xiàn)形式。
除此之外,元數(shù)據(jù)通用模型還有HANDLE模型[48]和goldMEDAL模型[49],是現(xiàn)階段比較完善的元數(shù)據(jù)模型。
數(shù)據(jù)湖元數(shù)據(jù)模型的設計關系到數(shù)據(jù)湖整個數(shù)據(jù)生命周期過程,每個階段的元數(shù)據(jù)都有該階段的特點和作用。本文基于文獻[48,49]確定語義豐富、多態(tài)性、數(shù)據(jù)版本、使用跟蹤、分類法、相似性連接、元數(shù)據(jù)屬性和多粒度級別八個比較項,并根據(jù)八個比較項對現(xiàn)有七個模型進行了比較,如表2所示。
通過比較可以發(fā)現(xiàn),元數(shù)據(jù)模型在整個數(shù)據(jù)生命周期過程中都發(fā)揮著重要的作用。在數(shù)據(jù)湖研究領域,元數(shù)據(jù)技術(shù)無疑是占據(jù)著非常重要的地位,而數(shù)據(jù)攝入過程是元數(shù)據(jù)技術(shù)開始發(fā)揮重要作用的階段。從元數(shù)據(jù)模型的發(fā)展趨勢中可以看出,數(shù)據(jù)湖的各個數(shù)據(jù)處理階段對元數(shù)據(jù)的依賴越來越大。大數(shù)據(jù)攝入階段,商業(yè)界和學術(shù)界已經(jīng)提供了許多豐富的技術(shù)和工具[52],數(shù)據(jù)湖研究者不能僅僅依賴于元數(shù)據(jù)技術(shù),應該多參考和借鑒大數(shù)據(jù)攝取技術(shù)和工具[53],研究適合數(shù)據(jù)湖環(huán)境的數(shù)據(jù)攝取技術(shù)和方案。
4.3 數(shù)據(jù)維護
攝入到數(shù)據(jù)湖的數(shù)據(jù)十分龐大且復雜,為了達到數(shù)據(jù)分析目的,把這些海量原始數(shù)據(jù)進行有效的維護是非常必要。數(shù)據(jù)維護階段的任務包括準備數(shù)據(jù)、發(fā)現(xiàn)相關數(shù)據(jù)集、數(shù)據(jù)集成、清洗數(shù)據(jù)等。本文把數(shù)據(jù)準備、發(fā)現(xiàn)、集成、清洗等問題歸結(jié)為數(shù)據(jù)組織問題,將在4.3.1節(jié)中討論相關的關鍵技術(shù),在4.3.2節(jié)中更深入地討論數(shù)據(jù)相關性發(fā)現(xiàn)技術(shù)。
4.3.1 數(shù)據(jù)組織
海量大數(shù)據(jù)組織面臨著許多挑戰(zhàn),包括人工干預的有限性、數(shù)據(jù)處理的效率、相關數(shù)據(jù)發(fā)現(xiàn)以及異構(gòu)數(shù)據(jù)轉(zhuǎn)換等。數(shù)據(jù)組織效果直接決定著數(shù)據(jù)的使用和分析,是數(shù)據(jù)湖中關鍵的數(shù)據(jù)處理環(huán)節(jié)之一。數(shù)據(jù)組織問題在大數(shù)據(jù)技術(shù)研究領域中屬于最活躍的研究范圍,也是很多研究者感興趣的數(shù)據(jù)湖關鍵技術(shù)。
在數(shù)據(jù)湖環(huán)境中人工方式組織數(shù)據(jù)已經(jīng)變得不太可能,所以數(shù)據(jù)組織首先需要解決的問題是自動化。Kayak[54]是一個幫助數(shù)據(jù)科學家定義和優(yōu)化數(shù)據(jù)準備管道的框架,在該系統(tǒng)中數(shù)據(jù)使用者可以根據(jù)需求自定義數(shù)據(jù)發(fā)現(xiàn)管道。該系統(tǒng)通常提供一個近似結(jié)果來提高管道的執(zhí)行效率,通過快速預覽原始結(jié)果的方式縮短數(shù)據(jù)準備時間。但也有學者提出了數(shù)據(jù)組織過程中人工干預的必要性,Brackenbury等人[55]通過實驗證明了人工干預在數(shù)據(jù)發(fā)現(xiàn)過程中的重要性。
元數(shù)據(jù)管理在數(shù)據(jù)維護過程中也扮演著重要的角色。GOODS[36]是為了組織谷歌數(shù)據(jù)湖中的數(shù)據(jù)集而設計的系統(tǒng)。GOODS在數(shù)據(jù)管道創(chuàng)建、訪問、更新數(shù)據(jù)集的過程中收集相關數(shù)據(jù)集的元數(shù)據(jù),并通過該元數(shù)據(jù)目錄管理和組織數(shù)據(jù)集。Alserafi等人[56]在數(shù)據(jù)湖中關注重復數(shù)據(jù)集、相關數(shù)據(jù)集(即數(shù)據(jù)集之間的“可接合”數(shù)據(jù)屬性)和不相關數(shù)據(jù)集,通過端到端的內(nèi)容元數(shù)據(jù)管理流程,為數(shù)據(jù)組織提供了系統(tǒng)化方法。
數(shù)據(jù)發(fā)現(xiàn)是數(shù)據(jù)組織過程中研究者最關注的領域之一,也是很多數(shù)據(jù)科學家比較關心的問題。相似性是數(shù)據(jù)發(fā)現(xiàn)技術(shù)中最重要的領域,Brackenbury等人[55]以數(shù)據(jù)本質(zhì)、起源、當前特征等維度提出了相似性比較框架,為數(shù)據(jù)相似性發(fā)現(xiàn)提供了研究基礎。為了使非IT專家也可以根據(jù)需求發(fā)現(xiàn)數(shù)據(jù), BARENTS[57]中通過本體方法在數(shù)據(jù)湖中創(chuàng)建了數(shù)據(jù)準備分區(qū),該分區(qū)中用戶可以根據(jù)需求定制數(shù)據(jù)準備過程。Nargesian等人[58]為了提高相關性數(shù)據(jù)集發(fā)現(xiàn)效率,提出了Markov導航模型,該模型能夠計算發(fā)現(xiàn)感興趣主題相關表的概率。機器學習在數(shù)據(jù)關聯(lián)性發(fā)現(xiàn)中也起到關鍵作用,DLN [59]是一個建立并使用關聯(lián)模型來構(gòu)建Cosmos(微軟數(shù)據(jù)湖)數(shù)據(jù)圖的系統(tǒng),該模型通過機器學習訓練相關數(shù)據(jù)列特性,再結(jié)合元數(shù)據(jù)特性建立相關性模型。
從數(shù)據(jù)湖的非結(jié)構(gòu)化數(shù)據(jù)中提取主題視圖是目前面臨的又一個重要挑戰(zhàn),Diannantini等人[60]通過非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的方式解決了該問題。首先,在Zaloni元數(shù)據(jù)[61]概念基礎上結(jié)合社會網(wǎng)絡和語義技術(shù)統(tǒng)一表示了結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),然后利用圖的表示方式提取了主題視圖。
數(shù)據(jù)湖中長期積累的數(shù)據(jù)語義隨著時間的推移不斷變化,再加上數(shù)據(jù)格式的異構(gòu)性和龐大的數(shù)據(jù)收集量,如果沒有靈活多變的模式管理,很難從數(shù)據(jù)湖中提取價值。Klettke等人[62]把數(shù)據(jù)湖中靈活多變的模式問題歸結(jié)為模式演化過程,在數(shù)據(jù)湖中提取模式版本序列,并建立模式版本之間的映射關系,解決恢復模式演化的歷史。
回顧數(shù)據(jù)組織技術(shù)相關文獻可以發(fā)現(xiàn),數(shù)據(jù)湖環(huán)境中非常重視自動化技術(shù)[44,54,56]和元數(shù)據(jù)技術(shù)[36,56,58,60],尤其是元數(shù)據(jù)管理技術(shù)在數(shù)據(jù)組織中扮演著非常關鍵的角色。數(shù)據(jù)組織問題中前期的數(shù)據(jù)相關性發(fā)現(xiàn)技術(shù)、基于主題的數(shù)據(jù)導航技術(shù)是目前研究的熱點,而語義、本體、機器學習以及圖譜等技術(shù)起到了關鍵作用。目前,數(shù)據(jù)湖的數(shù)據(jù)組織研究范圍比雜亂,包括數(shù)據(jù)管道、數(shù)據(jù)清洗、數(shù)據(jù)相關性、數(shù)據(jù)模式演化,而且很多研究者把數(shù)據(jù)組織和數(shù)據(jù)探索結(jié)合到一起研究。可以發(fā)現(xiàn),研究者對數(shù)據(jù)湖中數(shù)據(jù)處理階段的劃分還不夠明確,也從另一個角度證明了分析需求直接驅(qū)動數(shù)據(jù)維護的數(shù)據(jù)湖特點。
4.3.2 關聯(lián)表格數(shù)據(jù)集發(fā)現(xiàn)
已經(jīng)裝載海量數(shù)據(jù)的數(shù)據(jù)湖中,集成或者查詢數(shù)據(jù)湖中的所有數(shù)據(jù)是沒有意義且沒有必要的。相反,有效、準確地發(fā)現(xiàn)當前主題相關的數(shù)據(jù)是很多數(shù)據(jù)湖使用者關注的焦點。關聯(lián)數(shù)據(jù)集發(fā)現(xiàn)技術(shù)解決了使用者花費大量時間發(fā)現(xiàn)數(shù)據(jù)的問題,是解決大數(shù)據(jù)集成問題的重要內(nèi)容。數(shù)據(jù)集發(fā)現(xiàn)技術(shù)的很多研究工作集中在表格數(shù)據(jù),因為表格數(shù)據(jù)是目前企業(yè)內(nèi)部數(shù)據(jù)集的主要存在方式,包括網(wǎng)絡表格、電子表格、CSV文件和關系數(shù)據(jù)庫等。
為了快速發(fā)現(xiàn)關聯(lián)表格數(shù)據(jù),利用企業(yè)知識圖(EKG)中捕獲數(shù)據(jù)集之間的關系,幫助用戶在不同的數(shù)據(jù)資源之間指引。AURUM[63]是基于企業(yè)知識圖(EKG)實現(xiàn)的數(shù)據(jù)集發(fā)現(xiàn)系統(tǒng),EKG通過兩步驟算法解決了在數(shù)據(jù)湖中海量數(shù)據(jù)匹配的性能問題。為了分析者更容易找到相關的、屬于同一個主題的數(shù)據(jù)集,KNN[64]檢測覆蓋相關分析主題的相似數(shù)據(jù)集分組和底層結(jié)構(gòu),將數(shù)據(jù)湖中的數(shù)據(jù)集預先定義為感興趣的主題類別。文獻[65]延伸了DSProx技術(shù)[64],提出了屬性級近似度度量,以找到最合適的度量來分配數(shù)據(jù)集對之間的相似性。JOSIE[66]采用topk重疊集相似度搜索算法,數(shù)據(jù)集粒度可擴展到大集合和大字典大小,也屬于關聯(lián)表搜索問題的解決方案。JOSIE同時還具備了數(shù)據(jù)分布的自適應能力,可以在不同的數(shù)據(jù)湖中執(zhí)行數(shù)據(jù)發(fā)現(xiàn)任務。Juneau[67]是一種能夠度量數(shù)據(jù)表相關性的框架,該框架通過行和列的重疊、來源關系、相似度等度量來返回最相關的數(shù)據(jù)表。Starmie[68]是數(shù)據(jù)湖中表數(shù)據(jù)關聯(lián)搜索框架,該框架通過對比學習方法把多個預先訓練的表格列編碼進行比對,捕獲表格數(shù)據(jù)中豐富的語義信息,在搜索效率和匹配度方面有顯著提升?;谖墨I[24]整理比較了數(shù)據(jù)湖中相關表格數(shù)據(jù)發(fā)現(xiàn)技術(shù),如表4所示。
基于重疊度量的相關數(shù)據(jù)集發(fā)現(xiàn)技術(shù)無法適應數(shù)據(jù)湖環(huán)境中無模式和異構(gòu)數(shù)據(jù)引起的表格數(shù)據(jù)表述和語義不相同的問題。Dong等人[70] 在PEXESO框架中基于樞軸過濾的塊驗證方法找到語義不相同關聯(lián)表的相似性問題,但該方法只局限于查詢記錄嵌入為高維向量和基于相似謂詞連接的方向條件。除此之外,PEXESO框架中通過一種分區(qū)技術(shù)來解決數(shù)據(jù)湖中數(shù)據(jù)較大且無法裝入主存的問題。Helal[71]提出了基于知識圖譜的數(shù)據(jù)集發(fā)現(xiàn)平臺,該平臺把無模式數(shù)據(jù)集變成有模式數(shù)據(jù)集,通過可擴展和可查詢的知識圖來解決相關表格數(shù)據(jù)發(fā)現(xiàn)問題。
表格關聯(lián)數(shù)據(jù)發(fā)現(xiàn)技術(shù)的研究比較豐富,從前期的列表重疊技術(shù)發(fā)現(xiàn)相關性到基于元數(shù)據(jù)、高緯度、知識圖譜、機器學習等相關性發(fā)現(xiàn),不僅在相似性發(fā)現(xiàn)的效果上得到了很大的提升,而且解決了數(shù)據(jù)湖環(huán)境下異構(gòu)數(shù)據(jù)靈活多變的問題。但是表格數(shù)據(jù)關聯(lián)性的現(xiàn)有文獻中,針對數(shù)據(jù)靈活多變問題的研究還是不夠充分,尤其是這個問題上的評估和實驗非常有限,需要研究者進一步深入分析和探討。
4.4 數(shù)據(jù)探索
數(shù)據(jù)異構(gòu)性特點決定了數(shù)據(jù)湖中獲取數(shù)據(jù)價值的難度,主要問題體現(xiàn)在多種數(shù)據(jù)模型查詢、模式不確定關鍵字搜索、數(shù)據(jù)訪問有效性以及個性化數(shù)據(jù)探索等方面。數(shù)據(jù)探索技術(shù)的先進程度不僅影響著用戶的數(shù)據(jù)使用體驗,而且直接影響著數(shù)據(jù)分析質(zhì)量。
數(shù)據(jù)湖環(huán)境中針對表格數(shù)據(jù)的探索,主要方法可以歸結(jié)為查詢驅(qū)動的數(shù)據(jù)發(fā)現(xiàn)方法(querydriven data discovery)[72],該方法的核心是相似性查詢。該部分研究綜述已經(jīng)在4.3.2節(jié)中進行了討論,在這里不再贅述。
與表格數(shù)據(jù)關聯(lián)性查詢不同,異構(gòu)數(shù)據(jù)查詢需要處理各種不同類型數(shù)據(jù)源,并提供一種統(tǒng)一查詢方法。Constance[29]架構(gòu)在數(shù)據(jù)探索中采用了查詢重寫方法,但目前只支持半結(jié)構(gòu)化數(shù)據(jù)查詢。文獻[35]也提出了一種查詢重寫引擎,該引擎將基于聲明式映射的數(shù)據(jù)集成邏輯方法與可擴展的大數(shù)據(jù)查詢處理系統(tǒng)(即Apache Spark)相結(jié)合,不僅有效地執(zhí)行已重寫的查詢,而且將查詢結(jié)果協(xié)調(diào)到一個集成數(shù)據(jù)集中。
數(shù)據(jù)探索中關鍵字搜索是普遍采用的方法,但傳統(tǒng)關鍵字搜索僅限于特定數(shù)據(jù)模型,不適應數(shù)據(jù)湖環(huán)境。Yuan等人[73]提出了在數(shù)據(jù)湖異構(gòu)數(shù)據(jù)中搜索關鍵字的統(tǒng)一框架,將查詢語義內(nèi)容以樹型方式表述,解決了模式不確定數(shù)據(jù)的關鍵字搜索問題。而關鍵字搜索和導航技術(shù)之間的結(jié)合提升了用戶探索的效率,RONIN[74]把數(shù)據(jù)集搜索和層次結(jié)構(gòu)導航集成在一起,使用戶在不知道導航起點的情況下也可以搜索到相關數(shù)據(jù)集。
語義Web技術(shù)通過知識表示模型和基于本體的映射方法,在數(shù)據(jù)探索互操作性和有效性方面起到了非常重要的作用。Garda[75]提出了一種Web語義方法,適合于數(shù)據(jù)探索服務和個性化探索體驗,該方法中利用語義信息(也稱為語義元數(shù)據(jù))調(diào)解數(shù)據(jù)探索過程,建模探索過程中用戶所需要的知識。
Web語義與數(shù)據(jù)湖的結(jié)合產(chǎn)生了語義數(shù)據(jù)湖概念[76],其核心是為數(shù)據(jù)集配備詞匯表、本體、知識圖映射,用作底層數(shù)據(jù)的語義訪問層[77]。Squerall[78]是一個建立在本體數(shù)據(jù)訪問(OBDA)原則之上的語義數(shù)據(jù)湖實現(xiàn)框架,可以使用一種獨特的查詢語言(SPARQL),查詢不同的異構(gòu)源。Ontario[79]是針對語義數(shù)據(jù)湖環(huán)境的異構(gòu)數(shù)據(jù)源之間高效互操作的查詢引擎,數(shù)據(jù)源選擇、復雜查詢分解、查詢規(guī)劃是該引擎特有的處理方法。Diamantini等人[80]提出了一種基于知識方法的語義數(shù)據(jù)湖,能夠支持數(shù)據(jù)源的高效集成,并將其對齊到表示感興趣的指標、數(shù)學公式和分析維度的知識圖。
通常領域?qū)<伊私鈹?shù)據(jù)湖中的相關領域數(shù)據(jù),但是定義探索指標的是數(shù)據(jù)分析師。為了使領域?qū)<乙詡€性化方式探索數(shù)據(jù),Bagozi等人[81]在語義數(shù)據(jù)湖上建立適當?shù)母拍罨樵冎笜?,通過該查詢指標來實現(xiàn)個性化數(shù)據(jù)探索,該框架分語義建模層、基于查詢指標的語義表示探索層和個性化探索圖選擇層三層實現(xiàn)。Bianchini等人[82]在文獻[81]基礎上,在數(shù)據(jù)探索中引入用戶偏好和語境偏好函數(shù),增強了個性化數(shù)據(jù)探索能力。
數(shù)據(jù)湖中數(shù)據(jù)探索研究集中在查詢技術(shù)的改進和完善。針對表格數(shù)據(jù)集的查詢驅(qū)動技術(shù)以及針對異構(gòu)數(shù)據(jù)集的查詢重寫和搜索技術(shù)是應對數(shù)據(jù)探索需求的關鍵技術(shù)。Web語義、本體論、知識圖譜等底層技術(shù)的運用有效改進了數(shù)據(jù)探索效果。基于Web語義技術(shù)的語義數(shù)據(jù)湖概念(雖然還處于早期階段)得到了該研究方向的共鳴。滿足最終數(shù)據(jù)使用者和分析者的個性化需求是研究者關心的另一個重要問題,但該方面的研究還停留在探索需求指標層面,需要進一步探究。
4.5 數(shù)據(jù)治理
數(shù)據(jù)湖治理通過策略和標準等管理手段實施異構(gòu)數(shù)據(jù)源的轉(zhuǎn)換和分析,以確保高效、安全地使用數(shù)據(jù),并獲取可靠的分析結(jié)果[83]。數(shù)據(jù)治理本身包括很多管理內(nèi)容,本文不擴展管理方面的技能,集中討論數(shù)據(jù)治理中的一些技術(shù)問題。元數(shù)據(jù)管理也是數(shù)據(jù)湖治理的重要內(nèi)容,但在4.2節(jié)中已經(jīng)討論了該技術(shù),在這一節(jié)中介紹數(shù)據(jù)追溯和數(shù)據(jù)安全。
4.5.1 數(shù)據(jù)追溯(data provenance)
通過不同階段的加工和處理,數(shù)據(jù)湖中的數(shù)據(jù)項可能存在于其生命周期的不同階段,導致數(shù)據(jù)的來源關系變得非常復雜,需要一種追溯機制來進行管理和記錄,通過這個過程可以管理數(shù)據(jù)來源和數(shù)據(jù)血緣關系。這種來源信息告訴人們?nèi)绾潍@取數(shù)據(jù)集,并幫助人們正確地訪問數(shù)據(jù)集。
數(shù)據(jù)湖通常攝入各種不同來源的異構(gòu)數(shù)據(jù),而管理這些不同來源的數(shù)據(jù)軌跡是一個難題。Suriarachchi等人[84]提出了在數(shù)據(jù)湖環(huán)境中可以追溯數(shù)據(jù)源的參考架構(gòu),該架構(gòu)能夠捕獲異構(gòu)數(shù)據(jù)集的來源事件信息。然而,大數(shù)據(jù)追溯面臨著數(shù)據(jù)量大、開銷大、難以存儲分布式來源數(shù)據(jù)、忽視數(shù)據(jù)源頭應用等挑戰(zhàn)[85]。文獻[86]為了彌補這些問題提出并行流處理算法,該算法使用有狀態(tài)的單次并行流處理,降低來自異構(gòu)數(shù)據(jù)集成的信息流,同時保留了向后和向前的信息流。
4.5.2 數(shù)據(jù)安全
大數(shù)據(jù)在安全方面的挑戰(zhàn)前所未有,需要解決的問題非常復雜[87],目前所提出的一些技術(shù)和方法還尚未成熟,仍然存在進一步研究的空間。到目前為止數(shù)據(jù)湖環(huán)境中對安全技術(shù)相關的討論很稀少,只有一些架構(gòu)[37]討論了數(shù)據(jù)訪問控制方面的內(nèi)容。分區(qū)存儲是數(shù)據(jù)湖中最普遍的訪問控制實現(xiàn)形式[83,88],Zhao等人[89]在數(shù)據(jù)湖分區(qū)架構(gòu)中劃分出能進行安全管理和監(jiān)控的分區(qū),允許用戶控制數(shù)據(jù)湖體系結(jié)構(gòu)及其資源。很多研究者都認為區(qū)塊鏈技術(shù)是解決數(shù)據(jù)湖安全問題的有效方法。為了在數(shù)據(jù)湖中安全地跨域共享,謝裕清等人[21]優(yōu)化了區(qū)塊鏈智能合約模塊,不僅實現(xiàn)了數(shù)據(jù)湖中原始數(shù)據(jù)的安全存儲,也降低了系統(tǒng)吞吐量。Panwar等人[90]提出了一種基于區(qū)塊鏈的加密曲線哈希簽名(BCCCHS)技術(shù)的認知方法,保護數(shù)據(jù)湖中的醫(yī)療保健數(shù)據(jù)。
5 典型應用
數(shù)據(jù)湖在許多應用場景下取得了不錯的效果,本章將討論數(shù)據(jù)湖在各個行業(yè)里的應用情況,通過這些應用來發(fā)現(xiàn)數(shù)據(jù)湖應用技術(shù)的研究機遇和挑戰(zhàn)。
5.1 智能電網(wǎng)
隨著智能電網(wǎng)的發(fā)展,大量的智能電表和傳感器被部署,產(chǎn)生了海量、多源、異構(gòu)的智能電網(wǎng)數(shù)據(jù)。而這些智能電網(wǎng)數(shù)據(jù)中所提取的價值不僅提高電網(wǎng)的管理質(zhì)量,還可以為不同類型的用電客戶提供更好的服務。然而,傳統(tǒng)的智能電網(wǎng)數(shù)據(jù)管理系統(tǒng)無法擴展并提供足夠的存儲和處理能力,而數(shù)據(jù)湖存儲系統(tǒng)正好彌補了這個短板。
Munshi等人[91]提出了基于Lambda架構(gòu)的智能電網(wǎng)大數(shù)據(jù)生態(tài)系統(tǒng),該系統(tǒng)通過數(shù)據(jù)湖存儲原始格式的各種類型智能電網(wǎng)數(shù)據(jù),并對分布式數(shù)據(jù)執(zhí)行并行批處理和實時操作,有效解決了數(shù)據(jù)分析過程中的延遲問題。針對電力物聯(lián)網(wǎng)邊緣設備之間、云主站平臺營配調(diào)各系統(tǒng)之間的數(shù)據(jù)存儲和共享的需求,曾飛等人[22]提出了一種基于區(qū)塊鏈與數(shù)據(jù)湖的電力數(shù)據(jù)存儲與共享方法。該方法不僅縮短了最高存儲延遲時間,而且吞吐量和安全性也得到了較高的提升。
5.2 醫(yī)療保健
隨著物聯(lián)網(wǎng)的快速發(fā)展,醫(yī)療行業(yè)也配備了許多智能設備并集成到現(xiàn)有的業(yè)務系統(tǒng)。同時醫(yī)療行業(yè)數(shù)字化轉(zhuǎn)型過程中存儲了大量的醫(yī)療健康數(shù)據(jù),而這些健康數(shù)據(jù)的價值提取直接關系到個性化醫(yī)療的實施。醫(yī)療健康數(shù)據(jù)包含著各種類型的異構(gòu)數(shù)據(jù),大部分是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。Rangarajan等人[92] 在醫(yī)療保健大數(shù)據(jù)管理中引入了數(shù)據(jù)湖體系結(jié)構(gòu),以便從供應商那里獲取醫(yī)療保健數(shù)據(jù),為個性化醫(yī)療保健提供了分析依據(jù)。VisLake[93]是基于DeepEye改進的醫(yī)療大數(shù)據(jù)自動可視化系統(tǒng),是適合多源數(shù)據(jù)湖環(huán)境的可視化系統(tǒng)。
5.3 教育
教育應用程序、學生、內(nèi)容開發(fā)人員、教師、學習過程、傳感器以及設備中正在產(chǎn)生大量的教育數(shù)據(jù),許多教育組織面臨的共同挑戰(zhàn)是尋找一種有效的方法來利用和分析這些數(shù)據(jù),以持續(xù)提供更好的教育。當前,教育數(shù)據(jù)的發(fā)展已呈現(xiàn)出量大、種類多、速度快的特點[94]。針對教育數(shù)據(jù)的這些特點,數(shù)據(jù)湖是一種不錯的數(shù)據(jù)存儲和數(shù)據(jù)分析方案。VillegasCh等人[95]把某大學學習管理系統(tǒng)的學生學習數(shù)據(jù)存儲到數(shù)據(jù)湖中進行數(shù)據(jù)分析,獲得學生的學習表現(xiàn)結(jié)果。Munshi等人[94]提出了基于數(shù)據(jù)湖的教育大數(shù)據(jù)平臺,是處理數(shù)據(jù)全生命周期的基礎設施,是針對教育機構(gòu)和非數(shù)據(jù)專家所使用的全方位的教育數(shù)據(jù)分析應用平臺。MartinezMosquera等人[96]基于公共數(shù)據(jù)模型(CDM)和單一數(shù)據(jù)模型(ODM),在數(shù)據(jù)湖中進行數(shù)據(jù)獲取、編目、轉(zhuǎn)換和保護等處理,提供了高等教育機構(gòu)的數(shù)據(jù)湖管理方案。Kuppusamy等人[97]提出了基于數(shù)據(jù)湖技術(shù)的機器學習和深度學習算法,該架構(gòu)可以為教育數(shù)據(jù)分析應用提供支撐。
5.4 其他領域應用
航空領域正在進行空中交通方面的數(shù)字化轉(zhuǎn)型,飛行環(huán)境、天氣、航空器數(shù)據(jù)的共享和各系統(tǒng)之間的互操作性是提高飛行效率、安全性和容量的關鍵,也是優(yōu)化空中交通的重要依據(jù)。SGT與美國交通部沃爾普國家運輸系統(tǒng)中心合作開發(fā)了一個基于數(shù)據(jù)湖的航空運輸云原型,分析來自各種來源的大數(shù)據(jù),以達到優(yōu)化空中交通的目的[98]。而航空數(shù)據(jù)湖(ADL)通過獲取、組織、管理和利用這些全方位信息來應對密集的空地車輛網(wǎng)絡(AGVN)面臨的資源分配、機動性管理、安全傳輸?shù)忍魬?zhàn)[99]。
在農(nóng)業(yè)領域,減少人工干預程度決定著農(nóng)業(yè)智能化的高度,而其中基于大數(shù)據(jù)管理的智能農(nóng)業(yè)平臺一直是很多研究者關注的重點。智能農(nóng)業(yè)數(shù)據(jù)湖支撐著農(nóng)業(yè)發(fā)展進程,在空間分布、水利管理、農(nóng)機系統(tǒng)的維護等方面提供有用的決策建議[100]。
社交媒體等社會開放數(shù)據(jù)分析已經(jīng)成為很多組織決策過程中不可缺少的考慮因素。分析社會開放數(shù)據(jù)的關鍵是將社會行為者產(chǎn)生的原始數(shù)據(jù)轉(zhuǎn)換為精心設計的數(shù)據(jù),即最終用戶使用應用時提取相關數(shù)據(jù)和知識。數(shù)據(jù)湖通過自動管理原始社交數(shù)據(jù),為大數(shù)據(jù)分析做好準備[101,102]。
除了在行業(yè)數(shù)字化轉(zhuǎn)型過程中扮演著越來越重要的角色外,數(shù)據(jù)湖在科研大數(shù)據(jù)領域也有不少的應用,包括生物學[103]、天文學[104]、考古學[105]等。
5.5 討論
回顧數(shù)據(jù)湖在各行業(yè)中的應用,可以發(fā)現(xiàn)數(shù)據(jù)湖在大數(shù)據(jù)分析應用落地過程中扮演著重要的角色,其主要優(yōu)勢體現(xiàn)在海量異構(gòu)數(shù)據(jù)的集中存儲和處理,這也是大數(shù)據(jù)分析應用發(fā)揮價值的重要基礎。數(shù)據(jù)湖的另一個優(yōu)勢是可以構(gòu)建一個地區(qū)、一個科學領域,甚至是一個行業(yè)相關的概念數(shù)據(jù)湖,以更加豐富、更加專業(yè)的方式提供所需的數(shù)據(jù)服務。但是數(shù)據(jù)湖應用也存在不少的挑戰(zhàn)和問題。首先,數(shù)據(jù)湖的集中存儲對一些安全性要求較高的行業(yè)來說是一種風險;其次,數(shù)據(jù)湖使用者通常是對數(shù)據(jù)分析技術(shù)要求非常高的專業(yè)人士,但很多企業(yè)和組織缺乏對業(yè)務領域熟知的數(shù)據(jù)分析專家;最后,數(shù)據(jù)湖技術(shù)還處于發(fā)展早期,很多數(shù)據(jù)處理技術(shù)還沒有在實際應用中得到充分的驗證,再加上行業(yè)應用的場景特點,可能會出現(xiàn)更多技術(shù)難題。數(shù)據(jù)湖應用雖然存在一系列難題,但大數(shù)據(jù)背景下數(shù)據(jù)湖發(fā)展趨勢已經(jīng)形成,隨著行業(yè)應用的不斷落地,這些難題會得到有效解決。
6 結(jié)束語
數(shù)據(jù)湖經(jīng)過十多年的技術(shù)發(fā)展,已經(jīng)得到了國內(nèi)外學術(shù)界和工業(yè)界的關注和認可,在各領域數(shù)字化轉(zhuǎn)型過程中扮演著重要的角色,數(shù)據(jù)湖成為許多機構(gòu)和組織應對大數(shù)據(jù)分析挑戰(zhàn)的重要解決方案。本文以數(shù)據(jù)湖技術(shù)為主線全面回顧了數(shù)據(jù)湖發(fā)展過程,從概念的萌芽到各領域中的典型應用,充分剖析了數(shù)據(jù)湖概念、架構(gòu)、關鍵技術(shù)以及各領域中的應用。
本文重點回顧了數(shù)據(jù)存儲、數(shù)據(jù)攝入、數(shù)據(jù)維護、數(shù)據(jù)探索、數(shù)據(jù)治理等數(shù)據(jù)湖關鍵技術(shù),介紹和討論了在數(shù)據(jù)湖環(huán)境中關鍵技術(shù)的突破、創(chuàng)新以及完善,而這些關鍵技術(shù)的不斷發(fā)展,以及在各行業(yè)和領域中的深入應用,使學術(shù)界和工業(yè)界更加認可數(shù)據(jù)湖在大數(shù)據(jù)解決方案中的地位。通過數(shù)據(jù)湖研究文獻的回顧,發(fā)現(xiàn)數(shù)據(jù)湖技術(shù)的發(fā)展過程和大數(shù)據(jù)技術(shù)的發(fā)展過程越來越吻合,說明數(shù)據(jù)湖的研究是大數(shù)據(jù)技術(shù)研究的有效補充和擴展,數(shù)據(jù)湖的研究在今后的大數(shù)據(jù)研究過程中會起到更加重要作用。數(shù)據(jù)湖還處于發(fā)展早期階段,更多的關鍵技術(shù)還需要繼續(xù)突破和完善。人工智能時代數(shù)據(jù)湖更像是一種底層數(shù)據(jù)基礎設施,為更加豐富的人工智能應用提供海量數(shù)據(jù)的管理和分析服務。反過來,人工智能技術(shù)在數(shù)據(jù)湖技術(shù)的發(fā)展中會起到更加深遠的影響,使得數(shù)據(jù)湖技術(shù)更加成熟。
參考文獻:
[1]Zagan E,Danubianu M.From data warehouse to a new trend in data architecturesdata lake[J].IJCSNS International Journal of Computer Science and Network Security,2019,19(3):3035.
[2]Miloslavskaya N,Tolstoy A.Application of big data,fast data,and data lake concepts to information security issues[C]//Proc of the 4th International Conference on Future Internet of Things and Cloud Workshops.Piscataway,NJ:IEEE Press,2016:148153.
[3]Zagan E,Danubianu M.Data lake approaches:a survey[C]//Proc of International Conference on Development and Application Systems.Piscataway,NJ:IEEE Press,2020:189193.
[4]Sawadogo P,Darmont J.On data lake architectures and metadata management[J].Journal of Intelligent Information Systems,2021,56(1):97120.
[5]Dixon J.Pentaho,hadoop,and data lakes[EB/OL].(20101014)[20230227].https://jamesdixon.wordpress.com/2010/10/14/pentahohadoopanddatalakes.
[6]Woods D.Big data requires a big,new architecture[EB/OL].(20110721)[20230227].https://www.forbes.com/sites/ciocentral/2011/07/21/bigdatarequiresabignewarchitecture/.
[7]Se C,Pivotal S.The technology of the business data lake table[EB/OL].(20131204)[20230606].https://www.capgemini.com/wpcontent/uploads/2017/07/pivotalbusinessdatalaketechnical_br ochure_web.pdf.
[8]WilderJames E.The data lake dream[EB/OL].(20140114)[20230606].https://www.forbes.com/sites/edddumbill/2014/01/14/thedatalakedream.
[9]Rivera J,Van Der Meulen R.Gartner says beware of the data lake fallacy[EB/OL].(20140728)[20230606].http://www.gartner.com/newsroom/id/2809117.
[10]Stein B,Morrison A.The enterprise data lake:better integration and deeper analytics[J].PwC Technology Forecast:Rethinking Integration,2014(1):110.
[11]Chessell M,Scheepers F,Nguyen N,et al.Governing and managing big data for analytics and decision makers[EB/OL].(20140826)[20230606].https://www.redbooks.ibm.com/redpapers/pdfs/redp5120.pdf.
[12]Oleary D E.Embedding AI and crowdsourcing in the big data lake[J].IEEE Intelligent Systems,2014,29(5):7073.
[13]Terrizzano I,Schwarz P,Roth M,et al.Data wrangling:the challenging journey from the wild to the lake[C/OL].Proc of the 7th Biennial Conference on Innovative Data Systems Research.(20150605).http://www.cidrdb.org/cidr2015/Papers/CIDR15_Paper2.pdf.
[14]Huang Fang.Managing data lakes in big data era:whats a data lake and why has it became popular in data management ecosystem[C]//Proc of IEEE International Conference on Cyber Technology in Automation,Control,and Intelligent Systems.Piscataway,NJ:IEEE Press,2015:820-824.
[15]Madera C,Laurent A.The next information architecture evolution:the data lake wave[C]//Proc of the 8th International Conference on Management of Digital EcoSystems.New York:ACM Press,2016:174180.
[16]Walker C,Alrehamy H.Personal data lake with data gravity pull[C]//Proc of the 5th International Conference on Big Data and Cloud Computing.Piscataway,NJ:IEEE Press,2015:160167.
[17]Skluzacek T J,Chard K,F(xiàn)oster I.Klimatic:a virtual data lake for harvesting and distribution of geospatial data[C]//Proc of the 1st Joint International Workshop on Parallel Data Storage and data Intensive Scalable Computing Systems.Piscataway,NJ:IEEE Press,2016:31-36.
[18]Pasupuleti P,Purra B S.Data lake development with big data[M].[S.l.]:Packt Publishing,2015.
[19]Sharma B.Architecting data lakesdata management architectures for advanced business use cases[M].[S.l.]:OReilly Media,2018.
[20]陳氫,張治.融合多源異構(gòu)數(shù)據(jù)治理的數(shù)據(jù)湖架構(gòu)研究[J].情報雜志,2022,41(5):139145.(Chen Qing,Zhang Zhi.Research on the data lake architecture of integrating multisource heterogeneous data governance[J].Journal of Intelligence,2022,41(5):139145.)
[21]謝裕清,王淵,江櫻,等.便于數(shù)據(jù)共享的電網(wǎng)數(shù)據(jù)湖隱私保護方法[J].計算機工程與應用,2021,57(2):113118.(Xie Yuqing,Wang Yuan,Jiang Ying,et al.Privacy protection method facilitating data sharing for grid manufacturing data lake[J].Computer Engineering and Applications,2021,57(2):113118.)
[22]曾飛,楊雄,蘇偉,等.基于區(qū)塊鏈與數(shù)據(jù)湖的電力數(shù)據(jù)存儲與共享方法[J].電力工程技術(shù),2022,41(3):48-54.(Zeng Fei,Yang Xiong,Su Wei,et al.Power data storage and sharing method based on blockchain and data lake[J].Electric Power Engineering Technology,2022,41(3):48-54.)
[23]Khine P P,Wang Zhaoshun.Data lake:a new ideology in big data era[C]//Proc of the 4th Annual International Conference on Wireless Communication and Sensor Network.[S.l.]:EDP Sciences,2018:111.
[24]Hai Rihan,Quix C,Jarke M.Data lake concept and systems:a survey[EB/OL].(20210618).https://arxiv.org/pdf/2106.09592v1.pdf.
[25]William H I.Building the data warehouse[M].4th ed.Indianapolis:Wiley,2005.
[26]《華東師范大學學報(自然科學版)》編輯部.“數(shù)據(jù)中臺關鍵技術(shù)與系統(tǒng)研究”專輯導讀[J].華東師范大學學報:自然科學版,2020,213(5):6-8.(Editor Board of Journal of East China Normal University(Natural Sciences).Introduction to the album “Research on Key Technologies and Systems of Data Center”[J].Journal of East China Normal University:Natural Science,2020,213(5):6-8.)
[27]Giebler C,Grger C,Hoos E,et al.Leveraging the data lake:current state and challenges[M]//Ordonez C,Song I Y,AnderstKotsis G,et al.Big Data Analytics and Knowledge Discovery.Berlin:Springer,2019:179188.
[28]Inmon B.Data lake architecture:designing the data lake and avoiding the garbage dump[M].[S.l.] :Technics Publications,2016.
[29]Hai Rihan,Geisler S,Quix C.Constance:an intelligent data lake system[C]//Proc of International Conference on Management of Data.New York:ACM Press,2016:20972100.
[30]Guyot A,Gillet A,Leclercq E,et al.A formal framework for data lakes based on category theory[C]//Proc of the 26th International Database Engineered Applications Symposium.New York:ACM Press,2022:75-83.
[31]Ramchand S,Mahmood T.Big data architectures for data lakes:a systematic literature review[C]//Proc of the 46th Annual Computers,Software,and Applications Conference.Piscataway,NJ:IEEE Press,2022:11411146.
[32]Mehmood H,Gilman E,Cortes M,et al.Implementing big data lake for heterogeneous data sources[C]//Proc of the 35th International Conference on Data Engineering Workshops.Piscataway,NJ:IEEE Press,2019:37-44.
[33]Giebler C,Grger C,Hoos E,et al.The data lake architecture framework[C]//Proc of Conference for Database Systems for Business,Technology and Web.[S.l.]:Gesellschaft für Informatik,Bonn,2021:351-370.
[34]Farid M,Roatis A,F(xiàn).Ilyas I,et al.CLAMS:bringing quality to data lakes[C]//Proc of International Conference on Management of Data.New York:ACM Press,2016:2089-2092.
[35]Hai Rihan,Quix C,Zhou Chen.Query rewriting for heterogeneous data lakes[M]//Benczúr A,Thalheim B,Horváth T.Advances in Databases and Information Systems.Berlin:Springer,2018:35-49.
[36]Halevy A Y,Korn F,Noy N F,et al.Managing Googles data lake:an overview of the GOODS system[J].Bulletin of the IEEE Computer Society Technical Committee on Data Engineering,2016,39(3):514.
[37]Beheshti A,Benatallah B,Nouri R,et al.CoreDB:a data lake service[C]//Proc of ACM on Conference on Information and Knowledge Management.New York:ACM Press,2017:2451-2454.
[38]Beheshti A,Benatallah B,Nouri R,et al.CoreKG:a knowledge lake service[J].Proceedings of the VLDB Endowment,2018,11(12):19421945.
[39]Ramakrishnan R,Sridharan B,Douceur J R,et al.Azure data lake store:a hyperscale distributed file service for big data analytics[C]//Proc of ACM International Conference on Management of Data.New York:ACM Press,2017:51-63.
[40]Zagan E,Danubianu M.Cloud data lake:the new trend of data storage[C]//Proc of the 3rd International Congress on HumanComputer Interaction,Optimization and Robotic Applications.Piscataway,NJ:IEEE Press,2021:1-4.
[41]Lu Jiaheng,Holubová I.Multimodel databases:a new journey to handle the variety of data[J].ACM Computing Surveys,2019,52(3):1-38.
[42]Quix C,Hai Rihan,Vatov I.Metadata extraction and management in data lakes with GEMMS[J].Complex Systems Informatics and Modeling Quarterly,2016,9:67-83.
[43]Sawadogo P,Kibata T,Darmont J.Metadata management for textual documents in data lakes[EB/OL].(20190510).https://arxiv.org/abs/1905.04037.
[44]Gao Yihan,Huang Silu,Parameswaran A.Navigating the data lake with DATAMARAN:automatically extracting structure from log datasets[C]//Proc of International Conference on Management of Data.New York:ACM Press,2018:943-958.
[45]Zhao Yan,Megdiche I,Ravat F.Data lake ingestion management[EB/OL].(20210705).https://arxiv.org/abs/2107.02885.
[46]Sawadogo P N,Scholly ,F(xiàn)avre C,et al.Metadata systems for data lakes:models and features[M]//Tatjana W,Johann E,Vili P,et al.New Trends in Databases and Information Systems.Berlin:Springer,2019:440451.
[47]Diamantini C,Giudice P L,Musarella L,et al.A new metadata model to uniformly handle heterogeneous data lake sources[C]//Proc of European Conference on Advances in Databases and Information Systems.Berlin:Springer:165177.
[48]Eichler R,Giebler C,Grger C,et al.Modeling metadata in data lakesa generic model[J].Data & Knowledge Engineering,2021,136(101931):117.
[49]Scholly E,Sawadogo P,Liu Pengfei,et al.Coining goldMEDAL:a new contribution to data lake generic metadata modeling[EB/OL].(20210324).https://arxiv.org/abs/2103.13155.
[50]Hellerstein J M,Sreekanti V,Gonzalez J E,et al.Ground:a data context service[C]//Proc of the 8th Biennial Conference on Innovative Data Systems Research.[S.l.] :Creative Commons,2017.
[51]Ravat F,Zhao Yan.Metadata management for data lakes[M]//Tatjana W,Johann E,Vili P,et al.New Trends in Databases and Information Systems.Cham:Springer International Publishing,2019:3744.
[52]Irfan M,George J P.A systematic review of challenges,tools,and myths of big data ingestion[M]//Shukla S,Gao Xiaozhi,Kureethara J V,et al.Data Science and Security.Singapore:Springer,2022:481494.
[53]Sharma G,Tripathi V,Srivastava A.Recent trends in big data ingestion tools:a study[M]//Kumar R,Quang N H,Kumar Solanki V,et al.Research in Intelligent and Computing in Engineering.Singapore:Springer,2021:873-881.
[54]Maccioni A,Torlone R.KAYAK:a framework for justintime data preparation in a data lake[C]//Proc of International Conference on Advanced Information Systems Engineering.Berlin:Springer,2018:474-489.
[55]Brackenbury W,Liu Rui,Mondal M,et al.Draining the data swamp:a similaritybased approach[C]//Proc of Workshop on HumanintheLoop Data Analytics.New York:ACM Press,2018:17.
[56]Alserafi A,Abello A,Romero O,et al.Towards information profiling:data lake content metadata management[C]//Proc of the 16th International Conference on Data Mining Workshops.Piscataway,NJ:IEEE Press,2016:178185.
[57]Stach C,Brcker J,Eichler R,et al.Demanddriven data provisioning in data lakes[C]//Proc of the 23rd International Conference on Information Integration and Web Intelligence.New York:ACM Press,2021:187198.
[58]Nargesian F,Pu K Q,Zhu Erkang,et al.Organizing data lakes for navigation[C]//Proc of ACM SIGMOD International Conference on Management of Data.New York:ACM Press,2020:19391950.
[59]Bharadwaj S,Gupta P,Bhagwan R,et al.Discovering related data at scale[J].Proceedings of the VLDB Endowment,2021,14(8):13921400.
[60]Diannantini C,Lo Giudice P,Potena D,et al.An approach to extracting topicguided views from the sources of a data lake[J].Information Systems Frontiers,2021,23(1):243262.
[61]Oram A.Managing the data lake[M].Sebastopol:OReilly,2015.
[62]Klettke M,Awolin H,Strl U,et al.Uncovering the evolution history of data lakes[C]//Proc of IEEE International Conference on Big Data.Piscataway,NJ:IEEE Press,2017:24622471.
[63]Fernandez R C,Abedjan Z,Koko F,et al.Aurum:a data discovery system[C]//Proc of the 34th International Conference on Data Engineering.Piscataway,NJ:IEEE Press,2018:10011012.
[64]Alserafi A,Abelló A,Romero O,et al.Keeping the data lake in form:DSKNN datasets categorization using proximity mining[C]//Proc of Model and Data Engineering:the 9th International Conference.Berlin:Springer,2019:35-49.
[65]Alserafi A,Abello A,Romero O,et al.Keeping the data lake in form:proximity mining for prefiltering schema matching[J].ACM Trans on Information Systems,2020,38(3):1-30.
[66]Zhu Erkang,Nargesian F,Deng Dong,et al.JOSIE:overlap set similarity search for finding joinable tables in data lakes[C]//Proc of International Conference on Management of Data.New York:ACM Press,2019:847-864.
[67]Zhang Yi,Ives Z G.Finding related tables in data lakes for interactive data science[C]//Proc of ACM SIGMOD International Conference on Management of Data.New York:ACM Press,2020:19511966.
[68]Fan G,Wang Jin,Li Yuliang,et al.Semanticsaware dataset discovery from data lakes with contextualized columnbased representation learning[J].Proceedings of the VLDB Endowment,2022,14(1):50-60.
[69]Bogatu A,F(xiàn)ernandes A A A,Paton N W,et al.Dataset discovery in data lakes[C]//Proc of the 36th International Conference on Data Engineering.Piscataway,NJ:IEEE Press,2020:709720.
[70]Dong Yuyang,Takeoka K,Xiao Chuan,et al.Efficient joinable table discovery in data lakes:a highdimensional similaritybased approach[C]//Proc of the 37th International Conference on Data Engineering.Piscataway,NJ:IEEE Press,2021:456-467.
[71]Helal A.Data lakes empowered by knowledge graph technologies[C]//Proc of International Conference on Management of Data.New York:ACM Press,2021:2884-2886.
[72]Miller R J.Open data integration[J].Proceedings of the VLDB Endowment,2018,11(12):2130-2139.
[73]Yuan Qin,Yuan Ye,Wen Zhenyu,et al.Exploring heterogeneous data lake based on unified canonical graphs[C]//Proc of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2022:18341838.
[74]Ouellette P,Sciortino A,Nargesian F,et al.RONIN:data lake exploration[J].Proceedings of the VLDB Endowment,2021,14(12):2863-2866.
[75]Garda M.A semanticsenabled approach for data lake exploration services[C]//Proc of IEEE World Congress on Services.Piscataway,NJ:IEEE Press,2019:327-330.
[76]Mami M N,Graux D,Scerri S,et al.Uniform access to multiform data lakes using semantic technologies[C]//Proc of the 21st International Conference on Information Integration and Webbased Applications & Services.New York:ACM Press,2020:313-322.
[77]Auer S,Scerri S,Versteden A,et al.The BigDataEurope platformsupporting the variety dimension of big data[M]// Cabo J,De Virgilio R,Torlone R.Web Engineering.Cham:Springer,2017:41-59.
[78]Mami M N,Graux D,Scerri S,et al.Squerall:virtual ontologybased access to heterogeneous and large data sources[C]//Proc of the 18th International Semantic Web Conference.Berlin:Springer,2019:229-245.
[79]Endris K M,Rohde P D,Vidal M E,et al.Ontario:federated query processing against a semantic data lake[C]//Proc of International Conference on Database and Expert Systems Applications.Cham:Springer,2019:379-395.
[80]Diamantini C,Potena D,Storti E.A knowledgebased approach to support analytic query answering in semantic data lakes[C]//Advances in Databases and Information Systems.Cham:Springer,2022:179192.
[81]Bagozi A,Bianchini D,De Antonellis V,et al.Personalised exploration graphs on semantic data lakes[C]//Proc of OTM Confederated International Conference on the Move to Meaningful Internet Systems.Cham:Springer,2019:22-39.
[82]Bianchini D,De Antonellis V,Garda M,et al.Contextual preferences to personalise semantic data lake exploration[C]//Proc of the 31st International Conference on Database and Expert Systems Applications.Cham:Springer,2020:322-332.
[83]Ravat F,Zhao Yan.Data lakes:trends and perspectives[C]//Proc of the 30th International Conference on Database and Expert Systems Applications.Cham:Springer,2019:304-313.
[84]Suriarachchi I,Plale B.Crossing analytics systems:a case for integrated provenance in data lakes[C]//Proc of the 12th International Conference on EScience.Piscataway,NJ:IEEE Press,2016:349-354.
[85]Wang Jianwu,Crawl D,Purawat S,et al.Big data provenance:challenges,state of the art and opportunities[C]//Proc of IEEE International Conference on Big Data.Piscataway,NJ:IEEE Press,2015:2509-2516.
[86]Suriarachchi I,Withana S,Plale B.Big provenance stream processing for data intensive computations[C]//Proc of the 14th International Conference on EScience.Piscataway,NJ:IEEE Press,2018:245-255.
[87]Bertino E,F(xiàn)errari E.Big data security and privacy[M]//Flesca S,Greco S,Masciari E,et al.A Comprehensive Guide Through the Italian Database Research Over the Last 25 Years.Cham:Springer,2018:425-439.
[88]Giebler C,Grger C,Hoos E,et al.A zone reference model for enterprisegrade data lake management[C]//Proc of the 24th International Enterprise Distributed Object Computing Conference.Piscataway,NJ:IEEE Press,2020:57-66.
[89]Zhao Yan,Megdiche I,Ravat F,et al.A zonebased data lake architecture for IoT,small and big data[C]//Proc of the 25th International Database Engineering & Applications Symposium.New York:ACM Press,2021:94102.
[90]Panwar A,Bhatnagar V.A cognitive approach for blockchainbased cryptographic curve hash signature (BCCCHS) technique to secure healthcare data in data lake[J/OL].Soft Computing.(20211111).https://doi.org/10.1007/s00500021065137.
[91]Munshi A A,Mohamed Y A R I.Data lake lambda architecture for smart grids big data analytics[J].IEEE Access,2018,6:40463-40471.
[92]Rangarajan S,Liu Huai,Wang Hua,et al.Scalable architecture for personalized healthcare service recommendation using big data lake[C]//Proc of Australian Symposium on Service Research and Innovation.Cham:Springer,2018:6579.
[93]Ren Peng,Mao Ziyun,Li Shuaibo,et al.Intelligent visualization system for big multisource medical data based on data lake[C]//Proc of International Conference on Web Information Systems and Applications.Cham:Springer International Publishing,2021:706717.
[94]Munshi A A,Alhindi A.Big data platform for educational analytics[J].IEEE Access,2021,9:52883-52890.
[95]VillegasCh W,LujánMora S,BuenaoFernandez D,et al.Big data,the next step in the evolution of educational data analysis[C]//Proc of International Conference on Information Technology & Systems.Berlin:Springer,2018:138147.
[96]MartinezMosquera D,Beltrán V,RiofríoLuzcando D,et al.Data lake management for educational analysis[C]//Proc the 6th Ecuador Technical Chapters Meeting.Piscataway,NJ:IEEE Press,2022:15.
[97]Kuppusamy P,Joseph K S.Building an enterprise data lake for educational organizations for prediction analytics using deep learning[C]//Proc of International Conference on Deep Learning,Computing and Intelligence.Singapore:Springer,2022:65-81.
[98]Raju R,Mital R,F(xiàn)inkelsztein D.Data lake architecture for air traffic management[C]//Proc of the 37th Digital Avionics Systems Conference.Piscataway,NJ:IEEE Press,2018:1-6.
[99]Sun Jinlong,Gui Guan,Sari H,et al.Aviation data lake:using side information to enhance future airground vehicle networks[J].IEEE Vehicular Technology Magazine,2021,16(1):40-48.
[100]Ouafiq E M,Saadane R,Chehri A,et al.Data lake conception for smart farming:a data migration strategy for big data analytics[M]// Zimmermann A,Howlett R J,Jain L C.Human Centred Intelligent Systems.Singapore:Springer,2022:191-201.
[101]Beheshti A,Benatallah B,Tabebordbar A,et al.DataSynapse:a social data curation foundry[J].Distributed and Parallel Databases,2019,37(3):351-384.
[102]Dabbèchi H,Haddar N Z,Elghazel H,et al.NoSQL data lake:a big data source from social media[C]//Proc of International Conference on Hybrid Intelligent Systems.Cham:Springer,2021:93102.
[103]Che Haoyang,Duan Yucong.On the logical design of a prototypical data lake system for biological resources[J].Frontiers in Bioengineering and Biotechnology,2020,8(1105):article ID 553904.
[104]Rosa R R.Data science strategies for multimessenger astronomy[J].Anais da Academia Brasileira de Ciencias,2021,93(S1):e20200861.
[105]Liu Pengfei,Loudcher S,Darmont J,et al.ArchaeoDAL:a data lake for archaeological data management and analytics[C]//Proc of the 25th International Database Engineering & Applications Symposium.New York:ACM Press,2021:252262.