摘要:大數(shù)據(jù)時(shí)代,企業(yè)“檔案數(shù)據(jù)湖”的構(gòu)建順應(yīng)企業(yè)檔案數(shù)據(jù)轉(zhuǎn)型趨勢(shì),符合企業(yè)檔案數(shù)據(jù)治理需求,有助于消除企業(yè)檔案數(shù)據(jù)孤島,充分釋放企業(yè)檔案數(shù)據(jù)價(jià)值。以目前最典型的“數(shù)據(jù)湖”架構(gòu)為參考模板,結(jié)合企業(yè)檔案數(shù)據(jù)的工作實(shí)際,從“入湖:檔案數(shù)據(jù)接入模塊”“蓄湖:檔案數(shù)據(jù)存儲(chǔ)模塊”“治湖:檔案數(shù)據(jù)管理模塊”“測(cè)湖:檔案數(shù)據(jù)計(jì)算模塊”“調(diào)湖:檔案數(shù)據(jù)調(diào)度模塊”和“用湖:檔案數(shù)據(jù)應(yīng)用模塊”六大層級(jí)構(gòu)建企業(yè)“檔案數(shù)據(jù)湖”功能模型。根據(jù)該功能模型,提出從數(shù)據(jù)摸底、技術(shù)選型、數(shù)據(jù)接入、融合治理、業(yè)務(wù)支持五方面著手構(gòu)建該為企業(yè)在實(shí)際工作中構(gòu)建“檔案數(shù)據(jù)湖”提供參考價(jià)值,充分發(fā)揮檔案數(shù)據(jù)賦能企業(yè)業(yè)務(wù)發(fā)展的新勢(shì)能。
關(guān)鍵詞:企業(yè)檔案 檔案數(shù)據(jù) 數(shù)據(jù)湖 構(gòu)建路徑
Abstract: In the era of big data,the construc? tion of the enterprise\"Archival Data Lake\" aligns with the trend of enterprise archival data transfor? mation and meets the needs of enterprise archi? val data governance.It helps to eliminate archival data silos in enterprise and fully unleash the val? ue of enterprise archival data.Taking the most typical \"Data Lake\" architecture as a reference template, and combining the actual work of en? terprise archival data, the enterprise \"Archival Da? ta Lake\" functional model is constructed from six layers: \"In- Lake:Archival Data Access Mod? ule\"\"Store- Lake:ArchivalDataStorageMod? ule\"\"Manage- Lake:Archival Data Management Module\"\"Calculate- Lake: Archival Data Calcula? tion Module\"\"Dispatch-Lake:Archival Data Sched? uling Module\"and\"Use- Lake:Archival Data Appli? cation Module\".Based on the six functional mod? els of the enterprise \"Archival Data Lake\", it is pro? posed to build the enterprise \"Archival Data Lake\" from five aspects, namely data evaluation, tech? nology selection, data access, integrated gover? nance and business support, so as to provide ref? erence for enterprises to build the \"Archival Data Lake\" in practical work and give full play to the new potential of archive data in enabling the busi? ness development of enterprises.
Keywords:Enterprise archive; Archival data; Data lake;Construction path
當(dāng)前,數(shù)據(jù)作為一種全新生產(chǎn)要素,與土地、勞動(dòng)力、資本、技術(shù)等共同影響著經(jīng)濟(jì)社會(huì)的發(fā)展走向。隨著大數(shù)據(jù)時(shí)代的到來,各行各業(yè)相繼步入數(shù)字化、數(shù)據(jù)化轉(zhuǎn)型序列,檔案領(lǐng)域亦不例外。在此背景下,檔案數(shù)據(jù)的資源價(jià)值日益顯現(xiàn),尤其對(duì)于企業(yè)而言,檔案數(shù)據(jù)因其之于各項(xiàng)主營業(yè)務(wù)的賦能效用而備受重視。然而,與此同時(shí),由于傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫技術(shù)等無法滿足其集中、統(tǒng)一管理需求,導(dǎo)致數(shù)據(jù)孤島現(xiàn)象頻頻出現(xiàn),企業(yè)檔案數(shù)據(jù)價(jià)值發(fā)揮受限嚴(yán)重。而“數(shù)據(jù)湖”作為一種新型數(shù)據(jù)存儲(chǔ)架構(gòu),正能夠?yàn)樵搯栴}解決提供技術(shù)支撐。如今,它已被初步應(yīng)用于商業(yè)、交通、氣象等領(lǐng)域,并取得一定成效。由此,本文將“數(shù)據(jù)湖”引入企業(yè)檔案數(shù)據(jù)管理,探討其必要性、功能模型、構(gòu)建路徑等,以期有助于企業(yè)檔案數(shù)據(jù)價(jià)值釋放與企業(yè)檔案工作高質(zhì)量發(fā)展。
(一)檔案數(shù)據(jù)概念與特點(diǎn)
1992年,馮惠玲[1]首次在文章中使用“檔案數(shù)據(jù)”一詞,并在第十三屆中國電子文件管理論壇上指出其“雙向融合特點(diǎn)”[2],即檔案數(shù)據(jù)化與數(shù)據(jù)檔案化。然而,目前學(xué)界尚未對(duì)檔案數(shù)據(jù)達(dá)成統(tǒng)一認(rèn)知。從概念上看,熊志云[3]、陳陽[4]等認(rèn)為檔案數(shù)據(jù)是檔案;陶水龍[5]、于英香[6]、劉慶悅[7]等認(rèn)為檔案數(shù)據(jù)是數(shù)據(jù);金波[8]、于瑾[9]等認(rèn)為檔案數(shù)據(jù)既是檔案,又是數(shù)據(jù)。從特點(diǎn)上看,檔案數(shù)據(jù)的特點(diǎn)主要體現(xiàn)為“兩多兩性”,即多來源、多模態(tài)、異構(gòu)性、動(dòng)態(tài)性。多來源是指檔案數(shù)據(jù)形成主體既涵蓋組織層面的業(yè)務(wù)機(jī)構(gòu)(部門)、檔案機(jī)構(gòu)(部門),又包括個(gè)體層面的社會(huì)大眾;多模態(tài)是指檔案數(shù)據(jù)形態(tài)類目包括文本模態(tài)、圖像模態(tài)、音頻模態(tài)、視頻模態(tài)以及社交媒體交互數(shù)據(jù)等[10];異構(gòu)性是指檔案數(shù)據(jù)結(jié)構(gòu)特征包含結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等;動(dòng)態(tài)性是指檔案數(shù)據(jù)演化發(fā)展迅猛,檔案數(shù)據(jù)價(jià)值持續(xù)更迭。因此,本文將檔案數(shù)據(jù)定義為以數(shù)據(jù)態(tài)形式存在、具有檔案屬性、具有保存價(jià)值的記錄。
(二)“數(shù)據(jù)湖”的概念與特點(diǎn)
鑒于數(shù)據(jù)在網(wǎng)絡(luò)環(huán)境下的流轉(zhuǎn)與自然界的水生態(tài)系統(tǒng)存在相似之處,數(shù)據(jù)基礎(chǔ)設(shè)施因而被命名為“數(shù)據(jù)湖”。從概念上看,“數(shù)據(jù)湖”最早由企業(yè)提出、實(shí)施構(gòu)建并進(jìn)行定義。美國商務(wù)智能軟件服務(wù)商Pentaho公司首席技術(shù)官詹姆斯·迪克遜[11](James Dixon)于2010年首次提出“數(shù)據(jù)湖”大數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu),強(qiáng)調(diào)數(shù)據(jù)從來源流入,用戶或程序可按需從中查詢和抽取。亞馬遜公司[12]和維基百科[13]均將“數(shù)據(jù)湖”定義為一個(gè)可以存儲(chǔ)原始狀態(tài)數(shù)據(jù)的集中式存儲(chǔ)庫,不要求對(duì)來源數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。微軟公司[14]則從功能角度對(duì)“數(shù)據(jù)湖”進(jìn)行定義,認(rèn)為“數(shù)據(jù)湖”既支持用戶存儲(chǔ)任意規(guī)模、任意類型、任意產(chǎn)生速度的數(shù)據(jù),又輔助用戶跨平臺(tái)、跨語言進(jìn)行數(shù)據(jù)分析和處理。從特點(diǎn)上看,“數(shù)據(jù)湖”特點(diǎn)可概括為“五化”,即存儲(chǔ)空間可拓展化、存儲(chǔ)類型多元化、數(shù)據(jù)收集保真化、數(shù)據(jù)處理靈活化和數(shù)據(jù)管理雙重化。存儲(chǔ)空間可拓展化是指“數(shù)據(jù)湖”作為一種利用云計(jì)算等先進(jìn)技術(shù)構(gòu)建的存儲(chǔ)系統(tǒng),擁有龐大的數(shù)據(jù)存儲(chǔ)容量和良好的可擴(kuò)展性。存儲(chǔ)類型多元化是指“數(shù)據(jù)湖”能夠存儲(chǔ)不同來源、模態(tài)、結(jié)構(gòu)的大量原始數(shù)據(jù),既包括非結(jié)構(gòu)化數(shù)據(jù),也包括半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)收集保真化是指“數(shù)據(jù)湖”采用“讀取型schema”,不需要預(yù)先設(shè)計(jì)標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu)和模式,獲取數(shù)據(jù)時(shí)可以完整保留數(shù)據(jù)的真實(shí)性和原始性。數(shù)據(jù)處理靈活化是指“數(shù)據(jù)湖”保持?jǐn)?shù)據(jù)的原始狀態(tài),使得企業(yè)可以根據(jù)實(shí)際需求對(duì)數(shù)據(jù)進(jìn)行定制化加工處理,快速響應(yīng)業(yè)務(wù)需求變化。數(shù)據(jù)管理雙重化是指“數(shù)據(jù)湖”一方面對(duì)原始數(shù)據(jù)進(jìn)行管理,另一方面對(duì)原始數(shù)據(jù)讀取后生成的處理數(shù)據(jù)進(jìn)行管理,滿足不同業(yè)務(wù)場(chǎng)景的可定制靈活應(yīng)用。因此,本文將“數(shù)據(jù)湖”定義為一種能滿足多源異構(gòu)數(shù)據(jù)存儲(chǔ)、管理、計(jì)算等需求,并按需為用戶提供數(shù)據(jù)應(yīng)用的集中式、可擴(kuò)展新型數(shù)據(jù)系統(tǒng)。
綜上,本文定義企業(yè)“檔案數(shù)據(jù)湖”是以檔案部門為主管、以檔案數(shù)據(jù)為對(duì)象、以數(shù)據(jù)存儲(chǔ)為基礎(chǔ)功能、以數(shù)據(jù)管理與計(jì)算為拓展功能的為企業(yè)提供數(shù)據(jù)應(yīng)用、實(shí)現(xiàn)企業(yè)檔案數(shù)據(jù)價(jià)值釋放與企業(yè)檔案工作高質(zhì)量發(fā)展的系統(tǒng)。
隨著市場(chǎng)環(huán)境日益數(shù)字化,企業(yè)構(gòu)建“檔案數(shù)據(jù)湖”迫在眉睫。這既是順應(yīng)企業(yè)檔案數(shù)據(jù)轉(zhuǎn)型趨勢(shì)之舉,又能契合企業(yè)檔案數(shù)據(jù)治理需求,助力消除企業(yè)檔案數(shù)據(jù)孤島,充分釋放企業(yè)檔案數(shù)據(jù)價(jià)值,為企業(yè)決策、創(chuàng)新、風(fēng)險(xiǎn)防控等提供有力支撐,驅(qū)動(dòng)企業(yè)在激烈市場(chǎng)競(jìng)爭(zhēng)中穩(wěn)健前行。
(一)順應(yīng)企業(yè)檔案數(shù)據(jù)轉(zhuǎn)型趨勢(shì)
《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》提出:“主動(dòng)融入數(shù)字經(jīng)濟(jì)、數(shù)字社會(huì)、數(shù)字政府建設(shè),推動(dòng)檔案全面納入國家大數(shù)據(jù)戰(zhàn)略。”[15]這就意味著企業(yè)檔案工作應(yīng)注重以檔案數(shù)據(jù)為驅(qū)動(dòng),以相關(guān)技術(shù)為支撐,打通業(yè)務(wù)系統(tǒng)與檔案系統(tǒng),推動(dòng)全流程、全鏈條檔案數(shù)據(jù)價(jià)值發(fā)揮。例如,采用物聯(lián)網(wǎng)、云計(jì)算、深度學(xué)習(xí)、多模態(tài)人工智能大模型等,實(shí)現(xiàn)檔案數(shù)據(jù)的高級(jí)處理、智慧服務(wù)和決策支持,助力企業(yè)的戰(zhàn)略規(guī)劃和市場(chǎng)適應(yīng)。企業(yè)“檔案數(shù)據(jù)湖”正提供了一個(gè)高性能大數(shù)據(jù)平臺(tái),它集檔案數(shù)據(jù)收集、存儲(chǔ)、管控、利用等諸多功能于一體,能夠推動(dòng)企業(yè)檔案數(shù)據(jù)轉(zhuǎn)型工作向縱深化發(fā)展。
(二)符合企業(yè)檔案數(shù)據(jù)治理需求
檔案數(shù)據(jù)呈現(xiàn)多來源、多模態(tài)、異構(gòu)性、動(dòng)態(tài)性特點(diǎn),具體表現(xiàn)為檔案數(shù)據(jù)形成主體之多、檔案數(shù)據(jù)形態(tài)類目之多、檔案數(shù)據(jù)結(jié)構(gòu)特征之雜、檔案數(shù)據(jù)演化發(fā)展之快。因此,其管理系統(tǒng)至少應(yīng)具備以下能力。一是完備的輸入、輸出能力。即能夠兼容多元化數(shù)據(jù)源,并實(shí)現(xiàn)從中采集;同時(shí)能夠?qū)⒎治鎏幚砗蟮臋n案數(shù)據(jù)提供給不同用戶,以滿足不同業(yè)務(wù)需求。二是完全的存儲(chǔ)能力。即能夠存儲(chǔ)任意類型的海量檔案數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化檔案數(shù)據(jù),也包括文本模態(tài)、圖像模態(tài)、音頻模態(tài)、視頻模態(tài)等檔案數(shù)據(jù)。三是完善的管理能力。即能夠滿足檔案數(shù)據(jù)在不斷積累、演變中所產(chǎn)生的新要求。鑒于傳統(tǒng)數(shù)據(jù)倉庫難以同時(shí)具備以上能力,引入企業(yè)“檔案數(shù)據(jù)湖”至關(guān)重要。它作為新型大數(shù)據(jù)架構(gòu),良好適配檔案數(shù)據(jù)內(nèi)在特點(diǎn)與治理需求,是其管理系統(tǒng)建設(shè)的極佳選擇。
(三)助力消除企業(yè)檔案數(shù)據(jù)孤島
新修訂的《中華人民共和國檔案法》指出:“推進(jìn)檔案信息資源共享服務(wù)平臺(tái)建設(shè),推動(dòng)檔案數(shù)字資源跨區(qū)域、跨部門共享利用?!盵16]這就要求推進(jìn)檔案數(shù)據(jù)共享,使得其能夠在企業(yè)檔案部門與業(yè)務(wù)部門之間高效流動(dòng)。然而,由于大多數(shù)企業(yè)在建設(shè)檔案管理系統(tǒng)時(shí),未充分統(tǒng)籌業(yè)務(wù)管理系統(tǒng)建設(shè),導(dǎo)致兩者之間因數(shù)據(jù)標(biāo)準(zhǔn)、接口規(guī)范等差異未能實(shí)現(xiàn)全面對(duì)接。[17]目前,大多數(shù)企業(yè)檔案管理系統(tǒng)僅實(shí)現(xiàn)與OA系統(tǒng)對(duì)接,[18]但與產(chǎn)品數(shù)據(jù)(業(yè)務(wù))管理系統(tǒng)、企業(yè)資源計(jì)劃系統(tǒng)、會(huì)計(jì)核算系統(tǒng)、電子郵件系統(tǒng)等之間仍存在“隔墻”,檔案數(shù)據(jù)孤島現(xiàn)象較為嚴(yán)重。而企業(yè)“檔案數(shù)據(jù)湖”能夠提供統(tǒng)一的存儲(chǔ)位置,集中存儲(chǔ)來自各個(gè)部門和系統(tǒng)的檔案數(shù)據(jù)。這有助于打破檔案數(shù)據(jù)孤島瓶頸,促進(jìn)檔案數(shù)據(jù)跨部門共享和協(xié)作,同時(shí)簡(jiǎn)化檔案數(shù)據(jù)安全和合規(guī)性管理。
(四)充分釋放企業(yè)檔案數(shù)據(jù)價(jià)值
如今,數(shù)據(jù)要素發(fā)揮著至關(guān)重要的作用。檔案數(shù)據(jù)憑借其邊際成本低、規(guī)模效應(yīng)大、流動(dòng)性高和可復(fù)用性強(qiáng)等特點(diǎn),[19]正日益成為推動(dòng)企業(yè)高質(zhì)量發(fā)展的新動(dòng)力。企業(yè)“檔案數(shù)據(jù)湖”建設(shè)正為充分釋放檔案數(shù)據(jù)價(jià)值提供支撐。一方面,它能夠集中存儲(chǔ)企業(yè)的全量檔案數(shù)據(jù),打下堅(jiān)實(shí)的資源基礎(chǔ);另一方面,依靠全鏈條管理流程,既能應(yīng)對(duì)多樣檔案數(shù)據(jù)爆發(fā)式增長,又能從中持續(xù)洞察檔案數(shù)據(jù)價(jià)值,幫助企業(yè)作出更多高質(zhì)量決策。此外,企業(yè)“檔案數(shù)據(jù)湖”的高度靈活性和可擴(kuò)展性支持更廣泛的數(shù)據(jù)處理技術(shù)與工具集成,有利于進(jìn)一步增強(qiáng)檔案數(shù)據(jù)在促進(jìn)業(yè)務(wù)創(chuàng)新、優(yōu)化運(yùn)營流程、提升客戶體驗(yàn)等方面的戰(zhàn)略價(jià)值,進(jìn)而為企業(yè)發(fā)展提供強(qiáng)有力的數(shù)據(jù)支撐和智能驅(qū)動(dòng)。
早期“數(shù)據(jù)湖”架構(gòu)僅分為數(shù)據(jù)接收和數(shù)據(jù)存儲(chǔ)兩大功能,并在數(shù)據(jù)存儲(chǔ)中劃分臨時(shí)數(shù)據(jù)區(qū)和原始數(shù)據(jù)區(qū)兩層結(jié)構(gòu)。[20]在此基礎(chǔ)上,Lambda架構(gòu)[21]和 Kappa架構(gòu)[22]相繼出現(xiàn)。它們均具有數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)服務(wù)三類功能,區(qū)別在于前者同時(shí)使用流處理與批處理,后者僅采用流處理。隨著大數(shù)據(jù)技術(shù)的融合發(fā)展,“數(shù)據(jù)湖”架構(gòu)功能愈加完善?!?022年中國云原生數(shù)據(jù)湖應(yīng)用洞察白皮書》提出,目前最典型的“數(shù)據(jù)湖”架構(gòu)具備接入層、存儲(chǔ)層、管理層、計(jì)算層、調(diào)度層和應(yīng)用層六個(gè)功能層級(jí)。[23]基于此,本文從檔案數(shù)據(jù)接入、檔案數(shù)據(jù)存儲(chǔ)、檔案數(shù)據(jù)管理、檔案數(shù)據(jù)計(jì)算、檔案數(shù)據(jù)調(diào)度、檔案數(shù)據(jù)應(yīng)用六大模塊構(gòu)建企業(yè)“檔案數(shù)據(jù)湖”功能模型,如圖1所示。
根據(jù)與數(shù)據(jù)湖對(duì)應(yīng)的“湖泊水生態(tài)系統(tǒng)”的運(yùn)行規(guī)律,[24]六大模塊可進(jìn)一步劃分為六個(gè)層級(jí):“入湖”“蓄湖”“治湖”“測(cè)湖”“調(diào)湖”“用湖”。其中,檔案數(shù)據(jù)接入對(duì)應(yīng)“入湖”;檔案數(shù)據(jù)存儲(chǔ)對(duì)應(yīng)“蓄湖”;檔案數(shù)據(jù)管理對(duì)應(yīng)“治湖”;檔案數(shù)據(jù)計(jì)算對(duì)應(yīng)“測(cè)湖”;檔案數(shù)據(jù)調(diào)度對(duì)應(yīng)“調(diào)湖”;檔案數(shù)據(jù)應(yīng)用對(duì)應(yīng)“用湖”。
(一)入湖:檔案數(shù)據(jù)接入模塊
該模塊主要功能是從不同數(shù)據(jù)源中獲取檔案數(shù)據(jù)。其一,從業(yè)務(wù)角度上說,檔案數(shù)據(jù)接入模塊涵蓋了與企業(yè)內(nèi)部各業(yè)務(wù)系統(tǒng)的接口,如辦公自動(dòng)化系統(tǒng)、產(chǎn)品數(shù)據(jù)(業(yè)務(wù))管理系統(tǒng)、企業(yè)資源計(jì)劃系統(tǒng)、會(huì)計(jì)核算系統(tǒng)、電子郵件系統(tǒng)等,以及企業(yè)外部機(jī)構(gòu)的系統(tǒng)接口,即與企業(yè)業(yè)務(wù)存在合作、隸屬關(guān)系的機(jī)構(gòu)。其二,從數(shù)據(jù)源角度上說,檔案數(shù)據(jù)接入模塊覆蓋數(shù)據(jù)庫數(shù)據(jù)、binglog增量數(shù)據(jù)、日志數(shù)據(jù)、數(shù)倉存量數(shù)據(jù)、埋點(diǎn)信息和物聯(lián)網(wǎng)數(shù)據(jù)等各類數(shù)據(jù)源,能夠從這些數(shù)據(jù)源中獲取檔案數(shù)據(jù)。其三,從數(shù)據(jù)結(jié)構(gòu)角度上說,檔案數(shù)據(jù)接入模塊兼容結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),能夠?qū)Χ嘣串悩?gòu)的檔案數(shù)據(jù)做到無差別采集,做到應(yīng)收盡收。此外,為保障檔案數(shù)據(jù)的全生命周期管理,在檔案數(shù)據(jù)接入時(shí),企業(yè)“檔案數(shù)據(jù)湖”不僅從不同的數(shù)據(jù)來源中采集原始狀態(tài)的檔案數(shù)據(jù),還攝取其對(duì)應(yīng)的元數(shù)據(jù)。元數(shù)據(jù)所包含的數(shù)據(jù)存儲(chǔ)位置、數(shù)據(jù)格式、數(shù)據(jù)模式、數(shù)據(jù)分布等信息有助于確保檔案數(shù)據(jù)的可發(fā)現(xiàn)性、可理解性和可信度,為企業(yè)檔案數(shù)據(jù)資產(chǎn)化和檔案數(shù)據(jù)要素化提供了必要的支持。
(二)蓄湖:檔案數(shù)據(jù)存儲(chǔ)模塊
檔案數(shù)據(jù)存儲(chǔ)模塊的主要功能是對(duì)接入后的數(shù)據(jù)進(jìn)行儲(chǔ)存,應(yīng)當(dāng)具有可擴(kuò)展性、高可用性、可伸縮性、數(shù)據(jù)持久性以及安全性等特征。[25]因?yàn)闄n案數(shù)據(jù)存儲(chǔ)模塊的存儲(chǔ)對(duì)象包括多模態(tài)、多結(jié)構(gòu)的檔案數(shù)據(jù),所以傳統(tǒng)的單一存儲(chǔ)系統(tǒng)已經(jīng)無法滿足企業(yè)“檔案數(shù)據(jù)湖”的現(xiàn)有需求,需要采用多存儲(chǔ)系統(tǒng)來存儲(chǔ)檔案數(shù)據(jù)。在檔案數(shù)據(jù)存儲(chǔ)模塊中接入多類型數(shù)據(jù)庫,如關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、圖數(shù)據(jù)庫等,對(duì)應(yīng)地存儲(chǔ)不同類型的檔案數(shù)據(jù)。在此基礎(chǔ)上,為了保證數(shù)據(jù)安全和訪問權(quán)限控制,還可以對(duì)檔案數(shù)據(jù)進(jìn)行分區(qū)存儲(chǔ)。橫向上可以根據(jù)檔案數(shù)據(jù)的生命周期進(jìn)行劃分,分為原始數(shù)據(jù)區(qū)、數(shù)據(jù)加工區(qū)、數(shù)據(jù)產(chǎn)品區(qū);[26]縱向上,可以根據(jù)數(shù)據(jù)主題或者企業(yè)業(yè)務(wù)性質(zhì)進(jìn)行劃分,如在鐵路行業(yè)數(shù)據(jù)湖中,就將數(shù)據(jù)按照主題和業(yè)務(wù)劃分為了運(yùn)輸對(duì)象、運(yùn)輸產(chǎn)品、市場(chǎng)營銷、調(diào)度指揮、運(yùn)輸生產(chǎn)、設(shè)備設(shè)施、物資管理、人員及機(jī)構(gòu)、建設(shè)管理、綜合協(xié)同規(guī)劃、財(cái)務(wù)管理等11塊區(qū)域。[27]此外,為保證部分涉密檔案數(shù)據(jù)的安全問題,在上述分區(qū)方式外還可以單獨(dú)設(shè)置敏感數(shù)據(jù)區(qū),將涉密、不公開的檔案數(shù)據(jù)存儲(chǔ)在此區(qū)域以防泄露。
(三)治湖:檔案數(shù)據(jù)管理模塊
檔案數(shù)據(jù)管理模塊的主要功能是對(duì)存儲(chǔ)在企業(yè)“檔案數(shù)據(jù)湖”的檔案數(shù)據(jù)進(jìn)行統(tǒng)一管理。檔案數(shù)據(jù)管理模塊是為了保證企業(yè)“檔案數(shù)據(jù)湖”的檔案數(shù)據(jù)能夠關(guān)聯(lián)的、有組織的供用戶檢索利用,具備良性價(jià)值,以免“檔案數(shù)據(jù)湖”退化為“數(shù)據(jù)沼澤”。在此背景下,企業(yè)“檔案數(shù)據(jù)湖”更強(qiáng)調(diào)對(duì)于檔案數(shù)據(jù)的管理、治理和資產(chǎn)化能力。具體實(shí)踐層面,企業(yè)“檔案數(shù)據(jù)湖”需要具備一系列的數(shù)據(jù)管理組件,即基本管理組件和擴(kuò)展管理組件。其中,基本管理組件包括數(shù)據(jù)安全管理、主數(shù)據(jù)管理、元數(shù)據(jù)管理、數(shù)據(jù)資產(chǎn)目錄管理及數(shù)據(jù)標(biāo)準(zhǔn)管理等功能;[28]擴(kuò)展管理組件包括任務(wù)管理、流程編排以及與數(shù)據(jù)質(zhì)量、數(shù)據(jù)治理相關(guān)的能力。前者是為了保證企業(yè)“檔案數(shù)據(jù)湖”具備最基礎(chǔ)的檔案數(shù)據(jù)管理能力,后者是在前者的基礎(chǔ)上通過管理、編排、調(diào)度、監(jiān)測(cè)在“數(shù)據(jù)湖”中處理數(shù)據(jù)的各類任務(wù)來保證檔案數(shù)據(jù)不失準(zhǔn),確保企業(yè)“檔案數(shù)據(jù)湖”的可信性。
(四)測(cè)湖:檔案數(shù)據(jù)計(jì)算模塊
檔案數(shù)據(jù)計(jì)算模塊的主要功能是通過不同的計(jì)算引擎對(duì)存儲(chǔ)在企業(yè)“檔案數(shù)據(jù)湖”的檔案數(shù)據(jù)進(jìn)行處理、分析。在檔案數(shù)據(jù)計(jì)算模塊中可以劃分為三種計(jì)算方式:離線數(shù)據(jù)處理、實(shí)時(shí)數(shù)據(jù)處理和人工智能處理。其中,離線數(shù)據(jù)處理,即批處理,是指在離線狀態(tài)下對(duì)企業(yè)“檔案數(shù)據(jù)湖”中存儲(chǔ)的歷史數(shù)據(jù)進(jìn)行統(tǒng)一批次的處理;[29]實(shí)時(shí)數(shù)據(jù)處理,即流處理,是指企業(yè)“檔案數(shù)據(jù)湖”一旦獲取新的實(shí)時(shí)數(shù)據(jù)后就立即對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行處理分析。[30]前者的主要優(yōu)點(diǎn)是能夠處理的數(shù)據(jù)量巨大,自企業(yè)成立以來的歷史數(shù)據(jù),都可以存儲(chǔ)、計(jì)算處理、分析應(yīng)用,且數(shù)據(jù)結(jié)果更加準(zhǔn)確,但缺點(diǎn)是數(shù)據(jù)處理存在延時(shí)性。后者的主要優(yōu)點(diǎn)是數(shù)據(jù)處理結(jié)果時(shí)效性強(qiáng),能夠?yàn)槠髽I(yè)提供快速的數(shù)據(jù)分析和反映,提供即時(shí)性的決策支持,但缺點(diǎn)是資源消耗大。此外,隨著人工智能技術(shù)的發(fā)展,自然語言處理、機(jī)器學(xué)習(xí)等前沿應(yīng)用更是日臻成熟,為企業(yè)的數(shù)字化轉(zhuǎn)型注入了強(qiáng)大動(dòng)力。聚焦于企業(yè)“檔案數(shù)據(jù)湖”建設(shè),借助自然語言處理技術(shù),能夠讓系統(tǒng)精準(zhǔn)理解檔案數(shù)據(jù)中的文本信息,無論是合同條款、報(bào)告內(nèi)容還是員工反饋,都可快速解析;機(jī)器學(xué)習(xí)算法則能依據(jù)海量檔案數(shù)據(jù)的內(nèi)在規(guī)律,自主構(gòu)建模型,對(duì)檔案數(shù)據(jù)執(zhí)行深度挖掘、分類以及預(yù)測(cè)等復(fù)雜運(yùn)算。如此一來,諸多原本依賴人工手動(dòng)操作的檔案數(shù)據(jù)分析任務(wù)得以實(shí)現(xiàn)自動(dòng)化處理,大幅削減了人工干預(yù)環(huán)節(jié),不僅有效規(guī)避了人為誤差,還極大地提升了檔案數(shù)據(jù)處理的效率與速度。企業(yè)在實(shí)際運(yùn)用當(dāng)中需要根據(jù)不同的業(yè)務(wù)需要選用企業(yè)“檔案數(shù)據(jù)湖”中不同的檔案數(shù)據(jù)計(jì)算組件。
(五)調(diào)湖:檔案數(shù)據(jù)調(diào)度模塊
檔案數(shù)據(jù)調(diào)度模塊的主要功能是支持用戶從企業(yè)“檔案數(shù)據(jù)湖”中讀取檔案數(shù)據(jù)。在檔案數(shù)據(jù)調(diào)度模塊中需要注意三點(diǎn)設(shè)計(jì)思路:一是構(gòu)建“三個(gè)統(tǒng)一”體系。重點(diǎn)聚焦于設(shè)置統(tǒng)一標(biāo)準(zhǔn)、推行統(tǒng)一查詢語言,并為用戶打造統(tǒng)一的API接口。通過這一系列舉措,打通檔案數(shù)據(jù)流通渠道,切實(shí)達(dá)成檔案數(shù)據(jù)的全面共享,徹底打破長期以來阻礙檔案數(shù)據(jù)互通的“數(shù)據(jù)孤島”困境,為檔案數(shù)據(jù)的調(diào)度筑牢根基。二是設(shè)置讀取型schema模式。企業(yè)的“檔案數(shù)據(jù)湖”別具匠心地引入動(dòng)態(tài)架構(gòu)機(jī)制,根據(jù)具體的業(yè)務(wù)需求和使用目的,在每次調(diào)用檔案數(shù)據(jù)的瞬間定義所需的數(shù)據(jù)結(jié)構(gòu),順勢(shì)觸發(fā)ETL流程,高效地對(duì)原始數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換與加載,讓檔案數(shù)據(jù)能夠以最適配當(dāng)下業(yè)務(wù)場(chǎng)景的形態(tài)呈現(xiàn)。這種靈活性不僅打破了傳統(tǒng)靜態(tài)數(shù)據(jù)架構(gòu)的桎梏,還使得檔案數(shù)據(jù)猶如靈動(dòng)的工具,能夠緊密貼合企業(yè)不斷變化的業(yè)務(wù)流程與決策需求,為企業(yè)發(fā)展注入強(qiáng)大的數(shù)據(jù)驅(qū)動(dòng)力。三是強(qiáng)化用戶訪問權(quán)限管控。為了保障檔案數(shù)據(jù)的安全性,在統(tǒng)一API接口的訪問設(shè)置下認(rèn)證和授權(quán)是至關(guān)重要的環(huán)節(jié)。將用戶清晰劃分如“普通查閱員”“數(shù)據(jù)錄入員”“系統(tǒng)管理員”等角色,并根據(jù)不同級(jí)別的用戶生成不同等級(jí)的API密鑰,即用戶訪問API的“電子身份證”。不同級(jí)別用戶的API密鑰對(duì)應(yīng)不同權(quán)限集,每一級(jí)別的用戶只能訪問權(quán)限內(nèi)的檔案數(shù)據(jù),而無法跨權(quán)限訪問。
(六)用湖:檔案數(shù)據(jù)應(yīng)用模塊
檔案數(shù)據(jù)應(yīng)用模塊的主要功能是利用企業(yè)“檔案數(shù)據(jù)湖”為企業(yè)各業(yè)務(wù)部門提供檔案數(shù)據(jù)服務(wù)。企業(yè)“檔案數(shù)據(jù)湖”建立的最終目的是充分發(fā)揮檔案數(shù)據(jù)的潛在價(jià)值,賦能企業(yè)主營業(yè)務(wù)高質(zhì)量發(fā)展,提升企業(yè)核心競(jìng)爭(zhēng)力。為了實(shí)現(xiàn)這一目的,檔案數(shù)據(jù)應(yīng)用模塊的建設(shè)不可或缺。檔案數(shù)據(jù)應(yīng)用模塊需要根據(jù)企業(yè)的實(shí)際業(yè)務(wù)需求設(shè)計(jì)數(shù)據(jù)服務(wù)組件,包括BI報(bào)表、數(shù)據(jù)大屏、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)等,進(jìn)而提供行業(yè)預(yù)測(cè)、用戶畫像、個(gè)性化推薦等服務(wù)。例如,油氣田企業(yè)在“勘探開發(fā)數(shù)據(jù)湖”中就設(shè)置了數(shù)據(jù)查詢、項(xiàng)目庫、高速索引、大數(shù)據(jù)分析、領(lǐng)域知識(shí)庫等數(shù)據(jù)應(yīng)用。[31]
基于企業(yè)“檔案數(shù)據(jù)湖”的架構(gòu)模型,可以從數(shù)據(jù)摸底、技術(shù)選型、數(shù)據(jù)接入、融合治理、業(yè)務(wù)支持五方面著手構(gòu)建企業(yè)“檔案數(shù)據(jù)湖”。
(一)數(shù)據(jù)摸底
對(duì)于企業(yè)而言,進(jìn)行全面的檔案數(shù)據(jù)資產(chǎn)摸底是構(gòu)建企業(yè)“檔案數(shù)據(jù)湖”的基石,是至關(guān)重要的第一步。這一步不僅涉及對(duì)檔案數(shù)據(jù)的來源、類型、形態(tài)、模式、總量和增量等基本屬性的詳盡記錄,而且還包括對(duì)檔案數(shù)據(jù)的存儲(chǔ)位置、使用頻率、訪問權(quán)限和質(zhì)量狀況等方面的細(xì)致盤點(diǎn)。通過數(shù)據(jù)摸底。企業(yè)能夠清晰掌握檔案數(shù)據(jù)資源的全貌,識(shí)別數(shù)據(jù)孤島,評(píng)估“數(shù)據(jù)湖”建立的復(fù)雜性和可行性。此外,數(shù)據(jù)摸底也是一次深入梳理分析企業(yè)結(jié)構(gòu)的機(jī)會(huì),通過追蹤數(shù)據(jù)流路徑,分析業(yè)務(wù)流程與企業(yè)結(jié)構(gòu)的關(guān)系,有助于優(yōu)化企業(yè)流程,促進(jìn)業(yè)檔融合,提升檔案數(shù)據(jù)共享效率。這一步的摸底結(jié)果將直接影響企業(yè)“檔案數(shù)據(jù)湖”的用戶角色設(shè)計(jì)、權(quán)限控制策略和服務(wù)交付模式。明確不同角色用戶的檔案數(shù)據(jù)處理和訪問需求,可以為企業(yè)設(shè)計(jì)出更加精細(xì)化和動(dòng)態(tài)的權(quán)限管理系統(tǒng),在確保檔案數(shù)據(jù)安全的同時(shí),也促進(jìn)了檔案數(shù)據(jù)的合理利用。
(二)技術(shù)選型
根據(jù)數(shù)據(jù)摸底的情況,確定企業(yè)“檔案數(shù)據(jù)湖”建設(shè)的技術(shù)選型是一個(gè)關(guān)鍵決策點(diǎn),它將直接影響數(shù)據(jù)湖的功能性、可擴(kuò)展性和成本效益。目前,市面上已經(jīng)涌現(xiàn)了一些較為成熟的數(shù)據(jù)技術(shù),可以為企業(yè)“檔案數(shù)據(jù)湖”提供參考:檔案數(shù)據(jù)接入上可以采用RDS全量模板、DTS增量模板、TableStore模板、SLS模板以及文件格式轉(zhuǎn)換5種模板;[32]檔案數(shù)據(jù)存儲(chǔ)上可以采用關(guān)系型數(shù)據(jù)庫、Hadoop分布式文件系統(tǒng)(HDFS存儲(chǔ))、對(duì)象存儲(chǔ)等方式(云存儲(chǔ),如S3、OSS和OBS)等;[33]檔案數(shù)據(jù)管理可以采用元數(shù)據(jù)管理系統(tǒng)如Apache Atlas等工具;檔案數(shù)據(jù)計(jì)算可以采用Spark、Trino、Prestodb、Flink、Hive等多模態(tài)計(jì)算引擎;[34]檔案數(shù)據(jù)調(diào)度可以采用Lake Formation[35]、YARN[36]、Apache Kyuubi[37]等為企業(yè)“檔案數(shù)據(jù)湖”提供統(tǒng)一的訪問接口;檔案數(shù)據(jù)應(yīng)用可以采用人工智能、大數(shù)據(jù)等技術(shù)。
(三)數(shù)據(jù)接入
明確識(shí)別并選定將被整合進(jìn)企業(yè)“檔案數(shù)據(jù)湖”的數(shù)據(jù)源,進(jìn)行全面數(shù)據(jù)抽取和建立持續(xù)的數(shù)據(jù)增量更新機(jī)制。在數(shù)據(jù)接入環(huán)節(jié),需要根據(jù)數(shù)據(jù)摸底的結(jié)果并結(jié)合企業(yè)實(shí)際業(yè)務(wù)需求,明確需要接入企業(yè)“檔案數(shù)據(jù)湖”的業(yè)務(wù)系統(tǒng),如辦公自動(dòng)化系統(tǒng)、產(chǎn)品數(shù)據(jù)(業(yè)務(wù))管理系統(tǒng)、企業(yè)資源計(jì)劃系統(tǒng)、會(huì)計(jì)核算系統(tǒng)、電子郵件系統(tǒng)等,以實(shí)現(xiàn)檔案數(shù)據(jù)匯入企業(yè)“檔案數(shù)據(jù)湖”進(jìn)行統(tǒng)一集中管理。同時(shí)根據(jù)選取的數(shù)據(jù)源選定檔案數(shù)據(jù)接入技術(shù),保證能滿足非結(jié)構(gòu)化檔案數(shù)據(jù)、半結(jié)構(gòu)化檔案數(shù)據(jù)和結(jié)構(gòu)化檔案數(shù)據(jù)的兼容性,同時(shí)涵蓋數(shù)據(jù)源元數(shù)據(jù)、檔案數(shù)據(jù)、檔案數(shù)據(jù)元數(shù)據(jù),為企業(yè)“檔案數(shù)據(jù)湖”的檔案數(shù)據(jù)處理打好基礎(chǔ)。
(四)融合治理
為保障檔案數(shù)據(jù)真實(shí)性、完整性、可用性和安全性,企業(yè)“檔案數(shù)據(jù)湖”將檔案數(shù)據(jù)治理與檔案數(shù)據(jù)管理、處理、應(yīng)用等環(huán)節(jié)相融合。企業(yè)“檔案數(shù)據(jù)湖”可以實(shí)現(xiàn)對(duì)檔案數(shù)據(jù)的全生命周期的管理,依賴于檔案數(shù)據(jù)治理的要求融入檔案數(shù)據(jù)管理、處理、應(yīng)用等環(huán)節(jié)。因?yàn)槠髽I(yè)“檔案數(shù)據(jù)湖”采用讀取型sche? ma的特點(diǎn),這會(huì)導(dǎo)致在調(diào)度檔案數(shù)據(jù)之前并不對(duì)檔案數(shù)據(jù)進(jìn)行統(tǒng)一標(biāo)準(zhǔn)的定義,因而需要在檔案數(shù)據(jù)管理模塊對(duì)原始檔案數(shù)據(jù)進(jìn)行有序性、關(guān)聯(lián)性管理,尤其是在處理低質(zhì)量檔案數(shù)據(jù)、缺失檔案數(shù)據(jù)和重復(fù)檔案數(shù)據(jù)等問題時(shí),保證檔案數(shù)據(jù)質(zhì)量。而在調(diào)度檔案數(shù)據(jù)時(shí),會(huì)觸發(fā)企業(yè)“檔案數(shù)據(jù)湖”對(duì)檔案數(shù)據(jù)進(jìn)行ETL操作從而出現(xiàn)檔案數(shù)據(jù)精度缺失、格式錯(cuò)誤、邏輯錯(cuò)誤等問題。所以,企業(yè)“檔案數(shù)據(jù)湖”需要設(shè)計(jì)一整套全流程、全鏈條的檔案數(shù)據(jù)治理策略,包含數(shù)據(jù)清洗、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)規(guī)范、數(shù)據(jù)審計(jì)、數(shù)據(jù)加密和驗(yàn)證等。
(五)業(yè)務(wù)支持
企業(yè)“檔案數(shù)據(jù)湖”的建立,為用戶提供了一個(gè)集中化的數(shù)據(jù)訪問和處理平臺(tái),這個(gè)平臺(tái)通過統(tǒng)一的API接口,簡(jiǎn)化了檔案數(shù)據(jù)的檢索和分析過程。然而,為了更深入地賦能企業(yè)的各主營業(yè)務(wù),提升應(yīng)用性能和用戶體驗(yàn),推薦采取一種更為主動(dòng)的檔案數(shù)據(jù)服務(wù)策略。這種策略不僅響應(yīng)業(yè)務(wù)需求,還通過預(yù)測(cè)和引導(dǎo)業(yè)務(wù)發(fā)展,提供更加精準(zhǔn)和高效的檔案數(shù)據(jù)支持。利用企業(yè)“檔案數(shù)據(jù)湖”的技術(shù)優(yōu)勢(shì),可以保持檔案數(shù)據(jù)處理和建模的高度靈活性和敏捷性,快速適應(yīng)并支持業(yè)務(wù)的持續(xù)發(fā)展和變化。這意味著“數(shù)據(jù)湖”中的檔案數(shù)據(jù)不再是靜態(tài)存儲(chǔ),而是動(dòng)態(tài)地與業(yè)務(wù)流程和決策過程相結(jié)合,為業(yè)務(wù)創(chuàng)新提供源源不斷的檔案數(shù)據(jù)動(dòng)力。在這種策略指導(dǎo)下,各個(gè)業(yè)務(wù)部門可以根據(jù)自己業(yè)務(wù)的獨(dú)特需求和特點(diǎn),細(xì)化和定制檔案數(shù)據(jù)模型。這些檔案數(shù)據(jù)模型將更貼近實(shí)際業(yè)務(wù)場(chǎng)景,更有效地支持復(fù)雜的業(yè)務(wù)分析和決策。同時(shí),業(yè)務(wù)部門還可以根據(jù)檔案數(shù)據(jù)模型優(yōu)化檔案數(shù)據(jù)使用流程,提高檔案數(shù)據(jù)處理的自動(dòng)化和智能化水平,減少人工干預(yù),提升檔案數(shù)據(jù)處理效率。
在企業(yè)實(shí)現(xiàn)高質(zhì)量發(fā)展道路上,檔案發(fā)揮著基礎(chǔ)性、支撐性作用,數(shù)據(jù)發(fā)揮著放大、疊加作用。檔案數(shù)據(jù)因其擁有前述兩者的雙重特性,而發(fā)揮著“1+1>2”的倍增效能,是企業(yè)至關(guān)重要的資產(chǎn)與生產(chǎn)要素。但由于檔案系統(tǒng)與業(yè)務(wù)系統(tǒng)之間的融合度尚有提升空間、檔案信息化與企業(yè)信息化的協(xié)同發(fā)展程度有待加強(qiáng)、檔案數(shù)據(jù)化的推進(jìn)速度相對(duì)較為緩慢等多重因素,企業(yè)仍存在著檔案數(shù)據(jù)供給質(zhì)量不高、流通機(jī)制不暢、價(jià)值釋放不夠等問題。鑒于此,企業(yè)“檔案數(shù)據(jù)湖”建設(shè)勢(shì)在必行。作為企業(yè)高質(zhì)量發(fā)展的重要驅(qū)動(dòng)力量,它能夠?yàn)槠髽I(yè)提供一個(gè)集集中存儲(chǔ)、有序管理、精準(zhǔn)處理、智能服務(wù)等功能為一體的檔案數(shù)據(jù)平臺(tái),進(jìn)而充分發(fā)揮檔案數(shù)據(jù)賦能企業(yè)業(yè)務(wù)發(fā)展的新勢(shì)能。
*本文系中國人民大學(xué)科學(xué)研究基金(中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助)(項(xiàng)目編號(hào):23XNL018)的研究成果之一。
注釋及參考文獻(xiàn):
[1]馮惠玲,李華.檔案工作現(xiàn)代化的重大課題:論檔案計(jì)算機(jī)檢索的數(shù)據(jù)準(zhǔn)備[J].檔案學(xué)通訊,1992(1):41-45.
[2]中國人民大學(xué)電子文件管理研究中心.會(huì)議速遞|2023檔案數(shù)據(jù)產(chǎn)教融合大會(huì)主旨報(bào)告內(nèi)容速覽![EB/OL].(2023-10-17)[2024-06-07]. http:// erm.ruc.edu.cn/n/2023/10/17/3553.html.
[3]熊志云.計(jì)算機(jī)輔助檔案管理概述[J].成人教育學(xué)報(bào),1998(1):29-31.
[4]陳陽,吳雁平,劉永.檔案數(shù)據(jù)與數(shù)據(jù)檔案定義的演化過程[J].檔案管理,2022(3):20-24.
[5]陶水龍.大數(shù)據(jù)視野下檔案信息化建設(shè)的新思考[J].檔案學(xué)研究,2017(3):93-99.
[6]于英香.從數(shù)據(jù)與信息關(guān)系演化看檔案數(shù)據(jù)概念的發(fā)展[J].情報(bào)雜志,2018,37(11):150-155.
[7]劉慶悅,楊安蓮.檔案數(shù)據(jù):概念、分類及特點(diǎn)初探[J].檔案與建設(shè),2019(10):4-7.
[8][10]金波,楊鵬.大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)治理研究[J].檔案學(xué)研究,2020(4):29-37.
[9]于瑾.區(qū)塊鏈賦能高校檔案數(shù)據(jù)治理:價(jià)值審視與路徑分析[J].蘭臺(tái)內(nèi)外,2023(18):15-16+19.
[11]DIXON J.Pentaho,hadoop,and data lakes [EB/OL].(2010- 10- 14)[2024- 06- 09].https://jamesdixon.wordpress. com/2010/10/14/pentaho-hadoop-and-data-lakes.
[12]叢莉.淺析數(shù)據(jù)湖技術(shù)在檔案信息化領(lǐng)域的應(yīng)用[J].山東檔案,2023(3):35.
[13][14]黃家凱.地質(zhì)數(shù)據(jù)湖構(gòu)建方法淺析[J].數(shù)字技術(shù)與應(yīng)用,2020,38(11):135-138.
[15]中華人民共和國國家檔案局.中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].(2021-06-09)[2024- 06- 13].https://www.saac.gov.cn/daj/toutiao/ 202106/ecca2de5bce44a0eb55c890762868683.shtml.
[16]中華人民共和國國家檔案局.《中華人民共和國檔案法》已由中華人民共和國第十三屆全國人民代表大會(huì)常務(wù)委員會(huì)第十九次會(huì)議于2020年6月20日修訂通過[EB/OL].(2020-06-20)[2024-06-14].https://www.saac.gov.cn/daj/yaow/ 202006/cfc8c422e68f4d3aae46389a3c470a5f.shtml.
[17]葉英俊.國有企業(yè)檔案數(shù)字化的探索與實(shí)踐探究[J].辦公室業(yè)務(wù),2023(22):161-163.
[18]洪剛.“單套制”要求下的國有企業(yè)電子檔案自動(dòng)歸檔及統(tǒng)一管理研究:以江蘇省N市為例[J].改革與開放,2023(22):7-15.
[19]趙德芹.智慧化背景下檔案管理信息化面臨的挑戰(zhàn)與對(duì)策研究[J].蘭臺(tái)內(nèi)外,2023(36):49-51.
[20]GIEBLER C,GROGER C,HOOS E,et al.Leverag? ing the data lake:current state and challenges[C]//0RDONEZ C,SONGL-Y,ANDERST-KOTSIS G,et al.Big Data Analyt? ics and Knowledge Discovery.Cham:Springer,2019:179-188.
[21] MUNSHI A A,MOHAMED Y A I.Data Lake Lambda Architecture for Smart Grids Big Data Analytics[J].IEEE Access,2018(6):40463-40471.
[22] J. Lin.The Lambda and the Kappa[J].IEEE Internet Computing,2017,21(5):60-66.
[23]馬妍嬌.2022年中國云原生數(shù)據(jù)湖應(yīng)用洞察白皮書[J].數(shù)字經(jīng)濟(jì),2022(Z2):20-27.
[24]趙生輝,胡瑩,白秋晨.基于數(shù)據(jù)湖架構(gòu)的智慧檔案館生態(tài)系統(tǒng)構(gòu)建研究[J].山西檔案,2021,(6):5-14.
[25]陳氫,張治.融合多源異構(gòu)數(shù)據(jù)治理的數(shù)據(jù)湖架構(gòu)研究[J].情報(bào)雜志,2022,41(5):139-145.
[26]秦麗娟,吳恩政,趙逸君,等.地質(zhì)數(shù)據(jù)湖數(shù)據(jù)存儲(chǔ)架構(gòu)與統(tǒng)一元數(shù)據(jù)實(shí)現(xiàn)[J].自然資源信息化,2024,(4):19-26;33.
[27]李國華,鄒丹,李海軍,等.鐵路數(shù)據(jù)分布式湖倉一體架構(gòu)分析與設(shè)計(jì)[J].現(xiàn)代信息科技,2024,8(1):54-58.
[28]田蕾.油氣田企業(yè)數(shù)據(jù)湖的構(gòu)建與應(yīng)用探討[J].信息與電腦(理論版),2023,35(18):30-32.
[29]杜曉萍.融媒體監(jiān)測(cè)監(jiān)管大數(shù)據(jù)分析技術(shù)研究[J].廣播與電視技術(shù),2023,50(6):124-127.
[30]陳洪軍,葉麗珠,陳其龍,等.產(chǎn)品全生命周期工業(yè)大數(shù)據(jù)采集與管理范式探究[J].機(jī)電工程技術(shù),2024,53(3):72-77.
[31]張蕓.油氣田企業(yè)勘探開發(fā)數(shù)據(jù)湖架構(gòu)設(shè)計(jì)[J].中國管理信息化,2022,25(12):133-136.
[32]彭志偉.數(shù)據(jù)湖|多數(shù)據(jù)源一站式入湖解決方案[EB/ OL].(2020-11-23)[2024-06-20].http://t.csdnimg.cn/XkjuU.
[33][37]郭利榮,童坤坤.數(shù)據(jù)湖研究綜述[J].軟件工程,2023,26(12):6-11.
[34]魏文定,鄂海紅,王曦,等.云原生數(shù)據(jù)湖服務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2024,34(2):17-22.
[35]賈寧波,孫琢,王凌.基于磁光電存儲(chǔ)技術(shù)的數(shù)據(jù)湖總體架構(gòu)探討[J].中國信息化,2023,(5):39-44.
[36]謝麗.大數(shù)據(jù)分布式處理技術(shù)賦能企業(yè)財(cái)務(wù)報(bào)告審計(jì)研究[J].財(cái)會(huì)通訊,2024,(23):138-141;154.
作者單位:中國人民大學(xué)信息資源管理學(xué)院