摘要:元數(shù)據(jù)作為“描述數(shù)據(jù)的數(shù)據(jù)”,是企業(yè)數(shù)據(jù)的DNA。數(shù)據(jù)使用者或者數(shù)據(jù)系統(tǒng)可以通過元數(shù)據(jù)管理工具發(fā)現(xiàn)數(shù)據(jù)、查找數(shù)據(jù)、理解數(shù)據(jù)以及使用數(shù)據(jù)。傳統(tǒng)的元數(shù)據(jù)收集依靠人工收集,確保元數(shù)據(jù)的完整性和準確性一直都是難點所在,導致元數(shù)據(jù)管理工具的價值不高。而設計態(tài)和實現(xiàn)態(tài)不一致也是一個問題,進一步影響了元數(shù)據(jù)管理工具的效用?!爸鲃印痹獢?shù)據(jù)管理通過元數(shù)據(jù)的自動采集,可以為用戶呈現(xiàn)實現(xiàn)態(tài)的最準確的元數(shù)據(jù)。然而,僅僅依靠自動采集元數(shù)據(jù)并不是“主動”元數(shù)據(jù)管理的全部。本文對“主動”元數(shù)據(jù)管理進行了一些思考和總結(jié),希望能夠?qū)υ獢?shù)據(jù)管理工具的建設起到啟發(fā)的作用。
關(guān)鍵詞:主動元數(shù)據(jù)管理;傳統(tǒng)元數(shù)據(jù)管理;元數(shù)據(jù)管理;主動元數(shù)據(jù)
一、引言
Gartner發(fā)布的2021年技術(shù)成熟度曲線中,主動元數(shù)據(jù)管理(Active Metadata Management)赫然在列。這一概念當前持續(xù)火爆,國內(nèi)外甚至已經(jīng)產(chǎn)生了相關(guān)產(chǎn)品,但其概念并不容易闡釋清楚。盡管Gartner也對主動元數(shù)據(jù)管理做了相應解釋,即“一組能夠持續(xù)訪問和處理并支持持續(xù)分析的元數(shù)據(jù)的功能……”。但當前由此派生的眾多概念都過于抽象,例如主動元數(shù)據(jù)、活動元數(shù)據(jù)、智能元數(shù)據(jù)、現(xiàn)代元數(shù)據(jù)平臺等。同時,各個廠家也是你方唱罷我登場,都在基于自己的產(chǎn)品能力詮釋著對主動元數(shù)據(jù)管理的理解,令人看得云里霧里。
根據(jù)Gartner發(fā)布的《主動元數(shù)據(jù)市場指南》,主動元數(shù)據(jù)是一個永遠在線、智能驅(qū)動、面向行動、API驅(qū)動的系統(tǒng)。Prukalpa Sankar認為主動元數(shù)據(jù)聽是現(xiàn)代數(shù)據(jù)工具箱中的一個必備工具。包括五個關(guān)鍵組成部分:元數(shù)據(jù)湖統(tǒng)一存儲各種元數(shù)據(jù),構(gòu)建在開放的API之上并由知識圖譜進行驅(qū)動;可編程智能機器人,用于創(chuàng)建機器學習或數(shù)據(jù)科學算法來驅(qū)動智能化的框架;嵌入式協(xié)作插件,將數(shù)據(jù)工具與日常工作流程無縫集成;數(shù)據(jù)流程自動化,提供構(gòu)建、部署和管理工作流程自動化機器人。反向元數(shù)據(jù),可通過編排使相關(guān)的元數(shù)據(jù)隨時隨地提供給需要的最終用戶。領(lǐng)英(LinkedIn)的現(xiàn)代元數(shù)據(jù)平臺(DataHub),可大規(guī)模集成、處理和提供豐富的元數(shù)據(jù),以應對許多復雜的組織數(shù)據(jù)挑戰(zhàn),為諸如數(shù)據(jù)來源、數(shù)據(jù)治理、數(shù)據(jù)集成、MLOps 和API開發(fā)等場景提供支持。Guido De Simoni、Alan Dayley等認為主動元數(shù)據(jù)管理是一組能夠持續(xù)訪問和處理元數(shù)據(jù)的功能,這些功能支持對不同成熟度、用例和供應商解決方案的持續(xù)分析。以上眾多概念定義及產(chǎn)品類別,很容易令初次接觸主動元數(shù)據(jù)管理的人陷入迷惑。費曼學習法認為,能通俗易懂地解釋清楚概念(定義),才是真正的掌握某個概念(定義)?;趥€人理解,嘗試對主動元數(shù)據(jù)管理的本質(zhì)作一闡述。
二、主動元數(shù)據(jù)管理的背景
主動元數(shù)據(jù)管理是數(shù)據(jù)管理市場新興的一種功能或趨向,源于持續(xù)的元數(shù)據(jù)管理創(chuàng)新。由于數(shù)據(jù)來自不同的IT系統(tǒng),因此組織管理這些數(shù)據(jù)成為IT團隊的職責。IT團隊希望借助工具來維護和管理公司已有的數(shù)據(jù)表清單以及這些數(shù)據(jù)庫表的元數(shù)據(jù)。在這一需求背景下,元數(shù)據(jù)管理工具主要面向企業(yè)的IT團隊,并用于處理企業(yè)內(nèi)部不同業(yè)務系統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)庫表。
企業(yè)使用多種類型的數(shù)據(jù),越來越多的不同類型的數(shù)據(jù)開始被企業(yè)收集和利用,例如用戶行為數(shù)據(jù)、廣告投放的媒體數(shù)據(jù)等。在實踐中,對這些數(shù)據(jù)進行元數(shù)據(jù)管理非常困難。主要挑戰(zhàn)在于數(shù)據(jù)的不穩(wěn)定性和數(shù)據(jù)庫結(jié)構(gòu)的經(jīng)常變化,以及如何保證元數(shù)據(jù)的信息與真實數(shù)據(jù)情況一致。因此,需要制定數(shù)據(jù)集的列表,涵蓋從數(shù)據(jù)初步采集到加工為最終數(shù)據(jù)應用產(chǎn)品的整個數(shù)據(jù)流程,同時包括每個階段的每個數(shù)據(jù)集的數(shù)據(jù)分布?;谶@些需求,元數(shù)據(jù)管理工具應具備數(shù)據(jù)源管理、數(shù)據(jù)資源分析等功能,這就要求企業(yè)擁有強大的數(shù)據(jù)團隊。
物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種傳感器都是數(shù)據(jù)的來源或承載平臺。數(shù)據(jù)類型和格式的爆炸式增長間接推動元數(shù)據(jù)變得更加復雜和異構(gòu),其規(guī)模也開始暴增。隨著企業(yè)使用數(shù)據(jù)的場景越來越豐富,每個版本的表結(jié)構(gòu)都被獲取和存儲,以及每一列、每個看板、數(shù)據(jù)湖中的每個數(shù)據(jù)集、每個查詢、每個作業(yè)運行、每個訪問歷史等。很快,元數(shù)據(jù)的查找和存儲將面臨與大數(shù)據(jù)曾經(jīng)面臨的諸多問題,元數(shù)據(jù)管理工具也需要進入新的階段。在這個階段,元數(shù)據(jù)管理的目標用戶開始變成企業(yè)使用數(shù)據(jù)的所有人,基于云平臺、面向最終用戶、數(shù)據(jù)協(xié)同等要求,成為新的元數(shù)據(jù)管理工具應具備的特性,主動元數(shù)據(jù)管理正是出于這種原因產(chǎn)生的。
三、主動元數(shù)據(jù)管理的定義
主動元數(shù)據(jù)管理是一個永遠在線、智能驅(qū)動、以行動為導向的系統(tǒng)。永遠在線意味著持續(xù)收集元數(shù)據(jù),通過主動元數(shù)據(jù)管理技術(shù)與各個源系統(tǒng)實時交互,實時獲取最新的元數(shù)據(jù),并根據(jù)使用者的需求虛擬地調(diào)取元數(shù)據(jù)信息。主動元數(shù)據(jù)管理使得元數(shù)據(jù)可以毫不費力地在整個數(shù)據(jù)棧中快速流動,并在數(shù)據(jù)棧中的每個工具中嵌入豐富的背景和信息。智能化不僅體現(xiàn)在主動收集元數(shù)據(jù),還應呈現(xiàn)為主動地掃描這些數(shù)據(jù)源的數(shù)據(jù)變化和數(shù)據(jù)使用習慣(頻次、頻率等),從而智能地調(diào)整底層的數(shù)據(jù)存儲位置和格式等。通過智能化的識別和知識圖譜相關(guān)的技術(shù),幫助理解元數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系,最終協(xié)助數(shù)據(jù)平臺進行自我升級。面向行動是指利用關(guān)鍵的元數(shù)據(jù)指標來啟用AI/ML算法,產(chǎn)生關(guān)于數(shù)據(jù)管理和整合的超前預測,生成建議或警報等。甚至在自動檢測到數(shù)據(jù)質(zhì)量問題時,可以自動停止下游管道。主動元數(shù)據(jù)管理將通過API作為嵌入式協(xié)作插件與現(xiàn)代數(shù)據(jù)棧中的各種工具相連接,使元數(shù)據(jù)管理工具成為“隨處可見”的編排平臺。主動元數(shù)據(jù)管理這個名稱十分貼切,可以把主動元數(shù)據(jù)想象成一個病毒傳播的過程。它會在短短幾秒鐘內(nèi)出現(xiàn)在人們生活的各個方面,可以立即與其他信息進行交叉檢查,并與其他信息相結(jié)合,將相關(guān)背景的網(wǎng)絡匯集成更大的趨勢或故事。它引發(fā)了對話,最終使信息。
四、主動元數(shù)據(jù)管理與傳統(tǒng)元數(shù)據(jù)管理的區(qū)別
遍歷元數(shù)據(jù)管理工具,可以發(fā)現(xiàn)一般都具備以下基礎(chǔ)功能:元數(shù)據(jù)采集、元數(shù)據(jù)存儲、元數(shù)據(jù)應用。要進行元數(shù)據(jù)管理,首先得有元數(shù)據(jù),因此,元數(shù)據(jù)采集是進行管理的第一步。元數(shù)據(jù)采集是指獲取數(shù)據(jù)生命周期中的元數(shù)據(jù),并對其進行組織,然后將元數(shù)據(jù)寫入數(shù)據(jù)庫的過程[1]。元數(shù)據(jù)的存儲需要建立元數(shù)據(jù)的模型(元模型),以便統(tǒng)一存儲各類元數(shù)據(jù)和導入、交換不同系統(tǒng)、類型的元數(shù)據(jù)。除了幫助了解數(shù)據(jù)信息外,元數(shù)據(jù)還用于血緣分析和數(shù)據(jù)問題影響分析。血緣分析可以快速了解一個數(shù)據(jù)表的上下游關(guān)系,了解數(shù)據(jù)的來龍去脈和數(shù)據(jù)邏輯。而影響分析則根據(jù)數(shù)據(jù)的血緣關(guān)系判斷某個數(shù)據(jù)出現(xiàn)錯誤或問題時會影響哪些數(shù)據(jù),從而評估可能帶來的影響[2]。
具備基礎(chǔ)功能的傳統(tǒng)元數(shù)據(jù)管理工具通常在相關(guān)業(yè)務實現(xiàn)后,通過抽取功能加載元數(shù)據(jù),需要在事后人工啟動加載或維護元數(shù)據(jù),并事后補錄業(yè)務屬性。這種傳統(tǒng)元數(shù)據(jù)管理往往很難及時獲取元數(shù)據(jù)的變化,確保元數(shù)據(jù)與實際情況保持一致性。傳統(tǒng)的元數(shù)據(jù)管理工具主要是靠簡單的編目或存儲元數(shù)據(jù),屬于靜態(tài)工具,依賴于人工整理和記錄數(shù)據(jù)。其成功與否取決于實施活動。傳統(tǒng)元數(shù)據(jù)管理工具無法通過元數(shù)據(jù)信號驅(qū)動任何行動,減少了元數(shù)據(jù)對數(shù)據(jù)平臺和數(shù)據(jù)消費者的影響。因此,傳統(tǒng)元數(shù)據(jù)管理工具往往只能成為一個昂貴的存儲平臺,最終導致失敗。究其原因,可能是傳統(tǒng)元數(shù)據(jù)管理工具過于“被動”。元數(shù)據(jù)需要通過手動登記采集編目,并通過簡單的搜索和查詢場景來支持使用。未對元數(shù)據(jù)自身進行深度挖掘,在這種情況下,要管理企業(yè)的數(shù)據(jù)資產(chǎn),工作量是非常大的,而且也很容易導致階段性的元數(shù)據(jù)管理。因為項目驗收時進行了良好的元數(shù)據(jù)注冊,但一旦項目驗收完成,手動注冊的元數(shù)據(jù)就跟不上變化。而主動元數(shù)據(jù)管理則可以主動掃描這些數(shù)據(jù)源的數(shù)據(jù)變化,通過智能化的識別和知識圖譜相關(guān)的技術(shù),幫助人們理解元數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系。傳統(tǒng)元數(shù)據(jù)管理基本上是將元數(shù)據(jù)聚合并存儲到靜態(tài)數(shù)據(jù)目錄中的方式,依賴人力整理和記錄數(shù)據(jù)。而主動元數(shù)據(jù)管理則著眼于發(fā)現(xiàn),識別獨立的物理設計、發(fā)掘行為模式和內(nèi)容規(guī)則、突顯錯誤和異常值、鼓勵創(chuàng)新并進行驗證。
五、主動元數(shù)據(jù)管理的實現(xiàn)
要達到主動元數(shù)據(jù)管理,需要具備以下幾種能力。
(一)可以自動采集各種數(shù)據(jù)源的元數(shù)據(jù)
發(fā)現(xiàn)并連接所有形式的元數(shù)據(jù),形成獨特并不斷變化的關(guān)系。支持與數(shù)據(jù)相關(guān)的所有元數(shù)據(jù),例如表、報表、模型、指標、數(shù)據(jù)處理腳本、數(shù)據(jù)使用行為等。
可以基于本體技術(shù)實現(xiàn)元數(shù)據(jù)的動態(tài)集成。本體技術(shù)比較復雜,以下舉一個例子進行說明:以車管所數(shù)據(jù)為例,可以建立一種人-車-罰單的本體模型,人與車之間為擁有關(guān)系,人與罰單之間通過“闖紅燈”事件相連接,而罰單本身則以文檔的形式展現(xiàn)。完成本體模型后,就可以基于元數(shù)據(jù)建立知識圖譜,如圖1所示。
接下來,就需要將真實的數(shù)據(jù)映射到本體模型上。同時,要在字段級別上對多源異構(gòu)數(shù)據(jù)進行歸一化[3]。仍以車管數(shù)據(jù)為例,具體過程如圖2所示,可以看出,通過本體映射將車管所3張表的數(shù)據(jù)映射到了 7個本體上(2個實體、3個關(guān)系、1個事件和1個文檔),并將車主名稱和姓名進行了統(tǒng)一,將日期的不同表示方式進行了歸一化。
通過以上的建模過程,在應用側(cè)就建立了一個多源數(shù)據(jù)統(tǒng)一的邏輯視圖。即從分析人員的角度對所有數(shù)據(jù)構(gòu)建成了一個圖模型。分析人員無需關(guān)注底層數(shù)據(jù)源差異和存儲細節(jié),只需關(guān)注如何在此圖模型上進行集成設計。任何數(shù)據(jù)要集成進來,都需要進行以上過程,在元數(shù)據(jù)層面進行拉通和融合。這個集成具有動態(tài)的特點,核心邏輯在于采用元數(shù)據(jù)與存儲分離查詢的方案,來賦予知識圖譜“動態(tài)”特性。例如,當表字段發(fā)生變更時,只需直接更改與元數(shù)據(jù)的映射關(guān)系,而無需在應用端重新導入數(shù)據(jù)。
(二)自動生成靈活的數(shù)據(jù)目錄
能夠基于ML/AI能力對數(shù)據(jù)的語義進行分析,打上數(shù)據(jù)的標簽,從而加深對數(shù)據(jù)的業(yè)務理解。例如,針對文檔進行語義分析給出分類,針對關(guān)鍵字段的數(shù)據(jù)進行分析給出枚舉的說明,通過字段的上下文智能判斷敏感級別。能夠基于元數(shù)據(jù)構(gòu)建知識圖譜,將碎片化的元數(shù)據(jù)有機地組織起來(比如建立關(guān)系和對象),讓數(shù)據(jù)目錄更加容易被人和機器理解和處理,并為搜索、挖掘、分析等提供便利,為后續(xù)AI的實現(xiàn)提供知識庫的基礎(chǔ)[4]。
(三)基于知識圖譜實現(xiàn)設計和分析智能
知識圖譜可實現(xiàn)源端連接配置、源端表和字段等信息的快速檢索和自動填充,使其更直觀和易于解釋??勺詣影l(fā)現(xiàn)全域數(shù)據(jù)資產(chǎn),讓企業(yè)能在統(tǒng)一平臺上盤點和管理所有數(shù)據(jù)資產(chǎn)??梢赃M行數(shù)據(jù)的智能推薦,例如基于數(shù)據(jù)的歷史使用情況進行推薦。簡單概括來說,就是將正確的數(shù)據(jù),在正確的時間內(nèi),提供給正確的人。基于元數(shù)據(jù)語義知識圖譜和AI增強的敏感數(shù)據(jù)識別,能夠?qū)崿F(xiàn)對全域數(shù)據(jù)資產(chǎn)的自動化分類分級,讓企業(yè)數(shù)據(jù)治理能夠精準施策。
(四)嵌入式協(xié)作
通過Open API,數(shù)據(jù)工具可無縫集成主動元數(shù)據(jù)。例如,在BI工具中集成數(shù)據(jù)口徑,在營銷平臺中集成數(shù)據(jù)質(zhì)量說明等,以幫助用戶在數(shù)據(jù)旅程的各個階段及時獲得相關(guān)元數(shù)據(jù)信息?;谠獢?shù)據(jù)智能應用編程框架,開發(fā)者可自主定制多樣化的元數(shù)據(jù)智能應用,如數(shù)據(jù)資產(chǎn)答疑助手、數(shù)據(jù)質(zhì)量預警助手等,幫助企業(yè)實現(xiàn)數(shù)據(jù)管理的全方位智能化。
六、結(jié)束語
主動元數(shù)據(jù)管理通過AI/ML輔助生成的,是支持自動化數(shù)據(jù)集成和數(shù)據(jù)交付的基礎(chǔ)能力。主動元數(shù)據(jù)的形成依賴于發(fā)現(xiàn)并連接所有形式的元數(shù)據(jù),形成獨特且不斷變化的關(guān)系,并以易于理解的元數(shù)據(jù)關(guān)系圖的方式來鏈接和呈現(xiàn)元數(shù)據(jù)間的關(guān)系。通過持續(xù)訪問和分析元數(shù)據(jù)關(guān)系圖,可以不斷發(fā)現(xiàn)和形成關(guān)鍵指標、統(tǒng)計數(shù)據(jù)等新的關(guān)系,如訪問頻次、數(shù)據(jù)血緣、數(shù)據(jù)性能、數(shù)據(jù)質(zhì)量等。將元數(shù)據(jù)關(guān)系數(shù)據(jù)作為特征用于訓練和豐富AI算法,同時這些算法可以產(chǎn)生或迭代元數(shù)據(jù)的語義,以及改進數(shù)據(jù)集成的設計和自動化流程。對主動元數(shù)據(jù)的研究才剛剛開始,需要共同努力探索它在當前和未來的數(shù)據(jù)生態(tài)系統(tǒng)中可能扮演的角色。希望這篇文章能給相關(guān)工作人員帶來一些啟示,將主動元數(shù)據(jù)從抽象的概念轉(zhuǎn)化為可行的實踐。
作者單位:張艷 北京金蝶天燕云科技有限公司
參考文獻
[1]馬張迪.基于Spark的元數(shù)據(jù)管理系統(tǒng)的設計與實現(xiàn)[D].電子科技大學,2022.
[2]劉蓓,祿凱,程浩,等.基于異構(gòu)數(shù)據(jù)融合的政務網(wǎng)絡安全監(jiān)測平臺設計與實現(xiàn)[J].信息安全研究,2020,6(06):491-498.
[3]百分點認知智能實驗室,倪路. 基于動態(tài)知識圖譜的大規(guī)模數(shù)據(jù)集成技術(shù)[OL].https://wenku.so.com/d/1df34174224b8ec4e8c7ba382d130fed,2023-5-21
[4]秦鐸.貨運列車安全數(shù)據(jù)一體化集成模型研究與應用[D].北京交通大學,2020.
張艷(1982.05-),女,漢族,山東臨沂,碩士,資深解決方案顧問,研究方向:數(shù)據(jù)治理及大數(shù)據(jù)應用。