貢桑德慶 安淵
引言
數據血緣是指在數據的全生命周期中,因數據的加工、融合、流轉等產生的數據與數據之間的多種關系。通俗地講,數據A經過處理產生了數據B,我們則稱數據A和數據B具有血緣關系。不管是結構化數據還是非結構化數據,都存在數據血緣關系。數據血緣還具有歸屬性、多源性、可溯性和層次性等特性。
數據血緣應用
目前,數據血緣分析技術在數據治理和數據倉庫領域的應用已經比較廣泛,基于數據血緣的四大特征,其主要應用有以下幾個方面:
數據溯源
依托于數據血緣關系可溯性的特點,根據血緣中的數據鏈路關系,可實現指定數據的來源和去向追溯,幫助用戶理解數據含義,在全流程上定位數據問題,進行數據關聯影響分析等,解決多層復雜邏輯處理后數據難以理解、難以應用和錯誤難以定位的問題。
數據價值評估
數據價值是數據管理的核心標準,不管是數據交易中的數據定價還是數據安全中的保護等級,數據價值都是一個重要的參考因素。因此,如何準確地評估數據價值成為企業(yè)面臨的一大難題。傳統的數據價值評估,往往完全依靠相關法規(guī)要求和業(yè)務經驗,缺少在具體應用場景中的評估依據,數據價值評估脫離了數據的應用場景和真實的業(yè)務價值。而數據血緣則提供了一種基于數據實際應用的價值評估方法,使用者越多、使用量級越大、更新越頻繁的數據具有更高價值。
數據質量評估
數據血緣清晰地記錄了數據來源以及數據流轉過程中的處理方式和處理規(guī)則,能實現對各個數據節(jié)點的分析和數據質量評估。
數據歸檔參考
數據血緣中記錄了數據的去向,可清晰地掌握數據被消費的情況,一旦數據沒有消費者,也就意味著數據已失去價值。此時,可以對這些數據進行進一步評估,考慮進行歸檔或銷毀處理。
在數據安全治理中,數據血緣的應用場景主要是數據溯源和數據價值評估。數據溯源可以幫助數據管理者理清數據脈絡,形成數據圖譜,協助構建數據安全管理體系,或追蹤數據泄露節(jié)點、數據風險節(jié)點等。數據價值評估可以輔助數據分類分級體系建設,指導數據的分級管控和分級保護。
數據血緣分析
盡管數據血緣分析還未在數據安全治理中廣泛應用,但考慮數據血緣的特性和應用場景,其在未來必將發(fā)揮重要作用。數據血緣分析作為數據血緣的應用方式,是一個貫穿數據生命周期的過程,涉及流程、技術、產品等多維度內容。數據血緣分析可分為三大模塊:數據血緣建設、數據血緣分析、數據血緣可視化。
數據血緣建設
數據血緣建設并不是建設數據血緣關系,因為數據血緣關系是數據流轉過程中自動產生的。數據血緣建設的目標是當數據被生產時,數據生產過程能被及時、準確地記錄和存儲下來。因此,數據血緣建設并不是一個指定的動作,而是一種管理流程和數據意識,需要延伸到數據產生之前,從數據存儲的設計開始。
數據血緣建設是數據血緣分析的前提條件,準確、完整、及時記錄信息才能帶來有效的血緣分析效果,由于部分數據源本身的數據血緣建設準備較差,在某些業(yè)務場景中需要人工介入進行梳理。
數據血緣分析
數據血緣分析針對數據流轉過程中產生并記錄的各種信息進行采集、處理和分析,對數據之間的血緣關系進行系統性梳理、關聯,并將梳理完成后的信息進行存儲。由于企業(yè)數據龐雜等問題,數據血緣分析通常需要借助工具或系統展開,實現血緣信息數據的自動采集分析。
數據血緣分析通常按數據血緣的層級進行,層級基于業(yè)務需求和某些數據特性可能有差別,常見的分析層級為應用級、數據級和字段級。數據血緣分析的目標是實現數據來源的精確追溯、流轉過程的準確還原、數據去向的精準定位。數據血緣分析需要考慮以下幾個方面:
(1)全面性。數據處理過程實際上是程序對數據進行傳遞、運算演繹和歸檔的過程。為確保數據血緣的完整性,必須將整個系統作為數據血緣的分析對象,才能夠真正做到溯源。
(2)及時性。數據之間的關系是隨時變動的,為保證數據血緣的準確性和可用性,數據血緣分析必須與數據保持同步更新,確保數據血緣的分析結果面向最新的數據和數據關系。
(3)適用性。數據血緣分析技術和實現方式有多種,分析的廣度、深度和維度也有不同,因此,數據血緣分析需要在實現需求目標的前提下開展。
數據血緣可視化
血緣分析完成后,需要依靠可視化技術將分析結果清晰、直觀地傳遞給用戶,幫助客戶進行二次分析和具體應用。數據血緣圖譜是血緣分析中最常用的可視化方案。
業(yè)務需求的差異將決定血緣分析層次和血緣層級的差異,進而體現在數據血緣圖譜上。因此,數據血緣圖譜要基于數據血緣層級進行分層展現,直觀地從應用層級、數據層級、字段層級呈現數據的血緣關系。
在具體應用中,受到業(yè)務需求差異和可采集分析的血緣信息影響,數據血緣圖譜的呈現方式可能存在差異,但其整體形態(tài)基本一致。以某個數據為核心節(jié)點,體現該節(jié)點的數據來源、數據去向、流轉路徑以及路徑中的處理方式和規(guī)則。因此,數據血緣可視化視圖中應至少包含以下元素:
(1)數據節(jié)點標記數據的具體信息,如所有者、層次信息、終端信息等,根據不同的血緣層次和業(yè)務需求,數據節(jié)點的信息有所差異。根據數據類型的不同,數據節(jié)點可分為主節(jié)點、數據流入節(jié)點和數據流出節(jié)點。
(2)數據血緣圖譜呈現數據血緣關系,而主節(jié)點作為數據血緣圖譜的核心,應是可方便切換的。
(3)數據流入節(jié)點是主節(jié)點的父節(jié)點,標記了主節(jié)點的數據來源,可能有多個或多層。
(4)數據流出節(jié)點是主節(jié)點的子節(jié)點,標記主節(jié)點的數據去向,也可能有多個或多層。在數據流出節(jié)點中有一種特殊的終端節(jié)點,數據到達終端節(jié)點后,將不再向別處流轉。
(5)流轉線路標記數據的流轉路徑,通常從流入節(jié)點匯聚到主節(jié)點,再從主節(jié)點擴散到流出節(jié)點。在流轉線路中,不僅可標記數據的流轉關系,還可以通過線路的粗細、長短等標記數據量級和更新頻率。
(6)處理節(jié)點標記數據流轉過程中的處理方式和規(guī)則,通常用于數據節(jié)點之間的流轉線路上。通過處理節(jié)點可以直觀地了解數據在兩個節(jié)點之間流轉時,利用何種規(guī)則進行了處理。
結語
隨著數據爆發(fā)式增長,數據之間的關系越發(fā)復雜,為數據安全治理工作帶來巨大挑戰(zhàn)。在這樣的背景下,具備可溯性、歸屬性等特征的數據血緣將在數據安全治理過程中發(fā)揮越來越大的作用。數據血緣應用需要依賴豐富的可分析數據、強大的數據采集能力、血緣分析能力和清晰直觀的血緣圖譜,貫穿數據全生命周期。數據血緣應用不僅要從技術層面重視,還需從數據安全治理的流程、制度、意識層面進行配合,才能產生預期的效果。
參考文獻:
[1]劉勇.一種計算機網絡關鍵節(jié)點識別方法[J].電子設計工程,2021,29(17):99-103,108.
[2]溫婷.網絡與數據安全產業(yè)迎高光時刻[N].上海證券報,2021-09-02(005).
[3]張思瑋.網絡安全發(fā)展迎來新拐點[N].中國科學報,2021-09-02(003).
[4]安全信任試點 助力車聯網產業(yè)健康發(fā)展[N].中國電子報,2021-08-31(006).
[5]劉勇.一種計算機網絡關鍵節(jié)點識別方法[J].電子設計工程,2021,29(17):99-103,108.
作者簡介:貢桑德慶(1989—),西藏拉薩人,現就職于西藏自治區(qū)黨委網信辦。