亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        從收集保管到生產(chǎn)治理:面向數(shù)智轉型的檔案數(shù)據(jù)資源體系建設

        2025-02-13 00:00:00劉越男趙婧羽田國慶龐浩然
        北京檔案 2025年1期
        關鍵詞:數(shù)據(jù)治理

        摘要:隨著數(shù)據(jù)要素價值的社會共識不斷加強,人工智能對高質量、大規(guī)模數(shù)據(jù)需求的凸顯,數(shù)據(jù)概念和數(shù)據(jù)工作不斷發(fā)展,促使檔案界從數(shù)據(jù)的視角來思考檔案資源建設問題。論文從需求升級、結構擴張、內(nèi)容拓展三個方面分析了數(shù)智轉型背景下檔案數(shù)據(jù)資源體系建設的整體性變化。即檔案資源體系由檔案數(shù)字資源體系向檔案數(shù)據(jù)資源體系轉變,其結構由檔案原文數(shù)據(jù)向衍生檔案數(shù)據(jù)資源擴展,其建設內(nèi)容在收集保管的基礎上新增數(shù)據(jù)生產(chǎn)和數(shù)據(jù)治理,由此形成新的實踐空間和研究空間。

        關鍵詞:檔案資源體系 檔案數(shù)據(jù)化 數(shù)據(jù)生產(chǎn) 數(shù)據(jù)治理 數(shù)智轉型

        Abstract: The societal consensus on the val? ue of data elements continues to strengthen, and the increasing demand for high- quality, large- scale data by artificial intelligence, along with the ongoing development of data concept and data work, have led the archival community to think about archival resources system from a data perspective. This article analyzes the issues related to the overall changes of the archival data resources system in the context of digital-intelli? gent transformation from three aspects: demand upgrade, structural transformation, and content expansion. Specifically, the archival resources system is transforming from a digit-oriented dig? itsystem to a data-oriented system, and its struc? ture is expanding from original data to derivative data. Data production and data governance are standing out in the process of the construction of the archival data resources system besides collection and custody, thereby creating new practical and research spaces.

        Keywords: Archival resources system;Archi? val datafication;Data production;Data governance; Digital-Intelligent transformation

        檔案資源體系建設是檔案事業(yè)的基石,因而也是我國檔案事業(yè)的政策部署和實踐開展的關鍵內(nèi)容。隨著信息化工作的推進,檔案資源體系建設不斷推進數(shù)字化轉型。首部全國檔案信息化工作專項規(guī)劃《全國檔案信息化建設實施綱要》將“目錄數(shù)據(jù)庫建設”“機讀目錄移交”“檔案全文數(shù)據(jù)庫和多媒體數(shù)據(jù)庫建設”“電子文件歸檔”“電子檔案接收、保管、利用”“檔案數(shù)字化”作為信息化背景下檔案資源建設的主要任務。[1]這奠定了數(shù)字時代檔案資源體系建設的基本格局,即將數(shù)字形式的檔案原文、檔案目錄及其數(shù)據(jù)庫作為建設對象,將移交接收、保管利用作為建設環(huán)節(jié)。隨著“利用體系”概念的興起,利用逐漸從檔案資源體系建設任務中剝離,收集保管成為其核心內(nèi)容,“存量數(shù)字化”和“增量電子化”成為數(shù)字檔案資源建設的代表性表述?!丁笆奈濉比珖鴻n案事業(yè)發(fā)展規(guī)劃》要求“加快檔案資源數(shù)字轉型。加強國家檔案數(shù)字資源規(guī)劃管理,逐步建立以檔案數(shù)字資源為主導的檔案資源體系。大力推進‘增量電子化’……繼續(xù)做好‘存量數(shù)字化’”[2]。這意味著從21世紀第3個10年開始,檔案數(shù)字資源將是檔案資源的主要構成。

        恰好就在這個時期,人類社會進入數(shù)智轉型驅動新質生產(chǎn)力發(fā)展的新階段。數(shù)據(jù)要素價值的社會共識不斷加強,人工智能對高質量、大規(guī)模數(shù)據(jù)需求的凸顯,數(shù)據(jù)概念和數(shù)據(jù)工作不斷發(fā)展,促使檔案界從數(shù)據(jù)的視角來審視檔案資源和檔案數(shù)字資源。檔案數(shù)據(jù)概念興起,相關研究比重不斷加大。在此語境下,檔案資源體系數(shù)字化轉型即檔案數(shù)據(jù)資源體系的建設。從檔案資源體系到檔案數(shù)字資源體系,再到檔案數(shù)據(jù)資源體系,并非僅僅是適應當下形勢的、簡單的概念替換,而是意味著檔案資源體系視角的轉變、構成的變革及建設環(huán)節(jié)的拓展。馮澤宇等[3]提出構建“制度、組織、業(yè)務、技術、人才”五位一體的檔案數(shù)據(jù)資源體系建設策略;丁家友等[4]提出動態(tài)平衡的檔案數(shù)據(jù)資源生態(tài)要素、多主體協(xié)同的檔案內(nèi)容服務、多源異構檔案數(shù)據(jù)共享等檔案數(shù)據(jù)資源生態(tài)圈構建維度;金培中等[5]分享了嘉興市檔案館數(shù)據(jù)資源建設的成果。但是,尚未有研究對檔案資源體系建設整體變革加以體系化梳理和方向性建構。本文從檔案數(shù)據(jù)資源體系建設需求變化入手,闡述數(shù)智化演進過程中其結構變化和建設內(nèi)容的拓展。

        一、需求升級:從檔案數(shù)字資源體系到檔案數(shù)據(jù)資源體系

        《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》中所明確的檔案資源體系的主導——檔案數(shù)字資源是《中華人民共和國檔案法》中的概念,根據(jù)權威釋義,檔案數(shù)字資源是對“電子檔案、傳統(tǒng)載體檔案數(shù)字化成果以及其他具有檔案屬性或檔案價值的數(shù)字資源的統(tǒng)稱”[6],該概念側重強調(diào)檔案作為數(shù)字形式的數(shù)據(jù)資源的全面覆蓋性。而檔案行業(yè)標準《檔案數(shù)字資源備份實施規(guī)范》(DA/T 99—2024)則指出,檔案數(shù)字資源是“以數(shù)字形式存在的各類檔案信息資源,包括電子檔案及其元數(shù)據(jù)、檔案目錄數(shù)據(jù)、傳統(tǒng)載體檔案數(shù)字化成果等”[7],該概念則強調(diào)數(shù)字形式的檔案及其元數(shù)據(jù)、目錄數(shù)據(jù)。

        檔案數(shù)據(jù)資源是從數(shù)據(jù)視角對檔案數(shù)字資源概念的豐富、深化和發(fā)展。我們當然可以顧名思義地理解為由檔案數(shù)據(jù)構成的資源體系。鑒于學界和業(yè)界現(xiàn)有多種關于“檔案數(shù)據(jù)”的理解,其邊界寬窄不同,既有將其界定為數(shù)字檔案(包含原生性電子文件和檔案數(shù)字化成果)及元數(shù)據(jù)和目錄,也有將其描述為檔案數(shù)據(jù)化的結果,還可能包括檔案管理業(yè)務的數(shù)據(jù)。[8]面對數(shù)智轉型時代背景下國民經(jīng)濟和社會發(fā)展對數(shù)據(jù)資源質量和規(guī)模的迫切需求,本文提倡立足資源定位,即以檔案資源為基礎,盡可能包容地來建構檔案數(shù)據(jù)和檔案數(shù)據(jù)資源體系的概念。檔案數(shù)據(jù)資源體系是指通過采集、整合、加工等方式所構建起來的檔案及其衍生、關聯(lián)數(shù)據(jù)的有機整體,其體系性不僅表現(xiàn)在多種類型的數(shù)字檔案上,也表現(xiàn)在由數(shù)字檔案衍生、與數(shù)字檔案關聯(lián)的其他數(shù)據(jù)上,包括元數(shù)據(jù)(目錄)、檔案數(shù)據(jù)化結果、相關數(shù)據(jù)等。

        從檔案資源體系到檔案數(shù)據(jù)資源體系的概念轉變,是實施數(shù)字中國戰(zhàn)略的需要。2023年2月,中共中央、國務院聯(lián)合頒布《數(shù)字中國建設整體布局規(guī)劃》,[9]數(shù)據(jù)資源體系成為數(shù)字中國的兩大基礎之一。雖然廣義的數(shù)據(jù)是任何形式的信息記錄,[10]但作為在數(shù)字時代不斷加強的概念,數(shù)據(jù)自帶數(shù)字屬性,在數(shù)字空間,數(shù)據(jù)通常是數(shù)字數(shù)據(jù)的代名詞。檔案是經(jīng)過選擇的、有保存價值的業(yè)務信息記錄,具有真實性、關聯(lián)性和不可再生性,因而也是重要的、法定的數(shù)據(jù)類型。從數(shù)據(jù)的視角來看,數(shù)字空間中的檔案資源體系是無可爭議的檔案數(shù)據(jù)資源體系,因而也是數(shù)字中國數(shù)據(jù)底座重要的構成。

        從檔案資源體系到檔案數(shù)據(jù)資源體系的概念轉變,也是激活檔案數(shù)據(jù)要素價值的需要。中國是最早提出數(shù)據(jù)要素的國家,2019年10月,黨的十九屆四中全會首次將數(shù)據(jù)納入生產(chǎn)要素范疇,《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》《中共中央國務院關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》等數(shù)據(jù)政策相繼出臺,通過數(shù)據(jù)資源流通應用發(fā)揮其經(jīng)濟價值的政策路線非常堅定。檔案界也掀起檔案數(shù)據(jù)要素研究的熱潮。[11]人工智能技術的發(fā)展進一步激發(fā)了檔案數(shù)據(jù)價值的潛能。數(shù)智轉型不斷發(fā)展形勢下,要求更多從價值實現(xiàn)的角度推動檔案數(shù)據(jù)資源體系的建設。

        二、結構擴張:從檔案原文數(shù)據(jù)到衍生檔案數(shù)據(jù)資源

        如果說傳統(tǒng)環(huán)境下檔案資源體系的構成主要是“檔案+目錄”,數(shù)字環(huán)境下檔案資源體系的構成變?yōu)椤霸臄?shù)據(jù)庫+目錄數(shù)據(jù)庫”,到了數(shù)據(jù)作為人工智能重要燃料和產(chǎn)出內(nèi)容的數(shù)智時代,檔案數(shù)據(jù)資源體系的構成不應止步于此,而要在面向業(yè)務場景發(fā)揮檔案數(shù)據(jù)價值觀念的引導下不斷豐富資源體系構成。在橫向上,在“應歸盡歸,應收盡收”的工作導向下不斷優(yōu)化資源結構,同時加強對其他信息記錄、文獻數(shù)據(jù)的主動收集;在縱向上,伴隨“存量數(shù)字化”和“增量電子化”的不斷推進,以獲得可供計算機理解、分析和計算的數(shù)據(jù)為目標的檔案數(shù)據(jù)化不斷深入,面向新一代用戶的檔案數(shù)據(jù)產(chǎn)品不斷發(fā)展,檔案數(shù)據(jù)資源體系以原文數(shù)據(jù)及其描述性數(shù)據(jù)為基礎,通過加工處理不斷衍生,擴展至包括多維標簽、知識單元、檔案信息產(chǎn)品等多層次資源在內(nèi)的復雜體系。

        (一)檔案數(shù)據(jù)資源體系的構成

        檔案數(shù)據(jù)資源體系的構成如圖1所示。該圖左側反映的是檔案數(shù)據(jù)資源體系建設初級階段的構成,右側則揭示檔案數(shù)據(jù)資源體系建設高級階段的構成,其包含的資源類型并無明顯變化,改變的是各類數(shù)據(jù)資源的占比。在初級階段,原始檔案數(shù)據(jù)資源占比最高,而隨著檔案數(shù)據(jù)資源體系建設的推進,經(jīng)衍生、加工形成的檔案數(shù)據(jù)不斷增多,體現(xiàn)了檔案領域對數(shù)據(jù)資源建設的主動作為。

        完整的檔案數(shù)據(jù)資源體系構成包括四類資源。

        一是原始檔案數(shù)據(jù),這是資源體系的基座。其主體是數(shù)字檔案,即作為檔案的數(shù)字數(shù)據(jù),包括原生性電子文件和傳統(tǒng)載體檔案的數(shù)字化成果,以及伴隨數(shù)字檔案一起接收的、描述數(shù)字檔案的元數(shù)據(jù)(目錄)、說明文檔等數(shù)據(jù)。

        二是外聯(lián)數(shù)據(jù),是指與原始檔案數(shù)據(jù)相關聯(lián)的數(shù)據(jù)資源。這類數(shù)據(jù)包括但不限于文獻、標準、互聯(lián)網(wǎng)數(shù)據(jù)等信息。外聯(lián)數(shù)據(jù)是否收集,主要視數(shù)據(jù)查詢利用和產(chǎn)品開發(fā)的需要。

        三是衍生檔案數(shù)據(jù),是由原始檔案數(shù)據(jù)經(jīng)過數(shù)據(jù)化、知識化加工而來的產(chǎn)物。這類數(shù)據(jù)包括但不限于對檔案資源進行轉錄識別、模態(tài)轉換后的數(shù)據(jù),如文字識別、聲音識別的結果,圖像識別的標注;增強描述的標簽;原始文檔解構后產(chǎn)生的關于文檔主題(如人、事、時、地、物等)、特征、式樣等知識單元,“實體—屬性—值”三元組是其經(jīng)典表現(xiàn);由知識單元關聯(lián)形成的知識圖譜等;還包括數(shù)據(jù)庫、專題庫、知識庫、向量庫等各類組織有序的數(shù)據(jù)集合。

        四是檔案數(shù)據(jù)產(chǎn)品,是指按照用戶需求和應用場景需要,對原始、衍生、外聯(lián)數(shù)據(jù)進行整合開發(fā)并提供應用的數(shù)據(jù)資源。比如數(shù)據(jù)集、數(shù)字出版物、數(shù)字展陳、數(shù)字游戲等多類型內(nèi)容產(chǎn)品及與服務集成在一起的多渠道服務產(chǎn)品等。

        (二)檔案數(shù)據(jù)資源體系的特性

        檔案數(shù)據(jù)資源體系具有以下四個特性。

        一是層次性。檔案數(shù)據(jù)資源體系具有多層次的結構,從基礎性的原始檔案數(shù)據(jù),拓展性的外聯(lián)數(shù)據(jù),到細顆粒度、高集合度的衍生檔案數(shù)據(jù),再到多樣化的檔案數(shù)據(jù)產(chǎn)品,檔案數(shù)據(jù)資源體系內(nèi)容不斷豐富,其建設也是一個逐步深化和擴展的過程,在此過程中,檔案數(shù)據(jù)資源的價值得以提升。

        二是開放性。檔案數(shù)據(jù)資源體系并非封閉的,一方面,它能接納多種外部來源數(shù)據(jù)的不斷融入,歸檔、移交、采集、征集等檔案收集工作的正常開展是檔案數(shù)據(jù)資源體系開放性的基本保證。隨著文件歸檔、檔案移交接收政策的完善,檔案管理系統(tǒng)對接業(yè)務系統(tǒng)能力的加強,檔案資源的種類不斷豐富,如多地檔案館加強對民生相關的專業(yè)檔案的收集和音視頻資料的采集。另一方面,它能結合當下技術的應用輸出多種形式、形態(tài)的數(shù)據(jù)和數(shù)據(jù)產(chǎn)品。如某企業(yè)利用人工智能技術對特定公文進行結構分解,形成知識庫,以開展此類公文作者群體、主題分布的分析。

        三是關聯(lián)性。不同層級的檔案數(shù)據(jù)資源并非孤立存在,檔案之間、檔案及其描述數(shù)據(jù)之間,檔案及其加工數(shù)據(jù)之間具有緊密的內(nèi)在聯(lián)系。檔案數(shù)據(jù)資源建設的一項重要的任務就是揭示并序化檔案聯(lián)系,通過檔案分類、專題匯聚、關聯(lián)數(shù)據(jù)、知識圖譜、數(shù)字敘事等方式呈現(xiàn)關聯(lián)。

        四是生長性。檔案數(shù)據(jù)資源體系的生長性是其開放性和關聯(lián)性的結果。隨著檔案資源的增加、數(shù)據(jù)化程度的加深,數(shù)據(jù)關聯(lián)的挖掘及業(yè)務需求、利用方式的改變,檔案數(shù)據(jù)資源體系持續(xù)擴展和演變。

        三、內(nèi)容拓展:從收集保管到生產(chǎn)治理

        數(shù)智轉型對檔案數(shù)據(jù)資源體系提出了構成更為豐富、質量和規(guī)模相匹配的建設要求,檔案界需在“掌握檔案數(shù)據(jù)形成機理、流轉規(guī)律與演化趨勢的基礎上……重構檔案數(shù)據(jù)‘收管存用’的業(yè)務環(huán)節(jié)與方法模式”,重組檔案數(shù)據(jù)管理流程。[12]在2024檔案數(shù)據(jù)產(chǎn)教融合大會暨第十四屆中國電子文件管理論壇上,《檔案管理》期刊主編劉永教授用“從收、存、用到生、治、慧”形容檔案管理關鍵環(huán)節(jié)的變化。其中“生”即生產(chǎn),“治”即治理,“慧”即智慧服務。在收集保管的基礎上,檔案數(shù)據(jù)資源體系建設的工作內(nèi)容新增數(shù)據(jù)生產(chǎn)和數(shù)據(jù)治理,由此形成新的實踐空間和研究空間。

        (一)面向數(shù)據(jù)要素的檔案數(shù)據(jù)生產(chǎn)

        圖1所示的檔案數(shù)據(jù)資源體系構成中,自下而上不同類型檔案數(shù)據(jù)資源之間的內(nèi)在邏輯,已經(jīng)彰顯了數(shù)據(jù)生產(chǎn)任務的必要性。這意味著在從外部收集檔案之余,檔案部門作為數(shù)據(jù)生產(chǎn)者,由收集而來的檔案數(shù)據(jù)加工生產(chǎn)出更多的檔案數(shù)據(jù),將成為數(shù)智時代掌握檔案數(shù)據(jù)資源的另一條途徑。

        數(shù)據(jù)已經(jīng)成為繼土地、勞動力、資本、技術之后的第五大生產(chǎn)要素。但數(shù)據(jù)并非天然成為生產(chǎn)要素,必須經(jīng)過加工使其具有使用價值并與業(yè)務場景相銜接的“要素化”過程。清華大學金融科技研究院院長廖理認為數(shù)據(jù)要素化包括將“原始數(shù)據(jù)加工成機器可讀的,具備投入生產(chǎn)使用條件的生產(chǎn)數(shù)據(jù)”和“讓數(shù)據(jù)可以通過流通進入到社會化大生產(chǎn)中”兩個過程。[13]在檔案學語境中,能夠將其落實為“可機用”和“可流通”兩個方面,前者泛指將原始數(shù)據(jù)轉化為機器可以識讀、理解和分析的衍生數(shù)據(jù),加工成業(yè)務和用戶需要的產(chǎn)品數(shù)據(jù);后者包括檔案數(shù)據(jù)開放、共享、授權運營、交易、服務等若干檔案利用體系建設的任務。由此可見,保證檔案數(shù)據(jù)“可機用”是面向數(shù)據(jù)要素價值實現(xiàn)的檔案數(shù)據(jù)資源體系建設任務,具體可包括數(shù)字化、數(shù)據(jù)化、知識化、語料化、產(chǎn)品化等工作內(nèi)容。其要點如表1所示。

        1.數(shù)字化:生產(chǎn)機器可讀數(shù)據(jù)。數(shù)字化是將傳統(tǒng)載體檔案轉化為數(shù)字數(shù)據(jù)的過程。數(shù)字化是檔案數(shù)據(jù)的初級生產(chǎn)。數(shù)字化的時機可能在歸檔、移交之前,也可能在接收檔案之后,無論何種情況,均需要保證數(shù)字化成果的質量,技術指標符合相關規(guī)定,檔案原文與目錄之間能夠準確掛接,避免因精度不夠、掛接不明、著錄不準等問題出現(xiàn)二次加工的情況。

        2.數(shù)據(jù)化:生產(chǎn)機器可算數(shù)據(jù)。數(shù)據(jù)化是對非結構化檔案原文進行加工處理,將文檔轉變?yōu)闄C器可識別、可分析、可計算的數(shù)據(jù)的過程,完整的數(shù)據(jù)化工作包括轉錄識別、描述增強、關聯(lián)構建和矢量處理等環(huán)節(jié)。[14]數(shù)據(jù)化是面向人機協(xié)同利用的數(shù)據(jù)結構化和粒度細化,是數(shù)智轉型背景下檔案數(shù)據(jù)生產(chǎn)的核心環(huán)節(jié)。當下階段檔案界強調(diào)的數(shù)據(jù)化工作以轉錄識別和描述增強為主。其中轉錄識別是將文檔的內(nèi)容數(shù)據(jù)變?yōu)闄C器可操作的數(shù)據(jù),比如通過光學字符識別技術將掃描后的紙質檔案圖像轉換為文本數(shù)據(jù),以提高檔案內(nèi)容數(shù)據(jù)的可訪問性和可搜索性。描述增強是對檔案及其內(nèi)容進行標注的工作,可以通過自然語言處理技術、大語言模型等技術對檔案內(nèi)容進行語義分析和標注,形成富語義描述數(shù)據(jù)庫和標注數(shù)據(jù)集。

        3.知識化:生產(chǎn)新知識。知識化是對檔案數(shù)據(jù)資源進行整合、分析的基礎上,面向用戶形成不同于原始數(shù)據(jù)新的知識發(fā)現(xiàn)的過程。知識化是對檔案、檔案內(nèi)容、元數(shù)據(jù)、檔案標注數(shù)據(jù)之間關聯(lián)加以揭示的過程,也可以被理解為構建檔案數(shù)據(jù)之間多維關聯(lián)的工作,是檔案數(shù)據(jù)生產(chǎn)的高階環(huán)節(jié)。其覆蓋面較廣,既包括相對傳統(tǒng)的檔案分類、聚類,生成分類索引、專題數(shù)據(jù)庫等;也包括基于細粒度數(shù)據(jù)的知識關聯(lián)構建,如關聯(lián)數(shù)據(jù)、語義網(wǎng)、知識圖譜、知識網(wǎng)絡等。在知識關聯(lián)構建中,本體、詞表、知識圖譜是信息資源管理領域知識化的常規(guī)方法,主要過程包括本體建模、詞表構建、實體識別、關系抽取、圖譜呈現(xiàn)等,在干部人事檔案[15]、家譜檔案[16]、地質資料[17]等多類型資源中得到實證應用。知識化的過程雖然是人機協(xié)同的,但知識化的結果最終是為人服務的。

        4.語料化:構建數(shù)據(jù)集。語料化是將檔案數(shù)據(jù)作為人工智能算法模型開發(fā)原料加以匯集處理的過程。面對不同類型的、不同階段的模型訓練和測試任務,可提供的語料包括多模態(tài)檔案原文及其元數(shù)據(jù)、標注數(shù)據(jù)、檔案知識單元等。語料化不僅僅是檔案數(shù)據(jù)的簡單收集,也涉及檔案數(shù)據(jù)的深度加工,從而生產(chǎn)出能夠直接支持機器學習和人工智能應用的高質量數(shù)據(jù)集。語料化是人工智能應用這一特定場景下的檔案數(shù)據(jù)生產(chǎn),是對數(shù)字化、數(shù)據(jù)化、知識化成果的綜合應用,可視作一種特定用途的產(chǎn)品化。語料集可以免費公開,也可以上市交易,前者如美國國家檔案與文件署在開放數(shù)據(jù)網(wǎng)站上公布了50個數(shù)據(jù)集;[18]后者如我國2023年7月上海數(shù)據(jù)交易所正式上線語料庫,3個月后語料數(shù)據(jù)集達218個,占比高達86.5%。[19]

        5.產(chǎn)品化:開發(fā)用戶所需數(shù)據(jù)。產(chǎn)品化是在綜合應用各類原始、關聯(lián)和衍生檔案數(shù)據(jù)的基礎上,形成滿足用戶需求的最終產(chǎn)品的過程。如果說語料化是面向人工智能用戶的產(chǎn)品化,那么一般的檔案數(shù)據(jù)產(chǎn)品化則以人類用戶需求的滿足為目標。數(shù)智時代下的檔案數(shù)據(jù)產(chǎn)品開發(fā),依托的是經(jīng)過數(shù)字化、數(shù)據(jù)化、知識化等步驟加工處理后的顆粒度更細、數(shù)據(jù)體量更大、知識關聯(lián)更強的數(shù)據(jù)成果,故而可以突破編研、展覽等傳統(tǒng)檔案開發(fā)的局限,產(chǎn)出更具文化內(nèi)涵、科技屬性和經(jīng)濟價值的產(chǎn)品,產(chǎn)出更具交互性、沉浸感、趣味性,更加適應網(wǎng)絡原住民使用習慣的新型數(shù)據(jù)產(chǎn)品。如上海市檔案館推出“跟著檔案觀上?!睌?shù)字人文平臺,以50多個上海地標為基點,將記錄相關建筑、人物、事件的千余份檔案文獻建立時空關聯(lián),反映城市發(fā)展的變遷。[20]南京市檔案館和南京大數(shù)據(jù)集團合作南京云錦、南京金箔兩大類非遺檔案專題數(shù)據(jù)庫,率先在國內(nèi)開展非遺檔案數(shù)據(jù)資產(chǎn)轉化試點。[21]

        (二)面向數(shù)據(jù)質量的檔案數(shù)據(jù)治理

        隨著檔案數(shù)據(jù)資源數(shù)量、類型的不斷增加,原始檔案數(shù)據(jù)之外的檔案數(shù)據(jù)類型的豐富,檔案數(shù)據(jù)資源的規(guī)模劇增,將引發(fā)海量檔案數(shù)據(jù)的治理問題。這里的治理不僅是對接收檔案的質量把關,對數(shù)字檔案長期保存過程的風險防范,更是圍繞著多類型檔案數(shù)據(jù)的真實性、完整性、可用性、安全性、一致性、規(guī)范性等綜合質量目標開展的一系列管控活動。數(shù)據(jù)治理旨在實現(xiàn)檔案數(shù)據(jù)質量和規(guī)模的同步發(fā)展。

        檔案數(shù)據(jù)治理是近幾年檔案學界關注較多的研究領域。相關研究集中在宏觀的檔案數(shù)據(jù)治理內(nèi)涵、檔案數(shù)據(jù)治理體系[22]、檔案數(shù)據(jù)治理能力體系[23]等方面,亦關注具體的檔案數(shù)據(jù)治理策略問題,包括完善檔案數(shù)據(jù)治理的制度框架,健全檔案數(shù)據(jù)治理的組織架構,創(chuàng)新檔案數(shù)據(jù)治理的參與機制,優(yōu)化檔案數(shù)據(jù)治理的方法體系[24],注重元數(shù)據(jù)管理工具、區(qū)塊鏈技術[25]等治理技術的應用[26]等。本文則立足檔案數(shù)據(jù)資源體系建設者的角度,參照國際數(shù)據(jù)協(xié)會的數(shù)據(jù)治理框架,闡述檔案數(shù)據(jù)資源體系治理工作的框架和內(nèi)容,以建立對該項工作的完整認識,涉及檔案數(shù)據(jù)資源建設戰(zhàn)略、治理架構以及治理活動三個層面,如圖2所示。三個層面的數(shù)據(jù)治理相互銜接,互為支撐。

        1.明確檔案數(shù)據(jù)資源體系建設戰(zhàn)略。戰(zhàn)略是根據(jù)選擇和決策的集合繪制出一個高層次的行動方案,以實現(xiàn)高層的目標。與在檔案領域內(nèi)部的火熱推行相比,檔案數(shù)據(jù)在政府數(shù)據(jù)治理、公共數(shù)據(jù)治理、企業(yè)數(shù)據(jù)治理等領域則面臨邊緣化的風險。與金融、醫(yī)療等數(shù)據(jù)密集型行業(yè)相比,檔案數(shù)據(jù)在數(shù)據(jù)驅動的決策和創(chuàng)新中的作用尚未得到廣泛認可。在國家和地方相關數(shù)據(jù)法規(guī)政策中,檔案數(shù)據(jù)也表現(xiàn)出不同程度地被“忽略”問題。檔案數(shù)據(jù)資源因其真實可信在數(shù)據(jù)資源體系中具有獨特的價值,一定規(guī)模的檔案數(shù)據(jù)補充能夠有效擴展數(shù)據(jù)要素池,提升數(shù)據(jù)整體質量。面向數(shù)智時代發(fā)展的新要求,檔案部門需要實現(xiàn)從數(shù)據(jù)保管者向數(shù)據(jù)生產(chǎn)者的角色擴展,兼顧數(shù)據(jù)要素可機讀、可流通、可確權、可計量等要求和檔案的特有屬性及工作邏輯,從整體全局的高度審視檔案數(shù)據(jù)治理的重要性和必要性。一方面,聚焦檔案資源體系建設的關鍵問題,對接國家戰(zhàn)略需求、地方和行業(yè)的發(fā)展重點,制定數(shù)據(jù)資源體系建設的規(guī)劃,明確數(shù)據(jù)治理目標和主要任務;另一方面,通過內(nèi)外協(xié)作,將檔案數(shù)據(jù)資源體系建設切實納入國家、地方和行業(yè)數(shù)據(jù)資源體系建設、數(shù)據(jù)要素化的政策和實踐中,積極加入數(shù)字化轉型、人工智能應用試點、數(shù)據(jù)資產(chǎn)評估、公共文化服務等相關工作中,通過項目推動和帶動檔案數(shù)據(jù)資源體系建設。

        2.建立檔案數(shù)據(jù)治理架構。治理架構確立檔案數(shù)據(jù)資源建設的組織、標準和技術等核心要素,從而形成數(shù)據(jù)治理的基本格局。具體工作內(nèi)容包括:其一,明確檔案數(shù)據(jù)治理部門、人員及其職責分工。數(shù)據(jù)治理不是一個單獨的流程性環(huán)節(jié),而是面向檔案全生命周期,覆蓋所有檔案數(shù)據(jù)資源類型,因此需要數(shù)據(jù)治理一方面要有高層領導直接負責,另一方面需要數(shù)據(jù)收集、生產(chǎn)、保存、服務等各部門的職責分擔和工作協(xié)同。其二,制定數(shù)據(jù)治理的相關標準。檔案部門需要深入理解所藏檔案數(shù)據(jù)資源的特性,掌握檔案管理環(huán)節(jié)、應用場景、訪問權限等方面的治理需求,制定覆蓋檔案數(shù)據(jù)治理標準規(guī)范,細化檔案數(shù)據(jù)收集、生產(chǎn)、保存、利用方面的具體流程與操作要求,明確數(shù)據(jù)質量管理、元數(shù)據(jù)管理、分級分類、數(shù)據(jù)安全合規(guī)等方面的規(guī)范細則。其三,明確檔案數(shù)據(jù)治理的技術路徑,涉及技術選型、系統(tǒng)接口、數(shù)據(jù)庫設計等方面,涵蓋一致性檢查、格式遷移、區(qū)塊鏈存證、數(shù)據(jù)脫敏等技術應用。實際開展工作中,為了一項數(shù)據(jù)治理任務,可能會同時選擇兩個以上的治理方案,比如采用多個廠商的OCR工具開展數(shù)據(jù)校核。其四,開展檔案數(shù)據(jù)治理評估和改進。定期評估數(shù)據(jù)質量、系統(tǒng)性能、用戶滿意度等檔案數(shù)據(jù)治理效果,識別檔案數(shù)據(jù)治理中可能存在數(shù)據(jù)錯誤、數(shù)據(jù)冗余、訪問延遲、安全漏洞等問題,調(diào)整檔案數(shù)據(jù)治理的策略和流程,以解決存在的問題。

        3.開展檔案數(shù)據(jù)治理活動。數(shù)據(jù)質量管理、元數(shù)據(jù)管理、分級分類、安全保障、合規(guī)保障等治理活動是基礎性、通用性數(shù)據(jù)治理活動,檔案數(shù)據(jù)治理的相關工作需結合檔案資源、檔案工作的特點和實際情況展開,確保檔案數(shù)據(jù)保持高質量和可訪問。在數(shù)據(jù)質量管理方面,需要在真實性、完整性、可用性和安全性的基礎上,針對檔案數(shù)據(jù)資源體系規(guī)模大、層級多、類型繁的特點,增加數(shù)據(jù)一致性、準確性、規(guī)范性等數(shù)據(jù)質量目標,實施嚴格的數(shù)據(jù)質量控制流程,定期開展數(shù)據(jù)質量審計,確保檔案數(shù)據(jù)資源體系在兼具檔案與數(shù)據(jù)雙重屬性的同時,滿足其雙重質量要求,從而發(fā)揮雙重價值。在元數(shù)據(jù)管理方面,需要開發(fā)和維護一個全面的元數(shù)據(jù)框架,為各類檔案數(shù)據(jù)提供包括來源、內(nèi)容、格式、日期等在內(nèi)的詳細描述,并利用元數(shù)據(jù)提高檔案數(shù)據(jù)的可發(fā)現(xiàn)性、可檢索性和可理解性,支持有效的檔案數(shù)據(jù)管理和利用。在分級分類方面,需要確保分類系統(tǒng)與機構內(nèi)外的安全政策和法規(guī)要求相一致,根據(jù)檔案數(shù)據(jù)的重要性、敏感性和使用頻率對其進行分級分類,以便實施差異化的管理和開發(fā)。安全合規(guī)是每個機構開展數(shù)據(jù)治理的底線保障,檔案數(shù)據(jù)治理也不例外。檔案內(nèi)容涉密涉敏情況較為普遍,檔案開放審核工作難度較大,檔案利用服務受到一定的限制,由檔案數(shù)據(jù)化、知識化、語料化、產(chǎn)品化之后的成果數(shù)據(jù),也需規(guī)制其使用范圍、使用條件,并采取數(shù)據(jù)脫敏、數(shù)據(jù)摘錄等技術規(guī)避涉密數(shù)據(jù)、敏感數(shù)據(jù)的使用。

        四、結語

        檔案數(shù)據(jù)資源體系是數(shù)據(jù)視角下檔案資源體系的深化發(fā)展。本文從檔案數(shù)據(jù)資源體系建設需求變化入手,對檔案資源體系建設整體變革加以體系化梳理和方向性建構。數(shù)智轉型的時代發(fā)展提出了從檔案數(shù)字資源體系向檔案數(shù)據(jù)資源體系升級的需求,其結構正在經(jīng)歷從檔案原文數(shù)據(jù)到衍生檔案數(shù)據(jù)的擴展,其建設則面臨從收集保管到生產(chǎn)治理的內(nèi)容拓展。由此可見,檔案與數(shù)據(jù)屬性的碰撞與統(tǒng)合給檔案數(shù)據(jù)資源體系建設帶來廣闊空間。

        但與此同時,檔案工作具有鮮明的內(nèi)向型特征,多在遵守保密屬性與安全意識的前提下從供給端對檔案數(shù)據(jù)進行可信管理;數(shù)據(jù)要素化則具有顯著的外向性,強調(diào)以用戶為中心從需求端對數(shù)據(jù)資源進行利用和復用。[27]檔案與數(shù)據(jù)交融也面臨發(fā)展難題,本文對這些難題并未深入展開,如外聯(lián)數(shù)據(jù)捕獲范圍如何確定;在人工智能不斷發(fā)展、用戶需求不斷提級的背景下,數(shù)據(jù)化、知識化、語料化等檔案數(shù)據(jù)生產(chǎn)方式方法如何升級;檔案數(shù)據(jù)治理如何融合數(shù)據(jù)治理和檔案治理的思維和方法等。在面向數(shù)智轉型的檔案數(shù)據(jù)資源體系建設發(fā)展中,上述問題尚需進一步探索與應對。

        *本文系國家社科重大項目“新一代人工智能背景下的計算檔案學研究”(項目編號:24ZD326)的階段性研究成果。

        注釋及參考文獻:

        [1]國家檔案局中央檔案館.全國檔案信息化建設實施綱要[EB/OL].(2002-11-25)[2024-12-02].https:// www.saac.gov.cn/zt/2010-03/18/content_3205.htm.

        [2]中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].(2021- 06- 09) [2024- 12- 02] .https://www.saac.gov.cn/daj/ toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.

        [3]馮澤宇,郭若涵,徐擁軍.“檔案數(shù)據(jù)化”與“數(shù)據(jù)檔案化”雙向融合視角下的檔案數(shù)據(jù)資源體系建設[J].浙江檔案,2024(7):24-29.

        [4]丁家友,周涵瀟.數(shù)字敘事視域下檔案內(nèi)容管理的發(fā)展趨勢——檔案數(shù)據(jù)資源生態(tài)圈的構建探索[J].檔案學研究,2022(6):80-85.

        [5]金培中,慈波.強化檔案數(shù)據(jù)資源治理提升檔案公共服務效能——以嘉興市檔案館為例[J].浙江檔案,2023(12):16-17;20.

        [6]袁杰.中華人民共和國檔案法釋義[M].北京:中國民主法制出版社,2020:86.

        [7]中華人民共和國國家檔案局.檔案數(shù)字資源備份實施規(guī)范:DA/T 99—2024[S/OL].(2024- 10- 14)[2024-12-02]. https : // www.saac.gov.cn/daj/hybz/ 202410/79d6bc3062a944ca815b384336a7f2f8.shtml.

        [8]何思源,劉珂.檔案與數(shù)據(jù)關系的多維解析——兼論檔案數(shù)據(jù)的概念定位[J].檔案學通訊,2024(1):37-44.

        [9]新華社.中共中央國務院印發(fā)《數(shù)字中國建設整體布局規(guī)劃》[EB/OL].(2023- 02- 27) [2024- 12- 02].https://www.gov.cn/ zhengce/2023-02/27/content_5743484.htm.

        [10]第十三屆全國人民代表大會常務委員會.中華人民共和國數(shù)據(jù)安全法[EB/OL].(2021-06-10)[2024-12-02].http://www. npc.gov.cn/c2/c30834/202106/t20210610_311888.html.

        [11]趙躍,李琪,王月.關于檔案數(shù)據(jù)要素若干基本問題的思考[J].檔案與建設,2024(5):3-11.

        [12]金波,楊鵬.檔案數(shù)據(jù)治理賦能的思維意象與行動具象[J].檔案學研究,2024(3):4-12.

        [13]清華大學金融科技研究院.數(shù)據(jù)要素化100問:可控可計量與流通交易[M].北京:人民日報出版社,2022:序6-7.

        [14]楊建梁,劉越男,祁天嬌.文檔數(shù)據(jù)化:概念、框架與方法[J].中國圖書館學報,2022,48(3):63-78.

        [15]周娟娟,李澤鋒,劉竟一.基于知識圖譜的干部人事檔案知識化服務研究[J].檔案管理,2021(6):87-89.

        [16]朱蘭蘭,霍婕,高玉婷.館藏家譜文獻知識化開發(fā):價值、主體與過程[J].數(shù)字圖書館論壇,2023,19(11):38-45.

        [17]廉永海,王斌,胡瑞斌,等.成果地質資料知識化方法初探[J].中國礦業(yè),2023,32(6):175-182.

        [18] 50 datasets found [EB/OL]. [2024-12-22]. https://catalog.data.gov/organization/nara-gov.

        [19]袁炯賢,紀依.語料含“原材料”和“半成品”要讓大模型“吃”得下能“消化”[EB/OL].(2024- 11- 29) [2024- 12- 22]. https:// www.163.com/dy/article/JI58DGO905129QAF.html.

        [20]周程祎.“跟著檔案觀上?!?,走進城市歷史“元宇宙”[EB/OL].(2024-06-14)[2024-12-22].https:// www.workercn.cn/c/2023-06-14/7876245.shtml.

        [21]徐光平,呂永明.市檔案館率先在國內(nèi)開展非遺檔案數(shù)據(jù)資產(chǎn)轉化試點[EB/OL].(2024- 11- 29) [2024- 12- 22]. https:// www.163.com/dy/article/JI58DGO905129QAF.html.

        [22]金波,楊鵬.大數(shù)據(jù)時代檔案數(shù)據(jù)治理研究[J].檔案學研究,2020(4):29-37.

        [23]楊智勇,謝雨欣.面向善治的檔案數(shù)據(jù)治理能力體系構建[J].檔案與建設,2022(2):9-13.

        [24]常大偉,潘娜.檔案數(shù)據(jù)治理能力的結構體系與建設路徑[J].浙江檔案,2020(2):27-29.

        [25]周林興,林凱.大數(shù)據(jù)時代檔案數(shù)據(jù)質量治理:因素、框架和路徑[J].檔案學研究,2023(2):111-119.

        [26]胡曉慶.信息生命周期理論視角下的檔案數(shù)據(jù)治理策略研究[J].山西檔案,2020(6):58-61.

        [27]許曉彤,張嘉瑋,李照川.檔案數(shù)據(jù)要素化的歷史源流、關鍵問題與價值空間[J].檔案與建設,2024(5):12-21.

        作者單位:1.中國人民大學信息資源管理學院2.中國人民大學電子文件管理研究中心3.多模態(tài)檔案保護與開發(fā)國家檔案局重點實驗室

        猜你喜歡
        數(shù)據(jù)治理
        云端數(shù)據(jù)治理定義解析
        營配貫通臺區(qū)線損異常數(shù)據(jù)治理分析
        基于oracle12c+oda數(shù)據(jù)治理方案探討
        智慧城市建設項目風險挑戰(zhàn)與解決經(jīng)驗
        圖書與情報(2016年6期)2017-04-17 23:32:35
        基于本體的企業(yè)運營數(shù)據(jù)治理
        云端數(shù)據(jù)治理初探
        運用流程化手段提升資產(chǎn)管理水平
        大數(shù)據(jù)治理模型與治理成熟度評估研究
        大數(shù)據(jù)時代城市治理:數(shù)據(jù)異化與數(shù)據(jù)治理
        久久综合精品国产丝袜长腿| 久久九九有精品国产尤物| 男人深夜影院无码观看| 日本久久大片中文字幕| 老师开裆丝袜喷水视频| 真人无码作爱免费视频禁hnn| 中文字幕久久久久人妻无码| 丰满人妻被猛烈进入中文字幕护士| 精品一区二区在线观看免费视频| 精品国内在视频线2019| 国产亚洲日韩欧美一区二区三区 | 久久水蜜桃亚洲av无码精品麻豆| 日日摸日日碰人妻无码老牲| 蜜桃视频网站在线免费观看| 好大好爽我要高潮在线观看| 国产丝袜在线精品丝袜| 亚洲av日韩av综合aⅴxxx| 手机在线观看成年人视频| 漂亮人妻洗澡被公强 日日躁| 国产激情内射在线影院| 精品91亚洲高清在线观看| 免费国产不卡在线观看| 性久久久久久| 成人免费网站视频www| 无码AV无码免费一区二区| 国产精品毛片极品久久| 国产高潮视频在线观看| 国产激情电影综合在线看| 久久亚洲精品成人av观看| 丁香五月缴情在线| 乱人伦视频中文字幕| 国产永久免费高清在线观看视频| 新久久国产色av免费看| 国语对白做受xxxxx在| 亚洲午夜精品a区| 国产一区二区三区蜜桃| 日韩人妻少妇一区二区三区| 日韩av无码成人无码免费| 日韩精品中文字幕综合| 色综合久久中文综合网亚洲| 丰满岳妇乱一区二区三区|