摘要:檔案事業(yè)正處于數(shù)智化轉(zhuǎn)型期,技術(shù)變遷等環(huán)境因素對檔案開發(fā)工作產(chǎn)生重要影響。論文基于文件連續(xù)體理論模型,構(gòu)建了“AI+檔案開發(fā)”的四維要素分析框架。首先,從互動、制度、文件保存形式和證據(jù)四個方面,系統(tǒng)識別出“AI+檔案開發(fā)”的開發(fā)行為、開發(fā)主體、開發(fā)形式及開發(fā)意義要素;其次,從四維要素維度展開理論闡釋,深入解讀“AI+檔案開發(fā)”過程中的互動推進、身份重構(gòu)、模式創(chuàng)新及價值轉(zhuǎn)化關(guān)系;最后,選取法國Socface歷史檔案開發(fā)項目作為典型案例,通過實證分析,驗證要素框架的實踐解釋力,為我國檔案事業(yè)數(shù)字化轉(zhuǎn)型提供理論參照與實踐范式。
關(guān)鍵詞:人工智能 檔案開發(fā) 文件連續(xù)體 要素框架
Abstract:The archival industry is currently un? dergoing a period of digital transformation, and environmentalfactorssuchastechnological changes have a significant impact on archival de? velopment. Therefore, based on the theory of re? cords continuum, this article constructs a four-di? mensional element analysis framework for AI+ar? chival development. Firstly, the system identifies the development behavior, development subject, developmentform,anddevelopmentsignifi? cance elements of AI+archive development from four aspects: transaction, system, recordkeeping containers, and evidentiality; Subsequently, theo? retical interpretation is carried out from the per? spective of four- dimensional elements, delving into the interactive promotion, identity recon? struction, mode innovation, and value transforma? tion relationships in the process of AI + archival development ; Finally, the Socface Historical Ar? chives Development Project in France was se? lected as a typical case, and the practical explana? tory power of the element framework was veri? fied through empirical analysis, providing theoreti? cal references and practical paradigms for the dig? ital transformation of China’s archival industry.
Keywords:Artificialintelligence;Archivedevel? opment;Recordscontinuum;Elementframework
在人工智能(Artificial Intelligence,AI)驅(qū)動檔案工作數(shù)智化轉(zhuǎn)型的背景下,技術(shù)生態(tài)、制度環(huán)境與社會需求的耦合效應(yīng)使得檔案開發(fā)要素呈現(xiàn)動態(tài)重構(gòu)特征,需重新聚焦開發(fā)要素的識別和優(yōu)化,構(gòu)建適應(yīng)技術(shù)特性的檔案開發(fā)要素框架,以確保技術(shù)賦能過程中檔案真實性保障鏈與價值詮釋邏輯的完整性。因此,本文基于文件連續(xù)體理論模型,落腳于互動(Transaction,T)、身份(Identity,I)、文件保存形式(Recordkeeping containers,R)和證據(jù)(Evidenti? ality,E)四方面,提出“AI+檔案開發(fā)”的要素框架(以下簡稱TIRE要素框架),研究“AI+檔案開發(fā)”的開發(fā)行為、開發(fā)主體、開發(fā)形式和開發(fā)意義要素的組合關(guān)系,并結(jié)合典型案例進行實證分析,探討TIRE要素框架在實踐中的具體運用,以期推動“AI+檔案開發(fā)”的導(dǎo)向化、模塊化和協(xié)同化,提升“AI+檔案開發(fā)”的工作質(zhì)效。
數(shù)智時代,AI技術(shù)廣泛運用至社會各領(lǐng)域,為檔案事業(yè)帶來新的發(fā)展機遇。檔案資源從數(shù)字化呈現(xiàn)到數(shù)據(jù)化挖掘,再到智慧化開發(fā),從傳統(tǒng)的重藏輕用、服務(wù)單一向需求至上、知識賦能轉(zhuǎn)變?!丁笆奈濉比珖鴻n案事業(yè)發(fā)展規(guī)劃》明確提出要積極探索知識管理、人工智能、數(shù)字人文等技術(shù)在檔案信息深層加工和利用中的應(yīng)用。[1]區(qū)別于傳統(tǒng)開發(fā)形式,“AI+檔案開發(fā)”是對檔案信息進行“智慧性開發(fā)”,具備全面性、廣泛性、徹底性、精細性、自動性、智慧性特征。[2]
在實踐工作方面,各地檔案局、檔案館積極推動AI在檔案開發(fā)中的應(yīng)用。例如,北京市檔案局發(fā)起共建“首都智慧檔案聯(lián)合創(chuàng)新實驗室”,致力于廣泛匯聚智庫外腦等各方力量,推動AI在檔案開發(fā)工作中的實際應(yīng)用;[3]浙江省檔案館與國家級AI+檔案聯(lián)合實驗室共同簽訂戰(zhàn)略合作協(xié)議,在AI+檔案智慧化開發(fā)上開展聯(lián)合攻關(guān);[4]福建省檔案館設(shè)計并訓(xùn)練了深度神經(jīng)網(wǎng)絡(luò)輔助開放審核算法模型,編制了檔案開放審核關(guān)鍵詞表,提升了檔案開放審核工作效率,便捷了檔案資源開發(fā)利用。[5]
在理論研究方面,學(xué)界目前關(guān)于“AI+檔案開發(fā)”的研究主要集中于以下兩方面。一是從開發(fā)的檔案資源特點出發(fā),研究AI在不同類型檔案資源開發(fā)中的運用策略。例如,崔偉等[6]在論述音視頻檔案管理中應(yīng)用AI技術(shù)必要性的基礎(chǔ)上,提出了應(yīng)用AI技術(shù)的原則,并基于實際業(yè)務(wù)分析設(shè)計了AI技術(shù)在音視頻檔案收、管、存、用全業(yè)務(wù)流程的應(yīng)用場景方案;李穎等[7]基于“跟著檔案觀上海”數(shù)字人文平臺,提出將GIS與3D建模技術(shù)結(jié)合重建數(shù)字世界、以信息可視化構(gòu)建檔案數(shù)據(jù)隱性聯(lián)系和以生成式人工智能激發(fā)數(shù)字人文活力的歷史檔案開發(fā)策略;瑞查茲(RICH? ARZ)等[8]通過半監(jiān)督機器學(xué)習技術(shù)對歷史檔案文獻進行字符識別,輔助歷史檔案數(shù)據(jù)的深度開發(fā)。二是從開發(fā)的用戶需求出發(fā),研究AI提升用戶利用檔案資源開發(fā)成效的路徑選擇。例如,周林興等[9]提出國家文化數(shù)字化戰(zhàn)略下檔案文化智能傳播的應(yīng)對思路,強調(diào)從空間建設(shè)、內(nèi)容供給、媒介選擇和對象服務(wù)四個維度制定傳播策略;周子晴等[10]將感官體驗和檔案記憶相關(guān)聯(lián),提出借力AI技術(shù)構(gòu)建多感官體驗視域下檔案記憶資源開發(fā)路徑;李諾[11]在分析檔案館應(yīng)用虛擬數(shù)字人技術(shù)賦能用戶服務(wù)必要性的基礎(chǔ)上,探討了可賦能的多重檔案館智慧服務(wù)場景;比特納(BüTTNER)[12]利用AI提升個性化和細粒度的檔案信息檢索,以滿足用戶不同場景的應(yīng)用。
綜上,上述研究主要從技術(shù)維度出發(fā),即通過技術(shù)適配性分析解決“如何做”的問題,旨在建立AI技術(shù)在檔案開發(fā)場景中的方法論體系,呈現(xiàn)策略導(dǎo)向型研究特征。然而,在要素分析層面,現(xiàn)有研究存在明顯局限,較少關(guān)注AI驅(qū)動下檔案開發(fā)工作環(huán)境的變化,對“AI+檔案開發(fā)”工作的要素識別與優(yōu)化研究不足,缺乏對技術(shù)主體、數(shù)據(jù)資源、開發(fā)形式等核心要素的協(xié)同關(guān)系研究,難以支撐AI賦能檔案開發(fā)的多維價值實現(xiàn)。因此,本文聚焦于AI技術(shù)與檔案資源開發(fā)的融合路徑,基于文件連續(xù)體理論模型提出了TIRE要素框架,嘗試發(fā)現(xiàn)“AI+檔案開發(fā)”過程中的關(guān)鍵要素,搭建起“AI+檔案開發(fā)”的組件架構(gòu),旨在提升“AI+檔案開發(fā)”的工作質(zhì)效。
文件連續(xù)體模型經(jīng)由弗蘭克·阿普沃德(Frank Upward)于20世紀90年代完整清晰地論證后正式提出,該理論要求建立一個自下而上的、可靠的文件保存體系,以完整保存集體記憶,促進社會民主發(fā)展。[13]目前學(xué)界關(guān)于文件連續(xù)體理論模型的解讀較為豐富,連志英[14]在《一種新范式:文件連續(xù)體理論的發(fā)展及應(yīng)用》一文中,將文件連續(xù)體的四軸稱為互動軸、身份軸、文件保存軸和證據(jù)軸,四維稱為形成維、捕獲維、組織維、聚合維。其中聚合維及該維度四個軸上坐標——目的、制度、檔案集合、集體記憶,是TIRE要素框架構(gòu)建的關(guān)鍵。
TIRE要素框架的構(gòu)建過程包括三個步驟:一是基于文件連續(xù)體理論模型確定構(gòu)建基礎(chǔ);二是通過確定“AI+檔案開發(fā)”應(yīng)用方向樹立構(gòu)建導(dǎo)向;三是提出具體分析錨點以明確構(gòu)建內(nèi)容,具體構(gòu)建過程如圖1所示。
(一)要素框架的構(gòu)建基礎(chǔ)
該步驟主要分析文件連續(xù)體理論模型在“AI+檔案”工作中的邏輯適配度,確定TIRE要素框架的構(gòu)建基礎(chǔ)。
首先是研究對象層面的契合。文件連續(xù)體強調(diào)文件在時空維度中的多維關(guān)聯(lián)性,這與AI驅(qū)動的檔案數(shù)據(jù)治理需求高度契合。AI技術(shù)依賴數(shù)據(jù)的連貫性進行模型訓(xùn)練和預(yù)測分析,文件連續(xù)體理論的全生命周期管理框架,為AI提供了結(jié)構(gòu)化數(shù)據(jù)流動的基礎(chǔ)。此外,理論模型的“四維”時空延伸思維與AI技術(shù)對檔案數(shù)據(jù)的實時采集、動態(tài)分類和智能檢索賦能工作相呼應(yīng)。其次是主體協(xié)同的耦合。文件連續(xù)體理論強調(diào)檔案管理中的多元主體協(xié)作,而AI技術(shù)的引入重構(gòu)了協(xié)同工作模式。傳統(tǒng)檔案管理依賴人工主導(dǎo),而AI通過“初審—復(fù)審”機制實現(xiàn)人機分工,從單一主體到人機合作。由于AI驅(qū)動下檔案工作的復(fù)雜性,強調(diào)不同階段主體的責任銜接,實現(xiàn)跨部門協(xié)作。最后是管理流程動態(tài)化和智能化的共同目標導(dǎo)向。
由此發(fā)現(xiàn),盡管文件連續(xù)體理論模型提出至今已有幾十年,但在AI技術(shù)與檔案工作深度融合的背景下,仍展現(xiàn)出顯著的理論適配性與實踐指導(dǎo)價值,能夠為TIRE要素框架提供理論基礎(chǔ)支撐。
(二)要素框架的構(gòu)建導(dǎo)向
該步驟主要將文件連續(xù)體理論模型第四維度(聚合維)和“AI+檔案開發(fā)”進行關(guān)聯(lián),確定TIRE要素框架的適用領(lǐng)域,為TIRE要素框架的構(gòu)建樹立實踐導(dǎo)向。
一方面,是第四維度的多源異構(gòu)數(shù)據(jù)整合需求與AI技術(shù)優(yōu)勢的契合。第四維度的核心目標是實現(xiàn)檔案資源在時空和邏輯上的動態(tài)聚合,涉及多來源、多格式數(shù)據(jù)的整合。傳統(tǒng)檔案管理系統(tǒng)受限于結(jié)構(gòu)化處理能力,難以高效整合非結(jié)構(gòu)化數(shù)據(jù)。AI技術(shù)能夠通過語義分析、實體識別和關(guān)聯(lián)挖掘,突破數(shù)據(jù)孤島,建立跨領(lǐng)域關(guān)聯(lián)。這種技術(shù)特性與第四維度強調(diào)的“全宗集合”和“社會記憶”目標高度契合。另一方面,是第四維度的協(xié)同治理關(guān)聯(lián)需求與AI技術(shù)優(yōu)化需求的匹配。第四維度要求建立跨機構(gòu)、跨領(lǐng)域的協(xié)同治理機制,而“AI+檔案開發(fā)”需依賴制度與技術(shù)的深度耦合。這種制度與技術(shù)的耦合性,使得“AI+檔案開發(fā)”必須優(yōu)先解決第四維度中主體權(quán)責界定、數(shù)據(jù)共享規(guī)則等制度性難題,而非單純關(guān)注單一環(huán)節(jié)的技術(shù)優(yōu)化。
綜上,文件連續(xù)體理論模型的第四維度關(guān)注的是“外部”事務(wù),即各個組織機構(gòu)或行動者的檔案如何聚合在一起形成社會記憶。[15]而AI技術(shù)驅(qū)動的檔案開發(fā)的本質(zhì)在于通過技術(shù)賦能實現(xiàn)檔案數(shù)據(jù)的深度聚合與智能增值,在實踐邏輯上與第四維度的核心訴求高度契合。
(三)要素框架的構(gòu)建內(nèi)容
該步驟主要抽取文件連續(xù)體理論模型第四維度的四軸作為“AI+檔案開發(fā)”要素識別框架的核心主軸,構(gòu)建TIRE要素框架的基本結(jié)構(gòu),并進一步識別文件連續(xù)體理論模型第四維度的四軸在“AI+檔案開發(fā)”中分別對應(yīng)的軸上坐標,確定TIRE要素框架的關(guān)鍵組件。
TIRE要素框架聚焦于文件連續(xù)體第四維度,以四軸搭建核心框架,即互動(T)軸、身份(I)軸、文件保存形式(R)軸、證據(jù)(E)軸;抽取第四維度中對應(yīng)的目的、制度、檔案集合和集體記憶四個軸上坐標作為關(guān)鍵組件,以此探討“AI+檔案開發(fā)”工作中開發(fā)行為、開發(fā)主體、開發(fā)形式、開發(fā)意義要素的作用關(guān)系,是文件連續(xù)體理論模型第四維度在“AI+檔案開發(fā)”領(lǐng)域的具象化體現(xiàn)。在實際運用中,四軸提供分析層次,四個軸上坐標則提供分析錨點,共同促成TIRE要素框架在“AI+檔案開發(fā)”中的應(yīng)用。下面對構(gòu)建內(nèi)容作進一步解釋,從理論層面論證要素框架的合理性。
文件連續(xù)體第四維度“互動軸”上的坐標是“目的”,強調(diào)檔案開發(fā)工作需圍繞價值創(chuàng)造目標有序推進。在“AI+檔案開發(fā)”場景中,“目的”具體表現(xiàn)為檔案工作目標與用戶需求的緊密契合,并根據(jù)不同階段的實際情況進行階段目標的動態(tài)調(diào)整,要求檔案部門能及時掌握用戶需求,并積極響應(yīng)調(diào)整。在前期準備階段,需聚焦于深入了解用戶需求。進入開發(fā)階段,則圍繞前期針對用戶需求而預(yù)設(shè)的階段目標,有針對性地優(yōu)化檔案資源處理流程。因此,在TIRE要素框架中,“目的”揭示“AI+檔案開發(fā)”的互動推進關(guān)系,用以分析開發(fā)行為要素。
文件連續(xù)體第四維度“身份軸”上的坐標是“制度”,強調(diào)檔案開發(fā)工作需搭建起具備多元身份關(guān)系的協(xié)同網(wǎng)絡(luò)以達成共識。在“AI+檔案開發(fā)”場景中,“制度”具體表現(xiàn)為技術(shù)開發(fā)者、檔案管理者、業(yè)務(wù)部門、立法監(jiān)管機構(gòu)及社會公眾等主體在共同認可的制度之下,通過AI平臺實現(xiàn)跨角色協(xié)作,各方在數(shù)據(jù)共享、模型優(yōu)化和場景應(yīng)用中形成動態(tài)互嵌,共同驅(qū)動檔案資源從生成、管理到智慧化利用的連續(xù)價值釋放。因此,在TIRE要素框架中,“制度”揭示“AI+檔案開發(fā)”的身份重構(gòu)關(guān)系,用以分析開發(fā)主體要素。
文件連續(xù)體第四維度“文件保存形式軸”上的坐標是“檔案集合”(多個組織機構(gòu)的文件組合形式),強調(diào)檔案開發(fā)工作需基于檔案資源特征與實際開發(fā)需求確定合適的開發(fā)方式。在“AI+檔案開發(fā)”場景中,“檔案集合”具體表現(xiàn)為通過AI技術(shù)實現(xiàn)檔案數(shù)據(jù)的動態(tài)聚合與智能協(xié)同,形成“人機共治”的檔案開發(fā)模式。因此,在TIRE要素框架中,“檔案集合”揭示“AI+檔案開發(fā)”的模式創(chuàng)新關(guān)系,用以分析開發(fā)形式要素的影響。
文件連續(xù)體第四維度“證據(jù)軸”上的坐標是“集體記憶”(檔案價值的社會性延伸),強調(diào)檔案開發(fā)工作需以最大限度實現(xiàn)檔案價值及增值,促進檔案的利用和再利用。在“AI+檔案開發(fā)”場景中,“集體記憶”具體表現(xiàn)為技術(shù)賦能下的社會價值重構(gòu),通過AI對海量檔案數(shù)據(jù)的語義分析、知識關(guān)聯(lián)與記憶聚合,將傳統(tǒng)以機構(gòu)為中心的檔案記憶升維為可交互、可拓展的社會化集體記憶網(wǎng)絡(luò),實現(xiàn)檔案數(shù)據(jù)從“機構(gòu)憑證”到“社會遺產(chǎn)”的價值升華。因此,在TIRE要素框架中,“集體記憶”表示“AI+檔案開發(fā)”的價值轉(zhuǎn)化關(guān)系,用以分析檔案開發(fā)意義要素。
筆者選取法國Socface項目[16]進行實證分析,從實踐層面驗證要素框架的可行性。Socface項目由法國國立人口研究所和特科利亞(Teklia)公司牽頭,法國國家檔案館與巴黎經(jīng)濟學(xué)院聯(lián)合發(fā)起。該項目旨在利用法國1836年至1936年共計20次人口普查形成的檔案數(shù)據(jù),研究法國經(jīng)濟、社會、人口等領(lǐng)域百年間的演變。項目周期從2021年9月到2025年3月,按階段完成相應(yīng)檔案資源的收集、處理、標準化和聚合,最終在法國國家檔案館網(wǎng)站提供數(shù)據(jù)的公開訪問利用。該項目的實施有助于大規(guī)模歷史檔案文獻研究的開展,并為法國勞動力市場變化、移民因果關(guān)系探究等提供寶貴的資料。
(一)行為要素:面向公眾的開放數(shù)據(jù)庫構(gòu)建
互動(T)軸上的坐標“目的”用于分析“AI+檔案開發(fā)”的開發(fā)行為要素,重點關(guān)注互動推進關(guān)系,其在Socface項目中的具象化實踐表現(xiàn)為面向公眾的開放數(shù)據(jù)庫的構(gòu)建。
數(shù)智時代,受技術(shù)環(huán)境變遷和政策激勵導(dǎo)向的影響,檔案部門要及時適應(yīng)信息環(huán)境和用戶行為的變化,基于用戶需求提供更多便捷適用的檔案服務(wù)。因此,Socface項目深入挖掘人口普查檔案數(shù)據(jù),以此滿足法國公眾需求。借助AI技術(shù),Socface項目顯著提高數(shù)據(jù)聚合效率,同時也提高聚合的準確性和可靠性。Socface項目通過建立數(shù)據(jù)集合關(guān)聯(lián),建設(shè)一個包含百年間居住在法國的所有個人信息的開放數(shù)據(jù)庫。該項目分階段完成最終目標,提出“三步走”計劃。第一步是做好數(shù)據(jù)的收集與處理。在多方機構(gòu)合作下,對1836—1936年的人口普查檔案掃描圖像及相關(guān)元數(shù)據(jù)進行收集。第二步是實現(xiàn)數(shù)據(jù)的關(guān)聯(lián)。通過開發(fā)自動學(xué)習模型對人口普查檔案掃描圖像進行特征分析,借助自動匹配技術(shù)實現(xiàn)個人數(shù)據(jù)的相互關(guān)聯(lián)。第三步是利用數(shù)據(jù)展開深入研究。建設(shè)開放數(shù)據(jù)庫并在法國國家檔案館網(wǎng)站上提供公開訪問權(quán)限,允許利用數(shù)據(jù)展開研究。Socface項目將對每個階段工作任務(wù)進行質(zhì)量評估,檢驗是否符合階段目標需求,評估團隊由研究人口、經(jīng)濟、歷史的專家學(xué)者組成,充分發(fā)揮專家智慧,提升項目實施效果。
(二)主體要素:協(xié)同理念下多方機構(gòu)的合作
身份(I)軸上的坐標“制度”用于分析“AI+檔案開發(fā)”的開發(fā)主體要素,重點關(guān)注身份重構(gòu)關(guān)系,其在Socface項目中的具象化實踐表現(xiàn)為協(xié)同理念下多方機構(gòu)的合作。
Socface項目共有四家主要的合作機構(gòu),分別是法國國立人口研究所、Teklia公司、法國國家檔案館和巴黎經(jīng)濟學(xué)院,另外還涉及法國國家科研署和法國各公共檔案服務(wù)機構(gòu)。其中法國國立人口研究所是一家專門從事人口研究的公共研究機構(gòu),負責分析人口普查檔案數(shù)據(jù)中關(guān)于人口結(jié)構(gòu)變遷的部分。Teklia是一家專門從事AI技術(shù)研究的公司,負責提供基于機器學(xué)習、深度學(xué)習和自然語言處理的數(shù)據(jù)處理方案,負責開發(fā)Socface項目中使用的數(shù)據(jù)分析模型。法國國家檔案館則負責制定檔案資源開發(fā)工作制度,協(xié)調(diào)與法國多個公共檔案服務(wù)機構(gòu)的合作,收集、保存檔案數(shù)據(jù),推廣、宣傳項目的研究成果。巴黎經(jīng)濟學(xué)院是法國經(jīng)濟學(xué)研究和培訓(xùn)的中心之一,在利用空間數(shù)據(jù)研究城市化和移民方面擁有廣泛的知識,其組建的“經(jīng)濟和社會史”專題組致力于研究1836—1936年間的經(jīng)濟和社會現(xiàn)象,補充人口普查檔案數(shù)據(jù)反映的深層次的社會經(jīng)濟現(xiàn)象。
多方機構(gòu)有效開展合作的原因歸根結(jié)底在于構(gòu)建了機構(gòu)共同認可的多元合作制度,具體表現(xiàn)如下。一是確立協(xié)同服務(wù)理念。法國政府堅持民主透明傳統(tǒng),尊重公民的信息獲取權(quán),設(shè)立國家首席數(shù)據(jù)官,倡導(dǎo)各方機構(gòu)共同推動數(shù)據(jù)的開放和利用。二是具備項目基金的支持。Socface項目具備可靠的經(jīng)費支持,由法國國家科研署資助,并接受其監(jiān)督。當各方機構(gòu)在資金上得到保障時,可以更加專注于項目本身,減少因資源短缺而導(dǎo)致的合作障礙,確保項目的順利進行。三是公共數(shù)據(jù)再利用制度的規(guī)定。Socface項目在《公眾與行政部門關(guān)系守則》下開展,該守則將公共信息的重復(fù)使用定義為第三方將公共信息用于制作或接收文件的公共服務(wù)任務(wù)以外的目的。[17]一般而言,Socface項目所使用的檔案資料都在公共信息重復(fù)使用的范圍內(nèi),如果超過這一限定范圍,就必須遵守地方當局在必要時采用的有償再利用制度,因此,項目組還會與各數(shù)據(jù)來源機構(gòu)簽訂相關(guān)協(xié)議,保證項目的推進。
(三)形式要素:漸進式人機協(xié)同數(shù)據(jù)處理模式
文件保存形式(R)軸上的坐標“檔案集合”用于分析“AI+檔案開發(fā)”的開發(fā)形式要素,重點關(guān)注模式創(chuàng)新關(guān)系,其在Socface項目中的具象化實踐表現(xiàn)為漸進式人機協(xié)同數(shù)據(jù)處理模式。
一是在數(shù)據(jù)收集階段,Socface項目致力于實現(xiàn)檔案資源開發(fā)的高效化。通過選取人口普查填寫表單的掃描圖像,可以在保證檔案原件不受損耗的同時,大幅減少物理存儲空間和人工翻閱時間。通過制定標準化協(xié)議,完成對人口普查檔案元數(shù)據(jù)的收集,確保檔案數(shù)字化、分類和保存方式的一致性。二是在數(shù)據(jù)清洗階段,Socface項目致力于實現(xiàn)檔案資源開發(fā)的規(guī)范化。首先,規(guī)定統(tǒng)一以CSV格式導(dǎo)入元數(shù)據(jù),并允許用戶手動選擇包含必要元數(shù)據(jù)的列,如年份、檔號和圖像路徑等,確保準確識別和規(guī)范化基本數(shù)據(jù);其次,使用模糊匹配技術(shù)識別索引中的城市名稱,規(guī)避各地區(qū)所保存的檔案缺乏標準化城市命名的問題;再次,通過國際圖像互操作框架(International Image Interoperability Framework, IIIF)檢查圖像完整性,確保圖像在進一步處理之前完整且未損壞;最后,將數(shù)據(jù)導(dǎo)出到Arkindex數(shù)據(jù)存儲軟件,并按人口普查年份、市政當局和登記冊以標準化方式組織,從而創(chuàng)建一個結(jié)構(gòu)化且可訪問的數(shù)據(jù)集。三是在數(shù)據(jù)建模階段,Socface項目致力于實現(xiàn)檔案資源開發(fā)的智能化。Socface項目選擇開發(fā)自主學(xué)習模型,通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像中的特征,之后對這些特征進行平均操作,將平均后的特征向量送入全連接層進行分類,最后通過全連接層對特征進行組合和抽象,實現(xiàn)圖像數(shù)據(jù)的分類。
關(guān)于模型的預(yù)訓(xùn)練,Socface項目從11個樣本檔案館的數(shù)據(jù)中隨機選擇100份單獨圖像數(shù)據(jù),這些數(shù)據(jù)能夠反映所有研究年份的頁面、圖像質(zhì)量和表格格式的多樣性。之后將這些頁面上傳到Callico數(shù)據(jù)轉(zhuǎn)錄與分析平臺,以手動轉(zhuǎn)錄表格行中的文本,并且在Callico平臺中提供兩種不同的編碼模式:用于編碼個人信息的鍵值模式(Key-value Model)以及用于將個人分組到家庭中的元素組(Element Group)模式。大多數(shù)編碼內(nèi)容會由專家進行審核校正,以確保其準確性和可靠性。同時Socface項目對算力進行拓展,采取邊緣計算的方式解決當前設(shè)備無法滿足海量數(shù)據(jù)計算要求的問題。Socface項目預(yù)計需要處理3000萬張圖像,面對如此大規(guī)模的計算量,現(xiàn)有計算資源無法滿足,必須依賴公共高性能計算資源。但是,HPC基礎(chǔ)架構(gòu)要求在專門的本地存儲上預(yù)先暫存數(shù)據(jù),并通過專用調(diào)度系統(tǒng)編排提交,實際上法國國家檔案館現(xiàn)有設(shè)備無法實現(xiàn)3000萬張圖像的本地預(yù)存。因此,Socface項目選擇升級Arkindex數(shù)據(jù)存儲軟件,以促進通過工作負載管理器(Workload Manager)與公共高性能計算資源的連接,此擴展能夠利用公共計算環(huán)境固有的巨大處理能力來應(yīng)對海量數(shù)據(jù)處理的需求。
(四)意義要素:重塑社會變遷中的集體記憶
證據(jù)(I)軸上的坐標“集體記憶”用以分析“AI+檔案開發(fā)”的開發(fā)意義要素,重點關(guān)注價值轉(zhuǎn)化關(guān)系,其在Socface項目中的具象化實踐表現(xiàn)為重塑社會變遷中的集體記憶。
人口普查檔案記錄著一個地區(qū)人口和住戶的基本情況,能夠反映該區(qū)域人口結(jié)構(gòu)的變化趨勢和該區(qū)域社會經(jīng)濟結(jié)構(gòu)的變遷,對研究區(qū)域內(nèi)社會問題的變化和趨勢具有重要影響。Socface項目深度挖掘1836—1936年間形成的人口普查檔案數(shù)據(jù),可以重塑社會變遷下的集體記憶,以此增強社會公眾的身份認同。一是對家族集體記憶的重塑。人口普查檔案詳細記錄家族成員的基本信息,這些信息有助于家族成員更好地理解自己家族的歷史和文化傳承,增強家族凝聚力和認同感。用戶可以通過開放數(shù)據(jù)庫中的數(shù)據(jù)確認自己的家族譜系、祖籍和血緣關(guān)系,從而增強身份認同感和歸屬感。二是對社會集體記憶的重塑。檔案具備社會記憶控制功能,對檔案的操控、重組與利用實則是對社會記憶的操控。[18]社會人口以及經(jīng)濟結(jié)構(gòu)變遷會影響社會集體記憶的選擇和強化,在其發(fā)生巨大變遷的情況下,人們會更多地關(guān)注和記憶與這種變遷相關(guān)的歷史事件和文化符號。利用檔案呈現(xiàn)百年間的社會變遷,不僅能重塑該時期的社會記憶,也能影響用戶對集體記憶的理解。用戶會根據(jù)自己對這種變遷的理解和認識,來解讀和評價相關(guān)的歷史事件和文化符號,從而產(chǎn)生新的集體記憶。
“AI+檔案開發(fā)”研究需要兼顧線性的行進路徑和立體的要素框架,通過析出開發(fā)過程中的關(guān)鍵要素能夠助推AI技術(shù)與檔案資源開發(fā)的深度融合,提升開發(fā)工作的質(zhì)效,滿足用戶利用檔案開發(fā)成果的需求。文件連續(xù)體理論模型完整呈現(xiàn)了文件連續(xù)性運動過程中各要素的互動關(guān)系,為構(gòu)建“AI+檔案開發(fā)”的要素框架提供了借鑒。由此提出的TIRE要素框架識別出“AI+檔案開發(fā)”的行為、主體、形式和意義要素,為“AI+檔案開發(fā)”實踐工作提供指導(dǎo)。利用TIRE要素框架對法國Socface項目進行解析,明確該項目為實現(xiàn)檔案資源開發(fā)的價值最大化,確定了構(gòu)建面向公眾的開放數(shù)據(jù)庫統(tǒng)一目標,憑借多元主體協(xié)同、人機協(xié)同的檔案數(shù)據(jù)開發(fā)模式,重塑法國百年變遷中的集體記憶。通過對“AI+檔案開發(fā)”的TIRE要素框架的探討,旨在為用戶提供更優(yōu)質(zhì)、更全面的檔案資源開發(fā)成果,為數(shù)智社會建設(shè)貢獻檔案力量。
*本文系國家社科基金一般項目“檔案服務(wù)智慧化轉(zhuǎn)型的實現(xiàn)機制與推進策略研究”(項目編號:24BTQ024)的階段性研究成果。
注釋及參考文獻:
[1]中華人民共和國國家檔案局.中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].(2021-06- 09)[2025- 03- 02].https://www.saac.gov.cn/daj/toutiao/ 202106/ecca2de5bce44a0eb55c890762868683.shtml.
[2]楊冬權(quán).始終牢記初心,以檔案力量服務(wù)中國式現(xiàn)代化[J].檔案學(xué)研究,2023(1):4-11.
[3]北京市檔案局.加強行業(yè)融合匯聚各方智慧打造首都檔案創(chuàng)新發(fā)展新生態(tài):首都智慧檔案聯(lián)合創(chuàng)新實驗室成立[EB/OL].(2024-12-23)[2025-03-02].https://www.bjma. gov.cn/bjma/300478/301765/301144/369232/index.html.
[4]浙江省檔案館.國家級成果應(yīng)用示范基地在省檔案館揭牌[EB/OL].(2019-06-17)[2025-03-02]https://www. zjda.gov.cn/art/2019/6/17/art_1388589_34682954_6.html.
[5]中華人民共和國國家檔案局.福建“數(shù)智檔案”亮相第六屆數(shù)字中國建設(shè)峰會[EB/OL].(2023-05-11)[2024- 11- 02] https : // www.saac.gov.cn/daj/xwdt/202305/ 4825ecdcf1474b898479ae1a52c3cdf7.shtml.
[6]崔偉,熊延萍,項偉,等.人工智能技術(shù)在音視頻檔案管理中的應(yīng)用原則及應(yīng)用場景分析[J].北京檔案,2023(12):30-32.
[7]李穎,沈保棟.數(shù)字人文視域下的歷史檔案開發(fā)路徑:以“跟著檔案觀上?!睘槔齕J].檔案與建設(shè),2024(3):56-62.
[8]RICHARZ J,VAJDA S,GRZESZICK R,et al.Semisupervised learning for character recognition in historical ar? chive documents[J].Pattern Recognition,2014(3):1011-1020.
[9]周林興,朱富成.國家文化數(shù)字化戰(zhàn)略下檔案文化智能傳播探析[J].北京檔案,2025(1):23-30.
[10]周子晴,丁華東.多感官體驗與檔案記憶資源開發(fā)[J].檔案管理,2021(6):34-39.
[11]李諾.虛擬數(shù)字人賦能檔案館用戶服務(wù)的場景與進路[J].北京檔案,2024(8):22-27.
[12]BüTTNER G.Auto- classification in an in? ternational organization:report from a feasibility study[J].Comma,2017(2):15-26.
[13]陸陽,蘇立.論文件連續(xù)體理論結(jié)構(gòu)與功能間的張力及其彌合(一)[J].中國檔案,2023(5):64-65.
[14] [15]連志英.一種新范式:文件連續(xù)體理論的發(fā)展及應(yīng)用[J].檔案學(xué)研究,2018(1):14-21.
[16]法國國立人口研究所. Socface項目網(wǎng)站[EB/ OL].[2025-03-11] https://Socface.site.ined.fr/en/.
[17]Code des relations entre le public et l’administration. Commission supérieure chargée d’étudier la codification et la simplification des textes législatifs et réglementaires[EB/OL].(2016-01-01)[2025-03-02]. https://www.cada.fr/.
[18]丁華東.論檔案與社會記憶控制[J].檔案學(xué)通訊,2011(3):4-7.
作者單位:上海大學(xué)文化遺產(chǎn)與信息管理學(xué)院