Abstract: Conducting research and exploration based on microscopic particles to achieve a profound understanding of the macroscopiclawsof thingsisanimportantwaytomakebreakthroughs inscientificresearch.Inresponsetotherealneedsof intelligent transformationofChina'sachival management,thisarticleputsforwardtheacademicconceptof\"archivalmemory particles\",expounds its technical principles andfunctional values,discusss thecore ideas ofengineering architecture such as distributedarchitecture,semanticcoordinatesystem,vectordatabaseand intellgentbodyservice,andfinallyputs forward some policyrecommendations forthework in the15thFive-YearPlanperiod.Archivalmemory particles is thesmallest referableunitsoffactualsemantic iformationcontained inarchivaldocuments,which is thelogical intermediaryforrealizing theintegrationofsemanticinformationofmulti-modalarchivaldocuments,the\"logicallink\"forpromotingthesemantic integration ofarchival documents inmultipleethnic languages,thebasicresources forachievingaccurateretrieval of the content information ofarchival documents and human-machinequestion-answering services,anda reliablelogicalreference systemfor goveming the problemof machine hallucinations in large language models.The promotionand practiceof the fundamentalresearchesof \"archivalmemoryparticlecomputingproject\"willprovidesignifcantstrategicsupport forpromoting the modemizationof archival undertakings with Chinese characteristics and thedevelopmentofChina's ndependent knowledge system of archival science.
Keywords: AchivalMemoryParticles; IntellgentTransfomation;ArchivalData Governance; IntelligentAgentEngieering
基礎(chǔ)研究是基于源頭問題和底層邏輯對事物的深層次規(guī)律進行的思考與探索,是國家創(chuàng)新體系的基石,其重大突破往往會引發(fā)社會生產(chǎn)力的全局性、系統(tǒng)性變革。人類自工業(yè)革命以來的每一輪產(chǎn)業(yè)升級都以科技領(lǐng)域基礎(chǔ)研究的重大突破為前提。2023年2月21日,習(xí)近平總書記在二十屆中央政治局第三次集體學(xué)習(xí)時指出:“加強基礎(chǔ)研究,是實現(xiàn)高水平科技自立自強的迫切要求,是建設(shè)世界科技強國的必由之路”,要“強化基礎(chǔ)研究前瞻性、戰(zhàn)略性、系統(tǒng)性布局?!盵1]“十五五”時期,檔案管理行業(yè)面臨人工智能時代挑戰(zhàn),要推進中國式檔案事業(yè)現(xiàn)代化,構(gòu)建中國自主檔案學(xué)知識體系,就必須重視基礎(chǔ)研究戰(zhàn)略布局,探索一條以基礎(chǔ)研究創(chuàng)新驅(qū)動行業(yè)變革的高質(zhì)量發(fā)展道路。
1科學(xué)問題
1.1基本粒子研究方法及啟示
通過對微觀粒子的研究與探索實現(xiàn)對事物宏觀規(guī)律的精深理解,是科學(xué)研究取得突破的重要途徑。1665年,英國科學(xué)家羅伯特·胡克(RobertHooke)使用顯微鏡發(fā)現(xiàn)了細胞(cell)的存在,德國科學(xué)家施萊登(MatthiasJakobSchleiden)和施旺(Theodor Schwann)據(jù)此建立了“細胞學(xué)說”[2],開啟了現(xiàn)代醫(yī)學(xué)和生物學(xué)研究的新紀元。1808年,英國學(xué)者約翰·道爾頓(JohnDalton)提出“原子論”[3],認為物質(zhì)是性質(zhì)單一、不可分割的原子相互組合的結(jié)果,為現(xiàn)代化學(xué)和化學(xué)工業(yè)奠定了理論基礎(chǔ)。此后兩個世紀里,關(guān)于物質(zhì)基本粒子的研究不斷走向深入,強子、輕子、玻色子、傳播子、夸克等基本粒子研究依然是物理學(xué)的前沿問題。盡管學(xué)科領(lǐng)域各不相同,但是其背后的底層邏輯卻是高度一致的,即認為復(fù)雜事物是由眾多不可再分的單一粒子構(gòu)成,事物的復(fù)雜性特征是由若干單一粒子的組合結(jié)構(gòu)所決定,通過對基本粒子及其組合方式研究就可以揭示復(fù)雜事物變化的內(nèi)在機理。
1.2檔案記憶粒子研究的提出
2022年以來,以ChatGPT、DeepSeek為代表的新一代人工智能技術(shù)取得重大突破,各類大語言模型在人類自然語言深度處理和自動生成方面的能力達到了前所未有的高度[4],人機深度共生的全新社會形態(tài)正在加速到來,人工智能應(yīng)用成為各行各業(yè)編制“十五五”規(guī)劃時必須正視的問題
在檔案管理領(lǐng)域,以檔案文獻檢索和人工閱檔為核心內(nèi)容的傳統(tǒng)檔案服務(wù)正在面臨人機問答式服務(wù)的挑戰(zhàn),直接對用戶的事實查證需求進行精準回應(yīng)而不是提供一系列相關(guān)檔案文獻供其自行閱讀的服務(wù)形式,正開始成為新興潮流??梢灶A(yù)見,習(xí)慣了大語言模型和智能體問答服務(wù)的用戶群體終將對檢索表單、人工閱檔等傳統(tǒng)檔案服務(wù)模式失去耐心。而要提供高精準、智能化的檔案事實問答服務(wù),就要改變原有的檔案資源組織方式,使得檔案檢索、計算可以基于更為精細的檔案語義顆粒進行,本文將其稱為“檔案記憶粒子”。抓住“十五五”時期我國檔案事業(yè)智能化轉(zhuǎn)型的戰(zhàn)略機遇,推進“檔案記憶粒子計算工程”基礎(chǔ)理論和技術(shù)方法研究,建構(gòu)適應(yīng)人工智能社會運行規(guī)則的檔案管理與服務(wù)體系,已經(jīng)成為推進中國式檔案事業(yè)現(xiàn)代化進程的重大戰(zhàn)略性舉措。
1.3“檔案記憶粒子”的概念與本質(zhì)
“檔案記憶粒子”(ArchivalMemoryParticle,AMP)是檔案文獻所蘊含事實性語義信息的最小可引用單位,是對檔案文獻事實性語義信息的單一維度、最小顆粒描述。「5]對具體的檔案文獻而言,其作為可靠證據(jù)可以提供佐證的事實性語義信息是有限的,“檔案記憶粒子”是對檔案文獻事實性語義信息進行數(shù)據(jù)表征的基礎(chǔ)信息單元,無論檔案文獻的內(nèi)容信息如何復(fù)雜,經(jīng)過層層解構(gòu)最終都可以轉(zhuǎn)換為單一維度的語義顆粒。受到載體信息容量的制約,蘊含在檔案文獻的“檔案記憶粒子”通常以黏著態(tài)存在,只有將其解構(gòu)、抽取和表征為獨立存在的數(shù)據(jù)顆粒,才具有在更大范圍內(nèi)傳播、共享與聚合的可能性。
從檔案文獻自然語言文本當中解構(gòu)和抽取“檔案記憶粒子”的過程與物理學(xué)的“核裂變效應(yīng)”類似,都致力于將事物的基本單元切分為更小的顆粒同時釋放出巨大的能量。而將來自多個機構(gòu)、多份檔案文獻的“檔案記憶粒子”聚合在一起進行整體性檢索和計算的過程與物理學(xué)的“核聚變效應(yīng)”類似,都致力于將較小的顆粒組合為更大的顆粒同時釋放出巨大的能量?!皺n案記憶粒子”的解構(gòu)、抽取、聚合、計算、檢索和利用形成“檔案數(shù)據(jù)要素場”[6],與傳統(tǒng)的檔案文獻服務(wù)相比,基于大規(guī)?!皺n案記憶粒子”的全面化、精準性事實計算與推理是人類檔案管理史上的一次重大飛躍,從此用戶或者智能設(shè)備可以直接針對其所蘊含的事實性語義信息進行智能分析與精準化問答,為各行各業(yè)的檔案利用活動注入新活力。
2技術(shù)原理
2.1“檔案記憶粒子”的技術(shù)實現(xiàn)
“檔案記憶粒子”的技術(shù)實現(xiàn)形式是資源描述框架(ResourceDescriptionFrame,RDF),即由“主語”“謂詞”和“賓語”構(gòu)成的語義三元組?!爸髡Z”通常由概念類實體或命名實體的全局唯一標識符(UniqueIdentifier,UID)構(gòu)成,“賓語”通常由另外的概念類實體、命名實體或者屬性值文本構(gòu)成?!爸^詞”是描述主語和賓語之間的關(guān)系,是描述人類社會實體屬性和關(guān)系共性特征的標準符號。例如,“RF1{中華人民共和國,成立日期,1949-10-01}”描述了中華人民共和國成立于1949年10月1日這個客觀事實,“RF2{江蘇省,IsPartOf,中華人民共和國}”描述了江蘇省是中華人民共和國組成部分的客觀事實。為了更加精準地描述檔案文獻的語義信息,“檔案記憶粒子”數(shù)據(jù)可以增加“檔案記憶粒子標識符”“時間要素”“空間要素”“來源文獻”和“可信度”共5個要素,從而形成由8個字段構(gòu)成的“檔案記憶粒子”基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)。上述數(shù)據(jù)映射到8維向量空間,“檔案記憶粒子”就表現(xiàn)為獨立存在的“邏輯點”,本質(zhì)上是不同維度數(shù)據(jù)相互融合的結(jié)果。任何由檔案文獻作為佐證的“檔案記憶粒子”最終都可以在向量數(shù)據(jù)空間中找到對應(yīng)的邏輯點位,這就是“檔案記憶粒子”的“數(shù)粒二象性”。
從理論上說,古今中外任何基于檔案文獻的“檔案記憶粒子”都可以匯聚到同一個語義向量空間,只要其語義信息不同,在空間中的位置就不同。同時,“檔案記憶粒子”主要關(guān)注的是語義層信息,與檔案文獻的符號層特征無關(guān),無論檔案文獻是文本、圖形、圖像、音頻、視頻等任何一種模態(tài),不論是不是國家通用語言文字,只要其描述的語義信息是一致的,在向量空間就是同一個邏輯點位。
2.2“檔案記憶粒子”的功能與價值
第一,“檔案記憶粒子”是實現(xiàn)多模態(tài)檔案文獻語義信息集成的“邏輯中介”。“檔案記憶粒子”本質(zhì)上是檔案語義信息在“國家檔案語義空間”各個維度坐標系統(tǒng)當中的映射結(jié)果。無論檔案文獻是文本態(tài)、圖形態(tài)、圖像態(tài)、音頻態(tài)、視頻態(tài)還是實物態(tài),只要其記錄和描述的語義信息是一致的,對應(yīng)的“檔案記憶粒子”在邏輯上就沒有任何差別。
第二,“檔案記憶粒子”是推進中國多民族語言文字檔案文獻資源語義整合的“邏輯紐帶”。“檔案記憶粒子”獨立于任何一種自然語言,對于國家通用語言文字與有著較大社會影響力的少數(shù)民族文字檔案文獻的語義信息而言,其使用“檔案記憶粒子”進行數(shù)據(jù)表征時在形態(tài)上沒有任何區(qū)別,映射于統(tǒng)一向量空間之后邏輯上相互關(guān)聯(lián),從技術(shù)層面上體現(xiàn)了中華民族語言文字和歷史文化的共同體特征,有助于增強各族群眾對“中華民族共同體”的直觀感知。
第三,“檔案記憶粒子”是實現(xiàn)檔案文獻內(nèi)容信息精準檢索和人機問答服務(wù)的基礎(chǔ)資源。檔案文獻在邏輯上等于其可證明事實信息的集合,如果可以將檔案文獻所蘊含的事實性語義信息都表征為基于“檔案記憶粒子”的向量數(shù)據(jù)集合,那么理論上,對應(yīng)檔案文獻內(nèi)容信息的檢索與解讀就可以由“檔案記憶粒子”數(shù)據(jù)集的檢索來替代。如果用戶需要查證某一歷史事實是否存在,系統(tǒng)可以基于“檔案記憶粒子”數(shù)據(jù)集為其提供精準反饋結(jié)果,不再需要用戶閱讀原始檔案文獻
第四,“檔案記憶粒子”是基于可解釋性實現(xiàn)大語言模型機器幻覺問題治理的可靠邏輯參照體系。“檔案記憶粒子”是從檔案文獻中抽取的事實性語義數(shù)據(jù)顆粒,實現(xiàn)基于向量數(shù)據(jù)庫的邏輯集成之后,可以滿足用戶對檔案內(nèi)容信息的查證需求,并可以為大語言模型生成結(jié)果提供外部約束。在“檔案記憶智能體工程”中,為了有效降低大語言模型可能產(chǎn)生的機器幻覺問題,可以將大語言模型的生成結(jié)果提交到系統(tǒng)進行“檔案記憶粒子”數(shù)據(jù)集的檢索驗證,通過驗證才能繼續(xù)向用戶提交。這種以“白箱模型”為大語言模型的“黑箱模型”提供邏輯約束的方法,既利用了大語言模型的自然語言交互能力優(yōu)勢,又最大化避免出現(xiàn)機器幻覺問題。
3工程架構(gòu)
3.1“檔案記憶粒子計算工程”的分布式架構(gòu)
“檔案記憶粒子計算工程”是我國各級各類檔案機構(gòu)為了推進檔案記憶信息的粒子化管理和利用而共同推動建設(shè)的分布式檔案信息化工程。“檔案記憶粒子計算工程”需要由國家檔案主管部門、工程中心服務(wù)站點和各級各類檔案館的分布式數(shù)據(jù)站點共同構(gòu)成。各級各類檔案館參照“檔案記憶坐標系統(tǒng)”將館藏開放檔案文獻所蘊含的事實性語義信息抽取和表述為“檔案記憶粒子”數(shù)據(jù)集,并為本地用戶提供檔案事實查證服務(wù)。如果用戶的查檔需求需要跨越多個檔案館,則可以通過工程協(xié)作網(wǎng)絡(luò)進行全局式檢索,獲得其他檔案館生成的“檔案記憶粒子”數(shù)據(jù)。“檔案記憶粒子計算工程”的中心服務(wù)站點和各級各類檔案館數(shù)據(jù)站點之間按照“分布式架構(gòu)”進行組織,各數(shù)據(jù)站點之間在物理上是分散的,邏輯上是集中的,每一個數(shù)據(jù)站點在為本地用戶提供檔案事實查證服務(wù)的基礎(chǔ)上,都有發(fā)起全局性檢索并獲得其他檔案館數(shù)據(jù)資源的權(quán)限。因而,“檔案記憶粒子計算工程”在檔案事實檢索的“查準率”和“查全率”指標都會得到顯著性地提升。由此可知,實現(xiàn)全國范圍的“檔案記憶粒子”集成計算要以全行業(yè)分布式資源共享組織體系和網(wǎng)絡(luò)體系為基礎(chǔ)條件。
3.2“檔案記憶粒子計算工程”的語義坐標系統(tǒng)
“檔案記憶粒子計算工程”的核心是為全國各級各類檔案館進行檔案文獻“檔案記憶粒子”抽取提供統(tǒng)一的邏輯參照體系,即“檔案記憶坐標系統(tǒng)”(Archival Memory Coordinate System,AMCS)?!皺n案記憶坐標系統(tǒng)”主要由以下模塊構(gòu)成:第一,統(tǒng)一時間標尺平臺。統(tǒng)一時空標尺平臺主要為全國各級各類檔案館館藏檔案文獻中的時間表述提供統(tǒng)一的時間參照體系。我國古代使用的天干地支紀年法、皇帝年號紀年法、農(nóng)歷紀年法以及各少數(shù)民族使用的歷法所形成的時間表述最終都可以在“統(tǒng)一時間標尺平臺”當中找到對應(yīng)的公歷紀年表述方式,從而使檔案文獻提及的各類時間表達方式可以基于共同的時間標尺數(shù)據(jù)進行比對和計算。
第二,統(tǒng)一地名數(shù)據(jù)平臺?!敖y(tǒng)一地名數(shù)據(jù)平臺”主要為檔案文獻當中提及的地名提供唯一標識符編碼,通常使用經(jīng)度、緯度和海拔高度相結(jié)合的方式,準確描述地名所對應(yīng)的地理實體的位置。同一地理位置在歷史上先后使用多個地名的,其對應(yīng)的地名編碼是一致的,從而可以基于其編碼數(shù)據(jù)進行相互之間空間位置的計算。
第三,實體唯一標識符編碼平臺。主要是由各級各類檔案館根據(jù)檔案記憶粒子抽取工作的需要,向平臺提交實體唯一標識符編碼方案的注冊申請,如獲通過則成為全局性標準,其他機構(gòu)在進行“檔案記憶粒子”抽取時可以直接引用?!皩嶓w唯一標識符”分為概念類實體和命名實體兩種類型,前者是對同一類實體物的通用表述,后者是針對可以相互區(qū)分的人名、機構(gòu)名或?qū)嵨锩奈ㄒ痪幋a。
第四,統(tǒng)一謂詞數(shù)據(jù)字典?!爸^詞數(shù)據(jù)字典”是對實體與實體、實體與屬性之間的關(guān)系的規(guī)范化標識符號,需要從大量檔案文獻中抽取,并進行規(guī)范化。
第五,統(tǒng)一場景語義框架庫?!皥鼍罢Z義框架庫”是對人類社會共性場景的結(jié)構(gòu)化描述,可以參照框架語義學(xué)領(lǐng)域的現(xiàn)有場景框架進行構(gòu)建。根據(jù)場景的不同,涉及的時間、空間、主體、工具、對象等語義要素及其組合關(guān)系也各不相同。只要檔案文獻記錄的內(nèi)容屬同一類型,所使用的語義場景描述框架就應(yīng)該是一致的。
第六,統(tǒng)一敘事腳本庫?!皵⑹履_本庫”是對人類社會系統(tǒng)當中各類事件邏輯結(jié)構(gòu)的通用表征,主要描述不同類型事件的場景類型及其組合方式。基于上述檔案語義坐標系統(tǒng)的組成模塊,檔案文獻的任何事實性語義信息都可以表征為由事件、場景、時間唯一標識符、空間唯一標識符、實體唯一標識符、關(guān)系謂詞、屬性值等要素組成的RDF數(shù)據(jù)集,從而為基于“檔案記憶粒子”的精準化檔案事實查證奠定基礎(chǔ)。
3.3“檔案記憶粒子計算工程”的向量數(shù)據(jù)庫
作為“檔案記憶粒子”基本形式的RDF語義三元組數(shù)據(jù)是基于符號比對原理而構(gòu)建的,與大語言模型所依賴的向量空間詞元生成技術(shù)屬于不同的技術(shù)體系,兩者之間無法直接進行數(shù)據(jù)交流。為
檔案與建設(shè)
了充分利用大語言模型在智能檔案服務(wù)領(lǐng)域的優(yōu)勢,有必要將從檔案文獻當中抽取而來的“檔案記憶粒子”RDF數(shù)據(jù)集全部映射到同一向量數(shù)據(jù)空間當中,使其在邏輯上成為向量空間的若干數(shù)據(jù)點。
與此同時,“向量數(shù)據(jù)庫”的信息檢索采用的是向量余弦相似度計算和歐氏距離計算,檢索效率要顯著高于任何基于符號比對原理的關(guān)系型數(shù)據(jù)或圖數(shù)據(jù)庫。[7]更為重要的是,基于某些大語言模型提供的智能體開發(fā)工具,可以將RDF格式記錄因子轉(zhuǎn)換為向量數(shù)據(jù)表征形式,從而可以使大語言模型從領(lǐng)域數(shù)據(jù)庫當中檢索數(shù)據(jù)或者對其生成結(jié)果進行邏輯驗證,從而降低機器幻覺的產(chǎn)生概率。
3.4“檔案記憶粒子計算工程”的智能體服務(wù)
“智能體”(Agent)是可以部分地替代人類完成系列工作任務(wù)的計算機程序。[8]當前,“檔案記憶智能體”的技術(shù)實現(xiàn)主要依托大語言模型展開,其在人機自然語言交互能力上的表現(xiàn)已經(jīng)顯著超過其他類型的技術(shù)方案。然而,大語言模型畢竟是一個無法進行精準解釋和驗證的“黑箱模型”,且具有產(chǎn)生“機器幻覺”的可能性。較為可行的解決方案是在大語言模型之外,增加基于“白箱模型”的檔案記憶粒子RDF數(shù)據(jù)集和統(tǒng)一向量數(shù)據(jù)庫。一方面,大語言模型可以從向量數(shù)據(jù)庫提取行業(yè)數(shù)據(jù),減少生成答案時的幻覺問題;另一方面,當大語言模型生成答案之后,可以交由白箱模型進行邏輯驗證,如果無法從白箱模型當中檢索到相應(yīng)記錄,說明尚無證據(jù)為該事實提供佐證,則不能向用戶進行反饋。上述通過將大語言模型和本地向量數(shù)據(jù)庫相結(jié)合實現(xiàn)智能體服務(wù)的方式,通常被稱為“檢索增強生成”(RetrievalAugmentedGeneration,RAG)??傊S著“檔案記憶粒子計算工程”的推進,人類的檔案服務(wù)將不再局限于內(nèi)容的精準化,在服務(wù)形式上也將變得更為接近人類個體提供自然語言服務(wù)的狀態(tài),這將是人類檔案服務(wù)能力從未達到的新高度。
4政策建議
檔案記憶粒子計算工程”是一項難以在短期內(nèi)完成的巨型復(fù)雜系統(tǒng)工程。原因在于:一是,檔案文獻數(shù)量規(guī)模的龐大性。相比地方志、史籍等歷史文獻,檔案文獻體量龐大,要完成整體性的“檔案記憶粒子”抽取和數(shù)據(jù)表征意味著巨大的工作量,完全依靠人工根本不可能完成。二是,檔案文獻語義結(jié)構(gòu)的復(fù)雜性。無論是統(tǒng)一時間標尺平臺、統(tǒng)一地名數(shù)據(jù)平臺、統(tǒng)一謂詞數(shù)據(jù)字典,還是統(tǒng)一場景框架庫、統(tǒng)一敘事腳本庫等基礎(chǔ)設(shè)施建設(shè)都是涉及要素眾多、結(jié)構(gòu)復(fù)雜的檔案語義坐標系統(tǒng)的組成部分,需要在“檔案記憶粒子計算工程”實踐當中由多個主體共同協(xié)作、逐步積累才能完成。三是,檔案文獻存在封閉期。開放檔案文獻還受到開放審核速度的制約,短期內(nèi)實現(xiàn)大規(guī)模檔案文獻語義信息分布式共享的阻力較大。然而,任何新興事物的發(fā)展都會面臨挑戰(zhàn),較為合理的方法是“基礎(chǔ)研究先行”和“戰(zhàn)略規(guī)劃先行”,在“檔案記憶粒子計算工程”尚未大規(guī)模實踐時,提前進行戰(zhàn)略性布局,隨著時間的推移逐步發(fā)展壯大并逐一解決發(fā)展中面臨的各類問題。因此,“檔案記憶粒子計算工程”應(yīng)當提前進行戰(zhàn)略規(guī)劃,“十五五”時期可先期啟動以下任務(wù):
第一,籌建“檔案記憶粒子計算工程”國家重點實驗室。目前,“檔案記憶粒子計算工程”領(lǐng)域的基礎(chǔ)理論尚未成熟,需要建立專門的研究機構(gòu)對領(lǐng)域涉及的核心關(guān)鍵問題進行深入探索?!皺n案記憶粒子計算工程”重點實驗室的主要任務(wù)是探索“檔案記憶粒子”的底層邏輯、數(shù)據(jù)結(jié)構(gòu)和基礎(chǔ)運行邏輯,進行“檔案記憶粒子”抽取與計算的技術(shù)實驗,為相關(guān)領(lǐng)域的基礎(chǔ)研究提供實驗環(huán)境。
第二,啟動“檔案記憶粒子計算工程”協(xié)作聯(lián)盟的籌建工作。“檔案記憶粒子計算工程”協(xié)作聯(lián)盟是由國家檔案主管部門、檔案科研機構(gòu)和全國4000余家各級各類檔案館本著“共建共用”和“互利共贏”原則組建的跨地區(qū)、跨層級檔案數(shù)據(jù)資源共享基礎(chǔ)設(shè)施平臺和多元主體協(xié)作機制,有助于減少檔案數(shù)據(jù)資源共享的行政阻力,實現(xiàn)同一語義對象檔案記憶粒子數(shù)據(jù)的全局一站式檢索
第三,進行“檔案記憶坐標系統(tǒng)”國家標準的聯(lián)合制定?!皺n案記憶坐標系統(tǒng)”是“檔案記憶粒子計算工程”的邏輯參照體系,是各級各類檔案館進行檔案文獻語義顆粒抽取的基礎(chǔ)性支撐。建議相關(guān)部門組織研究力量,圍繞“檔案記憶坐標系統(tǒng)”邏輯和物理設(shè)計問題進行聯(lián)合攻關(guān),最終拿出可以為各級各類檔案館進行“檔案記憶粒子”解構(gòu)和表征提供邏輯參照的系統(tǒng)性技術(shù)方案。
第四,設(shè)立“檔案記憶粒子計算工程”基礎(chǔ)研究基金。“檔案記憶坐標系統(tǒng)”的構(gòu)建是協(xié)作聯(lián)盟中心服務(wù)站點和全國各級各類檔案館數(shù)據(jù)站點共同參與、逐步積累的結(jié)果。為了調(diào)動各類數(shù)據(jù)站點進行概念實體、命名實體、關(guān)系謂詞、場景框架、敘事框架數(shù)據(jù)注冊和維護的熱情和積極性,建議國家檔案主管部門投人專項基金,按照各個數(shù)據(jù)站點負責(zé)注冊和維護唯一標識符的數(shù)據(jù)予以資金支持,確?!皺n案記憶坐標系統(tǒng)”基礎(chǔ)數(shù)據(jù)集建設(shè)工作的科學(xué)性、嚴謹性和可持續(xù)性。
第五,開展“檔案記憶粒子計算工程”的項目試點。選擇檔案信息化基礎(chǔ)較好的城市開展“檔案記憶粒子計算工程”的技術(shù)試點,尤其是面臨海量文獻時的“檔案記憶粒子”的解構(gòu)與抽取問題。“檔案記憶粒子計算工程”的試點項目的數(shù)據(jù)量積累到一定程度時,可以從技術(shù)上驗證基于資源描述框架的“檔案記憶粒子”在技術(shù)層面是否可行,針對試點中出現(xiàn)的問題有針對性地進行處理
第六,培育“檔案記憶粒子計算工程”的人才隊伍?!皺n案記憶粒子計算工程”對于檔案管理機構(gòu)的工作人員提出了更高的要求,開設(shè)有檔案學(xué)專業(yè)的各大院校需要針對“檔案記憶粒子計算工程積極調(diào)整培養(yǎng)方案和培養(yǎng)方式,培養(yǎng)同時精通計算機、數(shù)據(jù)科學(xué)和檔案學(xué)的復(fù)合型人才。
作者貢獻說明
趙生輝:提出學(xué)術(shù)觀點,完成初稿撰寫;錢佳樂:參與觀點論證,校對文章內(nèi)容;
韓雨:搜集參考資料,校對文章內(nèi)容。
注釋與參考文獻
[1]習(xí)近平.加強基礎(chǔ)研究,實現(xiàn)高水平科技自立自強[J].求知,2023(8):4-6.
[2]陳家豪,林心月.細胞學(xué)說的提出與修正[J].醫(yī)學(xué)與哲學(xué),2025(3):72-76.
[3]道爾頓.化學(xué)哲學(xué)的新體系M」.李家玉,盛根玉,譯.北京:北京大學(xué)出版社, 2006:1-3
[4]李思藝,王振杰,陳子憶.可解釋人工智能在檔案領(lǐng)域的應(yīng)用初探[J].檔案與建設(shè),2025(3):53-62.
[5]趙生輝,胡瑩.“檔案數(shù)據(jù)化”底層邏輯的解析與啟示[J].檔案學(xué)通訊,2021(4):20-27.
[6」譚必勇.大數(shù)據(jù)時代檔案數(shù)據(jù)治理的范式轉(zhuǎn)型和時代挑戰(zhàn)[J].檔案與建設(shè),2025(2):36-44.
[7」羅云.從零構(gòu)建向量數(shù)據(jù)庫[M」.北京:人民郵電出版社,2024:2.
[8]葉濤,管鍇,張心雨.零基礎(chǔ)開發(fā)AIAgent[M]北京:電子工業(yè)出版社, 2025:1
(責(zé)任編輯:張帆)