摘 要:檔案數(shù)智化服務(wù)是數(shù)智時(shí)代興起的一種新型檔案信息服務(wù)形態(tài),兼具數(shù)字化和智能化的雙重特性,是檔案事業(yè)創(chuàng)新發(fā)展的趨勢。生成式人工智能為檔案數(shù)智化服務(wù)探索帶來了新機(jī)遇。文章首先調(diào)查并分析了檔案數(shù)智化服務(wù)的現(xiàn)狀;其次,從法律政策、標(biāo)準(zhǔn)指南、技術(shù)需求、風(fēng)險(xiǎn)防控四個(gè)角度分析了生成式人工智能應(yīng)用于檔案數(shù)智化服務(wù)的可行性;最后,構(gòu)建檔案數(shù)據(jù)的高效整理與檢索、檔案利用的流程優(yōu)化與重塑、檔案內(nèi)容的深度挖掘與分析、檔案服務(wù)的空間延伸與開放四個(gè)服務(wù)應(yīng)用場景。
關(guān)鍵詞:檔案服務(wù);數(shù)智化服務(wù);生成式人工智能;應(yīng)用場景
分類號(hào):G270.7
Exploration on the Application Scenarios of Archival Digital Intelligent Service for Generative Artificial Intelligence
Liu Jing1,2, Ou Yue2
( 1. Archives of Central China Normal University, Wuhan, Hubei 430079; 2. School of Information Management, Central China Normal University, Wuhan, Hubei 430079 )
Abstract: Archival digital intelligent service is a new form of archival information service emerging in the era of digital intelligence. It possesses both digitization and intelligence features, and is the trend of the innovative development of archival undertakings. Generative artificial intelligence (GAI) brings fresh opportunities for the exploration of archival digital intelligent service. This paper firstly investigates and analyzes the present situation of applying GAI to archival digital intelligent service. Secondly, the feasibility of applying GAI in the archival digital intelligent service is analyzed through four perspectives: legal policies, standards and guidelines, technical requirements, and risk prevention and control. Finally, four service application scenarios are developed: efficient collation and retrieval of archival data, process optimization and remodeling of archival utilization, deep mining and analysis of archival content, and space extension and openness of archival service.
Keywords: Archival Service; Digital Intelligent Service; Generative Artificial Intelligence; Application Scenarios
引 言
生成式人工智能(Generative Artificial Intelligence, 以下簡稱“GAI”)誕生于20世紀(jì)80年代[1],2022年起,以ChatGPT、Midjourney、Stable Diffusion等為代表的GAI技術(shù)快速發(fā)展并得到廣泛應(yīng)用,為人們的生產(chǎn)生活方式和社會(huì)經(jīng)濟(jì)形態(tài)帶來變革,也推動(dòng)檔案事業(yè)朝數(shù)智化方向轉(zhuǎn)型。GAI主要指“利用機(jī)器學(xué)習(xí)等方法從現(xiàn)有數(shù)據(jù)(圖像、音頻、文本)中學(xué)習(xí)內(nèi)容要素,生成與原始數(shù)據(jù)保持相似的內(nèi)容”[2]。2023年我國網(wǎng)信辦等相關(guān)部門聯(lián)合發(fā)布了《生成式人工智能服務(wù)管理暫行辦法》,將GAI定義為“具有文本、圖片、音頻、視頻等內(nèi)容生成能力的模型及相關(guān)技術(shù)”,并“鼓勵(lì)生成式人工智能技術(shù)在各行業(yè)、各領(lǐng)域的創(chuàng)新應(yīng)用,生成積極健康、向上向善的優(yōu)質(zhì)內(nèi)容,探索優(yōu)化應(yīng)用場景,構(gòu)建應(yīng)用生態(tài)體系”[3],從而為GAI的規(guī)范應(yīng)用與創(chuàng)新發(fā)展提供了有力的法治保障和政策支持。
在GAI快速發(fā)展并廣泛應(yīng)用的背景下,檔案學(xué)界開始關(guān)注檔案數(shù)智化服務(wù)相關(guān)主題研究,主要集中在以下幾個(gè)方面:一是數(shù)智背景下檔案服務(wù)工作的突破轉(zhuǎn)型,包括探討檔案信息服務(wù)的發(fā)展方向[4]、服務(wù)策略調(diào)整[5]、數(shù)智嵌入的服務(wù)過程模型[6]等;二是數(shù)智技術(shù)賦能檔案服務(wù)場景研究,如GPT賦能檔案館服務(wù)的“AIMP”應(yīng)用場景[7],數(shù)智驅(qū)動(dòng)非遺檔案資源展播服務(wù)[8],將數(shù)字孿生技術(shù)[9]、AR[10]技術(shù)等運(yùn)用于檔案館智慧服務(wù);三是檔案數(shù)智化服務(wù)模式相關(guān)研究,例如,以用戶需求為導(dǎo)向的高校檔案智慧服務(wù)模式[11]、基于區(qū)塊鏈的檔案服務(wù)模式優(yōu)化路徑[12]等;四是檔案數(shù)智服務(wù)平臺(tái)[13]和檔案數(shù)智庫[14]的構(gòu)建等。國外對于檔案數(shù)智化服務(wù)的研究成果主要聚焦于人工智能在檔案領(lǐng)域的應(yīng)用,例如歸納檔案與人工智能間交叉研究的四個(gè)主題以及未來的新興趨勢,認(rèn)為人工智能技術(shù)未來會(huì)被廣泛地應(yīng)用于檔案領(lǐng)域[15],以及探究人工智能在開放在線原生數(shù)字檔案方面的作用[16]。值得注意的是,加拿大檔案工作者協(xié)會(huì)于2024年向聯(lián)邦政府提交了檔案界關(guān)于GAI時(shí)代版權(quán)磋商的意見書,指出檔案館館藏資源是大型語言模型的主要文件來源,GAI應(yīng)用有助于檔案服務(wù)。[17]
總體看來,國內(nèi)外檔案學(xué)界對人工智能與檔案數(shù)智化服務(wù)極度關(guān)注,這反映出該主題具有重要的現(xiàn)實(shí)研究意義和實(shí)踐指導(dǎo)價(jià)值。GAI作為人工智能發(fā)展的一個(gè)重大突破,被認(rèn)為是人工智能與內(nèi)容領(lǐng)域深度融合的代表之一,它在人工智能基本技術(shù)的基礎(chǔ)上,更加強(qiáng)調(diào)其強(qiáng)大的創(chuàng)作生成能力,包括生成文本、圖片、視頻等多模態(tài)內(nèi)容,有助于擴(kuò)展服務(wù)形式,深化服務(wù)體驗(yàn),提升檔案服務(wù)的效率與質(zhì)量、擴(kuò)展檔案服務(wù)深度和空間。因此,本文將GAI引入檔案數(shù)智化服務(wù),分析這一新興技術(shù)應(yīng)用于檔案數(shù)智化服務(wù)的可行性,提出GAI應(yīng)用于檔案數(shù)智化服務(wù)的應(yīng)用場景,為數(shù)智時(shí)代檔案服務(wù)工作創(chuàng)新提供參考。
1 檔案數(shù)智化服務(wù)現(xiàn)狀調(diào)查
檔案服務(wù)是基于檔案資源滿足公眾檔案信息需求的一項(xiàng)重要工作,在社會(huì)管理、公共服務(wù)、文化傳承等方面發(fā)揮著重要作用。數(shù)字中國、智慧城市、智慧政府等對檔案管理和服務(wù)的數(shù)字化和智能化程度要求越來越高[18],檔案服務(wù)的對象和環(huán)境都在發(fā)生深刻的變化。此外,公眾“網(wǎng)民化”的趨勢下,數(shù)字檔案利用者數(shù)量不斷增加,對檔案服務(wù)的便捷性、準(zhǔn)確性、豐富性和開放性提出了更高要求。
筆者以33個(gè)?。ㄗ灾螀^(qū)、直轄市、特別行政區(qū))綜合檔案館網(wǎng)站(不含臺(tái)灣地區(qū))為調(diào)查對象,通過網(wǎng)絡(luò)調(diào)研對33個(gè)綜合檔案館的開放檔案數(shù)智化服務(wù)情況進(jìn)行調(diào)查,調(diào)查時(shí)間為2024年8月2日至8日??傮w看來,有如下發(fā)現(xiàn):第一,服務(wù)欄目多樣化,與檔案服務(wù)相關(guān)的欄目主要有“預(yù)約查檔”“公眾互動(dòng)”“服務(wù)指南”“專題展示”“檔案編研”“視頻薈萃”“口述檔案”等,還有一些網(wǎng)站提供了個(gè)性化檔案服務(wù),如上海市檔案信息網(wǎng)設(shè)有“長者專版”、香港政府檔案處設(shè)有“歷史檔案館FACEBOOK專頁”等;第二,檔案檢索服務(wù)普及率高,33個(gè)綜合檔案館都在網(wǎng)站公布了開放檔案目錄或全文,其中29個(gè)支持檢索,4個(gè)僅供瀏覽;第三,實(shí)體展覽、展廳數(shù)字化、虛擬化受到越來越多地關(guān)注,已有23個(gè)省級綜合檔案館網(wǎng)站設(shè)有網(wǎng)上展覽、展廳或虛擬、3D展廳。然而,調(diào)查還發(fā)現(xiàn):雖然省級綜合檔案館網(wǎng)站的檔案檢索服務(wù)普及率較高,但只限于文本格式的單一模態(tài)檢索,檢索結(jié)果呈現(xiàn)并不完整,著錄信息多而全文少,檔案價(jià)值有待進(jìn)一步挖掘;智慧服務(wù)開展較少,僅有上海檔案信息網(wǎng)提供了更深入的檔案知識(shí)圖譜服務(wù)[19]、河南檔案信息網(wǎng)提供歷史檔案資源專題知識(shí)庫訪問服務(wù)[20],數(shù)智化服務(wù)深度還有待提升。具體情況詳見表1。
2 GAI應(yīng)用于檔案數(shù)智化服務(wù)的可行性
面對新挑戰(zhàn)和新機(jī)遇,檔案部門正在積極尋求革新。GAI作為人工智能發(fā)展的一個(gè)重大突破,更加強(qiáng)調(diào)其在內(nèi)容生成、多模式介質(zhì)處理以及人機(jī)交互等方面的優(yōu)勢[21],具有推動(dòng)檔案數(shù)智化服務(wù)深入發(fā)展的可行性。
2.1 法律政策大力倡導(dǎo)
近年來國家層面的法律和政策引導(dǎo)推動(dòng)新技術(shù)的應(yīng)用及檔案數(shù)智化服務(wù)發(fā)展。新修訂的《中華人民共和國檔案法》從實(shí)現(xiàn)方式、功能目標(biāo)和質(zhì)量水平三個(gè)維度對檔案服務(wù)工作提出了更高的要求,明確提出“檔案館應(yīng)當(dāng)不斷完善利用規(guī)則,創(chuàng)新服務(wù)形式,強(qiáng)化服務(wù)功能,提高服務(wù)水平,積極為檔案的利用創(chuàng)造條件”,“采用先進(jìn)技術(shù),實(shí)現(xiàn)檔案管理的現(xiàn)代化”[22],從法律層面強(qiáng)化新技術(shù)應(yīng)用于檔案數(shù)智化服務(wù)的必要性?!吨腥A人民共和國檔案法實(shí)施條例》不僅將“檔案信息化建設(shè)”列入檔案機(jī)構(gòu)職責(zé)之一,還明確“鼓勵(lì)有條件的單位開展文字、語音、圖像識(shí)別工作,加強(qiáng)檔案資源深度挖掘和開發(fā)利用”[23],為GAI在檔案數(shù)智化服務(wù)的應(yīng)用場景構(gòu)建提供指導(dǎo)。地方政策也在積極響應(yīng)國家的號(hào)召,如浙江省委辦公廳、省政府辦公廳于2023年12月印發(fā)的《關(guān)于推進(jìn)新時(shí)代檔案事業(yè)現(xiàn)代化先行的意見》明確“支持利用智能化技術(shù)構(gòu)建檔案行業(yè)知識(shí)服務(wù)與知識(shí)管理平臺(tái),建立人工智能海量訓(xùn)練資源庫、標(biāo)準(zhǔn)測試數(shù)據(jù)集”。[24]
2.2 標(biāo)準(zhǔn)指南保駕護(hù)航
國家和地方層面一系列法律、政策,為GAI應(yīng)用于檔案數(shù)智化服務(wù)提供了實(shí)施依據(jù)和基本保障。同時(shí),國內(nèi)外GAI標(biāo)準(zhǔn)和指南緊跟技術(shù)發(fā)展和迭代,為GAI應(yīng)用于檔案數(shù)智化服務(wù)提供參考依據(jù)和技術(shù)準(zhǔn)則。2023年9月,聯(lián)合國教科文組織(UNESCO)頒布全球首份GAI指南文件,2024年4月,世界數(shù)字技術(shù)院(WDTA)發(fā)布了兩項(xiàng)GAI安全領(lǐng)域的國際標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)對GAI應(yīng)用于檔案數(shù)智化服務(wù)具有較高的參考價(jià)值。具體內(nèi)容詳見表2。
我國在2023年7月發(fā)布《生成式人工智能服務(wù)管理暫行辦法》后,正在積極探索出臺(tái)《網(wǎng)絡(luò)安全技術(shù) 生成式人工智能數(shù)據(jù)標(biāo)注安全規(guī)范》《信息安全技術(shù) 生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范》《網(wǎng)絡(luò)安全技術(shù) 生成式人工智能服務(wù)安全基本要求》,三項(xiàng)標(biāo)準(zhǔn)由全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)(SAC/TC260)牽頭制定,截至2024年5月均已形成征求意見稿。[25]第一項(xiàng)標(biāo)準(zhǔn)涵蓋GAI數(shù)據(jù)標(biāo)注的基礎(chǔ)安全、規(guī)則安全、標(biāo)注人員、標(biāo)注核驗(yàn)要求等內(nèi)容,統(tǒng)一了文本、圖片、音頻、視頻、三維等類別的標(biāo)注細(xì)節(jié),為檔案數(shù)智化服務(wù)的可視化展示、智慧交互等應(yīng)用場景的建設(shè)提供參考;第二項(xiàng)標(biāo)準(zhǔn)規(guī)定了GAI預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)及其處理活動(dòng)的安全要求,確保GAI處理檔案數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)使用等流程的規(guī)范,為數(shù)據(jù)準(zhǔn)備階段GAI模型獲取海量開放檔案數(shù)據(jù)的流程提供規(guī)范參考;第三項(xiàng)標(biāo)準(zhǔn)則提出GAI在安全方面的基本要求,包括訓(xùn)練數(shù)據(jù)安全、模型安全、安全措施等,并給出安全評估參考要點(diǎn),涵蓋了GAI應(yīng)用的全流程。
2.3 技術(shù)需求相互匹配
GAI的核心是通過機(jī)器翻譯、文檔自動(dòng)摘要、智能文本生成、自動(dòng)問答系統(tǒng)、文檔分類檢索及圖像識(shí)別等技術(shù),自動(dòng)生成和編輯所需的文字、圖片、音頻、視頻等各種類型的內(nèi)容[26],其技術(shù)演進(jìn)體現(xiàn)在三個(gè)方面:一是生成算法模型的突破創(chuàng)新,從早期的生成對抗網(wǎng)絡(luò)(GNA)模型到Transformer模型;二是預(yù)訓(xùn)練模型引發(fā)GAI技術(shù)能力的質(zhì)變,如Transformer的雙向編碼器表示(BERT)模型、自然語言處理(NLP)預(yù)訓(xùn)練模型等;三是多模態(tài)技術(shù)促使GAI具有更通用能力,預(yù)訓(xùn)練模型從早期單一模型發(fā)展到現(xiàn)在多模態(tài)、跨模態(tài)模型,如開源的對比語言—圖像預(yù)訓(xùn)練(CLIP)模型。[27]
隨著GAI技術(shù)飛速發(fā)展,涌現(xiàn)出許多代表性產(chǎn)品,其中ChatGPT、DALL-E、WaveNet、Sora等均具有豐富的語料庫和強(qiáng)大的交互理解與對話能力,且分別生成文本、圖像、音頻、視頻等不同類型的內(nèi)容,通過分析這些GAI代表性的核心特征、模型架構(gòu),揭示GAI與檔案數(shù)智化服務(wù)緊密的邏輯關(guān)聯(lián)。具體內(nèi)容詳見表3。
從功能上看,GAI同樣與檔案數(shù)智化服務(wù)的需求相匹配。具體來看,第一,GAI可以隨時(shí)隨地為利用者提供檔案咨詢服務(wù),建立實(shí)時(shí)性、不間斷的溝通橋梁,檔案閱覽形式不再局限于線下或等待管理員反饋,檔案服務(wù)也從簡單的載體服務(wù)轉(zhuǎn)變?yōu)榛跈n案信息深度加工的信息服務(wù);第二,GAI能夠?qū)⒆匀徽Z言處理、圖像識(shí)別、文字分類等多種技術(shù)相結(jié)合,有效處理各類檔案數(shù)據(jù),根據(jù)利用者提供的查詢條件,提出一種基于文本內(nèi)容、圖像元素以及其他多媒體信息的自動(dòng)匹配方法,這種多模態(tài)查詢可以加深利用者對檔案信息的了解;第三,GAI基于自然語言處理、機(jī)器學(xué)習(xí)等技術(shù),通過學(xué)習(xí)大規(guī)模數(shù)據(jù)集而生成新的原創(chuàng)內(nèi)容。這與檔案服務(wù)從過去提供檔案原始內(nèi)容的信息服務(wù),轉(zhuǎn)向提供檔案經(jīng)整理挖掘后的信息的內(nèi)容服務(wù)、知識(shí)服務(wù)的理念不謀而合,如ChatGPT具備的迅速識(shí)別并關(guān)聯(lián)相近文本的功能,可以幫助發(fā)現(xiàn)海量檔案信息間的共性或緊密關(guān)聯(lián),為研究提供新的切入點(diǎn)和靈感[28],從而激活檔案潛藏價(jià)值;第四,通過仿真與重構(gòu),GAI能夠?qū)?shí)物檔案轉(zhuǎn)化為虛擬形式,為公眾提供一個(gè)沉浸式的展覽空間,不僅打破了時(shí)間、物理空間限制,還以更加靈活開放的方式,將檔案資源的展示范圍從文本、圖像等平面數(shù)據(jù),擴(kuò)展到立體模型、音頻、影像。[29]
2.4 安全風(fēng)險(xiǎn)多維防控
屬性獨(dú)特的檔案數(shù)據(jù)是GAI模型訓(xùn)練所需的高質(zhì)量數(shù)據(jù)。盡管有標(biāo)準(zhǔn)指南保駕護(hù)航,但在具體操作層面,檔案數(shù)據(jù)的安全性、生成內(nèi)容的真實(shí)性、社會(huì)傳播的合規(guī)性等問題一直是GAI應(yīng)用于檔案數(shù)智化服務(wù)的風(fēng)險(xiǎn)點(diǎn)。根據(jù)《信息安全 人工智能數(shù)據(jù)安全通用要求》,結(jié)合檔案數(shù)據(jù)特點(diǎn)提出以下風(fēng)險(xiǎn)防控建議:在數(shù)據(jù)收集階段,檔案部門作為數(shù)據(jù)主體,應(yīng)嚴(yán)格遵守《國家檔案館檔案開放辦法》,在開放檔案范圍內(nèi)形成本地?cái)?shù)據(jù)集,并根據(jù)應(yīng)用場景對檔案數(shù)據(jù)進(jìn)行脫敏和標(biāo)注;在數(shù)據(jù)使用階段,建立與檔案數(shù)據(jù)相匹配的安全處理環(huán)境,采取訪問控制模塊使用用戶身份識(shí)別與鑒別、數(shù)據(jù)訪問權(quán)限分配等策略;在數(shù)據(jù)展示階段,依據(jù)展示場景、內(nèi)容和方式,對展示的必要性和安全性進(jìn)行評估和審核。此外,模型的選擇也影響著檔案數(shù)據(jù)集的安全,具備本地化學(xué)習(xí)能力的行業(yè)垂直大模型比通用大模型更適合應(yīng)用于檔案領(lǐng)域。例如,“盛飛檔案AI大模型1.0”平臺(tái)在通用大模型基礎(chǔ)上進(jìn)行垂直化訓(xùn)練,搭建了基于本地檔案數(shù)據(jù)集的專屬檔案大模型知識(shí)庫。[30]
3 GAI應(yīng)用于檔案數(shù)智化服務(wù)的場景
相較于傳統(tǒng)AI,GAI側(cè)重于使用大規(guī)模數(shù)據(jù)集和大型語言模型,專注于生成新的內(nèi)容,在主題識(shí)別、智能問答、知識(shí)服務(wù)、虛擬仿真等方面具有明顯優(yōu)勢,借此構(gòu)建面向GAI的檔案數(shù)據(jù)整理與檢索、檔案服務(wù)流程優(yōu)化與重塑、檔案內(nèi)容挖掘與分析、檔案服務(wù)空間延伸與開放等服務(wù)應(yīng)用場景,能夠有效提高檔案服務(wù)效率、優(yōu)化檔案服務(wù)體驗(yàn)、激活檔案潛在價(jià)值、拓展檔案服務(wù)空間,為利用者提供更加高效、便捷、個(gè)性化、互動(dòng)性的服務(wù)體驗(yàn)。
3.1 主題識(shí)別助力檔案數(shù)據(jù)高效整理與檢索
調(diào)查發(fā)現(xiàn),雖然省級綜合檔案館網(wǎng)站的檔案檢索服務(wù)普及率高,但只限于文本格式的單一模態(tài)檢索。GAI可以從海量的文本、圖像、音視頻檔案數(shù)據(jù)中,抽取重要的信息并構(gòu)建索引,使利用者能夠快速準(zhǔn)確地搜索和訪問到相關(guān)檔案,極大提高檔案服務(wù)效率。以WaveNet為例,雖不直接用于音頻檔案的分類與檢索,但生成的音頻信號(hào)可用于訓(xùn)練分類模型或檢索系統(tǒng),通過提取音頻特征并構(gòu)建索引,可以提高音頻檔案分類和檢索效率。GAI提高檔案數(shù)據(jù)整理與檢索效率得益于:一方面,GAI運(yùn)用自然語言處理技術(shù),理解利用者的查詢目的及語義,通過對查詢信息中的關(guān)鍵詞、詞組和上下文進(jìn)行分析對比,實(shí)現(xiàn)對檔案數(shù)據(jù)的有效匹配;另一方面,采用基于深度學(xué)習(xí)的特征提取方法,對特征信息進(jìn)行語義編碼,并對特征信息進(jìn)行矢量化,有效地反映出檔案間的關(guān)聯(lián)性和相似性,進(jìn)而提高檢索結(jié)果的準(zhǔn)確性。例如,中國航天科工集團(tuán)二院檔案室在照片檔案智能檢索定位上已經(jīng)取得階段性成果,其團(tuán)隊(duì)通過自主研發(fā)的智能識(shí)別技術(shù),能夠在海量照片檔案中實(shí)現(xiàn)基于人像的快速檢索,還能實(shí)現(xiàn)群體人像識(shí)別、跨越長時(shí)間尺度人像識(shí)別以及模糊人像識(shí)別。[31]
此外,GAI在整理對象和檢索范圍上也實(shí)現(xiàn)了重要突破。從整理對象上看,GAI采用的多模態(tài)技術(shù)驅(qū)動(dòng)的檔案數(shù)智化服務(wù)呈現(xiàn)多種模態(tài),既可以構(gòu)建文本、圖像和音視頻檔案間的關(guān)聯(lián),還可以實(shí)現(xiàn)跨模態(tài)檔案內(nèi)容生成,例如,Sora可以根據(jù)檔案文本生成富含邏輯和結(jié)構(gòu)的視頻編研內(nèi)容。從檢索范圍上看,GAI以自然語言、多語言交互、連續(xù)對話的方式,使得“模糊搜索”到“精準(zhǔn)檢索”、“單一模態(tài)檢索”到“跨模態(tài)檢索”、“單庫檢索”到“跨庫檢索”、“單平臺(tái)檢索”到“跨平臺(tái)檢索”等多樣化的檢索范圍均得以實(shí)現(xiàn)。例如,2023年3月,OpenAl發(fā)布了引入文本和圖像跨模態(tài)融合技術(shù)的GPT-4,該模型在文字問答的基礎(chǔ)上增加了圖像識(shí)別、文本數(shù)據(jù)可視化等功能,2024年7月最新推出的低成本ChatGPT-4o mini小型模型,不僅保留了處理多模態(tài)數(shù)據(jù)的能力,還能夠?yàn)闄n案館提供經(jīng)濟(jì)實(shí)惠與更加靈活的應(yīng)用方案。
3.2 智能問答助力檔案利用流程優(yōu)化與重塑
面對公眾對檔案數(shù)智化服務(wù)水平提升的期待,通過優(yōu)化和重塑服務(wù)流程可以有效提升檔案數(shù)智化服務(wù)的質(zhì)量和效率,讓利用者獲得良好的體驗(yàn)感。最典型的是以知識(shí)問答的形式提供智能化的檔案利用服務(wù)[32],借助對話式語言模型ChatGPT對大規(guī)模檔案數(shù)據(jù)資源進(jìn)行訓(xùn)練,并構(gòu)建檔案領(lǐng)域知識(shí)庫,能夠迅速從海量檔案信息里查找與獲取分析問題的解答并實(shí)時(shí)反饋給利用者。這不僅拉近了檔案部門與利用者之間的距離,還實(shí)現(xiàn)了從傳統(tǒng)的檔案部門到利用者的單向信息傳遞轉(zhuǎn)向雙向?qū)崟r(shí)交互信息傳遞,重塑檔案利用的流程。
基于GAI的智能問答服務(wù)將檔案利用的流程簡化至兩步:第一,對利用者的需求進(jìn)行語義分析,即根據(jù)已有的檔案語料庫,將利用者需求進(jìn)行切分,然后進(jìn)行主題模型特征、正則表達(dá)式特征等多維度特征提取,并使用自然語言處理技術(shù),通過分詞、糾錯(cuò)、刪除停用詞、標(biāo)注詞性、詞嵌入轉(zhuǎn)換等處理,得到多維度數(shù)據(jù),以此構(gòu)建利用者需求的空間向量表示,再經(jīng)深度卷積神經(jīng)網(wǎng)絡(luò)計(jì)算得到其語義特征。第二,對利用者的需求進(jìn)行匹配,將得到的計(jì)算結(jié)果與檔案知識(shí)庫中的相關(guān)內(nèi)容進(jìn)行相似度計(jì)算,從檔案知識(shí)庫里提取最符合利用者需求的檔案數(shù)據(jù)進(jìn)行反饋,利用者可以根據(jù)反饋結(jié)果選擇是否繼續(xù)利用流程。GAI能夠與利用者建立更加便捷的交流與溝通渠道,它通過人—虛擬人之間的交互,讓交互具有人性服務(wù)溫度的同時(shí)具備機(jī)器服務(wù)的效率。通過GAI的智能問答服務(wù)重塑檔案利用流程已有實(shí)際應(yīng)用案例:廈門大學(xué)檔案館“廈小檔”虛擬數(shù)字人融合AIGC、數(shù)字人、語音識(shí)別等技術(shù),支持語音、文本輸入自動(dòng)識(shí)別利用者的需求[33],為利用者提供個(gè)性化的服務(wù),同時(shí)“廈小檔”還可以根據(jù)利用者的反饋不斷優(yōu)化自身服務(wù),提高用戶體驗(yàn)。
3.3 知識(shí)服務(wù)助力檔案內(nèi)容深度挖掘與分析
調(diào)查發(fā)現(xiàn),僅有2個(gè)省級綜合檔案館開展了基于開放檔案的知識(shí)服務(wù),由于檔案的潛在價(jià)值未被充分激活,不能滿足利用者深層次的檔案利用需求。檔案知識(shí)服務(wù)通過數(shù)字化、智能化的服務(wù)手段為利用者提供挖掘、分析之后的檔案知識(shí)和全面的需求解決方案。GAI應(yīng)用于檔案知識(shí)服務(wù)的過程:首先,通過對海量的檔案數(shù)據(jù)進(jìn)行學(xué)習(xí),從而對檔案中蘊(yùn)含的知識(shí)進(jìn)行自動(dòng)提??;其次,經(jīng)過對檔案內(nèi)容進(jìn)行分析,識(shí)別出關(guān)鍵信息、事實(shí)和觀點(diǎn),并將其轉(zhuǎn)化為可用的檔案知識(shí)庫或文檔;最后,基于加工處理后的檔案知識(shí)進(jìn)行推理,為利用者提供個(gè)性化、精確的檔案知識(shí)服務(wù)。因此,利用者通過與GAI的交流,不僅可以獲得原始的檔案信息,還可以獲取更深層次的檔案知識(shí)。GAI還能對檔案數(shù)據(jù)進(jìn)行關(guān)聯(lián),從而建立檔案知識(shí)圖譜,使利用者可透過對知識(shí)圖譜的瀏覽與搜尋,進(jìn)一步了解檔案間的關(guān)聯(lián)性與所包含的隱性信息。
國內(nèi)外應(yīng)用GAI深度挖掘與融合檔案內(nèi)容實(shí)現(xiàn)檔案知識(shí)服務(wù)均有成功案例。例如,耶魯大學(xué)的“Let Them Speak”項(xiàng)目,在近2700份大屠殺幸存者留下的證詞g4NRrwEpk6BGZAC9GA1dJg==和視頻檔案中,利用GAI技術(shù),精準(zhǔn)捕捉和分析這些證詞和視頻檔案中的關(guān)鍵詞匯、情感傾向和語義關(guān)系,幫助利用者深刻感受并了解檔案記錄背后的集體記憶與歷史真相[34],為后世提供一個(gè)銘記歷史教訓(xùn)的寶貴窗口。中核國電漳州能源有限公司利用自然語言處理、文檔知識(shí)集成、機(jī)器學(xué)習(xí)等數(shù)智技術(shù),對核電文檔知識(shí)進(jìn)行關(guān)聯(lián),建設(shè)的“華龍智庫”系統(tǒng)可以從業(yè)務(wù)系統(tǒng)的文檔和數(shù)據(jù)中抽取知識(shí),持續(xù)完善知識(shí)庫并創(chuàng)建知識(shí)地圖,已經(jīng)基本實(shí)現(xiàn)了核電文檔管理向文檔知識(shí)管理的創(chuàng)新發(fā)展[35],能夠提供更加智能的檔案知識(shí)服務(wù)。
3.4 虛擬仿真助力檔案服務(wù)空間延伸與開放
檔案展示與展覽是檔案部門主動(dòng)提供服務(wù)的一種重要形式,調(diào)查發(fā)現(xiàn)已有22個(gè)省級綜合檔案館網(wǎng)站設(shè)有網(wǎng)上展覽、展廳或虛擬、3D展廳,體現(xiàn)了較大的應(yīng)用需求。通過GAI實(shí)現(xiàn)檔案的可視化展示和虛擬展覽,不僅是將實(shí)體展覽、展廳數(shù)字化、虛擬化,還能夠?qū)︷^藏實(shí)物檔案進(jìn)行仿真與重構(gòu),為利用者提供可視化、多樣性的檔案展示與展覽服務(wù)。GAI通過對館藏檔案資源的學(xué)習(xí),能夠?qū)崿F(xiàn)對實(shí)物檔案外形、背景、情景等要素的展示,從而建立起一個(gè)虛擬的展覽空間,公眾只需要通過網(wǎng)上平臺(tái)或者VR裝置就可以足不出戶地參觀。GAI還可以從檔案資源中學(xué)習(xí)故事、事件等,把零散、碎片的檔案資源進(jìn)行整合、關(guān)聯(lián)和補(bǔ)充,從而形成一條有條理、有觀賞性的故事線索,生成視聽相結(jié)合的、生動(dòng)的檔案展品敘事與講解,從而提升利用者的體驗(yàn)感和參與度。
基于GAI的可視化展示和虛擬展覽不僅延伸了檔案服務(wù)空間,還在一定程度上讓檔案服務(wù)變得更加開放。例如,美國圣路易斯華盛頓大學(xué)圖書館的“Interactive Exhibit”將類似GPT的工具與AR技術(shù)相結(jié)合,讓公眾能夠與虛擬實(shí)物檔案進(jìn)行互動(dòng),獲得有關(guān)實(shí)物檔案的智能化介紹,體驗(yàn)沉浸式的跨文化體驗(yàn)。[36]2022年中國科學(xué)院深圳先進(jìn)技術(shù)研究院綜合檔案室結(jié)合元宇宙趨勢,以虛擬現(xiàn)實(shí)為技術(shù)支撐,從聲像檔案、文書檔案、名人檔案中梳理出了SIAT建院十五周年大事記及六大科研領(lǐng)域重大成果,充分挖掘相關(guān)檔案素材,整合相關(guān)檔案信息資源,制作了“SIAT十五周年大事記檔案展”[37],公眾可以通過網(wǎng)絡(luò)云游檔案展覽。不僅如此,GAI還可以根據(jù)展出數(shù)據(jù)及公眾的反饋信息,對展覽進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的提升與優(yōu)化。
4 結(jié) 語
《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》提出“到2025年檔案利用服務(wù)達(dá)到新水平”“到2035年我國檔案服務(wù)水平躋身世界前列”的目標(biāo),檔案服務(wù)向數(shù)智化轉(zhuǎn)型是目標(biāo)實(shí)現(xiàn)的關(guān)鍵。根據(jù)國家網(wǎng)信辦發(fā)布的公告,截至2024年4月2日,我國已有117項(xiàng)備案的GAI服務(wù)[38],涵蓋了文化、經(jīng)濟(jì)、醫(yī)療、教育等多個(gè)領(lǐng)域。GAI在檔案領(lǐng)域具有巨大的潛力和應(yīng)用前景,能夠根據(jù)公眾提出的便捷、準(zhǔn)確、豐富、開放的檔案利用需求,提供實(shí)時(shí)、多模態(tài)、交互性、開放性的數(shù)智化服務(wù),進(jìn)而提升檔案服務(wù)效率、優(yōu)化檔案服務(wù)質(zhì)量、擴(kuò)展檔案服務(wù)深度、擴(kuò)寬檔案服務(wù)空間,推動(dòng)檔案利用服務(wù)達(dá)到新水平,為檔案事業(yè)高質(zhì)量發(fā)展注入動(dòng)力。
*本文系國家社科基金一般項(xiàng)目“非物質(zhì)文化遺產(chǎn)數(shù)字檔案資源分層集群融合模式研究”(項(xiàng)目編號(hào):21BTQ084)階段性研究成果。
作者貢獻(xiàn)說明
劉婧:確定選題與研究思路,論文撰寫、修改與定稿;歐月:資料搜集、論文撰寫。
注釋與參考文獻(xiàn)
[1]趙楊,張雪,范圣悅.AIGC驅(qū)動(dòng)的智慧圖書館轉(zhuǎn)型:框架、路徑與挑戰(zhàn)[J].情報(bào)理論與實(shí)踐,2023(7):9-16.
[2]Gartner. Summary Translation: Innovation Insight for Generative AI[EB/OL].[2024-01-04]. https://www.gartner.com/en/documents/4002602.
[3]生成式人工智能服務(wù)管理暫行辦法[EB/ OL].[2024-08-28]. https://www.gov.cn/zhengce/ zhengceku/202307/content_6891752.htm.
[4]趙雪芹,李天娥.智能化環(huán)境中檔案信息服務(wù)研究現(xiàn)狀及未來研究展望[J].北京檔案,2020(1):11-15.
[5]馬仁杰,穆源真.論“數(shù)智”時(shí)代我國檔案信息服務(wù)策略的調(diào)整[J].大學(xué)圖書情報(bào)學(xué)刊,2023(3): 102-106.
[6]魏楠,劉瀟陽,郝偉斌.檔案信息服務(wù)中的數(shù)智嵌入:過程模型與驅(qū)動(dòng)路徑[J].檔案學(xué)通訊,2023(4):39-48.
[7] [36] 陳亮,秦玉婷,費(fèi)鴻虹,等. GPT賦能檔案館智慧服務(wù):技術(shù)特征、應(yīng)用場景與實(shí)現(xiàn)路徑[J].檔案與建設(shè), 2023 (12): 35-38.
[8]戴艷清,劉思毓.數(shù)智驅(qū)動(dòng)框架下的非遺檔案資源展播服務(wù)研究——以《清明上河圖3.0》為例[J].檔案與建設(shè),2024(7):64-71.
[9]孫向陽.數(shù)字孿生環(huán)境下檔案館智慧服務(wù)場景應(yīng)用研究[J].浙江檔案,2022(2):33-37.
[10]杜竹君.基于AR技術(shù)的檔案展覽探究[J].北京檔案,2018(1):30-31.
[11]黃春燕.元宇宙時(shí)代高校檔案智慧服務(wù)模式和應(yīng)用場景探析[J].浙江檔案,2023(10):43-46.
[12]馬仁杰,沙洲,羅吉鵬.論區(qū)塊鏈思維下我國檔案信息服務(wù)模式的優(yōu)化路徑[J].檔案學(xué)研究,2021(4):94-99.
[13]王瑩.基于“互聯(lián)網(wǎng)+”技術(shù)的一站式家譜綜合服務(wù)平臺(tái)構(gòu)建[J].圖書館建設(shè),2019(S1):79-83.
[14]陳茜月,王強(qiáng).論檔案數(shù)智庫的構(gòu)建機(jī)理和實(shí)現(xiàn)路徑——以紀(jì)檢監(jiān)察檔案信息化提質(zhì)賦能為例[J].檔案管理,2024(1):61-64.
[15]COLAVIZZA G, BLANKE T, JEURGENS C, et al. Archives and AI: An Overview of Current Debates and Future Perspectives[J].ACM Journal on Computing and Cultural Heritage,2022(1):4-15.
[16]ANGELIKI T. Openness and privacy in borndigital archives: reflecting the role of AI development[J]. AI & society: The journal of human-centered systems and machine intelligence,2022(3):991-999.
[17]常家源.加拿大檔案工作者協(xié)會(huì)提交生成式人工智能時(shí)代版權(quán)磋商意見書[N].中國檔案報(bào),2024-03-25(003).
[18]陸國強(qiáng).全面貫徹落實(shí)黨的二十大精神 奮力書寫檔案事業(yè)現(xiàn)代化和高質(zhì)量發(fā)展新篇章——在全國檔案局長館長會(huì)議上的報(bào)告[J].中國檔案,2023(2):14-20.
[19].上海市檔案館數(shù)字檔案公共查閱系統(tǒng)[EB/OL].[2024-07-23].https://kfda.archives. sh.cn:8088/szdagSystem/search/index.html.
[20]歷史檔案資源專題知識(shí)庫[EB/OL].[2024-07-23].https://117.160.221.168:8084/ ztda/cfg-resource/coral40/views/component/ usingserviceplat/index.jsp code=ZFDA.
[21] 王冠,袁燁.現(xiàn)階段生成式人工智能在檔案開發(fā)利用中的應(yīng)用瓶頸分析——以ChatGPT類人工智能為例[J].檔案與建設(shè),2023(11):48-51.
[22] 中華人民共和國檔案法實(shí)施條例[EB/ OL].[2024-08-28]. https://www.saac.gov.cn/daj/falv/202006/79ca4f151fde470c996bec0d50601505.shtml.
[23] 中華人民共和國檔案法實(shí)施條例[EB/OL].[2024-08-28]. https://www.saac.gov.cn/daj/xzfg/ 202401/2ebf9e8cc94a4f6cbff5a8210f25dc88.shtml.
[24] 浙江省委辦公廳省政府辦公廳印發(fā)《關(guān)于推進(jìn)新時(shí)代檔案事業(yè)現(xiàn)代化先行的意見》[N].中國檔案報(bào),2024-04-08(004).
[25] 全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)-標(biāo)準(zhǔn)征求意見[EB/OL].[2024-08-09].https://www.tc260. org.cn/front/bzzqyjList.html start=0&length=10.
[26]姚元杰,龔毅光,劉佳,等.基于深度學(xué)習(xí)的智能問答系統(tǒng)綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2023(4):1-15.
[27]蔡子凡,蔚海燕.人工智能生成內(nèi)容(AIGC)的演進(jìn)歷程及其圖書館智慧服務(wù)應(yīng)用場景[J].圖書館雜志,2023(4):34-43,135-136.
[28]劉麗,王兆偉,張明智,等.生成式人工智能對檔案工作的影響——從ChatGPT談起[J].浙江檔案,2023(9):47-50.
[29]牛力,黎安潤澤,劉慧琳.融合、延展、重構(gòu):物理與數(shù)字雙空間業(yè)務(wù)轉(zhuǎn)型視角下的檔案信息技術(shù)應(yīng)用思考[J].檔案學(xué)通訊,2023(5):19-27.
[30]生成式AI大模型賦能檔案管理智慧應(yīng)用[EB/OL].[2024-08-24].https://www.sythams. com/gongsixinwen/534.html.
[31]李安濤.讓軍工人像照片檔案實(shí)現(xiàn)智能化管理與應(yīng)用[N].中國檔案報(bào),2024-02-26(004).
[32]楊智勇,桑夢瑤.數(shù)字化轉(zhuǎn)型背景下檔案數(shù)據(jù)治理能力的演進(jìn)與展望[J].檔案與建設(shè),2023(5):31-34.
[33]徐祥伍,韓笑.AIGC+虛擬數(shù)字人:人工智能時(shí)代檔案館數(shù)字服務(wù)新展望[J].檔案,2023(10):9-14.
[34]The Yale Digital Humanities Lab. Let them speak[EB/OL].[2024-03-23].https: //lts.fortunoff. library.yale.edu/.
[35]詹超銘.基于人工智能的核電文檔知識(shí)管理探索與實(shí)踐[J].山西檔案,2023(5):130-135.
[37]SIAT十五周年大事記檔案展—SIAT綜合檔案室[EB/OL].[2024-04-22].https://obs.3dyunzhan. com/sceneFront/index.html G_TEMP_ID=e83edc12841 b4c0f904c211f89b827e0.
[38]國家互聯(lián)網(wǎng)信息辦公室關(guān)于發(fā)布生成式人工智能服務(wù)已備案信息的公告[EB/OL].[2024-05-12]. https://www.cac.gov.cn/2024-04/02/ c_1713729983803145.htm.
(責(zé)任編輯:邵澍赟)