摘 要:人工智能時(shí)代,人工智能生成內(nèi)容(AIGC)在顛覆內(nèi)容生產(chǎn)行業(yè)的同時(shí),也驅(qū)動(dòng)著其他領(lǐng)域的革新與發(fā)展。AIGC賦能檔案知識(shí)服務(wù),將助推檔案資源知識(shí)轉(zhuǎn)化效能的提升、檔案知識(shí)融合障礙的清除以及檔案知識(shí)服務(wù)交互體驗(yàn)的優(yōu)化。AIGC融入檔案知識(shí)服務(wù)涉及知識(shí)組織、知識(shí)生產(chǎn)與知識(shí)供應(yīng)三大環(huán)節(jié)的具體場景,可通過夯實(shí)資源基礎(chǔ)、促進(jìn)質(zhì)效提升、提升用戶體驗(yàn)等共同推動(dòng)檔案服務(wù)的轉(zhuǎn)型升級(jí)。
關(guān)鍵詞:AIGC;ChatGPT;檔案知識(shí)服務(wù);應(yīng)用場景
分類號(hào):G270.7
AIGC Enabling Archival Knowledge Service: Value Implications and Application Scenarios
Yan Han, Yu Yingxiang
( School of Cultural Heritage and Information Management of Shanghai University, Shanghai 200444 )
Abstract: In the era of artificial intelligence, Artificial Intelligence Generated Content (AIGC) is not only subverting the content production industry, but also driving innovation and development in other fields. AIGC enables archival knowledge service, which will promote the efficiency of archival resource knowledge transformation, remove the obstacles of archival knowledge fusion and optimize the interactive experience of archival knowledge service. The integration of AIGC into the three specific scenarios of knowledge organization, knowledge production and knowledge supply involved in archival knowledge services can jointly promote the transformation and upgrading of archival services from the aspects of consolidating the resource base, promoting the improvement of quality and efficiency, and improving user experience.
Keywords: AIGC; ChatGPT; Archival Knowledge Service; Application Scenarios
2022年底,美國OpenAI公司推出了人工智能生成內(nèi)容(AIGC)的典型代表ChatGPT,該應(yīng)用上線后僅用兩個(gè)月時(shí)間便打破了TikTok歷時(shí)九個(gè)月達(dá)到1億月活用戶的最快紀(jì)錄。ChatGPT的出圈成功引爆了AIGC,2023年初AIGC的概念迅速席卷了科技領(lǐng)域及各大網(wǎng)絡(luò)社交平臺(tái),引發(fā)了各行各業(yè)產(chǎn)學(xué)研界的廣泛關(guān)注。2023年7月10日,國家互聯(lián)網(wǎng)信息辦公室等七個(gè)部門聯(lián)合發(fā)布了我國首個(gè)針對(duì)生成式人工智能產(chǎn)業(yè)的規(guī)范性政策——《生成式人工智能服務(wù)管理暫行辦法》,并于2023年8月15日起正式實(shí)施。該政策的出臺(tái)在規(guī)范AIGC發(fā)展的同時(shí),也鼓勵(lì)和引導(dǎo)其在各行業(yè)、各領(lǐng)域的創(chuàng)新應(yīng)用。目前AIGC雖暫未在檔案領(lǐng)域掀起研究與應(yīng)用的熱潮,但與檔案相關(guān)的現(xiàn)有法律規(guī)劃中卻彰顯了明顯的技術(shù)指向。2021年,《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》明確指出:要積極探索知識(shí)管理、人工智能、數(shù)字人文等技術(shù)在檔案信息深層加工和利用中的應(yīng)用。[1]2020年修訂的《中華人民共和國檔案法》也提出加速推進(jìn)科研成果轉(zhuǎn)化,充分發(fā)揮科技力量在檔案事業(yè)發(fā)展中的支撐作用。[2]可見,作為高階人工智能的AIGC被應(yīng)用于檔案領(lǐng)域已是大勢所趨。當(dāng)前,檔案利用向知識(shí)服務(wù)發(fā)展的趨勢,已成為檔案界的共識(shí)。[3]伴隨著服務(wù)升級(jí),傳統(tǒng)“手動(dòng)式”“半自動(dòng)化”的檔案工作模式,已無法滿足檔案部門面臨的“更全面、更高效、更高質(zhì)”的現(xiàn)實(shí)工作需求。AIGC賦能檔案知識(shí)服務(wù)將優(yōu)化檔案工作流程,為用戶創(chuàng)造更為優(yōu)質(zhì)的利用體驗(yàn),“智能化”將成為知識(shí)服務(wù)背景下檔案工作發(fā)展的應(yīng)然走向。AIGC在檔案知識(shí)服務(wù)中的應(yīng)用,不僅順應(yīng)了數(shù)智時(shí)代發(fā)展的需要,還將為檔案工作與事業(yè)帶來新的發(fā)展契機(jī)。
1 AIGC賦能檔案知識(shí)服務(wù)的價(jià)值意蘊(yùn)
AIGC全稱為AI Generated Content(人工智能生成內(nèi)容),旨在通過機(jī)器翻譯、文檔自動(dòng)摘要、智能文本生成、自動(dòng)問答系統(tǒng)、文檔分類檢索以及圖像識(shí)別等技術(shù)自動(dòng)生成所需內(nèi)容[4],能夠從認(rèn)知計(jì)算、跨模態(tài)內(nèi)容理解和策略生成等方面滿足用戶多元化的信息與知識(shí)需求。[5]“AIGC+檔案知識(shí)服務(wù)”的應(yīng)用將重新定義檔案利用的途徑與方式,勢必會(huì)帶來檔案服務(wù)理念、服務(wù)形式、服務(wù)功能、服務(wù)層次等相應(yīng)變革,繼而推動(dòng)檔案工作模式的轉(zhuǎn)變,充分滿足用戶日益增長的知識(shí)利用需求,實(shí)現(xiàn)檔案的知識(shí)價(jià)值,打造全新業(yè)態(tài)。結(jié)合AIGC的技術(shù)特征與檔案知識(shí)服務(wù)的現(xiàn)實(shí)需要,可以從三個(gè)方面具體闡釋AIGC賦能檔案知識(shí)服務(wù)的價(jià)值。
1.1 從人工轉(zhuǎn)向智能:提升檔案資源的知識(shí)轉(zhuǎn)化效能
檔案知識(shí)服務(wù)作為檔案信息資源深層次開發(fā)利用的技術(shù)和手段之一,其實(shí)現(xiàn)以檔案信息資源的知識(shí)化組織為前提。因此,檔案工作過程中的數(shù)字化與數(shù)據(jù)化處理、知識(shí)抽取、知識(shí)聚合、知識(shí)關(guān)聯(lián)等環(huán)節(jié)尤為重要。目前,絕大多數(shù)檔案館的業(yè)務(wù)流程與管理工作都是通過人工來完成的,部分檔案館順應(yīng)信息化、數(shù)字化轉(zhuǎn)型趨勢利用云計(jì)算、關(guān)聯(lián)數(shù)據(jù)、OCR等技術(shù)輔助完成數(shù)字化工作,但總體而言,檔案工作效率仍偏低且人工成本較高,對(duì)于檔案信息資源的開發(fā)利用仍停留在淺層次的實(shí)體檔案信息服務(wù)層面,未對(duì)檔案信息資源進(jìn)行相應(yīng)的知識(shí)轉(zhuǎn)化。將AIGC引入檔案知識(shí)服務(wù),利用支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法對(duì)呈爆炸式增長的檔案信息資源進(jìn)行大規(guī)模自動(dòng)化批處理(規(guī)范化、語義化處理等)[6-7],形成計(jì)算機(jī)能夠識(shí)別和分析推理的檔案知識(shí)資源,實(shí)現(xiàn)檔案分類、著錄、標(biāo)引、知識(shí)關(guān)聯(lián)、知識(shí)聚合、編研等工作環(huán)節(jié)的智能化轉(zhuǎn)向,構(gòu)建起完整的檔案知識(shí)庫,同時(shí)透過用戶行為數(shù)據(jù)感知用戶的行為狀態(tài),進(jìn)而為用戶提供個(gè)性化的知識(shí)推薦。
1.2 從單模態(tài)轉(zhuǎn)向多模態(tài):清除檔案知識(shí)融合障礙
為了促進(jìn)檔案知識(shí)的高效共享,要善于對(duì)檔案中蘊(yùn)含的各種顯性或隱性知識(shí)進(jìn)行加工處理,形成完整系統(tǒng)的知識(shí)體系,同時(shí)對(duì)于知識(shí)的表達(dá)也不能局限于文本形式,要上升到多媒體形式的可視化層面。[8]大數(shù)據(jù)背景下,傳統(tǒng)檔案館依據(jù)館藏紙質(zhì)檔案及電子文件所提供的單一模態(tài)(以檔案文本為主)的、分散式的檔案資源內(nèi)容,已無法充分滿足用戶日益增長的多元化利用需求,特別是知識(shí)需求。將AIGC技術(shù)引入檔案知識(shí)服務(wù),可進(jìn)一步健全檔案資源體系,在豐富資源形態(tài)的同時(shí),促進(jìn)不同模態(tài)及異構(gòu)數(shù)據(jù)中蘊(yùn)含的檔案知識(shí)的融合,拓展檔案知識(shí)服務(wù)所提供的內(nèi)容形式?!翱缒B(tài)融合”作為AIGC的顯著技術(shù)特征,能夠打通不同載體檔案及異構(gòu)檔案數(shù)據(jù)服務(wù)利用過程中存在的壁壘,利用AIGC技術(shù)對(duì)多模態(tài)(文本、音頻、視頻、圖片等)檔案資源進(jìn)行聚類、融合與重組,可以豐富檔案部門為用戶提供利用的資源類型與數(shù)據(jù)形態(tài),生成滿足用戶個(gè)性化需求的多樣化信息與知識(shí),并通過知識(shí)關(guān)聯(lián)以多元組合的形式對(duì)檔案知識(shí)內(nèi)容進(jìn)行立體化呈現(xiàn),從而提升知識(shí)服務(wù)水平。
1.3 從單向轉(zhuǎn)向雙向:優(yōu)化檔案知識(shí)服務(wù)的交互體驗(yàn)
傳統(tǒng)的檔案信息服務(wù)仍停留在檔案館的單向輸出層面,缺乏與用戶的關(guān)聯(lián)互動(dòng),檔案知識(shí)服務(wù)應(yīng)充分考慮用戶參與,為用戶提供其所需的 知識(shí)。[9]隨著CLIP(Contrastive Language-Image Pretraining)、Stable Diffusion和ChatGPT等預(yù)訓(xùn)練大模型的出現(xiàn)及芯片算力的進(jìn)一步提升,AIGC具備了更強(qiáng)的數(shù)據(jù)分析與運(yùn)算處理能力,基于云平臺(tái)、超算中心等數(shù)據(jù)基礎(chǔ)設(shè)施的有力支撐,可以實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的實(shí)時(shí)采集與分析,從而對(duì)檔案數(shù)據(jù)資源、用戶行為數(shù)據(jù)進(jìn)行及時(shí)更新,將用戶數(shù)據(jù)反饋出來的用戶個(gè)性化需求與檔案知識(shí)庫中的信息相匹配,并通過智慧問答與自主推薦相結(jié)合的模式,實(shí)現(xiàn)檔案知識(shí)服務(wù)“以用戶需求為中心”的核心要義,進(jìn)一步優(yōu)化檔案館智慧服務(wù)模式。AIGC的應(yīng)用,將打造虛實(shí)交融的服務(wù)場域,打破檔案實(shí)體資源與虛擬資源之間的壁壘,實(shí)現(xiàn)數(shù)字世界與虛擬世界的雙向交互;推動(dòng)檔案館知識(shí)服務(wù)從簡單的數(shù)據(jù)資源分析與可視化處理向數(shù)字內(nèi)容孿生、數(shù)字內(nèi)容編輯和數(shù)字內(nèi)容創(chuàng)作轉(zhuǎn)變,以更高的效率為用戶提供沉浸式交互體驗(yàn)與智慧服務(wù)。
現(xiàn)今,檔案管理愈發(fā)關(guān)注其信息資源價(jià)值,重視并強(qiáng)調(diào)應(yīng)用檔案顯性知識(shí)提供知識(shí)服務(wù)[10],與此同時(shí),檔案信息資源中還蘊(yùn)含著大量的隱性知識(shí),能夠創(chuàng)造巨大的經(jīng)濟(jì)效益與社會(huì)效益。AIGC作為一種全新的內(nèi)容生產(chǎn)模式,其本質(zhì)就是通過將現(xiàn)有的知識(shí)進(jìn)行組合,從而產(chǎn)生新的知識(shí)。[11]故把AIGC融入檔案知識(shí)服務(wù)實(shí)現(xiàn)所涉及的具體流程——“知識(shí)組織”“知識(shí)生產(chǎn)”“知識(shí)供應(yīng)”之中(如圖1所示),將驅(qū)動(dòng)檔案資源中蘊(yùn)含的隱性知識(shí)顯性化,充分彰顯檔案信息資源的潛在價(jià)值,助推檔案部門的工作效率與用戶服務(wù)水平的提升,進(jìn)而滿足用戶多元化的利用需求。
2 AIGC+檔案知識(shí)組織,夯實(shí)知識(shí)服務(wù)的資源基礎(chǔ)
國外學(xué)者將“知識(shí)組織”定義為對(duì)文獻(xiàn)的分類、標(biāo)引、編目、文摘、索引等一系列整序活動(dòng)。[12] 將海量的檔案信息資源重新組織為檔案知識(shí)資源,構(gòu)建起系統(tǒng)性的檔案知識(shí)庫,使雜亂的檔案信息有序化、有序的檔案信息知識(shí)化[13],是凸顯檔案信息資源知識(shí)價(jià)值,提升檔案知識(shí)服務(wù)水平的有效路徑。通過將AIGC具體應(yīng)用到檔案知識(shí)組織過程中的“資源分類標(biāo)引”“知識(shí)元抽取”“知識(shí)關(guān)聯(lián)的可視化呈現(xiàn)”等具體場景之中,將促進(jìn)系統(tǒng)化檔案知識(shí)庫的構(gòu)建,為檔案知識(shí)服務(wù)提供強(qiáng)大的資源支持。
2.1 基于思維鏈推理的自動(dòng)化分類標(biāo)引
所謂“分類標(biāo)引”,即對(duì)檔案內(nèi)容進(jìn)行主題分析,賦予檢索標(biāo)識(shí)的過程[14],是檔案部門提供知識(shí)服務(wù)的前期準(zhǔn)備工作。當(dāng)前檔案館館藏仍以文本形式的檔案居多,且檔案資源來源廣泛、主題種類繁多,因此需要對(duì)其進(jìn)行系統(tǒng)分類標(biāo)引,才能便于檔案的有效管理與充分利用,以提升檔案知識(shí)服務(wù)的效能。傳統(tǒng)的分類一是直接根據(jù)來源、形成時(shí)間、載體等條件對(duì)檔案資源進(jìn)行分類;二是通過人工閱讀和理解具體的檔案內(nèi)容,提取出關(guān)鍵信息,再按照擬定的劃分標(biāo)準(zhǔn)手動(dòng)進(jìn)行分類和規(guī)范化標(biāo)注。前者往往難以全面描述各檔案資源之間的多元復(fù)雜關(guān)系,后者不僅人工成本高昂且效率低下。ChatGPT作為AIGC生成的聊天機(jī)器人,可以說是AIGC的集大成者,其本質(zhì)也是人工智能生成技術(shù)。[15]一方面,ChatGPT具備思維鏈推理能力,能夠通過對(duì)題名及全文內(nèi)容進(jìn)行語義分析,推理出檔案的中心內(nèi)容及涉及的主要問題、判明其屬性特征、解釋相應(yīng)的推理過程,并構(gòu)建起推理模型,為檔案的正確歸類提供一定的參考,同時(shí)還可以在此基礎(chǔ)之上根據(jù)檔案內(nèi)容及用戶使用情況自動(dòng)生成聚合性、實(shí)用性更強(qiáng)的新類別,使雜亂、分散的檔案知識(shí)進(jìn)一步有序化。另一方面,可以充分利用ChatGPT具備的自動(dòng)分類功能,將ChatGPT模型訓(xùn)練成一個(gè)文本分類器[16],通過一定的數(shù)據(jù)訓(xùn)練,使得模型能夠根據(jù)輸入檔案文本的主體內(nèi)容,依照檔案來源、內(nèi)容主題等不同劃分標(biāo)準(zhǔn),對(duì)不同來源的檔案信息資源進(jìn)行智能化的系統(tǒng)分類,形成多元檔案集合;根據(jù)設(shè)置的著錄標(biāo)引標(biāo)準(zhǔn)格式,快速從冗長的檔案文本信息中提取出相關(guān)信息實(shí)現(xiàn)自動(dòng)著錄標(biāo)引,進(jìn)一步解放檔案館工作人員,減少人為失誤,進(jìn)而提高分類標(biāo)引的效率和準(zhǔn)確性,為構(gòu)建檔案知識(shí)庫做好前期的資源準(zhǔn)備。
2.2 基于“語境-語用-語義”的細(xì)粒度知識(shí)元抽取
從檔案數(shù)字資源中抽取知識(shí)元是提供知識(shí)服務(wù)的基礎(chǔ),為了深入到檔案知識(shí)內(nèi)容層次的內(nèi)容管理,必須對(duì)檔案中蘊(yùn)含的知識(shí)內(nèi)容進(jìn)行顆?;磉_(dá)與組織,實(shí)現(xiàn)檔案資源的知識(shí)元化。[17]“知識(shí)元”作為知識(shí)結(jié)構(gòu)和內(nèi)容的基本單元,將有助于知識(shí)用戶的知識(shí)發(fā)現(xiàn)和知識(shí)點(diǎn)更新。目前知識(shí)抽取技術(shù)正轉(zhuǎn)向以文獻(xiàn)內(nèi)容結(jié)構(gòu)分析為重點(diǎn),如段落、句子、語法分析等。[18]AIGC中具備強(qiáng)大語言處理和自監(jiān)督學(xué)習(xí)能力的ChatGPT、BERT(Bidirectional Encoder Representation from Transformer)、Megatron-Turing NLG等代表性自然語言處理模型(NLP),通過對(duì)海量無標(biāo)注語料的預(yù)訓(xùn)練與學(xué)習(xí),可以掌握語言表達(dá)模式及文字前后邏輯。利用相關(guān)模型對(duì)大量檔案文本中的詞句進(jìn)行基于上下文的語用分析、理解與推斷,從中提取出標(biāo)題、摘要等能夠表達(dá)整篇文檔關(guān)鍵信息的相關(guān)內(nèi)容(如段主題、句主題等),并在此基礎(chǔ)上抽取出更加細(xì)顆粒度的主題詞同時(shí)自動(dòng)做好相應(yīng)的語義標(biāo)注作為知識(shí)元,將檔案中的隱性知識(shí)內(nèi)容特征顯性化。根據(jù)語義、語境抽取知識(shí)元而非傳統(tǒng)的基于關(guān)鍵詞或句子的重要程度進(jìn)行抽取,可以有效避免單篇文檔中內(nèi)容信息的主題遺漏。隨后利用CBOW(Continuous Bag-of-Words)、Skip-gram等模型將知識(shí)元轉(zhuǎn)化為稠密向量,進(jìn)行比較分析,構(gòu)建起以主題為單位的知識(shí)元集合,進(jìn)而為用戶以知識(shí)元為單位的知識(shí)檢索創(chuàng)造條件。同時(shí),AIGC還可以對(duì)圖像、音頻、視頻進(jìn)行智能分析,從中發(fā)現(xiàn)知識(shí)信息,便于用戶對(duì)多模態(tài)檔案資源的瀏覽與檢索。
2.3 多源異構(gòu)數(shù)據(jù)內(nèi)在關(guān)聯(lián)的可視化呈現(xiàn)
知識(shí)圖譜作為AIGC的重要分支技術(shù),即通過挖掘、分析將散落的知識(shí)信息重新組合,對(duì)相關(guān)內(nèi)容之間的復(fù)雜關(guān)系進(jìn)行可視化呈現(xiàn)。檔案知識(shí)圖譜建構(gòu)是將檔案內(nèi)容向顯性結(jié)構(gòu)化檔案知識(shí)轉(zhuǎn)化的過程[19],可以實(shí)現(xiàn)檔案資源中多源異構(gòu)知識(shí)數(shù)據(jù)的有效集成。AIGC中的知識(shí)圖譜技術(shù),能夠從大量結(jié)構(gòu)化和非結(jié)構(gòu)化的檔案數(shù)據(jù)中提取和整合關(guān)聯(lián)的知識(shí),并將其組織成易于理解和操作的結(jié)構(gòu)化形式,最終通過各類圖形,將各類檔案資源中的知識(shí)內(nèi)容的顯性與隱性關(guān)系加以呈現(xiàn),自動(dòng)構(gòu)建起系統(tǒng)的知識(shí)網(wǎng)絡(luò)。例如,基于GPT-4的圖像生成能力,GPT系列模型可以幫助檔案工作人員更好地可視化處理數(shù)據(jù),如生成圖表、詞云等,使得檔案服務(wù)平臺(tái)具備對(duì)用戶提出的相關(guān)問題、概念進(jìn)行精準(zhǔn)識(shí)別、全面解釋的能力,進(jìn)而提升檔案的知識(shí)服務(wù)水平。
3 AIGC+檔案知識(shí)生產(chǎn),促進(jìn)知識(shí)服務(wù)的質(zhì)效提升
檔案知識(shí)服務(wù)是面向知識(shí)內(nèi)容的服務(wù),故在其日常管理工作中不僅要聚焦于檔案的存儲(chǔ)與保護(hù),更應(yīng)重視檔案知識(shí)內(nèi)容的生產(chǎn),充分釋放檔案所蘊(yùn)含的多元化價(jià)值。AIGC賦能檔案知識(shí)生產(chǎn),可大幅提高知識(shí)生產(chǎn)效率,并使產(chǎn)出內(nèi)容具備豐富性、完整性、創(chuàng)新性等優(yōu)勢特征。
3.1 融合多模態(tài)資源的知識(shí)內(nèi)容生成
數(shù)字時(shí)代,檔案資源的模態(tài)形式逐步由文本、圖像、音頻、視頻等單一模態(tài)向相互融合的多模態(tài)形式轉(zhuǎn)變。[20]對(duì)于某一人物或事件的描述可能由紙質(zhì)檔案與圖像、視頻記錄共同呈現(xiàn),不同模態(tài)檔案資源間的組合性不斷增強(qiáng),但在計(jì)算機(jī)綜W9NVzQIYZgQewZDxfzzMbRHpy8YbAfv4jC+3yp1W9oA=合處理多模態(tài)檔案資源的過程中容易產(chǎn)生語義糾纏問題。而AIGC能夠通過抽取、克隆、識(shí)別、對(duì)齊、理解和組合等方式對(duì)信息的語義糾纏問題進(jìn)行拆分解析。[21]AIGC利用多模態(tài)大模型尋找不同模態(tài)數(shù)據(jù)間的對(duì)應(yīng)關(guān)系,然后通過原始數(shù)據(jù)映射、統(tǒng)一對(duì)齊語義空間、完成不同模態(tài)信息的理解。[22]基于此,檔案部門可以對(duì)跨模態(tài)的檔案資源進(jìn)行多樣化組合,進(jìn)而提高檔案知識(shí)生產(chǎn)創(chuàng)作的內(nèi)容豐富度、創(chuàng)新檔案知識(shí)生產(chǎn)最終呈現(xiàn)的內(nèi)容形態(tài)。AIGC的可增強(qiáng)多模態(tài)內(nèi)容深度學(xué)習(xí)后的可理解性、可解釋性和可處理性,將關(guān)于同一事件、主題的不同模態(tài)檔案資源關(guān)聯(lián)匯集,打破不同模態(tài)檔案資源綜合運(yùn)用、聯(lián)合開發(fā)的技術(shù)壁壘,可以進(jìn)一步拓展檔案知識(shí)生產(chǎn)的創(chuàng)作空間。例如,在虛擬展覽中,AIGC通過利用圖像合成、語音合成和肢體語言合成等技術(shù),并與AR/VR技術(shù)相結(jié)合,對(duì)檔案文本、圖像、音頻、視頻資源進(jìn)行綜合處理,實(shí)現(xiàn)“歷史再現(xiàn)”“人物面貌神態(tài)、肢體動(dòng)作、聲音還原”等展覽效果,為用戶創(chuàng)造沉浸式體驗(yàn),通過多模態(tài)內(nèi)容的融合完成跨時(shí)空、跨場景的檔案知識(shí)生產(chǎn)。
3.2 降本增效的智能化編研
檔案編研是實(shí)現(xiàn)社會(huì)知識(shí)生產(chǎn)的關(guān)鍵路徑,也是檔案部門提供知識(shí)服務(wù)的基礎(chǔ)性工作。現(xiàn)有的檔案編研工作基本由人工完成,主要可分為兩種編研模式:一是把分散凌亂的原始材料進(jìn)行排列、組織,成為系列匯編;二是根據(jù)既定題目,精選檔案內(nèi)容并加以分析。[23]前者在知識(shí)組織階段就已經(jīng)完成;后者能夠?qū)n案信息知識(shí)化、隱性知識(shí)顯性化,實(shí)現(xiàn)真正意義上的知識(shí)生產(chǎn)。在檔案編研過程中引入AIGC,充分發(fā)揮其內(nèi)容創(chuàng)作能力,將實(shí)現(xiàn)檔案自動(dòng)化、智能化編研,降低編研工作消耗的人力資源,并大幅縮短知識(shí)成果的生產(chǎn)周期。具體來看,一是可以利用AIGC自然語言處理技術(shù),在編研素材收集時(shí)通過檔案智能檢索,在檔案編研素材語料庫中快速篩選出符合編研主題且較為完整的各類模態(tài)檔案資源,為檔案編研提供豐富、高質(zhì)量的素材,提高檔案編研的質(zhì)量和效率。二是AIGC具有強(qiáng)大的認(rèn)知對(duì)抗中的內(nèi)容生成能力,在檔案編研的文本內(nèi)容分析創(chuàng)作過程中,通過對(duì)大量的自然語言文本數(shù)據(jù)進(jìn)行訓(xùn)練,能夠?qū)斎氲臋n案資源內(nèi)容進(jìn)行語義識(shí)別,理解任務(wù)主題,生成符合語法和語義規(guī)則、主題語言情境,具有一定完整性、連貫性與邏輯性的長文本,即文本類編研成果。三是利用AIGC+視頻生成技術(shù)可直接生成檔案視頻內(nèi)容,搭建起檔案資源描述的故事場景,并在虛擬空間建立代表自我的數(shù)字人,獨(dú)立完成活動(dòng)任務(wù),以探尋檔案蘊(yùn)藏的奧秘。
3.3 缺損內(nèi)容的補(bǔ)充還原
檔案知識(shí)生產(chǎn)是以海量的檔案信息資源為基礎(chǔ)的,是在保障檔案真實(shí)性的基礎(chǔ)之上對(duì)于已有檔案信息資源的再創(chuàng)造。對(duì)于檔案資源中模糊、缺損資源的補(bǔ)充還原,能夠?yàn)闄n案部門開展新的知識(shí)生產(chǎn)提供強(qiáng)大的資源支撐。傳統(tǒng)的OCR技術(shù)的識(shí)別能力已無法適應(yīng)數(shù)據(jù)時(shí)代多元檔案資源的修復(fù)需要,而AIGC的技術(shù)應(yīng)用演化出了強(qiáng)大的智能數(shù)字內(nèi)容孿生能力,其包含的智能增強(qiáng)技術(shù)在檔案資源內(nèi)容修復(fù)方面具有巨大的潛力。一方面,部分館藏檔案資源在內(nèi)容完整性方面可能帶有一定的先天缺陷。另一方面,館藏紙質(zhì)檔案因其自身載體的脆弱性、保存時(shí)間過長或保管不當(dāng),可能會(huì)出現(xiàn)字跡模糊或消失、照片褪色、紙張破損等現(xiàn)象。同時(shí),部分檔案數(shù)據(jù)資源在收集、傳輸和存儲(chǔ)的過程中,可能存在缺失或損壞的問題。AIGC的智能增強(qiáng)技術(shù)可以有效消除檔案先天或后期存儲(chǔ)過程中所產(chǎn)生的信息內(nèi)容缺失問題,能夠根據(jù)給定的低質(zhì)量原始檔案數(shù)據(jù)信息生成經(jīng)過增強(qiáng)后的高質(zhì)量數(shù)字內(nèi)容,在數(shù)字世界中孿生再現(xiàn)或重構(gòu)完整的數(shù)據(jù)信息內(nèi)容,還原那些珍貴的記憶。而且,對(duì)于有缺陷的音視頻檔案,相關(guān)的智能增強(qiáng)技術(shù)可以解決片段缺失、脈沖干擾和音頻失真等問題,對(duì)檔案數(shù)據(jù)資源進(jìn)行相應(yīng)的修復(fù)與增強(qiáng),復(fù)原生成高質(zhì)量的數(shù)據(jù)內(nèi)容。
4 AIGC+檔案知識(shí)供應(yīng),提升知識(shí)服務(wù)的用戶體驗(yàn)
檔案知識(shí)服務(wù)與信息服務(wù)最大的區(qū)別在于,知識(shí)服務(wù)是一種用戶目標(biāo)驅(qū)動(dòng)的服務(wù),其驅(qū)動(dòng)力來源于用戶。故檔案知識(shí)服務(wù)的實(shí)現(xiàn)與升級(jí),亟須從需求端入手完成相應(yīng)的檔案知識(shí)供應(yīng)。所謂知識(shí)供應(yīng)即在知識(shí)組織與知識(shí)生產(chǎn)的基礎(chǔ)之上,根據(jù)知識(shí)服務(wù)對(duì)象的實(shí)際需求,經(jīng)過知識(shí)獲取、知識(shí)推送、知識(shí)反饋將知識(shí)傳遞給知識(shí)需求者的階段[24],其主要任務(wù)是在合適的時(shí)候?qū)⑷妗⒄_的知識(shí)提供給需要知識(shí)的人,最終實(shí)現(xiàn)主動(dòng)智能知識(shí)服務(wù)。檔案部門的知識(shí)供應(yīng)涉及用戶知識(shí)需求分析、知識(shí)推送與拉取、知識(shí)服務(wù)反饋等具體流程,知識(shí)供應(yīng)過程中AIGC的融入,將完善檔案知識(shí)供應(yīng)機(jī)制,進(jìn)而助推檔案知識(shí)服務(wù)工作變被動(dòng)為主動(dòng),創(chuàng)新檔案利用服務(wù)模式,提升檔案資源的利用率,彰顯檔案部門服務(wù)的智慧化特征。
4.1 基于即時(shí)糾錯(cuò)的問答式知識(shí)獲取
用戶的檔案知識(shí)利用需求在檢索過程中需要轉(zhuǎn)化為規(guī)范化的檢索語言,在語言表達(dá)轉(zhuǎn)換過程中容易出現(xiàn)轉(zhuǎn)換誤差,因此在將用戶需求與檔案資源內(nèi)容匹配時(shí),會(huì)出現(xiàn)供需不適配的現(xiàn)象,從而降低檔案知識(shí)服務(wù)水平并破壞用戶體驗(yàn)。AIGC生成的聊天機(jī)器人,以ChatGPT為典型代表,并非通過有監(jiān)督的“問題—答案式”的訓(xùn)練直接給出結(jié)果,而是通過“基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)”來學(xué)習(xí)什么是好的回答,以此模仿人類的思維方式,能夠主動(dòng)承認(rèn)錯(cuò)誤、不斷自我更新、不斷理解人類語言、不斷認(rèn)知用戶需求場景,并經(jīng)過多輪長對(duì)話輸出優(yōu)質(zhì)結(jié)果。檔案部門可以借助AIGC生成的聊天機(jī)器人,為用戶提供交互式知識(shí)服務(wù),當(dāng)用戶對(duì)檢索結(jié)果不滿意時(shí),可以通過與用戶進(jìn)行多輪對(duì)話,根據(jù)用戶的補(bǔ)充描述或提出的質(zhì)疑,準(zhǔn)確把握用戶的知識(shí)利用需求,不斷更新完善自身提供的答案,最終篩選出用戶真正需要的、滿意的檔案資源。
4.2 基于深度學(xué)習(xí)算法與動(dòng)態(tài)模型的個(gè)性化知識(shí)推送
檔案知識(shí)服務(wù)是一種“以用戶需求為中心” “面向問題”的主動(dòng)式服務(wù)。AIGC技術(shù)可以通過深度學(xué)習(xí)算法,幫助檔案館實(shí)現(xiàn)用戶行為偏好數(shù)據(jù)的長期收集與分析,并對(duì)其進(jìn)行管理追蹤,建立起更為完整的多維用戶畫像體系,再將用戶畫像與基于檔案知識(shí)數(shù)據(jù)內(nèi)容的資源畫像相匹配,以此來錨定用戶獨(dú)特的利用需求,主動(dòng)為用戶提供個(gè)性化精準(zhǔn)服務(wù),克服基于用戶自主檢索的推薦范式存在的缺陷,并免除用戶在海量檔案信息內(nèi)容中的搜索之苦。例如,當(dāng)用戶登錄檔案網(wǎng)站時(shí),網(wǎng)站后臺(tái)會(huì)根據(jù)關(guān)鍵詞匹配、用戶查詢記錄與使用軌跡制定相應(yīng)算法,進(jìn)而推斷用戶的個(gè)人偏好及潛在需求,并基于此自動(dòng)調(diào)用相關(guān)檔案信息資源,形成對(duì)應(yīng)的知識(shí)內(nèi)容庫,以增強(qiáng)用戶深度個(gè)性化體驗(yàn)。同時(shí)AIGC技術(shù)能夠自動(dòng)學(xué)習(xí)和調(diào)整推薦模型,不斷適應(yīng)用戶行為的變化。相比傳統(tǒng)的推薦算法,AIGC技術(shù)融入后可以更加精準(zhǔn)地捕捉到用戶的需求演變,幫助檔案知識(shí)供給端及時(shí)調(diào)整推薦策略。經(jīng)過對(duì)大量數(shù)據(jù)的反復(fù)訓(xùn)練,形成各類推薦模式,再由多種推薦算法復(fù)合形成綜合性的智能推薦模型,進(jìn)而實(shí)現(xiàn)檔案知識(shí)內(nèi)容的“精準(zhǔn)推送”。
4.3 基于智能轉(zhuǎn)譯的跨模態(tài)知識(shí)檢索
檔案館信息檢索的效果是評(píng)價(jià)其用戶服務(wù)水平的重要標(biāo)準(zhǔn)之一。當(dāng)前,檔案館及檔案網(wǎng)站使用的檔案檢索語言與檢索工具的專業(yè)性較強(qiáng),雖然這在一定程度上保證了檢索的規(guī)范性,但同時(shí)也提高了信息檢索利用的門檻,不利于多層次社會(huì)群體的使用[25],同時(shí)檢索結(jié)果的形式也較為單一,用戶體驗(yàn)較差。AIGC賦能的檔案檢索,可以綜合利用各種多模態(tài)預(yù)訓(xùn)練模型,支持用戶使用自然語言(具有專指度高、詞匯更新及時(shí)和面向用戶能力好等優(yōu)勢[26])進(jìn)行跨模態(tài)檢索。例如,由OpenAI團(tuán)隊(duì)推出的跨模態(tài)深度學(xué)習(xí)模型CLIP,能夠同時(shí)進(jìn)行自然語言理解和計(jì)算機(jī)視覺分析,進(jìn)而找到文本、圖像與音視頻等不同模態(tài)信息資源溝通對(duì)話的交界點(diǎn),并實(shí)現(xiàn)跨模態(tài)資源間的關(guān)聯(lián)匹配。即用戶在檔案檢索系統(tǒng)中利用文字進(jìn)行搜索,系統(tǒng)除了會(huì)通過提取檔案資源的語義內(nèi)容來實(shí)現(xiàn)匹配和推理,篩選符合要求的文本資料,同時(shí)還可以利用智能轉(zhuǎn)譯技術(shù)將檔案音頻、視頻中的內(nèi)容信息轉(zhuǎn)化為文本模態(tài)的數(shù)據(jù)信息,與用戶需求相匹配,最終將多模態(tài)內(nèi)容組合,實(shí)現(xiàn)跨模態(tài)檢索,為用戶提供多元完整的檔案知識(shí)信息。同時(shí),還可以利用AIGC中基于多模態(tài)模型的智能轉(zhuǎn)譯技術(shù),為具有視覺障礙的用戶提供語音檢索服務(wù)。
5 結(jié) 語
隨著人工智能技術(shù)的深入發(fā)展,未來AIGC在檔案領(lǐng)域的價(jià)值會(huì)愈發(fā)凸顯,并逐步實(shí)現(xiàn)檔案服務(wù)模式的轉(zhuǎn)型,為用戶提供更全面、滿意度更高的智慧服務(wù)。然而,盡管AIGC在檔案領(lǐng)域具有諸多的應(yīng)用場景,且依據(jù)其技術(shù)特征能夠進(jìn)一步提升檔案知識(shí)服務(wù)的效能、優(yōu)化檔案用戶體驗(yàn)、促進(jìn)檔案工作的轉(zhuǎn)型升級(jí),但目前檔案部門的算力、算法及軟硬件基礎(chǔ)設(shè)施與企業(yè)差距較大,仍有很大的提升空間,故AIGC賦能檔案知識(shí)服務(wù)的具體進(jìn)路亟待進(jìn)一步的研究。而如何在實(shí)際的檔案工作中“用好”“用對(duì)”AIGC,如何采取相應(yīng)的措施有效防范應(yīng)用過程中存在的風(fēng)險(xiǎn)挑戰(zhàn),如何在堅(jiān)持技術(shù)理性的基礎(chǔ)上逐步推進(jìn)其應(yīng)用,是未來檔案學(xué)界與檔案實(shí)踐工作者需要持續(xù)關(guān)注的問題。
*本文系上海市哲學(xué)社會(huì)科學(xué)規(guī)劃一般項(xiàng)目“知識(shí)服務(wù)背景下檔案數(shù)據(jù)化轉(zhuǎn)型機(jī)制研究”(項(xiàng)目編號(hào):2023BTQ001)階段性研究成果。
作者貢獻(xiàn)說明
顏涵:提出選題與研究框架、撰寫論文,本文通訊作者;于英香:參與選題討論與框架設(shè)計(jì)、修改論文并定稿。
注釋與參考文獻(xiàn)
[1]中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].[2024-06-01].https://www.saac. gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb5 5c890762868683.shtml.
[2]中華人民共和國檔案法[EB/OL].[2024-06-01].https://www.saac.gov.cn/daj/falv/202006/79ca4 f151fde470c996bec0d50601505.shtml.
[3]夏天,錢毅.面向知識(shí)服務(wù)的檔案數(shù)據(jù)語義化重組[J].檔案學(xué)研究,2021(2):36-44.
[4]姚元杰,龔毅光,劉佳,等.基于深度學(xué)習(xí)的智能問答系統(tǒng)綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2023(4):1-15.
[5][7]趙楊,張雪,范圣悅.AIGC驅(qū)動(dòng)的智慧圖書館轉(zhuǎn)型:框架、路徑與挑戰(zhàn)[J].情報(bào)理論與實(shí)踐,2023(7):9-16.
[6]呂元智.數(shù)字檔案資源跨媒體語義關(guān)聯(lián)聚合實(shí)現(xiàn)策略研究[J].檔案學(xué)研究,2015(5):60-65.
[8]劉永.檔案信息服務(wù)工程之知識(shí)服務(wù)[J].檔案管理,2012(2):4-9.
[9]胡鳳華,袁繼軍.略論檔案知識(shí)服務(wù)學(xué)研究[J].蘭臺(tái)世界,2014(17):6-7.
[10]周建軍.顯性知識(shí)服務(wù):檔案管理的有為之路[J].檔案學(xué)通訊,2015(1):51-54.
[11]陳永偉.超越ChatGPT:生成式AI的機(jī)遇、風(fēng)險(xiǎn)與挑戰(zhàn)[J].山東大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2023(3):127-143.
[12]張凌,喬曉東.基于知識(shí)地圖的企業(yè)知識(shí)組織設(shè)計(jì)研究[J].圖書情報(bào)工作,2014(18):110-116.
[13]楊智勇,金波,周楓.“智慧型”檔案信息服務(wù)模式研究[J].檔案管理,2018(6):21-25.
[14]詳見GB/T 15418-2009,《檔案分類標(biāo)引規(guī)則》。
[15]儲(chǔ)節(jié)旺,杜秀秀,李佳軒.人工智能生成內(nèi)容對(duì)智慧圖書館服務(wù)的沖擊及應(yīng)用展望[J].情報(bào)理論與實(shí)踐,2023(5):6-13.
[16]陳亮,秦玉婷,費(fèi)鴻虹,等.GPT賦能檔案館智慧服務(wù):技術(shù)特征、應(yīng)用場景與實(shí)現(xiàn)路徑[J].檔案與建設(shè),2023(12):35-38.
[17]牛力,袁亞月,韓小汀.對(duì)檔案信息知識(shí)化利用的幾點(diǎn)思考[J].檔案學(xué)研究,2017(3):26-33.
[18]鄭彥寧,化柏林.句子級(jí)知識(shí)抽取在情報(bào)學(xué)中的應(yīng)用分析[J].情報(bào)理論與實(shí)踐,2011(12):1-4.
[19]蔡之玲,陸陽.基于DKN算法的檔案知識(shí)推薦系統(tǒng)模型構(gòu)建[J].檔案學(xué)通訊,2021(2):63-71.
[20]牛力,展超凡,高晨翔,等.人物事件導(dǎo)向的多模態(tài)檔案資源知識(shí)聚合模式研究[J].檔案學(xué)通訊,2021(4):36-44.
[21]詹希旎,李白楊,孫建軍.數(shù)智融合環(huán)境下AIGC的場景化應(yīng)用與發(fā)展機(jī)遇[J].圖書情報(bào)知識(shí),2023(1):75-85,55.
[22]王雨竹,謝珺,陳波,等.基于跨模態(tài)上下文感知注意力的多模態(tài)情感分析[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2021(4):49-59.
[23]霍艷芳,張嘉瑋.紅色檔案編研的現(xiàn)狀和發(fā)展路徑探析——以華東六省一市為例[J].檔案與建設(shè),2024(1):77-81.
[24]毛秀梅,楊曄.面向政府的網(wǎng)絡(luò)輿情知識(shí)服務(wù)體系構(gòu)建研究[J].情報(bào)科學(xué),2016(9):124-128.
[25]馬仁杰,譚亞楠,王沐輝.論我國檔案檢索工作中存在的問題與改進(jìn)對(duì)策[J].檔案學(xué)通訊,2016(3):42-45.
[26]史江,李金峰.檔案利用信息反饋工作的問題與對(duì)策探討[J].檔案學(xué)通訊,2007(3):27-30.
(責(zé)任編輯:孫 潔 陳 騫)