陳 亮 秦玉婷 費(fèi)鴻虹 王 夢(mèng)
(南通大學(xué)檔案館,江蘇南通, 226019)
在人工智能和自然語(yǔ)言處理領(lǐng)域,GPT(Generative Pre-trained Transformer)模型系列已經(jīng)成為一項(xiàng)“里程碑”式的成就。[1]2022 年11 月,基于GPT-3.5 的微調(diào)版本ChatGPT推出,用戶量在短短一周內(nèi)便突破了百萬(wàn)大關(guān),凸顯了GPT技術(shù)在實(shí)際應(yīng)用中的巨大潛力。[2]2023 年3月,OpenAI發(fā)布了支持多模態(tài)輸入和輸出(如文本、圖像、音頻、視頻等)的GPT-4模型,預(yù)示著該技術(shù)正向著更為全面和復(fù)雜的應(yīng)用場(chǎng)景邁進(jìn)。與此同時(shí),中國(guó)也展示了顯著的研發(fā)活力。自2023 年8 月31 日起,首批8 家大模型產(chǎn)品如百度的“文心一言”等獲得了官方備案,正式對(duì)公眾提供服務(wù)。GPT問(wèn)世后引起檔案學(xué)界的關(guān)注:周文歡認(rèn)為,ChatGPT可以用于執(zhí)行多種檔案管理任務(wù)[3];楊智勇提出,檔案界應(yīng)該順應(yīng)技術(shù)發(fā)展的趨勢(shì),在理論和實(shí)踐中積極探索數(shù)據(jù)智能技術(shù)與檔案工作的融合[4];岳幸暉等認(rèn)為,人工智能在檔案管理中的應(yīng)用圖景廣闊,但也面臨著制度風(fēng)險(xiǎn)、技術(shù)風(fēng)險(xiǎn)、倫理風(fēng)險(xiǎn)、監(jiān)管風(fēng)險(xiǎn)[5]??傮w而言,大多學(xué)者認(rèn)為GPT能夠?yàn)闄n案館提供技術(shù)支持,符合技術(shù)環(huán)境的發(fā)展趨勢(shì)。
檔案館智慧服務(wù)是指檔案館基于用戶的信息需求,以更加自動(dòng)化和智能化的服務(wù)方式提供檔案信息服務(wù)。[6]其內(nèi)涵可以概括為:借助于前沿信息技術(shù)充分挖掘檔案館特有的文獻(xiàn)資源,為用戶提供泛在化、細(xì)微化、個(gè)體化、差異化且隨時(shí)、隨地、隨心的利用服務(wù)。當(dāng)前,檔案館服務(wù)在新技術(shù)賦能、信息化建設(shè)、便民服務(wù)等方面仍具有一定的滯后性。一方面,傳統(tǒng)檔案館服務(wù)僅能接收用戶簡(jiǎn)單的搜索關(guān)鍵詞或查詢語(yǔ)句,難以準(zhǔn)確捕捉用戶真實(shí)需求,導(dǎo)致在處理復(fù)雜問(wèn)題時(shí)難以保證準(zhǔn)確性;另一方面,公眾對(duì)檔案服務(wù)質(zhì)量的要求日益提升,檔案查閱、檔案咨詢、檔案編研、檔案展覽等傳統(tǒng)服務(wù)方式難以滿足“數(shù)智”時(shí)代檔案用戶便捷化、知識(shí)化、高效化的服務(wù)需求,檔案服務(wù)需要由以資源為中心的“供給導(dǎo)向”轉(zhuǎn)向以用戶為核心的“需求導(dǎo)向”。如何提升檔案館服務(wù)水平,創(chuàng)新服務(wù)方式,滿足公眾的檔案需求,成為當(dāng)下亟待解決的問(wèn)題。GPT技術(shù)的應(yīng)用恰逢其時(shí)。據(jù)此,本文旨在探討GPT技術(shù)在檔案館智慧服務(wù)中的應(yīng)用,以及其對(duì)檔案管理效率和用戶體驗(yàn)的潛在影響,通過(guò)深入剖析GPT技術(shù)的特點(diǎn)和優(yōu)勢(shì),為檔案學(xué)界和檔案館管理者提供關(guān)于智慧服務(wù)優(yōu)化的實(shí)用見解和建議。
GPT具有創(chuàng)造性的內(nèi)容生成能力、對(duì)話情景理解能力、序列任務(wù)執(zhí)行能力以及多語(yǔ)言解析能力。[7]利用GPT,檔案館可以有效應(yīng)對(duì)服務(wù)中的互動(dòng)、推薦、傳播以及反饋等問(wèn)題,從而提高檔案館的服務(wù)效能。
多源數(shù)據(jù)融合指的是將多樣化、異構(gòu)性的數(shù)據(jù)源整合成統(tǒng)一的知識(shí)庫(kù)。檔案館擁有多種資料,這些資料可能具有不同的格式、結(jié)構(gòu)和語(yǔ)義,因此其整合和應(yīng)用具有復(fù)雜性。而GPT展示了其在多源數(shù)據(jù)融合方面的強(qiáng)大潛力。自然語(yǔ)言處理能力使其能夠?qū)堎|(zhì)檔案的數(shù)字化版本和電子檔案等文本數(shù)據(jù)進(jìn)行語(yǔ)義理解和信息提取,從中提煉出關(guān)鍵的實(shí)體、事件和時(shí)間信息。且目前已上線的大模型Bing Chat、文心一言以及通義千問(wèn)等,都具備聯(lián)網(wǎng)搜索功能,能夠進(jìn)一步豐富檔案館內(nèi)部的知識(shí)庫(kù)。在整合多源數(shù)據(jù)時(shí),GPT通過(guò)文本處理技術(shù)將不同來(lái)源的數(shù)據(jù)進(jìn)行自動(dòng)轉(zhuǎn)換和歸一化,從而實(shí)現(xiàn)表達(dá)和語(yǔ)義的一致。借助GPT的數(shù)據(jù)融合能力,研究者可以更全面地了解歷史事件、人物和文物,實(shí)現(xiàn)多角度的深入分析和研究。
傳統(tǒng)的語(yǔ)言模型通常只能處理單個(gè)句子或短文本,而GPT通過(guò)Transformer架構(gòu)中的自注意力機(jī)制,能夠捕捉長(zhǎng)距離的依賴關(guān)系,實(shí)現(xiàn)對(duì)整個(gè)對(duì)話歷史的全局理解。這種全局視野使GPT在對(duì)話系統(tǒng)中展現(xiàn)出優(yōu)異的上下文感知能力。第一,面對(duì)用戶的信息需求,相較于傳統(tǒng)的單輪問(wèn)答模型,GPT能夠理解用戶之前的問(wèn)題和對(duì)話歷史,可以更準(zhǔn)確地滿足用戶的多樣化需求。第二,個(gè)性化服務(wù)是GPT多輪對(duì)話處理的另一重要應(yīng)用。因其可以理解和記憶先前的對(duì)話內(nèi)容,故而GPT能夠根據(jù)用戶的興趣和偏好為他們推薦相關(guān)的檔案信息和資源。
多模態(tài)處理意味著GPT不僅擅長(zhǎng)處理文本數(shù)據(jù),而且能夠處理多種其他類型的數(shù)據(jù)。GPT通過(guò)融合這些多模態(tài)數(shù)據(jù),實(shí)現(xiàn)了跨模態(tài)信息的綜合理解和生成。例如,搭載GPT-4 內(nèi)核的Bing Chat能為歷史照片生成相應(yīng)的文字描述,或者解析錄音文件,使這些多模態(tài)資源更加容易理解和利用。值得一提的是,科大訊飛推出的智能大模型“訊飛星火”也具有相似的多模態(tài)處理能力。它可以根據(jù)語(yǔ)音或文字輸入內(nèi)容生成圖片或視頻,并用于實(shí)現(xiàn)更為高級(jí)的多模態(tài)應(yīng)用。多模態(tài)處理還有助于豐富檔案館的展示形式,提高用戶參與度。
多語(yǔ)言處理是指GPT能夠處理多種語(yǔ)言的文本,實(shí)現(xiàn)跨語(yǔ)言的交互和轉(zhuǎn)換。傳統(tǒng)的文本處理模型往往局限于單一語(yǔ)言的文本,GPT則具有較強(qiáng)的跨語(yǔ)言泛化能力,可以適應(yīng)多種語(yǔ)言場(chǎng)景,靈活地處理多種語(yǔ)言文本,滿足不同語(yǔ)言用戶的需求。
在檔案館智慧服務(wù)中,GPT可以利用多源數(shù)據(jù)融合、多輪對(duì)話處理、多模態(tài)處理和多語(yǔ)言處理等技術(shù)特征,形成多樣化的應(yīng)用場(chǎng)景,促進(jìn)檔案館的智能化發(fā)展。GPT驅(qū)動(dòng)檔案館創(chuàng)新場(chǎng)景將主要體現(xiàn)在四個(gè)方面:智能檔案咨詢與問(wèn)答服務(wù)場(chǎng)景(Ask and Answer)、多媒體資源智能化管理與展示場(chǎng)景(Intelligent Multimedia)、跨領(lǐng)域知識(shí)融合與跨語(yǔ)言服務(wù)場(chǎng)景(Multidisciplinary Integration)、個(gè)性化檔案資源定制與推薦場(chǎng)景(Personalized Services)?;诖耍疚臉?gòu)建了GPT賦能的檔案館服務(wù)應(yīng)用場(chǎng)景,并命名為“AIMP”框架圖,詳見圖1。
圖1 GPT賦能檔案館服務(wù)應(yīng)用場(chǎng)景“AIMP”框架圖
GPT在檔案館中可用作智能問(wèn)答系統(tǒng),以多輪對(duì)話處理技術(shù)為用戶提供咨詢與問(wèn)答服務(wù)。用戶不再受限于特定的查詢方式,按照自己的意愿如實(shí)陳述需求,GPT便能快速推斷其可能希望得到的信息結(jié)果,并作出相應(yīng)反饋。若結(jié)果不符合需求,用戶無(wú)需從頭調(diào)整查詢方式,只需告知軟件錯(cuò)誤之處,GPT便可根據(jù)反饋調(diào)整檢索結(jié)果,大大提高了查詢效率。
GPT能夠利用多模態(tài)處理能力,對(duì)檔案館的多種媒體資源進(jìn)行智能處理,實(shí)現(xiàn)圖文聯(lián)合的智慧展示,從而優(yōu)化用戶的使用體驗(yàn),同時(shí)提高檔案資源的利用效率?,F(xiàn)代科學(xué)技術(shù)的綜合應(yīng)用能夠更好地幫助用戶營(yíng)造出符合閱讀資源主題的閱讀環(huán)境,增強(qiáng)檔案文化編研產(chǎn)品的閱讀體驗(yàn)感。[8]GPT能夠處理不同載體形式的檔案,幫助檔案館更好地組織和管理多媒體資源。在展示過(guò)程中,GPT可以將文字描述與圖像、音頻、視頻等媒體內(nèi)容相結(jié)合,實(shí)現(xiàn)多媒體全方位展示。例如,在檔案展覽中,GPT可以為圖像提供文字說(shuō)明,為音頻和視頻提供字幕或文字解釋,從而幫助用戶更好地理解和欣賞多媒體資源的內(nèi)容和意義。
GPT利用多源數(shù)據(jù)融合技術(shù),整合不同領(lǐng)域的檔案數(shù)據(jù)和知識(shí),實(shí)現(xiàn)跨領(lǐng)域的知識(shí)交叉,促進(jìn)檔案資源的跨學(xué)科研究。檔案館可以利用GPT的數(shù)據(jù)挖掘和分析功能,構(gòu)建智慧決策咨詢體系,實(shí)現(xiàn)整合多源數(shù)據(jù)實(shí)時(shí)采集、大數(shù)據(jù)分析處理、數(shù)據(jù)可視化展示等功能。這一體系不僅能夠提供實(shí)時(shí)的數(shù)據(jù)分析與展示,而且能進(jìn)行數(shù)據(jù)挖掘和語(yǔ)義關(guān)聯(lián),從而揭示數(shù)據(jù)中潛藏的規(guī)律。借助GPT的跨領(lǐng)域融合能力,檔案館將從“檔案庫(kù)”轉(zhuǎn)變?yōu)椤八枷霂?kù)”“參謀部”“智囊團(tuán)”,為決策提供前瞻性、有效性、科學(xué)性的支持。
同時(shí),GPT的多語(yǔ)言處理技術(shù)賦予其處理多種語(yǔ)言的能力,實(shí)現(xiàn)跨語(yǔ)言文獻(xiàn)處理和多語(yǔ)言用戶服務(wù),從而擴(kuò)展檔案館的受眾范圍。美國(guó)圣路易斯華盛頓大學(xué)圖書館的“Interactive Exhibit”應(yīng)用結(jié)合了類似GPT工具與增強(qiáng)現(xiàn)實(shí)技術(shù),讓用戶可以跟虛擬文物互動(dòng),獲取文物相關(guān)的智能化解釋和介紹,享受沉浸式的跨文化體驗(yàn)。[9]這一創(chuàng)新應(yīng)用充分展示了GPT在檔案領(lǐng)域的前瞻性應(yīng)用潛力。
在這個(gè)場(chǎng)景中,GPT利用多輪對(duì)話處理和多源數(shù)據(jù)融合技術(shù),為用戶提供個(gè)性化的智慧服務(wù),定制化展示和推薦符合用戶偏好的檔案資源。此外,GPT能夠整合來(lái)自不同渠道的檔案數(shù)據(jù)和知識(shí),建立檔案用戶的興趣模型,結(jié)合用戶畫像特征,提供更加個(gè)性化的檔案資源定制和推薦服務(wù)。GPT也能根據(jù)紀(jì)念日、節(jié)日等特殊時(shí)期,智能推送相關(guān)內(nèi)容。同時(shí),用戶的檔案服務(wù)反饋得以智能收集和分析,從而動(dòng)態(tài)調(diào)整服務(wù),不斷更新、匹配,最大限度地滿足用戶需求。
檔案館推進(jìn)GPT賦能智慧服務(wù)的落地應(yīng)用時(shí),可通過(guò)技術(shù)路徑、資源路徑、人才路徑和管理路徑四個(gè)方面來(lái)提升檔案館服務(wù)效能,加速智慧檔案館建設(shè),實(shí)現(xiàn)智慧服務(wù)。
第一,建立高性能計(jì)算平臺(tái)和穩(wěn)定的存儲(chǔ)系統(tǒng)。高性能計(jì)算平臺(tái)可以提升數(shù)據(jù)分析、處理和模型訓(xùn)練的速度,從而實(shí)現(xiàn)更快速、高效的智能服務(wù)響應(yīng)。通過(guò)結(jié)合云計(jì)算技術(shù),檔案館可以根據(jù)實(shí)際需求彈性地調(diào)整計(jì)算資源,避免資源浪費(fèi),還能應(yīng)對(duì)突發(fā)的計(jì)算需求,確保智能服務(wù)的穩(wěn)定性和可靠性。第二,構(gòu)建強(qiáng)大的存儲(chǔ)系統(tǒng)。云計(jì)算技術(shù)提供了高度可擴(kuò)展的存儲(chǔ)方案,能夠根據(jù)檔案館的需求提供適當(dāng)?shù)拇鎯?chǔ)容量,同時(shí)實(shí)現(xiàn)數(shù)據(jù)的備份和冗余,確保數(shù)據(jù)的安全性和持久性。[10]這為GPT等智能應(yīng)用提供了堅(jiān)實(shí)的數(shù)據(jù)支持,保證了應(yīng)用所需數(shù)據(jù)的及時(shí)性和可靠性。第三,GPT技術(shù)具有極快的進(jìn)化速度,處于不斷迭代和更新狀態(tài)。檔案館需要密切關(guān)注生成式AI大模型技術(shù)的發(fā)展動(dòng)態(tài),不斷拓展檔案資源應(yīng)用場(chǎng)景,提供創(chuàng)新性服務(wù)。
第一,加大數(shù)字化處理力度。數(shù)字化處理可以將檔案資料轉(zhuǎn)換為易于保存、管理和利用的電子文檔或數(shù)字?jǐn)?shù)據(jù),為GPT提供更廣闊的信息來(lái)源。通過(guò)數(shù)字化處理,檔案館可以將各類檔案資料進(jìn)行整合存儲(chǔ),建立豐富的數(shù)字化檔案庫(kù)。同時(shí),檔案館通過(guò)構(gòu)建知識(shí)圖譜可以形成全面且統(tǒng)一的知識(shí)網(wǎng)絡(luò),這將為GPT提供更豐富的知識(shí)背景,使其在智慧服務(wù)中更加準(zhǔn)確和全面地回答用戶問(wèn)題。
第二,推動(dòng)合作共享。檔案館可以通過(guò)與其他機(jī)構(gòu)和平臺(tái)的合作,共享多方的數(shù)據(jù)、技術(shù)和業(yè)務(wù)優(yōu)勢(shì),拓展自身的資源來(lái)源,提高數(shù)據(jù)支持能力,為智慧服務(wù)提供更強(qiáng)有力的支撐。同時(shí),檔案機(jī)構(gòu)可以利用區(qū)塊鏈、人工智能、云計(jì)算等數(shù)智技術(shù),打破數(shù)據(jù)壁壘和信息孤島,為跨省異地檔案信息資源的獲取和處理提供技術(shù)支持。例如,滬蘇浙皖檔案部門共同簽署了《長(zhǎng)三角地區(qū)檔案部門重點(diǎn)協(xié)同項(xiàng)目備忘錄》,明確了全面推進(jìn)長(zhǎng)三角地區(qū)查檔“一網(wǎng)通辦”的總目標(biāo),市民只需通過(guò)實(shí)名驗(yàn)證,即可在線查詢上海本地及蘇浙皖三省部分城市國(guó)家綜合檔案館的相關(guān)民生檔案,從而節(jié)省了大量時(shí)間成本和人力成本。[11]
隨著GPT等人工智能技術(shù)逐漸取代重復(fù)性、程序化的工作崗位,部分檔案館工作者將面臨職業(yè)風(fēng)險(xiǎn),這必須引起高度重視。檔案數(shù)字人才隊(duì)伍的建設(shè)需要內(nèi)部培養(yǎng)和外部引進(jìn)兩方面的努力。一方面是人才引進(jìn)。由于GPT等人工智能技術(shù)需要大量的數(shù)據(jù)支撐和算法優(yōu)化,檔案館需要引進(jìn)掌握信息技術(shù)的人才,以提高檔案數(shù)據(jù)資源的質(zhì)量和價(jià)值,實(shí)現(xiàn)數(shù)據(jù)資源的深度開發(fā)和多元化利用。同時(shí),檔案館也需要引進(jìn)具有新媒體運(yùn)營(yíng)、用戶體驗(yàn)設(shè)計(jì)、知識(shí)服務(wù)、參考咨詢等專業(yè)技能的人才,以提高檔案服務(wù)的創(chuàng)新性和互動(dòng)性,實(shí)現(xiàn)檔案服務(wù)的個(gè)性化和智能化。另一方面是人才培養(yǎng)。檔案館需要培養(yǎng)員工的持續(xù)學(xué)習(xí)能力和創(chuàng)新精神,以適應(yīng)數(shù)字時(shí)代的檔案工作轉(zhuǎn)型。檔案機(jī)構(gòu)應(yīng)加強(qiáng)協(xié)同[12],通過(guò)組織內(nèi)部培訓(xùn)、參與外部交流、開展項(xiàng)目合作等方式,提高檔案人員對(duì)GPT等人工智能技術(shù)的理解力和掌握力,增強(qiáng)檔案人員對(duì)檔案數(shù)據(jù)資源和檔案服務(wù)創(chuàng)新的能力和信心。
同時(shí),檔案館需要強(qiáng)調(diào)人才的人文社會(huì)價(jià)值。盡管人工智能技術(shù)在發(fā)展,但人類的情感和人際溝通能力仍然不可替代。檔案工作者可以利用人工智能工具如GPT等賦能檔案服務(wù),同時(shí)保持對(duì)用戶的同理心,用人類特有的情感和交流能力彌補(bǔ)技術(shù)的不足,增強(qiáng)用戶對(duì)檔案館的信任和依賴。
第一,規(guī)劃和戰(zhàn)略是智慧服務(wù)的引導(dǎo)和支撐。檔案館需要明確智慧服務(wù)的發(fā)展目標(biāo)和路徑,制定詳細(xì)的發(fā)展規(guī)劃和實(shí)施方案。第二,用戶互動(dòng)和溝通是智慧服務(wù)的需求和反饋。檔案館需要加強(qiáng)與用戶的互動(dòng)和溝通,及時(shí)了解用戶需求,不斷優(yōu)化和改進(jìn)智慧服務(wù)。這包括收集用戶反饋意見,開展用戶滿意度調(diào)查,建立用戶意見反饋渠道等。通過(guò)與用戶的互動(dòng),檔案館可以了解用戶對(duì)智慧服務(wù)的需求和期望,發(fā)現(xiàn)問(wèn)題和不足之處,并及時(shí)進(jìn)行改進(jìn)和優(yōu)化。第三,項(xiàng)目管理和數(shù)據(jù)安全是智慧服務(wù)的保障。檔案館需要建立科學(xué)的項(xiàng)目管理機(jī)制,確保智慧服務(wù)項(xiàng)目的進(jìn)度和效果。同時(shí),需建立完善的數(shù)據(jù)管理和安全機(jī)制,保障檔案數(shù)據(jù)的安全和隱私。