隨著計(jì)算機(jī)科學(xué)和信息技術(shù)的發(fā)展,生成式人工智能正在成為人工智能領(lǐng)域內(nèi)的一個(gè)重要分支。生成式人工智能能夠在訓(xùn)練數(shù)據(jù)的基礎(chǔ)上創(chuàng)建新的、原創(chuàng)性的內(nèi)容,不僅限于文本,還包括圖像、音樂(lè)、視頻等多媒體形式。在信息處理效率、內(nèi)容創(chuàng)造多樣性以及個(gè)性化服務(wù)提供等方面,生成式人工智能已經(jīng)開(kāi)始展現(xiàn)出足夠的潛力,在特定領(lǐng)域和范圍內(nèi)展示了可代替人類進(jìn)行知識(shí)和內(nèi)容產(chǎn)出的能力。 盡管目前生成式人工智能對(duì)檔案領(lǐng)域的具體影響尚未完全顯現(xiàn),但其潛在的顛覆性能力和廣泛的應(yīng)用前景不容忽視。檔案工作承載著歷史記錄保存、文化遺產(chǎn)傳承以及社會(huì)記憶構(gòu)建的重任,檔案利用更是連接過(guò)去與現(xiàn)在、促進(jìn)知識(shí)傳播與信息交流的重要環(huán)節(jié)。在這一過(guò)程中,如何高效地提供檔案利用服務(wù),成為檔案工作者不斷探索與實(shí)踐的課題。本研究從檔案利用現(xiàn)狀和生成式人工智能技術(shù)缺陷這兩方面內(nèi)容出發(fā),深入剖析檔案利用和生成式人工智能技術(shù)面臨的主要問(wèn)題,厘清制約發(fā)展的瓶頸因素,探尋實(shí)現(xiàn)雙向賦能的應(yīng)對(duì)策略,從而為檔案部門引入生成式人工智能技術(shù)提供理論引導(dǎo)和實(shí)踐參考。
一、生成式人工智能概念及其技術(shù)特點(diǎn)
生成式人工智能是指能夠利用算法和數(shù)據(jù)自動(dòng)生成全新、原創(chuàng)內(nèi)容或知識(shí)的人工智能技術(shù),是繼專家生成內(nèi)容、用戶生成內(nèi)容之后的一種新型內(nèi)容生成方式,它不僅會(huì)提升內(nèi)容生成的效率,也會(huì)創(chuàng)造出有獨(dú)特價(jià)值和獨(dú)立視角的內(nèi)容[1]。
生成式人工智能使用的技術(shù)主要是自然語(yǔ)言處理、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)。其中,自然語(yǔ)言處理技術(shù)是將自然語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)可處理的形式,從而使計(jì)算機(jī)能夠理解并生成自然語(yǔ)言。神經(jīng)網(wǎng)絡(luò)技術(shù)是通過(guò)學(xué)習(xí)和優(yōu)化網(wǎng)絡(luò)參數(shù),使神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)生成新的內(nèi)容。深度學(xué)習(xí)技術(shù)則是通過(guò)多層神經(jīng)網(wǎng)絡(luò)模型來(lái)學(xué)習(xí)數(shù)據(jù)的特征表示,從而實(shí)現(xiàn)自動(dòng)化地特征提取和生成。此外,生成式人工智能還使用了強(qiáng)化學(xué)習(xí)、知識(shí)圖譜等技術(shù)來(lái)提升生成內(nèi)容的準(zhǔn)確性和效率[2]。
生成式人工智能技術(shù)的典型應(yīng)用以“預(yù)訓(xùn)練+微調(diào)”的半監(jiān)督學(xué)習(xí)的方式進(jìn)行模型訓(xùn)練[3]。在預(yù)訓(xùn)練階段,模型使用大規(guī)模的未標(biāo)注文本數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)包括回答平臺(tái)上的問(wèn)題和答案、各種對(duì)話記錄等,訓(xùn)練目標(biāo)是學(xué)習(xí)文本序列的概率分布和詞語(yǔ)之間的關(guān)系。這使得模型能夠形成對(duì)人類知識(shí)和自然語(yǔ)言的理解和內(nèi)容生成能力。在微調(diào)階段,模型使用人類反饋強(qiáng)化學(xué)習(xí)的方式進(jìn)行訓(xùn)練,即先用有標(biāo)注的數(shù)據(jù)(指由人根據(jù)問(wèn)題給出的高質(zhì)量答案)來(lái)微調(diào)預(yù)訓(xùn)練模型,然后由模型根據(jù)問(wèn)題給出多個(gè)答案,人工對(duì)答案滿意度進(jìn)行打分、排序并建立獎(jiǎng)勵(lì)模型,如此多次循環(huán),通過(guò)人工修正,使模型生成的內(nèi)容更加貼合人類的認(rèn)知、需求和價(jià)值觀[4]。
以ChatGPT為代表的生成式人工智能應(yīng)用引燃了人們對(duì)人工智能技術(shù)的關(guān)注熱情,其出現(xiàn)以來(lái)相關(guān)研究層出不窮。雖然目前的生成式人工智能離理想中的通用人工智能還有一定差距,但無(wú)疑已經(jīng)邁出重要一步。隨著訓(xùn)練數(shù)據(jù)量的增加、算法的迭代升級(jí),以及與現(xiàn)實(shí)世界交互能力的加強(qiáng),生成式人工智能將通過(guò)不斷的學(xué)習(xí)反饋以及自動(dòng)總結(jié)客觀規(guī)律,重塑各行業(yè)、各領(lǐng)域。
二、生成式人工智能賦能檔案利用過(guò)程中的主要問(wèn)題
生成式人工智能技術(shù)的一個(gè)重要應(yīng)用場(chǎng)景就是根據(jù)用戶提問(wèn),系統(tǒng)實(shí)時(shí)生成符合用戶需求的包括文本格式在內(nèi)的各種內(nèi)容和知識(shí)。而檔案利用的主要流程也是根據(jù)用戶(主動(dòng)或被動(dòng))需要,檔案館工作人員實(shí)時(shí)(或提前)查找(或生成)包括紙質(zhì)證明、編研成果在內(nèi)的各類檔案資料,兩者的共同點(diǎn)都是“輸入需求,輸出內(nèi)容”。生成式人工智能+檔案利用,就是將檔案利用場(chǎng)景中的檔案館工作人員或用戶的工作經(jīng)驗(yàn)、專業(yè)知識(shí)替換為人工智能,用生成式人工智能技術(shù)給檔案利用賦能,使查檔更精準(zhǔn),用檔更全面,檔案編研內(nèi)容更豐富。而要實(shí)現(xiàn)這一目標(biāo),需要解決當(dāng)前檔案利用和生成式人工智能技術(shù)面臨的以下主要問(wèn)題:
(一)檔案利用中的檢索和編研難題
1.檔案檢索效率低下、手段單一
信息時(shí)代,檔案檢索還在沿用傳統(tǒng)模式,即根據(jù)用戶提供的信息,檔案館工作人員將關(guān)鍵詞輸入檔案系統(tǒng)后,根據(jù)查詢結(jié)果人工比對(duì)判斷,確定可供利用的檔案。在這個(gè)過(guò)程中,工作人員根據(jù)經(jīng)驗(yàn)調(diào)整優(yōu)化檢索詞,可能要迭代多次,才能檢索到所需信息。比如用戶要查找一份“1990年的XX單位錄用人員名單”,工作人員需要在系統(tǒng)中多次嘗試輸入“1990”“錄用”“人員”等關(guān)鍵詞以確定最終結(jié)果。
上述還是檔案利用中比較簡(jiǎn)單的情形,因?yàn)橛脩裟軌虮容^精準(zhǔn)地提出需要的檔案名稱,但是在日常利用過(guò)程中,很多用戶沒(méi)有參與歸檔,對(duì)館藏檔案不了解,有時(shí)并不能直接表達(dá)出需要什么檔案(名稱或類別),而是提出一個(gè)具體問(wèn)題,期望能從檢索檔案中獲得結(jié)論性或綜述性內(nèi)容,比如“XX的職稱變動(dòng)情況”等。針對(duì)這類檢索需求,工作人員只能擴(kuò)大檢索范圍,把可能相關(guān)的檔案都檢索出來(lái),由用戶自己根據(jù)檔案生成結(jié)果。在這個(gè)過(guò)程中,可能會(huì)出現(xiàn)因工作人員檢索誤差帶來(lái)的檔案遺漏,以及用戶因?yàn)樽陨淼膶I(yè)性欠缺導(dǎo)致的生成內(nèi)容偏差。
在目前的檔案檢索體系下,檔案利用效果一定程度上取決于檔案館工作人員和用戶的素質(zhì),即使部分檔案館已經(jīng)完成了數(shù)字檔案館建設(shè),實(shí)現(xiàn)了電子檔案的全文識(shí)別,但檔案檢索仍必須通過(guò)計(jì)算機(jī)輔助人工的方式進(jìn)行,檔案利用的標(biāo)準(zhǔn)化和精準(zhǔn)度受到影響。出現(xiàn)這種現(xiàn)象的主要原因是檔案管理系統(tǒng)沒(méi)有充分運(yùn)用人工智能技術(shù),檔案精準(zhǔn)檢索和內(nèi)容生成高度依賴人工(檔案館工作人員和用戶)判斷。
2.檔案編研成果數(shù)量不足、質(zhì)量不高
目前部分檔案館的人員結(jié)構(gòu)和專業(yè)結(jié)構(gòu)還不能適應(yīng)新時(shí)代檔案編研的要求。受傳統(tǒng)工作規(guī)劃等因素影響,很多檔案館都把大量的時(shí)間和精力投入到基礎(chǔ)檔案業(yè)務(wù)上,檔案編研力量薄弱,人員不多,其精力、知識(shí)和能力有限,導(dǎo)致編研成果較少、質(zhì)量不高、社會(huì)影響力不足,不能滿足用戶對(duì)編研成果的現(xiàn)實(shí)需要。另外,從成果形式來(lái)看,大部分還是以歷史資料匯編為主,專題展覽為輔,系列叢書(shū)、館內(nèi)刊物、人物匯編等成果還處于初始探索階段,成果形式比較單一。編研成果更多的是注重對(duì)檔案的匯總和整理,忽視了(或者難以做到)對(duì)檔案數(shù)據(jù)間的內(nèi)在邏輯進(jìn)行關(guān)聯(lián)分析和深度挖掘,面對(duì)數(shù)量巨大的館藏檔案知識(shí)體系了解不夠充分,因而形成的編研成果利用價(jià)值不高。出現(xiàn)這種現(xiàn)象的主要原因在于檔案館編研人力資源制約,包括人員數(shù)量不足、工作經(jīng)驗(yàn)與專業(yè)知識(shí)有限,以及對(duì)館藏檔案數(shù)據(jù)處理能力有限,這些因素共同導(dǎo)致了編研成果的知識(shí)性欠缺。
(二)生成式人工智能的數(shù)據(jù)依賴性和內(nèi)容真實(shí)性問(wèn)題
1.生成式人工智能對(duì)訓(xùn)練數(shù)據(jù)存在高度依賴性
生成式人工智能生成豐富內(nèi)容的前提在于訓(xùn)練模型的全面性,而訓(xùn)練全面性所需的“學(xué)習(xí)材料”主要包括網(wǎng)絡(luò)文本、書(shū)籍、新聞、博客、帖子、代碼等各種人類語(yǔ)言資料。以ChatGPT-4為例,其學(xué)習(xí)材料已達(dá)1PB(1024TB),參數(shù)超過(guò)1.8萬(wàn)億個(gè)。但如此海量的數(shù)據(jù)中包含的檔案卻并不多,因?yàn)闄n案本質(zhì)上是一種內(nèi)部資源,受特定訪問(wèn)權(quán)限控制,大多數(shù)無(wú)法直接在互聯(lián)網(wǎng)上獲取到,只有部分檔案資料被他人引用或者互聯(lián)網(wǎng)上有其他同類信息時(shí),這些數(shù)據(jù)才能被生成式人工智能學(xué)習(xí)并吸收。例如,當(dāng)詢問(wèn)“天津大學(xué)智能與計(jì)算學(xué)部的成立時(shí)間”時(shí),ChatGPT會(huì)生成“天津大學(xué)智能與計(jì)算學(xué)部組建于2018年5月16日”的答案,這和查閱檔案后得出的結(jié)果基本一致(生成式人工智能提供的是學(xué)部掛牌時(shí)間,根據(jù)學(xué)校網(wǎng)站新聞生成;而檔案中的結(jié)果是成立文件的發(fā)文日期,時(shí)間稍早)。而如果檔案資料沒(méi)有被引用或公開(kāi),則生成式人工智能在這方面知識(shí)為零,無(wú)法回答或者給出錯(cuò)誤的答案。出于數(shù)據(jù)安全和保密原則考慮,生成式人工智能訓(xùn)練中無(wú)法訪問(wèn)館藏檔案數(shù)據(jù),這將嚴(yán)重影響檔案利用中生成內(nèi)容的專業(yè)性和準(zhǔn)確性。
2.生成式人工智能生成內(nèi)容的真實(shí)性存在瑕疵
真實(shí)性和完整性是檔案的兩個(gè)重要特性,即檔案的內(nèi)容必須真實(shí),其內(nèi)容和信息未被改動(dòng)。而生成式人工智能不同于常規(guī)檢索系統(tǒng),檢索系統(tǒng)一般只提供數(shù)據(jù)庫(kù)中已存在的內(nèi)容,只能讀取和呈現(xiàn),生成式人工智能則是在大模型技術(shù)的基礎(chǔ)上,對(duì)檢索結(jié)果重新組合生成,在這個(gè)過(guò)程中,可能產(chǎn)生不精準(zhǔn)的內(nèi)容,這個(gè)問(wèn)題在生成式人工智能處理特定專業(yè)領(lǐng)域或數(shù)據(jù)密集型問(wèn)題,如檔案證明時(shí),會(huì)更加突出[5]。因?yàn)闄n案的基本屬性即“原始記錄性”,正由于檔案的這一特性,使檔案成為歷史的真實(shí)記錄,具有法律效力的證據(jù)價(jià)值,對(duì)檔案信息的重新組合可能會(huì)破壞檔案的真實(shí)性和完整性,生成的內(nèi)容也只是“內(nèi)容”,而非檔案,缺少檔案證據(jù)價(jià)值的法理基礎(chǔ)。在這點(diǎn)上,ChatGPT-4的開(kāi)發(fā)公司OpenAI也承認(rèn),“GPT-4并不完全可靠,可能會(huì)出現(xiàn)推理錯(cuò)誤……它會(huì)輕信用戶明顯的虛假陳述,有時(shí)它會(huì)像人類一樣在難題上失敗,例如在它生成的代碼中引入安全漏洞……”這種真實(shí)性和完整性的缺陷是生成式人工智能固有的特點(diǎn),直接將生成式人工智能套用到檔案領(lǐng)域?qū)⒔o檔案利用的憑證價(jià)值帶來(lái)較大沖擊,影響到檔案證明的權(quán)威性。
三、生成式人工智能技術(shù)嵌入檔案利用中的具體策略
通過(guò)對(duì)生成式人工智能賦能檔案利用過(guò)程中的主要問(wèn)題分析,可知生成式人工智能+檔案利用并不是簡(jiǎn)單地將生成式人工智能技術(shù)應(yīng)用于檔案領(lǐng)域,而是需要在檔案利用和生成式人工智能技術(shù)方面進(jìn)行調(diào)整優(yōu)化,以促進(jìn)二者結(jié)合,更好地發(fā)揮出各自特點(diǎn)。
(一)檔案利用方面
針對(duì)檔案查詢效率低下的問(wèn)題,將生成式人工智能技術(shù)應(yīng)用于檔案檢索系統(tǒng),可以智能地分析用戶輸入的查詢關(guān)鍵詞,不僅可以快速檢索出相關(guān)信息,還能根據(jù)檔案內(nèi)容的相關(guān)性、重要性以及用戶需求的特殊性,自動(dòng)對(duì)檢索結(jié)果進(jìn)行排序,幫助用戶精準(zhǔn)定位所需的檔案。為豐富檔案信息的呈現(xiàn)方式,還可以利用生成式人工智能技術(shù)的自然語(yǔ)言處理和生成能力,生成綜述性內(nèi)容,如摘要、報(bào)告或分析。這些內(nèi)容能夠?yàn)橛脩籼峁└鼮槿妗⑸钊氲臋n案信息解讀,幫助用戶更好地理解檔案背后的歷史背景、事件脈絡(luò)以及人物關(guān)系等。然而,需要注意的是,生成式人工智能生成的內(nèi)容目前僅能作為工作參考或進(jìn)一步查詢的線索,對(duì)于結(jié)果的審核和認(rèn)定,仍需依賴檔案館工作人員的專業(yè)知識(shí)和用戶自身的判斷力。
針對(duì)編研成果不足、質(zhì)量不高的問(wèn)題,可以探索將生成式人工智能生成的結(jié)果作為傳統(tǒng)檔案編研之外的知識(shí)擴(kuò)充。將生成式人工智能生成的資料經(jīng)過(guò)專業(yè)人員鑒定和修改后,整合成人工智能編研資料集,供館內(nèi)和館外用戶參考。此外,可以建立智能編研資料集的動(dòng)態(tài)更新機(jī)制,定期納入最新生成的高質(zhì)量?jī)?nèi)容,確保資料的時(shí)效性和準(zhǔn)確性。同時(shí),推行用戶反饋機(jī)制,收集館內(nèi)外用戶的使用體驗(yàn)和建議,不斷優(yōu)化人工智能生成內(nèi)容的篩選和整合流程,提升編研成果的實(shí)用性和學(xué)術(shù)價(jià)值。
(二)生成式人工智能技術(shù)方面
針對(duì)生成式人工智能訓(xùn)練數(shù)據(jù)中不包含檔案數(shù)據(jù)的問(wèn)題,可以采用“檢索增強(qiáng)生成+生成式人工智能”的方案。首先,構(gòu)建一個(gè)本地檔案專題知識(shí)庫(kù),當(dāng)用戶提出問(wèn)題時(shí),將檔案知識(shí)庫(kù)作為檢索源,通過(guò)計(jì)算問(wèn)題和知識(shí)庫(kù)向量間的相似度,從中檢索與問(wèn)題相關(guān)的檔案文本。其次,將問(wèn)題和檢索到的與問(wèn)題相關(guān)的信息一起添加到提示詞模板中,形成完整的提示詞。最后,將經(jīng)過(guò)檢索增強(qiáng)的提示詞內(nèi)容輸入到大模型中,檢索到的信息為大模型提供了額外的上下文,能夠幫助模型更好地理解問(wèn)題,生成基于檔案知識(shí)庫(kù)的內(nèi)容[6]。
為了提升生成式人工智能結(jié)果的真實(shí)性和準(zhǔn)確性,還可以進(jìn)一步優(yōu)化生成式人工智能算法,通過(guò)檔案專業(yè)語(yǔ)料庫(kù)等數(shù)據(jù)對(duì)模型進(jìn)行檔案化微調(diào),構(gòu)建檔案領(lǐng)域大模型,使其更加適應(yīng)檔案數(shù)據(jù)的特性和用戶需求。同時(shí),使用更大的訓(xùn)練集和提供更多的參數(shù),增強(qiáng)模型的泛化能力和準(zhǔn)確性。此外,檔案館工作人員和用戶應(yīng)加強(qiáng)對(duì)生成式人工智能生成結(jié)果的人工審核和篩選,通過(guò)比對(duì)原始檔案、驗(yàn)證信息來(lái)源等方式,確保結(jié)果的真實(shí)性和可靠性。在實(shí)際操作中,還可以結(jié)合深度學(xué)習(xí)機(jī)制,提升模型對(duì)復(fù)雜檔案信息的理解和分析能力,利用知識(shí)圖譜技術(shù)構(gòu)建檔案信息的關(guān)聯(lián)網(wǎng)絡(luò),提升檔案內(nèi)容的整體真實(shí)性和邏輯性。
參考文獻(xiàn):
[1]陳永偉.超越ChatGPT:生成式AI的機(jī)遇、風(fēng)險(xiǎn)與挑戰(zhàn)[J].山東大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2023(3):127-143.
[2]蔡子凡,蔚海燕.人工智能生成內(nèi)容(AIGC)的演進(jìn)歷程及其圖書(shū)館智慧服務(wù)應(yīng)用場(chǎng)景[J].圖書(shū)館雜志,2023(4):34-43+135-136.
[3]黃仁彥.生成式人工智能在檔案數(shù)字轉(zhuǎn)型中的應(yīng)用研究[J].山西檔案,2024 (2):145-148.
[4]錢力,劉熠,張智雄,等.ChatGPT的技術(shù)基礎(chǔ)分析[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2023 (3):6-15.
[5]張磊.ChatGPT應(yīng)用視角下的公共圖書(shū)館智慧服務(wù):機(jī)遇、挑戰(zhàn)與對(duì)策[J].圖書(shū)館工作與研究,2024 (S1):30-35.
[6]趙靜,湯文玉,霍鈺,等.大模型檢索增強(qiáng)生成(RAG)技術(shù)淺析[J].中國(guó)信息化,2024 (10):71-72+70.
基金項(xiàng)目:國(guó)家檔案局科技項(xiàng)目“人工智能生成內(nèi)容(AIGC)背景下檔案智慧服務(wù)策略研究”(項(xiàng)目編號(hào):2023-X-009)
作者單位:天津大學(xué)檔案館" 天津師范大學(xué)管理學(xué)院