2023年,一款能聊天、會(huì)作詩(shī)的程序ChatGPT橫空出世,隨后一系列大語(yǔ)言模型產(chǎn)品如谷歌bard及國(guó)內(nèi)百度文心一言、復(fù)旦大學(xué)Moss相繼推向市場(chǎng),將人工智能(AI)技術(shù)推向了新一輪高潮,成為社會(huì)上最“火”的技術(shù)話題。人工智能呈現(xiàn)的深度學(xué)習(xí)、跨界融合、人機(jī)協(xié)同等新特征,使其在眾多領(lǐng)域應(yīng)用中取得了突破性進(jìn)展,為經(jīng)濟(jì)社會(huì)發(fā)展注入了新動(dòng)能。同時(shí),AI的應(yīng)用場(chǎng)景也越來(lái)越多,逐步走入老百姓的日常生活,如隨處可見(jiàn)的人臉識(shí)別、翻譯助手、服務(wù)機(jī)器人等。目前,我國(guó)政府正處于數(shù)字化轉(zhuǎn)型的關(guān)鍵期,檔案部門(mén)也在積極探索和尋找利用人工智能、大數(shù)據(jù)等新一代信息技術(shù)推進(jìn)檔案管理模式變革的新途徑和新方法。人工智能應(yīng)用于檔案管理的落地實(shí)踐過(guò)程中,當(dāng)前最受關(guān)注且已真正實(shí)現(xiàn)成果轉(zhuǎn)換的是賦能檔案開(kāi)放審核。
一、人工智能審核的現(xiàn)實(shí)依據(jù)
檔案開(kāi)放審核工作量大,與現(xiàn)有人力資源矛盾突出。檔案開(kāi)放審核是檔案開(kāi)放利用的基礎(chǔ),也是檔案工作中的難點(diǎn)問(wèn)題,隨著新《檔案法》《國(guó)家檔案館檔案開(kāi)放辦法》的實(shí)施,檔案開(kāi)放審核越來(lái)越受重視。然而,目前檔案開(kāi)放審核工作大部分停留在純?nèi)斯徍穗A段,需要大量專(zhuān)業(yè)工作人員參與。依靠人工逐字逐句審核、判斷,工作量大,工作效率低,制約了檔案開(kāi)放的進(jìn)程。傳統(tǒng)的檔案開(kāi)放審核模式已難以適應(yīng)海量館藏檔案開(kāi)放審核工作要求,急需技術(shù)變革,將開(kāi)放審核人員從重復(fù)、繁重的腦力判斷工作中解放出來(lái)。
2019年,國(guó)家檔案局發(fā)布的《國(guó)家檔案局科技項(xiàng)目立項(xiàng)選題指南》中首次出現(xiàn)“人工智能”一詞。隨后幾年,AI+檔案應(yīng)用研究一直出現(xiàn)在《選題指南》中。2022年和2023年度的《選題指南》更是將“AI+檔案開(kāi)放審核”列為重點(diǎn)課題項(xiàng)目。在國(guó)家檔案局剛剛發(fā)布的2024年選題指南中,“檔案解密與開(kāi)放的技術(shù)創(chuàng)新”“人工智能大模型應(yīng)用”也是熱點(diǎn)議題。
加大開(kāi)放力度已是檔案館的現(xiàn)實(shí)趨勢(shì),各地檔案館都在積極制定開(kāi)放審核辦法或引入技術(shù)手段加以落實(shí),以更好地處理過(guò)程中的協(xié)同、權(quán)責(zé)優(yōu)先等問(wèn)題。人工智能檔案開(kāi)放審核作為AI檔案應(yīng)用場(chǎng)景落地的重要突破口,目前研發(fā)已經(jīng)取得階段性成果,產(chǎn)生很多優(yōu)秀案例。
自2019年以來(lái),部分檔案館陸續(xù)通過(guò)課題研究結(jié)合試點(diǎn)應(yīng)用的方式,開(kāi)展了基于人工智能的檔案開(kāi)放審核研究和應(yīng)用實(shí)踐。比如,青島市檔案館“人工智能技術(shù)在檔案開(kāi)放劃控中的應(yīng)用”研究、江蘇省檔案館“基于語(yǔ)義分析的檔案館劃控開(kāi)放智能鑒定的研究”、浙江省檔案館“基于NLP技術(shù)的檔案智能輔助開(kāi)放審核研究”、安徽省檔案館“人工智能技術(shù)在檔案劃控上的應(yīng)用研究”、福建省檔案館開(kāi)展“基于數(shù)字檔案的人工智能檔案開(kāi)放審核系統(tǒng)實(shí)現(xiàn)研究”、上海靜安區(qū)檔案館“AI+檔案開(kāi)放審核關(guān)鍵技術(shù)研究及實(shí)踐應(yīng)用”等。
二、人工智能審核實(shí)現(xiàn)路徑
通過(guò)文獻(xiàn)研究和案例分析不難發(fā)現(xiàn),目前各單位已經(jīng)研究建立的檔案開(kāi)放審核模型都是基于本館的少數(shù)檔案數(shù)據(jù)訓(xùn)練得出,能否適用于所有檔案尚有待驗(yàn)證。實(shí)際上,目前市場(chǎng)上還沒(méi)有出現(xiàn)具有普適性、可以推廣應(yīng)用的檔案智能開(kāi)放審核系統(tǒng)或工具。但目前已有的實(shí)踐案例足以證明人工智能技術(shù)在我國(guó)檔案工作中的應(yīng)用前景廣闊,也為我們探索實(shí)現(xiàn)人工智能審核提供了寶貴的實(shí)戰(zhàn)經(jīng)驗(yàn)。
實(shí)現(xiàn)人工智能審核的整體思路:首先使用通用OCR技術(shù)提取檔案全文,然后利用自然語(yǔ)言處理的中文分詞、詞性標(biāo)注、關(guān)鍵詞提取、關(guān)鍵詞相似度分析、自動(dòng)分類(lèi)等技術(shù),建立一種基于規(guī)則和語(yǔ)義驅(qū)動(dòng)的開(kāi)放審核模型,并且通過(guò)深度學(xué)習(xí)算法不斷對(duì)其進(jìn)行訓(xùn)練和學(xué)習(xí),從而優(yōu)化開(kāi)放審核模型,協(xié)助檔案鑒定人員開(kāi)展檔案開(kāi)放審核工作,提出開(kāi)放審核建議。其中涉及的一些關(guān)鍵技術(shù)和準(zhǔn)備工作如下:
(一)文檔預(yù)處理
涉密文件篩查。按照有關(guān)規(guī)定,涉密文件不開(kāi)放,首先要對(duì)預(yù)開(kāi)放文檔進(jìn)行涉密篩查,運(yùn)用神經(jīng)網(wǎng)絡(luò)、自然語(yǔ)言處理、深度學(xué)習(xí)等AI技術(shù),智能識(shí)別文本中的密級(jí)標(biāo)識(shí),將檢出的涉密文件從開(kāi)放審核隊(duì)列中剔除。
OCR識(shí)別。OCR是一種能夠?qū)⒓堎|(zhì)文檔、圖片等中文、符號(hào)、數(shù)字等信息轉(zhuǎn)換為計(jì)算機(jī)可以識(shí)別處理的電子文本的技術(shù),掃描的數(shù)字化副本經(jīng)OCR識(shí)別后生成文本信息,為檔案開(kāi)放審核做好數(shù)據(jù)準(zhǔn)備。識(shí)別檔案文本時(shí)面臨著手寫(xiě)體識(shí)別的難題,特別是大批20世紀(jì)五六十年代的手寫(xiě)體檔案、歷史檔案,掃描圖像識(shí)別率很低。但是,隨著AI技術(shù)的發(fā)展,這一問(wèn)題也并非不能解決,可以通過(guò)優(yōu)化OCR的算法和使用更高精度的OCR引擎來(lái)提高識(shí)別率,并對(duì)極少量無(wú)法識(shí)別的數(shù)據(jù)采取手工標(biāo)注的方式來(lái)進(jìn)行補(bǔ)充。目前,中國(guó)第一歷史檔案館開(kāi)發(fā)的滿文圖像識(shí)別軟件、科大訊飛OCR識(shí)別技術(shù)、中科院自動(dòng)化研究所的手寫(xiě)字掃描識(shí)別技術(shù),能夠較準(zhǔn)確地識(shí)別手寫(xiě)字體。
文檔分類(lèi)。從自然語(yǔ)言處理領(lǐng)域來(lái)看,檔案開(kāi)放審核大致屬于“文本分類(lèi)”問(wèn)題,通過(guò)對(duì)文本與圖像內(nèi)容進(jìn)行智能分庫(kù)、敏感詞標(biāo)注,輔助開(kāi)放審核系統(tǒng)快速判斷文檔類(lèi)型并與審核規(guī)則匹配,進(jìn)一步提升開(kāi)放審核效率。
(二)構(gòu)建規(guī)則庫(kù)
規(guī)則庫(kù)基于本館館藏的敏感詞庫(kù),如“會(huì)議記錄”“統(tǒng)計(jì)報(bào)表”“簡(jiǎn)歷表”等;基于相關(guān)法律法規(guī)、專(zhuān)家經(jīng)驗(yàn)而積累的規(guī)則知識(shí),如涉及個(gè)人隱私、科技科研、外事、非正式文件等不開(kāi)放的情況,為下一步根據(jù)規(guī)則庫(kù)確定技術(shù)實(shí)現(xiàn)方法、配置規(guī)則與實(shí)施審核奠定了規(guī)則基礎(chǔ)。
福建省檔案館在審核中收集整理了近600個(gè)敏感詞,并聯(lián)動(dòng)省公安廳網(wǎng)安部門(mén)吸收了部分當(dāng)前網(wǎng)絡(luò)敏感、關(guān)鍵字詞,設(shè)計(jì)制定了開(kāi)放審核檔案關(guān)鍵詞表,建立了檔案開(kāi)放審核動(dòng)態(tài)管理敏感詞庫(kù);安徽省檔案館在實(shí)踐中構(gòu)建了包括2000多個(gè)敏感詞的檔案劃控敏感詞庫(kù)、5000多條知識(shí)點(diǎn)的檔案劃控知識(shí)庫(kù)和2000多條規(guī)則的檔案劃控規(guī)則庫(kù)。
(三)優(yōu)化開(kāi)放審核模型
“人工”與“智能”到底是什么關(guān)系?關(guān)于這點(diǎn)最經(jīng)典的回答是“無(wú)人工不智能”,這是因?yàn)樵诤芏嗳斯ぶ悄茼?xiàng)目實(shí)施過(guò)程中往往需要花費(fèi)大量的時(shí)間和精力完成對(duì)用于訓(xùn)練AI數(shù)據(jù)的處理。智能檔案開(kāi)放審核系統(tǒng)的成熟度取決于開(kāi)放審核模型的成熟度,在開(kāi)放審核過(guò)程中需根據(jù)人工審核反饋結(jié)果不斷優(yōu)化模型,特別是針對(duì)誤差樣本進(jìn)行強(qiáng)化訓(xùn)練和迭代,不斷提高開(kāi)放審核準(zhǔn)確率。
總之,引入人工智能技術(shù)必然能極大地提升檔案開(kāi)放審核工作效率,但在當(dāng)前環(huán)境下仍然存在一些問(wèn)題,如人工智能技術(shù)尚不成熟、沒(méi)有可套用的通用算法模型、開(kāi)放審核模型開(kāi)發(fā)難度大、投入成本高等,我們還需繼續(xù)強(qiáng)化智能審核技術(shù)的學(xué)習(xí)、調(diào)研,探索以合理適當(dāng)?shù)姆绞揭肴斯ぶ悄芗夹g(shù),推動(dòng)館藏檔案的科學(xué)有序開(kāi)放。
展望未來(lái),隨著人工智能技術(shù)在文本乃至圖像、音視頻處理等方面的發(fā)展,將在智能庫(kù)房管理、資源建設(shè)、服務(wù)利用等方面,與檔案工作有更多相互結(jié)合的應(yīng)用場(chǎng)景。這些都需要繼續(xù)深入探索研究,以新技術(shù)賦能檔案工作,充分發(fā)揮檔案數(shù)據(jù)資源要素的優(yōu)勢(shì),持續(xù)推動(dòng)檔案工作服務(wù)中心大局和社會(huì)民生。
作者單位:河北省檔案館(河北省地方志編纂委員會(huì)辦公室)