關(guān)鍵詞:檔案館;檔案管理;人工智能;數(shù)字化轉(zhuǎn)型;照片檔案;檔案開放;開放審核;技術(shù)融合
人工智能(Artificial Intelligence, AI)誕生于20世紀(jì)50年代,重點(diǎn)研究怎樣使計算機(jī)來模仿人腦所從事的推理、證明、識別、理解、設(shè)計、學(xué)習(xí)、思考以及問題求解等思維活動,以解決需要人類專家才能處理的復(fù)雜問題。它的研究范圍包括:智能搜索、邏輯推理、信息感應(yīng)辯證處理、語言學(xué)習(xí)與處理、知識表現(xiàn)和獲取、規(guī)劃決策、軟計算等,涉及認(rèn)知科學(xué)、數(shù)學(xué)、計算機(jī)科學(xué)、控制論等多種學(xué)科。[1]AI是當(dāng)前檔案數(shù)字化轉(zhuǎn)型升級過程中重點(diǎn)關(guān)注的領(lǐng)域之一,中辦、國辦印發(fā)的《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》明確指出要“加強(qiáng)大數(shù)據(jù)、人工智能等新一代信息技術(shù)在數(shù)字檔案館(室)建設(shè)中的應(yīng)用,推動數(shù)字檔案館(室)建設(shè)優(yōu)化升級”。檔案數(shù)字化轉(zhuǎn)型升級進(jìn)程中,對AI技術(shù)在檔案專業(yè)的研究狀況進(jìn)行調(diào)查分析,具有現(xiàn)實(shí)意義。
1 文獻(xiàn)定量分析
1.1 數(shù)據(jù)來源。以中國知網(wǎng)為文獻(xiàn)來源,截至2023年,檢索策略為:TI =“人工智能”AND(LY =“中國檔案”O(jiān)RLY = “檔案學(xué)研究” OR LY =“檔案學(xué)通訊”O(jiān)R LY=“檔案與建設(shè)”O(jiān)R LY =“北京檔案”O(jiān)R LY =“檔案管理”O(jiān)R LY =“浙江檔案”),對列入北大《中文核心期刊要目總覽》的檔案學(xué)期刊中發(fā)表的有關(guān)人工智能的文章進(jìn)行了檢索,共檢索出文獻(xiàn)39篇。
1.2 文獻(xiàn)年度發(fā)表數(shù)量趨勢分析。年度發(fā)文趨勢一定程度上反映了檔案界在AI領(lǐng)域的發(fā)展水平。檔案專業(yè)期刊歷年發(fā)表文章數(shù)量如圖1所示。
2016年發(fā)表論文1篇,2017年0篇,2018年2篇,2019年至2022年在4到5篇之間徘徊,2023年突然增至18篇。從歷年文獻(xiàn)數(shù)量可知,檔案界對AI的研究可分為三個階段,2015年之前研究極少,在取樣期刊中發(fā)表文章數(shù)量為0。2016—2022年為低位徘徊期,年均文獻(xiàn)數(shù)量為3篇。2023年為爆發(fā)期,一年內(nèi)發(fā)表文章18篇,是之前年均發(fā)文量的3倍,該領(lǐng)域突然成為研究熱點(diǎn)。有學(xué)者認(rèn)為2023年是AI爆發(fā)的元年,[2]對檔案專業(yè)來說,2023年無疑是檔案專業(yè)開展AI研究的轉(zhuǎn)折性一年。
1.3 發(fā)文期刊數(shù)量分析。各期刊發(fā)文數(shù)量統(tǒng)計發(fā)現(xiàn),《檔案與建設(shè)》刊載文章最多,共11篇,占總數(shù)的28%;《中國檔案》和《檔案管理》各刊載8篇文章,占總數(shù)的21%;《北京檔案》刊載文章5篇,占總數(shù)的13%;《浙江檔案》刊載文章4篇,占總數(shù)的10%;《檔案學(xué)研究》刊載2篇,占總數(shù)的5%;《檔案學(xué)通訊》刊載文章數(shù)量最少,僅1篇,占總數(shù)的3%。平均刊載量約為6篇,《檔案學(xué)通訊》等4本雜志低于平均刊載量,可見在該領(lǐng)域的研究有待進(jìn)一步提升。
1.4 作者分析
1.4.1 獨(dú)著與聯(lián)合作者對比。39篇文獻(xiàn)中,16篇文獻(xiàn)為獨(dú)著,10篇文章為兩人合著,5篇文章為3人合著,7篇為4人合著,1篇以項(xiàng)目團(tuán)隊(duì)名稱作為作者。合作研究成果是單獨(dú)研究的1.43倍,可知在AI研究領(lǐng)域,研究者更傾向于合作開展研究。且以2人與2人以上聯(lián)合開展研究的數(shù)量基本持平??芍壳霸谠擃I(lǐng)域以聯(lián)合研究為主,其中又以2人聯(lián)合研究居多。
1.4.2 作者發(fā)文數(shù)量及所在行業(yè)分析。如表1所示,共74名作者在該領(lǐng)域發(fā)表文章,其中有6名作者發(fā)表2篇文章,其他作者均只發(fā)表1篇文章??梢钥闯瞿壳斑@一領(lǐng)域的研究者還比較分散,尚未出現(xiàn)核心研究人員。
同時,發(fā)表兩篇文章的6名作者均是聯(lián)合研究,其中3人來自高校,1人來自政府機(jī)關(guān),2人來自企業(yè),具有跨行業(yè)研究的特點(diǎn)。為探究樣本總體能否體現(xiàn)跨行業(yè)研究合作研究的特點(diǎn),故對74名作者所在單位進(jìn)行分析,經(jīng)統(tǒng)計、分類,將其分為高校類事業(yè)單位、機(jī)關(guān)、企業(yè)、非高校類事業(yè)單位。其中,發(fā)文最多的為高校類事業(yè)單位,共發(fā)表文章37篇,具體發(fā)文數(shù)量如表2所示。
考慮到高校檔案館、由高校牽頭設(shè)立的研究機(jī)構(gòu)與高校關(guān)系密切,且有些作者既是高校教師又是某研究機(jī)構(gòu)成員,故將其作為一類進(jìn)行統(tǒng)計。其中,發(fā)文最多的機(jī)構(gòu)為人民大學(xué)信息資源管理學(xué)院,共發(fā)表8篇文章。將人民大學(xué)電子文件管理研究中心、人民大學(xué)檔案事業(yè)發(fā)展研究中心、人民大學(xué)數(shù)字人文研究中心、數(shù)據(jù)工程與知識工程教育部重點(diǎn)實(shí)驗(yàn)室等與人民大學(xué)信息資源管理學(xué)院關(guān)系密切的機(jī)構(gòu)均算作人民大學(xué)的發(fā)文數(shù)量,總數(shù)達(dá)到13篇,超過高校類事業(yè)單位發(fā)文總數(shù)的三分之一,在AI領(lǐng)域研究成果最為豐富。
發(fā)文量排在第二位的為政府機(jī)關(guān),發(fā)現(xiàn)共有14家單位在該領(lǐng)域發(fā)表文章,且各單位均只發(fā)表1篇,尚未出現(xiàn)核心研究單位,但也可看出,較之高校更為側(cè)重具體業(yè)務(wù)研究的檔案部門已開始在AI應(yīng)用研究方面發(fā)力。這14家單位分別是北京市檔案館、北京市市場監(jiān)督管理局、北京市市場監(jiān)督管理局檔案管理中心、福建省檔案館、福建省檔案局、廣東省佛山市檔案中心、河南省白龜山水庫管理局、吉林省檔案館、吉林省延吉市檔案館、太倉市檔案局、應(yīng)急管理部檔案館、浙江省檔案館、鎮(zhèn)江市城鄉(xiāng)建設(shè)檔案館、鹽城市城市建設(shè)檔案館。
發(fā)文量排在第三位的是企業(yè),發(fā)文情況如表3所示。
表中可見,有6家企業(yè)在該領(lǐng)域發(fā)表文章8篇,北京東方基業(yè)科技發(fā)展股份有限公司等2家企業(yè)各發(fā)表文章2篇,其他企業(yè)發(fā)表文章1篇。據(jù)此,可知在AI領(lǐng)域,雖然參與該領(lǐng)域研究的企業(yè)數(shù)量不多,但個別企業(yè)研究深度較大,經(jīng)驗(yàn)更為豐富。
發(fā)文量排在最后的是非高校類事業(yè)單位,具體情況如表4所示。
考慮到該領(lǐng)域聯(lián)合研究的特點(diǎn),對各聯(lián)合研究的單位所屬的行業(yè)進(jìn)行研究,也可看出此類研究的特點(diǎn)。其中聯(lián)合研究的文章共15篇(為探究其跨行業(yè)研究情況,故同一單位的多位作者聯(lián)合發(fā)文不統(tǒng)計在內(nèi)),考慮到文章第一作者一般是貢獻(xiàn)較大者,筆者將其所在單位作為牽頭單位,以此進(jìn)行統(tǒng)計,結(jié)果如表5所示。
表中可見,牽頭開展研究的單位以機(jī)關(guān)和高校為主,其中以機(jī)關(guān)作為牽頭單位開展聯(lián)合研究的共有7家,分別同5家企業(yè)、2家機(jī)關(guān)、2家高校聯(lián)合開展研究。以高校為牽頭單位開展聯(lián)合研究的共8家,并分別同6家高校、2家企業(yè)聯(lián)合開展研究。由此可看出,機(jī)關(guān)、高校在該領(lǐng)域有強(qiáng)烈的聯(lián)合研究需求,且牽頭開展研究的比例基本持平,其中,機(jī)關(guān)更傾向于同企業(yè)合作開展研究,而高校更傾向于在高校之間開展研究。以上是筆者對該領(lǐng)域發(fā)表文獻(xiàn)的定量分析,下面從定性角度進(jìn)行文獻(xiàn)主題分析。
2 研究主題分析
在研究主題方面,通過人工逐篇標(biāo)注,文獻(xiàn)主題數(shù)量共39篇,分為3個主題,分別涉及應(yīng)用研究、方法設(shè)計、理論研究等。其中,應(yīng)用研究9篇,占比23%;方法設(shè)計20篇,占比51%;理論研究10篇,占比26%??梢钥闯觯椒ㄔO(shè)計研究成果最多,一定程度上也代表了目前檔案專業(yè)在AI領(lǐng)域的主要研究方向。
2.1 方法設(shè)計。方法設(shè)計方面的研究共20篇文章,占比51%,應(yīng)用AI技術(shù)的研究對象主要涉及音視頻檔案、照片檔案、檔案館等。
2.1.1 音視頻檔案的研究。一是策略和方法研究,如將AI技術(shù)用于音視頻檔案全周期管理的實(shí)現(xiàn)策略,利用AI技術(shù)對音像檔案內(nèi)容進(jìn)行文本化處理的方法。[3,4]二是內(nèi)容挖掘研究,如利用經(jīng)AI技術(shù)修復(fù)的影像,進(jìn)行音頻內(nèi)容和價值挖掘,并利用自媒體于公共社交平臺進(jìn)行傳播等。[5]
2.1.2 照片檔案的研究。一是檢索機(jī)制研究,如應(yīng)用圖片深度學(xué)習(xí)技術(shù)的先決條件以及當(dāng)前該技術(shù)在照片檔案管理中的難點(diǎn),給出要建立前嚴(yán)后松的檢索機(jī)制,完善照片檔案管理標(biāo)準(zhǔn)及評價指標(biāo),開發(fā)具有自我特色的照片檔案管理模式等方法。[6]二是照片修復(fù)研究,如圍繞圖像超分辨率(Super Resolution,SR)智能修復(fù)算法的原理和四種發(fā)展路線(即基于CNN卷積神經(jīng)網(wǎng)絡(luò)、基于Res Net殘差網(wǎng)絡(luò)、基于Attention注意力機(jī)制網(wǎng)絡(luò)和基于復(fù)合AI技術(shù)的SR技術(shù)),并從基于復(fù)合AI技術(shù)中選取一種名為SWinIR的SR技術(shù)進(jìn)行照片檔案修復(fù)測試,取得較好的修復(fù)效果。[7]
2.1.3 檔案館的研究。一是應(yīng)用場景研究,如分析AI技術(shù)在文件全生命周期中的應(yīng)用圖景以及可能存在制度、技術(shù)、倫理、監(jiān)管風(fēng)險[8];就AI在檔案檢索、開放鑒定、分類整理、檔案保護(hù)中可能的應(yīng)用場景和推進(jìn)策略。[9]二是問題對策研究,如與國外比較分析基礎(chǔ)上,總結(jié)我國檔案館的現(xiàn)狀,提出AI的應(yīng)用規(guī)范化、集成化、融合化措施建議。[10]三是業(yè)務(wù)流程研究,如利用OCR和知識圖譜技術(shù)發(fā)掘檔案價值實(shí)證研究[11];文檔流轉(zhuǎn)信息鏈中的AI技術(shù)應(yīng)用研究等[12]。四是管理標(biāo)準(zhǔn)研究,如總結(jié)館藏紙質(zhì)檔案、音像檔案、照片檔案數(shù)據(jù)化的現(xiàn)狀及問題,提出建立基于AI技術(shù)的標(biāo)準(zhǔn),加強(qiáng)“人工智能+檔案”的人才培養(yǎng)機(jī)制等措施等。[13,14]
2.2 理論研究。理論研究文章共10篇,占比26%,研究內(nèi)容主要涉及問題分析、趨勢分析、因素分析、比較分析等方面。這些分析包括AI技術(shù)應(yīng)用邏輯和對檔案管理帶來的優(yōu)勢以及存在的瓶頸和挑戰(zhàn)[15-18]、AI在檔案管理應(yīng)用研究火熱的原因和發(fā)展邏輯[19,20]、國內(nèi)外利用AI賦能檔案工作比較和借鑒等。[21]總體上,理論研究體現(xiàn)出研究者力圖在AI廣泛應(yīng)用的語境下回答檔案專業(yè)應(yīng)用AI技術(shù)的“應(yīng)然”和“何然”等問題。
2.3 應(yīng)用研究。應(yīng)用研究文章共9篇,占比23%,研究內(nèi)容主要涉及國內(nèi)外檔案界人工智能技術(shù)應(yīng)用的項(xiàng)目、業(yè)務(wù)、模型、平臺、教育、合作等方面。
2.3.1 國外檔案界人工智能技術(shù)應(yīng)用研究。國外的研究主要聚焦項(xiàng)目和案例方面。如瑞士納沙泰爾州檔案館ArchiSelect項(xiàng)目,以AI輔助數(shù)字檔案智能鑒定[22]和AI應(yīng)用于檔案檢索利用、檔案內(nèi)容識別轉(zhuǎn)錄、檔案敏感信息識別等方面的案例;[23]還有羅馬第三大學(xué)和梵蒂岡秘密檔案館開展的Codice Ratio跨學(xué)科項(xiàng)目,澳大利亞的Proof ofConcept(PoC)項(xiàng)目以及美國斯坦福大學(xué)開展的ePADD項(xiàng)目等[24]。
2.3.2 國內(nèi)檔案界人工智能技術(shù)應(yīng)用研究。相關(guān)學(xué)者對電子檔案開放審核的界面、流程、核查比例等進(jìn)行了設(shè)計,搭建適合本館的檔案開放審核模型和模型訓(xùn)練優(yōu)化方法。[25,26]有學(xué)者就長時語音文本轉(zhuǎn)譯技術(shù)及設(shè)備,輔助音視頻條目著錄,圖像內(nèi)容結(jié)構(gòu)化處理等進(jìn)行研究,研發(fā)音視頻檔案轉(zhuǎn)譯文本引擎、音視頻檔案智慧管理平臺。[27]還有學(xué)者利用AI技術(shù)進(jìn)行檔案智能挑選和智能鑒定劃控的研究和檔案管理AI應(yīng)用案例研究。[28,29]另有學(xué)者在借鑒“牛津項(xiàng)目”研究成果(注:該項(xiàng)目設(shè)計了一種計算AI技術(shù)對美國各職業(yè)替代概率的方法)的基礎(chǔ)上,設(shè)計了一個文檔管理專業(yè)面對AI技術(shù)的競爭力計算模型,對美國16所有文件檔案管理方向的學(xué)院所開設(shè)的課程進(jìn)行分析,并得出結(jié)論:樣本院校開設(shè)的課程難以保證學(xué)生面對AI有充分的競爭力。同時個別學(xué)院正通過設(shè)置雙學(xué)位以及交叉性學(xué)科提升學(xué)生對AI的競爭力。[30]
分析上述研究成果可以看出,目前國內(nèi)外在AI技術(shù)應(yīng)用方式上趨于一致,業(yè)務(wù)部門、企業(yè)、學(xué)者合作推進(jìn)的模式已成主流,均致力于利用AI技術(shù)推動檔案管理工作更進(jìn)一步,提高其智慧化水平,且對該技術(shù)的應(yīng)用多通過專門項(xiàng)目形式進(jìn)行部署和推進(jìn)。
3 總結(jié)
通過上述文獻(xiàn)可以看出,ChatGPT技術(shù)的出現(xiàn)是引發(fā)檔案界關(guān)注AI技術(shù)應(yīng)用于檔案工作的濫觴。諸多文章以ChatGPT或生成式AI技術(shù)為研究切入點(diǎn)進(jìn)行闡述。[31-34]故筆者推測2023年檔案專業(yè)有關(guān)AI研究的文章暴增與此相關(guān)。
總體來看,檔案專業(yè)主要從兩個角度出發(fā)研究AI技術(shù)與檔案工作的關(guān)系。
一是對AI技術(shù)應(yīng)用于檔案管理各環(huán)節(jié)情況進(jìn)行研究。在這一方面,北京、福建等地檔案部門已作出具有一定推廣價值的研究成果。北京市市場監(jiān)督管理局面對現(xiàn)實(shí)工作中遇到的用戶查詢精度高,傳統(tǒng)檢索方式效率低的矛盾,通過引入AI技術(shù)中的圖像識別和信息抽取技術(shù),實(shí)現(xiàn)了對存量數(shù)字化圖像批量自動識別、定位,大幅提升了檔案檢索的精確度。面對存量檔案數(shù)量龐大,不同時期檔案開放審核標(biāo)準(zhǔn)不統(tǒng)一,批量開放可能存在安全隱患的困境,利用圖像識別和內(nèi)容識別技術(shù)結(jié)合專家系統(tǒng),研發(fā)了檔案頁面公開級別智能鑒定工具,有效消除了檔案共享利用中信息泄露的隱患。面對音視頻檔案內(nèi)容不連貫、片段多、檢索不便的特點(diǎn),嘗試通過利用語音識別技術(shù)、計算機(jī)視覺技術(shù)等對行政執(zhí)法過程中產(chǎn)生的音視頻進(jìn)行自動分類、智能檢索。類似的,國家檔案局檔案科學(xué)技術(shù)研究所與科大訊飛成立了AI領(lǐng)域的聯(lián)合實(shí)驗(yàn)室,以期構(gòu)建新型AI智慧檔案行業(yè)標(biāo)準(zhǔn)。中國石油天然氣集團(tuán)有限公司利用AI等技術(shù),提升了用戶體驗(yàn)。福建省檔案館同樣為打破傳統(tǒng)檔案開放審核效率低、主觀性強(qiáng)、學(xué)習(xí)成本高、學(xué)習(xí)周期長的弊端,積極探索利用基于CRNN+CTC的文字識別算法,以ERNIE模型作為分類器的預(yù)訓(xùn)練模型,重構(gòu)館內(nèi)檔案開放審核流程,通過智能分庫,語義分析、AI等技術(shù)輔助進(jìn)行檔案開放審核,研發(fā)了利用多級敏感詞分類輔助開放審核的“人工智能輔助檔案開放審核系統(tǒng)”,實(shí)現(xiàn)待開放審核檔案自動分類,高亮顯示敏感詞及頻度表,有效提高了檔案開放審核效率。上述研究成果說明AI技術(shù)在檔案領(lǐng)域大有可為,且已進(jìn)入實(shí)踐層面。
二是某類檔案管理中應(yīng)用AI技術(shù)研究。著重體現(xiàn)在利用AI技術(shù)進(jìn)行照片、音視頻檔案管理上,諸如照片修復(fù),語音轉(zhuǎn)文字并深加工為結(jié)構(gòu)化數(shù)據(jù)等,且所提技術(shù)方法具體、明確,可操作性強(qiáng)。如利用AI技術(shù)成功修復(fù)珍貴影像、利用AI技術(shù)修復(fù)部分照片獲得信息增益等的技術(shù)和經(jīng)驗(yàn)具有推廣借鑒價值。浙江省檔案館構(gòu)建的音視頻檔案管理平臺,規(guī)范了音視頻檔案數(shù)據(jù)化業(yè)務(wù)流程,為實(shí)現(xiàn)AI技術(shù)輔助音視頻檔案整理利用提供了有效手段。同時,部分高校學(xué)者通過探究AI技術(shù)的發(fā)展過程、技術(shù)特點(diǎn)以及與檔案工作的關(guān)系,為AI技術(shù)與檔案工作的結(jié)合提供了理論支撐。
此外,研究者對利用AI技術(shù)推進(jìn)檔案工作發(fā)展的措施上體現(xiàn)出幾方面明顯共識。
一是強(qiáng)調(diào)加強(qiáng)檔案管理理論與AI技術(shù)的融合。AI技術(shù)賦能檔案管理的方法及效果顯而易見——所想所得、高效流暢、多樣呈現(xiàn)的利用方式以及自然融合、動態(tài)實(shí)施的信息自組織[35]——使得研究者對不斷深化檔案理論與AI技術(shù)的融合毫無異議。
二是要建立健全檔案專業(yè)應(yīng)用AI技術(shù)的法規(guī)及倫理標(biāo)準(zhǔn)。由于檔案內(nèi)容具有較強(qiáng)的隱私性,而AI技術(shù)又存在較大的數(shù)據(jù)泄露和隱私安全風(fēng)險,需要建立有效的安全管理制度和倫理道德規(guī)范,方可實(shí)現(xiàn)AI技術(shù)效益最大化。
三是需積極培養(yǎng)綜合型檔案人才。[36]對檔案行業(yè)來說,這一共識早已形成,隨著檔案信息化工作的推進(jìn),檔案行業(yè)已深刻意識到培養(yǎng)既懂信息技術(shù)又掌握檔案管理技術(shù)的復(fù)合型人才的重要性,單一的學(xué)科背景將難以推動這項(xiàng)工作順利開展。
四是注重規(guī)避AI技術(shù)給檔案工作帶來的風(fēng)險。[37]這一共識同上述第二點(diǎn)共識較為類似,AI技術(shù)雖然在提升檔案管理體驗(yàn)上存在無限的可能性,但無法求證的數(shù)據(jù)處理過程,機(jī)器處理依然存在的數(shù)據(jù)錯誤,使用大量檔案數(shù)據(jù)進(jìn)行學(xué)習(xí)所帶來的隱私泄露風(fēng)險以及機(jī)器對數(shù)據(jù)處理和信息識別、理解技術(shù)上的不成熟,依然使得AI技術(shù)應(yīng)用于檔案工作時存在諸多風(fēng)險。因此,檔案管理人員在應(yīng)對AI技術(shù)可能給檔案工作帶來的改變時,應(yīng)對其技術(shù)特點(diǎn)和自身專業(yè)素養(yǎng)有清晰的認(rèn)識,既積極發(fā)揮人工智能技術(shù)給檔案工作帶來的便利,又要主動作為,在檔案工作中充分發(fā)揮主觀能動性。