代林序 張玉潔
摘 要:文章解析了檔案機(jī)構(gòu)主導(dǎo)的機(jī)器學(xué)習(xí)應(yīng)用于檔案管理的實(shí)驗(yàn)項(xiàng)目,旨在充分認(rèn)識(shí)機(jī)器學(xué)習(xí)應(yīng)用的可行性以及應(yīng)用邏輯與方法?;趯?duì)澳大利亞新南威爾士州機(jī)器學(xué)習(xí)實(shí)驗(yàn)的過程分析,發(fā)現(xiàn)充足且高質(zhì)量的數(shù)據(jù)集、軟硬件等基礎(chǔ)設(shè)施及專業(yè)人才是機(jī)器學(xué)習(xí)技術(shù)成功應(yīng)用的重要因素。因此,檔案機(jī)構(gòu)應(yīng)用機(jī)器學(xué)習(xí)技術(shù)可從推進(jìn)檔案數(shù)據(jù)化進(jìn)程、加強(qiáng)技術(shù)型人才儲(chǔ)備、立足檔案管理實(shí)踐制定應(yīng)用方案等方向探索。
關(guān)鍵詞:檔案管理;檔案鑒定;機(jī)器學(xué)習(xí)
分類號(hào):G273
Application and Challenge of Machine Learning in Archives Management
—— Based on the Investigation and Enlightenment of Machine Learning Experiment in New South Wales Archives
Dai Linxu1, Zhang Yujie2
(1.School of Public Administration, Sichuan University, Chengdu, Sichuan, 610065; 2.School of Information Resource Management, Renmin University of China, Beijing, 100872)
Abstract: The article analyzes an experimental project led by an archival institution on the application of machine learning to archival management with the aim of fully understanding the feasibility of machine learning applications and the logic and methods of application. Based on the process analysis of machine learning experiments in New South Wales, Australia, it was found that adequate and high-quality datasets, infrastructure such as hardware and software, and professional talents are important elements for the successful application of machine learning technology. Therefore, the application of machine learning technology by archival institutions can be explored in the direction of promoting the process of archival data, strengthening the reserve of technologyoriented talents, and formulating application solutions based on archival management practices.
Keywords:Archives Management; Archives Appraisal; Machine Learning
數(shù)字環(huán)境下檔案管理工作變得愈加復(fù)雜:一方面,數(shù)字化、數(shù)據(jù)化檔案資源數(shù)量龐大且增長(zhǎng)迅速[1],為以人工為主的檔案管理工作帶來(lái)了巨大壓力,同時(shí),類型多樣、半結(jié)構(gòu)化及非結(jié)構(gòu)化的檔案信息或數(shù)據(jù)也使檔案管理工作變得更加煩瑣和復(fù)雜[2];另一方面,檔案服務(wù)對(duì)象也呈現(xiàn)出多樣化趨勢(shì),傳統(tǒng)的檢索及借閱服務(wù)已經(jīng)無(wú)法滿足用戶的個(gè)性化需求,檔案館難以提供專業(yè)化、知識(shí)化的服務(wù)內(nèi)容或特色服務(wù)[3]。因此,尋求新技術(shù)以提高檔案管理效率及現(xiàn)代化程度,促進(jìn)檔案管理工作自動(dòng)化、智能化已成為迫切需求[4],機(jī)器學(xué)習(xí)作為人工智能中最活躍的技術(shù)領(lǐng)域之一,探究機(jī)器學(xué)習(xí)在檔案管理中的應(yīng)用成為實(shí)踐熱點(diǎn)。
在研究層面,機(jī)器學(xué)習(xí)在檔案管理中的應(yīng)用主要從以下方面展開:一是機(jī)器學(xué)習(xí)應(yīng)用于檔案管理的合理性。一方面,數(shù)字檔案具有直接的機(jī)器可讀性,計(jì)算機(jī)算法可以檢測(cè)、識(shí)別和捕捉包括數(shù)據(jù)結(jié)構(gòu)層次、元數(shù)據(jù)層次及文件表層的數(shù)字檔案信息,有助于用戶對(duì)檔案資源進(jìn)行多方面、多層次的挖掘[5]。另一方面,在數(shù)字環(huán)境下,檔案館龐大的館藏與有限的人力資源之間的矛盾愈加凸顯,計(jì)算機(jī)為輔助、人工為主導(dǎo)的管理模式存在效率低、成本高、難以挖掘出檔案信息中隱含價(jià)值等缺點(diǎn)[6]。二是機(jī)器學(xué)習(xí)應(yīng)用于檔案管理的模式。研究認(rèn)為,機(jī)器學(xué)習(xí)的應(yīng)用邏輯是以檔案管理需求為導(dǎo)向,以具體應(yīng)用場(chǎng)景為核心,即檔案管理各業(yè)務(wù)環(huán)節(jié)中面臨著投入大量人力勞動(dòng)的壓力及低效率風(fēng)險(xiǎn)時(shí),需要利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)自動(dòng)化及智能化處理[7]。大量研究已立足于檔案管理具體應(yīng)用場(chǎng)景開展算法設(shè)計(jì)和可行性驗(yàn)證,如檔案類別的重新劃分和自動(dòng)分類[8]、歷史檔案信息的提取分析[9]、檔案的保存期限及密級(jí)鑒定[10]、檔案檢索[11]等。三是在檔案管理中應(yīng)用機(jī)器學(xué)習(xí)的挑戰(zhàn)及對(duì)策。首先,機(jī)器學(xué)習(xí)的時(shí)間成本過高,在數(shù)據(jù)及信息的識(shí)別和理解方面也具有一定的局限性[12]。研究指出,人機(jī)協(xié)同和融合的檔案管理模式有助于實(shí)現(xiàn)機(jī)器與人兩者的優(yōu)勢(shì)互補(bǔ)[13]。其次,機(jī)器理解具有復(fù)雜結(jié)構(gòu)的檔案資源存在一定困難,同時(shí),冗余及低質(zhì)量、不相關(guān)的數(shù)據(jù)會(huì)導(dǎo)致誤導(dǎo)性偏差或運(yùn)行錯(cuò)誤[14]。研究認(rèn)為,可以比較不同算法的訓(xùn)練成果選出最優(yōu)解,并通過不斷地訓(xùn)練提高其精確性。最后,檔案本身具有的保密性,應(yīng)用機(jī)器學(xué)習(xí)必然需要大量的檔案數(shù)據(jù),存在數(shù)據(jù)泄露等風(fēng)險(xiǎn)[15]。因此研究認(rèn)為,需要構(gòu)建一個(gè)結(jié)構(gòu)合理的責(zé)任體系和利用規(guī)范,避免數(shù)據(jù)的濫用和盜用[16]。
在實(shí)踐層面,一些探索性、實(shí)驗(yàn)性的實(shí)踐項(xiàng)目陸續(xù)開展,多由檔案工作者與技術(shù)研究人員等跨界組成研究團(tuán)隊(duì)展開,且以文本數(shù)據(jù)和圖像數(shù)據(jù)作為主要的實(shí)驗(yàn)對(duì)象[17]。例如2018年,In Codice Ratio團(tuán)隊(duì)以梵蒂岡檔案館(VSA)保存的歷史檔案為實(shí)驗(yàn)對(duì)象,使用深度學(xué)習(xí)結(jié)構(gòu)中的卷積神經(jīng)網(wǎng)絡(luò)算法開發(fā)內(nèi)容分析工具,識(shí)別歷史檔案中大量的手寫文字并進(jìn)行單詞轉(zhuǎn)化,以期為研究人員提供更便捷、高效的檢索服務(wù)[18];2017年,澳大利亞新南威爾士州檔案館(NSWSAR)團(tuán)隊(duì)以機(jī)構(gòu)非結(jié)構(gòu)化檔案數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,借助現(xiàn)成的機(jī)器學(xué)習(xí)工具對(duì)數(shù)據(jù)進(jìn)行分類和鑒定[19];同年,美國(guó)自然歷史博物館以其植物標(biāo)本圖像作為實(shí)驗(yàn)對(duì)象,使用卷積神經(jīng)網(wǎng)絡(luò)算法分析圖像特征并按照形態(tài)相似程度進(jìn)行自動(dòng)分類[20]。從大多數(shù)實(shí)踐項(xiàng)目呈現(xiàn)出的實(shí)驗(yàn)結(jié)果來(lái)看,經(jīng)過充分的訓(xùn)練,算法的準(zhǔn)確率能達(dá)到較高水平,且在檔案管理實(shí)踐的可容錯(cuò)范圍內(nèi),這也進(jìn)一步驗(yàn)證了機(jī)器學(xué)習(xí)應(yīng)用于檔案管理領(lǐng)域的可行性。
綜上,現(xiàn)有研究對(duì)于機(jī)器學(xué)習(xí)應(yīng)用于檔案管理的可行性及應(yīng)用模式進(jìn)行了較為充分的研究,但在實(shí)踐中,不同領(lǐng)域、不同管理機(jī)構(gòu)、不同全宗形成或持有的檔案都有其特殊性,機(jī)器學(xué)習(xí)仍然需要人工識(shí)別和預(yù)測(cè)任務(wù)、選擇合適的算法、獲得足夠的訓(xùn)練、花費(fèi)大量的時(shí)間和成本[21],在應(yīng)用過程中也會(huì)面臨客觀條件受限的可能。而目前缺少案例研究對(duì)實(shí)踐經(jīng)驗(yàn)進(jìn)行充分的分析,對(duì)機(jī)器學(xué)習(xí)如何應(yīng)用于檔案管理提供的參考較為有限。因而,文章以案例研究的方法對(duì)澳大利亞新南威爾士州檔案館機(jī)器學(xué)習(xí)實(shí)驗(yàn)進(jìn)行介紹,以期為我國(guó)檔案機(jī)構(gòu)探索機(jī)器學(xué)習(xí)的具體應(yīng)用提供方向。
2.1 實(shí)驗(yàn)背景與目標(biāo)
機(jī)器學(xué)習(xí)在文件及檔案管理領(lǐng)域有大量潛在的應(yīng)用場(chǎng)景,然而在該技術(shù)被大量采用之前,需要有經(jīng)過驗(yàn)證的使用案例來(lái)說明這些工具的工作效果,并確定其可能帶來(lái)的風(fēng)險(xiǎn)[22]。NSWSAR機(jī)器學(xué)習(xí)實(shí)驗(yàn)詳細(xì)記錄了其算法及工具選擇、數(shù)據(jù)處理、實(shí)驗(yàn)方法、結(jié)果評(píng)估的全過程,充分反映了機(jī)器學(xué)習(xí)在檔案管理實(shí)踐中的應(yīng)用效果,且語(yǔ)料庫(kù)為行政文書類檔案數(shù)據(jù),相較于其他案例與我國(guó)應(yīng)用現(xiàn)實(shí)更相關(guān),實(shí)驗(yàn)經(jīng)驗(yàn)具有很強(qiáng)的可移植性和可操作性;同時(shí),該實(shí)驗(yàn)在缺少技術(shù)成員支撐與經(jīng)費(fèi)支持的情況下采用了低成本及使用現(xiàn)成技術(shù)的解決方案,也為檔案館解決應(yīng)用機(jī)器學(xué)習(xí)的技術(shù)障礙提供了新思路。NSWSAR數(shù)字檔案團(tuán)隊(duì)于2017年計(jì)劃開展內(nèi)部和外部實(shí)驗(yàn),探索機(jī)器學(xué)習(xí)在檔案管理中的應(yīng)用。首先,該團(tuán)隊(duì)于2017年11月至12月完成了一次內(nèi)部實(shí)驗(yàn)。該實(shí)驗(yàn)采用現(xiàn)成的機(jī)器學(xué)習(xí)軟件,對(duì)照該機(jī)構(gòu)檔案鑒定的標(biāo)準(zhǔn)與規(guī)定對(duì)非結(jié)構(gòu)化檔案數(shù)據(jù)的語(yǔ)料庫(kù)進(jìn)行分類。這一檔案語(yǔ)料庫(kù)已經(jīng)過前期的人工鑒定,通過對(duì)比機(jī)器學(xué)習(xí)算法的分類結(jié)果與人工鑒定結(jié)果,測(cè)試機(jī)器學(xué)習(xí)算法的準(zhǔn)確度。其次,數(shù)字檔案團(tuán)隊(duì)和澳大利亞總理與內(nèi)閣部(DPC)在2018年6月至7月合作開展了一次外部實(shí)驗(yàn),主要目標(biāo)是驗(yàn)證內(nèi)部實(shí)驗(yàn)形成的算法模型與DPC提供的電子文件語(yǔ)料庫(kù)的匹配程度。
2.2 內(nèi)部實(shí)驗(yàn)
在前期準(zhǔn)備階段,一方面,由于資源、預(yù)算有限,實(shí)驗(yàn)選擇針對(duì)Python編程語(yǔ)言的免費(fèi)、開源的機(jī)器學(xué)習(xí)庫(kù)Scikit-Learn作為技術(shù)工具,該工具是為用戶提供可進(jìn)行模型擬合、數(shù)據(jù)預(yù)處理、模型選擇和評(píng)估的高質(zhì)量、有據(jù)可查的規(guī)范化工具集,其優(yōu)勢(shì)在于簡(jiǎn)單有效、支持監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)[23];另一方面,項(xiàng)目團(tuán)隊(duì)選擇用于內(nèi)部實(shí)驗(yàn)的語(yǔ)料庫(kù)是2016年由州政府某部門遷移至數(shù)字檔案館系統(tǒng)中的檔案集合,其特殊之處在于它包含了完整的機(jī)構(gòu)文件夾結(jié)構(gòu)。在遷移時(shí),由檔案館與該部門合作,根據(jù)分類和處置機(jī)構(gòu)行政文件的一般性標(biāo)準(zhǔn)(GA28)進(jìn)行了人工鑒定,鑒定結(jié)果為:共計(jì)12369份檔案需要作為國(guó)家檔案被保存,而完整的檔案集合由30GB的數(shù)據(jù)組成,分為7561個(gè)文件夾,包含42653個(gè)文件[24]。
在實(shí)驗(yàn)測(cè)試階段,項(xiàng)目使用機(jī)器學(xué)習(xí)算法進(jìn)行自動(dòng)化分類的具體步驟如下:
(1)文本提取。為確保項(xiàng)目后期的順利開展和進(jìn)一步的文本處理,項(xiàng)目選擇了容易被提取文本的文件類型如PDF、DOCX、DOC格式的文件,因此在被列為國(guó)家檔案的12369份文件中,只有8784份文件被選中使用。首先在對(duì)樣本集進(jìn)行簡(jiǎn)單排序后,使用Python算法從文件中提取文本,并列出作為唯一標(biāo)識(shí)符的文件名、所屬分類和文本提取內(nèi)容。
(2)數(shù)據(jù)清理。項(xiàng)目團(tuán)隊(duì)采取了一種非?;镜臄?shù)據(jù)清理方法,即刪除文件格式、刪除休止符、刪除不需要的文件以及將所有字母轉(zhuǎn)換為小寫。
(3)文本向量化。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法不能直接對(duì)文本進(jìn)行處理,必須將文本轉(zhuǎn)化為機(jī)器學(xué)習(xí)算法能夠理解和處理的數(shù)值,因此實(shí)驗(yàn)需要將文本轉(zhuǎn)化為數(shù)字特征向量,使用詞袋模型構(gòu)建“文檔—詞項(xiàng)”矩陣,該矩陣描述了文件中主要詞項(xiàng)的出現(xiàn)頻率。
(4)詞頻—逆向文件頻率加權(quán)計(jì)算(TF-IDF)。在文本向量化過程中容易將出現(xiàn)頻率較高的無(wú)意義詞條或與文件主要內(nèi)容相關(guān)度較低的詞條填充至矩陣中,如“Are”“The”“It”等,但這些詞條對(duì)于“文檔—詞項(xiàng)”矩陣表示沒有意義。因此項(xiàng)目團(tuán)隊(duì)使用TF-IDF權(quán)重計(jì)算方法判斷該詞條是否是文件的關(guān)鍵詞;之后訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分組開展實(shí)驗(yàn)。實(shí)驗(yàn)采用了標(biāo)準(zhǔn)比例,即75%的訓(xùn)練數(shù)據(jù)和25%的測(cè)試數(shù)據(jù)。項(xiàng)目團(tuán)隊(duì)從語(yǔ)料庫(kù)抽取了預(yù)分類“需要作為國(guó)家檔案”數(shù)據(jù)集中的75%,并利用這些數(shù)據(jù)來(lái)訓(xùn)練建立模型的算法,項(xiàng)目使用了樸素貝葉斯模型和多層感知模型兩種廣泛應(yīng)用的機(jī)器學(xué)習(xí)算法來(lái)建立模型。訓(xùn)練完成后,同樣的算法和模型被用來(lái)處理納入測(cè)試數(shù)據(jù)集的其他25%的數(shù)據(jù)?;诖?,項(xiàng)目可以評(píng)估模型的準(zhǔn)確度并確定、比較兩種算法準(zhǔn)確分類的百分比。
在結(jié)果分析階段,如表2所示,使用多層感知器算法的分類匹配率最高達(dá)到84%;同時(shí)綜合表1及表2,比較兩種算法的測(cè)試結(jié)果以及兩種算法在未清理數(shù)據(jù)和已清理數(shù)據(jù)中運(yùn)行的表現(xiàn),項(xiàng)目團(tuán)隊(duì)認(rèn)為,機(jī)器學(xué)習(xí)技術(shù)能夠協(xié)助對(duì)未分類的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分類處置[25]。另外,項(xiàng)目團(tuán)隊(duì)根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn)總結(jié)了應(yīng)用機(jī)器學(xué)習(xí)技術(shù)的局限性,如算法分類過程中所犯的錯(cuò)誤只會(huì)隨著時(shí)間的推移在模型中累積,且不會(huì)得到糾正,這將會(huì)導(dǎo)致最終測(cè)試結(jié)果產(chǎn)生偏差。
2.3 外部實(shí)驗(yàn)
外部實(shí)驗(yàn)的開展主要是為了驗(yàn)證前期內(nèi)部實(shí)驗(yàn)的結(jié)果,兩者相比,外部實(shí)驗(yàn)在參與主體方面涉及一個(gè)外部機(jī)構(gòu)合作伙伴;在檔案數(shù)據(jù)方面使用的語(yǔ)料庫(kù)為數(shù)據(jù)量更大、涉及更多樣處置結(jié)果和類別并且?guī)в袠?biāo)簽的語(yǔ)料庫(kù),這種大規(guī)模且更為復(fù)雜的檔案數(shù)據(jù)集也非常適用于驗(yàn)證前期內(nèi)部實(shí)驗(yàn)結(jié)果;在技術(shù)使用方面選擇與內(nèi)部實(shí)驗(yàn)相同的多層感知器算法,并將Scikit-Learn恢復(fù)為內(nèi)部實(shí)驗(yàn)的初始設(shè)置,同時(shí)增加使用了Aspose文件格式API工具從電子文件中提取文本,減少數(shù)據(jù)浪費(fèi),為算法模型提供了更多數(shù)據(jù)。
在前期準(zhǔn)備階段,項(xiàng)目團(tuán)隊(duì)首先從DPC提供的語(yǔ)料庫(kù)中提取出用于本次實(shí)驗(yàn)的電子文件共108064個(gè),其次于2018年6月27日至7月5日進(jìn)行文本提取工作,為算法模型準(zhǔn)備測(cè)試數(shù)據(jù),由于部分文件中包含數(shù)字圖像或圖表數(shù)據(jù)不適合應(yīng)用算法模型進(jìn)行分類測(cè)試,未能成功提取文本,最終篩選得到86453個(gè)可用的文件,最后團(tuán)隊(duì)將電子文件轉(zhuǎn)換為CSV文件格式以便在模型中運(yùn)行[26]。
在實(shí)驗(yàn)測(cè)試階段,算法模型第一次運(yùn)行后分類預(yù)測(cè)成功率高達(dá)91%和97%(試驗(yàn)1、試驗(yàn)2),項(xiàng)目團(tuán)隊(duì)判斷該語(yǔ)料庫(kù)存在數(shù)據(jù)權(quán)重失衡的問題,其中大概三分之二的數(shù)據(jù)(62988個(gè)文件)都屬于FA254-02.02.02這個(gè)類別,因此該試驗(yàn)的預(yù)測(cè)結(jié)果不具有可信度。為使數(shù)據(jù)集更具代表性,從而使預(yù)測(cè)結(jié)果更加真實(shí),項(xiàng)目團(tuán)隊(duì)決定排除該類別的文件運(yùn)行測(cè)試(測(cè)試1),同時(shí)使用根據(jù)不同類別和保管期限表分類的部分語(yǔ)料進(jìn)行了一系列測(cè)試,以了解預(yù)測(cè)準(zhǔn)確性如何根據(jù)語(yǔ)料庫(kù)包含的處置類別變化而變化(測(cè)試2—測(cè)試6)。另外,項(xiàng)目團(tuán)隊(duì)以21805個(gè)物理文件(即沒有成功提取文本進(jìn)行分類的電子文件)的XML元數(shù)據(jù)作為測(cè)試數(shù)據(jù)集進(jìn)行最后測(cè)試(測(cè)試7)。
在結(jié)果分析階段,外部實(shí)驗(yàn)測(cè)試結(jié)果[27](如表 3所示)與內(nèi)部實(shí)驗(yàn)的結(jié)果大體相當(dāng),驗(yàn)證了機(jī)器學(xué)習(xí)算法的可用性,但為保證分類結(jié)果的正確性,仍然離不開人工的檢查和微調(diào);同時(shí),本次實(shí)驗(yàn)說明了語(yǔ)料庫(kù)的特征如數(shù)據(jù)類別覆蓋范圍的大小以及復(fù)雜性對(duì)機(jī)器學(xué)習(xí)算法的運(yùn)行結(jié)果有一定的影響。
2.4 實(shí)驗(yàn)經(jīng)驗(yàn)與不足
NSWSAR的實(shí)驗(yàn)表明,檔案機(jī)構(gòu)可以通過機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn)數(shù)字檔案的自動(dòng)化分類以及完成識(shí)別具備長(zhǎng)久保存價(jià)值的數(shù)字檔案的決策過程,實(shí)驗(yàn)數(shù)據(jù)也反映出使用機(jī)器學(xué)習(xí)具有相當(dāng)高的準(zhǔn)確性,并且原則上,這種算法模型可以很容易地集成到檔案館的數(shù)字檔案館系統(tǒng)中,以提高檔案分類、鑒定的效率與質(zhì)量。文章根據(jù)NSWSAR實(shí)驗(yàn)進(jìn)行過程中面臨的障礙及解決方案總結(jié)經(jīng)驗(yàn):
首先,充足且高質(zhì)量的數(shù)據(jù)集是機(jī)器學(xué)習(xí)實(shí)驗(yàn)的關(guān)鍵。正如前文所強(qiáng)調(diào)的,數(shù)據(jù)是機(jī)器學(xué)習(xí)的核心,一方面,機(jī)器學(xué)習(xí)需要大量的數(shù)據(jù)開展訓(xùn)練,另一方面數(shù)據(jù)集的規(guī)模、質(zhì)量和特征等要素對(duì)機(jī)器學(xué)習(xí)算法模型的學(xué)習(xí)效果和預(yù)測(cè)效果都有極大的影響。理論上說,數(shù)據(jù)量越大,所訓(xùn)練出的機(jī)器學(xué)習(xí)算法模型也就越逼近真實(shí)情況;數(shù)據(jù)集的質(zhì)量越好,所訓(xùn)練出的算法模型準(zhǔn)確率就越高,因此實(shí)驗(yàn)前期準(zhǔn)備階段的基礎(chǔ)工作如數(shù)據(jù)清理、數(shù)據(jù)提取等就顯得尤為重要,例如NSWSAR數(shù)字檔案團(tuán)隊(duì)在內(nèi)部實(shí)驗(yàn)中首先在語(yǔ)料庫(kù)中進(jìn)行了篩選,其次通過文本提取的方式剔除機(jī)器無(wú)法讀取的信息,最后通過刪除休止符、刪除文件格式等基礎(chǔ)的操作進(jìn)行數(shù)據(jù)清理,在外部實(shí)驗(yàn)中進(jìn)一步利用Aspose文件格式API集提升文本提取的質(zhì)量和效果,有效避免了數(shù)據(jù)浪費(fèi)。
其次,軟硬件等基礎(chǔ)設(shè)施及專業(yè)人才是機(jī)器學(xué)習(xí)實(shí)驗(yàn)的基礎(chǔ)。在基礎(chǔ)設(shè)施上,機(jī)器學(xué)習(xí)實(shí)驗(yàn)不僅要有大量的訓(xùn)練數(shù)據(jù)集,而且還要在本地計(jì)算機(jī)上擁有足夠的計(jì)算能力來(lái)處理模型,同時(shí)在開發(fā)內(nèi)部軟件項(xiàng)目時(shí)應(yīng)編寫文檔齊全、測(cè)試良好的代碼。在專業(yè)人才支持上,實(shí)驗(yàn)既需要專門的信息與通信技術(shù)或者數(shù)據(jù)科學(xué)方面的知識(shí),也需要了解數(shù)據(jù)內(nèi)容和檔案管理知識(shí)及標(biāo)準(zhǔn)規(guī)范的專家。NSWSAR提供的資源有限,數(shù)字檔案團(tuán)隊(duì)僅擁有一臺(tái)性能強(qiáng)大、具備充足內(nèi)存和固態(tài)硬盤的機(jī)器來(lái)運(yùn)行模型,因此在內(nèi)部實(shí)驗(yàn)期間團(tuán)隊(duì)接收了一位具有機(jī)器學(xué)習(xí)算法運(yùn)行經(jīng)驗(yàn)的計(jì)算機(jī)專業(yè)研究生為實(shí)驗(yàn)提供技術(shù)支持,利用Scikit-Learn提供的預(yù)構(gòu)建分類器算法減少算法設(shè)計(jì)開發(fā)的成本和時(shí)間。
然而NSWSAR開展的實(shí)驗(yàn)僅說明了機(jī)器學(xué)習(xí)用于檔案管理的可行性,但該實(shí)驗(yàn)尚未立足于新南威爾士州檔案管理的實(shí)踐環(huán)境進(jìn)行測(cè)試,如要將機(jī)器學(xué)習(xí)具體應(yīng)用于檔案管理實(shí)踐,還有更多亟需解決的問題,例如引入機(jī)器學(xué)習(xí)技術(shù)后如何相應(yīng)地調(diào)整檔案管理方法與流程?機(jī)器學(xué)習(xí)算法的偏差如何進(jìn)行檢測(cè)?應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行檔案的分類、鑒定等工作后如何建立問責(zé)機(jī)制[28]?
把握人工智能發(fā)展的戰(zhàn)略機(jī)遇已成為中國(guó)檔案事業(yè)建設(shè)的關(guān)注重點(diǎn),但實(shí)踐仍處于探索階段:一方面,人工智能技術(shù)應(yīng)用于檔案領(lǐng)域已獲得國(guó)家層面的鼓勵(lì)與推動(dòng)。2017年國(guó)務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》并提出,在人工智能發(fā)展的新階段把握人工智能技術(shù)屬性與社會(huì)屬性高度融合的特征,加大人工智能的研發(fā)和應(yīng)用力度,推進(jìn)社會(huì)治理現(xiàn)代化[29];2018年國(guó)家檔案局檔案科學(xué)技術(shù)研究所與科大訊飛簽署合作協(xié)議,共同推動(dòng)人工智能技術(shù)在檔案管理中的應(yīng)用,以實(shí)現(xiàn)檔案智慧化轉(zhuǎn)型升級(jí)[30]。另一方面,整體實(shí)踐呈現(xiàn)出應(yīng)用場(chǎng)景集中、應(yīng)用范圍待拓展的狀況。目前我國(guó)實(shí)踐項(xiàng)目多采用檔案機(jī)構(gòu)與企業(yè)、科研機(jī)構(gòu)合作的模式,技術(shù)應(yīng)用場(chǎng)景集中于檔案數(shù)據(jù)化、影像修復(fù)、檔案分類鑒定等領(lǐng)域[31],如浙江省檔案館與科大訊飛合作并基于人工智能技術(shù)實(shí)現(xiàn)音視頻檔案的全文數(shù)據(jù)化,建立人物人臉數(shù)據(jù)庫(kù)[32];但相較而言,檔案分類鑒定場(chǎng)景下存在技術(shù)應(yīng)用難度大、風(fēng)險(xiǎn)度高的問題。因此,借鑒NSWSAR機(jī)器學(xué)習(xí)實(shí)驗(yàn)的經(jīng)驗(yàn),可為我國(guó)開展類似實(shí)驗(yàn)項(xiàng)目提供探索方向:
第一,推動(dòng)檔案數(shù)據(jù)化進(jìn)程。(1)為機(jī)器學(xué)習(xí)的應(yīng)用提供數(shù)據(jù)基礎(chǔ)。數(shù)字檔案是文字、圖像、視頻、音頻等多種形式組合的復(fù)雜信息,為機(jī)器學(xué)習(xí)提取、理解、分析信息帶來(lái)挑戰(zhàn),目前的實(shí)驗(yàn)項(xiàng)目?jī)H能對(duì)檔案的文本或圖像信息進(jìn)行識(shí)別和處理,應(yīng)用于檔案管理實(shí)踐則會(huì)造成檔案信息的損失,同時(shí)傳統(tǒng)的紙質(zhì)檔案數(shù)字化、數(shù)據(jù)化程度不足,其數(shù)字化版本與原生數(shù)字檔案相比元數(shù)據(jù)等背景信息不夠豐富和完整[33]。因此,推進(jìn)檔案數(shù)據(jù)化進(jìn)程,將數(shù)字態(tài)檔案轉(zhuǎn)化為數(shù)據(jù)態(tài),對(duì)檔案信息進(jìn)行拆分、提取、組合和結(jié)構(gòu)化,實(shí)現(xiàn)機(jī)器的可理解、可分析[34],為機(jī)器學(xué)習(xí)應(yīng)用于檔案管理并實(shí)現(xiàn)檔案管理智能化奠定基礎(chǔ)。(2)設(shè)計(jì)并建立配套的數(shù)據(jù)管理制度,實(shí)現(xiàn)管理技術(shù)工具、政策標(biāo)準(zhǔn)、流程步驟等的內(nèi)在統(tǒng)一。將機(jī)器學(xué)習(xí)應(yīng)用于檔案管理的具體業(yè)務(wù)環(huán)節(jié),需要檔案機(jī)構(gòu)調(diào)整原有的檔案管理方法或流程,明確融入機(jī)器學(xué)習(xí)且適用于檔案數(shù)據(jù)特征及要求的數(shù)據(jù)管理具體實(shí)踐內(nèi)容,包括數(shù)據(jù)收集、創(chuàng)建、處理、分析與存儲(chǔ)等環(huán)節(jié),保障數(shù)據(jù)管理政策與程序、規(guī)則與模型的完整性和長(zhǎng)期可持續(xù)性。
第二,加強(qiáng)技術(shù)型人才儲(chǔ)備。機(jī)器學(xué)習(xí)技術(shù)的快速更新與發(fā)展要求具有相關(guān)技能的人才和專家來(lái)支持、促進(jìn)機(jī)器學(xué)習(xí)在檔案管理中的應(yīng)用。因此,當(dāng)前檔案機(jī)構(gòu)機(jī)器學(xué)習(xí)技術(shù)型人才和專家的缺乏,阻礙了技術(shù)的實(shí)施與推廣,以至于成為檔案機(jī)構(gòu)應(yīng)用機(jī)器學(xué)習(xí)的一大挑戰(zhàn),也給文件、檔案管理人員的專業(yè)能力提出了更高要求。為應(yīng)對(duì)此挑戰(zhàn),檔案機(jī)構(gòu)需要培養(yǎng)機(jī)器學(xué)習(xí)相關(guān)的專業(yè)知識(shí)和技術(shù)運(yùn)用能力,加強(qiáng)對(duì)技術(shù)本身的理解,以確保滿足未來(lái)的文件及檔案管理需求。同時(shí),應(yīng)提高檔案人才隊(duì)伍中高層次、高技能人才的比重,尤其需要補(bǔ)充計(jì)算機(jī)等專業(yè)背景的技術(shù)型人才。檔案工作者應(yīng)利用機(jī)器學(xué)習(xí)技術(shù)的出現(xiàn)所帶來(lái)的機(jī)會(huì),探索技術(shù)潛力以及更廣泛的應(yīng)用場(chǎng)景,并且鼓勵(lì)跨機(jī)構(gòu)、跨國(guó)界交流和展示學(xué)習(xí)成果,以減輕行業(yè)內(nèi)部的知識(shí)和技能差距[35]。
第三,立足檔案管理實(shí)踐制定應(yīng)用方案。(1)檔案機(jī)構(gòu)需要根據(jù)其實(shí)際情況選擇合理可行的技術(shù)路線。一方面,檔案機(jī)構(gòu)可通過實(shí)驗(yàn)對(duì)比、評(píng)估多種技術(shù)路線的實(shí)驗(yàn)測(cè)試結(jié)果,選擇最優(yōu)的算法模型,同時(shí),明確檔案數(shù)據(jù)類型及特征等因素對(duì)算法模型預(yù)測(cè)準(zhǔn)確性的影響,調(diào)整適應(yīng)機(jī)器學(xué)習(xí)技術(shù)的檔案管理方法與流程,促進(jìn)機(jī)器學(xué)習(xí)技術(shù)優(yōu)勢(shì)發(fā)揮程度的最大化;另一方面,檔案機(jī)構(gòu)應(yīng)判斷軟硬件條件、項(xiàng)目資金、項(xiàng)目團(tuán)隊(duì)是否滿足將機(jī)器學(xué)習(xí)應(yīng)用于檔案管理實(shí)踐的基本條件,機(jī)器學(xué)習(xí)的成本、時(shí)間以及算法模型的耐久性、可擴(kuò)展性、可重復(fù)使用性等因素也應(yīng)納入?yún)⒖挤秶鶾36]。(2)針對(duì)應(yīng)用機(jī)器學(xué)習(xí)技術(shù)可能產(chǎn)生的技術(shù)、法律等方面的問題制定保障措施。在技術(shù)問題上,檔案機(jī)構(gòu)應(yīng)明確算法模型的評(píng)估檢測(cè)機(jī)制,如在機(jī)器學(xué)習(xí)算法運(yùn)行結(jié)果出現(xiàn)異常或者與預(yù)期差異較大時(shí),機(jī)構(gòu)可以通過確定問題、系統(tǒng)地測(cè)試以隔離錯(cuò)誤的來(lái)源以及重現(xiàn)問題,形成解決方案以保障算法順利運(yùn)行等方式進(jìn)行故障排除[37]。在法律問題上,檔案數(shù)據(jù)安全的保障及隱私保護(hù)應(yīng)成為檔案機(jī)構(gòu)關(guān)注的重點(diǎn)。檔案機(jī)構(gòu)需要增強(qiáng)機(jī)器學(xué)習(xí)算法識(shí)別敏感數(shù)據(jù)的能力[38],并在分類、鑒定等管理過程中通過標(biāo)記禁止開放、限制訪問權(quán)限等方式隔離敏感內(nèi)容,避免檔案數(shù)據(jù)的泄露。
文章梳理了新南威爾士州檔案館探索機(jī)器學(xué)習(xí)應(yīng)用的實(shí)驗(yàn)項(xiàng)目,分析了該項(xiàng)目的成功經(jīng)驗(yàn)與不足,據(jù)此提出我國(guó)檔案機(jī)構(gòu)應(yīng)用機(jī)器學(xué)習(xí)的探索方向。但隨著機(jī)器學(xué)習(xí)的可用性和適配性得到實(shí)踐的驗(yàn)證,并逐步成為推進(jìn)檔案管理智能化、智慧化發(fā)展的重要技術(shù)工具,大數(shù)據(jù)時(shí)代檔案管理的優(yōu)化與機(jī)器學(xué)習(xí)的應(yīng)用如何相互支持并形成完整的技術(shù)應(yīng)用方案與策略,還需要持續(xù)探索。
注釋與參考文獻(xiàn)
[1]周楓,呂東偉.基于“智能+”檔案管理初探[J].北京檔案,2019(9): 39-41.
[2]陳慧,羅慧玉,張凱等.AI賦能檔案:AI技術(shù)在檔案管理中的賦能模式探究[J].山西檔案, 2020(4): 76-83+131.
[3][13]陳會(huì)明,史愛麗,王寧等.人工智能在檔案工作中的應(yīng)用實(shí)踐與挑戰(zhàn)——以北京市市場(chǎng)監(jiān)督管理局為例[J]. 檔案與建設(shè), 2019(7): 53-56.
[4]趙躍,段先娥.國(guó)外公共檔案館發(fā)展趨勢(shì)及啟示[J].浙江檔案, 2020(10): 26-28.
[5]C. A. LEE. Computer-Assisted Appraisal and Selection of Archival Materials[C].2018 IEEE International Conference on Big Data. Seattle. WA, USA: Curran Associates, 2018: 2721-2724.
[6][8]霍光煜,張勇,孫艷豐,尹寶才.基于語(yǔ)義的檔案數(shù)據(jù)智能分類方法研究[J].計(jì)算機(jī)工程與應(yīng)用, 2021(6): 247-253.
[7][15][17][25][33]楊建梁,劉越男.機(jī)器學(xué)習(xí)在檔案管理中的應(yīng)用:進(jìn)展與挑戰(zhàn)[J].檔案學(xué)通訊,2019(6): 48-56.
[9]F. ESPOSITO,D. MALERBA,G. SEMERARO,etc.Machine learning methods for automatically processing historical documents: from paper acquisition to XML transformation[C/ OL].First International Workshop on Document Image Analysis for Libraries. Palo Alto, CA, USA: Curran Associates, 2004. https://ieeexplore.ieee.org/ document/1263262/.
[10]HUTCHINSON TIM. Natural language processing and machine learning as practical toolsets for archival processing[J].Records Management Journal, 2020(2):155-174.
[11]YASSER.A.M,CLAWSON K,BOWERMAN.C.Saving Cultural Heritage with Digital Make-Believe: Machine Learning and Digital Techniques to the Rescue[C/OL].Proceedings of the 31st British Computer Society Human Computer Interaction Conference. Swindon, GBR: BCS Learning &; Development Ltd., 2017. https://doi. org/10.14236/ewic/HCI2017.97.
[12]李子林,熊文景.人工智能對(duì)檔案管理的影響及發(fā)展建議[J].檔案與建設(shè),2019(6): 10-13+9.
[14]N. PAYNE, J. R. BARON. Auto-categorization methods for digital archives[C].2017 IEEE International Conference on Big Data. Boston, MA: Curran Associates, 2017: 2288-2298.
[16]隋永.人工智能技術(shù)在高校檔案管理的應(yīng)用研究[J]. 電腦知識(shí)與技術(shù), 2020(22): 171-172+175.
[18] FIRMANI D, MAIORINO M,MERIALDO P,etc. Towards Knowledge Discovery from the Vatican Secret Archives. In Codice Ratio - Episode 1: Machine Transcription of the Manuscripts[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, NY, USA: Association for Computing Machinery, 2018: 263-272.
[19][22]GLEN HUMPHRIES. Machine Learning and Records Management[EB/OL].[2021–01–04]. http://machine-learning-and-recordsmanagement/.
[20]SCHUETTPELZ.E, FRANDSEN. P.B, DIKOW.R.B,etc. Applications of deep convolutional neural networks to digitized natural history collections[J]. Biodiversity Data Journal, 2017: e21139.
[21][35]ROLAN G,HUMPHRIES G,JEFFREY L,etc.More human than human Artificial intelligence in the archive[J]. Archives and Manuscripts, 2019 (2): 179-203.
[23]SCIKIT-LEARN.scikitlearn: machine learning in Python- scikitlearn 0.24.1 documentation[EB/OL].[2021–02–27].https://scikit-learn. org/stable/.
[24]GLEN HUMPHRIES. Case Study – Internal Pilot – Machine Learning and Records Management[EB/ OL].[2021–01–04].https:// futureproof.records.nsw.gov.au/casestudy-internal-pilot-machine-learningand-records-management/.
[26][27][28]GLEN HUMPHRIES. Case Study – External Pilot – Machine Learning and Records Management[EB/OL].[2021–01–04].https://futureproof.records.nsw. gov.au/case-study-external- pilot-machinelearning-and-records-management/.
[29]國(guó)務(wù)院.國(guó)務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知[EB/ OL].[2020–11–30]. http://www. gov.cn/zhengce/zhengceku/2017-07/20/ content_5211996.htm.
[30]馮麗偉. 國(guó)家檔案局科研所聯(lián)手科大訊飛簽署全面戰(zhàn)略合作協(xié)議[J]. 中國(guó)檔案, 2018(5): 10.
[31]祝成. 加快人工智能技術(shù)在檔案管理工作中的應(yīng)用[EB/OL].[2021–01–15]. http://www.zgdazxw.com.cn/ news/2021-01/15/content_316467.htm.
[32]浙江省檔案館電子檔案管理處. 省檔案館承擔(dān)的科技項(xiàng)目通過國(guó)家檔案局驗(yàn)收[EB/OL].[2021–05–26]. http://www.zjda.gov.cn/art/2021/3/12/ art_1229005493_58922762.html.
[34]趙躍.大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)化的前景展望:意義與困境[J]. 檔案學(xué)研究, 2019(5): 52-60.
[36][37]R.MARCIANO,S. AGARRAT,H.FRISCH,etc. Reframing Digital Curation Practices through a Computational Thinking Framework[C].2019 IEEE International Conference on Big Data. Los Angeles, CA, USA: Curran Associates, 2019: 3126-3135.
[38]J. R. BARON, N. PAYNE. Dark Archives and Edemocracy: Strategies for Overcoming Access Barriers to the Public Record Archives of the Future[C].2017 Conference for E-Democracy and Open Government. Krems: Curran Associates, 2017:3-11.