自 “人工智能”一詞提出以來,人工智能經歷三次浪潮逐步發(fā)展成熟,在醫(yī)療、教育、交通等眾多領域應用中都取得了開創(chuàng)性進展,人工智能呈現出的深度學習、跨界融合、人機協(xié)同、群智開放、自主操控等新特征,為當今社會發(fā)展提供了新動能。在此背景下,《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》中著重強調要加強大數據、人工智能等新一代信息技術在數字檔案館(室)建設中的應用,努力推動數字檔案館(室)建設優(yōu)化升級 [1]。此外隨著國內外館藏檔案數字化進程加快,手寫識別、文檔提取、數據關聯等新興技術在手寫檔案工作中發(fā)揮了重要作用,提高了手寫檔案字符轉錄的工作效率,節(jié)約了工作成本,同時極大程度上提高了檔案工作服務的質量,滿足了社會公眾多方面需求。因此,順應新時代發(fā)展的步伐,檔案數智化戰(zhàn)略轉型勢在必行。
近年來,人工智能技術的發(fā)展也引起了國內外眾多檔案學者的關注。國外研究中相關研究范圍較廣、研究程度較深,主要集中在傳統(tǒng)理論創(chuàng)新[2]、檔案開放鑒定[3]、敏感信息處理[4]、元數據[5]等方面,其中對于手寫檔案研究,則主要集中在手寫識別[6]、單詞發(fā)現[7]、筆跡分類[8]、文本行分割[9]等技術。國內研究中,學者們對于人工智能技術下手寫檔案研究較少,研究重心主要集中在檔案智慧服務體系[10]、檔案開發(fā)利用[11]、檔案數據安全[12]等領域??偠灾?,國內外研究在理論與技術應用中取得了較為突出的成就,但是在實踐層面還不夠完善,特別是對于手寫檔案中的人工智能技術深度運用仍有待探索。
梵蒂岡秘密檔案館的In Codice Ratio項目,針對梵蒂岡秘密檔案館的珍貴手寫檔案,通過傳統(tǒng)理論技術與新興AI技術的結合,逐步實現了手寫檔案的自動化轉錄。本文在分析該項目手寫檔案自動轉錄的基本思路、技術路徑的基礎上,學習其成功經驗,以期為人工智能背景下我國檔案工作發(fā)展提供些許參考。
一、In Codice Ratio項目手寫檔案轉錄的必要技術
正是基于梵蒂岡館藏手寫檔案數字化工作進展緩慢,難以滿足開發(fā)利用需求以及傳統(tǒng)轉錄技術使用效果不佳,字符識別方式急需優(yōu)化等背景,梵蒂岡秘密檔案館聯合羅馬特雷大學的人文和工程系進行跨學科合作,研發(fā)了In Codice Ratio項目,旨在為人文學者提供一個支持中世紀手稿自動轉錄的系統(tǒng),以對大量歷史資料進行數據驅動的研究。同時將人工智能、卷積神經網絡、統(tǒng)計語言模型與手寫文字識別技術相結合來轉錄文本,爭取以最簡便的手段努力完成梵蒂岡手寫檔案的轉錄,以期為相關學者、社會公眾提供更方便、科學、高效的檢索服務。因而本文以In Codice Ratio項目為研究對象,總結歸納出該項目成功的必要技術。這些信息技術不僅提升了此項目的工作效率,還為檔案領域其他工作的開展提供了前所未有的發(fā)展空間。通過研究實踐發(fā)現,In Codice Ratio項目組在手寫檔案數字化圖像預處理技術、手寫檔案資源訓練集采集技術、手寫檔案資源字符識別技術、手寫檔案資源字符轉錄技術等方面取得了突出成就,成功推動了項目的順利進行,也為我國檔案工作提供了成功經驗。
(一)圖像預處理技術:高效裁剪提取
In Codice Ratio項目的必不可少工作之一就是對手寫檔案原始輸入圖像進行預處理。為了確保后續(xù)工作的正常進行,每一頁手稿圖像都要經過一系列標準的預處理步驟,從而得到易辨別的單詞圖像。每個詞的圖像最后被提交給In Codice Ratio項目的轉錄系統(tǒng)。為了順利得到可用圖像,項目組應用了如下技術:一是利用不同算法進行文字裁剪。為了從輸入圖像中分離出含有文字的區(qū)域,需要搜索具有高輪廓密度的區(qū)域,因含有文字的區(qū)域通常顯示出高亮度差異,而非文字區(qū)域則不顯示。項目組首先通過高斯模糊法對輸入圖像進行平滑處理,然后通過大津算法進行二進制化處理,最后使用邊界跟蹤算法進行搜索。為了使二進制化圖像更加穩(wěn)健和準確,項目組還采用了局部閾值法,通過對已二進制化的圖像像素進行計算、處理、細化,從而準確達到文字裁剪的目標。二是使用傳統(tǒng)投影輪廓技術進行文本線條檢測。經過研究,目前深度學習、卷積神經網絡、關鍵點檢測等方法都可以解決在文檔中定位文本線條的問題。由于項目組目標手稿中的文本行數相當有規(guī)律,此項目采用傳統(tǒng)投影輪廓技術,通過分析每行中黑色像素的數量來檢測線條。同時,清除掉文本行之外的黑色像素,從而簡化接下來的預處理步驟。三是通過凸包計算進行詞的提取。項目組通過計算每條線所連接組件的凸包(即包含它的最小凸形)來提取單詞。如果它們剛好重疊,一個詞就需要至少一個或更多凸包才能進行識別、提取。四是進行字符切割點識別。與字符間距均勻的印刷文本不同,手寫文本中往往沒有明確的證據表明一個符號在哪里開始,另一個符號在哪里結束。正因為如此,在圖像預處理過程中進行切割點識別是必備之舉。通過識別字符切割點,既減少了字符可能的組合數量,也減少了字符排序錯誤的機會,在一定程度上降低了系統(tǒng)的工作量,提升其工作效率。
(二)訓練集采集技術:眾包平臺合作
最先進的轉錄系統(tǒng)通常是使用人類注釋者制作的整行轉錄集進行訓練,通過反復訓練進而提升轉錄系統(tǒng)的正確率。對于古老的手寫檔案而言,這往往需要古代語言和古文字學知識的專家參與進來。但是對于梵蒂岡秘密檔案館巨大的館藏量來說,傳統(tǒng)模式可行性較低。為了準確搜集訓練樣本,項目組采取了不同的方法建立訓練集。一是采用基本切片分割技術進行字符剔除。在手寫轉錄領域,人們普遍認為,在不知道其轉寫方式的情況下,沒有先進的策略可以將一個詞的圖像分割成其字符成分。為了解決這一疑問,項目組利用切片分割技術進行了實驗。具體實施情況如下:項目組通過計算編碼圖像矩陣每一列的墨水像素,并選擇最重要的候選點,從而剔除所有小的、大的、錯位的非字符片段,留下清晰明了的圖像,從而為后續(xù)眾包階段工作奠定基礎。二是應用眾包平臺進行樣本采集。眾包作為網絡時代一種新興的工作模式,指的是將工作以公開征集的方式外包給非特定的分布式網絡大眾來完成,具有效率高、大眾化、經濟化等優(yōu)點。項目組開發(fā)了一個定制的眾包平臺,并在羅馬市招收了120名高中生,他們的任務是負責匹配圖像。具體而言是利用切片分割完成后的圖像,當圖像與給定樣本相匹配,學生們就可標記圖像上的復選框,相應的圖像就會收到一張投票。最后,該圖像被貼上投票最多的字符符號。如果沒有出現明顯的多數,那么圖像就被貼上一個特殊的非字符類符號。通過這種方式,項目組能夠較為輕易地收集大量的符號樣本,并訓練一個字符的識別模型,從而有利于訓練樣本的快速、準確、完整收集。
(三)字符識別技術:精確切割分類
通過字符識別,將手寫檔案轉化為便于檢索、復制、利用的電子檔案,對于檔案數字化相關工作具有重要意義。為了保障轉錄系統(tǒng)的正常運行,In Codice Ratio項目組采用了拼圖式分割法以及深度卷積神經網絡等技術確保字符識別的高效率、正確率。第一,采用拼圖式分割法進行字符切割。項目組通過對輸入文字圖像的每個連接組件計算其上下輪廓,然后再分別計算上輪廓的局部最小值和下輪廓的局部最大值。進而將這兩個函數與單詞圖像的列索引對齊,并將上輪廓的每個局部最小值與下輪廓最接近的局部最大值連接起來,以確定分割區(qū)域。通過拼圖式分割法,可以有效減少視覺特征相同的“虛假字符”,進而提高字符分類器的精確度以及召回率。第二,基于深度卷積神經網絡技術的字符分類器。該分類器是一個深度卷積神經網絡,以56×56的單通道二值化圖像作為輸入對象,并通過卷積層等8個適應層傳播,最后利用Softmax函數、損失函數進行字符真實性結果輸出。與傳統(tǒng)光學字符識別模型相比,該字符分類器可以處理潛在的、不正確的分割,并可以同時執(zhí)行區(qū)分字符和非字符的二元分類、識別單個字符的多類分類等任務,在多類環(huán)境下有利于提高字符識別的準確性。
(四)字符轉錄技術:科學模型解碼
In Codice Ratio項目組主要應用以下技術轉錄生成相應訓練集字符。一是基于集束搜索算法的轉錄生成器。為了排除“虛假字符”問題,項目組將分類器中的干擾片段重新組合成一組候選轉錄。具體而言,項目組采用了定制的、深度優(yōu)先的集束搜索算法,確保有效生成訓練集每行中每個分段單詞圖像的最佳候選轉錄。此外,該項目組還使用統(tǒng)計語言模型為輸入詞圖像選擇最佳的n個候選轉錄。二是基于高階隱馬爾可夫模型的單詞解碼器。項目組在考慮前一步驟的n個候選轉錄的基礎上,通過在高階隱馬爾可夫模型上對最可能的隱藏狀態(tài)序列進行搜索,并解決特定解碼問題,進而以原則性的方式修改字符識別決策,最終把合理的轉錄結果返回給用戶??傊椖拷M通過轉錄生成器以及單詞解碼器的設置,解決了訓練字符隱藏的問題,成功將手寫字符進行了轉錄,充分展現了此項目應用的高準確性、高精確性、強召回率。
截至目前,In Codice Ratio項目已成功形成了兩個訓練數據集,這不僅切實證明了In Codice Ratio項目的現實可行性,還充分滿足了相關學者、社會公眾的利用需求,為其提供了更方便、科學、高效的檢索服務,為轉錄系統(tǒng)的下一步發(fā)展打下了堅實的基礎。
二、In Codice Ratio項目對我國檔案工作發(fā)展啟示
(一)多元主體協(xié)同引領新發(fā)展
In Codice Ratio項目是社會各領域集體協(xié)作的典型,其合作主體主要包括來自梵蒂岡秘密檔案館的工作者,來自羅馬大學與羅馬第三大學的教授、專家、研究生、本科生等專家群體,以及由高中生組成的非專家群體。
首先,檔案工作者提供充足資源,滿足項目需求。梵蒂岡秘密檔案館的檔案工作者給予了必不可少的鼓勵與支持,正是在其大力支持下,In Codice Ratio項目有了更為豐富的資源,從而能更深入進行研究。該項目以其館藏“梵蒂岡登記冊”為主要實驗對象,這些文件中包含了13世紀羅馬教廷的官方信件,其中還包括有關梵蒂岡活動的歷史文件,如報紙、教皇的政治信件、發(fā)布給全球各地的政治文件、教皇的賬簿、重要活動記錄、法律問題的權威意見等。這些文件由于其特殊的時代性,具有極其重要的研究價值,為此項目提供了不可或缺的資源支撐。其次,專家學者提供技術支撐,推動項目進行。教授、專家、學生作為In Codice Ratio項目建設的研究主體,通過技術支撐方式為該項目提供源動力。該研究團隊中不僅包含相關技術專家,還包括古文字學家,在相互配合與協(xié)作之下,團隊成功設計了一種基于卷積神經網絡分類和統(tǒng)計語言模型的解決方案,開發(fā)了基于人工智能的識別轉錄系統(tǒng),為項目的順利進行奠定了技術基礎。最后,非專家群體負責數據標記。為了確保系統(tǒng)的便利可用,In Codice Ratio項目提出了一個“無專家”的眾包方法。該項目組將眾包作為一種可擴展的訓練數據收集手段,搭建了一個定制的眾包平臺,并雇傭了120名高中生來標記數據集,以期借助非專家群體來訓練卷積神經網絡字符分類器,從而實現準確的字符識別。
經過研究分析,In Codice Ratio項目建立了一個集合資源、技術、社會合作的工作機制,有效推動了項目的成功運作,也為我國檔案工作開展提供了許多成功經驗。一是檔案主管部門大力支持,實現資源合作。任何項目的實施都需要充足的資源支持,而任何一個單獨的檔案機構數據都不能獨立成為大數據[13],小數據集難以形成完整可靠的分析結果,因此國家檔案局、各地方檔案館、其他檔案機構需要打破地域壁壘,建立不受地域、部門限制,組織靈活方便的檔案資源垂直共享平臺,實現地區(qū)與地區(qū)、部門與部門之間的資源合作。二是學者專家共同推動,實現技術合作。努力建立由檔案主管部門進行統(tǒng)籌協(xié)調,高等院校提供專業(yè)理論人才,科技企業(yè)提供專業(yè)技術支撐的分工合作機制,從傳統(tǒng)的收集、存儲、整理等服務向現代化的管理軟件、電子化、智慧檔案等方向進行摸索和轉變,推動檔案事業(yè)向科技性、創(chuàng)新性、共享性方向發(fā)展。三是加強眾包理念宣傳,吸引群眾合作。公民是參與公共檔案館事業(yè)的重要社會力量來源,檔案主管部門要主動出擊,采取網絡媒體、宣傳欄、座談會等線上線下多種方式加強與社會公眾溝通交流,了解公民具體檔案需求。此外,檔案機構應主動開展檔案眾包項目,吸引社會公眾加入,組織開放檔案的編目、著錄、編研、開發(fā)等專業(yè)性檔案志愿服務活動[14]。
(二)技術運用推動工作創(chuàng)新
In Codice Ratio項目運用了一系列信息技術擺脫了傳統(tǒng)手寫識別系統(tǒng)轉換準確率較低的窘境,也避免了因高成本、高復雜度而導致的系統(tǒng)運用“失控”狀態(tài),借用多種技術手段極大推動了相關工作的創(chuàng)新開展。一是實踐技術創(chuàng)新。正如前文所述,In Codice Ratio項目通過人工智能、卷積神經網絡、統(tǒng)計語言模型與手寫文字識別等創(chuàng)新技術的使用,成功對手寫檔案數字化圖像進行了預處理,并采集了相關訓練集,最終完成了字符識別的任務,為后續(xù)工作打下了堅實的基礎。同時,經過實驗證明,該項目所研發(fā)的新技術與傳統(tǒng)Tesseract OCR系統(tǒng)技術相比,準確率更高,能夠獲得更好的結果。二是工作模式創(chuàng)新。與傳統(tǒng)的精英團隊不同,In Codice Ratio項目采用有效的、可擴展的專家-非專家工作模式,通過眾包的方法,讓非專家群體參與項目,把專家從重復的任務中解脫出來,讓他們去完善用低資源自動產生的結果,并解決最具挑戰(zhàn)性的問題。同時,專家群體可以以遠程監(jiān)督的方式掌握工作進程,有利于提高工作效率以及工作安全度。
在檔案工作中運用信息技術,不僅對現有工作環(huán)節(jié)具有改造作用,還會對未來工作引發(fā)新的思考。一是運用信息技術,創(chuàng)新工作環(huán)節(jié)。正是基于In Codice Ratio項目的成功經驗,我國相關檔案機構開展工作的過程中需要突破自身限制,通過新穎的信息技術使檔案工作更加便利、利用方式更加多元化。如利用機器學習軟件輔助檔案鑒定工作、使用視覺模板匹配和自動分類技術進行檔案檢索,并努力做到精確查詢結果以及運用軟件工具篩選電子郵件中的機密、敏感信息等。這些信息技術的使用給檔案工作者帶來了極大的便利,也使檔案工作實踐發(fā)生了顛覆性的變化。二是加大相關立法,規(guī)范技術使用。人工智能技術固然能給檔案工作帶來極大的便利,但是在法律規(guī)范層面對人工智能技術的使用還存在較大爭議?;趯€人隱私和數據安全的保護需求以及對法律責任承擔的道德需求等問題,檔案主管部門需要聯合立法部門,對人工智能技術的運用進行詳細規(guī)定,在《檔案法》等法律文本中明確相應的法律責任,提高社會公眾對其的信任度,在創(chuàng)新和風險控制之間找到平衡。
(三)跨學科合作面對新挑戰(zhàn)
In Codice Ratio項目是檔案學、古文字學與人工智能領域合作的產物,是三大學科專家的智慧結晶。具體而言,該項目以檔案學科理論知識為導向,轉錄系統(tǒng)設計過程中始終堅持來源原則,細致對待梵蒂岡秘密檔案館中的珍貴手寫檔案,努力保證其真實性、完整性、安全性;以人工智能技術為根本,轉錄系統(tǒng)的成功運轉離不開相關人工智能技術的支撐,這些技術構成了轉錄系統(tǒng)的必備框架。同時,通過技術合作成功采集、處理手寫檔案數據資源,增強了轉錄系統(tǒng)的整體性能;以古文字學、語言學為輔助,古文字學家、語言學家在轉錄系統(tǒng)設計前期運用專業(yè)知識對館藏手寫檔案進行了梳理,成功識別、辨認清楚檔案中的生僻、模糊字跡,為后續(xù)對大量歷史資料進行數據驅動研究打下了堅實的基礎。在多種學科的合作與支持下打破原有的邊界,用跨學科的原理結合檔案學科的要素創(chuàng)新,使手寫檔案轉錄系統(tǒng)初步研究規(guī)劃成為可能,極大推動了不同學科之間知識的交流與共享,有利于激活館藏檔案服務效能。
從歷史角度來看,檔案學科本身就是一門跨領域學科,檔案工作者本身就具備跨領域思維[15]。特別是大數據時代,隨著互聯網的快速發(fā)展,檔案工作實踐不僅僅是傳統(tǒng)紙質檔案的保管與利用,還出現了電子檔案。因此為了確保檔案事業(yè)的持續(xù)發(fā)展,我國檔案主管部門可以借鑒In Codice Ratio項目成功經驗,作出實際行動。一是加大合作,打造跨學科合作平臺。計算機學與檔案學有著千絲萬縷的聯系,兩者之間的結合能夠從根本上提升兩個領域的認知,人工智能也可以為檔案的保管與利用帶來多樣、有效的組織方式。因此,計算檔案學的成立具有非凡意義。將以人工智能為代表的計算機科學與檔案學科進行有機結合,通過跨學科知識的結合,能夠為檔案工作者開拓獨特的視角。除此之外,建立一個由檔案學科牽頭,計算機學、歷史學等學科為輔助,聯合檔案主管部門、檔案機構、檔案第三方企業(yè)共同打造的檔案跨學科實驗中心,為檔案學的理論與實踐發(fā)展提供強力平臺支撐。二是加強培養(yǎng),打造綜合型人才。隨著人工智能技術在檔案領域的深入應用,檔案工作者正經歷一個從接收保管紙質檔案到接收保管檔案數據,從手工操作到信息化、智能化操作,從檔案資源分散利用到網絡共享檔案資源的變革過程。檔案工作者不僅需要掌握基礎的檔案理論知識,還需要對相關人工智能技術有一定了解。因而,檔案主管部門及國家檔案智庫需要以大數據時代檔案事業(yè)發(fā)展為導向,了解目前檔案業(yè)務實際需求,培養(yǎng)檔案基礎理論與人工智能技術兼通的復合型人才。
三、結語
人工智能不僅是一種技術,更是一種思維,為檔案工作帶來了前所未有的機遇。文章梳理了In Codice Ratio項目的實驗過程,了解了該項目的技術應用邏輯,并分析了其多元主體協(xié)同引領新發(fā)展、技術運用推動工作創(chuàng)新、跨學科合作面對新挑戰(zhàn)的成功經驗,據此提出了人工智能技術下我國檔案事業(yè)未來探索策略。通過多主體合作、工作技術創(chuàng)新、培養(yǎng)理論與技術兼通的綜合性人才等措施有助于推動人工智能技術在檔案領域的應用,提升相關工作的效率,并能夠助力檔案工作的智慧化、科學化、現代化,實現其高質量發(fā)展。
參考文獻:
[1]中華人民共和國國家檔案局.中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].(2021-06-09)[2023-03-08].https://www.saac.gov.cn/daj/yaow/202106/899650c1b1ec4c0e9ad3c2ca7310eca4.shtml.
[2] MOSS M,THOMAS D, GOLLINS T. The reconfiguration of the archive as data to be mined[J]. Archivaria,2018, 86: 118-151.
[3] MAKHLOUF SHABOU B,TIèCHE J, KNAFOU J, et al. Algorithmic methods to explore the automation of the appraisal of structured and unstructured digital data[J]. Rec Manag J, 2020, 30(2): 175-200.
[4] SCHNEIDER J, ADAMS C, DEBAUCHE S, et al. Appraising, processing, and providing access to email in contemporary literary archives[J]. Arch Manuscr, 2019, 47(3): 305-326.
[5] BüTTNER G. Auto-classification in an international organization: report from a feasibility study[J]. Comma, 2019, 2017(2): 15-26.
[6] ASSIS NETO F R, SANTOS C A S. Understanding crowdsourcing projects: a systematic review of tendencies, workflow, and quality management[J]. Inf Process Manag, 2018, 54(4): 490-506.
[7] ALMAZáN J, GORDO A, FORNéS A, et al. Word spotting and recognition with (下轉47頁)
(上接44頁)embedded attributes[J]. IEEE Trans Pattern Anal Mach Intell, 2014, 36(12): 2552-2566.
[8] BULACU M, SCHOMAKER L. Automatic handwriting identification on medieval documents[C]. //14th International Conference on Image Analysis and Processing (ICIAP 2007). Modena, Italy. IEEE, 2007: 279-284.
[9] LIKFORMAN-SULEM L, ZAHOUR A, TACONET B. Text line segmentation of historical documents: a survey[J]. IJDAR, 2007, 9(2): 123-138.
[10] 李靜. “人工智能+檔案” 的醫(yī)院檔案智慧服務體系建設探究[J]. 黑龍江檔案, 2023(1): 143-145.
[11] 鄭慧, 劉思含. 人工智能與檔案開發(fā)利用: 應用、愿景與進路[J]. 山西檔案, 2022(5): 5-10, 28.
[12] 于英香, 李雨欣. “AI+檔案” 應用的算法風險與治理路徑探析[J]. 北京檔案, 2021(10): 5-9.
[13] 程妍妍, 李劍鋒, 孫筠. 新一代信息技術在檔案工作中的運用及啟示:以歐盟“時光機” 項目為例[J]. 浙江檔案, 2022(4): 33-36.
[14] 邱燕. 檔案事業(yè)公眾參與的實踐與探索[J]. 蘭臺世界, 2018(11): 114-116.
[15] 程妍妍, 宋瑩, 鄭伽. 國外檔案工作與人工智能:潛力和挑戰(zhàn)[J]. 中國檔案, 2022(8): 78-80.
作者單位:上海大學文化遺產與信息管理學院