鐘遠(yuǎn)薪,王 蕾,楊新涯,薛 玉
徽州文書是現(xiàn)存數(shù)量最多的民間歷史文獻[1],是歷史上徽州人在社會生產(chǎn)、生活與交往過程中形成的原始憑據(jù)、字據(jù)和記錄?;罩菸臅拇罅堪l(fā)現(xiàn)和利用使得學(xué)者可以立足于徽州區(qū)域研究提供的豐富內(nèi)涵,更好地解釋中國的大歷史[2],促使以徽州文書研究為中心、綜合研究社會實態(tài)、探尋中國古代社會后期發(fā)展變化規(guī)律的新學(xué)科“徽學(xué)”的出現(xiàn)[3]。
徽州文書數(shù)字化是其廣泛利用與研究的基礎(chǔ)。著名學(xué)者劉志偉認(rèn)為“理想中的數(shù)字化是全文錄入,中山大學(xué)圖書館館藏徽州文書只有建立全文數(shù)據(jù)庫,才真正談得上數(shù)字化”[4]。提取全文文本、建立全文數(shù)據(jù)庫是輔助學(xué)者運用數(shù)字人文視角、方法和工具去鳥瞰、分析和挖掘徽州文書的前提,也是幫助學(xué)者更深入地掌握文獻、拓展研究和發(fā)現(xiàn)新知的必要工作。
Optical Character Recognition(OCR,光學(xué)字符識別技術(shù))是圖像文字轉(zhuǎn)化為文本的主要技術(shù),被廣泛地應(yīng)用到古籍文本化工作中,取得了良好效果,《四庫全書》《中國基本古籍庫》等重大史料全文數(shù)據(jù)庫得以建成。徽州文書存在大量不規(guī)范手寫字、異體字、簡化字及相似字,且文字殘缺或模糊,排版復(fù)雜,形制各異,OCR應(yīng)用效果不甚理想,其文本提取仍以手工錄入為主,全文數(shù)據(jù)庫建設(shè)進展緩慢。近年語音識別技術(shù)日趨成熟,已被廣泛應(yīng)用到各種生活與工作場景。能否利用語音識別技術(shù)提高徽州文書文本轉(zhuǎn)化的效率,為其全文數(shù)據(jù)庫建設(shè)提供新方法,是一個具有探索意義和實際應(yīng)用價值的問題。
迄今徽州文書數(shù)字化研究主要涉及數(shù)字化掃描、元數(shù)據(jù)標(biāo)引、數(shù)據(jù)庫建設(shè)等內(nèi)容。金再華探討了分步建立題錄數(shù)據(jù)庫、全文數(shù)據(jù)庫的數(shù)字化構(gòu)想[5];俞乃華等介紹了徽州文書整理與建庫流程[6];秦楓等探討了徽州文書數(shù)字化路徑[7];張曉峰等從標(biāo)識、內(nèi)容和物理外觀等方面定義徽州文書的描述數(shù)據(jù),歸納徽州文書元數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)容和結(jié)構(gòu)[8];張潔等介紹了契約文書描述性元數(shù)據(jù)的功能、設(shè)計原則與思路[9];王蕾等從數(shù)字人文視角討論徽州文書數(shù)據(jù)庫的建設(shè)思路和元數(shù)據(jù)體系,提出全文檢索與數(shù)據(jù)關(guān)聯(lián)的設(shè)計方向[10]。在實踐方面,1999年中國社會科學(xué)院歷史研究所率先建設(shè)宋至民國時期14,000余件徽州文書資料庫,2005年安徽大學(xué)開始建設(shè)“徽州文書書目數(shù)據(jù)庫”,2007年黃山學(xué)院建設(shè)“徽州文書特色文獻數(shù)據(jù)庫”,上海交通大學(xué)出版社隨后開發(fā)“中國地方歷史文獻數(shù)據(jù)庫”,目前安徽師范大學(xué)圖書館“徽州歷史文化特色數(shù)據(jù)庫”、中山大學(xué)圖書館“徽州文書數(shù)據(jù)庫”也在加快研發(fā)步伐。這些數(shù)據(jù)庫建設(shè)大致經(jīng)歷了書目庫建設(shè)、特色庫建設(shè)和研究平臺3個階段[11]。已建成開放的徽州文書數(shù)據(jù)庫以圖像為主,僅“中國地方歷史文獻數(shù)據(jù)庫”提供9,000余件徽州文書的全文檢索。
文本化是徽州文書數(shù)字化的關(guān)鍵。從相關(guān)研究與實踐看,以手寫字體為主的民間歷史文獻、檔案文獻的文本提取,主要采取手工錄入為主、OCR識別為輔的方式。雖然手工錄入效率低、成本高,但長期以來是許多文本化項目得以切實開展的唯一手段,不少數(shù)據(jù)庫在耗時日久、歷經(jīng)艱辛之后得以建成。近年眾包理論被應(yīng)用到實踐[12],一定程度上提升了手工錄入效率。OCR很早就被用于文獻資源加工,孫承鑒等早在1993年就研究如何在圖書館中應(yīng)用手寫文字識別技術(shù)[13],黃晨等介紹了CADAL項目中構(gòu)建可持續(xù)發(fā)展OCR系統(tǒng)的實踐[14],王玲麗概述了上海圖書館近代文獻全文OCR過程[15],顧磊等探討了古籍全文文本化中OCR技術(shù)應(yīng)用的若干問題[16]。在國外,“威尼斯時光機”“梵蒂岡秘密卷宗”等項目成功實現(xiàn)了大量歷史檔案手寫字母文字的識別[17-18]。OCR應(yīng)用于民間歷史文獻領(lǐng)域最大的挑戰(zhàn)在于手寫漢字識別,雖然隨著深度學(xué)習(xí)技術(shù)的發(fā)展,手寫漢字識別在方法和性能上取得突破性進展,但大類別、無約束、文本行等問題仍有待解決[19]。對徽州文書而言,數(shù)量龐大、內(nèi)容復(fù)雜、形制不一、字體多樣、字跡潦草等特性使得OCR的應(yīng)用進一步受到了限制,目前尚未見徽州文書領(lǐng)域應(yīng)用OCR的專門研究和實踐報道。
語音識別是讓機器通過識別和理解過程把人類的語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令[20],其技術(shù)發(fā)展大致分為3個階段。1950-1960年代是初步發(fā)展階段,線性預(yù)測分析與動態(tài)規(guī)劃技術(shù)解決了語音信號的特征提取問題,使語音識別基本可用。1970年代至21世紀(jì)初是突破階段,高斯混合模型-隱馬爾科夫模型(GMM-HMM)被應(yīng)用于大詞匯量連續(xù)語音識別,取得了良好效果,并與其他領(lǐng)域技術(shù)結(jié)合,提高了識別準(zhǔn)確率,實現(xiàn)了產(chǎn)品化。近10年是成熟階段,2009年深度學(xué)習(xí)首次被應(yīng)用到語音識別任務(wù),相比于傳統(tǒng)GMM-HMM模型,獲得超過20%的性能提升。此后基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型逐漸成為語音識別聲學(xué)建模的主流,大大促進了語音識別技術(shù)發(fā)展,突破了某些實際應(yīng)用場景下對語音識別性能要求的瓶頸,使語音識別技術(shù)走向真正實用化[21]。
隨著大數(shù)據(jù)的爆炸式增長和漣漪效應(yīng)理論的深入應(yīng)用,語音識別已成為人工智能領(lǐng)域最成熟、落地最快的技術(shù)[22],多種場景下的識別率逼近100%,針對不同行業(yè)需求的語音識別產(chǎn)品不斷涌現(xiàn),并普遍應(yīng)用于現(xiàn)代社會。語音識別技術(shù)主要有語音交互、語音翻譯、對象識別和語音輸入4種應(yīng)用模式。語音交互應(yīng)用最廣泛,包括各種指令系統(tǒng)、智能家居控制系統(tǒng)、智能語音助手、語音交互機器人、語音社交工具等;語音翻譯主要用于同聲傳譯等多語種場景;對象識別則包括物體識別、人物識別以及情感識別等方面;語音輸入更多用于各種文字處理與資料轉(zhuǎn)錄場景之中,如1994年有文獻提出應(yīng)用語音識別技術(shù)進行手寫字體識別的方法[23],醫(yī)學(xué)領(lǐng)域也曾廣泛討論語音識別技術(shù)用于病歷檔案的處理。
圖書館與檔案領(lǐng)域?qū)φZ音識別技術(shù)的研究集中在語音交互方面,如研究圖書館服務(wù)機器人語音指令系統(tǒng)[24-25]、描述圖書借閱證語音掛失系統(tǒng)的設(shè)計與實現(xiàn)[26]、探討圖書館應(yīng)用語音識別技術(shù)開展信息無障礙服務(wù)的舉措[27]、探討語音識別在檢索系統(tǒng)中的技術(shù)方案[28-30]、提出小型語音交互移動數(shù)字圖書亭設(shè)計概念[31]。因為缺乏應(yīng)用場景,幾乎沒有對語音翻譯與對象識別的應(yīng)用研究。在語音輸入方面,2002年的一項研究提及語音識別用于文書檔案數(shù)字化的方法[32],但后續(xù)未見深入探討。近年智能錄音筆、檔案機、智能語音錄入系統(tǒng)等產(chǎn)品相繼面世,已有檔案館將其用于口述史收集、音視頻檔案數(shù)據(jù)轉(zhuǎn)換等實踐[33]??偟膩碚f,利用語音識別來進行諸如文獻資源著錄、文本提取、內(nèi)容轉(zhuǎn)換等資源建設(shè)方面,仍處于初步探索階段。
中山大學(xué)圖書館是收藏徽州文書數(shù)量最多的機構(gòu),正全面展開徽州文書數(shù)字化?,F(xiàn)階段通過手工錄入提取數(shù)十萬件徽州文書的文本是一項成本巨大且耗時日久的任務(wù),應(yīng)用OCR提取文本仍存在前處理困難、識別率過低等技術(shù)障礙。當(dāng)前語音識別的準(zhǔn)確率已近乎100%,具有一定文化、經(jīng)過簡單培訓(xùn)的人員可以很好地識別并朗讀文本內(nèi)容,通過語音識別技術(shù)將朗讀的語音轉(zhuǎn)化為文本,應(yīng)該具有可行性,并且能夠大幅提高徽州文書文本提取效率,從而推動館藏徽州文書全文數(shù)據(jù)庫的建設(shè)。為此,本文進行手工錄入、OCR和語音識別的對比實驗,以求答案。
2.2.1 方法概述
通過不同層次和水平的實驗人員,利用相同的實驗設(shè)備,分別采用手工錄入、OCR、語音識別的方法,對若干徽州文書圖像的文本進行直接提取和校正提取,并記錄操作時間和提取結(jié)果,計算得出識別率及識別時間,從而進行比較分析,以驗證語音識別技術(shù)用于徽州文書文本化工作的可行性和適用性。
2.2.2 實驗對象
實驗選取10頁徽州文書作為研究對象,涵蓋歸戶清冊、黃冊、婚嫁禮單、家譜、賣契、書信、稅票、訴訟文書、魚鱗冊及賬單(見圖1)等主要類型,均以豎排、手寫漢字為主,部分文書內(nèi)含有地圖、印章等圖形信息。污損情況包括涂改、污漬、模糊、缺失等,按嚴(yán)重程度分為無、一般和嚴(yán)重3種,注明客觀條件下無法識別的字?jǐn)?shù)。文字內(nèi)容特征分為白話文、半白話文和文言文3種。為建立相對一致的實驗條件,所有文書均掃描為數(shù)字圖像,并進行簡單的糾斜和裁邊處理,且文本內(nèi)容已被準(zhǔn)確提取用作標(biāo)準(zhǔn)答案,總字?jǐn)?shù)包括無法識別的字?jǐn)?shù)。實驗對象情況見表1。
圖1 徽州文書之賬單
表1 實驗對象信息表
2.2.3 實驗人員
實驗人員共5人,包括從事徽學(xué)研究的專業(yè)研究人員、從事徽州文書文獻處理的專業(yè)館員、普通館員和大學(xué)生。實驗人員信息處理能力是指經(jīng)初步培訓(xùn)后的錄入設(shè)備及數(shù)據(jù)加工系統(tǒng)使用能力,分一般、熟練和精通3類;識字能力是指對徽州文書中簡繁體字及異體字的識別能力,分一般和精通兩類;普通話水平分一般和良好兩類。具體人員信息見表2。
表2 實驗人員信息表
2.2.4 實驗設(shè)備
不同的實驗設(shè)備會對實驗結(jié)果造成影響。在確保實驗結(jié)果不會因?qū)嶒炘O(shè)備產(chǎn)生顯著性差異(P<0.05)情況下,選擇市場上可獲得的評價較高、效果較好的主流設(shè)備作為實驗設(shè)備。手工錄入實驗設(shè)備為高性能雙屏個人電腦,一個屏幕顯示圖像,一個屏幕顯示錄入工作區(qū),并由實驗人員選擇其所熟悉的輸入法。OCR實驗設(shè)備為高性能雙屏個人電腦,經(jīng)過多份徽州文書對比測試,漢王、書同文、百度云、騰訊云等多個主流OCR引擎的識別準(zhǔn)確率相差在5%以內(nèi),其中騰訊云OCR識別性能較為穩(wěn)定,總體識別準(zhǔn)確率最高,因此基于騰訊云API開發(fā)識別軟件進行實驗①。語音識別實驗設(shè)備為高性能雙屏個人電腦與科大訊飛智能錄音筆SR701。
2.2.5 實驗步驟與要求
為避免實驗人員因重復(fù)操作而熟悉內(nèi)容進而影響實驗結(jié)果,實驗設(shè)計每份文書僅被同一位實驗人員使用每種方法提取2次:第1次為直接提取,第2次為校正提取,分配見表3。實驗人員在實驗前均未接觸實驗對象及其標(biāo)準(zhǔn)答案。實驗以符合徽州文書數(shù)字化工作流程為基礎(chǔ),遵循徽州文書數(shù)字化工作的相關(guān)標(biāo)準(zhǔn)和規(guī)范,并以現(xiàn)有條件下取得最高識別率為首要要求,兼顧錄入效率。每份文書共被提取2次,其技術(shù)要求見表4。
表3 實驗分配表
表4 實驗技術(shù)要求說明表
2.3.1 實驗結(jié)果
將每份文書的提取時間記為識別時間,單位為秒(s),識別結(jié)果與標(biāo)準(zhǔn)答案比對結(jié)果記為識別率,以百分比表示,實驗結(jié)果見表5。取各種方法識別率最低的結(jié)果為最低識別率,識別率最高的結(jié)果為最高識別率,并統(tǒng)計平均識別率和平均每100字的識別時間,實驗結(jié)果統(tǒng)計信息見表6。
表5 實驗結(jié)果一覽表
2.3.2 結(jié)果分析
表6表明,語音識別與手工錄入相比,直接提取識別率存在較大差距,但平均百字識別時間僅為手工錄入11.7%,校正提取后識別率相對手工錄入差距明顯縮小,識別時間約為手工錄入16.9%,顯著提高效率。語音識別與OCR相比,直接提取平均百字識別時間是OCR近22倍,但校正提取兩者在耗時方面已接近,二者平均識別率分別從39.50%上升到67.01%及從53.94%上升到80.22%,對中山大學(xué)圖書館徽州文書數(shù)字化工作而言,達到基本可用的水平。
表6 實驗結(jié)果統(tǒng)計表
手工錄入準(zhǔn)確率最高,排除文字缺損無法識別的情況,理論上可以達到100%,但耗時較長。OCR耗時極少,但受版式、字體及異體字等客觀障礙影響,識別率最低。在實驗中OCR直接提取最高識別率為刻印類型文書的識別,達到86.84%,但大部分手寫文書的識別率僅15%~40%,實驗平均識別率為39.50%;經(jīng)過前處理采用分塊提取的情況下,耗時較手工錄入仍低一個數(shù)量級,但其識別率僅53.94%,達不到規(guī)模應(yīng)用要求,不過OCR對刻印型文書的識別表現(xiàn)出較好的處理性能。語音識別率主要受表達方式影響,徽州文書在語言表達、語詞運用方面均與現(xiàn)代漢語有很大不同,而當(dāng)前主流語音模型是基于現(xiàn)代語音數(shù)據(jù)訓(xùn)練出來的,因此容易出現(xiàn)錯誤,導(dǎo)致文言文和半白話文識別率較低。此外,同音字、偏僻字是影響識別率的另一主要問題。通過配置個性化熱詞表可以將語音識別的識別率從67.01%提升到80.22%。從實驗還發(fā)現(xiàn)不同專業(yè)層次人員語音識別錄入的識別率和時間差異并不明顯,表明該方法具有不錯的用戶適應(yīng)性。
綜上,雖然語音識別用于徽州文書的識別率僅80.22%,仍需手工修改,但相較于OCR已有顯著提升,同時識別時間比起手工錄入明顯減少,可大幅提高徽州文書的文本提取效率,對館藏機構(gòu)而言已達到基本可用水平。
文本提取只是語音識別技術(shù)的基本應(yīng)用。通過設(shè)定語音指令,根據(jù)不同功能需求,定義不同的語音輸入與文本輸出規(guī)范,并結(jié)合語義網(wǎng)絡(luò)、知識圖譜等技術(shù),語音識別在徽州文書數(shù)字化工作中具有多種潛在的應(yīng)用模式。
如圖2所示,簡單文本化模式是直接利用手機、智能錄音筆等語音識別設(shè)備或各種語音識別系統(tǒng)來進行語音轉(zhuǎn)寫,從而提取文本的應(yīng)用模式。這一應(yīng)用模式已被實驗證明具有可行性,且實施靈活方便、成本低廉、可廣泛開展,其缺點在于僅完成了文本提取,圖像與文本對應(yīng)、數(shù)據(jù)入庫等工作仍需后續(xù)處理。
圖2 簡單文本化模式架構(gòu)圖
對文獻進行編目,建成數(shù)據(jù)庫以實現(xiàn)檢索和文獻獲取功能,是文獻數(shù)字化的基本需求。建庫模式通過設(shè)定語音指令或在錄入界面中進行字段拆分,將語音轉(zhuǎn)化為文本與題名、文書類型、錄文等數(shù)據(jù)庫對應(yīng)字段,從而實現(xiàn)元數(shù)據(jù)標(biāo)引,達到快速建庫的目的,已經(jīng)成為各類檔案機、智能語音錄入系統(tǒng)的基本應(yīng)用模式。這一模式在現(xiàn)有建庫系統(tǒng)上進行簡單擴展即可實現(xiàn),具有實用性強、可行性高、系統(tǒng)改造成本低等優(yōu)點。一種典型的建庫模式架構(gòu)如圖3所示。
圖3 一種建庫模式架構(gòu)圖
數(shù)字人文研究要求對文獻內(nèi)容中的人物、地點、時間、事件等實體進行規(guī)范標(biāo)注、形式化描述和聯(lián)系構(gòu)建,以支持實體、實體屬性及實體關(guān)系的機器自動識別、關(guān)聯(lián)揭示和開放利用。當(dāng)前主流的語義建庫一般分步開展,即先進行全文建庫,再通過人工或機器學(xué)習(xí)等手段,實現(xiàn)實體、屬性和關(guān)系的抽取、鏈接和入庫,其中利用人工干預(yù)提高建庫質(zhì)量這一步驟不可或缺。語義化模式是一種在文本化過程中同步實現(xiàn)語義信息提取的設(shè)想,用戶通過二次朗讀,向語音交互系統(tǒng)發(fā)出語義語音指令,如“語義指令-人物-XXX-XXX”“語義指令-時間-XXXX年”,激發(fā)語音交互系統(tǒng)向語義數(shù)據(jù)服務(wù)系統(tǒng)發(fā)起查詢,并根據(jù)返回的數(shù)據(jù),產(chǎn)生文檔的語義標(biāo)注數(shù)據(jù),進而實現(xiàn)語義建庫的功能,圖4為一種典型的語義化模式架構(gòu)。
圖4 一種語義化模式架構(gòu)圖
為提高建庫效率和質(zhì)量,眾包理論被廣泛研究與運用。眾包不僅可以利用互聯(lián)網(wǎng)整合大眾力量來完成大規(guī)模的數(shù)據(jù)處理工作,還可以通過多重標(biāo)記校驗數(shù)據(jù)并提升其準(zhǔn)確性。當(dāng)前眾包建庫實踐中主要以手工錄入為主,鑒于語音錄入的便捷性,開發(fā)在線語音知識化眾包平臺,面向大眾收割全文片段、元數(shù)據(jù)乃至命名實體的語音,進而實現(xiàn)數(shù)據(jù)提取的大規(guī)模多人在線知識化模式是徽州文書數(shù)字化工作深入推進的可選路徑之一。
大規(guī)模多人在線知識化模式要求系統(tǒng)具備錄入界面簡潔、錄入文本不宜太長、任務(wù)設(shè)計簡單并有一定的挑戰(zhàn)性、適合社交網(wǎng)絡(luò)傳播等特點,主要收割短語音,在此基礎(chǔ)上提供數(shù)據(jù)智能比對、知識抽取與融合等復(fù)雜功能。一方面利用同一份文書的多重標(biāo)記數(shù)據(jù)、徽州文書規(guī)范數(shù)據(jù)和開放關(guān)聯(lián)數(shù)據(jù),對用戶輸入進行比對和糾錯,累積校正數(shù)據(jù)以訓(xùn)練機器,以提升系統(tǒng)的整體效率。另一方面,應(yīng)用成熟的知識圖譜技術(shù)實現(xiàn)數(shù)據(jù)整合、信息抽取、數(shù)據(jù)鏈接和知識融合,將推進徽州文書數(shù)字化從數(shù)據(jù)庫向知識庫轉(zhuǎn)型。一種典型的大規(guī)模多人在線知識化模式架構(gòu)見圖5。
圖5 一種大規(guī)模多人在線知識化模式架構(gòu)圖
針對徽州文書數(shù)字化工作中文本提取的困境,本文提出一種可行的語音識別方法,具有多方面優(yōu)勢。一是簡化全文建庫步驟,無需對徽州文書進行掃描、圖像優(yōu)化等前處理即可開展文本提取和數(shù)據(jù)加工工作;依托于建庫系統(tǒng),同步實現(xiàn)全文建設(shè)、字段標(biāo)引和語義標(biāo)注等功能,可進一步減少后處理步驟。二是提高工作效率并降低成本,識別時間僅為手工錄入16.9%,校正平均識別率超過80%,較OCR提升超過25%;對中山大學(xué)圖書館需求而言,達到基本可用水平,所用到的設(shè)備及系統(tǒng)均有成熟產(chǎn)品,價格低廉,易于在原有建庫系統(tǒng)上進行改造拓展,使得在現(xiàn)階段開展徽州文書全文建庫成為可能。三是降低對建庫人員的要求,具備一定識字能力且普通話相對標(biāo)準(zhǔn)的人員經(jīng)過簡單訓(xùn)練后均可取得比較理想的提取效果,從而使眾包具有應(yīng)用優(yōu)勢。
語音識別在徽州文書數(shù)字化工作中具有多種潛在應(yīng)用模式,從最簡單的文本化到大規(guī)模多人在線知識化,語音識別均可發(fā)揮重要作用。不同收藏機構(gòu)能根據(jù)資源規(guī)模、保障條件和技術(shù)水平,探索符合自身發(fā)展的應(yīng)用模式。在市場上,智能錄音系統(tǒng)、智能檔案機等配套產(chǎn)品已出現(xiàn),為應(yīng)用落地提供了完善的支撐條件。在徽州文書文本化工作中,語音識別技術(shù)具有適用場景和重要的應(yīng)用價值。
本文提出的方法還可以實現(xiàn)多維建庫功能,從而產(chǎn)生有價值的衍生品,即與文書內(nèi)容相一致的語音檔案。這些語音檔案將來可以被用到無障礙服務(wù)、多媒體融合、語言研究及二次創(chuàng)作之中。
本文使用10頁不同類型的徽州文書作為實驗對象,雖然足以證明方法的有效性,但尚不能全面反映徽州文書的豐富性;實驗人員較少,總體專業(yè)性較強,在廣泛代表性上有所欠缺;實驗的設(shè)計也可以進一步優(yōu)化。因此,實驗的結(jié)果可能存在一定的誤差。本文所提出的應(yīng)用模式仍有待實踐的檢驗,目前中山大學(xué)圖書館正在研究開發(fā)相關(guān)小程序,更深入的數(shù)據(jù)分析與論證有待下一階段實踐工作的總結(jié)。
實驗中發(fā)現(xiàn),語言表達方式和偏僻字、同音字是影響識別率的主要問題,但本文并未進一步展開研究。除應(yīng)用熱詞表和提供候選詞外,如何針對徽州文書的用詞特點建立領(lǐng)域詞表,并逐步構(gòu)建徽州文書深度神經(jīng)網(wǎng)絡(luò)模型以提升識別率,是深入應(yīng)用語音識別技術(shù)開展徽州文書文本化工作必須面對的挑戰(zhàn)。此外,單一技術(shù)的應(yīng)用具有局限性,如何根據(jù)手工錄入、OCR等不同方式的特點與優(yōu)勢,融合多種方法,構(gòu)建更為合理的徽州文書文本化場景,也值得研究。
在語音識別技術(shù)發(fā)展成熟的背景下,本文研究了利用語音識別提取徽州文書文本的新方法。相較于手工錄入與OCR而言,該方法具有可行性,并且可以根據(jù)實際情況采取簡單文本化、建庫、語義化和大規(guī)模多人在線知識化等不同應(yīng)用模式,具有適用性,是徽州文書數(shù)字化研究的一次有益嘗試。目前市場上已經(jīng)出現(xiàn)可用于規(guī)?;a(chǎn)的語音識別工業(yè)產(chǎn)品,因此在現(xiàn)階段及未來一段時間內(nèi),該方法具有應(yīng)用價值,可為民間歷史文獻數(shù)字化工作帶來有益的參考。
本文提出的方法雖然簡化了徽州文書文本化工作的步驟、降低了成本并提高了效率,但作為一種間接應(yīng)用,人的高度參與依然不可或缺,在開展大規(guī)模徽州文書全文建庫工作時仍需要付出較大的人力成本。隨著算法的進步和專業(yè)數(shù)據(jù)集的擴大,手寫漢字識別將會不斷取得突破。從技術(shù)發(fā)展趨勢來看,OCR仍是徽州文書文本化最有價值的技術(shù)。就當(dāng)前實踐而言,如何融合語音識別、OCR等多種技術(shù)提升文本化工作的效率,仍是現(xiàn)階段迫切且重要的課題。
注釋
①實驗時間:2020年12月4日,接口域名:ocr.tencent?cloudapi.com,利用GeneralAccurateOCR和General?HandwritingOCR接口實現(xiàn)刻印字體和手寫字體識。