古籍?dāng)?shù)字化是利用現(xiàn)代信息技術(shù)將古代文獻轉(zhuǎn)化為電子媒體的形式,通過光盤、網(wǎng)絡(luò)等介質(zhì)保存和傳播。隨著計算機及網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)字化古籍極大地提高了人們學(xué)習(xí)研究和應(yīng)用古代文化的效率。編輯在加工稿件過程中,經(jīng)常會遇到查證古籍引文的情況,而數(shù)字化古籍為編輯查證引文帶來了極大的便利。
稿件中出現(xiàn)引文錯誤一般由兩種原因?qū)е拢阂环N是作者錄入錯誤,一種則是作者參考的數(shù)字化古籍存在錯誤。
古籍?dāng)?shù)字化是一個非常復(fù)雜的跨學(xué)科問題,目前不少古籍?dāng)?shù)字化產(chǎn)品尚未盡如人意,其中突出的一點就是用字問題嚴(yán)重,尤其是某些網(wǎng)絡(luò)上流傳的一些古籍版本甚至錯別字迭出。例如,有學(xué)者發(fā)現(xiàn),網(wǎng)絡(luò)上錄入版的《千字文》或多或少都存在錯別字現(xiàn)象,有的一篇中竟然有22個錯別字,差錯率高達(dá)220/10 000,大大超過了新聞出版總署圖書編校差錯率“未超過1/10 000的為合格”的規(guī)定。由于電腦錄入均采用現(xiàn)成的字庫,因而其說的錯別字實際多為誤用別字,主要有音同音近致誤和形近致誤兩大類;另外還有繁簡字誤用,異體字選用不當(dāng)或誤用異體的形近字等問題。
數(shù)字化古籍出現(xiàn)以上問題的原因主要有以下兩方面:
從古籍應(yīng)用上講,由于諸多的原因,某本書常常形成不同的版本,選用不同的版本,某些內(nèi)容的文字會有較大的差別,甚至可能完全相反。同時,由于古籍原本都是豎排繁體字,還包含大量的異體字、通假字等,且沒有標(biāo)點符號,行文格式繁瑣,所以必須先進行整理;古籍中的同一個事物常有幾個不同的稱呼,如同一人物有不同的名、字、號、官職、謚號等,同一地方在不同時代稱呼有別,如果數(shù)據(jù)庫系統(tǒng)未建立起關(guān)聯(lián),檢索時很麻煩也很容易漏檢。以上有關(guān)古籍整理工作只能依賴從事古籍研究的專業(yè)人員,僅靠計算機技術(shù)人員是無法解決以上問題的。
從計算機技術(shù)上講,古籍文本輸入主要方法有鍵盤輸入與光學(xué)字符識別掃描輸入。鍵盤輸入效率低且容易出現(xiàn)錄入錯誤,而掃描輸入也存在單位成本高、識別率低等技術(shù)性問題。并且現(xiàn)有的漢字識別系統(tǒng)多數(shù)是針對簡體的,即使是能識別繁體漢字的系統(tǒng),也由于古籍漢字的頻度與現(xiàn)代漢語差異較大而使得識別效果一般較差。同時,相對古籍中眾多的繁體字、異體字、通假字、避諱字而言,計算機的文字編碼不敷應(yīng)用。中華文化博大精深、源遠(yuǎn)流長,許多漢字在今人看來是古字、生僻字甚或是死字,但它們對于歷史和文明的考證卻是不可或缺的;而且原始古籍均是用繁體字排版,容易使接受簡體字訓(xùn)練的現(xiàn)代讀者產(chǎn)生較大的閱讀障礙。現(xiàn)在雖能通過某種解讀器進行轉(zhuǎn)換,但目前的轉(zhuǎn)換技術(shù),只是一種機械的轉(zhuǎn)變,缺乏特定文字原始意義上的修正,從而在轉(zhuǎn)換時,有時會發(fā)生一些字義上的混淆。
鑒于當(dāng)前數(shù)字化古籍的特點,編輯需要謹(jǐn)慎、巧妙地利用數(shù)字化古籍,既要充分利用數(shù)字化古籍方便檢索查證的特點,又不能輕信數(shù)字化古籍產(chǎn)品,以幫助保證稿件質(zhì)量和提高工作效率。
數(shù)字化古籍的表現(xiàn)形式可以分為三種類型:圖像版、全文版、圖文版。圖像版是利用掃描技術(shù)將古籍以圖像格式掃描存儲,有簡單的標(biāo)題和分類,但缺少檢索手段。全文版以文本形式將古籍存儲于光盤上,并在全文檢索系統(tǒng)的支持下,對文本實行逐字逐句檢索。但它不能像圖像版那樣保持古籍原貌,而且文字錄入的難度也相當(dāng)大,但具備方便快捷的檢索功能。圖文版是在古籍書頁圖像存儲的基礎(chǔ)上,將書中具有檢索意義的內(nèi)容數(shù)字化,并輔以數(shù)字化的電子工具書,為讀者提供快捷有效的檢索、統(tǒng)計、整理和編輯功能。因此圖文版數(shù)字化既具備方便快捷的檢索功能,又能讓用戶得覽古籍原貌,并可用文本對比圖像進行查證,避免將繁體字轉(zhuǎn)換為簡體字和古籍中將異寫、通假、避諱等生僻字用常見字替換等原因?qū)е碌母黝愬e誤。
編輯利用數(shù)字化古籍時,首先應(yīng)選擇將古籍整理方面的權(quán)威和高新計算機技術(shù)有機結(jié)合的知名品牌,盡可能選用圖文版數(shù)字化古籍。當(dāng)編輯利用古代漢語知識發(fā)現(xiàn)數(shù)字化版本中仍有疑問時,應(yīng)找來權(quán)威的有關(guān)紙質(zhì)古籍進一步查證,而不能輕易放過。編輯應(yīng)用數(shù)字化古籍應(yīng)及時升級,跟蹤使用最新版本。另外,還可以與作者交流利用數(shù)字化古籍的經(jīng)驗,借助作者的專業(yè)特長識別和進一步發(fā)現(xiàn)稿件中古籍引文所存在的問題。隨著古籍?dāng)?shù)字化的發(fā)展,檢索智能化程度的提高,數(shù)字化古籍將成為編輯離不開的助手。