肖 禹
(中國(guó)國(guó)家圖書館,北京 100034)
經(jīng)過近三十年的發(fā)展, 古籍?dāng)?shù)字化研究與實(shí)踐取得了豐碩的成果, 產(chǎn)生了一大批有影響的古籍?dāng)?shù)字化項(xiàng)目。 這些古籍?dāng)?shù)字化項(xiàng)目具有檢索和瀏覽的功能,但在文字處理方面還有所欠缺。古籍中大量的避諱字、異體字、少數(shù)民族文字、草體字(手抄本中的)都在一定程度上限制了古籍?dāng)?shù)字化的轉(zhuǎn)換和檢索[1]。 目前,對(duì)古籍?dāng)?shù)字化中的文字處理的研究主要有兩類: 一類是從整體上探討古籍?dāng)?shù)字化中的文字處理; 另一類是從具體項(xiàng)目的角度出發(fā)討論具體處理方法。 現(xiàn)有的研究往往從學(xué)術(shù)角度出發(fā),以異體字處理為研究重點(diǎn),提出系列異體字處理原則, 或基于某個(gè)項(xiàng)目提出異體字的處理方法。 這些研究為古籍?dāng)?shù)字化中的文字處理提供了思路和方法,但也存在一些不足:其一,未能明確定義異體字的處理范圍;其二,未能分別給出集內(nèi)異體字和集外異體字的處理方法;其三,未能給出異體字處理的工程化方法。
本文立足于大規(guī)模古籍?dāng)?shù)字化項(xiàng)目, 從工程和技術(shù)實(shí)現(xiàn)的角度探討古籍?dāng)?shù)字化過程中的集外字處理問題。之所以以集外字為研究對(duì)象,原因有三:其一,集外字雖然是一個(gè)相對(duì)概念,但是若字符集固定,集外字的范圍就是固定的;其二,在大規(guī)模古籍?dāng)?shù)字化項(xiàng)目中,集外字大量存在,集外字處理問題無法回避;其三,集外字無法直接輸入、處理和顯示,必須采用其他的技術(shù)和方法,相關(guān)的研究與實(shí)踐還存在很多的問題。
字符集是描述多個(gè)文字和符號(hào)的集合[2],在古籍?dāng)?shù)字化中最常用的是Unicode 字符集。 Unicode 是一個(gè)經(jīng)過字符寬度整合的編碼方式, 它是為文字及符號(hào)所建立的國(guó)際性編碼, 幾乎覆蓋世界上任何一種語言的字符[3]。目前,Unicode 的最新版本是6.2[4],是符合國(guó)際標(biāo)準(zhǔn)(ISO10646)收錄漢字最多的字符集,共收字74 566 個(gè),其中CJK 基本集收字20 902 個(gè), 擴(kuò)A 集收字6 582 個(gè), 擴(kuò)B集收字42 711 個(gè),擴(kuò)C 集收字4 149 個(gè),擴(kuò)D 集收字222 個(gè)。
集外字是指字符集所不包含的文字, 若不采用其他的技術(shù)和方法,集外字無法輸入、處理和顯示。 集外字的數(shù)量與字符集的收字?jǐn)?shù)量直接相關(guān),若數(shù)字化對(duì)象的用字總量和文字處理規(guī)則固定,字符集收錄的文字越多,集外字的數(shù)量越少。 以國(guó)家圖書館數(shù)字方志項(xiàng)目第一期 (全文數(shù)字化明至民國(guó)間的方志744 種,14 682 卷,506485 筒子頁,采用鍵盤手工錄入方式進(jìn)行全文數(shù)字化,使用“中易漢神e”漢字系統(tǒng),支持CJK 基本區(qū)、擴(kuò)A 區(qū)和擴(kuò)B 區(qū)的7 0195 個(gè)字符)為例,使用CJK 基本區(qū)1 6801 個(gè)字 (203 781 248 次),CJK 擴(kuò)A 區(qū) 的2 959 個(gè)字 (274 847 次),CJK 擴(kuò)B 區(qū)9 117 個(gè) 字(732 675 次)。 若使用GBK 字符集 (收錄21 003個(gè)字),集外字將多出12 136 個(gè)(1 007 522 次),若使用GB18030-2000 字符集(收錄27 533 個(gè)字),集外字將多出9 117 個(gè)字(732 675 次)。 可見,字符集的選擇對(duì)集外字的數(shù)量有很大的影響。
因字符集主要收錄楷書字,收字尚不完備,無法完全滿足古籍?dāng)?shù)字化的需求,集外字大量存在。以數(shù)字方志項(xiàng)目的文字錄入實(shí)驗(yàn)為例, 選取明至民國(guó)間刻印的方志100 種(5 0000 余頁),文字總量超過2 000 萬字,完全按字形比對(duì),集內(nèi)字只占38%,除了少量模糊字外(低于0.5%),其余都是集外字。 逐一分析這些集外字,由于書寫變異造成筆畫細(xì)微差異的字占58%,占集外字的絕大多數(shù),這些字完全可以認(rèn)同為集內(nèi)字。 可見,在古籍?dāng)?shù)字化項(xiàng)目中集外字普遍存在, 僅靠擴(kuò)大字符集收字范圍不能解決集外字處理問題, 還需要一系列的集外字處理方法。
采用OCR(Optical Character Recognition,光學(xué)字符識(shí)別)或鍵盤錄入古籍文字,集外字都無法直接輸入,必須引入集外字處理方法。 常見的集外字處理方法有:
(1)替換法。 替換法是將集外字變換為其他可以輸入的形式,如符號(hào)、圖形和集內(nèi)字。 一是符號(hào)替換。 在OCR 或文字錄入的過程中,將集外字直接替換為某個(gè)特定符號(hào), 這是最簡(jiǎn)單的集外字處理方法。 在保存為純文本的古籍全文數(shù)據(jù)建設(shè)中常采用這種方法,但這種方法存在以下幾個(gè)問題:其一,集外字統(tǒng)一替換為某個(gè)符號(hào),這些符號(hào)基本沒有檢索意義;其二,替換符號(hào)未能保留集外字的任何信息,當(dāng)字符集變更時(shí),集外字無法管理;其三,常用的替換符號(hào)有等,這些符號(hào)在古籍中都較為常用, 用戶無法區(qū)別這些符號(hào)是古籍中原有的,還是由于數(shù)字化造成的。 二是圖形替換。 將集外字替換為圖形,圖形數(shù)據(jù)保留了集外字的字形特征,但是圖形數(shù)據(jù)不能直接檢索。 圖形數(shù)據(jù)的引入,增強(qiáng)了全文數(shù)據(jù)的顯示效果,同時(shí),為了支持檢索和后續(xù)的管理維護(hù), 圖形數(shù)據(jù)要添加必要的描述信息。 在數(shù)字化項(xiàng)目中將集外字替換為圖形,圖形的采集、處理和存儲(chǔ)都需要加工軟件的支持。 三是集內(nèi)字替換。 相對(duì)于特定符號(hào)和圖形,將集外字替換為集內(nèi)字是更好的處理方法,但這種替換要滿足兩個(gè)基本條件: 數(shù)字化項(xiàng)目對(duì)文字字形沒有嚴(yán)格的要求,允許對(duì)異體字、避諱字、訛誤字等進(jìn)行規(guī)范;集外字可以替換為集內(nèi)字,這兩個(gè)字讀音、含義和用法都相同。 在大規(guī)模數(shù)字化項(xiàng)目中,將集外字替換為集內(nèi)字有一定的難度,對(duì)人員素質(zhì)有較高的要求。 在國(guó)家圖書館數(shù)字方志項(xiàng)目集外字中, 由于書寫變異造成筆畫微異的異體字占58%, 由于偏旁簡(jiǎn)省造成的異寫字和由于隸定造成的異寫字占2%,異構(gòu)字和其他情況(非異體字) 占2%。 異寫字轉(zhuǎn)換的平均錯(cuò)誤率為0.27‰,異構(gòu)字轉(zhuǎn)換的平均錯(cuò)誤率為0.52‰,而集內(nèi)字轉(zhuǎn)換的平均錯(cuò)誤率僅為0.22‰。 可見,將集外字替換為集內(nèi)字會(huì)影響數(shù)字化項(xiàng)目的錯(cuò)誤率,錯(cuò)誤率與替換的難度成正比, 難度越大, 錯(cuò)誤率越高。
(2)造字法。 造字法是在字符集的自定義區(qū)為集外字定義編碼, 這些編碼與集外字的字形一一對(duì)應(yīng)。 只要有字符集自定義編碼區(qū)的支持,造字的檢索與顯示和集內(nèi)字完全相同。 以《文淵閣四庫全書電子版3.0 版》為例,該項(xiàng)目采用了Unicode5.0字符集,整個(gè)項(xiàng)目共造字12 592 個(gè)[5]。若使用造字法處理集外字,必須有集外字管理、輸入法管理、造字、字符集自定義區(qū)管理等一系列工具。Unicode字符集允許用戶自定義編碼, 專門設(shè)置了私用區(qū)(Private Use Area),私用區(qū)、增補(bǔ)私用A 區(qū)和增補(bǔ)私用B 區(qū)共有137 468 個(gè)碼位。雖然Unicode 字符集有較多的碼位可供造字使用, 但是如果將古籍中出現(xiàn)的所有字形,不做必要的文字規(guī)范,也不區(qū)分字體、 書體, 只要字形與字符集中的字形有差異, 就簡(jiǎn)單地做造字處理, 這些碼位也會(huì)很快耗盡。 同時(shí),Unicode 對(duì)私用區(qū)基本沒有限制,不同的古籍?dāng)?shù)字化項(xiàng)目對(duì)私用區(qū)的使用可能完全不同,同一個(gè)自定義編碼在不同的項(xiàng)目中表示不同的字形,若同時(shí)使用這些古籍?dāng)?shù)字化項(xiàng)目,將發(fā)生私用區(qū)編碼沖突,造成文字編碼錯(cuò)誤。
(3)描述法。 描述法是將集外字表示為一個(gè)字符串,這個(gè)字符串描述了集外字的字形。 目前,較為常用的描述方法有 《漢語文古籍機(jī)讀目錄格式使用手冊(cè)》 中393 字段系統(tǒng)外字附注的外字描述方法[6]、臺(tái)灣開發(fā)的漢字構(gòu)形數(shù)據(jù)庫使用的構(gòu)字式描 述 方 法[7]、Unicode 的IDS(Ideographic Description Sequence,表意描述序列)描述方法[8]等。 描述法既可以獨(dú)立使用,也可以和替換法一起使用,如香港理工大學(xué)開發(fā)的“中文古籍網(wǎng)上出版平臺(tái)”將集外字替換為圖形,并用IDS 進(jìn)行描述。
3.1.1 《文淵閣四庫全書》電子版項(xiàng)目
《文淵閣四庫全書》電子版項(xiàng)目以《景印文淵閣四庫全書》為底本,由上海人民出版社和迪志文化出版有限公司合作出版, 迪志文化出版有限公司、 書同文電腦技術(shù)開發(fā)有限公司承辦全部開發(fā)制作工程, 清華大學(xué)計(jì)算機(jī)系負(fù)責(zé)OCR 引擎開發(fā),北大方正電子有限公司負(fù)責(zé)建立專用字庫,微軟公司(北京)研究開發(fā)中心在平臺(tái)技術(shù)等方面提供技術(shù)援助[9]。 基于當(dāng)時(shí)的技術(shù)條件,該項(xiàng)目使用CJK+字庫 (包含符合Unicode 標(biāo)準(zhǔn)的CJK 和CJK擴(kuò)A 編碼, 自定義編碼4 296 個(gè), 共收字31 780個(gè)),使用OCR 方式進(jìn)行全文轉(zhuǎn)換。 該項(xiàng)目的集外字處理方案:(1)參照遵守ISO10646/Unicode 的認(rèn)同規(guī)則對(duì)集外字進(jìn)行有控制的異體代換。 微小筆形差異視作異寫, 應(yīng)認(rèn)同之而不加標(biāo)記。 在Unicode 中兩個(gè)異體字都有編碼時(shí), 應(yīng)選與書中字跡最接近者。 其他異體代換,必須標(biāo)記相似符號(hào)“~”。(2)對(duì)原書中的模糊之處(“模糊字”),實(shí)在難以辨別者,保留其原圖形作“□”處理,并加以說明。 (3)無法認(rèn)同的集外字保留原圖形并做字形描述,依據(jù)字形描述進(jìn)行字頻統(tǒng)計(jì), 高字頻集外字做造字處理,低字頻集外字替換為構(gòu)字符或“□”。 (4)甲骨文、金文、篆文等字體直接替換為圖形。
3.1.2 數(shù)字方志項(xiàng)目
數(shù)字方志項(xiàng)目始于2002 年,到目前為止已掃描舊志(1949 年以前編輯出版的地方志)6 868 種(3 349 651 筒子頁), 已全文數(shù)字化2 821 種(1 742 176 筒子頁)。 該項(xiàng)目使用支持Unicode5.0 的字庫(CJK、CJK 擴(kuò)A 和CJK 擴(kuò)B 編碼,共收字70 195 個(gè)),使用人工錄入方式進(jìn)行全文轉(zhuǎn)換。該項(xiàng)目的集外字處理方案:(1)參照《漢語大字典》對(duì)集外字中的異寫字進(jìn)行認(rèn)同, 認(rèn)同為本字或字形相近的異體字,不加標(biāo)記。 異構(gòu)字認(rèn)同為本字或字形相近的異體字,并添加文字認(rèn)同標(biāo)記。 (2)模糊字替換為圖形,并添加模糊字標(biāo)記。 若模糊字無法反映任何字形信息,則替換為“□”,并添加模糊字標(biāo)記。 (3)無法認(rèn)同的集外字替換為圖形,并給圖形添加IDS 描述。 若無法進(jìn)行IDS 描述,則添加其他方式的描述。
集外字處理是古籍?dāng)?shù)字化的重要環(huán)節(jié)之一,不僅影響全文數(shù)據(jù)的質(zhì)量和使用效果, 而且影響項(xiàng)目成本、管理和維護(hù)。 因此,對(duì)集外字處理方案評(píng)價(jià)也要從檢索效果、顯示效果、錯(cuò)誤率、復(fù)雜度、擴(kuò)展性等方面來進(jìn)行。
3.2.1 檢索效果
檢索效果是指集外字處理后能否檢索, 以及檢索集外字是否需要附加條件。 古籍全文數(shù)據(jù)庫的核心功能是檢索, 若集外字無法檢索或檢索困難,將大大降低古籍全文數(shù)據(jù)庫的可用性。 在《文淵閣四庫全書》 電子版項(xiàng)目中, 集外字替換為圖形、“□”、構(gòu)字符等,可以顯示(“□”和構(gòu)字符無法顯示集外字字形),但是無法檢索。 在數(shù)字方志項(xiàng)目中,替換為集內(nèi)字的集外字可以檢索,替換為圖形的集外字可以借助IDS 描述實(shí)現(xiàn)檢索, 但是需要額外的軟件支持。
3.2.2 顯示效果
顯示效果是指集外字處理后能否正常顯示,以及這種顯示方式是否符合用戶的要求。 若集外字無法正常顯示, 將大大降低古籍全文數(shù)據(jù)庫的可用性。 在《文淵閣四庫全書》電子版項(xiàng)目中,全部集外字都能顯示,但是替換為“□”和構(gòu)字符的集外字顯示意義不大, 而且集外字顯示為構(gòu)字符不符合用戶的閱讀習(xí)慣。 在數(shù)字方志項(xiàng)目中,全部集外字都能顯示,但是替換為“□”的集外字顯示意義不大。
3.2.3 錯(cuò)誤率
錯(cuò)誤率是指集外字處理發(fā)生錯(cuò)誤的比率,以及集外字處理對(duì)全文數(shù)據(jù)庫平均錯(cuò)誤率的影響。平均錯(cuò)誤率反映了全文數(shù)據(jù)庫的總體質(zhì)量, 錯(cuò)誤率直接決定了全文數(shù)據(jù)庫的可用性。 《文淵閣四庫全書》 電子版項(xiàng)目沒有相關(guān)的數(shù)據(jù), 無法做出評(píng)價(jià)。 在數(shù)字方志項(xiàng)目中, 集外字處理的錯(cuò)誤率為0.278‰,與文字錄入實(shí)驗(yàn)的錯(cuò)誤率基本一致,符合該項(xiàng)目平均文字錯(cuò)誤率低于0.3‰的要求。
3.2.4 復(fù)雜度
復(fù)雜度是對(duì)集外字處理成本和可實(shí)現(xiàn)性的度量,這是數(shù)字化工程管理和工藝設(shè)計(jì)的重要指標(biāo)。《文淵閣四庫全書》電子版項(xiàng)目和數(shù)字方志項(xiàng)目的集外字處理方案都能滿足項(xiàng)目的要求, 符合項(xiàng)目的時(shí)間成本和資金成本要求。
3.2.5 擴(kuò)展性
擴(kuò)展性是對(duì)集外字?jǐn)?shù)據(jù)遷移、管理、維護(hù)能力的度量,尤其是當(dāng)字符集發(fā)生版本變更時(shí),集外字?jǐn)?shù)據(jù)能否自動(dòng)或半自動(dòng)遷移到新版本的字符集中。 《文淵閣四庫全書》電子版項(xiàng)目使用了自定義編碼,當(dāng)Unicode 字符集升級(jí)到新版本,要將自定編碼的字形與字符集中新納入的文字字形逐一進(jìn)行人工比對(duì),根據(jù)比對(duì)的結(jié)果建立編碼映射表,再通過軟件完成映射。 同時(shí),該項(xiàng)目雖然對(duì)無法認(rèn)同的集外字部分做了描述, 但是這些描述無法與全文數(shù)據(jù)集成在一起, 也不能和字符集進(jìn)行直接的映射,遷移、管理和維護(hù)都很困難。 數(shù)字方志項(xiàng)目未使用自定義編碼, 替換為圖形的集外字絕大部分都有IDS 描述, 當(dāng)Unicode 字符集升級(jí)到新版本, 只需將字符集中新納入的文字的IDS 與集外字的IDS 進(jìn)行比對(duì),若兩者相同,則可以直接替換為正式編碼。IDS 也使得日常的集外字管理和維護(hù)更為簡(jiǎn)便,都可以通過軟件進(jìn)行批量處理。
字符集是一個(gè)封閉的系統(tǒng), 雖然中日韓統(tǒng)一漢字(CJK)己達(dá)7 0195 個(gè)字符,但是即使將來再加擴(kuò)展,也只可能是古籍刻寫異體的一個(gè)子集,必然有許多字不能重現(xiàn)[10]。 集外字大量存在,集外字處理問題無法回避, 集外字處理直接影響全文數(shù)據(jù)庫的正確率、檢索效果和顯示效果,進(jìn)而影響全文數(shù)據(jù)庫的可用性。 因此,有必要多角度研究集外字處理問題,不斷改進(jìn)和完善集外字處理方案。
[1] 陳力.中文古籍?dāng)?shù)字化的再思考[J].國(guó)家圖書館學(xué)刊,2006(2):42-49.
[2] 字符集[EB/OL].[2013-03-30].http://baike.baidu.com/view/51987.htm.
[3] 苗軍.Unicode/XML 在電子出版物中的實(shí)現(xiàn)[D].天津:河北工業(yè)大學(xué),2002.
[4] Unicode 6.2.0[EB/OL]].[2013-03-30].http://www.unicode.org/versions/Unicode5.2.0/.
[5] 《文淵閣四庫全書》最新3.0 版(內(nèi)聯(lián)網(wǎng)版/網(wǎng)上版)產(chǎn)品小冊(cè)子[EB/OL].[2013-03-30].http://www.sikuquanshu.com/Html/GB/product/download/3.0leaflet_gb.pdf.
[6] 中國(guó)國(guó)家圖書館館.漢語文古籍機(jī)讀目錄格式使用手冊(cè)[M].北京:北京圖書館出版社,2001.
[7] 缺字系統(tǒng)整合動(dòng)態(tài)組字之應(yīng)用 [EB/OL].[2013-03-30].http://itech.ntcu.edu.tw/Tanet%202007/2%5C396.pdf.
[8] Decomposition for ISO/IEC 10646 Ideographic Characters[EB/OL]. [2013 -03 -30].http://acl.ldc.upenn.edu/W/W02/W02-1209.pdf
[9] 中文古籍網(wǎng)上出版平臺(tái)系統(tǒng)概要[EB/OL].[2013-03-30].http://e-platform.iso10646hk.net/sysoverview.jsp.
[10] 尉遲治平.電子古籍的異體字處理研究——以電子《廣韻》為例[J].語言研究,2007(3):118-122.