馬創(chuàng)新 曲維光 陳小荷
(1.南京師范大學文學院 江蘇南京 210097;2.南京師范大學計算機科學與技術學院 江蘇南京 210097)
中文古籍數字化是指利用現代信息技術對中文古籍進行加工處理,使其轉化為電子數據形式保存和傳播,它是中文古籍再生性保護的重要手段,是古籍整理工作的一部分。古籍數字化的研究和開發(fā)層次涉及傳統(tǒng)古籍的加工處理深度,毛建軍認為古籍數字化開發(fā)分為五個層次:編制古籍電子索引、建立古籍書目數據庫、古籍原文圖像復制、匯編古籍電子叢書、古籍標點今譯與普及等。〔1〕王立清認為,按照古籍數字化處理深度的不同,其開發(fā)層次可以包括古籍書目的數字化、古籍載體的數字化、古籍圖文的數字化、古籍知識及關聯(lián)的數字化?!?〕徐清等人認為古籍數字資源的深度開發(fā)至少包括三個方面內容:提供基于超文本的立體閱讀環(huán)境、建立強大的智能化檢索系統(tǒng)、提供科學、準確的統(tǒng)計數據和信息分析?!?〕
表1 中文古籍數字化的開發(fā)層次及其主要內容
我們根據數字化加工的深度對古籍數字化進行層次劃分,在表1中列出了古籍數字化的層次及其主要內容,其中第一層解決了古籍的錄入和數字化存儲問題;第二層基本上解決了古籍的網絡傳播和信息檢索問題;第三層是古籍書目基本信息的標注問題、古籍內容的淺層標注與系聯(lián)問題;第四層是古籍內容的深層語義標注和知識檢索方法。第一、二層的內容屬于“表層數字化”,第三、四層的內容屬于“深層數字化”。當然這種層次劃分是相對的,實際上并沒有區(qū)分層次深淺的絕對標準。
在古籍數字化的初期,主要任務是解決如何把幾千年來一直保存在竹簡、木牘、紙張等實物介質上的古籍內容以數字形式存入計算機中的問題。古籍善本的圖像掃描錄入是對存儲在實物介質上的古籍分頁做光學掃描,每頁內容作為一個圖片存儲,該方法能在短時間內將大量古籍轉儲在計算機中,但是以圖片形式存儲不便于古籍內容的檢索。OCR識別通過對圖片進行分割、對圖像輪廓進行識別匹配,能夠辨析出圖像中的文字,把圖片中的古籍內容轉化成字符序列。經過OCR識別并且按字符建立索引之后,對古籍內容的檢索將會變得高效便捷,但是當今的OCR識別技術還有待提高,各種OCR識別技術的準確率和召回率都無法達到百分之百,需要在機器識別之后再做人工校對。
漢字從產生到今天已經有幾千年,在這漫長的歷史時期中,產生了大量漢字字形,《康熙大字典》收錄的漢字就有47035個,實際使用的漢字還要更多一些。然而,當前計算機中常用的字符集如GB2312、Big5、GBK等都沒有收錄這么多漢字。并且由于使用漢字記錄的古籍文獻浩如煙海,在這些文獻中存著大量停用字和異體字,有些漢字字形使用的頻率極低,所以這個問題不能僅靠擴大字符集的規(guī)模來解決,必須研究字符集之外文字的存儲方法。
在研究古籍文獻錄入與存儲方法的同時,還要研究如何便捷地閱讀和檢索文獻內容,在當今互聯(lián)網時代,古籍文獻閱讀檢索的單機版形式顯然無法滿足研究者的需要,必須要實現古籍全文的互聯(lián)網發(fā)布和基于網絡的全文檢索。
古籍的表層數字化主要解決古籍的數字化存儲、網絡傳播和全文檢索的問題,而深層數字化深入到“內容和意義”層面研究古籍文獻,包括研究古籍著錄和描述的元數據標準、古籍內部知識元的標注問題、知識元之間的聯(lián)系方法、以及古籍之間的聯(lián)系方法。
元語言,“就是描述語言的語言,它通過定義一套描述文檔結構與含義的語法標記,使人或計算機能夠利用這些標記快速準確地找到并理解文檔中包含的特定語義信息”〔4〕。通過制定通用的古籍著錄和描述的元數據標準,并且使用該標準對古籍進行描述,能夠使計算機快速準確地找到目標古籍。由于元數據標準(如DC元數據、MARC元數據等)能夠對古籍的基本內容特征做具體的描述,所以描述古籍基本內容特征的“元數據信息庫”要比單純的“書目索引庫”應用價值大得多。表層數字化研究中的全文檢索僅能夠通過簡單的字符串匹配技術查找到指定的字符或者字符串,無法滿足研究者多層面的檢索需求,通過制訂系統(tǒng)的元數據標記,對古籍內容進行標注,如標注出古籍中的命名實體或者某類特定信息,能夠滿足研究者較高層次的檢索需求。經過元數據標注后,接下來可以繼續(xù)研究如何在古籍之間、章節(jié)之間、內部知識元之間自動地設置錨點和鏈接,構造超文本的立體閱讀環(huán)境。
“本體是關于領域知識的概念化、形式化的明確規(guī)范?!薄?〕本體通過概念描述揭示領域知識,古籍領域本體能夠展示古籍中豐富的語義關系,并且可以保證語義的一致性。各個學科領域的專家能夠構建適用于特定領域的規(guī)模較小的本體,如:古籍著錄與描述本體、訓詁學本體、音韻學本體、文字學本體等等。古籍數字化研究專家能夠使用本體集成技術將所需要的多個領域本體集成在一起,構成一個規(guī)模較大的應用于古籍數字化領域的專業(yè)本體。
古籍知識網絡建設就是利用計算機技術、信息技術等新興技術手段,對蘊含在古籍中的知識進行多元的組合,在多部古籍的內部知識元之間建立起聯(lián)系,把多個一維的線性序列轉化為一個多維的知識網絡,使多部古籍成為一個結構化的知識集合。在古籍領域本體和知識網絡的基礎上設計的檢索系統(tǒng)能夠實現智能的知識檢索。
中文古籍的表層數字化與深層數字化之間有以下區(qū)別:①古籍的表層數字化研究起步較早,至今已取得豐碩成果,一些疑難問題基本上得到解決,古籍的深層數字化研究起步較晚,也取得了一定的成果,很多問題現在正處于攻堅階段。②古籍數字化是一項多學科交叉的研究課題,主要牽涉到文獻學和計算機科學。古籍的表層數字化更多的依賴計算機技術,像OCR識別、大字符集的研制等都是通過技術創(chuàng)新來推動古籍數字化的發(fā)展。而古籍的深層數字化則是建立在對古籍內容本身有著較為深入理解的基礎之上,對于研究者在文獻學、語言學、版本學等方面的知識素養(yǎng)有更高的要求,“應該有樸學的根底、科學的精神、數字化的研究手段?!薄?〕③在古籍數字化的主要研究內容中,有些內容是與現代中文信息處理所共有的,有些內容是古籍信息處理時所特有的。古籍表層數字化研究中的大部分內容是與現代中文信息處理所共有的,而深層數字化研究中的大部分內容是利用計算機處理古籍文獻時所特有的。
古籍數字化研究在我國已有三十多年的歷史,發(fā)展到今天,產生了大量成果,并且表現出由表層數字化向深層數字化發(fā)展的趨勢,〔7〕具體表現在:
為了減少重復開發(fā)、實現資源共享,一些資源豐富的研究單位制訂了古籍文獻存儲、標識和傳輸的統(tǒng)一標準,并且逐漸得到認可和推廣。例如:北京大學古籍數字圖書館制訂了古籍元數據著錄規(guī)范和標準框架,針對在我國廣泛應用的數字對象分別建立了相應的數字規(guī)范,編制了各個專門元數據的應用指南、元數據定義信息、應用協(xié)議和轉換工具的等級機制,目的就是要解決對物理實體古籍和數字化古籍的著錄和描述問題?!?〕
為了使古籍文獻的檢索和傳輸更加方便快捷,古籍數字化研究者重視當代網絡技術的研究與應用。例如:萬維網聯(lián)盟定義的可擴展標記語言近年來被廣泛應用于古籍數字化工作中。山川等人應用XML和XML Schema語言來描述古籍元數據,利用XML提出了一套完整的著錄古籍元數據的方案?!?〕吳琴霞等人采用XML+XML Schema對甲骨文語料庫進行結構化標注,使不同類型的數據表示成統(tǒng)一的格式,方便了數據的交換和共享。他們在甲骨文領域專家的幫助下對已有的甲骨文語料庫進行標注,標注時抽取出對甲骨文考釋有幫助的信息,把這些信息作為XML文檔的詞匯集,詞匯之間的關系通過建立XML Schema來確定,然后根據定義好的 XML Schema使用 XML對甲骨文語料庫進行標注?!?0〕
古籍數字化研究中引入了統(tǒng)計模型和計算語言學方法,對古籍內容進行深入分析,研究古籍文獻的自動分詞、自動斷句和版本??钡确椒ā@?石民等人研究使用CRF模型對《左傳》進行自動分詞、詞性標注、分詞及標注一體化的方法?!?1〕于麗麗等人使用CRF模型,利用復合特征模板和增加語言學特征的模板,在古漢語語料上進行詞義消歧實驗。〔12〕段磊等人以《史記》全文語料為例,分別應用基于頻率、互信息、假設檢驗的統(tǒng)計方法獲取古漢語雙字詞,并結合人工標注結果進行評測,為古漢語雙字詞自動獲取提供了相應的解決方案?!?3〕
研究者重視相關古籍之間的關聯(lián),在研究某一古籍時,同時分析多部相關文獻,通過相互佐證,得到驗證某一觀點的豐富材料。例如:在古代有很多對經典古籍做注解的注疏文獻,這些注疏文獻中蘊含著古代的語言、文化和歷史等方面的豐富知識。在研究某一經典古籍時,通過分析它的注疏文獻可以得到大量有用信息。馬創(chuàng)新等人把《論語》的注疏文獻中蘊含的信息作為研究《論語》原典的依據和資源,研究了構建《論語》與其注疏文獻對齊語料庫的基本方法?!?4〕
(5)研究者開始探索基于本體語義的古籍知識庫建設方案。例如:羅晨光等人在古籍描述元數據著錄規(guī)則的基礎上,結合本體理論,將古籍元數據映射為一個基于本體的知識庫,并且使用OWL語言實現了這個知識庫的結構框架。〔15〕谷建軍分析了適合中醫(yī)古籍數據庫的本體表示語言和編輯工具,建立了一個以“病癥”概念為核心的中醫(yī)古籍文獻領域本體模型?!?6〕
1.毛建軍.古籍數字化理論與實踐.北京:航空工業(yè)出版社,2009:8
2.王立清.中文古籍數字化研究.北京:國家圖書館出版社,2011:25
3.徐清,石向實,王唯.古籍數字化資源的深度開發(fā).圖書情報工作,2007(3):95 -97,79
4.胡佳佳.《說文解字》語料庫的XML標注設計.社會科學論壇,2011(7):214-223
5.戴維民.語義網信息組織技術與方法.上海:學林出版社,2008:13
6.尉遲治平.漢語信息處理和計算機輔助漢語史研究.語言研究,2004(3):7-10
7.馬創(chuàng)新,陳小荷.基于XML的《論語》與其注疏文獻對齊語料庫的知識表示.圖書情報知識,2013(1):107-113
8.姚伯岳等.古籍元數據標準的設計及其系統(tǒng)實現.大學圖書館學報,2003(1):17-21
9.山川,羅晨光.XML著錄古籍元數據初探.圖書館工作與研究,2007(6):53-56
10.吳琴霞,劉永革.基于XML/Schema甲骨文語料庫語料標注的研究.科學技術與工程,2009(17):5185-5188
11.石民,李斌,陳小荷.基于CRF的先秦漢語分詞標注一體化研究.中文信息學報,2010(2):39-45
12.于麗麗等.基于條件隨機場的古漢語詞義消歧研究.微電子學與計算機,2009(10):45-48
13.段磊,韓芳,宋繼華.古漢語雙字詞自動獲取方法的比較與分析.中文信息學報,2012(4):34-42
14.馬創(chuàng)新等.《論語》與其注疏文獻對齊語料庫的構建.現代教育技術,2012(7):109-113
15.羅晨光,山川,王珊.基于本體的古籍知識庫建設初探.現代圖書情報技術,2007(4):8-11
16.谷建軍.基于敘詞表的中醫(yī)古籍文獻領域本體建模方法研究.中國中醫(yī)科學院博士論文,2006