河南師范大學(xué) 圖書館 白新勤
中文古籍?dāng)?shù)據(jù)庫建設(shè)現(xiàn)狀與使用推廣
河南師范大學(xué) 圖書館 白新勤
中華浩瀚的古籍文獻(xiàn)歷時三千多年,其歷史之悠久,數(shù)量之繁多,內(nèi)容之豐富,世所罕見。在這些珍貴的典籍中,蘊(yùn)含著中華民族特有的精神價值、思維方式和創(chuàng)造能力,它們既是中華民族文化傳承的見證,也是人類文明的瑰寶。如今,對中文古籍文獻(xiàn)進(jìn)行開發(fā)利用,充分汲取前人的智慧,能夠促進(jìn)中國特色社會主義建設(shè)的發(fā)展,具有重要的歷史價值、文化價值和現(xiàn)實意義。
隨著現(xiàn)代科學(xué)技術(shù)的進(jìn)步,中文古籍文獻(xiàn)資源依托計算機(jī)信息技術(shù)平臺實現(xiàn)了數(shù)字化生存,為中文古籍文獻(xiàn)的保護(hù)、開發(fā)、利用提供了新的方式和途徑。我國從20世紀(jì)80年代中期開始嘗試古籍文獻(xiàn)數(shù)字化的研究及實踐工作,目前已建成一批具有一定規(guī)模、被多數(shù)圖書館采購利用的中文古籍?dāng)?shù)據(jù)庫,如《中國基本古籍庫》和《瀚堂典藏》等。本文,筆者從中文古籍文獻(xiàn)收錄、檢索利用方面對這些中文古籍?dāng)?shù)據(jù)庫進(jìn)行探討,期望能助圖書館的中文古籍?dāng)?shù)據(jù)庫采購和讀者的使用以一臂之力,并對“古籍?dāng)?shù)據(jù)庫進(jìn)高?!惫こ烫岢鲆患褐?。
為了在計算機(jī)環(huán)境下較好地實現(xiàn)利用功能,中文古籍?dāng)?shù)據(jù)庫需要具備一些基本特征。首先,應(yīng)該實現(xiàn)文本字符的數(shù)字化。即漢字是以編碼而不是以圖形的方式儲存在計算機(jī)中。其次,具有基于超鏈接設(shè)計的瀏覽閱讀環(huán)境。應(yīng)該包括正文相關(guān)內(nèi)容之間的鏈接、正文與注釋之間的鏈接、不同注釋之間的鏈接、正文與相關(guān)知識和資料之間的鏈接、原文與在線詞典的鏈接、典籍內(nèi)容與相關(guān)網(wǎng)站的鏈接等,它是中文古籍?dāng)?shù)據(jù)庫的優(yōu)勢體現(xiàn)。第三,具有強(qiáng)大的檢索功能。主要包括關(guān)鍵詞(主題詞)檢索、條件檢索、邏輯檢索、模糊檢索、組配檢索、屬性檢索等。第四,具有研究支持功能。即能夠提供有關(guān)中文古籍內(nèi)容本身科學(xué)、準(zhǔn)確的統(tǒng)計與計量信息,提供與中文古籍內(nèi)容相關(guān)的參考資料、輔助工具,這些信息、資料或工具是古籍內(nèi)容的增值或補(bǔ)充。因此,中文古籍?dāng)?shù)據(jù)庫不是簡單地對中文古籍文獻(xiàn)的數(shù)字化,而是對中文古籍文獻(xiàn)的“傳承、保真”,同時又是經(jīng)過深層次整理所形成的能夠方便使用和進(jìn)一步開發(fā)利用的數(shù)據(jù)庫產(chǎn)品。
1.《中國基本古籍庫》?!吨袊竟偶畮臁废群蟊涣袨楸本┐髮W(xué)重點科研項目、全國高等院校古籍整理研究工作委員會重點項目和國家重點電子出版物十五規(guī)劃項目。它是由北京大學(xué)教授劉俊文任總策劃、總編纂、總監(jiān)制,北京愛如生數(shù)字化技術(shù)研究中心開發(fā)制作,于2006年10月完成的大型中文古籍?dāng)?shù)據(jù)庫。其收錄的是先秦至民國歷代名著、各學(xué)科基本文獻(xiàn)、有拾遺補(bǔ)闕意義的特殊著作等,涵蓋這一歷史階段的全部中國歷史與文化,內(nèi)容量相當(dāng)于3部《四庫全書》。其所用版本均經(jīng)專家嚴(yán)格篩選,符合“完本、現(xiàn)存最早之本或晚出精刻精鈔精校本、未經(jīng)刪削竄改之本”3條標(biāo)準(zhǔn)。總計收錄典籍1萬種,版本12 500個、20萬卷,全文17億字。根據(jù)中國古籍多版本、多盡寸、多樣式、多字體的復(fù)雜情況,采用完全支持Unicode國際編碼的數(shù)據(jù)格式,對典籍的全文進(jìn)行數(shù)字化處理和標(biāo)準(zhǔn)排版,達(dá)成盡寸、版式、字體統(tǒng)一,并采用大容量的復(fù)排頁面顯示。另外,通過其獨有的工具包,用戶可以使用典籍提要、作者通檢、版本速查、常用字典4種工具,為研讀古籍提供了必要的幫助,排除了古籍研究的疑難和障礙。其中,版本速查可查詢1萬種典籍的現(xiàn)存版本及藏所;常用字典可查詢1萬個常用字的發(fā)音和釋義。通過古籍版本信息的查詢與利用,用戶不但可以對不同版本進(jìn)行比較,還可以實現(xiàn)各版本古籍館藏地的查詢。
《中國基本古籍庫》的系統(tǒng)架構(gòu)為客戶端服務(wù)器模式,即Client/Server方式,服務(wù)器和客戶端為微軟系列服務(wù)器和客戶機(jī)操作系統(tǒng),客戶端需要安裝《中國基本古籍庫》專用軟件。因此,該數(shù)據(jù)庫美中不足的是讀者在初次使用時必須安裝客戶端專用軟件,并且每次使用都必須從客戶端軟件進(jìn)入,即使有相關(guān)使用說明,也不能使人們很快地掌握使用方法。另外,《中國基本古籍庫》是一個已經(jīng)完全建成的數(shù)據(jù)庫,其數(shù)據(jù)內(nèi)容不會再有更新,并且對于圖書館來說,購買方式是買斷形式,價格較昂貴。
2.《瀚堂典藏》?!跺玫洳亍肥潜本╁玫洳乜萍加邢薰就瞥龅募尚跃扌椭形墓偶?dāng)?shù)據(jù)庫,是古籍?dāng)?shù)字化制作中涌現(xiàn)出的后起之秀。該數(shù)據(jù)庫系采用國際Unicode標(biāo)準(zhǔn)7萬漢字之超大字符集,以圖文對照的數(shù)字圖書館高新技術(shù)形式和檔案夾分類的書目樹模式,完整保存典籍文獻(xiàn),并可以方便查詢、研究、閱讀和推廣。《瀚堂典藏》以小學(xué)工具類數(shù)據(jù)和出土文獻(xiàn)類數(shù)據(jù)為核心,逐步納入大量傳世文獻(xiàn),并以此為基礎(chǔ)建設(shè)各種專題文獻(xiàn)庫。其種類涵蓋歷代字書類書的小學(xué)工具、類書集成庫,以及出土文獻(xiàn)、敦煌文獻(xiàn)、古典戲曲、古本小說、佛教和道教文獻(xiàn)以及中醫(yī)藥文獻(xiàn)庫等。目前,古籍總量已達(dá)萬余種,并在持續(xù)增加中。該數(shù)據(jù)庫采用Unicode擴(kuò)展技術(shù),基本解決了生僻漢字在計算機(jī)平臺上無法錄入、顯示、編輯的難題,使計算機(jī)可以處理的漢字種類的總量達(dá)到7萬字。它是目前中國內(nèi)地唯一在微軟平臺上支持超大字符集、進(jìn)行自然語言全文檢索、實現(xiàn)編輯功能的中文古籍文獻(xiàn)數(shù)據(jù)庫,差錯率能夠控制在萬分之一以內(nèi)。
《瀚堂典藏》數(shù)據(jù)庫的系統(tǒng)架構(gòu)為服務(wù)器/瀏覽器模式,即B/ S方式,基于大字符集下的XML數(shù)據(jù)格式,無需下載任何客戶端,即可在通用瀏覽器上進(jìn)行閱讀和編輯,全部實現(xiàn)了文本化對照閱讀。對于圖書館購買來說,方式比較靈活,既可以包庫使用,也可以部分買斷使用(小學(xué)工具除外),而且系統(tǒng)的數(shù)據(jù)在不斷地更新,古籍資源也是在逐步增加的。不過,《瀚堂典藏》的研讀功能欠缺,不具備研讀所需的輔助工具。
1.《中國基本古籍庫》?!吨袊竟偶畮臁窓z索技術(shù)先進(jìn)、設(shè)計實用,不僅有分類檢索、條目檢索、全文檢索、高級檢索4條檢索路徑,而且還有模糊檢索、關(guān)聯(lián)檢索等多種檢索方法,以及平均0.2秒的神奇速度,可以進(jìn)行全方位快速海量檢索。
(1)分類檢索。分類檢索可以通過庫、類、目的樹型結(jié)構(gòu)進(jìn)行定向檢索。
(2)條目檢索?!吨袊竟偶畮臁贩譃檎芸茙?、史地庫、藝文庫、綜合庫以及20個大類和100多個細(xì)目,用戶可以按具體條目來查詢。條目檢索方法既可以提供書名、時代、作者、版本、篇目檢索,也可以在幾個檢索字段中同時檢索。
(3)全文檢索。全文檢索通過輸入任意字、詞或字符串進(jìn)行爬梳檢索,可用任意字、詞或字符串對1萬種書中所有的相關(guān)信息進(jìn)行檢索。
(4)高級檢索。高級檢索是在檢索結(jié)果中進(jìn)行二次檢索,或組合字詞進(jìn)行邏輯檢索,或綜合選項進(jìn)行關(guān)聯(lián)檢索,它可排除大量無用信息,達(dá)到精確檢索。
在檢索結(jié)果的使用方面,查詢后可直接得知相關(guān)檢索結(jié)果數(shù),并可直接鏈接到文中的相關(guān)處,也可以一頁一頁編輯打印。但是,其瀏覽功能不提供圖文對照,所檢索到的內(nèi)容需要從所在卷的首頁開始翻找。其具有版式設(shè)定、字體轉(zhuǎn)換、背景顏色、版本對照、放縮控制、標(biāo)點批注、閱讀記憶、分類搜集、下載編輯和原文打印共10個研讀功能,可以輕松實現(xiàn)從檢索、閱讀到??薄?biāo)點、注釋、編輯、下載和打印的系列操作,改變了傳統(tǒng)中文古籍文獻(xiàn)使用研讀的手工方式。
2.《瀚堂典藏》?!跺玫洳亍窓z索途徑分為使用“目錄樹”和使用“檢索范圍”。
(1)使用“目錄樹”檢索?!跺玫洳亍窋?shù)據(jù)庫系統(tǒng)主頁面左側(cè)的“目錄樹”有上萬片“樹葉”,11 000種典籍與近代報刊可自由勾選組合,靈活跨庫任意檢索、圖文對照瀏覽,點擊節(jié)點內(nèi)容可以查看單一書目簡介。它可以實現(xiàn)瀏覽分庫下的子庫及書目介紹,即點擊“書目樹”右邊的“+”可以展開分庫,瀏覽該分庫下的子庫,再點選書庫或書目名稱,可以在主頁面查看相關(guān)介紹;選擇特定的書庫或書目進(jìn)行搜索,通過點擊書庫文件夾或書目圖標(biāo)右側(cè)的復(fù)選框,勾選要搜索的書庫或書目,在搜索框中輸入關(guān)鍵字進(jìn)行搜索,并可以在13個分庫中任意勾選書目,實現(xiàn)橫跨分庫的內(nèi)容搜索。
(2)使用“檢索范圍”檢索。在條目檢索框中輸入檢索詞,可以選擇出處、標(biāo)題、書目、全文進(jìn)行檢索。其中,“出處”是指書目索引中的一個域,通常包含了該書目在“目錄樹”中的位置和該書目所含章節(jié)目錄等信息。因此,在“出處”中搜索,可應(yīng)用于查找書庫名稱、書目名稱、章節(jié)標(biāo)題、字典部首等搜索需求。“標(biāo)題”通常包含了字書字頭、辭書詞條、詩歌標(biāo)題、出土文獻(xiàn)編號等信息。利用書目搜索,不但可得到所有書名與搜索關(guān)鍵字相關(guān)的書目,還可查找到一本書在目錄樹中的位置。在“全文”中搜索包含了以上出處、標(biāo)題和書目3個域和“內(nèi)容”部分,即在最大范圍內(nèi)搜索。同時,還可以對檢索結(jié)果進(jìn)行二次檢索,檢索方式分為絕對精準(zhǔn)、精準(zhǔn)與模糊檢索。僅單一字書類數(shù)據(jù)庫,有筆畫數(shù)法、拼音法、組字法、拆字法等7種以上的檢索方法,并且能夠單獨或組合使用。該數(shù)據(jù)庫還可以進(jìn)行長字符串的模糊檢索,該檢索方式可以進(jìn)行自然語言切分,有較高智能性,同時系統(tǒng)支持二次檢索、人工分詞檢索。
隨著一批中文古籍?dāng)?shù)據(jù)庫的建成,其建設(shè)中存在的技術(shù)瓶頸問題,如光學(xué)字符識別(OCR)以及古籍文獻(xiàn)眾多的繁體字、異體字、通假字、避諱字的計算機(jī)編碼問題等已經(jīng)基本解決。但中文古籍?dāng)?shù)字化涉及版本、斷句、校對、造字等特殊問題,要將卷帙浩繁、門類眾多而分布于各處的古籍文獻(xiàn)進(jìn)行全文數(shù)字化,建立中文古籍?dāng)?shù)據(jù)庫群,仍是一項長期的系統(tǒng)工程,需要許多單位及諸多專家學(xué)者聯(lián)手合作才能完成。
但是,就目前中文古籍?dāng)?shù)據(jù)庫建設(shè)情況來看,進(jìn)行中文古籍文獻(xiàn)數(shù)字化的方式方法多種多樣,其中有公司、有以科研項目形式進(jìn)行研制建設(shè)的學(xué)校、研究機(jī)構(gòu),也有兩者的聯(lián)合;有的數(shù)字化古籍文獻(xiàn)數(shù)量很多,有的只有很少一部分。由于進(jìn)行大規(guī)模的古籍文獻(xiàn)數(shù)字化投入較大,所以其推向市場的價格一般都很高,例如《中國基本古籍庫》價格在百萬元之上,對于高校圖書館來說采購存在一定的困難。那么,如何解決中文古籍?dāng)?shù)據(jù)庫進(jìn)高校的問題呢?《中華再造善本》進(jìn)校園的事例值得借鑒。為了繼承和傳播中華民族優(yōu)秀傳統(tǒng)文化,促進(jìn)和擴(kuò)大古籍善本的學(xué)術(shù)研究,基于我國現(xiàn)存的珍善本古籍亟待搶救、保護(hù)和合理開發(fā)利用,2002年5月,國家財政部、文化部聯(lián)合實施了《中華再造善本》國家重點文化一期工程,聘請文史專家挑選最珍稀的中文古籍版本,影印復(fù)制出版了具有中國傳統(tǒng)古籍特色的《中華再造善本》。這套再造善本依托具有珍貴館藏的國家圖書館,具有整理影印中文古籍等各種稀見歷史文獻(xiàn)專業(yè)出版特色的國家圖書館出版社出版發(fā)行。其中,從2002年起實施至2007年完成的工程一期出版的《唐宋編》和《金元編》,共758種1 394函8 990冊,二期明清時代的選目也已初步完成選目556種,兩期總為1 300余種,規(guī)模十分可觀。工程一期國家共投入2億元人民幣,書籍每套總售價330多萬元。為增進(jìn)大學(xué)生對中華民族傳統(tǒng)文化的認(rèn)識和了解,推動中華文明的傳承和發(fā)展,國家教育部實施了《中華再造善本》進(jìn)校園計劃,以1億元人民幣的總價、每套100萬元的價格訂購了原售價330多萬元的一期《中華再造善本》100套,為全國100所普通高校各配備一套《中華再造善本》。筆者所在學(xué)校圖書館是獲贈單位之一,這項活動被譽(yù)為全校師生的福祉。參照《中華再造善本》出版發(fā)行以及其進(jìn)院校的成功模式,對于中文古籍?dāng)?shù)據(jù)庫進(jìn)高校來說,也可以采用國家投資,整合目前的各類數(shù)據(jù)庫,把它們綜合到一個平臺上,并由政府部門統(tǒng)一采購,為符合一定條件的高校進(jìn)行配備,必將對中華民族文化的傳承和社會主義先進(jìn)文化的建設(shè)發(fā)揮巨大作用。