河南師范大學(xué) 圖書館 白新勤
中文古籍?dāng)?shù)據(jù)庫(kù)建設(shè)現(xiàn)狀與使用推廣
河南師范大學(xué) 圖書館 白新勤
中華浩瀚的古籍文獻(xiàn)歷時(shí)三千多年,其歷史之悠久,數(shù)量之繁多,內(nèi)容之豐富,世所罕見(jiàn)。在這些珍貴的典籍中,蘊(yùn)含著中華民族特有的精神價(jià)值、思維方式和創(chuàng)造能力,它們既是中華民族文化傳承的見(jiàn)證,也是人類文明的瑰寶。如今,對(duì)中文古籍文獻(xiàn)進(jìn)行開(kāi)發(fā)利用,充分汲取前人的智慧,能夠促進(jìn)中國(guó)特色社會(huì)主義建設(shè)的發(fā)展,具有重要的歷史價(jià)值、文化價(jià)值和現(xiàn)實(shí)意義。
隨著現(xiàn)代科學(xué)技術(shù)的進(jìn)步,中文古籍文獻(xiàn)資源依托計(jì)算機(jī)信息技術(shù)平臺(tái)實(shí)現(xiàn)了數(shù)字化生存,為中文古籍文獻(xiàn)的保護(hù)、開(kāi)發(fā)、利用提供了新的方式和途徑。我國(guó)從20世紀(jì)80年代中期開(kāi)始嘗試古籍文獻(xiàn)數(shù)字化的研究及實(shí)踐工作,目前已建成一批具有一定規(guī)模、被多數(shù)圖書館采購(gòu)利用的中文古籍?dāng)?shù)據(jù)庫(kù),如《中國(guó)基本古籍庫(kù)》和《瀚堂典藏》等。本文,筆者從中文古籍文獻(xiàn)收錄、檢索利用方面對(duì)這些中文古籍?dāng)?shù)據(jù)庫(kù)進(jìn)行探討,期望能助圖書館的中文古籍?dāng)?shù)據(jù)庫(kù)采購(gòu)和讀者的使用以一臂之力,并對(duì)“古籍?dāng)?shù)據(jù)庫(kù)進(jìn)高校”工程提出一己之見(jiàn)。
為了在計(jì)算機(jī)環(huán)境下較好地實(shí)現(xiàn)利用功能,中文古籍?dāng)?shù)據(jù)庫(kù)需要具備一些基本特征。首先,應(yīng)該實(shí)現(xiàn)文本字符的數(shù)字化。即漢字是以編碼而不是以圖形的方式儲(chǔ)存在計(jì)算機(jī)中。其次,具有基于超鏈接設(shè)計(jì)的瀏覽閱讀環(huán)境。應(yīng)該包括正文相關(guān)內(nèi)容之間的鏈接、正文與注釋之間的鏈接、不同注釋之間的鏈接、正文與相關(guān)知識(shí)和資料之間的鏈接、原文與在線詞典的鏈接、典籍內(nèi)容與相關(guān)網(wǎng)站的鏈接等,它是中文古籍?dāng)?shù)據(jù)庫(kù)的優(yōu)勢(shì)體現(xiàn)。第三,具有強(qiáng)大的檢索功能。主要包括關(guān)鍵詞(主題詞)檢索、條件檢索、邏輯檢索、模糊檢索、組配檢索、屬性檢索等。第四,具有研究支持功能。即能夠提供有關(guān)中文古籍內(nèi)容本身科學(xué)、準(zhǔn)確的統(tǒng)計(jì)與計(jì)量信息,提供與中文古籍內(nèi)容相關(guān)的參考資料、輔助工具,這些信息、資料或工具是古籍內(nèi)容的增值或補(bǔ)充。因此,中文古籍?dāng)?shù)據(jù)庫(kù)不是簡(jiǎn)單地對(duì)中文古籍文獻(xiàn)的數(shù)字化,而是對(duì)中文古籍文獻(xiàn)的“傳承、保真”,同時(shí)又是經(jīng)過(guò)深層次整理所形成的能夠方便使用和進(jìn)一步開(kāi)發(fā)利用的數(shù)據(jù)庫(kù)產(chǎn)品。
1.《中國(guó)基本古籍庫(kù)》?!吨袊?guó)基本古籍庫(kù)》先后被列為北京大學(xué)重點(diǎn)科研項(xiàng)目、全國(guó)高等院校古籍整理研究工作委員會(huì)重點(diǎn)項(xiàng)目和國(guó)家重點(diǎn)電子出版物十五規(guī)劃項(xiàng)目。它是由北京大學(xué)教授劉俊文任總策劃、總編纂、總監(jiān)制,北京愛(ài)如生數(shù)字化技術(shù)研究中心開(kāi)發(fā)制作,于2006年10月完成的大型中文古籍?dāng)?shù)據(jù)庫(kù)。其收錄的是先秦至民國(guó)歷代名著、各學(xué)科基本文獻(xiàn)、有拾遺補(bǔ)闕意義的特殊著作等,涵蓋這一歷史階段的全部中國(guó)歷史與文化,內(nèi)容量相當(dāng)于3部《四庫(kù)全書》。其所用版本均經(jīng)專家嚴(yán)格篩選,符合“完本、現(xiàn)存最早之本或晚出精刻精鈔精校本、未經(jīng)刪削竄改之本”3條標(biāo)準(zhǔn)。總計(jì)收錄典籍1萬(wàn)種,版本12 500個(gè)、20萬(wàn)卷,全文17億字。根據(jù)中國(guó)古籍多版本、多盡寸、多樣式、多字體的復(fù)雜情況,采用完全支持Unicode國(guó)際編碼的數(shù)據(jù)格式,對(duì)典籍的全文進(jìn)行數(shù)字化處理和標(biāo)準(zhǔn)排版,達(dá)成盡寸、版式、字體統(tǒng)一,并采用大容量的復(fù)排頁(yè)面顯示。另外,通過(guò)其獨(dú)有的工具包,用戶可以使用典籍提要、作者通檢、版本速查、常用字典4種工具,為研讀古籍提供了必要的幫助,排除了古籍研究的疑難和障礙。其中,版本速查可查詢1萬(wàn)種典籍的現(xiàn)存版本及藏所;常用字典可查詢1萬(wàn)個(gè)常用字的發(fā)音和釋義。通過(guò)古籍版本信息的查詢與利用,用戶不但可以對(duì)不同版本進(jìn)行比較,還可以實(shí)現(xiàn)各版本古籍館藏地的查詢。
《中國(guó)基本古籍庫(kù)》的系統(tǒng)架構(gòu)為客戶端服務(wù)器模式,即Client/Server方式,服務(wù)器和客戶端為微軟系列服務(wù)器和客戶機(jī)操作系統(tǒng),客戶端需要安裝《中國(guó)基本古籍庫(kù)》專用軟件。因此,該數(shù)據(jù)庫(kù)美中不足的是讀者在初次使用時(shí)必須安裝客戶端專用軟件,并且每次使用都必須從客戶端軟件進(jìn)入,即使有相關(guān)使用說(shuō)明,也不能使人們很快地掌握使用方法。另外,《中國(guó)基本古籍庫(kù)》是一個(gè)已經(jīng)完全建成的數(shù)據(jù)庫(kù),其數(shù)據(jù)內(nèi)容不會(huì)再有更新,并且對(duì)于圖書館來(lái)說(shuō),購(gòu)買方式是買斷形式,價(jià)格較昂貴。
2.《瀚堂典藏》?!跺玫洳亍肥潜本╁玫洳乜萍加邢薰就瞥龅募尚跃扌椭形墓偶?dāng)?shù)據(jù)庫(kù),是古籍?dāng)?shù)字化制作中涌現(xiàn)出的后起之秀。該數(shù)據(jù)庫(kù)系采用國(guó)際Unicode標(biāo)準(zhǔn)7萬(wàn)漢字之超大字符集,以圖文對(duì)照的數(shù)字圖書館高新技術(shù)形式和檔案夾分類的書目樹模式,完整保存典籍文獻(xiàn),并可以方便查詢、研究、閱讀和推廣?!跺玫洳亍芬孕W(xué)工具類數(shù)據(jù)和出土文獻(xiàn)類數(shù)據(jù)為核心,逐步納入大量傳世文獻(xiàn),并以此為基礎(chǔ)建設(shè)各種專題文獻(xiàn)庫(kù)。其種類涵蓋歷代字書類書的小學(xué)工具、類書集成庫(kù),以及出土文獻(xiàn)、敦煌文獻(xiàn)、古典戲曲、古本小說(shuō)、佛教和道教文獻(xiàn)以及中醫(yī)藥文獻(xiàn)庫(kù)等。目前,古籍總量已達(dá)萬(wàn)余種,并在持續(xù)增加中。該數(shù)據(jù)庫(kù)采用Unicode擴(kuò)展技術(shù),基本解決了生僻漢字在計(jì)算機(jī)平臺(tái)上無(wú)法錄入、顯示、編輯的難題,使計(jì)算機(jī)可以處理的漢字種類的總量達(dá)到7萬(wàn)字。它是目前中國(guó)內(nèi)地唯一在微軟平臺(tái)上支持超大字符集、進(jìn)行自然語(yǔ)言全文檢索、實(shí)現(xiàn)編輯功能的中文古籍文獻(xiàn)數(shù)據(jù)庫(kù),差錯(cuò)率能夠控制在萬(wàn)分之一以內(nèi)。
《瀚堂典藏》數(shù)據(jù)庫(kù)的系統(tǒng)架構(gòu)為服務(wù)器/瀏覽器模式,即B/ S方式,基于大字符集下的XML數(shù)據(jù)格式,無(wú)需下載任何客戶端,即可在通用瀏覽器上進(jìn)行閱讀和編輯,全部實(shí)現(xiàn)了文本化對(duì)照閱讀。對(duì)于圖書館購(gòu)買來(lái)說(shuō),方式比較靈活,既可以包庫(kù)使用,也可以部分買斷使用(小學(xué)工具除外),而且系統(tǒng)的數(shù)據(jù)在不斷地更新,古籍資源也是在逐步增加的。不過(guò),《瀚堂典藏》的研讀功能欠缺,不具備研讀所需的輔助工具。
1.《中國(guó)基本古籍庫(kù)》?!吨袊?guó)基本古籍庫(kù)》檢索技術(shù)先進(jìn)、設(shè)計(jì)實(shí)用,不僅有分類檢索、條目檢索、全文檢索、高級(jí)檢索4條檢索路徑,而且還有模糊檢索、關(guān)聯(lián)檢索等多種檢索方法,以及平均0.2秒的神奇速度,可以進(jìn)行全方位快速海量檢索。
(1)分類檢索。分類檢索可以通過(guò)庫(kù)、類、目的樹型結(jié)構(gòu)進(jìn)行定向檢索。
(2)條目檢索?!吨袊?guó)基本古籍庫(kù)》分為哲科庫(kù)、史地庫(kù)、藝文庫(kù)、綜合庫(kù)以及20個(gè)大類和100多個(gè)細(xì)目,用戶可以按具體條目來(lái)查詢。條目檢索方法既可以提供書名、時(shí)代、作者、版本、篇目檢索,也可以在幾個(gè)檢索字段中同時(shí)檢索。
(3)全文檢索。全文檢索通過(guò)輸入任意字、詞或字符串進(jìn)行爬梳檢索,可用任意字、詞或字符串對(duì)1萬(wàn)種書中所有的相關(guān)信息進(jìn)行檢索。
(4)高級(jí)檢索。高級(jí)檢索是在檢索結(jié)果中進(jìn)行二次檢索,或組合字詞進(jìn)行邏輯檢索,或綜合選項(xiàng)進(jìn)行關(guān)聯(lián)檢索,它可排除大量無(wú)用信息,達(dá)到精確檢索。
在檢索結(jié)果的使用方面,查詢后可直接得知相關(guān)檢索結(jié)果數(shù),并可直接鏈接到文中的相關(guān)處,也可以一頁(yè)一頁(yè)編輯打印。但是,其瀏覽功能不提供圖文對(duì)照,所檢索到的內(nèi)容需要從所在卷的首頁(yè)開(kāi)始翻找。其具有版式設(shè)定、字體轉(zhuǎn)換、背景顏色、版本對(duì)照、放縮控制、標(biāo)點(diǎn)批注、閱讀記憶、分類搜集、下載編輯和原文打印共10個(gè)研讀功能,可以輕松實(shí)現(xiàn)從檢索、閱讀到???、標(biāo)點(diǎn)、注釋、編輯、下載和打印的系列操作,改變了傳統(tǒng)中文古籍文獻(xiàn)使用研讀的手工方式。
2.《瀚堂典藏》?!跺玫洳亍窓z索途徑分為使用“目錄樹”和使用“檢索范圍”。
(1)使用“目錄樹”檢索?!跺玫洳亍窋?shù)據(jù)庫(kù)系統(tǒng)主頁(yè)面左側(cè)的“目錄樹”有上萬(wàn)片“樹葉”,11 000種典籍與近代報(bào)刊可自由勾選組合,靈活跨庫(kù)任意檢索、圖文對(duì)照瀏覽,點(diǎn)擊節(jié)點(diǎn)內(nèi)容可以查看單一書目簡(jiǎn)介。它可以實(shí)現(xiàn)瀏覽分庫(kù)下的子庫(kù)及書目介紹,即點(diǎn)擊“書目樹”右邊的“+”可以展開(kāi)分庫(kù),瀏覽該分庫(kù)下的子庫(kù),再點(diǎn)選書庫(kù)或書目名稱,可以在主頁(yè)面查看相關(guān)介紹;選擇特定的書庫(kù)或書目進(jìn)行搜索,通過(guò)點(diǎn)擊書庫(kù)文件夾或書目圖標(biāo)右側(cè)的復(fù)選框,勾選要搜索的書庫(kù)或書目,在搜索框中輸入關(guān)鍵字進(jìn)行搜索,并可以在13個(gè)分庫(kù)中任意勾選書目,實(shí)現(xiàn)橫跨分庫(kù)的內(nèi)容搜索。
(2)使用“檢索范圍”檢索。在條目檢索框中輸入檢索詞,可以選擇出處、標(biāo)題、書目、全文進(jìn)行檢索。其中,“出處”是指書目索引中的一個(gè)域,通常包含了該書目在“目錄樹”中的位置和該書目所含章節(jié)目錄等信息。因此,在“出處”中搜索,可應(yīng)用于查找書庫(kù)名稱、書目名稱、章節(jié)標(biāo)題、字典部首等搜索需求?!皹?biāo)題”通常包含了字書字頭、辭書詞條、詩(shī)歌標(biāo)題、出土文獻(xiàn)編號(hào)等信息。利用書目搜索,不但可得到所有書名與搜索關(guān)鍵字相關(guān)的書目,還可查找到一本書在目錄樹中的位置。在“全文”中搜索包含了以上出處、標(biāo)題和書目3個(gè)域和“內(nèi)容”部分,即在最大范圍內(nèi)搜索。同時(shí),還可以對(duì)檢索結(jié)果進(jìn)行二次檢索,檢索方式分為絕對(duì)精準(zhǔn)、精準(zhǔn)與模糊檢索。僅單一字書類數(shù)據(jù)庫(kù),有筆畫數(shù)法、拼音法、組字法、拆字法等7種以上的檢索方法,并且能夠單獨(dú)或組合使用。該數(shù)據(jù)庫(kù)還可以進(jìn)行長(zhǎng)字符串的模糊檢索,該檢索方式可以進(jìn)行自然語(yǔ)言切分,有較高智能性,同時(shí)系統(tǒng)支持二次檢索、人工分詞檢索。
隨著一批中文古籍?dāng)?shù)據(jù)庫(kù)的建成,其建設(shè)中存在的技術(shù)瓶頸問(wèn)題,如光學(xué)字符識(shí)別(OCR)以及古籍文獻(xiàn)眾多的繁體字、異體字、通假字、避諱字的計(jì)算機(jī)編碼問(wèn)題等已經(jīng)基本解決。但中文古籍?dāng)?shù)字化涉及版本、斷句、校對(duì)、造字等特殊問(wèn)題,要將卷帙浩繁、門類眾多而分布于各處的古籍文獻(xiàn)進(jìn)行全文數(shù)字化,建立中文古籍?dāng)?shù)據(jù)庫(kù)群,仍是一項(xiàng)長(zhǎng)期的系統(tǒng)工程,需要許多單位及諸多專家學(xué)者聯(lián)手合作才能完成。
但是,就目前中文古籍?dāng)?shù)據(jù)庫(kù)建設(shè)情況來(lái)看,進(jìn)行中文古籍文獻(xiàn)數(shù)字化的方式方法多種多樣,其中有公司、有以科研項(xiàng)目形式進(jìn)行研制建設(shè)的學(xué)校、研究機(jī)構(gòu),也有兩者的聯(lián)合;有的數(shù)字化古籍文獻(xiàn)數(shù)量很多,有的只有很少一部分。由于進(jìn)行大規(guī)模的古籍文獻(xiàn)數(shù)字化投入較大,所以其推向市場(chǎng)的價(jià)格一般都很高,例如《中國(guó)基本古籍庫(kù)》價(jià)格在百萬(wàn)元之上,對(duì)于高校圖書館來(lái)說(shuō)采購(gòu)存在一定的困難。那么,如何解決中文古籍?dāng)?shù)據(jù)庫(kù)進(jìn)高校的問(wèn)題呢?《中華再造善本》進(jìn)校園的事例值得借鑒。為了繼承和傳播中華民族優(yōu)秀傳統(tǒng)文化,促進(jìn)和擴(kuò)大古籍善本的學(xué)術(shù)研究,基于我國(guó)現(xiàn)存的珍善本古籍亟待搶救、保護(hù)和合理開(kāi)發(fā)利用,2002年5月,國(guó)家財(cái)政部、文化部聯(lián)合實(shí)施了《中華再造善本》國(guó)家重點(diǎn)文化一期工程,聘請(qǐng)文史專家挑選最珍稀的中文古籍版本,影印復(fù)制出版了具有中國(guó)傳統(tǒng)古籍特色的《中華再造善本》。這套再造善本依托具有珍貴館藏的國(guó)家圖書館,具有整理影印中文古籍等各種稀見(jiàn)歷史文獻(xiàn)專業(yè)出版特色的國(guó)家圖書館出版社出版發(fā)行。其中,從2002年起實(shí)施至2007年完成的工程一期出版的《唐宋編》和《金元編》,共758種1 394函8 990冊(cè),二期明清時(shí)代的選目也已初步完成選目556種,兩期總為1 300余種,規(guī)模十分可觀。工程一期國(guó)家共投入2億元人民幣,書籍每套總售價(jià)330多萬(wàn)元。為增進(jìn)大學(xué)生對(duì)中華民族傳統(tǒng)文化的認(rèn)識(shí)和了解,推動(dòng)中華文明的傳承和發(fā)展,國(guó)家教育部實(shí)施了《中華再造善本》進(jìn)校園計(jì)劃,以1億元人民幣的總價(jià)、每套100萬(wàn)元的價(jià)格訂購(gòu)了原售價(jià)330多萬(wàn)元的一期《中華再造善本》100套,為全國(guó)100所普通高校各配備一套《中華再造善本》。筆者所在學(xué)校圖書館是獲贈(zèng)單位之一,這項(xiàng)活動(dòng)被譽(yù)為全校師生的福祉。參照《中華再造善本》出版發(fā)行以及其進(jìn)院校的成功模式,對(duì)于中文古籍?dāng)?shù)據(jù)庫(kù)進(jìn)高校來(lái)說(shuō),也可以采用國(guó)家投資,整合目前的各類數(shù)據(jù)庫(kù),把它們綜合到一個(gè)平臺(tái)上,并由政府部門統(tǒng)一采購(gòu),為符合一定條件的高校進(jìn)行配備,必將對(duì)中華民族文化的傳承和社會(huì)主義先進(jìn)文化的建設(shè)發(fā)揮巨大作用。