亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        古籍全文數(shù)據(jù)庫的建設(shè)

        2011-03-18 02:00:04劉聰明
        圖書館學(xué)刊 2011年7期
        關(guān)鍵詞:全文檢索古籍全文

        劉聰明

        (清華大學(xué)圖書館,北京 100084)

        劉聰明 男,1970年生。本科學(xué)歷,館員。

        長期以來,古籍文獻存在著“藏”與“用”的矛盾,數(shù)字環(huán)境下這一矛盾日益突出。圖像處理技術(shù)、存儲技術(shù)以及信息檢索技術(shù)的發(fā)展與完善,為矛盾的有效解決創(chuàng)造了良好的技術(shù)條件,古籍數(shù)字化成為古籍文獻開發(fā)利用的總趨勢。近年來,隨著全文檢索技術(shù)的發(fā)展,建設(shè)全文數(shù)據(jù)庫成為古籍數(shù)字化的主要形式。

        1 古籍全文數(shù)據(jù)庫的現(xiàn)狀

        古籍全文數(shù)據(jù)庫是指以計算機可讀的字符代碼形式或以古籍文獻頁面掃描的影像形式存貯古籍文獻正文內(nèi)容,計算機可進行處理與查詢的數(shù)據(jù)庫[1]。與古籍書目數(shù)據(jù)庫相比,古籍全文數(shù)據(jù)庫有了很大的進步,目前主要有文本全文數(shù)據(jù)庫、圖像全文數(shù)據(jù)庫以及圖加文全文數(shù)據(jù)庫。

        1.1 文本全文數(shù)據(jù)庫

        文本全文數(shù)據(jù)庫是古籍全文數(shù)據(jù)庫早期的形式,主要是通過人工將古籍全文錄入數(shù)據(jù)庫,再進行分類標引形成可檢索的全文數(shù)據(jù)庫。其最大的優(yōu)勢是為使用者提供了文本格式的古籍全文,可以實現(xiàn)全文檢索,能夠進行文本復(fù)制、字詞統(tǒng)計等操作,占用的存儲空間較小。其不足之處是古籍文獻中的文字相當復(fù)雜,不僅有篆、隸、楷、行、草等書體之異,更有繁、簡、俗、異、古等文字之別,人工輸入不僅量大難度高,而且錯訛難免,有失原貌,無??眱r值[2]。也就是說文本古籍數(shù)據(jù)庫為利用者提供的是一種與古籍的原始面貌截然不同的全新形式,使用者如果研究版式、印刷、批注、印章等信息必須查閱原始古籍。由南開大學(xué)聯(lián)合天津永川軟件技術(shù)有限公司開發(fā)的《二十五史全文閱讀檢索系統(tǒng)》網(wǎng)絡(luò)版就是這種形式。該系統(tǒng)提供了單項與組合檢索功能,檢索結(jié)果均以書名及卷次的形式列出,用戶可以根據(jù)需要點擊進入全文瀏覽界面。由于系統(tǒng)沒有直接將檢索詞定位,用戶進入瀏覽頁面還需要再次查找定位。另外,該系統(tǒng)還為用戶提供了閱讀功能,用戶可以逐卷逐頁閱讀全文。由于該系統(tǒng)全部采用了簡體字,版面也是現(xiàn)代形式,所以用戶無法找到閱讀古籍的感覺。

        1.2 圖像全文數(shù)據(jù)庫

        圖像全文數(shù)據(jù)庫是引進掃描技術(shù)的結(jié)果。通過掃描古籍全文,建立圖像數(shù)據(jù)庫,同時著錄相應(yīng)的元數(shù)據(jù),形成基于元數(shù)據(jù)的古籍全文數(shù)據(jù)庫。其最大的優(yōu)勢是可以提供同原始古籍版式一致的數(shù)字古籍,用戶可以研究古籍的版式,甚至可以研究古籍的批注與收藏者的印章等等。最大的缺點就是用戶只能基于元數(shù)據(jù)進行檢索,無法進行全文檢索與復(fù)制。由浙江大學(xué)和中國科學(xué)院研究生院共同牽頭的CADAL項目[3],在古籍全文圖像數(shù)據(jù)庫方面做了一定的嘗試。該系統(tǒng)采用了比較先進的DjVu圖像格式,開發(fā)了基于元數(shù)據(jù)的古籍全文圖像數(shù)據(jù)庫。由于沒有對圖像進行OCR識別,只能提供基于元數(shù)據(jù)的檢索,無法實現(xiàn)全文檢索。該系統(tǒng)僅提供了檢索功能,用戶無法進行瀏覽閱讀。

        1.3 圖加文全文數(shù)據(jù)庫

        圖加文全文數(shù)據(jù)庫是利用圖像處理技術(shù)與超鏈接技術(shù)結(jié)合形成的數(shù)據(jù)庫,通過超鏈接將圖像全文與文本全文進行對應(yīng),以達到全文檢索與提供原始文獻的目的。由書同文公司開發(fā)的《文淵閣四庫全書》、《四部叢刊》全文檢索系統(tǒng),是典型的圖加文古籍全文數(shù)據(jù)庫。它不僅提供了古籍的圖像,同時還支持分類檢索、書名檢索、著者檢索以及全文檢索。在數(shù)據(jù)庫建設(shè)時不僅進行了OCR識別與校對,為與原始文獻對應(yīng)還進行了二次排版。如此操作流程比較適合大部頭古籍,對于零散的古籍就不太適用了。它雖然為用戶提供了圖文對照,但提供檢索的還是OCR之后的文本。盡管與原始文獻建立了對照,但檢索詞并不能在原始文獻中定位,只能在重新排版的文本上標示,需要在全文文本與原文圖像間來回切換。

        2 未來古籍全文數(shù)據(jù)庫的功能與特點

        從古籍全文數(shù)據(jù)庫現(xiàn)狀可以看出,由于多數(shù)信息技術(shù)尚處于發(fā)展初級階段,在古籍文獻數(shù)字化建設(shè)時,一般將瀏覽與檢索分開考慮,要么只提供純文本,要么只提供圖像文件,要么將圖像與文本相疊加,無法提供比較理想的全文數(shù)據(jù)庫。但技術(shù)的發(fā)展已經(jīng)為古籍全文數(shù)據(jù)庫的建設(shè)提供了平臺,不僅可以實現(xiàn)真正的圖文模式,還可以提供更加便捷的利用途徑。筆者認為,未來的古籍全文數(shù)據(jù)庫至少應(yīng)具備以下功能與特點:

        2.1 瀏覽與檢索功能

        古籍全文數(shù)據(jù)庫最大的優(yōu)勢是提供強大的檢索功能。隨著古籍研究者需求的日益增長和變化,他們不再僅僅滿足于簡單的檢索,更多的還要瀏覽、欣賞包括書法、色彩、印章等信息在內(nèi)的古籍文獻。因此,古籍全文數(shù)據(jù)庫應(yīng)集檢索與瀏覽功能于一身,既可瀏覽閱讀又可查詢檢索。而且無論是閱讀還是檢索,提供給用戶的應(yīng)該是原汁原味的古籍,而非簡單的文本信息或經(jīng)過加工處理的現(xiàn)代版式的古籍。

        2.2 智能轉(zhuǎn)換功能

        所謂智能轉(zhuǎn)換應(yīng)該是在檢索時對用戶輸入檢索詞沒有任何限制,無論是輸入簡體字還是繁體字,甚至是漢語拼音或其他語言,系統(tǒng)都能夠自動進行轉(zhuǎn)換。不僅僅是簡單的瀏覽界面顯示字體的轉(zhuǎn)換,而是系統(tǒng)內(nèi)部的智能轉(zhuǎn)換,并檢索輸出所有對應(yīng)的相關(guān)信息。智能轉(zhuǎn)換功能可以減少用戶在輸入檢索詞時不必要的麻煩,一定程度上提高了用戶查找與利用信息的效率。

        2.3 檢索結(jié)果準確定位功能

        在輸出檢索結(jié)果時,應(yīng)考慮古籍文獻閱讀和使用的特點,不能滿足于僅僅提供包含檢索詞的頁或卷的列表,而應(yīng)該將檢索詞準確定位,并以顯著的方式標志于原始古籍,以便用戶判斷是否滿足需求。如果不進行準確定位,研究者還需要進行二次檢索,如果沒有顯著的標志,研究者還需要花費時間瀏覽整頁內(nèi)容。檢索結(jié)果的準確定位一定程度上可以提高利用效率,可以幫助用戶在短時間內(nèi)找到所需信息。

        2.4 智能化的研究支持功能

        所謂“研究支持功能”是指能夠提供有關(guān)古籍內(nèi)容本身科學(xué)、準確的統(tǒng)計與計量信息,提供與古籍內(nèi)容相關(guān)的參考資料、輔助工具[4]。通過提供智能的研究支持功能,在為古籍研究者提供瀏覽檢索古籍的同時,大大節(jié)約了研究者查找與統(tǒng)計信息的時間,還可以避免人工查找與統(tǒng)計的錯漏,從而大幅提高信息的準確度。

        3 未來古籍全文數(shù)據(jù)庫的建設(shè)策略

        信息技術(shù)的發(fā)展與完善為古籍全文數(shù)據(jù)庫的建設(shè)提供了平臺,使得建設(shè)更加智能的理想古籍全文數(shù)據(jù)庫成為可能。經(jīng)過多年的古籍數(shù)字化實踐,筆者認為建設(shè)理想的古籍全文數(shù)據(jù)庫應(yīng)采取以下策略。

        3.1 彩色掃描紙本古籍,提供高保真級數(shù)字古籍

        隨著掃描技術(shù)、存儲技術(shù)等信息技術(shù)的發(fā)展和完善,彩色掃描高保真級數(shù)字古籍成為可能。之所以采用彩色掃描古籍,主要是因為古籍除采用黑色書寫刊印外,還有從二色、三色、四色,一直套印到五色[5]。而且有些古籍文獻載體的物質(zhì)特征,如紙張、墨色等也是研究古籍文獻的重要依據(jù),是古籍文獻研究者相當關(guān)心的問題[6]。采用簡單的黑白掃描,無法提供這些方面的信息,而采用彩色掃描很大程度上可以免去查閱原始古籍的繁瑣。另一方面,多數(shù)古籍被輾轉(zhuǎn)收藏,往往鈐有名章、鑒賞章、訓(xùn)誡章或閑章,這些印章,勾勒了一部書的流傳軌跡,是我們鑒定一書的價值,特別是其文物價值的絕好依據(jù)[7]。彩色掃描古籍,可以為古籍研究者提供豐富細微的色彩信息,有利于研究者全面準確地欣賞和研究古籍。國家圖書館出版社在出版《冀淑英古籍善本十五講》時,其中的古籍插圖也全部采用了彩色印刷,可見古籍的色彩對古籍研究的重要性。

        3.2 對古籍進行OCR識別,形成雙層圖像格式,提供全文檢索

        目前,純文本全文古籍數(shù)據(jù)庫、圖像全文古籍數(shù)據(jù)庫以及圖加文全文古籍數(shù)據(jù)庫,都無法實現(xiàn)真正的全文檢索,無法在原始圖像上定位檢索詞。研究者只能以現(xiàn)代方式檢索文本古籍,要么基于元數(shù)據(jù)檢索圖像古籍,要么在文本與圖像間來回切換。如果采用先進的OCR技術(shù),將簡單的圖像轉(zhuǎn)換為雙層DjVu格式,即可解決以上問題。之所以采用DjVu格式,一方面,由于DjVu適應(yīng)網(wǎng)絡(luò)時代圖像資源的發(fā)展需求,針對圖像的不同圖層,采用了JB2與IW44等不同的先進圖像壓縮技術(shù),獨特的雙層格式使其兼具圖像與文檔的特性,既能滿足圖像瀏覽的要求,又可實現(xiàn)全文檢索的目標[8];另一方面,為提供保真古籍,圖像往往采用較高的分辨率和色彩,如果采用以往的圖像格式,圖像文件較大將影響瀏覽傳輸速度,而DjVu是其他格式的幾分之一甚至幾十分之一。采用雙層DjVu既可以提供高保真的數(shù)字古籍,同時也可保證瀏覽檢索的速度。

        3.3 建立繁、簡、異體字對照表,提供智能化古籍全文數(shù)據(jù)庫

        國家圖書館編著的《中國文獻編目規(guī)則》[9]以及CADAL管理中心發(fā)布的《古籍著錄細則》[10]都明確規(guī)定“著錄文字按規(guī)定信息源客觀著錄,繁體字應(yīng)以規(guī)范的繁體漢字著錄”。多數(shù)古籍數(shù)據(jù)庫系統(tǒng)采用繁體字,這就需要使用者在檢索時必須輸入繁體字,如果輸入簡體字則無法找到相應(yīng)的古籍資源,這樣就給使用者帶來不便。在無法輸入繁體字的情況下,將無法使用這樣的數(shù)據(jù)庫,至于異體字就更無法找到了。如果建立了繁、簡、異對照表,不僅免去使用者檢索時輸入字體的種種限制,同時還可將與輸入檢索詞對應(yīng)的所有古籍全部找到,大大提高了系統(tǒng)的查準率與查全率。在建立對照表時,繁簡對照表比較容易建立,我們只需利用繁簡自動轉(zhuǎn)換軟件即可,例如可以使用OFFICE自帶的繁簡轉(zhuǎn)換。如果遇到繁簡一對多的情況,有必要進行詞典自定義。對于異體字的對照則需要古籍研究者更多的參與,因為對照表的建立將直接影響到古籍全文數(shù)據(jù)庫系統(tǒng)的準確性與完整性。

        3.4 建立分類導(dǎo)航,提供瀏覽與檢索一體化古籍全文數(shù)據(jù)庫

        數(shù)字化古籍的首要功能還是供讀者閱讀,因此沒有瀏覽接口,數(shù)字化古籍就會成為一堆支離破碎的詞匯或段落,無法閱讀[11]。所以首先應(yīng)該根據(jù)閱讀紙質(zhì)古籍的習(xí)慣,建立科學(xué)合理的分類導(dǎo)航,以便研究者瀏覽使用。所謂科學(xué)合理的分類導(dǎo)航應(yīng)以題名、責(zé)任者、出版者以及出版時間等多種方式建立,而不僅僅是以年代或某一固定的方式,這樣可以滿足用戶的不同需求;其次,應(yīng)將每冊古籍建成具有目錄、書簽功能的多頁文檔,這樣既便于數(shù)據(jù)庫的建立,又便于用戶使用。

        3.5 創(chuàng)建便捷的超鏈接,提供具有超鏈接設(shè)計的閱讀環(huán)境

        數(shù)字化古籍最大的優(yōu)勢就是可以提供便捷的非線性閱讀。通過超鏈接既可以與系統(tǒng)內(nèi)部的相關(guān)資源建立鏈接,還可以與研究古籍密切相關(guān)的其他文獻進行鏈接。比如,正文相關(guān)內(nèi)容之間的鏈接,正文與注釋之間的鏈接,不同注釋之間的鏈接,正文與相關(guān)知識、資料之間的鏈接,原文與在線詞典的鏈接,甚至典籍內(nèi)容與相關(guān)網(wǎng)站的鏈接等等[4]??傊ㄟ^超鏈接可以提供基于內(nèi)容的古籍知識網(wǎng)絡(luò),可以為古籍研究者提供更加便捷的立體環(huán)境。

        古籍全文數(shù)據(jù)庫的建設(shè),需要應(yīng)用眾多的信息技術(shù),我們探討的一些功能已在其他領(lǐng)域得到應(yīng)用,而且比較成熟,我們可以結(jié)合古籍特點,加以借鑒與利用。由于古籍文獻的特殊性,有些功能還需要進行專門的開發(fā)與研究。總之,隨著信息檢索技術(shù)與圖像檢索技術(shù)的發(fā)展,古籍數(shù)字化將逐步進入一個深層次開發(fā)階段,建設(shè)功能齊全的古籍全文數(shù)據(jù)庫必將成為古籍數(shù)字化未來的發(fā)展方向和總趨勢。

        [1]李璐.古籍全文數(shù)據(jù)庫建設(shè)的技術(shù)與實踐[J].圖書館學(xué)研究,2004(11):22-25.

        [2]王世偉.圖書館古籍整理工作[M].北京:北京圖書館出版社,2000:152.

        [3]高等學(xué)校中英文圖書數(shù)字化國際合作計劃.[2010-12-09].http://www.cadal.zju.edu.cn/Index.action.

        [4]李國新.中國古籍資源數(shù)字化的進展與任務(wù)[J].大學(xué)圖書館學(xué)報,2002(1):21-22.

        [5]崔文印.古籍常識叢談[M].北京:中華書局,2009:15-16.

        [6]王世偉.圖書館古籍整理工作[M].北京:北京圖書館出版社,2000:155.

        [7]崔文印.古籍常識叢談[M].北京:中華書局,2009:37.

        [8]劉聰明,鄭曉惠.DjVu在資源建設(shè)中的應(yīng)用及其探討[J].現(xiàn)代情報,2008(7):86-87.

        [9]國家圖書館《中國文獻編目規(guī)則》修訂組.中國文獻編目規(guī)則[M].北京:北京圖書館出版社,2005.

        [10]元數(shù)據(jù)規(guī)范及著錄細則.[2010-11-09].http://www.cadal.cn/cnc/cn/jsgf/gj-zlgz2004026.pdf.

        [11]李明杰.中文古籍數(shù)字化基本理論問題芻議[J].圖書館論壇,2005(5):100.

        猜你喜歡
        全文檢索古籍全文
        中醫(yī)古籍“疒”部俗字考辨舉隅
        全文中文摘要
        關(guān)于版本學(xué)的問答——《古籍善本》修訂重版說明
        天一閣文叢(2020年0期)2020-11-05 08:28:06
        全文中文摘要
        關(guān)于古籍保護人才培養(yǎng)的若干思考
        天一閣文叢(2018年0期)2018-11-29 07:48:08
        我是古籍修復(fù)師
        金橋(2017年5期)2017-07-05 08:14:41
        青年再造
        Oracle數(shù)據(jù)庫全文檢索性能研究
        基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
        構(gòu)思精巧余味無窮 諷刺鞭撻淋漓盡致——再談“虛榮”貫穿《項鏈》全文
        語文知識(2014年5期)2014-02-28 21:59:59
        青青草视频在线视频播放| 美女视频黄是免费| 精品国产天堂综合一区在线 | 99国产精品久久99久久久| 大屁股人妻女教师撅着屁股| 人妻少妇看a偷人无码精品| 野外三级国产在线观看| 91在线观看国产自拍| 国产91会所女技师在线观看| 日日麻批免费40分钟无码| 亚洲色欲色欲大片www无码| 中文字幕无码不卡免费视频| 亚洲AV无码日韩综合欧亚| 视频在线亚洲视频在线| 人妻少妇精品中文字幕专区| 国产成人精品久久综合| 国产偷国产偷亚洲清高| 精品人妻一区二区三区蜜桃| av黄色大片久久免费| 日本伊人精品一区二区三区| 午夜成人鲁丝片午夜精品| 欧美精品AⅤ在线视频| 精品国产乱码久久免费看| 丝袜美腿福利视频在线| 亚洲精品无码专区| 亚洲av无码专区国产乱码不卡| 97色综合| 国产一区二区三区18p| 亚洲欧洲av综合色无码| 一区二区三区在线 | 欧| 日本久久久免费高清| 黄片一级二级三级四级| 女优一区二区三区在线观看| 午夜色大片在线观看| 亚洲一级无码片一区二区三区| 永久免费在线观看蜜桃视频| 少妇被按摩出高潮了一区二区| 亚洲av无码久久| 国产微拍精品一区二区| 免费人成黄页网站在线观看国内| 精彩视频在线观看一区二区三区 |