亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

圖書館古籍?dāng)?shù)字資源整合研究?

2014-08-15 00:49:30

圖書館 2014年4期

(國家圖書館北京 100081)

1 圖書館古籍?dāng)?shù)字資源整合現(xiàn)狀綜述

古籍文獻(xiàn)資源具有稀缺性、易損性，且存世量少，多年來，讀者要使用古籍文獻(xiàn)時需到館查詢卡片記錄，有限制地在固定地點(diǎn)閱覽部分古籍文獻(xiàn)，造成大量的古籍文獻(xiàn)束之高閣，極大地降低了古籍文獻(xiàn)的利用率。近年來，數(shù)字化成為古籍文獻(xiàn)保存與利用的主要途徑，圖書館制作了多種類型的數(shù)據(jù)庫供讀者使用，并不斷對古籍文獻(xiàn)進(jìn)行深入挖掘，為讀者提供精細(xì)化知識服務(wù)。目前，對古籍文獻(xiàn)聚合的實(shí)踐具有以下幾個特點(diǎn):

1．1 建設(shè)了大量的書目數(shù)據(jù)庫

書目數(shù)據(jù)是圖書館對文獻(xiàn)進(jìn)行揭示與整合、為用戶提供信息服務(wù)的最基本的工具之一，通過書目數(shù)據(jù)，用戶能夠便利地找到自己所需要的文獻(xiàn)，這一知識產(chǎn)品代表著圖書館的核心競爭力。

絕大多數(shù)圖書館都對本館所藏的古籍文獻(xiàn)進(jìn)行了編目，形成大量的書目數(shù)據(jù)，其特點(diǎn)在于一般均按照規(guī)范的元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行著錄。部分圖書館在基本的著錄項(xiàng)之外還基于古籍的特點(diǎn)增加了一些特殊字段。如:山東大學(xué)古籍?dāng)?shù)據(jù)庫的元數(shù)據(jù)包括書名、卷數(shù)、作者、類別、抄刻者、封面、牌記、開本、版框、刻工、序跋、藏印、附注等23個字段。中國國家圖書館的古籍普查登記元數(shù)據(jù)包括題名、著者、版本、分類、版式、裝幀、裝具、序跋、刻工、批校題跋、鈐印、附件、文獻(xiàn)來源、修復(fù)歷史、叢書子目、定級、定損、相關(guān)書影等字段。

1．2 對古籍文獻(xiàn)進(jìn)行再加工，提供增值信息

多年來，圖書館一直致力于對古籍文獻(xiàn)進(jìn)行再加工，為用戶提供增值信息。其中，制作索引數(shù)據(jù)庫是較為常見的形式。

索引數(shù)據(jù)庫的建設(shè)主要包括以下三方面的工作:一是對一些已出版的索引類工具書進(jìn)行全文數(shù)字化，提供用戶使用，如:“中英文圖書數(shù)字化國際合作計劃(CADAL)”數(shù)字化的古籍索引類文獻(xiàn)有數(shù)百種之多;二是在古籍?dāng)?shù)據(jù)庫的基礎(chǔ)上建設(shè)索引數(shù)據(jù)庫，如:明人文集聯(lián)合目錄與篇目索引資料庫整合了臺灣地區(qū)各收藏單位的藏品資料，包括故宮博物院圖書館、臺灣大學(xué)圖書館、中研院傅斯年圖書館、國家圖書館及漢學(xué)研究中心所藏明人文集，具備有全文、篇目、書名、作者檢索等多項(xiàng)檢索功能;〔1〕三是建設(shè)專門用于古籍的自動索引系統(tǒng)，并利用索引系統(tǒng)進(jìn)行古籍文獻(xiàn)的索引工作，如:湘潭大學(xué)研制的古籍索引自動編輯系統(tǒng)(RPSYBJ)可自動編制古籍的逐字索引、句子索引、人名索引、地名索引及其他專題索引，并利用該系統(tǒng)編制了《宋詞別集索引三種》。〔2〕

1．3 出現(xiàn)大量的全文影像數(shù)據(jù)庫

近年來，古籍?dāng)?shù)字化工作蓬勃開展，除了圖書館進(jìn)行的本館館藏古籍?dāng)?shù)字化外，還有一些跨地區(qū)的項(xiàng)目，如古登堡計劃(Project Gutenberg)、中美百萬冊圖書數(shù)字圖書館計劃等項(xiàng)目中的文獻(xiàn)數(shù)字化都包含中國古籍。在各方的努力下，大量的中國古籍已經(jīng)被數(shù)字化，古籍全文數(shù)據(jù)庫成為用戶利用古籍文獻(xiàn)的重要途徑。

除對普通古籍進(jìn)行數(shù)字化、建設(shè)全文影像數(shù)據(jù)庫外，圖書館還基于本館的特色館藏建設(shè)了很多專題數(shù)據(jù)庫。如:中國國家圖書館館藏西夏文獻(xiàn)大多為西夏、元代孤本，是研究古代西夏、元代紙張、絲綢質(zhì)料的珍貴實(shí)物資料，對研究西夏佛教史具有重要價值，中國國家圖書館整合這些文獻(xiàn)，建設(shè)了“西夏碎金”數(shù)據(jù)庫，收錄館藏西夏古籍書目數(shù)據(jù)124條、館藏西夏古籍原件影像近5000拍、西夏研究論文篇名數(shù)據(jù)1202條。又如:上海圖書館共收藏有約17000種、110000余冊中國家譜，是國內(nèi)外收藏中國家譜(原件)數(shù)量最多的單位，最早者為宋內(nèi)府寫本《仙源類譜》(殘頁)。另上海圖書館為推動本館特色館藏的開發(fā)利用，建設(shè)了家譜數(shù)據(jù)庫。

1．4 多個古籍收藏機(jī)構(gòu)共同建設(shè)古籍?dāng)?shù)據(jù)庫成為古籍文獻(xiàn)利用的發(fā)展趨勢

目前，一些大型項(xiàng)目均是由多個收藏機(jī)構(gòu)合作共同建設(shè)，合作原因多種多樣。一種是由于文獻(xiàn)內(nèi)容、類型上互為補(bǔ)益促成的跨區(qū)域合作。如:由大英圖書館發(fā)起，眾多國際敦煌文獻(xiàn)收藏機(jī)構(gòu)共同參與的敦煌文獻(xiàn)保存和數(shù)字化項(xiàng)目——國際敦煌項(xiàng)目(International Dunhuang Project，IDP)。另一種是由于古籍文獻(xiàn)的數(shù)字化及開發(fā)利用一般需要大量的人力、物力、財力，一些中小型圖書館無力開發(fā)本館館藏，因而與其他館合作建設(shè)。如:由北京大學(xué)、北京師范大學(xué)、南京大學(xué)、四川大學(xué)等高校合力建設(shè)的學(xué)苑汲古數(shù)據(jù)庫。

2 館藏古籍?dāng)?shù)字資源整合存在問題研究

2．1 對古籍文獻(xiàn)的組織與利用多基于書目數(shù)據(jù)

目前圖書館對古籍文獻(xiàn)的組織與利用多是基于書目數(shù)據(jù)得以實(shí)現(xiàn)，這一特點(diǎn)既有優(yōu)點(diǎn)，也有弊端，書目數(shù)據(jù)產(chǎn)生于對印本文獻(xiàn)的編目，在大量的數(shù)字資源成為編目對象時，書目數(shù)據(jù)暴露出一些弱點(diǎn):①書目數(shù)據(jù)主要是以文獻(xiàn)為單元進(jìn)行描述，無法對文獻(xiàn)的內(nèi)容進(jìn)行深入的揭示，更無法在知識元之間建立有效的關(guān)聯(lián)，實(shí)現(xiàn)在語義層面上的深度聚合;②基于書目數(shù)據(jù)形成的知識結(jié)構(gòu)是線性的、等級式的，而當(dāng)數(shù)字圖書館將海量的、分布的、動態(tài)的網(wǎng)絡(luò)信息資源納入整合的范圍時，知識結(jié)構(gòu)必須進(jìn)化為網(wǎng)狀的具有各種關(guān)系的概念群，才能夠支持對知識的深度聚合;③在檢索中只能支持詞形匹配，而不支持智能推理，因而無法實(shí)現(xiàn)語義檢索;④書目數(shù)據(jù)的規(guī)則與結(jié)構(gòu)的設(shè)計主要是基于手工編目的需求，而在網(wǎng)絡(luò)環(huán)境下，編目的對象由靜態(tài)的印本文獻(xiàn)發(fā)展為動態(tài)的數(shù)字文獻(xiàn)，書目數(shù)據(jù)只是作為原始文獻(xiàn)的替代物，無法通過對知識的自動學(xué)習(xí)發(fā)展出新知識，完成自身的進(jìn)化。

對資源進(jìn)行整合不僅應(yīng)實(shí)現(xiàn)基于文獻(xiàn)的整合，更重要的是實(shí)現(xiàn)基于知識的整合，為用戶提供更高效的知識服務(wù)。古籍文獻(xiàn)記敘的內(nèi)容涉及到天文、地理、文化、藝術(shù)、醫(yī)藥、農(nóng)業(yè)、歷史等多個學(xué)科領(lǐng)域，除對歷史研究外，對于相關(guān)各學(xué)科領(lǐng)域的研究都有著重要的利用價值，應(yīng)進(jìn)行深入的挖掘。目前對古籍資源整合的深度只停留在文獻(xiàn)層面，沒有對古籍文獻(xiàn)中的知識進(jìn)行深入挖掘。

2．2 古籍文獻(xiàn)收藏機(jī)構(gòu)多而分散

古籍文獻(xiàn)的收藏機(jī)構(gòu)眾多，除中國大陸外，還分布在全球多個地區(qū)，主要有中國臺灣、美國、英國、日本、韓國等。如:美國國會圖書館收藏有包括宋元明清善本古籍5萬余冊，地方志400多種，其中100多種為中國國內(nèi)孤本，其他尚有400多種滿文數(shù)據(jù)和3000種云南納西族東巴文資料。哈佛燕京圖書館現(xiàn)有中國古籍4673種、44993冊，中國地方志4000種，叢書1500種，所藏《永樂大典》2冊、《四庫全書》2冊、宋版書16種、元版書38種、明版本1275種均為中國以外的孤本?！?〕資源的稀缺性與分散性影響了對古籍文獻(xiàn)的利用。同時，由于發(fā)布者不同，數(shù)據(jù)結(jié)構(gòu)、命名方式、元數(shù)據(jù)格式和元數(shù)據(jù)方案，系統(tǒng)結(jié)構(gòu)模型、調(diào)用協(xié)議、用戶界面等各個方面都有很多的差異，特別是命名方式、數(shù)據(jù)結(jié)構(gòu)、句法結(jié)構(gòu)、語法結(jié)構(gòu)等方面的差異會帶來語義不一致的問題，嚴(yán)重影響了語義網(wǎng)環(huán)境下對信息資源的語義揭示與語義互聯(lián)。

3 解決問題途徑研究

筆者認(rèn)為，要解決上述兩大問題，應(yīng)分三步驟進(jìn)行古籍?dāng)?shù)字化資源的整合，第一步，結(jié)合古籍?dāng)?shù)字化資源特點(diǎn)，加強(qiáng)對文本自動分析技術(shù)、本體等的研究，構(gòu)建古籍資源的知識體系;第二步，基于這些知識組織工具進(jìn)行古籍知識庫的構(gòu)建，實(shí)現(xiàn)對知識的語義揭示、語義關(guān)聯(lián);第三步，加強(qiáng)各方合作，實(shí)現(xiàn)多來源異構(gòu)資源的統(tǒng)一檢索。

3．1 應(yīng)用文本自動分析技術(shù)有效實(shí)現(xiàn)古籍中知識的挖掘

3．1．1 文本自動分析技術(shù)概述。近年來，古籍文獻(xiàn)由印本文獻(xiàn)轉(zhuǎn)為大量的半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)字化資源，同時，圖書館對書目數(shù)據(jù)賦予的功能也隨之發(fā)生了變化，不再只針對文獻(xiàn)，而是更多地關(guān)注文獻(xiàn)的內(nèi)容。在這些變化的影響下，只依靠傳統(tǒng)的人工編目勢必?zé)o法滿足古籍資源利用的需求，因此，必須引入非人工或半人工的方式進(jìn)行文獻(xiàn)的揭示與組織，加強(qiáng)對數(shù)字資源的智能化處理技術(shù)的研究，在語義層面上深化館藏古籍資源的知識組織，建立人與機(jī)器之間的互理解通路，形成數(shù)字圖書館知識認(rèn)知與共享的基礎(chǔ)。

對古籍?dāng)?shù)字化資源進(jìn)行智能化處理以文本自動分析技術(shù)為基礎(chǔ)，這些技術(shù)主要包括:①文本抽取技術(shù)。對于抽取出來的信息，應(yīng)按照一定的算法計算權(quán)重、過濾錯誤或冗余信息，這樣，通過多種方法的結(jié)合使提取出的信息具有專指性、準(zhǔn)確性、客觀性、完整性。②中文分詞技術(shù)。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。盡管已有多年的研究和實(shí)踐，國內(nèi)建設(shè)了多個分詞系統(tǒng)，但是由于漢語的復(fù)雜性，漢語分詞技術(shù)仍是中文信息處理的一個技術(shù)難點(diǎn)。因此，較為合理的中文分詞方法應(yīng)是建設(shè)基礎(chǔ)的分詞詞典，通過大量實(shí)驗(yàn)數(shù)據(jù)積累語料庫，同時用已建的元數(shù)據(jù)對分詞詞典進(jìn)行檢驗(yàn)，不斷改善。

文本自動分析需要以語料庫作為基礎(chǔ)工具，一個完整規(guī)范的語料庫對知識挖掘的準(zhǔn)確性具有重要的作用。近年來，一些古籍研究機(jī)構(gòu)建設(shè)了一批高質(zhì)量的語料庫，為我國古籍文獻(xiàn)的整理與挖掘打下了良好的基礎(chǔ)。如:中國社會科學(xué)院語言研究所建立的小型語料庫包括近代漢語書面語語料150萬字、中古近代漢語語料約1000萬字;浙江師范大學(xué)建設(shè)了楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫;四川大學(xué)建設(shè)的中國古漢語語料庫有1億字的中國古漢語語料和有關(guān)中國古漢語研究的資料等。但是，由于目前語料庫的建設(shè)非常分散，沒有形成一個較為完整的體系，缺少對語義語料庫和語用語料庫的研究與建設(shè)，因此，對于實(shí)現(xiàn)基于語義的古籍?dāng)?shù)字資源自動分析的支持作用還很有限。

3．1．2 文本自動分析技術(shù)在古籍?dāng)?shù)字資源整合中的應(yīng)用研究。利用智能化的文本自動分析技術(shù)可以對古籍文獻(xiàn)的內(nèi)容進(jìn)行深入研究與輔助處理，實(shí)現(xiàn)對知識的揭示與發(fā)現(xiàn)。古漢語在語義與語法規(guī)則上與現(xiàn)代漢語有大量的差異，因此，利用文本自動分析技術(shù)在處理古籍?dāng)?shù)字資源時應(yīng)關(guān)注古漢語的特點(diǎn)。如:關(guān)注對一字多音的識別，加強(qiáng)注音語料庫的建設(shè)，通過利用上下文信息等方法確定多音字。

關(guān)注對漢字借用、代替等現(xiàn)象的識別，其中的難點(diǎn)在于:通假字由于借用是不固定的、臨時的，因此對語境的依賴性大;異體字由于各個地方對正體字的不同認(rèn)定造成對異體字的判定也因地而異。對文本進(jìn)行分析時，對于每個獨(dú)立的著錄對象，應(yīng)結(jié)合該資源的來源(如地域、機(jī)構(gòu)等)、上下文語境等信息。

關(guān)注對名詞特別是人名、地名、物名、職官名等的正確識別，特別注意歷史沿革、地域差異等對名詞的影響。加強(qiáng)對命名實(shí)體識別技術(shù)的研究。命名實(shí)體是指現(xiàn)實(shí)世界中具體的或抽象的實(shí)體，如人、地點(diǎn)、組織等。通常用唯一的標(biāo)志符(即專有名詞)表示，如人名、地名、組織名等。廣義上講，命名實(shí)體還可以包含時間、數(shù)量表達(dá)式等?！?〕

古人對句子的注釋很多采用征引式的注釋方法，因此，應(yīng)對這類注釋再進(jìn)行注釋，同時，也可以通過這種注釋方法建立不同語句之間的關(guān)聯(lián)關(guān)系。

較為重要的古籍往往有多個校本，造成?？惫ぷ鞣敝兀瑧?yīng)利用文本自動分析技術(shù)進(jìn)行自動?？保峁┍苤M字表、異體字表等輔助?？惫ぞ撸訌?qiáng)對誤字、倒錯、異文、脫文、衍文等多版本間差異的準(zhǔn)確發(fā)現(xiàn)。

3．2 加強(qiáng)本體構(gòu)建與應(yīng)用

3．2．1 本體的概念及功能。語義網(wǎng)是對萬維網(wǎng)的擴(kuò)展，目的是使現(xiàn)有的萬維網(wǎng)具有一定的推理和自動處理能力。語義萬維網(wǎng)通過給萬維網(wǎng)上的文檔添加能夠被計算機(jī)所理解的語義，從而使整個互聯(lián)網(wǎng)成為一個通用的信息交換媒介?！?〕

本體(Ontology)是某一領(lǐng)域中的術(shù)語及術(shù)語間關(guān)系的規(guī)范說明，提供對領(lǐng)域知識的共同理解與描述，用于共享、交流和重用，由概念及概念之間的關(guān)系構(gòu)成，概念及概念間的關(guān)系經(jīng)過精確定義，主要供機(jī)器或計算機(jī)所使用并可用數(shù)學(xué)方式表達(dá)。〔6〕本體是語義化的基礎(chǔ)工具，對語義網(wǎng)體系結(jié)構(gòu)起著關(guān)鍵的支撐作用。在語義網(wǎng)體系結(jié)構(gòu)中，本體的作用主要表現(xiàn)在:概念描述、語義揭示、一致性、推理支持?！?〕

本體在古籍?dāng)?shù)字資源的整合中承擔(dān)以下的功能:①基于語義分析，支持對文本的自動分析;②支持對古籍?dāng)?shù)字資源進(jìn)行自動編目及規(guī)范控制;③支持自動抽取古籍文獻(xiàn)中的知識概念，并建立知識關(guān)聯(lián);④支持語料庫的智能擴(kuò)展，自動發(fā)現(xiàn)和挖掘新詞，發(fā)現(xiàn)缺失的概念;⑤作為基本的知識組織工具支持知識庫的自動推理、自動聚類的功能。

3．2．2 古籍本體的構(gòu)建方式。古籍文獻(xiàn)的內(nèi)容博大精深，涉及多個學(xué)科，因此，本體的構(gòu)建應(yīng)分步實(shí)現(xiàn)，第一步，在小范圍內(nèi)進(jìn)行本體的建設(shè)，主要建設(shè)方向分三類:一是基于古籍文獻(xiàn)中的通用知識構(gòu)建通用本體，被定義的知識可以應(yīng)用于各類型古籍，作為基礎(chǔ)支持工具，如:針對古籍文獻(xiàn)形式構(gòu)建的本體，基于人物構(gòu)建的本體等;二是基于特定的學(xué)科專業(yè)領(lǐng)域構(gòu)建領(lǐng)域本體，如:中醫(yī)古籍本體的構(gòu)建可以生命、形體、經(jīng)絡(luò)、腦穴、診法、中藥、方劑、病證、療法、針灸、養(yǎng)生、氣功等中醫(yī)特定知識單元為概念〔8〕;三是基于特定的古籍文獻(xiàn)類型構(gòu)建領(lǐng)域本體，如:由于家譜的主要內(nèi)容是記錄家族歷史，與人物有著密切關(guān)系，因此，家譜文獻(xiàn)的本體構(gòu)建應(yīng)以人物、家族為核心概念，重點(diǎn)分析人物之間的關(guān)系、家族之間的關(guān)系、人物與家族的關(guān)系、家族及人物與機(jī)構(gòu)的關(guān)系、人物與作品的關(guān)系、家族及人物與事件的關(guān)系等概念關(guān)系。第二步，整合各類本體，構(gòu)建古籍資源的知識組織體系。

3．3 基于本體構(gòu)建語義知識庫

知識庫是在數(shù)據(jù)庫的基礎(chǔ)上結(jié)合人工智能領(lǐng)域技術(shù)構(gòu)建而成的，建設(shè)的目的在于通過管理和存儲知識來實(shí)現(xiàn)知識的序化、共享、重用。建設(shè)的過程即對知識的獲取、表示、利用，既包括對原始信息或既有知識進(jìn)行理解、提取、分類，將知識以計算機(jī)能夠理解和處理的形式來表示，也包括通過分析和推理產(chǎn)生新知識。其特點(diǎn)在于:從信息資源中抽取知識點(diǎn)，按照一定的知識表示方法，深入到文獻(xiàn)知識層面按照一定的知識體系進(jìn)行整序和分析，形成知識集合;不但能夠表示顯性知識，而且能夠組織隱性知識;具有學(xué)習(xí)、歸納推理及動態(tài)更新的功能;不但明顯地表達(dá)事實(shí)和關(guān)系，還能夠明顯地表達(dá)領(lǐng)域知識和推理規(guī)則;通過對知識庫進(jìn)行挖掘，能夠發(fā)現(xiàn)事實(shí)上的知識，也能發(fā)現(xiàn)規(guī)則上的知識。

知識庫的作用在于作推動知識有序化、知識的交流與共享，對館藏古籍?dāng)?shù)字資源的整合有著重要的作用，圖書館對古籍知識庫的構(gòu)建進(jìn)行了一些研究和實(shí)踐。目前主要向兩個方向發(fā)展，一是基于本體建設(shè)的綜合性、基礎(chǔ)性知識庫，如:北京大學(xué)數(shù)據(jù)分析研究中心與中國國家圖書館合作建設(shè)的中國歷代典籍總目分析系統(tǒng)采用實(shí)體關(guān)系分層描述古籍書目并構(gòu)建了古籍文獻(xiàn)知識本體;二是基于領(lǐng)域本體針對特定學(xué)科古籍文獻(xiàn)建設(shè)的知識庫，如:中國中醫(yī)研究院對中醫(yī)古籍的本體構(gòu)建進(jìn)行了大量的研究，建設(shè)了中醫(yī)古籍知識庫系統(tǒng)，并在此基礎(chǔ)上開發(fā)中醫(yī)藥文獻(xiàn)服務(wù)系統(tǒng)?！?〕但這些嘗試都還處在探索階段，主要工作都集中在對本體的建設(shè)上，對知識庫的架構(gòu)、功能等的研究還較為欠缺。

目前，對基于本體的古籍知識庫的建設(shè)應(yīng)按以下幾個步驟有序推進(jìn):①深化對館藏古籍?dāng)?shù)字化資源的語義挖掘與語義互聯(lián)的研究;②推動知識表示、利用、存儲與獲取的輔助工具的研究開發(fā);③研究傳統(tǒng)知識組織工具的自動更新、自動豐富機(jī)制，使之具備吸收新信息、新概念、新結(jié)構(gòu)的能力，在此基礎(chǔ)上開發(fā)數(shù)字資源知識組織工具;④加強(qiáng)各類型語料的積累，為知識庫的建設(shè)打下良好的基礎(chǔ);⑤基于各種語義工具及已建元數(shù)據(jù)構(gòu)建知識庫;⑥有機(jī)整合已建知識庫的成果，構(gòu)建知識庫體系架構(gòu)。最終實(shí)現(xiàn)數(shù)字資源的結(jié)構(gòu)化、語義化，整合眾多的知識節(jié)點(diǎn)與知識關(guān)聯(lián)，構(gòu)成知識網(wǎng)絡(luò)。

3．4 加強(qiáng)合作，實(shí)現(xiàn)多源異構(gòu)資源的統(tǒng)一發(fā)現(xiàn)

目前，很多收藏機(jī)構(gòu)都對藏本進(jìn)行加工，制作各種類型的數(shù)據(jù)庫。近20年來，國內(nèi)外利用計算機(jī)技術(shù)開發(fā)研制了近500種古籍?dāng)?shù)字化資源，其中包括81種古籍電子索引，近148種古籍書目數(shù)據(jù)庫和近270種古籍全文數(shù)據(jù)庫?！?0〕有學(xué)者對互聯(lián)網(wǎng)上的華文數(shù)字典籍檢索入口進(jìn)行整理，〔11〕在中國大陸之外的地區(qū)收集到的數(shù)量為:香港地區(qū)(5個)、臺灣地區(qū)(36個)、日本地區(qū)(21個)、韓國地區(qū)(7個)、歐美地區(qū)(26個)。多個發(fā)布平臺必然造成信息孤島現(xiàn)象，給用戶帶來資源發(fā)現(xiàn)、知識獲取上的困難，成為古籍利用的瓶頸。

實(shí)現(xiàn)對多源異構(gòu)資源的統(tǒng)一發(fā)現(xiàn)有以下幾種主要途徑:一是通過跨庫檢索技術(shù)，并發(fā)地檢索本地的和廣域網(wǎng)上多個分布式異構(gòu)數(shù)據(jù)源，并對檢索結(jié)果進(jìn)行整合，為用戶提供一個統(tǒng)一的檢索接口。如MetaLib。這一方式具有時效性好的特點(diǎn)，且不必為資源的整合投入大量的人力物力。二是建立元數(shù)據(jù)倉儲，將多個來源的元數(shù)據(jù)采集到本地，按照一定的規(guī)則進(jìn)行清洗、轉(zhuǎn)換，形成統(tǒng)一的格式，并提供檢索服務(wù)。這一方式由于對元數(shù)據(jù)進(jìn)行了規(guī)范化的處理，因此，檢索的效果較好。三是建立統(tǒng)一的內(nèi)容管理平臺、統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)、統(tǒng)一的檢索平臺，采用多方共建的方式進(jìn)行資源建設(shè)與服務(wù)。這種方式可以避免資源的重復(fù)建設(shè)，數(shù)據(jù)規(guī)范性好，質(zhì)量較高，不必再對已建數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換等工作，節(jié)省人力物力。以上三種方式各有優(yōu)勢，但也存在著一些問題，前兩種方式由于原數(shù)據(jù)庫為滿足本庫的顯示與檢索功能一般對元數(shù)據(jù)進(jìn)行了個性化的處理，因此，實(shí)現(xiàn)統(tǒng)一檢索后，針對不同類型資源的個性化檢索的效果往往不盡如人意。第三種方式需要多個資源擁有者之間形成緊密型的合作關(guān)系，而由于古籍文獻(xiàn)的收藏機(jī)構(gòu)分散于全球各地，因此合作多是圍繞本地區(qū)或同一文獻(xiàn)類型，較難形成跨區(qū)域跨文獻(xiàn)類型的大型合作組織。

因此，筆者認(rèn)為，對多源異構(gòu)的古籍?dāng)?shù)字資源的整合應(yīng)將三者結(jié)合在一起。即:在資源建設(shè)、標(biāo)準(zhǔn)建設(shè)、學(xué)術(shù)研究等各方面加強(qiáng)相關(guān)各方的合作，以多方共建的形式建設(shè)大型古籍?dāng)?shù)字資源的元數(shù)據(jù)倉儲，再通過跨庫檢索等整合技術(shù)對這些大型的元數(shù)據(jù)倉儲進(jìn)行再整合，最終實(shí)現(xiàn)對所有古籍資源的整合檢索。

1．華夏記憶．〔2013 －10 －10〕．http://www．nlc．gov．cn/newhxjy/gjtsg/gwszzy/zykth/yywx/

2．陳東輝．關(guān)于古籍索引工作的若干思考．國家圖書館學(xué)刊，1997(1):43－47

3．毛建軍．美國中文古籍?dāng)?shù)字化概述．圖書館學(xué)研究，2012(1):19－20

4．朱鎖玲．命名實(shí)體識別在方志內(nèi)容挖掘中的應(yīng)用研究．南京:南京農(nóng)業(yè)大學(xué)，2011:7

5．語義網(wǎng)．〔2012 － 12 － 26〕．http://zh．wikipedia．org/wiki/%E8%AF%AD%E4%B9%89%E7%BD%91

6．司莉．KOS在網(wǎng)絡(luò)信息組織中的應(yīng)用與發(fā)展．武漢:武漢大學(xué)出版社，2007:156

7．戴維民等．語義網(wǎng)信息組織技術(shù)與方法．上海:學(xué)林出版社，2008:13

8．谷建軍．基于敘詞表的中醫(yī)古籍文獻(xiàn)領(lǐng)域本體建模方法研究．北京:中國中醫(yī)科學(xué)院，2006:76

9．VSP行業(yè)應(yīng)用案例五:中醫(yī)古籍知識庫系統(tǒng)以及中醫(yī)文獻(xiàn)服務(wù)系統(tǒng)．〔2013 －10 －10〕．http://www．myvsp．cn/download/anli/wxsjby．pdf

10．毛建軍．古籍?dāng)?shù)字化理論與實(shí)踐．北京:航空工業(yè)出版社，2009:99－149

11．王偉．全球中國古籍書目總匯．〔2013－10－10〕．http://blog．sina．com．cn/s/blog_6a5826b6010180j0．html