(國家圖書館 北京 100081)
古籍文獻(xiàn)資源具有稀缺性、易損性,且存世量少,多年來,讀者要使用古籍文獻(xiàn)時(shí)需到館查詢卡片記錄,有限制地在固定地點(diǎn)閱覽部分古籍文獻(xiàn),造成大量的古籍文獻(xiàn)束之高閣,極大地降低了古籍文獻(xiàn)的利用率。近年來,數(shù)字化成為古籍文獻(xiàn)保存與利用的主要途徑,圖書館制作了多種類型的數(shù)據(jù)庫供讀者使用,并不斷對(duì)古籍文獻(xiàn)進(jìn)行深入挖掘,為讀者提供精細(xì)化知識(shí)服務(wù)。目前,對(duì)古籍文獻(xiàn)聚合的實(shí)踐具有以下幾個(gè)特點(diǎn):
書目數(shù)據(jù)是圖書館對(duì)文獻(xiàn)進(jìn)行揭示與整合、為用戶提供信息服務(wù)的最基本的工具之一,通過書目數(shù)據(jù),用戶能夠便利地找到自己所需要的文獻(xiàn),這一知識(shí)產(chǎn)品代表著圖書館的核心競爭力。
絕大多數(shù)圖書館都對(duì)本館所藏的古籍文獻(xiàn)進(jìn)行了編目,形成大量的書目數(shù)據(jù),其特點(diǎn)在于一般均按照規(guī)范的元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行著錄。部分圖書館在基本的著錄項(xiàng)之外還基于古籍的特點(diǎn)增加了一些特殊字段。如:山東大學(xué)古籍?dāng)?shù)據(jù)庫的元數(shù)據(jù)包括書名、卷數(shù)、作者、類別、抄刻者、封面、牌記、開本、版框、刻工、序跋、藏印、附注等23個(gè)字段。中國國家圖書館的古籍普查登記元數(shù)據(jù)包括題名、著者、版本、分類、版式、裝幀、裝具、序跋、刻工、批校題跋、鈐印、附件、文獻(xiàn)來源、修復(fù)歷史、叢書子目、定級(jí)、定損、相關(guān)書影等字段。
多年來,圖書館一直致力于對(duì)古籍文獻(xiàn)進(jìn)行再加工,為用戶提供增值信息。其中,制作索引數(shù)據(jù)庫是較為常見的形式。
索引數(shù)據(jù)庫的建設(shè)主要包括以下三方面的工作:一是對(duì)一些已出版的索引類工具書進(jìn)行全文數(shù)字化,提供用戶使用,如:“中英文圖書數(shù)字化國際合作計(jì)劃(CADAL)”數(shù)字化的古籍索引類文獻(xiàn)有數(shù)百種之多;二是在古籍?dāng)?shù)據(jù)庫的基礎(chǔ)上建設(shè)索引數(shù)據(jù)庫,如:明人文集聯(lián)合目錄與篇目索引資料庫整合了臺(tái)灣地區(qū)各收藏單位的藏品資料,包括故宮博物院圖書館、臺(tái)灣大學(xué)圖書館、中研院傅斯年圖書館、國家圖書館及漢學(xué)研究中心所藏明人文集,具備有全文、篇目、書名、作者檢索等多項(xiàng)檢索功能;〔1〕三是建設(shè)專門用于古籍的自動(dòng)索引系統(tǒng),并利用索引系統(tǒng)進(jìn)行古籍文獻(xiàn)的索引工作,如:湘潭大學(xué)研制的古籍索引自動(dòng)編輯系統(tǒng)(RPSYBJ)可自動(dòng)編制古籍的逐字索引、句子索引、人名索引、地名索引及其他專題索引,并利用該系統(tǒng)編制了《宋詞別集索引三種》。〔2〕
近年來,古籍?dāng)?shù)字化工作蓬勃開展,除了圖書館進(jìn)行的本館館藏古籍?dāng)?shù)字化外,還有一些跨地區(qū)的項(xiàng)目,如古登堡計(jì)劃(Project Gutenberg)、中美百萬冊圖書數(shù)字圖書館計(jì)劃等項(xiàng)目中的文獻(xiàn)數(shù)字化都包含中國古籍。在各方的努力下,大量的中國古籍已經(jīng)被數(shù)字化,古籍全文數(shù)據(jù)庫成為用戶利用古籍文獻(xiàn)的重要途徑。
除對(duì)普通古籍進(jìn)行數(shù)字化、建設(shè)全文影像數(shù)據(jù)庫外,圖書館還基于本館的特色館藏建設(shè)了很多專題數(shù)據(jù)庫。如:中國國家圖書館館藏西夏文獻(xiàn)大多為西夏、元代孤本,是研究古代西夏、元代紙張、絲綢質(zhì)料的珍貴實(shí)物資料,對(duì)研究西夏佛教史具有重要價(jià)值,中國國家圖書館整合這些文獻(xiàn),建設(shè)了“西夏碎金”數(shù)據(jù)庫,收錄館藏西夏古籍書目數(shù)據(jù)124條、館藏西夏古籍原件影像近5000拍、西夏研究論文篇名數(shù)據(jù)1202條。又如:上海圖書館共收藏有約17000種、110000余冊中國家譜,是國內(nèi)外收藏中國家譜(原件)數(shù)量最多的單位,最早者為宋內(nèi)府寫本《仙源類譜》(殘頁)。另上海圖書館為推動(dòng)本館特色館藏的開發(fā)利用,建設(shè)了家譜數(shù)據(jù)庫。
目前,一些大型項(xiàng)目均是由多個(gè)收藏機(jī)構(gòu)合作共同建設(shè),合作原因多種多樣。一種是由于文獻(xiàn)內(nèi)容、類型上互為補(bǔ)益促成的跨區(qū)域合作。如:由大英圖書館發(fā)起,眾多國際敦煌文獻(xiàn)收藏機(jī)構(gòu)共同參與的敦煌文獻(xiàn)保存和數(shù)字化項(xiàng)目——國際敦煌項(xiàng)目(International Dunhuang Project,IDP)。另一種是由于古籍文獻(xiàn)的數(shù)字化及開發(fā)利用一般需要大量的人力、物力、財(cái)力,一些中小型圖書館無力開發(fā)本館館藏,因而與其他館合作建設(shè)。如:由北京大學(xué)、北京師范大學(xué)、南京大學(xué)、四川大學(xué)等高校合力建設(shè)的學(xué)苑汲古數(shù)據(jù)庫。
目前圖書館對(duì)古籍文獻(xiàn)的組織與利用多是基于書目數(shù)據(jù)得以實(shí)現(xiàn),這一特點(diǎn)既有優(yōu)點(diǎn),也有弊端,書目數(shù)據(jù)產(chǎn)生于對(duì)印本文獻(xiàn)的編目,在大量的數(shù)字資源成為編目對(duì)象時(shí),書目數(shù)據(jù)暴露出一些弱點(diǎn):①書目數(shù)據(jù)主要是以文獻(xiàn)為單元進(jìn)行描述,無法對(duì)文獻(xiàn)的內(nèi)容進(jìn)行深入的揭示,更無法在知識(shí)元之間建立有效的關(guān)聯(lián),實(shí)現(xiàn)在語義層面上的深度聚合;②基于書目數(shù)據(jù)形成的知識(shí)結(jié)構(gòu)是線性的、等級(jí)式的,而當(dāng)數(shù)字圖書館將海量的、分布的、動(dòng)態(tài)的網(wǎng)絡(luò)信息資源納入整合的范圍時(shí),知識(shí)結(jié)構(gòu)必須進(jìn)化為網(wǎng)狀的具有各種關(guān)系的概念群,才能夠支持對(duì)知識(shí)的深度聚合;③在檢索中只能支持詞形匹配,而不支持智能推理,因而無法實(shí)現(xiàn)語義檢索;④書目數(shù)據(jù)的規(guī)則與結(jié)構(gòu)的設(shè)計(jì)主要是基于手工編目的需求,而在網(wǎng)絡(luò)環(huán)境下,編目的對(duì)象由靜態(tài)的印本文獻(xiàn)發(fā)展為動(dòng)態(tài)的數(shù)字文獻(xiàn),書目數(shù)據(jù)只是作為原始文獻(xiàn)的替代物,無法通過對(duì)知識(shí)的自動(dòng)學(xué)習(xí)發(fā)展出新知識(shí),完成自身的進(jìn)化。
對(duì)資源進(jìn)行整合不僅應(yīng)實(shí)現(xiàn)基于文獻(xiàn)的整合,更重要的是實(shí)現(xiàn)基于知識(shí)的整合,為用戶提供更高效的知識(shí)服務(wù)。古籍文獻(xiàn)記敘的內(nèi)容涉及到天文、地理、文化、藝術(shù)、醫(yī)藥、農(nóng)業(yè)、歷史等多個(gè)學(xué)科領(lǐng)域,除對(duì)歷史研究外,對(duì)于相關(guān)各學(xué)科領(lǐng)域的研究都有著重要的利用價(jià)值,應(yīng)進(jìn)行深入的挖掘。目前對(duì)古籍資源整合的深度只停留在文獻(xiàn)層面,沒有對(duì)古籍文獻(xiàn)中的知識(shí)進(jìn)行深入挖掘。
古籍文獻(xiàn)的收藏機(jī)構(gòu)眾多,除中國大陸外,還分布在全球多個(gè)地區(qū),主要有中國臺(tái)灣、美國、英國、日本、韓國等。如:美國國會(huì)圖書館收藏有包括宋元明清善本古籍5萬余冊,地方志400多種,其中100多種為中國國內(nèi)孤本,其他尚有400多種滿文數(shù)據(jù)和3000種云南納西族東巴文資料。哈佛燕京圖書館現(xiàn)有中國古籍4673種、44993冊,中國地方志4000種,叢書1500種,所藏《永樂大典》2冊、《四庫全書》2冊、宋版書16種、元版書38種、明版本1275種均為中國以外的孤本?!?〕資源的稀缺性與分散性影響了對(duì)古籍文獻(xiàn)的利用。同時(shí),由于發(fā)布者不同,數(shù)據(jù)結(jié)構(gòu)、命名方式、元數(shù)據(jù)格式和元數(shù)據(jù)方案,系統(tǒng)結(jié)構(gòu)模型、調(diào)用協(xié)議、用戶界面等各個(gè)方面都有很多的差異,特別是命名方式、數(shù)據(jù)結(jié)構(gòu)、句法結(jié)構(gòu)、語法結(jié)構(gòu)等方面的差異會(huì)帶來語義不一致的問題,嚴(yán)重影響了語義網(wǎng)環(huán)境下對(duì)信息資源的語義揭示與語義互聯(lián)。
筆者認(rèn)為,要解決上述兩大問題,應(yīng)分三步驟進(jìn)行古籍?dāng)?shù)字化資源的整合,第一步,結(jié)合古籍?dāng)?shù)字化資源特點(diǎn),加強(qiáng)對(duì)文本自動(dòng)分析技術(shù)、本體等的研究,構(gòu)建古籍資源的知識(shí)體系;第二步,基于這些知識(shí)組織工具進(jìn)行古籍知識(shí)庫的構(gòu)建,實(shí)現(xiàn)對(duì)知識(shí)的語義揭示、語義關(guān)聯(lián);第三步,加強(qiáng)各方合作,實(shí)現(xiàn)多來源異構(gòu)資源的統(tǒng)一檢索。
3.1.1 文本自動(dòng)分析技術(shù)概述。近年來,古籍文獻(xiàn)由印本文獻(xiàn)轉(zhuǎn)為大量的半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)字化資源,同時(shí),圖書館對(duì)書目數(shù)據(jù)賦予的功能也隨之發(fā)生了變化,不再只針對(duì)文獻(xiàn),而是更多地關(guān)注文獻(xiàn)的內(nèi)容。在這些變化的影響下,只依靠傳統(tǒng)的人工編目勢必?zé)o法滿足古籍資源利用的需求,因此,必須引入非人工或半人工的方式進(jìn)行文獻(xiàn)的揭示與組織,加強(qiáng)對(duì)數(shù)字資源的智能化處理技術(shù)的研究,在語義層面上深化館藏古籍資源的知識(shí)組織,建立人與機(jī)器之間的互理解通路,形成數(shù)字圖書館知識(shí)認(rèn)知與共享的基礎(chǔ)。
對(duì)古籍?dāng)?shù)字化資源進(jìn)行智能化處理以文本自動(dòng)分析技術(shù)為基礎(chǔ),這些技術(shù)主要包括:①文本抽取技術(shù)。對(duì)于抽取出來的信息,應(yīng)按照一定的算法計(jì)算權(quán)重、過濾錯(cuò)誤或冗余信息,這樣,通過多種方法的結(jié)合使提取出的信息具有專指性、準(zhǔn)確性、客觀性、完整性。②中文分詞技術(shù)。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。盡管已有多年的研究和實(shí)踐,國內(nèi)建設(shè)了多個(gè)分詞系統(tǒng),但是由于漢語的復(fù)雜性,漢語分詞技術(shù)仍是中文信息處理的一個(gè)技術(shù)難點(diǎn)。因此,較為合理的中文分詞方法應(yīng)是建設(shè)基礎(chǔ)的分詞詞典,通過大量實(shí)驗(yàn)數(shù)據(jù)積累語料庫,同時(shí)用已建的元數(shù)據(jù)對(duì)分詞詞典進(jìn)行檢驗(yàn),不斷改善。
文本自動(dòng)分析需要以語料庫作為基礎(chǔ)工具,一個(gè)完整規(guī)范的語料庫對(duì)知識(shí)挖掘的準(zhǔn)確性具有重要的作用。近年來,一些古籍研究機(jī)構(gòu)建設(shè)了一批高質(zhì)量的語料庫,為我國古籍文獻(xiàn)的整理與挖掘打下了良好的基礎(chǔ)。如:中國社會(huì)科學(xué)院語言研究所建立的小型語料庫包括近代漢語書面語語料150萬字、中古近代漢語語料約1000萬字;浙江師范大學(xué)建設(shè)了楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫;四川大學(xué)建設(shè)的中國古漢語語料庫有1億字的中國古漢語語料和有關(guān)中國古漢語研究的資料等。但是,由于目前語料庫的建設(shè)非常分散,沒有形成一個(gè)較為完整的體系,缺少對(duì)語義語料庫和語用語料庫的研究與建設(shè),因此,對(duì)于實(shí)現(xiàn)基于語義的古籍?dāng)?shù)字資源自動(dòng)分析的支持作用還很有限。
3.1.2 文本自動(dòng)分析技術(shù)在古籍?dāng)?shù)字資源整合中的應(yīng)用研究。利用智能化的文本自動(dòng)分析技術(shù)可以對(duì)古籍文獻(xiàn)的內(nèi)容進(jìn)行深入研究與輔助處理,實(shí)現(xiàn)對(duì)知識(shí)的揭示與發(fā)現(xiàn)。古漢語在語義與語法規(guī)則上與現(xiàn)代漢語有大量的差異,因此,利用文本自動(dòng)分析技術(shù)在處理古籍?dāng)?shù)字資源時(shí)應(yīng)關(guān)注古漢語的特點(diǎn)。如:關(guān)注對(duì)一字多音的識(shí)別,加強(qiáng)注音語料庫的建設(shè),通過利用上下文信息等方法確定多音字。
關(guān)注對(duì)漢字借用、代替等現(xiàn)象的識(shí)別,其中的難點(diǎn)在于:通假字由于借用是不固定的、臨時(shí)的,因此對(duì)語境的依賴性大;異體字由于各個(gè)地方對(duì)正體字的不同認(rèn)定造成對(duì)異體字的判定也因地而異。對(duì)文本進(jìn)行分析時(shí),對(duì)于每個(gè)獨(dú)立的著錄對(duì)象,應(yīng)結(jié)合該資源的來源(如地域、機(jī)構(gòu)等)、上下文語境等信息。
關(guān)注對(duì)名詞特別是人名、地名、物名、職官名等的正確識(shí)別,特別注意歷史沿革、地域差異等對(duì)名詞的影響。加強(qiáng)對(duì)命名實(shí)體識(shí)別技術(shù)的研究。命名實(shí)體是指現(xiàn)實(shí)世界中具體的或抽象的實(shí)體,如人、地點(diǎn)、組織等。通常用唯一的標(biāo)志符(即專有名詞)表示,如人名、地名、組織名等。廣義上講,命名實(shí)體還可以包含時(shí)間、數(shù)量表達(dá)式等。〔4〕
古人對(duì)句子的注釋很多采用征引式的注釋方法,因此,應(yīng)對(duì)這類注釋再進(jìn)行注釋,同時(shí),也可以通過這種注釋方法建立不同語句之間的關(guān)聯(lián)關(guān)系。
較為重要的古籍往往有多個(gè)校本,造成校勘工作繁重,應(yīng)利用文本自動(dòng)分析技術(shù)進(jìn)行自動(dòng)???,提供避諱字表、異體字表等輔助??惫ぞ?,加強(qiáng)對(duì)誤字、倒錯(cuò)、異文、脫文、衍文等多版本間差異的準(zhǔn)確發(fā)現(xiàn)。
3.2.1 本體的概念及功能。語義網(wǎng)是對(duì)萬維網(wǎng)的擴(kuò)展,目的是使現(xiàn)有的萬維網(wǎng)具有一定的推理和自動(dòng)處理能力。語義萬維網(wǎng)通過給萬維網(wǎng)上的文檔添加能夠被計(jì)算機(jī)所理解的語義,從而使整個(gè)互聯(lián)網(wǎng)成為一個(gè)通用的信息交換媒介?!?〕
本體(Ontology)是某一領(lǐng)域中的術(shù)語及術(shù)語間關(guān)系的規(guī)范說明,提供對(duì)領(lǐng)域知識(shí)的共同理解與描述,用于共享、交流和重用,由概念及概念之間的關(guān)系構(gòu)成,概念及概念間的關(guān)系經(jīng)過精確定義,主要供機(jī)器或計(jì)算機(jī)所使用并可用數(shù)學(xué)方式表達(dá)?!?〕本體是語義化的基礎(chǔ)工具,對(duì)語義網(wǎng)體系結(jié)構(gòu)起著關(guān)鍵的支撐作用。在語義網(wǎng)體系結(jié)構(gòu)中,本體的作用主要表現(xiàn)在:概念描述、語義揭示、一致性、推理支持。〔7〕
本體在古籍?dāng)?shù)字資源的整合中承擔(dān)以下的功能:①基于語義分析,支持對(duì)文本的自動(dòng)分析;②支持對(duì)古籍?dāng)?shù)字資源進(jìn)行自動(dòng)編目及規(guī)范控制;③支持自動(dòng)抽取古籍文獻(xiàn)中的知識(shí)概念,并建立知識(shí)關(guān)聯(lián);④支持語料庫的智能擴(kuò)展,自動(dòng)發(fā)現(xiàn)和挖掘新詞,發(fā)現(xiàn)缺失的概念;⑤作為基本的知識(shí)組織工具支持知識(shí)庫的自動(dòng)推理、自動(dòng)聚類的功能。
3.2.2 古籍本體的構(gòu)建方式。古籍文獻(xiàn)的內(nèi)容博大精深,涉及多個(gè)學(xué)科,因此,本體的構(gòu)建應(yīng)分步實(shí)現(xiàn),第一步,在小范圍內(nèi)進(jìn)行本體的建設(shè),主要建設(shè)方向分三類:一是基于古籍文獻(xiàn)中的通用知識(shí)構(gòu)建通用本體,被定義的知識(shí)可以應(yīng)用于各類型古籍,作為基礎(chǔ)支持工具,如:針對(duì)古籍文獻(xiàn)形式構(gòu)建的本體,基于人物構(gòu)建的本體等;二是基于特定的學(xué)科專業(yè)領(lǐng)域構(gòu)建領(lǐng)域本體,如:中醫(yī)古籍本體的構(gòu)建可以生命、形體、經(jīng)絡(luò)、腦穴、診法、中藥、方劑、病證、療法、針灸、養(yǎng)生、氣功等中醫(yī)特定知識(shí)單元為概念〔8〕;三是基于特定的古籍文獻(xiàn)類型構(gòu)建領(lǐng)域本體,如:由于家譜的主要內(nèi)容是記錄家族歷史,與人物有著密切關(guān)系,因此,家譜文獻(xiàn)的本體構(gòu)建應(yīng)以人物、家族為核心概念,重點(diǎn)分析人物之間的關(guān)系、家族之間的關(guān)系、人物與家族的關(guān)系、家族及人物與機(jī)構(gòu)的關(guān)系、人物與作品的關(guān)系、家族及人物與事件的關(guān)系等概念關(guān)系。第二步,整合各類本體,構(gòu)建古籍資源的知識(shí)組織體系。
知識(shí)庫是在數(shù)據(jù)庫的基礎(chǔ)上結(jié)合人工智能領(lǐng)域技術(shù)構(gòu)建而成的,建設(shè)的目的在于通過管理和存儲(chǔ)知識(shí)來實(shí)現(xiàn)知識(shí)的序化、共享、重用。建設(shè)的過程即對(duì)知識(shí)的獲取、表示、利用,既包括對(duì)原始信息或既有知識(shí)進(jìn)行理解、提取、分類,將知識(shí)以計(jì)算機(jī)能夠理解和處理的形式來表示,也包括通過分析和推理產(chǎn)生新知識(shí)。其特點(diǎn)在于:從信息資源中抽取知識(shí)點(diǎn),按照一定的知識(shí)表示方法,深入到文獻(xiàn)知識(shí)層面按照一定的知識(shí)體系進(jìn)行整序和分析,形成知識(shí)集合;不但能夠表示顯性知識(shí),而且能夠組織隱性知識(shí);具有學(xué)習(xí)、歸納推理及動(dòng)態(tài)更新的功能;不但明顯地表達(dá)事實(shí)和關(guān)系,還能夠明顯地表達(dá)領(lǐng)域知識(shí)和推理規(guī)則;通過對(duì)知識(shí)庫進(jìn)行挖掘,能夠發(fā)現(xiàn)事實(shí)上的知識(shí),也能發(fā)現(xiàn)規(guī)則上的知識(shí)。
知識(shí)庫的作用在于作推動(dòng)知識(shí)有序化、知識(shí)的交流與共享,對(duì)館藏古籍?dāng)?shù)字資源的整合有著重要的作用,圖書館對(duì)古籍知識(shí)庫的構(gòu)建進(jìn)行了一些研究和實(shí)踐。目前主要向兩個(gè)方向發(fā)展,一是基于本體建設(shè)的綜合性、基礎(chǔ)性知識(shí)庫,如:北京大學(xué)數(shù)據(jù)分析研究中心與中國國家圖書館合作建設(shè)的中國歷代典籍總目分析系統(tǒng)采用實(shí)體關(guān)系分層描述古籍書目并構(gòu)建了古籍文獻(xiàn)知識(shí)本體;二是基于領(lǐng)域本體針對(duì)特定學(xué)科古籍文獻(xiàn)建設(shè)的知識(shí)庫,如:中國中醫(yī)研究院對(duì)中醫(yī)古籍的本體構(gòu)建進(jìn)行了大量的研究,建設(shè)了中醫(yī)古籍知識(shí)庫系統(tǒng),并在此基礎(chǔ)上開發(fā)中醫(yī)藥文獻(xiàn)服務(wù)系統(tǒng)?!?〕但這些嘗試都還處在探索階段,主要工作都集中在對(duì)本體的建設(shè)上,對(duì)知識(shí)庫的架構(gòu)、功能等的研究還較為欠缺。
目前,對(duì)基于本體的古籍知識(shí)庫的建設(shè)應(yīng)按以下幾個(gè)步驟有序推進(jìn):①深化對(duì)館藏古籍?dāng)?shù)字化資源的語義挖掘與語義互聯(lián)的研究;②推動(dòng)知識(shí)表示、利用、存儲(chǔ)與獲取的輔助工具的研究開發(fā);③研究傳統(tǒng)知識(shí)組織工具的自動(dòng)更新、自動(dòng)豐富機(jī)制,使之具備吸收新信息、新概念、新結(jié)構(gòu)的能力,在此基礎(chǔ)上開發(fā)數(shù)字資源知識(shí)組織工具;④加強(qiáng)各類型語料的積累,為知識(shí)庫的建設(shè)打下良好的基礎(chǔ);⑤基于各種語義工具及已建元數(shù)據(jù)構(gòu)建知識(shí)庫;⑥有機(jī)整合已建知識(shí)庫的成果,構(gòu)建知識(shí)庫體系架構(gòu)。最終實(shí)現(xiàn)數(shù)字資源的結(jié)構(gòu)化、語義化,整合眾多的知識(shí)節(jié)點(diǎn)與知識(shí)關(guān)聯(lián),構(gòu)成知識(shí)網(wǎng)絡(luò)。
目前,很多收藏機(jī)構(gòu)都對(duì)藏本進(jìn)行加工,制作各種類型的數(shù)據(jù)庫。近20年來,國內(nèi)外利用計(jì)算機(jī)技術(shù)開發(fā)研制了近500種古籍?dāng)?shù)字化資源,其中包括81種古籍電子索引,近148種古籍書目數(shù)據(jù)庫和近270種古籍全文數(shù)據(jù)庫?!?0〕有學(xué)者對(duì)互聯(lián)網(wǎng)上的華文數(shù)字典籍檢索入口進(jìn)行整理,〔11〕在中國大陸之外的地區(qū)收集到的數(shù)量為:香港地區(qū)(5個(gè))、臺(tái)灣地區(qū)(36個(gè))、日本地區(qū)(21個(gè))、韓國地區(qū)(7個(gè))、歐美地區(qū)(26個(gè))。多個(gè)發(fā)布平臺(tái)必然造成信息孤島現(xiàn)象,給用戶帶來資源發(fā)現(xiàn)、知識(shí)獲取上的困難,成為古籍利用的瓶頸。
實(shí)現(xiàn)對(duì)多源異構(gòu)資源的統(tǒng)一發(fā)現(xiàn)有以下幾種主要途徑:一是通過跨庫檢索技術(shù),并發(fā)地檢索本地的和廣域網(wǎng)上多個(gè)分布式異構(gòu)數(shù)據(jù)源,并對(duì)檢索結(jié)果進(jìn)行整合,為用戶提供一個(gè)統(tǒng)一的檢索接口。如MetaLib。這一方式具有時(shí)效性好的特點(diǎn),且不必為資源的整合投入大量的人力物力。二是建立元數(shù)據(jù)倉儲(chǔ),將多個(gè)來源的元數(shù)據(jù)采集到本地,按照一定的規(guī)則進(jìn)行清洗、轉(zhuǎn)換,形成統(tǒng)一的格式,并提供檢索服務(wù)。這一方式由于對(duì)元數(shù)據(jù)進(jìn)行了規(guī)范化的處理,因此,檢索的效果較好。三是建立統(tǒng)一的內(nèi)容管理平臺(tái)、統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)、統(tǒng)一的檢索平臺(tái),采用多方共建的方式進(jìn)行資源建設(shè)與服務(wù)。這種方式可以避免資源的重復(fù)建設(shè),數(shù)據(jù)規(guī)范性好,質(zhì)量較高,不必再對(duì)已建數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換等工作,節(jié)省人力物力。以上三種方式各有優(yōu)勢,但也存在著一些問題,前兩種方式由于原數(shù)據(jù)庫為滿足本庫的顯示與檢索功能一般對(duì)元數(shù)據(jù)進(jìn)行了個(gè)性化的處理,因此,實(shí)現(xiàn)統(tǒng)一檢索后,針對(duì)不同類型資源的個(gè)性化檢索的效果往往不盡如人意。第三種方式需要多個(gè)資源擁有者之間形成緊密型的合作關(guān)系,而由于古籍文獻(xiàn)的收藏機(jī)構(gòu)分散于全球各地,因此合作多是圍繞本地區(qū)或同一文獻(xiàn)類型,較難形成跨區(qū)域跨文獻(xiàn)類型的大型合作組織。
因此,筆者認(rèn)為,對(duì)多源異構(gòu)的古籍?dāng)?shù)字資源的整合應(yīng)將三者結(jié)合在一起。即:在資源建設(shè)、標(biāo)準(zhǔn)建設(shè)、學(xué)術(shù)研究等各方面加強(qiáng)相關(guān)各方的合作,以多方共建的形式建設(shè)大型古籍?dāng)?shù)字資源的元數(shù)據(jù)倉儲(chǔ),再通過跨庫檢索等整合技術(shù)對(duì)這些大型的元數(shù)據(jù)倉儲(chǔ)進(jìn)行再整合,最終實(shí)現(xiàn)對(duì)所有古籍資源的整合檢索。
1.華夏記憶.〔2013 -10 -10〕.http://www.nlc.gov.cn/newhxjy/gjtsg/gwszzy/zykth/yywx/
2.陳東輝.關(guān)于古籍索引工作的若干思考.國家圖書館學(xué)刊,1997(1):43-47
3.毛建軍.美國中文古籍?dāng)?shù)字化概述.圖書館學(xué)研究,2012(1):19-20
4.朱鎖玲.命名實(shí)體識(shí)別在方志內(nèi)容挖掘中的應(yīng)用研究.南京:南京農(nóng)業(yè)大學(xué),2011:7
5.語義網(wǎng).〔2012 - 12 - 26〕.http://zh.wikipedia.org/wiki/%E8%AF%AD%E4%B9%89%E7%BD%91
6.司莉.KOS在網(wǎng)絡(luò)信息組織中的應(yīng)用與發(fā)展.武漢:武漢大學(xué)出版社,2007:156
7.戴維民等.語義網(wǎng)信息組織技術(shù)與方法.上海:學(xué)林出版社,2008:13
8.谷建軍.基于敘詞表的中醫(yī)古籍文獻(xiàn)領(lǐng)域本體建模方法研究.北京:中國中醫(yī)科學(xué)院,2006:76
9.VSP行業(yè)應(yīng)用案例五:中醫(yī)古籍知識(shí)庫系統(tǒng)以及中醫(yī)文獻(xiàn)服務(wù)系統(tǒng).〔2013 -10 -10〕.http://www.myvsp.cn/download/anli/wxsjby.pdf
10.毛建軍.古籍?dāng)?shù)字化理論與實(shí)踐.北京:航空工業(yè)出版社,2009:99-149
11.王偉.全球中國古籍書目總匯.〔2013-10-10〕.http://blog.sina.com.cn/s/blog_6a5826b6010180j0.html