亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖書館古籍?dāng)?shù)字資源整合研究?

        2014-08-15 00:49:30
        圖書館 2014年4期
        關(guān)鍵詞:語義數(shù)據(jù)庫圖書館

        (國家圖書館 北京 100081)

        1 圖書館古籍?dāng)?shù)字資源整合現(xiàn)狀綜述

        古籍文獻(xiàn)資源具有稀缺性、易損性,且存世量少,多年來,讀者要使用古籍文獻(xiàn)時需到館查詢卡片記錄,有限制地在固定地點(diǎn)閱覽部分古籍文獻(xiàn),造成大量的古籍文獻(xiàn)束之高閣,極大地降低了古籍文獻(xiàn)的利用率。近年來,數(shù)字化成為古籍文獻(xiàn)保存與利用的主要途徑,圖書館制作了多種類型的數(shù)據(jù)庫供讀者使用,并不斷對古籍文獻(xiàn)進(jìn)行深入挖掘,為讀者提供精細(xì)化知識服務(wù)。目前,對古籍文獻(xiàn)聚合的實(shí)踐具有以下幾個特點(diǎn):

        1.1 建設(shè)了大量的書目數(shù)據(jù)庫

        書目數(shù)據(jù)是圖書館對文獻(xiàn)進(jìn)行揭示與整合、為用戶提供信息服務(wù)的最基本的工具之一,通過書目數(shù)據(jù),用戶能夠便利地找到自己所需要的文獻(xiàn),這一知識產(chǎn)品代表著圖書館的核心競爭力。

        絕大多數(shù)圖書館都對本館所藏的古籍文獻(xiàn)進(jìn)行了編目,形成大量的書目數(shù)據(jù),其特點(diǎn)在于一般均按照規(guī)范的元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行著錄。部分圖書館在基本的著錄項(xiàng)之外還基于古籍的特點(diǎn)增加了一些特殊字段。如:山東大學(xué)古籍?dāng)?shù)據(jù)庫的元數(shù)據(jù)包括書名、卷數(shù)、作者、類別、抄刻者、封面、牌記、開本、版框、刻工、序跋、藏印、附注等23個字段。中國國家圖書館的古籍普查登記元數(shù)據(jù)包括題名、著者、版本、分類、版式、裝幀、裝具、序跋、刻工、批校題跋、鈐印、附件、文獻(xiàn)來源、修復(fù)歷史、叢書子目、定級、定損、相關(guān)書影等字段。

        1.2 對古籍文獻(xiàn)進(jìn)行再加工,提供增值信息

        多年來,圖書館一直致力于對古籍文獻(xiàn)進(jìn)行再加工,為用戶提供增值信息。其中,制作索引數(shù)據(jù)庫是較為常見的形式。

        索引數(shù)據(jù)庫的建設(shè)主要包括以下三方面的工作:一是對一些已出版的索引類工具書進(jìn)行全文數(shù)字化,提供用戶使用,如:“中英文圖書數(shù)字化國際合作計劃(CADAL)”數(shù)字化的古籍索引類文獻(xiàn)有數(shù)百種之多;二是在古籍?dāng)?shù)據(jù)庫的基礎(chǔ)上建設(shè)索引數(shù)據(jù)庫,如:明人文集聯(lián)合目錄與篇目索引資料庫整合了臺灣地區(qū)各收藏單位的藏品資料,包括故宮博物院圖書館、臺灣大學(xué)圖書館、中研院傅斯年圖書館、國家圖書館及漢學(xué)研究中心所藏明人文集,具備有全文、篇目、書名、作者檢索等多項(xiàng)檢索功能;〔1〕三是建設(shè)專門用于古籍的自動索引系統(tǒng),并利用索引系統(tǒng)進(jìn)行古籍文獻(xiàn)的索引工作,如:湘潭大學(xué)研制的古籍索引自動編輯系統(tǒng)(RPSYBJ)可自動編制古籍的逐字索引、句子索引、人名索引、地名索引及其他專題索引,并利用該系統(tǒng)編制了《宋詞別集索引三種》。〔2〕

        1.3 出現(xiàn)大量的全文影像數(shù)據(jù)庫

        近年來,古籍?dāng)?shù)字化工作蓬勃開展,除了圖書館進(jìn)行的本館館藏古籍?dāng)?shù)字化外,還有一些跨地區(qū)的項(xiàng)目,如古登堡計劃(Project Gutenberg)、中美百萬冊圖書數(shù)字圖書館計劃等項(xiàng)目中的文獻(xiàn)數(shù)字化都包含中國古籍。在各方的努力下,大量的中國古籍已經(jīng)被數(shù)字化,古籍全文數(shù)據(jù)庫成為用戶利用古籍文獻(xiàn)的重要途徑。

        除對普通古籍進(jìn)行數(shù)字化、建設(shè)全文影像數(shù)據(jù)庫外,圖書館還基于本館的特色館藏建設(shè)了很多專題數(shù)據(jù)庫。如:中國國家圖書館館藏西夏文獻(xiàn)大多為西夏、元代孤本,是研究古代西夏、元代紙張、絲綢質(zhì)料的珍貴實(shí)物資料,對研究西夏佛教史具有重要價值,中國國家圖書館整合這些文獻(xiàn),建設(shè)了“西夏碎金”數(shù)據(jù)庫,收錄館藏西夏古籍書目數(shù)據(jù)124條、館藏西夏古籍原件影像近5000拍、西夏研究論文篇名數(shù)據(jù)1202條。又如:上海圖書館共收藏有約17000種、110000余冊中國家譜,是國內(nèi)外收藏中國家譜(原件)數(shù)量最多的單位,最早者為宋內(nèi)府寫本《仙源類譜》(殘頁)。另上海圖書館為推動本館特色館藏的開發(fā)利用,建設(shè)了家譜數(shù)據(jù)庫。

        1.4 多個古籍收藏機(jī)構(gòu)共同建設(shè)古籍?dāng)?shù)據(jù)庫成為古籍文獻(xiàn)利用的發(fā)展趨勢

        目前,一些大型項(xiàng)目均是由多個收藏機(jī)構(gòu)合作共同建設(shè),合作原因多種多樣。一種是由于文獻(xiàn)內(nèi)容、類型上互為補(bǔ)益促成的跨區(qū)域合作。如:由大英圖書館發(fā)起,眾多國際敦煌文獻(xiàn)收藏機(jī)構(gòu)共同參與的敦煌文獻(xiàn)保存和數(shù)字化項(xiàng)目——國際敦煌項(xiàng)目(International Dunhuang Project,IDP)。另一種是由于古籍文獻(xiàn)的數(shù)字化及開發(fā)利用一般需要大量的人力、物力、財力,一些中小型圖書館無力開發(fā)本館館藏,因而與其他館合作建設(shè)。如:由北京大學(xué)、北京師范大學(xué)、南京大學(xué)、四川大學(xué)等高校合力建設(shè)的學(xué)苑汲古數(shù)據(jù)庫。

        2 館藏古籍?dāng)?shù)字資源整合存在問題研究

        2.1 對古籍文獻(xiàn)的組織與利用多基于書目數(shù)據(jù)

        目前圖書館對古籍文獻(xiàn)的組織與利用多是基于書目數(shù)據(jù)得以實(shí)現(xiàn),這一特點(diǎn)既有優(yōu)點(diǎn),也有弊端,書目數(shù)據(jù)產(chǎn)生于對印本文獻(xiàn)的編目,在大量的數(shù)字資源成為編目對象時,書目數(shù)據(jù)暴露出一些弱點(diǎn):①書目數(shù)據(jù)主要是以文獻(xiàn)為單元進(jìn)行描述,無法對文獻(xiàn)的內(nèi)容進(jìn)行深入的揭示,更無法在知識元之間建立有效的關(guān)聯(lián),實(shí)現(xiàn)在語義層面上的深度聚合;②基于書目數(shù)據(jù)形成的知識結(jié)構(gòu)是線性的、等級式的,而當(dāng)數(shù)字圖書館將海量的、分布的、動態(tài)的網(wǎng)絡(luò)信息資源納入整合的范圍時,知識結(jié)構(gòu)必須進(jìn)化為網(wǎng)狀的具有各種關(guān)系的概念群,才能夠支持對知識的深度聚合;③在檢索中只能支持詞形匹配,而不支持智能推理,因而無法實(shí)現(xiàn)語義檢索;④書目數(shù)據(jù)的規(guī)則與結(jié)構(gòu)的設(shè)計主要是基于手工編目的需求,而在網(wǎng)絡(luò)環(huán)境下,編目的對象由靜態(tài)的印本文獻(xiàn)發(fā)展為動態(tài)的數(shù)字文獻(xiàn),書目數(shù)據(jù)只是作為原始文獻(xiàn)的替代物,無法通過對知識的自動學(xué)習(xí)發(fā)展出新知識,完成自身的進(jìn)化。

        對資源進(jìn)行整合不僅應(yīng)實(shí)現(xiàn)基于文獻(xiàn)的整合,更重要的是實(shí)現(xiàn)基于知識的整合,為用戶提供更高效的知識服務(wù)。古籍文獻(xiàn)記敘的內(nèi)容涉及到天文、地理、文化、藝術(shù)、醫(yī)藥、農(nóng)業(yè)、歷史等多個學(xué)科領(lǐng)域,除對歷史研究外,對于相關(guān)各學(xué)科領(lǐng)域的研究都有著重要的利用價值,應(yīng)進(jìn)行深入的挖掘。目前對古籍資源整合的深度只停留在文獻(xiàn)層面,沒有對古籍文獻(xiàn)中的知識進(jìn)行深入挖掘。

        2.2 古籍文獻(xiàn)收藏機(jī)構(gòu)多而分散

        古籍文獻(xiàn)的收藏機(jī)構(gòu)眾多,除中國大陸外,還分布在全球多個地區(qū),主要有中國臺灣、美國、英國、日本、韓國等。如:美國國會圖書館收藏有包括宋元明清善本古籍5萬余冊,地方志400多種,其中100多種為中國國內(nèi)孤本,其他尚有400多種滿文數(shù)據(jù)和3000種云南納西族東巴文資料。哈佛燕京圖書館現(xiàn)有中國古籍4673種、44993冊,中國地方志4000種,叢書1500種,所藏《永樂大典》2冊、《四庫全書》2冊、宋版書16種、元版書38種、明版本1275種均為中國以外的孤本?!?〕資源的稀缺性與分散性影響了對古籍文獻(xiàn)的利用。同時,由于發(fā)布者不同,數(shù)據(jù)結(jié)構(gòu)、命名方式、元數(shù)據(jù)格式和元數(shù)據(jù)方案,系統(tǒng)結(jié)構(gòu)模型、調(diào)用協(xié)議、用戶界面等各個方面都有很多的差異,特別是命名方式、數(shù)據(jù)結(jié)構(gòu)、句法結(jié)構(gòu)、語法結(jié)構(gòu)等方面的差異會帶來語義不一致的問題,嚴(yán)重影響了語義網(wǎng)環(huán)境下對信息資源的語義揭示與語義互聯(lián)。

        3 解決問題途徑研究

        筆者認(rèn)為,要解決上述兩大問題,應(yīng)分三步驟進(jìn)行古籍?dāng)?shù)字化資源的整合,第一步,結(jié)合古籍?dāng)?shù)字化資源特點(diǎn),加強(qiáng)對文本自動分析技術(shù)、本體等的研究,構(gòu)建古籍資源的知識體系;第二步,基于這些知識組織工具進(jìn)行古籍知識庫的構(gòu)建,實(shí)現(xiàn)對知識的語義揭示、語義關(guān)聯(lián);第三步,加強(qiáng)各方合作,實(shí)現(xiàn)多來源異構(gòu)資源的統(tǒng)一檢索。

        3.1 應(yīng)用文本自動分析技術(shù)有效實(shí)現(xiàn)古籍中知識的挖掘

        3.1.1 文本自動分析技術(shù)概述。近年來,古籍文獻(xiàn)由印本文獻(xiàn)轉(zhuǎn)為大量的半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)字化資源,同時,圖書館對書目數(shù)據(jù)賦予的功能也隨之發(fā)生了變化,不再只針對文獻(xiàn),而是更多地關(guān)注文獻(xiàn)的內(nèi)容。在這些變化的影響下,只依靠傳統(tǒng)的人工編目勢必?zé)o法滿足古籍資源利用的需求,因此,必須引入非人工或半人工的方式進(jìn)行文獻(xiàn)的揭示與組織,加強(qiáng)對數(shù)字資源的智能化處理技術(shù)的研究,在語義層面上深化館藏古籍資源的知識組織,建立人與機(jī)器之間的互理解通路,形成數(shù)字圖書館知識認(rèn)知與共享的基礎(chǔ)。

        對古籍?dāng)?shù)字化資源進(jìn)行智能化處理以文本自動分析技術(shù)為基礎(chǔ),這些技術(shù)主要包括:①文本抽取技術(shù)。對于抽取出來的信息,應(yīng)按照一定的算法計算權(quán)重、過濾錯誤或冗余信息,這樣,通過多種方法的結(jié)合使提取出的信息具有專指性、準(zhǔn)確性、客觀性、完整性。②中文分詞技術(shù)。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。盡管已有多年的研究和實(shí)踐,國內(nèi)建設(shè)了多個分詞系統(tǒng),但是由于漢語的復(fù)雜性,漢語分詞技術(shù)仍是中文信息處理的一個技術(shù)難點(diǎn)。因此,較為合理的中文分詞方法應(yīng)是建設(shè)基礎(chǔ)的分詞詞典,通過大量實(shí)驗(yàn)數(shù)據(jù)積累語料庫,同時用已建的元數(shù)據(jù)對分詞詞典進(jìn)行檢驗(yàn),不斷改善。

        文本自動分析需要以語料庫作為基礎(chǔ)工具,一個完整規(guī)范的語料庫對知識挖掘的準(zhǔn)確性具有重要的作用。近年來,一些古籍研究機(jī)構(gòu)建設(shè)了一批高質(zhì)量的語料庫,為我國古籍文獻(xiàn)的整理與挖掘打下了良好的基礎(chǔ)。如:中國社會科學(xué)院語言研究所建立的小型語料庫包括近代漢語書面語語料150萬字、中古近代漢語語料約1000萬字;浙江師范大學(xué)建設(shè)了楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫;四川大學(xué)建設(shè)的中國古漢語語料庫有1億字的中國古漢語語料和有關(guān)中國古漢語研究的資料等。但是,由于目前語料庫的建設(shè)非常分散,沒有形成一個較為完整的體系,缺少對語義語料庫和語用語料庫的研究與建設(shè),因此,對于實(shí)現(xiàn)基于語義的古籍?dāng)?shù)字資源自動分析的支持作用還很有限。

        3.1.2 文本自動分析技術(shù)在古籍?dāng)?shù)字資源整合中的應(yīng)用研究。利用智能化的文本自動分析技術(shù)可以對古籍文獻(xiàn)的內(nèi)容進(jìn)行深入研究與輔助處理,實(shí)現(xiàn)對知識的揭示與發(fā)現(xiàn)。古漢語在語義與語法規(guī)則上與現(xiàn)代漢語有大量的差異,因此,利用文本自動分析技術(shù)在處理古籍?dāng)?shù)字資源時應(yīng)關(guān)注古漢語的特點(diǎn)。如:關(guān)注對一字多音的識別,加強(qiáng)注音語料庫的建設(shè),通過利用上下文信息等方法確定多音字。

        關(guān)注對漢字借用、代替等現(xiàn)象的識別,其中的難點(diǎn)在于:通假字由于借用是不固定的、臨時的,因此對語境的依賴性大;異體字由于各個地方對正體字的不同認(rèn)定造成對異體字的判定也因地而異。對文本進(jìn)行分析時,對于每個獨(dú)立的著錄對象,應(yīng)結(jié)合該資源的來源(如地域、機(jī)構(gòu)等)、上下文語境等信息。

        關(guān)注對名詞特別是人名、地名、物名、職官名等的正確識別,特別注意歷史沿革、地域差異等對名詞的影響。加強(qiáng)對命名實(shí)體識別技術(shù)的研究。命名實(shí)體是指現(xiàn)實(shí)世界中具體的或抽象的實(shí)體,如人、地點(diǎn)、組織等。通常用唯一的標(biāo)志符(即專有名詞)表示,如人名、地名、組織名等。廣義上講,命名實(shí)體還可以包含時間、數(shù)量表達(dá)式等?!?〕

        古人對句子的注釋很多采用征引式的注釋方法,因此,應(yīng)對這類注釋再進(jìn)行注釋,同時,也可以通過這種注釋方法建立不同語句之間的關(guān)聯(lián)關(guān)系。

        較為重要的古籍往往有多個校本,造成??惫ぷ鞣敝兀瑧?yīng)利用文本自動分析技術(shù)進(jìn)行自動??保峁┍苤M字表、異體字表等輔助??惫ぞ撸訌?qiáng)對誤字、倒錯、異文、脫文、衍文等多版本間差異的準(zhǔn)確發(fā)現(xiàn)。

        3.2 加強(qiáng)本體構(gòu)建與應(yīng)用

        3.2.1 本體的概念及功能。語義網(wǎng)是對萬維網(wǎng)的擴(kuò)展,目的是使現(xiàn)有的萬維網(wǎng)具有一定的推理和自動處理能力。語義萬維網(wǎng)通過給萬維網(wǎng)上的文檔添加能夠被計算機(jī)所理解的語義,從而使整個互聯(lián)網(wǎng)成為一個通用的信息交換媒介?!?〕

        本體(Ontology)是某一領(lǐng)域中的術(shù)語及術(shù)語間關(guān)系的規(guī)范說明,提供對領(lǐng)域知識的共同理解與描述,用于共享、交流和重用,由概念及概念之間的關(guān)系構(gòu)成,概念及概念間的關(guān)系經(jīng)過精確定義,主要供機(jī)器或計算機(jī)所使用并可用數(shù)學(xué)方式表達(dá)。〔6〕本體是語義化的基礎(chǔ)工具,對語義網(wǎng)體系結(jié)構(gòu)起著關(guān)鍵的支撐作用。在語義網(wǎng)體系結(jié)構(gòu)中,本體的作用主要表現(xiàn)在:概念描述、語義揭示、一致性、推理支持?!?〕

        本體在古籍?dāng)?shù)字資源的整合中承擔(dān)以下的功能:①基于語義分析,支持對文本的自動分析;②支持對古籍?dāng)?shù)字資源進(jìn)行自動編目及規(guī)范控制;③支持自動抽取古籍文獻(xiàn)中的知識概念,并建立知識關(guān)聯(lián);④支持語料庫的智能擴(kuò)展,自動發(fā)現(xiàn)和挖掘新詞,發(fā)現(xiàn)缺失的概念;⑤作為基本的知識組織工具支持知識庫的自動推理、自動聚類的功能。

        3.2.2 古籍本體的構(gòu)建方式。古籍文獻(xiàn)的內(nèi)容博大精深,涉及多個學(xué)科,因此,本體的構(gòu)建應(yīng)分步實(shí)現(xiàn),第一步,在小范圍內(nèi)進(jìn)行本體的建設(shè),主要建設(shè)方向分三類:一是基于古籍文獻(xiàn)中的通用知識構(gòu)建通用本體,被定義的知識可以應(yīng)用于各類型古籍,作為基礎(chǔ)支持工具,如:針對古籍文獻(xiàn)形式構(gòu)建的本體,基于人物構(gòu)建的本體等;二是基于特定的學(xué)科專業(yè)領(lǐng)域構(gòu)建領(lǐng)域本體,如:中醫(yī)古籍本體的構(gòu)建可以生命、形體、經(jīng)絡(luò)、腦穴、診法、中藥、方劑、病證、療法、針灸、養(yǎng)生、氣功等中醫(yī)特定知識單元為概念〔8〕;三是基于特定的古籍文獻(xiàn)類型構(gòu)建領(lǐng)域本體,如:由于家譜的主要內(nèi)容是記錄家族歷史,與人物有著密切關(guān)系,因此,家譜文獻(xiàn)的本體構(gòu)建應(yīng)以人物、家族為核心概念,重點(diǎn)分析人物之間的關(guān)系、家族之間的關(guān)系、人物與家族的關(guān)系、家族及人物與機(jī)構(gòu)的關(guān)系、人物與作品的關(guān)系、家族及人物與事件的關(guān)系等概念關(guān)系。第二步,整合各類本體,構(gòu)建古籍資源的知識組織體系。

        3.3 基于本體構(gòu)建語義知識庫

        知識庫是在數(shù)據(jù)庫的基礎(chǔ)上結(jié)合人工智能領(lǐng)域技術(shù)構(gòu)建而成的,建設(shè)的目的在于通過管理和存儲知識來實(shí)現(xiàn)知識的序化、共享、重用。建設(shè)的過程即對知識的獲取、表示、利用,既包括對原始信息或既有知識進(jìn)行理解、提取、分類,將知識以計算機(jī)能夠理解和處理的形式來表示,也包括通過分析和推理產(chǎn)生新知識。其特點(diǎn)在于:從信息資源中抽取知識點(diǎn),按照一定的知識表示方法,深入到文獻(xiàn)知識層面按照一定的知識體系進(jìn)行整序和分析,形成知識集合;不但能夠表示顯性知識,而且能夠組織隱性知識;具有學(xué)習(xí)、歸納推理及動態(tài)更新的功能;不但明顯地表達(dá)事實(shí)和關(guān)系,還能夠明顯地表達(dá)領(lǐng)域知識和推理規(guī)則;通過對知識庫進(jìn)行挖掘,能夠發(fā)現(xiàn)事實(shí)上的知識,也能發(fā)現(xiàn)規(guī)則上的知識。

        知識庫的作用在于作推動知識有序化、知識的交流與共享,對館藏古籍?dāng)?shù)字資源的整合有著重要的作用,圖書館對古籍知識庫的構(gòu)建進(jìn)行了一些研究和實(shí)踐。目前主要向兩個方向發(fā)展,一是基于本體建設(shè)的綜合性、基礎(chǔ)性知識庫,如:北京大學(xué)數(shù)據(jù)分析研究中心與中國國家圖書館合作建設(shè)的中國歷代典籍總目分析系統(tǒng)采用實(shí)體關(guān)系分層描述古籍書目并構(gòu)建了古籍文獻(xiàn)知識本體;二是基于領(lǐng)域本體針對特定學(xué)科古籍文獻(xiàn)建設(shè)的知識庫,如:中國中醫(yī)研究院對中醫(yī)古籍的本體構(gòu)建進(jìn)行了大量的研究,建設(shè)了中醫(yī)古籍知識庫系統(tǒng),并在此基礎(chǔ)上開發(fā)中醫(yī)藥文獻(xiàn)服務(wù)系統(tǒng)?!?〕但這些嘗試都還處在探索階段,主要工作都集中在對本體的建設(shè)上,對知識庫的架構(gòu)、功能等的研究還較為欠缺。

        目前,對基于本體的古籍知識庫的建設(shè)應(yīng)按以下幾個步驟有序推進(jìn):①深化對館藏古籍?dāng)?shù)字化資源的語義挖掘與語義互聯(lián)的研究;②推動知識表示、利用、存儲與獲取的輔助工具的研究開發(fā);③研究傳統(tǒng)知識組織工具的自動更新、自動豐富機(jī)制,使之具備吸收新信息、新概念、新結(jié)構(gòu)的能力,在此基礎(chǔ)上開發(fā)數(shù)字資源知識組織工具;④加強(qiáng)各類型語料的積累,為知識庫的建設(shè)打下良好的基礎(chǔ);⑤基于各種語義工具及已建元數(shù)據(jù)構(gòu)建知識庫;⑥有機(jī)整合已建知識庫的成果,構(gòu)建知識庫體系架構(gòu)。最終實(shí)現(xiàn)數(shù)字資源的結(jié)構(gòu)化、語義化,整合眾多的知識節(jié)點(diǎn)與知識關(guān)聯(lián),構(gòu)成知識網(wǎng)絡(luò)。

        3.4 加強(qiáng)合作,實(shí)現(xiàn)多源異構(gòu)資源的統(tǒng)一發(fā)現(xiàn)

        目前,很多收藏機(jī)構(gòu)都對藏本進(jìn)行加工,制作各種類型的數(shù)據(jù)庫。近20年來,國內(nèi)外利用計算機(jī)技術(shù)開發(fā)研制了近500種古籍?dāng)?shù)字化資源,其中包括81種古籍電子索引,近148種古籍書目數(shù)據(jù)庫和近270種古籍全文數(shù)據(jù)庫?!?0〕有學(xué)者對互聯(lián)網(wǎng)上的華文數(shù)字典籍檢索入口進(jìn)行整理,〔11〕在中國大陸之外的地區(qū)收集到的數(shù)量為:香港地區(qū)(5個)、臺灣地區(qū)(36個)、日本地區(qū)(21個)、韓國地區(qū)(7個)、歐美地區(qū)(26個)。多個發(fā)布平臺必然造成信息孤島現(xiàn)象,給用戶帶來資源發(fā)現(xiàn)、知識獲取上的困難,成為古籍利用的瓶頸。

        實(shí)現(xiàn)對多源異構(gòu)資源的統(tǒng)一發(fā)現(xiàn)有以下幾種主要途徑:一是通過跨庫檢索技術(shù),并發(fā)地檢索本地的和廣域網(wǎng)上多個分布式異構(gòu)數(shù)據(jù)源,并對檢索結(jié)果進(jìn)行整合,為用戶提供一個統(tǒng)一的檢索接口。如MetaLib。這一方式具有時效性好的特點(diǎn),且不必為資源的整合投入大量的人力物力。二是建立元數(shù)據(jù)倉儲,將多個來源的元數(shù)據(jù)采集到本地,按照一定的規(guī)則進(jìn)行清洗、轉(zhuǎn)換,形成統(tǒng)一的格式,并提供檢索服務(wù)。這一方式由于對元數(shù)據(jù)進(jìn)行了規(guī)范化的處理,因此,檢索的效果較好。三是建立統(tǒng)一的內(nèi)容管理平臺、統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)、統(tǒng)一的檢索平臺,采用多方共建的方式進(jìn)行資源建設(shè)與服務(wù)。這種方式可以避免資源的重復(fù)建設(shè),數(shù)據(jù)規(guī)范性好,質(zhì)量較高,不必再對已建數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換等工作,節(jié)省人力物力。以上三種方式各有優(yōu)勢,但也存在著一些問題,前兩種方式由于原數(shù)據(jù)庫為滿足本庫的顯示與檢索功能一般對元數(shù)據(jù)進(jìn)行了個性化的處理,因此,實(shí)現(xiàn)統(tǒng)一檢索后,針對不同類型資源的個性化檢索的效果往往不盡如人意。第三種方式需要多個資源擁有者之間形成緊密型的合作關(guān)系,而由于古籍文獻(xiàn)的收藏機(jī)構(gòu)分散于全球各地,因此合作多是圍繞本地區(qū)或同一文獻(xiàn)類型,較難形成跨區(qū)域跨文獻(xiàn)類型的大型合作組織。

        因此,筆者認(rèn)為,對多源異構(gòu)的古籍?dāng)?shù)字資源的整合應(yīng)將三者結(jié)合在一起。即:在資源建設(shè)、標(biāo)準(zhǔn)建設(shè)、學(xué)術(shù)研究等各方面加強(qiáng)相關(guān)各方的合作,以多方共建的形式建設(shè)大型古籍?dāng)?shù)字資源的元數(shù)據(jù)倉儲,再通過跨庫檢索等整合技術(shù)對這些大型的元數(shù)據(jù)倉儲進(jìn)行再整合,最終實(shí)現(xiàn)對所有古籍資源的整合檢索。

        1.華夏記憶.〔2013 -10 -10〕.http://www.nlc.gov.cn/newhxjy/gjtsg/gwszzy/zykth/yywx/

        2.陳東輝.關(guān)于古籍索引工作的若干思考.國家圖書館學(xué)刊,1997(1):43-47

        3.毛建軍.美國中文古籍?dāng)?shù)字化概述.圖書館學(xué)研究,2012(1):19-20

        4.朱鎖玲.命名實(shí)體識別在方志內(nèi)容挖掘中的應(yīng)用研究.南京:南京農(nóng)業(yè)大學(xué),2011:7

        5.語義網(wǎng).〔2012 - 12 - 26〕.http://zh.wikipedia.org/wiki/%E8%AF%AD%E4%B9%89%E7%BD%91

        6.司莉.KOS在網(wǎng)絡(luò)信息組織中的應(yīng)用與發(fā)展.武漢:武漢大學(xué)出版社,2007:156

        7.戴維民等.語義網(wǎng)信息組織技術(shù)與方法.上海:學(xué)林出版社,2008:13

        8.谷建軍.基于敘詞表的中醫(yī)古籍文獻(xiàn)領(lǐng)域本體建模方法研究.北京:中國中醫(yī)科學(xué)院,2006:76

        9.VSP行業(yè)應(yīng)用案例五:中醫(yī)古籍知識庫系統(tǒng)以及中醫(yī)文獻(xiàn)服務(wù)系統(tǒng).〔2013 -10 -10〕.http://www.myvsp.cn/download/anli/wxsjby.pdf

        10.毛建軍.古籍?dāng)?shù)字化理論與實(shí)踐.北京:航空工業(yè)出版社,2009:99-149

        11.王偉.全球中國古籍書目總匯.〔2013-10-10〕.http://blog.sina.com.cn/s/blog_6a5826b6010180j0.html

        猜你喜歡
        語義數(shù)據(jù)庫圖書館
        語言與語義
        圖書館
        小太陽畫報(2018年1期)2018-05-14 17:19:25
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        飛躍圖書館
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        認(rèn)知范疇模糊與語義模糊
        去圖書館
        偷拍熟女露出喷水在线91| 最近中文av字幕在线中文| 国产婷婷丁香五月麻豆| 精品一区二区中文字幕| 国产91色综合久久免费| 国产精品刮毛| 国产毛片网| 日韩精品一区二区av在线| 极品一区二区在线视频| 国产成人亚洲精品无码av大片| 久久久久亚洲av无码尤物| 亚洲精品一区二区三区播放| 日本久久精品视频免费| 亚洲一区自拍高清亚洲精品| 久久精品人成免费| 中国产无码一区二区三区| 小池里奈第一部av在线观看| 樱桃视频影院在线播放 | 狠狠97人人婷婷五月| 亚洲av无码男人的天堂在线| 亚洲欧美久久婷婷爱综合一区天堂 | 人妻av中文字幕精品久久| 午夜久久久久久禁播电影| 水蜜桃无码视频在线观看| 精品一区二区三区久久久| 99蜜桃在线观看免费视频| 草草地址线路①屁屁影院成人| 欧美午夜精品久久久久久浪潮| 欧美片欧美日韩国产综合片| 91精品久久久老熟女91精品| 日韩精品久久久肉伦网站| 狠狠色综合播放一区二区| 国产人妻久久精品二区三区特黄| 日本中文字幕不卡在线一区二区| 日韩精品免费观看在线| 国产高清在线精品一区app| 毛片在线播放a| 成在线人免费无码高潮喷水| 一本色道久久综合亚洲| 精精国产xxxx视频在线播放| 老汉tv永久视频福利在线观看|