亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合研究*

        2015-07-22 11:49:38肖希明劉巧園武漢大學信息管理學院武漢430072
        圖書館 2015年9期

        肖希明 劉巧園(武漢大學信息管理學院 武漢 430072)

        基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合研究*

        肖希明 劉巧園
        (武漢大學信息管理學院 武漢 430072)

        〔摘 要〕文章首先介紹了元數(shù)據(jù)倉儲技術及基于其的數(shù)字資源整合方式的基本內涵,其次指出公共數(shù)字文化資源具有異構性和分散性等特點,并分析了其現(xiàn)有元數(shù)據(jù)標準。隨后探討了元數(shù)據(jù)倉儲技術在公共數(shù)字文化資源整合領域的實現(xiàn),構建了基于元數(shù)據(jù)倉儲的資源整合框架及體系結構,最后分析了元數(shù)據(jù)倉儲在公共數(shù)字文化資源整合領域的應用前景,并探討了其可能面臨的問題及解決對策。

        〔關鍵詞〕公共數(shù)字文化資源 數(shù)字資源整合 元數(shù)據(jù)倉儲

        1 引言

        公共文化機構擁有類型多樣、質量較高的文化資源,然而用戶在訪問和獲取公共文化機構的實體資源時往往受到時間、空間等諸多因素的限制,這極大地影響了公共文化資源的利用率。近年來,公共文化機構逐步開展館藏實體資源數(shù)字化工作,旨在建設完備的館藏資源體系,提高公共文化服務水平。隨著數(shù)字資源規(guī)模的不斷擴大,不同主題不同形式的異構資源存儲在不同文化機構的不同數(shù)據(jù)庫中,使信息資源的管理和共享在一定程度上受到阻礙,信息孤島現(xiàn)象時有發(fā)生。[1]因此,進行公共數(shù)字文化資源整合以最大限度利用現(xiàn)有資源,實現(xiàn)數(shù)字資源共建共享成為了公共文化機構所面臨的重要課題之一。

        常見的數(shù)字資源整合方式主要有模式集成和數(shù)據(jù)復制。[2]模式集成(Schema Integration)起步較早,是其它整合方式的基礎。模式集成是指在數(shù)字資源整合過程中將來源于不同數(shù)據(jù)庫的數(shù)據(jù)視圖集成為全局模式(Golobal Schema),以幫助用戶無限制地訪問各數(shù)據(jù)庫的數(shù)字資源。[3]而數(shù)據(jù)復制則是通過對各數(shù)據(jù)庫的異構數(shù)據(jù)進行復制以完成對數(shù)字資源的整合,為用戶提供一站式服務,滿足用戶信息需求,提升用戶瀏覽和獲取信息資源的體驗,其代表方式是建立數(shù)據(jù)倉儲(Data Warehouse)。

        資源整合方式的選擇直接影響著資源整合的成敗,對公共數(shù)字文化資源整合方式的研究已成為該領域面臨的重要課題。本文將重點分析基于元數(shù)據(jù)倉儲的數(shù)字資源整合方式及其在公共數(shù)字文化資源整合領域的實現(xiàn)方式,希望能為公共數(shù)字文化資源整合提供某些參考。

        2 基于元數(shù)據(jù)倉儲的數(shù)字資源整合方式

        2.1 數(shù)據(jù)倉儲與元數(shù)據(jù)倉儲

        數(shù)據(jù)復制是物理整合方式之一,即對各數(shù)據(jù)庫的資源進行復制和轉換,統(tǒng)一存儲到數(shù)據(jù)倉儲中供用戶檢索、瀏覽和獲取。數(shù)據(jù)倉儲在資源整合過程中扮演著重要角色,將分散的、異構的資源整合為集中的、同構的資源為用戶提供一站式服務。在傳統(tǒng)的資源檢索中用戶需要分別登錄不同的數(shù)據(jù)庫,根據(jù)各數(shù)據(jù)庫的檢索規(guī)則構建不同的檢索式來檢索所需的資源,而在數(shù)據(jù)倉儲中用戶只需要進行一次身份驗證便可以無障礙地檢索和獲取眾多數(shù)據(jù)庫中的資源,訪問效率和用戶體驗大大提升。然而,構建數(shù)據(jù)倉儲對本地存儲容量、資源獲取能力和更新維護效率要求較高,普通機構由于自身人力、物力和財力有限很難完成數(shù)據(jù)倉儲的建立和維護,因而元數(shù)據(jù)倉儲隨之產(chǎn)生。與數(shù)據(jù)倉儲不同,元數(shù)據(jù)倉儲不是直接將異構數(shù)據(jù)庫中的資源內容復制到倉儲中,而是將資源的元數(shù)據(jù)復制到倉儲中,從而有效減少了所占存儲空間,減輕了機構的維護負擔。元數(shù)據(jù)倉儲目前在圖書館領域應用較多,如美國密歇根大學數(shù)字圖書館建立的OAIster系統(tǒng)就是利用OAIPMH協(xié)議收割元數(shù)據(jù)并建立元數(shù)據(jù)倉儲。[4]我國高校圖書館間的CALIS系統(tǒng)也是采用構建本地元數(shù)據(jù)倉儲的方式建設而成,為用戶提供異構數(shù)據(jù)庫的資源檢索、獲取和文獻傳遞服務。[5]

        2.2 基于元數(shù)據(jù)倉儲的數(shù)字資源整合方式

        基于元數(shù)據(jù)倉儲的數(shù)字資源整合方式的基本原理是:通過在用戶和數(shù)據(jù)庫之間增加一個數(shù)據(jù)層以存儲來自數(shù)據(jù)庫的元數(shù)據(jù)信息并對用戶的檢索請求做出回應將檢索結果返回至用戶界面[6],用戶通過元數(shù)據(jù)及其鏈接實現(xiàn)對資源的獲取。由于該方式?jīng)]有破壞數(shù)據(jù)庫本身的體系結構,原有的分布式數(shù)據(jù)庫仍然保持獨立,這使得它能夠同時在不同數(shù)據(jù)庫中進行檢索,支持并發(fā)用戶的檢索請求,因此特別適用于大規(guī)模異構資源的整合。該整合方式使得資源的瀏覽和檢索獨立于原數(shù)據(jù)庫,具有較強的穩(wěn)定性,資源獲取效率也得以提高。通過建立元數(shù)據(jù)倉儲可以實現(xiàn)結構化數(shù)據(jù)與非結構化數(shù)據(jù)的整合,為異構數(shù)據(jù)的獲取和共享提供統(tǒng)一視圖,有效提高檢索效率。此外,由于元數(shù)據(jù)倉儲集成了來自不同數(shù)據(jù)庫的資源,在支持跨庫檢索的同時還能夠進行高級檢索和二次檢索,為數(shù)據(jù)挖掘和知識發(fā)現(xiàn)服務奠定了基礎。[7]但是該整合方式在元數(shù)據(jù)獲取和維護方面也存在一定的困難。元數(shù)據(jù)的獲取對資源提供者的依賴程度較高,只有當其提供數(shù)據(jù)接口和訪問許可時才能夠獲取元數(shù)據(jù)信息,但部分商業(yè)數(shù)據(jù)庫基于自身利益的考慮不愿提供接口供外部使用。而在元數(shù)據(jù)維護方面,元數(shù)據(jù)倉儲中的數(shù)據(jù)必須定期進行更新才能夠為用戶提供實時的檢索結果,保證檢索的精確性。

        3 公共數(shù)字文化資源特點及其元數(shù)據(jù)標準

        3.1 公共數(shù)字文化資源的特點

        公共數(shù)字文化資源整合領域的資源來自于圖書館、博物館、檔案館、美術館及藝術館等公共文化機構,這些機構的內容特色、服務對象、服務形式和管理方式各不相同,因此不同的機構大多擁有不同的元數(shù)據(jù)標準,甚至同一機構的不同數(shù)據(jù)庫間元數(shù)據(jù)標準也存在差異,機構間的資源整合面臨著諸多挑戰(zhàn)。

        異構性是公共數(shù)字文化資源最顯著的特點,具體表現(xiàn)在以下幾個方面:①來源機構異構。這些數(shù)字資源來源于不同文化機構的不同部門,部分資源是文化機構自建所得,也有部分資源來自于文化機構所購買的商業(yè)數(shù)據(jù)庫。②數(shù)據(jù)庫模式異構。數(shù)據(jù)庫模式種類眾多,常見的有關系型數(shù)據(jù)庫、面向對象型數(shù)據(jù)庫、網(wǎng)絡型數(shù)據(jù)庫等,不同模式數(shù)據(jù)庫間的互操作較為困難。③元數(shù)據(jù)標準異構。各文化機構所采用的元數(shù)據(jù)標準本身各有差異,在面對具體資源的描述時文化機構往往會考慮資源的類型和內容,在現(xiàn)有元數(shù)據(jù)標準的基礎上根據(jù)本機構的實際情況加以調整。④資源獲取方式異構。各數(shù)據(jù)庫所支持的協(xié)議也有所差別,多數(shù)數(shù)據(jù)庫支持用戶采用HTTP協(xié)議訪問數(shù)據(jù)庫資源,部分文化機構支持Z39.50協(xié)議、OAI-PMH元數(shù)據(jù)收割協(xié)議等。

        分散性是公共數(shù)字文化資源的又一特點。首先是文化資源的管理相對分散。各文化機構由于社會職能不同而具有不同的核心價值觀和組織文化,數(shù)字資源的管理理念存在很大差異,如圖書館旨在最大限度地利用本館數(shù)字資源突破時間和空間限制,滿足用戶的信息需求,而檔案館則是通過資源數(shù)字化來打破存儲空間的限制,實現(xiàn)檔案和史料資源的長期保存,較少關注用戶對數(shù)字資源的利用。其次是文化資源的存儲較為分散。各文化機構通過本館館藏數(shù)字化、購買商業(yè)數(shù)據(jù)庫、收集整合互聯(lián)網(wǎng)資源等方式來建設本機構的數(shù)字資源,這就使得資源的存儲相對分散,不利于信息資源的共享。此外,公共數(shù)字文化資源還具有數(shù)量巨大、種類繁多、更新速度較快等特點。在進行公共數(shù)字文化資源整合時必須充分考慮這些特點,保證資源整合系統(tǒng)的運行效率。

        3.2 公共數(shù)字文化資源的元數(shù)據(jù)標準

        公共文化機構根據(jù)自身資源特點確立本機構的資源描述標準和組織體系,不同類型的機構間甚至同一類型的不同機構間在資源描述及元數(shù)據(jù)標準選擇上都存在著較大差異。表1列出了部分文化機構常用的元數(shù)據(jù)標準及其用途。[8]

        表1 部分公共文化機構常用的元數(shù)據(jù)標準及其用途

        由表1可知,以圖書館、博物館和檔案館為代表的公共文化機構在長期發(fā)展中形成了眾多用途各異的元數(shù)據(jù)標準,如何解決現(xiàn)有數(shù)字資源元數(shù)據(jù)標準不統(tǒng)一問題成為了公共數(shù)字文化資源整合需要面對的重要難題?;谠獢?shù)據(jù)倉儲的數(shù)字資源整合方式通過建設數(shù)據(jù)倉儲存儲不同來源的元數(shù)據(jù)信息,消除異構數(shù)據(jù)差異,是實現(xiàn)公共數(shù)字文化資源整合的有效途徑。

        4 元數(shù)據(jù)倉儲技術在公共數(shù)字文化資源整合領域的實現(xiàn)

        4.1 基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合框架

        信息孤島的存在嚴重影響了文化機構現(xiàn)有資源的利用率,資源整合能夠將分布在各數(shù)據(jù)庫的文化資源按照一定的規(guī)則組織起來提供再利用,通過對資源進行深度鏈接來實現(xiàn)知識挖掘,提升公共文化服務水平。公共數(shù)字文化資源整合的總體目標是實現(xiàn)不同來源、形式、具有不同物理或邏輯特征的異構資源的有機整合,消除各類資源間差異,實現(xiàn)公共文化機構間數(shù)字資源的可視化和共享。[9]具體目標包括為用戶提供統(tǒng)一的資源檢索入口和檢索結果顯示、確保數(shù)據(jù)庫之間既各自獨立又相互聯(lián)系、保證整合平臺中的資源實時更新等。基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合框架及其體系結構如圖1所示。

        圖1 基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合框架

        圖2 基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合基本流程

        基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合的基本流程(如圖2所示):首先對不同機構的文化資源進行元數(shù)據(jù)采集,然后利用數(shù)據(jù)抽取技術對采集好的元數(shù)據(jù)進行抽取和規(guī)范化處理,再利用數(shù)據(jù)轉換技術消除異構資源間的差異,將處理好的元數(shù)據(jù)信息裝載到元數(shù)據(jù)倉儲中,當用戶在資源檢索平臺發(fā)出檢索請求時,由平臺將檢索請求傳遞給元數(shù)據(jù)倉儲,元數(shù)據(jù)倉儲將檢索結果返回給用戶,最終用戶通過元數(shù)據(jù)提供的相關鏈接從原數(shù)據(jù)庫中獲取資源。

        4.2 公共數(shù)字文化資源整合框架的體系結構

        4.2.1 數(shù)據(jù)層

        數(shù)據(jù)層是文化資源整合系統(tǒng)的基礎,它一方面負責實現(xiàn)本地數(shù)字資源的保存,另一方面響應用戶的資源獲取請求并將滿足用戶需求的資源傳遞給用戶。首先,數(shù)據(jù)層由分布在不同文化機構的多個異構數(shù)據(jù)庫構成,而公共數(shù)字文化資源整合所涉及的機構數(shù)量較多、范圍廣泛、學科類別多樣,因此數(shù)據(jù)層的資源內容形式各不相同,資源質量也有所不同。其次,元數(shù)據(jù)倉儲存儲的是來自數(shù)據(jù)庫的元數(shù)據(jù)資源而不是資源內容本身,當用戶發(fā)出資源獲取請求時,數(shù)據(jù)庫需要及時做出響應將資源內容傳遞給用戶,該動作主要由OpenURL鏈接完成。OpenURL鏈接通過帶有元數(shù)據(jù)信息和資源地址信息的URL,解決資源整合平臺中的元數(shù)據(jù)描述到原數(shù)據(jù)庫中的資源定位的問題。[10]其具體原理是當用戶發(fā)出資源傳遞請求,鏈接服務器便啟動,在不同數(shù)據(jù)庫中檢索該資源標識符的有關信息,檢索完成后在資源整合平臺上顯示一個OpenURL鏈接,以幫助用戶完成對資源的獲取。這種方式的優(yōu)點在于資源內容的變動不會影響到資源的URL,減輕了資源整合系統(tǒng)的維護負擔,提高了系統(tǒng)的穩(wěn)定性。

        4.2.2 元數(shù)據(jù)倉儲層

        元數(shù)據(jù)倉儲層反映了元數(shù)據(jù)從采集到裝載的過程,是公共數(shù)字文化資源整合的關鍵環(huán)節(jié)。要建立元數(shù)據(jù)倉儲,首先要進行元數(shù)據(jù)采集。根據(jù)資源結構的特點采用相應的資源采集方式是保證采集質量和效率的前提,公共文化機構經(jīng)常采用ODBC/JDBC接口、OAIPMH協(xié)議、Z39.50資源適配器等方式進行元數(shù)據(jù)采集。使用頻率最高的是OAI-PMH協(xié)議,憑借其簡單性、易用性和多元化等特點在數(shù)字資源整合領域中備受青睞。OAI-PMH協(xié)議最初被應用于學術信息資源的共享,隨后逐步推廣到多個信息資源整合領域。采用OAI-PMH元數(shù)據(jù)收割協(xié)議能夠實現(xiàn)異構數(shù)據(jù)間的互操作,使資源檢索和獲取不再受到元數(shù)據(jù)標準、操作系統(tǒng)、學科領域和語言等的限制,實現(xiàn)資源共享。[11]采用該協(xié)議進行元數(shù)據(jù)采集時需要指定對象提供支持該協(xié)議的收割接口,但公共文化機構在這方面投入較少尚不能提供支持服務,而部分商業(yè)數(shù)據(jù)庫基于自身利益考量不愿提供相應接口,要實現(xiàn)對分布數(shù)據(jù)庫資源的元數(shù)據(jù)收割還需要各文化機構的共同努力。

        ETL是數(shù)據(jù)抽取(Extract)、轉換(Transform)和裝載(Load)的統(tǒng)稱。數(shù)據(jù)抽取即統(tǒng)一抽取不同數(shù)據(jù)庫資源的元數(shù)據(jù)的過程,系統(tǒng)通過預先定義好的抽取規(guī)則來定義目標數(shù)據(jù)、抽取內容、數(shù)據(jù)構成及抽取方式等進而實現(xiàn)元數(shù)據(jù)抽取。該過程過濾了多余的內容信息,實現(xiàn)了元數(shù)據(jù)格式轉換,為元數(shù)據(jù)倉儲的建立奠定了基礎。數(shù)據(jù)轉換通常包括轉換和清洗兩個步驟,數(shù)據(jù)轉換主要解決由于數(shù)據(jù)結構不一致、定義不規(guī)范等原因造成的數(shù)據(jù)不一致問題,使異構元數(shù)據(jù)形式統(tǒng)一;數(shù)據(jù)清洗工作則主要解決數(shù)據(jù)冗余問題和元數(shù)據(jù)信息缺失問題,形成同構的、完整的元數(shù)據(jù)集合。數(shù)據(jù)裝載是指把經(jīng)過轉換和清洗的元數(shù)據(jù)信息裝載到元數(shù)據(jù)倉儲中的過程。數(shù)據(jù)裝載主要有兩種技術:一是利用數(shù)據(jù)庫商提供的專業(yè)工具進行裝載,如Oracle數(shù)據(jù)庫提供專業(yè)工具包,幫助用戶實現(xiàn)數(shù)據(jù)遷移,二是利用數(shù)據(jù)庫商提供的應用程序接口(API)來完成數(shù)據(jù)裝載工作。

        元數(shù)據(jù)倉儲負責管理和存儲元數(shù)據(jù)信息,使用戶能夠流暢地瀏覽、檢索、獲取所需資源,最終實現(xiàn)資源整合目標。[12]元數(shù)據(jù)倉儲中存儲的元數(shù)據(jù)經(jīng)過專業(yè)的分類和組織,不僅能夠及時滿足用戶的檢索需求,還能夠為用戶提供深層次的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)服務,為公共數(shù)字文化服務平臺的建設提供新思路。

        4.2.3 應用層

        應用層是公共數(shù)字文化資源整合成果的具體表現(xiàn),通過建立資源整合平臺來實現(xiàn)資源導航、資源檢索、資源獲取和個性化服務等功能,使用戶在統(tǒng)一的界面上對不同公共文化機構間的數(shù)字資源進行統(tǒng)一檢索、瀏覽和利用。該平臺應具備的功能需求及其描述如表2所示。

        表2 公共數(shù)字文化資源整合平臺的功能需求

        5 元數(shù)據(jù)倉儲在公共數(shù)字文化資源整合中的應用前景

        5.1 元數(shù)據(jù)倉儲的應用

        數(shù)據(jù)倉儲這一概念由來已久并且被廣泛應用于各個領域中。在生物醫(yī)療領域,科研人員往往需要通過組織和查詢大量異構實驗信息來推導科學結論,為此有學者提出使用SB-KOM(System Biology Khaos Ontology -based Mediator)系統(tǒng)完成對實驗數(shù)據(jù)的抽取并存儲在本地數(shù)據(jù)倉儲“PseudomonasDW”中保持數(shù)據(jù)一致性,為科學分析奠定基礎。[13]美國梅約診所建立了數(shù)據(jù)倉儲“Mayo Clinc’s Enterprise Data Trust”,存儲診所運營過程中所產(chǎn)生的數(shù)據(jù)以支持診所的日常工作及決策制定。[14]該系統(tǒng)由信息管理、數(shù)據(jù)建模、詞匯系統(tǒng)以及元數(shù)據(jù)管理等部分構成,旨在通過整合現(xiàn)有數(shù)據(jù)資源實現(xiàn)診療數(shù)據(jù)深度開發(fā),為診斷提供真實可靠的數(shù)據(jù)支持,值得一提的是該系統(tǒng)還相當重視對病人隱私信息的保護,取得了較好的效果,是在該領域資源整合的代表項目之一。在商業(yè)科技領域,諸如微軟、IBM等大公司近年來也逐步開始關注資源整合中數(shù)據(jù)倉儲的建設問題。IBM一直十分關注數(shù)字資源整合領域的研究進展,曾發(fā)表白皮書探討大數(shù)據(jù)環(huán)境下的數(shù)據(jù)倉儲建設及資源整合問題,指出應當構建基于可信信息的數(shù)據(jù)倉儲并將數(shù)字資源轉換為統(tǒng)一格式存儲,完成資源整合以支持企業(yè)決策。[15]元數(shù)據(jù)倉儲是在數(shù)據(jù)倉儲的理念上提出,在資源整合領域逐步受到關注。

        基于元數(shù)據(jù)倉儲的數(shù)字資源整合方式相較于其它方式有顯著的特點,在公共數(shù)字文化資源整合領域有良好的應用前景,它的出現(xiàn)將為該領域帶來新的變化:

        首先,通過建立元數(shù)據(jù)倉儲將異構資源的元數(shù)據(jù)信息統(tǒng)一存儲,在減輕各文化機構資源維護負擔的同時還有效提高了用戶的檢索效率。隨著數(shù)字資源數(shù)量劇增,采用傳統(tǒng)數(shù)據(jù)倉儲的方式存儲所有文化機構的資源已經(jīng)難以實現(xiàn),公共文化機構開始探索新的資源整合方式,元數(shù)據(jù)倉儲應運而生。通過建立一套完整的元數(shù)據(jù)選擇標準作為范式,將數(shù)字資源的元數(shù)據(jù)信息抽取出來存儲在數(shù)據(jù)倉儲中,供用戶統(tǒng)一瀏覽和查詢。由于資源信息被集中存儲,該方式能夠有效地縮短用戶獲得檢索結果所需時長,且對網(wǎng)絡環(huán)境的依賴程度相對較低,不會受各機構數(shù)據(jù)庫本身狀態(tài)的限制,能夠保證資源整合平臺的流暢性,提高用戶使用體驗。

        其次,元數(shù)據(jù)倉儲經(jīng)過元數(shù)據(jù)采集、抽取、轉換、清洗和裝載工作完成了對文化資源的標準化描述,對不同形式的文化資源進行了很好的聚類,有利于文化資源的深層次開發(fā)。知識挖掘服務近年來逐步受到公共文化機構的關注,將機構自身所存儲的海量數(shù)字文化資源轉換為用戶需要的信息是公共文化機構的使命之一,也是公共數(shù)字文化資源整合的最終目標。盡管現(xiàn)有資源整合平臺大多仍停留在初級階段,其現(xiàn)階段的研究重點是如何為來自不同機構類型各異的資源構建整合平臺從而為用戶提供一站式服務,尚未開展有效的知識發(fā)掘服務,但元數(shù)據(jù)倉儲為該服務奠定了基礎。元數(shù)據(jù)倉儲中匯集了不同機構數(shù)字資源的元數(shù)據(jù)信息,可以預見的是,公共數(shù)字文化資源整合在未來將會更多地關注于資源的深度整合,致力于提供包括機構資源庫、主題資源庫、資源訂制及推送服務在內的多項知識挖掘服務,實現(xiàn)數(shù)字資源的深層次整合與無縫鏈接。

        5.2 元數(shù)據(jù)倉儲存在的問題及對策

        基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合盡管存在上述優(yōu)勢,但也不可避免地有著相應的問題,具體表現(xiàn)及解決對策如下:

        第一,資源更新不及時,整合平臺尚未完全實現(xiàn)自動化。元數(shù)據(jù)倉儲是經(jīng)過元數(shù)據(jù)采集、抽取、轉換、清洗和裝載完成對資源的標準化描述而建成,其建設初期需要分別采集各機構的文化資源,在后期維護中也要時刻關注各機構資源更新情況。這就容易導致信息資源更新不及時的問題,各數(shù)據(jù)庫同資源整合平臺的資源列表間存在一定的時滯。這就要求資源整合平臺內置有效的響應機制能夠定期對各數(shù)據(jù)庫資源更新情況進行檢查,及時更新元數(shù)據(jù)信息,保證用戶能夠及時獲取最新最準確的資源信息。此外,基于元數(shù)據(jù)倉儲的資源整合平臺往往對人工操作的依賴程度較高,不能完全實現(xiàn)自動化。由于各公共文化機構在社會職能、機構文化乃至資源描述標準方面都存在較大差異,因而進行元數(shù)據(jù)信息采集和抽取時往往需要人工輔助完成,以最大程度保障數(shù)據(jù)的統(tǒng)一性和規(guī)范性。因此,在元數(shù)據(jù)倉儲建設的初始階段就必須充分考慮各機構資源的具體情況,在抽取及轉換環(huán)節(jié)中要不斷優(yōu)化算法以提高自動化程度,節(jié)約資源整合過程中的人力成本,提高資源整合平臺的運行效率。

        第二,元數(shù)據(jù)采集難度高,資源描述標準較難統(tǒng)一。元數(shù)據(jù)采集首先需要獲得各文化機構及數(shù)據(jù)庫商的許可,其次要針對不同的數(shù)據(jù)庫選擇不同的資源采集方式,常見的有ODBC/JDBC接口、OAI-PMH協(xié)議、Z39.50資源適配器等等。公共文化機構在公共數(shù)字文化資源整合中應當建立有效的元數(shù)據(jù)倉儲建設機制,尋找各機構及其數(shù)據(jù)庫間的共同點,調動文化機構的積極性,加強機構間的合作,積極尋求同數(shù)據(jù)庫商、出版社的合作,為元數(shù)據(jù)采集創(chuàng)造條件,確保元數(shù)據(jù)倉儲的持續(xù)發(fā)展。元數(shù)據(jù)描述標準不統(tǒng)一是公共數(shù)字文化資源整合的障礙之一,其具體表現(xiàn)包括:相同資源在不同數(shù)據(jù)庫有不同的名稱、相同字段在不同數(shù)據(jù)庫中表示不同內容、不同字段有語義交叉、DC元數(shù)據(jù)與MARC的映射問題和參考標準不一致等,這些都是元數(shù)據(jù)倉儲建設中亟待解決的問題。[16]在元數(shù)據(jù)倉儲的建設中,各文化機構還應該不斷加強元數(shù)據(jù)互操作研究,實現(xiàn)對不同標準的元數(shù)據(jù)的訪問和存儲,致力于異構數(shù)據(jù)的整合研究,消除數(shù)據(jù)結構差異,早日實現(xiàn)公共數(shù)字文化資源整合的目標。

        (來稿時間:2015年6月)

        參考文獻:

        1. Chen Z, Wu D, Lu J, et al. Metadata-based Information Resource Integration for Research Management. Procedia Computer Science, 2013:54-61

        2.史超.電子政務信息資源整合方案與框架研究. 西安:西安電子科技大學碩士論文, 2009

        3. Alon Y. Halevy. Theory of Answering Queries Using Views. SIGMOD Record. 2000, 29(4):40-47

        4.王靜,閻雅娜. OAIster——開放存取數(shù)字資源的一站式檢索平臺. 圖書館雜志, 2009(5):23-26

        5.李鵬云. 基于元數(shù)據(jù)倉儲的圖書館數(shù)據(jù)整合實踐——以國家圖書館“文津搜索”項目為例. 圖書館學刊, 2013 (8):46-49

        6. Trujillo J, Palomar M, Gomez J, Song IY. Designing Data Warehouses with OO Conceptual Models. IEEE Computer Society 2001, 34(12):66-75

        7.胡開勝. 基于WEB元數(shù)據(jù)抽取的ETL資源整合模型研究與實現(xiàn). 長沙:湖南師范大學碩士論文, 2010

        8. Digitisation:Standards landscape for European museums, archives, libraries.[2015-01-08].http://www.athenaeurope.org/ index.php?en/112/news/20/athena-booklet-digitisation-standardslandscape-for-european-museums-archives-libraries

        9. Bernstein PA, Haas LM. Information integration in the enterprise. Communications of the ACM; 2008:170-177

        10.王洪軍等. 基于元數(shù)據(jù)倉儲與動態(tài)鏈接的圖書館資源整合系統(tǒng)的整合與實現(xiàn). 中華醫(yī)學圖書情報雜志, 2011(10):65-67

        11.衛(wèi)軍朝. 山西高校科技文獻平臺異構數(shù)據(jù)整合研究.太原:山西大學碩士論文, 2009

        12.彭澤華. 數(shù)字資源整合技術在數(shù)字圖書館建設中的應用. 信息通信, 2007(5):9-12

        13. K. Marrakchi, A. Briache, A. Kerzazi, et al. A Data Warehouse Approach to Semantic Integration of Pseudomonas Data. Data Integration in the Life Sciences,2010, 6254:90-105

        14. CG C, SA B, TB F, et al. The Enterprise Data Trust at Mayo Clinic:a semantically integrated warehouse of biomedical data. J Am Med Inform Assoc., 2010, 17(2):131-135

        15. Delivering trusted information for the modern data warehouse. [2015-03-27]. http://www.bitpipe.com/detail/RES/1412192840_737. html

        16. 梁蕙瑋, 薩蕾. 數(shù)字圖書館推廣工程面向數(shù)字資源整合的元數(shù)據(jù)倉儲構建. 國家圖書館學刊, 2012(5)

        〔分類號〕G250

        〔作者簡介〕肖希明(1955-),男,武漢大學信息管理學院教授,博士生導師;劉巧園(1992-),女,武漢大學信息管理學院碩士研究生。

        *本文系國家社會科學基金重點項目“公共數(shù)字文化服務中的資源整合研究”(批準號:13ATQ001)研究成果之一。

        Public Digital Cultural Resources Integration Based on Metadata Repository

        Xiao Ximing Liu Qiaoyuan
        ( School of Information Management of Wuhan University )

        〔Abstract 〕The paper introduces the basic connotations of metadata repository and the way of resources integration based on metadata repository , and points out the features, such as heterogeneity and dispersibility, of public digital cultural resources and metadata standards. The paper also discusses the implement of metadata repository technology in the public digital cultural resources integration, and builds the framework of resources integration based on metadata repository and then analyzes the application prospect of metadata repository in public digital cultural resources integration, and points out its possible problems and countermeasures.

        〔Keywords〕Public digital cultural resources Digital resources integration Metadata repository

        老太婆性杂交视频| 国产一区二区丁香婷婷| 青青草视频网站免费看| 亚洲人不卡另类日韩精品| 18禁无遮拦无码国产在线播放| 免费国产黄网站在线观看| 一级片麻豆| 国产一区二区三区乱码在线| 一区二区三区视频在线观看免费| 人人妻人人爽人人澡欧美一区| 97se在线| 狼人av在线免费观看| 黄色av亚洲在线观看| 国产肥熟女视频一区二区三区| 免费99视频| 亚洲av第二区国产精品| 精品高朝久久久久9999| 久久精品国产亚洲av大全| 日韩熟妇精品视频一区二区| 日本在线一区二区免费| 色88久久久久高潮综合影院| 欧美性xxxx狂欢老少配 | 亚洲免费女女在线视频网站| 亚洲国产精品一区二区www| 国产精品亚洲欧美云霸高清| 成av人片一区二区三区久久| 亚洲av久播在线一区二区| 大肉大捧一进一出视频出来呀| 久热香蕉av在线爽青青| 亚洲一本二区偷拍精品| 99热在线观看| y111111少妇影院无码| 韩国免费一级a一片在线| 男女视频在线观看一区| 中日韩精品视频在线观看| 国产精彩刺激对白视频| 亚洲色图专区在线观看| 国产精品美女久久久久久| 日韩永久免费无码AV电影| 女女同性av一区二区三区| 内射干少妇亚洲69xxx|