肖希明 劉巧園(武漢大學(xué)信息管理學(xué)院 武漢 430072)
基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合研究*
肖希明 劉巧園
(武漢大學(xué)信息管理學(xué)院 武漢 430072)
〔摘 要〕文章首先介紹了元數(shù)據(jù)倉儲技術(shù)及基于其的數(shù)字資源整合方式的基本內(nèi)涵,其次指出公共數(shù)字文化資源具有異構(gòu)性和分散性等特點(diǎn),并分析了其現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)。隨后探討了元數(shù)據(jù)倉儲技術(shù)在公共數(shù)字文化資源整合領(lǐng)域的實(shí)現(xiàn),構(gòu)建了基于元數(shù)據(jù)倉儲的資源整合框架及體系結(jié)構(gòu),最后分析了元數(shù)據(jù)倉儲在公共數(shù)字文化資源整合領(lǐng)域的應(yīng)用前景,并探討了其可能面臨的問題及解決對策。
〔關(guān)鍵詞〕公共數(shù)字文化資源 數(shù)字資源整合 元數(shù)據(jù)倉儲
公共文化機(jī)構(gòu)擁有類型多樣、質(zhì)量較高的文化資源,然而用戶在訪問和獲取公共文化機(jī)構(gòu)的實(shí)體資源時往往受到時間、空間等諸多因素的限制,這極大地影響了公共文化資源的利用率。近年來,公共文化機(jī)構(gòu)逐步開展館藏實(shí)體資源數(shù)字化工作,旨在建設(shè)完備的館藏資源體系,提高公共文化服務(wù)水平。隨著數(shù)字資源規(guī)模的不斷擴(kuò)大,不同主題不同形式的異構(gòu)資源存儲在不同文化機(jī)構(gòu)的不同數(shù)據(jù)庫中,使信息資源的管理和共享在一定程度上受到阻礙,信息孤島現(xiàn)象時有發(fā)生。[1]因此,進(jìn)行公共數(shù)字文化資源整合以最大限度利用現(xiàn)有資源,實(shí)現(xiàn)數(shù)字資源共建共享成為了公共文化機(jī)構(gòu)所面臨的重要課題之一。
常見的數(shù)字資源整合方式主要有模式集成和數(shù)據(jù)復(fù)制。[2]模式集成(Schema Integration)起步較早,是其它整合方式的基礎(chǔ)。模式集成是指在數(shù)字資源整合過程中將來源于不同數(shù)據(jù)庫的數(shù)據(jù)視圖集成為全局模式(Golobal Schema),以幫助用戶無限制地訪問各數(shù)據(jù)庫的數(shù)字資源。[3]而數(shù)據(jù)復(fù)制則是通過對各數(shù)據(jù)庫的異構(gòu)數(shù)據(jù)進(jìn)行復(fù)制以完成對數(shù)字資源的整合,為用戶提供一站式服務(wù),滿足用戶信息需求,提升用戶瀏覽和獲取信息資源的體驗(yàn),其代表方式是建立數(shù)據(jù)倉儲(Data Warehouse)。
資源整合方式的選擇直接影響著資源整合的成敗,對公共數(shù)字文化資源整合方式的研究已成為該領(lǐng)域面臨的重要課題。本文將重點(diǎn)分析基于元數(shù)據(jù)倉儲的數(shù)字資源整合方式及其在公共數(shù)字文化資源整合領(lǐng)域的實(shí)現(xiàn)方式,希望能為公共數(shù)字文化資源整合提供某些參考。
2.1 數(shù)據(jù)倉儲與元數(shù)據(jù)倉儲
數(shù)據(jù)復(fù)制是物理整合方式之一,即對各數(shù)據(jù)庫的資源進(jìn)行復(fù)制和轉(zhuǎn)換,統(tǒng)一存儲到數(shù)據(jù)倉儲中供用戶檢索、瀏覽和獲取。數(shù)據(jù)倉儲在資源整合過程中扮演著重要角色,將分散的、異構(gòu)的資源整合為集中的、同構(gòu)的資源為用戶提供一站式服務(wù)。在傳統(tǒng)的資源檢索中用戶需要分別登錄不同的數(shù)據(jù)庫,根據(jù)各數(shù)據(jù)庫的檢索規(guī)則構(gòu)建不同的檢索式來檢索所需的資源,而在數(shù)據(jù)倉儲中用戶只需要進(jìn)行一次身份驗(yàn)證便可以無障礙地檢索和獲取眾多數(shù)據(jù)庫中的資源,訪問效率和用戶體驗(yàn)大大提升。然而,構(gòu)建數(shù)據(jù)倉儲對本地存儲容量、資源獲取能力和更新維護(hù)效率要求較高,普通機(jī)構(gòu)由于自身人力、物力和財力有限很難完成數(shù)據(jù)倉儲的建立和維護(hù),因而元數(shù)據(jù)倉儲隨之產(chǎn)生。與數(shù)據(jù)倉儲不同,元數(shù)據(jù)倉儲不是直接將異構(gòu)數(shù)據(jù)庫中的資源內(nèi)容復(fù)制到倉儲中,而是將資源的元數(shù)據(jù)復(fù)制到倉儲中,從而有效減少了所占存儲空間,減輕了機(jī)構(gòu)的維護(hù)負(fù)擔(dān)。元數(shù)據(jù)倉儲目前在圖書館領(lǐng)域應(yīng)用較多,如美國密歇根大學(xué)數(shù)字圖書館建立的OAIster系統(tǒng)就是利用OAIPMH協(xié)議收割元數(shù)據(jù)并建立元數(shù)據(jù)倉儲。[4]我國高校圖書館間的CALIS系統(tǒng)也是采用構(gòu)建本地元數(shù)據(jù)倉儲的方式建設(shè)而成,為用戶提供異構(gòu)數(shù)據(jù)庫的資源檢索、獲取和文獻(xiàn)傳遞服務(wù)。[5]
2.2 基于元數(shù)據(jù)倉儲的數(shù)字資源整合方式
基于元數(shù)據(jù)倉儲的數(shù)字資源整合方式的基本原理是:通過在用戶和數(shù)據(jù)庫之間增加一個數(shù)據(jù)層以存儲來自數(shù)據(jù)庫的元數(shù)據(jù)信息并對用戶的檢索請求做出回應(yīng)將檢索結(jié)果返回至用戶界面[6],用戶通過元數(shù)據(jù)及其鏈接實(shí)現(xiàn)對資源的獲取。由于該方式?jīng)]有破壞數(shù)據(jù)庫本身的體系結(jié)構(gòu),原有的分布式數(shù)據(jù)庫仍然保持獨(dú)立,這使得它能夠同時在不同數(shù)據(jù)庫中進(jìn)行檢索,支持并發(fā)用戶的檢索請求,因此特別適用于大規(guī)模異構(gòu)資源的整合。該整合方式使得資源的瀏覽和檢索獨(dú)立于原數(shù)據(jù)庫,具有較強(qiáng)的穩(wěn)定性,資源獲取效率也得以提高。通過建立元數(shù)據(jù)倉儲可以實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的整合,為異構(gòu)數(shù)據(jù)的獲取和共享提供統(tǒng)一視圖,有效提高檢索效率。此外,由于元數(shù)據(jù)倉儲集成了來自不同數(shù)據(jù)庫的資源,在支持跨庫檢索的同時還能夠進(jìn)行高級檢索和二次檢索,為數(shù)據(jù)挖掘和知識發(fā)現(xiàn)服務(wù)奠定了基礎(chǔ)。[7]但是該整合方式在元數(shù)據(jù)獲取和維護(hù)方面也存在一定的困難。元數(shù)據(jù)的獲取對資源提供者的依賴程度較高,只有當(dāng)其提供數(shù)據(jù)接口和訪問許可時才能夠獲取元數(shù)據(jù)信息,但部分商業(yè)數(shù)據(jù)庫基于自身利益的考慮不愿提供接口供外部使用。而在元數(shù)據(jù)維護(hù)方面,元數(shù)據(jù)倉儲中的數(shù)據(jù)必須定期進(jìn)行更新才能夠?yàn)橛脩籼峁?shí)時的檢索結(jié)果,保證檢索的精確性。
3.1 公共數(shù)字文化資源的特點(diǎn)
公共數(shù)字文化資源整合領(lǐng)域的資源來自于圖書館、博物館、檔案館、美術(shù)館及藝術(shù)館等公共文化機(jī)構(gòu),這些機(jī)構(gòu)的內(nèi)容特色、服務(wù)對象、服務(wù)形式和管理方式各不相同,因此不同的機(jī)構(gòu)大多擁有不同的元數(shù)據(jù)標(biāo)準(zhǔn),甚至同一機(jī)構(gòu)的不同數(shù)據(jù)庫間元數(shù)據(jù)標(biāo)準(zhǔn)也存在差異,機(jī)構(gòu)間的資源整合面臨著諸多挑戰(zhàn)。
異構(gòu)性是公共數(shù)字文化資源最顯著的特點(diǎn),具體表現(xiàn)在以下幾個方面:①來源機(jī)構(gòu)異構(gòu)。這些數(shù)字資源來源于不同文化機(jī)構(gòu)的不同部門,部分資源是文化機(jī)構(gòu)自建所得,也有部分資源來自于文化機(jī)構(gòu)所購買的商業(yè)數(shù)據(jù)庫。②數(shù)據(jù)庫模式異構(gòu)。數(shù)據(jù)庫模式種類眾多,常見的有關(guān)系型數(shù)據(jù)庫、面向?qū)ο笮蛿?shù)據(jù)庫、網(wǎng)絡(luò)型數(shù)據(jù)庫等,不同模式數(shù)據(jù)庫間的互操作較為困難。③元數(shù)據(jù)標(biāo)準(zhǔn)異構(gòu)。各文化機(jī)構(gòu)所采用的元數(shù)據(jù)標(biāo)準(zhǔn)本身各有差異,在面對具體資源的描述時文化機(jī)構(gòu)往往會考慮資源的類型和內(nèi)容,在現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)上根據(jù)本機(jī)構(gòu)的實(shí)際情況加以調(diào)整。④資源獲取方式異構(gòu)。各數(shù)據(jù)庫所支持的協(xié)議也有所差別,多數(shù)數(shù)據(jù)庫支持用戶采用HTTP協(xié)議訪問數(shù)據(jù)庫資源,部分文化機(jī)構(gòu)支持Z39.50協(xié)議、OAI-PMH元數(shù)據(jù)收割協(xié)議等。
分散性是公共數(shù)字文化資源的又一特點(diǎn)。首先是文化資源的管理相對分散。各文化機(jī)構(gòu)由于社會職能不同而具有不同的核心價值觀和組織文化,數(shù)字資源的管理理念存在很大差異,如圖書館旨在最大限度地利用本館數(shù)字資源突破時間和空間限制,滿足用戶的信息需求,而檔案館則是通過資源數(shù)字化來打破存儲空間的限制,實(shí)現(xiàn)檔案和史料資源的長期保存,較少關(guān)注用戶對數(shù)字資源的利用。其次是文化資源的存儲較為分散。各文化機(jī)構(gòu)通過本館館藏數(shù)字化、購買商業(yè)數(shù)據(jù)庫、收集整合互聯(lián)網(wǎng)資源等方式來建設(shè)本機(jī)構(gòu)的數(shù)字資源,這就使得資源的存儲相對分散,不利于信息資源的共享。此外,公共數(shù)字文化資源還具有數(shù)量巨大、種類繁多、更新速度較快等特點(diǎn)。在進(jìn)行公共數(shù)字文化資源整合時必須充分考慮這些特點(diǎn),保證資源整合系統(tǒng)的運(yùn)行效率。
3.2 公共數(shù)字文化資源的元數(shù)據(jù)標(biāo)準(zhǔn)
公共文化機(jī)構(gòu)根據(jù)自身資源特點(diǎn)確立本機(jī)構(gòu)的資源描述標(biāo)準(zhǔn)和組織體系,不同類型的機(jī)構(gòu)間甚至同一類型的不同機(jī)構(gòu)間在資源描述及元數(shù)據(jù)標(biāo)準(zhǔn)選擇上都存在著較大差異。表1列出了部分文化機(jī)構(gòu)常用的元數(shù)據(jù)標(biāo)準(zhǔn)及其用途。[8]
表1 部分公共文化機(jī)構(gòu)常用的元數(shù)據(jù)標(biāo)準(zhǔn)及其用途
由表1可知,以圖書館、博物館和檔案館為代表的公共文化機(jī)構(gòu)在長期發(fā)展中形成了眾多用途各異的元數(shù)據(jù)標(biāo)準(zhǔn),如何解決現(xiàn)有數(shù)字資源元數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一問題成為了公共數(shù)字文化資源整合需要面對的重要難題。基于元數(shù)據(jù)倉儲的數(shù)字資源整合方式通過建設(shè)數(shù)據(jù)倉儲存儲不同來源的元數(shù)據(jù)信息,消除異構(gòu)數(shù)據(jù)差異,是實(shí)現(xiàn)公共數(shù)字文化資源整合的有效途徑。
4.1 基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合框架
信息孤島的存在嚴(yán)重影響了文化機(jī)構(gòu)現(xiàn)有資源的利用率,資源整合能夠?qū)⒎植荚诟鲾?shù)據(jù)庫的文化資源按照一定的規(guī)則組織起來提供再利用,通過對資源進(jìn)行深度鏈接來實(shí)現(xiàn)知識挖掘,提升公共文化服務(wù)水平。公共數(shù)字文化資源整合的總體目標(biāo)是實(shí)現(xiàn)不同來源、形式、具有不同物理或邏輯特征的異構(gòu)資源的有機(jī)整合,消除各類資源間差異,實(shí)現(xiàn)公共文化機(jī)構(gòu)間數(shù)字資源的可視化和共享。[9]具體目標(biāo)包括為用戶提供統(tǒng)一的資源檢索入口和檢索結(jié)果顯示、確保數(shù)據(jù)庫之間既各自獨(dú)立又相互聯(lián)系、保證整合平臺中的資源實(shí)時更新等?;谠獢?shù)據(jù)倉儲的公共數(shù)字文化資源整合框架及其體系結(jié)構(gòu)如圖1所示。
圖1 基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合框架
圖2 基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合基本流程
基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合的基本流程(如圖2所示):首先對不同機(jī)構(gòu)的文化資源進(jìn)行元數(shù)據(jù)采集,然后利用數(shù)據(jù)抽取技術(shù)對采集好的元數(shù)據(jù)進(jìn)行抽取和規(guī)范化處理,再利用數(shù)據(jù)轉(zhuǎn)換技術(shù)消除異構(gòu)資源間的差異,將處理好的元數(shù)據(jù)信息裝載到元數(shù)據(jù)倉儲中,當(dāng)用戶在資源檢索平臺發(fā)出檢索請求時,由平臺將檢索請求傳遞給元數(shù)據(jù)倉儲,元數(shù)據(jù)倉儲將檢索結(jié)果返回給用戶,最終用戶通過元數(shù)據(jù)提供的相關(guān)鏈接從原數(shù)據(jù)庫中獲取資源。
4.2 公共數(shù)字文化資源整合框架的體系結(jié)構(gòu)
4.2.1 數(shù)據(jù)層
數(shù)據(jù)層是文化資源整合系統(tǒng)的基礎(chǔ),它一方面負(fù)責(zé)實(shí)現(xiàn)本地數(shù)字資源的保存,另一方面響應(yīng)用戶的資源獲取請求并將滿足用戶需求的資源傳遞給用戶。首先,數(shù)據(jù)層由分布在不同文化機(jī)構(gòu)的多個異構(gòu)數(shù)據(jù)庫構(gòu)成,而公共數(shù)字文化資源整合所涉及的機(jī)構(gòu)數(shù)量較多、范圍廣泛、學(xué)科類別多樣,因此數(shù)據(jù)層的資源內(nèi)容形式各不相同,資源質(zhì)量也有所不同。其次,元數(shù)據(jù)倉儲存儲的是來自數(shù)據(jù)庫的元數(shù)據(jù)資源而不是資源內(nèi)容本身,當(dāng)用戶發(fā)出資源獲取請求時,數(shù)據(jù)庫需要及時做出響應(yīng)將資源內(nèi)容傳遞給用戶,該動作主要由OpenURL鏈接完成。OpenURL鏈接通過帶有元數(shù)據(jù)信息和資源地址信息的URL,解決資源整合平臺中的元數(shù)據(jù)描述到原數(shù)據(jù)庫中的資源定位的問題。[10]其具體原理是當(dāng)用戶發(fā)出資源傳遞請求,鏈接服務(wù)器便啟動,在不同數(shù)據(jù)庫中檢索該資源標(biāo)識符的有關(guān)信息,檢索完成后在資源整合平臺上顯示一個OpenURL鏈接,以幫助用戶完成對資源的獲取。這種方式的優(yōu)點(diǎn)在于資源內(nèi)容的變動不會影響到資源的URL,減輕了資源整合系統(tǒng)的維護(hù)負(fù)擔(dān),提高了系統(tǒng)的穩(wěn)定性。
4.2.2 元數(shù)據(jù)倉儲層
元數(shù)據(jù)倉儲層反映了元數(shù)據(jù)從采集到裝載的過程,是公共數(shù)字文化資源整合的關(guān)鍵環(huán)節(jié)。要建立元數(shù)據(jù)倉儲,首先要進(jìn)行元數(shù)據(jù)采集。根據(jù)資源結(jié)構(gòu)的特點(diǎn)采用相應(yīng)的資源采集方式是保證采集質(zhì)量和效率的前提,公共文化機(jī)構(gòu)經(jīng)常采用ODBC/JDBC接口、OAIPMH協(xié)議、Z39.50資源適配器等方式進(jìn)行元數(shù)據(jù)采集。使用頻率最高的是OAI-PMH協(xié)議,憑借其簡單性、易用性和多元化等特點(diǎn)在數(shù)字資源整合領(lǐng)域中備受青睞。OAI-PMH協(xié)議最初被應(yīng)用于學(xué)術(shù)信息資源的共享,隨后逐步推廣到多個信息資源整合領(lǐng)域。采用OAI-PMH元數(shù)據(jù)收割協(xié)議能夠?qū)崿F(xiàn)異構(gòu)數(shù)據(jù)間的互操作,使資源檢索和獲取不再受到元數(shù)據(jù)標(biāo)準(zhǔn)、操作系統(tǒng)、學(xué)科領(lǐng)域和語言等的限制,實(shí)現(xiàn)資源共享。[11]采用該協(xié)議進(jìn)行元數(shù)據(jù)采集時需要指定對象提供支持該協(xié)議的收割接口,但公共文化機(jī)構(gòu)在這方面投入較少尚不能提供支持服務(wù),而部分商業(yè)數(shù)據(jù)庫基于自身利益考量不愿提供相應(yīng)接口,要實(shí)現(xiàn)對分布數(shù)據(jù)庫資源的元數(shù)據(jù)收割還需要各文化機(jī)構(gòu)的共同努力。
ETL是數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)和裝載(Load)的統(tǒng)稱。數(shù)據(jù)抽取即統(tǒng)一抽取不同數(shù)據(jù)庫資源的元數(shù)據(jù)的過程,系統(tǒng)通過預(yù)先定義好的抽取規(guī)則來定義目標(biāo)數(shù)據(jù)、抽取內(nèi)容、數(shù)據(jù)構(gòu)成及抽取方式等進(jìn)而實(shí)現(xiàn)元數(shù)據(jù)抽取。該過程過濾了多余的內(nèi)容信息,實(shí)現(xiàn)了元數(shù)據(jù)格式轉(zhuǎn)換,為元數(shù)據(jù)倉儲的建立奠定了基礎(chǔ)。數(shù)據(jù)轉(zhuǎn)換通常包括轉(zhuǎn)換和清洗兩個步驟,數(shù)據(jù)轉(zhuǎn)換主要解決由于數(shù)據(jù)結(jié)構(gòu)不一致、定義不規(guī)范等原因造成的數(shù)據(jù)不一致問題,使異構(gòu)元數(shù)據(jù)形式統(tǒng)一;數(shù)據(jù)清洗工作則主要解決數(shù)據(jù)冗余問題和元數(shù)據(jù)信息缺失問題,形成同構(gòu)的、完整的元數(shù)據(jù)集合。數(shù)據(jù)裝載是指把經(jīng)過轉(zhuǎn)換和清洗的元數(shù)據(jù)信息裝載到元數(shù)據(jù)倉儲中的過程。數(shù)據(jù)裝載主要有兩種技術(shù):一是利用數(shù)據(jù)庫商提供的專業(yè)工具進(jìn)行裝載,如Oracle數(shù)據(jù)庫提供專業(yè)工具包,幫助用戶實(shí)現(xiàn)數(shù)據(jù)遷移,二是利用數(shù)據(jù)庫商提供的應(yīng)用程序接口(API)來完成數(shù)據(jù)裝載工作。
元數(shù)據(jù)倉儲負(fù)責(zé)管理和存儲元數(shù)據(jù)信息,使用戶能夠流暢地瀏覽、檢索、獲取所需資源,最終實(shí)現(xiàn)資源整合目標(biāo)。[12]元數(shù)據(jù)倉儲中存儲的元數(shù)據(jù)經(jīng)過專業(yè)的分類和組織,不僅能夠及時滿足用戶的檢索需求,還能夠?yàn)橛脩籼峁┥顚哟蔚臄?shù)據(jù)挖掘和知識發(fā)現(xiàn)服務(wù),為公共數(shù)字文化服務(wù)平臺的建設(shè)提供新思路。
4.2.3 應(yīng)用層
應(yīng)用層是公共數(shù)字文化資源整合成果的具體表現(xiàn),通過建立資源整合平臺來實(shí)現(xiàn)資源導(dǎo)航、資源檢索、資源獲取和個性化服務(wù)等功能,使用戶在統(tǒng)一的界面上對不同公共文化機(jī)構(gòu)間的數(shù)字資源進(jìn)行統(tǒng)一檢索、瀏覽和利用。該平臺應(yīng)具備的功能需求及其描述如表2所示。
表2 公共數(shù)字文化資源整合平臺的功能需求
5.1 元數(shù)據(jù)倉儲的應(yīng)用
數(shù)據(jù)倉儲這一概念由來已久并且被廣泛應(yīng)用于各個領(lǐng)域中。在生物醫(yī)療領(lǐng)域,科研人員往往需要通過組織和查詢大量異構(gòu)實(shí)驗(yàn)信息來推導(dǎo)科學(xué)結(jié)論,為此有學(xué)者提出使用SB-KOM(System Biology Khaos Ontology -based Mediator)系統(tǒng)完成對實(shí)驗(yàn)數(shù)據(jù)的抽取并存儲在本地數(shù)據(jù)倉儲“PseudomonasDW”中保持?jǐn)?shù)據(jù)一致性,為科學(xué)分析奠定基礎(chǔ)。[13]美國梅約診所建立了數(shù)據(jù)倉儲“Mayo Clinc’s Enterprise Data Trust”,存儲診所運(yùn)營過程中所產(chǎn)生的數(shù)據(jù)以支持診所的日常工作及決策制定。[14]該系統(tǒng)由信息管理、數(shù)據(jù)建模、詞匯系統(tǒng)以及元數(shù)據(jù)管理等部分構(gòu)成,旨在通過整合現(xiàn)有數(shù)據(jù)資源實(shí)現(xiàn)診療數(shù)據(jù)深度開發(fā),為診斷提供真實(shí)可靠的數(shù)據(jù)支持,值得一提的是該系統(tǒng)還相當(dāng)重視對病人隱私信息的保護(hù),取得了較好的效果,是在該領(lǐng)域資源整合的代表項(xiàng)目之一。在商業(yè)科技領(lǐng)域,諸如微軟、IBM等大公司近年來也逐步開始關(guān)注資源整合中數(shù)據(jù)倉儲的建設(shè)問題。IBM一直十分關(guān)注數(shù)字資源整合領(lǐng)域的研究進(jìn)展,曾發(fā)表白皮書探討大數(shù)據(jù)環(huán)境下的數(shù)據(jù)倉儲建設(shè)及資源整合問題,指出應(yīng)當(dāng)構(gòu)建基于可信信息的數(shù)據(jù)倉儲并將數(shù)字資源轉(zhuǎn)換為統(tǒng)一格式存儲,完成資源整合以支持企業(yè)決策。[15]元數(shù)據(jù)倉儲是在數(shù)據(jù)倉儲的理念上提出,在資源整合領(lǐng)域逐步受到關(guān)注。
基于元數(shù)據(jù)倉儲的數(shù)字資源整合方式相較于其它方式有顯著的特點(diǎn),在公共數(shù)字文化資源整合領(lǐng)域有良好的應(yīng)用前景,它的出現(xiàn)將為該領(lǐng)域帶來新的變化:
首先,通過建立元數(shù)據(jù)倉儲將異構(gòu)資源的元數(shù)據(jù)信息統(tǒng)一存儲,在減輕各文化機(jī)構(gòu)資源維護(hù)負(fù)擔(dān)的同時還有效提高了用戶的檢索效率。隨著數(shù)字資源數(shù)量劇增,采用傳統(tǒng)數(shù)據(jù)倉儲的方式存儲所有文化機(jī)構(gòu)的資源已經(jīng)難以實(shí)現(xiàn),公共文化機(jī)構(gòu)開始探索新的資源整合方式,元數(shù)據(jù)倉儲應(yīng)運(yùn)而生。通過建立一套完整的元數(shù)據(jù)選擇標(biāo)準(zhǔn)作為范式,將數(shù)字資源的元數(shù)據(jù)信息抽取出來存儲在數(shù)據(jù)倉儲中,供用戶統(tǒng)一瀏覽和查詢。由于資源信息被集中存儲,該方式能夠有效地縮短用戶獲得檢索結(jié)果所需時長,且對網(wǎng)絡(luò)環(huán)境的依賴程度相對較低,不會受各機(jī)構(gòu)數(shù)據(jù)庫本身狀態(tài)的限制,能夠保證資源整合平臺的流暢性,提高用戶使用體驗(yàn)。
其次,元數(shù)據(jù)倉儲經(jīng)過元數(shù)據(jù)采集、抽取、轉(zhuǎn)換、清洗和裝載工作完成了對文化資源的標(biāo)準(zhǔn)化描述,對不同形式的文化資源進(jìn)行了很好的聚類,有利于文化資源的深層次開發(fā)。知識挖掘服務(wù)近年來逐步受到公共文化機(jī)構(gòu)的關(guān)注,將機(jī)構(gòu)自身所存儲的海量數(shù)字文化資源轉(zhuǎn)換為用戶需要的信息是公共文化機(jī)構(gòu)的使命之一,也是公共數(shù)字文化資源整合的最終目標(biāo)。盡管現(xiàn)有資源整合平臺大多仍停留在初級階段,其現(xiàn)階段的研究重點(diǎn)是如何為來自不同機(jī)構(gòu)類型各異的資源構(gòu)建整合平臺從而為用戶提供一站式服務(wù),尚未開展有效的知識發(fā)掘服務(wù),但元數(shù)據(jù)倉儲為該服務(wù)奠定了基礎(chǔ)。元數(shù)據(jù)倉儲中匯集了不同機(jī)構(gòu)數(shù)字資源的元數(shù)據(jù)信息,可以預(yù)見的是,公共數(shù)字文化資源整合在未來將會更多地關(guān)注于資源的深度整合,致力于提供包括機(jī)構(gòu)資源庫、主題資源庫、資源訂制及推送服務(wù)在內(nèi)的多項(xiàng)知識挖掘服務(wù),實(shí)現(xiàn)數(shù)字資源的深層次整合與無縫鏈接。
5.2 元數(shù)據(jù)倉儲存在的問題及對策
基于元數(shù)據(jù)倉儲的公共數(shù)字文化資源整合盡管存在上述優(yōu)勢,但也不可避免地有著相應(yīng)的問題,具體表現(xiàn)及解決對策如下:
第一,資源更新不及時,整合平臺尚未完全實(shí)現(xiàn)自動化。元數(shù)據(jù)倉儲是經(jīng)過元數(shù)據(jù)采集、抽取、轉(zhuǎn)換、清洗和裝載完成對資源的標(biāo)準(zhǔn)化描述而建成,其建設(shè)初期需要分別采集各機(jī)構(gòu)的文化資源,在后期維護(hù)中也要時刻關(guān)注各機(jī)構(gòu)資源更新情況。這就容易導(dǎo)致信息資源更新不及時的問題,各數(shù)據(jù)庫同資源整合平臺的資源列表間存在一定的時滯。這就要求資源整合平臺內(nèi)置有效的響應(yīng)機(jī)制能夠定期對各數(shù)據(jù)庫資源更新情況進(jìn)行檢查,及時更新元數(shù)據(jù)信息,保證用戶能夠及時獲取最新最準(zhǔn)確的資源信息。此外,基于元數(shù)據(jù)倉儲的資源整合平臺往往對人工操作的依賴程度較高,不能完全實(shí)現(xiàn)自動化。由于各公共文化機(jī)構(gòu)在社會職能、機(jī)構(gòu)文化乃至資源描述標(biāo)準(zhǔn)方面都存在較大差異,因而進(jìn)行元數(shù)據(jù)信息采集和抽取時往往需要人工輔助完成,以最大程度保障數(shù)據(jù)的統(tǒng)一性和規(guī)范性。因此,在元數(shù)據(jù)倉儲建設(shè)的初始階段就必須充分考慮各機(jī)構(gòu)資源的具體情況,在抽取及轉(zhuǎn)換環(huán)節(jié)中要不斷優(yōu)化算法以提高自動化程度,節(jié)約資源整合過程中的人力成本,提高資源整合平臺的運(yùn)行效率。
第二,元數(shù)據(jù)采集難度高,資源描述標(biāo)準(zhǔn)較難統(tǒng)一。元數(shù)據(jù)采集首先需要獲得各文化機(jī)構(gòu)及數(shù)據(jù)庫商的許可,其次要針對不同的數(shù)據(jù)庫選擇不同的資源采集方式,常見的有ODBC/JDBC接口、OAI-PMH協(xié)議、Z39.50資源適配器等等。公共文化機(jī)構(gòu)在公共數(shù)字文化資源整合中應(yīng)當(dāng)建立有效的元數(shù)據(jù)倉儲建設(shè)機(jī)制,尋找各機(jī)構(gòu)及其數(shù)據(jù)庫間的共同點(diǎn),調(diào)動文化機(jī)構(gòu)的積極性,加強(qiáng)機(jī)構(gòu)間的合作,積極尋求同數(shù)據(jù)庫商、出版社的合作,為元數(shù)據(jù)采集創(chuàng)造條件,確保元數(shù)據(jù)倉儲的持續(xù)發(fā)展。元數(shù)據(jù)描述標(biāo)準(zhǔn)不統(tǒng)一是公共數(shù)字文化資源整合的障礙之一,其具體表現(xiàn)包括:相同資源在不同數(shù)據(jù)庫有不同的名稱、相同字段在不同數(shù)據(jù)庫中表示不同內(nèi)容、不同字段有語義交叉、DC元數(shù)據(jù)與MARC的映射問題和參考標(biāo)準(zhǔn)不一致等,這些都是元數(shù)據(jù)倉儲建設(shè)中亟待解決的問題。[16]在元數(shù)據(jù)倉儲的建設(shè)中,各文化機(jī)構(gòu)還應(yīng)該不斷加強(qiáng)元數(shù)據(jù)互操作研究,實(shí)現(xiàn)對不同標(biāo)準(zhǔn)的元數(shù)據(jù)的訪問和存儲,致力于異構(gòu)數(shù)據(jù)的整合研究,消除數(shù)據(jù)結(jié)構(gòu)差異,早日實(shí)現(xiàn)公共數(shù)字文化資源整合的目標(biāo)。
(來稿時間:2015年6月)
參考文獻(xiàn):
1. Chen Z, Wu D, Lu J, et al. Metadata-based Information Resource Integration for Research Management. Procedia Computer Science, 2013:54-61
2.史超.電子政務(wù)信息資源整合方案與框架研究. 西安:西安電子科技大學(xué)碩士論文, 2009
3. Alon Y. Halevy. Theory of Answering Queries Using Views. SIGMOD Record. 2000, 29(4):40-47
4.王靜,閻雅娜. OAIster——開放存取數(shù)字資源的一站式檢索平臺. 圖書館雜志, 2009(5):23-26
5.李鵬云. 基于元數(shù)據(jù)倉儲的圖書館數(shù)據(jù)整合實(shí)踐——以國家圖書館“文津搜索”項(xiàng)目為例. 圖書館學(xué)刊, 2013 (8):46-49
6. Trujillo J, Palomar M, Gomez J, Song IY. Designing Data Warehouses with OO Conceptual Models. IEEE Computer Society 2001, 34(12):66-75
7.胡開勝. 基于WEB元數(shù)據(jù)抽取的ETL資源整合模型研究與實(shí)現(xiàn). 長沙:湖南師范大學(xué)碩士論文, 2010
8. Digitisation:Standards landscape for European museums, archives, libraries.[2015-01-08].http://www.athenaeurope.org/ index.php?en/112/news/20/athena-booklet-digitisation-standardslandscape-for-european-museums-archives-libraries
9. Bernstein PA, Haas LM. Information integration in the enterprise. Communications of the ACM; 2008:170-177
10.王洪軍等. 基于元數(shù)據(jù)倉儲與動態(tài)鏈接的圖書館資源整合系統(tǒng)的整合與實(shí)現(xiàn). 中華醫(yī)學(xué)圖書情報雜志, 2011(10):65-67
11.衛(wèi)軍朝. 山西高??萍嘉墨I(xiàn)平臺異構(gòu)數(shù)據(jù)整合研究.太原:山西大學(xué)碩士論文, 2009
12.彭澤華. 數(shù)字資源整合技術(shù)在數(shù)字圖書館建設(shè)中的應(yīng)用. 信息通信, 2007(5):9-12
13. K. Marrakchi, A. Briache, A. Kerzazi, et al. A Data Warehouse Approach to Semantic Integration of Pseudomonas Data. Data Integration in the Life Sciences,2010, 6254:90-105
14. CG C, SA B, TB F, et al. The Enterprise Data Trust at Mayo Clinic:a semantically integrated warehouse of biomedical data. J Am Med Inform Assoc., 2010, 17(2):131-135
15. Delivering trusted information for the modern data warehouse. [2015-03-27]. http://www.bitpipe.com/detail/RES/1412192840_737. html
16. 梁蕙瑋, 薩蕾. 數(shù)字圖書館推廣工程面向數(shù)字資源整合的元數(shù)據(jù)倉儲構(gòu)建. 國家圖書館學(xué)刊, 2012(5)
〔分類號〕G250
〔作者簡介〕肖希明(1955-),男,武漢大學(xué)信息管理學(xué)院教授,博士生導(dǎo)師;劉巧園(1992-),女,武漢大學(xué)信息管理學(xué)院碩士研究生。
*本文系國家社會科學(xué)基金重點(diǎn)項(xiàng)目“公共數(shù)字文化服務(wù)中的資源整合研究”(批準(zhǔn)號:13ATQ001)研究成果之一。
Public Digital Cultural Resources Integration Based on Metadata Repository
Xiao Ximing Liu Qiaoyuan
( School of Information Management of Wuhan University )
〔Abstract 〕The paper introduces the basic connotations of metadata repository and the way of resources integration based on metadata repository , and points out the features, such as heterogeneity and dispersibility, of public digital cultural resources and metadata standards. The paper also discusses the implement of metadata repository technology in the public digital cultural resources integration, and builds the framework of resources integration based on metadata repository and then analyzes the application prospect of metadata repository in public digital cultural resources integration, and points out its possible problems and countermeasures.
〔Keywords〕Public digital cultural resources Digital resources integration Metadata repository