趙 華 周?chē)?guó)民 王 健
(中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
?
·信息資源開(kāi)發(fā)與利用·
基于元數(shù)據(jù)的數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)評(píng)價(jià)
趙 華 周?chē)?guó)民 王 健
(中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
元數(shù)據(jù)在信息資源發(fā)現(xiàn)過(guò)程中發(fā)揮了重要作用??茖W(xué)數(shù)據(jù)元數(shù)據(jù)也不例外,它為用戶(hù)發(fā)現(xiàn)、評(píng)價(jià)和再利用科學(xué)數(shù)據(jù)提供了依據(jù)。本文在闡述科學(xué)數(shù)據(jù)和科學(xué)數(shù)據(jù)元數(shù)據(jù)內(nèi)涵的基礎(chǔ)上,對(duì)科學(xué)數(shù)據(jù)的用戶(hù)需求進(jìn)行了分析,重點(diǎn)分析了用戶(hù)查找與發(fā)現(xiàn)科學(xué)數(shù)據(jù)的過(guò)程,此外,本文針對(duì)如何完善科學(xué)數(shù)據(jù)元數(shù)據(jù)提出建議,以促進(jìn)用戶(hù)對(duì)科學(xué)數(shù)據(jù)的發(fā)現(xiàn)和使用。
元數(shù)據(jù);數(shù)據(jù)發(fā)現(xiàn);數(shù)據(jù)評(píng)價(jià);用戶(hù)需求;認(rèn)知
科學(xué)數(shù)據(jù)作為一類(lèi)重要的科技資源,在人們從事科學(xué)研究和進(jìn)行管理決策時(shí)是不可缺少的??茖W(xué)數(shù)據(jù)的開(kāi)放與共享在各領(lǐng)域得到了強(qiáng)烈的支持。然而科學(xué)數(shù)據(jù)共享問(wèn)題十分復(fù)雜,宏觀上涉及數(shù)據(jù)共享政策法規(guī)、共享制度和共享平臺(tái)以及組織體系等多個(gè)方面,微觀上涉及數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)以及用戶(hù)信息需求等角度??茖W(xué)數(shù)據(jù)共享的核心問(wèn)題是用戶(hù)能夠及時(shí)發(fā)現(xiàn)和有效利用科學(xué)數(shù)據(jù),因此數(shù)據(jù)發(fā)現(xiàn)是關(guān)鍵。在信息管理領(lǐng)域,信息發(fā)現(xiàn)的研究一直占有重要的地位,同樣在科學(xué)數(shù)據(jù)共享方面,數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)利用也是用戶(hù)最為關(guān)注的話(huà)題。眾所周知,元數(shù)據(jù)作為發(fā)現(xiàn)信息和共享信息的有效工具,在科學(xué)數(shù)據(jù)的共享中發(fā)揮著重要作用。本文結(jié)合科學(xué)數(shù)據(jù)元數(shù)據(jù)的內(nèi)容構(gòu)成,對(duì)用戶(hù)的數(shù)據(jù)需求和用戶(hù)查找數(shù)據(jù)的過(guò)程展開(kāi)分析,旨在闡明元數(shù)據(jù)在科學(xué)數(shù)據(jù)發(fā)現(xiàn)過(guò)程中發(fā)揮的作用,并對(duì)現(xiàn)有科學(xué)數(shù)據(jù)元數(shù)據(jù)的不足之處進(jìn)行分析,并提出相應(yīng)的解決措施。
科學(xué)數(shù)據(jù)是指科技活動(dòng)或通過(guò)其它方式所獲取到的反映客觀世界的本質(zhì)、特征、變化規(guī)律等的原始數(shù)據(jù),以及根據(jù)不同科技活動(dòng)需要,進(jìn)行系統(tǒng)加工整理的各類(lèi)數(shù)據(jù)集,用于支撐科研活動(dòng)的科學(xué)數(shù)據(jù)的集合[1]??梢?jiàn)科學(xué)數(shù)據(jù)與科學(xué)研究活動(dòng)密切相關(guān),既來(lái)源于科學(xué)研究活動(dòng),又可用于科學(xué)研究活動(dòng)。隨著人類(lèi)從事的科研活動(dòng)的廣度與深度的增長(zhǎng),加之各種先進(jìn)科學(xué)儀器的誕生,科學(xué)數(shù)據(jù)的數(shù)量正以指數(shù)數(shù)量級(jí)猛增。
科學(xué)數(shù)據(jù)分類(lèi)方法有多種,可以按照學(xué)科進(jìn)行分類(lèi),如物理數(shù)據(jù)、化學(xué)數(shù)據(jù),人文科學(xué)數(shù)據(jù);也可以按照數(shù)據(jù)收集方法進(jìn)行分類(lèi),如觀察數(shù)據(jù)、計(jì)算機(jī)模擬數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)等。美國(guó)國(guó)家科學(xué)委員會(huì)把科學(xué)數(shù)據(jù)分為三類(lèi)[2]:第一類(lèi)是可重復(fù)數(shù)據(jù),只要把與數(shù)據(jù)產(chǎn)生相關(guān)的方法以及變量、參數(shù)等進(jìn)行存檔,這類(lèi)數(shù)據(jù)是可再次產(chǎn)生的,實(shí)驗(yàn)研究數(shù)據(jù)通常屬于這類(lèi)數(shù)據(jù),這也正是科學(xué)研究活動(dòng)中產(chǎn)生的最多的一類(lèi)數(shù)據(jù)。第二類(lèi)是觀察數(shù)據(jù),這類(lèi)數(shù)據(jù)產(chǎn)生于特定的時(shí)間和空間,是不可再生的,通常生態(tài)領(lǐng)域和生物多樣性領(lǐng)域的數(shù)據(jù)屬于觀察數(shù)據(jù)。這類(lèi)數(shù)據(jù)只能收集1次,難以驗(yàn)證。第三類(lèi)是統(tǒng)計(jì)數(shù)據(jù),這類(lèi)數(shù)據(jù)往往來(lái)自自下而上的統(tǒng)計(jì),統(tǒng)計(jì)數(shù)據(jù)最重要的就是統(tǒng)計(jì)的方法、標(biāo)準(zhǔn),以及統(tǒng)計(jì)的時(shí)效性。
科學(xué)數(shù)據(jù)作為高度結(jié)構(gòu)化的信息資源,盡管不同學(xué)科領(lǐng)域的數(shù)據(jù)在存儲(chǔ)、格式、數(shù)據(jù)處理、方法和數(shù)據(jù)需求上存在很大的區(qū)別。但科學(xué)數(shù)據(jù)具有幾個(gè)共同的特點(diǎn):(1)科學(xué)數(shù)據(jù)來(lái)源規(guī)范??茖W(xué)數(shù)據(jù)的產(chǎn)生源于人們從事的科學(xué)研究活動(dòng),不論是原始數(shù)據(jù),還是經(jīng)過(guò)加工處理的數(shù)據(jù),都是源于某項(xiàng)科學(xué)研究活動(dòng)的開(kāi)展。(2)科學(xué)數(shù)據(jù)產(chǎn)生方式規(guī)范。不論是觀測(cè)數(shù)據(jù),還是科學(xué)實(shí)驗(yàn)數(shù)據(jù),都具備科學(xué)的數(shù)據(jù)產(chǎn)生方法。(3)科學(xué)數(shù)據(jù)的內(nèi)容和形式具有規(guī)范性。不管是哪個(gè)學(xué)科領(lǐng)域的科學(xué)數(shù)據(jù),其內(nèi)容、組織與結(jié)構(gòu)必定是結(jié)構(gòu)化的,盡管數(shù)據(jù)的結(jié)構(gòu)與形式不同,但都遵循了研究領(lǐng)域制定的規(guī)則。(4)科學(xué)數(shù)據(jù)具有存儲(chǔ)和使用價(jià)值。科學(xué)數(shù)據(jù)的產(chǎn)生,注入了科研工作者的勞動(dòng)成果,具有可再利用的價(jià)值。
元數(shù)據(jù)是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,作為描述信息資源的一種工具,對(duì)信息資源的內(nèi)容、屬性以及特征進(jìn)行說(shuō)明與解釋?zhuān)哂卸ㄎ?、發(fā)現(xiàn)、證明、評(píng)估、選擇信息資源等功能[3]。元數(shù)據(jù)除了對(duì)信息資源本身進(jìn)行描述外,還包括了對(duì)信息資源獲取方式、元數(shù)據(jù)維護(hù)信息的描述。國(guó)際上通用的DC元數(shù)據(jù)[4],對(duì)資源的描述角度包括資源內(nèi)容、知識(shí)產(chǎn)權(quán)和外部屬性3個(gè)方面,其中資源內(nèi)容描述的元素包含題名、主題、描述、來(lái)源、語(yǔ)言、關(guān)聯(lián)和覆蓋范圍,知識(shí)產(chǎn)權(quán)描述包含創(chuàng)作者、出版者和其他參與者與權(quán)限管理,外部屬性描述包括日期、類(lèi)型、格式和標(biāo)識(shí)。
用于描述科學(xué)數(shù)據(jù)資源的元數(shù)據(jù),稱(chēng)之為科學(xué)數(shù)據(jù)元數(shù)據(jù)。元數(shù)據(jù)對(duì)科學(xué)數(shù)據(jù)的描述應(yīng)遵循于科研人員查找科學(xué)數(shù)據(jù)的過(guò)程,立足于回答幾個(gè)問(wèn)題:有什么數(shù)據(jù)?數(shù)據(jù)怎么樣?如何組織?如何獲???怎么使用?與之相關(guān)的其他數(shù)據(jù)如何?[5]Keith Jeffery提出科學(xué)數(shù)據(jù)元數(shù)據(jù)描述分為3個(gè)層次,第一層通常是對(duì)科學(xué)數(shù)據(jù)的一般描述;第二層元數(shù)據(jù)是科學(xué)情境元數(shù)據(jù),反映數(shù)據(jù)的多方面屬性;第三層元數(shù)據(jù)的描述粒度更細(xì),也涵蓋了科學(xué)數(shù)據(jù)更為詳細(xì)的信息[6]。Jian Qin等把元數(shù)據(jù)對(duì)科學(xué)數(shù)據(jù)的描述劃分的更為詳細(xì),包括9大類(lèi)[7]:管理類(lèi),包括元數(shù)據(jù)自身信息和數(shù)據(jù)存檔信息;情境類(lèi),包括與數(shù)據(jù)集相關(guān)研究項(xiàng)目、數(shù)據(jù)收集方法、設(shè)備等信息;描述類(lèi),體現(xiàn)數(shù)據(jù)來(lái)源、發(fā)布及相關(guān)信息;空間地理信息;通用信息;標(biāo)識(shí)信息,便于用戶(hù)識(shí)別數(shù)據(jù)的標(biāo)識(shí)符和名稱(chēng)等;語(yǔ)義信息,用于描述數(shù)據(jù)內(nèi)容的術(shù)語(yǔ)和主題分類(lèi)信息;時(shí)間信息,數(shù)據(jù)內(nèi)容覆蓋的時(shí)間信息、數(shù)據(jù)加工處理的時(shí)間信息;技術(shù)類(lèi)信息,描述數(shù)據(jù)格式以及使用的參數(shù)、模型和測(cè)量方法等信息。由于科學(xué)數(shù)據(jù)相比其他信息資源更具復(fù)雜性,因此,科學(xué)數(shù)據(jù)元數(shù)據(jù)的內(nèi)容也必定更為復(fù)雜。目前,國(guó)際上已經(jīng)建立多個(gè)元數(shù)據(jù)標(biāo)準(zhǔn),比較常見(jiàn)的包括地理學(xué)科領(lǐng)域FGDC元數(shù)據(jù)標(biāo)準(zhǔn)[8]和ISO/TC 211標(biāo)準(zhǔn)[9],生物多樣性領(lǐng)域的Darwin Core元數(shù)據(jù)標(biāo)準(zhǔn)[10],生態(tài)學(xué)領(lǐng)域的Ecological Metadata Language(EML)[11],氣象領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)CF(Climate Forecast)[12]和社會(huì)科學(xué)領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)Data Documentation Initiative(DDI)[13]。其中FGDC元數(shù)據(jù)標(biāo)準(zhǔn)最有影響力,使用最廣泛。對(duì)上述元數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)容進(jìn)行分析后,可以發(fā)現(xiàn)元數(shù)據(jù)對(duì)科學(xué)數(shù)據(jù)的描述涵蓋了三部分內(nèi)容:物理特性描述,數(shù)據(jù)內(nèi)容方面描述,科學(xué)數(shù)據(jù)情境方面描述。物理特征描述是指科學(xué)數(shù)據(jù)資源的大小、格式、作者、狀態(tài)、存儲(chǔ)位置、使用限制、安全限制等方面信息;數(shù)據(jù)內(nèi)容方面的描述包含了資源題目、摘要、描述、所屬領(lǐng)域、領(lǐng)域主題以及術(shù)語(yǔ)、產(chǎn)生方法、產(chǎn)生工具等信息;數(shù)據(jù)情境方面的描述包含數(shù)據(jù)來(lái)源、與之相關(guān)的研究項(xiàng)目信息、與之相關(guān)的學(xué)術(shù)出版物等信息。不論哪個(gè)領(lǐng)域的科學(xué)數(shù)據(jù),也不論其數(shù)據(jù)存儲(chǔ)、格式和使用存在著多大的差異,其元數(shù)據(jù)描述內(nèi)容都基于這些角度。
科學(xué)數(shù)據(jù)的用戶(hù)群體包括普通大眾、管理者以及科研工作人員,其中科研工作者是科學(xué)數(shù)據(jù)的主要用戶(hù)。通過(guò)共享科學(xué)數(shù)據(jù),公眾和管理者可以很容易地了解公共資助的科學(xué)研究結(jié)果,而科研人員則可以實(shí)現(xiàn)科學(xué)數(shù)據(jù)的再生產(chǎn)和再利用,也可以讓其他研究人員對(duì)數(shù)據(jù)提出新問(wèn)題。科學(xué)數(shù)據(jù)共享的最終目的不僅是讓其他人利用這些數(shù)據(jù),更是讓別人不再走彎路,從而提高科研效率、節(jié)約科研成本,從而促進(jìn)全社會(huì)科學(xué)研究的創(chuàng)新與發(fā)展。用戶(hù)通過(guò)文獻(xiàn)查找,往往會(huì)伴隨著科學(xué)數(shù)據(jù)的發(fā)現(xiàn),但已經(jīng)發(fā)表的文獻(xiàn)通常是對(duì)科學(xué)數(shù)據(jù)進(jìn)行歸納、分析和總結(jié)的結(jié)果,是作者科研水平和知識(shí)水平的反映,屬于抽象化的知識(shí)。對(duì)于學(xué)術(shù)文章所涉及到的原始數(shù)據(jù),用戶(hù)同樣具有需求,這些數(shù)據(jù)不會(huì)隨著學(xué)術(shù)文章的發(fā)表而終結(jié)自己的價(jià)值,相反,這些原始數(shù)據(jù)對(duì)于數(shù)據(jù)用戶(hù)而言是無(wú)價(jià)之寶,來(lái)自不同領(lǐng)域的用戶(hù)對(duì)該原始數(shù)據(jù)的再利用將會(huì)產(chǎn)生更大的價(jià)值。由此看來(lái),用戶(hù)查找科學(xué)數(shù)據(jù)的意圖包括幾個(gè)方面:(1)以數(shù)據(jù)作為研究對(duì)象,通過(guò)查找相關(guān)科學(xué)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行分析,產(chǎn)生新的研究成果,或者用于支撐自身的科研工作。(2)通過(guò)數(shù)據(jù)的查找,發(fā)現(xiàn)相關(guān)的研究團(tuán)隊(duì)、研究機(jī)構(gòu),為自身尋找潛在的合作者。(3)了解相關(guān)領(lǐng)域數(shù)據(jù)研究動(dòng)態(tài)與趨勢(shì),開(kāi)辟新的研究領(lǐng)域,同時(shí)還能學(xué)習(xí)到先進(jìn)的數(shù)據(jù)分析方法為己所用。出于不同的目的需要,用戶(hù)在理解科學(xué)數(shù)據(jù)時(shí)的側(cè)重點(diǎn)也會(huì)不同。Greenberg分析了醫(yī)藥科學(xué)領(lǐng)域最知名的數(shù)據(jù)倉(cāng)儲(chǔ)Dryad的需求層次模型[14],該模型與馬斯洛需求層次模型相對(duì)應(yīng),需求由低到高包括存儲(chǔ)數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)、使用和分析數(shù)據(jù)3個(gè)層次,其中數(shù)據(jù)存儲(chǔ)是最低層次的需求。對(duì)于數(shù)據(jù)用戶(hù)來(lái)說(shuō),數(shù)據(jù)發(fā)現(xiàn)是基本需求,隨著需求層次的提高,用戶(hù)對(duì)數(shù)據(jù)的需求發(fā)展為使用和分析數(shù)據(jù)。當(dāng)用戶(hù)需求處于分析和使用數(shù)據(jù)層次時(shí),用戶(hù)需要了解數(shù)據(jù)最全面的信息。
科學(xué)數(shù)據(jù)查找屬于信息檢索問(wèn)題,由于科學(xué)數(shù)據(jù)屬于一類(lèi)特殊的信息,雖海量、分散但并非到處可見(jiàn),因此用戶(hù)發(fā)現(xiàn)數(shù)據(jù)的途徑通常包括從數(shù)據(jù)生產(chǎn)者處或者同行處查找,從數(shù)據(jù)中心或者圖書(shū)館進(jìn)行檢索,從數(shù)據(jù)出版商處查找等。用戶(hù)查找數(shù)據(jù)的過(guò)程,與用戶(hù)查找其他信息資源的過(guò)程一樣,是一個(gè)查找與評(píng)價(jià)的循環(huán)過(guò)程,用戶(hù)根據(jù)需要設(shè)定查詢(xún)條件進(jìn)行查詢(xún),并對(duì)查到的數(shù)據(jù)進(jìn)行評(píng)價(jià),根據(jù)查詢(xún)結(jié)果,不斷地縮小自己的查找范圍,以至于最終找到適合的數(shù)據(jù)資源。用戶(hù)的整個(gè)查找過(guò)程實(shí)際上是不斷地對(duì)數(shù)據(jù)資源進(jìn)行評(píng)價(jià)與選擇的過(guò)程。
用戶(hù)可以通過(guò)數(shù)據(jù)目錄、元數(shù)據(jù)等工具查找科學(xué)數(shù)據(jù),而當(dāng)用戶(hù)對(duì)查詢(xún)到的數(shù)據(jù)進(jìn)行評(píng)價(jià)時(shí),往往更多地依賴(lài)于描述科學(xué)數(shù)據(jù)的元數(shù)據(jù)內(nèi)容。因此用戶(hù)在獲取數(shù)據(jù)之前,發(fā)現(xiàn)和評(píng)價(jià)科學(xué)數(shù)據(jù)都需要元數(shù)據(jù)的支持。支持用戶(hù)查找科學(xué)數(shù)據(jù)的元數(shù)據(jù)元素包括,數(shù)據(jù)集的名稱(chēng)、作者、出版日期、資源鏈接、數(shù)據(jù)集摘要、關(guān)鍵詞、資源類(lèi)型、文件格式、使用限制、時(shí)間空間覆蓋、與之相關(guān)數(shù)據(jù)集和出版物以及一些重要的時(shí)間日期等信息[15]。這些元數(shù)據(jù)元素大部分集中在標(biāo)識(shí)信息部分,這部分元數(shù)據(jù)對(duì)科學(xué)數(shù)據(jù)集的基本信息進(jìn)行了描述,通過(guò)這些信息,用戶(hù)能夠?qū)茖W(xué)數(shù)據(jù)集獲得大致的了解。其中數(shù)據(jù)集關(guān)鍵詞、數(shù)據(jù)集標(biāo)題和數(shù)據(jù)集摘要等內(nèi)容,不僅僅幫助用戶(hù)發(fā)現(xiàn)數(shù)據(jù)集,還幫助用戶(hù)對(duì)數(shù)據(jù)集是否滿(mǎn)足需要做出初步的判斷。
用戶(hù)判斷科學(xué)數(shù)據(jù)是否可用的過(guò)程,實(shí)際上是對(duì)科學(xué)數(shù)據(jù)的相關(guān)性做出判斷的過(guò)程?!跋嚓P(guān)性”是信息檢索領(lǐng)域一個(gè)基本的概念,目前已經(jīng)出現(xiàn)了對(duì)于文本、音樂(lè)、影像等信息的用戶(hù)相關(guān)性標(biāo)準(zhǔn)方面的研究,但對(duì)于用戶(hù)評(píng)價(jià)科學(xué)數(shù)據(jù)時(shí)所用的標(biāo)準(zhǔn),目前還正處于研究探索階段??梢源_定的是用戶(hù)判斷科學(xué)數(shù)據(jù)相關(guān)性的依據(jù)就來(lái)自于元數(shù)據(jù)元素。科學(xué)界普遍認(rèn)為,描述科學(xué)數(shù)據(jù)的元數(shù)據(jù)內(nèi)容越豐富越有利于用戶(hù)發(fā)現(xiàn)有用的數(shù)據(jù),考慮到元數(shù)據(jù)編著的成本,以及用戶(hù)查找數(shù)據(jù)的時(shí)間和精力等因素的限制,元數(shù)據(jù)元素并非是越多越好,其描述內(nèi)容也并非是越詳細(xì)越好。按照人類(lèi)認(rèn)知事物的普遍規(guī)律來(lái)看,通常會(huì)先從整體上對(duì)數(shù)據(jù)擁有大致的了解,用戶(hù)首先關(guān)注于數(shù)據(jù)集標(biāo)題、關(guān)鍵詞、摘要、生產(chǎn)者、大小、格式、狀態(tài)等元數(shù)據(jù)元素之外,如果這些信息不足以確定數(shù)據(jù)是否有用時(shí),用戶(hù)會(huì)進(jìn)一步選擇查看更為詳細(xì)的元數(shù)據(jù)內(nèi)容。此時(shí)用戶(hù)對(duì)元數(shù)據(jù)的關(guān)注點(diǎn)會(huì)依據(jù)數(shù)據(jù)類(lèi)型的不同而發(fā)生相應(yīng)的改變,如對(duì)于科學(xué)實(shí)驗(yàn)數(shù)據(jù),用戶(hù)往往會(huì)更關(guān)心數(shù)據(jù)產(chǎn)生的相關(guān)方法以及變量和參數(shù)等,用戶(hù)可能會(huì)對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證和分析,因此描述數(shù)據(jù)產(chǎn)生方法方面的元數(shù)據(jù)成了用戶(hù)的關(guān)注點(diǎn)。對(duì)于觀察數(shù)據(jù),用戶(hù)關(guān)注的是提供描述數(shù)據(jù)產(chǎn)生的時(shí)間和空間以及數(shù)據(jù)采集儀器等元數(shù)據(jù)內(nèi)容,而對(duì)于統(tǒng)計(jì)數(shù)據(jù),用戶(hù)關(guān)注更多的是統(tǒng)計(jì)機(jī)構(gòu)的權(quán)威性和統(tǒng)計(jì)數(shù)據(jù)的可靠性。此外,由于相關(guān)性的判斷具有主觀性,用戶(hù)在判斷數(shù)據(jù)是否相關(guān)時(shí),還會(huì)受到個(gè)人偏好、知識(shí)水平、表達(dá)能力和判斷能力等因素的影響。相比數(shù)據(jù)來(lái)源的可靠性,也許有的用戶(hù)更青睞于把數(shù)據(jù)集更新程度作為一個(gè)判斷標(biāo)準(zhǔn),也可能有的用戶(hù)會(huì)把數(shù)據(jù)集是否容易獲取作為判斷標(biāo)準(zhǔn)??茖W(xué)數(shù)據(jù)作為一種重要的信息資源,有必要借鑒其他信息資源領(lǐng)域相關(guān)性標(biāo)準(zhǔn)的研究方法與理論,對(duì)用戶(hù)判斷數(shù)據(jù)相關(guān)性的標(biāo)準(zhǔn)以及判斷機(jī)制進(jìn)行深入的探討,在此基礎(chǔ)上,針對(duì)用戶(hù)的需求,完善科學(xué)數(shù)據(jù)資源組織,促進(jìn)數(shù)據(jù)的發(fā)現(xiàn)與使用。
科學(xué)數(shù)據(jù)元數(shù)據(jù)具有管理數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)、評(píng)價(jià)和使用數(shù)據(jù)的功能。數(shù)據(jù)用戶(hù)通過(guò)檢索數(shù)據(jù)中心或者圖書(shū)館的數(shù)據(jù)資源,查詢(xún)到一系列的信息,這些信息均以元數(shù)據(jù)元素的組合形式呈現(xiàn)在用戶(hù)面前,為用戶(hù)判斷元數(shù)據(jù)所描述的數(shù)據(jù)是否符合自己的信息需求提供參考。因此對(duì)用戶(hù)而言,元數(shù)據(jù)主要發(fā)揮數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)評(píng)價(jià)的功能。因此為滿(mǎn)足用戶(hù)的信息需求,提高用戶(hù)發(fā)現(xiàn)數(shù)據(jù)和利用數(shù)據(jù)的效率,需要從完善與改進(jìn)科學(xué)數(shù)據(jù)元數(shù)據(jù)上著手。
(1)對(duì)于科學(xué)數(shù)據(jù)屬性的描述不夠全面,例如并不是在所有的標(biāo)準(zhǔn)中都涉及到了數(shù)據(jù)集使用信息,有的標(biāo)準(zhǔn)只是提到了使用限制和使用方法。其實(shí)在用戶(hù)對(duì)數(shù)據(jù)集可用與否做出判斷時(shí),還會(huì)參考數(shù)據(jù)的使用歷史和引用信息等。還比如大部分元數(shù)據(jù)標(biāo)準(zhǔn)中沒(méi)有包含對(duì)數(shù)據(jù)采集的描述,有的標(biāo)準(zhǔn)中雖有提及,但該項(xiàng)內(nèi)容并不是必選項(xiàng),也有的元數(shù)據(jù)標(biāo)準(zhǔn)只是把數(shù)據(jù)采集信息揉合于數(shù)據(jù)集摘要信息的描述中,這對(duì)于用戶(hù)從海量的信息中,提取出這個(gè)信息較為困難,遠(yuǎn)不如把數(shù)據(jù)采集單列出來(lái)呈獻(xiàn)給用戶(hù)效果好。
(2)由于科學(xué)數(shù)據(jù)元數(shù)據(jù)本身復(fù)雜于文本信息元數(shù)據(jù),元數(shù)據(jù)元素?cái)?shù)量多,用戶(hù)往往只能先通過(guò)查看核心元數(shù)據(jù)來(lái)判斷目標(biāo)數(shù)據(jù)集是否相關(guān),是否可用。當(dāng)用戶(hù)檢索到的元數(shù)據(jù)記錄較多時(shí),往往不會(huì)瀏覽每個(gè)元數(shù)據(jù)元素,因此元數(shù)據(jù)元素的排列順序顯得尤為重要,此時(shí)需要把關(guān)鍵的元數(shù)據(jù)元素放在靠前的位置,通常指能夠反映數(shù)據(jù)集內(nèi)容和質(zhì)量的元數(shù)據(jù)元素置于靠前的位置,如數(shù)據(jù)集題目、摘要、關(guān)鍵詞、關(guān)于數(shù)據(jù)集的說(shuō)明等信息。
(3)缺乏第三方元數(shù)據(jù)。元數(shù)據(jù)的產(chǎn)生通常由專(zhuān)業(yè)的信息資源專(zhuān)家來(lái)完成,或者由信息資源的作者自己完成,不論是信息管理專(zhuān)業(yè)人員還是信息資源的作者,他們理解信息資源的角度與用戶(hù)必定存在不同之處,且他們的認(rèn)知過(guò)程存在著很大的差別。由此,由用戶(hù)來(lái)完善元數(shù)據(jù)、改進(jìn)元數(shù)據(jù)已經(jīng)成為一種趨勢(shì)。目前在圖書(shū)館領(lǐng)域元數(shù)據(jù)中,專(zhuān)門(mén)出現(xiàn)了評(píng)價(jià)類(lèi)元數(shù)據(jù),其內(nèi)容涉及了同行專(zhuān)家對(duì)信息資源的評(píng)價(jià)、用戶(hù)使用信息后的反饋與評(píng)價(jià)信息等,尤其是在教育信息資源方面,用戶(hù)在評(píng)價(jià)和選擇資源時(shí)往往很依賴(lài)這些評(píng)價(jià)類(lèi)元數(shù)據(jù)內(nèi)容,也叫第三方元數(shù)據(jù)或注釋類(lèi)元數(shù)據(jù)[16]。而在科學(xué)數(shù)據(jù)元數(shù)據(jù)中,還沒(méi)有出現(xiàn)這些內(nèi)容。實(shí)際上,不少科學(xué)數(shù)據(jù)是以數(shù)據(jù)產(chǎn)品的形式出現(xiàn),同行專(zhuān)家評(píng)價(jià)信息和用戶(hù)對(duì)資源的使用評(píng)價(jià),在用戶(hù)做出選擇使用數(shù)據(jù)前通常也會(huì)發(fā)揮著一定的作用。
用戶(hù)通過(guò)元數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)和評(píng)價(jià)數(shù)據(jù)過(guò)程,也是用戶(hù)對(duì)科學(xué)數(shù)據(jù)的認(rèn)知過(guò)程。因此在整合科學(xué)數(shù)據(jù)資源時(shí),對(duì)元數(shù)據(jù)的完善僅僅從科學(xué)數(shù)據(jù)的資源特性角度著手遠(yuǎn)遠(yuǎn)不夠,還需要從分析用戶(hù)對(duì)科學(xué)數(shù)據(jù)的認(rèn)知點(diǎn)著手,明確用戶(hù)判斷數(shù)據(jù)相關(guān)性的標(biāo)準(zhǔn),分析用戶(hù)對(duì)元數(shù)據(jù)的關(guān)注點(diǎn),按照這個(gè)原則來(lái)對(duì)元數(shù)據(jù)內(nèi)容進(jìn)行完善。本文的研究只是借鑒了人類(lèi)現(xiàn)有的對(duì)其他類(lèi)型信息資源的認(rèn)知研究,而對(duì)于人們對(duì)科學(xué)數(shù)據(jù)的認(rèn)知方面的探討,更多地需要大量的實(shí)證研究來(lái)支持,以探明用戶(hù)對(duì)這類(lèi)特殊信息資源的認(rèn)知規(guī)律,這正是此方面研究今后的努力方向。
[1]中華人民共和國(guó)科學(xué)技術(shù)部.SDS/T1003-2004,科學(xué)數(shù)據(jù)共享工程技術(shù)標(biāo)準(zhǔn)[S].
[2]Willis,C.,Greenberg,J.,& White,H..Analysis and synthesis of metadata goals for scientific data[J].Journal of the American Society for Information Science and Technology,2012,63(8):1505-1520.
[3]劉嘉.元數(shù)據(jù)導(dǎo)論[M].北京,華藝出版社,2002.
[4]陳彩紅.國(guó)內(nèi)外元數(shù)據(jù)標(biāo)準(zhǔn)宏觀比較[J].河北科技圖苑,2011,24(1):65-67.
[5]W.K.Michener et al.Non-Geospatial Metadata for the Ecological[J].Sciences.Ecological Applications,1997,7:330-342.
[6]Boyd,David.CERIF tutorial and UK data surgery.Blog posted on February 16,2012.Retrieved,June 28,2012,from http:∥data.blogs.ilrt.org/2012/02/16/cerif-tutorial-and-uk-data-surgery/.
[7]Qin J,Li K.How Portable Are the Metadata Standards for Scientific Data?A Proposal for a Metadata Infrastructure[EB].http:∥dcevents.dublincore.org/IntConf/index/pages/view/2013-peerAbstracts#Qin,2013-10-28.
[8]Di L.The development of remote-sensing related standards at FGDC,OGC,and ISO TC 211[C].Geoscience and Remote Sensing Symposium,2003.IGARSS’03.Proceedings.2003 IEEE International.IEEE,2003,1:643-647.
[9]Federal Geographic Data Committee.FGDC Metadata Quick Guide[EB].https:∥www.fgdc.gov/metadata/documents/MetadataQuickGuide.pdf,2006-04-24.
[10]Wieczorek.J.et al.Darwin Core:An evolving community-developed biodiversity data standard[J].PLoS ONE,2012,7(1):1-7.
[11]Eric H Fegraus,Andelman S,Jones M Bet al.Maximizing the Value of Ecological Data with Structured Metadata:An Introduction to Ecological Metadata Language(EML)and Principles for Metadata Creation Read[J].Bulletin of the Ecological Society of America,2005,86(3):158-168.
[12]Gregory J.The CF metadata standard[J].CLIVAR Exchanges,2003,8(4):1-5.
[13]Ryssevik J.The Data Documentation Initiative(DDI)metadata specification[OL].Ann Arbor,MI:Data Documentation Alliance,2001.Retrieved from http:∥www.ddialliance.org/sites/default/files/ryssevik_0.pdf,2014-01-01.
[14]Greenberg.J,White.H.C,Carrier.S,Scherle.R..A metadata best practice for a scientific data repository[J].Journal of Library Metadata,2009,9(3-4):194-212.
[15]Ball A.Metadata for Data Citation and Discovery[J].Describe,Disseminate,Discover:Metadata for Effective Data Citation,2012.
[16]You S.Evaluative Metadata in Educational Digital Libraries:How Users Use Evaluative Metadata in the Process of Document Selection[J].TCDL Bulletin,2010,4(2):1-11.
(本文責(zé)任編輯:郭沫含)
Data Discovery and Evaluation Based on Metadata
Zhao Hua Zhou Guomin Wang Jian
(Agricultural Information Institute,CAAS,Beijing 100081,China)
Metadata plays an important role in the process of information resource discovery.Scientific metadata is no exception,which helps users to find,evaluate and re-use scientific data.This paper analysed user needs based on describing scientific data and metadata.It focused on analyzing the process of users search and discovery scientific data,meanwhile the paper put forward some suggestions to improve scientific metadata in order to help user to discover and re-use data.
metadata;data discovery;data evaluation;user needs;cognition
2014-09-19
中央公益性科研院所基本科研業(yè)務(wù)費(fèi)專(zhuān)項(xiàng)基金“科學(xué)數(shù)據(jù)元數(shù)據(jù)認(rèn)知評(píng)價(jià)方法研究”(項(xiàng)目編號(hào):2015-J-03)和國(guó)家社會(huì)科學(xué)基金項(xiàng)目“科學(xué)數(shù)據(jù)用戶(hù)相關(guān)性標(biāo)準(zhǔn)與使用模式實(shí)證研究”(項(xiàng)目編號(hào):14BTQ056)。
趙 華(1980-),女,助理研究員,碩士,研究方向:信息管理、科學(xué)數(shù)據(jù)共享,發(fā)表文章5篇。
10.3969/j.issn.1008-0821.2015.04.014
G250.73
A
1008-0821(2015)04-0065-04