亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        科學(xué)研究數(shù)據(jù)的出版與獲取

        2013-04-29 22:08:12杜偉張靜
        出版科學(xué) 2013年6期

        杜偉 張靜

        [摘 要] 分析數(shù)據(jù)出版遇到的挑戰(zhàn),介紹用知識螺旋模型出版數(shù)據(jù)的簡單過程,并探討數(shù)據(jù)存儲庫如何采集高質(zhì)量數(shù)據(jù)。

        [關(guān)鍵詞] 科學(xué)研究數(shù)據(jù) 數(shù)據(jù)出版 數(shù)據(jù)獲取

        [中圖分類號] G237 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1009-5853 (2013) 06-0086-04

        [Abstract] Analyze the issues faced by data publication,introduce the simple data publication process based on the knowledge spiral model,and expound how data repositories collect and store high-quality scientific research data.

        [Key words] Research data Data publication Data acquiring

        不僅 “大科學(xué)”有所謂的海量數(shù)據(jù)現(xiàn)象,所有學(xué)科都有產(chǎn)生大量原生數(shù)據(jù)和派生數(shù)據(jù)的趨勢。在科學(xué)技術(shù)飛速發(fā)展的今天,科學(xué)研究數(shù)據(jù)的作用越來越大,在數(shù)據(jù)發(fā)揮核心作用的所有研究中,對數(shù)據(jù)可驗(yàn)證性的期望不斷增加[1],而且為了進(jìn)行進(jìn)一步的研究,對現(xiàn)有數(shù)據(jù)集進(jìn)行重組或重新利用的需求也在不斷增加[2]。世界范圍內(nèi)的科學(xué)數(shù)據(jù)共享勢在必行,要實(shí)現(xiàn)共享就要做好科學(xué)數(shù)據(jù)的出版工作。國內(nèi)對此也有研究,王萍等提出基于網(wǎng)格技術(shù)的科學(xué)數(shù)據(jù)存儲與共享[3]。但是,目前數(shù)據(jù)出版還處于發(fā)展階段,數(shù)據(jù)文獻(xiàn)的狀況在各研究領(lǐng)域和各個學(xué)科有著很大差別。

        1 數(shù)據(jù)出版中的問題

        和傳統(tǒng)的文字出版物相比,數(shù)據(jù)出版更具有挑戰(zhàn)性。每當(dāng)人們談及學(xué)期論文或畢業(yè)論文時,考慮的幾乎都是文字出版物的類型,比如期刊論文、書籍等,很少會想到數(shù)據(jù)。而數(shù)據(jù)出版作為新生事物,在以下諸多方面都面臨著亟待解決的問題。

        1.1 文件格式

        文字出版物的格式,如TXT、HTML、RTF、Word、OpenOffice、PDF、LaTeX等,已經(jīng)被全世界所有學(xué)科的研究人員廣泛使用。

        科學(xué)研究數(shù)據(jù)也有幾種格式,如XML、電子表格、二進(jìn)制格式等,要根據(jù)某一領(lǐng)域的需要選擇所需要的格式。個別格式用標(biāo)準(zhǔn)工具不能打開,需要安裝專門的分析和可視化軟件。

        1.2 內(nèi)容特征

        科學(xué)研究數(shù)據(jù)比純文字研究論文的目的性更強(qiáng)。研究論文具有主觀性特征,因?yàn)閷懻撐牡哪康木褪莻鞑ブR。為此,作者建立了具有邏輯性和引導(dǎo)性的結(jié)構(gòu),突出重要方面,解釋數(shù)據(jù),使用表格、數(shù)字和圖片來進(jìn)行具體陳述。

        而數(shù)據(jù)文件往往直接或間接由計(jì)算機(jī)或儀器產(chǎn)生。一般情況下,對文件有嚴(yán)格的標(biāo)準(zhǔn)要求,并由計(jì)算機(jī)輸出和進(jìn)行優(yōu)化處理。因此,數(shù)據(jù)文件客觀而清晰,一般情況下不需要人工檢查。

        1.3 科學(xué)質(zhì)量保障

        文字性出版物的科學(xué)質(zhì)量保障,一般以同行評審方式來實(shí)現(xiàn)。對一篇論文來說,編輯主要審閱作者的主張、邏輯性及對其他出版物的引用。同行評審即審閱人,其往往是同一領(lǐng)域的專家,要對主題有深刻理解。此外,由于論文是為了讓讀者閱讀,所以要對其進(jìn)行優(yōu)化,并且還對頁碼有限制。

        比較而言,數(shù)據(jù)是龐大的,而且數(shù)據(jù)存儲方式不可能優(yōu)化到使讀者都容易接受的程度。所以,多數(shù)情況下,數(shù)據(jù)的科學(xué)質(zhì)量保障不能做到完全使人滿意,而且一般都要依賴于計(jì)算機(jī)的幫助。怎樣對數(shù)據(jù)進(jìn)行科學(xué)質(zhì)量保障還不是很明確。此外,數(shù)據(jù)的科學(xué)質(zhì)量保障在很大程度上還要看數(shù)據(jù)類型及其所屬的研究領(lǐng)域。而除了原始數(shù)據(jù)本身,還需要對元數(shù)據(jù)進(jìn)行審核??傊?,科學(xué)數(shù)據(jù)的審閱人員必須具有相應(yīng)的能力和軟件工具使用技能才可能進(jìn)行質(zhì)量控制。由于上述困難,對數(shù)據(jù)質(zhì)量的控制往往不是靠同行評審,而是靠作者自己。

        1.4 版式質(zhì)量保障和技術(shù)質(zhì)量保障

        文字性出版物的版式質(zhì)量保障主要集中在處理文字、排版和結(jié)構(gòu)方面。一般來說,這個過程審閱人不需要對內(nèi)容有更深的理解。它是科學(xué)出版物質(zhì)量保障的一小部分內(nèi)容。

        對于數(shù)據(jù)文件,應(yīng)該稱為技術(shù)質(zhì)量保障。這個過程要對數(shù)據(jù)進(jìn)行驗(yàn)證,確保數(shù)據(jù)從源頭到目標(biāo)位置的無差錯傳輸。在此過程中,評審員要檢查數(shù)據(jù)是否完整,是否有異常。

        1.5 瀏覽和檢索

        研究論文直接包含檢索詞,而且有明確的元數(shù)據(jù),分類和索引過程相對簡單。數(shù)據(jù)庫支持所有前面提到的文本文件格式。

        如果數(shù)據(jù)文件格式不能被搜索引擎識別,或者數(shù)據(jù)本身非常大,那么數(shù)據(jù)文件的索引就必須限制在給定的元數(shù)據(jù)中,因此,數(shù)據(jù)文件的元數(shù)據(jù)是瀏覽和檢索的關(guān)鍵。

        1.6 存儲地址

        純文字文獻(xiàn),即使是綜合出版物也可以保存為單個文獻(xiàn),并存儲在倉儲中。因此,倉儲可作為長期存放地址,直接滿足用戶獲取論文的需求。

        數(shù)據(jù)文件處理時,面對的往往是千兆字節(jié)或萬兆字節(jié)的龐大數(shù)據(jù)文件。文件的大小帶來存儲空間、帶寬、備份系統(tǒng)及成本方面的問題。通常情況下,文本庫不能滿足管理龐大數(shù)據(jù)文件的需要。數(shù)據(jù)文件允許鏈接到外部資源,但伴隨著打不開鏈接及同步發(fā)展等問題[4]。

        2 數(shù)據(jù)出版過程

        2.1 知識獲取

        知識獲取是全人類特別是研究人員不可或缺的。知識以隱性知識和顯性知識兩種形式存在。這兩種形式通過社會化、內(nèi)部化、外部化及其融合進(jìn)行轉(zhuǎn)化。就出版物而言,有內(nèi)部化和外部化兩個相關(guān)轉(zhuǎn)化。內(nèi)部化描述從顯性知識到隱性知識的轉(zhuǎn)化。外部化是用顯性知識表達(dá)隱性知識的過程。對研究人員來說,可以把閱讀出版物和觀看演示從而接受各種信息并從中學(xué)習(xí)稱為內(nèi)部化。外部化指個人的信息傳播,例如會議中的演示或出版學(xué)術(shù)論文等。

        從公眾角度來看,一些研究人員的內(nèi)部化狀態(tài)和其他研究人員的外部化狀態(tài)可以相互產(chǎn)生作用。這種情況出現(xiàn)在某一研究人員的需求正好是其他研究人員提供的信息產(chǎn)品的場合。

        Nonaka等強(qiáng)調(diào)知識創(chuàng)新的關(guān)鍵在于隱性知識的調(diào)用和轉(zhuǎn)化,并提出著名的知識螺旋模型。知識的獲取被比喻成旋轉(zhuǎn)的螺旋。假設(shè)在每一個繞組中,研究人員首先處于內(nèi)部化狀態(tài),在此狀態(tài)下,他必須學(xué)習(xí),如通過讀書或聽報告(和其他人員的外部化輸出相對應(yīng));然后轉(zhuǎn)移到外部化狀態(tài),在這種狀態(tài)下,研究人員寫文章或作演示[5]。

        2.2 數(shù)據(jù)出版周期

        Andreas Hense等根據(jù)上面提到的螺旋單繞組,得到一個簡化的數(shù)據(jù)出版過程,即:內(nèi)部化——搜索和瀏覽、審核和學(xué)習(xí)、實(shí)驗(yàn);外部化——解釋和注釋數(shù)據(jù)、執(zhí)行質(zhì)量保障、出版和展示數(shù)據(jù)(如圖1所示)[6]。

        圖1 數(shù)據(jù)出版周期

        2.2.1 搜索和瀏覽

        新的研究往往開始于對相關(guān)數(shù)據(jù)的檢索和瀏覽。研究人員的出發(fā)點(diǎn)和工具取決于研究人員的研究領(lǐng)域和個人習(xí)慣。使用特定數(shù)據(jù)庫,最明顯的取舍標(biāo)準(zhǔn)是數(shù)據(jù)庫收錄條目的質(zhì)量和數(shù)量,這直接決定數(shù)據(jù)庫的質(zhì)量。研究人員是否給數(shù)據(jù)存儲庫提交研究成果,取決于存儲庫是否有吸引力,而存儲庫是否有吸引力很明顯取決于其質(zhì)量,如功能、設(shè)計(jì)、性能、穩(wěn)定性、易用性等,但同時也受使用參數(shù)、可接受性和社會聲譽(yù)等因素的影響。

        2.2.2 審核和學(xué)習(xí)

        獲取數(shù)據(jù)后,研究人員審核數(shù)據(jù)及處理數(shù)據(jù),包括熟悉及學(xué)習(xí)數(shù)據(jù)的各種活動。這是內(nèi)部化階段的基本程序,因?yàn)樵谶@一階段有一個明顯的隱性知識向顯性知識轉(zhuǎn)化的過程。

        2.2.3 實(shí) 驗(yàn)

        研究人員在此活動中,把新學(xué)到的知識應(yīng)用于新的研究。這可以通過開展新型實(shí)驗(yàn)或從不同角度處理數(shù)據(jù)來完成。因此,研究人員可能會獲得新數(shù)據(jù),并展開新研究。

        2.2.4 解釋和注釋數(shù)據(jù)

        這項(xiàng)活動涉及數(shù)據(jù)公布的準(zhǔn)備工作,因此是外部化階段的首個活動。由于數(shù)據(jù)文件非常簡單,研究人員需要對這些數(shù)據(jù)進(jìn)行解釋或注釋,以吸引其他科研人員。這個工作可通過編寫一個數(shù)據(jù)文件來完成,要強(qiáng)調(diào)有意義的部分。為了將來使用或者在存儲庫中能夠檢索,必須增加元數(shù)據(jù)。

        2.2.5 執(zhí)行質(zhì)量保障

        質(zhì)量保障最簡單的方式是由作者自己執(zhí)行,但眾所周知,作者很難發(fā)現(xiàn)自己的錯誤。更高級的方式是同行評審,一個或多個研究人員審查文章和數(shù)據(jù),如果不能達(dá)到格式或科學(xué)的質(zhì)量標(biāo)準(zhǔn),可以拒絕接受。這種方法被多數(shù)存儲庫和科技期刊采用。對于要出版的數(shù)據(jù)文件來說,可以延伸為對數(shù)據(jù)及其元數(shù)據(jù)的質(zhì)量控制。

        2.2.6 出版和展示數(shù)據(jù)

        數(shù)據(jù)文件及其元數(shù)據(jù)和附加文件的質(zhì)量得到保證后,就要出版或者存儲這些數(shù)據(jù)?!俺霭妗敝复鎯υ谝粋€公眾共享并可長期利用的空間,并分配一個可長期使用的標(biāo)識符號,如DOI或URN等。而“展示”指的是上傳到搜索引擎或存儲庫目錄中,并能夠被檢索。數(shù)據(jù)出版后想改變數(shù)據(jù)雖然說在技術(shù)上是可行的,但常用的做法是這些數(shù)據(jù)會被鎖定(具有不變性),只能再發(fā)布新版本的修正數(shù)據(jù)。此項(xiàng)活動結(jié)束后,另一個研究人員可以開始新的數(shù)據(jù)出版周期,再次從“搜索”和“瀏覽”開始。

        3 數(shù)據(jù)存儲庫如何采集高質(zhì)量數(shù)據(jù)

        數(shù)據(jù)存儲庫怎樣才能獲取高質(zhì)量的研究數(shù)據(jù)?首先存儲庫要對研究人員有吸引力,包括在內(nèi)部化和外部化階段都應(yīng)如此。只有存儲庫能吸引足夠的研究人員提交高質(zhì)量的研究數(shù)據(jù),才會有越來越多的研究人員利用這些數(shù)據(jù)集。存儲庫是否有吸引力有賴于下面3個因素:聲譽(yù),如果一個存儲庫擁有研究數(shù)據(jù)質(zhì)量高的聲譽(yù),其出版的數(shù)據(jù)將獲得很高的知名度,對研究者來說就具有很高價值??煽啃?,如果存儲庫的運(yùn)營得到機(jī)構(gòu)資助并有著悠久的傳統(tǒng),研究人員會相信它們的數(shù)據(jù)存儲是安全和長期的。過程,如果提交數(shù)據(jù)的過程和質(zhì)量保障過程有據(jù)可查,并且用戶界面友好,并能降低數(shù)據(jù)提交者的工作量,研究人員就會產(chǎn)生信任。

        根據(jù)前面提到的數(shù)據(jù)出版周期,高質(zhì)量的數(shù)據(jù)采集主要發(fā)生在外部化階段,所以下面主要介紹“解釋和注釋數(shù)據(jù)”“執(zhí)行質(zhì)量保障”“出版和展示數(shù)據(jù)”三個環(huán)節(jié)的工作。

        3.1 解釋和注釋數(shù)據(jù)

        首先要考慮研究人員是否愿意公開自己的研究數(shù)據(jù)。有些研究人員對數(shù)據(jù)公開的意義還不是很明確,但不久的將來,在以數(shù)據(jù)為中心的學(xué)科,對其研究人員的評價將不僅通過他們的文字出版物也要通過數(shù)據(jù)出版物以及相應(yīng)的引文來進(jìn)行[6]。

        很多研究人員往往不知道在哪里可以永久存儲數(shù)據(jù),數(shù)據(jù)出版對他們來說是困難和昂貴的。著名的澳大利亞研究協(xié)作服務(wù)(Australian Research Collaboration Service, ARCS)項(xiàng)目提供了成功的案例。該項(xiàng)目旨在給澳大利亞研究人員提供數(shù)據(jù)存儲、傳輸、訪問和共享的工具和服務(wù)。其中 “數(shù)據(jù)組織” 服務(wù)提供免費(fèi)的數(shù)據(jù)存儲功能,數(shù)據(jù)還可以共享。這項(xiàng)服務(wù)旨在盡快把數(shù)據(jù)存儲在“數(shù)據(jù)組織”中以優(yōu)化協(xié)作,減少數(shù)據(jù)冗余,并避免滯后傳輸增加的步驟?!皵?shù)據(jù)組織”還有一個顯著特點(diǎn)即操作系統(tǒng)集成,并可在其他網(wǎng)站上進(jìn)行數(shù)據(jù)備份[7]。太陽能、地球物理及相關(guān)的環(huán)境數(shù)據(jù)可存儲在“世界數(shù)據(jù)中心系統(tǒng)”(World Data Center System,為WDC)。這些學(xué)科的研究人員可以進(jìn)入該數(shù)據(jù)中心。中心分布在世界各地,提交的數(shù)據(jù)可長期存檔[8]。

        除了數(shù)據(jù)存儲以外,還要用元數(shù)據(jù)對原始數(shù)據(jù)進(jìn)行注釋。為了避免出現(xiàn)錯誤,應(yīng)盡可能早地捕獲元數(shù)據(jù),即在原始數(shù)據(jù)收割時就加入元數(shù)據(jù)。

        3.2 執(zhí)行質(zhì)量保障

        科學(xué)數(shù)據(jù)的質(zhì)量保障有科學(xué)質(zhì)量保障和技術(shù)質(zhì)量保障之分。其中技術(shù)質(zhì)量保障程序通過技術(shù)規(guī)范,如可接受的文件格式或具體的XML架構(gòu)來執(zhí)行。技術(shù)質(zhì)量保障是一個系統(tǒng)化的程序。科學(xué)質(zhì)量保障需要計(jì)算機(jī)支持,特別是批量或大量數(shù)據(jù)的處理。原始數(shù)據(jù)的質(zhì)量保障一般主要靠作者自己。這個過程中作者可借助軟件工具,例如檢查數(shù)據(jù)工具、可視化數(shù)據(jù)工具及數(shù)據(jù)的異常提示工具等。

        由德國研究基金會(German Research Foundation,DFG)資助的研究項(xiàng)目“環(huán)境數(shù)據(jù)公布”(Publication of Environmental Data),在實(shí)施過程中開發(fā)了獨(dú)立的審查氣象數(shù)據(jù)的軟件包。該軟件包根據(jù)用戶參數(shù)對異常數(shù)據(jù)和其他偏差進(jìn)行檢測,然后經(jīng)過分析撰寫XML報告。這個報告和數(shù)據(jù)一起提交到可長期存放的存儲庫中,這就是保障科學(xué)質(zhì)量的措施[9]。

        核查元數(shù)據(jù)是科學(xué)質(zhì)量保障的另一個重要組成部分。上述研究項(xiàng)目也涉及這個問題。一個基于萬維網(wǎng)的軟件從相關(guān)長期存放庫中讀取現(xiàn)有元數(shù)據(jù),并以一系列主題分化的形式呈現(xiàn)元數(shù)據(jù),用戶可以逐步跟進(jìn),其功能類似于一個軟件安裝向?qū)А?/p>

        3.3 出版與展示數(shù)據(jù)

        數(shù)據(jù)的出版過程即數(shù)據(jù)的存儲和識別,數(shù)據(jù)的展示過程即在存儲庫儲存后用搜索引擎可以查詢。澳大利亞“國家數(shù)據(jù)服務(wù)”(Australian National Data Service,ANDS )旨在幫助研究人員發(fā)布、挖掘、訪問和利用研究數(shù)據(jù)。有些特殊服務(wù)如“發(fā)布我的數(shù)據(jù)(Publish My Data)”服務(wù),幫助研究員用元數(shù)據(jù)出版研究數(shù)據(jù);“注冊我的數(shù)據(jù)(Register My Data)”服務(wù),協(xié)助研究人員和研究機(jī)構(gòu)宣傳他們的研究數(shù)據(jù);“識別我的數(shù)據(jù)(Identify My Data)”服務(wù),給研究人員的數(shù)據(jù)提供永久標(biāo)識符[10-11]。

        科學(xué)是無國界的。這也正是幾個國家機(jī)構(gòu)于2010年1月聯(lián)合建立國際性的DataCite的原因。DataCite是一個不以盈利為目的的機(jī)構(gòu),如果組織注冊研究數(shù)據(jù)集,就將分配到一個永久標(biāo)識符。這將減少基礎(chǔ)設(shè)施成本,更好地整合國家基礎(chǔ)設(shè)施和先進(jìn)的搜索功能,以改善研究人員的數(shù)據(jù)集意識。

        4 小 結(jié)

        科學(xué)數(shù)據(jù)出版在我國還是一個嶄新的研究領(lǐng)域。我國科學(xué)數(shù)據(jù)出版和共享在實(shí)踐中還存在許多問題。針對科學(xué)數(shù)據(jù)重復(fù)生成、投入大,科研單位輕視科學(xué)數(shù)據(jù)的出版和管理,科學(xué)數(shù)據(jù)流失嚴(yán)重,科學(xué)數(shù)據(jù)獲取困難等問題,本文介紹了一個簡單的數(shù)據(jù)出版過程,并指出數(shù)據(jù)存儲庫是科學(xué)數(shù)據(jù)存儲和獲取的一種重要方式。

        注 釋

        [1]Steve Androulakis, Ashley M Buckle, Ian Atkinson, et al. Archer — e-research tools for research data management[J]. The International Journal of Digital Curation,2009(1):22-33

        [2]Plale B, Gannon D, Alameda J. Active management of scientific data[J]. Internet Computing, IEEE, 2005,9(1):27-34

        [3]王萍,趙丹陽,王玉超. 基于網(wǎng)格技術(shù)的科學(xué)數(shù)據(jù)存儲與共享[J].圖書情報工作,2011(13):63-66

        [4]Andrew Treloar, David Groenewegen, Cathrine Harboe-Ree. The Data Curation Continuum: Managing Data Objects in Institutional Repositories[J/OL]. [ 2012-10-20]. http://www.dlib.org/dlib/september07/treloar/09treloar.html

        [5]Nonaka Ikujiro, Toyama Ryoko, Noboru Konno. SECI, Ba and Leadership: a Unified Model of Dynamic Knowledge Creation[J].Long Range Planning,2000,33(1):5-34

        [6]Andreas Hense, Florian Quadt. Acquiring High Quality Research Data[J/OL]. [ 2012-11-20].http://www.dlib.org/dlib/january11/hense/01hense.html

        [7]ARCS. Data Services Overview[EB/OL]. [2012-12-01].http://www.arcs.org.au/index.php/services/data-services

        [8]ICSU. World Data System[EB/OL]. [2012-03-01].http://www.icsu-wds.org/

        [9]Andreas N Hense. Publication of Environmental Data[EB/OL]. [2012-12-08].http://misc.jisc.ac.uk/vre/projects/publication-environmental-data

        [10]Adrian Burton, Andrew Treloar. Publish my data: A composition of services from ANDS and ARCS[C].In 2009 Fifth IEEE International Conference on e-Science. United Kingdom: Oxford, 2009 :164-170

        [11]Stefanie Kethers, Xiaobin Shen, Andrew E, et al. Discovering Australia's Research Data[C/OL].[2012-10-01].http://andrew.treloar.net/research/publications/jcdl2010/jcdl158-kethers.pdf

        (收稿日期:2013-03-23)

        成人动漫久久| 日本加勒比精品一区二区视频| 精品人妻码一区二区三区红楼视频| 免费黄片小视频在线播放| 成年丰满熟妇午夜免费视频 | 亚洲中文字幕无码中文字| 亚洲精品乱码久久久久久久久久久久| av中文字幕综合在线| 亚洲无线码1区| 国产一级一厂片内射视频播放| 亚洲成人精品在线一区二区| 婷婷综合另类小说色区| 色www永久免费视频| 亚洲国产另类久久久精品黑人| 国产精品公开免费视频| 激情人妻中出中文字幕一区| 精品一区二区在线观看免费视频| 亚洲综合激情另类小说区| 免费人妻无码不卡中文字幕18禁| 真人二十三式性视频(动)| 中文字幕久久久久人妻无码| 免费在线观看蜜桃视频| 国产一区二区三区啊啊| 精品久久久久久无码中文野结衣 | 国产精品露脸张开双腿| 又爽又猛又大又湿的视频| 亚洲一区二区三区精品视频| 亚洲中文字幕无码av永久| 天天色影网| a毛片全部免费播放| 亚洲一区二区三区成人在线| 变态另类人妖一区二区三区| 国产在线精品一区二区三区直播| 亚洲人成色777777老人头| 久久精品国产亚洲av大全相关| 在线看亚洲一区二区三区| 国99精品无码一区二区三区| 天干天干啦夜天干天2017| 国产成人久久精品激情91| 杨幂一区二区系列在线| 少妇高潮一区二区三区99|