孫雨瀟,李艷麗,李峰,李斌
研究論文
數(shù)據(jù)重用影響因素對(duì)倉儲(chǔ)型數(shù)據(jù)管理平臺(tái)發(fā)展方向的啟示
孫雨瀟1,李艷麗1*,李峰1,李斌2
1.中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)環(huán)境與可持續(xù)發(fā)展研究所, 北京 100081,中國(guó);2.北京市農(nóng)林科學(xué)院林業(yè)果樹研究所, 北京 100093,中國(guó)
科學(xué)數(shù)據(jù)作為科學(xué)研究的有力工具和知識(shí)基礎(chǔ),其全流程的數(shù)據(jù)行為皆受研究者關(guān)注,數(shù)據(jù)重用作為其中關(guān)鍵的一環(huán),對(duì)于科學(xué)數(shù)據(jù)管理共享使用發(fā)展具有舉足輕重的意義。本文以中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)環(huán)境與可持續(xù)發(fā)展研究所農(nóng)業(yè)環(huán)境數(shù)據(jù)共享服務(wù)平臺(tái)為切入點(diǎn),引出數(shù)據(jù)重用的相關(guān)研究,根據(jù)時(shí)間維度對(duì)科學(xué)數(shù)據(jù)數(shù)據(jù)重用定義的演變進(jìn)行介紹,從數(shù)據(jù)重用影響框架的角度出發(fā),分析科研人員、科學(xué)數(shù)據(jù)、數(shù)據(jù)平臺(tái)三方面對(duì)數(shù)據(jù)重用的影響。探析較為流行與廣泛使用的倉儲(chǔ)型數(shù)據(jù)管理平臺(tái)模式,結(jié)合農(nóng)業(yè)數(shù)據(jù)共享服務(wù)平臺(tái)的現(xiàn)狀與問題,提出下一步發(fā)展啟示。
數(shù)據(jù)重用;影響因素;倉儲(chǔ)型;數(shù)據(jù)共享
2023年,國(guó)家數(shù)據(jù)局成立,這是提升我國(guó)數(shù)據(jù)治理能力的重要舉措。數(shù)據(jù)要素用起來,是數(shù)據(jù)要素價(jià)值發(fā)現(xiàn)、價(jià)值創(chuàng)造和價(jià)值實(shí)現(xiàn)多環(huán)節(jié)所構(gòu)建的完整流程。隨著第四范式的出現(xiàn),科學(xué)研究朝著更精確可靠的方向發(fā)展,這一范式的核心在于大量數(shù)字化、可視化的數(shù)據(jù)資料積累,這些數(shù)據(jù)既可用于實(shí)現(xiàn)科學(xué)發(fā)現(xiàn),又可作為建立新的科學(xué)研究的重要依據(jù)。在學(xué)術(shù)界,學(xué)者通過對(duì)科學(xué)數(shù)據(jù)全流程管理的研究,提出從數(shù)據(jù)監(jiān)測(cè)、組織、匯交、到存儲(chǔ)與共享全流程的對(duì)策與建議,其最終目的是實(shí)現(xiàn)科學(xué)數(shù)據(jù)資源的開放與最大化利用,即提高數(shù)據(jù)重用。國(guó)內(nèi)外學(xué)者對(duì)數(shù)據(jù)重用做了較多研究,國(guó)內(nèi)一些單位也在科學(xué)數(shù)據(jù)平臺(tái)方面做了一些探索。
農(nóng)業(yè)環(huán)境數(shù)據(jù)共享服務(wù)平臺(tái)是中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)環(huán)境與可持續(xù)發(fā)展研究所自建的數(shù)據(jù)共享共用平臺(tái),作為響應(yīng)國(guó)家科學(xué)數(shù)據(jù)管理的一次嘗試,充分體現(xiàn)了科學(xué)數(shù)據(jù)重用對(duì)于農(nóng)業(yè)科技發(fā)展的驅(qū)動(dòng)作用與重大意義,但該平臺(tái)如何能夠在數(shù)據(jù)浪潮中服務(wù)核心目標(biāo)人群,發(fā)揮重大效能,推動(dòng)農(nóng)業(yè)環(huán)境科學(xué)進(jìn)步仍需推敲。因此,本文首先介紹農(nóng)業(yè)環(huán)境數(shù)據(jù)共享服務(wù)平臺(tái),以文獻(xiàn)調(diào)研的方法分析數(shù)據(jù)重用的影響因素,通過案例分析法從影響因素角度出發(fā)探析倉儲(chǔ)型數(shù)據(jù)管理平臺(tái)發(fā)展使用案例,分析農(nóng)業(yè)數(shù)據(jù)共享服務(wù)平臺(tái)目前存在的問題,提出下一步發(fā)展啟示。
本文的研究技術(shù)路線如圖1所示。
為解決農(nóng)業(yè)環(huán)境科研數(shù)據(jù)存儲(chǔ)離散化、數(shù)據(jù)使用局限化、數(shù)據(jù)交換阻塞化的問題,提高科學(xué)數(shù)據(jù)重用率,中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)環(huán)境與可持續(xù)發(fā)展研究所依托科研項(xiàng)目經(jīng)費(fèi)建立了農(nóng)業(yè)環(huán)境數(shù)據(jù)共享服務(wù)平臺(tái),圍繞研究所學(xué)科方向分類建立數(shù)據(jù)目錄供檢索和查找,平臺(tái)架構(gòu)與功能根據(jù)科研人員對(duì)于科學(xué)數(shù)據(jù)使用的真實(shí)訴求進(jìn)行設(shè)計(jì),通過門戶網(wǎng)站與子系統(tǒng)實(shí)現(xiàn)從數(shù)據(jù)資源的購(gòu)置申請(qǐng)、檢索、匯交、共享等全流程的管理。研究所長(zhǎng)期堅(jiān)持重點(diǎn)研究人類生產(chǎn)活動(dòng)影響下光、溫、水、氣等環(huán)境要素的演變規(guī)律及其與農(nóng)業(yè)生物和農(nóng)用投入品相互作用機(jī)理及調(diào)控與保護(hù)對(duì)策,產(chǎn)生并保存了大量的長(zhǎng)期因子觀測(cè)數(shù)據(jù)與科學(xué)研究中的購(gòu)置數(shù)據(jù),該平臺(tái)的設(shè)計(jì)與建設(shè)為將科學(xué)數(shù)據(jù)與科研人員重用數(shù)據(jù)熱情充分調(diào)動(dòng),致力于釋放科學(xué)數(shù)據(jù)效能,為研究所內(nèi)部科學(xué)數(shù)據(jù)的重用奠定了良好的基礎(chǔ)。農(nóng)業(yè)環(huán)境科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)首頁如圖2所示。
圖1 技術(shù)路線
系統(tǒng)由1個(gè)門戶網(wǎng)站和5個(gè)子系統(tǒng)集成:數(shù)據(jù)中心門戶網(wǎng)站、數(shù)據(jù)購(gòu)置審批系統(tǒng)、數(shù)據(jù)匯交系統(tǒng)、用戶中心系統(tǒng)、貢獻(xiàn)積分系統(tǒng)、數(shù)據(jù)集目錄管理系統(tǒng)。門戶網(wǎng)站展示研究所內(nèi)部已匯交分享數(shù)據(jù)、提供分享對(duì)象查詢下載數(shù)據(jù)的接口,數(shù)據(jù)集目錄管理系統(tǒng)用于門戶網(wǎng)站展示數(shù)據(jù)分類的管理,數(shù)據(jù)購(gòu)置審批完成數(shù)據(jù)外購(gòu)的申請(qǐng)和審核,數(shù)據(jù)匯交系統(tǒng)作為核心模塊,實(shí)現(xiàn)數(shù)據(jù)的上傳、匯交、分享、推薦與維護(hù)。用戶中心用于研究所科研人員、組織機(jī)構(gòu)管理、系統(tǒng)權(quán)限管理。貢獻(xiàn)積分系統(tǒng)包括:激勵(lì)規(guī)則管理、數(shù)據(jù)上傳激勵(lì)、數(shù)據(jù)閱讀激勵(lì)、數(shù)據(jù)分享激勵(lì)、數(shù)據(jù)下載激勵(lì)、引用激勵(lì)等。
業(yè)務(wù)流程操作如圖3所示。
圖3 農(nóng)業(yè)環(huán)境數(shù)據(jù)共享服務(wù)平臺(tái)業(yè)務(wù)流程
數(shù)據(jù)重用的概念迄今尚未被明文界定。數(shù)據(jù)重用的概念研究,已由過去強(qiáng)調(diào)意義、結(jié)果與價(jià)值影響逐漸轉(zhuǎn)化為“科學(xué)數(shù)據(jù)重用”的本身意義。此概念最早被Marting ME[1]、King[2]提及,強(qiáng)調(diào)科學(xué)數(shù)據(jù)重用的主要目的是復(fù)現(xiàn)數(shù)據(jù)、增加科學(xué)創(chuàng)造與技術(shù)革新的可行性、并通過對(duì)科學(xué)數(shù)據(jù)的重用以此來增加科學(xué)數(shù)據(jù)的意義。國(guó)家科學(xué)委員會(huì)在1997年指出了數(shù)據(jù)的共享和重復(fù)利用行為更能體現(xiàn)數(shù)據(jù)的價(jià)值[3]。21世紀(jì)后,Karast等人[4]從新的角度提出觀點(diǎn),數(shù)據(jù)重用首先要服務(wù)于未參與數(shù)據(jù)創(chuàng)造的人群,其目的是避免科學(xué)數(shù)據(jù)的一次性使用,通過解決新的問題體現(xiàn)科學(xué)數(shù)據(jù)多次使用的價(jià)值。在數(shù)據(jù)驅(qū)動(dòng)發(fā)展的時(shí)代,研究學(xué)者需要將注意力更多關(guān)注于科學(xué)數(shù)據(jù)對(duì)于科學(xué)研究至關(guān)重要的作用[5]??茖W(xué)數(shù)據(jù)重用對(duì)于科研院所、高校及其他組織而言,其作用主要體現(xiàn)在三個(gè)方面:一是通過減少在科學(xué)研究過程中數(shù)據(jù)采集和處理的重復(fù)工作,達(dá)到降低成本、提高效率和減少錯(cuò)誤的作用;二是通過數(shù)據(jù)重用,數(shù)據(jù)分析和應(yīng)用可得到更深入和廣泛的挖掘,再次為數(shù)據(jù)提供者和使用者提供更深層次價(jià)值的信息;三是數(shù)據(jù)重用可促進(jìn)系統(tǒng)工作和團(tuán)隊(duì)合作,促進(jìn)數(shù)據(jù)共享和溝通,進(jìn)而有助于提高科學(xué)研究與成果效率,獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。
綜上所述,在本文中認(rèn)為,數(shù)據(jù)重用是利用一定的科學(xué)技術(shù)能力通過數(shù)據(jù)平臺(tái)等媒介,檢索獲取曾經(jīng)為解決舊問題而已經(jīng)產(chǎn)生的數(shù)據(jù),將其作為解決新科學(xué)問題的研究數(shù)據(jù),或依據(jù)檢索出來的已有的數(shù)據(jù)的基礎(chǔ)上衍生出新的數(shù)據(jù)(集)[6],進(jìn)一步釋放原有數(shù)據(jù)的價(jià)值的行為。通過整合相關(guān)研究發(fā)現(xiàn),這類型的公共平臺(tái)多為倉儲(chǔ)型數(shù)據(jù)管理平臺(tái)。
通過對(duì)相關(guān)文獻(xiàn)的梳理,本文構(gòu)建了數(shù)據(jù)重用的基本框架,數(shù)據(jù)重用因素主要集中在科研人員自身、數(shù)據(jù)屬性、平臺(tái)特性三個(gè)方面[7]。當(dāng)數(shù)據(jù)重用具有足夠的驅(qū)動(dòng)力后,科研人員會(huì)產(chǎn)生數(shù)據(jù)下載、引用等重用行為,但在數(shù)據(jù)重用全流程中,也需要技術(shù)、組織、法律、資金、政策等因素的保障和支持才能實(shí)現(xiàn)(圖4)。
圖4 科學(xué)數(shù)據(jù)重用框架
3.1.1 學(xué)科領(lǐng)域因素
學(xué)科是否具備數(shù)據(jù)密集型特征對(duì)于數(shù)據(jù)重用并無明顯相關(guān)影響。王雪等[8]發(fā)現(xiàn),數(shù)據(jù)使用率較高的領(lǐng)域主要集中在自然科學(xué)領(lǐng)域和人文社科領(lǐng)域。在這些領(lǐng)域中,存在一些細(xì)分學(xué)科,有些細(xì)分學(xué)科的科學(xué)研究對(duì)于科學(xué)數(shù)據(jù)的依賴性更高,甚至需要完全依靠科學(xué)數(shù)據(jù)支撐。有研究表明,85%的數(shù)據(jù)重用行為主要發(fā)生在三個(gè)具有數(shù)據(jù)密集型特征的領(lǐng)域:農(nóng)業(yè)生物科學(xué)、環(huán)境科學(xué)和醫(yī)學(xué)。但隨著調(diào)研的深入,后續(xù)學(xué)者的研究推翻了數(shù)據(jù)重用行為與數(shù)據(jù)密集型學(xué)科正相關(guān)的關(guān)系,指出哪怕是在數(shù)據(jù)使用率較高的自然學(xué)科、人文學(xué)科,醫(yī)藥衛(wèi)生技術(shù)、社會(huì)科學(xué)領(lǐng)域等學(xué)科領(lǐng)域中,數(shù)據(jù)重復(fù)使用率也并未達(dá)到理想的水平,仍處于一個(gè)較低的水準(zhǔn)。
學(xué)科領(lǐng)域方向通過影響科研人員的背景、思維方式進(jìn)而影響到科學(xué)數(shù)據(jù)重用。不同學(xué)科領(lǐng)域科研人員對(duì)于科學(xué)數(shù)據(jù)使用的關(guān)注點(diǎn)存在差異性。研究表明,經(jīng)濟(jì)學(xué)家傾向于采集標(biāo)準(zhǔn)化、可靠且容易獲取的數(shù)據(jù),管理專家則傾向于采集精細(xì)、可靠且可訪問的數(shù)據(jù)。在生命科學(xué)的科學(xué)研究過程中,較多學(xué)者趨向于利用現(xiàn)存的資料來降低重復(fù)的工作量,尤其是在遺傳學(xué)、腫瘤學(xué)等需要大量實(shí)驗(yàn)結(jié)果的學(xué)術(shù)界,專家們更加看重科學(xué)數(shù)據(jù)的可靠性,這有助于保護(hù)自身利益,確保數(shù)據(jù)來源安全,所以,相比之下個(gè)人所擁有的數(shù)據(jù)信息往往不夠具備吸引力。
3.1.2 年齡因素
在Tenopir[9]的研究中,按照年齡梯次階段制定不同的小組開展數(shù)據(jù)重用表現(xiàn)的研究,不同年齡段的人在數(shù)據(jù)重用感知方面表現(xiàn)出不同的差異。低年齡組的研究人員在重用數(shù)據(jù)時(shí)候會(huì)對(duì)數(shù)據(jù)共享和重用的想法更為積極,更關(guān)注數(shù)據(jù)重用對(duì)于自身研究成果發(fā)表的幫助。與低年齡組相比,中年齡組對(duì)數(shù)據(jù)管理組織的興趣略低,他們更關(guān)注能否利用數(shù)據(jù)來創(chuàng)造新的信息,且他們的數(shù)據(jù)利用范圍較小,主要集中在組織內(nèi)部,例如課題組或?qū)W術(shù)研究團(tuán)隊(duì)。盡管高年齡組的研究者表示自己的行為有助于共享和重用大量的科學(xué)數(shù)據(jù),但是當(dāng)其他年齡段的人們嘗試從他們身上獲取這些信息時(shí),會(huì)遇到一定的困難,而且也會(huì)受到一定的使用限制。
3.2.1 數(shù)據(jù)質(zhì)量和可靠性
在科學(xué)數(shù)據(jù)重用態(tài)度調(diào)查中[10],有學(xué)者表示數(shù)據(jù)的完整與準(zhǔn)確性,是否易于使用這些關(guān)乎數(shù)據(jù)質(zhì)量層面的因素均會(huì)對(duì)數(shù)據(jù)重用行為產(chǎn)生正向或者反向的波動(dòng),權(quán)威的數(shù)據(jù)來源以及信得過的數(shù)據(jù)質(zhì)量有助于推動(dòng)數(shù)據(jù)重用行為的形成,研究者對(duì)于時(shí)間花費(fèi)、缺乏統(tǒng)一標(biāo)準(zhǔn)、數(shù)據(jù)錯(cuò)用等方面的擔(dān)憂阻礙其實(shí)施數(shù)據(jù)共享。在使用數(shù)據(jù)時(shí),必須遵循嚴(yán)格的數(shù)據(jù)管理流程,并確保所使用的數(shù)據(jù)具有可靠性和準(zhǔn)確性,這樣才能吸引相關(guān)研究人員的注意力,從而促進(jìn)數(shù)據(jù)的重復(fù)使用。當(dāng)提供科學(xué)數(shù)據(jù)的數(shù)據(jù)平臺(tái)或者是數(shù)據(jù)提供者在行業(yè)內(nèi)的聲譽(yù)與評(píng)價(jià)越權(quán)威可靠,越有利于促進(jìn)科學(xué)數(shù)據(jù)重用,這是因?yàn)榭煽康臄?shù)據(jù)來源能夠規(guī)避數(shù)據(jù)重用產(chǎn)生的一些風(fēng)險(xiǎn),諸如科學(xué)數(shù)據(jù)侵犯版權(quán)問題、研究成果發(fā)布受阻等[11]。
3.2.2 元數(shù)據(jù)
Piwowar等人[12]使用文獻(xiàn)計(jì)量學(xué)的方式對(duì)元數(shù)據(jù)從作者、資金、機(jī)構(gòu)、出版物、領(lǐng)域背景等方面分別提取因子,最終對(duì)15個(gè)變量運(yùn)用多元回歸的方法進(jìn)行分析,發(fā)現(xiàn)作者有經(jīng)驗(yàn)、出版物存在較為全面的數(shù)據(jù)共享政策、數(shù)據(jù)有基金支持會(huì)提高數(shù)據(jù)復(fù)用效率。Park等人[13]對(duì)生物學(xué)重元數(shù)據(jù)重用實(shí)踐進(jìn)行探索,在Piwowar的研究基礎(chǔ)上,選擇數(shù)據(jù)本身元數(shù)據(jù)、作者元數(shù)據(jù)、標(biāo)識(shí)符、基金元數(shù)據(jù)、其他元數(shù)據(jù)五個(gè)方面作為研究維度,并分別提取子指標(biāo),運(yùn)用線性回歸的方式構(gòu)建被預(yù)測(cè)模型,發(fā)現(xiàn)與作者和資金來源相關(guān)的元數(shù)據(jù)對(duì)預(yù)測(cè)數(shù)據(jù)重用具有正向影響,而數(shù)據(jù)描述和標(biāo)識(shí)符具有負(fù)面影響。
3.2.3 以數(shù)據(jù)獲得性為中心的研究
完善和規(guī)范的重用規(guī)則可以顯著改善科學(xué)數(shù)據(jù)的重用意愿和滿足度,從而促進(jìn)數(shù)據(jù)重用行為的積極性。這是因?yàn)橐环矫嬷赜靡?guī)則在數(shù)據(jù)重用過程中起到引導(dǎo)指示作用,直接影響到科學(xué)數(shù)據(jù)是否能夠方便快捷地獲取到,另一方面也能降低數(shù)據(jù)重用過程中引起的個(gè)人風(fēng)險(xiǎn)。適當(dāng)?shù)臄?shù)據(jù)訪問和共享控制機(jī)制能夠保護(hù)數(shù)據(jù)的私密性和保密性,適當(dāng)?shù)臄?shù)據(jù)存儲(chǔ)和管理機(jī)制又是獲取可靠的數(shù)據(jù)信息的保障,合適的數(shù)據(jù)分類和檢索機(jī)制,使使用者輕松、快捷地尋找所需的數(shù)據(jù)。當(dāng)政策規(guī)則更加完善時(shí),人們對(duì)科學(xué)數(shù)據(jù)的使用也會(huì)更加滿意[14]。
在平臺(tái)方面,秦順等人[15]對(duì)歐美國(guó)家14個(gè)科學(xué)數(shù)據(jù)出版平臺(tái)的服務(wù)建設(shè)的特點(diǎn)進(jìn)行研究,總結(jié)出平臺(tái)可提供的科學(xué)數(shù)據(jù)出版服務(wù)能夠提高數(shù)據(jù)重用意愿及滿意度。王朔桓[16]以調(diào)研的方法,對(duì)美國(guó)四個(gè)代表性地理科學(xué)數(shù)據(jù)服務(wù)平臺(tái)從建設(shè)現(xiàn)狀和服務(wù)內(nèi)容進(jìn)行角度進(jìn)行對(duì)比分析,總結(jié)數(shù)據(jù)檢索、新聞推送、數(shù)字地圖等平臺(tái)服務(wù)功能能夠促進(jìn)平臺(tái)的使用與推廣,并從資金來源、數(shù)據(jù)上傳與管理系統(tǒng)等方面對(duì)我國(guó)地理科學(xué)數(shù)據(jù)平臺(tái)提出發(fā)展建議。盧垚等[17]以Mendeley Data科研數(shù)據(jù)管理與共享平臺(tái)為研究對(duì)象,調(diào)研該平臺(tái)在數(shù)據(jù)治理流程、集成的開放生態(tài)系統(tǒng)、數(shù)據(jù)存儲(chǔ)管理和共享功能的優(yōu)勢(shì),這些優(yōu)勢(shì)鼓勵(lì)開放數(shù)據(jù)實(shí)踐,推動(dòng)數(shù)據(jù)活力釋放。
在目前對(duì)于數(shù)據(jù)重用的研究中,已經(jīng)考慮了影響科研重用的多重因素——科研人員自身、數(shù)據(jù)屬性、平臺(tái)特性等,科研人員學(xué)科背景、年齡等導(dǎo)致對(duì)于數(shù)據(jù)重用存在一定的主觀影響。以數(shù)據(jù)為中心的研究中可得知數(shù)據(jù)質(zhì)量與可靠性、來源的權(quán)威性、數(shù)據(jù)的易獲得性這些對(duì)于數(shù)據(jù)重用具有正面推動(dòng)作用,在對(duì)于平臺(tái)影響因素的研究方面,完備的功能設(shè)計(jì)有助于鼓勵(lì)數(shù)據(jù)重用。但在這三者中,科研人員的影響因素與數(shù)據(jù)的影響實(shí)際通過數(shù)據(jù)平臺(tái)中得以呈現(xiàn),如何依據(jù)數(shù)據(jù)重用因素完善規(guī)劃數(shù)據(jù)平臺(tái)的研究還為數(shù)不多,因此,再次圍繞數(shù)據(jù)重用的人與數(shù)據(jù)影響因素,探究倉儲(chǔ)型數(shù)據(jù)管理平臺(tái)的發(fā)展模式與方法。
倉儲(chǔ)型數(shù)據(jù)管理平臺(tái)是實(shí)現(xiàn)科學(xué)數(shù)據(jù)重用的重要手段及工具,其建設(shè)目標(biāo)是促進(jìn)科學(xué)數(shù)據(jù)的傳播與使用,首先長(zhǎng)期持續(xù)地進(jìn)行科學(xué)數(shù)據(jù)的收集與匯聚,通過系統(tǒng)配套數(shù)據(jù)庫實(shí)現(xiàn)資源統(tǒng)一存儲(chǔ),通過系統(tǒng)功能模塊實(shí)現(xiàn)科學(xué)數(shù)據(jù)管理,并提供數(shù)據(jù)集共享與發(fā)布服務(wù)。倉儲(chǔ)型數(shù)據(jù)管理平臺(tái)主要的使用者為科學(xué)研究人員、科研機(jī)構(gòu)、課題組或出版社。此類的信息系統(tǒng)能夠?yàn)橛脩籼峁?4小時(shí)的服務(wù),并支持圖像、文件、視頻等多種形式的科學(xué)數(shù)據(jù),用戶可以借此實(shí)現(xiàn)一系列的數(shù)據(jù)提交、管理、檢索、共享操作,有效促進(jìn)數(shù)據(jù)重用行為。
在大多數(shù)情況下,倉庫型數(shù)據(jù)庫的設(shè)計(jì)類似。如圖5所示,使用者可以在任何地點(diǎn)通過提交工具、API等方式提交各種類型數(shù)據(jù)。系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格檢查,使用云存儲(chǔ)、數(shù)據(jù)集群等技術(shù)統(tǒng)一存儲(chǔ)匯聚數(shù)據(jù),以保證數(shù)據(jù)的可靠性與完整性。此外,系統(tǒng)還會(huì)給每個(gè)數(shù)據(jù)集賦予全局獨(dú)特的標(biāo)記,以便保護(hù)數(shù)據(jù)作者的知識(shí)產(chǎn)權(quán)。這些數(shù)據(jù)被編輯成數(shù)據(jù)集,最終在各大平臺(tái)公開或部分公開展示,供讀者查詢、瀏覽、引用。
隨著技術(shù)的發(fā)展,基于倉儲(chǔ)的數(shù)據(jù)管理系統(tǒng)已得到普遍應(yīng)用,系統(tǒng)支持滿足多種需求,從數(shù)據(jù)提交、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分類與查詢、數(shù)據(jù)分析與出版。通常情況下,這些數(shù)據(jù)集都是由數(shù)據(jù)提供者分享,且能夠被其他人使用。此外,按照相關(guān)的授權(quán)協(xié)定向社會(huì)開放。
圖5 倉儲(chǔ)型數(shù)據(jù)管理平臺(tái)技術(shù)框架
倉儲(chǔ)型數(shù)據(jù)管理平臺(tái)代表性的系統(tǒng)為Figshare、Dryad及ScienceDB。本節(jié)從數(shù)據(jù)重用影響角度對(duì)典型應(yīng)用進(jìn)行分析(表1)。
表1 典型應(yīng)用考慮因素對(duì)比
Figshare科研數(shù)據(jù)共享平臺(tái)是英國(guó)Macmillian出版公司旗下的Digital Science公司創(chuàng)建,主要面向?yàn)樯歪t(yī)學(xué)領(lǐng)域?qū)W科,其目標(biāo)是Figshare旨在通過其先進(jìn)的技術(shù)和功能支持各種形式的科研數(shù)據(jù)共享,讓更多的科學(xué)資源和信息能夠輕松地獲取和利用。自其創(chuàng)辦伊始,F(xiàn)igshare便已經(jīng)和20多家著名的出版社展開深入合作。Figshare平臺(tái)接受大部分格式的研究成果,如視頻、音頻、PDF等。該平臺(tái)中數(shù)據(jù)上傳者對(duì)于數(shù)據(jù)是否公開具備自行決定權(quán)利,如果選擇公開它,數(shù)據(jù)將在平臺(tái)發(fā)布。如果選擇不披露,研究結(jié)果將保密僅對(duì)用戶自己可見。用戶可通過深入探索自身的研究成果,自主選擇發(fā)表時(shí)間。該平臺(tái)還提供在線協(xié)作空間,可向給合作伙伴共享私密的個(gè)人數(shù)據(jù),這種自行決定數(shù)據(jù)是否公開的功能設(shè)計(jì)有效迎合了不同年齡段科研人員的使用偏好。Figshare具備獨(dú)特的可視化文獻(xiàn)展示功能,使用戶能夠輕松獲取完整的數(shù)據(jù),不必再次下載文檔,提高了科學(xué)數(shù)據(jù)的易獲得性。另外,所有數(shù)據(jù)都擁有獨(dú)特的DOI,有效保護(hù)了數(shù)據(jù)提供者的知識(shí)產(chǎn)權(quán)。該平臺(tái)構(gòu)建了擴(kuò)展的數(shù)據(jù)庫,以便在具有前瞻意識(shí)的獨(dú)立門戶網(wǎng)站中展示相關(guān)信息,并通過優(yōu)化搜索引擎的推送功能來吸引更多的訪客。
2008年9月,國(guó)家科學(xué)基金會(huì)支持建設(shè)Dryad數(shù)據(jù)庫系統(tǒng),主要面向醫(yī)藥、生物學(xué)、生態(tài)學(xué)等學(xué)科。該數(shù)據(jù)庫系統(tǒng)向全球公眾提供科學(xué)數(shù)據(jù)無償下載、重復(fù)使用服務(wù)。該平臺(tái)審核所收集的所有數(shù)據(jù),包括但不限于:信息的準(zhǔn)確性、安全程度、內(nèi)容的安全性、版本的保護(hù)、隱私的保護(hù),并且還具備詳細(xì)的數(shù)據(jù)維護(hù)和數(shù)據(jù)缺失-恢復(fù)的管理策略[15],能夠最大程度地保證數(shù)據(jù)的可靠性、高質(zhì)量與完整性。Dryad還通過與眾多知名學(xué)術(shù)機(jī)構(gòu)的聯(lián)盟,實(shí)現(xiàn)信息的安全、及時(shí)、便捷地傳播,這一方面能夠增強(qiáng)數(shù)據(jù)的易獲得性,另一方面也提高了數(shù)據(jù)的權(quán)威性。DOI幫助研究者更加輕松地獲取、處理、傳播、應(yīng)用大量的數(shù)據(jù),極大地降低了科學(xué)數(shù)據(jù)的消耗。
ScienceDB是一個(gè)支持中文和英文的科學(xué)數(shù)據(jù)庫平臺(tái),為學(xué)術(shù)期刊和研究人員提供在線數(shù)據(jù)存儲(chǔ)、長(zhǎng)期存儲(chǔ)、及時(shí)獲取、共享、出版和引用服務(wù),支持《中國(guó)科學(xué)數(shù)據(jù)》《農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào)》等數(shù)據(jù)論文的提交和發(fā)布,該平臺(tái)為用戶提供完全免費(fèi)的通用數(shù)據(jù)發(fā)布服務(wù),格式諸如文字、電子表格、視頻、圖像、軟件代碼等,遵循CC0和CC BY 4.0等數(shù)據(jù)使用許可協(xié)議,提供數(shù)據(jù)集DOI、CSTR和PID標(biāo)識(shí)的自動(dòng)注冊(cè)和管理服務(wù),現(xiàn)數(shù)據(jù)信息互聯(lián)互通,提供數(shù)據(jù)集更新版本、評(píng)分、引用格式推薦、引用文件下載和元數(shù)據(jù)導(dǎo)出等服務(wù)。該平臺(tái)配套防篡改機(jī)制,數(shù)據(jù)每一次更新可溯源,配備底層數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理與數(shù)據(jù)災(zāi)備能力。Science對(duì)元數(shù)據(jù)的約束包含選填字段和必填字段,必填字段包含標(biāo)題、作者、學(xué)科等,此外還支持其他擴(kuò)展字段。
通過典型應(yīng)用分析,總結(jié)農(nóng)業(yè)環(huán)境數(shù)據(jù)共享服務(wù)平臺(tái)的主要特征與存在問題如下:該平臺(tái)面向農(nóng)業(yè)環(huán)境相關(guān)學(xué)科,平臺(tái)具備用戶與管理員角色,在用戶上傳數(shù)據(jù)后管理員需要完成數(shù)據(jù)審核,但未對(duì)需要審核的內(nèi)容進(jìn)行明確的定義,這對(duì)數(shù)據(jù)質(zhì)量、完整性、可靠性缺少一定的保障。平臺(tái)對(duì)于元數(shù)據(jù)的涉及較為完善,數(shù)據(jù)上傳者上傳數(shù)據(jù)時(shí)同時(shí)需要填寫元數(shù)據(jù)相關(guān)內(nèi)容。管理員通過對(duì)相關(guān)科學(xué)數(shù)據(jù)的元數(shù)據(jù)進(jìn)行展示,使用戶能夠通過元數(shù)據(jù)進(jìn)行初步的了解,如果對(duì)數(shù)據(jù)感興趣需要通過平臺(tái)聯(lián)系到管理員,是否提供共享的權(quán)限的主動(dòng)權(quán)在于管理員而非數(shù)據(jù)上傳者,這種模式的設(shè)計(jì)不利于數(shù)據(jù)提供者主動(dòng)提供數(shù)據(jù)。提供數(shù)據(jù)者的科研人員多為研究所科研人員,并未開展與同行業(yè)其他機(jī)構(gòu)的合作,這也導(dǎo)致數(shù)據(jù)來源范圍具有一定的局限性。在數(shù)據(jù)上傳后,數(shù)據(jù)上傳者無法獲取到doi,這對(duì)數(shù)據(jù)上傳者而言缺少了一份利益保障。另外,通過彭秀媛的研究發(fā)現(xiàn)[18],科研人員對(duì)于國(guó)內(nèi)外科研數(shù)據(jù)平臺(tái)的認(rèn)知度不高,如圖6所示,這在一定程度影響了數(shù)據(jù)重用的進(jìn)行。
穩(wěn)抓國(guó)家對(duì)于科研數(shù)據(jù)重用的契機(jī)。善于運(yùn)用指導(dǎo)性政策提高數(shù)據(jù)重用的執(zhí)行力。目前來看我國(guó)相繼制定《科學(xué)數(shù)據(jù)共享工程管理辦法》《科學(xué)數(shù)據(jù)共享?xiàng)l例》《國(guó)家科技計(jì)劃項(xiàng)目科學(xué)數(shù)據(jù)匯交辦法》《科學(xué)數(shù)據(jù)分類分級(jí)共享機(jī)器發(fā)布策略》等系列數(shù)據(jù)共享相關(guān)的指導(dǎo)性政策,對(duì)科學(xué)數(shù)據(jù)的保存與管理等問題作出了規(guī)定,對(duì)于數(shù)據(jù)重用具有重要指導(dǎo)意義。有效開展分布式數(shù)據(jù)科學(xué)資源的建設(shè)及共享工作,在支撐國(guó)家科技基礎(chǔ)條件平臺(tái)建設(shè)項(xiàng)目的基礎(chǔ)上,鼓勵(lì)科學(xué)數(shù)據(jù)共享相關(guān)研究。在科學(xué)數(shù)據(jù)重用全面發(fā)展過程中,仍以公益性為主,爭(zhēng)取建設(shè)、使用、推廣階段配套資金、人力與政策穩(wěn)定性持續(xù)性支持,合理把握和規(guī)劃,科學(xué)地投入。摒棄一次性產(chǎn)出,追求長(zhǎng)期性產(chǎn)出,研究平臺(tái)可持續(xù)性發(fā)展策略,保持?jǐn)?shù)據(jù)重用的生命力與健壯力。
圖6 國(guó)內(nèi)外農(nóng)業(yè)科研數(shù)據(jù)平臺(tái)認(rèn)知度調(diào)查
在合作范圍層面,除主要面向科研專家和團(tuán)隊(duì)的基礎(chǔ)上,加強(qiáng)與其他機(jī)構(gòu)數(shù)字出版社、高等院校的圖書館和學(xué)術(shù)組織的合作,在上傳數(shù)據(jù)后,能夠獲取DOI,以提供更加完善的農(nóng)業(yè)環(huán)境數(shù)據(jù)服務(wù),保護(hù)數(shù)據(jù)上傳者的權(quán)益。在功能設(shè)計(jì)方面,融入科學(xué)數(shù)據(jù)集成檢索與服務(wù),提高數(shù)據(jù)的易獲得性,通過中間件、元數(shù)據(jù)、網(wǎng)頁搜索代理等方式實(shí)現(xiàn)一站式檢索。只需通過門戶網(wǎng)站服務(wù)界面,可以同時(shí)檢索多個(gè)分布的、異構(gòu)的數(shù)據(jù)庫,并可將返回的結(jié)果進(jìn)行整合后,統(tǒng)一展現(xiàn),構(gòu)建涵蓋多學(xué)科、可讓用戶自由發(fā)布學(xué)術(shù)研究成果、可容納不同文檔格式的數(shù)據(jù)共享系統(tǒng)。在應(yīng)用層面,基于應(yīng)用需求,基于可視化與交互的應(yīng)用流程定制平臺(tái),快速構(gòu)建數(shù)據(jù)處理流程,通過可視化和交互功能提高科研人員參與度。在創(chuàng)新服務(wù)方面,利用TensoFlow、Weka等人工智能開發(fā)平臺(tái),運(yùn)用數(shù)據(jù)挖掘工具,采用分類、聚類、關(guān)聯(lián)等數(shù)據(jù)挖掘算法,對(duì)科學(xué)數(shù)據(jù)進(jìn)行處理,基于科學(xué)數(shù)據(jù)挖掘新知識(shí)。
制定宣傳推廣計(jì)劃,大力鼓勵(lì)使用平臺(tái),提高農(nóng)業(yè)環(huán)境數(shù)據(jù)平臺(tái)被認(rèn)知的范圍。在合作推廣方面,積極拓寬合作渠道,與出版商、高校圖書館聯(lián)盟建立良好的溝通,以確保平臺(tái)的用戶數(shù)量質(zhì)量,通過行業(yè)數(shù)據(jù)大會(huì)、行業(yè)數(shù)據(jù)出版期刊、單位公眾號(hào)等宣傳媒介對(duì)數(shù)據(jù)平臺(tái)進(jìn)行宣傳。在推廣戰(zhàn)略方面,從關(guān)鍵少數(shù)人群出發(fā),首先面向數(shù)據(jù)密集型學(xué)科用戶,在小范圍內(nèi)融入經(jīng)濟(jì)效益鼓勵(lì)吸引使用,定期組織召開科學(xué)數(shù)據(jù)重用使用體驗(yàn)分享會(huì),獲取真實(shí)體驗(yàn)感受,收集用戶使用意見,持續(xù)擴(kuò)大面向人群范圍。在平臺(tái)中設(shè)計(jì)具體的案例展示模板,模擬數(shù)據(jù)重用過程,演示舊數(shù)據(jù)如何解決新問題,更直觀地展示數(shù)據(jù)的價(jià)值。
[1] Martin M E. The committee on national statistics: 10years later[J]. American Statistician,1982,36(2):103-108.
[2] King G. Replication, replication[J].PS: Political Science & Politics, 1995,28(3) : 444-452.
[3] Committee on issues in the transborder flow of scientific data [EB/OL].[2021-04-16].http: //www. Nap.edu /openbook.php? record_id = 5504.
[4] Karast I H, Baker K S. Digital data practices and the long term ecological research program growing global[J]. International Journal of Digital Curation, 2008,3(2):42-58.DOI: https://doi.org/10.2218/ ijdc.v3i2.57
[5] Borgman C L.The conundrum of sharing research data[J]. Journal of the American Society for Information Science and Technology, 2011, 63( 6):1059-1078.
[6] 尹文辰.國(guó)內(nèi)外科學(xué)數(shù)據(jù)重用理論研究與實(shí)踐進(jìn)展[J].山東圖書館學(xué)刊,2022(2):7-14.
[7] 張瀟月,顧立平,胡良霖.國(guó)內(nèi)外開放科研數(shù)據(jù)重用困境解決措施述評(píng)[J].圖書館,2021,(3):80-89.
[8] 王雪,楊波.科學(xué)數(shù)據(jù)重復(fù)使用的學(xué)科差異性研究[J].情報(bào)雜志,2021,40(7):122-126.
[9] Tenopir C, Dalton E D, Allard S, et al. Changes in data sharing and data reuse practices and perceptions among scientists worldwide[J]. PLoS One, 2015,10(8):e0134826. doi: 10.1371/journal.pone.0134826.
[10] 文靜,何琳,韓正彪.科研人員科學(xué)數(shù)據(jù)重用意愿的影響因素研究[J].圖書情報(bào)知識(shí),2019(1):11-20.DOI:10.13366/j.dik.2019.01.011.
[11] 魏銀珍,鄧仲華,楊改貞. 科研人員數(shù)據(jù)重用意愿的影響因素研究[J]. 圖書館理論與實(shí)踐,2020(3):11-16.
[12] Piwowar H A,Vision T J. Data reuse and the open data citation advantage[J].PeerJ,2012,1(3):e175.doi: 10.7717/peerj.175.
[13] Park H, You S, Wolfram D. Informal data citation for data sharing and reuse is more common than formal data citation in biomedical fields[J]. Journal of the Association for Information Science and Technology,2018,69(11):1346-1354.
[14] Walli J C,Rolando E,BorgmanC L.If we share data, will anyone use them? Data sharing and reuse in the long tail of science and technology[J]. PLoS One, 2013,8(7) : e67332.
[15] 秦順,戴柏清.國(guó)際科研數(shù)據(jù)政策導(dǎo)向解析[J].圖書情報(bào)工作,2022,66(13):48-60.
[16] 王朔桓,陳媛媛.美國(guó)地理科學(xué)數(shù)據(jù)服務(wù)平臺(tái)建設(shè)調(diào)查研究[J].圖書館學(xué)研究,2018(8):46-54.
[17] 盧垚,王鸑飛,劉洪冰,等. Mendeley Data平臺(tái)開放科學(xué)數(shù)據(jù)實(shí)踐及啟示[J].數(shù)字圖書館論壇,2021(9):19-26.
[18] 彭秀媛. 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享模式與技術(shù)系統(tǒng)研究[D]. 北京: 中國(guó)農(nóng)業(yè)科學(xué)院,2018.
The Enlightenment of Factors Influencing Data Reuse on the Development Direction of Warehouse-Based Data Management Platforms
SUN YuXiao1, LI YanLi1*, LI Feng1, LI Bin2
1. Institute of Environment and Sustainable Development in Agriculture,Chinese Academy of Agricultural Sciences, Beijing 100081, China; 2. Institute of Forestry and Pomology, Beijing Academy of Agricultural and Forestry Sciences, Beijing 100093, China
As a powerful tool and knowledge foundation for scientific research, scientific data have attracted the attention of researchers throughout its entire process of data behavior. Data reuse, as a key component, is of great significance for the development of scientific data management and sharing. Taking the Agricultural Environment Data Sharing Service Platform, developed by the Institute of Agricultural Environment and Sustainable Development in Agriculture, Chinese Academy of Agricultural Sciences, as the starting point, the article introduces relevant research on data reuse and the evolution of the definition of scientific data reuse in terms of time dimension. From the perspective of the impact framework of data reuse, it analyzes the impact of researchers, scientific data, and data platforms on data reuse. Moreover, the article explores the popular and widely-used warehouse-based data management platform models, and proposes the next development inspiration, regarding to the current situation and problems of agricultural data sharing service platforms.
data reuse; influencing factors; warehouse type; data sharing
孫雨瀟,李艷麗,李峰,李斌. 數(shù)據(jù)重用影響因素對(duì)倉儲(chǔ)型數(shù)據(jù)管理平臺(tái)發(fā)展方向的啟示[J]. 農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào), 2023, 5(3): 2-10.
SUN YuXiao, LI YanLi, LI Feng, LI Bin.The Enlightenment of Factors Influencing Data Reuse on the Development Direction of Warehouse-Based Data Management Platforms[J]. Journal of Agricultural Big Data, 2023, 5(3): 2-10.
2023-07-16;
2023-08-02
中央級(jí)公益性科研院所基本科研業(yè)務(wù)費(fèi)專項(xiàng)(No.BSRF202315)
孫雨瀟,E-mail:sunyuxiao@caas.cn;通信作者李艷麗,E-mail:liyanli@caas.cn。
農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào)2023年3期