◎彭秀媛 王 楓 周國民
科學數(shù)據(jù)共享模式研究并不是一個新的研究主題,但在數(shù)據(jù)密集型科學研究范式和web2.0模式下,新的數(shù)據(jù)對象和科學數(shù)據(jù)共享需求的出現(xiàn),深刻影響著科學數(shù)據(jù)共享模式。農(nóng)業(yè)科學數(shù)據(jù)共享研究對象由國家科技計劃項目數(shù)據(jù)、政府部門長期采集的科學數(shù)據(jù)和管理的業(yè)務數(shù)據(jù),擴展到了廣大農(nóng)業(yè)科研人員在研究工作中所產(chǎn)生的大量分布式科學數(shù)據(jù)。數(shù)據(jù)共享也需將依靠自上而下的任務推進模式轉(zhuǎn)變?yōu)樽韵露系膽玫贡颇J?。因此基于農(nóng)業(yè)科學數(shù)據(jù)特點及需求,探索面向重用的農(nóng)業(yè)科學數(shù)據(jù)共享模式,對于推動農(nóng)業(yè)科學數(shù)據(jù)資源建設,支撐國家及區(qū)域農(nóng)業(yè)科技創(chuàng)新有著重要意義。
隨著技術(shù)的進步和需求的變更,共享模式研究的范圍不斷擴大、研究重點也不斷轉(zhuǎn)移。學者們從不同范圍、不同層面、不同角度對共享模式進行了研究和實踐,按照共享對象可歸納為文獻信息資源共享模式、政府信息資源共享模式、科學數(shù)據(jù)共享模式、知識共享模式四類。其中較多針對文獻信息資源共享模式進行研究,科學數(shù)據(jù)共享模式的研究仍處于探索階段。上述共享模式的對象、目的和角度不盡相同,但都構(gòu)建了符合其需求的最佳模式。從發(fā)展趨勢來看,共享模式將呈現(xiàn)多種形式共存、全方位共享的局面。
在科學數(shù)據(jù)共享模式研究方面,不同研究角度帶給我們紛繁多樣的科學數(shù)據(jù)共享模式,總體來看,在抽象化共享模式研究方面,微觀層面上圍繞科學數(shù)據(jù)對象,中觀層面關(guān)注共享運行組織,宏觀層面著眼于共享制度;在具體化共享模式研究方面,針對地球系統(tǒng)科學數(shù)據(jù)、國家人口和健康科學數(shù)據(jù)、基因和臨床數(shù)據(jù)等對象開展了實踐研究[1]。不同領(lǐng)域的科學數(shù)據(jù)需求和共享對象特質(zhì)決定了科學數(shù)據(jù)的共享模式,例如氣象學、遙感、水文等領(lǐng)域研究主要重用大型標準化數(shù)據(jù)集,其共享模式主要采用政府主導的共享模式;生態(tài)等領(lǐng)域研究則更需要一些小型分布式科學數(shù)據(jù),其共享模式主要采用個體間或基于數(shù)據(jù)社區(qū)等中間體形態(tài)的共享模式;農(nóng)業(yè)領(lǐng)域研究將組合涉農(nóng)多領(lǐng)域科學數(shù)據(jù)共同開展,因此其所需模式更為復雜多樣,實踐更具特色?,F(xiàn)有科學數(shù)據(jù)共享模式研究只著眼于抽象化共享模式或具體化共享模式展開,未見結(jié)合抽象化模式和具體化模式的共享模式研究思路。
前期以遼寧省為例對農(nóng)業(yè)科學數(shù)據(jù)的用戶情況、資源現(xiàn)狀、共享現(xiàn)狀、重用情況和需求情況進行了調(diào)研[2]。通過對調(diào)研結(jié)果進行深入分析,總結(jié)了農(nóng)業(yè)科學數(shù)據(jù)相關(guān)特點:
1.農(nóng)業(yè)科學數(shù)據(jù)特點:除具有來源復雜、內(nèi)容復雜、傳播復雜、地域性、季節(jié)性、多樣性、周期性等特點外,還具有以下特點:數(shù)據(jù)存量大;數(shù)據(jù)呈現(xiàn)“小集中、大分散”的分布模式;數(shù)據(jù)類型多樣;數(shù)據(jù)標準化程度低;大部分數(shù)據(jù)獲取方式原始。
2.農(nóng)業(yè)科學數(shù)據(jù)重用特點:處理程度不高;數(shù)據(jù)重用行為較少;數(shù)據(jù)重用方式單一;論文附帶的證明數(shù)據(jù)應用頻繁。
3.農(nóng)業(yè)科學數(shù)據(jù)共享特點:數(shù)據(jù)共享意愿強烈;可共享的數(shù)據(jù)資源充足;共享方式單一;共享機制不完善。
科學數(shù)據(jù)重用模式可歸納為以下三類:1.數(shù)據(jù)層面的傳統(tǒng)科學數(shù)據(jù)重用模式(包括基于私有數(shù)據(jù)接口的數(shù)據(jù)重用、基于SOA等架構(gòu)接口服務的數(shù)據(jù)重用、基于數(shù)據(jù)交換代理的數(shù)據(jù)重用);2.組織層面的科學數(shù)據(jù)重用模式(包括科學數(shù)據(jù)集成檢索與服務、科學數(shù)據(jù)語義化組織與再利用等);3.應用層面的科學數(shù)據(jù)重用模式(包括特定科學數(shù)據(jù)處理流程構(gòu)建、基于科學數(shù)據(jù)挖掘新知識等)。
1.農(nóng)業(yè)科學數(shù)據(jù)共享模式構(gòu)建思路
研究構(gòu)建的數(shù)據(jù)共享模式為抽象化和具體化相結(jié)合的共享模式,首先提出抽象化數(shù)據(jù)共享模式,基于此模式,在實際應用中衍生出與應用場景緊密聯(lián)系的多個具體化共享模式。抽象化數(shù)據(jù)共享模式研究路線為:綜合分析農(nóng)業(yè)科學數(shù)據(jù)特點和數(shù)據(jù)重用特點,設計面向重用的農(nóng)業(yè)科學數(shù)據(jù)分類。綜合分析農(nóng)業(yè)科學數(shù)據(jù)特點、數(shù)據(jù)重用特點和數(shù)據(jù)共享特點,基于農(nóng)業(yè)科學數(shù)據(jù)分類,在適應需求、適度超前、因地制宜、漸進發(fā)展、可持續(xù)等共享模式構(gòu)建原則下,開展農(nóng)業(yè)科學數(shù)據(jù)抽象化共享模式研究(圖1)。
圖1 農(nóng)業(yè)科學數(shù)據(jù)抽象化共享模式研究路線
2.面向重用的農(nóng)業(yè)科學數(shù)據(jù)分類
數(shù)據(jù)分類是數(shù)據(jù)共享和重用工作中不可或缺的環(huán)節(jié)。國內(nèi)外進行科學數(shù)據(jù)共享建設的相關(guān)機構(gòu)也都建有自己的分類體系,但各自獨立、差異很大,且更多考慮檢索的需求,缺乏面向農(nóng)業(yè)科學數(shù)據(jù)重用,兼顧農(nóng)業(yè)科學數(shù)據(jù)特點的數(shù)據(jù)分類[3-5]。根據(jù)農(nóng)業(yè)科學數(shù)據(jù)重用特點和重用模式,結(jié)合文獻調(diào)研結(jié)果,研究認為將農(nóng)業(yè)科學數(shù)據(jù)分為間證數(shù)據(jù)、基準數(shù)據(jù)、一次數(shù)據(jù)、二次數(shù)據(jù)四類更為合理(圖2)。其中間證數(shù)據(jù)和基準數(shù)據(jù)包含于一次數(shù)據(jù)和二次數(shù)據(jù),但根據(jù)科學數(shù)據(jù)重用的特點,間證數(shù)據(jù)和基準數(shù)據(jù)作為廣泛重用的數(shù)據(jù)類型,特將其從一次數(shù)據(jù)和二次數(shù)據(jù)中分離出來進行考慮。
圖2 農(nóng)業(yè)科學數(shù)據(jù)分類及關(guān)系
(1)間證數(shù)據(jù)。間證數(shù)據(jù)是指支撐科技論文的科學數(shù)據(jù),也是形成論文結(jié)論和驗證論文結(jié)果的必要數(shù)據(jù),NIH將此類數(shù)據(jù)定義為“最終數(shù)據(jù)(final data)”[6]。其主要作用是作為同行評審的參考依據(jù),以及論文發(fā)表后的研究再現(xiàn)。
間證數(shù)據(jù)目前主要有論文附件、論文補充數(shù)據(jù)和數(shù)據(jù)論文三種形式。其中論文附件是指使用的方法、圖表、公式等支撐論文主要內(nèi)容的數(shù)據(jù);論文補充數(shù)據(jù)是指原始與衍生數(shù)據(jù)集、軟件代碼、視頻與音頻文件等不適合印刷的有效電子文件數(shù)據(jù)[7]。數(shù)據(jù)論文可被認為是按照學術(shù)規(guī)范出版的、能夠被檢索的、用來描述一個或多個可在線訪問數(shù)據(jù)集的數(shù)據(jù)元數(shù)據(jù)文件[8]。論文附件、論文補充形式早已有之,較為普遍,數(shù)據(jù)論文或許是未來的主要形式。
(2)基準數(shù)據(jù)?;鶞蕯?shù)據(jù)是指農(nóng)業(yè)統(tǒng)計數(shù)據(jù)、農(nóng)業(yè)常用參數(shù)和現(xiàn)代農(nóng)業(yè)基準數(shù)據(jù)等。
農(nóng)業(yè)統(tǒng)計數(shù)據(jù)包括全國農(nóng)業(yè)普查數(shù)據(jù)、中國統(tǒng)計年鑒(農(nóng)業(yè)部分)、省級農(nóng)業(yè)統(tǒng)計年鑒等;在科學研究領(lǐng)域還涉及實驗統(tǒng)計、氣象統(tǒng)計、論文統(tǒng)計等小門類統(tǒng)計,統(tǒng)計類別及側(cè)重各有不同。其中2005年出版的《中國農(nóng)業(yè)統(tǒng)計資料匯編1949-2004》是目前較為全面、系統(tǒng)的農(nóng)業(yè)統(tǒng)計資料[9]。
農(nóng)業(yè)常用參數(shù)有農(nóng)業(yè)物料基本參數(shù)、農(nóng)業(yè)環(huán)境參數(shù)、動植物機理參數(shù)(形態(tài)結(jié)構(gòu)參數(shù)、農(nóng)林植物生物特性參數(shù)、農(nóng)田養(yǎng)分平衡和循環(huán)基本參數(shù)等)、農(nóng)業(yè)生產(chǎn)參數(shù)(品種參數(shù)、動植物營養(yǎng)參數(shù)、標準化生產(chǎn)技術(shù)參數(shù)等)、常用農(nóng)業(yè)機械和信息裝備技術(shù)參數(shù)、農(nóng)業(yè)科技成果經(jīng)濟效益評價指標等??蓹z索到的描述農(nóng)業(yè)參數(shù)的相關(guān)書籍是羅慶成于1984年編寫的《常用農(nóng)業(yè)參數(shù),系統(tǒng)和定額》。
現(xiàn)代農(nóng)業(yè)背景下,中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所于2011年提出了現(xiàn)代農(nóng)業(yè)基準數(shù)據(jù)這一新理念,是指以農(nóng)業(yè)信息規(guī)范和標準為基礎(chǔ),以現(xiàn)代信息技術(shù)為手段,收集和整理的產(chǎn)前、產(chǎn)中、產(chǎn)后各環(huán)節(jié)的基礎(chǔ)精準數(shù)據(jù)。包括農(nóng)業(yè)自然資源環(huán)境基準數(shù)據(jù)、現(xiàn)代農(nóng)業(yè)生產(chǎn)基準數(shù)據(jù)、現(xiàn)代農(nóng)業(yè)生產(chǎn)基準數(shù)據(jù)、現(xiàn)代農(nóng)業(yè)管理基準數(shù)據(jù)四類[10]。
(3)一次數(shù)據(jù)。經(jīng)文獻和網(wǎng)絡調(diào)研確定,本研究中一次數(shù)據(jù)的概念與“一手數(shù)據(jù)”和“原始數(shù)據(jù)”的概念相近。已有不同視角的概念界定:以統(tǒng)計視角來看,是指沒有經(jīng)過整理的數(shù)據(jù);以數(shù)據(jù)庫的視角來看,是指終端用戶存儲使用的各種數(shù)據(jù);以數(shù)據(jù)獲取方式來看,是指通過問卷、訪談、詢問等方式直接獲得的數(shù)據(jù)。本研究將科研活動中直接產(chǎn)生的觀察、調(diào)查、監(jiān)測、檢測和科學實驗數(shù)據(jù)統(tǒng)稱為一次數(shù)據(jù)。具有時效性好、相關(guān)性好、可信度高等特點,能夠解決待定問題,回答二次數(shù)據(jù)不能回答的具體問題。
(4)二次數(shù)據(jù)。經(jīng)文獻和網(wǎng)絡調(diào)研確定,本研究中二次數(shù)據(jù)的概念與“已有數(shù)據(jù)”和“二手數(shù)據(jù)”的概念相近。已有的概念將其界定為來源于他人的一次數(shù)據(jù),包含發(fā)表及未發(fā)表數(shù)據(jù),也有將其界定為對一次數(shù)據(jù)進行分析、整理和歸納形成的數(shù)據(jù)。本研究將按照不同需求系統(tǒng)加工、整理和分析獲得的數(shù)據(jù)產(chǎn)品和相關(guān)信息統(tǒng)稱為二次數(shù)據(jù)。
3.面向重用的農(nóng)業(yè)科學數(shù)據(jù)抽象化共享模式
為了能夠最大程度上發(fā)揮農(nóng)業(yè)科學數(shù)據(jù)的作用,同時保護數(shù)據(jù)擁有單位的利益,基于對已有共享模式的歸納分析,在科學數(shù)據(jù)共享模式構(gòu)建原則下,按照農(nóng)業(yè)科學數(shù)據(jù)共享模式構(gòu)建思路,提出了結(jié)合數(shù)據(jù)組織與數(shù)據(jù)分類的兩級抽象化共享模式(圖3)。
圖3 農(nóng)業(yè)科學數(shù)據(jù)共享模式
在組織層面,農(nóng)業(yè)科學數(shù)據(jù)組織工作需面向數(shù)據(jù)重用,滿足數(shù)據(jù)使用者的多元化需求,因此采用集中式與分布式結(jié)構(gòu)相結(jié)合的綜合組織模式。其中集中式共享模式具有數(shù)據(jù)集中、平臺集中、管理集中的特點,適用于共性的、通用的、利用率高的農(nóng)業(yè)科學數(shù)據(jù)資源,便于統(tǒng)一組織協(xié)調(diào),最大限度減少資源重復建設。分布式共享模式中數(shù)據(jù)資源由多個數(shù)據(jù)資源站點(如省院各所、地市農(nóng)科院等所屬資源)的科研部門或人員單級或多級分布存儲,隸屬關(guān)系不同,各具特色;基于統(tǒng)一平臺提供數(shù)據(jù)檢索、目錄導航和互操作等應用;基于較好的技術(shù)支撐和協(xié)作機制進行組織和管理。綜合以上兩種模式,基于統(tǒng)一平臺支撐農(nóng)業(yè)科學數(shù)據(jù)資源的管理與服務。
在數(shù)據(jù)層面,不同數(shù)據(jù)分類采取相對應的數(shù)據(jù)組織方式。其中間證數(shù)據(jù)和基準數(shù)據(jù)均為已發(fā)表或?qū)⒁l(fā)表的數(shù)據(jù),且利用頻繁,因此采取集中式方式進行共享更為合適;一次數(shù)據(jù)和二次數(shù)據(jù)一般分布在不同的地理位置,往往由不同的單位或個人擁有和管理,且部分只適合在一定條件下和一定范圍內(nèi)重用,需要留在科研團隊或科研人員手中,因此采取分布式方式進行共享更為合適。
4.共享模式的可行性分析
所提出的農(nóng)業(yè)科學數(shù)據(jù)共享模式從數(shù)據(jù)來源看,支持多單位聯(lián)合共建;從面向重用的數(shù)據(jù)分類看,適應農(nóng)業(yè)科研活動規(guī)律;從數(shù)據(jù)類型看,既支持規(guī)?;瘮?shù)據(jù),也支持小眾化數(shù)據(jù);從數(shù)據(jù)權(quán)益性質(zhì)看,即支持公益性的開放共享,也支持商業(yè)性的數(shù)據(jù)交易;從共享意愿看,滿足科研人員對其數(shù)據(jù)知識產(chǎn)權(quán)的掌控需求;從共享路徑看,支持橫向和縱向的聯(lián)合;從共享形式看,支持多模式并舉,互動式共享;從共享活動看,能夠滿足數(shù)據(jù)提供者和數(shù)據(jù)使用者共享活動需求;從數(shù)據(jù)重用看,支持個體、組織等多對象的數(shù)據(jù)重用活動;支持地方數(shù)據(jù)的原始積累;一定程度上緩解數(shù)據(jù)共享存在的知識產(chǎn)權(quán)保護、運行的可持續(xù)性、共享積極性方面的問題;有助于培養(yǎng)數(shù)據(jù)共享意愿,促進共享文化形成。
科學數(shù)據(jù)本身具有的可復制性和科學數(shù)據(jù)的綜合應用性,決定了科學數(shù)據(jù)資源的共享性。因此想要最大化地實現(xiàn)科學數(shù)據(jù)的價值,必須進行數(shù)據(jù)的充分共享和重用。本研究設計了面向重用的農(nóng)業(yè)科學數(shù)據(jù)分類,在以下三方面支撐和促進農(nóng)業(yè)科學數(shù)據(jù)共享與重用:面向數(shù)據(jù)擁有者,為其擁有的數(shù)據(jù)進行定位提供參考;面向數(shù)據(jù)用戶,為明確其數(shù)據(jù)重用需求提供參考;面向數(shù)據(jù)管理者,通過數(shù)據(jù)分類梳理出數(shù)據(jù)資源體系,有助于整體部署科學數(shù)據(jù)集的生成及進一步重用。提出了抽象化與具體化相結(jié)合的農(nóng)業(yè)科學數(shù)據(jù)共享模式構(gòu)建思路和技術(shù)路線,擴展了農(nóng)業(yè)科學數(shù)據(jù)共享對象范圍,能夠較好的支撐農(nóng)業(yè)科學數(shù)據(jù)共享與重用。