趙輝
(中國科學(xué)技術(shù)信息研究所,北京 100038)
收集、管理和使用科學(xué)數(shù)據(jù)對國家科技創(chuàng)新和社會發(fā)展具有重要戰(zhàn)略意義。政府部門及相關(guān)機構(gòu)是科學(xué)數(shù)據(jù)產(chǎn)生的重要機構(gòu)[1],建立高效的科學(xué)數(shù)據(jù)管理與共享機制是提升科學(xué)數(shù)據(jù)利用率和創(chuàng)新效率的關(guān)鍵所在。美國政府部門及相關(guān)機構(gòu)在科學(xué)數(shù)據(jù)管理機制構(gòu)建方面具有成功經(jīng)驗,美國地質(zhì)調(diào)查局(USGS)是科學(xué)數(shù)據(jù)收集、管理和共享服務(wù)的重要機構(gòu)之一,遵循美國科學(xué)數(shù)據(jù)共享的法規(guī)和制度,致力于生態(tài)、氣候、土地使用變化、能源和礦產(chǎn)資源、環(huán)境健康、自然災(zāi)害、水資源領(lǐng)域的數(shù)據(jù)資源開放和共享,對其進行研究可以為我國政府部門制定科學(xué)數(shù)據(jù)管理政策、構(gòu)建科學(xué)數(shù)據(jù)管理機制提供參考。
USGS在1879年建立之初,就簽署了各種與數(shù)據(jù)管理與共享相關(guān)的民事法案(《美國法典》,第20頁、第394~395頁),授權(quán)USGS向社會公布其從事科學(xué)活動的數(shù)據(jù)和發(fā)現(xiàn)。
USGS將公開出版物、地圖、數(shù)據(jù)和模型都歸入數(shù)據(jù)管理范疇,將公開出版物、地圖、數(shù)據(jù)和模型統(tǒng)稱為數(shù)據(jù)產(chǎn)品,并保證公眾所獲得的產(chǎn)品在技術(shù)上是合格的,且經(jīng)過同行評議。對于這些產(chǎn)品,USGS堅持嚴格的開發(fā)、審查、批準和發(fā)布政策、標準及程序。2013年2月22日,美國科技政策辦公室(oSTP)發(fā)布備忘錄——“增強對聯(lián)邦資助科學(xué)研究成果的訪問”[2],號召所有年度研究與開發(fā)支出超過1億美元的聯(lián)邦機構(gòu)來共同執(zhí)行一個計劃,提高聯(lián)邦資助所形成的直接科學(xué)研究成果(包括同行評議出版物和數(shù)字化數(shù)據(jù))的開放獲取。美國內(nèi)政部2015財年全部年度研究與開發(fā)預(yù)算資金為9.25億美元,其中,74%(6.86億美元)分配給了USGS,其余部分分配給了其他的內(nèi)政部門。在6.86億美元中,超過10%(約7 000萬美元)分配給了非USGS下屬的研發(fā)團隊[3]。這些資金所形成的研究成果都屬于oSTP所提出的數(shù)據(jù)開放獲取計劃的管理范圍,具體包括3部分:①USGS資助的科學(xué)研究活動,或者是由USGS管理的科學(xué)研究活動所形成的數(shù)據(jù)成果;②USGS主動發(fā)布的數(shù)據(jù)成果;③USGS科學(xué)家,或者承擔USGS資助研究活動的科學(xué)家對外發(fā)布的數(shù)據(jù)成果。
2013年開始執(zhí)行的開放數(shù)據(jù)獲取計劃規(guī)定,2013年及其以后執(zhí)行的所有研究活動所形成的信息產(chǎn)品的電子拷貝須于正式發(fā)行日期后的12個月內(nèi)向公眾提供免費查閱服務(wù)。該電子拷貝既可以是被接受的最終稿(AM),也可以是最終出版版本。出版物的支持性數(shù)據(jù)優(yōu)先于出版物出版日期,或與出版物出版日期同步向公眾發(fā)布,公眾可免費獲取。此外,與USGS資助研究相關(guān)的最終數(shù)據(jù)免費提供給公眾。被開放獲取的信息產(chǎn)品全部經(jīng)過同行評議[4],包括關(guān)聯(lián)數(shù)據(jù)[5-8]。在所有媒體上發(fā)布的數(shù)據(jù),無論是否由USGS發(fā)布或出版[9],數(shù)據(jù)作者可以是全職、兼職、志愿者,也可以是退休人員[10]。但是,數(shù)字化的科研數(shù)據(jù)如遇特殊情況不能公開,需經(jīng)審批同意。例如,如果科研數(shù)據(jù)中包含瀕危物種的位置數(shù)據(jù),則不能公開。開放數(shù)據(jù)獲取計劃還要求所有新的研究方案必須包含正式的數(shù)據(jù)管理計劃(DMP)。2015年2月起USGS內(nèi)部的科學(xué)家必須遵守這一要求,從2016年1月開始,所有承擔USGS研究項目的外部科學(xué)家也必須遵守這一要求。
美國的無形財產(chǎn)管理政策為聯(lián)邦資助機構(gòu)提供了一項權(quán)利,即在復(fù)制、出版或以其他方式使用信息產(chǎn)品時,免版稅、非獨家、不可更改。為了聯(lián)邦目的,也可以授權(quán)他人進行以上出版和復(fù)制活動。同時,依據(jù)美國法律,聯(lián)邦政府具有:①獲取、復(fù)制、發(fā)布或以其他方式使用聯(lián)邦資助所產(chǎn)生的數(shù)據(jù);②授權(quán)他人接收、復(fù)制、發(fā)布或以其他方式使用這些數(shù)據(jù)。
USGS負責(zé)數(shù)據(jù)開放獲取的具體機構(gòu)包括6個。①科學(xué)質(zhì)量與誠信辦公室(the Office of Science Quality and Integrity)制定數(shù)據(jù)開放相關(guān)政策,監(jiān)督政策執(zhí)行。②通信與出版辦公室(the Office of Communications and Publishing)負責(zé)編輯、制作、準備、發(fā)布USGS所屬的系列出版物。③核心科學(xué)系統(tǒng)任務(wù)區(qū)(the Core Science Systems Mission Area)負責(zé)USGS出版物倉庫(USGS圖書館系統(tǒng)的一部分)、USGS科學(xué)數(shù)據(jù)目錄和數(shù)據(jù)倉庫,創(chuàng)建和管理USGS數(shù)據(jù)管理網(wǎng)站的數(shù)據(jù)集成社區(qū)。④企業(yè)信息辦公室(the office of Enterprise Information)負責(zé)管理特定的存儲庫和檔案。⑤美國地質(zhì)調(diào)查局的科學(xué)中心主任(USGS Science Center Directors)負責(zé)確??茖W(xué)家向科學(xué)中心提供數(shù)據(jù),遵循USGS的基本科學(xué)實踐。⑥收購和捐贈辦公室(Office of Acquisition and Grants)負責(zé)向USGS以外的科學(xué)家提供研究資金,要求這些科學(xué)家創(chuàng)建數(shù)據(jù)管理計劃,并向USGS交付發(fā)表手稿的數(shù)字版本和相關(guān)數(shù)據(jù)。
為了保證數(shù)據(jù)開放政策的落實,USGS將數(shù)據(jù)開放所涉及的信息系統(tǒng)進行了統(tǒng)一規(guī)劃,引入了如數(shù)字對象唯一標識符(DOI)等信息管理機制,建立了對外公開的網(wǎng)絡(luò)接口。USGS對外公開與服務(wù)的信息系統(tǒng)架構(gòu)示意圖如圖1所示。USGS還對信息系統(tǒng)架構(gòu)中所涉及的系統(tǒng)名稱進行了定義。
(1)黑色檔案(Dark Archive):指不能被開放訪問的檔案。黑色檔案的建設(shè)目的是作為一種信息保存,用于災(zāi)難恢復(fù)的保護措施。讓一份文檔“光明化”指將其從黑色檔案系統(tǒng)中提取出來,放在公眾可訪問數(shù)據(jù)庫中。
(2)外部出版物(External Publications):指任何被非USGS實體所發(fā)布的USGS信息,包括但不限于科學(xué)雜志、專業(yè)團體卷宗、合作代理的出版物和大學(xué)或商業(yè)出版者。
(3)基礎(chǔ)科學(xué)實踐(Fundamental Science Practices,F(xiàn)SP):是USGS政策中規(guī)定的一套強制性要求,描述了由USGS科學(xué)家主導(dǎo)地發(fā)表科研結(jié)果、發(fā)布數(shù)據(jù)的同行評審過程。
(4)信息產(chǎn)品(Information Product):一件信息產(chǎn)品顯示了科學(xué)知識(發(fā)現(xiàn)、事實或它的解釋),通過演講、文本、圖形或地圖被交流,以任何媒介(如印刷、數(shù)字化、Web、視聽)送達到明確的受眾或客戶。既包括出版物,也包括數(shù)據(jù)。
(5)科研數(shù)據(jù)(Research Data):記錄下來的事實材料,被科學(xué)界認為可以用于驗證研究發(fā)現(xiàn)。事實材料不包括初步分析、科學(xué)論文草稿、未來研究計劃、同行評議或與同事交流的記錄等內(nèi)容。這種“記錄”材料也不包括物理對象(如實驗室樣品)。
(6)學(xué)術(shù)出版物及相關(guān)科研數(shù)據(jù)(Scholarly Publications and Associated Research Data):指任何展示USGS資助的研究成果的出版物,以及與該研究相關(guān)的任何數(shù)據(jù)。這些數(shù)據(jù)或者包括在出版物中,或者是獨立的數(shù)據(jù)集,但其可以指向?qū)W術(shù)出版物。
(7)USGS信息產(chǎn)品數(shù)據(jù)系統(tǒng)(Information Product Data System,IPDS):內(nèi)部的USGS IPDS是一個基于Web的應(yīng)用程序和黑暗文檔,它記錄和跟蹤FSP下的信息產(chǎn)品的審查、批準和傳播。IPDS還向USGS出版物倉庫提供了用于創(chuàng)建引用的書目元數(shù)據(jù)。IPDS作為一個黑暗的信息產(chǎn)品檔案,目前還沒有公開發(fā)布。IPDS收藏了USGS資助的出版物上接受的手稿。如果在信息禁止發(fā)布期結(jié)束后出版商未能提供開放獲取,IPDS將向USGS出版物倉庫提供副本,以滿足開放獲取要求。
(8)USGS科學(xué)數(shù)據(jù)庫(USGS ScienceBase):是一個數(shù)字存儲庫和協(xié)作數(shù)據(jù)管理平臺,提供對機器可讀數(shù)據(jù)和元數(shù)據(jù)的開放獲取。ScienceBase還充當一個跨計劃的機構(gòu)存儲庫,確保對聯(lián)邦資助的研究結(jié)果進行長期管理。ScienceBase允許科學(xué)家以任何文件格式提供新的和原始的數(shù)據(jù)內(nèi)容,為某些類型的格式提供高級訪問和集成功能(例如,通過開放地理空間聯(lián)盟Web服務(wù)提供shapefiles和GeoTIFF文件)。ScienceBase的設(shè)計目的是為項目團隊提供安全開發(fā)和數(shù)據(jù)管理的功能,并促進對公開發(fā)布數(shù)據(jù)的最終審查和批準。
(9)USGS科學(xué)數(shù)據(jù)目錄(USGS Science Data Catalog):是一個USGS科學(xué)數(shù)據(jù)的開放搜索和發(fā)現(xiàn)工具。元數(shù)據(jù)可以通過USGS科學(xué)數(shù)據(jù)目錄從USGS任務(wù)區(qū)和計劃獲得。USGS數(shù)據(jù)管理員通過科學(xué)數(shù)據(jù)目錄儀表板應(yīng)用程序向科學(xué)數(shù)據(jù)目錄提供元數(shù)據(jù),并提供各種匯總報告。
(10)USGS出版物倉儲(USGS Publications Warehouse):是由USGS圖書館管理的在線引文索引,可以訪問USGS出版物的權(quán)威信息源。每個出版物都有一個動態(tài)生成的描述性引用頁面。出版物倉儲編目團隊基于各種來源的數(shù)據(jù)構(gòu)建和維護記錄,包括IPDS、USGS科學(xué)出版網(wǎng)絡(luò)頁面和公告以及其他書目數(shù)據(jù)庫。出版物倉庫站點的構(gòu)建方式允許Web搜索爬蟲程序輕松索引,并提供基本和高級搜索功能。出版物倉儲還提供許多不同的Web服務(wù),包括可定制的RSS提要和Mods XML服務(wù)。
(11)USGS系列出版物(USGS Series Publications):指系列編號的信息產(chǎn)品,每個系列都是為了滿足特定的受眾需求,由USGS自行制作,并在USGS網(wǎng)站上免費發(fā)布。
圖1 USGS學(xué)術(shù)出版物和數(shù)字化科研數(shù)據(jù)開放與出版體系示意圖
2.3.1 對學(xué)術(shù)出版物的規(guī)定
在完成同行評審、USGS批準和生產(chǎn)之后,學(xué)術(shù)出版物被提交到USGS出版物倉儲,以PdF和XML格式進行編目和開放出版。
學(xué)術(shù)出版物最終手稿的全文被保存在IPDS系統(tǒng)中。IPDS是國家檔案及記錄管理(National Archives and Records Administration)數(shù)據(jù)倉儲的一部分。這個數(shù)據(jù)倉儲是所有美國國家資助所形成的信息產(chǎn)品的黑暗檔案。IPDS中收錄了所有USGS資助外部科學(xué)家所形成學(xué)術(shù)出版物的電子拷貝。內(nèi)部科學(xué)家的出版物由科學(xué)家自己存入IPDS。承擔USGS資助的研究項目的外部科學(xué)家的出版物由負責(zé)USGS外部項目的科學(xué)家存入IPDS。
一經(jīng)出版,所有USGS對外出版的系列出版物和學(xué)術(shù)出版物都將在USGS出版物倉儲中進行編目。相關(guān)的數(shù)據(jù)也要同步或提前于“AM”或“PoR”的出版,在USGS科研數(shù)據(jù)目錄中進行編目。鏈接會提供所有信息產(chǎn)品的全文和訪問類型(開放獲取或僅訂閱者可獲?。?。
USGS與美國開放科研管理中心(Clearinghouse for the Open Research of the United States,CHORUS)簽有協(xié)議,規(guī)定如果非USGS的出版物刊登了USGS資助研究所形成的出版物且該出版物與CHORUS有服務(wù)協(xié)議,CHORUS就要向USGS進行通報在該出版物上發(fā)表USGS資助成果的信息。這些USGS以外的出版物及其元數(shù)據(jù)要在USGS出版物倉儲中進行編目,并在出版商網(wǎng)站上提供全文鏈接,在時滯期后會提供免費開放獲取。
對于那些不能通過CHORUS獲取全文的出版物,或時滯期超過12個月的出版物,存儲在IPDS黑暗檔案中的手稿會通過USGS內(nèi)部服務(wù)器公之于眾,并可通過USGS出版物倉儲獲取。
2.3.2 對數(shù)字化數(shù)據(jù)的規(guī)定
在經(jīng)過質(zhì)量保證、質(zhì)量控制、正式描述、審查和批準后,與USGS學(xué)術(shù)出版物相關(guān)的數(shù)據(jù)既可以包含在出版物中,也可以作為一個獨立的數(shù)據(jù)實體發(fā)布。
與USGS學(xué)術(shù)出版物相關(guān)的數(shù)據(jù),以及其他獲準出版的數(shù)據(jù)都需將數(shù)據(jù)內(nèi)容、所需的數(shù)據(jù)管理水平和所需的傳播方法提交到USGS內(nèi)部數(shù)據(jù)存儲庫中。為了提高服務(wù)能力,用戶訪問的是一個可信的第三方分布式存儲庫,但數(shù)據(jù)的權(quán)威版本由USGS保存。描述數(shù)據(jù)的元數(shù)據(jù)全部被編入USGS科研數(shù)據(jù)目錄庫,以此提高了開放發(fā)現(xiàn)的一致性。
USGS數(shù)據(jù)在基礎(chǔ)科學(xué)實踐框架下進行審批,一旦批準發(fā)布,公眾就能以恰當?shù)男问矫赓M獲得數(shù)據(jù)。
USGS對于科學(xué)庫中的系列出版物和數(shù)據(jù)集、其他數(shù)據(jù)存儲庫以及期刊出版商分配和注冊了數(shù)字對象標識符(DOIs),以提高信息產(chǎn)品訪問的便捷性。
2.3.3 對及時訪問能力的規(guī)定
USGS出版物數(shù)據(jù)倉庫提供對其系列出版物最新文獻和歷史文獻的及時搜索、發(fā)現(xiàn)和訪問,用戶可以免費進行PDF格式的下載。出版物倉儲中編目的所有USGS的作者發(fā)表的非USGS所屬出版物,也會在正式出版后即刻提供全文鏈接。出版物正式出版后12個月內(nèi),公眾可以通過出版商網(wǎng)站或USGS網(wǎng)站免費閱讀、下載和分析全文的電子版。無論任何時候,USGS都會提供所有經(jīng)過同行評議的出版物的全文檔案。
USGS鼓勵公私協(xié)作,允許第三方輕松地從USGS出版物倉儲和USGS ScienceBase中獲取元數(shù)據(jù)記錄和鏈接,這些記錄和鏈接可用于外部發(fā)現(xiàn)和存儲庫系統(tǒng)。USGS參與了CrossRef和DataCite,使用DOIs來促進科研出版物和相關(guān)數(shù)據(jù)的訪問。USGS為訪問和提取元數(shù)據(jù)記錄提供了多種選項,例如API,可下載的格式包括RIS、CSV、TSV、Excel、RSS和JSON。
為限制未經(jīng)授權(quán)的訪問和下載等行為,USGS的各個信息系統(tǒng)都不提供多個出版物和多個數(shù)據(jù)集的批量下載。USGS對出版物的線上服務(wù)商進行監(jiān)測,如果發(fā)現(xiàn)非法的大規(guī)模復(fù)制和傳播情況,USGS的法律辦公室將會進行處理,并剔除該服務(wù)商。
對于研究、監(jiān)測/觀察項目產(chǎn)生的數(shù)據(jù),絕大部分都可以通過USGS網(wǎng)站在線訪問。有些數(shù)據(jù)(如國家水標尺網(wǎng)絡(luò)監(jiān)測數(shù)據(jù))甚至提供實時數(shù)據(jù)服務(wù)。USGS確保開放的數(shù)據(jù)都符合《聯(lián)邦信息安全管理法案》、隱私法和其他有關(guān)部門的政策規(guī)定,能夠保護機密和個人隱私,維護恰當?shù)乃接欣?、商業(yè)機密和知識產(chǎn)權(quán),避免重大負面影響,保障國家的創(chuàng)新和競爭力。無論是USGS自行出版或與第三方合作出版,都選擇使用機器可讀、開放且符合數(shù)據(jù)標準的格式,提供完整的元數(shù)據(jù)以支持進一步的信息處理和傳播活動。為保證數(shù)據(jù)質(zhì)量,USGS建立了數(shù)據(jù)管理生命周期模型,按照科研數(shù)據(jù)生命周期模型對數(shù)據(jù)的生產(chǎn)、獲取、分析、服務(wù)等活動進行管理和操作,具體如圖2所示。
圖2 USGS數(shù)據(jù)管理生命周期模型
科研數(shù)據(jù)生命周期模型描述了數(shù)據(jù)管理活動從開始到結(jié)束的各個階段,包括計劃、獲取、處理、分析、存儲和出版/共享,還包括一貫始終的元數(shù)據(jù)、管理質(zhì)量和數(shù)據(jù)安全等活動。
明確的科研數(shù)據(jù)生命周期模型為USGS的數(shù)據(jù)活動提供了行動、操作或過程的綱要,良好的數(shù)據(jù)管理有助于提高數(shù)據(jù)資源的質(zhì)量和價值,讓科研人員可以重用這些經(jīng)過精心管理的數(shù)據(jù)資源,這是整合數(shù)據(jù)和提升數(shù)據(jù)價值的關(guān)鍵。
科學(xué)數(shù)據(jù)生命周期模型中規(guī)定了科研人員和數(shù)據(jù)管理人員各自的角色和職責(zé)(見表1)。在制定數(shù)據(jù)計劃和出版/共享數(shù)據(jù)階段,科研人員和數(shù)據(jù)管理人員一起工作,其他階段則主要是科研人員從事科研數(shù)據(jù)的相關(guān)活動。這樣的規(guī)定有助于明確職責(zé),也讓科研人員清楚地知道可以在何處以及何時尋求管理人員的幫助。需要說明的是,每個項目的數(shù)據(jù)管理計劃可以根據(jù)實際情況進行調(diào)整,而不是必須執(zhí)行的規(guī)定。
表1 USGS科研數(shù)據(jù)管理的職責(zé)分工示意
數(shù)據(jù)管理活動與科研項目一起開始。在出版/共享數(shù)據(jù)之后,科研項目產(chǎn)生的科研數(shù)據(jù)和項目管理活動形成的資源可以被其他項目使用。
數(shù)據(jù)管理生命周期模型是USGS評估和改進科研數(shù)據(jù)管理政策和實踐的依據(jù),并據(jù)此確定需要的新工具和標準。
生命周期模型的第一個元素是數(shù)據(jù)管理計劃,旨在幫助科研人員確??紤]與處理項目數(shù)據(jù)資產(chǎn)相關(guān)的所有活動,從項目開始到出版和歸檔。在此階段,應(yīng)該評估、處理和記錄模型的所有元素。大多數(shù)資助機構(gòu)要求在提交項目申請書時提交數(shù)據(jù)管理計劃。數(shù)據(jù)管理計劃一般包括如何獲取數(shù)據(jù)、使用適用的標準、確保足夠的文檔、提供免于損失的保護以及共享和保存支持其研究的數(shù)據(jù)。數(shù)據(jù)管理計劃的每個部分都應(yīng)該包括“為什么”。例如,對于元數(shù)據(jù)標準,不僅應(yīng)該描述將使用哪個元數(shù)據(jù)標準,還應(yīng)該描述選擇該元數(shù)據(jù)標準的原因。
項目團隊應(yīng)該考慮方法、所需的資源(包括資金和人員)以及數(shù)據(jù)生命周期每個階段的預(yù)期產(chǎn)出。參與制定數(shù)據(jù)管理計劃的人員包括首席研究員、合作研究者、數(shù)據(jù)收集者、數(shù)據(jù)分析師、IT人員、建模人員、GIS人員和元數(shù)據(jù)專家。這些人員共同制訂一個實用且有益的數(shù)據(jù)管理計劃。
第二個元素是收集,包括收集、生成、考慮和評估新的或現(xiàn)有數(shù)據(jù)以供重用的活動。水標尺數(shù)據(jù)、歷史地圖、地震學(xué)運動傳感器輸出、生物記錄和衛(wèi)星觀測都是獲得數(shù)據(jù)和信息的例子,這些數(shù)據(jù)和信息代表著USGS研究中各種各樣的科研數(shù)據(jù)輸入。在這個階段要清晰定義所有權(quán)及所有權(quán)變更的歷史信息,這是USGS策略和最佳實踐的要求,有利于維護USGS信息產(chǎn)品的來源信息和完整性。
第三個元素是處理新數(shù)據(jù)或先前收集的數(shù)據(jù)。處理活動包括:定義有效的數(shù)據(jù)元素;不同數(shù)據(jù)集的集成;提取、轉(zhuǎn)換和加載;校正數(shù)據(jù)以進行分析。在此階段,科研人員需要確認USGS的已有標準和工具是否可以滿足項目需求,這些工作也有助于建立USGS的基礎(chǔ)科研活動。
第四個模型元素是數(shù)據(jù)分析,代表了探索和解釋已處理數(shù)據(jù)相關(guān)的活動,從而對假設(shè)進行驗證,獲得發(fā)現(xiàn),得到結(jié)論。分析活動包括總結(jié)、繪圖、統(tǒng)計分析、空間分析和建模,用于產(chǎn)生科學(xué)結(jié)果和信息。在這個元素中,可以生成新的數(shù)據(jù),跟蹤數(shù)據(jù)版本的變更,并記錄處理過程。分析期間的數(shù)據(jù)管理有助于提高數(shù)據(jù)分析活動的效率,保留對科學(xué)完整性至關(guān)重要的文檔,并為將來的研究奠定基礎(chǔ)。數(shù)據(jù)分析活動的輸出是數(shù)據(jù)的解釋或新數(shù)據(jù)集,通常以書面報告或機器可讀格式發(fā)布。
第五個模型元素是保存,指與存儲數(shù)據(jù)相關(guān)的長期活動(遠遠超過項目生命周期),以確保數(shù)據(jù)的使用和可訪問性。由于項目預(yù)算和時間壓力,通常直到項目的最后階段才考慮保存問題。而根據(jù)生命周期模型,在數(shù)據(jù)發(fā)布與共享之前,需要考慮如何長期保存數(shù)據(jù)。通常,在此時項目完成方與USGS的業(yè)務(wù)單位達成協(xié)議,以保存項目完成之后的數(shù)據(jù)。也就是說,獲得聯(lián)邦資助的科學(xué)家必須計劃長期保存數(shù)據(jù)、元數(shù)據(jù)、輔助產(chǎn)品、與應(yīng)用程序無關(guān)的存儲格式和任何其他文檔,以確保數(shù)據(jù)的可用和重用。所有由USGS資助產(chǎn)生的科研數(shù)據(jù)都必須保存。
在數(shù)據(jù)出版/共享階段,將出版物同行評審概念與通過Web站點、數(shù)據(jù)目錄、社交媒體和其他場所分發(fā)數(shù)據(jù)相結(jié)合。數(shù)據(jù)和信息的出版和傳播是USGS的重要任務(wù)。同時也進一步明確,數(shù)據(jù)和傳統(tǒng)出版物一樣,都是科研成果,同樣需要進行管理。
數(shù)據(jù)出版/共享前需要完成9項工作,包括定義數(shù)據(jù)文件的內(nèi)容,使用統(tǒng)一的數(shù)據(jù)組織方式,使用穩(wěn)定的文件格式,分配描述性文件名,保存處理信息,履行基本質(zhì)量保證,提供文檔,保護數(shù)據(jù),以及保存數(shù)據(jù)。
需要為每個參數(shù)選擇一種格式,并在元數(shù)據(jù)中解釋這種格式,而且要在整個文件中使用這種格式。盡量選擇和使用數(shù)據(jù)集的標準化格式。遵循5W1H的要求準備數(shù)據(jù)文檔,說明誰收集數(shù)據(jù)、誰處理數(shù)據(jù)、誰撰寫元數(shù)據(jù)、誰擁有數(shù)據(jù)、誰負責(zé)回答數(shù)據(jù)問題、誰負責(zé)數(shù)據(jù)銷售;數(shù)據(jù)在哪里收集、在哪里處理、在哪里保存;數(shù)據(jù)是關(guān)于什么的,在什么項目支持下收集的數(shù)據(jù),使用時有什么限制,質(zhì)量如何,數(shù)據(jù)可以用在什么地方,測量了哪些數(shù)據(jù),數(shù)據(jù)格式是什么;為什么要收集數(shù)據(jù);何時收集的數(shù)據(jù),何時處理的數(shù)據(jù);如何收集數(shù)據(jù),如何處理數(shù)據(jù),如何訪問數(shù)據(jù),如何訂購數(shù)據(jù),獲取數(shù)據(jù)的成本是多少,如何評估數(shù)據(jù)質(zhì)量。
元數(shù)據(jù)是數(shù)據(jù)發(fā)現(xiàn)的基礎(chǔ)和保障。標題、描述和關(guān)鍵詞等元素使用戶能夠基于主題搜索發(fā)現(xiàn)數(shù)據(jù)??臻g和時間元素允許用戶根據(jù)數(shù)據(jù)的地理位置或時間段發(fā)現(xiàn)數(shù)據(jù)。元數(shù)據(jù)也是理解和重用科研數(shù)據(jù)的關(guān)鍵。在數(shù)據(jù)開發(fā)時,科研人員最了解他們的數(shù)據(jù)集和創(chuàng)建數(shù)據(jù)集的步驟。隨著時間的推移,對細節(jié)的記憶開始模糊,關(guān)于數(shù)據(jù)集的知識會慢慢淡忘。如果沒有元數(shù)據(jù)記錄,關(guān)于數(shù)據(jù)集的信息可能永遠丟失,造成數(shù)據(jù)不可用。
USGS是美國內(nèi)政部的研究部門,其任務(wù)是為其他機構(gòu)的資源管理決定提供健全和中立的數(shù)據(jù)及數(shù)據(jù)解釋。這些決定可能會引起爭議,有可能往往會在法庭上受到質(zhì)疑。必須充分記錄做出這些管理決定的數(shù)據(jù),以便使其透明和可復(fù)制,能夠使第三方將這些點聯(lián)系起來得出類似的結(jié)論。USGS規(guī)定,在批準和出版之前,元數(shù)據(jù)必須伴隨所有USGS科研數(shù)據(jù)、軟件和其他信息產(chǎn)品。這些元數(shù)據(jù)記錄必須符合聯(lián)邦地理數(shù)據(jù)委員會(FGdc)批準的標準之一。數(shù)據(jù)和元數(shù)據(jù)必須在出版前進行質(zhì)量和完整性檢查。在實際管理過程中,USGS建議讓同一個人評審元數(shù)據(jù)和數(shù)據(jù)。一旦獲得批準,這些元數(shù)據(jù)必須存入合適的機構(gòu)目錄和更大的系統(tǒng)(如DOI目錄),并通過這些系統(tǒng)共享,DOI目錄向管理和預(yù)算辦公室及data.gov報告數(shù)據(jù)資產(chǎn)。最后,必須更新元數(shù)據(jù)記錄,以反映更改,確保鏈接正常工作,并繼續(xù)指向預(yù)期的文件。
USGS產(chǎn)生的大多數(shù)數(shù)據(jù)本質(zhì)上是地理空間數(shù)據(jù),因此,必須提供符合FGDC批準標準的元數(shù)據(jù)。地理空間數(shù)據(jù)不僅包括可導(dǎo)入地理信息系統(tǒng)應(yīng)用程序的數(shù)據(jù),還包括重要位置的野外照片和樣本等數(shù)據(jù)。FGDC在1994年采用了數(shù)字地理空間元數(shù)據(jù)的內(nèi)容標準,并在1998年進行了修訂。2010年,F(xiàn)GDC通過了ISO 19115標準。到2015年,這一套標準文件包括ISO 19115-2,即圖像和網(wǎng)格數(shù)據(jù)的擴展;ISO 19110地理空間特征編目標準和ISO 19119地理空間Web服務(wù)的內(nèi)容標準;以及ISO 19139 XML實現(xiàn)模式。USGS并不支持一種標準勝過另一種標準,但要求使用其中一種標準來描述地理空間數(shù)據(jù)。
USGS作為將數(shù)據(jù)管理和共享職責(zé)視為重要使命的政府部門,其對數(shù)據(jù)資源的認知和管理機制啟示如下。
(1)出版物和數(shù)據(jù)集都是科學(xué)研究的成果,反應(yīng)了研究成果的不同側(cè)面,具有天然的聯(lián)系,都具有很高的科學(xué)價值、社會價值和經(jīng)濟價值。作為其產(chǎn)出的重要部門,要進行一體化的設(shè)計和規(guī)劃,建立兩者融合集成的管理機制,使二者發(fā)揮更大的作用。
(2)需要建立項目管理與數(shù)據(jù)管理的集成化管理機制,使科學(xué)研究所產(chǎn)生的信息成果實現(xiàn)高效收集、管理和利用。項目管理與數(shù)據(jù)管理制度只有彼此獨立,又相互依存,互為支撐,才能使數(shù)據(jù)管理活動得以制度化推廣和應(yīng)用。
(3)數(shù)據(jù)管理機制的成敗關(guān)鍵在人,因此需要將人員的角色、定位和任務(wù)清晰劃分。行政管理人員、數(shù)據(jù)管理人員和科研人員的關(guān)注點和職責(zé)不同,將基本職責(zé)和工作原則劃分清晰,會更加有利于數(shù)據(jù)的高效管理和利用。
(4)數(shù)據(jù)信息與出版物信息相比更加復(fù)雜,領(lǐng)域差異性很大,管理過程中需要更多的標準,為了方便交換和共享,需要更加注重開放標準的建立和使用。