陳晨
(天津外國語大學圖書館,天津 300270)
美國國家標準和技術研究院(National Institute of Standards and Technology,NIST)成立于1901年,是美國高端的研究機構。其下有多個研究所和實驗室,涵蓋納米科學、化學、物理學等多種學科,擁有研究人員3 000人,合作研究員2 700人。2012年,NIST的科學家第五次榮獲諾貝爾獎,其納米科學、計量科學等多項技術走在了世界前沿[1]。NIST卓越的研究成就離不開成功的科研數據管理服務的支持與推動。NIST經過多年的探索和實踐,形成具有特色的科研數據管理服務體系,是目前美國評價最好的科研數據管理實踐典型案例。NIST圖書館獲得美國國會圖書館頒發(fā)的2003年、2008年、2013年年度聯(lián)邦圖書館獎,2007年馬里蘭州卓越表現獎,彰顯了其取得的科研數據管理創(chuàng)新實踐與成就。本文研究NIST科研數據管理實踐經驗,以期為我國開展科研數據管理實踐提供啟示與參考。
NIST科研數據管理服務是在外部因素和內部需求的驅動下開展的。外部因素包括如下方面。①基金資助機構要求。2011年1月,美國科學基金會(National Science Foundation,NSF)推出新的科研數據共享政策,要求提交到NSF的申報書中必須包括數據管理計劃(Data Management Plan,DMP)[2]。自此,數據管理分析成為數據時代科研人員必須掌握的新技能。②美國政府經費投入。NIST的研究和運行經費主要由聯(lián)邦政府投入,列入國會預算。每筆撥款都有針對性和具體要求,美國國會通過的《2014綜合撥款法案》[3],明確要求NIST的財政撥款中要有0.98億美元用于實驗室科研數據的開放存取、數據庫基礎設施建設的專項基金。內部因素包括如下方面。①機構資源管理的需要。NIST內部的科學家、工程師和客座研究人員每年大約發(fā)表1500篇論文[4],并在評估標準參考數據的過程中產生大量用以分析和支持學術界、工業(yè)界和其他政府機構使用的已發(fā)表研究成果的數據,除了科學文獻,這些科研產出的數據同樣是機構的重要資源。②研究人員的需要。研究人員在申報科研項目之初需要考慮數據管理問題,對于研究人員產出的小型分散的科研數據,NIST自身的數據管理系統(tǒng)更能契合科研人員的需求。以上內外部因素,促進了NIST科研數據管理服務的開展。
為有效地實施科研數據管理服務,NIST建立了專門的科學數據管理服務網站,形成以數據管理平臺、工具資源、人力資源、政策規(guī)范為服務基礎,以數據管理計劃、數據組織、數據存儲與共享、標準參考數據、數據管理培訓為服務內容的科研數據管理服務體系,發(fā)展成為較為完善的服務工作流。
NIST研發(fā)的科研數據管理平臺[5],主要包括學科數據知識庫(Disciplinary Repository)、圖像廊(Images)、企業(yè)數據清單(Enterprise Data Inventory,EDI)、標準參考數據庫(Standard Reference Data,SRD)和一站式數據公共訪問平臺(Common Access Platform)。
(1)學科數據知識庫。主要包括醫(yī)學、化學、物理學等自然科學科研數據,尤其注重經驗數據和事實數據的收集、歸納。NIST將實驗室科研人員在科研過程中產生的大量權威數據源經評審、匯總,開發(fā)成跨學科的多類型數據存儲庫。如Atomic Spectroscopy Database是用于研究輻射原子或離子能級領域的數據庫,包含99個元素的觀察轉變數據和89個元素的能量水平數據,以及超過9萬條的能級記錄和18萬條的線性數據記錄,其中7.3萬條記錄具有轉換概率[6],實現跨學科科研數據的有效管理。
(2)圖像廊。圖像廊提供了大量的視頻和圖像,包含原美國國家標準局(NBS)的歷史照片,公共和商業(yè)事務部、研究所、NIST博物館等收藏的技術標準和其他文物的信息和圖像。用戶可以檢索各種新的技術、實驗、反應、產品等圖片信息。
(3)企業(yè)數據清單。企業(yè)數據清單是具有用戶友好前端的數據集目錄,包含元數據的信息索引,以及關于數據訪問的位置信息和訪問路徑。其功能類似于卡片目錄,可以鏈接到DMP,將數據集審核和批準后,分配數字對象標識符(Digital Object Identifier,DOI)并上傳到網絡云中的安全存儲庫,方便用戶輕松地查找和使用任何來源的數據集。
(4)標準參考數據庫。它是NIST計量服務部提供的標準參考數據,受1968年的標準參考數據法案(P.L.90-396)保護。目前,標準參考數據已有116個數據庫產品[7],基本涵蓋所有的科學技術領域。
(5)一站式數據公共訪問平臺。一站式數據公共訪問平臺是NIST提供科學數據公共訪問的數據門戶。它將機構內用戶發(fā)布的數據以及機構外權威數據資源進行整合,提供各類型數據存儲庫間的互操作,實現對已發(fā)布數據或其他開放數據的導航和一站式檢索。
為激發(fā)將NIST標準參考數據與移動設備合并的新方法,2015年NIST聯(lián)合新澤西州普林斯頓的Mero Apps公司、德克薩斯州的Zachary Ratliff、肯塔基州的Daniel Graham公司、弗吉尼亞州的MetroStar System等高新技術公司開發(fā)了25款APP,由評審團專家評出前三名獲獎的應用程序并推廣使用,實現用戶通過移動設備快速訪問NIST數據[8]。
NIST通過內部資源整合和外部資源聯(lián)合的方式提供豐富的數據管理信息資源與實現工具,幫助研究人員制定滿足基金組織要求的數據管理計劃,實現科研數據的有效管理。主要包括以下方面。①基金要求的解讀工具。推薦使用本機構開發(fā)的工具Minerva,制定數據管理計劃;提供工具的使用指南及資助機構的模板和優(yōu)秀案例供參考。②文件組織格式。NIST的數據存儲庫提供的文件組織格式主要有文本格式、圖像格式、視頻格式、文件命名與重命名格式等。③元數據標準。提供不同學科資源類型的元數據標準以及組成要素,并在機構內構建各類元數據描述框架。④數據管理工具。NIST對各領域科研項目軟件工具按照科研數據生命周期進行收集整理,定制開發(fā)了開放軟件下載平臺。集成了18種數據分析軟件工具,并詳細描述每種工具的版本、軟件類型、開發(fā)者、系統(tǒng)要求,用戶可根據需求選擇合適的管理軟件。⑤名詞術語。提供了50多個術語解釋,包括科研數據、DOI、最終出版物、開放獲取等。
2009年,NIST成立數據與信息學辦公室(Office of Data and Informatics,ODI),與研究圖書館信息服務辦公室(Information Services Office,ISO)通過實驗室聯(lián)絡計劃(Lab Liaison Program)合作開展科研數據管理服務[9]。ODI由各實驗室學科領域專家、企業(yè)數據架構與設計方面的專家組成。ODI和ISO之間不是自上而下的行政隸屬關系,而是橫向的平行協(xié)作關系。這種平等的機構管理模式,使ISO和ODI各司其職,各施所長,作為一個整體合作參與開放獲取計劃,探索NIST科研數據管理問題的解決方案,集中各部門的人力、物力、財力,共同提升科研數據服務質量。
在實驗室聯(lián)絡計劃中,數據館員作為聯(lián)絡員被分派到NIST實驗室科研項目中,成為各實驗室和ODI的聯(lián)系樞紐,數據館員與指派組織中的管理者及科學家建立并保持密切的工作關系,詳細了解各實驗室的數據管理需求,為他們提供個性化定制服務。ODI工作人員還積極參與外部數據計劃,如國家數據服務(the National Data Service)和研究數據聯(lián)盟(the Research Data Alliance)。這種橫向協(xié)作的機構成員組織模式,拓展了科研數據管理服務的深度和廣度,取得了很好的服務效果。
2013年,在白宮科技政策辦公室(OSTP)發(fā)布的一系列備忘錄和行政命令基礎上,聯(lián)邦機構制定了“完全與開放”數據共享政策,以增強政府資助科學研究成果的獲取[10]。為了貫徹落實白宮科技政策,NIST領導層通過審視本機構研究人員當前出版和管理數據的實踐,制定了開放獲取政策和系統(tǒng)實施方案,具體措施有:①完善NIST的各級組織單位數據訪問流程,持續(xù)更新和評估開放獲取政策,以保持數據長期保存和訪問的有效性和相關性,減少相關的成本和管理負擔;②與利益相關方及其他研究資助組織建立合作伙伴關系,提高出版物數據的兼容性和獲取途徑,探索和改進NIST開放獲取數據管理政策的新方法;③經同行評審的科研論文和科研數據在發(fā)表12個月內可免費下載;④出版物所有權歸屬于作者和原始出版商;⑤為所有NIST資助的科研項目所產生的科研數據制定有效的數據管理規(guī)劃;⑥為NIST員工和NIST資助的校外研究人員提供科研數據管理教育培訓,以幫助他們遵守NIST政策。除了上述實施措施外,NIST還制定了評估開放獲取政策指標,每年對政策的實施效果進行評價,以不斷完善和解決科研數據管理過程中出現的問題[11]。
(1)數據管理計劃服務。數據管理計劃服務是NIST科研數據管理中開展率最高的一項服務。作為申請美國聯(lián)邦資助科研項目的一部分,為滿足科研人員的需求,NIST數據與信息學辦公室開發(fā)了一款名為Minerva的網絡數據管理工具。Minerva內置了美國科學基金會和主要項目資助機構的數據管理計劃內容需求、模板文檔及優(yōu)秀案例。用戶可按其提供的模式及流程分4步創(chuàng)建數據管理計劃,即選擇科研資助機構DMP模板、填寫科研項目數據計劃描述信息、完成DMP細節(jié)描述、生成科研項目數據管理計劃。Minerva比類似的應用程序功能更為廣泛,它囊括了一份完整的數據管理計劃相關信息,通常包括活動描述、數據類型創(chuàng)建、保存和存儲信息、公共訪問級別4個領域[12]。2014年,ODI工作人員對Minerva進行了Alpha可用性測試,并對工具的功能布局和語言使用提出修改建議。2015年春季,NIST正式發(fā)布MinervaV2版本,迄今為止,已有超過1 000位研究人員提交了2 000多條數據DMP記錄。
(2)數據組織服務。為了確??蒲腥藛T在未來科研工作中能夠方便查找、獲取、管理和共享數據,數據館員提供了正式的元數據標準、數據格式、文件命名規(guī)范、文件結構,以便對不同屬性數據資源進行有序化地組織、分類、存儲、處理。如在NIST材料基因組計劃(Materials Genome Initiative)項目中,圖書館信息服務辦公室首先對特定存儲庫系統(tǒng)(SIdora)進行評估,審查研究人員工作流程,推薦最佳數據組織標準,并協(xié)助開發(fā)材料軟件模型和代碼目錄,確定開始此協(xié)作的最佳位置是為目錄開發(fā)元數據標準框架。此架構中使用的一些元數據字段映射到Dublin Core,但大多數字段特定于描述一般軟件的屬性(codelanguage和operating system),涉及與材料科學相關的軟件(如Scale)或與軟件相關的法律問題(如exportControls),擴展字段包括opSystemName、opSystemVersion等,ISO工作人員已使用此架構描述超過75種產品來填充目錄的初始版本,并通過Datacite共享已發(fā)布科研數據[3]。
(3)數據存儲與共享服務。為協(xié)助研究人員將科研數據長期保存于存儲設施,便于今后的數據共享,NIST建立了公共訪問存檔系統(tǒng)NIST Digital Archive,存儲機構內產生的元數據和經過同行評審的手稿與出版物,該系統(tǒng)將文檔使用當前存儲架構中最先進技術兼容的格式進行存儲,支持文件中包含的圖形、表格、數據文件或補充信息等任何文件類型。對于NIST的機構外數據,美國聯(lián)邦計劃官員(Federal Program Officer,FPO)可以選擇通過NIST的數據管理基礎設施(即MIDAS,相關數據存儲庫和NIST科研數據門戶)存儲此類數據,此類數據必須符合存儲條件:①項目申請者是個人或研究小組;②資助協(xié)議賦予NIST公開數據的權利;③數據具有很高的重復使用潛力,其持續(xù)可用性符合NIST的利益;④FPO和部門主管對數據質量審核評估[13]。資助接受者需要將他們的數據稿件副本轉發(fā)給聯(lián)邦計劃官員或指定人員,后者將該論文上傳到NIST的編輯審查系統(tǒng)。NIST還與美國國立衛(wèi)生研究院(NIH)合作,利用現有的PubMed Central(PMC)存儲庫系統(tǒng),作為NIST公共訪問存檔系統(tǒng),通過PMC公共訪問存儲系統(tǒng)的NIST接口界面,用戶可自動檢索和批量下載文章子集以及PMC存檔中的所有科研數據,實現NIST科研數據的永久保存和長期可訪問性服務。
(4)標準參考數據服務。標準參考數據服務是由數據與信息學辦公室開發(fā)的國家標準參考數據系統(tǒng)的數據管理項目,以支持NIST范圍的標準參考數據開發(fā)、管理、維護和傳播,確??茖W家、工程師和公眾可以輕松獲取可靠的參考數據。1968年美國國會通過的《標準參考數據法》將標準參考數據(SRD)定義為可靠的、經過評價的數值數據。目前,NIST共開發(fā)了116個SRD數據庫產品,其中41種是收費SRD產品,75種免費SRD可通過Web界面獲得。SRD按編號列出所有目錄,并按主題區(qū)域分組,以方便用戶瀏覽和定位。不同的SRD有不同的使用人群和不同的營銷需求,營銷方案分為3個主題:①利用在線營銷技術跟蹤客戶足跡,并建立在線SRD社區(qū);②開發(fā)成功案例,采用線上、線下相結合的方式,向公眾推廣SRD產品;③編輯出版有關標準參考數據的出版物。根據標準參考數據計劃,2015年底數據與信息學辦公室啟動評價SRD項目的工作,成立項目審查委員會,以評價SRD項目的現代化進程,包括網絡界面再設計、應用程序編程接口和技術內容。SRD每個數據產品的形成都凸顯了數據收集、數據評估、數據傳播和擴散三個階段過程,集合了數據專家和實驗室高級研究員的集體智慧。作為NIST的品牌性數據產品,SRD在科研數據管理服務領域獲得較高聲譽[14]。
(5)數據管理培訓。NIST的科研數據管理培訓主要包括兩部分,一是針對數據館員的教育培訓,二是針對用戶的數據素養(yǎng)教育。對數據館員的培訓主要有數據課程、交流研討會、科研項目合作等方式。NIST與華盛頓大學簽訂合作協(xié)議,定期選派優(yōu)秀數據館員到華盛頓大學接受短期的數據課程培訓,學習內容包括數據工程和管理、機器學習和應用數據科學等。數據館員也主動加入專業(yè)工作組與實驗室研究人員進行合作,為科研項目提供嵌入式數據管理服務。對用戶的數據素養(yǎng)教育主要以信息服務辦公室與信息技術實驗室合作開設的“數據科學”課程形式。課程內容包括制定數據管理計劃、文件格式與轉換、數據產權與共享,以及最終把數據解決方案應用到具體科研項目和學科領域的方法,以實際案例讓用戶了解數據處理生態(tài)系統(tǒng)。課程采用傳統(tǒng)面授和在線學習相結合的教學形式,用戶可根據自身的實際情況,任意選擇學習方式,極大地增強了課程的可獲取性。
通過分析NIST科研數據管理實踐內容,筆者認為NIST所積累的成功經驗值得國內機構深思。
調研發(fā)現,NIST非常重視科研數據管理法律、法規(guī)和規(guī)章制度的引進和建設工作,從引進美國聯(lián)邦政府相關法律、法規(guī)到機構內制定各種政策規(guī)范,發(fā)布了一系列的數據管理政策。如2015年6月25日發(fā)布的《管理公眾對聯(lián)邦資助項目研究成果的訪問》[15]政策,2017年11月13日制定的《公開科研數據的保存和維護》[16]政策,2017年11月29日制定的《資助科學研究提交數據管理計劃審查指南》[17],這些政策從數據管理平臺、科研人員、科研數據、服務內容方面來規(guī)范和指導科研數據管理行為,值得我們學習和借鑒。我國的科研機構、出版機構要借鑒NIST優(yōu)秀經驗,制定出理論與實踐相結合的數據管理政策,為推動我國科研數據開放共享提供指導方針。
科研數據管理是一項系統(tǒng)工程,必須構建一個切實可行的運行機制,保障科研數據管理實踐的順利開展。NIST構建的科研數據管理運行機制,涉及整個科研數據生命周期,每個階段都有特色的管理策略。①管理平臺不僅充分利用機構內已有設施,還與美國國立衛(wèi)生研究院合作,使用Pub Central存儲生物醫(yī)學數據;②機構成員來源廣泛,職責分工明確,保障了業(yè)務的正常開展;③資源工具通過自主開發(fā)和聯(lián)合開發(fā)為科研人員提供豐富的數據管理資源,供其參考使用;④政策法規(guī)是數據管理服務全過程的指導方針;⑤數據管理培訓涵蓋科研用戶和數據館員,教育形式主要有在線課程、講座、專題研討會等;⑥服務內容是科研用戶需求的數據管理計劃、數據存儲與共享,以及標準參考數據服務等方面??傊琋IST構建的全面系統(tǒng)運行機制是成功開展科研數據管理實踐的重要保障。我國科研機構要借鑒NIST成熟的運行機制,結合自身實際,構建特色的數據管理實踐的運行框架;在具體的服務實踐過程中,要積極采納用戶提出的新需求或新問題并不斷進行改進,保證科研數據實踐的持久性。
NIST在科研數據管理實踐過程中開展了全方位、多層次、多元化的合作方式。一是機構內部合作。NIST的圖書館、信息技術中心和實驗室在數據管理平臺設計、軟件工具開發(fā)、基礎設施建設、教育培訓等方面進行了廣泛合作。各部門發(fā)揮自身優(yōu)勢,增強了機構內數據管理水平及對科研的支撐能力。二是機構間的合作。NIST積極參與外部數據服務,如國家數據服務和科研數據聯(lián)盟等,與70多個聯(lián)盟成員和工作組合作探索科研數據共享的發(fā)展,數據庫的互操作機制,以及其他部門和機構的數據存儲、可發(fā)現和數據重用,努力為遍布全球的NIST社區(qū)提供示范資源,推動NIST使命。三是與高新技術公司的合作。通過開展競賽的形式,對全國各地開發(fā)商提交的25個APP與6個常用SRD子集的應用程序進行評審,評審團成員包括NIST數據和信息學辦公室主任、商務部首席數據官、谷歌副總裁兼首席互聯(lián)網傳播者等7位高新技術專家。由以上分析可知,尋求多方合作是NIST推進科研數據管理進程的重要途徑。我國在開展科研數據管理服務時要借鑒NIST的合作精神,在人力、物力、資源方面聯(lián)合多個部門,組建專業(yè)服務團隊,共同開發(fā)技術平臺,豐富服務內容,拓展科研數據管理實踐途徑。
綜上,制定完善的數據管理政策,構建全面系統(tǒng)的服務體系,尋求多方位的合作方式,重視培養(yǎng)高素質的數據管理人才,是NIST科研數據管理實踐成功的關鍵因素。目前我國科研數據管理還處于探索階段,尚未形成良好的實踐成果和合作機制,NIST科研數據管理的成功做法與實踐經驗對我國開展科研數據管理具有很好的借鑒意義。