王明明 王卷樂,6 趙 強(qiáng) 高孟緒 李 舸 韓雪華,5 王玉潔
(1. 中國(guó)科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100101;2. 山東理工大學(xué)建筑工程學(xué)院,山東淄博 255049;3. 中國(guó)礦業(yè)大學(xué)(北京)地球科學(xué)與測(cè)繪工程學(xué)院,北京 100083;4. 國(guó)家科技基礎(chǔ)條件平臺(tái)中心,北京 100862;5. 中國(guó)科學(xué)院大學(xué),北京 100049;6. 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇南京 210023)
ICPSR科學(xué)數(shù)據(jù)中心的建設(shè)經(jīng)驗(yàn)與啟示
王明明1,2王卷樂1,6趙 強(qiáng)3高孟緒4李 舸1,2韓雪華1,5王玉潔1,2
(1. 中國(guó)科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100101;2. 山東理工大學(xué)建筑工程學(xué)院,山東淄博 255049;3. 中國(guó)礦業(yè)大學(xué)(北京)地球科學(xué)與測(cè)繪工程學(xué)院,北京 100083;4. 國(guó)家科技基礎(chǔ)條件平臺(tái)中心,北京 100862;5. 中國(guó)科學(xué)院大學(xué),北京 100049;6. 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇南京 210023)
科學(xué)數(shù)據(jù)中心是科學(xué)數(shù)據(jù)管理的重要載體之一。在當(dāng)前大數(shù)據(jù)和數(shù)據(jù)驅(qū)動(dòng)科學(xué)研究范式的信息化時(shí)代,我國(guó)在科學(xué)數(shù)據(jù)中心建設(shè)上發(fā)展迅速但缺乏經(jīng)驗(yàn),迫切需要了解和借鑒發(fā)達(dá)國(guó)家的科學(xué)數(shù)據(jù)中心建設(shè)方面的先進(jìn)理念和做法,促進(jìn)我國(guó)的科學(xué)數(shù)據(jù)管理。從網(wǎng)絡(luò)調(diào)研、文獻(xiàn)跟蹤、實(shí)地訪談等方法,對(duì)在人文社會(huì)科學(xué)領(lǐng)域科學(xué)數(shù)據(jù)中心建設(shè)方面極具代表性的美國(guó)密西根大學(xué)的大學(xué)間政治社會(huì)研究聯(lián)盟開展調(diào)研,從組織機(jī)制、政策標(biāo)準(zhǔn)、數(shù)據(jù)獲取、數(shù)據(jù)歸檔、數(shù)據(jù)認(rèn)證、數(shù)據(jù)引用和數(shù)據(jù)服務(wù)等方面對(duì)其進(jìn)行了詳細(xì)闡述并總結(jié)其建設(shè)經(jīng)驗(yàn)。進(jìn)一步結(jié)合我國(guó)科學(xué)數(shù)據(jù)中心數(shù)據(jù)管理現(xiàn)狀,給出我國(guó)數(shù)據(jù)中心發(fā)展的啟示,預(yù)期為我國(guó)學(xué)科領(lǐng)域的科學(xué)數(shù)據(jù)中心建設(shè)、數(shù)據(jù)管理和國(guó)際化發(fā)展等方面提供參考和借鑒。
科學(xué)數(shù)據(jù)管理;科學(xué)數(shù)據(jù)中心;國(guó)際經(jīng)驗(yàn);發(fā)展啟示
科學(xué)數(shù)據(jù)(或研究數(shù)據(jù))是指在科技活動(dòng)(實(shí)驗(yàn)、觀測(cè)、探測(cè)、調(diào)查等)或通過其他方式所獲取的反映客觀世界的本質(zhì)、特征、變化規(guī)律等的原始基本數(shù)據(jù),以及根據(jù)不同科技活動(dòng)需要進(jìn)行系統(tǒng)加工整理的各類數(shù)據(jù)集[1]。隨著大數(shù)據(jù)時(shí)代的到來,海量科學(xué)數(shù)據(jù)不斷產(chǎn)生,科學(xué)數(shù)據(jù)已成為國(guó)家的戰(zhàn)略資源,以及整個(gè)科研活動(dòng)的基石和保障??茖W(xué)數(shù)據(jù)中心是科學(xué)數(shù)據(jù)管理的重要載體之一,其建設(shè)方式有自上而下的國(guó)家數(shù)據(jù)中心模式和自下而上的學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)中心模式等不同方式。在當(dāng)前大數(shù)據(jù)和數(shù)據(jù)驅(qū)動(dòng)科學(xué)研究范式的信息化時(shí)代,我國(guó)在科學(xué)數(shù)據(jù)中心建設(shè)上發(fā)展迅速但缺乏經(jīng)驗(yàn),迫切需要了解和借鑒發(fā)達(dá)國(guó)家的科學(xué)數(shù)據(jù)中心建設(shè)方面的先進(jìn)理念和做法并獲得啟示,促進(jìn)我國(guó)科學(xué)數(shù)據(jù)管理。
美國(guó)是世界上科學(xué)數(shù)據(jù)擁有量最多的國(guó)家[2]。美國(guó)已經(jīng)將科學(xué)數(shù)據(jù)的持續(xù)積累和開放利用能力提高到了國(guó)家科技戰(zhàn)略的高度進(jìn)行部署,并投入了大量的人力、物力和財(cái)力。通過多年持續(xù)發(fā)展,形成了一系列上至國(guó)家級(jí)下至各行業(yè)部門的科學(xué)數(shù)據(jù)中心,并在科研過程中發(fā)揮了重要作用。本文選擇美國(guó)在人文社會(huì)科學(xué)領(lǐng)域科學(xué)數(shù)據(jù)中心建設(shè)方面極具有代表性的大學(xué)間政治社會(huì)研究聯(lián)盟(簡(jiǎn)稱“ICPSR”)作為研究對(duì)象,分析其數(shù)據(jù)中心建設(shè)及數(shù)據(jù)管理的經(jīng)驗(yàn),為我國(guó)科學(xué)數(shù)據(jù)中心的建設(shè)提供借鑒。
ICPSR是一個(gè)建立于1962年的聯(lián)盟機(jī)構(gòu),隸屬于美國(guó)密歇根大學(xué)的社會(huì)研究所,是全球數(shù)據(jù)管理組織DSA、DDI和WDS的成員。目前,ICPSR在社會(huì)科學(xué)和行為科學(xué)領(lǐng)域存儲(chǔ)有超過25萬份數(shù)據(jù)存檔文件,6.6萬多個(gè)科學(xué)數(shù)據(jù)集,涉及教育、老齡化、刑事司法、物質(zhì)濫用、恐怖主義等40余個(gè)領(lǐng)域。ICPSR的組織架構(gòu)如圖1所示。
ICPSR作為數(shù)字檔案館建立在密歇根大學(xué)社會(huì)研究院(ISR),通過協(xié)議備忘錄(MOA)與ISR達(dá)成運(yùn)作關(guān)系[3],密歇根大學(xué)、ISR和ICPSR三者相互協(xié)作,共同完成ICPSR的任務(wù)和目標(biāo)。(1)財(cái)政關(guān)系:密歇根大學(xué)校務(wù)委員通過ISR擔(dān)任ICPSR的財(cái)務(wù)代理人,ICPSR采取的所有財(cái)務(wù)和行政行動(dòng)均受密歇根大學(xué)政策和程序的約束。(2)ISR的職責(zé):ISR向ICPSR提供空間、服務(wù)和資源,并為ICPSR提供行政和財(cái)務(wù)監(jiān)督。(3)ICPSR員工任命:執(zhí)行董事由理事會(huì)選定,經(jīng)ISR主任任命為密歇根大學(xué)員工。ICPSR普通員工的雇傭由執(zhí)行董事決定,但要經(jīng)過ISR和密歇根大學(xué)人事管理人員的審查和批準(zhǔn)程序。(4)ICPSR員工權(quán)利:執(zhí)行董事和ICPSR管理人員有權(quán)代表ISR和理事會(huì)開展工作,但要受到ISR和密歇根大學(xué)正常規(guī)定的約束,并要符合ICPSR的章程。
圖1 ICPSR組織架構(gòu)
ICPSR在管理上采取理事會(huì)制度和會(huì)員制。(1)理事會(huì)成員:理事會(huì)由會(huì)員機(jī)構(gòu)選舉的12名成員組成,每?jī)赡赀x舉6名新成員,任期4年。(2)理事會(huì)職責(zé):理事會(huì)是ICPSR會(huì)員機(jī)構(gòu)和管理部門的執(zhí)行委員會(huì),被授權(quán)代表ICPSR行事,不僅參與組織目標(biāo)的確定以及制定實(shí)現(xiàn)這些目標(biāo)的政策和程序,而且審查工作人員代表ICPSR采取的活動(dòng)。(3)會(huì)議制度:在通常情況下,理事會(huì)每年舉行3次工作會(huì)議,但還會(huì)因?yàn)橐恍┨厥饽康呐e行特別會(huì)議、閉門會(huì)議和執(zhí)行會(huì)議等。
ICPSR是高校主導(dǎo)建設(shè)的聯(lián)盟機(jī)構(gòu)組織,目前擁有遍布全球的大約760所會(huì)員機(jī)構(gòu),具有非常豐富的會(huì)員管理經(jīng)驗(yàn)。(1)明確會(huì)員入會(huì)標(biāo)準(zhǔn):具有明確教育使命的非營(yíng)利研究組織可經(jīng)理事會(huì)批準(zhǔn)成為ICPSR成員。(2)會(huì)員分類管理:ICPSR根據(jù)普遍接受的學(xué)術(shù)機(jī)構(gòu)分類系統(tǒng)(如傳統(tǒng)的卡內(nèi)基高校分類法)將美國(guó)本土教育機(jī)構(gòu)分為6個(gè)會(huì)員等級(jí),美國(guó)以外的非營(yíng)利、政府和學(xué)術(shù)機(jī)構(gòu)以及商業(yè)用戶等準(zhǔn)會(huì)員或訂閱用戶將根據(jù)規(guī)模大小和數(shù)據(jù)資源的使用情況被分為4個(gè)級(jí)別,根據(jù)此分類,制定不同機(jī)構(gòu)的年度會(huì)費(fèi)標(biāo)準(zhǔn)。(3)官方代表(Of fi cial Representatives,OR):OR由會(huì)員機(jī)構(gòu)指定,作為ICPSR和會(huì)員機(jī)構(gòu)之間的聯(lián)絡(luò)人,代表會(huì)員參加官方代表會(huì)議。(4)明確權(quán)利和義務(wù):ICPSR工作人員將努力為每位會(huì)員提供公平的服務(wù),但會(huì)員要遵守使用數(shù)據(jù)資源的相關(guān)規(guī)定。
根據(jù)ICPSR“章程”規(guī)定[4],ICPSR的主要資金來源為會(huì)員年費(fèi),以支撐主要的財(cái)務(wù)活動(dòng)和服務(wù)項(xiàng)目。在理事會(huì)的指導(dǎo)和支持下,ICPSR還會(huì)尋求除會(huì)員費(fèi)之外的資金,如:訂閱費(fèi)用和與私人出版商合作的費(fèi)用。此外,ICPSR也申請(qǐng)相關(guān)基金項(xiàng)目[5],如:“新型宏觀經(jīng)濟(jì)數(shù)據(jù)建設(shè)的計(jì)算方法”項(xiàng)目得到密歇根大學(xué)數(shù)據(jù)科學(xué)研究所、密歇根大學(xué)社會(huì)研究所、密歇根經(jīng)濟(jì)教學(xué)與研究研究所等機(jī)構(gòu)的贊助,“科研人員訪問受限數(shù)據(jù)的憑證”項(xiàng)目得到Alfred P. Sloan基金會(huì)的贊助,等。
科學(xué)數(shù)據(jù)管理的政策支持包括宏觀和微觀兩個(gè)層面[10]。宏觀科學(xué)數(shù)據(jù)管理政策指導(dǎo)構(gòu)建科學(xué)數(shù)據(jù)管理總體框架,如美國(guó)重視科學(xué)數(shù)據(jù)的積累和重用,在法律和政策等層面提出科學(xué)數(shù)據(jù)管理的原則。微觀科學(xué)數(shù)據(jù)管理政策主要體現(xiàn)在各個(gè)數(shù)據(jù)中心制定的數(shù)據(jù)管理政策中。ICPSR為其社會(huì)科學(xué)數(shù)據(jù)管理制定了ICPSR數(shù)字保存政策框架、訪問政策框架、ICPSR保藏發(fā)展政策、再分配政策、ICPSR會(huì)員資助數(shù)據(jù)共享政策、可訪問性政策、隱私政策、角色與職責(zé)政策和ICPSR出售或交換數(shù)據(jù)政策等多個(gè)數(shù)據(jù)管理政策,旨在確保其科學(xué)數(shù)據(jù)管理工作的合法性、高效性和原則性。
在數(shù)據(jù)中心建設(shè)上,ICPSR遵循以下國(guó)際標(biāo)準(zhǔn)。(1)開放檔案信息系統(tǒng)(OAIS):是由美國(guó)航空航天局(NASA)咨詢委員會(huì)為空間系統(tǒng)定制的標(biāo)準(zhǔn),2003年作為ISO標(biāo)準(zhǔn)頒發(fā),目前在世界范圍內(nèi)得到廣泛應(yīng)用。該標(biāo)準(zhǔn)旨在為基于長(zhǎng)期保存目的的信息系統(tǒng)建立一個(gè)參考模型和基本概念框架,以維護(hù)信息系統(tǒng)中數(shù)字信息的長(zhǎng)期保存和可存取性。ICPSR跟蹤響應(yīng)OAIS相關(guān)舉措,包括數(shù)字檔案館認(rèn)證、永久標(biāo)識(shí)符、元數(shù)據(jù)保存和制作人存檔接口等,并根據(jù)OAIS參考模型制定了符合自己的數(shù)據(jù)管理流程。(2)數(shù)據(jù)文檔計(jì)劃(DDI):DDI標(biāo)準(zhǔn)是一項(xiàng)促進(jìn)描述統(tǒng)計(jì)和社會(huì)科學(xué)數(shù)據(jù)的國(guó)際標(biāo)準(zhǔn),描述了通過調(diào)查和其他觀察方法在社會(huì)、行為、經(jīng)濟(jì)和健康科學(xué)領(lǐng)域中產(chǎn)生的數(shù)據(jù)產(chǎn)品,在整個(gè)科學(xué)數(shù)據(jù)生命周期對(duì)研究數(shù)據(jù)進(jìn)行記錄和管理。作為DDI團(tuán)體中極具影響力的成員,ICPSR嚴(yán)格執(zhí)行DDI數(shù)據(jù)標(biāo)準(zhǔn)和DDI元數(shù)據(jù)標(biāo)準(zhǔn)。DDI標(biāo)準(zhǔn)的執(zhí)行,有助于增強(qiáng)人、軟件系統(tǒng)和計(jì)算機(jī)網(wǎng)絡(luò)對(duì)數(shù)據(jù)的理解、解釋和使用[11]。(3)數(shù)字對(duì)象標(biāo)識(shí)符(Digital Object Identi fi er,DOI):DOI是用于唯一標(biāo)識(shí)對(duì)象的永久性標(biāo)識(shí)符或句柄的ISO標(biāo)準(zhǔn)。ICPSR為每一項(xiàng)研究分配DOI,同時(shí)鼓勵(lì)此項(xiàng)標(biāo)準(zhǔn)應(yīng)用于期刊論文以及其他論文。DOI標(biāo)準(zhǔn)的使用,不僅方便了數(shù)據(jù)使用者,而且有助于數(shù)據(jù)產(chǎn)生者展示其工作的價(jià)值和科學(xué)影響力。(4)網(wǎng)頁(yè)標(biāo)準(zhǔn):ICPSR網(wǎng)頁(yè)符合美國(guó)聯(lián)邦政府采用的“第508節(jié)標(biāo)準(zhǔn)”,以及“網(wǎng)頁(yè)內(nèi)容可訪問性指南(WCAG)2.0”(AA級(jí))?!暗?08節(jié)標(biāo)準(zhǔn)”是根據(jù)康復(fù)法案第508節(jié)頒布的,適用于聯(lián)邦采購(gòu)的電子和信息技術(shù),包括計(jì)算機(jī)硬件、軟件、網(wǎng)站、電話系統(tǒng)和復(fù)印機(jī)[12]。網(wǎng)頁(yè)內(nèi)容可訪問性指南(WCAG)2.0包含了使Web內(nèi)容更容易訪問的各種建議,遵循這些標(biāo)準(zhǔn)有助于增強(qiáng)網(wǎng)頁(yè)的易讀性[13]。
ICPSR根據(jù)開放檔案信息系統(tǒng)(OAIS)參考模型制定了符合自己的數(shù)據(jù)處理流程。具體數(shù)據(jù)處理流程如圖2所示。
(1)數(shù)據(jù)源:一是ICPSR定位于收集社會(huì)科學(xué)、行為科學(xué)和健康科學(xué)等共包含27個(gè)學(xué)科的數(shù)據(jù),不收集非社會(huì)或非行為研究、具有數(shù)據(jù)成本和限制訪問權(quán)限的數(shù)據(jù)。二是規(guī)范數(shù)據(jù)獲取機(jī)制,不僅依靠數(shù)據(jù)歸檔人主動(dòng)存儲(chǔ)數(shù)據(jù),而且依靠工作人員主動(dòng)搜索數(shù)據(jù)。三是一個(gè)數(shù)據(jù)資源包括數(shù)據(jù)文件、文檔文件和描述性文件,三者缺一不可。四是規(guī)范數(shù)據(jù)格式,有利于數(shù)據(jù)用戶的使用,如國(guó)會(huì)圖書館推薦的格式規(guī)范。五是數(shù)據(jù)要符合公認(rèn)的隱私和保密標(biāo)準(zhǔn)。
圖2 數(shù)據(jù)處理流程圖[14]
(2)獲取優(yōu)先級(jí):在使用以上標(biāo)準(zhǔn)識(shí)別數(shù)據(jù)集后,ICPSR工作人員通過評(píng)估數(shù)據(jù)的可用性,安全、隱私和保密事項(xiàng),版權(quán)及法律問題,數(shù)據(jù)質(zhì)量,數(shù)據(jù)格式和財(cái)務(wù)因素等確定數(shù)據(jù)集所獲取的優(yōu)先等級(jí)。優(yōu)先等級(jí)較高的數(shù)據(jù)集被立即存儲(chǔ),優(yōu)先等級(jí)較低的數(shù)據(jù)集則被進(jìn)一步考慮收益和成本,并在短期內(nèi)判斷是否存儲(chǔ)此數(shù)據(jù)集。
(3)數(shù)據(jù)獲取:社會(huì)科學(xué)檔案館和其他學(xué)科的存儲(chǔ)庫(kù)不同于一般獲取靜態(tài)內(nèi)容的數(shù)據(jù)庫(kù)(如圖書館),其數(shù)據(jù)獲取過程涉及很多方面。ICPSR的數(shù)據(jù)獲取包括接收數(shù)據(jù)、數(shù)據(jù)優(yōu)化處理、審查保密和隱私性、編輯元數(shù)據(jù)文檔等內(nèi)容。在接收數(shù)據(jù)階段:所有數(shù)據(jù)都要通過電子存檔表存入數(shù)據(jù)庫(kù),并被賦予唯一的存檔ID,物理材料通過可移動(dòng)介質(zhì)(CD-ROM或DVD)傳輸。最終數(shù)據(jù)存檔者簽署存檔協(xié)議,同時(shí)ICPSR向存檔者遞送收據(jù),以確保數(shù)據(jù)傳輸?shù)陌踩院秃戏ㄐ浴?/p>
ICPSR建立了一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù),用來支撐社會(huì)和行為科學(xué)的研究和知識(shí)資源積累。針對(duì)社會(huì)科學(xué)領(lǐng)域研究過程中所創(chuàng)建數(shù)據(jù)的保存、復(fù)用等問題和需求,ICPSR制定了“數(shù)據(jù)保藏發(fā)展政策”[6],明確闡述了匯集數(shù)據(jù)的類型、制定了相應(yīng)的評(píng)估標(biāo)準(zhǔn)[7]、確定了數(shù)據(jù)集的優(yōu)先級(jí)等。只有符合ICPSR興趣特征的數(shù)據(jù)才能被賦予較高優(yōu)先等級(jí),并優(yōu)先存儲(chǔ),反之則被賦予較低優(yōu)先等級(jí),并推遲存儲(chǔ)或不存儲(chǔ)。為了形成長(zhǎng)期數(shù)據(jù)來源,ICPSR在長(zhǎng)期實(shí)踐中積累經(jīng)驗(yàn),總結(jié)了數(shù)據(jù)的主要來源[8],同時(shí)也規(guī)范化了數(shù)據(jù)集收集機(jī)制。
ICPSR數(shù)據(jù)中心建設(shè)注重?cái)?shù)據(jù)歸檔管理,主要包括以下流程。(1)科學(xué)數(shù)據(jù)準(zhǔn)備:ICPSR提倡早在數(shù)據(jù)產(chǎn)出之初就計(jì)劃數(shù)據(jù)歸檔和共享等事宜,以最大限度地發(fā)揮數(shù)據(jù)的作用,并確保數(shù)據(jù)的長(zhǎng)期可用性。根據(jù)雅克布和漢弗萊的說法,“數(shù)據(jù)歸檔是一個(gè)過程,應(yīng)該開始于成立項(xiàng)目之初,并且納入到整個(gè)項(xiàng)目生命周期中,隨時(shí)產(chǎn)生并存儲(chǔ)數(shù)據(jù)產(chǎn)品,生成和保存準(zhǔn)確的元數(shù)據(jù),以確保研究數(shù)據(jù)的可靠性”,“數(shù)據(jù)歸檔應(yīng)作為科研活動(dòng)的一部分”。(2)科學(xué)數(shù)據(jù)獲?。涸诳茖W(xué)數(shù)據(jù)獲取階段,嚴(yán)格執(zhí)行接收數(shù)據(jù)、數(shù)據(jù)優(yōu)化處理、審查保密和隱私性、編輯元數(shù)據(jù)文檔等相關(guān)規(guī)定,確??茖W(xué)數(shù)據(jù)歸檔的質(zhì)量。(3)科學(xué)數(shù)據(jù)存儲(chǔ):ICPSR將所有數(shù)據(jù)按會(huì)員數(shù)據(jù)集、代理數(shù)據(jù)集、openICPSR數(shù)據(jù)集和DataLumos數(shù)據(jù)集進(jìn)行分類分級(jí)存儲(chǔ)管理。為保證科學(xué)數(shù)據(jù)的安全,ICPSR將所有數(shù)據(jù)文件共存儲(chǔ)有6個(gè)副本,并且對(duì)異地備份數(shù)據(jù)進(jìn)行加密處理。另外,ICPSR引入了云計(jì)算技術(shù),在2009年第一次用亞馬遜的云服務(wù)支撐整個(gè)網(wǎng)絡(luò)傳輸系統(tǒng)。
評(píng)估認(rèn)證對(duì)科學(xué)數(shù)據(jù)中心獲取各利益相關(guān)者的信賴具有重要意義。近年來,ICPSR在數(shù)據(jù)認(rèn)證方面做了很多努力,先后通過了可信賴倉(cāng)庫(kù)的審計(jì)和認(rèn)證(TRAC)、數(shù)據(jù)認(rèn)可印章(DSA)和DRAMBORA等數(shù)據(jù)中心認(rèn)證體系。其目的就是確保數(shù)據(jù)存儲(chǔ)過程清晰透明且符合實(shí)踐要求,并確保數(shù)字資產(chǎn)得到應(yīng)有的保護(hù)。事實(shí)證明,評(píng)估認(rèn)證能提升科學(xué)數(shù)據(jù)中心的可信賴度,確保數(shù)據(jù)的長(zhǎng)期可獲得性,增加科學(xué)數(shù)據(jù)中心工作流程的透明度,而科學(xué)數(shù)據(jù)中心本身也能依照行業(yè)標(biāo)準(zhǔn)評(píng)估改進(jìn)工作流程和步驟[15]。
ICPSR一直與Data-PASS合作,推動(dòng)數(shù)據(jù)引用標(biāo)準(zhǔn)的發(fā)展。每一條數(shù)據(jù)引用必須包含能唯一識(shí)別數(shù)據(jù)集的基本元素:標(biāo)題、作者、日期、版本、永久標(biāo)識(shí)符(數(shù)字對(duì)象標(biāo)識(shí)符DOI、統(tǒng)一資源名稱URN或句柄系統(tǒng)),如國(guó)家健康與營(yíng)養(yǎng)調(diào)查(NHANES)項(xiàng)目數(shù)據(jù)的引用格式為:“United States Department of Health and Human Services.Centers for Disease Control and Prevention. National Center for Health Statistics. National Health and Nutrition Examination Survey (NHANES), 2005-2006. ICPSR25504-v5. Ann Arbor, MI: Interuniversity Consortium for Political and Social Research [distributor], 2012-02-22. https://doi.org/10.3886/ICPSR25504.v5”[16]。ICPSR對(duì) 每 條數(shù)據(jù)的引用情況進(jìn)行跟蹤統(tǒng)計(jì),并在網(wǎng)上展示這些數(shù)據(jù)共享后的引用情況[17]。恰當(dāng)?shù)臄?shù)據(jù)引用能夠促進(jìn)科學(xué)的發(fā)展,無論是數(shù)據(jù)生產(chǎn)者、作者還是雜志編輯者,都應(yīng)遵守?cái)?shù)據(jù)引用標(biāo)準(zhǔn),共同營(yíng)造一個(gè)良好的數(shù)據(jù)引用文化氛圍。
ICPSR數(shù)據(jù)用戶不再局限于會(huì)員,數(shù)據(jù)訪問者的身份更加多樣,主要包括:研究者、政策制定者、從業(yè)者、教師、學(xué)生、贊助商和基金會(huì)等。為此,ICPSR對(duì)其數(shù)據(jù)資源分級(jí)共享,包括完全公開和限制使用等級(jí)別,同時(shí)專門制定有明確而透明的訪問政策框架,以支撐其數(shù)據(jù)訪問和共享活動(dòng)[9]。
ICPSR為其數(shù)據(jù)用戶提供了“一站式”數(shù)據(jù)服務(wù)系統(tǒng)。(1)可搜索數(shù)據(jù)庫(kù):ICPSR為數(shù)據(jù)用戶提供了科研項(xiàng)目、變量和引文3個(gè)可搜索數(shù)據(jù)庫(kù),此搜索引擎包含所有的數(shù)據(jù)文檔,既支持多關(guān)鍵字搜索也支持精確搜索。(2)在線分析工具:為了方便數(shù)據(jù)用戶,ICPSR利用由加州大學(xué)伯努利分校計(jì)算機(jī)輔助調(diào)查方法項(xiàng)目開發(fā)的調(diào)查文檔與分析(SDA)軟件,提供在線分析數(shù)據(jù)服務(wù),用戶無需下載全部數(shù)據(jù),就可對(duì)數(shù)據(jù)進(jìn)行評(píng)估分析。(3)數(shù)據(jù)利用報(bào)告:ICPSR向數(shù)據(jù)存儲(chǔ)者提供有關(guān)其數(shù)據(jù)集的使用報(bào)告,報(bào)告顯示數(shù)據(jù)被查看和下載的次數(shù),以及數(shù)據(jù)使用者的學(xué)術(shù)身份和機(jī)構(gòu)信息。此報(bào)告幫助數(shù)據(jù)存儲(chǔ)者了解其數(shù)據(jù)的社會(huì)影響力。(4)暑期培訓(xùn):自1963年以來,ICPSR一直提供關(guān)于社會(huì)研究定量方法的暑期培訓(xùn)課程,作為其數(shù)據(jù)服務(wù)的補(bǔ)充。每年有來自全世界350多所學(xué)院、大學(xué)和組織的30種不同學(xué)科的學(xué)員參加暑期培訓(xùn)課程。(5)教育資源:ICPSR為本科教師和學(xué)生特別創(chuàng)建了一些數(shù)據(jù)資源,這些資源可以作為家庭作業(yè)的基礎(chǔ)、課堂或?qū)W習(xí)的練習(xí)、講座內(nèi)容和其他相關(guān)的教育資源。(6)數(shù)據(jù)處理工具:ICPSR為數(shù)據(jù)用戶提供豐富多樣的數(shù)據(jù)處理工具,如表1所示。
我國(guó)于1988年加入世界數(shù)據(jù)中心(WDC,世界數(shù)據(jù)系統(tǒng)WDS的前身),并于當(dāng)年成立了9個(gè)學(xué)科中心[18],2002年啟動(dòng)的國(guó)家科學(xué)數(shù)據(jù)共享工程和2004年啟動(dòng)的國(guó)家科技基礎(chǔ)條件平臺(tái)建設(shè)專項(xiàng)相繼推動(dòng)了一批國(guó)家科學(xué)數(shù)據(jù)中心的建設(shè)與發(fā)展。除了這些自頂而下的科學(xué)數(shù)據(jù)中心建設(shè),國(guó)內(nèi)許多高校、科研機(jī)構(gòu)也建立有學(xué)科領(lǐng)域的數(shù)據(jù)中心?,F(xiàn)針對(duì)國(guó)內(nèi)科學(xué)數(shù)據(jù)中心的缺點(diǎn)和不足,結(jié)合ICPSR的管理和服務(wù)經(jīng)驗(yàn),提出以下幾點(diǎn)啟示。
表1 數(shù)據(jù)處理工具
(1)學(xué)科領(lǐng)域的公共存儲(chǔ)是科學(xué)數(shù)據(jù)管理的重要載體
ICPSR是典型的社會(huì)科學(xué)領(lǐng)域公共存儲(chǔ)庫(kù),接納本學(xué)科領(lǐng)域的各類科學(xué)數(shù)據(jù)集和科技資源。作為公共存儲(chǔ),要強(qiáng)調(diào)其學(xué)科性、開放性和服務(wù)性。首先,學(xué)科性是其立足之本,需要不斷明確其在本學(xué)科領(lǐng)域的引領(lǐng)性,提升其在學(xué)科領(lǐng)域的影響力,讓更多本學(xué)科領(lǐng)域的研究人員愿意把科學(xué)數(shù)據(jù)資源存儲(chǔ)在這一存儲(chǔ)庫(kù)內(nèi)。開放性是公共存儲(chǔ)庫(kù)的基本特征,ICPSR沒有行政或者資金約束機(jī)構(gòu)的限制,具有在社會(huì)科學(xué)領(lǐng)域數(shù)據(jù)交換和共享的充分自由度,ICPSR的數(shù)據(jù)資源能夠在全球任何地域訪問。服務(wù)性是一個(gè)公共存儲(chǔ)庫(kù)得以長(zhǎng)期立足和不斷擴(kuò)大國(guó)際影響力的根本,ICPSR通過科學(xué)數(shù)據(jù)標(biāo)識(shí)、科學(xué)數(shù)據(jù)引用統(tǒng)計(jì)、科學(xué)數(shù)據(jù)管理和備份等服務(wù)舉措,首先滿足數(shù)據(jù)資源存儲(chǔ)方的基本訴求,進(jìn)而為科學(xué)數(shù)據(jù)提供專門的質(zhì)量控制、維護(hù)和開發(fā)團(tuán)隊(duì),來確保數(shù)據(jù)能夠充分服務(wù)于用戶。此外,ICPSR通過若干數(shù)據(jù)周、夏令營(yíng)、培訓(xùn)班和在線Webinar講座等形式傳播其科學(xué)數(shù)據(jù)管理的做法和成效。這些均是我國(guó)科學(xué)數(shù)據(jù)管理中所缺少的。
(2)科學(xué)數(shù)據(jù)管理的生命周期完整、管理過程分工清晰
ICPSR在科學(xué)數(shù)據(jù)管理中具有清晰而完整的數(shù)據(jù)生命周期。首先是科研人員將本人的科學(xué)數(shù)據(jù)成果提交或匯交到ICPSR。美國(guó)國(guó)家科學(xué)基金會(huì)(National Science Foundation,NSF)要求所有的科學(xué)研究項(xiàng)目結(jié)題前需要將科學(xué)數(shù)據(jù)共享和開放到科學(xué)界,許多社會(huì)科學(xué)領(lǐng)域的科學(xué)家首先選擇ICPSR作為數(shù)據(jù)匯交的平臺(tái)。首先,匯交后的數(shù)據(jù)經(jīng)科研人員進(jìn)行質(zhì)量審核,以確認(rèn)該數(shù)據(jù)能否進(jìn)入存儲(chǔ)庫(kù)中;然后,對(duì)質(zhì)量合格的科學(xué)數(shù)據(jù)進(jìn)行分類、編碼和編制元數(shù)據(jù)信息;最后,將數(shù)據(jù)存入數(shù)據(jù)存儲(chǔ)庫(kù),并使其能夠被檢索、瀏覽和在分類分級(jí)共享政策控制下被開放獲取,且收集各界用戶對(duì)科學(xué)數(shù)據(jù)使用情況進(jìn)行評(píng)估的意見,反饋到數(shù)據(jù)管理部門。ICPSR這一數(shù)據(jù)管理過程涉及多個(gè)部門,各部門管理分工明確、流程銜接有序,不僅能夠保證科學(xué)數(shù)據(jù)管理的質(zhì)量而且提高了科學(xué)數(shù)據(jù)管理效率,而且有利于在各個(gè)階段進(jìn)行數(shù)據(jù)質(zhì)量的溯源。
(3)完備的科學(xué)數(shù)據(jù)管理政策和標(biāo)準(zhǔn)化體系是數(shù)據(jù)中心建設(shè)的重要基礎(chǔ)
ICPSR在科學(xué)數(shù)據(jù)管理方面有一系列的數(shù)據(jù)管理政策,諸如大學(xué)間政治社會(huì)研究聯(lián)盟訪問政策框架、保藏發(fā)展政策、會(huì)員資助數(shù)據(jù)共享政策、數(shù)字保存政策框架等。在標(biāo)準(zhǔn)技術(shù)上,ICPSR采用國(guó)際標(biāo)準(zhǔn)化組織推薦的OAIS建立數(shù)據(jù)管理的標(biāo)準(zhǔn)化框架,采用國(guó)際DDI標(biāo)準(zhǔn)構(gòu)建元數(shù)據(jù)技術(shù)規(guī)范。在其元數(shù)據(jù)描述要求中,規(guī)定所有數(shù)據(jù)必須遵從ICPSR的元數(shù)據(jù)內(nèi)容要求,包括使用可擴(kuò)展標(biāo)記語言(XML)對(duì)文檔和數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,元數(shù)據(jù)中要包含參研人員、資金來源、項(xiàng)目描述等主要元素。ICPSR同樣規(guī)定了數(shù)據(jù)的引用格式。其標(biāo)準(zhǔn)化的引用格式包括標(biāo)題、作者、數(shù)據(jù)、版本和永久標(biāo)識(shí)符等內(nèi)容。這些都是其科學(xué)數(shù)據(jù)可以長(zhǎng)期保存、利用和增值的重要基礎(chǔ)。
(4)科學(xué)數(shù)據(jù)安全管理制度完善、物理設(shè)施齊備,重視數(shù)據(jù)中心認(rèn)證
ICPSR重視科學(xué)數(shù)據(jù)的安全管理,具有6個(gè)數(shù)據(jù)存儲(chǔ)備份,并且依托于亞馬遜的云平臺(tái)建立云備份。ICPSR對(duì)于重要的、具有權(quán)限控制的科學(xué)數(shù)據(jù)采取物理存儲(chǔ)隔離,只有具有相關(guān)權(quán)限的人員才能通過門禁系統(tǒng)進(jìn)入這個(gè)區(qū)域。對(duì)于用戶訪問的網(wǎng)絡(luò)安全,ICPSR提供有VPN機(jī)制對(duì)特定用戶提供局域網(wǎng)的數(shù)據(jù)服務(wù)。鑒于數(shù)據(jù)安全問題,ICPSR未在國(guó)外進(jìn)行備份。ICPSR重視數(shù)據(jù)中心認(rèn)證,于2011年通過荷二Data Seal of Approval的數(shù)據(jù)中心認(rèn)證。ICPSR數(shù)據(jù)中心各項(xiàng)軟、硬環(huán)境完善,是ICSU-WDS的國(guó)際數(shù)據(jù)中心之一,并通過ICSU-WDS的數(shù)據(jù)認(rèn)證和評(píng)估。
(5)科學(xué)數(shù)據(jù)管理的反哺和回報(bào)機(jī)制完善
ICPSR利用信息技術(shù)對(duì)科學(xué)數(shù)據(jù)管理和開放服務(wù)的效益進(jìn)行量化和追蹤,協(xié)調(diào)解決數(shù)據(jù)提供者、管理者、使用者之間的利益關(guān)注點(diǎn),使得科學(xué)數(shù)據(jù)管理成效能夠開放透明地反哺和回報(bào)各利益相關(guān)方。例如,發(fā)布帶有標(biāo)識(shí)符的科學(xué)數(shù)據(jù),提供科學(xué)數(shù)據(jù)使用的引用統(tǒng)計(jì)等。ICPSR當(dāng)前引用率較高的數(shù)據(jù)其引用次數(shù)高達(dá)850余次。這個(gè)數(shù)據(jù)引用追蹤機(jī)制是對(duì)科學(xué)數(shù)據(jù)資源擁有者和提交者的極大回報(bào),在客觀上也促進(jìn)了優(yōu)質(zhì)科學(xué)數(shù)據(jù)資源的社會(huì)推廣和科學(xué)界評(píng)價(jià)。
[1]司莉,莊曉喆,王思敏,等.2005年以來國(guó)外科學(xué)數(shù)據(jù)管理與共享研究進(jìn)展與啟示[J].國(guó)家圖書館學(xué)刊,2013,22(3):40-49.
[2]劉闖.美國(guó)國(guó)有科學(xué)數(shù)據(jù)共享管理機(jī)制及對(duì)我國(guó)的啟示[J].中國(guó)基礎(chǔ)科學(xué),2003(1):29-31.
[3]Memorandum of Agreement[EB/OL].[2017-05-14].http://www.icpsr.umich.edu/icpsrweb/content/about/governance/moa.html.
[4]Constitution[EB/OL].[2017-05-14].http://www.icpsr.umich.edu/icpsrweb/content/about/governance/constitution.html.
[5]Data Stewardship and Social Science Research Projects[EB/OL].[2017-05-14]. http://www.icpsr.umich. edu/icpsrweb/content/about/research-projects.html.
[6]ICPSR Collection Development Policy[EB/OL].[2017-05-14]. http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/policies/colldev.html.
[7]Details on Appraisal Critera[EB/OL].[2017-05-14].http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/details.html.
[8]Data Sources[EB/OL]. [2017-05-14].http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/sources.html.
[9]ICPSR Access Policy Framework[EB/OL].[2017-05-14]. http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/preservation/policies/access-policyframework.html.
[10]孟祥保,錢鵬.高校社會(huì)科學(xué)數(shù)據(jù)管理的國(guó)際經(jīng)驗(yàn)及其借鑒:以UKDA和ICPSR為例[J].情報(bào)資料工作,2013,34(2):77-80.
[11]Data Documentation Initiative (DDI)[EB/OL].[2017-05-02].http://www.ddialliance.org/.
[12]About the Section 508 Standards[EB/OL].[2017-05-02]. https://www.access-board.gov/guidelines-andstandards/communications-and-it/about-the-section-508-standards.
[13]Web Content Accessibility Guidelines (WCAG) 2.0 [EB/OL]. [2017-05-02]. https://www.w3.org/TR/WCAG20/.
[14]OAIS-Based Processes[EB/OL].[2017-05-21]. http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/oais.html.
[15]VARDUGAN M, LYLE J. The inter-university consortium for political and social research and the data seal of approval: accreditation experiences, challenges, and opportunities[J].Data Science Journal,2014(13):83-87.
[16]National Health and Nutrition Examination Survey(NHANES), 2005-2006 (ICPSR 25504)[EB/OL].[2017-05-25].http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/25504#cite.
[17]Utilization for National Health and Nutrition Examination Survey (NHANES), 2005-2006[EB/OL]. [2017-05-25].http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/25504/utilization.
[18]王卷樂,孫九林.世界數(shù)據(jù)中心(WDC)回顧、變革與展望[J].地球科學(xué)進(jìn)展,2009,24(6):612-620.
Experiences and Enlightenment of ICPSR Scientific Data Center Development
WANG Mingming1,2, WANG Juanle1,6, ZHAO Qiang3, GAO Mengxu4, LI Ge1,2, HAN Xuehua1,5, WANG Yujie1,2
(1. Laboratory of Resources and Environment Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101; 2. School of Civil and Architectural Engineering, Shandong University of Technology, Zibo Shandong 255049; 3. College of Geoscience and Engineering, China University of Mining & Technology (Beijing), Beijing 100083; 4. National Science and Technology Infrastructure Center, Beijing 100862; 5. University of Chinese Academy of Sciences, Beijing 100049; 6. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023)
Scientific data center is one of the important carriers of scientific data management and its construction methods include state data center model by top-down and disciplines distribution science data center model by bottom-up. In the information age of big data and data-driven scientific research paradigm,china develops rapidly but lacks experience in the construction of scientific data center, therefore In order to promote the management of scientific data in China, it is urgent to understand and draw lessons from the advanced concepts and practices of scientific data center construction in developed countries. The University of Michigan’s Inter-university Consortium for Political and Social Research (ICPSR) has conducted long-term social survey data accumulation, with years of Social Science Variables Database. It is highly representative of the construction of scientific data centers in the field of humanities and social sciences. In this paper, the ICPSR is elaborated and summarized from the aspects of organization and mechanism, policy and standard,data acquisition, data archiving, data authentication, data referencing and data services, through network research, document tracking and field interview. Combining with the status of data management of domestic scientific data center, the paper presents some suggestions for the development of Chinese scientific data center, and is expected to provide reference for scientific data center construction, data management and international development in various disciplinary fields.
scientific data management, scientific data center, international experience, development enlightenment
TP391.7
A
10.3772/j.issn.1674-1544.2017.06.015
王明明(1993—),男,山東理工大學(xué)碩士研究生,研究方向:地理信息系統(tǒng)與科學(xué)數(shù)據(jù)管理;王卷樂(1976—),男,博士,中國(guó)科學(xué)院地理科學(xué)與資源研究所研究員,地球數(shù)據(jù)科學(xué)與共享研究室副主任,博士生導(dǎo)師,研究方向:科學(xué)數(shù)據(jù)共享、地理信息系統(tǒng)與遙感應(yīng)用(通訊作者);趙強(qiáng)(1992—),男,中國(guó)礦業(yè)大學(xué)(北京)碩士研究生,研究方向:3S集成與工程應(yīng)用;高孟緒(1982—),男,國(guó)家科技基礎(chǔ)條件平臺(tái)中心副研究員,博士,研究方向:科技資源管理與共享;李舸(1993—),男,山東理工大學(xué)碩士研究生,研究方向:地理信息系統(tǒng)與科學(xué)數(shù)據(jù)管理;韓雪華(1992—),女,中國(guó)科學(xué)院大學(xué)碩士研究生,研究方向:數(shù)據(jù)共享與知識(shí)發(fā)現(xiàn);王玉潔(1992—),女,山東理工大學(xué)碩士研究生,研究方向:地理信息共享。
基金項(xiàng)目:國(guó)家科技基礎(chǔ)條件平臺(tái)專項(xiàng)課題“科學(xué)數(shù)據(jù)管理與開放共享的模式與方法研究”(2015DDJ1ZZ11);國(guó)家科技基礎(chǔ)條件平臺(tái)專項(xiàng)課題“科學(xué)數(shù)據(jù)匯聚的模式與方法研究”(2017DDJ12215);中國(guó)科學(xué)院學(xué)部咨詢?cè)u(píng)議項(xiàng)目“前沿與交叉學(xué)科科研信息化發(fā)展戰(zhàn)略研究”(O7M74940F4)。
2017年5月30日。