■王雪萍
在大數據時代,科研大項目所產生的數據呈現爆炸式增長,這些科研大數據產生后多數即被封存起來,未被及時整理和提供利用,被稱為“暗數據”。通過分析大數據視角下科研大項目數據管理面臨的挑戰(zhàn),提出科研大項目檔案“暗數據”管護變革措施,引起科研檔案界的重視,對這些科研寶貴數據加以挖掘,實現知識管理,最終達到融合、創(chuàng)新與發(fā)展。
多媒體、移動化、云技術、大數據是未來科研大項目檔案管理要面對的現實,這是檔案載體和存在形式變革所帶來的挑戰(zhàn)??蒲性核谡{研、啟動立項、實施過程、中期檢查、結題驗收、推廣應用及后期評估等過程中產生的科研大數據,有科研項目管理和研究過程中積累的大量科研歷史數據,也有在科研過程中實時生成的日常數據,還有基于原始數據開放共享挖掘分析產生的開放數據,這些數據成為科研大項目數據庫。而在科研結題驗收后,并未對這些大項目數據資源進行開發(fā)利用,未能根據科研需要構建大項目知識庫,還是停留在數據庫階段,這些“暗數據”在大數據視角下給科研大項目數據管理帶來嚴峻挑戰(zhàn),具體表現:
如當前中國科學院在實行“率先計劃”行動,組織全院力量共同實施跨機構、跨學科、跨領域等“三跨”科技專項,啟動戰(zhàn)略性先導專項A 類、B 類和C類三種。這些戰(zhàn)略性先導項目旨在解決國民經濟難題,中國科學院昆明動物所承擔的《動物復雜性狀的進化解析與調控》專項系統,解析動物復雜性狀這一長期懸而未決的重大生物學問題,揭示動物復雜性狀形成的黑箱,實現動物復雜性狀的可追溯、可預測和可調控。在專項實施過程中,構建了國內公共組學大數據平臺GSA 數據庫。再比如中國科學院海洋研究所承擔的“熱帶西太平洋海洋系統物質能量交換及其影響”專項中,突出成果之一構建海洋先導專項數據管理與可視化平臺,這一可視化平臺將專項所取得海洋數據實時存儲在平臺數據庫中。這些作為戰(zhàn)略性先導科研項目的軟成果,如何保存,在檔案領域中,如何支撐體現其所取得的亮點工作成果,并確保未來能得以利用,已成為當前檔案人員亟需探索的問題。
科研大項目所產生的大數據存儲平臺不同,存在異構。如何將這些多樣化的科研大數據存儲集成在同構的檔案數據庫平臺中,有待進一步探討,這些多樣化多級多層存儲管理的科研大數據給檔案安全帶來挑戰(zhàn),科研工作者在利用這些科研大數據時,如何滿足利用者的檢索使用要求,如何確??蒲写髷祿拇鎯Π踩?、利用安全及傳輸安全,使得其能真正起到保護科研工作者成果的作用,又能保證科研大數據檔案的安全性和隱私性。
衛(wèi)星遙感數據、天文觀測數據、生物數據等,這些數據的增長速度遠遠超越檔案存儲速度,同時這些數據還處在動態(tài)演變中,信息技術能力提升已落后于數據體量增長速度??蒲写髷祿脑鲩L速度之快是大數據時代的突出特點,這些迅速增長的大數據來自方方面面,有歷史記錄有實時更新和挖掘分析得來,往往像過眼云煙一樣還來不及加以保存卻已被覆蓋。
當前大數據時代,針對這些爆炸式增長的科研大數據,其未能被深入挖掘,獲取的價值較小,檔案人員未能對其進行深入分析挖掘,大數據現象將長期存在。在2016 年的數據冰山報告中提出,52%的數據產生后被封存未提供利用和處理,這些數據被稱為“暗數據”。檔案中也存在較多“暗數據”,這些“暗數據”將很長時間占據主導位置,為了促進科研數據產生大價值,需考慮如何對“暗數據”進行挖掘分析,對其進行知識管理,使其達到最大價值。如何在海量信息中快準全對其進行有效檢索困擾著檔案人員,需要發(fā)揮大數據的大價值。
當前異構檔案數據庫管理系統未能滿足科研大數據信息的遷移,即如何從分散的技術環(huán)境中遷至可共享的技術基礎設施中,以及如何再向未來更先進的技術環(huán)境進行遷移困擾著技術人員,因為技術發(fā)展不會停下來。同樣科研大項目數據也不會停止,管理系統技術要能與時俱進,兼容技術的發(fā)展,完成數據遷移備份,使得科研大項目數據得以完全的遷移。
針對當前科研大項目主管部門,有科技部牽頭負責的國家重點研發(fā)專項,有中國科學院牽頭負責的戰(zhàn)略性先導專項,還有國家發(fā)改委、工信部等各自牽頭負責的大科學專項,甚至還有交叉共同負責的國之重器等重大基礎設施建設專項,如C919 國產大飛機、FAST 中國天眼500 米射電望遠鏡、深海奮斗者號、中國散裂中子源等涉及眾多單位共同參與攻堅完成的。在對這些科研大項目進行研究時,專項牽頭單位與各參與單位之間有關科學數據、檔案數據的職責未能明晰,造成驗收后各自存放,更有甚者,科學數據和檔案數據未能實現平臺共享。
很多科研大項目取得研制的樣機、基因組數據庫、品種全過程數據等資料,這些數據作為科研項目的亮點成果,是科學家辛勤勞動的結晶,檔案部門如何說服其歸檔并能完好提供利用,即如何使得這些科研項目大數據檔案安全可用,困擾著多數科研院所檔案人員。當前檔案人員不敢輕易收集,在未想清楚并確保措施得當的前提下,這部分科研大數據尚未歸檔,如何才能更有效解決科研檔案管理的“管理難、利用難”問題。
當前檔案管理部門負責接收的科研大項目檔案包括科研全過程檔案,涵蓋科研項目立項、研究、驗收及后期評估等流程檔案,涉及檔案分類有管理類、科研過程類、科研設備類、驗收類等,完全體現科研大項目檔案的全生命周期理論。而科技部在重點研發(fā)專項管理中,側重對科研數據匯交要求,并制定了科研數據匯交管理辦法,各專項根據匯交辦法按時將科研數據提交數據銀行(數據中心)經審核后,給予匯交憑證。如今科研檔案與科研數據雙向要求,給科研人員帶來極大不便,有必要對雙向要求進行整合,使得數據之間可互通、共享。
檔案信息資源是科研檔案的核心,在技術變遷環(huán)境下文件檔案的存在形式經歷模擬態(tài)到數字態(tài),尚未跟隨技術變遷發(fā)展到當今的數據態(tài)。在模擬態(tài)中,科研文件檔案以實體保存的檔案為管理對象,其資源是實際存在的,即為物理狀態(tài),主要有文本文件、圖形文件等。當前科研檔案包括科研成果、科研產品研制文件、設計文件、技術改造方案、圖紙等重要資料,這些尚處在由模擬態(tài)向數字態(tài)轉變中,當今對大型科研項目檔案進行驗收時,已明確要求對檔案信息化建設、電子文件進行驗收檢查。但是當前的科研檔案已呈現出數據態(tài)形式,如中科院昆明動物所開發(fā)的GSA數據庫,涵蓋植物、動物、人類、病毒細菌、宏基因組等數據,這些數據庫數字態(tài)管理空間不再是以載體為中心的管理空間,而是以數據、規(guī)則、模型為對象進行管理。因此,在大數據時代,應加強對科研數據資源質量的管護,確保資源齊全、完整、準確。
科研檔案應做到“四同步”管理,但是仍然存在被動管理現象,待科研項目要結題驗收時開始根據要求“造檔案、補檔案”,而后補的檔案材料前后不符,邏輯關系存在較大問題,這些后端補管理無法與項目同步,無法反映科研全過程。因此,提倡變被動為主動科研管理模式,加強科研項目檔案戰(zhàn)略性管理,事后管理變事前管理,主動有針對性地管理和服務,貫穿科研項目生命周期中產生的文件,實時更新,確保版本有效,同步提供利用服務。這一管理模式變革中,需要明確各方職責,落實責任。
科研檔案里凝聚著大量有用的科學研究知識,如何實現科研大項目檔案數據的集成和挖掘,避免科研大項目檔案信息孤島現象,應重視科研大項目檔案信息資源的集成管護和共享協同發(fā)展平臺建設,從制度上落實科研大項目檔案管理制度的確立,實現對科研大項目檔案從形成到最終利用全過程管理,實現跨區(qū)域、跨單元、跨學科等聯動共同推進實施。構建基于科研項目大數據集成分析平臺,運用知識挖掘手段,對科研檔案所保存的檔案信息資源進行深層次挖掘分析,對科研項目大數據中所蘊涵的深度動態(tài)廣泛的要素進行挖掘,為后續(xù)或正在繼續(xù)實施的科研項目立項、研究實施提供全方位、多層次的檔案信息,從而實現科研項目檔案“暗數據”向高價值的“金數據”轉變,實現檔案信息增值服務和提高檔案信息服務的競爭力,并解決科研項目大數據在利用上時間、空間的障礙。
在學術和科研界對科研項目大數據信息的存儲、遷移、挖掘和管護等過程中,需要結合各個科研項目自身特點,對產生的特色檔案數據資源進行分析,運用不同的新興技術進行突破和集成,以構建技術支撐平臺。中科院深海研究所承擔的海斗深淵專項,其特點是航次記錄、海洋深淵微生物標本分析,根據歷次航次特色數據構建檔案資源數據庫。而中國科學院國家天文臺承擔的FAST 項目,其特點是各個系統設計、研制或調試運行過程中形成的檔案數據和圖紙。中科院遺傳發(fā)育所承擔的分子育種專項特點是基因組測序、品種權審定過程材料。針對各個科研項目的特色,運用云存儲技術、智能化技術,同時高度重視計算技術的實時更新和利用,結合其可彈性擴展特點,存儲各科研過程中產生的電子資料和數據,貫穿科研項目大數據生命周期全過程,并將異構數據庫和存儲設備載體進行整合和平臺對接,構建協同管理平臺,共同對外提供科研項目數據抓取存儲匯集、遷移、訪問捕獲、管護和共享,實現科研關鍵過程數據的長期保存,將科研項目檔案資源轉化為知識資源,實現科研項目大數據管理與共享,解決當前大數據時代給科研項目檔案大數據帶來的挑戰(zhàn)。
隨著云存儲、大數據、人工智能等新興技術的飛速發(fā)展,科研項目大數據檔案資源呈現海量爆發(fā)增長,而科研需求也在日益朝著智能化、遠程化和個性化方向發(fā)展,給當前科研大項目檔案管理帶來嚴峻挑戰(zhàn),如何做好科研大項目檔案管護工作,科技創(chuàng)新的同時也要求檔案管護有所創(chuàng)新,使科研大項目檔案“暗數據”逐步得到改善。運用新興技術,結合科研大項目特點,突破瓶頸,構建協同融合創(chuàng)新發(fā)展平臺,分析挖掘出科研大項目檔案高價值資源,最終實現科研大項目數據、檔案、知識與智慧的一體化管理。