董 宇 安小米 錢 澄 郝春紅
(1.北京石油化工學(xué)院經(jīng)濟管理學(xué)院,北京,102600;2.中國人民大學(xué)信息資源管理學(xué)院,北京,100872;3.中國人民大學(xué)數(shù)據(jù)工程與知識工程教育部重點實驗室,北京,100872)
目前,國內(nèi)對國外科技檔案研究的關(guān)注度較低,采用“外國”、“國外”、“西方”、“科技檔案”、“科研檔案”、“科技文件”、“科研文件”、“科技文檔”、“科研文檔”、“科技數(shù)據(jù)”和“科研數(shù)據(jù)”的組合字段對CNKI數(shù)據(jù)庫進行題名檢索,檢索到的相關(guān)期刊只有6 篇,2005年以后的數(shù)量僅3 篇,總體數(shù)量上較少。在研究內(nèi)容上,2007年發(fā)表的《中外科研檔案管理的現(xiàn)狀比較及借鑒》,從科研檔案的概念、服務(wù)對象、管理模式等幾方面對中外科研檔案管理進行了研究,得出了值得我們學(xué)習(xí)借鑒的國外科研檔案管理經(jīng)驗[1]。在2007年發(fā)表的《國外科研文件和檔案管理研究》中,作者在國外相關(guān)術(shù)語的涵義、國外科研文件和檔案管理的特點、規(guī)律、存在的主要問題等方面對國外科研文件和檔案管理進行了闡述,并指出了國外科研文件和檔案管理今后的發(fā)展趨勢[2]。2005年以前發(fā)表的相關(guān)文獻有4篇,1996年的《國外科技報告的收藏與利用》,文中給出了收藏國外科技報告的2 種途徑、國外科技報告的管理方法及使用方式[3]。另外3 篇內(nèi)容只集中在國外科技報告的獲取方法上[4-6]。
上述研究揭示,至今國內(nèi)尚無從信息化視角開展的國外科技檔案管理研究。目前,信息化對整個信息資源管理的影響巨大,技術(shù)手段的飛速更新,使信息資源的管理模式變化很大,這其中也包括科技檔案的管理,而在全球信息化過程中,西方國家一直走在其他國家的前列,及時了解西方國家科技檔案管理的現(xiàn)狀、發(fā)展情況及發(fā)展過程中取得的經(jīng)驗和教訓(xùn),對我國的科技檔案管理將會提供有益的參考。本文從科技檔案管理發(fā)展歷程、科技檔案管理中存在的問題及對策等幾方面對英文文獻進行了調(diào)查研究及分析。
本文將科技檔案看成直接來源于科學(xué)研究和科技生產(chǎn)活動的原始記錄,是科技活動中形成和接收的具有一定保存和利用價值的科技數(shù)據(jù)、報告、文件、信息和知識等科技信息資源。在文獻調(diào)查過程中對Web of Science 三大引文庫、ProQuest 系列數(shù)據(jù)庫、EBSCO進行相關(guān)檢索。
根據(jù)檢索結(jié)果揭示:與“科技檔案管理”直接相關(guān)的文獻幾乎沒有,故可以認為:國外對于專門研究“科技檔案管理”這一課題的關(guān)注度很低。而查詢到的與“科技檔案”這一課題相關(guān)的文獻有以下的特點:
1.涉及到“管理”方面的內(nèi)容較少;
2.關(guān)注最多的主題主要涉及到“國外科技檔案管理的技術(shù)手段”等內(nèi)容上。
根據(jù)上述的檢索情況,可以認為:國外并不將“科技檔案管理”單獨作為一個問題來研究,只將其劃歸為“檔案管理”的一部分,其“管理”方面的內(nèi)容會在“檔案管理”中闡明。
在我國檔案工作基本術(shù)語(中華人民共和國檔案行業(yè)標準 DA/T1—2000)中檔案指“國家機構(gòu)、社會組織或個人在社會活動中直接形成的有價值的各種形式的歷史記錄”,科學(xué)技術(shù)檔案指“反映科學(xué)技術(shù)研究、生產(chǎn)、基本建設(shè)等活動的檔案”[7]。國外并沒有對應(yīng)的科技檔案概念和專用的科技檔案詞匯用于概括上述綜合性的科技領(lǐng)域活動檔案,國外文獻中使用最多的是science archives、science data、science information、 science information resource、 science records、science knowledge、science reports 等詞匯,這些主題的文獻都與上述定義的涉及“科技檔案”的概念有關(guān)聯(lián),本文選擇了其中涉及有價值的各種形式的歷史記錄的內(nèi)容和直接來源于科技活動的內(nèi)容,作為主要的研究對象,探索國外科技檔案管理與發(fā)展的規(guī)律。
從發(fā)展歷程上看,以信息化技術(shù)手段劃分,經(jīng)歷了3 個不同的階段,分別為科技檔案的計算機電子化管理(1967-1994)、科技檔案的分布式計算機網(wǎng)絡(luò)化管理(1994-2000)、科技檔案的互聯(lián)網(wǎng)大數(shù)據(jù)智能化管理(2000-2013),詳見表1。
在科技檔案的計算機電子化管理階段,計算機的使用率較低,性能也與現(xiàn)在的計算機相差很大,如何將計算機技術(shù)應(yīng)用到科技檔案管理中去是當時國外研究的主題,例如,在研究美國國家航空航天局(NASA)如何處理從宇宙飛船傳回地球的數(shù)據(jù)時,研究的重點也是放在單機版的計算機應(yīng)用上[8]。而在其他領(lǐng)域,如何使硬拷貝的科技檔案轉(zhuǎn)化為計算機可識別的文件,如何使用單機版的計算機管理科技檔案等方面的研究成為主流。
在科技檔案的分布式計算機網(wǎng)絡(luò)化管理階段,國外研究主要關(guān)注如何利用計算機網(wǎng)絡(luò)對科技檔案進行管理,一些主要數(shù)據(jù)檔案機構(gòu),例如美國校際社會科學(xué)數(shù)據(jù)中心(ICPSR),為了能給數(shù)據(jù)管理者和個人研究人員提供更好的服務(wù),運用網(wǎng)絡(luò)技術(shù)建立起數(shù)據(jù)集成系統(tǒng)。通過這個集成系統(tǒng),可以使研究人員能夠搜索到存檔在世界各地各類機構(gòu)的數(shù)據(jù)集,可以對文檔進行詳細研究,可以使用簡單的分析工具對數(shù)據(jù)集進行分析探究,并對數(shù)據(jù)集進行抽取或完整拷貝,所有活動均在這個集成系統(tǒng)中完成[9]。在臨床學(xué)領(lǐng)域,有學(xué)者采用競爭網(wǎng)絡(luò)技術(shù),來實現(xiàn)對列表信息的存儲和檢索[10]。這個時期,人們也開始研究互聯(lián)網(wǎng)技術(shù)在科技檔案管理方面的應(yīng)用,美國國家空間科學(xué)數(shù)據(jù)中心(NSSDC)建立了基于網(wǎng)絡(luò)的數(shù)據(jù)系統(tǒng)來支持交互數(shù)據(jù)的可視化及其分發(fā)[11]。
從檢索到的國外文獻可以看出,2000年以后,國外對科技檔案管理的研究重點已放到互聯(lián)網(wǎng)時代的科技檔案的利用上,探討的問題主要是采用何種技術(shù)才能更好的利用科技檔案,這標志著國外在研究上已處在科技檔案的互聯(lián)網(wǎng)大數(shù)據(jù)智能化管理階段。而是否在科技檔案管理中加入智能化的分析利用功能,正是劃分這兩個階段的依據(jù)。對于這個階段國外科技檔案管理相關(guān)內(nèi)容的研究是本文的重點,研究內(nèi)容包括:國外相關(guān)科技檔案管理的措施、技術(shù)手段,利用及服務(wù),主要問題及對策等,可為我國提高科技檔案管理水平提供有用的參考。
根據(jù)檢索結(jié)果,國外科技檔案管理按所應(yīng)用的領(lǐng)域分布有以下特點:
·科技檔案的研究領(lǐng)域主要集中在社會科學(xué)、地球科學(xué)、生命科學(xué)、天文科學(xué)及信息學(xué)這5 個領(lǐng)域中。
·科技檔案的研究一直處于平穩(wěn)上升的趨勢。
·在各學(xué)科領(lǐng)域中,對于科技檔案的研究內(nèi)容主要集中在科技檔案管理的技術(shù)手段的研發(fā)上。
2.3 國外科技檔案管理面臨的一些問題及對策
從可獲取的文獻分析得出,國外科技檔案管理最為關(guān)注的問題與對策涉及兩個方面:
1 科技檔案的歸檔范圍制定
在科技領(lǐng)域有一種觀點,即使在我們不知道信息、數(shù)據(jù)和軟件最終用途時,我們還是有必要對這些信息、數(shù)據(jù)和軟件進行歸檔保存。但考慮到成本等因素,在實際過程中并不能完全做到這一點。所以,會出現(xiàn)由于科技檔案的歸檔保存范圍制定不當造成的管理問題,例如,在2006年以前,NASA 在管理行星科技檔案過程中,制定了一般性的科技檔案歸檔方案,其初步設(shè)計如下[12]:
·由試驗團隊中的一組準備科技檔案,小組成員中應(yīng)包括檔案工作者。
·試驗團隊中的另外一組進行科研規(guī)劃和儀器操作,但是不參與歸檔活動。
這就出現(xiàn)了科研規(guī)劃和儀器操作信息無法找到其最終的存檔方式,造成了歸檔保存范圍的縮小,NASA的解決方案是:由試驗團隊中的第三組完成與上述檔案有關(guān)的任務(wù),同時,對儀器操作正確性和數(shù)據(jù)有效性進行核實,并將結(jié)果直接反饋給科研規(guī)劃組。此方案的缺點是:任務(wù)存檔的設(shè)計和實施沒有按照常規(guī)成熟的軟件標準去執(zhí)行,使信息(包括軟件等)和數(shù)據(jù)不能經(jīng)常按計劃傳送到最終的任務(wù)歸檔部門[12]。
電子環(huán)境中,為使科技檔案更便利更有效地被人們利用及服務(wù),搭建一個良好的人機交互平臺是一個重要的技術(shù)手段,三維可視化交互平臺可以使客戶更直接有效對科技數(shù)據(jù)進行分析利用,但面臨許多問題:雖然能夠提供可視化的一些新技術(shù)已經(jīng)存在,但是它們在學(xué)術(shù)期刊出版界中的應(yīng)用還處于嘗試性階段。這些出版商不愿意采用這些技術(shù)的原因有很多,具體包括:很難將準備和分發(fā)內(nèi)容的新方法與現(xiàn)有的工作流程相結(jié)合;對于讀者和投稿者來說,不能確定其新穎的呈現(xiàn)方式的真正價值等內(nèi)容??尚械慕鉀Q對策是:促使出版商、作者、圖書館、軟件開發(fā)商和相關(guān)科學(xué)家共同協(xié)作開發(fā)[13]。目前,三維可視化交互平臺的開發(fā)還不完善,還有許多問題需要解決,將是今后國外科技檔案管理領(lǐng)域的一個重要研究方向。
從檢索到的國外文獻可以看出,2000年以后,國外對科技檔案管理的研究重點已放到互聯(lián)網(wǎng)時代的科技檔案的利用上,探討的問題主要是采用何種技術(shù)才能更好地利用科技檔案以及如何在科技檔案管理中加入智能化的分析利用功能。
普遍采取的做法是:開發(fā)適合本領(lǐng)域的科技檔案管理(包括收集、儲存等功能)系統(tǒng),并在此基礎(chǔ)上增加語義網(wǎng)技術(shù)、數(shù)據(jù)挖掘技術(shù)、人工智能技術(shù)等手段的智能分析模塊。
從所屬領(lǐng)域上看,空間技術(shù)方面的內(nèi)容較多,其中美國NASA 方面的內(nèi)容不僅多,而且處于每個時代的最前沿,一方面:空間技術(shù)是前沿科學(xué),對每個國家的其他領(lǐng)域的科學(xué)發(fā)展有很大的帶動作用,另一方面:空間技術(shù)領(lǐng)域的科技檔案海量,科技檔案的管理、利用等要求最迫切。
同時關(guān)于如何保護科技檔案的信息安全也將是今后科技檔案管理研究中一個長期存在的熱點話題。
國外并不存在對應(yīng)于我國的“科技檔案管理”概念,我國科技檔案管理涉及多種科學(xué)技術(shù)活動,國外并不存在將所有科學(xué)技術(shù)活動看成一個綜合對象開展的科技檔案管理研究。科技檔案管理不是獨立的研究對象,只是“檔案管理”的一部分。本文局限于將science archives、 science data、 science information、 science information resource、science records、science knowledge、science reports 看 成 來源于科技活動的有價值的歷史記錄,作為研究對象,探索國外科技檔案的管理與發(fā)展規(guī)律。未來研究將選擇更多類型的科學(xué)技術(shù)活動探索不同類型的科技檔案的管理與發(fā)展規(guī)律。
?
[1]安小米.中外科研檔案管理的現(xiàn)狀比較及借鑒[J].中國檔案,2007(8):60-61.
[2]安小米.國外科研文件和檔案管理研究[J].北京檔案,2007(5):40-41.
[3]李家瑞,黃崇安.國外科技報告的收藏與利用[J].圖書館雜志,1996(5):24-25.
[4]趙婷婷.國外科技報告全文的獲取途徑[J].科技信息,2009(13):379.
[5]翁賡年.國外科技報告及其檢索法[J].藥學(xué)實踐雜志,1984(3):32-35.
[6]作者不詳.國外檔案情況—美國國家檔案館的科技檔案[J].檔案學(xué)通訊,1979(2):25-26.
[7]國家檔案局.中華人民共和國檔案行業(yè)標準—檔案工作基本術(shù)語(DA/T1-2000)[S].北京:8中國標準出版社,2000.
[8]Ludwig G H.Space sciences data processing[J].IEEE Transactions on Nuclear Science,1967,NS-14(1):626-632.
[9]Rockwell R C.An integrated network interface between the researcher and social science data resources:In search of a practical vision[J].Social Science Computer Review,1994,12(2):202-214.
[10]Cheng K J.Retrieval of clinical science information using an interactive activation and competition network[J].Artificial Intelligence in Medicine,1996,8(4):359-375.
[11]Mathews G J,Towheed S S.WWW-based data systems for interactive manipulation of science data[J].Computer Networks & ISDN Systems,1996,28(13):1857-1864.
[12]Zender J ,Grayzeck E.Lessons learned from planetary science archiving[J].Advances in Space Research,2006,38(9):2013-2022.
[13]McMahon B.Interactive publications and the record of science[J].Information Services&Use,2010,30(1/2):1-16.
[14]Bisco,R L.Social science data archives:progress and prospects[J].Social Science Information,1967,6(1):39-74.
[15]Macêdo M,Cook D,Brown T J.Visual data mining in atmospheric science data[J].Data Mining and Knowledge Discovery,2000,4(1):69-80.
[16]Ananthanarayan A,Balachandran R,Grossman R,et al.Data webs for earth science data[J].Parallel Computing,2003,29(10):1363-1379.
[17]Quan D.Improving life sciences information retrieval using semantic web technology[J].Briefings in Bioinformatics,2007,8(3):172-182.
[18]Cheung K H,Yip K Y,Townsend J P,et al.HCLS 2.0/3.0:Health care and life sciences data mashup using Web 2.0/3.0[J].Journal of Biomedical Informatics,2008,41(5):694-705.
[19]Hambly N C,Collins R S,Cross N J G,et al.The WFCAM science archive[J].Monthly Notices of the RoyalAstronomical Society,2008,384(2):637-662.
[20]Subirats I,Onyancha I,Salokhe G,et al.Towards an architecture for open archive networks in Agricultural Sciences and Technology[J].Online Information Review,2008,32(4):478-487.
[21]Warner G C,Blum J M,Jones,S B,et al.A social science data-fusion tool and the Data Management through e-Social Science(DAMES)infrastructure[J].Philosophical Transactions of the Royal Society A: Mathematical Physical and Engineering Sciences,2010,368(1925):3859-3873.
[22]Unkel S,Trendafilov N T,Hannachi A,et al.Independent exploratory factor analysis with application to atmospheric science data[J].Journal of Applied Statistics,2010,37(11):1847-1862.
[23]Futrelle J,Gaynor J ,Plutchak J ,et al.Semantic middleware for e-Science knowledge spaces[J].Concurrency and Computation: Practice & Experience,2011,23(17):2107-2117.
[24]Cross N J G,Collins R S,Mann R G,et al.The VISTA science archive[J].Astronomy & Astrophysics,2012,548,A119:1-21.
[25]Lombardi M.IEAD: A Novel One-Line Interface to Query Astronomical Science Archives[J].Publications of the Astronomical Society of the Pacific,2012,124(913):254-262.
[26]Jacob R,Krishna J,Xu XB,et al.ParNCL and ParGAL: Data- parallel tools for postprocessing of large- scale Earth science data[C].International Conference on Computational Science (ICCS 2013).Barcelona: Procedia Computer Science,2013,18:1245-1254.
[27]Katayama T,Wilkinson M D,Micklem G,et al. The 3rd DBCLS BioHackathon: improving life science data integration with Semantic Web technologies[J].Journal of Biomedical Semantics,2013,4(1):6.
[28]Oesterreicher S B,Türker C,Panse C.FCC–An automated rule-based processing tool for life science data[J].Source Code for Biology & Medicine,2013,8(1):1-7.
[29]Yang X Y,Dove M T,Bruin R P,et al.An e-Science data infrastructure for simulations within Grid computing environment:methods,approaches and practice[J].Concurrency and Computation: Practice and Experience,2013,25(3):385-409.