劉素香
摘 要:科技檔案是開(kāi)展各種科技活動(dòng)后的技術(shù)總結(jié),包括項(xiàng)目申請(qǐng)書(shū)、項(xiàng)目總結(jié)報(bào)告、科技報(bào)告等,是科技工作者智慧的結(jié)晶,也是開(kāi)展科技創(chuàng)新的重要參考,科技檔案的開(kāi)發(fā)利用,既有利于挖掘科技檔案中沉淀的知識(shí),為科技發(fā)展和經(jīng)濟(jì)建設(shè)服務(wù),也是對(duì)開(kāi)展各種科技活動(dòng)績(jī)效的反映。該文從科技檔案的利用價(jià)值出發(fā),說(shuō)明科技檔案應(yīng)用開(kāi)發(fā)必須首先建立信息化的管理系統(tǒng),并采用大數(shù)據(jù)技術(shù)和數(shù)據(jù)開(kāi)放獲取技術(shù),以充分發(fā)揮科技檔案對(duì)科技創(chuàng)新的參考和支撐作用。
關(guān)鍵詞:科技檔案 大數(shù)據(jù) 開(kāi)放獲取 數(shù)據(jù)復(fù)用
中圖分類(lèi)號(hào):G27 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2015)03(a)-0052-02
The Application Development Research of Science and Technology Archives
Liu Suxiang
(Department of Education continues Lishui Vocational and Technical College,Lishui 323000,Zhejiang,China)
Abstract:Science and Technology Archives is a technical summary of the various scientific and technological activities,including project application,project summary report,technical reports,etc.It is not only the wisdom of science and technology workers,but also an important reference for science and technology innovation.The exploitation of Science and Technology archives both in favor of excavating hidden knowledge in Science and Technology Archives,providing services for scientific and economic development,and is a reflection of performance of various scientific and technological activities.Taking utilization value of science and technology archives as a starting,this article describes the development of science and technology archives must first establish information management system,and adopting Big Data technology and Data Open Access technology,in order to give full play to the role of science and technology archives supporting technological innovation.
Key Words:science and technology archives;Big Data;Data Open Access;Data Multiplexing.
科技檔案是指為科技活動(dòng)建立的各種文字、數(shù)據(jù)、圖片、聲像材料,本文主要是指大專(zhuān)院??萍脊芾聿块T(mén)為上述活動(dòng)建立的各種檔案,因?yàn)榭萍脊芾聿块T(mén)擁有更為健全的檔案庫(kù),各種企業(yè)的創(chuàng)新檔案因?yàn)槭巧婕捌髽I(yè)內(nèi)部管理問(wèn)題,往往不容易收集,在進(jìn)行研究時(shí)也因?yàn)殛P(guān)系到企業(yè)涉密信息而采取規(guī)避??萍紮n案中最有利用價(jià)值的主要為科技項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告、科技創(chuàng)新報(bào)告、項(xiàng)目驗(yàn)收?qǐng)?bào)告、根據(jù)項(xiàng)目提供的資金撰寫(xiě)的科技論文、獲得的專(zhuān)利報(bào)告和項(xiàng)目總結(jié)報(bào)告等,這些檔案是科技創(chuàng)新重要的信息載體。
隨著國(guó)家創(chuàng)新驅(qū)動(dòng)戰(zhàn)略的實(shí)施,科技檔案將發(fā)揮重要的創(chuàng)新參考作用,科學(xué)知識(shí)總是在不斷更新,大多數(shù)的變化是逐漸的,有些則是革命性的根本性的,創(chuàng)新一定是在現(xiàn)實(shí)研究基礎(chǔ)上進(jìn)行的探索和新的組合??萍紮n案中內(nèi)在的價(jià)值不僅體現(xiàn)在對(duì)科技探索的總結(jié),在公開(kāi)公布后有些成果具有轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)生產(chǎn)力的價(jià)值,從而更加有效地為我國(guó)的經(jīng)濟(jì)建設(shè)服務(wù),這就要求科技檔案的管理從僅僅保存資料以備后查向科技檔案的重復(fù)利用提供創(chuàng)新支撐轉(zhuǎn)變。科技檔案應(yīng)用開(kāi)發(fā)首先要求實(shí)現(xiàn)科技檔案的數(shù)字化,其次是要求實(shí)現(xiàn)科技檔案的開(kāi)放獲取。
開(kāi)放獲取政策最早是由歐美發(fā)達(dá)國(guó)家制定并實(shí)施的。近些年來(lái),美國(guó)、英國(guó)、加拿大、瑞士、德國(guó)、瑞典、挪威、法國(guó)、芬蘭、澳大利亞等國(guó)都相繼制定了開(kāi)放獲取政策。美國(guó)是國(guó)際上首先對(duì)科技檔案進(jìn)行開(kāi)放獲取建立國(guó)家制度的,2005年12月,美國(guó)國(guó)會(huì)議員Joe Lieberman和Thad Cochran向國(guó)會(huì)提交CURES提案,要求將聯(lián)邦政府資助的科研成果強(qiáng)制實(shí)行開(kāi)放獲取,2007年12月26日,NIH強(qiáng)制性開(kāi)放獲取政策得到了美國(guó)布什總統(tǒng)的簽署,2008年4月7日起正式生效,并與5月25日開(kāi)始實(shí)施[1]。2013年2月,奧巴馬政府表示,由美國(guó)納稅人資助的研究應(yīng)該在其出版的一年內(nèi)免費(fèi)對(duì)公眾開(kāi)放。這一指令覆蓋了15個(gè)機(jī)構(gòu),其中包括美國(guó)國(guó)家科學(xué)基金會(huì)、聯(lián)邦教育部、環(huán)境保護(hù)署、美國(guó)宇航局、美國(guó)國(guó)際開(kāi)發(fā)署和史密森學(xué)會(huì)等。今后公眾將可以下載研究機(jī)構(gòu)網(wǎng)站的文章,研究者們也可以更快捷地共享前沿信息[2]。
1 科技檔案的數(shù)字化
科技檔案數(shù)字化是隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)的發(fā)展而產(chǎn)生的一種新型檔案信息形態(tài),是指“利用數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)壓縮技術(shù)、高速掃描技術(shù)等技術(shù)手段,將紙質(zhì)文件、聲像文件等傳統(tǒng)介質(zhì)的文件和已歸檔保存的電子檔案,系統(tǒng)組織成具有有序結(jié)構(gòu)的檔案數(shù)字信息庫(kù)”,它將各種傳統(tǒng)載體的館藏檔案資源轉(zhuǎn)化為數(shù)字化的檔案信息,以數(shù)字化的形式存儲(chǔ),網(wǎng)絡(luò)化的形式傳輸,并利用計(jì)算機(jī)系統(tǒng)進(jìn)行管理,以實(shí)現(xiàn)檔案信息快捷利用和共享的目的[3]。
科技檔案在數(shù)字化工作上應(yīng)遵循檔案管理規(guī)范,包括編目和標(biāo)引。由于科技檔案中的科技項(xiàng)目管理一般采用表格形式,在進(jìn)行OCR(光學(xué)字符技術(shù))識(shí)別時(shí)應(yīng)采用專(zhuān)業(yè)的具有表格識(shí)別功能的軟件。
2 科技檔案的大數(shù)據(jù)化應(yīng)用
檔案的數(shù)據(jù)化管理在檔案部門(mén)的應(yīng)用已經(jīng)非常成熟,如果把科技檔案僅僅看作查閱的資料是不夠的,科技檔案中包含很多知識(shí)點(diǎn),這些知識(shí)點(diǎn)是啟發(fā)創(chuàng)新的重要參考。應(yīng)該采用大數(shù)據(jù)技術(shù)把科技檔案與相似文獻(xiàn)進(jìn)行關(guān)聯(lián),以充分展現(xiàn)科技檔案的價(jià)值??萍紮n案本身構(gòu)不成大數(shù)據(jù),需要其它數(shù)據(jù)庫(kù)的配合或者是互聯(lián)網(wǎng)信息的整合。
(1)一般來(lái)說(shuō)科技檔案的知識(shí)點(diǎn)匯聚在項(xiàng)目申請(qǐng)報(bào)告和技術(shù)總結(jié)報(bào)告中,數(shù)字化后的科技檔案可以利用分詞技術(shù)自動(dòng)形成詞庫(kù)。
(2)由于處理后的詞庫(kù)數(shù)據(jù)量較大,同時(shí)意味著數(shù)據(jù)噪音的增多,因此在數(shù)據(jù)分析之前必須進(jìn)行數(shù)據(jù)清洗等預(yù)處理工作,但是預(yù)處理與分析如此大量的數(shù)據(jù)對(duì)于機(jī)器硬件以及算法都是嚴(yán)峻的考驗(yàn)。大數(shù)據(jù)挖掘建模問(wèn)題的一個(gè)可行方法是將特征空間矩陣切分成大量的子矩陣,然后將子矩陣文件分布到多個(gè)服務(wù)器節(jié)點(diǎn)上,同時(shí)對(duì)數(shù)據(jù)挖掘算法作并行分布式改造,使每次迭代運(yùn)算分兩步進(jìn)行,第一步是在每個(gè)計(jì)算節(jié)點(diǎn)上對(duì)子矩陣進(jìn)行運(yùn)算,取得子矩陣的局部結(jié)果;第二步是將所有子矩陣的局部結(jié)果集中運(yùn)算,計(jì)算出整個(gè)對(duì)象—屬性矩陣的全局結(jié)果,然后進(jìn)入下一次迭代直到得出最后模型。比如,Google的Map Reduce模型就是能夠用來(lái)實(shí)現(xiàn)上述要求的分布式算法[4]。也可以進(jìn)行人工干預(yù),人工干預(yù)是把詞庫(kù)中的詞語(yǔ)用人工進(jìn)行清洗,把關(guān)鍵知識(shí)點(diǎn)進(jìn)行標(biāo)注,不至于出現(xiàn)太多緯度,造成計(jì)算過(guò)于復(fù)雜。
(3)大數(shù)據(jù)的關(guān)聯(lián)算法可以采用科學(xué)計(jì)量學(xué)的方法??茖W(xué)計(jì)量學(xué)是對(duì)科學(xué)的定量研究,旨在識(shí)別和理解可以闡釋科學(xué)功能的經(jīng)驗(yàn)?zāi)J剑ǔP枰揽靠茖W(xué)文獻(xiàn),如湯森路透的Web of Science數(shù)據(jù)庫(kù)、谷歌學(xué)術(shù)、CNKI數(shù)據(jù)庫(kù)、萬(wàn)方數(shù)據(jù)庫(kù)、專(zhuān)利等,都可以作為重要的關(guān)聯(lián)計(jì)量數(shù)據(jù)的來(lái)源。
3 科技檔案的開(kāi)放獲取
科技檔案的應(yīng)用開(kāi)發(fā)主要目的是推進(jìn)科技創(chuàng)新,減少重復(fù)的創(chuàng)新活動(dòng),建立科技檔案開(kāi)放獲取網(wǎng)站是發(fā)揮其價(jià)值的有效手段。開(kāi)放獲取英文為Open Access簡(jiǎn)稱(chēng)OA,我國(guó)又將其譯為“公開(kāi)獲取”、“公開(kāi)訪問(wèn)”、“開(kāi)放存取”等,它是國(guó)際科技界、學(xué)術(shù)界、出版界、信息傳播界為推動(dòng)科研成果利用因特網(wǎng)自由傳播而發(fā)起的運(yùn)動(dòng),旨在把同行評(píng)議過(guò)的科學(xué)論文或?qū)W術(shù)文獻(xiàn)放到互聯(lián)網(wǎng)上,使用戶(hù)可以免費(fèi)獲得而不需考慮版權(quán)或注冊(cè)的限制,以此打破學(xué)術(shù)研究的人為壁壘,促進(jìn)科學(xué)信息的廣泛傳播,促進(jìn)學(xué)術(shù)信息的交流與出版,提升科學(xué)研究的公共利用程度[5]??萍疾繌?013年起建立科技報(bào)告制度,并建立了科技報(bào)告開(kāi)放獲取網(wǎng)站,科技報(bào)告屬于科技檔案范疇,是描述科研活動(dòng)的過(guò)程、進(jìn)展和結(jié)果,并按照規(guī)定格式編寫(xiě)的科技文獻(xiàn),目的是促進(jìn)科技知識(shí)的積累、傳播交流和轉(zhuǎn)化應(yīng)用。
理論上,政府和大專(zhuān)院校支持的科研項(xiàng)目或多或少都有其公益性的一面,有責(zé)任向公眾開(kāi)放,科技檔案的開(kāi)發(fā)利用,既有利于挖掘科技檔案中沉淀的知識(shí),為科技發(fā)展和經(jīng)濟(jì)建設(shè)服務(wù),也是對(duì)開(kāi)展各種科技活動(dòng)績(jī)效的反映。在操作層面,需建立科技檔案開(kāi)放獲取管理的信息化應(yīng)用系統(tǒng),可以采用防火墻、訪問(wèn)權(quán)限等等技術(shù),對(duì)于比較重要、機(jī)密、敏感的信息,以及披露之后不利于企事業(yè)單位發(fā)展的相關(guān)信息不予公開(kāi),或者與互聯(lián)網(wǎng)進(jìn)行物理隔離[6]。
除此之外,科技檔案的引用開(kāi)發(fā)還可以采用有償服務(wù)的方式,例如下載文章需付給項(xiàng)目課題組一定的費(fèi)用,作為知識(shí)產(chǎn)權(quán)的保護(hù)和對(duì)作者的尊重。
參考文獻(xiàn)
[1] 付晚花,肖冬梅.國(guó)際開(kāi)放獲取政策及其研究進(jìn)展綜述[J].圖書(shū)館雜志,2010(3):23-27.
[2] 石世美.美國(guó)政府大力推動(dòng)研究成果“開(kāi)放獲取”[J].世界教育信息,2013(7):79.
[3] 王學(xué)平.淺議我國(guó)檔案數(shù)字化建設(shè)實(shí)踐與發(fā)展策略[J].檔案學(xué)通訊,2011(6):54-57.
[4] 王蘭成,劉曉亮.網(wǎng)上數(shù)字檔案大數(shù)據(jù)分析中的知識(shí)挖掘技術(shù)研究[J].浙江檔案,2013(10):14-19.
[5] 楊霞.開(kāi)放獲取:綜合檔案館數(shù)字檔案網(wǎng)絡(luò)化服務(wù)的重要原則[J].檔案學(xué)通訊,2011(2):53-56.
[6] 鄒彬.淺談科技檔案在網(wǎng)絡(luò)環(huán)境下的管理[J].石河子科技,2013(6):19-20.