劉素香
摘 要:科技檔案是開展各種科技活動后的技術(shù)總結(jié),包括項目申請書、項目總結(jié)報告、科技報告等,是科技工作者智慧的結(jié)晶,也是開展科技創(chuàng)新的重要參考,科技檔案的開發(fā)利用,既有利于挖掘科技檔案中沉淀的知識,為科技發(fā)展和經(jīng)濟建設(shè)服務(wù),也是對開展各種科技活動績效的反映。該文從科技檔案的利用價值出發(fā),說明科技檔案應(yīng)用開發(fā)必須首先建立信息化的管理系統(tǒng),并采用大數(shù)據(jù)技術(shù)和數(shù)據(jù)開放獲取技術(shù),以充分發(fā)揮科技檔案對科技創(chuàng)新的參考和支撐作用。
關(guān)鍵詞:科技檔案 大數(shù)據(jù) 開放獲取 數(shù)據(jù)復(fù)用
中圖分類號:G27 文獻標識碼:A 文章編號:1674-098X(2015)03(a)-0052-02
The Application Development Research of Science and Technology Archives
Liu Suxiang
(Department of Education continues Lishui Vocational and Technical College,Lishui 323000,Zhejiang,China)
Abstract:Science and Technology Archives is a technical summary of the various scientific and technological activities,including project application,project summary report,technical reports,etc.It is not only the wisdom of science and technology workers,but also an important reference for science and technology innovation.The exploitation of Science and Technology archives both in favor of excavating hidden knowledge in Science and Technology Archives,providing services for scientific and economic development,and is a reflection of performance of various scientific and technological activities.Taking utilization value of science and technology archives as a starting,this article describes the development of science and technology archives must first establish information management system,and adopting Big Data technology and Data Open Access technology,in order to give full play to the role of science and technology archives supporting technological innovation.
Key Words:science and technology archives;Big Data;Data Open Access;Data Multiplexing.
科技檔案是指為科技活動建立的各種文字、數(shù)據(jù)、圖片、聲像材料,本文主要是指大專院校科技管理部門為上述活動建立的各種檔案,因為科技管理部門擁有更為健全的檔案庫,各種企業(yè)的創(chuàng)新檔案因為是涉及企業(yè)內(nèi)部管理問題,往往不容易收集,在進行研究時也因為關(guān)系到企業(yè)涉密信息而采取規(guī)避??萍紮n案中最有利用價值的主要為科技項目立項申請報告、科技創(chuàng)新報告、項目驗收報告、根據(jù)項目提供的資金撰寫的科技論文、獲得的專利報告和項目總結(jié)報告等,這些檔案是科技創(chuàng)新重要的信息載體。
隨著國家創(chuàng)新驅(qū)動戰(zhàn)略的實施,科技檔案將發(fā)揮重要的創(chuàng)新參考作用,科學(xué)知識總是在不斷更新,大多數(shù)的變化是逐漸的,有些則是革命性的根本性的,創(chuàng)新一定是在現(xiàn)實研究基礎(chǔ)上進行的探索和新的組合??萍紮n案中內(nèi)在的價值不僅體現(xiàn)在對科技探索的總結(jié),在公開公布后有些成果具有轉(zhuǎn)變?yōu)楝F(xiàn)實生產(chǎn)力的價值,從而更加有效地為我國的經(jīng)濟建設(shè)服務(wù),這就要求科技檔案的管理從僅僅保存資料以備后查向科技檔案的重復(fù)利用提供創(chuàng)新支撐轉(zhuǎn)變??萍紮n案應(yīng)用開發(fā)首先要求實現(xiàn)科技檔案的數(shù)字化,其次是要求實現(xiàn)科技檔案的開放獲取。
開放獲取政策最早是由歐美發(fā)達國家制定并實施的。近些年來,美國、英國、加拿大、瑞士、德國、瑞典、挪威、法國、芬蘭、澳大利亞等國都相繼制定了開放獲取政策。美國是國際上首先對科技檔案進行開放獲取建立國家制度的,2005年12月,美國國會議員Joe Lieberman和Thad Cochran向國會提交CURES提案,要求將聯(lián)邦政府資助的科研成果強制實行開放獲取,2007年12月26日,NIH強制性開放獲取政策得到了美國布什總統(tǒng)的簽署,2008年4月7日起正式生效,并與5月25日開始實施[1]。2013年2月,奧巴馬政府表示,由美國納稅人資助的研究應(yīng)該在其出版的一年內(nèi)免費對公眾開放。這一指令覆蓋了15個機構(gòu),其中包括美國國家科學(xué)基金會、聯(lián)邦教育部、環(huán)境保護署、美國宇航局、美國國際開發(fā)署和史密森學(xué)會等。今后公眾將可以下載研究機構(gòu)網(wǎng)站的文章,研究者們也可以更快捷地共享前沿信息[2]。
1 科技檔案的數(shù)字化
科技檔案數(shù)字化是隨著計算機網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)的發(fā)展而產(chǎn)生的一種新型檔案信息形態(tài),是指“利用數(shù)據(jù)庫技術(shù)、數(shù)據(jù)壓縮技術(shù)、高速掃描技術(shù)等技術(shù)手段,將紙質(zhì)文件、聲像文件等傳統(tǒng)介質(zhì)的文件和已歸檔保存的電子檔案,系統(tǒng)組織成具有有序結(jié)構(gòu)的檔案數(shù)字信息庫”,它將各種傳統(tǒng)載體的館藏檔案資源轉(zhuǎn)化為數(shù)字化的檔案信息,以數(shù)字化的形式存儲,網(wǎng)絡(luò)化的形式傳輸,并利用計算機系統(tǒng)進行管理,以實現(xiàn)檔案信息快捷利用和共享的目的[3]。
科技檔案在數(shù)字化工作上應(yīng)遵循檔案管理規(guī)范,包括編目和標引。由于科技檔案中的科技項目管理一般采用表格形式,在進行OCR(光學(xué)字符技術(shù))識別時應(yīng)采用專業(yè)的具有表格識別功能的軟件。
2 科技檔案的大數(shù)據(jù)化應(yīng)用
檔案的數(shù)據(jù)化管理在檔案部門的應(yīng)用已經(jīng)非常成熟,如果把科技檔案僅僅看作查閱的資料是不夠的,科技檔案中包含很多知識點,這些知識點是啟發(fā)創(chuàng)新的重要參考。應(yīng)該采用大數(shù)據(jù)技術(shù)把科技檔案與相似文獻進行關(guān)聯(lián),以充分展現(xiàn)科技檔案的價值??萍紮n案本身構(gòu)不成大數(shù)據(jù),需要其它數(shù)據(jù)庫的配合或者是互聯(lián)網(wǎng)信息的整合。
(1)一般來說科技檔案的知識點匯聚在項目申請報告和技術(shù)總結(jié)報告中,數(shù)字化后的科技檔案可以利用分詞技術(shù)自動形成詞庫。
(2)由于處理后的詞庫數(shù)據(jù)量較大,同時意味著數(shù)據(jù)噪音的增多,因此在數(shù)據(jù)分析之前必須進行數(shù)據(jù)清洗等預(yù)處理工作,但是預(yù)處理與分析如此大量的數(shù)據(jù)對于機器硬件以及算法都是嚴峻的考驗。大數(shù)據(jù)挖掘建模問題的一個可行方法是將特征空間矩陣切分成大量的子矩陣,然后將子矩陣文件分布到多個服務(wù)器節(jié)點上,同時對數(shù)據(jù)挖掘算法作并行分布式改造,使每次迭代運算分兩步進行,第一步是在每個計算節(jié)點上對子矩陣進行運算,取得子矩陣的局部結(jié)果;第二步是將所有子矩陣的局部結(jié)果集中運算,計算出整個對象—屬性矩陣的全局結(jié)果,然后進入下一次迭代直到得出最后模型。比如,Google的Map Reduce模型就是能夠用來實現(xiàn)上述要求的分布式算法[4]。也可以進行人工干預(yù),人工干預(yù)是把詞庫中的詞語用人工進行清洗,把關(guān)鍵知識點進行標注,不至于出現(xiàn)太多緯度,造成計算過于復(fù)雜。
(3)大數(shù)據(jù)的關(guān)聯(lián)算法可以采用科學(xué)計量學(xué)的方法。科學(xué)計量學(xué)是對科學(xué)的定量研究,旨在識別和理解可以闡釋科學(xué)功能的經(jīng)驗?zāi)J?,通常需要依靠科學(xué)文獻,如湯森路透的Web of Science數(shù)據(jù)庫、谷歌學(xué)術(shù)、CNKI數(shù)據(jù)庫、萬方數(shù)據(jù)庫、專利等,都可以作為重要的關(guān)聯(lián)計量數(shù)據(jù)的來源。
3 科技檔案的開放獲取
科技檔案的應(yīng)用開發(fā)主要目的是推進科技創(chuàng)新,減少重復(fù)的創(chuàng)新活動,建立科技檔案開放獲取網(wǎng)站是發(fā)揮其價值的有效手段。開放獲取英文為Open Access簡稱OA,我國又將其譯為“公開獲取”、“公開訪問”、“開放存取”等,它是國際科技界、學(xué)術(shù)界、出版界、信息傳播界為推動科研成果利用因特網(wǎng)自由傳播而發(fā)起的運動,旨在把同行評議過的科學(xué)論文或?qū)W術(shù)文獻放到互聯(lián)網(wǎng)上,使用戶可以免費獲得而不需考慮版權(quán)或注冊的限制,以此打破學(xué)術(shù)研究的人為壁壘,促進科學(xué)信息的廣泛傳播,促進學(xué)術(shù)信息的交流與出版,提升科學(xué)研究的公共利用程度[5]。科技部從2013年起建立科技報告制度,并建立了科技報告開放獲取網(wǎng)站,科技報告屬于科技檔案范疇,是描述科研活動的過程、進展和結(jié)果,并按照規(guī)定格式編寫的科技文獻,目的是促進科技知識的積累、傳播交流和轉(zhuǎn)化應(yīng)用。
理論上,政府和大專院校支持的科研項目或多或少都有其公益性的一面,有責(zé)任向公眾開放,科技檔案的開發(fā)利用,既有利于挖掘科技檔案中沉淀的知識,為科技發(fā)展和經(jīng)濟建設(shè)服務(wù),也是對開展各種科技活動績效的反映。在操作層面,需建立科技檔案開放獲取管理的信息化應(yīng)用系統(tǒng),可以采用防火墻、訪問權(quán)限等等技術(shù),對于比較重要、機密、敏感的信息,以及披露之后不利于企事業(yè)單位發(fā)展的相關(guān)信息不予公開,或者與互聯(lián)網(wǎng)進行物理隔離[6]。
除此之外,科技檔案的引用開發(fā)還可以采用有償服務(wù)的方式,例如下載文章需付給項目課題組一定的費用,作為知識產(chǎn)權(quán)的保護和對作者的尊重。
參考文獻
[1] 付晚花,肖冬梅.國際開放獲取政策及其研究進展綜述[J].圖書館雜志,2010(3):23-27.
[2] 石世美.美國政府大力推動研究成果“開放獲取”[J].世界教育信息,2013(7):79.
[3] 王學(xué)平.淺議我國檔案數(shù)字化建設(shè)實踐與發(fā)展策略[J].檔案學(xué)通訊,2011(6):54-57.
[4] 王蘭成,劉曉亮.網(wǎng)上數(shù)字檔案大數(shù)據(jù)分析中的知識挖掘技術(shù)研究[J].浙江檔案,2013(10):14-19.
[5] 楊霞.開放獲?。壕C合檔案館數(shù)字檔案網(wǎng)絡(luò)化服務(wù)的重要原則[J].檔案學(xué)通訊,2011(2):53-56.
[6] 鄒彬.淺談科技檔案在網(wǎng)絡(luò)環(huán)境下的管理[J].石河子科技,2013(6):19-20.