付強 李劍鋒 劉楊
摘? 要:在吉林省各類科技計劃項目的實施過程中,會產(chǎn)生大量的科學(xué)數(shù)據(jù),這些數(shù)據(jù)的產(chǎn)生和加工得到吉林省科技計劃資金支持,同時也是科技工作者長時間辛勤勞動的結(jié)晶。為了提高數(shù)據(jù)利用率,急需集中建庫,實現(xiàn)科學(xué)數(shù)據(jù)共享。吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺建設(shè),通過整理省內(nèi)數(shù)據(jù)擁有單位的科學(xué)數(shù)據(jù),建立起若干數(shù)據(jù)中心和主體數(shù)據(jù)庫,搭建吉林省科學(xué)數(shù)據(jù)平臺門戶網(wǎng)站,為吉林省各行各業(yè)提供支持和服務(wù)。
關(guān)鍵詞:科學(xué)數(shù)據(jù)? 數(shù)據(jù)共享? 數(shù)字吉林? 科學(xué)數(shù)據(jù)中心
中圖分類號:F224? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1672-3791(2019)04(c)-0021-02
科學(xué)數(shù)據(jù)是指人類社會科技活動所產(chǎn)生的基本數(shù)據(jù),以及按照不同需求而系統(tǒng)加工的數(shù)據(jù)產(chǎn)品和相關(guān)信息,具有客觀性、多樣性、基礎(chǔ)性、資源性、傳遞性、共享性、增值性等特點[1]??茖W(xué)數(shù)據(jù)是信息時代最基本、最活躍且影響面最寬的科技資源[2]。我國已經(jīng)在科學(xué)數(shù)據(jù)領(lǐng)域進行了大量深入的研究,比較有代表性的比如我國地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺。該平臺以中科院地球系統(tǒng)的科研院所、長期野外監(jiān)測臺站的觀測數(shù)據(jù)為主要來源,同時聯(lián)合了相關(guān)機構(gòu)科學(xué)家形成了一個科學(xué)數(shù)據(jù)共享聯(lián)盟,并積極吸納科研項目參與數(shù)據(jù)共享[3],整合后的數(shù)據(jù)通過科學(xué)數(shù)據(jù)共享服務(wù)平臺對外開放。
為了加快吉林省科技創(chuàng)新體系建設(shè),增強科技創(chuàng)新能力,有效地支撐全省經(jīng)濟社會快速發(fā)展,迫切需要我們建設(shè)科學(xué)數(shù)據(jù)共享平臺,對省內(nèi)科學(xué)數(shù)據(jù)進行整合,為全社會創(chuàng)建開放高效、共建共享和合作交流的研發(fā)支撐體系。
1? 建設(shè)目標(biāo)
吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺的建設(shè),通過整理省內(nèi)數(shù)據(jù)擁有單位的科學(xué)研究數(shù)據(jù)、檢測數(shù)據(jù)、勘查數(shù)據(jù)等,建立起若干數(shù)據(jù)中心和主體數(shù)據(jù)庫,搭建吉林省科學(xué)數(shù)據(jù)平臺門戶網(wǎng)站,為吉林省各行各業(yè),特別是政府部門開展科技管理、決策,企業(yè)、高校、研究院所開展研發(fā)及橫向聯(lián)合、信息溝通,為發(fā)揮吉林省科教優(yōu)勢,促進經(jīng)濟發(fā)展提供及時有效的服務(wù)和支持。它是吉林省創(chuàng)新體系的重要組成部分,具有投入穩(wěn)定、社會共享、公益性和持續(xù)性等特點,對全省經(jīng)濟、社會和科技快速發(fā)展具有重要意義,是一項“功在當(dāng)代、利在千秋”的偉業(yè)。
2? 主要建設(shè)內(nèi)容
(1)根據(jù)國家、吉林省的科學(xué)數(shù)據(jù)相關(guān)文件要求,結(jié)合“數(shù)字吉林”戰(zhàn)略部署,研究制定吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺的總體規(guī)劃和建設(shè)方案。
(2)搭建“吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺”。通過元數(shù)據(jù)技術(shù)有機鏈接各數(shù)據(jù)中心的主體數(shù)據(jù)庫,構(gòu)建基于元數(shù)據(jù)的目錄交換服務(wù)體系與科學(xué)數(shù)據(jù)信息發(fā)布系統(tǒng),提供基于科學(xué)數(shù)據(jù)的專業(yè)化信息服務(wù),包括目錄查詢、數(shù)據(jù)檢索、統(tǒng)計分析等服務(wù),實現(xiàn)數(shù)據(jù)的統(tǒng)一收集、統(tǒng)一管理、統(tǒng)一發(fā)布,確保數(shù)據(jù)的真實性和安全性。
(3)結(jié)合當(dāng)前實際,建設(shè)若干省級科學(xué)數(shù)據(jù)中心和一批特色主體數(shù)據(jù)庫。第一批組建兩個數(shù)據(jù)中心——“吉林省科技管理數(shù)據(jù)中心”、“吉林省農(nóng)業(yè)科學(xué)數(shù)據(jù)中心”,建立三個特色數(shù)據(jù)庫——吉林省科技統(tǒng)計數(shù)據(jù)庫、吉林省基礎(chǔ)科學(xué)數(shù)據(jù)庫、吉林省農(nóng)業(yè)科學(xué)數(shù)據(jù)庫。
“吉林省科技管理數(shù)據(jù)中心”由吉林省科學(xué)技術(shù)信息研究所牽頭,其核心任務(wù)是對吉林省科技管理數(shù)據(jù)進行整理,進行數(shù)字化建設(shè),特別是吉林省科技廳掌握的相關(guān)數(shù)據(jù)。通過對整個數(shù)據(jù)調(diào)查結(jié)果整理分析,確定了數(shù)據(jù)中心第一期數(shù)據(jù)庫及信息內(nèi)容,即建設(shè)兩個特色主體數(shù)據(jù)庫:吉林省科技統(tǒng)計數(shù)據(jù)庫、吉林省基礎(chǔ)科學(xué)數(shù)據(jù)庫?!凹质∞r(nóng)業(yè)科學(xué)數(shù)據(jù)中心”由吉林省農(nóng)業(yè)科學(xué)院牽頭組建,負(fù)責(zé)收集、整理、加工與農(nóng)業(yè)相關(guān)的科技數(shù)據(jù),通過整理分析,確定了該數(shù)據(jù)中心第一期數(shù)據(jù)庫的建設(shè)內(nèi)容,即建設(shè)吉林省農(nóng)業(yè)產(chǎn)業(yè)科學(xué)數(shù)據(jù)庫。主要內(nèi)容為近五年吉林省各市州主要農(nóng)畜產(chǎn)品生產(chǎn)規(guī)模、產(chǎn)量、單產(chǎn)、經(jīng)濟效益,各種主要農(nóng)產(chǎn)品生產(chǎn)環(huán)節(jié)各項成本、總成本。
(4)開展“吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺”共享機制研究,包括吉林省科學(xué)數(shù)據(jù)資源的整合與分類分級共享機制的研究,撰寫研究報告。在報告中可以提出將吉林省內(nèi)凡是列入吉林省科技廳各類科技計劃的項目,其研究中產(chǎn)生的數(shù)據(jù)統(tǒng)一納入共享范圍,將“數(shù)據(jù)匯交”作為項目驗收時的必備條件之一,實現(xiàn)省內(nèi)科學(xué)數(shù)據(jù)的整合與共享。
3? 要解決的關(guān)鍵技術(shù)
吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺和三個特色科學(xué)數(shù)據(jù)庫建設(shè)擬采用以下關(guān)鍵技術(shù)。
(1)元數(shù)據(jù)建設(shè),科學(xué)數(shù)據(jù)多維分析與挖掘研究。
元數(shù)據(jù)建設(shè):吉林省科學(xué)數(shù)據(jù)平臺以元數(shù)據(jù)為核心實現(xiàn)科學(xué)的描述、分類、檢索、關(guān)聯(lián),借助技術(shù)手段實現(xiàn)數(shù)據(jù)的物理存儲與邏輯表達的分離。元數(shù)據(jù)作為描述科學(xué)數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù),包含了數(shù)據(jù)的標(biāo)識信息、內(nèi)容信息、人員和權(quán)責(zé)信息、關(guān)聯(lián)信息、技術(shù)信息等方面。該項目對省內(nèi)基礎(chǔ)科學(xué)數(shù)據(jù)、科技統(tǒng)計數(shù)據(jù)以及農(nóng)業(yè)科學(xué)數(shù)據(jù)信息進行規(guī)范整理、整合,進行統(tǒng)一的數(shù)據(jù)編碼、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)簽化等操作,建立元數(shù)據(jù)標(biāo)準(zhǔn)和元數(shù)據(jù)索引,為我省科學(xué)數(shù)據(jù)今后的一系列相關(guān)工作奠定基礎(chǔ)。
科學(xué)數(shù)據(jù)多維分析與挖掘研究:基于多形態(tài)科學(xué)數(shù)據(jù),引入深度學(xué)習(xí)、知識檢索的記憶機制和邏輯推理機制,提出基于深度學(xué)習(xí)的用戶隱式知識檢索需求理解技術(shù),提升檢索結(jié)果查準(zhǔn)率、查全率,平衡檢索結(jié)果的多樣性和個性化,構(gòu)建多形態(tài)科學(xué)數(shù)據(jù)的存儲和管理模型,實現(xiàn)智能檢索及海量復(fù)雜科學(xué)數(shù)據(jù)的可視化展示;綜合時效性、個性化和多樣性的檢索結(jié)果排序和推薦。
(2)數(shù)據(jù)庫整合,統(tǒng)一跨庫檢索。
本項目按照“吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺門戶網(wǎng)站——科學(xué)數(shù)據(jù)分中心——數(shù)據(jù)生產(chǎn)系統(tǒng)”三級架構(gòu)模式,整合我省的科學(xué)數(shù)據(jù)資源,通過標(biāo)準(zhǔn)的元數(shù)據(jù)整合規(guī)范,將各種類型數(shù)據(jù)資源的元數(shù)據(jù)進行重新清洗、補充與標(biāo)引,使元數(shù)據(jù)集實現(xiàn)統(tǒng)一、規(guī)范、清晰、完備。通過這樣的整合方式,可以完全打破各個數(shù)據(jù)庫的壁壘,并保證效率和準(zhǔn)確性。
數(shù)據(jù)中心的各個科學(xué)數(shù)據(jù)庫資源并不部署在平臺上,只是提供接口,由各類科學(xué)數(shù)據(jù)分布的資源單位進行元數(shù)據(jù)加工,數(shù)據(jù)庫建設(shè),更新完善和日常維護管理,并為平臺提供接口,平臺可以隨時調(diào)用,真正從底層實現(xiàn)了科學(xué)數(shù)據(jù)資源的統(tǒng)一檢索,統(tǒng)一應(yīng)用,并為進一步的數(shù)據(jù)分析,對象化處理奠定了基礎(chǔ)。
4? 預(yù)期取得的成果
針對目前我省科學(xué)數(shù)據(jù)管理中存在的薄弱環(huán)節(jié),《吉林省科學(xué)數(shù)據(jù)管理辦法》進行系統(tǒng)的部署和安排,加強和規(guī)范科學(xué)數(shù)據(jù)的采集生產(chǎn)、加工整理、開放共享等各個環(huán)節(jié)的工作;完成《吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺》建設(shè),提供科學(xué)數(shù)據(jù)的目錄查詢、數(shù)據(jù)統(tǒng)一檢索和分布式的延伸功能服務(wù),實現(xiàn)數(shù)據(jù)的統(tǒng)一發(fā)布;建設(shè)完成《吉林省科技統(tǒng)計數(shù)據(jù)庫》、《吉林省基礎(chǔ)科學(xué)數(shù)據(jù)庫》、《吉林省農(nóng)業(yè)產(chǎn)業(yè)科學(xué)數(shù)據(jù)庫》。
參考文獻
[1] 劉潤達,諸云強.科學(xué)數(shù)據(jù)共享關(guān)鍵問題探索——以地球系統(tǒng)科學(xué)數(shù)據(jù)共享網(wǎng)為例[J].地理科學(xué)進展,2007(5):118-126.
[2] 張紅.我國科技資源共享的現(xiàn)狀及其分析[J].科技與法律,2007(2):18-24.
[3] 孫九林,黃鼎成,李曉波.我國科技數(shù)據(jù)管理和共享服務(wù)的新進展[J].世界科技研究與發(fā)展,2002(5):15-19.