儲 雯,馬文卓,勾鑫曄,王 盈,熊 余
(1.重慶郵電大學,重慶 400065;2.重慶生產(chǎn)力促進中心,重慶 401147)
政務(wù)信息系統(tǒng)互聯(lián)和公共數(shù)據(jù)共享是提高政務(wù)部門行政效率、提升服務(wù)水平的重要支撐,在政務(wù)部門深化改革、轉(zhuǎn)變職能、管理創(chuàng)新中發(fā)揮著重要的作用,也是大數(shù)據(jù)智能化發(fā)展的基本要求。國務(wù)院印發(fā)的《政務(wù)信息資源共享管理暫行辦法》提出各政務(wù)部門形成的政務(wù)信息資源原則上應(yīng)予以共享,并要求政務(wù)信息資源共享主管部門負責組織本級共享平臺建設(shè)[1];重慶市政府發(fā)布實施的《重慶市政務(wù)數(shù)據(jù)資源管理暫行辦法》提出“政務(wù)數(shù)據(jù)資源以共享為原則、不共享為例外”,并要求各政務(wù)部門作為本部門政務(wù)數(shù)據(jù)資源管理主體,推進本部門政務(wù)數(shù)據(jù)的資源匯聚、共享、開放和應(yīng)用[2]。科技信息資源數(shù)據(jù)是政務(wù)數(shù)據(jù)資源的重要內(nèi)容之一,科技部和財政部印發(fā)的《國家科技資源共享服務(wù)平臺管理辦法》,同樣要求利用財政性資金形成的科技資源,除保密要求和特殊規(guī)定外,必須面向社會開放共享,地方政府科技管理部門要推動本部門或本地區(qū)平臺建設(shè),促進科技資源整合與共享服務(wù)[3]。
重慶市目前已建成了十余個科技管理系統(tǒng),采集了科研設(shè)備信息、科研人員信息、科研政策、科研經(jīng)費等科研活動相關(guān)各個要素的信息數(shù)據(jù)。數(shù)據(jù)的充分整合和共享能夠促進科研要素之間的交流和科技活動有效、快速進行[4],有利于激發(fā)各類創(chuàng)新性應(yīng)用,對科學技術(shù)的進步和產(chǎn)業(yè)的發(fā)展具有非常重要的意義。在此背景下,構(gòu)建基于統(tǒng)一標準和規(guī)范的重慶市科技信息資源數(shù)據(jù)交換處理架構(gòu)、建設(shè)統(tǒng)一的科技管理服務(wù)平臺,既是對國家、重慶市和行業(yè)要求的積極響應(yīng),同時也是促進科技信息資源共享、實現(xiàn)科技信息資源增值的有效手段。
科技信息資源是記錄科技活動和科學知識的載體[5],主要包括科技實物資源的信息化表達、科學數(shù)據(jù)、科技文獻信息資源等,其中實物科技資源主要包括科學儀器設(shè)備、自然科技資源實物、科技文獻實體資源、科學數(shù)據(jù)資源管理相關(guān)設(shè)備、網(wǎng)絡(luò)科技環(huán)境的硬件設(shè)備和支撐軟件系統(tǒng)等;科學數(shù)據(jù)是指在自然科學、工程技術(shù)科學等領(lǐng)域,通過基礎(chǔ)研究、應(yīng)用研究、試驗開發(fā)等產(chǎn)生的數(shù)據(jù),以及通過觀測監(jiān)測、考察調(diào)查、檢驗檢測等方式取得并用于科學研究活動的原始數(shù)據(jù)及其衍生數(shù)據(jù),包括觀測數(shù)據(jù)、考查數(shù)據(jù)、實驗數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等[6];科技文獻信息資源是記錄科技知識的各種載體,主要包括科技圖書、學術(shù)期刊、學位論文、會議文獻、專利文獻和標準文獻等。
重慶市科技信息資源數(shù)據(jù)主要分布在市內(nèi)各科技創(chuàng)新主體中,包含政府部門、高校、院所、高新企業(yè)等。重慶市政府采集的科技信息資源數(shù)據(jù)主要包含市內(nèi)科技項目、人才、企業(yè)、科技獎勵等管理工作中產(chǎn)生的數(shù)據(jù),截至2021年,重慶市科研管理部門已整合13 類、273TB 包含大型科研儀器、科技人才、科技型企業(yè)、科技信用、科研項目、科技成果、科研機構(gòu)、研發(fā)平臺、孵化平臺、科技特派員、科普基地、科技文獻和專利等的科技信息資源數(shù)據(jù)。重慶市高校、院所、高新企業(yè)采集的科技信息資源數(shù)據(jù)主要包含各組織機構(gòu)內(nèi)部科研管理數(shù)據(jù)、成果數(shù)據(jù)等,大部分數(shù)據(jù)只在各組織機構(gòu)內(nèi)實現(xiàn)交換共享。
重慶市科技信息資源數(shù)據(jù)主要應(yīng)用于科技政務(wù)服務(wù)“一網(wǎng)通辦”、“科技淘寶”服務(wù)、知識價值信用評價體系構(gòu)建等科技管理服務(wù)和數(shù)據(jù)展示與分析服務(wù)等。
1.2.1 科技管理服務(wù)
科技政務(wù)服務(wù)“一網(wǎng)通辦”實現(xiàn)高效的科技管理和便捷的科技服務(wù),主要需要大型科研儀器、科技人才、科技型企業(yè)、科技信用、科研項目、科技成果、科研機構(gòu)、研發(fā)平臺、孵化平臺、科技特派員、科普基地、專利、科技文獻和行政規(guī)范性文件等數(shù)據(jù)作支撐?!翱萍继詫殹狈?wù)實現(xiàn)研發(fā)服務(wù)在線商品化交易,主要需要科研機構(gòu)、科技型企業(yè)、科技成果、科技服務(wù)等數(shù)據(jù)支撐。知識價值信用評價體系構(gòu)建實現(xiàn)企業(yè)的輕資產(chǎn)債權(quán)融資,需要科研機構(gòu)、科技型企業(yè)、科技信用等數(shù)據(jù)支撐。
1.2.2 數(shù)據(jù)展示與分析服務(wù)
數(shù)據(jù)展示與分析服務(wù)包含科技現(xiàn)狀展示、科技發(fā)展評價、科技發(fā)展預(yù)測、科技活動推薦等。
科技現(xiàn)狀展示包含科研機構(gòu)/企業(yè)畫像、科研項目畫像、科技人才畫像、科技資源展示、科技服務(wù)展示等,需要科研機構(gòu)、研發(fā)平臺、孵化平臺、科研項目、科技人才、科技專家、科技特派員、科技成果、大型科研儀器設(shè)備、研究開發(fā)服務(wù)信息及檢測檢驗服務(wù)信息等數(shù)據(jù)支撐。
科技發(fā)展評價包含科研能力評價、科研人才評價、科研績效評價、科研儀器平臺運行效率評價等??蒲心芰υu價需要科研項目、科研成果、科研績效、學術(shù)影響力、科研管理和人才培養(yǎng)等相關(guān)數(shù)據(jù);科研人才評價需要項目數(shù)量、項目等級、項目角色等科研項目,論文、專利等學術(shù)成果,職稱頭銜、獲獎情況、任職情況等學術(shù)影響力,學術(shù)誠信、學術(shù)道德、個人信用等學術(shù)道德等相關(guān)數(shù)據(jù)支撐;科研績效評價需要科研人力資源投入、科研經(jīng)費投入、科研成果產(chǎn)出、科研成果轉(zhuǎn)化、科研獲獎等數(shù)據(jù)支撐;科研儀器平臺運行效率評價需要科研儀器設(shè)備開放程度、服務(wù)情況、支撐產(chǎn)出、人力投入等數(shù)據(jù)支撐。
科技發(fā)展預(yù)測包含科研機構(gòu)/科技人員科研能力預(yù)測、科研方向布局預(yù)測等??蒲袡C構(gòu)/科技人員科研能力預(yù)測通過大數(shù)據(jù)分析,對科研機構(gòu)/科技人員未來科研能力和發(fā)展進行預(yù)測,其中科研機構(gòu)科研能力預(yù)測需要科研機構(gòu)信息、科研人員信息、科研投入信息、科研產(chǎn)出信息等數(shù)據(jù)支撐,科技人員科研能力預(yù)測需要科技人才信息、科研成果等數(shù)據(jù)支撐;科研方向布局預(yù)測需要科研政策、科技趨勢、前沿方向、科研成果、科研項目、科研機構(gòu)和科研人員等數(shù)據(jù)支撐。
科技活動推薦包含科研合作推薦、科研分析匹配等??蒲泻献魍扑]通過對學科領(lǐng)域、科研成果等數(shù)據(jù)的分析學習等,實現(xiàn)科研機構(gòu)和人員的科研合作對象推薦,需要科研機構(gòu)信息、科研人員信息、科研項目、科研成果、科技信用等數(shù)據(jù)支撐??蒲蟹治銎ヅ涿嫦蚩蒲袡C構(gòu)和科技人員進行其研究領(lǐng)域的最新政策、熱門研究、科研項目等推薦,需要科研機構(gòu)信息、科研人員信息、科研項目、科研成果、科研政策等數(shù)據(jù)支撐。
按照重慶市地方標準《科技信息資源元數(shù)據(jù)描述規(guī)范》《科技信息資源采集與處理規(guī)范》和重慶市科技資源數(shù)據(jù)共享目錄,集成科技項目子系統(tǒng)、科技平臺子系統(tǒng)、科技人才子系統(tǒng)等內(nèi)部數(shù)據(jù)和平行部門數(shù)據(jù)、第三方征信數(shù)據(jù)、外部擴展數(shù)據(jù)等,將采集到的多源異構(gòu)科技信息資源數(shù)據(jù)進行清洗、脫敏、標準化等處理后形成科技信息資源數(shù)據(jù)中心。科技信息資源數(shù)據(jù)中心按照大型科研儀器、科研機構(gòu)、科技人才、科技項目等不同的主題進行數(shù)據(jù)存儲,并以各主題數(shù)據(jù)庫為紐帶,通過數(shù)據(jù)交換共享實現(xiàn)市內(nèi)科技信息資源數(shù)據(jù)的統(tǒng)一,為智慧科技信用評價與監(jiān)測、智慧科技管理、智慧科技服務(wù)等科技智慧業(yè)務(wù)協(xié)同和科技指數(shù)評價與發(fā)布、產(chǎn)業(yè)創(chuàng)新鏈全景圖譜、科技發(fā)展政策推演等科技政策決策支持提供數(shù)據(jù)支撐。
標準化原則。相關(guān)系統(tǒng)建設(shè)和數(shù)據(jù)使用須遵循重慶市地方標準《科技信息資源元數(shù)據(jù)描述規(guī)范》《科技信息資源采集與處理規(guī)范》。
先進性原則。盡可能采用先進的技術(shù)、方法、軟件、硬件和網(wǎng)絡(luò)平臺,確保系統(tǒng)的先進性。同時兼顧成熟性,使系統(tǒng)運行成熟且可靠。
安全性原則。采用全面的權(quán)限管理機制,建立有效的數(shù)據(jù)備份、恢復(fù)機制,對數(shù)據(jù)的存取嚴格日志記錄和審計,采用高穩(wěn)定性、高可用性的軟硬件產(chǎn)品,確保數(shù)據(jù)安全。
實用性原則。系統(tǒng)表現(xiàn)和數(shù)據(jù)展現(xiàn)、管理、使用等操作簡單、表現(xiàn)直觀,方便用戶使用。
可維護性和擴展性原則。提高各組件模塊的內(nèi)聚性,降低各組件模塊的耦合度,科學劃分組件接口和方法,使系統(tǒng)強壯且易于維護和擴展。
總體架構(gòu)如圖1 所示,包含數(shù)據(jù)采集、數(shù)據(jù)處理交換、數(shù)據(jù)中心、數(shù)據(jù)應(yīng)用、數(shù)據(jù)標準規(guī)范、安全保障等部分。
圖1 重慶市科技信息資源數(shù)據(jù)交換共享處理架構(gòu)圖
2.3.1 數(shù)據(jù)采集
對政府部門、高校、科研院所、企業(yè)等相關(guān)系統(tǒng)的數(shù)據(jù)進行采集,每個字段都必須有唯一的數(shù)據(jù)提供者,并根據(jù)不同源數(shù)據(jù)的業(yè)務(wù)系統(tǒng)建設(shè)實際情況,確定相對應(yīng)的數(shù)據(jù)采集方案。對已建有相關(guān)業(yè)務(wù)支撐系統(tǒng)的數(shù)據(jù),可通過數(shù)據(jù)中間庫、WebService 接口等方式,按照科技信息資源采集與處理規(guī)范、科技信息資源基礎(chǔ)數(shù)據(jù)標準等標準規(guī)范集成數(shù)據(jù)。無系統(tǒng)支撐但數(shù)據(jù)量大、數(shù)據(jù)字段復(fù)雜的數(shù)據(jù),先新建或升級源數(shù)據(jù)業(yè)務(wù)系統(tǒng)后再進行數(shù)據(jù)集成。無數(shù)據(jù)源業(yè)務(wù)系統(tǒng)支撐,但數(shù)據(jù)量較小、數(shù)據(jù)字段較簡單的數(shù)據(jù),可直接采用excel 數(shù)據(jù)導入等方式進行數(shù)據(jù)集成。
2.3.2 數(shù)據(jù)處理交換
對采集到的多源異構(gòu)科技信息資源數(shù)據(jù)進行數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)脫敏等處理,如按照策略和規(guī)則進行偏差檢測、冗余消除和填充缺失值等數(shù)據(jù)清洗操作,對數(shù)據(jù)進行審查和校驗,補全殘缺數(shù)據(jù)、修正錯誤數(shù)據(jù)、處理重復(fù)數(shù)據(jù);按標準規(guī)范進行特征構(gòu)造、聚集、泛化和歸約等數(shù)據(jù)變換;對身份證件號碼、手機號、統(tǒng)一社會信用代碼等敏感信息進行數(shù)據(jù)替換、隨機化、偏移和取整等數(shù)據(jù)變形、脫敏,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護;借助Hadoop、Spark 等大數(shù)據(jù)處理平臺進行高效的分布式處理等[7]。
通過ETL 工具、數(shù)據(jù)共享接口等實現(xiàn)數(shù)據(jù)交換共享,并進行數(shù)據(jù)集成調(diào)度運行、監(jiān)控等。相關(guān)科技信息資源數(shù)據(jù)產(chǎn)生單位、使用單位應(yīng)按照“誰經(jīng)手,誰使用,誰管理,誰負責”的原則,根據(jù)履行職責需要依法依規(guī)使用共享信息數(shù)據(jù),并加強共享信息數(shù)據(jù)使用的全過程管理。同時,在對數(shù)據(jù)目錄或獲取的科技信息資源數(shù)據(jù)有疑義或發(fā)現(xiàn)有明顯錯誤的,應(yīng)及時予以校核。各業(yè)務(wù)平臺、系統(tǒng)產(chǎn)生的原始數(shù)據(jù)不能直接進行數(shù)據(jù)交換共享,須以權(quán)威科技信息資源數(shù)據(jù)中心作為數(shù)據(jù)交換共享的統(tǒng)一出口。
2.3.3 科技信息資源數(shù)據(jù)中心
科技信息資源數(shù)據(jù)中心匯聚了處理后、標準化的科技信息資源,是科技信息資源數(shù)據(jù)交換共享的統(tǒng)一出口,包含基礎(chǔ)數(shù)據(jù)庫、專業(yè)領(lǐng)域數(shù)據(jù)庫、面向政策應(yīng)用的數(shù)據(jù)庫等,并實現(xiàn)數(shù)據(jù)管理。
基礎(chǔ)數(shù)據(jù)是描述核心業(yè)務(wù)實體相關(guān)屬性的數(shù)據(jù),一般是靜態(tài)數(shù)據(jù)、變化不頻繁,由相關(guān)業(yè)務(wù)部門提供和維護,且跨多個業(yè)務(wù)流程或系統(tǒng)使用。科技信息資源基礎(chǔ)數(shù)據(jù)包含組織機構(gòu)信息、科技資源信息、個人信息、科技服務(wù)信息等。專業(yè)領(lǐng)域數(shù)據(jù)庫包含農(nóng)業(yè)、林業(yè)等特色科學數(shù)據(jù)庫。面向政策應(yīng)用的數(shù)據(jù)庫主要記錄科研政策數(shù)據(jù)。
數(shù)據(jù)管理包括數(shù)據(jù)基礎(chǔ)管理、數(shù)據(jù)生命周期追溯、數(shù)據(jù)異動監(jiān)測、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)資產(chǎn)目錄開放管理等。數(shù)據(jù)基礎(chǔ)管理對數(shù)據(jù)情況進行查看、線下數(shù)據(jù)導入等,如根據(jù)截止時間點,查看所有數(shù)據(jù)的表中文名稱、表名、記錄條數(shù)、所占空間等構(gòu)建細節(jié);詳細查看數(shù)據(jù)對象所存儲的數(shù)據(jù)集;編輯、導入、導出相關(guān)數(shù)據(jù)記錄等。數(shù)據(jù)生命周期追溯可查詢數(shù)據(jù)對象的接口運行記錄,展示數(shù)據(jù)對象從建立到查詢時點的數(shù)據(jù)變化過程,如數(shù)據(jù)對象生命周期查看、變化歷史記錄查詢、數(shù)據(jù)變化歷史對比等。數(shù)據(jù)異動監(jiān)測管理對數(shù)據(jù)對象的數(shù)據(jù)異動情況進行監(jiān)測,如及時記錄異動數(shù)據(jù)變動歷史、列出數(shù)據(jù)異動的次數(shù)、查看數(shù)據(jù)異動日志等。數(shù)據(jù)質(zhì)量管理包含數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)規(guī)則及任務(wù)管理、數(shù)據(jù)合規(guī)性檢測管理等。數(shù)據(jù)資產(chǎn)目錄管理集中展示科技信息資源數(shù)據(jù)資產(chǎn)目錄狀態(tài)信息、開放使用狀態(tài)、開放接口、開放的資產(chǎn)目錄數(shù)量、API 接口數(shù)、調(diào)用次數(shù)、調(diào)用記錄等,進行數(shù)據(jù)資產(chǎn)使用統(tǒng)計,并進行數(shù)據(jù)資產(chǎn)目錄開放管理、數(shù)據(jù)資產(chǎn)申請服務(wù)等。
2.3.4 數(shù)據(jù)應(yīng)用
面向科技政務(wù)服務(wù)“一網(wǎng)通辦”、“科技淘寶”服務(wù)、知識價值信用評價體系等科技管理服務(wù)和科技現(xiàn)狀展示、科技發(fā)展評價、科技發(fā)展預(yù)測、科技活動推薦等數(shù)據(jù)展示與分析服務(wù)場景,開展數(shù)據(jù)應(yīng)用。
2.3.5 數(shù)據(jù)標準規(guī)范
科技信息資源數(shù)據(jù)標準規(guī)范包含科技信息資源元數(shù)據(jù)描述規(guī)范、科技信息資源采集與處理規(guī)范、科技信息資源基礎(chǔ)數(shù)據(jù)標準等。
2.3.6 安全保障
包含共享機制和數(shù)據(jù)安全防護機制。數(shù)據(jù)共享機制明確數(shù)據(jù)共享的內(nèi)容和范圍,劃清相關(guān)業(yè)務(wù)部門的職責,理順數(shù)據(jù)產(chǎn)生部門、數(shù)據(jù)使用部門、數(shù)據(jù)管理部門的權(quán)利和義務(wù),確定共享的要求和流程等。數(shù)據(jù)安全防護機制需要根據(jù)信息安全等級保護要求制定相應(yīng)的管理措施和技術(shù)方案,對科技信息資源數(shù)據(jù)中心、數(shù)據(jù)交換處理平臺等重要基礎(chǔ)設(shè)施加強安全管理,制定數(shù)據(jù)備份和恢復(fù)策略等。
本文對重慶市科技信息資源數(shù)據(jù)的建設(shè)現(xiàn)狀和應(yīng)用需求進行了調(diào)研和研究,設(shè)計了包含數(shù)據(jù)采集、數(shù)據(jù)交換處理、數(shù)據(jù)中心、數(shù)據(jù)應(yīng)用、數(shù)據(jù)標準規(guī)范、安全保障等的科技信息資源數(shù)據(jù)交換共享處理架構(gòu)。后續(xù)將面向科技信息資源數(shù)據(jù)共享應(yīng)用中的標準化體系建設(shè)開展研究,為充分發(fā)揮科技信息資源數(shù)據(jù)的價值提供路徑建議。