劉召棟,周億城
(湖南省科學技術信息研究所,湖南 長沙410001)
大數(shù)據(jù)成為繼土地、勞動力、資本、技術之后最為活躍的生產(chǎn)要素,被譽為是“21世紀的鉆石礦”,是國家戰(zhàn)略性基礎性資源??萍即髷?shù)據(jù)資源是一個國家和區(qū)域第一生產(chǎn)力和第一動力形成的基礎性戰(zhàn)略性資源,核心競爭優(yōu)勢體現(xiàn)在科技大數(shù)據(jù)資源的配置效率、資源規(guī)模質(zhì)量優(yōu)勢和資源開放利用率上[1]。然而,當前在中國局部區(qū)域還沒有從根本上解決科技大數(shù)據(jù)資源配置效率低、共享難、利用難、安全保障存在風險等突出矛盾。因此,為最大效率地對科技大數(shù)據(jù)資源進行采集、組織、整合、挖掘、利用、共享、銷毀和保護,如何科學地對科技資源進行分類編碼和分級保護就成為一個非常值得研究的問題。本文在分析科技大數(shù)據(jù)資源內(nèi)涵、現(xiàn)有科技大數(shù)據(jù)資源在分類和定級保護存在問題的基礎上,嘗試較系統(tǒng)地構(gòu)建科技大數(shù)據(jù)資源分類編碼體系,并根據(jù)《數(shù)據(jù)安全法》的規(guī)定,構(gòu)建了分類分級思路和安全管理框架,為科技大數(shù)據(jù)資源管理和利用提供決策參考。
科技大數(shù)據(jù)具有海量性、高增長性、多樣性、時效性、可變性、價值高等大數(shù)據(jù)一般典型特征,但不同于一般意義上的網(wǎng)絡及行業(yè)大數(shù)據(jù),在大數(shù)據(jù)、云計算、人工智能、移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等新興信息技術深度融合時代,科技大數(shù)據(jù)作為新的生產(chǎn)要素資源,支撐供給側(cè)結(jié)構(gòu)性改革、驅(qū)動創(chuàng)新發(fā)展、綠色發(fā)展的作用日益顯現(xiàn),正成為推動質(zhì)量變革、效率變革、動力變革的第一動力。
本文所指的科技大數(shù)據(jù)資源包括科技實物數(shù)據(jù)資源、科技人力數(shù)據(jù)資源、科技財力數(shù)據(jù)資源、科技信息資源、科技載體數(shù)據(jù)資源、科技組織數(shù)據(jù)資源、科技服務業(yè)數(shù)據(jù)資源、科普數(shù)據(jù)資源等。
從科技管理實踐視角來看,科技大數(shù)據(jù)資源利用在宏觀層面上缺乏管理與協(xié)調(diào),沒有形成系統(tǒng)性大數(shù)據(jù)交換標準體系和服務體系。一方面,盡管全國各地都開展了政務大數(shù)據(jù)中心的建設、數(shù)據(jù)治理和數(shù)據(jù)整合工作,但是同區(qū)域各部門為了部門利益,內(nèi)部業(yè)務系統(tǒng)產(chǎn)生的數(shù)據(jù)僅部分數(shù)據(jù)實現(xiàn)集中、聚合、交換、共享,核心業(yè)務數(shù)據(jù)沒有集中和聚合;另一方面,科技創(chuàng)新要素管理部門分散在各個行政管理部門、企事業(yè)單位等,如大型儀器設備資源,各組織均在大量重復購置儀器設備,造成了科技資源的嚴重浪費。
科技大數(shù)據(jù)資源開發(fā)利用缺乏規(guī)范性政策、法規(guī)體系的保障,未能形成健全的大數(shù)據(jù)開發(fā)利用機制。據(jù)可查詢的公開渠道,至今尚未出臺一個規(guī)范性政策性文件來明晰科技大數(shù)據(jù)資源的歸屬權、管理權、使用權等問題,也沒有法規(guī)要求占有科技資源的組織必須同時承擔科技大數(shù)據(jù)資源建設和開發(fā)的責任及義務,也缺乏保障科技大數(shù)據(jù)資源發(fā)揮最大化效益的激勵制度設計。
科技大數(shù)據(jù)資源管理手段主要包括經(jīng)濟、行政、法律、技術等,過去乃至現(xiàn)在,政府更多的是依賴行政手段,沒有注重以經(jīng)濟或其他手段來綜合應用配置資源、利用資源,在整體上存在著管理體制的行政性、分割性,導致了資源利用的失靈。
隨著新興信息技術的融合發(fā)展,科技大數(shù)據(jù)中心建設如火如荼,但是各行各級行政管理部門或組織在大數(shù)據(jù)中心建設時,依然存在“重在建設,輕管理”,尤其是傳統(tǒng)的基于邊界安全域(security domain)和基于已知特征庫(feature library)的網(wǎng)絡安全防護方式已經(jīng)無法有效應對大數(shù)據(jù)環(huán)境下新的安全威脅,其原因之一在于沒有形成統(tǒng)一的標準化設計,缺乏全局性標準制定,缺乏對科技大數(shù)據(jù)資源的系統(tǒng)性分類分級,不利于實現(xiàn)科技大數(shù)據(jù)資源的開發(fā)利用[2]。
開展科技大數(shù)據(jù)資源分類標準化工作是科技大數(shù)據(jù)中心建設中聚集數(shù)據(jù)資源、治理數(shù)據(jù)資源、挖掘資源、利用資源的一項基礎性工作。
科技大數(shù)據(jù)治理覆蓋的內(nèi)容包括大數(shù)據(jù)生命周期、數(shù)據(jù)資產(chǎn)梳理、大數(shù)據(jù)安全與隱私、大數(shù)據(jù)架構(gòu)、數(shù)據(jù)質(zhì)量和大數(shù)據(jù)服務創(chuàng)新等。如開展大數(shù)據(jù)中心建設時,通過大數(shù)據(jù)資源的標準化實現(xiàn)跨層級、跨地區(qū)、跨系統(tǒng)、跨部門、跨業(yè)務的系統(tǒng)的整合。
科技大數(shù)據(jù)平臺或中心建設過程中需要應用數(shù)量龐大、種類繁雜的標準規(guī)范,這些標準規(guī)范對推動科技大數(shù)據(jù)資源建設提供了基礎性保障,但是也存在著一些問題,如缺乏全局性頂層設計,沒有形成統(tǒng)一的標準化建設體系框架[3]。開展標準化研究和編制科學合理的科技大數(shù)據(jù)資源標準體系,在現(xiàn)有標準的結(jié)構(gòu)和規(guī)劃基礎上達成共識,能夠科學地指導資源分類標準的制定、修訂、復審等計劃、規(guī)劃的編制和實施。
按照標準體系中確定的統(tǒng)一標準,如共性描述規(guī)范、數(shù)據(jù)質(zhì)量控制規(guī)范,對資源進行標準化整理和數(shù)字化表達,保證數(shù)據(jù)資源的完整性、可開發(fā)性和可靠性,有利于建立規(guī)范統(tǒng)一的資源數(shù)據(jù)資源目錄,方便資源利用者準確、快速地獲取高質(zhì)量的資源信息和實物,提高資源利用效率和效益[4]。
數(shù)據(jù)安全以數(shù)據(jù)為中心,重點考慮數(shù)據(jù)生命周期各階段中的數(shù)據(jù)安全,大數(shù)據(jù)應用中包含海量數(shù)據(jù),存在對海量數(shù)據(jù)的安全管理。大數(shù)據(jù)場景下,多源數(shù)據(jù)關聯(lián)分析可能導致傳統(tǒng)保護措施失靈?!吨腥A人民共和國數(shù)據(jù)安全法》于2021-09實施,數(shù)據(jù)安全上升到了法律層面?!稊?shù)據(jù)安全法》提出要依法制定數(shù)據(jù)安全行為規(guī)范和團體標準,提高數(shù)據(jù)安全保護水平。開展標準化可進一步明確資源的分級標準、分類標準以及相應的安全標準,清晰界定科技資源的開放程度和共享范圍。
在構(gòu)建科技大數(shù)據(jù)資源分類分級體系時,本文對科技大數(shù)據(jù)資源的分類分級應充分考慮資源的系統(tǒng)性、唯一性、實用性、均衡性、擴展性和兼容性[5]。
系統(tǒng)性。科技大數(shù)據(jù)資源信息涉及面廣、資源種類多且繁雜,因此在對科技大數(shù)據(jù)資源分級時,應從系統(tǒng)性視角聚合各類科技資源并對其進行科學分類,分級時應符合科技資源數(shù)據(jù)的屬性特征及其相互間客觀存在的邏輯關聯(lián)[6]。
唯一性。在分類體系中,一個科技大數(shù)據(jù)資源類只能用一個名稱、一個代碼。某資源類被調(diào)整變更后,其原有的分類代碼撤銷,不得再賦予其他類科技資源使用[7]。
實用性。首先在進行分類時,類目設置要全面、實用,受關注的、重要的資源作為二級類目列出,滿足科技資源管理者的實際需求。其次類目劃分要符合用戶對科技資源普遍認識,考慮用戶對科技資源使用的習慣,不設沒有意義的類目[8]。
均衡性。在大類、二級類、三級類中,必要時采用合并列類方式,適當控制類目層級和數(shù)量,使分類表中類目的展開比較均衡[9]。
擴展性。為未來的新興大數(shù)據(jù)資源或者特色資源內(nèi)容留有適當?shù)挠嗟?,在二級分類和三級分類類目的擴展上預留空間,保證分類體系有一定彈性,可在本分類體系上進行延拓細化,在設計代碼結(jié)構(gòu)和進行具體編碼時留有適當?shù)挠嗟睾痛_定相應的擴充方法[10]。
兼容性。分級分類應遵循國家、地方、部門法律法規(guī)、相關規(guī)定的要求。當前已出臺《科普資源分類與代碼》《信息安全技術 政務信息資源安全分級指南》《國家科技基礎條件平臺資源元數(shù)據(jù)核心元數(shù)據(jù)》等國家標準、行業(yè)標準、團體標準和地方標準,為保持與國內(nèi)已有的相關信息分類標準相協(xié)調(diào),開展分類定級過程中應盡可能保持繼承性和延續(xù)[11]。
構(gòu)建科技大數(shù)據(jù)資源分類體系。資源分類編碼體系是針對各類科技大數(shù)據(jù)資源的屬性,按照分類編碼的一般原則與方法,進行統(tǒng)一分類和一致編碼的子體系。分類編碼是組織科技大數(shù)據(jù)資源的有效手段,也是實現(xiàn)科技大數(shù)據(jù)資源管理和利用的基本保障[12]。
構(gòu)建科技大數(shù)據(jù)資源編碼體系。建立科技大數(shù)據(jù)資源目錄體系,就是要實現(xiàn)對科技大數(shù)據(jù)資源的編目、注冊、發(fā)布、查詢和維護,對科技大數(shù)據(jù)資源實施高效的管理。因此,為了提供對科技大數(shù)據(jù)資源進行檢索和查詢的依據(jù),有必要對每一項資源賦予一個唯一不變的標識碼。
構(gòu)建科技大數(shù)據(jù)資源安全體系??萍即髷?shù)據(jù)資源的安全是數(shù)據(jù)資源管理和使用的基本保障,基于科技大數(shù)據(jù)資源科學分類和合理分級,建立資源安全標準體系,可以對重要數(shù)據(jù)的種類、數(shù)量開展風險監(jiān)測,發(fā)現(xiàn)數(shù)據(jù)安全缺陷、漏洞等,有利于貫徹落實《中華人民共和國數(shù)據(jù)安全法》。
4.3.1 分類方法
本標準采用線分類法(也稱層次分類法),將初始的科技大數(shù)據(jù)資源分類對象按選定的屬性(或特征)作為劃分基礎,逐漸分成相應的若干個層次級類目,并排列成一個有層次的、逐級展開的科技資源分類體系。
4.3.2 編碼方法
本標準編碼分為四層7位代碼,左邊兩個字符是第一層級為一級碼,用一位大寫英文字母表示,取值為A~E,結(jié)合科技大數(shù)據(jù)資源的特性,將科技大數(shù)據(jù)資源分為八大類;第二層級為二級碼,用兩位數(shù)字表示,取值為01~99,表示業(yè)務領域類主題;第三層級為三級碼,用兩位數(shù)字表示,取值為01~99,表示某領域內(nèi)業(yè)務分支主題;第四層級為四級碼,用兩位數(shù)字表示,取值為01~99,表示業(yè)務分支下的專業(yè)主題??萍即髷?shù)據(jù)資源分類代碼結(jié)構(gòu)如圖1所示。標準中所有代碼僅表示該科普資源在本分類體系中的級別和位置,不表示其他含義。
圖1 科技資源分類代碼結(jié)構(gòu)
4.4.1 基本思路
從管理實踐視角來看,管理活動基本遵循“5W”管理要素,即管理什么?管理目標是什么?誰來管理?什么條件下管理?如何管理?從管理的要素出發(fā),科技大數(shù)據(jù)資源的管理對象是科技大數(shù)據(jù)資源,管理主體是行政管理主體及科研院所、高校、中介組織等各類科技資源生產(chǎn)者、擁有者和使用者;管理手段包括經(jīng)濟、行政、法律、技術等;管理目標是對科技大數(shù)據(jù)資源進行科學規(guī)劃和頂層設計,進一步開展資源配置、資源聚合、數(shù)據(jù)治理、資源挖掘開發(fā)和高效利用,以使科技大資源有效支撐科技創(chuàng)新活動,最終實現(xiàn)組織戰(zhàn)略目標的過程;管理環(huán)境基于大數(shù)據(jù)時代。具體思路為:首先按照科技管理實踐業(yè)務邏輯劃分,作為一級分類;其次業(yè)務按照數(shù)據(jù)屬性、重要程度、管理需要、用戶使用需要進行數(shù)據(jù)細分,作為二級或三級分類;最后對分類后的數(shù)據(jù)確定級別。
4.4.2 分類框架及編碼
結(jié)合以往相關文獻對科技大數(shù)據(jù)資源的分類和本文對科技分類的認識與理解,本文認為科技大數(shù)據(jù)資源包括科技實物數(shù)據(jù)資源、科技人力數(shù)據(jù)資源、科技財力數(shù)據(jù)資源、科技信息資源、科技載體數(shù)據(jù)資源、科技組織數(shù)據(jù)資源、科技服務業(yè)數(shù)據(jù)資源、科普數(shù)據(jù)資源等八大類資源[13]??萍紝嵨镔Y源包括科研儀器、科研基礎設施、生物資源、標本資源、實驗材料資源庫等;科技人力資源包括百人計劃、千人計劃、萬人計劃、長江學者、國家杰青等高層次科技人才,以及農(nóng)村科技特派員、企業(yè)特派專家、三區(qū)科技人才等其他科技人才;科技財力資源包括國家自然科學基金、國家科技重大專項、國家重點研發(fā)計劃、國家技術創(chuàng)新引導專項等國家計劃項目體系,以及省重大項目、省重點研發(fā)計劃、創(chuàng)新平臺與人才計劃、省自然科學基金等省級計劃項目體系;科技信息資源包括科技文獻、研究與試驗報告、標準、專利、科學數(shù)據(jù)等;科技載體資源包括國家實驗室、國家重點實驗室、國家工程實驗室、院士工作站等科研基地平臺資源,以及科技園區(qū)和創(chuàng)新創(chuàng)業(yè)平臺資源;科技組織資源包括省級科技管理部門、園區(qū)科技管理部門、科研院所、高等院校、科技企業(yè)等;科技服務業(yè)資源包括科學研究與試驗發(fā)展服務、專業(yè)化技術服務、科技推廣及相關服務、科技信息服務、科技金融服務、科技普及和宣傳教育服務、綜合科技服務等;科普資源包括歷史文明、天文地理、軍事科技、數(shù)學、物理、化學、生命科學、醫(yī)藥健康、安全科學、信息技術、環(huán)境科學等??萍即髷?shù)據(jù)資源分類基本框架如圖2所示。
圖2 科技大數(shù)據(jù)資源分類基本框架
結(jié)合《數(shù)據(jù)安全法》和《科學數(shù)據(jù)管理辦法》,本文對科技大數(shù)據(jù)資源的分類基本思路為:對數(shù)據(jù)全生命周期為主線進行分類分級保護,明確“數(shù)據(jù)從哪里來(Where)、放在什么環(huán)境下(What)、允許誰(Who)、什么時候(When)、對哪種信息(Which)、執(zhí)行什么操作(How)”,做到全生命周期、全流轉(zhuǎn)過程“可管可控”,滿足“大數(shù)據(jù)參與者數(shù)據(jù)安全的要求”,是當前大數(shù)據(jù)安全建設的重要目標[14]。
對數(shù)據(jù)進行不同類別和密級的劃分;根據(jù)類別和密級制定不同管理和使用原則,對數(shù)據(jù)做到有差別和針對性的防護;明確數(shù)據(jù)的保密期限、開放條件、開放對象和審核程序等??萍即髷?shù)據(jù)資源分級基本框架如圖3所示。
圖3 科技大數(shù)據(jù)資源分級基本框架