王茜 王蕾 胡佳慧 楊晨柳 姚寬達(dá) 方安
(中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020)
關(guān)于數(shù)字保存中信息對象的真實性,業(yè)界將其界定為一個與信息對象狀態(tài)、傳遞模式以及長期保存方式相關(guān)的、基于證據(jù)判斷的問題,著眼于信息對象來源正確和長期保存過程真實兩個維度。如Caplan[1]將數(shù)字保存中信息對象真實性界定為與其最初狀態(tài)的原始對象相比,被保存的信息對象是完整且未被非授權(quán)修改的一種狀態(tài)[2];CCSDS[3]、張智雄[4]、臧國全[5]、CTS[6]等提出,可以從信息對象來源可信、未發(fā)生非授權(quán)的內(nèi)容修改、內(nèi)容完整性得到有效維護(hù)、提供信息對象真實性驗證機制等維度進(jìn)行驗證。國際標(biāo)準(zhǔn)化組織[7-8]、德國數(shù)字資源長期存儲專業(yè)網(wǎng)絡(luò)[9]、國際科學(xué)理事會世界數(shù)據(jù)系統(tǒng)、中國國家檔案局[10]等主張從數(shù)字資源保存周期角度對信息對象真實性進(jìn)行界定與分析。
數(shù)字保存中信息對象真實性保障基本要求主要分布于數(shù)字資源保存組織發(fā)布的標(biāo)準(zhǔn)規(guī)范之中。因此,本文重點梳理與研究國際標(biāo)準(zhǔn)化組織發(fā)布的《可信數(shù)字倉儲的審計與認(rèn)證指標(biāo)》(ISO16363)、德國數(shù)字資源長期存儲專業(yè)網(wǎng)絡(luò)發(fā)布的《可信數(shù)字倉儲指標(biāo)目錄》(Nestor)、國際科學(xué)理事會世界數(shù)據(jù)系統(tǒng)發(fā)布的《Core Trust Seal可信數(shù)據(jù)倉儲要求(2020—2022年)》和《Core Trust Seal可信數(shù)據(jù)倉儲要求:擴展指南(2020—2022年)》[11]、中國國家檔案局發(fā)布的《文書類電子檔案檢測一般要求》(DA/T70-2018)[12]等標(biāo)準(zhǔn)規(guī)范關(guān)于數(shù)字保存中信息對象真實性保障措施體系,具體如下。
(1)信息對象接收階段。數(shù)字倉儲需要從信息對象和數(shù)據(jù)提交者兩個層面開展真實性管理。一方面,要求數(shù)字倉儲提取和保留其所要保存信息對象的內(nèi)容及其信息屬性,并提供用于驗證完整性和正確性的機制和過程;另一方面,進(jìn)行數(shù)據(jù)提交方真實性核實與驗證。
(2)信息對象攝入階段。要求數(shù)字倉儲采取提交方在授權(quán)機構(gòu)進(jìn)行正式注冊、上傳過程中使用數(shù)字簽名、保存對象來源元數(shù)據(jù)真實性評估等管理措施,保障信息對象攝入前、攝入中、攝入后的真實性。
(3)信息對象保存階段。要求數(shù)字倉儲采取建立信息對象真實性審計與回溯機制、記錄信息對象(包括元數(shù)據(jù))保存階段所有轉(zhuǎn)換(更改或刪除)操作的完整信息等措施。
(4)信息對象訪問階段。數(shù)字倉儲應(yīng)該能夠向用戶證實自身是用戶使用的信息對象的提供者,如使用數(shù)字簽名技術(shù)交付使用用戶。在信息對象真實性不明確的情況下,應(yīng)該向用戶提供信息對象的相關(guān)資料,如建立記錄保存過程中關(guān)于信息對象來源和所有更改的元數(shù)據(jù)體系,以服務(wù)于真實性評估。
數(shù)字保存中信息對象真實性保障在實踐層面探索出以下3種典型模式。
(1)基于信息對象保存生命周期的不間斷管理模式。該模式的基本思路:基于信息對象保存生命周期理論和信息對象連續(xù)性管理理論[13-14],把數(shù)字保存中的真實性維護(hù)落實到信息對象保存生命周期全過程,在信息對象接收、攝入、保存和服務(wù)階段采取制度、技術(shù)、程序及工具等真實性保障措施體系。
(2)基于信息對象保存元數(shù)據(jù)的管理與監(jiān)測模式。該模式的基本思路:面向數(shù)字保存中信息對象真實性的基本需求,即向當(dāng)前和未來的用戶保證由存儲庫保存和分發(fā)的信息對象是最初攝入存儲庫的信息對象的原始副本,或者自攝入后對原始信息對象所進(jìn)行的任何授權(quán)修改都被完整地記錄,監(jiān)測和管理與信息對象真實性相關(guān)的元數(shù)據(jù)以實現(xiàn)信息對象真實性保障目標(biāo)[5,15-17]。
(3)基于信息對象保存真實性影響因素管理模式。該模式的基本思路:著眼于數(shù)字保存中信息對象真實性的影響因素,從環(huán)境監(jiān)測、制度規(guī)范、技術(shù)系統(tǒng)、人員素質(zhì)、管理行為等方面構(gòu)建涵蓋數(shù)字保存生命周期的真實性保障措施體系[14,18-20]。
人口健康科學(xué)數(shù)據(jù)長期保存的信息對象是由科研項目、科研機構(gòu)、科研人員產(chǎn)生的生物醫(yī)學(xué)科學(xué)數(shù)據(jù)集合,包括科學(xué)數(shù)據(jù)描述信息、科學(xué)數(shù)據(jù)實體、科學(xué)數(shù)據(jù)輔助工具軟件等類型的資源。其中,科學(xué)數(shù)據(jù)描述信息包括科學(xué)數(shù)據(jù)實體的相關(guān)描述信息、樣例數(shù)據(jù)、數(shù)據(jù)字典及倫理、人遺等過程資料;科學(xué)數(shù)據(jù)實體是指科學(xué)研究過程中的原始數(shù)據(jù)和衍生數(shù)據(jù)所形成的完整數(shù)據(jù)庫或數(shù)據(jù)集;科學(xué)數(shù)據(jù)輔助工具軟件是指用于科學(xué)數(shù)據(jù)處理、加工和分析的專門輔助軟件工具等,包括工具軟件本身和相關(guān)使用說明。相較于期刊文獻(xiàn)資源,人口健康科學(xué)數(shù)據(jù)長期保存的科學(xué)數(shù)據(jù)實體對象數(shù)據(jù)類型多樣,數(shù)據(jù)格式復(fù)雜,涉及文本數(shù)據(jù)、數(shù)值數(shù)據(jù)、圖形數(shù)據(jù)、影像數(shù)據(jù)等類型[21],涵蓋dmp、mdb、pdf、sav、sql、table、txt、xls等文件格式[22],存在結(jié)構(gòu)化與非結(jié)構(gòu)化的不同結(jié)構(gòu)化情況,部分?jǐn)?shù)據(jù)包體量達(dá)100GB及以上;與單一類型的科學(xué)數(shù)據(jù)相比,人口健康科學(xué)數(shù)據(jù)涵蓋化學(xué)、生物學(xué)、心理學(xué)、水產(chǎn)學(xué)、基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)、藥學(xué)、工程與技術(shù)科學(xué)、體育科學(xué)、統(tǒng)計學(xué)等多個一級學(xué)科[22]。此外,人口健康科學(xué)數(shù)據(jù)資源創(chuàng)建者也較為多樣,包括國家部委、醫(yī)院、高等院校、研究機構(gòu)等。
人口健康科學(xué)數(shù)據(jù)長期保存信息對象的真實性是指人口健康科學(xué)數(shù)據(jù)長期保存信息對象的內(nèi)容、結(jié)構(gòu)及背景信息,在經(jīng)過提交、接收、保存及遷移等過程后,仍與提交時的狀態(tài)一致。針對人口健康科學(xué)數(shù)據(jù)長期保存信息對象的基本特點,結(jié)合長期保存生命周期場景,圍繞信息對象提交、接收和保存管理的關(guān)鍵環(huán)節(jié),人口健康科學(xué)數(shù)據(jù)長期保存系統(tǒng)從信息對象來源可信、接收內(nèi)容真實、保存過程完整3個維度,設(shè)計人口健康科學(xué)數(shù)據(jù)長期保存信息對象的真實性保障措施體系(見圖1)。
圖1 人口健康科學(xué)數(shù)據(jù)長期保存信息對象真實性保障設(shè)計思路
為了應(yīng)對人口健康科學(xué)數(shù)據(jù)資源創(chuàng)建者多樣的挑戰(zhàn),確保提交到人口健康科學(xué)數(shù)據(jù)長期保存系統(tǒng)中的信息對象真實可靠,人口健康科學(xué)數(shù)據(jù)長期保存系統(tǒng)主要從信息對象來源真實和信息對象內(nèi)容真實兩個方面制定相關(guān)保障措施。
(1)信息對象來源真實的保障措施。借鑒《信息與文獻(xiàn)-文件管理過程-文件元數(shù)據(jù)-第1部分:原則》(GB/T 26163.1—2010)中關(guān)于文件形成和發(fā)送階段文件真實性的要求[23],考慮人口健康科學(xué)數(shù)據(jù)長期保存科學(xué)數(shù)據(jù)資源創(chuàng)建者多樣的特點,從用戶創(chuàng)建、用戶身份認(rèn)證等環(huán)節(jié),開展信息對象形成和發(fā)送責(zé)任實體(具有法人性質(zhì)提交機構(gòu))、實際上傳數(shù)據(jù)的用戶等的真實性校驗。
(2)信息對象內(nèi)容真實保障措施。信息對象內(nèi)容真實保障措施包括構(gòu)建協(xié)議和內(nèi)容檢測兩個主要手段。一方面,通過協(xié)議明確數(shù)據(jù)包的描述信息包括但不限于人口健康科學(xué)數(shù)據(jù)集名稱、數(shù)據(jù)集創(chuàng)建者、數(shù)據(jù)集責(zé)任單位、文件大小、文件格式等要素,用于開展信息對象來源正確性審查,服務(wù)于內(nèi)容真實性檢測。另一方面,借鑒《文書類電子檔案檢測一般要求》(DA/T70-2018)關(guān)于歸檔環(huán)節(jié)電子文件真實性檢測基本規(guī)范[24],要求數(shù)據(jù)提交方在數(shù)據(jù)提交之前對信息對象進(jìn)行來源、內(nèi)容、信息包3個維度的真實性檢測,并提供檢測結(jié)果報告。該檢測結(jié)果報告是接收、攝入、保存等環(huán)節(jié)真實性保障的重要依據(jù)。此外,針對結(jié)構(gòu)化的人口健康科學(xué)數(shù)據(jù),內(nèi)容檢測還從內(nèi)容元數(shù)據(jù)準(zhǔn)確、描述元數(shù)據(jù)與內(nèi)容關(guān)聯(lián)一致角度進(jìn)行深度評價。
接收內(nèi)容真實的保障機制:主要通過數(shù)據(jù)傳輸和接收信息包的真實保障措施,保證移交和傳輸?shù)饺丝诮】悼茖W(xué)數(shù)據(jù)長期保存系統(tǒng)中的數(shù)字對象的原始性和真實性。具體措施如下。
(1)數(shù)據(jù)傳輸真實保障措施。由于人口健康科學(xué)數(shù)據(jù)分散于不同的機構(gòu)中,系統(tǒng)接收數(shù)據(jù)包依賴網(wǎng)絡(luò)傳輸。因此,充分考慮網(wǎng)絡(luò)環(huán)境和網(wǎng)絡(luò)傳輸協(xié)議,形成面向不同體量數(shù)據(jù)包的即時數(shù)據(jù)傳輸方案和離線數(shù)據(jù)傳輸方案。GB級別的數(shù)據(jù)實體應(yīng)采用由數(shù)據(jù)離線上傳、數(shù)據(jù)離線下載、建立數(shù)據(jù)緩存服務(wù)器等方式組成的離線數(shù)據(jù)傳輸方案[25]開展數(shù)據(jù)傳輸,從而確保數(shù)據(jù)傳輸過程不丟包。同時,采用加密等技術(shù)手段,保證科學(xué)數(shù)據(jù)在傳輸過程中不被篡改。
(2)接收信息包真實保障措施。接收信息包真實保障措施是從接收包結(jié)構(gòu)、內(nèi)容、摘要等維度開展接收包的真實性分析,具體包括:對接收的人口健康科學(xué)數(shù)據(jù)信息包的說明文件和目錄文件、信息包目錄結(jié)構(gòu)等進(jìn)行規(guī)范性檢測,以保證移交信息包的組織結(jié)構(gòu)和內(nèi)容符合移交規(guī)范;采用數(shù)字摘要比對、數(shù)字簽名等方式對接收信息包的一致性進(jìn)行檢測,確保待接收數(shù)據(jù)包與提交數(shù)據(jù)包相一致并且內(nèi)容真實性、數(shù)據(jù)未被篡改;捕獲并校驗科學(xué)數(shù)據(jù)接收信息包名稱、大小、格式、創(chuàng)建時間等內(nèi)容屬性信息。另外,對結(jié)構(gòu)化的科學(xué)數(shù)據(jù)包開展內(nèi)容元數(shù)據(jù)準(zhǔn)確的校驗。
保存過程完整的保障機制包括制定支撐保存信息包真實完整的處理行為規(guī)范、構(gòu)建面向保存過程真實的元數(shù)據(jù)體系、設(shè)計支撐保存信息包內(nèi)容真實的審計機制三重手段,保證人口健康科學(xué)數(shù)據(jù)長期保存系統(tǒng)中信息對象的真實和完整。具體措施如下。
(1)制定支撐保存信息包真實完整的處理行為規(guī)范。保存信息包處理行為真實完整規(guī)范定義不同保存環(huán)節(jié)的數(shù)據(jù)管理要求。信息對象保存環(huán)節(jié)中,要求監(jiān)測保存信息包自創(chuàng)建以來的所有變化信息。保存信息包轉(zhuǎn)移、維護(hù)環(huán)節(jié)中,要求保存信息包的完整性,并實施安全監(jiān)控。保存信息包備份環(huán)節(jié)中,要求明確備份日期及負(fù)責(zé)人,明確從創(chuàng)建者處獲得的信息包與保存系統(tǒng)副本之間的關(guān)系,分析備份過程對其形式、內(nèi)容、可及性和使用的影響。此外,在保存系統(tǒng)的副本不能完全、可靠地再現(xiàn)其真實性和完整性時,系統(tǒng)需要記錄這些信息并隨保存信息包一并保存。以不同保存環(huán)節(jié)的具體要求為依據(jù),建立保存對象的訪問權(quán)限,進(jìn)行保存信息包刪除和遷移風(fēng)險控制,建立防止丟失、損壞及媒體脆弱性、技術(shù)過時的相應(yīng)措施。
(2)構(gòu)建面向保存過程真實的元數(shù)據(jù)體系。保存過程真實的元數(shù)據(jù)體系是基于保存過程涉及的主要場景而構(gòu)建的涵蓋保存對象、保存時間和保存業(yè)務(wù)主體描述信息的集合。面向保存信息包來源正確分析場景,設(shè)計信息對象描述信息、信息對象簽名信息和數(shù)字摘要信息3個維度的元數(shù)據(jù)集合。其中,信息對象描述信息包括人口健康科學(xué)數(shù)據(jù)集的名稱、大小、包含的文件數(shù)量;信息對象簽名信息包括簽名編碼、簽名算法等內(nèi)容;數(shù)字摘要信息包括摘要編碼值、編碼生成時間、摘要生成人、編碼算法。面向信息對象存檔場景,元數(shù)據(jù)集合包括保存對象描述信息、存儲路徑、保存人、保存時間、備份信息、存儲介質(zhì)信息。其中,保存對象描述信息不僅包括人口健康科學(xué)數(shù)據(jù)長期保存信息對象描述信息,還包括人口健康科學(xué)數(shù)據(jù)的文件格式、支持?jǐn)?shù)據(jù)查看的軟件名稱、軟件版本、軟硬件運行環(huán)境;備份信息包括備份地址、備份與存檔關(guān)聯(lián)關(guān)系、備份創(chuàng)建時間;存儲介質(zhì)信息包括介質(zhì)類型、位置、名稱、生產(chǎn)廠家、生產(chǎn)日期以及存儲介質(zhì)的生命周期。面向保存信息對象修改場景,元數(shù)據(jù)集合包括修改人、修改時間、修改內(nèi)容、修改前后的摘要值、修改前后的摘要算法、授權(quán)修改依據(jù)等內(nèi)容。
(3)設(shè)計支撐保存信息包內(nèi)容真實的審計機制。支撐保存信息包內(nèi)容真實的審計機制是以面向保存過程真實的元數(shù)據(jù)為對象,開展保存對象未被篡改、保存環(huán)境未發(fā)生改變的真實性判別,從而盡早探測數(shù)據(jù)面臨的真實性風(fēng)險。以保存對象未被篡改審計為例,一方面根據(jù)協(xié)議約定周期,定期檢測、比對人口健康科學(xué)數(shù)據(jù)集數(shù)據(jù)包文件數(shù)量、文件大小、數(shù)據(jù)集摘要的數(shù)值,若文件數(shù)據(jù)量、數(shù)據(jù)集大小、摘要信息與保存對象記錄的元數(shù)據(jù)不一致或與協(xié)議不一致則認(rèn)為數(shù)據(jù)對象可能被篡改;另一方面,以數(shù)據(jù)包記錄的備份信息相關(guān)元數(shù)據(jù)為依據(jù),判斷備份數(shù)據(jù)包的數(shù)據(jù)量、數(shù)據(jù)集大小等與保存對象記錄的元數(shù)據(jù)是否一致,并檢測保存路徑是否正確、保存硬件是否運轉(zhuǎn)等,若備份信息不一致或備份路徑不可訪問則認(rèn)為保存對象的備份存在真實性風(fēng)險。
人口健康科學(xué)數(shù)據(jù)作為衛(wèi)生健康領(lǐng)域關(guān)鍵的戰(zhàn)略性基礎(chǔ)資源,為醫(yī)學(xué)創(chuàng)新發(fā)展、臨床診療和疾病預(yù)防等提供著重要支撐[26],保障人口健康科學(xué)數(shù)據(jù)的真實可用性成為對其進(jìn)行管理的核心目標(biāo)之一,多個數(shù)據(jù)管理機構(gòu)均將其納入工作布局之中。如美國國立醫(yī)學(xué)圖書館在其發(fā)布的規(guī)劃中明確,將通過科研數(shù)據(jù)存儲庫開發(fā)、政策標(biāo)準(zhǔn)制定和基礎(chǔ)設(shè)施建設(shè)等措施,對大型科研項目(如All of Us、BRAIN Initiative)的科研數(shù)據(jù)進(jìn)行存儲和管理[27];哈佛大學(xué)圖書館生物醫(yī)學(xué)數(shù)據(jù)管理服務(wù)中將生物醫(yī)學(xué)數(shù)據(jù)重現(xiàn)性需求作為重要服務(wù)內(nèi)容[28]。為了支撐人口健康科學(xué)數(shù)據(jù)價值的持續(xù)、高質(zhì)量地發(fā)揮,立足人口健康科學(xué)數(shù)據(jù)長期保存系統(tǒng)建設(shè)實踐,基于信息對象長期保存生命周期,著眼于信息對象長期保存的接收、攝入、保存核心關(guān)鍵流程,從制度、技術(shù)等方面對人口健康科學(xué)數(shù)據(jù)長期保存信息對象真實性保障策略進(jìn)行研究。
未來,面向人口健康科學(xué)數(shù)據(jù)長期保存系統(tǒng)建設(shè)實踐和工程化需求,需要以制度和技術(shù)為雙重抓手,優(yōu)化、解決人口健康科學(xué)數(shù)據(jù)長期保存信息對象真實性保障的問題。在制度方面對人口健康科學(xué)數(shù)據(jù)長期保存進(jìn)程中信息對象真實性保障機制和策略進(jìn)一步深化。如將人口健康科學(xué)數(shù)據(jù)長期保存真實性保障機制向前延伸,深入到人口健康科學(xué)數(shù)據(jù)生命周期管理的前端,積極參與科研主體科學(xué)數(shù)據(jù)管理工作和規(guī)范的制定與實施;又如結(jié)合人口健康科學(xué)數(shù)據(jù)長期保存系統(tǒng)研發(fā)與應(yīng)用過程,不斷調(diào)整、完善、具化真實性評價內(nèi)容。同時,也要探索新技術(shù)與人口健康科學(xué)數(shù)據(jù)長期保存信息對象真實性保障機制的結(jié)合點,提升真實性保障機制實施的效果和效率。如利用基于區(qū)塊鏈技術(shù)[29-30]和理論進(jìn)一步探究技術(shù)層面人口健康科學(xué)數(shù)據(jù)長期保存信息對象真實性保障的技術(shù)機制的設(shè)計與實現(xiàn)。