陳栩杉/國防大學政治學院
錄音錄像類電子檔案是指具有查考和利用價值并歸檔保存的錄音類電子文件和錄像類電子文件,是經(jīng)數(shù)字錄音設(shè)備和數(shù)字攝像設(shè)備形成的依賴計算機等數(shù)字設(shè)備閱讀、視聽、處理,可在通信網(wǎng)絡(luò)上傳送的數(shù)字音頻文件和數(shù)字音視頻文件[1]。與文書類電子文件、照片類電子檔案相比,錄音錄像類電子檔案具有物理結(jié)構(gòu)復雜、管理要求特殊等特點[2],這對維護其真實、完整、可用、安全的管理目標提出了更高的要求,如何確保錄音錄像類電子檔案的真實性和完整性更是成為促進資源開發(fā)利用和長久保存工作有效實施的關(guān)鍵。
隨著區(qū)塊鏈應用于電子檔案管理的理解不斷深入,檔案學界、機構(gòu)、企業(yè)圍繞應用價值[3—8]、路徑模式[9—11]、模型系統(tǒng)[12—16]、行業(yè)實踐[17—20]等方面展開了理論研究和應用實踐。從國內(nèi)研究現(xiàn)狀看,檔案行業(yè)對區(qū)塊鏈技術(shù)的認識和理解從“爭先恐后”到“并不必然使用”,從應用前景展望到模型架構(gòu)設(shè)計再到落地實踐探索,可謂是由淺入深、由點及面、初具形態(tài),但仍以典型項目、典型場景的試點為主,應用對象類型主要面向文書類電子文件及其管理系統(tǒng),缺乏針對錄音錄像類電子檔案特點設(shè)計的、基于區(qū)塊鏈技術(shù)的管理模式、模型系統(tǒng)等研究,還沒有成熟的實驗結(jié)果,存在眾多問題亟待探索和解決。
與此同時,英國國家檔案館等機構(gòu)主導的ARCHANGEL項目借鑒聯(lián)盟鏈的技術(shù)框架,結(jié)合深度神經(jīng)網(wǎng)絡(luò)模型,開發(fā)出基于音視頻內(nèi)容的哈希算法,用于計算錄像類電子檔案的內(nèi)容哈希值,該值上鏈后可作為驗證檔案完整性的重要依據(jù),在應對錄像類電子檔案管理過程中可能出現(xiàn)的合理轉(zhuǎn)換(如格式轉(zhuǎn)換、遷移等)和非法篡改(如刪除音視頻幀、替換頭像等)均有較好效果。因此,本文在分析該項目針對錄像類電子檔案完整性驗證的基本思路、技術(shù)架構(gòu)與流程的基礎(chǔ)上,論述了應用區(qū)塊鏈技術(shù)實現(xiàn)我國錄音錄像類電子檔案存證的啟示與思考。
ARCHANGEL項目由英國國家檔案館、英國薩里大學、開放數(shù)據(jù)研究所等機構(gòu)聯(lián)合開發(fā),旨在建立一個確保電子檔案長期完整性的去中心化平臺,用于在檔案管理和開放利用過程中驗證電子檔案的來源可信性和內(nèi)容真實性,增強數(shù)字時代檔案機構(gòu)權(quán)威地位和用戶信任程度。需要注意的是,這里的“完整性”是指檔案內(nèi)容的真實性且未經(jīng)非授權(quán)的更改或破壞,包含檔案學領(lǐng)域中“真實性”和“完整性”的兩層含義。
項目的總體思路是基于區(qū)塊鏈技術(shù)建立一個分布式平臺,由多個檔案機構(gòu)負責管理維護。
每個檔案機構(gòu)在檔案移交進館時,將原始檔案存證信息(即原始檔案哈希值)、檔案文件名或全局唯一標識符(Global Unique Identifier,GUID)、標識哈希算法的唯一標識符(如SHA-256)、附加元數(shù)據(jù)(如檔案管理員的注釋、移交時間、版本信息等)、專用哈希算法代碼或模型的哈希值(可選)等寫入?yún)^(qū)塊鏈。上述信息組合構(gòu)成區(qū)塊鏈上的一個新區(qū)塊,加入鏈尾,并依托網(wǎng)絡(luò)對新區(qū)塊進行一致性檢測,形成共識。
用戶利用GUID或哈希值搜索、識別所需的區(qū)塊,通過計算所需利用檔案的哈希值,并與存儲在區(qū)塊中的原始存證信息進行比較,從而驗證該檔案的完整性。整個驗證過程是獨立的、透明的、可重現(xiàn)的,任何人在任何時間都能完成。
1.2.1 基本思路
錄像類電子檔案與一般的文本類電子檔案相比,由于其物理結(jié)構(gòu)和管理要求具有特殊性,并不適合采用與文本類完全一致的處理方式,其原因主要有兩個方面。
一是錄像類電子檔案的文件存儲容量相較于一般文本類電子檔案要大得多,錄像類電子檔案的處理過程顯然需要消耗更多內(nèi)存,對計算機等設(shè)備的硬件要求較高,在相同硬件條件下運算速度比一般文本類要慢得多。
二是出于保密和隱私保護等目的,錄像類電子檔案的原始內(nèi)容并不會上鏈,上鏈的只是原始檔案的哈希值,如果采用SHA-256等標準哈希算法,就會造成用戶利用檔案時計算的哈希值與鏈上的哈希值出現(xiàn)不一致的情況。比如,以O(shè)AIS模型描述的信息包括提交信息包(Submission Information Packages,SIPs)、檔案信息包(Archival Information Packages,AIPs)、傳播信息包(Dissemination Information Packages,DIPs)等。當用戶利用時,AIPs(看作是原始記錄)與DIPs有可能不一致,因為檔案提供利用時通常會使用不同格式的副本(如為了降低文件下載容量,一個MXF格式的視頻檔案會轉(zhuǎn)換成MPG4格式)。同時,由于原始檔案的文件格式面臨過時風險,有可能需要遷移至新的格式。這些都會造成無法向用戶證明提供利用的檔案與館藏原始檔案一致。
因此,ARCHANGEL項目考慮定制開發(fā)一種新的哈希算法,該算法應具備一個特性,即文件格式的轉(zhuǎn)換對最終的哈希值沒有影響,但對內(nèi)容的更改會產(chǎn)生截然不同的哈希值。這樣做,一是能給用戶提供正確的驗證依據(jù),二是能防止檔案內(nèi)容的篡改,三是能幫助檔案管理人員確保檔案格式的轉(zhuǎn)換或遷移工作已成功完成,避免由于軟件原因?qū)е罗D(zhuǎn)換過程中部分內(nèi)容被截斷或丟失。
1.2.2 技術(shù)架構(gòu)與流程
在驗證錄像類電子檔案完整性的技術(shù)架構(gòu)中,項目采用了“鏈上+鏈下”混合的存儲策略。鏈上多個檔案機構(gòu)共同維護兩個哈希值,一是錄像類電子檔案內(nèi)容的哈希值,由定制開發(fā)的專用哈希算法生成;二是專用哈希算法代碼的哈希值,由SHA-256算法生成。鏈下各個檔案館分別存儲錄像類電子檔案的原始文件和各個視頻片段的檔案內(nèi)容編碼。鏈上和鏈下數(shù)據(jù)依賴唯一標識符(Unique Identifiers,UID)進行對應關(guān)聯(lián)。
同時,為了進一步降低計算資源的消耗、提高區(qū)塊更新速率,項目采用了權(quán)威證明(Proof of Authority,PoA)的共識機制,利用檔案機構(gòu)的法律地位和聲譽建立起基于權(quán)威共識的驗證機制,以犧牲部分去中心化來實現(xiàn)高吞吐量、可持續(xù)性和可擴展性。授權(quán)節(jié)點的訪問密鑰是預先進行分配和授權(quán)的,所有區(qū)塊是由授權(quán)節(jié)點通過多數(shù)共識定期封裝,新的節(jié)點通過現(xiàn)有授權(quán)節(jié)點的多數(shù)共識被授予訪問權(quán)。
在具體實現(xiàn)過程中,項目設(shè)計了一個深度神經(jīng)網(wǎng)絡(luò)模型,用于提取錄像類電子檔案中音視頻流的時序內(nèi)容哈希值(Temporal Content Hash,TCH)。該模型經(jīng)過訓練后,即使視頻內(nèi)容中出現(xiàn)很小的幀損壞(人臉、場景替換等)或時間不連續(xù)(拼接、截斷等),都會產(chǎn)生不同的TCH值;但若僅是視頻編碼格式的轉(zhuǎn)換,則會產(chǎn)生幾乎相同的TCH值??梢娚蓾M足需求的TCH值并根據(jù)該值判定錄像類電子檔案完整性是關(guān)鍵環(huán)節(jié),其流程主要分為以下幾個步驟。
第一,將錄像類電子檔案的數(shù)字音視頻文件拆分成多個視頻片段,對每個片段中的音頻流和視頻流分別提取對應的特征序列。第二,利用深度神經(jīng)網(wǎng)絡(luò)模型(如CNNLSTM),對每個視頻片段的特征序列進行訓練,得到該片段的音頻流TCH值和視頻流TCH值。在訓練過程中,除了將原始文件作為訓練數(shù)據(jù)之外,還要將相同文件經(jīng)過格式轉(zhuǎn)換后的樣本數(shù)據(jù)納入訓練數(shù)據(jù)集,以便得到判定視頻是否被篡改的門限值。第三,將每個視頻片段的唯一標識符、模型代碼哈希值、音頻流TCH值、視頻流TCH值、門限值等上鏈。第四,用戶根據(jù)提供的訓練模型代碼,計算得到所需驗證視頻片段的音頻流TCH值和視頻流TCH值,與鏈上存儲的對應TCH值比較,若差異超過門限值,則認為待驗證的視頻片段被篡改了。
ARCHANGEL項目突破了傳統(tǒng)電子檔案管理的信任模式,將基于機構(gòu)的信任轉(zhuǎn)變?yōu)榛诩夹g(shù)的信任,不可否認從技術(shù)角度上看,該項目擁有一個復雜且設(shè)計精密的技術(shù)結(jié)構(gòu),但即使再完美的系統(tǒng)也存在缺陷,其根源與技術(shù)、管理之間沖突息息相關(guān),主要表現(xiàn)在透明與隱私、安全與速度這兩個方面。在透明與隱私?jīng)_突的層面,開放和透明是基于區(qū)塊鏈驗證檔案完整性的核心,如果失去了透明性,區(qū)塊鏈就無法履行職責,但檔案本身的保密性和隱私安全使得這種透明性往往成為其應用在檔案管理上的一個局限因素,上鏈內(nèi)容不可刪除或更改的優(yōu)點反而可能帶來國家、社會、單位、個人隱私安全泄露的風險。在安全與速度沖突的層面,基于區(qū)塊鏈的數(shù)據(jù)結(jié)構(gòu)要求每個被添加或更改的區(qū)塊都需要解決哈希難題,以極高成本保證數(shù)據(jù)不被操縱或偽造,但這大大降低了新數(shù)據(jù)上鏈的速度,與檔案管理環(huán)節(jié)、活動對速度和可擴展性的要求形成對比。因此,如何選擇一個平衡兩類沖突的折中方案,是立足電子檔案管理根本需求,找到技術(shù)與管理結(jié)合最優(yōu)路線的關(guān)鍵。ARCHANGEL項目選擇上鏈的內(nèi)容只包含檔案文件名、唯一標識符、檔案內(nèi)容哈希值、算法唯一標識符、算法代碼哈希值、附加元數(shù)據(jù)等信息,部分情況下甚至文件名都不上鏈提供,最大程度避免了隱私和敏感信息的泄露。同時,選擇將新區(qū)塊寫入的權(quán)限和共識過程只授予預先選定并被確定為可信任的檔案機構(gòu)節(jié)點,通過寫入權(quán)限的限制放寬了區(qū)塊鏈創(chuàng)造信任的條件,以隱藏的中心化屬性換取各類應用所需的高處理速度、高延展性和低成本投入需求。
國家檔案局從2017年起陸續(xù)發(fā)布了《錄音錄像檔案數(shù)字化規(guī)范》(DA/T 62—2017)、《錄音錄像類電子檔案元數(shù)據(jù)方案》(DA/T 63—2017)、《錄音錄像檔案管理規(guī)范》(DA/T 78—2019)等行業(yè)標準,在主題內(nèi)容、責任者、業(yè)務(wù)背景、編碼標準、關(guān)鍵技術(shù)參數(shù)、知識產(chǎn)權(quán)管理等元數(shù)據(jù)層面以及歸檔范圍、收集、整理、著錄、存儲備份、轉(zhuǎn)換遷移等實體管理層面進行了統(tǒng)一規(guī)范,為檔案館(室)開展錄音錄像類電子文件歸檔與電子檔案管理實踐提供了切實可行的支撐和作業(yè)標準指南。但從各項標準規(guī)范的內(nèi)容來看,其出發(fā)點基于規(guī)范、指導錄音錄像類電子文件、電子檔案、實體檔案管理工作,描述、管理對象是以卷、件為單元,因此其管理粒度仍處于案卷級、文件級粒度,還未下沉到檔案內(nèi)容特征層面的屬性描述。這就造成如果需要對檔案的真實性進行驗證,本質(zhì)上依賴的還是機構(gòu)信任,檔案機構(gòu)和檔案管理人員在標準規(guī)范的約束下對檔案來源、內(nèi)容的真實可靠性負責,即使此時將相關(guān)元數(shù)據(jù)、管理流程信息上鏈,也無法完全保證檔案內(nèi)容的真實性,且備份轉(zhuǎn)換、格式遷移等操作帶來的不同版本重復上鏈操作,也會增加管理工作的復雜程度和用戶的驗證難度。ARCHANGEL項目針對錄像類電子檔案設(shè)計的專用哈希算法,將管理對象粒度細化至音視頻流特征粒度,并基于特征直接生成檔案內(nèi)容哈希值,形成檔案內(nèi)容存證信息,且這種存證信息不會隨格式遷移變化,能夠保證正常管理工作的合規(guī)合法性,這相當于在案卷級、文件級層面之下又增加了一道內(nèi)容特征級,三層式的管理粒度涵蓋了從高維語義信息到低維信號特征的“三保險”,彌補了檔案內(nèi)容信息的驗證手段,構(gòu)成了自頂向下的、多維細粒度的檔案真實性驗證機制。
管理協(xié)同就是把局部力量進行合理排列組合,來完成某項工作和項目。錄音錄像類電子檔案相較于一般類的電子檔案,無論是收集范圍還是收集要求都更具有獨特性。比如,錄音錄像類電子檔案記錄的大多是本地區(qū)政治、經(jīng)濟、文化、體育與社會事業(yè)等重大活動,本地區(qū)地理概貌、城鄉(xiāng)建設(shè)、名勝古跡、自然風光、民風民俗和人物宣傳等題材,本單位工作活動、重要會議、外事活動、重點工程、重要人物等主要職能和基本歷史面貌,較少涉及其他地區(qū)或單位的文件收集和流轉(zhuǎn)。而且錄音錄像類電子檔案的聲音影像質(zhì)量、歸檔格式、技術(shù)參數(shù)、存儲備份結(jié)構(gòu)方式等均有較大差異,更容易在各個檔案機構(gòu)之間形成“信息孤島”“應用孤島”“資源孤島”。因此,錄音錄像類電子檔案的管理協(xié)同就是將封存在各個檔案機構(gòu)中的信息、業(yè)務(wù)、資源進行時間、空間和功能結(jié)構(gòu)的重組,解決檔案機構(gòu)作為傳統(tǒng)可信中心機構(gòu)存在的分布式環(huán)境、多主體交互、主體間信任度低問題,實現(xiàn)信息協(xié)同、業(yè)務(wù)協(xié)同、資源協(xié)同,產(chǎn)生一種具有“競爭—合作—協(xié)調(diào)”的能力。ARCHANGEL項目展示了數(shù)字檔案機構(gòu)的協(xié)作本質(zhì),依托檔案機構(gòu)權(quán)威地位和彼此館藏信任的方式,通過分布在多個獨立檔案機構(gòu)的區(qū)塊鏈平臺,利用PoA的權(quán)限機制保證“鏈下資源的來源可靠”和“鏈上資源的共識維護”,跨越機構(gòu)之間的邊界建立起一種全新的互信方式,對降低單個檔案機構(gòu)信任風險、提升機構(gòu)間檔案信息整合效應提供了共贏的解決方案。
一要試點出臺法規(guī)標準,明確管理流程中各部門、各單位的責任分工。在現(xiàn)有電子檔案全程管理過程中,每一個環(huán)節(jié)、每一項活動通常都有相應的標準規(guī)范予以支持,如綜合性標準、元數(shù)據(jù)標準、管理系統(tǒng)標準、保存標準等,對實施具體管理工作提供了依據(jù)。區(qū)塊鏈的引入將用戶對檔案機構(gòu)的信任部分轉(zhuǎn)移到對技術(shù)、協(xié)議的信任,系統(tǒng)完備性所產(chǎn)生的技術(shù)依賴在一定程度會導致檔案機構(gòu)、檔案管理人員責任的缺失,因此需要在戰(zhàn)略層面、宏觀層面出臺具有指導意義的法規(guī)標準,厘清區(qū)塊鏈系統(tǒng)與檔案機構(gòu)之間的責任邊界,對形成部門、檔案部門、信息化部門和保密部門的責任分工予以明確。
二要擴大應用場景,充分發(fā)揮區(qū)塊鏈應用價值。從區(qū)塊鏈本身的技術(shù)特征以及它能夠存儲各種數(shù)據(jù)的特點進行分析,可以發(fā)現(xiàn)其應用場景包括存在/非存在證明、時間證明、身份證明、作者證明、順序證明等[21]。從包括ARCHANGEL項目在內(nèi)的現(xiàn)有區(qū)塊鏈與檔案業(yè)務(wù)結(jié)合的案例來看,前4個應用場景均有涉及,也就是對單個文件的存在與否、時間戳、身份信息、版權(quán)信息等都能進行驗證,但順序證明的應用鮮有見到。順序證明適用于證明事件發(fā)生的先后順序,在資源按照同一標準進行分配時尤為重要,筆者認為順序證明可用于同一全宗、案卷內(nèi)錄音錄像類電子檔案的管理,即在驗證單個檔案完整性的基礎(chǔ)上進一步驗證全宗和案卷的完整性,從橫向和縱向兩個層面考慮檔案完整性的驗證機制,這在檔案整理、移交等典型場景下判斷是否有缺漏、篡改等時頗為重要。
三要在平臺中融入科學的獎勵機制,提升檔案機構(gòu)和用戶的使用興趣和接受度。區(qū)塊鏈在技術(shù)上的不盡成熟和法律地位的不確定性,都會使檔案機構(gòu)、用戶不能夠信任區(qū)塊鏈。目前的應用優(yōu)勢如保證檔案完整性、提升機構(gòu)公信力、資源相互支撐等,大多是針對機構(gòu)的,但這些優(yōu)勢是否足以抵消檔案機構(gòu)耗費的各類成本,需要思考。此外,用戶因為權(quán)限受限無法加入共識過程,也就無法得到相應工作量的獎勵,這會降低用戶加入平臺的想法。因此,需要設(shè)計公平公正的獎勵機制,進一步激發(fā)用戶參與的動力。