廣東省能源集團(tuán)有限公司 劉寧寧
傳統(tǒng)檔案面臨收集難、管理難、整理難、利用難的問題,電子檔案具有明顯區(qū)別于紙質(zhì)檔案的可復(fù)制性、操作方面、實(shí)現(xiàn)資源共享、方便快捷,節(jié)約存儲(chǔ)空間等優(yōu)點(diǎn),但同時(shí)也存在著不穩(wěn)定性、不安全性等缺點(diǎn)。基于數(shù)字化的電子檔案的建設(shè)可以全面解決以上難題。利用區(qū)塊鏈技術(shù)中鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)、分布式節(jié)點(diǎn)、共識(shí)機(jī)制、自動(dòng)化智能合約、非對(duì)稱加密等技術(shù)優(yōu)勢(shì)解決數(shù)據(jù)信任問題,對(duì)保障電子檔案的真實(shí)性起到重要作用。利用AI人工智能技術(shù),實(shí)現(xiàn)數(shù)字檔案的快捷識(shí)別、提取和歸檔管理等。
在數(shù)字化時(shí)代,數(shù)字檔案、智慧檔案建設(shè)是所有企業(yè)面臨的共同課題,電子檔案數(shù)據(jù)作為企業(yè)內(nèi)部?jī)r(jià)值最高、信息量最大、與經(jīng)營(yíng)發(fā)展決策聯(lián)系最緊密的資源,在實(shí)踐中由于電子文件及電子檔案極易丟失、失密、易篡改的特性,導(dǎo)致電子檔案的長(zhǎng)期保存、真實(shí)性難以保障、出現(xiàn)問題后難以溯源,這些問題給電子檔案的流通、管理、共享利用增加了管控困難。而電子檔案的巨大信息量也使得用戶難以快速查詢到興趣內(nèi)容,使得檔案的利用率無法明顯提高。隨著數(shù)字化建設(shè)的不斷完善,將數(shù)字化技術(shù)應(yīng)用到檔案管理中十分有必要,區(qū)塊鏈技術(shù)在分布式存儲(chǔ)和不可篡改性方面的優(yōu)勢(shì)有利于提高檔案管理的安全和保密,人工智能在信息提取分析方面相比人工具有極大優(yōu)勢(shì)。[1]王爍提出大數(shù)據(jù)時(shí)代建設(shè)檔案信息資源共享平臺(tái)。[2]韓曉萍提到部分事業(yè)單位在電子檔案管理中出現(xiàn)信息數(shù)據(jù)泄露等現(xiàn)象。[3-7]中對(duì)區(qū)塊鏈在電子檔案真實(shí)性保障做出了研究。[8-11]中對(duì)人工智能在電子檔案管理過程的智能安全管理做了研究。
引用引用引用引用
應(yīng)用區(qū)塊鏈技術(shù)建立電子檔案可信任機(jī)制,通過利用該技術(shù)的去中心化、公開透明、不可篡改、可溯源等特點(diǎn),可有效解決電子檔案安全保管及資源共享利用的問題。利用人工智能等技術(shù)對(duì)數(shù)字檔案智能識(shí)別、智能編目、智能審核、信息提取、內(nèi)容分析等應(yīng)用,突破傳統(tǒng)檔案利用局限。
通過文件交換平臺(tái)、數(shù)據(jù)交換平臺(tái)和區(qū)塊鏈系統(tǒng)形成的電子檔案全流程溯源保障平臺(tái)對(duì)文件的上鏈進(jìn)行標(biāo)準(zhǔn)化自動(dòng)化管理。歸檔的文件在數(shù)字檔案室中可通過AI數(shù)據(jù)智能分析平臺(tái)進(jìn)行便捷歸檔、檢索等操作。系統(tǒng)建設(shè)的總體架構(gòu)如圖1所示。
圖1 電子檔案全流程溯源保障平臺(tái)總體架構(gòu)Fig.1 Overall architecture of the whole process traceability guarantee platform for electronic archives
應(yīng)用區(qū)塊鏈可建立一個(gè)參與電子檔案多方協(xié)作管理的可信環(huán)境,從業(yè)務(wù)數(shù)據(jù)形成、辦理、移交、審核、接收、歸檔、保管和利用等各個(gè)關(guān)鍵業(yè)務(wù)環(huán)節(jié)出發(fā),建立多方協(xié)作的可信機(jī)制。
檔案系統(tǒng)通過文件交換平臺(tái)、數(shù)據(jù)交換平臺(tái)分別與區(qū)塊鏈系統(tǒng)集成,將新歸檔的電子文件按照公司有關(guān)規(guī)范上鏈管理,實(shí)現(xiàn)其真實(shí)性和全生命周期管理過程可追溯,滿足單套制的必要條件,為電子檔案與傳統(tǒng)載體檔案具有同等法律效力提供基本保障。
電子檔案全流程溯源保全平臺(tái)體系采用了區(qū)塊鏈與IPFS結(jié)合的存儲(chǔ)模式,相比傳統(tǒng)區(qū)塊鏈檔案管理,在處理照片、視頻等大文件時(shí)具有更高的效率,總體框架如圖2所示。該平臺(tái)主要由電子檔案系統(tǒng)、區(qū)塊鏈、記賬節(jié)點(diǎn)、用戶節(jié)點(diǎn)、IPFS系統(tǒng)和激勵(lì)機(jī)制組成。其中,區(qū)塊鏈分布式存儲(chǔ)的優(yōu)勢(shì)可以用于對(duì)上鏈的文件數(shù)據(jù)進(jìn)行安全存儲(chǔ)與流程控制;記賬節(jié)點(diǎn)是子鏈和聯(lián)盟鏈內(nèi)部推舉出的數(shù)據(jù)節(jié)點(diǎn);用戶節(jié)點(diǎn)是所有參與了檔案產(chǎn)生、修改、審核、使用等處理的部門;IPFS系統(tǒng)通過Hash值進(jìn)行尋址查找,所有訪問都會(huì)被自動(dòng)分散到不同的記賬節(jié)點(diǎn),因此能夠大大提高照片、視頻等大文件的訪問速度,這也是本檔案溯源保障平臺(tái)可用于大型、多部門檔案管理系統(tǒng)建設(shè)的優(yōu)勢(shì)所在。
圖2 電子檔案全流程溯源及數(shù)據(jù)保障體系總統(tǒng)框架圖Fig.2 President's frame diagram of the whole process traceability and data security system of electronic archives
數(shù)據(jù)上鏈溯源過程如圖3所示:用戶上傳需要存證的文件,源文件一方面存儲(chǔ)在安全檔案庫中,一方面對(duì)數(shù)據(jù)進(jìn)行哈希處理,提取源文件哈希值并存儲(chǔ)在分布式帳本中。需要使用文件時(shí),對(duì)安全檔案庫中的原始文件進(jìn)行讀取,系統(tǒng)在獲取安全檔案庫中的原始文件后,重新提取文件哈希值,與之前原始數(shù)據(jù)存儲(chǔ)在區(qū)塊鏈中的哈希值進(jìn)行對(duì)比、驗(yàn)證,如果哈希值相同,則傳出經(jīng)過驗(yàn)證的文件,反之,則提醒用戶數(shù)據(jù)已經(jīng)被篡改。
圖3 數(shù)據(jù)上鏈過程Fig.3 Data uplink process
數(shù)字檔案智能分析平臺(tái)主要通過AI算法實(shí)現(xiàn)信息審核、數(shù)據(jù)發(fā)布、檔案共享、信息安全等4項(xiàng)核心功能,各項(xiàng)功能由相應(yīng)模塊進(jìn)行承載。
平臺(tái)集成了文字、表格、圖像提取、語音、視頻提取分析功能,借助人工智能技術(shù),可實(shí)現(xiàn):(1)根據(jù)預(yù)設(shè)的資料分類規(guī)則,對(duì)獲取的文件進(jìn)行類目劃分;(2)根據(jù)預(yù)設(shè)篩選規(guī)則,對(duì)錄入資料進(jìn)行篩選過濾,剔除非法或違禁關(guān)鍵詞、錯(cuò)漏報(bào)警等;(3)自動(dòng)識(shí)別技術(shù),可實(shí)現(xiàn)語種識(shí)別、文本提取、語音提取、圖像特征篩選等,有助于用戶對(duì)文本、語音、圖像、視頻內(nèi)容進(jìn)行快捷搜索,免去了大量人工檢索的非必要工作。
AI數(shù)據(jù)智能分析平臺(tái)的工作流程如下:(1)文檔采集,在業(yè)務(wù)文件接口管理平臺(tái)搭建完成后,接口部門可以選擇手動(dòng)或自動(dòng)上傳文件導(dǎo)入平臺(tái);(2)開展內(nèi)容審核,經(jīng)過訓(xùn)練的過濾算法有助于篩選海量數(shù)字文檔,不管是文字、圖片、視頻還是音頻,通過人工智能算法都可以篩出不滿足標(biāo)準(zhǔn)的文件,并將過濾原因進(jìn)行記錄擇機(jī)反饋;(3)文件審核完成后,啟動(dòng)收錄程序,文件的收錄包括了歸集、歸類、登記、備份等處理工作,原則上除了歸類需要手動(dòng)介入,其他流程均可自動(dòng)完成。處理好的檔案內(nèi)容以電子形式保存在數(shù)字檔案館內(nèi),經(jīng)批準(zhǔn)后上鏈存儲(chǔ);(4)檔案取用,用戶節(jié)點(diǎn)可以在區(qū)塊鏈內(nèi)部訪問、修改檔案,在訪問過程中可以通過智能算法實(shí)現(xiàn)快捷查詢,所有修改、訪問記錄都將在全流程溯源和數(shù)據(jù)保障體系內(nèi)進(jìn)行如實(shí)記錄,這種訪問在所有用戶節(jié)點(diǎn)都是允許的。
整個(gè)智能分析平臺(tái)由數(shù)據(jù)層、業(yè)務(wù)層、網(wǎng)絡(luò)層、用戶層4個(gè)層次構(gòu)成。
(1)數(shù)據(jù)層。本層是平臺(tái)的起始層,通過數(shù)據(jù)庫接口,接收外界多源數(shù)據(jù)并傳送至業(yè)務(wù)層,為智能分析平臺(tái)的運(yùn)作提供數(shù)據(jù)支撐。
(2)業(yè)務(wù)層。本層是平臺(tái)的核心層,主要作用是處理數(shù)據(jù)庫中的數(shù)字檔案資源,調(diào)用數(shù)據(jù)底層服務(wù)來完成系統(tǒng)業(yè)務(wù)。實(shí)現(xiàn)對(duì)外界檔案信息的識(shí)別、智能提取、智能分類、信息安全等核心功能模塊的逐級(jí)流動(dòng),完成數(shù)字檔案的自動(dòng)收錄。
(3)網(wǎng)絡(luò)層。本層的是平臺(tái)的傳導(dǎo)層,負(fù)責(zé)串聯(lián)用戶層、數(shù)據(jù)層和業(yè)務(wù)層,其作用是接收外部數(shù)據(jù)、將收錄整理好的電子檔案資源傳輸至網(wǎng)絡(luò)。面向用戶的智能搜索與云計(jì)算功能依賴網(wǎng)絡(luò)層實(shí)現(xiàn)與數(shù)據(jù)庫的雙向數(shù)據(jù)傳輸,通過數(shù)據(jù)和數(shù)字簽名的遷移,將檔案數(shù)據(jù)加密傳送到應(yīng)用客戶端。這種傳送采用雙向透?jìng)鞣绞?,用戶層不必關(guān)心網(wǎng)絡(luò)的拓?fù)漕愋汀⑼ㄐ沤橘|(zhì),可以直接解析呈現(xiàn)業(yè)務(wù)層資源。
(4)用戶層。本層是平臺(tái)的最終層,與用戶之間采用雙向數(shù)據(jù)傳輸,采集用戶意向,并將檔案資源可視化到信息接收終端。
共識(shí)機(jī)制是區(qū)塊鏈中的節(jié)點(diǎn)就網(wǎng)絡(luò)狀態(tài)達(dá)成的統(tǒng)一協(xié)議,主要用于判斷分布式網(wǎng)絡(luò)數(shù)據(jù)的一致性和數(shù)據(jù)有效性,因此選擇一個(gè)合適的共識(shí)機(jī)制對(duì)區(qū)塊鏈數(shù)據(jù)非常重要。由于區(qū)塊鏈的節(jié)點(diǎn)沒有權(quán)限管理和身份認(rèn)證功能,因此在提出數(shù)字化電子檔案建設(shè)過程中使用的節(jié)點(diǎn)都是檔案館部門內(nèi)部高度可信任的服務(wù)器,能夠排除惡意節(jié)點(diǎn)。由于這些節(jié)點(diǎn)具有高度可靠性和安全性,出于對(duì)其高度信任,我們無條件地將這些節(jié)點(diǎn)作為記賬人,從而簡(jiǎn)化了共識(shí)算法。這種方式在計(jì)算量和電力資源方面相比普通記賬具有更大的優(yōu)勢(shì),記賬效率也更高。
為了應(yīng)對(duì)各類數(shù)字檔案系統(tǒng)的故障和安全風(fēng)險(xiǎn),提升檔案業(yè)務(wù)連續(xù)性,檔案災(zāi)備和恢復(fù)是數(shù)字檔案系統(tǒng)建設(shè)的關(guān)鍵。但是通過檔案數(shù)據(jù)庫的定期復(fù)制實(shí)現(xiàn)災(zāi)備的方法難以保證實(shí)時(shí)性,對(duì)檔案長(zhǎng)期可用性造成重大風(fēng)險(xiǎn),通過區(qū)塊鏈共享賬本中間件可以實(shí)時(shí)上鏈保存數(shù)字檔案系統(tǒng)的數(shù)據(jù)。中間件可以根據(jù)檔案系統(tǒng)建設(shè)的需求靈活配置區(qū)塊鏈節(jié)點(diǎn)的數(shù)目和部署的地點(diǎn),通過檔案數(shù)據(jù)自動(dòng)上鏈,可實(shí)現(xiàn)檔案在不同組織和區(qū)域間的共享,且不改變現(xiàn)有數(shù)字檔案系統(tǒng)的業(yè)務(wù)流程。在數(shù)字檔案系統(tǒng)出現(xiàn)故障時(shí),可利用區(qū)塊鏈節(jié)點(diǎn)上存證的數(shù)據(jù)恢復(fù)檔案系統(tǒng)數(shù)據(jù)庫。
數(shù)字檔案系統(tǒng)監(jiān)管對(duì)于數(shù)字檔案資源的安全保管和規(guī)范化使用至關(guān)重要。當(dāng)前的數(shù)字檔案管理系統(tǒng)大多數(shù)為中心化系統(tǒng),監(jiān)管手段以日志審計(jì)為主,監(jiān)管信息的可靠性和檔案數(shù)據(jù)的安全性難以保證,不利于數(shù)字檔案的規(guī)范利用和外部監(jiān)管靈活介入。通過區(qū)塊鏈“平權(quán)共治”的網(wǎng)絡(luò)特征,外部監(jiān)管機(jī)構(gòu)可以建立節(jié)點(diǎn),加入到聯(lián)盟區(qū)塊鏈網(wǎng)絡(luò),實(shí)施對(duì)數(shù)字檔案系統(tǒng)和檔案資源使用的可信監(jiān)管。通過區(qū)塊鏈共享賬本可以賦予不同粒度的檔案數(shù)據(jù)不同的授權(quán),只有具有相應(yīng)授權(quán)的用戶組織才能共享和訪問對(duì)應(yīng)的檔案數(shù)據(jù),從而實(shí)現(xiàn)數(shù)字檔案訪問的精準(zhǔn)控制。
數(shù)字檔案與傳統(tǒng)的紙質(zhì)檔案相比,極其容易被復(fù)制和篡改,在傳播和使用的過程中難以確保檔案的真實(shí)性且難以對(duì)系統(tǒng)中檔案文件的使用和修改進(jìn)行全流程的溯源。通過區(qū)塊鏈共享賬本不可篡改特性,對(duì)上鏈數(shù)字檔案進(jìn)行存證。每一個(gè)存證檔案對(duì)應(yīng)唯一的數(shù)據(jù)哈希標(biāo)識(shí),用戶通過區(qū)塊鏈網(wǎng)絡(luò)可以查詢對(duì)應(yīng)數(shù)字檔案的哈希值,從而判定檔案的真實(shí)性。通過區(qū)塊鏈共享賬本修改留痕特性,保證數(shù)字檔案系統(tǒng)日志的真實(shí)性,實(shí)現(xiàn)可對(duì)系統(tǒng)用戶的所有行為全流程跟蹤,保證檔案數(shù)據(jù)操作可溯源、可審計(jì),提升監(jiān)管可靠性和檔案的安全性。
為積極響應(yīng)數(shù)字化轉(zhuǎn)型發(fā)展戰(zhàn)略,貫徹落實(shí)國(guó)家檔案局和廣東省檔案局推動(dòng)數(shù)字檔案發(fā)展的有關(guān)要求,能源集團(tuán)開展了集團(tuán)式數(shù)字檔案室建設(shè),利用人工智能技術(shù)和集團(tuán)自建設(shè)的區(qū)塊鏈平臺(tái)技術(shù)進(jìn)行應(yīng)用整合和業(yè)務(wù)再造。項(xiàng)目采用集中部署方式,系統(tǒng)業(yè)務(wù)架構(gòu)圖如圖4所示。
圖4 系統(tǒng)業(yè)務(wù)架構(gòu)圖Fig.4 System business architecture diagram
項(xiàng)目搭建了集團(tuán)級(jí)數(shù)字檔案管理平臺(tái),檔案業(yè)務(wù)覆蓋文書檔案、合同檔案、基建檔案、科技檔案、照片檔案、實(shí)物檔案等綜合檔案門類,已部署集團(tuán)10多個(gè)業(yè)務(wù)系統(tǒng)集成業(yè)務(wù)一體化集成,實(shí)現(xiàn)歸檔數(shù)據(jù)無縫對(duì)接,且逐年提高檔案數(shù)字化率,以保障集團(tuán)員工對(duì)查檔、辦公的業(yè)務(wù)需求,大大提高檔案管理及利用的工作效率。
各業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)在業(yè)務(wù)辦理結(jié)束時(shí),可以通過中間庫接口處理平臺(tái)進(jìn)行數(shù)據(jù)歸檔,歸檔的數(shù)據(jù)包括表單、附件及相關(guān)佐證文件;歸檔后由ETL接收分發(fā)平臺(tái)進(jìn)行數(shù)據(jù)清洗、分發(fā),按規(guī)則分發(fā)到數(shù)字檔案管理系統(tǒng)的不同全宗、類別和實(shí)體分類中,進(jìn)行數(shù)據(jù)歸檔保管。同時(shí)可以引入新的技術(shù)方案如電子簽單、區(qū)塊鏈、電子文件四性檢測(cè)等技術(shù),來保障數(shù)據(jù)從產(chǎn)生、處置、辦結(jié)、歸檔、入庫、保管全業(yè)務(wù)周期、全生命周期數(shù)據(jù)的真實(shí)、完整、安全、可用性。
數(shù)字化電子檔案系統(tǒng)具備數(shù)據(jù)接收、封裝、檢測(cè)及數(shù)據(jù)處理功能,可與多個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行交互,實(shí)現(xiàn)歸檔數(shù)據(jù)無縫對(duì)接,提高電子檔案歸檔率。利用區(qū)塊鏈、AI智能分析等技術(shù)保障數(shù)據(jù)從產(chǎn)生、處置、辦結(jié)到歸檔、入庫、保管等全生命周期的真實(shí)、完整、可用及安全。整體提高檔案管理科學(xué)化和規(guī)范化水平,促進(jìn)企業(yè)管理水平不斷提高,全力助推企業(yè)管理水平和管理效率的提升。
引用
[1]王爍.大數(shù)據(jù)時(shí)代檔案信息資源共享平臺(tái)建設(shè)研究[J].圖書情報(bào)導(dǎo)刊,2016,12(1):117-120.
[2]韓曉萍.數(shù)字化檔案管理的優(yōu)勢(shì)與建議[J].蘭臺(tái)內(nèi)外,2022(23): 4-6.
[3]胡安樂,孫登峰.區(qū)塊鏈技術(shù)在電子文件真實(shí)性保障的應(yīng)用研究[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2021,30(12):11-16.
[4]劉清.基于區(qū)塊鏈技術(shù)的檔案管理系統(tǒng)分析[J].蘭臺(tái)世界,2019 (5):54-57.
[5]海嘯.基于區(qū)塊鏈技術(shù)的數(shù)字檔案信息安全建設(shè)策略探究[J].山西檔案,2020,250(2):118-123.
[6]王艷松,王棟,王為久,等.區(qū)塊鏈在電子檔案管理中的應(yīng)用分析與實(shí)施路徑探究[J].北京檔案,2021(1):10-14.
[7]譚海波,周桐,趙赫,等.基于區(qū)塊鏈的檔案數(shù)據(jù)保護(hù)與共享方法[J].軟件學(xué)報(bào),2019,30(9):2620-2635.
[8]吳昊.基于人工智能的大型企業(yè)檔案數(shù)字化管理系統(tǒng)設(shè)計(jì)[J].自動(dòng)化技術(shù)與應(yīng)用,2021,40(8):153-157.
[9]陳功娥.人工智能技術(shù)在檔案管理中的應(yīng)用與實(shí)踐[J].四川檔案,2022,227(3):26-28.
[10]張國(guó)棟.人工智能技術(shù)在電子檔案管理的應(yīng)用[J].信息記錄材料,2021,22(2):123-124.
[11]湯津行.人工智能在檔案管理工作中的應(yīng)用研究[J].辦公室業(yè)務(wù),2022(6):171-172.
數(shù)字技術(shù)與應(yīng)用2022年12期