孫贇 王冠華 劉文毅
如今互聯(lián)網(wǎng)時(shí)代高新技術(shù)迅猛發(fā)展,各行各業(yè)都迎來(lái)巨大變化,新技術(shù)給檔案工作也帶來(lái)了新變化,各級(jí)各類(lèi)檔案館深入貫徹國(guó)家信息化發(fā)展規(guī)劃,及時(shí)跟進(jìn)大數(shù)據(jù)和AI的發(fā)展應(yīng)用,推進(jìn)數(shù)字化檔案館建設(shè)。新的技術(shù)為黃河流域生態(tài)保護(hù)和高質(zhì)量發(fā)展的工作提供了新手段,黃河檔案資料的利用也提出了新要求。文章闡述了大數(shù)據(jù)時(shí)代黃河檔案信息數(shù)字化面臨的問(wèn)題,分析現(xiàn)狀以及平臺(tái)建設(shè)的內(nèi)容助力黃河流域生態(tài)保護(hù)和高質(zhì)量發(fā)展。
黃河是中華民族的母親河、中華文明的搖籃,黃河流域生態(tài)保護(hù)和高質(zhì)量發(fā)展上升為國(guó)家戰(zhàn)略,對(duì)黃河檔案的管理和利用是實(shí)現(xiàn)國(guó)家戰(zhàn)略的重要一環(huán)。為了黃河檔案的信息化、數(shù)字化得到長(zhǎng)遠(yuǎn)的發(fā)展,檔案管理部門(mén)把大量紙質(zhì)檔案進(jìn)行了數(shù)字化加工,成績(jī)斐然。但因?yàn)闆](méi)有統(tǒng)一的標(biāo)準(zhǔn)和執(zhí)行規(guī)范,黃河檔案管理部門(mén)重復(fù)和過(guò)度建設(shè)線(xiàn)上平臺(tái),并且相互之間不能互聯(lián)互通,嚴(yán)重阻礙了黃河檔案信息資源的共建共享。對(duì)此,我們提出構(gòu)建以大數(shù)據(jù)為基礎(chǔ)的黃河檔案信息資源共享平臺(tái),運(yùn)用共享數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)檢索技術(shù)、及人工智能技術(shù)等現(xiàn)代化先進(jìn)技術(shù)手段將紙質(zhì)文件、電子資料、聲音視頻文件進(jìn)行高度數(shù)字化處理,打造網(wǎng)絡(luò)共享平臺(tái)。在保障數(shù)據(jù)安全、成果無(wú)誤的前提下,以網(wǎng)絡(luò)共享形式傳輸有關(guān)黃河的信息資源、宣傳工作成果,以實(shí)現(xiàn)黃河檔案信息的便捷利用和資源共享。
傳統(tǒng)的檔案主要通過(guò)紙張進(jìn)行存儲(chǔ),長(zhǎng)期保存有一定的風(fēng)險(xiǎn),資料被查閱時(shí),翻閱檔案原件或者利用不當(dāng),都會(huì)磨損甚至損壞檔案原件,很難保證檔案資料的長(zhǎng)期保存,以至于一些珍貴檔案借閱程序復(fù)雜,影響其利用價(jià)值。早期的數(shù)字化項(xiàng)目旨在對(duì)數(shù)據(jù)進(jìn)行編碼以進(jìn)行系統(tǒng)分析,現(xiàn)在正在嘗試無(wú)需前往檔案館操縱實(shí)物,試圖以一種開(kāi)放式的查詢(xún)方式來(lái)分享獨(dú)特的檔案資料。隨著對(duì)數(shù)字檔案館研究和認(rèn)識(shí)的不斷深入,全世界都在大力促進(jìn)檔案資源的信息化建設(shè)。
如今,檔案儲(chǔ)存的載體已從紙張向硬盤(pán)、光盤(pán)等電子儲(chǔ)存設(shè)備轉(zhuǎn)變,在查找檔案時(shí)不會(huì)影響到檔案原件,而且還能借助于現(xiàn)代信息技術(shù),對(duì)缺損、不易辨別檔案進(jìn)行深度修復(fù)。特別是美國(guó)國(guó)家檔案館發(fā)現(xiàn)其收集的電子文件種類(lèi)日益豐富,除了文本文件、數(shù)據(jù)庫(kù)文件之外,還有電子郵件、地理空間數(shù)據(jù)、數(shù)字影像等結(jié)構(gòu)復(fù)雜的數(shù)據(jù),同時(shí)大眾也希望能夠通過(guò)在線(xiàn)方式獲取數(shù)字檔案。愛(ài)因斯坦的數(shù)千份文件被進(jìn)行了數(shù)字化處理,普林斯頓大學(xué)出版社已經(jīng)以數(shù)字格式出版了近3000篇文章,占愛(ài)因斯坦論文的10%。緊隨美國(guó)之后,歐盟、澳大利亞、新加坡等國(guó)也先后著手推進(jìn)檔案信息數(shù)字化、網(wǎng)絡(luò)一體化建設(shè)。我國(guó)同樣高度重視檔案資源信息化,2020年兩會(huì)期間,檔案信息化受到社會(huì)各界高度關(guān)注,有代表提出重視歷史檔案資料的組織和整理,提倡結(jié)合數(shù)字化、信息化的方式,保護(hù)性利用歷史檔案資源。
目前數(shù)字檔案館中已被數(shù)字化的資料僅占檔案記錄的一小部分,數(shù)字化程度還比較低。部分檔案館缺乏資金支持,數(shù)字化能力有限,需要政府及社會(huì)基金予以支持。檔案資源管理系統(tǒng)需求設(shè)計(jì)、功能要求各不相同,編寫(xiě)平臺(tái)的編程語(yǔ)言存在差異,流程環(huán)節(jié)沒(méi)有統(tǒng)一,無(wú)法做到交互共享形成各自為政的分割局面。各單位缺乏整體合作意識(shí),都在著眼本單位的檔案資源體系建設(shè),形成數(shù)據(jù)孤島,同一份數(shù)據(jù)存在于多個(gè)業(yè)務(wù)系統(tǒng)內(nèi)且內(nèi)容不一致,缺少統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)管理流程及可靠的管理工具,出現(xiàn)質(zhì)量問(wèn)題時(shí)往往無(wú)法有效追溯并修正。部分檔案館服務(wù)理念滯后,缺乏資源的協(xié)調(diào)與合作,跨部門(mén)、跨系統(tǒng)的合作較少,合作的力度不足。黃河檔案資源標(biāo)準(zhǔn)化體系建設(shè)不完善,同時(shí)數(shù)據(jù)來(lái)源繁多,格式類(lèi)型千差萬(wàn)別,海量數(shù)據(jù)也造成管理的壓力,同時(shí)也影響到資源的有效使用。
同時(shí)數(shù)字化檔案資源還面臨網(wǎng)絡(luò)安全的威脅,網(wǎng)絡(luò)環(huán)境下,存在檔案數(shù)據(jù)泄露、濫用、惡意破壞、病毒攻擊以及隱私侵犯等風(fēng)險(xiǎn),并且部分平臺(tái)缺乏安全的共享渠道[3]。網(wǎng)絡(luò)安全保障與大數(shù)據(jù)和云計(jì)算技術(shù)發(fā)展不夠同步,法律法規(guī)也還不夠健全,數(shù)據(jù)隱私保護(hù)不夠成熟,目前還無(wú)法做到全方位保護(hù)。設(shè)備損壞、操作失誤以及惡意竊取等都會(huì)對(duì)云平臺(tái)中的數(shù)據(jù)造成安全威脅,各類(lèi)檔案以及大數(shù)據(jù)平臺(tái)均面臨的數(shù)據(jù)信息安全問(wèn)題,備受爭(zhēng)議。
建設(shè)黃河檔案信息資源共享平臺(tái)是檔案數(shù)字化的關(guān)鍵一步,也是檔案工作融入國(guó)家大數(shù)據(jù)發(fā)展戰(zhàn)略的主要目標(biāo),打破時(shí)間、空間上的障礙,使得資源技術(shù)共享成為現(xiàn)實(shí),充分利用檔案信息資源為黃河流域生態(tài)保護(hù)和高質(zhì)量發(fā)展提供便捷的數(shù)據(jù)支持。
(一)共享平臺(tái)的管理
數(shù)字檔案館分為平臺(tái)建設(shè)、平臺(tái)運(yùn)維、資料提供、資源利用四個(gè)方面的人員,在不同階段發(fā)揮著重要作用。黃河檔案信息資源共享平臺(tái)需要有效化的管理,分為用戶(hù)端和管理員端更好的為檔案數(shù)據(jù)共享做好服務(wù)工作。登陸用戶(hù)端,可以瀏覽黃河發(fā)展演變、地質(zhì)、時(shí)空、環(huán)境、生態(tài)、水利、歷史、文化、遙感影像等9個(gè)分類(lèi)檔案資料,實(shí)現(xiàn)了信息共享。平臺(tái)建立了一套存儲(chǔ)格式標(biāo)準(zhǔn)體系,分級(jí)分類(lèi)存儲(chǔ),利于管理和調(diào)用。每個(gè)分類(lèi)的檔案可以實(shí)現(xiàn)內(nèi)容的檢索,從而進(jìn)行查看自己感興趣的內(nèi)容,同時(shí)用戶(hù)可以將用戶(hù)的意見(jiàn)反饋給管理員端。
用戶(hù)可以通過(guò)在平臺(tái)注冊(cè)賬號(hào)登錄共享平臺(tái),實(shí)現(xiàn)個(gè)人瀏覽,平臺(tái)根據(jù)驗(yàn)證信息對(duì)不同用戶(hù)類(lèi)型提供相應(yīng)服務(wù),管理員通過(guò)賬號(hào)和密碼可以登錄管理界面,不僅可以對(duì)管理員賬戶(hù)進(jìn)行增改刪查,而且能對(duì)檔案內(nèi)容按照分類(lèi)的增改刪查,還能實(shí)現(xiàn)對(duì)意見(jiàn)反饋內(nèi)容的查詢(xún),同時(shí)該平臺(tái)涉及后臺(tái)數(shù)據(jù)庫(kù),包括用戶(hù)表、意見(jiàn)表、內(nèi)容表和分類(lèi)表等。
(二)共享平臺(tái)實(shí)現(xiàn)的功能
黃河檔案信息資源共享平臺(tái)可以實(shí)現(xiàn)一下功能:信息接收功能、檔案存儲(chǔ)功能、數(shù)據(jù)選擇歸類(lèi)、數(shù)據(jù)轉(zhuǎn)換、質(zhì)量控制、數(shù)據(jù)融合、安全脫密和數(shù)據(jù)監(jiān)控預(yù)警功能等。同時(shí)基于大數(shù)據(jù)、智能檢索的數(shù)字檔案館應(yīng)當(dāng)具備外部匯交資料的接收和交換能力、對(duì)原有資源進(jìn)行數(shù)字化處理、格式轉(zhuǎn)換、脫密保障等功能[5]。通過(guò)預(yù)留接口和數(shù)據(jù)轉(zhuǎn)換可以吸收所有外來(lái)資料,資料上傳之前不需要處理,上傳之后進(jìn)行統(tǒng)一處理、格式轉(zhuǎn)換。采用超融合服務(wù)器,對(duì)接收的檔案資料進(jìn)行儲(chǔ)存、備份,強(qiáng)化數(shù)據(jù)庫(kù)運(yùn)營(yíng)管理,優(yōu)化記錄邏輯與物理順序間對(duì)應(yīng)關(guān)系,提高數(shù)據(jù)存取速度。對(duì)元數(shù)據(jù)進(jìn)行統(tǒng)一管理管理,提供元數(shù)據(jù)分類(lèi)和建模、血緣關(guān)系和影響分析,方便數(shù)據(jù)的跟蹤和回溯。支持?jǐn)?shù)據(jù)質(zhì)量核查,照檢查規(guī)則配置中的編碼規(guī)則進(jìn)行檢查,并進(jìn)行數(shù)據(jù)完整性、精確性、關(guān)聯(lián)性核查,保證數(shù)據(jù)質(zhì)量,數(shù)據(jù)核查結(jié)果進(jìn)行可視化處理,及時(shí)反饋問(wèn)題。平臺(tái)靈活運(yùn)營(yíng)讓數(shù)據(jù)共享交換變得隨時(shí)隨地、按需和便捷,充分調(diào)度計(jì)算設(shè)施、存儲(chǔ)設(shè)備、應(yīng)用程序等資源,滿(mǎn)足用戶(hù)多元化、復(fù)雜的需求,降低了開(kāi)發(fā)、管理的難度。
(三)共享平臺(tái)的數(shù)據(jù)安全
數(shù)據(jù)安全是共享平臺(tái)的關(guān)鍵,確保檔案數(shù)據(jù)安全和網(wǎng)絡(luò)傳輸安全是實(shí)現(xiàn)檔案數(shù)據(jù)共享的前提。數(shù)據(jù)安全也是黃河檔案信息資源共享平臺(tái)務(wù)必加強(qiáng)的地方,抓好數(shù)據(jù)安全與服務(wù)、發(fā)展的內(nèi)在關(guān)系,強(qiáng)化安全管理,提高安全意識(shí),健全防范機(jī)制,通過(guò)采用各種技術(shù)和管理措施,確保網(wǎng)絡(luò)數(shù)據(jù)的可用性、完整性和保密性。從外部威脅防御、內(nèi)部風(fēng)險(xiǎn)控制、數(shù)據(jù)追責(zé)溯源、數(shù)據(jù)共享與交換、終端安全、云安全等多層面入手,在保證數(shù)字檔案館平臺(tái)安全運(yùn)營(yíng)的前提下,盡可能為用戶(hù)提供優(yōu)質(zhì)的服務(wù)。利用具有高效接口兼容多種數(shù)據(jù)格式,采用在線(xiàn)和離線(xiàn)相結(jié)合的方法接收不同格式保存的數(shù)字資源,打造了數(shù)據(jù)庫(kù)防水壩、數(shù)據(jù)庫(kù)審計(jì)、數(shù)據(jù)庫(kù)透明加密、數(shù)據(jù)庫(kù)防火墻、數(shù)據(jù)脫密、等一系列數(shù)據(jù)安全措施,建立有效安全體系、提升安全防御能力。
建設(shè)一套完備的數(shù)據(jù)采集、儲(chǔ)存格式標(biāo)準(zhǔn)體系,數(shù)據(jù)經(jīng)過(guò)標(biāo)準(zhǔn)化統(tǒng)計(jì)分類(lèi),分級(jí)分類(lèi)儲(chǔ)存,利于管理和調(diào)用。在檔案共享的基礎(chǔ)上,對(duì)相關(guān)信息進(jìn)行關(guān)聯(lián),探索高效的關(guān)聯(lián)方式,在查詢(xún)過(guò)程中,輸入某一名詞則其他相關(guān)資料或事件也會(huì)出現(xiàn)。再結(jié)合深度學(xué)習(xí)和機(jī)器學(xué)習(xí)來(lái)訓(xùn)練模型,使信息檢索更加精準(zhǔn)便利、提高檔案數(shù)據(jù)的使用效率??梢酝ㄟ^(guò)指定文件所在目錄進(jìn)行高效檢索,并內(nèi)置文件解析器,可對(duì)Text、HTML、XML、RTF、MS OFFICE文檔 (Word、Execl、Powerpoint)、ODF和PDF等二百余種文件格式自動(dòng)解析檢索。運(yùn)用基于webservice的數(shù)據(jù)推送和數(shù)據(jù)提取接口,以及線(xiàn)點(diǎn)ICF數(shù)據(jù)交換協(xié)議進(jìn)行數(shù)據(jù)采集和索引。全面優(yōu)化的相似度算法,更準(zhǔn)確地找到與檢索詞相關(guān)內(nèi)容,根據(jù)不同數(shù)據(jù)結(jié)構(gòu)和用戶(hù)要求,設(shè)計(jì)權(quán)重分布,從而優(yōu)化結(jié)果排序。數(shù)據(jù)內(nèi)容在儲(chǔ)存的過(guò)程中以文件的形式被保存,優(yōu)化對(duì)核心要素的識(shí)別,保障在短時(shí)間內(nèi)對(duì)檔案資源內(nèi)容的高效檢索。
黃河檔案屬于歷史檔案,并且檔案形式多樣,基于其特殊性,其利用和共享的程度一直較低。研究黃河檔案數(shù)字化建設(shè),推進(jìn)檔案信息化進(jìn)程,保證公眾可以借助網(wǎng)絡(luò)途徑在檔案館中便捷地獲取需要的電子檔案信息。這種方式打破了傳統(tǒng)檔案查詢(xún)空間地域的限制,極大地提升了檔案資源的傳輸和利用效率。實(shí)現(xiàn)了黃河檔案管理的數(shù)字化共享,有利于推動(dòng)黃河檔案信息資源的開(kāi)放共享,實(shí)現(xiàn)檔案資源的自身價(jià)值,推動(dòng)黃河流域生態(tài)保護(hù)和高質(zhì)量發(fā)展。
作者單位:河南省有色金屬地質(zhì)礦產(chǎn)局第七地質(zhì)大隊(duì)
基金項(xiàng)目:河南省檔案科技項(xiàng)目2020-X-30——“云上黃河”檔案館研究
河南省檔案科技項(xiàng)目2020-X-29—— 河南省地質(zhì)檔案數(shù)據(jù)資源共建共享研究