摘 要:檔案數(shù)字化是時代發(fā)展的新趨勢,大數(shù)據(jù)、區(qū)塊鏈、人工智能等先進技術的應用,大量電子文檔成為重要的戰(zhàn)略數(shù)據(jù)資源。檔案數(shù)字化工作是時代發(fā)展的趨勢,應堅持科學、系統(tǒng)、整體、安全、可行原則,開展檔案數(shù)字化。本文簡要探討了紙質檔案、音視頻檔案和實物檔案數(shù)字化類型及相應技術參數(shù),以及檔案數(shù)字化處理常用的技術,并以實物檔案數(shù)字化為例,提出檔案數(shù)字化處理技術在實物檔案數(shù)字化中的實際應用和需要注意的問題,為提升檔案數(shù)字化處理能力和水平提供一定參考。
關鍵詞:檔案數(shù)字化;處理技術;應用
前言
數(shù)字化(Digitalization),是將信息轉換為數(shù)字(即計算機可讀)格式的過程。即將任何復雜多變的信息轉變?yōu)榭啥攘康臄?shù)字、數(shù)據(jù),再以這些數(shù)字、數(shù)據(jù)建立起數(shù)字化模型,轉變?yōu)橐幌盗卸M制代碼,引入計算機統(tǒng)一處理的過程。檔案數(shù)字化是指利用掃描儀等設備將檔案進行掃描、壓縮、轉化等數(shù)字化加工,使傳統(tǒng)紙質檔案、錄音錄像檔案、實物檔案等轉化為圖片、聲像存儲于磁帶、磁盤、光盤等載體上的數(shù)字文件,并按照檔案內(nèi)在聯(lián)系,建立目錄數(shù)據(jù)與數(shù)字文件關聯(lián)關系的處理過程。亦即將非計算機可識別的載體上的信息轉換為0、1代碼組成的計算機可識別電子文件的過程。近年來,《檔案數(shù)字化外包安全管理規(guī)范》《數(shù)字檔案系統(tǒng)檢測辦法》等政策標準的出臺和實施,有力推動了檔案數(shù)字化產(chǎn)業(yè)發(fā)展。據(jù)統(tǒng)計,2022年我國檔案數(shù)字化行業(yè)市場規(guī)模達68.8億元,較2017年的40.5億元增長了69.88%。檔案數(shù)字化是時代發(fā)展的新趨勢,隨著大數(shù)據(jù)、區(qū)塊鏈、人工智能等先進技術的應用,電子文檔已經(jīng)成為重要的戰(zhàn)略數(shù)據(jù)資源。
1 檔案數(shù)字化原則
檔案數(shù)字化需要應用到數(shù)據(jù)壓縮技術、高速掃描技術、數(shù)據(jù)庫技術、光盤存儲技術等,將紙質、音視頻、實物檔案轉化為計算機可識別信息和處理,應遵循如下原則[1]:一是科學性。檔案數(shù)字化技術性要求極高,通常需要委托第三方專業(yè)機構協(xié)助完成。在數(shù)字化前需要做好各項準備工作,尤其是要對館藏檔案資料進行鑒定,從實際出發(fā)進行篩選,確定數(shù)字化范圍,根據(jù)輕重緩急,分階段、分層次、分步驟進行。因此,從檔案數(shù)字化的技術選擇、參數(shù)設置、數(shù)字化范圍等,均需要立足實際和檔案管理現(xiàn)實需要,遵循科學原則。二是系統(tǒng)性。檔案數(shù)字化系統(tǒng)性既包括信息資源的系統(tǒng)性,也包括數(shù)字化軟硬件的系統(tǒng)性。前者是指對館藏檔案資源進行系統(tǒng)整理,重點或特色檔案數(shù)字化應保持其系統(tǒng)、連貫和完整,確保數(shù)字化后的檔案信息保持內(nèi)在邏輯聯(lián)系。后者是指檔案數(shù)字化應用到的軟硬件配備、數(shù)據(jù)庫建立等,在數(shù)字化各個環(huán)節(jié)階段都要保持一致性,以確保檔案數(shù)字化可持續(xù)性。三是整體性。檔案數(shù)字化是檔案管理工作的重要組成部分,應將檔案數(shù)字化納入機關、單位或部門檔案事業(yè)發(fā)展總體規(guī)劃之中,遵循整體性原則。即檔案數(shù)字化標準、規(guī)范和要求要保持統(tǒng)一性。運用先進的數(shù)字技術、信息技術,實現(xiàn)檔案數(shù)字資源的共建共享,通過檔案數(shù)字化提升檔案管理整體價值功能。四是安全性。安全是檔案數(shù)字化的底線。大量先進技術的應用,使得檔案面臨著諸多的非傳統(tǒng)安全因素威脅,做好檔案數(shù)字化信息真實、完整、保密就顯得非常重要。既要防數(shù)據(jù)信息泄密,也要防數(shù)據(jù)信息丟失。就需要采取數(shù)據(jù)加密、數(shù)據(jù)備份、身份認證等先進技術,確保檔案數(shù)字化安全。五是可行性。檔案數(shù)字化處理面臨著多種技術和方案的選擇,可行性是要求檔案數(shù)字化最大限度地滿足實際操作要求。檔案數(shù)字化還涉及后期的系統(tǒng)運行、維護和管理,對人力、物力、財力都有較高要求。因此,檔案數(shù)字化應量力而行,根據(jù)單位館藏檔案實際,人才隊伍能力水平,經(jīng)費保障力度等,選擇切實可行的技術和方案。
2 檔案數(shù)字化類型
2.1 紙質檔案數(shù)字化
《紙質檔案數(shù)字化規(guī)范》(DA/T31-2017)規(guī)定,紙質檔案數(shù)字化就是指采用掃描儀等設備對紙質檔案進行數(shù)字化加工,使其轉化為存儲在磁帶、磁盤、光盤等載體上的數(shù)字信息,并按照紙質檔案的內(nèi)在聯(lián)系,建立起目錄數(shù)據(jù)與數(shù)字圖像關聯(lián)關系的處理過程。紙質檔案數(shù)字化包括數(shù)字化前處理(確定掃描頁、編制頁號、目錄數(shù)據(jù)準備、拆除裝訂、技術修復)、目錄數(shù)據(jù)庫建立、檔案掃描(掃描設備、色彩模式、分辨率、存儲格式)、圖像處理(拼接、旋轉、糾偏、裁邊、去污、質檢)、數(shù)據(jù)掛接、成果驗收與移交等主要環(huán)節(jié)(見圖1)。紙介質資料的數(shù)字化方法主要有手工錄入、掃描、數(shù)碼相機等[2]。紙質檔案數(shù)字流程如圖所示。
2.2 音視頻檔案數(shù)字化
《錄音錄像檔案數(shù)字化規(guī)范》(DA/T62-2017)規(guī)定,錄音錄像檔案數(shù)字化是指對模擬錄音錄像檔案進行數(shù)字化加工,使其轉化為存儲在磁帶、磁盤、光盤等載體上的數(shù)字音頻文件和視頻文件,并按照錄音錄像檔案的內(nèi)在聯(lián)系,建立起目錄數(shù)據(jù)與數(shù)字音視頻文件關聯(lián)關系的處理過程(見圖2)。音視頻檔案數(shù)字化技術參數(shù)包括:錄音檔案數(shù)字化采樣率>44.1kHz;量化位數(shù)24bit;原始聲道數(shù)記錄;存儲格式為WAVE。錄像檔案數(shù)字化技術參數(shù)包括:采用H.264或MPEG-2IBP視頻編碼格式;與檔案原件相同幀率、畫面寬高比;標清色度分辨率>4∶2∶0;高清色度分辨率4∶2∶2;量化位數(shù)≥8bit,特殊視頻量化位數(shù)≥16bit;存儲格式為AVI或MXF。需要將錄音錄像檔案進行文件切分與著錄。音視頻檔案數(shù)字化流程如圖所示。
2.3 實物檔案數(shù)字化
根據(jù)《實物檔案數(shù)字化規(guī)范》(DA/T89-2022),實物檔案數(shù)字化是指采用拍攝、掃描等方式對實物檔案進行數(shù)字化加工,將其轉化為存儲在磁帶、磁盤、光盤等載體上的數(shù)字文件,并按照實物檔案的內(nèi)在聯(lián)系,建立目錄數(shù)據(jù)與數(shù)字文件關聯(lián)關系的處理過程。實物檔案數(shù)字化需要利用三維掃描技術,反映實物檔案空間外形、結構及色彩等特征信息發(fā)生顯著變化的臨界點。實物檔案數(shù)字化重點是數(shù)字化采集,采集的方式有平面掃描、三維掃描、數(shù)碼拍照、環(huán)物攝影,其中實物檔案數(shù)字化三維掃描精度≤0.05mm;點間距≤0.254mm;紋理色彩≥32位色;掃描距離400-600mm;幾何數(shù)據(jù)存儲格式有3DS、3DAMX、WRL、DAE等;紋理數(shù)據(jù)存儲格式有JPG、TIFF、TGA等。實物檔案數(shù)字化數(shù)字采集完成后還需要旋轉、糾偏、去污、拼接、降噪、數(shù)據(jù)平滑。實物檔案數(shù)字化流程如圖所示(見圖3)。
3 檔案數(shù)字化處理技術
一是計算機網(wǎng)絡技術,是檔案數(shù)字化過程中基礎性技術[3]。包括數(shù)據(jù)處理、實時控制、圖像文字處理、多媒體技術等。網(wǎng)絡技術包括檔案操作系統(tǒng)、數(shù)據(jù)傳輸、存儲和信息共享等。二是掃描技術,是一種文件圖像轉化為電子文件的技術。掃描技術中又包括電機技術、色彩增強技術、校正技術、一次曝光掃描技術、一次鏡像系統(tǒng)技術、雙鏡頭掃描技術、共享掃描技術,等等,檔案數(shù)字化掃描技術根據(jù)紙質、音視頻及實物檔案不同,選擇不同掃描儀和掃描方法[4]。三是數(shù)據(jù)庫技術,是信息系統(tǒng)的核心技術,是計算機輔助組織、存儲及高效獲取、處理數(shù)據(jù)。數(shù)據(jù)庫技術應用減少數(shù)據(jù)存儲冗余、實現(xiàn)檔案數(shù)據(jù)信息高效檢索、共享。四是光盤刻錄技術,計算機中檔案數(shù)據(jù)經(jīng)軟件處理,將二進制數(shù)據(jù)刻錄保存在空白光盤[5]。光盤質優(yōu)價廉,可將海量檔案數(shù)據(jù)信息刻錄備份至光盤上,實現(xiàn)檔案數(shù)據(jù)存儲。后期,可在VCD、DVD機播放。此外,還有壓縮技術、OCR文字識別技術、分級存儲技術、多媒體檢索技術、信息安全技術等,也是檔案數(shù)字化處理過程中常用到的各種應用技術[6]。
4 檔案數(shù)字化技術應用及需要注意的問題——以實物檔案數(shù)字化為例
獎牌、獎杯、證書、徽章、紀念章等實物檔案,形態(tài)各異、類型多樣、大小不一、材質不同,但都直觀、形象地體現(xiàn)了一段發(fā)展歷史,做好這些實物檔案數(shù)字化,可提升檔案管理信息化水平,在檔案檢索利用過程中,也能夠減少對實物檔案原件侵擾而起到很好的保護作用。
4.1 拍攝、掃描技術
錦旗、印章等能夠以二維靜態(tài)圖像形式展示的實物檔案,選用彩色數(shù)碼相機進行拍攝或者進行平面掃描。一些重要的大型儀器、設施設備需要以三維全景影像形式展示的,需要對其進行環(huán)物攝影。無論是實物檔案拍攝還是掃描,都要保證實物檔案與成像之間保持一一對應關系,且同一種拍攝方式應采用相同存儲格式。
4.2 圖像處理技術
在實物拍攝、掃描完成后,還需要對圖像進行圖像數(shù)字化、圖像增強和復原、圖像數(shù)據(jù)編碼、圖像分割和圖像識別等技術處理,包括模擬圖像處理和數(shù)字圖像處理[7]。前者,如拍攝的實物檔案模擬信號圖像進行處理。后者,主要是借助計算機及應用軟件進行處理。圖像處理包括去污、拼接、旋轉、糾偏,多余的白邊還需要進行裁邊處理,減少圖像文件容量,增加視覺美感。圖像處理時應注意保持與實物檔案一致,確保檔案數(shù)字化圖像完整、檔案信息忠實于原貌,不得擅自修改檔案信息。
4.3 檔案數(shù)據(jù)錄入
將采集到的實物檔案信息錄入目錄數(shù)據(jù)庫。嚴格按照實物檔案的類別、時間先后順序將圖像信息內(nèi)容按照條目逐條錄入目錄數(shù)據(jù)庫[8]。檔案數(shù)據(jù)錄入結束,還需要進行核查,重點是核查錄入內(nèi)容與目錄數(shù)據(jù)庫條目總數(shù)是否一致,信息內(nèi)容是否遺漏或重復。錄入后的實物檔案目錄數(shù)據(jù)應包括檔號、年度、保管年限、題名、技術環(huán)境、責任者、材質等技術參數(shù)信息。
4.4 數(shù)據(jù)備份
對經(jīng)核實無誤的實物檔案數(shù)據(jù)信息及時進行備份。為確保實物檔案數(shù)據(jù)信息安全,可采用移動硬盤、VCD光盤、DVD光盤等進行數(shù)據(jù)備份。備份結束時,還要檢查備份介質內(nèi)的檔案數(shù)據(jù)備份信息是否齊全、完整,能否打開,并貼好標簽,便于查找和利用。
4.5 數(shù)據(jù)掛接
將核查無誤的單機版檔案管理系統(tǒng)的檔案數(shù)據(jù)完整導入網(wǎng)絡版檔案管理軟件[9]。數(shù)據(jù)掛接后還需要逐條檢查,重點是要檢查目錄數(shù)據(jù)與實物檔案數(shù)字影像對象的準確性,已掛接數(shù)字影像與實物掃描數(shù)量的一致性,以及數(shù)字影像能否打開。數(shù)據(jù)掛接完成,實現(xiàn)實物檔案數(shù)據(jù)與機關局域網(wǎng)掛接。通過登錄局域網(wǎng)查詢、檢索庫存的實物檔案條目及詳細內(nèi)容。
4.6 實物檔案數(shù)字化需要注意
一要保護實物檔案實體安全。在數(shù)字化過程中,掃描或拍攝時要注意安全,防止造成實物檔案二次破壞。二要注意實物檔案特點。獎杯、設備、儀器、紀念品等實物檔案形狀多樣、復雜,拍攝或掃描時應全方位、立體式數(shù)據(jù)采集,選擇多方位拍照組合的形式,反映實物檔案全貌。三要注重標準化問題。實物檔案數(shù)字化應嚴格執(zhí)行《實物檔案數(shù)字化規(guī)范》、標準平臺等的規(guī)定,確保系統(tǒng)的開放化、可擴展性,便于后期隨著技術的發(fā)展,系統(tǒng)或軟件能夠及時升級或移植,盡量不要采用封閉式的技術和標準。四是注重存貯問題。大量的實物檔案數(shù)字化也會占用大量的設備存貯空間。在實物檔案數(shù)字化前,檢查存貯空間是否夠用,選擇磁盤陣列、磁帶機、服務器硬盤、光盤等合適存儲的空間。五是注意實物檔案數(shù)字化處理過程。實物檔案數(shù)字化處理包括原始檔案保護、數(shù)據(jù)捕獲、數(shù)據(jù)處理、存貯、檢索與顯示等環(huán)節(jié),其中數(shù)字化只是其整個處理過程中的重要一部分。不能一味關注純數(shù)字化工作,而忽視其它一些更為重要的處理環(huán)節(jié)。要把實物檔案數(shù)字化與管理、存貯、檢索與利用等放在同等重要位置,才能保證成功。
參考文獻
[1]方毓寧.館藏檔案數(shù)字化十原則[J] .中國檔案,2004(4):37-38.
[2]魏自鵬.紙質檔案數(shù)字化的原則、路徑與方法探討[J].安徽電氣工程職業(yè)技術學院學報,2020(4):31-34.
[3]高珂佳.淺談檔案數(shù)字化背景下的檔案利用[J].航天工業(yè)管理,2023(3):78-80.
[4]顏丙通.紙質檔案數(shù)字化測評:方法選取與實施步驟[J].湖北開放職業(yè)學院學報,2022(17):141-143.
[5]姜向聰.檔案數(shù)字化與檔案安全的協(xié)同建設路徑[J].蘭臺內(nèi)外,2022(9):31-33.
[6]牛秀英.檔案數(shù)字化的再探討[J].城建檔案,2009(1):59-61.
[7]王小娟,斯慶.數(shù)字檔案室建設過程中各類檔案數(shù)字化方法探究——以鄂爾多斯職業(yè)學院為例[J].文化創(chuàng)新比較研究,2019(17):147-148.
[8]唐萍萍.鐵路實物檔案數(shù)字化方法與利用探析[J].辦公室業(yè)務,2017(3):75-76.
[9]李子萍.淺論實物檔案數(shù)字化過程[J].冶金管理,2020(5):249-250.
作者簡介:孫鵬(1987— ),大學學歷,盤錦市興隆臺區(qū)政府館員,主要從事檔案研究。