蘇 芳 韋建中
檔案數(shù)字化是檔案管理過程中一場深刻的革命,在石化集團(tuán)公司對各單位“廣泛應(yīng)用數(shù)字化、網(wǎng)絡(luò)化技術(shù),加快檔案信息化建設(shè)步伐,建設(shè)數(shù)字化檔案館”的要求下,我館作為試點(diǎn)單位,開始了建設(shè)數(shù)字檔案館的摸索。館藏檔案數(shù)字化是建設(shè)數(shù)字檔案館的基礎(chǔ)和前期工作,是組成數(shù)字檔案館的主要資源。為了實(shí)現(xiàn)數(shù)字資源的共享和統(tǒng)一利用,同時也為了保護(hù)檔案原件,將現(xiàn)有檔案進(jìn)行數(shù)字化加工勢在必行。
一、目前檔案數(shù)字加工面臨的問題
1、數(shù)字化對象數(shù)量龐大、類型多樣
中原油田檔案館是油田檔案資源的管理服務(wù)中心,伴隨著油田的勘探開發(fā)和生產(chǎn)建設(shè),形成了大量的檔案資料。目前庫藏紙質(zhì)檔案約230多萬卷,錄音錄像檔案14305盤,照片檔案56116張,底圖640087張,磁帶60512盤,光盤1329張,檔案數(shù)量以每年10多萬卷的速度遞增。如果把目前館藏檔案全部數(shù)字化,將是一項(xiàng)經(jīng)年累月的浩大工程。
2、檔案數(shù)字化效率問題
在數(shù)字化流程的各個環(huán)節(jié),都需要進(jìn)行質(zhì)量控制,而這就需要大量的工作時間為保障。以紙質(zhì)檔案為例,陳舊發(fā)黃的油印文件與現(xiàn)行的打印文件相比,識別率明顯要低很多,已損壞的文件還需要修復(fù)處理,甚至有些文件識別下來并不會比手工錄入快。
3、部門之間的協(xié)調(diào)問題
館藏檔案數(shù)字化工作是一項(xiàng)需要投入大量人力、物力和財力的工程,不僅僅是檔案信息部門的事情,還會涉及業(yè)務(wù)指導(dǎo)部門、檔案保管部門等。爭取分管領(lǐng)導(dǎo)的支持與協(xié)調(diào),才是館藏檔案數(shù)字化工作得以順利進(jìn)行的保障。
二、館藏檔案數(shù)字化的實(shí)施
1、做好檔案鑒定工作,突出重點(diǎn)
由于我館保管的檔案數(shù)量龐大,檔案的價值也各有不同,所以不可能將全部檔案數(shù)字化,既浪費(fèi)有限的資金,又會增加檔案部門的工作量。因此,要根據(jù)館藏實(shí)際情況,先進(jìn)行檔案價值鑒定,篩選重要全宗,突出重點(diǎn),有選擇地對館藏檔案進(jìn)行數(shù)字化。
第一,對檔案館中保存年代久遠(yuǎn)已瀕臨損壞的珍貴老檔案進(jìn)行數(shù)字化。第二,對具有長遠(yuǎn)使用價值且不方便用戶反復(fù)翻閱的原件檔案進(jìn)行數(shù)字化。第三,對利用率高、需求量大的開放檔案進(jìn)行數(shù)字化。第四,針對主體服務(wù)對象,對具有油田特色的檔案進(jìn)行數(shù)字化。
2、細(xì)分檔案數(shù)字化加工流程,嚴(yán)格控制精度
按照先公開后保密、先近期后歷史的原則,分步開展數(shù)字化加工工作。以紙質(zhì)檔案為例,2000年以來的公文檔案、數(shù)據(jù)庫中未有的且利用率較高的勘探開發(fā)類檔案、油田生產(chǎn)建設(shè)項(xiàng)目檔案、局級科研檔案進(jìn)行全文錄入。
①整理拆分:從檔案管理員處填寫《檔案領(lǐng)取記錄單》,并領(lǐng)取檔案后,以件為單位拆除檔案的裝訂線,區(qū)分出需掃描的檔案材料。對檔案進(jìn)行整理,將其中夾雜的紙屑以及訂書針等金屬物全部去掉,對已破損的文件進(jìn)行必要的修復(fù),對于不清楚的文件資料在征得檔案管理員的同意后進(jìn)行素描,以保障掃描圖像的質(zhì)量。
在檔案整理拆分過程中,對于破損的檔案材料要做相應(yīng)登記,在征得檔案管理員的同意后,用透明膠從背面粘合。破損情況嚴(yán)重、無法粘合的,可用專用紙?jiān)诒趁嫱幸r進(jìn)行文件的修復(fù);也可復(fù)印后掃描。
②檔案掃描:檔案經(jīng)過整理后,將需要掃描的案卷交給檔案掃描人員,紙張狀況較差,以及過薄、過軟或超厚的檔案,采用平板掃描方式;紙張狀況好的檔案采用高速掃描方式以提高工作效率。
使用的數(shù)字化檔案管理系統(tǒng)支持任意類型的掃描儀,支持黑白、彩色、灰度圖像掃描,支持各種分辨率的掃描方式,能夠掃描從A4到A0幅面的圖紙。操作員可在系統(tǒng)界面上實(shí)時瀏覽、監(jiān)控掃描的圖像,適時做出相應(yīng)調(diào)整。
③圖像處理:系統(tǒng)具有去黑邊、糾偏、條碼識別等功能,還可為圖像增加數(shù)字水印。操作員可對圖像進(jìn)行鏡像、任意角度旋轉(zhuǎn),調(diào)整亮度、對比度,銳化、鈍化、模糊、腐蝕,拼接、裁邊等處理,提高影像質(zhì)量。
④圖像識別:針對掃描得到的電子文件的不同文檔類型,靈活定義各種文檔的版面。使用內(nèi)置OCR識別引擎,根據(jù)區(qū)域特征自動進(jìn)行版面還原,對文檔中的文字信息進(jìn)行識別。自動提取文檔中的文號、標(biāo)題、責(zé)任者等信息。
⑤索引錄入:經(jīng)由OCR自動提取的信息在數(shù)據(jù)庫中形成索引,還可手工補(bǔ)充其他的圖像索引信息。這樣掃描圖像入庫后,就有索引信息支持用戶通過文號、標(biāo)題、作者等屬性進(jìn)行查詢。錄入人員首先檢查條碼的正確與否、圖像文件的頁數(shù)及圖像質(zhì)量,然后創(chuàng)建索引,同時檢查索引建立的正確性,進(jìn)行必要的人工修改。
⑥檔案復(fù)原:在索引錄入檢查無誤后,檔案資料以件為單位歸入檔案盒,檢查是否有缺失、遺漏的內(nèi)容,填寫《掃描生產(chǎn)流程單》,交由檔案管理員檢查接收入庫,要保證盒內(nèi)每件檔案的完整準(zhǔn)確。
3、數(shù)字化成果的存儲
同一種檔案在數(shù)字化后可以生成不同的格式,在實(shí)際工作中,采用最多的就是TIFF和PDF兩種格式。其中TIFF格式主要用于存儲生產(chǎn)圖紙等輸出精度要求較高的圖像文件;而PDF格式一般用于存儲輸出分辨率要求不高或者多頁的文字內(nèi)容較多的文件。
采用服務(wù)器、磁盤陣列、光盤等多種存儲方式對數(shù)字化后的文件進(jìn)行安全存儲,依據(jù)檔案的類別建好相應(yīng)的目錄結(jié)構(gòu),以文件的檔號為掃描后的圖像文件命名,再將文件存儲到對應(yīng)的目錄下。規(guī)范文件名稱及存儲邏輯結(jié)構(gòu),便于對加工好的文件進(jìn)行組織和掛接利用。
三、檔案數(shù)字化的重要意義
1、實(shí)現(xiàn)資源共享,提高工作效率
檔案資料經(jīng)過數(shù)字化加工后,社會公眾(開放檔案)和各職能部門都能通過檔案管理系統(tǒng)即時查詢利用所需要的電子文檔原文信息,檔案利用不再受檔案原文不能共享的限制,也避免了傳統(tǒng)檔案利用方式對檔案實(shí)體多次輾轉(zhuǎn)造成的時間浪費(fèi)和重復(fù)勞動,從而提高工作效率,降低檔案信息利用的成本。
2、有效地保護(hù)檔案實(shí)體的安全
檔案因經(jīng)常外借翻閱易產(chǎn)生破損甚至丟失,給檔案的永久保管造成威脅。而檔案進(jìn)行數(shù)字化加工后,可通過電子方式提供利用,減少了原件的使用頻率,有效地保護(hù)了原件。
3、提升企業(yè)形象
館藏檔案數(shù)字化,是促進(jìn)檔案管理信息化、現(xiàn)代化的具體舉措。數(shù)字化項(xiàng)目完成后,不僅檔案管理和利用手段實(shí)現(xiàn)了現(xiàn)代化,檔案利用效率也大大提高,檔案作用也越發(fā)顯著,同時也將極大地提升企業(yè)形象。