文/王 偲 郭金光
檔案數(shù)字化加工中關(guān)鍵質(zhì)量節(jié)點(diǎn)控制及其應(yīng)對(duì)措施
文/王偲郭金光
在信息化、網(wǎng)絡(luò)化高速發(fā)展的今天,檔案數(shù)據(jù)外包成為檔案數(shù)字化工作的主要手段。外包工作的關(guān)鍵則是檔案數(shù)據(jù)質(zhì)量。文章針對(duì)目前檔案數(shù)字化外包過(guò)程中存在的一些問(wèn)題提出自己的看法,對(duì)如何保障外包檔案數(shù)據(jù)質(zhì)量的幾個(gè)關(guān)鍵點(diǎn)進(jìn)行分析,并提出了具體解決措施
近年來(lái),各級(jí)檔案館(室)和立檔單位的檔案數(shù)字化工作一般都采用外包給數(shù)字化公司的方式,檔案館(室)則只需要按照有關(guān)標(biāo)準(zhǔn),對(duì)數(shù)據(jù)質(zhì)量進(jìn)行檢查驗(yàn)收,合格后在數(shù)字檔案館應(yīng)用系統(tǒng)進(jìn)行掛接,數(shù)字檔案即可進(jìn)入利用環(huán)節(jié)。但由于種種原因,數(shù)字化檔案的質(zhì)量控制問(wèn)題一直困擾著檔案館(室),如目錄數(shù)據(jù)不完善甚至出錯(cuò),目錄數(shù)據(jù)和數(shù)字化原文不匹配等等,導(dǎo)致在利用過(guò)程中檢索準(zhǔn)確性差、效率低下等問(wèn)題。解決這些問(wèn)題,需要檔案部門參照相關(guān)標(biāo)準(zhǔn),從源頭上控制,從而減少錯(cuò)誤出現(xiàn)。
檔案數(shù)字化按照流程通常分為檔案整理、目錄建庫(kù)、數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)質(zhì)檢、數(shù)據(jù)掛接、數(shù)據(jù)驗(yàn)收等7個(gè)子環(huán)節(jié),如下環(huán)節(jié)易出現(xiàn)差錯(cuò)。
1、檔案整理不規(guī)范。檔案頁(yè)號(hào)編寫重復(fù)或不連續(xù),導(dǎo)致掃描圖像名稱與頁(yè)號(hào)不符,文件編寫頁(yè)號(hào)與其圖像總數(shù)不相符。此差錯(cuò)出現(xiàn)頻率較高,且在質(zhì)檢中不易被發(fā)現(xiàn)。
2、圖像處理不達(dá)標(biāo)。掃描分辨率低,圖像處理失真、變形、傾斜、不完整等問(wèn)題,對(duì)于大幅面檔案采用分幅掃描后需進(jìn)行圖像拼接的圖片命名不規(guī)范。
3、目錄建庫(kù)不完善。目錄數(shù)據(jù)著錄項(xiàng)目不完整或錯(cuò)誤,合成PDF文件后檔號(hào)命名不規(guī)范,導(dǎo)致無(wú)法與對(duì)應(yīng)的目錄數(shù)據(jù)掛接。
1、建章立制不夠完善。一是掃描質(zhì)量要求不高?!都堎|(zhì)檔案數(shù)字化技術(shù)規(guī)范》中規(guī)定:“需要進(jìn)行OCR漢字識(shí)別的檔案,掃描分辨率建議選擇大于或等于200dp i”,筆者在實(shí)際操作中,對(duì)200dp i、300dpi、500dp i的圖片進(jìn)行了對(duì)比,結(jié)果顯示dp i值越高,圖片清晰度越高,OCR識(shí)別效果越好,存儲(chǔ)空間越大。但是掃描、合成PDF、OCR識(shí)別等各個(gè)環(huán)節(jié)效率降低,成本增加。而當(dāng)掃描分辨率為300dp i時(shí),圖像效果、儲(chǔ)存空間和工作效率較為科學(xué),不失為一種比較好的選擇,這就需要在決策層面上與時(shí)俱進(jìn)。二是制度規(guī)范不完善。應(yīng)該制定和完善《現(xiàn)場(chǎng)管理制度》《保密制度》《設(shè)備使用制度》等制度規(guī)范,以制度管人管事。
2、管理不夠科學(xué)。一是專業(yè)掃描公司為了節(jié)約成本,提高效率,往往忽視了各個(gè)環(huán)節(jié)的規(guī)范化操作要求,甚至對(duì)一些圖片進(jìn)行“批量”處理,忽略了各個(gè)圖像的個(gè)性差異。二是沒(méi)有嚴(yán)格按照操作流程操作。各工作環(huán)節(jié)協(xié)作缺失,沒(méi)有對(duì)上一環(huán)節(jié)進(jìn)行檢查,比如一卷檔案頁(yè)號(hào)出現(xiàn)漏編或者重復(fù),圖像掃描時(shí)就會(huì)漏掃或?qū)σ豁?yè)檔案重復(fù)掃描,出現(xiàn)類似錯(cuò)誤不可避免,所以在合成PDF時(shí)如果不對(duì)前面兩環(huán)節(jié)進(jìn)行核查,此后很難發(fā)現(xiàn)和糾正錯(cuò)誤。
3、人員素質(zhì)原因。檔案數(shù)字化工作人員除了要具備計(jì)算機(jī)基礎(chǔ)知識(shí)和檔案業(yè)務(wù)知識(shí)外,還需要較強(qiáng)的耐心和責(zé)任心,而人員素質(zhì)千差萬(wàn)別,尤其是在工作量和勞動(dòng)強(qiáng)度較大的情況下,這一問(wèn)題尤為突出。
環(huán)節(jié)一:檔案整理。檔案整理是一項(xiàng)基礎(chǔ)性工作,整理規(guī)范化、標(biāo)準(zhǔn)化有利于今后查閱利用。應(yīng)在檔案數(shù)字化加工之前,嚴(yán)格按照檔案整理有關(guān)規(guī)則規(guī)范整理。對(duì)沒(méi)有編頁(yè)或編頁(yè)不規(guī)范的檔案使用2B鉛筆重新進(jìn)行編頁(yè),編頁(yè)位置應(yīng)在檔案頁(yè)面的底端中部編寫頁(yè)號(hào),編頁(yè)不應(yīng)壓蓋檔案內(nèi)容,當(dāng)頁(yè)面底端中部已有頁(yè)號(hào)時(shí),應(yīng)將原頁(yè)號(hào)用鉛筆劃去以示區(qū)分,編頁(yè)方法為阿拉伯?dāng)?shù)字從“1”開(kāi)始依次編寫頁(yè)號(hào),應(yīng)保證每卷或每件頁(yè)號(hào)編寫的連續(xù)性。編頁(yè)碼時(shí)要從方便掃描的原則出發(fā),如用膠水粘貼的檔案在不破壞頁(yè)面的前提下盡可能分成單頁(yè),合格證、發(fā)票、介紹信等不規(guī)則紙張均要編頁(yè)碼,使之掃描為一個(gè)完整頁(yè)面,編頁(yè)碼環(huán)節(jié)也要逐卷登記,要素包括全宗號(hào)、目錄號(hào)、保管期限、案卷號(hào),原有頁(yè)碼,現(xiàn)有頁(yè)碼,有無(wú)卷內(nèi)目錄等,以便出錯(cuò)時(shí)檢查有依據(jù)。
環(huán)節(jié)二:檔案掃描。掃描儀分辨率設(shè)置為300dpi、24位真彩色格式,圖像命名按三位數(shù)字,如001、002……的次序依次命名。一是掃描時(shí)盡量保持紙張端正、平整,減輕圖形處理壓力,按照所編頁(yè)碼,逐頁(yè)掃描檔案,對(duì)產(chǎn)生的圖像依次命名,確保頁(yè)面上編寫的頁(yè)碼等同于掃描圖片的名稱。二是對(duì)于大幅面檔案采用分幅掃描后需進(jìn)行拼接的圖像分幅掃描時(shí),應(yīng)使各分幅尺寸相近、技術(shù)參數(shù)一致,相鄰圖像之間必須有部分重疊,重疊面積應(yīng)達(dá)到各分幅面積的5%以上,分副圖像應(yīng)分別命名為該頁(yè)“頁(yè)號(hào)+后綴字母或.數(shù)字”,確保不占用其他頁(yè)號(hào),如頁(yè)號(hào)為006的頁(yè)面掃描時(shí)產(chǎn)生三幅圖像,為防止圖像命名混淆和在拼接時(shí)便于識(shí)別,命名為006A,006B,006C或者006.1,006.2,006.3。三是掃描環(huán)節(jié)時(shí)檢查檔案整理,尤其是頁(yè)碼編寫正確與否,杜絕返工的關(guān)鍵環(huán)節(jié),若發(fā)現(xiàn)檔案整理不達(dá)標(biāo),存在頁(yè)碼漏編、重編問(wèn)題,要及時(shí)更正錯(cuò)誤再進(jìn)行掃描,達(dá)到檔案實(shí)體和電子文件一一對(duì)應(yīng),為合成PDF掃清障礙。
環(huán)節(jié)三:圖像處理。一是方向調(diào)整。應(yīng)對(duì)方向不正確的圖像進(jìn)行旋轉(zhuǎn)還原,具體方向按照閱讀習(xí)慣、文字端正原則而定。二是糾偏,對(duì)偏斜的圖像進(jìn)行糾偏處理,以達(dá)到視覺(jué)上基本感覺(jué)不偏斜為準(zhǔn),偏斜不宜超過(guò)3度。三是去污。應(yīng)對(duì)在掃描過(guò)程中產(chǎn)生的污線、污點(diǎn)、黑邊等影響圖像質(zhì)量的雜質(zhì)進(jìn)行去污處理。去污過(guò)程中,不能刪除檔案內(nèi)容信息。四是圖像拼接,對(duì)大幅面的檔案進(jìn)行分幅掃描后形成的多幅圖像,應(yīng)進(jìn)行拼接處理,合并為一個(gè)完整的圖像,拼接時(shí)應(yīng)確保拼接處平滑地融合,拼接后整幅圖像無(wú)明顯拼接痕跡,完成拼接的圖片按照頁(yè)號(hào)命名。
環(huán)節(jié)四:文件命名及目錄建庫(kù)。圖像處理完成后,合成的PDF文件以檔號(hào)命名保存。合成PDF時(shí),要翻閱紙質(zhì)檔案認(rèn)真核對(duì)目錄數(shù)據(jù)中的每一項(xiàng)內(nèi)容,對(duì)和紙質(zhì)檔案不一致的目錄數(shù)據(jù)進(jìn)行修改、添加或刪除。在修改目錄時(shí),注意批復(fù)類檔案應(yīng)該和報(bào)告合并作為一條而無(wú)需補(bǔ)充著錄。
環(huán)節(jié)五:OCR識(shí)別。OCR識(shí)別后的雙層PDF因同時(shí)兼顧視覺(jué)效果和檢索便捷性,極大地方便了電子文件的管理。現(xiàn)階段主要通過(guò) AdobeAcrobatXIPro軟件進(jìn)行識(shí)別,識(shí)別采取批量識(shí)別和單個(gè)識(shí)別結(jié)合的方法,即批量識(shí)別遇到障礙后,對(duì)此文件進(jìn)行單個(gè)識(shí)別,再對(duì)之后的批量識(shí)別。通過(guò)觀察縮略圖,可以對(duì)圖紙、手寫(如會(huì)議記錄)等識(shí)別效率低下的檔案不識(shí)別,以提高工作效率。
環(huán)節(jié)六:數(shù)據(jù)質(zhì)檢。一是要特別注意檔案數(shù)字化過(guò)程中全宗、目錄、案卷等檔案組成單位的完整性,不宜進(jìn)行隨意分割,不應(yīng)因?yàn)橐粋€(gè)全宗年代久遠(yuǎn)紙質(zhì)較差不方便掃描而只抽取便于掃描的部分?jǐn)?shù)字化,從而破壞檔案的整體價(jià)值。二是圖像質(zhì)量檢查,對(duì)掃描處理后的圖像是否清晰、完整進(jìn)行檢查,遺漏的應(yīng)進(jìn)行補(bǔ)掃,不符合質(zhì)量要求的圖像,重新進(jìn)行處理或重掃。三是應(yīng)對(duì)目錄數(shù)據(jù)庫(kù)著錄項(xiàng)目的完整性、著錄內(nèi)容的規(guī)范性進(jìn)行檢查,對(duì)質(zhì)量不合格的目錄數(shù)據(jù)進(jìn)行修改或重新著錄。對(duì)PDF文件的檢查要注意幾個(gè)等量關(guān)系,即PDF文件數(shù)量要等于目錄條目數(shù)量,掃描頁(yè)面數(shù)量等于編寫頁(yè)碼數(shù)量并且等于檔案目錄中條目頁(yè)數(shù)的累計(jì)值,如果上述等量關(guān)系不成立,則之前某一環(huán)節(jié)出錯(cuò),需要倒查,修改,還可以通過(guò)觀察縮略圖糾錯(cuò),因?yàn)橐环輽n案首頁(yè)和其他頁(yè)有著明顯的區(qū)別,可以大致作一判斷。
檔案數(shù)據(jù)資源是數(shù)字檔案館建設(shè)的核心內(nèi)容,科學(xué)嚴(yán)謹(jǐn)?shù)墓ぷ髁鞒淌菣n案數(shù)字化加工的基礎(chǔ),加強(qiáng)管理是解決數(shù)據(jù)質(zhì)量問(wèn)題的重要措施,工作人員的責(zé)任心和業(yè)務(wù)素質(zhì)更是保證工作質(zhì)量和效率的關(guān)鍵,對(duì)今后檔案保存、查閱、利用尤為重要。作為一名蘭臺(tái)人,應(yīng)該肩負(fù)起工作使命,不管是自行開(kāi)展檔案數(shù)字化加工還是外包給企業(yè)實(shí)施,都應(yīng)本著對(duì)歷史負(fù)責(zé)的態(tài)度,把好檔案數(shù)字化制作的每一個(gè)關(guān)口,控制好關(guān)鍵質(zhì)量節(jié)點(diǎn),從結(jié)果控制向過(guò)程控制轉(zhuǎn)變,確保數(shù)據(jù)信息無(wú)錯(cuò)誤,真正做到為歷史負(fù)責(zé),為現(xiàn)實(shí)服務(wù),替未來(lái)著想。
(作者單位:漢中市農(nóng)業(yè)科學(xué)研究所漢中市檔案局)