文·武向峰
檔案信息資源建設(shè)是檔案信息化建設(shè)的重點(diǎn),館藏紙質(zhì)檔案數(shù)字化是信息資源的重要來源和基礎(chǔ)。紙質(zhì)檔案數(shù)字化是采用掃描儀等設(shè)備對紙質(zhì)檔案進(jìn)行數(shù)字化加工,使其轉(zhuǎn)化為存儲在磁帶、磁盤、光盤等載體上的數(shù)字圖像,并按照紙質(zhì)檔案的內(nèi)在聯(lián)系,建立起目錄數(shù)據(jù)與數(shù)字圖像關(guān)聯(lián)關(guān)系的處理過程。紙質(zhì)檔案數(shù)字化能有效地保護(hù)檔案原件,查閱起來也極為方便快捷。各級各類檔案館都已開展館藏紙質(zhì)檔案數(shù)字化工作,筆者擬對紙質(zhì)檔案數(shù)字化加工中的若干問題進(jìn)行分析探討,并提出意見以供商榷。
(一)檔案機(jī)讀目錄缺失、漏編情況,表現(xiàn)為紙質(zhì)檔案實(shí)體及其紙質(zhì)目錄存在,其機(jī)讀目錄不存在,致使掃描件無法掛接。
(二)題名錄入錯(cuò)誤。題名指文件的標(biāo)題,一般應(yīng)照實(shí)抄錄。有些機(jī)讀目錄在題名錄入時(shí)沒有照實(shí)錄入,出現(xiàn)了以下錯(cuò)誤。一是簡寫題名,不能準(zhǔn)確全面體現(xiàn)文件材料的內(nèi)容。如某全宗 1985年的“關(guān)于公布干部任職的通知”的題名簡寫成“通知”;二是題名出現(xiàn)錯(cuò)別字,尤其是婚姻檔案中的姓名錯(cuò)誤,如“王芬”錄入為“王芳”,“劉友棟”錄入為“劉支棟”;三是題名全錯(cuò),如帶有文件處理單的某份文件,題名錄入為“文件處理單”,沒有錄入文件的題名。
(三)文號漏錄、錄入不全或錄入錯(cuò)誤。文號一般是由“發(fā)文機(jī)關(guān)代字+年份+順序號”組成。一是檔案原件的文號在錄入機(jī)讀目錄時(shí)漏錄;二是錄入文號不完整,只錄入文號中的年度和發(fā)文順序號,如〔1985〕5號;三是出現(xiàn)發(fā)文機(jī)關(guān)代字錄入錯(cuò)誤或年份錄入錯(cuò)誤,如沭政辦發(fā)〔2009〕13號,錄入為“沭政發(fā)〔2009〕13號”。
(四)責(zé)任者漏錄、錄入錯(cuò)誤。責(zé)任者是指制發(fā)文件的組織或個(gè)人,錄入機(jī)讀目錄時(shí)有的“責(zé)任者”一項(xiàng)空著,有的錯(cuò)把發(fā)文機(jī)關(guān)錄入為歸檔單位。
(五)成文日期漏錄、錄入錯(cuò)誤或錄入不全。成文日期指文件形成的日期,是由年月日八位阿拉伯?dāng)?shù)字組成,比如2001年2月23日的一份文件,其成文日期錄入為“20010223”。有的檔案機(jī)讀目錄成文日期這一項(xiàng)空著,有的只有年度,有的只有年份和月份,沒有具體的日期等。
(六)檔案機(jī)讀目錄與檔案數(shù)字圖像不關(guān)聯(lián)。如有的檔案,能檢索到其檔案機(jī)讀目錄數(shù)據(jù),檢索不到原文的數(shù)字圖像,其原因是沒有關(guān)聯(lián)其檔案數(shù)字圖像。
(七)檔案目錄數(shù)據(jù)與檔案數(shù)字圖像關(guān)聯(lián)不準(zhǔn)確。如有的婚姻檔案,其卷內(nèi)目錄有50件婚姻檔案。由于掛接錯(cuò)誤,每件檔案的機(jī)讀目錄數(shù)據(jù)與其關(guān)聯(lián)的檔案數(shù)字圖像不能一一對應(yīng)。
(八)檔案數(shù)字圖像模糊、偏斜,或數(shù)字圖像不完整。如某“審批預(yù)備黨員轉(zhuǎn)正存根”掃描檔案共44頁,其中第20、22、32頁數(shù)字圖像不完整,其“石門鎮(zhèn)”“青云鎮(zhèn)”“臨沭一中”三個(gè)單位名稱經(jīng)掃描裁邊后成了“門鎮(zhèn)”“云鎮(zhèn)”“沭一中”。
(一)對館藏紙質(zhì)檔案機(jī)讀目錄漏編、錯(cuò)編的處理方法
1.對檔案機(jī)讀目錄漏編的處理
對照館藏紙質(zhì)檔案一件一件地核對其機(jī)讀目錄,對于漏編的檔案機(jī)讀目錄,根據(jù)《檔案著錄規(guī)則》,按照目錄數(shù)據(jù)庫建立時(shí)制定的數(shù)據(jù)規(guī)則,對照檔案原件內(nèi)容,照實(shí)錄入目錄內(nèi)容。
2.對檔案機(jī)讀目錄數(shù)據(jù)著錄項(xiàng)內(nèi)容與實(shí)體檔案不吻合的處理
一在檔案數(shù)字化前期發(fā)現(xiàn)檔案目錄數(shù)據(jù)錄入內(nèi)容與其紙質(zhì)檔案不吻合,有兩種處理方法。一是如果需要修改的機(jī)讀目錄量很小,可以在檔案管理系統(tǒng)內(nèi)檢索出錄入錯(cuò)誤的機(jī)讀目錄,如上文提到的1985年“關(guān)于公布干部任職的通知”這份檔案的題名簡寫成“通知”,可先檢索出這條錯(cuò)誤的機(jī)讀目錄,點(diǎn)擊編輯進(jìn)入包括題名、文號、件號等十二個(gè)著錄項(xiàng)的界面,然后補(bǔ)充正確題名,最后點(diǎn)擊保存即可。二是如果需要修改的機(jī)讀目錄量大,工作人員可以在數(shù)字檔案管理系統(tǒng)中,檢索出需要修改的機(jī)讀目錄,以查詢報(bào)表的方式導(dǎo)出EXCEL格式的檔案機(jī)讀目錄,對照紙質(zhì)檔案進(jìn)行一一修改。然后從檔案管理系統(tǒng)中檢索出錄入錯(cuò)誤的機(jī)讀目錄,進(jìn)行刪除。最后打開檔案管理系統(tǒng),導(dǎo)入修改后的EXCEL表格中正確的檔案機(jī)讀目錄即可。檔案機(jī)讀目錄中,不管是題名、文號、件號、責(zé)任者、年度,還是成文日期、全宗號、目錄號、保管期限、盒號,如果出現(xiàn)錄入錯(cuò)誤內(nèi)容的現(xiàn)象,都可以通過以上方法進(jìn)行修改。
二在檔案掃描件掛接后,發(fā)現(xiàn)檔案目錄數(shù)據(jù)錄入內(nèi)容與實(shí)體檔案不吻合,不僅要重新編輯機(jī)讀目錄,還要修改原文進(jìn)行數(shù)字圖片掛接。各檔案館雖然使用的檔案管理軟件不同,但基本功能應(yīng)大致相同。下面以八九數(shù)碼檔案管理軟件為例,處理檔案目錄和數(shù)字圖像出現(xiàn)的問題。如婚姻檔案中誤將“王芬”錄入為“王芳”,按照前文所說方法,應(yīng)重新編輯這條機(jī)讀目錄,把“王芳”改為“王芬”并保存。然后再檢索出修改過的這條帶有“王芬” 題名的目錄,點(diǎn)擊修改原文,出現(xiàn)“電子文件修改”界面,再點(diǎn)擊瀏覽,找到相應(yīng)的PDF格式的圖片文件夾,點(diǎn)擊修改,這樣這條機(jī)讀目錄就與其檔案數(shù)字圖片掛接上了。
(二)對紙質(zhì)檔案數(shù)字圖像模糊、偏斜、不完整的處理方法
1.對于檔案數(shù)字圖像模糊、不完整的處理方法
一數(shù)字圖像不完整、無法清晰識別或圖像失真度較大時(shí),應(yīng)重新掃描、去污、存儲。掃描色彩模式一般有黑白二值、彩色、灰度等,通常采用黑白二值。頁面為黑白兩色且不帶插圖、字跡清晰的檔案可采用黑白二值模式進(jìn)行掃描。頁面為黑白兩色,但字跡清晰度差或帶有插圖的檔案以及頁面為多色文字的檔案,可采用灰度模式掃描。頁面中有紅頭、印章或插有彩色照片、黑白照片、彩色插圖的檔案,可視需要采用彩色模式進(jìn)行掃描。采用黑白二值、灰度、彩色幾種模式對檔案進(jìn)行掃描時(shí),其分辨率應(yīng)選擇 ≥200dpi 。特殊情況下,如文字偏小、密集、清晰度較差等,以及需要進(jìn)行OCR漢字識別的檔案,可適當(dāng)提高分辨率,建議選擇≥300dpi 。對于圖像頁面中出現(xiàn)的影響圖像質(zhì)量的雜質(zhì)如黑點(diǎn)、黑線、黑框、黑邊等應(yīng)進(jìn)行去污處理。處理過程中應(yīng)遵循展現(xiàn)檔案原貌的原則。重新掃描后的圖像存儲時(shí),應(yīng)先刪除原來模糊或者不完整的掃描件,再按照原來圖像文件名命名。
二把重新掃描后的清晰完整的數(shù)字圖像與對應(yīng)的機(jī)讀目錄掛接。一是在檔案數(shù)據(jù)庫中按照存儲的路徑找到包含這份文件的文件夾,雙擊打開文件夾,搜索出全部PDF格式的文件,然后刪除。二是在計(jì)算機(jī)桌面上找到PDF打包軟件,雙擊打開,選擇好檔案數(shù)字圖像存儲路徑,點(diǎn)擊執(zhí)行操作,這份PDF格式的文件就自動生成了。如果是卷內(nèi)文件,需要按照這份文件的存儲路徑在數(shù)據(jù)庫中找到包含這份文件的文件夾,打開文件夾刪除卷皮和目錄數(shù)字圖像生成的PDF格式的文件。三是登錄檔案管理系統(tǒng)檢索到這件檔案,然后點(diǎn)擊這條目錄前面的原文就可以看到所掛接上的清晰完整的數(shù)字圖像了。
2.對于檔案數(shù)字圖像偏斜的處理方法
一對偏斜的檔案數(shù)字圖像糾偏。從檔案數(shù)據(jù)庫中,根據(jù)存儲路徑找到這張偏斜的數(shù)字圖像并雙擊,在圖像的菜單欄里找到編輯并點(diǎn)擊,出現(xiàn)向右旋轉(zhuǎn)、向左旋轉(zhuǎn)、向下旋轉(zhuǎn)3個(gè)箭頭標(biāo)志,根據(jù)需要調(diào)整的角度來點(diǎn)擊相對應(yīng)的旋轉(zhuǎn)箭頭;如果調(diào)整的角度不是90°或者90°的倍數(shù),可以直接輸入需要調(diào)整的角度來糾偏,使圖像立正不偏斜,然后點(diǎn)擊確定保存圖像。
二把糾偏后的數(shù)字圖像與對應(yīng)的機(jī)讀目錄掛接。糾偏后的數(shù)字圖像與對應(yīng)的機(jī)讀目錄掛接的方法,與重新掃描后的數(shù)字圖像與對應(yīng)的機(jī)讀目錄掛接是一樣的,需要根據(jù)存儲路徑找到包含糾偏的數(shù)字圖像文件夾,搜索出全部PDF格式的文件,然后刪除。再利用PDF打包軟件,對這個(gè)文件夾的所有數(shù)字圖像進(jìn)行打包。如果是以卷為單位的卷內(nèi)文件,需要刪除由封面和卷內(nèi)目錄生成的PDF文件。這樣糾偏后的數(shù)字圖像與對應(yīng)的機(jī)讀目錄就掛接好了。
(一)精心謀劃是做好館藏紙質(zhì)檔案數(shù)字化工作的必要前提。檔案數(shù)字化工作內(nèi)容繁瑣,每個(gè)工作項(xiàng)目開展前都必須做好充分的準(zhǔn)備。為此,檔案館要精心謀劃,總體把握項(xiàng)目的實(shí)施,制定出完善可行的工作方案,保證每個(gè)工作項(xiàng)目順利實(shí)施。
(二)科學(xué)管理是做好館藏紙質(zhì)檔案數(shù)字化工作的關(guān)鍵方法。根據(jù)館藏紙質(zhì)檔案門類多、起止年度長、卷件數(shù)多、數(shù)字資源建設(shè)管理從理論到實(shí)踐需要逐漸深化等特點(diǎn),根據(jù)數(shù)字化項(xiàng)目進(jìn)展情況,對人力、技術(shù)、資金進(jìn)行及時(shí)有效地調(diào)整控制,以確保完成各個(gè)年度、各個(gè)項(xiàng)目的工作目標(biāo)。
(三)強(qiáng)化質(zhì)量是做好紙質(zhì)檔案數(shù)字化工作的核心要求。質(zhì)量是檔案數(shù)字化建設(shè)的核心。檔案數(shù)字化工作的質(zhì)量直接影響著檔案信息資源建設(shè)的質(zhì)量。檔案數(shù)字化工作由多個(gè)工作環(huán)節(jié)組成,每個(gè)工作環(huán)節(jié)的工作質(zhì)量都將影響到整個(gè)數(shù)字化工作的質(zhì)量。紙質(zhì)檔案機(jī)讀目錄數(shù)據(jù)核對、檔案掃描、圖像處理、圖像存儲、數(shù)據(jù)匯總掛接、數(shù)據(jù)抽檢驗(yàn)收等每一個(gè)工作環(huán)節(jié)都需要檔案館工作人員積極跟進(jìn),有效檢查監(jiān)督,及時(shí)發(fā)現(xiàn)問題,防止操作失誤,杜絕安全隱患,提高館藏紙質(zhì)檔案數(shù)字化工作水平。