亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

收集原生電子檔案應“圖文并存”

2015-06-25 09:34:59程媛媛

檔案管理 2015年4期

程媛媛

檔案局2012年以令的形式發(fā)布了《電子檔案移交與接收辦法》，根據(jù)媒體報道和筆者調(diào)研掌握的情況，各地電子檔案收集的格式主要以圖片格式為主，文本格式為輔。眾所周知，圖片格式的電子文件較文本格式雖更具有不可更改性，但因受自身格式的限制，只能通過題名進行檢索，不能實現(xiàn)全文查詢，這樣就會影響電子檔案的查全率和查準率，也與檔案數(shù)字化的初衷大相徑庭。而文本格式的電子文件雖然可以實現(xiàn)較為全面的全文檢索，但其易于更改的屬性又與電子檔案管理保持原貌、保證安全的要求相違背。因此，多數(shù)檔案部門往往從“確保原生電子公文的真實性、有效性、安全性”的角度出發(fā)，而“棄文從圖”，要求“將原生電子公文以統(tǒng)一的數(shù)據(jù)格式（PDF格式）進行數(shù)據(jù)轉(zhuǎn)換，實行集中管理”。筆者認為，做好原生電子檔案的移交接收工作，必須注重規(guī)范其格式，應結(jié)合二者的優(yōu)點，將收集到的“文”和“圖”，形成雙層PDF格式文件，使得兩種單一的電子文件轉(zhuǎn)化成“圖文并茂”的形式，達到既能實現(xiàn)全文檢索又能維持檔案原貌的效果。

實踐發(fā)現(xiàn)，如未同時收集文本電子文件而僅收集圖片電子文件，制作雙層PDF的方法雖然簡單，但實際操作卻較為繁瑣。下面，我們介紹一種制作雙層PDF格式電子文件的具體步驟：

1.掃描一頁文檔，命名為1.tif。

OCR識別軟件，從圖片中讀取文件1.tif。

3.點擊左上方菜單欄中的“識別”選項（圖1）。

4.得到識別后的結(jié)果（圖2）。左側(cè)紅色方框為掃描圖片，右側(cè)紅色圓框為識別后文本。對文本進行校對、

修改后，點擊左上方菜單欄中的“WORD”選項。得到WORD格式的文本文件，保存并命名為2.doc。?????????????????????????????5.使用WORD2007軟件，打開2.doc。點擊“插入”，選擇“圖片”選項，將1.tif?插入2.doc。

6.選擇“格式”，點擊“位置”、“其他布局”選項。選擇“襯于文字下方”，確定。即得到初始的雙層文件（圖3）。此時文本與圖片未一一對應，因此能看到兩層。

7.將圖片調(diào)整至標準頁面大小，進行文字排版，使其與圖片內(nèi)容排版一致（圖4）。注意：此項是制作的關鍵，調(diào)整應選擇微調(diào)，確?！皥D”“文”上下一一對應。

8.選擇“文件”中的“另存為”選項，再點擊“PDF或XPS”格式（圖5）。即得到雙層PDF格式文件。

以上操作方法雖然步驟簡便，但真正做起來卻較為繁瑣，尤其是第7項的“‘圖‘文上下一一對應”。通過實踐，筆者用一臺

已使用5年的Avision?AW6300掃描A4幅面1頁dpi為200點的文件，僅需要6秒，但后期進行OCR轉(zhuǎn)換、校對、圖文對應排版等步驟卻用了近3個小時，其工作量之大可見一斑。（當然，現(xiàn)在市場上有很多專業(yè)的雙層PDF文件加工系統(tǒng)，使用起來會相對便捷。）

因此，筆者認為在接收電子檔案時如果能夠同時接收其“圖”“文”兩種格式，會給檔案館日后的工作帶來巨大的便捷，接收電子文件格式的優(yōu)先等級應為：“圖”+“文”>“文”>“圖”。

一、“圖文并收”的注意事項

圖文并收”即同時收集電子文件的“圖”格式和“文”格式。需要注意的是，“文”格式應為定稿的文本格式（圖6），“圖”格式應為其對外公布文件的圖片格式（圖7），且兩種格式的電子文件排版格式必須一一對應，可上下重疊，便于雙層PDF的直接應用。

二、收集“文”格式的注意事項

收集“文”格式電子文件必須注意其易于更改的特點。下面，我們以WORD2007為例，介紹接收中便于保持電子文件原貌的具體步驟：

1.打開一個WORD文檔1.doc。選擇“審閱”、?“保護文檔”選項（圖8），再選擇“限制格式和編輯”。

2.選擇“僅允許在文檔中進行此類編輯”和“不允許任何更改（只讀）”后，點擊“是，啟動強制保護”（圖9）。

3.輸入密碼，確定，存盤（圖10）。

此時，文檔已改為只讀模式，可以避免誤更改等現(xiàn)象發(fā)生。

三、收集“圖”格式的注意事項

收集“圖”格式電子文件的目的，一是直接用于利用，二是將“圖”通過OCR轉(zhuǎn)化成“文”后，通過“圖文并存”，達到“圖文并用”。但無論是哪一種用途，它都會受到掃描分辨率——DPI（每英寸的像素數(shù)）的影響。因此，在收集“圖”格式時我們必須注意——OCR轉(zhuǎn)換的正確率不以高分辨率做基礎。

國家檔案局在《紙質(zhì)檔案數(shù)字化技術規(guī)范》中指出“需要進行OCR漢字識別的檔案，掃描分辨率建議選擇≥200dpi”。部分檔案部門在掃描電子檔案時，往往要求掃描數(shù)據(jù)的高分辨率，個別有甚者竟然要求達到600dpi。這樣做一是占用了過大的空間，二是掃描的“圖”轉(zhuǎn)化為“文”時，其識別率和正確率反而不是最佳。因此，筆者建議接收“圖”文件時，必須根據(jù)具體情況對其DPI值進行規(guī)范，不求“最高”，只求“最佳”。

以下統(tǒng)計數(shù)據(jù)，是以Color?Take?7730掃描儀為例，對同一段文本以不同的分辨率進行掃描，然后用蒙恬識別王1.60版本的OCR軟件進行漢字識別所得到的。

通過上表，我們可以清楚看出，分辨率在50dpi～200dpi時，OCR的識別錯誤率呈遞減趨勢，但文件長度卻翻倍擴大;分辨率≥200dpi后，識別錯誤率不穩(wěn)定上升，但文件長度卻以更高速度翻倍增長?！袄硐氲腛CR識別率和文件長度較小的掃描分辨率”是我們應該追求的目標。通過上述實驗我們可以看出200dpi是這臺機器的最佳分辨率。當然以上僅為個例，掃描分辨率還會受掃描儀新舊、功能設置、掃描對象情況等一系列具體因素影響。但可以明確的是，電子文件進行OCR轉(zhuǎn)換時可以通過測試選擇其最佳掃描分辨率，為“增量檔案電子化”把好關口。

（作者單位：河南省焦作市檔案局???來稿日期：2015-04-17）