1.徐 媚 2.沈繼紅
1.國網(wǎng)新疆電力公司昌吉供電公司 2.國網(wǎng)新疆電力公司新湖供電公司
庫藏檔案數(shù)字化質(zhì)量檢測初探
1.徐 媚 2.沈繼紅
1.國網(wǎng)新疆電力公司昌吉供電公司 2.國網(wǎng)新疆電力公司新湖供電公司
針對國網(wǎng)昌吉供電公司庫藏檔案數(shù)字化過程中存在的數(shù)字化檔案掃描件檢測數(shù)量大、掃描件達標率不高、工作效率低等問題,通過研發(fā)檢測工具,實際應(yīng)用,統(tǒng)一了數(shù)字化檔案掃描件的檢測標準,降低了檔案工作人員檢測強度。
檔案;數(shù)字化;質(zhì)量檢測
隨著紙質(zhì)檔案數(shù)字化工作至上而下逐步的展開與完善,紙質(zhì)檔案如何通過現(xiàn)代計算機技術(shù)快速得到利用,是整個檔案行業(yè)所面臨的重大課題。國網(wǎng)公司自2010年開始在全系統(tǒng)實施檔案數(shù)字化,同步開展存量檔案數(shù)字化、增量檔案電子化工作。據(jù)統(tǒng)計,截止到2014年年底,僅國網(wǎng)昌吉供電公司開展存量檔案數(shù)字化量就達383萬頁,2014年當年增量數(shù)字化檔案達205萬頁。如此大量的數(shù)字化檔案是否符合《國家電網(wǎng)公司紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》是當前檔案工作人員面臨的一個難題。
在人員、時間各方面條件有限的情況下,面對大量的數(shù)字化檔案,檔案工作人員在抽檢過程中發(fā)現(xiàn)很多數(shù)字化檔案的質(zhì)量不過關(guān),如:數(shù)字化檔案掃描件中存在大量黑點、掃描件傾斜角度過大、分辨率過高或過低、用真彩色或灰度的黑白掃描件代替黑白二值等現(xiàn)象。數(shù)字化的各項指標只能憑借檔案工作人員肉眼識別,導致評判標準不統(tǒng)一,檢查方和移交方矛盾激化。
原因一是沒有統(tǒng)一的掃描軟件來滿足標準的需要;二是檢測的檔案人員沒有合適的檢測工具。尋找一種有效的方法(技術(shù)手段)快速檢測并挑出不符合標準的檔案掃描件,是當前檔案數(shù)字化工作中的一大難題。
(一)數(shù)字化檔案掃描件主要存儲形式
1.以原始掃描圖像格式存儲。國家檔案局頒布的標準,以單頁的TIFF格式文件和JPG格式文件進行存儲和應(yīng)用。
2.以多頁TIFF文件格式存儲。是將原始掃描數(shù)據(jù)進行二次加工,通過TIFF文件格式以多頁鏈表的特點,將原始掃描圖像數(shù)據(jù)文件,添加轉(zhuǎn)換成TIFF文件的頁面中。
3.以多頁PDF文件格式存儲。包括單圖像層和雙層兩種。將原始掃描圖像“腳本化”包裝處理后,合成到一個文件的頁面中。
目前國網(wǎng)公司文字材料類檔案統(tǒng)一采用的是多頁PDF文件圖像頁面的檢查,在數(shù)字化檔案掃描件的檢測時,需要在加載文件的同時獲取每一頁的圖像信息。
(二)數(shù)字化檔案掃描件檢測原理
針對上述的電子檔案掃描圖像的檢測指標,利用計算機軟件程序批量的來完成檢測任務(wù),是一種切實可行的辦法,其具體的方法和原理如下:
1.圖像顏色數(shù)的檢測?!昂诎锥怠眻D像是指用于存放黑與白色像素數(shù)量為“1bit”的圖像,一個字節(jié)可以存放8個像素點。彩色256色黑白圖和真彩色黑白圖的每像素所占的bit位數(shù),為8bit和24bit??梢灾苯訌膱D像的DIB數(shù)據(jù)結(jié)構(gòu)頭中,直接獲取出當前讀取圖像的單位像素所占的bit數(shù)量,從而獲得圖像的顏色信息是否符合標準。檢測中發(fā)現(xiàn),很多用戶錯將16/256色或真彩色黑白圖像當作黑白二值圖像進行存儲,這是人工檢測時很難發(fā)現(xiàn)的問題。
2.圖像分辨率的檢測。對于原始數(shù)據(jù)(單頁的TIFF和JPG文件)和多頁TIFF文件而言,文件結(jié)構(gòu)本身內(nèi)置了分辨率字段,用來保存了掃描時填寫的圖像水平分辨率和垂直分辨率數(shù)值。要準確的檢測出圖像分辨率,需要根據(jù)圖像尺寸來重新計算,A4頁面的尺寸為827x1169像素,水平方向分辨率=W/827*100,垂直方向分辨率=H/1169*100。由于掃描圖像在優(yōu)化處理過程中,圖像糾偏操作可造成圖像尺寸變大,圖像切變操作可造成圖像尺寸變小,因此,W/827和H/1169結(jié)果并非整數(shù),而是一個取值區(qū)間。在這個區(qū)間范圍內(nèi)的數(shù)值,所計算出來的分辨率是一個近似值,根據(jù)這個近似值所在頻帶來判斷圖像分辨率是否達標。
3.圖像傾斜角度的檢測。檢測指標主要針對黑白二值圖像的檢測操作。對于彩色圖像數(shù)據(jù),可以先進行“高清化”處理,并將圖像底色替換為白色,將其轉(zhuǎn)換為文字內(nèi)容與底色有很高對比程度的圖像,然后再對其進行黑白二值化轉(zhuǎn)換。先統(tǒng)計出水平和垂直方向上的“權(quán)值”數(shù)組,作為圖像內(nèi)容版面分析的原始依據(jù)。然后,在得到圖像內(nèi)容區(qū)間范圍內(nèi)順序采樣,并對每一份采樣矩陣中的數(shù)據(jù)進行分析,最終計算得出整個頁面的平均斜率值,將該值轉(zhuǎn)換為圖像的傾斜角度,根據(jù)該角度值來是否符合標準。
4.圖像去污質(zhì)量檢測。指標的檢測,重點針對圖像黑邊框情況進行檢測,黑點的檢測目前還沒有足夠的理論依據(jù)。
5.圖像頁面是否加載的檢測。對于多頁的PDF格式文件,由于其使用的制作軟件不同,其頁面數(shù)據(jù)格式不完全相同。為了對掃描后圖像進行優(yōu)化處理,很多制作軟件會在原有PDF頁面的基礎(chǔ)之上,插入修改過后的圖像數(shù)據(jù)節(jié)點,用來保存修改痕跡;或者插入“Shape”繪圖節(jié)點,來覆蓋掉圖像中的黑色邊框。加載PDF文件頁面的成功與否,直接影響到其它指標項的檢測。
6.圖像圖層數(shù)量的檢測。對于多頁PDF文件存儲的檔案圖像數(shù)據(jù),是通過加載PDF文件的交叉引用表(xref),來獲取每一頁圖像數(shù)據(jù)的Stream流對象,同時統(tǒng)計其數(shù)量。原始歸檔的PDF文件應(yīng)該只有一個圖像層??赏ㄟ^判斷圖像層數(shù)量的檢查,來確認電子檔案是否被非法篡改過改,并進一步確認其真實性、可利用性。
7.文本層數(shù)據(jù)的檢測。雙層PDF文件,是指PDF文件中的每個頁面中會同時存在兩種類型數(shù)據(jù):一是光柵圖像數(shù)據(jù),二是矢量文本數(shù)據(jù)。通過將雙層PDF文件頁面中隱含的文字信息提取出來的方法,判斷其頁面中是否存在文字內(nèi)容。
國網(wǎng)昌吉供電公司通過檢測軟件的應(yīng)用,統(tǒng)一了數(shù)字化檔案掃描件的檢測標準,降低了檔案工作人員檢測強度,提高了工作效率,同時也減少了檢測人與被檢測人直接矛盾關(guān)系。國家/行業(yè)標準的建立,需要有配套的檢測措施,才能更好為行業(yè)創(chuàng)造出更有價值的成果。數(shù)字化檔案掃描件是否符合標準、是否達標的檢測方法和技術(shù)手段,是紙質(zhì)檔案數(shù)字化工作中必不可少的重要一環(huán)。
[1]《中央企業(yè)檔案信息化建設(shè)工作指引》(國資廳發(fā)[2014]2號)
[2]《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(GBDA/T31-2005)
[3]《PortableDocumentFormat-ReferenceManualVersion1.3》
[4]《國家電網(wǎng)公司紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(Q/GDW135-2006)