摘 要:根據(jù)作者多年數(shù)字化加工的經(jīng)驗,從壓縮格式的算法、存儲、質(zhì)量、成本及數(shù)字化加工標(biāo)準(zhǔn)等方面進行調(diào)查比較,給出常用的幾種數(shù)字化加工系統(tǒng)所采用的壓縮算法的建議。
關(guān)鍵詞:文檔數(shù)字化加工:圖像壓縮算法:圖像存儲格式:成本
中圖分類號:TP399
一切由文字、圖表、聲像等形式組成的材料都可以叫做文件,已經(jīng)辦理完畢的、具有保存價值的文件按照一定的邏輯規(guī)律整理形成的信息單元就稱之為檔案。檔案在不同時期有著不同的載體,上到石器時代的石刻,下到工業(yè)社會的照片、影片、唱片、錄音帶、錄像,直到20世紀(jì)中期以后出現(xiàn)的磁帶、磁盤、光盤等載體、依賴計算機系統(tǒng)存取并可以在網(wǎng)絡(luò)上傳輸?shù)碾娮游募?,都是具有保存價值的檔案[1]。電子檔案的產(chǎn)生、是檔案領(lǐng)域一次翻天覆地的革命,直接帶來了檔案工作的運作方式、基本理論甚至是思維等方面的巨大改變。
目前,社會各階層、各部門都著手于信息化的工作,曾經(jīng)堆積如山的檔案文檔成為必須進行處理的對象,作者在工作過程中,針對各種客戶群的需求及客觀現(xiàn)實問題的不同,對圖像需要采取的壓縮算法進行了一些比較與研究,主要討論幾個具有代表性的目標(biāo)群體為:圖書館、醫(yī)院、保險公司。
1 數(shù)字化加工常用的圖像壓縮算法
1.1 黑白二值圖像的壓縮算法
黑白文稿的壓縮較常用的幾種壓縮技術(shù)是:JBIG、JBIG2、MH、MMR、MR。
(1)MH編碼:是Group 3 Fax之中最基本的編碼方式,是一種一維編碼方案;(2)MR編碼:也是Group 3 2D編碼方式,與MH的區(qū)別在于,同時在水平和垂直方向進行壓縮,屬于二維壓縮技術(shù),壓縮效率比MH提高35%左右;(3)MMR編碼:Group 4編碼,在壓縮效率上跟MR是一樣的;(4)JBIG編碼:JBIG2可以方便的嵌入到TIFF文件中,壓縮性能一般比G4壓縮少3-5倍,比JBIG1少2-4倍[2]。但是JBIG有些算法涉及到版權(quán)問題,在應(yīng)用中會產(chǎn)生費用問題,支持的掃描儀也不多,加工單位會因為經(jīng)濟需要在JBIG2與G4之間做取舍。
1.2 灰度圖像和彩色圖像的壓縮算法
對于灰度圖像和彩色圖像的壓縮,目前較常用的幾種壓縮技術(shù)是:JPEG、LZW、BMP。
(1)JPEG:JPEG可以壓縮任何連續(xù)色調(diào)的靜止圖片,兼容性也很強,可用于大部分通用的計算機平臺,硬件要求不高,得到近乎完美的圖像質(zhì)量[2]。JPEG是一種有損壓縮方式,若壓縮比選擇過大圖像質(zhì)量會大幅下降;(2)JPEG2000:是一種新的圖像標(biāo)準(zhǔn),可以向下兼容JPEG,JPEG2000可以同時支持有損和無損壓縮,具有很高的壓縮率,比JPEG高約30%左右;(3)BMP:是Windows操作系統(tǒng)中標(biāo)準(zhǔn)圖像文件格式,兼容性很強,但是對圖像幾乎不進行壓縮,導(dǎo)致文件占用磁盤空間過大,不建議采用這種壓縮格式;(4)LZW:LZW對于任意寬度和像素位長度的圖像,都具有穩(wěn)定的壓縮過程,壓縮和解壓縮速度較快,對硬件的要求也不高。
2 文檔數(shù)字化加工中數(shù)據(jù)的存儲特點
2.1 文檔數(shù)字化加工的流程
數(shù)字化加工流程如圖1:
圖1
2.2 圖像壓縮在數(shù)字化加工中的作用
所謂圖像壓縮,即采用特殊的編碼方式保存圖像數(shù)據(jù),減少存儲空間的占用,節(jié)約存儲成本,提高信息傳播速度。在文檔的數(shù)字化過程中,產(chǎn)生的數(shù)據(jù)主要是圖像數(shù)據(jù)和識別產(chǎn)生的文本數(shù)據(jù),文本數(shù)據(jù)對存儲空間的占用并不大,主要是圖像數(shù)據(jù)的存儲需要合適的壓縮技術(shù)。該壓縮技術(shù)即要滿足圖像的還原率、壓縮率,還要對硬件、壓縮解壓的速度、格式的通用度,用戶的需求等方面進行綜合考量。
2.3 數(shù)字文檔的存儲格式
能滿足雙層存儲的電子文檔格式,首推雙層PDF格式。PDF經(jīng)中國國家國家標(biāo)準(zhǔn)化管理委員會批準(zhǔn)成為正式的中國國家標(biāo)準(zhǔn),已成為數(shù)字化信息事實上的一個工業(yè)標(biāo)準(zhǔn)。采取PDF作為電子文檔的存儲格式,避免了標(biāo)準(zhǔn)不統(tǒng)一造成的互操作性差,共享共建困難。
PDF是一種可移植性的文檔格式,他能擺脫操作系統(tǒng)平臺的限制,所以通用性更高,也就是說,PDF文件不管是在Windows,Unix還是在蘋果公司的Mac OS操作系統(tǒng)中都是通用的。這一性能使它成為在Internet上進行電子文檔發(fā)行和數(shù)字化信息傳播的理想文檔格式。越來越多的電子圖書、產(chǎn)品說明、公司文告、網(wǎng)絡(luò)資料、電子郵件開始使用PDF格式文件。
雙層PDF格式文件包含文本層和圖像層,并且位置上下對應(yīng)。經(jīng)掃描儀掃描錄入的圖像經(jīng)過去污、糾偏等處理作為圖像層;圖像進行OCR識別,經(jīng)人工校對之后,作為文本層,合成雙層PDF文件。這樣,既可以100%保留原始版面效果(包括公章、簽名),又可以通過下層的文字信息支持選擇、復(fù)制、全文檢索等功能。因此,雙層PDF同時兼顧視覺效果和檢索方便性,極大地方便了電子文件的管理,達到數(shù)字化加工系統(tǒng)的存儲目標(biāo)。
在PDF文件中,圖像點陣信息以壓縮數(shù)據(jù)流的形式存在,PDF通過過濾器(filter)對數(shù)據(jù)流解碼,與本文研究相關(guān)的過濾器如表1所示[3]:
對于上述的圖像壓縮格式,都可以將元數(shù)據(jù)流直接嵌入PDF文件,不需要重新編碼。對于TIFF文件需要針對具體的壓縮算法,將真正的圖像數(shù)據(jù)抽取出來嵌入PDF文件。因為LZW算法有專利權(quán)問題,導(dǎo)致很多軟件放棄了對LZW的支持,改用被開源的其他算法,基于通用性的考慮,不建議采用該算法作為數(shù)字化加工采用的壓縮格式。
3 不同客戶群選擇不同的壓縮算法
3.1 圖書館
二維平面材料是圖書館館藏資源的主體,根據(jù)其不同的特征和屬性,有如下文獻類型[4]:(1)圖書、期刊、論文集;(2)報紙、海報、年畫、剪紙;(3)照片印制品;(4)現(xiàn)代方志、家譜、畫冊。
根據(jù)數(shù)字化目的和要求的不同,圖書館的數(shù)字圖像被分為三個級別:(1)A——檔案典藏級:檔案保存及必要時出版印刷用,不上網(wǎng),可以做位格式轉(zhuǎn)換和復(fù)制的母本,文件不壓縮;(2)P——復(fù)制加工級:加工復(fù)制各種精度、大小的屏幕瀏覽圖像的木本文件。由A級文件1:1轉(zhuǎn)換生成具有較高的精度和較大的尺寸;(3)D——瀏覽級:可供普通讀者網(wǎng)上訪問,下載和打印,像素不超過顯示器支持范圍即可。還有一種縮略圖也屬于該級別,其分辨率、像素更低。
依據(jù)上訴的級別要求,建議采用的壓縮算法如表2所示:
黑白圖像通常采用G4算法,若用戶對于存儲空間的要求苛刻,則采取JBIG2方式,但是該方式涉及版權(quán)費用問題及掃描儀選型問題。
灰度、彩色圖像采用JPEG2000算法,因為JPEG2000可以同時支持有損與無損壓縮,輕松實現(xiàn)二者的切換,而JPEG只能支持有損壓縮,不滿足圖書館的圖像要求,且市面上流行的掃描儀均支持JPEG2000壓縮格式。
3.2 醫(yī)院
醫(yī)院數(shù)字化的一個重點就是醫(yī)療圖像的數(shù)字化,由于醫(yī)療圖像的特殊性,對圖像的壓縮要求跟其他用戶不同,比如美國曾頒布法令要求醫(yī)療處理采用的圖像不可以使用無損壓縮,因為壓縮產(chǎn)生的不清晰會導(dǎo)致醫(yī)生誤診。即使采取無損壓縮也只有2:1或者4:1這樣的低壓縮比。醫(yī)用膠片需要專用掃描儀輸入,存儲格式一般選擇JPEG2000,因為該格式即支持無損壓縮,又支持有損壓縮,壓縮性能很高。
另外提到醫(yī)療圖像不得不提到DICOM標(biāo)準(zhǔn),DICOM圖像文件是醫(yī)學(xué)影像傳輸和存儲的專用標(biāo)準(zhǔn)。在醫(yī)療圖像數(shù)字化加工中,如何將醫(yī)療膠片轉(zhuǎn)換為DICOM設(shè)備能接受的格式,是進行醫(yī)療影像數(shù)字化加工必須研究的課題。
目前很多醫(yī)療影像數(shù)字化加工軟件支持DICOM格式的轉(zhuǎn)換,DICOM作為一種圖像醫(yī)療存儲和傳輸?shù)臉?biāo)準(zhǔn),所存儲的信息不僅包含圖像信息,還包含很多醫(yī)療和通訊相關(guān)信息,而且,存儲的圖像信息是未經(jīng)壓縮的,所以DICOM文件都很大,不便于遠(yuǎn)程網(wǎng)絡(luò)傳輸。醫(yī)療數(shù)字化加工可以針對DICOM及JPEG2000兩者的取舍或者技術(shù)融合進行項目設(shè)計。
3.3 保險公司
保險公司這種單據(jù)特別多的客戶群,他們進行檔案數(shù)字化的目的在于,建立精確索引,方便查詢、快速統(tǒng)計分析。
在處理較多單據(jù)的數(shù)字化加工中,不采用雙層形式,只需要將表單圖像跟內(nèi)容在數(shù)據(jù)庫一一對應(yīng)即可,圖像采用有損、適度壓縮的JPEG、JPEG2000格式即可滿足要求。單據(jù)輸入系統(tǒng)還可以根據(jù)需要預(yù)設(shè)單據(jù)的信息提取區(qū)域,并將提取區(qū)域的信息進行OCR識別轉(zhuǎn)換,轉(zhuǎn)換后的文本信息經(jīng)校對后,自動歸類到對應(yīng)的數(shù)據(jù)庫中。
參考文獻:
[1]馮惠玲,張輯哲.檔案學(xué)概論[M].北京:人民大學(xué)出版社,2001.
[2]吳樂南.數(shù)據(jù)壓縮原理與應(yīng)用[M].北京:電子工業(yè)出版社,2003.
[3]Adobe公司.PDF Reference 5th edition[Z].
[4]孫一剛.數(shù)字圖書館資源加工規(guī)范體系的建設(shè)[R/OL].
[5]林福宗.多媒體技術(shù)基礎(chǔ)[M].北京:清華大學(xué)出版社,2000.
作者簡介:郭嵩(1979-),女,江蘇南京人,工程碩士,計算機中級職稱,研究方向:電子影像技術(shù)及云計算等領(lǐng)域。
作者單位:上海網(wǎng)穗數(shù)碼科技有限公司,上海 200062