1 幾種常用電子文件格式比較
目前,國內檔案信息網(wǎng)站中提供的電子文件主要有圖像和文檔兩種格式,其中圖像格式應用的比較多.文檔格式相對較少些。造成這種狀況的主要原因是我國的檔案信息數(shù)字化工:作一般始于20世紀90年代中后期,當時主要通過掃描儀將紙質文件保存為圖像格式,再利用程序語言調用圖片來實現(xiàn)檔案的全文瀏覽。繼而將數(shù)據(jù)延伸上網(wǎng)時,圖像格式也就占據(jù)了主流。近年來,隨著電子文件的大量產生和公眾對電子文件認識程度的提高,電子文件的收集與保存才逐漸受到重視,網(wǎng)上文檔格式的電子文件也逐漸增多起來。
圖像格式簡單直觀,數(shù)字化操作方便快捷,能夠很好地保存文件原貌,主要缺點是占用存儲空間大,瀏覽下載速度緩慢。作為檔案信息載體的紙質文件一般多頁,少則三五頁多則二十頁,有的甚至達到了四五十頁,巨大的篇幅無論是轉換為JPEG格式還是TIFF格式都會占據(jù)大量的存儲空間。尤其是TIFF格式由于是無損壓縮,占用存儲空間極大。以1份8頁的紙質文件為例,紙張規(guī)格A4,分辨率lOOdpi。色彩模式灰度,掃描后生成的圖像文件不小于1M。以一個網(wǎng)站包含1000份電子文件為例,網(wǎng)站最少需要1C的初始存儲空間,以后隨著電子文件數(shù)量的逐年遞增.存儲空間也要相應增加。限于財力和人力,目前我國大多數(shù)的檔案網(wǎng)站都沒有自己的網(wǎng)絡服務器,更多的是租用ISP提供的虛擬空間,通常情況下基礎網(wǎng)站空間僅為300M左右,如果將電子文件全文上網(wǎng)就需要額外購買大量的空間。另外,由于采用圖片形式,沒有可以檢索的文本信息,導致搜索引擎無法檢索到信息,用戶也就不能通過搜索引擎發(fā)現(xiàn)網(wǎng)站,會因此失去許多潛在的用戶。
文檔格式占用存儲空間相對較小,傳輸速度也快。但是,2000年以前的紙質文件一般沒有電子文件.要想把這部分文件轉化為文檔格式,就必須先將文件進行掃描.然后通過專用的OCR軟件進行圖像到文本的轉換,轉換后的文本也存在著一定的誤碼率。目前我國常用的文檔格式最少有DOC和WPS兩種,將收集來的各類電子文件統(tǒng)一格式也很費時費力。
如何將文本格式和圖像格式兩種或多種電子文件在網(wǎng)絡中統(tǒng)一起來,同時能夠節(jié)省網(wǎng)絡空間,提高瀏覽速度,給檔案信息提供一個最理想的載體,經(jīng)過多次使用和比較,筆者認為PDF文件格式較適合網(wǎng)上發(fā)布電子文件使用。
2 PDF文件簡介
PDF(Portable Document Format)是Adobe公司開發(fā)的電子文件格式。PDF文件由于具有不失真、文字效果好、支持多語種、文件小、兼容性及保密性好等特點,隨著INTERNET的飛速發(fā)展,該格式得到越來越廣泛的應用。
2.1 超強的融合能力
PDF文件能夠直接將圖像、文字融合在一個文件中,它可把文件的文本、格式、字體、顏色、分辨力、鏈接及圖形、圖像、聲音、動態(tài)影像等所有的信息封裝在一個特殊的整合文件中。它支持特長文件,集成度和安全可靠性都較高??梢詫TML,TXT,DOC等文檔格式的文件轉換為PDF,還可以將掃描儀、數(shù)碼相機等外設捕獲的圖片直接轉換為PDF文件。
2.2 其他文本格式無法比擬的特點
PDF文件的體積只有同類超文本文件或DOC文件的1/8左右,圖片格式文件的1/15—1/50左右。而最重要的是,它通過自帶的閱讀器閱讀,不依賴任何系統(tǒng)的語言、字體和顯示模式。PDF文件基于Postscript的圖形特性,可以方便地在幾乎所有的支持PPD的打印機(如激光打印機)上快速而精致地打印出來。它適合任何顯示分辨力,允許用戶將文件放大觀看.即使放大到800%,文本或圖像效果也不出現(xiàn)明顯的失真。PDF文件能防止文本、圖像等信息被復制,在沒被許可的情況下,得到文本的人是不能從PDF文件中拷貝出文本、圖像等信息的。
2.3 開放與免費
PDF文件格式是一個IE瀏覽器全面支持的文件格式。閱讀器由Adobe公司開發(fā)并免費自由下載使用。絕大部份的品牌電腦都帶Adobe Reader閱讀器軟件,所以絕大部份的用戶均無需通過閱讀器安裝程序即可打開和閱讀這些檔案文件。而且PDF的搜索引擎是1)2ASP語言開發(fā),用戶就只需要打開IE瀏覽器,并指向該文檔管理系統(tǒng)的IP地址或域名即可進行檢索。
(作者單位:焦作市檔案局)
策劃組稿:李興利
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。