趙 芳
摘要:文章從分析目前文檔格式現(xiàn)狀入手,在綜合國內(nèi)外研究成果的基礎(chǔ)上提出長期保存文檔格式選擇的標(biāo)準(zhǔn),并對PDF格式與基于XML的格式進(jìn)行了比較,認(rèn)為基于XML的格式更適合作為長期保存文檔的格式,
關(guān)鍵詞:長期保存;文檔格式:標(biāo)準(zhǔn)
1文檔格式現(xiàn)狀
長期以來,文檔格式因微軟公司最早占領(lǐng)辦公軟件領(lǐng)域而被“.doc”、“.xls”和“.plat”等事實標(biāo)準(zhǔn)所壟斷,目前全球大概90%以上的文檔都是采用微軟Office的格式存儲,微軟的Word成為最為常見的電子文檔格式。但由于該格式屬微軟公司私有,其隱患是該格式文檔擁有者有可能因版本升級或其他原因,喪失對自己文檔的處理能力,這對文檔擁有者甚至政府部門都存在著喪失讀取和修改的安全隱患。為此,國際上改變前辦公軟件相互封閉、文檔格式互不兼容的努力如火如荼開展起來,由Sun、IBM等36個成員創(chuàng)建的ODF fOpen Document Format)聯(lián)盟在全球推廣ODF文檔格式。2006年5月初,ODFJE式被國際標(biāo)準(zhǔn)化組織(簡稱ISO)認(rèn)可為文檔格式的國際標(biāo)準(zhǔn)。Word因其應(yīng)用的廣泛性,ODF因其的開放性,這兩種文檔格式目前成為電子文檔的主要格式。然而,這兩種格式并不適于長期保存。
Word格式不適于長期保存主要原因有二:其一,Word是二進(jìn)制的,即人不可讀的形式。沒有匹配的讀取軟件不能把文件內(nèi)容從Word文檔中提取出來。其二,Word是私有格式,前邊已經(jīng)談過私有格式的危害。盡管后來的ODF格式克服了Word格式的上述兩個缺點(diǎn),但作為文檔處理軟件生成格式的固有弱點(diǎn),它仍不適于長期保存。究其原因,也主要有二:其一。該格式主要是描述文件外觀而不是結(jié)構(gòu)。對于長期保存來說,文件的紙張大小、頁面、字體等外觀問題不甚重要,而對于文件被劃分為幾個部分、各部分之間的關(guān)系等結(jié)構(gòu)問題對理解文件內(nèi)容來說很重要:其二,該格式是扁平式的,即文件由標(biāo)題和段落按順序構(gòu)成。而長期保存需要保存每個章節(jié)段落的深層次結(jié)構(gòu)以及內(nèi)部嵌入的內(nèi)容。因為這種深層次的結(jié)構(gòu)有助于結(jié)構(gòu)檢索和查詢及文檔格式轉(zhuǎn)換。
鑒于此,為了長期保存這些電子文檔,我們需要把它們轉(zhuǎn)換成適于長期保存的格式。
2選擇文檔長期保存格式的標(biāo)準(zhǔn)
長期保存文件不管是因其情報價值還是因其憑證價值,總而言之是為了利用。所以,要從利用的角度來分析保存文件的要求。另外,我們要利用的是真實可讀的文件。這里的利用不僅是單純的使用文件,它還應(yīng)該包括文件的真實性、可讀性的維護(hù)。所以我們在討論保存格式問題要以保護(hù)文件的真實性和可讀性人手。
Jacqueline Slats在“辦公格式數(shù)字保存實踐”中提到了保存文檔的五個基本需求:其一,在背景方面,要求記錄組織背景,如名稱、活動過程、日期、與其他文檔的關(guān)系、保存日志、原始文檔與現(xiàn)存文檔的關(guān)系、版本及名稱、保護(hù)過程:其二,在內(nèi)容方面,所有文檔內(nèi)容都要保存下來,純文本內(nèi)容要保持永久可讀:其三,在結(jié)構(gòu)方面,為重現(xiàn)文件內(nèi)容間的邏輯聯(lián)系必須保存文檔的結(jié)構(gòu),如章、節(jié)、段落的次序,包括評論和腳注及插圖的正確位置:其四。在外觀方面,在不影響表達(dá)原始文檔意思的前提下,保存的外觀可以不必與原始外觀完全相同:其五,在效用方面,對有效連接的著錄必須要保存下來,現(xiàn)行效用和內(nèi)容的更新部分不必保存但致使內(nèi)容變化的效用的證明必須要保存下來。
Frank Moehle對數(shù)字保存提出下列五項要求:一是整體性(無損壞、安全存儲);二是可理解性(能理解文件背景和內(nèi)容);三是原始性(數(shù)據(jù)結(jié)構(gòu)和外觀);四是真實性(作者、來源和證據(jù)的真實);五是可利用性(可讀、可利用)。
除了上述保護(hù)文件本身特點(diǎn)的需求外,還需要考慮為了應(yīng)對技術(shù)挑戰(zhàn)帶來的軟硬件升級更新文檔格式需要進(jìn)行不斷地轉(zhuǎn)換問題。所以,長期保存格式必須選擇能夠而且易于轉(zhuǎn)換的文檔格式。
面對紛繁復(fù)雜的文檔格式,到底應(yīng)該如何選擇長期保存的文檔格式呢?Frank Moehle在“文檔格式在數(shù)字保存的角色”中對文檔格式提出的八項要求是:(1)格式所用的語言及語法規(guī)范是公用的:(2)得到類似ISO這樣標(biāo)準(zhǔn)化組織認(rèn)可:(3)已被廣泛地認(rèn)可及使用;(4)免費(fèi)的使用權(quán);(5)無加密技術(shù);(6)無壓縮技術(shù);(7)自帶說明書;(8)不依賴任何存儲介質(zhì)。
Micheal Lesk在“數(shù)字化保存——新的需求及挑戰(zhàn)”一文中也闡述了選擇保存格式的一些標(biāo)準(zhǔn):(1)內(nèi)容層而非顯示層的描述,這會簡化轉(zhuǎn)換工作:(2)足夠的解釋空間,提供檢索和分類所需的信息;(3)開放的,任何人都可以免費(fèi)使用;(4)可解釋性,任何時候人都可讀。
劉家真教授也曾論述過文件保存格式的選擇問題,她提出了9條原則:(1)該格式能在不同的環(huán)境下使用;(2)該格式應(yīng)是通用的、非專用的格式;(3)支持?jǐn)?shù)據(jù)從專用格式的環(huán)境中移出;(4)最好選用標(biāo)準(zhǔn)格式;(5)挑選被業(yè)界或用戶廣泛支持的格式;(6)可擴(kuò)展性:(7)可真實完整地被用戶讀出并理解;(8)具有自身的可證明性;(9)具有可評價性。
以上學(xué)者都從不同角度、側(cè)重點(diǎn)提到了或簡單或詳細(xì)的文檔保存格式選擇的原則。為了正確或是輔助選擇長期保存的文檔格式,荷蘭國家圖書館進(jìn)行了文檔保存格式選擇的標(biāo)準(zhǔn)研究。該研究中提到了7條評價文檔長期保存格式的標(biāo)準(zhǔn),按其權(quán)重排列:(1)開放性(24%);(2)依賴性(24%);(3)采用性(21%);(4)復(fù)雜性(10%);(5)技術(shù)保護(hù)機(jī)制(10%);(6)耐久性(7%);(7)自我記錄性(4%)。
綜合以上觀點(diǎn),我認(rèn)為長期保存文檔格式選擇標(biāo)準(zhǔn)可從以下幾個方面考慮:
(1)開放性。包括公開源碼、免費(fèi)使用。只有開放的文檔標(biāo)準(zhǔn)才能實現(xiàn)不同版本間文檔格式的互通,確保文檔在不同系統(tǒng)之間有效、自由地實現(xiàn)互操作,更適合長期保存文檔的轉(zhuǎn)換格式需要。
(2)廣采性。即保存格式應(yīng)是被廣泛采用且得到標(biāo)準(zhǔn)組織認(rèn)可的。這樣的格式有利于推廣,并且為多種軟件開發(fā)商所采用,使文檔很容易制作和保存。從長期保存的觀點(diǎn)來看,也易于為其編寫轉(zhuǎn)換格式,集體轉(zhuǎn)換文檔,這樣一方面減輕長期保存的經(jīng)濟(jì)壓力,另一方面還能減少文檔格式轉(zhuǎn)換造成丟失數(shù)據(jù)的風(fēng)險。
(3)無依賴性。即保存格式不依賴任何軟硬件。這樣可大大減少管理程序與管理費(fèi)用,便于資源共享,更重要的是有利于減少文件長期保存中數(shù)據(jù)丟失的風(fēng)險,不依賴任何加密、壓縮等技術(shù)。換句話說,格式中不允許有加密和壓縮這樣的設(shè)置,因為加密
的文檔在長期保存過程中不利于轉(zhuǎn)換;壓縮的文檔容易損壞,且一旦損壞無法彌補(bǔ),因而也不利于長期保存。
(4)可解釋性。即保存格式不應(yīng)該是二進(jìn)制的,而是人可讀的純文本形式。這樣即使格式軟件不存在了,原始文件內(nèi)容和標(biāo)記也仍然可被人識讀。且有足夠的解釋空間,能允許提供大量的元數(shù)據(jù)來滿足說明文檔的需求,也方便以后的格式轉(zhuǎn)換。
(5)結(jié)構(gòu)化描述性。也可以稱作立體式描述。也就是說,格式要盡量揭示文件內(nèi)容,而不僅是顯示文件的外觀。這樣既可以反映文件內(nèi)容間的邏輯聯(lián)系,又便于格式的轉(zhuǎn)換。
3長期保存文檔格式的選擇
目前各檔案館及圖書部門選擇的長期保存文檔格式主要有兩種:即PDF格式與基于XML的格式。
PDF(Portable Document For,mat、文檔是Adobe公司開發(fā)的一種文檔格式。該格式的最大優(yōu)點(diǎn)在于能如實地保留原有文件的內(nèi)容與外觀。而且容易生成,既可用Adobe Acrobat軟件,也可用MicrosoK Word和OpenOffice.orgWriter,它們都具有PDF的輸出功能。此外,PDF還具有支持聯(lián)機(jī)、安全、交互式使用等優(yōu)點(diǎn)。這些優(yōu)點(diǎn)足以促使那些文檔保管單位積極采用PDF作為主要的文檔保存格式。
XML(Xtensible Markup Language)“可擴(kuò)展標(biāo)識語言”,是一套定義語義標(biāo)記的規(guī)則,這些標(biāo)記將文檔分成許多部件并對這些部件加以標(biāo)識。它也是元標(biāo)記語言,即定義了用于定義其他與特定領(lǐng)域有關(guān)的、語義的、結(jié)構(gòu)化的標(biāo)記語言的句法語言。XML最大的優(yōu)勢在于對各種數(shù)據(jù)的管理。任何系統(tǒng)都可以通過XML的解析器來讀取XML數(shù)據(jù),因此它的數(shù)據(jù)可以通行各處,而不用擔(dān)心系統(tǒng)不支持的問題。基于XML的格式也是一種理想的文檔保存格式。首先它是開放的標(biāo)準(zhǔn);其次,它使用標(biāo)準(zhǔn)的文字編碼,能描述任何語言、任何事物;再次。它基于純文本。這使它能長期被識讀。XML的這些優(yōu)點(diǎn)均有利于真實可靠地長期保存文檔。
到底哪種格式更適合文檔的長期保存,Jacqueline Slats對這兩種格式的優(yōu)缺點(diǎn)進(jìn)行了如下比較:
兩者相比較而言,在長期保存文檔方面,PDF不如XML適合保存文檔,因為它的三項缺點(diǎn)對文檔的長期保存來說都是致命的。此外,PDF的缺點(diǎn)還包括版本間的不兼容問題。
雖然PDF/A是基于PDF1.4開發(fā)的,它試圖通過一系列規(guī)定限制來克服PDF的上述缺陷,并已成功地躋身國際標(biāo)準(zhǔn)成為電子文檔長期保存格式標(biāo)準(zhǔn)。一方面,這是Adobe公司在開放性方面取得的進(jìn)步:但另一方面,從根本上來說,PDF的公司所有的私有屬性并不能改變。而且,如果把PDF中的一些特性如禁止加密、批注、禁止植入其他類型文件等通過限制的政策而剔除的話,PDF本身所特有的優(yōu)勢也就大打折扣了。此外,其版本兼容問題仍然成為它繼續(xù)發(fā)展的桎梏。
可以與PDF/A競爭的另一格式是基于XML的XHTML和DocBook。
熟悉XHTML的人很多,這里只簡單介紹一下DocBook。它是一個由SGML或者XML文檔類型定義(DTD)的標(biāo)記語言。簡單地說,DocBook是一套描述文檔結(jié)構(gòu)的標(biāo)簽,它能將文件內(nèi)容與文件樣式信息分開處理(如字體,顏色)。DocBook從1991年開始創(chuàng)建,目前經(jīng)歷了四個主要的版本,已成為OASIS采納的標(biāo)準(zhǔn)。除了擁有XML所有的優(yōu)點(diǎn)外,DoeBook的可移植性非常值得稱道,而且是一次輸入、多種輸出。一個用DocBook標(biāo)記語言寫的文檔能夠快速簡單地轉(zhuǎn)換為HTML、PostScript、PDF、RTF、DVI以及ASCII純文本。DocBook以及所有配套DocBook使用的工具都是在開源授權(quán)下供自由使用的。DocBook的另外一個優(yōu)勢是能把作者從對文檔的排版和格式的擔(dān)心中解脫出來。所以,DocBook不僅適于長期存儲文檔,也適合編輯文檔。
綜上,在電子文檔長期保存格式的選擇時,我們要從保存需求分析人手,根據(jù)保存格式的選擇標(biāo)準(zhǔn),綜合分析各種格式的利弊,最終選擇最適于長期保存的文檔格式,以保證電子文檔的真實性和長期可利用性。
參考文獻(xiàn):
[1]BARNES,L.Preservation of wordprocessing documents.
Australianartnership for Sustainable Reposi-tories,2006.URL:http://www.apsr.e-du.au/publications/preservation ofword_processing_documents.html.
[2] Jacqueline Slats,Practical expe-riences of the digital preservationtestbed:Office formats in Proceed-ings of the conference "File formatsfor
preservation" ,Vienna (2004).URL:http://www.erpanet.org/event s/2004/vierma/presentations/erpaTr-ainingVienna_Slats.pdf.
[3]Frank Moehle, The Role of FileFormats in Digital
Preservation:Opportunities and Threats,http://www.erpanet.org/events/2004/vien-na/index.php.
[4]Michael Lesk,Preserving digitalobjects:Recurrent needs and chal-lenges in Proceedings of the 2ndNPO Conference on MultimediaPreservation,Brisbane (1995).URL:http://www.lesk, comJmlesk/auspres/aus.html.
[5]劉家真,文件保存格式與PDF文檔[J],檔案學(xué)研究,2002(2)。
[6]Caroline van Wijk Judith Rog,Evaluating file formats for long-term preservation.URL:http://rdd.sub.uni -goettingen.de/conferences/ipres07/.
[7]ERPANet,ERPA Advisory(2004).URL:http://www.erpanet.org/adviso-ry/list.php.
[8]宛玲,電子文檔長期存取的跨媒體開放文件格式[J],中國圖書館學(xué)報,2007(3)。