檔案信息資源是信息資源的基礎(chǔ)性資源,構(gòu)成檔案信息資源的是一個(gè)一個(gè)的文件,其類型可分為文本文件、數(shù)據(jù)庫(kù)文件、圖形、圖像文件和視頻文件等。這些種類的文件又有多種不同的格式,僅文本型文件就有諸如.doc、.txt、.pdf等格式。多種格式的存在對(duì)各個(gè)立檔單位電子文件的歸檔工作造成了很多的困擾,也使檔案館對(duì)所接收電子文件的長(zhǎng)期可讀性心存疑慮。本文僅就文本型文件的歸檔格式進(jìn)行探討。
一、國(guó)內(nèi)主要使用文本型電子文件的格式
目前,我國(guó)市場(chǎng)上存在多種辦公軟件,國(guó)外的如微軟Office、Sun的StarSuite、Corel的WordPerfect Office等,國(guó)內(nèi)的如金山WPS、紅旗中文2000的RedOffice等,它們生成的文檔格式各不相同。微軟Office的格式是.doc、.xsl、.ppt,StarSuite的格式是.odf,金山WPS的格式是.wps 、RedOffice的格式是.sxw。由于微軟在操作系統(tǒng)上的壟斷地位,微軟Office在市場(chǎng)上也處于的優(yōu)勢(shì)地位,據(jù)天極網(wǎng)對(duì)2005年國(guó)內(nèi)辦公軟件市場(chǎng)主要產(chǎn)品的調(diào)查結(jié)果,微軟Office市場(chǎng)占有率達(dá)到71.22%,金山WPS為14.08%;WordPerfect Office為4.58%;StarSuite為3.15%。另?yè)?jù)北京市檔案局2006年9月對(duì)市屬單位電子文件歸檔格式進(jìn)行的調(diào)查來(lái)看,采用 DOC格式歸檔的為41.67%,WPS格式為5%,XML格式為20%,TXT格式為20%。從調(diào)查的情況來(lái)看,目前文本型文件歸檔時(shí)多種格式并存,且DOC格式占有較大比例,WPS等格式所占比例較小。然而,國(guó)標(biāo)《電子文件歸檔與管理規(guī)范》(GB/T18894-2002)推薦的歸檔文件格式為XML、RTF和TXT三種格式,占有率較高DOC格式并不是國(guó)標(biāo)推薦的格式。
二、國(guó)內(nèi)外文本型電子文件格式發(fā)展的最新狀況
隨著可擴(kuò)展標(biāo)記語(yǔ)言XML在世界范圍內(nèi)被廣泛關(guān)注,特別是自1998年2月XML被W3C推薦標(biāo)準(zhǔn)后,許多辦公軟件的廠商都推出了基于XML的辦公軟件,并采用了一些新的文檔的格式。以下就基于XML的ODF、OpenXML、UOF三種格式和基于二進(jìn)制方式存儲(chǔ)的PDF格式作簡(jiǎn)要的介紹。
(一)ODF(Open Document Format)格式
ODF格式于2006年5月正式被國(guó)際標(biāo)準(zhǔn)化組織審核通過(guò)成為國(guó)際標(biāo)準(zhǔn)格式,標(biāo)準(zhǔn)號(hào)為ISO/IEC 26300。ODF格式由OASIS負(fù)責(zé)制定,它是一種開放格式,可以讓不同程序、平臺(tái)之間都自由的交換文件而不需要理會(huì)是何種應(yīng)用程序所產(chǎn)生的文件。目前,ODF文檔格式受到了很多政府機(jī)構(gòu)的青睞,例如美國(guó)馬薩諸塞州州政府、德國(guó)慕尼黑市政府、新加坡國(guó)防部、法國(guó)財(cái)政部等就率先宣布支持這種格式。
ODF文檔是基于XML語(yǔ)言的純文本文檔。ODF格式的文本文檔的擴(kuò)展名為?鄢.odt。一個(gè)ODF文檔實(shí)質(zhì)上是一個(gè)打包的文件,并且通常都經(jīng)過(guò)了zip格式的壓縮。我們完全可以用現(xiàn)有的任意一款壓縮軟件將ODF文件解壓。
以下軟件支持ODF格式:Sun 的StarSuite, Corel的 WordPerfect, IBM 的Workplace,以及國(guó)內(nèi)紅旗中文2000的RedOffice3.0等。微軟雖然不直接支持ODF格式,但近來(lái)微軟推出了Office Open XML轉(zhuǎn)譯器(Open XML Translator),使用者可將Office文件轉(zhuǎn)換成ODF格式的文件。為了在全球推廣ODF文檔格式, Sun、IBM等公司創(chuàng)建的ODF聯(lián)盟。 2006年7月,世界軟件巨頭Google宣布支持ODF格式并加入該聯(lián)盟,增強(qiáng)了ODF聯(lián)盟的力量。目前Google的在線文書處理程序Writely已經(jīng)支持ODF格式。
(二)Open XML Format格式
作為全球辦公軟件提供商,2007 Office的正式版本已于2007年1月30日向全球同步發(fā)售。除了功能上的提升以外,2007 Office 最引入矚目的是采用Open XML這一新的文檔格式,新格式文件擴(kuò)展名分別是.docx、.xlsx和.pptx。當(dāng)前支持Open XML Format的軟件只有微軟2007 Office。長(zhǎng)期以來(lái),以往由于微軟在市場(chǎng)上極高的占有率,使它的文件格式成為事實(shí)上的工業(yè)標(biāo)準(zhǔn),我國(guó)國(guó)內(nèi)軟件廠商雖然有自己的格式,但其格式往往須和微軟的格式兼容。對(duì)以往的.doc、.xls以及.ppt格式,微軟一直沒(méi)有公開其技術(shù),并希望借助這種方式持續(xù)保持其競(jìng)爭(zhēng)優(yōu)勢(shì)。但是,現(xiàn)在這種形勢(shì)發(fā)生了微妙的變化。由于ODF成為國(guó)際標(biāo)準(zhǔn),是一種公開的文檔格式,得到了一些政府的公開支持,微軟封閉的格式受到了很大的壓力。為了改變這種狀況,微軟已將其新的格式Open XML Format提交給國(guó)際標(biāo)準(zhǔn)組織,希望成為國(guó)際標(biāo)準(zhǔn),但目前尚未被國(guó)際標(biāo)準(zhǔn)組織批準(zhǔn)。
(三)UOF格式
UOF格式,中文名稱為“標(biāo)文通”,英文全稱為“Unified Office document Format”,意思是統(tǒng)一的文檔格式。不要以為這是一個(gè)舶來(lái)品,該格式由國(guó)家電子政務(wù)總體組所屬的中文辦公軟件基礎(chǔ)標(biāo)準(zhǔn)工作組組織制訂,具有完全的自主知識(shí)產(chǎn)權(quán)。
UOF規(guī)定了包括文字處理、電子表格和演示文檔應(yīng)用的辦公軟件文檔的結(jié)構(gòu)描述形式,支持不同辦公軟件之間文檔的兼容和互換。
由于UOF格式尚未成為國(guó)家標(biāo)準(zhǔn),目前只有紅旗中文2000的RedOffice3.0支持該格式。由于ODF格式為國(guó)際標(biāo)準(zhǔn),在對(duì)待ODF格式的問(wèn)題上,UOF持有條件支持的態(tài)度。其條件包括:ODF應(yīng)盡量與中國(guó)的UOF國(guó)家標(biāo)準(zhǔn)報(bào)批稿和Microsoft Open XML Format融合,應(yīng)提供更完善的主流格式的轉(zhuǎn)換式樣表單;ODF應(yīng)提供符合W3C Schema的Schema,ODF應(yīng)盡量采用元素層次結(jié)構(gòu)以利于擴(kuò)展等。
(四)PDF格式
與以上三種基于XML的格式不同,PDF格式是一種以二進(jìn)制方式儲(chǔ)存的格式。PDF格式,英文全稱“Portable Document Format”,意思是便攜式文件格式。它是美國(guó)的Adobe公司于1993年開發(fā)的一種電子文件格式。PDF格式有很多特點(diǎn),如它不依賴計(jì)算機(jī)的硬件配置、操作系統(tǒng)和創(chuàng)建文件時(shí)的應(yīng)用程序,能忠實(shí)地再現(xiàn)原文,還具有文字檢索和文件審閱等功能,所以PDF格式在國(guó)際上被迅速推廣應(yīng)用。據(jù)Adobe稱,目前PDF文檔已經(jīng)占據(jù)了互聯(lián)網(wǎng)上所有內(nèi)容的10%。PDF格式已于2005年被國(guó)際標(biāo)準(zhǔn)化組織審核通過(guò)成為國(guó)際標(biāo)準(zhǔn)格式,標(biāo)準(zhǔn)號(hào)為ISO 19005-1:2005。
PDF格式和XML等結(jié)構(gòu)化的文件格式一樣,包含有關(guān)鍵字,分隔符,數(shù)據(jù)等等。不同的是PDF文件是按照二進(jìn)制流的方式保存的, XML文件則是文本方式保存的,當(dāng)你打開一個(gè)XML文件就能知道所有顯示的文字,而PDF文件不能用文本方式打開。
目前在國(guó)際的學(xué)術(shù)界與高科技業(yè)界,PDF格式的應(yīng)用非常廣泛。此外,在各國(guó)政府機(jī)構(gòu)的電子政務(wù)領(lǐng)域中,PDF格式也被廣泛應(yīng)用,包括美國(guó)政府、英國(guó)政府、德國(guó)政府、新加坡政府、臺(tái)灣政府、香港 政府、印度、澳大利亞等等。另外一些政府機(jī)構(gòu)也在大量使用PDF,僅在美國(guó)的就有:美國(guó)聯(lián)邦法院、美國(guó)太空總署、美國(guó)藥物食品管理局(FDA)、美國(guó)35個(gè)州政府財(cái)稅局、美國(guó)郵政服務(wù)、疾病控制與預(yù)防中心、小型企業(yè)管理局、人口普查局等等。在我國(guó)臺(tái)灣的“公文電子交換推廣計(jì)劃”中也要求各級(jí)機(jī)關(guān)、學(xué)校、事業(yè)機(jī)構(gòu)等全面實(shí)施公文電子交換,并使用ACROBAT軟件。
制作PDF文件的“官方”軟件為Adobe公司的Adobe Acrobat。微軟的2007 Office和Google的Writely都可以將文檔直接保存為PDF格式。其他軟件如Go2PDF、PDFFactory Pro、WIN2PDF等也可將文檔轉(zhuǎn)換為PDF格式。PDF文件也可由國(guó)產(chǎn)軟件方正Apabi Reader打開。我國(guó)金山公司W(wǎng)PS Office 2005辦公軟件宣稱可直接將文件保存為PDF格式。
三、 面對(duì)紛繁復(fù)雜的文檔格式,
檔案行政管理部門應(yīng)采取的對(duì)策
隨著信息化建設(shè)的發(fā)展,已有的文件格式很多,新的文件格式也不斷產(chǎn)生出來(lái)。檔案部門作為永久保存電子文件的基地,應(yīng)采取各種措施積極應(yīng)對(duì)這種挑戰(zhàn)。
(一)檔案部門應(yīng)積極參與我國(guó)文檔格式標(biāo)準(zhǔn)的制定
制定一個(gè)統(tǒng)一的文本型電子文件歸檔格式標(biāo)準(zhǔn),對(duì)我國(guó)的檔案信息化建設(shè)極為重要。我國(guó)已經(jīng)開始著手制定《基于XML的電子公文格式規(guī)范》,并于2005年發(fā)布了國(guó)家標(biāo)準(zhǔn)(GB/T19667-2005),該規(guī)范包括七個(gè)部分,即總則、公文體、顯現(xiàn)、辦理、交換、歸檔、安全等,目前正式出臺(tái)了總則和公文體兩個(gè)部分,其余包括歸檔在內(nèi)的五個(gè)部分尚未出臺(tái)。令人欣慰的是,歸檔的部分是檔案部門承擔(dān)的。
在我國(guó)制定UOF文檔格式的過(guò)程中,檔案部門也應(yīng)盡可能參加進(jìn)去。因?yàn)殡娮游募纳?、辦理完畢到歸檔的生命周期中,歸檔是最后的環(huán)節(jié)。在這個(gè)環(huán)節(jié)要想把整個(gè)生命周期中的元數(shù)據(jù)和背景信息都收集起來(lái)是比較困難的。檔案部門應(yīng)利用我國(guó)制定統(tǒng)一的文檔格式的機(jī)會(huì),積極向文檔格式的研制單位提出建議,把相關(guān)的元數(shù)據(jù)和背景信息作為文檔的屬性集中統(tǒng)一管理。這樣,在將文件歸檔的同時(shí),也將其元數(shù)據(jù)、背景信息一起歸檔,便于以后利用時(shí)對(duì)文件的理解。
(二)文本型電子文件歸檔時(shí)采用基于XML的格式和PDF格式同時(shí)歸檔的方式
要作為文本型電子文件的歸檔格式,應(yīng)該符合下列條件:①應(yīng)該是公開的格式,不依賴特定的系統(tǒng)和軟件存在,能夠在可以預(yù)見(jiàn)的時(shí)間內(nèi)被正常讀??;②應(yīng)該保持文件生成時(shí)的排版格式,即使經(jīng)過(guò)辦公軟件的不斷升級(jí),也能輸出同紙質(zhì)文件一樣的格式;③應(yīng)該便于數(shù)據(jù)交換、便于查找和檢索;④應(yīng)能保證電子文件在處理過(guò)程中不被篡改和竊取。
我國(guó)國(guó)家標(biāo)準(zhǔn)《電子文件歸檔與管理規(guī)范》規(guī)定文字型電子文件以XML、RTF、TXT為通用格式。如果按照電子文件歸檔格式應(yīng)符合的條件來(lái)看,RTF和TXT格式是不符合要求的。原因是RTF格式不能保證今后可以被長(zhǎng)期讀取,而TXT則不能保存文件的格式。如果采用基于XML的格式和PDF格式同時(shí)歸檔的方式,則可以符合電子文件的歸檔條件。首先,基于XML的電子文件格式,如UOF和ODF可以滿足條件的一、三、四條,惟一不滿足的是第二條,因?yàn)樗壳安荒鼙3治募瓉?lái)的版式。同時(shí)采用PDF格式歸檔后,這一條可以滿足了。
電子文件的歸檔又是極為復(fù)雜的?;赬ML格式的文件在數(shù)據(jù)交換方面優(yōu)勢(shì)很大,但目前不能保持原來(lái)的版式,而PDF格式的文件則正好相反。所以,兩種格式的文件都應(yīng)保存。將來(lái)如果有符合條件的格式存在,也可只保存一種格式。也許有人擔(dān)心PDF是美國(guó)Adobe公司的產(chǎn)品,而有些檔案記錄的是國(guó)家秘密,我們能夠把記錄國(guó)家秘密的技術(shù)寄托在一家外國(guó)公司身上?其實(shí)這種擔(dān)心完全不必要,因?yàn)镻DF成為國(guó)際標(biāo)準(zhǔn)的同時(shí),已經(jīng)公開了其標(biāo)準(zhǔn)的內(nèi)容。國(guó)內(nèi)任何一家公司都可以使用PDF技術(shù)開發(fā)各種PDF上的應(yīng)用,完全可以不依賴于Adobe公司。
由于業(yè)務(wù)部門不一定配備PDF格式的轉(zhuǎn)換軟件,PDF的轉(zhuǎn)換可由檔案部門來(lái)辦理。業(yè)務(wù)部門只要提交基于XML格式的文檔,而且保證該文檔與紙質(zhì)文檔是同一版本即可,檔案部門將提交的格式批量轉(zhuǎn)換為PDF。
(三)檔案行政管理部門應(yīng)重視對(duì)XML知識(shí)的培訓(xùn)
XML的出現(xiàn)使原來(lái)復(fù)雜的任務(wù)變得簡(jiǎn)單,是解決許多棘手問(wèn)題的有力工具。如,XML不但可以作為文檔格式,而且可以作為不同數(shù)據(jù)庫(kù)之間交換的媒介,使數(shù)據(jù)可以在不同數(shù)據(jù)庫(kù)之間進(jìn)行傳遞;結(jié)構(gòu)化的XML文檔容易附加數(shù)字簽名,滿足檔案網(wǎng)絡(luò)傳遞對(duì)安全性的要求;XML數(shù)據(jù)與格式的分離,使數(shù)據(jù)可以不同的方式展現(xiàn)等。XML能夠解決檔案部門關(guān)心的數(shù)據(jù)長(zhǎng)期保存的問(wèn)題。檔案部門在組織計(jì)算機(jī)培訓(xùn)時(shí),應(yīng)該加強(qiáng)這方面的培訓(xùn)。
作者單位:北京市檔案局