1.數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(籌),北京 100871
2.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101
1.數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(籌),北京 100871
2.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101
隨著網(wǎng)絡(luò)出版和移動(dòng)技術(shù)的發(fā)展,通過(guò)便攜的手持移動(dòng)設(shè)備閱讀電子圖書(shū)或文檔已成為一種普遍的需求。然而,現(xiàn)存大量的流式文檔,大多數(shù)都是由電腦辦公軟件直接保存生成的,不便甚至不能在手持設(shè)備上使用,導(dǎo)致手持設(shè)備無(wú)法讀取以前保存的信息,給使用者帶來(lái)諸多的不便。目前以EPUB[1]為代表的電子書(shū)格式標(biāo)準(zhǔn)已經(jīng)相對(duì)成熟,能夠很好地被大多數(shù)手持設(shè)備理解和使用。因此將流式辦公文檔格式(如UOF)轉(zhuǎn)換為手持設(shè)備支持的電子書(shū)格式(如EPUB)已成為迫切的需求。
作為流式文檔標(biāo)準(zhǔn)之一的UOF[2]是我國(guó)自主知識(shí)產(chǎn)權(quán)的中文辦公文檔格式標(biāo)準(zhǔn),采用W3CXML Schema作為文檔格式標(biāo)準(zhǔn)定義語(yǔ)言,形成獨(dú)立、完整、開(kāi)放及可擴(kuò)展的文檔描述體系結(jié)構(gòu),方便用戶擴(kuò)展;文檔標(biāo)準(zhǔn)體系架構(gòu)支持模塊的可重用性,減少文檔描述的冗余,保證文檔簡(jiǎn)潔易用;UOF于2007年作為國(guó)家推薦性標(biāo)準(zhǔn)正式發(fā)布實(shí)施,UOF格式文檔以其諸多的優(yōu)勢(shì),得到越來(lái)越廣泛的應(yīng)用[3]。如今各類(lèi)常用的辦公軟件,如永中Office、WPS、Microsoft Office及Open Office等均已支持UOF文檔格式[4]。目前ODF_UOF_Converter轉(zhuǎn)換器可以實(shí)現(xiàn)UOF格式與ODF[5]格式的雙向轉(zhuǎn)換,UOF Translator轉(zhuǎn)換器則可以實(shí)現(xiàn)UOF格式和Open XML[6]格式之間的雙向轉(zhuǎn)換[7]。
作為電子書(shū)標(biāo)準(zhǔn)之一的EPUB是一個(gè)開(kāi)放的電子書(shū)標(biāo)準(zhǔn),內(nèi)部使用了XHTML[8]來(lái)展現(xiàn)文字,并以ZIP壓縮格式來(lái)打包文件內(nèi)容。EPUB于2007年9月成為國(guó)際數(shù)字出版論壇(International Digital Publishing Forum,IDPF)的正式標(biāo)準(zhǔn)[9]。盡管一些辦公文檔格式(如PDF)已經(jīng)可以實(shí)現(xiàn)到EPUB格式的轉(zhuǎn)換,如:EpubBuilder和PDF to EPUB轉(zhuǎn)換器等,但遺憾的是目前尚未有相關(guān)文獻(xiàn)提出UOF格式與EPUB格式的轉(zhuǎn)換。
本文在研究分析上述轉(zhuǎn)換器的基礎(chǔ)上,首次提出一種UOF格式與EPUB格式的轉(zhuǎn)換方法,該方法針對(duì)UOF和EPUB格式的結(jié)構(gòu)差異問(wèn)題,采用預(yù)處理同主轉(zhuǎn)換相結(jié)合的轉(zhuǎn)換思路,能夠?qū)τ赨OF中的大部分常用功能點(diǎn),實(shí)現(xiàn)有效的轉(zhuǎn)換。
為了實(shí)現(xiàn)該轉(zhuǎn)換,便于手持設(shè)備用戶瀏覽UOF文檔,本文將重點(diǎn)分析UOF格式和EPUB格式的結(jié)構(gòu)以及兩種結(jié)構(gòu)之間的映射關(guān)系,并設(shè)計(jì)轉(zhuǎn)換式樣單(stylesheet)[10],構(gòu)建轉(zhuǎn)換器,為方便用戶操作還開(kāi)發(fā)了圖形界面,從而實(shí)現(xiàn)UOF文檔格式到EPUB電子書(shū)格式的轉(zhuǎn)換,同時(shí)也為其他流式文檔到電子書(shū)的轉(zhuǎn)換提供了思路。這不僅對(duì)于UOF的推廣實(shí)施有積極的促進(jìn)作用,而且對(duì)于文檔信息共享與交換以及流式文檔到電子書(shū)的轉(zhuǎn)換都具有重要意義。
2.1 UOF文檔格式
UOF1.0/1.1采用單一XML文件描述,根據(jù)描述內(nèi)容的不同分塊表述。本文在UOF的基礎(chǔ)上提煉了一種文字處理文檔模型,并用類(lèi)形式化Z語(yǔ)言[11]進(jìn)行了描述??梢詫OF文字處理文檔看作一個(gè)樹(shù)形結(jié)構(gòu)的模型,由元數(shù)據(jù)metadata、書(shū)簽 集 bookmarks、鏈 接集 hyperlinks、式 樣 集styles、對(duì)象集objects、文字處理wordprocessing組成的一個(gè)集合。表示為:
文字處理中包含針對(duì)整個(gè)文檔屬性的描述部分“公用處理規(guī)則commonRule”和主體body。即
主體部分可以看成由分節(jié)section、邏輯章節(jié)logicSection、段落p,文字表tbl等元素組合的集合。表示為:
圖1展示了UOF文字處理文檔主體的層次結(jié)構(gòu)。
圖1 文字處理主體層次結(jié)構(gòu)圖
段落p可以看作有相同段落屬性的句子的集合。這些句子可以通過(guò)pref從式樣集中繼承相同的段落式樣,又可以通過(guò)段落屬性PROP(P)描述引用式樣之外的段落屬性。即
句的集合Runs是句元素Run的序列,Run包括句式樣引用rref,句屬性PROP(R)和句內(nèi)容rContent。句內(nèi)容是RunContent的包類(lèi)型。即
句內(nèi)容由文本內(nèi)容text組成。即
2.2 EPUB電子書(shū)文檔格式
由于目前EPUB2.0應(yīng)用最為廣泛,且大多數(shù)電子書(shū)閱讀器支持EPUB2.0,為適應(yīng)需求,本文選擇標(biāo)文通文檔格式到EPUB2.0標(biāo)準(zhǔn)的電子書(shū)格式的轉(zhuǎn)換。
EPUB2.0包括以下三項(xiàng)規(guī)范:
(1)開(kāi)放出版結(jié)構(gòu)(Open Publication Structure,OPS)[12],定義內(nèi)容版面,規(guī)定了開(kāi)放式電子書(shū)的內(nèi)容結(jié)構(gòu)。
(2)開(kāi)放打包格式(Open Packaging Format,OPF)[13],定義文件結(jié)構(gòu),主要用于組織OPS文檔和提供相應(yīng)的導(dǎo)航機(jī)制。
(3)容器格式(Open Container Format,OCF)[14],將電子書(shū)相關(guān)的所有OPS、OPF文檔按規(guī)范要求置入該容器中,最終形成一個(gè)EPUB文檔。
EPUB格式遵循IDPF推出的OCF規(guī)范,OCF規(guī)范遵循ZIP壓縮技術(shù),即EPUB電子書(shū)本身就是一個(gè)ZIP文件,由多個(gè)部件組成,包含電子書(shū)相關(guān)的所有OPS和OPF文檔。除了少數(shù)圖片文件外,大多數(shù)元數(shù)據(jù)部件采用XML文件形式,并采用XHTML顯示內(nèi)容。下面以一個(gè)最簡(jiǎn)單的未經(jīng)加密處理的EPUB電子書(shū)為例進(jìn)行分析,EPUB文檔樹(shù)形結(jié)構(gòu)模型由頭文件minetype,信息文件container,元數(shù)據(jù)文件opf、邏輯目錄文件ncx和文檔內(nèi)容OEBPS組成,文檔內(nèi)容是內(nèi)容Content的包類(lèi)型。表示為:
內(nèi)容Content包括文本信息集XHTML,式樣信息css和對(duì)象集IMAGE。表示為:
文本信息集是由若干html和xhtml組成。表示為:
對(duì)象集表示為:
IMAGE={jpg,png,bmp等}
EPUB電子書(shū)內(nèi)部組織結(jié)構(gòu),如圖2所示。
圖2中帶有陰影部分目錄或文件是EPUB文檔中必不可少的組成部分。mimetype文件,說(shuō)明了EPUB的文件格式,必須確保在EPUB項(xiàng)目的根目錄中且內(nèi)容不能更改。EPUB根目錄下必須包含META-INF目錄,EPUB閱讀器首先會(huì)查看該目錄下的container.xml文件,該文件包含電子書(shū)的元數(shù)據(jù)文件位置和打開(kāi)方式,雖然文件非常小,但是對(duì)結(jié)構(gòu)要求很?chē)?yán)格。元數(shù)據(jù)文件opf,文件名沒(méi)有特殊要求,它指定了電子書(shū)中所有內(nèi)容的位置。ncx為電子書(shū)的邏輯目錄,定義了電子書(shū)的目錄表。圖2中的其他文件名可以根據(jù)需要自行命名。
圖2 一個(gè)簡(jiǎn)單EPUB電子書(shū)內(nèi)部結(jié)構(gòu)
2.3 兩種文檔格式的差異
通過(guò)上述兩種文檔格式的分析可以看出兩者在具體格式的結(jié)構(gòu)上存在一些不同之處。
在文檔結(jié)構(gòu)方面,UOF文檔采用了單一文件形式存儲(chǔ),在文檔內(nèi)部根據(jù)描述內(nèi)容的不同分塊表述。UOF主體部分描述文檔的主體內(nèi)容,通過(guò)分節(jié)描述了文檔的頁(yè)面排版格式,段落和表格則描述了節(jié)所包含的內(nèi)容和格式信息。UOF除了描述主體內(nèi)容外,還描述了與主體相關(guān)的其他附屬文檔信息,如用于定位的書(shū)簽,用于鏈接到外部位置的超級(jí)鏈接等。這些與主體相關(guān)的附屬信息并沒(méi)有直接嵌入到主體內(nèi)部,而是根據(jù)信息的用途分類(lèi),獨(dú)立于主體外分別描述。這些信息通過(guò)本身的標(biāo)志符和主體內(nèi)對(duì)其標(biāo)志符的引用建立起直接的聯(lián)系。這種方式既清晰地描述了主體以及其必要的附屬信息,又有效地將附屬信息與主體分離,同時(shí)便于附屬信息內(nèi)容的更改和統(tǒng)一管理[15]。
EPUB基于壓縮ZIP文件格式規(guī)范。ZIP文件被看作一個(gè)容器,每個(gè)容器由多個(gè)部件組成,每個(gè)部件描述了文檔的不同部分,除了少數(shù)代表圖片外,大多數(shù)部件采用XML文件形式,包含了文檔內(nèi)容信息和文檔格式信息;另外,容器中還包含了描述部件之間聯(lián)系的關(guān)系部件,當(dāng)部件組成EPUB格式文檔時(shí),關(guān)系將描述這些部件如何協(xié)同工作。
2.4 UOF到EPUB的結(jié)構(gòu)對(duì)應(yīng)
雖然兩種文檔格式在具體結(jié)構(gòu)上存在一些差異,但通過(guò)對(duì)UOF與EPUB格式的分析可以看到二者在整體上還是存在很大相似性的。首先,兩者都是基于XML規(guī)范描述的,僅有部分多媒體數(shù)據(jù)存在一些差異;其次,兩種格式的主要部件存在對(duì)應(yīng)關(guān)系,如圖3所示。
圖3 UOF與EPUB主要部件對(duì)應(yīng)關(guān)系
如圖3所示,UOF中的元數(shù)據(jù)部分對(duì)應(yīng)EPUB中的元數(shù)據(jù)文件(content.opf)。UOF中的文件鏈接集、主體部分對(duì)應(yīng)EPUB中的內(nèi)容部分(content.xhtml)。UOF中的式樣集和EPUB中的層疊式樣單(main.css)都描述了文檔的樣式信息。UOF對(duì)象集內(nèi)描述的圖形信息對(duì)應(yīng)于EPUB的多媒體文件(這里主要是指一些圖片文件)部分。
3.1 轉(zhuǎn)換思路
由上述二者的分析可得,UOF字處理格式到EPUB格式之間的轉(zhuǎn)換大體上是可行的。
UOF自身基于XML文檔格式,其包含的內(nèi)容豐富,涉及到文檔的格式、內(nèi)容等諸方面,需要進(jìn)行轉(zhuǎn)換的元素和屬性很多,且轉(zhuǎn)換后的EPUB文件中的大部分部件也是基于XML描述的,因此本文采用XSLT(可擴(kuò)展式樣單轉(zhuǎn)換語(yǔ)言)技術(shù)實(shí)現(xiàn)UOF文檔格式到EPUB文檔格式的主轉(zhuǎn)換[16]。思路如圖4所示。
圖4 EPUB到UOF轉(zhuǎn)換思路
首先需要分析兩種格式中各元素的映射關(guān)系,然后基于該映射關(guān)系,設(shè)計(jì)轉(zhuǎn)換式樣單,通過(guò)預(yù)處理和主轉(zhuǎn)換相結(jié)合的方法,實(shí)現(xiàn)UOF文檔格式到EPUB文檔格式的轉(zhuǎn)換。下面從元素映射關(guān)系分析、式樣單設(shè)計(jì)和文檔格式轉(zhuǎn)換流程三個(gè)方面來(lái)闡述。
3.2 元素映射關(guān)系分析
本文主要是面向UOF文字處理主體部分的轉(zhuǎn)換,同時(shí)也對(duì)元數(shù)據(jù)、鏈接集、對(duì)象集和式樣集做了相關(guān)的轉(zhuǎn)換。如圖5所示,UOF主體部分到EPUB各元素的映射關(guān)系。
UOF中的“段落”可以在EPUB中用<div>來(lái)描述,“段落屬性”可寫(xiě)到CSS文件中,具體使用時(shí)可直接引用CSS中的式樣。UOF中的“自動(dòng)編號(hào)集”可以用EPUB中的<o(jì)l>和<ul>來(lái)分別表示“有序列表”和“無(wú)序列表”。UOF中的文字表和EPUB中的<table>都是用來(lái)描述表格的,UOF文字表又可以細(xì)分為行,在EPUB中<tr>與之對(duì)應(yīng);UOF的行由單元格組成,對(duì)應(yīng)于EPUB中的<td>,單元格內(nèi)都由段落或者嵌套文字表構(gòu)成。關(guān)于UOF中的分節(jié)可以在EPUB中的<navPoint>找到對(duì)應(yīng)的描述。
由于UOF文檔格式與EPUB文檔格式結(jié)構(gòu)的差異,在分析查找映射關(guān)系時(shí),不可能將兩種格式中所有元素都對(duì)應(yīng)起來(lái),因此不得不舍棄一些在EPUB中無(wú)法對(duì)應(yīng)的元素,比如UOF中“公用處理規(guī)則”、“修訂”、“擴(kuò)展區(qū)”等。
圖5 UOF主體到EPUB各元素的對(duì)應(yīng)關(guān)系
3.3 式樣單設(shè)計(jì)
基于上述元素映射關(guān)系的分析,為實(shí)現(xiàn)UOF文檔格式到EPUB文檔格式的轉(zhuǎn)換,根據(jù)轉(zhuǎn)換思路編寫(xiě)主轉(zhuǎn)換式樣單,該式樣單包括文檔格式中所有功能點(diǎn)的轉(zhuǎn)換入口,具體轉(zhuǎn)換則交由每個(gè)功能點(diǎn)的轉(zhuǎn)換模板實(shí)現(xiàn)。將這些模板單獨(dú)存放在各自的轉(zhuǎn)換式樣單中,由主轉(zhuǎn)換式樣單進(jìn)行調(diào)用。這種模塊化設(shè)計(jì)使得轉(zhuǎn)換式樣單結(jié)構(gòu)清晰且易于調(diào)試和維護(hù)。本文共設(shè)計(jì)了三個(gè)主式樣單和四個(gè)子式樣單,通過(guò)“import”方法聲明對(duì)子式樣單的引用,主式樣單中的模板調(diào)用子式樣單中的模板實(shí)現(xiàn)轉(zhuǎn)換[17]。式樣單的功能如表1所示。
表1 式樣單功能表
表1中的content_opf.xsl實(shí)現(xiàn)UOF文檔中元數(shù)據(jù)部分到EPUB內(nèi)部content.opf文檔的轉(zhuǎn)換;main_css.xsl實(shí)現(xiàn)UOF文檔中式樣集部分到EPUB內(nèi)部main.css文檔的轉(zhuǎn)換;uof2xhtml.xsl通過(guò)調(diào)用4個(gè)子式樣單,實(shí)現(xiàn)UOF文字處理部分主要內(nèi)容的轉(zhuǎn)換,具體調(diào)用關(guān)系如圖6所示。
圖6 各式樣單調(diào)用關(guān)系
主轉(zhuǎn)換首先調(diào)用content_opf.xsl式樣單生成EPUB文檔必須文件之一content.opf,之后調(diào)用main_css.xsl式樣單,完成UOF式樣集部分的轉(zhuǎn)換,最后通過(guò)調(diào)用主式樣單uof2xhtml.xsl,并且uof2xhtml.xsl會(huì)自動(dòng)調(diào)用其他四個(gè)子式樣 單(paragraph.xsl、image.xsl、table.xsl和 list.xsl),完 成UOF文檔中段落、圖片、表格以及列表的轉(zhuǎn)換。
3.4 文檔格式轉(zhuǎn)換流程
由于UOF文檔采用了單一文件形式存儲(chǔ),而EPUB采用多文件壓縮形式存儲(chǔ),因此UOF到EPUB文檔格式轉(zhuǎn)換過(guò)程中必定會(huì)出現(xiàn)一些中間格式的臨時(shí)文檔,具體轉(zhuǎn)換流程如圖7所示。
圖7 UOF格式文檔到EPUB格式文檔轉(zhuǎn)換流程圖
首先對(duì)待轉(zhuǎn)換的UOF文檔進(jìn)行預(yù)處理,之后調(diào)用XSLT式樣單進(jìn)行轉(zhuǎn)換生成中間文檔,最后將生成的中間文檔進(jìn)行打包,生成符合標(biāo)準(zhǔn)的EPUB格式文檔。
3.4.1 中間文檔格式生成
由于圖片在UOF文檔中以Base64編碼形式存放,用XSLT技術(shù)無(wú)法提取Base64編碼,因此需要對(duì)UOF文檔進(jìn)行預(yù)處理。預(yù)處理程序首先從UOF文檔中提取出存儲(chǔ)圖片信息的Base64編碼字符串,然后調(diào)用Base64解碼器將提取出來(lái)的Base64編碼字符串解碼生成EPUB文檔所需的圖片文件,即圖7中的中間文檔A。預(yù)處理程序完成之后主程序?qū)?huì)依次調(diào)用三個(gè)主xsl式樣單生成opf、css以及xhtml文件。這里通過(guò)三個(gè)主式樣單轉(zhuǎn)換生成的文件即為圖7中的中間文件B。
3.4.2 EPUB文檔格式生成
從圖2 EPUB結(jié)構(gòu)分析可知,僅僅有中間文檔無(wú)法生成合法的EPUB格式文檔。本文在充分研究EPUB文檔結(jié)構(gòu)的基礎(chǔ)上,在轉(zhuǎn)換開(kāi)始前就準(zhǔn)備好了生成EPUB所需目錄結(jié)構(gòu)以及一些必備的核心文件。最后采用zip壓縮方法,將中間文檔以及一些必備的核心文件進(jìn)行打包,最終實(shí)現(xiàn)EPUB格式文檔的生成。
圖8 系統(tǒng)結(jié)構(gòu)層次圖
基于上述方法,給出UOF到EPUB的文檔格式轉(zhuǎn)換器。本章首先給出系統(tǒng)架構(gòu),然后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了詳細(xì)的分析。
4.1 系統(tǒng)架構(gòu)
UOF到EPUB的文檔格式轉(zhuǎn)換系統(tǒng)的總體架構(gòu)如圖8所示。
(1)打開(kāi)、解析文檔模塊,該模塊的功能是讀取UOF和XSLT文件。
(2)預(yù)處理模塊,該模塊的功能是對(duì)UOF進(jìn)行預(yù)處理,若UOF文檔中包含圖片,將會(huì)把圖片提取出來(lái)。
(3)中間文件生成模塊,該模塊主要是調(diào)用三個(gè)主式樣單對(duì)UOF關(guān)鍵部分進(jìn)行轉(zhuǎn)換。
(4)EPUP格式文件生成模塊,負(fù)責(zé)對(duì)中間文檔的打包以及EPUB格式文檔的生成。
(5)系統(tǒng)還有一個(gè)install模塊,功能是將主程序UOF2EPUB封裝成一個(gè)可執(zhí)行的安裝程序,方便用戶在不同的電腦上安裝使用。
4.2 結(jié)果分析
圖9展示了文檔轉(zhuǎn)換效果。圖9(a)是在永中Office 2010中打開(kāi)UOF文檔的效果,其中包括了字體樣式、列表、超鏈接、圖片表格等多種內(nèi)容。圖9(b)是經(jīng)過(guò)轉(zhuǎn)換器轉(zhuǎn)換得到的EPUB格式文檔在ebook-viewer的顯示效果??梢钥吹絻烧叩男Ч疽恢?。
圖9 轉(zhuǎn)換效果
在UOF到EPUB轉(zhuǎn)換器的實(shí)現(xiàn)過(guò)程中,根據(jù)《“中文辦公軟件文檔格式規(guī)范”功能分級(jí)與測(cè)試規(guī)范》(內(nèi)部資料)中所列的80多個(gè)常用功能點(diǎn)進(jìn)行了統(tǒng)計(jì),其中約63%的功能點(diǎn)可進(jìn)行對(duì)應(yīng)轉(zhuǎn)換??梢酝耆D(zhuǎn)換的有字體樣式、單元格合并、列表和圖片等。但部分功能點(diǎn),如著重號(hào)、上下標(biāo)等,由于軟件的實(shí)現(xiàn)方法不同在顯示效果上存在一些差異,該部分約占全部的功能點(diǎn)的15%,具體如表2所示。
表2 UOF功能點(diǎn)到EPUB轉(zhuǎn)換比例1)
通過(guò)對(duì)UOF和EPUB文檔格式進(jìn)行深入的分析,建立UOF格式到EPUB格式的結(jié)構(gòu)對(duì)應(yīng)關(guān)系,并詳細(xì)分析兩種格式中的元素映射關(guān)系;針對(duì)UOF格式和EPUB格式結(jié)構(gòu),采用XSLT轉(zhuǎn)換技術(shù)進(jìn)行核心功能的轉(zhuǎn)換,設(shè)計(jì)轉(zhuǎn)換式樣單并給出了轉(zhuǎn)換流程;最后實(shí)現(xiàn)了UOF到EPUB文檔格式的轉(zhuǎn)換器,并且針對(duì)文字處理的各主要功能點(diǎn)編寫(xiě)了UOF測(cè)試案例,測(cè)試文檔格式轉(zhuǎn)換的正確性。由于EPUB電子書(shū)格式以及電子書(shū)閱讀器的一些限制,本文未能對(duì)UOF的全部功能點(diǎn)進(jìn)行轉(zhuǎn)換。但通過(guò)轉(zhuǎn)換生成的EPUB文檔能夠顯示UOF文字處理文檔的基本內(nèi)容,如字體樣式、列表、表格、圖片等,滿足了用戶基本需求。將來(lái)還可以進(jìn)一步對(duì)式樣單進(jìn)行優(yōu)化,以減少轉(zhuǎn)換差異,提高轉(zhuǎn)換效率。
[1]International digital publishing forum.EPUB[EB/OL].[2012-08-09]. http://idpf.org/epub.
[2]中文辦公軟件基礎(chǔ)標(biāo)準(zhǔn)工作組.GB/T 20916-2007中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)中文辦公軟件文檔格式規(guī)范[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2007.
[3]李寧.中文辦公軟件文檔格式規(guī)范(1.0、1.1版)使用指南[M].長(zhǎng)沙:湖南師范大學(xué)出版社,2010.
[4]方春燕.“標(biāo)文通”(UOF)標(biāo)準(zhǔn)研制概況[J].北京信息科技大學(xué)學(xué)報(bào),2010(25):6-10.
[5]ISO/IEC 26300:2006 Open document format for office applications(OpenDocument) v1.1[S].2007.
[6]ISO/IEC29500:2008 Office open XML file formats[S].2008.
[7]羅文甜,李寧,侯霞.基于XML的主流辦公文檔格式間的轉(zhuǎn)換器研制情況概述[J].北京信息科技大學(xué)學(xué)報(bào),2010(25):109-116.
[8]W3C recommendation XHTML 1.1-module-based XHTML-second edition[S].2010.
[9]Wikipedia.EPUB[EB/OL].[2012-08-09].http://en.wikipedia.org/ wiki/EPUB.
[10]XML使用指南.GB/Z 21025-2007中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)化指導(dǎo)性技術(shù)文件[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2007.
[11]ISO/IEC JTC1 SC22,ISO/IEC ISO/IEC 13568:2002 Information technology-Z formalspecification notation-syntax,type system and semantics[S].Geneva:ISO/IEC,2002.
[12]IDPF.Open Publication Structure(OPS) 2.0.1 v1.0.1[EB/OL]. [2012-08-09].http://idpf.org/epub/20/spec/OPS_2.0.1_draft.htm.
[13]IDPF.Open Packaging Format(OPF) 2.0.1 v1.0.1[EB/OL]. [2012-08-09].http://idpf.org/epub/20/spec/OPF_2.0.1_draft.htm.
[14]IDPF.Open Container Format(OCF) 2.0.1 v1.0.1[EB/OL]. [2012-08-09].http://idpf.org/epub/20/spec/OCF_2.0.1_draft.doc.
[15]董慧.基于XML的文檔格式轉(zhuǎn)換技術(shù)研究——UOF XSL-FO轉(zhuǎn)換[D].北京:北京機(jī)械工業(yè)學(xué)院,2007.
[16]Fitzgerald M.Learning XSLT[M].[S.l.]:O’Reilly Media,2003.
[17]張曉敏.“標(biāo)文通”與HTML文檔格式的轉(zhuǎn)換技術(shù)研究[D].北京:北京信息科技大學(xué),2008.
標(biāo)文通文檔格式到電子書(shū)格式的分析與轉(zhuǎn)換
劉 寅1,2,馮 雪2,李 寧2,田英愛(ài)2
LIU Yin1,2,FENG Xue2,LI Ning2,TIAN Ying’ai2
1.State Key Laboratory of Digital Publishing Technology,Beijing 100871,China
2.School of Computer,Beijing Information Science&Technology University,Beijing 100101,China
For the realization of the document formats conversion from UOF to EPUB eBook,this paper focuses on analysing the structures of UOF and EPUB format and the relationship between the two formats,then designs the style sheets in detail and suggests a 2-phase conversion process for format transformation,including the pre-processing and major converting.As the result, a convertor is implemented and can handle the conversion correctly and conveniently for using handheld devices to read the UOF documents.This research is beneficial to document information exchange and transformation form flow documents to eBook as well as to the widely use of UOF.
Uniform Office Format(UOF);eBook;EPUB;XSLT;document format transformation
為實(shí)現(xiàn)“標(biāo)文通”(Uniform Office Format,UOF)文檔格式到EPUB電子書(shū)格式的轉(zhuǎn)換,重點(diǎn)分析了UOF格式和EPUB格式的結(jié)構(gòu)以及兩種結(jié)構(gòu)之間的映射關(guān)系,并詳細(xì)設(shè)計(jì)了轉(zhuǎn)換式樣單,提出了預(yù)處理與主轉(zhuǎn)換相結(jié)合的轉(zhuǎn)換思路。通過(guò)構(gòu)建轉(zhuǎn)換器,首次實(shí)現(xiàn)兩種文檔格式之間的轉(zhuǎn)換,方便手持設(shè)備用戶瀏覽UOF文檔。該項(xiàng)研究對(duì)于文檔信息共享,流式文檔到電子書(shū)的轉(zhuǎn)換和“標(biāo)文通”國(guó)家標(biāo)準(zhǔn)的推廣實(shí)施具有重要意義。
標(biāo)文通;電子書(shū);EPUB;式樣單;文檔格式轉(zhuǎn)換
A
TP317
10.3778/j.issn.1002-8331.1210-0124
LIU Yin,FENG Xue,LI Ning,et al.Analysis and transform from UOF document format to EPUB format.Computer Engineering and Applications,2013,49(11):130-134.
核高基重大專(zhuān)項(xiàng)網(wǎng)絡(luò)集成辦公軟件研發(fā)及產(chǎn)業(yè)化(No.2010ZX01044-001-001);北大方正集團(tuán)有限公司數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題資助;北京市教委科技面上項(xiàng)目(No.SQKM201211232011)。
劉寅(1986—),男,碩士研究生,研究領(lǐng)域?yàn)橹脴?biāo)語(yǔ)言與多媒體技術(shù);馮雪(1984—),女,博士,講師,研究方向?yàn)閿?shù)字版權(quán)保護(hù)技術(shù);李寧(1964—),男,博士,研究員,研究方向?yàn)閄ML應(yīng)用、文檔處理、多媒體;田英愛(ài)(1975—),女,講師,研究方向?yàn)槲臋n處理。E-mail:liuyin861107@qq.com
2012-10-15
2013-01-09
1002-8331(2013)11-0130-05
CNKI出版日期:2013-01-11 http://www.cnki.net/kcms/detail/11.2127.TP.20130111.0953.013.html