傳統(tǒng)出版單位要在現(xiàn)代出版中勝出,關(guān)鍵在于對優(yōu)質(zhì)內(nèi)容資源的占有和整合,誰占有優(yōu)質(zhì)的出版資源并具有整合的能力,誰就占據(jù)行業(yè)的制高點。數(shù)字出版業(yè)務(wù)最為核心的工作就是內(nèi)容資源的積累與整合,缺乏海量內(nèi)容資源的支撐,數(shù)字技術(shù)與網(wǎng)絡(luò)技術(shù)帶來的便捷性就無法實現(xiàn)。國內(nèi)大多數(shù)出版社自主發(fā)展數(shù)字出版業(yè)務(wù)面臨的最大困難之一,就是結(jié)構(gòu)化的內(nèi)容資源有限,無法滿足數(shù)字出版對海量內(nèi)容的重組和多方面應(yīng)用的要求。
獲得結(jié)構(gòu)化的內(nèi)容后,可以以多種形式復合發(fā)布作品:
* 保持作品原有內(nèi)容直接進行各種形態(tài)的數(shù)字出版,比如以章節(jié)為單位的內(nèi)容的銷售、圖片的銷售。
* 根據(jù)不同的用戶群體抽取不同的內(nèi)容進行針對性的出版,最直接的就是教輔類圖書的教師用書和學生用書。
* 對作品進行深度加工,對內(nèi)容進行重新編排組織,形成新的內(nèi)容形式,如交互性更強、更合適的閱讀體驗,為讀者提供更方便合適的閱讀服務(wù)。如依不同標準、篇幅等對工具書的條目重新抽取,形成針對不同媒體、不同讀者對象的新的工具書。
* 海量內(nèi)容資源庫的知識服務(wù)。
在數(shù)字出版時代,新的出版模式將不可避免地給現(xiàn)有出版格局帶來新的挑戰(zhàn),這些挑戰(zhàn)要求跨媒體、跨部門更緊密地合作,要求部門產(chǎn)品線融合、細分、互補,要求摸索出制度化、程序化的運營新思路和管理新模式,建立起可重用的結(jié)構(gòu)化內(nèi)容資源庫,最終形成跨媒體、專業(yè)性、分層次的數(shù)字復合出版發(fā)展格局,使出版產(chǎn)品資源配置更趨于合理化、規(guī)?;?,為出版單位的內(nèi)容產(chǎn)品樹立扎實、長期的市場競爭優(yōu)勢,而可重用的結(jié)構(gòu)化內(nèi)容資源庫的基礎(chǔ)是傳統(tǒng)圖書內(nèi)容的結(jié)構(gòu)化。
圖書內(nèi)容資源結(jié)構(gòu)化考慮的要點
目前,我國絕大部分出版社的編輯、審稿過程依然在紙面上進行,因此,數(shù)字化的出版內(nèi)容資源往往要到成書時依靠排版文件才能獲得,而此時的排版文件中,書稿內(nèi)容已經(jīng)被排版指令所“污染”,書稿的知識體系或邏輯結(jié)構(gòu)也很難被識別,所以,排版文檔除了用于書稿的再次印刷外,能直接被作為數(shù)字化資源而利用(如數(shù)字出版)的幾率非常低,這使得出版社想通過數(shù)字化技術(shù)對已出版的內(nèi)容進行重新組合、再次使用幾乎不太可能。這就要求出版單位研究以下問題。
第一,合作伙伴的選擇。考慮到目前出版社大部分的排版文件是方正“書版”文件,所以項目的研發(fā)團隊的研究重點是:由計算機系統(tǒng)對當下數(shù)字出版內(nèi)容資源的主體——方正“書版”的排版文件進行較高程度的自動化分析并完成結(jié)構(gòu)化工作,實現(xiàn)將排版文件中的書稿內(nèi)容數(shù)據(jù)與排版指令分開,還原書稿的知識體系或邏輯結(jié)構(gòu)(不同類型的圖書分別表現(xiàn)為不同的形式,如章節(jié)結(jié)構(gòu)、詞條結(jié)構(gòu)、習題結(jié)構(gòu)等)的目標,以便將數(shù)字出版內(nèi)容資源在新的介質(zhì)上進行發(fā)布傳播,或根據(jù)出版要求重新組合,產(chǎn)生新的出版價值。
以上所述的“還原書稿的知識體系或邏輯結(jié)構(gòu)”的過程,被稱為“反解”。
第二,內(nèi)容結(jié)構(gòu)化反解時對內(nèi)容正確性的要求。
文件版本處理:只需指定排版文件的版本,統(tǒng)一版本的工作由后臺規(guī)范化引擎自動完成。
圖像格式轉(zhuǎn)換:對舊格式的圖片如EPS進行統(tǒng)一處理,轉(zhuǎn)換為當前流行的圖片格式,如TIFF、JPEG等。
補字處理:將歷史資源中的補字轉(zhuǎn)換對應(yīng)到新的編碼體系中,并解決在一般環(huán)境下對補字的正常顯示和輸出。
特殊符號:將歷史資源中特殊符號進行提取和轉(zhuǎn)換,以達到入庫及重用的目的。
數(shù)學公式、表格的處理:可提取數(shù)學公式和表格進行內(nèi)容的轉(zhuǎn)換,不僅僅要求達到入庫查看的目的,而且將來可以再被編輯。
第三,內(nèi)容結(jié)構(gòu)化反解的完備性和易用性。
* 提供由智能標注及少量人工輔助標注兩部分功能組成的圖形化的交互式標注工具,可以方便地從中間文檔格式提取要標注的章節(jié)、知識點、圖片、公式、表格等內(nèi)容,組織成結(jié)構(gòu)化的XML格式。
* 識別各種用于編排標題的書版標記,形成結(jié)構(gòu)化文檔中的各級標題,文字內(nèi)容自動按各級標題切分,每個標題對應(yīng)結(jié)構(gòu)樹上的一個節(jié)點,各級標題按照所屬級別構(gòu)成分層結(jié)構(gòu)。
* 支持通過規(guī)則映射的方式對一些采用不規(guī)范方式描述的標題內(nèi)容進行智能識別。
* 支持大樣與小樣、結(jié)構(gòu)與小樣之間兩種不同模式的互動操作。
* 支持大樣的分頁預覽以及針對公式、圖片、表格的劃區(qū)標注。
* 支持跨欄或跨頁內(nèi)容的標注,并允許結(jié)點及其結(jié)點內(nèi)容的合并。
第四,內(nèi)容結(jié)構(gòu)化反解后語義的準確性。
* 辭書條目類拆分后語義的準確性。
* 教材教輔類拆分后語義的準確性。
* 論著類拆分后語義的準確性。
根據(jù)以上分析的要點,我們選擇了幾本非常有代表性的圖書進行研究,分別是論著類的《收入和財富分配不平等:動態(tài)視角》、教育類的《教育大詞典》、辭書類的《英漢大詞典》作為驗證的標準,并通過較大規(guī)模的實際運用來驗證研究成果。
圖書內(nèi)容資源結(jié)構(gòu)化的基本思路與實踐
雖然說排版文件中,書稿內(nèi)容已經(jīng)被排版指令所“污染”,書稿的知識體系或邏輯結(jié)構(gòu)也很難被直觀識別,但仔細分析排版指令、排版后的版式和內(nèi)容等,我們認為,自動化分析和完成結(jié)構(gòu)化還是可能的,所以在研究中我們提出了自動化拆分與少量交互式的人工標引的目標。
圖書結(jié)構(gòu)化反解的思路可以分為以下幾個方面:
第一,通過排版的特征來進行分析
一般來說,排版文件中關(guān)于篇、章、節(jié)、正文等字體字號是有差別的,通過這個差異性來進行圖書結(jié)構(gòu)化的特征分析與提取。
在圖中,段的首字大寫和腳注等信息,這在做結(jié)構(gòu)化處理過程中希望能通過程序自動處理和判斷。
第二,通過文字特征進行反解,比如序號、特殊標記等
除了字體字號的差異以外,對于篇、章、節(jié)等內(nèi)容來說,還有一些規(guī)律是可以去分析的,比如序號和特殊標記等。配合字體字號的差異方法,我們對于大部分的圖書內(nèi)容就可以提取出來了。下圖就是圖書比較典型的序號標記。
在上圖中的章節(jié)序號標記比如:5.1,5.1-1,5.1-2等標識,其中5.1下有一個橫線將節(jié)標題與內(nèi)容分開,這通過智能判斷是很難區(qū)分的,需要提供交互式的操作進行人工調(diào)整。
反解結(jié)果如下:
第三,通過正則表達式的方式進行細粒度的拆分
通過排版的特征和文字特征進行反解,對于論著、教材教輔類的圖書內(nèi)容拆分就能基本滿足應(yīng)用的需求,但對于辭書類圖書來講,細粒度還有些不夠,需要拆分到段內(nèi)。
在上圖中:“阿波提(Aporti,1791—1858)”“阿伯茨霍爾姆學校(Abbotsholme School)”“阿部重孝(1890—1939)”等內(nèi)容不一樣,但在整本書中中文名、括號、逗號這些特殊標記表達的是不同的意思。對于以上類型的條目,前兩種方法組合起來也解決不了段內(nèi)反解的要求。所以我們就想到了通過正則表達式來進行邏輯分析和提取內(nèi)容。反解的結(jié)果如下:
對于更加復雜的一些段內(nèi)拆分,正則表達式的設(shè)置更加專業(yè),左下圖是《英漢大詞典》中一個典型的條目:
右上圖是通過更復雜的正則表達式反解出來的結(jié)果。
圖書內(nèi)容資源結(jié)構(gòu)化方法的研究只是成功的將圖書反解,這就帶來了另外一些話題,比如在數(shù)字出版時代,出版社怎么規(guī)范排版文件格式、如何建設(shè)可重用的結(jié)構(gòu)化內(nèi)容資源庫、加工流程的探索以及與動態(tài)出版系統(tǒng)的結(jié)合等。
圖書內(nèi)容資源結(jié)構(gòu)化方法的研究,為傳統(tǒng)出版向數(shù)字出版轉(zhuǎn)型的戰(zhàn)略要求提供了一個高效率、低成本的編輯通道。為圖書內(nèi)容在數(shù)字出版時代重新組織進行多渠道發(fā)布提供了一個基礎(chǔ)的方法。
(作者張國強單位系上海數(shù)字世紀網(wǎng)絡(luò)有限公司,林江發(fā)、繆萍系北京北大方正電子有限公司)