傳統(tǒng)出版單位要在現(xiàn)代出版中勝出,關(guān)鍵在于對(duì)優(yōu)質(zhì)內(nèi)容資源的占有和整合,誰(shuí)占有優(yōu)質(zhì)的出版資源并具有整合的能力,誰(shuí)就占據(jù)行業(yè)的制高點(diǎn)。數(shù)字出版業(yè)務(wù)最為核心的工作就是內(nèi)容資源的積累與整合,缺乏海量?jī)?nèi)容資源的支撐,數(shù)字技術(shù)與網(wǎng)絡(luò)技術(shù)帶來(lái)的便捷性就無(wú)法實(shí)現(xiàn)。國(guó)內(nèi)大多數(shù)出版社自主發(fā)展數(shù)字出版業(yè)務(wù)面臨的最大困難之一,就是結(jié)構(gòu)化的內(nèi)容資源有限,無(wú)法滿足數(shù)字出版對(duì)海量?jī)?nèi)容的重組和多方面應(yīng)用的要求。
獲得結(jié)構(gòu)化的內(nèi)容后,可以以多種形式復(fù)合發(fā)布作品:
* 保持作品原有內(nèi)容直接進(jìn)行各種形態(tài)的數(shù)字出版,比如以章節(jié)為單位的內(nèi)容的銷售、圖片的銷售。
* 根據(jù)不同的用戶群體抽取不同的內(nèi)容進(jìn)行針對(duì)性的出版,最直接的就是教輔類圖書的教師用書和學(xué)生用書。
* 對(duì)作品進(jìn)行深度加工,對(duì)內(nèi)容進(jìn)行重新編排組織,形成新的內(nèi)容形式,如交互性更強(qiáng)、更合適的閱讀體驗(yàn),為讀者提供更方便合適的閱讀服務(wù)。如依不同標(biāo)準(zhǔn)、篇幅等對(duì)工具書的條目重新抽取,形成針對(duì)不同媒體、不同讀者對(duì)象的新的工具書。
* 海量?jī)?nèi)容資源庫(kù)的知識(shí)服務(wù)。
在數(shù)字出版時(shí)代,新的出版模式將不可避免地給現(xiàn)有出版格局帶來(lái)新的挑戰(zhàn),這些挑戰(zhàn)要求跨媒體、跨部門更緊密地合作,要求部門產(chǎn)品線融合、細(xì)分、互補(bǔ),要求摸索出制度化、程序化的運(yùn)營(yíng)新思路和管理新模式,建立起可重用的結(jié)構(gòu)化內(nèi)容資源庫(kù),最終形成跨媒體、專業(yè)性、分層次的數(shù)字復(fù)合出版發(fā)展格局,使出版產(chǎn)品資源配置更趨于合理化、規(guī)?;瑸槌霭鎲挝坏膬?nèi)容產(chǎn)品樹立扎實(shí)、長(zhǎng)期的市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì),而可重用的結(jié)構(gòu)化內(nèi)容資源庫(kù)的基礎(chǔ)是傳統(tǒng)圖書內(nèi)容的結(jié)構(gòu)化。
圖書內(nèi)容資源結(jié)構(gòu)化考慮的要點(diǎn)
目前,我國(guó)絕大部分出版社的編輯、審稿過(guò)程依然在紙面上進(jìn)行,因此,數(shù)字化的出版內(nèi)容資源往往要到成書時(shí)依靠排版文件才能獲得,而此時(shí)的排版文件中,書稿內(nèi)容已經(jīng)被排版指令所“污染”,書稿的知識(shí)體系或邏輯結(jié)構(gòu)也很難被識(shí)別,所以,排版文檔除了用于書稿的再次印刷外,能直接被作為數(shù)字化資源而利用(如數(shù)字出版)的幾率非常低,這使得出版社想通過(guò)數(shù)字化技術(shù)對(duì)已出版的內(nèi)容進(jìn)行重新組合、再次使用幾乎不太可能。這就要求出版單位研究以下問題。
第一,合作伙伴的選擇。考慮到目前出版社大部分的排版文件是方正“書版”文件,所以項(xiàng)目的研發(fā)團(tuán)隊(duì)的研究重點(diǎn)是:由計(jì)算機(jī)系統(tǒng)對(duì)當(dāng)下數(shù)字出版內(nèi)容資源的主體——方正“書版”的排版文件進(jìn)行較高程度的自動(dòng)化分析并完成結(jié)構(gòu)化工作,實(shí)現(xiàn)將排版文件中的書稿內(nèi)容數(shù)據(jù)與排版指令分開,還原書稿的知識(shí)體系或邏輯結(jié)構(gòu)(不同類型的圖書分別表現(xiàn)為不同的形式,如章節(jié)結(jié)構(gòu)、詞條結(jié)構(gòu)、習(xí)題結(jié)構(gòu)等)的目標(biāo),以便將數(shù)字出版內(nèi)容資源在新的介質(zhì)上進(jìn)行發(fā)布傳播,或根據(jù)出版要求重新組合,產(chǎn)生新的出版價(jià)值。
以上所述的“還原書稿的知識(shí)體系或邏輯結(jié)構(gòu)”的過(guò)程,被稱為“反解”。
第二,內(nèi)容結(jié)構(gòu)化反解時(shí)對(duì)內(nèi)容正確性的要求。
文件版本處理:只需指定排版文件的版本,統(tǒng)一版本的工作由后臺(tái)規(guī)范化引擎自動(dòng)完成。
圖像格式轉(zhuǎn)換:對(duì)舊格式的圖片如EPS進(jìn)行統(tǒng)一處理,轉(zhuǎn)換為當(dāng)前流行的圖片格式,如TIFF、JPEG等。
補(bǔ)字處理:將歷史資源中的補(bǔ)字轉(zhuǎn)換對(duì)應(yīng)到新的編碼體系中,并解決在一般環(huán)境下對(duì)補(bǔ)字的正常顯示和輸出。
特殊符號(hào):將歷史資源中特殊符號(hào)進(jìn)行提取和轉(zhuǎn)換,以達(dá)到入庫(kù)及重用的目的。
數(shù)學(xué)公式、表格的處理:可提取數(shù)學(xué)公式和表格進(jìn)行內(nèi)容的轉(zhuǎn)換,不僅僅要求達(dá)到入庫(kù)查看的目的,而且將來(lái)可以再被編輯。
第三,內(nèi)容結(jié)構(gòu)化反解的完備性和易用性。
* 提供由智能標(biāo)注及少量人工輔助標(biāo)注兩部分功能組成的圖形化的交互式標(biāo)注工具,可以方便地從中間文檔格式提取要標(biāo)注的章節(jié)、知識(shí)點(diǎn)、圖片、公式、表格等內(nèi)容,組織成結(jié)構(gòu)化的XML格式。
* 識(shí)別各種用于編排標(biāo)題的書版標(biāo)記,形成結(jié)構(gòu)化文檔中的各級(jí)標(biāo)題,文字內(nèi)容自動(dòng)按各級(jí)標(biāo)題切分,每個(gè)標(biāo)題對(duì)應(yīng)結(jié)構(gòu)樹上的一個(gè)節(jié)點(diǎn),各級(jí)標(biāo)題按照所屬級(jí)別構(gòu)成分層結(jié)構(gòu)。
* 支持通過(guò)規(guī)則映射的方式對(duì)一些采用不規(guī)范方式描述的標(biāo)題內(nèi)容進(jìn)行智能識(shí)別。
* 支持大樣與小樣、結(jié)構(gòu)與小樣之間兩種不同模式的互動(dòng)操作。
* 支持大樣的分頁(yè)預(yù)覽以及針對(duì)公式、圖片、表格的劃區(qū)標(biāo)注。
* 支持跨欄或跨頁(yè)內(nèi)容的標(biāo)注,并允許結(jié)點(diǎn)及其結(jié)點(diǎn)內(nèi)容的合并。
第四,內(nèi)容結(jié)構(gòu)化反解后語(yǔ)義的準(zhǔn)確性。
* 辭書條目類拆分后語(yǔ)義的準(zhǔn)確性。
* 教材教輔類拆分后語(yǔ)義的準(zhǔn)確性。
* 論著類拆分后語(yǔ)義的準(zhǔn)確性。
根據(jù)以上分析的要點(diǎn),我們選擇了幾本非常有代表性的圖書進(jìn)行研究,分別是論著類的《收入和財(cái)富分配不平等:動(dòng)態(tài)視角》、教育類的《教育大詞典》、辭書類的《英漢大詞典》作為驗(yàn)證的標(biāo)準(zhǔn),并通過(guò)較大規(guī)模的實(shí)際運(yùn)用來(lái)驗(yàn)證研究成果。
圖書內(nèi)容資源結(jié)構(gòu)化的基本思路與實(shí)踐
雖然說(shuō)排版文件中,書稿內(nèi)容已經(jīng)被排版指令所“污染”,書稿的知識(shí)體系或邏輯結(jié)構(gòu)也很難被直觀識(shí)別,但仔細(xì)分析排版指令、排版后的版式和內(nèi)容等,我們認(rèn)為,自動(dòng)化分析和完成結(jié)構(gòu)化還是可能的,所以在研究中我們提出了自動(dòng)化拆分與少量交互式的人工標(biāo)引的目標(biāo)。
圖書結(jié)構(gòu)化反解的思路可以分為以下幾個(gè)方面:
第一,通過(guò)排版的特征來(lái)進(jìn)行分析
一般來(lái)說(shuō),排版文件中關(guān)于篇、章、節(jié)、正文等字體字號(hào)是有差別的,通過(guò)這個(gè)差異性來(lái)進(jìn)行圖書結(jié)構(gòu)化的特征分析與提取。
在圖中,段的首字大寫和腳注等信息,這在做結(jié)構(gòu)化處理過(guò)程中希望能通過(guò)程序自動(dòng)處理和判斷。
第二,通過(guò)文字特征進(jìn)行反解,比如序號(hào)、特殊標(biāo)記等
除了字體字號(hào)的差異以外,對(duì)于篇、章、節(jié)等內(nèi)容來(lái)說(shuō),還有一些規(guī)律是可以去分析的,比如序號(hào)和特殊標(biāo)記等。配合字體字號(hào)的差異方法,我們對(duì)于大部分的圖書內(nèi)容就可以提取出來(lái)了。下圖就是圖書比較典型的序號(hào)標(biāo)記。
在上圖中的章節(jié)序號(hào)標(biāo)記比如:5.1,5.1-1,5.1-2等標(biāo)識(shí),其中5.1下有一個(gè)橫線將節(jié)標(biāo)題與內(nèi)容分開,這通過(guò)智能判斷是很難區(qū)分的,需要提供交互式的操作進(jìn)行人工調(diào)整。
反解結(jié)果如下:
第三,通過(guò)正則表達(dá)式的方式進(jìn)行細(xì)粒度的拆分
通過(guò)排版的特征和文字特征進(jìn)行反解,對(duì)于論著、教材教輔類的圖書內(nèi)容拆分就能基本滿足應(yīng)用的需求,但對(duì)于辭書類圖書來(lái)講,細(xì)粒度還有些不夠,需要拆分到段內(nèi)。
在上圖中:“阿波提(Aporti,1791—1858)”“阿伯茨霍爾姆學(xué)校(Abbotsholme School)”“阿部重孝(1890—1939)”等內(nèi)容不一樣,但在整本書中中文名、括號(hào)、逗號(hào)這些特殊標(biāo)記表達(dá)的是不同的意思。對(duì)于以上類型的條目,前兩種方法組合起來(lái)也解決不了段內(nèi)反解的要求。所以我們就想到了通過(guò)正則表達(dá)式來(lái)進(jìn)行邏輯分析和提取內(nèi)容。反解的結(jié)果如下:
對(duì)于更加復(fù)雜的一些段內(nèi)拆分,正則表達(dá)式的設(shè)置更加專業(yè),左下圖是《英漢大詞典》中一個(gè)典型的條目:
右上圖是通過(guò)更復(fù)雜的正則表達(dá)式反解出來(lái)的結(jié)果。
圖書內(nèi)容資源結(jié)構(gòu)化方法的研究只是成功的將圖書反解,這就帶來(lái)了另外一些話題,比如在數(shù)字出版時(shí)代,出版社怎么規(guī)范排版文件格式、如何建設(shè)可重用的結(jié)構(gòu)化內(nèi)容資源庫(kù)、加工流程的探索以及與動(dòng)態(tài)出版系統(tǒng)的結(jié)合等。
圖書內(nèi)容資源結(jié)構(gòu)化方法的研究,為傳統(tǒng)出版向數(shù)字出版轉(zhuǎn)型的戰(zhàn)略要求提供了一個(gè)高效率、低成本的編輯通道。為圖書內(nèi)容在數(shù)字出版時(shí)代重新組織進(jìn)行多渠道發(fā)布提供了一個(gè)基礎(chǔ)的方法。
(作者張國(guó)強(qiáng)單位系上海數(shù)字世紀(jì)網(wǎng)絡(luò)有限公司,林江發(fā)、繆萍系北京北大方正電子有限公司)