數(shù)字出版業(yè)務(wù)最為核心的工作就是內(nèi)容資源的積累與整合,缺乏海量內(nèi)容資源的支撐,數(shù)字技術(shù)與網(wǎng)絡(luò)技術(shù)帶來的便捷性就無法實(shí)現(xiàn),因此,數(shù)字出版資源庫的建設(shè)是數(shù)字出版的前提和基礎(chǔ)。
數(shù)字出版資源庫建設(shè)思路
數(shù)字出版資源庫的建設(shè),不僅僅是建立起基于整書內(nèi)容的出版資源庫來滿足資源管理、查詢、發(fā)布的需要,更需要建立一個(gè)碎片化的基于內(nèi)容對(duì)象的出版資源庫,來滿足資源的重復(fù)利用和多種產(chǎn)品形態(tài)發(fā)布的需要。
基于整書的出版資源庫建設(shè)思路
基于整書的出版資源庫的建設(shè)目標(biāo)是對(duì)圖書數(shù)據(jù)的管理,收集和整理與圖書有關(guān)的所有相關(guān)信息,并對(duì)前端數(shù)字運(yùn)營平臺(tái)作有效支撐,比如電子書的運(yùn)營、圖片庫的運(yùn)營、課件的運(yùn)營等。
基于整書的出版資源庫建設(shè)的主要思路包括如下幾點(diǎn):
1. 基于整書的出版資源庫所包括的資源內(nèi)容要考慮的方面
基于整書的出版資源庫包括與圖書對(duì)應(yīng)排版文件、與圖書有關(guān)的視頻和音頻文件甚至包括與圖書相關(guān)的活動(dòng)信息等數(shù)據(jù)。按內(nèi)容類別劃分如下:圖書基本信息、圖書精編信息、圖書宣傳信息、數(shù)字樣書信息、圖書排版文件中涉及的各種圖片以及圖書附加資源等。
2. 基于整書的出版資源庫的分類、檢索和查詢
基于整書的出版資源庫可以自定義分類和或支持中圖法分類。
出版資源庫要做到“一書一檔”,也就是所有信息都能最直接地從一個(gè)入口找到相關(guān)的信息。而且系列叢書能夠有效關(guān)聯(lián),甚至資源之間也要有效關(guān)聯(lián)。
在圖書出版資源庫中不僅僅對(duì)同一版本的圖書數(shù)據(jù)進(jìn)行管理,而且在同一圖書庫中有多個(gè)圖書版本信息,但不同版本的圖書信息是一個(gè)獨(dú)立的拷貝版本,打開任何一個(gè)圖書書目的詳細(xì)信息,都可以鏈接到其他版本的圖書中。
3. 基于整書的出版資源庫元數(shù)據(jù)的自定義和擴(kuò)展
目前已經(jīng)有了很多種數(shù)字出版的商業(yè)模式,將來一定還會(huì)有新的商業(yè)模式涌現(xiàn)出來,新的數(shù)字產(chǎn)品出來,為了保證將來的可擴(kuò)展性,必須要求元數(shù)據(jù)內(nèi)容的自定義和可擴(kuò)展。
基于內(nèi)容對(duì)象的出版資源庫
基于內(nèi)容對(duì)象的出版資源庫的建設(shè)目標(biāo)是:將整書的出版資源庫中有價(jià)值的圖書,根據(jù)其性質(zhì)、特點(diǎn)建立相應(yīng)的拆分后的內(nèi)容對(duì)象資源庫,滿足新的數(shù)字產(chǎn)品和商業(yè)模式的需要,提高內(nèi)容的利用率。主要思路:建設(shè)的數(shù)字出版資源庫里的出版資源可能會(huì)有多種類型,例如根據(jù)出版資源性質(zhì)、特點(diǎn)的不同,可分出論著、教材教輔、辭書等類。針對(duì)不同性質(zhì)的圖書資源采用不同的反解方式,并建立不同類型的資源庫,如按結(jié)構(gòu)拆分的論著庫、按篇章節(jié)拆分的教材教輔庫、按條目拆分的辭書語料庫等。
1. 論著類圖書:把論著內(nèi)容結(jié)構(gòu)化,每篇論著可供結(jié)構(gòu)化的內(nèi)容包括:標(biāo)題、作者、摘要、關(guān)鍵詞、文章內(nèi)容。
2. 教材教輔類:按照篇、章、節(jié)來反解教材教輔。
3. 辭書:先把辭書按照條目為單位反解,再進(jìn)一步把條目里面不同意義的內(nèi)容結(jié)構(gòu)化。最終一本辭書對(duì)應(yīng)一個(gè)條目集合,條目集合里面每個(gè)條目都是結(jié)構(gòu)化的數(shù)據(jù)。
數(shù)字出版資源庫建設(shè)實(shí)踐
基于整書的出版資源庫的建設(shè)實(shí)踐
圖書內(nèi)容的收集:排版文件、圖片、視頻等圖書內(nèi)容資源散落在排版廠、加工公司、編輯的電腦上。在數(shù)字出版資源庫建設(shè)過程中,要從出版集團(tuán)或者整個(gè)出版社的角度考慮資源庫的建設(shè),對(duì)數(shù)字出版資源進(jìn)行集中管理,同時(shí)通過嚴(yán)格的權(quán)限控制保障數(shù)字出版資源庫的安全。
圖書內(nèi)容的正確性檢查:由于排版文件的歷史資源有保存條件、手段的限制,出版社從排版廠拿到的排版文件,很有可能不是印刷出片的最后的定版文件,除了文字、樣式等方面與紙書有差異外,也可能存在一些排版的語法錯(cuò)誤。因此,在進(jìn)行結(jié)構(gòu)化處理之前,需要首先保證排版文件的正確性。
圖書內(nèi)容的完備性檢查:從排版廠拿到的排版文件,所包含的信息特別多,比如圖片、補(bǔ)字等各種信息,因此,必須保障這個(gè)文件的完備性,是否缺圖等。對(duì)使用最為廣泛的“書版”的文件,可使用方正“經(jīng)典”的打包工具進(jìn)行完備性檢查,來保障排版文件的完備性。除了排版文件的完備性外,還有與圖書有關(guān)的其他內(nèi)容,比如:封面、高精度PDF、低精度PDF等。
圖書資源的關(guān)聯(lián)關(guān)系建立:現(xiàn)有的圖書信息都從ERP或MIS中導(dǎo)入,加工人員無需也不能更改,以保證資源庫中圖書分類與ERP或MIS中的相同,使整個(gè)出版集團(tuán)或出版社的信息保持一致。但同時(shí),資源庫中圖書信息也支持自定義字段,以滿足將來更多發(fā)布需求。
資源庫對(duì)于采集工具提交的圖片、排版文件、封面、高精度PDF、低精度PDF、視頻、音頻文件能夠自動(dòng)實(shí)現(xiàn)與圖書的關(guān)聯(lián)。同時(shí)也支持手工的方式進(jìn)行關(guān)聯(lián),有單向關(guān)聯(lián)和雙向關(guān)聯(lián)。
下圖是實(shí)際效果圖:
基于內(nèi)容對(duì)象的出版資源庫可分為不同的類別,如:論著、教材教輔、辭書等。不同類別的圖書,因性質(zhì)、結(jié)構(gòu)有較大差異,所以要采用不同的反解方式,并建立不同的資源庫。如針對(duì)上述三種圖書資源,要分別建立按結(jié)構(gòu)拆分的論著庫、按篇章節(jié)題(目)拆分的教材教輔庫、按條目拆分的辭書語料庫。下面是基于內(nèi)容對(duì)象的出版資源庫的實(shí)踐結(jié)果的展示:
數(shù)字出版資源庫的建設(shè)只是迎接數(shù)字出版時(shí)代的第一步,后續(xù)的數(shù)字運(yùn)營平臺(tái)和自適應(yīng)的動(dòng)態(tài)出版系統(tǒng)也在建設(shè)的過程中越來越清晰。數(shù)字出版資源庫中基于整書的出版資源庫為出版單位的資源整合打下了一個(gè)基礎(chǔ),與數(shù)字運(yùn)營平臺(tái)結(jié)合可以實(shí)現(xiàn)基于電子書、圖片、視頻、課件等內(nèi)容的網(wǎng)絡(luò)運(yùn)營和服務(wù),而基于內(nèi)容對(duì)象的出版資源庫與動(dòng)態(tài)出版系統(tǒng)的結(jié)合,根據(jù)新的模板比如新的紙書模板、CEBX/Epub模板、光盤模板、網(wǎng)頁發(fā)布模板、手機(jī)彩信模板,自動(dòng)生成各種新的數(shù)字出版產(chǎn)品,從而真正實(shí)現(xiàn)“一次加工,多重利用”。