數字出版業(yè)務最為核心的工作就是內容資源的積累與整合,缺乏海量內容資源的支撐,數字技術與網絡技術帶來的便捷性就無法實現(xiàn),因此,數字出版資源庫的建設是數字出版的前提和基礎。
數字出版資源庫建設思路
數字出版資源庫的建設,不僅僅是建立起基于整書內容的出版資源庫來滿足資源管理、查詢、發(fā)布的需要,更需要建立一個碎片化的基于內容對象的出版資源庫,來滿足資源的重復利用和多種產品形態(tài)發(fā)布的需要。
基于整書的出版資源庫建設思路
基于整書的出版資源庫的建設目標是對圖書數據的管理,收集和整理與圖書有關的所有相關信息,并對前端數字運營平臺作有效支撐,比如電子書的運營、圖片庫的運營、課件的運營等。
基于整書的出版資源庫建設的主要思路包括如下幾點:
1. 基于整書的出版資源庫所包括的資源內容要考慮的方面
基于整書的出版資源庫包括與圖書對應排版文件、與圖書有關的視頻和音頻文件甚至包括與圖書相關的活動信息等數據。按內容類別劃分如下:圖書基本信息、圖書精編信息、圖書宣傳信息、數字樣書信息、圖書排版文件中涉及的各種圖片以及圖書附加資源等。
2. 基于整書的出版資源庫的分類、檢索和查詢
基于整書的出版資源庫可以自定義分類和或支持中圖法分類。
出版資源庫要做到“一書一檔”,也就是所有信息都能最直接地從一個入口找到相關的信息。而且系列叢書能夠有效關聯(lián),甚至資源之間也要有效關聯(lián)。
在圖書出版資源庫中不僅僅對同一版本的圖書數據進行管理,而且在同一圖書庫中有多個圖書版本信息,但不同版本的圖書信息是一個獨立的拷貝版本,打開任何一個圖書書目的詳細信息,都可以鏈接到其他版本的圖書中。
3. 基于整書的出版資源庫元數據的自定義和擴展
目前已經有了很多種數字出版的商業(yè)模式,將來一定還會有新的商業(yè)模式涌現(xiàn)出來,新的數字產品出來,為了保證將來的可擴展性,必須要求元數據內容的自定義和可擴展。
基于內容對象的出版資源庫
基于內容對象的出版資源庫的建設目標是:將整書的出版資源庫中有價值的圖書,根據其性質、特點建立相應的拆分后的內容對象資源庫,滿足新的數字產品和商業(yè)模式的需要,提高內容的利用率。主要思路:建設的數字出版資源庫里的出版資源可能會有多種類型,例如根據出版資源性質、特點的不同,可分出論著、教材教輔、辭書等類。針對不同性質的圖書資源采用不同的反解方式,并建立不同類型的資源庫,如按結構拆分的論著庫、按篇章節(jié)拆分的教材教輔庫、按條目拆分的辭書語料庫等。
1. 論著類圖書:把論著內容結構化,每篇論著可供結構化的內容包括:標題、作者、摘要、關鍵詞、文章內容。
2. 教材教輔類:按照篇、章、節(jié)來反解教材教輔。
3. 辭書:先把辭書按照條目為單位反解,再進一步把條目里面不同意義的內容結構化。最終一本辭書對應一個條目集合,條目集合里面每個條目都是結構化的數據。
數字出版資源庫建設實踐
基于整書的出版資源庫的建設實踐
圖書內容的收集:排版文件、圖片、視頻等圖書內容資源散落在排版廠、加工公司、編輯的電腦上。在數字出版資源庫建設過程中,要從出版集團或者整個出版社的角度考慮資源庫的建設,對數字出版資源進行集中管理,同時通過嚴格的權限控制保障數字出版資源庫的安全。
圖書內容的正確性檢查:由于排版文件的歷史資源有保存條件、手段的限制,出版社從排版廠拿到的排版文件,很有可能不是印刷出片的最后的定版文件,除了文字、樣式等方面與紙書有差異外,也可能存在一些排版的語法錯誤。因此,在進行結構化處理之前,需要首先保證排版文件的正確性。
圖書內容的完備性檢查:從排版廠拿到的排版文件,所包含的信息特別多,比如圖片、補字等各種信息,因此,必須保障這個文件的完備性,是否缺圖等。對使用最為廣泛的“書版”的文件,可使用方正“經典”的打包工具進行完備性檢查,來保障排版文件的完備性。除了排版文件的完備性外,還有與圖書有關的其他內容,比如:封面、高精度PDF、低精度PDF等。
圖書資源的關聯(lián)關系建立:現(xiàn)有的圖書信息都從ERP或MIS中導入,加工人員無需也不能更改,以保證資源庫中圖書分類與ERP或MIS中的相同,使整個出版集團或出版社的信息保持一致。但同時,資源庫中圖書信息也支持自定義字段,以滿足將來更多發(fā)布需求。
資源庫對于采集工具提交的圖片、排版文件、封面、高精度PDF、低精度PDF、視頻、音頻文件能夠自動實現(xiàn)與圖書的關聯(lián)。同時也支持手工的方式進行關聯(lián),有單向關聯(lián)和雙向關聯(lián)。
下圖是實際效果圖:
基于內容對象的出版資源庫可分為不同的類別,如:論著、教材教輔、辭書等。不同類別的圖書,因性質、結構有較大差異,所以要采用不同的反解方式,并建立不同的資源庫。如針對上述三種圖書資源,要分別建立按結構拆分的論著庫、按篇章節(jié)題(目)拆分的教材教輔庫、按條目拆分的辭書語料庫。下面是基于內容對象的出版資源庫的實踐結果的展示:
數字出版資源庫的建設只是迎接數字出版時代的第一步,后續(xù)的數字運營平臺和自適應的動態(tài)出版系統(tǒng)也在建設的過程中越來越清晰。數字出版資源庫中基于整書的出版資源庫為出版單位的資源整合打下了一個基礎,與數字運營平臺結合可以實現(xiàn)基于電子書、圖片、視頻、課件等內容的網絡運營和服務,而基于內容對象的出版資源庫與動態(tài)出版系統(tǒng)的結合,根據新的模板比如新的紙書模板、CEBX/Epub模板、光盤模板、網頁發(fā)布模板、手機彩信模板,自動生成各種新的數字出版產品,從而真正實現(xiàn)“一次加工,多重利用”。