章琢之+程艷
數(shù)字化改造一直是出版界關(guān)注的焦點,隨著出版人對數(shù)字手段和技術(shù)認識的深入,出版企業(yè)轉(zhuǎn)型的迫切需求,搭建數(shù)字化公共編纂平臺已成為一種趨勢。平臺的構(gòu)造,離不開對海量內(nèi)容資源的管理,它是聯(lián)系協(xié)同編纂和動態(tài)發(fā)布的紐帶,是支撐數(shù)字出版業(yè)務(wù)發(fā)展的基石。它不單單是對已有的歷史資源的管理,還將面對未來數(shù)字出版不斷豐富的新的應(yīng)用發(fā)布的挑戰(zhàn)。本文以上海教育出版社為例,針對目前存在的問題,闡述了如何優(yōu)化內(nèi)容資源管理平臺。
一、出版社內(nèi)容資源管理存在的主要問題
內(nèi)容資源主要包括內(nèi)容對象及其元數(shù)據(jù)和標(biāo)引體系,以及各類模板。其中內(nèi)容對象(文字、表格、公式、圖片等內(nèi)容的任意組合)是結(jié)構(gòu)化、可復(fù)用的資源;元數(shù)據(jù)及標(biāo)引體系是驅(qū)動系統(tǒng)運轉(zhuǎn)的基礎(chǔ)數(shù)據(jù)定義;模板使內(nèi)容資源的編纂更為便捷、合理,并決定了數(shù)字產(chǎn)品發(fā)布的呈現(xiàn)形式。內(nèi)容資源的特點是:合適的顆粒度;元數(shù)據(jù)豐富;良好的互操作性;與編纂平臺的無縫連接。
內(nèi)容資源管理,是從產(chǎn)品為中心的管理轉(zhuǎn)向一種靈活多變、面向定制化需求的以結(jié)構(gòu)化內(nèi)容為驅(qū)動,以對外提供內(nèi)容信息服務(wù)為導(dǎo)向的新型的管理。它的關(guān)鍵是內(nèi)容對象的可視化和智能的復(fù)用機制。
很多出版社經(jīng)過這些年的信息化建設(shè),雖然通過網(wǎng)絡(luò)系統(tǒng)采集處理了大量的數(shù)據(jù)、取得了不錯的效果,陸續(xù)建立了形式各樣的內(nèi)容資源管理平臺,但也感到快速膨脹的信息對管理和使用帶來的局限,大量、分散的數(shù)據(jù)、信息難于管理,不便于提供便捷的服務(wù)和資源共享。存在的問題主要有以下三方面:
(1)缺少高效的數(shù)字化編纂平臺的支撐。大多數(shù)的內(nèi)容資源管理平臺只是將原有排版文檔轉(zhuǎn)化為pdf、xml等格式。其實在轉(zhuǎn)檔過程中,喪失了大量元數(shù)據(jù)信息。雖然在后面進行了標(biāo)引,但還是不能勝任資源管理和多元發(fā)布的需要。
(2)缺少對海量內(nèi)容資源的數(shù)字化智能管理。在海量內(nèi)容資源生成時(如本文涉及的教育類辭書),內(nèi)容沒有統(tǒng)一標(biāo)準(zhǔn),且互不關(guān)聯(lián),缺少內(nèi)容的重用機制,手動更新,易造成“存進去,取不出”的尷尬場景。
(3)鮮有特色的應(yīng)用創(chuàng)新出現(xiàn)。正是由于以上兩處的短板存在,使得內(nèi)容資源管理無法與發(fā)布產(chǎn)品建立聯(lián)系和互動,無法重復(fù)、便捷利用已有資源,也就鮮有高質(zhì)量的、讓人耳目一新的應(yīng)用創(chuàng)新出現(xiàn)。而對于用戶來說,所需的產(chǎn)品往往并非只是原有圖書的數(shù)字化產(chǎn)品,而是有十分廣泛的個性化產(chǎn)品需求。
也就是說,出版社的數(shù)字內(nèi)容資源迅速膨脹,資源本身雖然具有價值,但是分散的數(shù)據(jù)和信息形成不了競爭力。
二、以三大關(guān)鍵流程目標(biāo)優(yōu)化內(nèi)容資源管理平臺
應(yīng)該說,一些在數(shù)字出版領(lǐng)域極力開拓先河的出版社已經(jīng)認識到上述情況,正在加緊構(gòu)建優(yōu)化內(nèi)容資源管理方案。在辭書類的內(nèi)容資源平臺建設(shè)上,中國大百科全書出版社、商務(wù)印書館、上海教育出版社等出版單位都在進行一些可圈可點的探索。下文以上海教育出版社的教育類辭書為例加以說明。
上海教育出版社編纂出版的《教育大辭典》《心理學(xué)大辭典》和《中國教育大百科全書》,是國內(nèi)最具權(quán)威性教育類辭書,在教育學(xué)類辭書理論、編纂水平、編校質(zhì)量上都達到了一個新高度,是教育學(xué)類辭書編纂出版的典范之作,獲得多項國家級圖書獎勵。
近年來,在整合已有資源的基礎(chǔ)上,借助這三套大型辭書編纂、修訂的機遇,上海教育出版社提出了經(jīng)過優(yōu)化的基于數(shù)字化公共編纂平臺的教育類辭書內(nèi)容資源管理方案,可以更為有效地根據(jù)用戶的知識服務(wù)需求發(fā)布特定產(chǎn)品,從而實現(xiàn)知識創(chuàng)新。它已經(jīng)成為該社數(shù)字出版領(lǐng)域的戰(zhàn)略方向之一。
上海教育社以這三套大型辭書的內(nèi)容為基礎(chǔ),合并重復(fù)內(nèi)容,把相關(guān)聯(lián)知識整合,按科學(xué)設(shè)計的結(jié)構(gòu)重新組織編輯所有內(nèi)容對象,形成統(tǒng)一規(guī)范的內(nèi)容資源。同時,基于海量的內(nèi)容存儲需求,用專業(yè)的內(nèi)容管理數(shù)據(jù)庫技術(shù),有效提高對海量內(nèi)容存取操作的效率,并能實現(xiàn)可以動態(tài)擴展的架構(gòu),方便內(nèi)容動態(tài)擴展。以內(nèi)容對象(這里主要是指辭書的詞條)的協(xié)同編纂、智能管理、多元發(fā)布三大關(guān)鍵流程目標(biāo)優(yōu)化內(nèi)容資源管理平臺,即協(xié)同編纂提供多渠道采集、詞條編纂、詞條審核;智能管理提供內(nèi)容的自動標(biāo)引、詞條關(guān)聯(lián)、內(nèi)容聚合;多元發(fā)布提供內(nèi)容樣式渲染、審校、發(fā)布和面向客戶的個性化服務(wù),包括知識檢索、知識導(dǎo)航、詞條增補、主題閱讀等。具體內(nèi)容為:
(1)協(xié)同編纂
協(xié)同編纂是將辭書的數(shù)字內(nèi)容,導(dǎo)入內(nèi)容資源管理平臺并審核的過程。上海教育社研究、開發(fā)了一套面向詞條的創(chuàng)建、編輯、審核工具,它允許用戶基于一個特定的語義進行內(nèi)容的輸入和編輯。它支持通過模板來加速復(fù)雜文檔的創(chuàng)建。XML化的文檔可以引用(重用)其他內(nèi)容對象,來形成復(fù)合文檔。
(2)智能管理
內(nèi)容的智能管理主要包括內(nèi)容去重、內(nèi)容聚合、內(nèi)容標(biāo)引、內(nèi)容檢索。
內(nèi)容去重是通過內(nèi)容分析引擎完成內(nèi)容的相似度分析,把重復(fù)的內(nèi)容展示在內(nèi)容加工平臺,編輯人員處理重復(fù)的內(nèi)容,形成單一標(biāo)準(zhǔn)的知識。內(nèi)容聚合是通過內(nèi)容分析引擎挖掘具有關(guān)聯(lián)的信息,把相關(guān)內(nèi)容展示在內(nèi)容加工平臺,編輯人員處理分散的內(nèi)容,形成統(tǒng)一完整的知識。內(nèi)容標(biāo)引是使用內(nèi)容加工平臺的標(biāo)引工具,把內(nèi)容按一定的標(biāo)準(zhǔn)和規(guī)范標(biāo)引,形成有機的知識體系。內(nèi)容檢索是使用智能檢索引擎實現(xiàn)智能語義分析功能和分詞功能,提供高度智能化的全文檢索功能。
(3)多元發(fā)布
內(nèi)容的使用和發(fā)布包括實現(xiàn)基于瀏覽器的內(nèi)容管理和維護平臺,以及基于瀏覽器的內(nèi)容使用平臺。用戶可以利用瀏覽器訪問應(yīng)用平臺,完成知識檢索、詞條瀏覽、知識導(dǎo)航、主題閱讀等功能。例如,可以按照用戶需求,個性化定制一本簡明教育學(xué)史辭典,即按照用戶的要求,將教育學(xué)史相關(guān)詞條按照主題(或年代等邏輯線索)進行重新編排,并發(fā)布。
三、教育類辭書數(shù)字化改造的應(yīng)用價值
以國內(nèi)權(quán)威教育類專業(yè)資源為基礎(chǔ),基于數(shù)字化公共編纂平臺的全新的內(nèi)容資源管理方案,從內(nèi)容加工的效率和智能化出發(fā),在科學(xué)的標(biāo)引體系和專業(yè)的軟件系統(tǒng)平臺的支撐下,利用數(shù)據(jù)挖掘技術(shù),能夠?qū)崿F(xiàn)海量內(nèi)容數(shù)字化編纂、管理和發(fā)布,這樣的數(shù)字化改造具有較大的應(yīng)用價值。
(1)首創(chuàng)國內(nèi)權(quán)威的專業(yè)資源管理平臺。目前我國尚無教育類學(xué)科專業(yè)資源管理平臺,上海教育社通過對權(quán)威專業(yè)辭書的數(shù)字化開發(fā),將建成國內(nèi)第一個大型的、開放性的教育類專業(yè)資源管理平臺。
(2)與數(shù)字化公共編纂平臺無縫對接。由于有高效的數(shù)字化編纂平臺作為支撐,從源頭上解決了困擾業(yè)界多年的內(nèi)容對象的“全息”元數(shù)據(jù)入庫問題,即做到了與數(shù)字化公共編纂平臺無縫對接。
(3)實現(xiàn)海量內(nèi)容資源的深度的加工及精細化管理。通過采用先進的數(shù)據(jù)庫技術(shù),為海量內(nèi)容的深度的加工及精細化管理提供了全面的支持。各種強大的檢索、分析引擎保證各類內(nèi)容管理和多元發(fā)布的應(yīng)用和工具有了實現(xiàn)的基礎(chǔ)。
(4)具備開發(fā)內(nèi)容資源的特色應(yīng)用創(chuàng)新。在充分考慮內(nèi)容資源重復(fù)利用和多元智能發(fā)布的需求的前提下,設(shè)計實現(xiàn)的內(nèi)容組織結(jié)構(gòu)確保了數(shù)字內(nèi)容按參數(shù)和需求自動重組,可以滿足紙質(zhì)出版、電子書格式出版、互聯(lián)網(wǎng)發(fā)布、移動終端發(fā)布、個性化發(fā)布等需求,并開發(fā)各種有特色的應(yīng)用創(chuàng)新。
可以預(yù)見,基于數(shù)字化公共編纂平臺來優(yōu)化內(nèi)容資源管理,通過對內(nèi)容對象的智能化處理,能夠發(fā)展出一種健康、高附加值的內(nèi)容資源生態(tài)系統(tǒng),以支撐數(shù)字出版業(yè)務(wù)的迅猛發(fā)展。
(作者章琢之單位系上海教育出版社,作者程艷單位系新鄉(xiāng)學(xué)院外國語學(xué)院;本文內(nèi)容源于“基于XML的出版業(yè)數(shù)字化公共編纂平臺”項目的部分研究工作,得到了上海市文化創(chuàng)意產(chǎn)業(yè)扶持資金的支持)