亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        PUBO:面向出版的數(shù)字資源本體建模

        2015-12-03 05:23:43王文清劉春彤張?jiān)孪?/span>陳凌
        關(guān)鍵詞:資源內(nèi)容

        □王文清 劉春彤 張?jiān)孪?陳凌

        ?

        PUBO:面向出版的數(shù)字資源本體建模

        □王文清 劉春彤 張?jiān)孪?陳凌

        隨著信息技術(shù)的高速發(fā)展,出版業(yè)在出版載體和出版方式等方面都發(fā)生了很大變化。對(duì)于出版機(jī)構(gòu)而言,出版物不再是單一的資源,不僅包含文字、圖片、音頻、視頻、光盤、附件、元數(shù)據(jù)等多種資源的集合,還包含出版過程中的相關(guān)資源,如結(jié)構(gòu)信息、排版信息、設(shè)計(jì)信息、字體信息等。如何對(duì)所有這些資源及其關(guān)系進(jìn)行建模,以實(shí)現(xiàn)這些出版資源的統(tǒng)一表示和復(fù)用,是數(shù)字出版面臨的問題。文章詳細(xì)介紹了基于OWL-DL標(biāo)準(zhǔn)的出版物數(shù)字內(nèi)容資源本體模型PUBO,包括內(nèi)容結(jié)構(gòu)、內(nèi)容特征、表現(xiàn)形式、載體方式以及資源之間的關(guān)系,最后介紹了該模型的應(yīng)用方式和應(yīng)用前景。

        出版物數(shù)字出版本體 OWL 對(duì)象復(fù)用

        1 引言

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和數(shù)字出版技術(shù)的逐步成熟,傳統(tǒng)出版與信息科技融合的步伐加快,傳統(tǒng)出版機(jī)構(gòu)陸續(xù)應(yīng)用信息技術(shù)開展數(shù)字出版[1]。很多出版社將自有的紙本圖書、期刊等資源進(jìn)行了數(shù)字化加工,對(duì)新的出版物直接進(jìn)行數(shù)字出版。出版社大量出版物的數(shù)字加工任務(wù)大都委托給專業(yè)加工公司完成,而由于出版行業(yè)缺少統(tǒng)一標(biāo)準(zhǔn),不同的出版社、加工公司以及電子書城所用的出版物數(shù)字資源格式彼此不同,許多資源格式之間難以有效轉(zhuǎn)換。這使得資源的交換、復(fù)用和共享存在很大困難,轉(zhuǎn)換成本很高。

        在出版過程中,出版單位所出版的普通圖書、期刊等內(nèi)容資源不僅包括可交付印刷或電子出版的數(shù)據(jù)文件(如整書、章節(jié)等PDF文件)、排版或加工過程中產(chǎn)生的數(shù)據(jù)文件(如書刊排版文件、媒體資源文件等),還包括封面、篇章節(jié)、參考文獻(xiàn)、術(shù)語表等文檔構(gòu)件和內(nèi)容單元。對(duì)于所有這些出版內(nèi)容資源,出版行業(yè)需要建立一個(gè)統(tǒng)一的數(shù)字資源模型,以表示和記錄這些資源的內(nèi)容結(jié)構(gòu)、內(nèi)容特征、表現(xiàn)形式、載體方式以及資源之間的關(guān)系,并能按不同粒度進(jìn)行封裝、復(fù)用和交換。

        本體(Ontology)技術(shù)針對(duì)上述問題提供了一個(gè)有效的解決方案。本體最初是個(gè)哲學(xué)概念,是對(duì)世界上客觀存在物的系統(tǒng)地描述。在計(jì)算機(jī)科學(xué)領(lǐng)域,本體被定義為概念化的明確的規(guī)范說明[2]。本體的使用可以使人與人之間、計(jì)算機(jī)系統(tǒng)與計(jì)算機(jī)系統(tǒng)之間、人與計(jì)算機(jī)系統(tǒng)之間的知識(shí)處理和知識(shí)交換更加方便和順暢。與元數(shù)據(jù)技術(shù)相比,本體具備以下優(yōu)勢:1. 強(qiáng)大的詞匯、術(shù)語、實(shí)體和關(guān)系的描述能力,可以對(duì)不同知識(shí)體系、不同粒度的資源進(jìn)行描述;2.提供了不同元數(shù)據(jù)之間的相互映射機(jī)制,可實(shí)現(xiàn)異構(gòu)系統(tǒng)之間的互操作;3. 靈活性高,擴(kuò)展方便;4. 支持推理,以獲取新的知識(shí)。

        筆者參與制定的新聞出版行業(yè)《數(shù)字內(nèi)容對(duì)象存儲(chǔ)、復(fù)用和交換標(biāo)準(zhǔn)》[3](Specification of digital content object storage, reuse and exchange,OSRE)采用本體技術(shù),制定了多層次的出版物內(nèi)容資源本體模型(PUBlication Ontology,PUBO),能對(duì)普通圖書、叢書、多卷書、雜志、期刊、多媒體電子書等出版物的數(shù)字內(nèi)容資源予以統(tǒng)一建模和描述,使得同一本圖書和期刊中的各個(gè)階段的數(shù)字資源構(gòu)成一個(gè)有機(jī)的整體,支持出版內(nèi)容資源在不同出版社、加工公司、印刷公司、電商等機(jī)構(gòu)之間的資源交換和復(fù)用,支持面向數(shù)字出版的數(shù)字內(nèi)容管理系統(tǒng)和相關(guān)工具的開發(fā)和應(yīng)用,以便實(shí)現(xiàn)對(duì)多種類型資源全生命周期的統(tǒng)一的語義化管理。

        2 相關(guān)工作

        在PUBO本體提出之前,國內(nèi)外數(shù)字圖書館領(lǐng)域、數(shù)字出版領(lǐng)域已有很多針對(duì)電子圖書、數(shù)字對(duì)象、圖書目次等方面的數(shù)據(jù)標(biāo)準(zhǔn)研究。較有代表性的有電子出版物表(Electronic publication,EPUB[4])、基于混合XML的公共電子文檔(Common e-Document of Blending XML,CEBX[5])、元數(shù)據(jù)編碼和傳輸標(biāo)準(zhǔn)(Metadata Encoding and Transmission Standard,METS[6])、圖書本體(Bibliographic Ontology,BIBO[7])、Schema[8]、開放存檔計(jì)劃-對(duì)象復(fù)用和交換標(biāo)準(zhǔn)(Open Archives Initiative-Object Reuse and Exchange,OAI-ORE[9])等。

        EPUB是由國際數(shù)字出版論壇提出的標(biāo)準(zhǔn)。它針對(duì)數(shù)字出版物元數(shù)據(jù)制定了一系列的規(guī)范:EPUB Publications 3.0規(guī)定了與包裹文檔相關(guān)的內(nèi)容,包括電子書元數(shù)據(jù)、資源清單、結(jié)構(gòu)順序;EPUB Content Documents 3.0對(duì)電子書的內(nèi)容予以說明,包括電子書的章節(jié)、CSS樣式表、圖像嵌入等;EPUB Open Container Format 3.0規(guī)定了文件存儲(chǔ)格式;EPUB Media Overlays 3.0規(guī)定了媒體層的建立,描述了媒體的播放方式,并支持文字的語音朗讀功能。EPUB標(biāo)準(zhǔn)在國內(nèi)外的平板電腦、手機(jī)等移動(dòng)閱讀終端上有著廣泛應(yīng)用。

        CEBX標(biāo)準(zhǔn)是由北大方正阿帕比公司提出的一種獨(dú)立于軟件、硬件、操作系統(tǒng)、呈現(xiàn)/打印設(shè)備的文檔格式標(biāo)準(zhǔn)。它建立在一個(gè)概念性的成像模型上,使上層數(shù)據(jù)獨(dú)立于平臺(tái)。同時(shí),它具有原版原式的呈現(xiàn)特點(diǎn),即閱讀顯示與印刷一致。這使CEBX文件可以在不同的平臺(tái)上呈現(xiàn)同樣的版式效果。CEBX標(biāo)準(zhǔn)在國內(nèi)電子書領(lǐng)域得到廣泛應(yīng)用,支持多種終端,包括個(gè)人電腦和移動(dòng)終端。

        EPUB和CEBX主要用于描述電子書的組成和封裝,支持在線閱讀,不能對(duì)出版過程中所涉及的各類數(shù)字內(nèi)容資源及其各種元數(shù)據(jù)進(jìn)行封裝和管理。

        METS規(guī)范用于描述由元數(shù)據(jù)和對(duì)象文件組成的復(fù)合數(shù)字對(duì)象,它規(guī)定了數(shù)字對(duì)象的描述性元數(shù)據(jù)、管理性元數(shù)據(jù)、文件組、結(jié)構(gòu)關(guān)系等方面的內(nèi)容,為數(shù)字對(duì)象的組織和封裝提供標(biāo)準(zhǔn)。但METS所能描述的結(jié)構(gòu)關(guān)系較為簡單,沒有完整的語義關(guān)系,所描述的文件對(duì)象本身也缺乏屬性信息。這難以表示復(fù)雜的數(shù)字內(nèi)容對(duì)象的屬性、組成結(jié)構(gòu)及其關(guān)系。

        BIBO是由加拿大一家公司提出的面向書目信息的本體,在2009年11月推出1.3版后不再更新。BIBO定義了類和屬性,用于描述圖書、期刊、文章等資源,并側(cè)重于描述出版物之間的關(guān)系,如不同版本關(guān)系、引用關(guān)系等。BIBO的描述對(duì)象為出版物成品,且重點(diǎn)描述各個(gè)出版物之間的關(guān)系。Schema給出了一組常用的本體定義,共業(yè)界參考。但針對(duì)出版領(lǐng)域而言,BIBO和Schema都沒有考慮出版加工過程中所涉及到的各類資源。

        OAI-ORE是由開放存檔計(jì)劃組織OAI提出的用于開放存檔對(duì)象的復(fù)用和交換的標(biāo)準(zhǔn),其目標(biāo)是建立標(biāo)準(zhǔn)的、可互操作的、機(jī)器可讀的機(jī)制來表達(dá)復(fù)合數(shù)字對(duì)象資源,描述復(fù)合數(shù)字對(duì)象內(nèi)部組件之間的邏輯關(guān)系以及網(wǎng)絡(luò)信息空間中復(fù)合對(duì)象與其他資源之間的關(guān)系。但對(duì)于資源的具體屬性,沒有給出具體定義。

        中國科技出版?zhèn)髅焦煞萦邢薰?原科學(xué)出版社)與中國高等教育文獻(xiàn)保障系統(tǒng)管理中心合作,基于OAI-ORE標(biāo)準(zhǔn),對(duì)圖書、期刊等資源制定了統(tǒng)一封裝格式[10],建成了基于OAI-ORE標(biāo)準(zhǔn)的出版資源內(nèi)容管理系統(tǒng),對(duì)各類數(shù)字資源進(jìn)行統(tǒng)一存儲(chǔ)和管理,并具有資源的驗(yàn)證、展現(xiàn)、審核、發(fā)布等功能。該系統(tǒng)初步解決了圖書、叢書、期刊等出版物數(shù)字內(nèi)容資源的加工驗(yàn)證、存儲(chǔ)和管理需求,但并未建立完整的數(shù)字內(nèi)容對(duì)象模型,對(duì)出版過程中涉及到的其他類型的數(shù)字內(nèi)容資源也缺少完整的語義描述。其他出版社所采用的面向數(shù)字出版的內(nèi)容管理系統(tǒng)以及面向數(shù)字出版內(nèi)容的各個(gè)數(shù)字化加工公司也都存在類似的問題。

        3 面向出版的數(shù)字內(nèi)容資源類型分析

        出版機(jī)構(gòu)所涉及的數(shù)字內(nèi)容資源既包括出版過程中的各類資源,也包括正式出版的相關(guān)資源。

        出版過程中的數(shù)字資源包括以下四種劃分角度:①從媒體格式角度,分為音頻、視頻、圖片、字符貼圖、文本文檔、光盤映像等資源;②從設(shè)計(jì)排版過程角度,分為音視頻的設(shè)計(jì)文件、文本排版文件、圖像設(shè)計(jì)文件等資源;③從出版物內(nèi)容角度,圖書可拆分成目錄、前言、序、章節(jié)、跋、參考文獻(xiàn)、索引等內(nèi)容單元,期刊可以拆分成篇章、參考文獻(xiàn)等資源;④從出版物構(gòu)成角度,圖書和期刊可拆分為封面、外包裝、隨書光盤等資源,電子版出版物還包含樣式表文件等資源。

        圖書和期刊等正式出版物所涉及的各類數(shù)字資源包括以下三類:①紙版和電子版出版物所涉及的完整的數(shù)字內(nèi)容資源包,以供紙質(zhì)書印刷出版或電子書的發(fā)布;②用于描述出版物的各類元數(shù)據(jù),如中國機(jī)讀目錄(CNMARC),中國出版物在線信息交換元數(shù)據(jù)(CNONIX),圖書流通信息交換規(guī)則元數(shù)據(jù)(CY/T 39)等。③集合類出版物。比如,一種期刊由多期組成,一期由多篇文章組成;多卷書由多本圖書構(gòu)成。這些關(guān)系也需要描述。

        針對(duì)上述各類資源,需要建立統(tǒng)一的數(shù)據(jù)模型,不僅支持出版機(jī)構(gòu)內(nèi)部資源的復(fù)用,也支持出版機(jī)構(gòu)之間、出版機(jī)構(gòu)與加工公司之間的資源交換和共享。PUBO本體應(yīng)運(yùn)而生。

        4 面向出版內(nèi)容資源的本體模型PUBO

        本體是共享概念模型的明確形式化規(guī)范說明[2],是在語義層次上解決領(lǐng)域內(nèi)信息共享、復(fù)用和交換的基礎(chǔ),其標(biāo)準(zhǔn)化和形式化的表示方式能很好表達(dá)領(lǐng)域中的復(fù)雜知識(shí)和資源的組織方式,有效解決領(lǐng)域中各個(gè)異構(gòu)資源之間的互操作。Web本體語言(Web Ontology Language,OWL[11])是由萬維網(wǎng)聯(lián)盟于2004年提出的一種網(wǎng)絡(luò)本體描述語言。OWL 2于2009年發(fā)布,具有更多的元語和更豐富的語義,更好地支持推理。OWL分為三個(gè)子語言:OWL-Lite、OWL-DL、OWL-Full,其表達(dá)能力由弱到強(qiáng);其中,只有OWL-DL(描述邏輯)支持推理,能保證計(jì)算的完全性和可判定性。

        PUBO本體采用OWL-DL描述,其完整定義包括類、屬性、枚舉類、約束等方面的內(nèi)容,具有嚴(yán)謹(jǐn)?shù)尿?yàn)證和推理能力。本章著重介紹前3個(gè)方面的內(nèi)容。

        4.1 類

        PUBO本體將出版過程和出版結(jié)果所涉及的數(shù)字資源歸納為3個(gè)大類:集合類、文檔資源類、代理者類,具體共定義了60個(gè)類,同時(shí),為了規(guī)范某些屬性的取值,PUBO還定義了8個(gè)枚舉類。PUBO本體中各個(gè)類的層次關(guān)系如圖1所示。

        圖1 PUBO 類層次圖

        4.1.1 集合類

        集合類包括文檔容器和文檔集兩個(gè)類。其中,文檔容器類用于將已出版的各類數(shù)字資源和加工過程中的相關(guān)資源聚合為一體,形成一個(gè)完整的出版物數(shù)據(jù)包,文檔集是對(duì)圖書等文檔內(nèi)容的邏輯聚合,如由多期期刊組成的期刊集、由多本圖書組成的多卷書等。

        文檔容器類用于將正式出版的圖書或期刊(文檔產(chǎn)品)及其相關(guān)的所有資源(包括媒體文檔、內(nèi)容單元、文檔構(gòu)件、設(shè)計(jì)排版文檔、元數(shù)據(jù)文檔等)聚合起來,以便對(duì)相關(guān)資源實(shí)現(xiàn)統(tǒng)一管理和交換。

        文檔集類用于表示有一定聯(lián)系的多個(gè)出版物的集合,如叢書、多卷書、期刊等。每個(gè)文檔集由多個(gè)文檔產(chǎn)品構(gòu)成,如叢書由多個(gè)圖書產(chǎn)品構(gòu)成,期刊由多個(gè)期構(gòu)成,每期由多篇文章構(gòu)成。如圖2所示。

        圖2 文檔集的邏輯結(jié)構(gòu)

        4.1.2 文檔資源類

        文檔資源類由文檔類及其子類構(gòu)成。文檔類用于表示各個(gè)出版環(huán)節(jié)所涉及的各類資源,根據(jù)這些資源的不同用途和媒體格式,文檔類被進(jìn)一步劃分為一系列不同層次的子類,分別代表不同類型和不同粒度的數(shù)字資源,由此形成分類體系。文檔類包括以下子類:

        媒體文檔類用于表示以計(jì)算機(jī)文件格式(如mp3, mp4, pdf, doc, ceb, indd, psd等)表示的各種資源。這些資源都是出版物必不可少的,一般都有相應(yīng)的數(shù)據(jù)文件(用MIME編碼),并采用專用的元數(shù)據(jù)對(duì)其描述和管理。媒體文檔類又分為以下幾個(gè)子類:文本文檔、音頻、發(fā)音文檔、視頻、圖形、圖像、字符貼圖、動(dòng)畫、光盤映像。

        文檔構(gòu)件類用于表示文檔印刷或發(fā)行所必要的構(gòu)件。文檔構(gòu)件一般都有對(duì)應(yīng)的編碼文檔對(duì)象,用于關(guān)聯(lián)至媒體文檔,如一個(gè)封面類個(gè)體,關(guān)聯(lián)至一個(gè)圖像類個(gè)體,表示該圖像即為該封面。文檔構(gòu)件又分為以下幾個(gè)子類:封面、包裝、光盤、網(wǎng)頁、單頁、附件、插圖、字體文件、腳本程序、樣式表文件。

        文檔內(nèi)容單元類,用于表示用于內(nèi)容復(fù)用的文檔內(nèi)容片段。內(nèi)容單元類分為以下幾個(gè)子類:摘要、章節(jié)、輔文、參考文獻(xiàn)、參考文獻(xiàn)項(xiàng)、導(dǎo)讀、精彩篇章、目次、目次項(xiàng)、注釋、術(shù)語表。

        設(shè)計(jì)排版文檔,用于表示生成文檔產(chǎn)品的設(shè)計(jì)或排版文件。如用InDesign工具排版好的排版文件、用PhotoShop設(shè)計(jì)制作的圖像設(shè)計(jì)文件等。這些文件可以與對(duì)應(yīng)的文檔產(chǎn)品有機(jī)關(guān)聯(lián),表明二者之間的生成關(guān)系。

        元數(shù)據(jù)文檔,用于單獨(dú)存放與圖書和期刊出版物配套的元數(shù)據(jù)信息,如CNMARC, MARC21,中國出版物在線信息交換圖書產(chǎn)品信息格式規(guī)范CNONIX,圖書流通元數(shù)據(jù)標(biāo)準(zhǔn),保存元數(shù)據(jù)標(biāo)準(zhǔn)PREMIS和都柏林核心元數(shù)據(jù)標(biāo)準(zhǔn)DC等。

        文檔產(chǎn)品類用于表示可用于印刷或在線服務(wù)的出版產(chǎn)品,比如一個(gè)完整的CEBX文件包。文檔產(chǎn)品可以嵌入或關(guān)聯(lián)音頻和視頻文件,形成有聲圖書或多媒體出版物。文檔產(chǎn)品類又分為以下幾個(gè)子類:圖書產(chǎn)品、圖書章節(jié)產(chǎn)品、文章產(chǎn)品、圖片產(chǎn)品、期刊產(chǎn)品。

        4.1.3 代理者類

        代理者類由代理者類及其子類構(gòu)成,用于描述與出版物相關(guān)的各類作者信息,包括個(gè)人作者、機(jī)構(gòu)作者或團(tuán)體作者等信息,也用于表示出版內(nèi)容資源的加工者和管理者等信息。從兼容性和復(fù)用性角度,該代理者類等同采用了國際互聯(lián)網(wǎng)社區(qū)中主流的“朋友的朋友”本體(Friend of a Friend,F(xiàn)OAF)[12],以此作為基礎(chǔ)性的作者規(guī)范檔,并支持該類的進(jìn)一步擴(kuò)展。

        4.1.4 枚舉類

        枚舉類是指該類的所有個(gè)體均被聲明。當(dāng)某個(gè)屬性的值域是某枚舉類時(shí),表示其取值只能是該枚舉類的個(gè)體之一。枚舉類的使用可以約束并規(guī)范某個(gè)屬性的取值。

        在PUBO中,定義了8個(gè)枚舉類:

        元數(shù)據(jù)類型用于描述元數(shù)據(jù)類型,包含CNONIX、圖書流通元數(shù)據(jù)、Marc21、CNMarc、DC、METS等類型。

        文檔狀態(tài)類型用于描述文檔的各種狀態(tài),如收錄、審核、拒絕、出版、草稿、即將出版、未出版、未審核等文檔狀態(tài)。

        輔文類型用于描述各種輔文類型,如縮略詞表、致謝、跋(后記)、附錄、版權(quán)說明、獻(xiàn)辭、版本記錄、編輯委員會(huì)、勘誤表、凡例、前言,卷首語、索引、內(nèi)容簡介、插圖列表、圖表列表、導(dǎo)航、緒言、符號(hào)表等。

        封面類型用于描述封面類文檔的類型,如封一、封二、封三、封四、勒口、書脊等。

        包裝類型用于描述包裝類文檔的類型,如腰封、護(hù)封、環(huán)襯、外包裝、套盒、封套。用于描述包裝類文檔的類型。

        單頁文檔類型用于描述單頁類文檔的類型,如扉頁、版權(quán)記錄頁、襯頁、插頁、附書名頁、口號(hào)頁等。

        類型用于描述參考文獻(xiàn)的類型,遵循GB/T 7714 文后參考文獻(xiàn)著錄規(guī)則,如計(jì)算機(jī)程序(CP)、會(huì)議錄(C)、數(shù)據(jù)庫(DB)、學(xué)位論文(D)、電子公告(EB)、匯編(G)、期刊(J)、普通圖書(M)、報(bào)紙(N)、專利(P)、報(bào)告(R)、標(biāo)準(zhǔn)(S)等。

        產(chǎn)品類型用于描述文檔產(chǎn)品的用途,如電子圖書、按需出版。

        對(duì)于上述各個(gè)枚舉類中的具體類型,可以根據(jù)需要對(duì)其擴(kuò)展,以滿足實(shí)際需求。

        4.2 屬性

        屬性可以分為對(duì)象屬性和數(shù)值屬性兩大類。對(duì)象屬性負(fù)責(zé)描述資源之間的關(guān)系,數(shù)值屬性負(fù)責(zé)描述資源本身。對(duì)象屬性的定義域及值域都為對(duì)象。在形式化表示中,按照關(guān)聯(lián)數(shù)據(jù)的表示方法,各個(gè)對(duì)象實(shí)例的唯一標(biāo)識(shí)符均采用統(tǒng)一資源標(biāo)識(shí)符統(tǒng)一表示。數(shù)值屬性的取值為文本,具體分為字符串型、整數(shù)型、實(shí)數(shù)型,日期等文本類型。

        4.2.1 對(duì)象屬性

        PUBO中定義了48個(gè)對(duì)象屬性,從多個(gè)方面描述資源對(duì)象之間的關(guān)系。

        文檔容器負(fù)責(zé)封裝與出版物相關(guān)的資源,文檔容器包含兩個(gè)導(dǎo)航類屬性,一個(gè)是productManifest屬性,描述出版物的具體構(gòu)成,其取值為文檔構(gòu)件的有序列表,表示出版物的組成部分,如一個(gè)簡單的圖書出版物由封一、封二、封三、扉頁、第二頁、插圖頁……封四、隨書光盤組成;另一個(gè)是readingOrder屬性,描述出版物閱讀順序,其取值為內(nèi)容單元的有序列表,表示出版物內(nèi)容的閱讀順序,如一本簡單的圖書出版物,其內(nèi)容單元包括序、目次、第一章、第二章……后記。同時(shí),文檔容器還應(yīng)包括一個(gè)可直接用于按需出版或電子書發(fā)布的文檔產(chǎn)品。文檔容器與這些文檔構(gòu)件、文檔產(chǎn)品、內(nèi)容單元之間,均存在contains關(guān)聯(lián),以便于通過簡單的檢索得到所有與某出版物相關(guān)的資源。

        媒體文檔類負(fù)責(zé)管理物理文件,當(dāng)其他資源使用了某物理文件時(shí),如圖書的正文為一個(gè)文本文件,或圖書的封面為一張圖片,需要建立該資源到相應(yīng)的媒體文件的關(guān)聯(lián)。這種關(guān)聯(lián)用屬性associatedMedia來表示。特別的,對(duì)于電子書的內(nèi)嵌音頻、視頻、字體文件,可以通過屬性embeddedAudio,embeddedVideo,embeddedFont來關(guān)聯(lián)至相應(yīng)的媒體文檔。

        文檔內(nèi)容單元的個(gè)體會(huì)與文檔構(gòu)件和文檔產(chǎn)品類個(gè)體產(chǎn)生關(guān)聯(lián),如一個(gè)單頁類個(gè)體,其內(nèi)容可以通過某個(gè)內(nèi)容單元個(gè)體描述,則可利用isContentSection屬性關(guān)聯(lián)這兩個(gè)個(gè)體。

        當(dāng)一個(gè)文檔構(gòu)件構(gòu)成了一個(gè)文檔產(chǎn)品時(shí),可以通過isComponentOf屬性關(guān)聯(lián)文檔構(gòu)件及文檔產(chǎn)品。

        設(shè)計(jì)排版展現(xiàn)文件利用屬性generates關(guān)聯(lián)通過其生成的文檔。

        資源類個(gè)體間的關(guān)系可以用圖3來描述。圖3中的方框代表大類,連線代表類的個(gè)體之間的關(guān)系。

        4.2.2 數(shù)值屬性

        PUBO標(biāo)準(zhǔn)共定義107個(gè)數(shù)值屬性。對(duì)部分屬性,采用子屬性方式表示屬性之間的繼承或派生關(guān)系。

        日期屬性,包含與出版物相關(guān)的版權(quán)年、創(chuàng)辦日期、首版年月、本次印刷年月、本版年月、出版日期、修改日期;以及與代理者相關(guān)的生年、卒年、創(chuàng)辦時(shí)間。

        文件格式屬性,用于描述文件信息,包括校驗(yàn)值、校驗(yàn)方法、影音文件時(shí)長、排版軟件版本、文件大小、文件高度、軟件版本、播放器類型、精度、比特率、是否雙層pdf、是否內(nèi)嵌字體、是否包含邏輯結(jié)構(gòu)信息。

        標(biāo)識(shí)符屬性,用于描述圖書或期刊的標(biāo)識(shí)符,包括ISBN和ISSN等;

        圖3 文檔類之間的關(guān)系

        位置符屬性,用于描述順序關(guān)系,如章節(jié)的起始頁碼,目錄的順序號(hào),期號(hào)和卷號(hào)等;

        產(chǎn)品格式屬性,用于描述文檔產(chǎn)品的特征,如重量和厚度等;

        標(biāo)題屬性,用于描述文檔的標(biāo)題,如并列題名、叢書名和交替題名等;

        代理者信息屬性,用于描述人、機(jī)構(gòu)、團(tuán)體的名字、地址和聯(lián)系方式等;

        其他屬性,如摘要和描述等。

        4.2.3 學(xué)科分類、語種的表示方法

        在對(duì)象屬性中,學(xué)科分類、語種兩個(gè)屬性比較特殊。由于有多種學(xué)科分類方法和語種分類方法,所以這兩個(gè)屬性的取值需要提供分類法和分類號(hào)兩方面信息。PUBO中規(guī)定,學(xué)科分類和語種兩個(gè)屬性的取值均使用簡單知識(shí)組織系統(tǒng)(Simple Knowledge Organization System,SKOS)標(biāo)準(zhǔn)來表示[13][14]。如:表示使用杜威分類法,分類號(hào)為296.67,其OWL/RDF代碼如右。

        使用SKOS表示學(xué)科需要使用skos:inScheme和skos:notation屬性,前者的取值為分類法(用URI表示),后者的取值為分類號(hào)。

        我國出版行業(yè)已有的分類法和出版機(jī)構(gòu)內(nèi)部的分類表,在用于PUBO本體之前,需要將其SKOS化,即將分類法中的概念及概念之間的上下位關(guān)系利用SKOS表示,并為每個(gè)概念分配統(tǒng)一的URI標(biāo)識(shí),這樣就能應(yīng)用于PUBO的學(xué)科分類。

        圖4 一個(gè)圖書產(chǎn)品的示例

        5 PUBO的應(yīng)用

        PUBO本體可以表示多種出版物,如普通圖書、叢書、多卷書、雜志、期刊、多媒體電子書等。經(jīng)過類和屬性的擴(kuò)展,PUBO還可以表示百科全書、工具書等。

        將出版機(jī)構(gòu)現(xiàn)有資源轉(zhuǎn)換成本體是PUBO的最基本應(yīng)用。以某圖書產(chǎn)品為例,文檔容器負(fù)責(zé)將與該圖書產(chǎn)品相關(guān)的資源組織起來,如圖4所示,橢圓形代表個(gè)體,灰色橢圓是PUBO中定義的枚舉類個(gè)體。文檔構(gòu)件(圖4左側(cè))負(fù)責(zé)出版物的組裝,內(nèi)容單元(圖4右側(cè))負(fù)責(zé)出版物的內(nèi)容管理,還可用于內(nèi)容復(fù)用。為了簡潔,圖4中省略了associatedMedia屬性,大部分內(nèi)容單元類、文檔構(gòu)件類、圖書產(chǎn)品類個(gè)體均會(huì)具有該屬性,以關(guān)聯(lián)至某物理文件。

        出版機(jī)構(gòu)可以根據(jù)需要對(duì)PUBO的類和屬性進(jìn)行擴(kuò)展。可擴(kuò)展的內(nèi)容包括:類、對(duì)象屬性、數(shù)值屬性、枚舉類個(gè)體、約束。通過對(duì)類、屬性和個(gè)體的擴(kuò)展,進(jìn)一步豐富PUBO的表達(dá)能力,滿足出版社的個(gè)性化需要。通過對(duì)約束的擴(kuò)展,使PUBO的推理機(jī)制更加完善,自動(dòng)校驗(yàn)?zāi)芰屯茖?dǎo)新知識(shí)的能力更強(qiáng)。

        圖5 基于 PUBO的數(shù)字內(nèi)容管理系統(tǒng)參考架構(gòu)

        關(guān)聯(lián)數(shù)據(jù)[15]是本體的一種應(yīng)用,如可將出版社的本體數(shù)據(jù)與現(xiàn)有的本體庫通過異構(gòu)本體映射算法進(jìn)行關(guān)聯(lián),以獲得新的知識(shí)。現(xiàn)有的本體庫有DBPedia,CYC,YAGO等。除了關(guān)聯(lián)現(xiàn)有的知識(shí)庫,出版社與圖書館、網(wǎng)上書店之間均可進(jìn)行數(shù)據(jù)關(guān)聯(lián),以降低人工處理數(shù)據(jù)的成本,并為用戶提供更多的數(shù)據(jù)或知識(shí)服務(wù)。

        PUBO本體可以與OAI-ORE結(jié)合,用后者對(duì)本體實(shí)例進(jìn)行數(shù)據(jù)封裝。PUBO提供了一個(gè)聚合類屬性列表,在本體到OAI-ORE轉(zhuǎn)換的過程中,可利用聚合類屬性生成OAI-ORE圖,進(jìn)一步用于數(shù)據(jù)交換。有文獻(xiàn)采用OAI-ORE對(duì)PUBO本體實(shí)例進(jìn)行系統(tǒng)封裝,給出針對(duì)出版領(lǐng)域各種數(shù)字對(duì)象的封裝、存儲(chǔ)和交換的格式和規(guī)范[15]。

        基于PUBO本體,可以設(shè)計(jì)和開發(fā)下一代數(shù)字出版資源內(nèi)容管理系統(tǒng)(如圖5所示)。出版社可以通過該平臺(tái)實(shí)現(xiàn)碎片化數(shù)字出版,如按篇章印刷出版、圖片印刷出版、文章印刷出版等。通過提供可視化等輔助工具和管理手段,用戶無須掌握復(fù)雜的詞匯、術(shù)語,更加便捷地進(jìn)行本體或知識(shí)加工,通過PUBO服務(wù)器來維護(hù)本體數(shù)據(jù)的一致性。PUBO服務(wù)器可以實(shí)現(xiàn)代理者信息管理(作者、出版社、圖書館、書店等)、出版物信息管理(題名、分類、ISBN、頁數(shù)、版次、印次等)、出版物構(gòu)件管理(封面、單頁、隨書光盤、樣式表文件等)、出版物內(nèi)容單元管理(摘要、輔文、正文章節(jié)等)、多媒體文件管理(文檔構(gòu)件與內(nèi)容單元關(guān)聯(lián)文件、多媒體出版物內(nèi)嵌文件等)、元數(shù)據(jù)文件管理、設(shè)計(jì)排版文件管理、出版物資源封裝等多方面的功能。

        6 結(jié)語

        數(shù)字出版是當(dāng)前出版業(yè)的重要發(fā)展方向。支撐數(shù)字出版的核心是建立數(shù)字資源的形式化描述方法。本文所介紹的PUBO本體模型具備更加完整的語義,具備邏輯推理能力——可自動(dòng)驗(yàn)證模型的邏輯完整性,具有可擴(kuò)展。這使得PUBO可以很好地描述圖書、期刊等各類出版物,為出版機(jī)構(gòu)更方便地實(shí)現(xiàn)資源的管理、關(guān)聯(lián)和復(fù)用奠定了統(tǒng)一的基礎(chǔ)。

        在PUBO本體基礎(chǔ)上,OSRE標(biāo)準(zhǔn)的第2部分[16]給出了基于開放檔案信息系統(tǒng)(Open Archive Information System,OAIS)標(biāo)準(zhǔn)的面向出版過程的數(shù)據(jù)交換信息包的具體封裝規(guī)范,第3部分[17]給出了基于OSRE標(biāo)準(zhǔn)的數(shù)字對(duì)象驗(yàn)證規(guī)范。OSRE標(biāo)準(zhǔn)的三個(gè)部分[3][16][17]共同構(gòu)成了較為完整的OSRE系列標(biāo)準(zhǔn)。

        國家新聞出版廣電總局于2014年底正式啟動(dòng)了國家復(fù)合出版工程項(xiàng)目建設(shè)工作?;赑UBO本體及其數(shù)字內(nèi)容對(duì)象封裝交換標(biāo)準(zhǔn)(即OSRE標(biāo)準(zhǔn))[2][16]的數(shù)字資源交換池系統(tǒng)被列入了該項(xiàng)工程的核心系統(tǒng)之一,支持一對(duì)一和一對(duì)多的交換方式,具有對(duì)OSRE信息包的攝取、驗(yàn)證、預(yù)覽、抽取、重組、映射、轉(zhuǎn)換、傳輸、加載等一系列功能,用于實(shí)現(xiàn)出版機(jī)構(gòu)內(nèi)部和出版機(jī)構(gòu)之間的各類數(shù)字資源的交換。PUBO本體將會(huì)隨著該工程的實(shí)施得到進(jìn)一步完善和深入應(yīng)用。

        參考文獻(xiàn)

        1 中國新聞出版研究院中國數(shù)字出版產(chǎn)業(yè)年度報(bào)告課題組. 2012~2013中國數(shù)字出版產(chǎn)業(yè)年度報(bào)告(摘要)[J]. 出版參考,2013,21:15.

        2 鄧志鴻,唐世渭,張銘,楊冬青,陳捷. Ontology研究綜述[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2002(5):730-738

        3 新聞出版行業(yè)標(biāo)準(zhǔn)CY/T102.1-2014. 數(shù)字內(nèi)容對(duì)象存儲(chǔ)、復(fù)用與交換規(guī)范 第1部分:對(duì)象模型[S]

        4 Electronic Publication[EPUB][EB/OL]. [2009-7-4]. http://idpf.org/epub

        5 CEBX標(biāo)準(zhǔn)[EB/OL]. [2009-7-4].http://www.apabi.cn/download/index.html

        6 Gartner R. METS as an’Intermediary’Schema for a Digital Library of Complex Scientific Multimedia[J]. Information Technology and Libraries, 2012, 31(3): 24-35

        7 Bibliographic Ontology[BIBO][EB/OL].[2013-3-12]. http://bibliontology.com/

        8 Schema.org [SCHEMA][EB/OL].[2013-3-12]. http://schema.org/

        9 Open Archives Initiative Object Reuse and Exchange[OAI-ORE][EB/OL].[2009-7-3].http://www.openarchives.org/ore

        10 陳鵬飛,王文清等. 針對(duì)科學(xué)出版社的基于OAI-ORE標(biāo)準(zhǔn)的圖書和期刊相關(guān)格式規(guī)范 [R]. 北京:北京大學(xué)中國高等教育文獻(xiàn)保障系統(tǒng)管理中心, 2010.

        11 Web Ontology Language[OWL][EB/OL].[2008-4-15].http://www.w3.org/TR/2012/REC-owl2-syntax-20121211

        12 FOAF Language[FOAF][EB/OL].[2013-3-15].http://xmlns.com/foaf/spec/

        13 Miles A, Bechhofer S. SKOS simple knowledge organization system reference[R]. Technical report, W3C, 2009

        14 段榮婷. 基于簡約知識(shí)組織系統(tǒng)的主題詞表語義網(wǎng)絡(luò)化研究——以《中國檔案主題詞表》為例[J]. 中國圖書館學(xué)報(bào),2011(03):54-65

        15 Bizer C, Heath T, Berners-Lee T. Linked data-the story so far[J]. International journal on semantic web and information systems, 2009, 5(3): 1-22

        16 新聞出版行業(yè)標(biāo)準(zhǔn)CY/T102.2-2014. 數(shù)字內(nèi)容對(duì)象存儲(chǔ)、復(fù)用與交換規(guī)范 第2部分:對(duì)象封裝、存儲(chǔ)與交換[S]

        17 新聞出版行業(yè)標(biāo)準(zhǔn)CY/T102.3-2014. 數(shù)字內(nèi)容對(duì)象存儲(chǔ)、復(fù)用與交換規(guī)范 第3部分:對(duì)象驗(yàn)證換[S]

        PUBO: Construction of Publication Ontology of Digital Resource

        Wang Wenqing Liu Chuntong Zhang Yuexiang Chen Ling

        With rapid development of information technology, the medium, forms and means of publication have changed greatly. For publishing organizations, publication is not a single resource, but a combination of multiple resources not only including text, images, audio, video, CD data, attachments, metadata, etc., but also including publishing process related resources such as structures, typesetting, layout design, font, etc.. How to design a unified data model of these resources in order to realize the unified representation of their attributes and relation is a key issue of digital publishing. This paper introducesPUBlication Ontology (PUBO) based OWL-DL standard, details its structures, content features, forms of representation, media types, and relations among them. At last, the application and prospect of PUBO are discussed.

        Publications; Digital Publishing; Ontology; OWL; Object Reuse

        王文清,ORCID:0000-0003-2038-1659,wangwq@calis.edu.cn。

        北京大學(xué)圖書館CALIS管理中心,北京,100871

        2014年12月25日

        猜你喜歡
        資源內(nèi)容
        讓有限的“資源”更有效
        內(nèi)容回顧溫故知新
        內(nèi)容回顧 溫故知新
        基礎(chǔ)教育資源展示
        內(nèi)容回顧溫故知新
        一樣的資源,不一樣的收獲
        資源回收
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        對(duì)你有用的“錢”在資源
        職場(2009年4期)2009-01-01 00:00:00
        巨茎中出肉欲人妻在线视频| 少妇人妻出水中文字幕乱码| 国产午夜精品视频观看| 在线观看人成视频免费| 日韩免费无码一区二区三区| 无码人妻一区二区三区免费手机| 亚洲区一区二区三区四| 久久久亚洲熟妇熟女av| 国内露脸少妇精品视频| 亚洲天堂资源网| 少妇隔壁人妻中文字幕| 人妻精品在线手机观看| 久久午夜夜伦鲁鲁片免费无码| www插插插无码视频网站| 久久久人妻一区精品久久久| 精品亚洲麻豆1区2区3区| 久久精品国产亚洲av四虎| 成黄色片视频日本秘书丝袜| 青青草成人免费播放视频| 少妇性l交大片7724com| 国产欧美日韩精品a在线观看| 欧美日韩国产另类在线观看| av一区二区在线免费观看| 亚洲av成人无遮挡网站在线观看 | 天天做天天爱天天综合网| 久久久诱惑一区二区三区| 国产成人高清在线观看视频| 蜜桃视频无码区在线观看| 在线观看网址你懂的| 最好的99精品色视频大全在线| 亚洲av永久无码天堂网| 亚洲av永久无码精品秋霞电影影院| 激情五月婷婷久久综合| 男女主共患难日久生情的古言| 色 综合 欧美 亚洲 国产| 亚洲两性视频一三区| 激情五月六月婷婷俺来也| 青青草国产精品一区二区| 日韩久久一级毛片| 精品国产麻豆免费人成网站| 无码国产精品一区二区免费式芒果|