面向學術文獻的語義出版技術研究

2015-12-10 04:28:02李楠孫濟慶馬卓

出版科學 2015年6期

李楠　孫濟慶　馬卓

[摘要] 指出語義出版以其對文獻知識內容的結構化發(fā)布與呈現(xiàn)成為備受關注的新興出版模式，通過梳理學術期刊的語義出版實踐，總結語義出版應用的發(fā)展現(xiàn)狀，并在分析語義出版主要技術路線的基礎上建立語義出版的技術框架；重點關注學術文獻的語義建模問題，歸納代表性的應用模型，并對文獻語義模型的未來發(fā)展趨勢進行展望。

[關鍵詞] 語義出版語義增強技術框架文獻語義模型

[中圖分類號] G237 [文獻標識碼] A [文章編號] 1009-5853 （2015） 06-0085-08

Study on the Techniques Used in Academic Literature-Oriented Semantic Publishing

Li Nan Sun Jiqing Ma Zhuo

（Institute of Science and Technology information of East China University of Science and Technology，Shanghai， 200237）（Institute of Scientific and Technical Information of Ji-Lin Provence，Changchun，130033）

[Abstract] Semantic publishing becomes the newly an emerging mode which is renowned for its structured knowledge distribution and presentation for academic literature. The paper summarizes the state of the art development of semantic publishing through analyzing the cases of academic periodicals press，and builds a technical frame based on the main application implementation routes.Moreover，the semantic modeling issue on academic literature is focused on the disscussion， which mainly sums up all the typical application models so far as well as proposes a prospect towards the semantic modeling development tendency.

[Key words] Semantic publishing Semantic enrichment Technical frame Literature semantic model

1 引言

隨著信息技術和大數(shù)據環(huán)境的發(fā)展，數(shù)字出版成為融合并超越傳統(tǒng)出版的重要出版模式，尤其在科學、技術和醫(yī)學領域（Science，Technology and Medicine，STM），數(shù)字出版進程正逐步加速，數(shù)字出版物市場占比不斷增大，無論從出版內容、載體形態(tài)到呈現(xiàn)方式都日益豐富。然而，在數(shù)字出版蓬勃發(fā)展的同時，海量學術文獻資源在滿足科研人員信息需求的同時，也帶來了嚴重的信息過載壓力。在這種情況下，用戶只能借助文獻檢索技巧、戰(zhàn)略性閱讀等方式改善科學探索與知識獲取的效率。而作為知識傳播的主要媒介機構，信息服務商和出版商則致力于尋求優(yōu)化科學知識發(fā)布和共享的新途徑。其中，語義出版憑借其對文獻知識內容的結構化發(fā)布與呈現(xiàn)成為備受關注的新興出版形式。

早在21世紀初，語義網概念的興起就使得語義技術成為焦點，其核心在于為網絡資源嵌入機器可讀的語義標簽以實現(xiàn)網絡信息的智能化處理。隨著知識本體、自然語言處理等相關技術的發(fā)展，在語義檢索、個性化推薦等智能化的信息應用服務中語義技術發(fā)揮著越來越重要的作用。受其影響，出版機構也開始嘗試應用語義技術改進出版流程。2009年，肖頓·戴維（Shotton D.）首次系統(tǒng)地提出語義出版概念，并將其界定為一種語義增強的期刊出版形式[1]，通過語義標記豐富出版物的表現(xiàn)形式和知識內容，提高出版物信息的可操作性、交互性和關聯(lián)性，最終實現(xiàn)智能化出版。語義出版一方面通過增強的出版功能改進傳統(tǒng)的知識發(fā)布形式，為科研用戶提供更加高效、精確的閱讀體驗，有助于提升科研人員的知識發(fā)現(xiàn)與創(chuàng)新效率，因此成為學術出版青睞的新型模式。另一方面，它也為圖書館、信息服務商等機構的服務流程帶來沖擊。傳統(tǒng)信息資源開發(fā)與管理模式勢必需要適應基于語義出版的信息環(huán)境，并在知識組織方法與策略上做出相應調整。因此，語義出版的相關研究已成為近年來國際學術界在學術出版與信息資源管理領域普遍關心的熱點問題。

目前國內尚未形成對語義出版技術的系統(tǒng)性研究，本文擬通過梳理和分析國外語義出版的應用實踐和研究文獻，明確語義出版的基本技術路線，建立語義出版技術體系的基本框架，以期為我國語義出版的研究和實踐提供借鑒。

2 學術期刊的語義出版實踐

語義出版的價值在于通過出版物內容的語義揭示以及外部資源的知識關聯(lián)實現(xiàn)學術出版功能的提升。這種通過結構化描述實現(xiàn)計算機理解的方式，使得出版物內容更易于直觀呈現(xiàn)，能夠顯著提高讀者的閱讀效率。近年來，在英國皇家化學學會（RSC）、愛思唯爾（Elsevier）、自然出版集團（Nature）、美國科學公共圖書館（PLoS）等眾多知名學術組織及出版機構的參與和共同推進下，語義出版已經初步實現(xiàn)了從理念構想向實踐應用的過渡，研究成果不斷涌現(xiàn)。愛斯唯爾開展的“未來的論文”計劃（Article of Future）從呈現(xiàn)（Presentation）、內容（Content）、上下文（Context）三方面創(chuàng)新傳統(tǒng)的學術文獻服務。目前旗下的ScienceDirect平臺已經在7個學科領域實現(xiàn)了語義出版原型[2]；皇家化學學會RSC最早推出Rich HTML形式的語義出版服務，為平臺的部分期刊全文進行語義標注，并通過與多種類型化學及相關領域本體資源的關聯(lián)真正實現(xiàn)了語義層面的論文知識內容擴充[3]；PLoS系列期刊則通過與多種外部信息源及數(shù)據集建立鏈接的方式豐富文獻的有機內容，并在此基礎上提供了論文級計量分析服務[4]。

2012年，肖頓歸納了語義出版實踐的基本形式與功能，認為學術期刊的語義增強主要體現(xiàn)為以下幾個方面[5]：① 增強對論文有機內容的描述，如圖片、表格、參考文獻列表等包含有價值內容的多模態(tài)信息的描述；② 增強對論文內容描述的語義標注，如依據領域術語、概念等本體資源識別的命名實體；③ 提供與相關文獻等其他信息源的關聯(lián)，如該文獻作者主頁、相關學術機構網站等；④ 提供所有參考文獻的鏈接；⑤ 以XLS、CSV等可操作方式提供對文獻相關實驗數(shù)據的訪問；⑥ 提供對支持該文獻研究的全數(shù)據集的訪問；⑦ 實現(xiàn)對網絡上語義相關文獻的信息集成；⑧ 采用通用的數(shù)據描述規(guī)范發(fā)布文獻信息，實現(xiàn)開放訪問，包括文獻題錄信息、內容摘要、參考文獻題錄信息等。

按照處理對象的不同，肖頓的語義增強功能可以分為兩種類型：一是對出版物外部特征的揭示，例如③④⑧提供了對基本題錄信息、參考文獻信息等的規(guī)范化描述，并依據這些外部特征建立起與外部資源的鏈接，豐富出版物的信息內容；二是對出版物內容特征的描述，指對出版物內容和邏輯結構的揭示，例如①實現(xiàn)論文章節(jié)、圖表等的結構化，②對術語、概念等實體進行語義標注，⑦建立與語義相關文獻的關聯(lián)。第二種類型的功能應用真正體現(xiàn)了從語義層面對出版形式的改變，即語義特征的形式化出版。

針對部分已開展語義出版嘗試的期刊或機構，調查上述8種語義增強功能的實現(xiàn)情況，部分結果如表1所示。

調查結果顯示：首先，語義出版的學術期刊基本以Rich HTML形式發(fā)布，這里借用了網絡開發(fā)術語“超文本鏈接標識語言”的概念，用于表示文獻內容的發(fā)布已不再是簡單的文本形式，而是通過超鏈接方式實現(xiàn)了語義知識的擴展，增強了文獻的知識價值；其次，語義出版應用多分布在生物、醫(yī)藥、化學等語義技術應用廣泛且實踐成果豐富的領域，究其原因，語義出版的實現(xiàn)離不開語義技術以及領域本體等基礎知識資源的支持，而上述領域正是學術界語義技術應用研究的高地，因而語義出版起步較早；值得注意的是，調查結果中幾乎所有的期刊都實現(xiàn)了①④⑧三項功能，而其他功能則出現(xiàn)明顯的發(fā)展不平衡現(xiàn)象，也就是說，針對文獻的基本題錄信息、章節(jié)圖表等內容結構與模塊信息的規(guī)范化、結構化描述已成為業(yè)界認可的語義出版基本形式，而這些功能僅涉及了部分語義特征的描述，諸如命名實體標注、相關資源的語義集成等深層次的語義化功能則有待于進一步加強。

因此，如果將語義出版應用的發(fā)展劃分為三個層次（如圖1所示）：關注外部特征的初級階段、關注部分顯性或半隱性語義特征描述的過渡階段（淺層語義特征描述）以及全面實現(xiàn)語義特征標引的高級階段（深度語義特征標引），目前，相關實踐尚處于語義出版應用的過渡階段。當然，在語義增強應用需求的推動下，關于語義出版的應用技術研究也不斷深入并取得一定的進展，相信隨著知識本體和自然語言處理等語義技術的發(fā)展，更多隱性的文獻特征將被挖掘出來并實現(xiàn)規(guī)范化描述，基礎數(shù)據、網絡資源等更多類型的信息源也將實現(xiàn)語義層面的有效集成。深度語義標引的高級階段是語義出版應用發(fā)展的必然趨勢。

圖1 語義出版應用的發(fā)展階段

3 語義出版的技術體系

語義出版模式對語義網技術提出了更高的應用需求，相關研究也在不斷深入。目前，以本體和關聯(lián)數(shù)據技術為代表形成了兩條主要的技術路線。大量研究圍繞這兩條主線展開，為語義出版技術的發(fā)展奠定了堅實基礎。而圍繞語義出版的功能目標，在傳統(tǒng)出版流程的基礎上實現(xiàn)對出版物語義特征的深層揭示，語義出版的技術體系則融合了對文獻語義特征的知識挖掘以及關聯(lián)，形成了以“特征描述、特征抽取和知識關聯(lián)”為主要內容的語義出版技術框架。

3.1 主要技術路線

總體來看，有關語義出版的研究文獻總量較為豐富，其中以語義出版應用的實現(xiàn)技術研究為主要方向，形成了兩條基本的技術路線。

（1）借助本體技術實現(xiàn)文獻對象及其知識內容的語義描述。本體是一種形式化的，對于共享概念體系明確而又詳細的說明。因此，在計算機與信息科學領域，本體作為一種重要的用于描述特定領域中的對象，或者描述概念及其屬性、關系的工具，成為語義網應用的基礎。根據應用目標不同，可以把本體在語義出版中的應用分為文獻本體和領域本體兩種類型。①文獻本體用于描述文獻題錄、內容、結構、論述等出版對象及其屬性，即出版對象的元數(shù)據，包括用于描述書目及引用信息的本體（FRBR-aligned Bibliographic Ontology，F(xiàn)aBio；Citation Typing OntologymCito）[6]、應用于出版內容的納米語義模型Nano-Publication等。目前文獻本體的應用能夠更為規(guī)范、清晰地描述文獻的內容及外部特征，已被廣泛應用于不同的語義出版實踐。例如，2011年歐洲創(chuàng)新藥物計劃（IMI）資助了為期3年的開放藥物學概念三元組倉儲（OpenPharmacological Concept Triple Store，Open PHACTS）項目，基于納米語義出版模型嘗試建立試驗數(shù)據和科學結論的規(guī)范語義描述本體，并在大規(guī)模生物醫(yī)藥文獻集上實現(xiàn)了開放的藥物學知識空間[7]。②領域本體是對領域知識中的概念及其屬性進行描述，即領域知識的元數(shù)據或專業(yè)術語集，例如生物學基因本體（Gene Ontology，GO）、一體化醫(yī)學語言系統(tǒng)（Unified Medical Language System，UMLS）等，主要應用于人工智能與機器理解，因此在語義出版領域的應用也相當普遍。例如，奎拉爾（Queral-Rosinach N）等采用語義科學集成本體（Semantic Science Integrated Ontology，SIO）、美國國家癌癥中心術語資源系統(tǒng)（NCI Thesaurus）等進行基因疾病文獻的語義標注，并發(fā)布了94萬個描述規(guī)范的人類DNA科學陳述[8-9]。RSC數(shù)據庫為旗下眾多化學期刊論文進行全文語義標注，建立了與生物化學實體本體（Chemical Entities of Biological Interest，ChEBI）、化學方法本體（Chemical Methods Ontology，CMO）等的術語鏈接[10]。可以說，本體技術在語義出版過程中起著非常重要的作用，因而目前在本體資源較為豐富的化學、生物、醫(yī)學等領域，語義出版發(fā)展更為迅速，而在其他領域則需要著力推進知識資源建設的基礎工作。另外，基于本體的自動語義標注問題也是當前研究關注的重點，語義網技術強調對于語義的機器理解，但在已有較為成熟的應用中仍是以人工處理方式為主，全自動的處理方法與實際應用仍然存在差距，也是未來研究的發(fā)展方向。

（2）采用關聯(lián)數(shù)據為出版物連接更多外部開放的數(shù)據資源提供技術框架，使出版物知識內容的豐富成為可能。傳統(tǒng)出版僅體現(xiàn)了文獻本身的基本內容，對于語義相關的文獻、數(shù)據等資源并未涉及，而語義出版技術框架中明確了知識關聯(lián)的應用需求，關聯(lián)數(shù)據則為這種知識關聯(lián)的建立提供了一種統(tǒng)一的資源描述框架。語義出版內容的組織、關聯(lián)和共享都可以通過關聯(lián)數(shù)據得以實現(xiàn)，后者因此成為語義出版應用的熱點。米特拉切（Dumitrache A.）通過關聯(lián)數(shù)據建立DBpedia、機構數(shù)據以及本體資源與出版物管理系統(tǒng)的鏈接[11]；科羅塞特（Croset A.）提出利用維基百科、DBpedia、科學博客等資源進行集成語義分析[12]；奇切斯特（Chichester C.）則為蛋白質知識平臺neXtPro的文獻數(shù)據添加語義注釋，描述關于特定蛋白質異形體轉錄后修飾的結論及其屬性，并表示成RDF/XML格式，其發(fā)布的neXtPro關聯(lián)數(shù)據集包含了圖結構的語義出版單元[13]。事實上，對于語義出版而言，盡管外部數(shù)據資源的訪問、獲取等關聯(lián)數(shù)據消費行為對出版物知識內容的豐裕程度有重要影響，但出版物知識內容的組織和發(fā)布才是語義出版質量的根基，知識單元的標引粒度、準確性、完備程度、有效性等則與關聯(lián)數(shù)據的建設有著密不可分的聯(lián)系。

3.2 語義出版技術框架

上述技術路線僅涉及面向語義出版應用的兩個關鍵支撐技術，反映了近年來相關研究密切關注的熱點主題。事實上，根據對語義出版實踐的梳理和總結，語義出版的技術體系融匯了知識組織范疇下對文獻內、外部特征的挖掘和知識關聯(lián)的構建等更為廣泛的技術內容，其基本技術框架如圖2所示，包含特征描述、特征抽取和知識關聯(lián)三個部分。

為了充分體現(xiàn)學術文獻的知識價值，學術出版必須盡可能完備地揭示文獻的主題內容。因此，科學、全面地定義學術文獻的基本特征是語義出版中的基礎問題。而學術文獻的基本特征包括外部特征和語義特征兩部分：外部特征即文獻基本題錄項的描述，包括篇名、作者、機構、作者關鍵詞、來源出版物、參考文獻等信息；語義特征則需要通過表達文獻知識內涵、組成文獻主體的語義元素來刻畫。這些語義元素的有序組合形成了符合科學規(guī)律并具有邏輯關聯(lián)的知識單元，進而構成文獻內容的有機整體。按照表現(xiàn)形式，可以將語義元素分為以觀點、假設、事實、結論等科學陳述為基本形式的陳述型語義元素和以圖片、表格、實驗結果、基礎數(shù)據等為代表的多模態(tài)數(shù)據型語義元素兩種。上述文獻外部特征和語義特征共同構成學術文獻出版模型，而在清楚定義文獻出版模型的基礎上，則可以利用本體、關聯(lián)數(shù)據等元數(shù)據解決方案實現(xiàn)文獻特征的規(guī)范化描述，為語義出版提供標準化的依據。由此形成的學術文獻出版模型及其資源描述方案成為語義出版技術體系的基礎與核心。

在明確出版目標學術文獻出版模型之后，語義出版的內容基本確定。繼而需要思考的問題則是如何獲取出版內容，即文獻特征的抽取問題，這也是語義出版的技術關鍵。根據文獻出版模型的定義，外部特征的抽取可通過對文獻題錄項信息的抽取獲得，一般為結構化或半結構化數(shù)據，處理難度較低。但是，近年來對于文獻題錄信息的抽取研究在新的應用需求下有了新的發(fā)展方向，例如：對于參考文獻的標引從基本的參考文獻題錄信息的獲取，進而發(fā)展到對參考文獻的文內位置等上下文信息的自動獲取[14]；語義特征的抽取即實現(xiàn)文獻內部語義元素的識別，針對不同類型的語義元素采用的處理技術也各不相同：對于陳述型語義元素，在文獻中多以自然語言論述的方式表達，因此在抽取時必須首先對文獻的內容文本進行處理，包括語句切分、句法分析、語義分析等，這往往需要借助文本挖掘、自然語言理解等技術實現(xiàn)對語句特征的抽取，然后進行語義元素類別標注。目前相關研究集中在本體領域，根據對科學論述過程中邏輯組件的特征，人工識別假設、觀點、事實、結論等語義元素，尚未完全解決語義元素的自動標引問題；對于數(shù)據型語義元素，涉及圖片、表格、公式等多模態(tài)數(shù)據以及文獻相關的實驗數(shù)據集，其處理過程不僅需要考慮文獻內容中各類數(shù)據的識別和抽取，還要考慮對圖片主題、表格信息、公式內容等語義特征的描述，以及這些數(shù)據的語義特征與文本內容的語義映射關系，因此多模態(tài)信息抽取技術是近年來相關領域關注的前沿熱點問題[15]。

關聯(lián)是知識組織的核心。語義出版將原本處于傳統(tǒng)出版之后的知識組織過程前移并融入出版流程，知識關聯(lián)因此也成為語義出版的重要內容，進一步強化了出版過程中的知識多元化關聯(lián)和集成效應。特征的描述和抽取過程實現(xiàn)了知識內容的結構化，為知識關聯(lián)從外部特征顯性相關向內部語義特征相關的轉化提供了條件。因此，在語義出版環(huán)境下知識關聯(lián)突破作者、機構、關鍵詞、引證文獻等傳統(tǒng)題錄項之間的顯性關系構建，綜合了題錄、內容、數(shù)據等多種類型外部特征和語義元素之間的語義連通路徑，實現(xiàn)動態(tài)、多維的知識關聯(lián)。知識關聯(lián)可以分為顯性和隱性兩種，其中對主題相關度、觀點相似性、事實相符度、數(shù)據一致性等不同層面知識范式的判定與度量成為語義出版中更為重要的關聯(lián)形式，而通過語義消歧、關系約簡及重構等方式對顯性和隱性關聯(lián)進行融合則成為文獻層面語義關聯(lián)的未來發(fā)展方向。

4 學術文獻的語義模型研究

學術資源的價值體現(xiàn)于文獻中蘊含的豐富的知識單元。語義出版實質上是通過語義描述及標引實現(xiàn)文獻知識的結構化、豐富化，以促進資源的知識價值最大化。因此，文獻知識內容的語義構建是語義出版技術體系的核心問題，也是學界長期關注的基礎理論問題。2014年，魯伊斯-伊涅斯塔（Ruiz-Iniesta A.）曾撰文對當前可以用于描述學術文獻的本體模型進行了系統(tǒng)梳理，將文獻本體劃分為文檔本體、題錄和參考文獻本體以及科學論述本體三類[16]。本文結合目前領域研究現(xiàn)狀，將基于本體的文獻語義模型劃分為兩種：一是面向文獻結構的語義模型，包含了對章節(jié)等文獻結構部件、文獻題錄信息以及參考文獻信息的描述；二是面向文獻內容的語義模型，專門用于對學術文獻中的研究目標、假設、論據、方法、試驗及結論等知識內容進行描述，即描述科學論述信息的本體（Scientific discourse Ontology）。

4.1 面向文獻結構的語義模型

在圖書情報領域，文獻元數(shù)據建設一直是研究的重點內容。因此，以傳統(tǒng)的元數(shù)據模型為代表，相關研究開始較早并且已形成較為成熟的行業(yè)規(guī)范。近年來在語義網技術的推動下，基于本體的元數(shù)據方案不斷出現(xiàn)，可應用的本體實例相對較多，其中面向語義出版應用最具代表性的是語義出版及引用本體（Semantic Publishing and Referencing Ontologies，SPAR），該模型為文獻標引提供了基本的語義框架。

如圖3所示，SPAR是由核心本體、相關本體、神經醫(yī)學語義應用本體（Semantic Web Applications in Neuromedicine，SWAN）本體[18]、本體設計模式、外部本體5種類型的本體構成的本體集合。其中核心本體包括8個用于描述文獻題錄和參考文獻不同屬性特征的本體，如：面向FRBR的書目本體FaBiO；描述章、節(jié)、圖、表等文檔結構部件的本體（Document Components Ontology，DoCO）；包含不同引用關系以及類型定義的引用本體CiTO；反映參考文獻題錄及文內引用特征的本體（Bibliographic Reference Ontology，BiRO；Citation Counting and Context Characterisation Ontology，C4O）；以及與出版功能相關的出版角色本體（Publishing Roles Ontology，PRO）、出版狀態(tài)本體（Publishing Status Ontology，PSO）、出版流程本體（Publishing Workflow Ontology，PWO）。SWAN源自生物醫(yī)學領域的科學論述過程本體，可用于描述科研過程中的數(shù)據組織、提出假設、解釋推理及得出結論的整個知識生態(tài)。SPAR主要引用了其科學論述元素本體（Discourse Elements）部分。另外，SPAR還引入了書目模型（Functional Requirements for Bibliographic Records，F(xiàn)RBR）和作者及其關系描述本體（Friend-of-a-Friend，F(xiàn)OAF））等作為核心本體的補充。

如上所述，從基本書目題錄到參考文獻，再到參考文獻的題錄、引用位置、頻次等相關屬性，SPAR基本覆蓋了科學文獻的全部結構性特征，同時SPAR本體集還引入了包括SWAN本體等在內的科學論述過程本體，由此可以反映文獻語義建模從外部結構逐步向內容語義發(fā)展的趨勢。目前各領域正在致力于相關語義模型的完善，并且不斷加快SPAR本體的實例化進程，以促進多學科知識資源的共同繁榮。

4.2 面向文獻內容的語義模型

本文整理了幾種代表性的面向文獻內容的科學論述本體構建實例，按照發(fā)展歷程科學論述本體的研究進展如圖4所示，相關研究正逐漸從科學論述的知識單元描述向具有邏輯關聯(lián)的科學論述過程描述過渡。早期的科學論述本體構建關注對科學陳述中的基本知識單元的描述，例如科學論述本體（Scholarly Interpretation and Discourse，ScholOnto）[19]、科學文獻關鍵信息本體（Core Information about Scientific Papers，CISP）[20]、科學實驗本體（Common Ontology of Scientific Experiments，EXPO）[21]等，主要針對科學主張、假設、目標、背景、研究方法、實驗、模型、結論等科學論證過程的不同組成部分進行類和屬性定義，并應用于領域文獻的自動標引。近年來研究則更加關注知識單元之間的邏輯關系即邏輯論證過程。例如科學論據描述本體（Argument Model Ontology，AMO）[22]根據圖爾敏（Toulmin）的科學論述理論提出，文獻闡述中包含科學主張、背景、依據等相互聯(lián)系的論述單元，單元之間又存在支持、包含、證實等邏輯屬性，由此進行了本體類及其屬性的定義。卡洛斯（Carlos H.Marcondes）的文獻知識模型[23]則是在識別作者推理模式的基礎上，定位文獻中所有重要的結論并采用知識表達規(guī)范描述這些結論及其關系。在文獻本體構建研究的發(fā)展過程中，出現(xiàn)了面向語義出版的語義應用模型，增強了對文獻論述單元的規(guī)范化描述及其真實性的考證，例如，納米語義出版模型（NanoPublication）強調基本科學結論的描述必須包括出處、支持信息、完整性密鑰及唯一標識ID等信息，以反映核心內容及其背景、語境信息，方便知識的集成、推理和發(fā)現(xiàn)[24-25]。微語義出版模型（Mircro Publication）則在此基礎上更加注重科學主張及其論據的關聯(lián)特征，通過自然語言陳述、數(shù)據、方法、材料支撐、分析、評論等多方面內容形成文獻的科學論證鏈[26]。實際上，國內早在2003年就由溫有奎等學者提出了知識元鏈接理論[27]，將科學研究中的知識創(chuàng)新點視為知識元，認為文獻是由知識元構成，并在后續(xù)研究中系統(tǒng)地論述了知識元的類型、標引方法、本體描述等[28-29]。但由于缺乏成熟的應用環(huán)境，中文文獻本體構建的應用研究目前更多地停留在理論層面的描述，很少有簡單、清晰、規(guī)范的應用實例開發(fā)，因此相關研究仍有待進一步深入。

上述研究反映學術界早已開始關注學術文獻知識解構問題。其中，結構化知識部件的定義和描述一直是研究的重點，近年來也產生了大量從不同視角對文獻知識內容進行本體建模的研究成果。然而，學術文獻是一個內涵豐富的有機體。一方面文獻內容（content）包含了表達科學知識的語義元素及邏輯關系，如文本的觀點闡述、論證過程信息等。另一方面，文獻也與科研的上下文環(huán)境（context）密切相關，如研究環(huán)境、貢獻與角色、出版環(huán)境等。顯然已有研究成果并未能完全覆蓋上述內容。可以說，目前學界對于文獻的這種富語義形態(tài)尚未形成系統(tǒng)、一致的認識與定義，構建一種多元化的文獻富語義模型成為亟待解決的基礎研究問題。

5 總結與展望

傳統(tǒng)數(shù)字出版流程包括內容制作、資源加工、內容資源管理等環(huán)節(jié)。在資源加工過程中關注對作者、機構、來源出版物以及參考文獻等外部文獻特征的揭示和報道。而語義出版則是在此基礎上將出版物的加工深度進一步提升到內容層面，借助語義技術實現(xiàn)科學觀點、事實等真正有價值的知識單元的生產過程，并致力于在語義層面建立文獻之間、知識單元之間的知識關聯(lián)。通過對語義出版技術的研究，可以得出以下結論：①目前語義出版應用實踐正處于淺層語義特征描述的過渡階段，隨著語義技術的發(fā)展必將向全面的深度語義化的知識關聯(lián)與集成邁進。②語義出版應用技術融匯了對文獻內、外部特征的挖掘以及多元化知識關聯(lián)的構建，因此形成了“特征描述—特征抽取—知識關聯(lián)”三層技術框架，其中文獻特征的定義和描述是基礎，文獻特征的抽取方法是技術關鍵，知識關聯(lián)則是語義出版知識增值的體現(xiàn)。③借助本體技術實現(xiàn)文獻對象及其知識內容的語義描述是語義出版的主要技術路線，本體工程在語義出版應用中的重要地位不會改變，在未來一段時期內各學科領域的本體基礎建設將成為語義出版發(fā)展的重要推動力。④面向文獻結構的語義模型已日趨成熟，未來將以其在各專業(yè)領域的實例化應用研究為主，而面向文獻內容的語義模型則有待完善，相關研究正從科學論述的知識單元描述向具有邏輯關聯(lián)的科學論述過程描述過渡。

總而言之，語義出版應用研究在語義技術、信息科學等領域發(fā)展的推動下，正穩(wěn)步向成熟化和實例化邁進。未來語義出版技術的相關研究將繼續(xù)以“特征描述—特征抽取—知識關聯(lián)”技術框架為基礎不斷豐富和發(fā)展。其中，文獻的富語義建模研究仍有進一步發(fā)展空間，如何實現(xiàn)文獻語義特征的自動抽取等問題仍是未來各界關注的重點技術內容。

注釋

[1]Shotton D.Semantic Publishing：the coming revolution in scientific journal publishing[J].Learned Publishing，2009 （22）：85-94

[2]The Article of the Future is now live[EB/OL]. [2015-04-24]. http：//www.articleofthefuture.com/

[3]翁彥琴，李苑，彭?，B，等.英國皇家化學會（RSC）-科技期刊語義出版模式的研究[J].中國科技期刊研究，2013，24（5）：825-829

[4]Shotton D， Portwin K， Klyne G， et al. Adventures in semantic publishing： exemplar semantic enhancements of a research article[J]. PLoS Computational Biology， 2009， 5（4）： e1000361

[5]Shotton D . The Five Stars of Online Journal Articles - a Framework for Article Evaluation[EB/OL]. [2015-05-05]. http：//www.dlib.org/dlib/january12/shotton/01shotton.html

[6]Peroni， S.， Shotton， D. FaBiO and CiTO： ontologies for describing bibliographicresources and citations. Web Semantics： Science， Services and Agents on the WorldWide Web， 2012（17）： 33-43

[7]Ratnam， Joseline； Zdrazil， Barbara； Digles， Daniela； et al. The Application of the Open Pharmacological Concepts Triple Store （Open PHACTS） to Support Drug Discovery Research[J].PLOS ONE， 2014，9（12）： e115460

[8]Queralt-Rosinach N， Furlong L I. DisGeNET： from MySQL to Nanopublication， Modelling Gene-Disease Associations for the Semantic Web[C]. International School on Semantic Web Applications and Tools for Life Sciences ， SWAT4LS. Aveiro， Portugal. 2012：1-4

[9]Queralt-Rosinacha N，Kuhnb T，Chichesterc C，et al.Publishing DisGeNET as Nanopublications[EB/OL]. [2015-05-05].

http：//biorxiv.org/content/biorxiv/early/2014/10/16/010397.full.pdf

[10]RSC Publishing （Royal Society of Chemistry 2015）. [2015-3-9]. http：//pubs.rsc.org/

[11]Dumitrache A， Lange C. BauDenkMalNetz-Creating a Semantically Annotated Web Resource of Historical Buildings[C]. First Workshop on Semantic Publication （SePublica 2011） 8th Extended Semantic Web Conference Hersonissos， Crete， Greece， 2011： 30-41

[12]Croset A C S， Kafkas S， Liakata M， et al. Exploring the generation and integration of publishable scientific facts using the concept of nano-publications[C]. First Workshop on Semantic Publication （SePublica 2011） 8th Extended Semantic Web Conference Hersonissos， Crete， Greece， 2011： 13-17

[13]Chichester C， Karch O， Gaudeta P， et al. Converting neXtProt into Linked Data and nanopublications[EB/OL]. [2015-05-04]. http：//www.semantic-web-journal.net/system/files/swj461.pdf

[14]Villegas N M， Tamura G， M€黮ler H A， et al. DYNAMICO： A reference model for governing control objectives and context relevance in self-adaptive software systems[M]. Software Engineering for Self-Adaptive Systems II. Springer Berlin Heidelberg， 2013： 265-293

[15]王睿佳，劉耀.面向科技文獻的多模態(tài)語義關聯(lián)特征提取與表達體系研究[J].大學圖書館學報，2012，30（5）：71-76

[16]Ruiz-Iniesta， A.， Corcho， O. A review of ontologies for describing scholarly and scientific documents[C]. CEUR Workshop Proceedings 2014（1155）. 4th Workshop on Semantic Publishing， SePublica 2014. Co-located with the 11th Extended Semantic Web Conference， ESWC 2014； Anissaras； Greece， 2014： 1-12

[17]SPAR-semantic publishing and referencing [EB/OL]. [2015-4-24]. http：//sempublishing.sourceforge.net/

[18]Semantic Web Applications in Neuromedicine （SWAN） Ontology[EB/OL]. [2015-04-24]. http：//www.w3.org/TR/hcls-swan/

[19]Shum S B， Motta E， Domingue J. ScholOnto： an ontology-based digital library server for research documents and discourse[J]. International Journal on Digital Libraries， 2000， 3（3）： 237-248

[20]Soldatova， L.， Liakata， M. An ontology methodology and CISP - the proposed core information about scientific papers， JISC Project Report，2007 [EB/OL]. [2015-05-05]. http：//ie-repository.jisc.ac.uk/137/

[21]Soldatova， L.N.， King， R.D. An ontology of scientific experiments. Journal of The Royal Society Interface， 2006， 3（11）：795-803

[22]The Argument Model Ontology （AMO）[EB/OL]. [2015-05-04]. http：//www.essepuntato.it/2011/02/argument model

[23]Marcondes C H. A semantic model for scholarly electronic publishing[C]. First Workshop on Semantic Publication （SePublica 2011） 8th Extended Semantic Web Conference Hersonissos， Crete， Greece， 2011： 47-58

[24]Groth P， Gibson A， Velterop J. The anatomy of a nanopublication[J]. Information Services and Use， 2010， 30（1）： 51-56

[25]Patrinos G P， Cooper D N， van Mulligen E， et al. Microattribution and nanopublication as means to incentivize the placement of human genome variation data into the public domain[J]. Human mutation， 2012， 33（11）： 1503-1512

[26]Clark T， Ciccarese P， Goble C. Micropublications： a semantic model for claims， evidence， arguments and annotations in biomedical communications[J]. Journal of Biomedical Semantics， 2014， 5（1）： 28

[27]溫有奎，徐國華. 知識元鏈接理論[J]. 情報學報， 2003，22（6）：665-670

[28]溫有奎，溫浩，徐端頤，等. 基于知識元的文本知識標引[J]. 情報學報， 2006，25（3）：282-288

[29]溫浩，溫有奎. 主題成因的知識元本體轉換模型研究[J]. 情報學報， 2011，30（11）：1123-1128

（收稿日期：2015-07-19）

出版科學2015年6期

出版科學的其它文章: 《出版科學》2015年（第1—6期）年度索引; 記住創(chuàng)業(yè)者; 審書裝之美，享書香之魅; 《出版科學》入選2014年版《中文核心期刊要目總覽》《出版科學》編輯部; 馮夢龍《情史》編纂特點趙秀麗; 從《中國新文學大系（1917—1927）》看趙家璧的宣傳營銷策略

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向學術文獻的語義出版技術研究