李夢琳
摘 要:對科學論文資源實施有效的語義聚合,以提高信息檢索的精度和效率、滿足用戶信息需求、提升知識服務水平,是語義出版與知識組織研究關注的前沿問題。針對目前科學論文檢索難以滿足用戶需求的現(xiàn)狀,本文指出了科學論文語義聚合的必要性,并在SemFus語義聚合框架的基礎上,結(jié)合科學論文的內(nèi)容結(jié)構特征,提出了涵蓋整個檢索流程的語義聚合模型。
關鍵詞:科學論文 語義聚合 SemFus 知識服務
在科學內(nèi)容創(chuàng)作與出版時,對其中的科學知識對象與知識關系進行鑒別和語義標注,在不同出版物之間進行知識點的鏈接與整合,支持語義化出版,成為未來科學出版的重要發(fā)展方向。隨著網(wǎng)絡信息技術的發(fā)展,全球范圍的科學活動和科學交流日益頻繁,科學論文作為科學傳播的客體和交流的對象,數(shù)量規(guī)模呈現(xiàn)出飛速增長的態(tài)勢,并且催生了多種類型的增強型文本,以助讀者獲取補充數(shù)據(jù)、拓展閱讀、增強理解。然而,面對這些多源、異構、動態(tài)、富語義的海量論文資源,目前的資源檢索系統(tǒng)還是不能滿足用戶日益復雜的信息需求,存在準確率低、粗粒度、資源關聯(lián)度不夠和無法很好提供可視化檢索服務等缺點,致使檢索結(jié)果和利用效率不盡如人意,影響資源的共建共享。歸根結(jié)底,這是因為對于科學論文的檢索還沒有細化到“知識單元”的程度,計算機無法識別和理解論文深層次的語義內(nèi)容,系統(tǒng)無法對不同數(shù)據(jù)庫和論文中的各類型知識資源構建關于概念、實體等的知識關聯(lián)網(wǎng)絡。
一、概念說明及相關研究
SemFus框架是一個基于JDL模型構建的語義聚合框架,包含資源預處理、資源優(yōu)化、情景優(yōu)化、威脅評估和過程優(yōu)化五個關鍵環(huán)節(jié),描述了用戶從輸入檢索命令到獲得查詢結(jié)果中間系統(tǒng)進行資源語義聚合的整個過程。同時,SemFus框架還引入了可以規(guī)范描述科學論文內(nèi)容結(jié)構的本體和推理規(guī)則來克服JDL模型不能解決的資源語義異構問題。因此,本文基于SemFus框架,再結(jié)合科學論文特有的內(nèi)容結(jié)構,嘗試提出一個科學論文語義聚合模型,旨在揭示科學論文從語義描述、語義標引、語義關聯(lián)和結(jié)果展示這一系列的語義聚合過程,挖掘資源間的內(nèi)在規(guī)律和關聯(lián),促進資源間的語義互操性,為用戶提供精準有效的知識服務。
(一)語義聚合內(nèi)涵
“語義聚合”可譯為“Semantic Aggregation”,與之相近的概念有語義融合、語義集成、語義整合等。目前學術界對“語義聚合”的概念還缺乏一致的界定,不少研究把“Aggregation”譯成“融合”,把“集成”和“整合”翻譯為“Integration”,其實這些概念都具有“將分散的資源聚集、連接在一起”的含義,其內(nèi)涵并無本質(zhì)差別,在實際應用中也幾乎不會對其內(nèi)涵加以區(qū)分。
“語義聚合”屬于數(shù)字信息資源整合研究范疇,涵蓋圖書情報、地理信息系統(tǒng)、化學工程、計算機等各領域。肖希明總結(jié)目前數(shù)字資源整合方式主要有數(shù)據(jù)整合、信息整合和知識整合。數(shù)據(jù)整合是對異構資源系統(tǒng)中異質(zhì)異類的數(shù)據(jù)在邏輯或物理上進行有機集中,信息整合則是在前者基礎上對數(shù)據(jù)對象之間的關系進行有效組織和整合,知識整合則是對信息實體中的內(nèi)在概念及概念之間的語義關系進行表征。此外,劉曉娟總結(jié)知識融合概念的發(fā)展經(jīng)歷了“數(shù)據(jù)融合——信息融合——知識融合”的過程。由此可見,知識融合是數(shù)據(jù)融合、信息融合的高級階段。曹樹金將語義聚合模式歸為基于關系的聚合,旨在探索文本信息資源內(nèi)容所包含的概念間或?qū)嶓w間的關系,從而通過語義關系網(wǎng)絡實現(xiàn)文本、數(shù)據(jù)、服務等多類型資源的聚合。由此可見,語義聚合屬于知識聚合層面,是從語義層面上來探討異構資源概念、實體、引用之間的關聯(lián)網(wǎng)絡。
(二)國內(nèi)外語義聚合研究
目前語義聚合的相關研究主要集中于體現(xiàn)本體的重要性。一部分研究利用本體技術來進行資源的語義識別。Kokar等提供了本體的類描述和屬性描述,并用簡單實例對其規(guī)范化進行了闡述,旨在將OWL本體運用在Barwise的情境理論中,實現(xiàn)用機器可處理的語義來描述情境。另一部分研究是探討本體在異構信息源語義集成方面的應用。Gagnon提出一種基于本體的利用“局部—全局”本體映射的信息聚合方法來聚合異構數(shù)據(jù)資源。國內(nèi)關于語義聚合的研究主要集中于館藏數(shù)字資源的語義集合。何超和張玉峰分別從本體和Web鏈接挖掘技術這兩個角度,從數(shù)據(jù)采集層、資源描述與挖掘?qū)?、語義聚合層、可視化展示層等方面構建了館藏資源語義聚合與可視化模型。
(三)科學論文結(jié)構研究
目前,已普遍運用于描述文獻結(jié)構的標簽集標準有科技期刊文檔標簽集、圖書交換標簽集、文本編碼協(xié)議等,主要是對文本的外在結(jié)構進行描述,用于內(nèi)容的存儲、轉(zhuǎn)換、表示與分享。近年來,為了滿足知識挖掘的需求,國內(nèi)外學界提出了多種論文內(nèi)容結(jié)構模型和出版本體,如文獻構件本體、篇章元素本體等,旨在規(guī)范描述和表示論文內(nèi)容的組成部分。由此可以反映出文獻語義建模從外部結(jié)構逐步向內(nèi)容語義發(fā)展的趨勢。
二、基于JDL的SemFus框架
(一)SemFus框架的介紹及描述
JDL(Joint Directors of Laboratories)模型是美國軍方實驗室理事聯(lián)席會下設的C3技術委員會成立的信息融合專家組提出的典型信息融合模型,是比較通用且應用最為廣泛的功能模型。但隨著情報獲取及知識管理等新方法的提出,JDL模型已經(jīng)難以滿足實際需求。于是H.A.Noughabi等人從語義聚合流程的角度出發(fā),基于JDL模型提出了語義聚合框架SemFus。SemFus框架較嚴格地遵循了JDL模型的框架,并在其基礎上增加了對語義技術的使用。它首先對語義層級的定義進行了細化,然后引入了本體和語義推理規(guī)則進行語義表示和交互,以克服多種異構數(shù)據(jù)源中的語義問題。為簡化操作流程,本體和推理規(guī)則都采用了資源描述框架(Resource Description Framework,RDF)作為描述語言。如圖1所示為SemFus框架。
在Level 0資源預處理階段,主要是對不同信息資源進行評估和預測,如對資源進行標準化處理、處理數(shù)據(jù)集的缺失值、過濾低質(zhì)量信息等。在Level 1資源優(yōu)化階段,資源對象都用RDF進行描述,并通過RDFizer轉(zhuǎn)換成統(tǒng)一的描述格式存儲在RDF庫里。每種資源都通過本體的定義描述出來,并由統(tǒng)一資源標識符(URI)予以標識。在Level 2情景優(yōu)化階段,基于實體的定義及其關系,在語義層面上提供關系的情境描述。這一階段用于情景分析的資源除了來源于RDF庫,還可以從眾多外部的關聯(lián)數(shù)據(jù)集中獲取。在資源優(yōu)化和情景優(yōu)化過程中,每個數(shù)據(jù)源都用獨立的本體加以描述;同時,為了使多源數(shù)據(jù)能夠相互比較及合并,在本地本體之上還引入共享本體,以保證各數(shù)據(jù)源之間的語義一致性。在Level 3威脅評估階段,使用語義推理機進行語義推理,原理是利用存儲在規(guī)則庫中的推理規(guī)則對前面流程處理過的信息進行推理,以明確可能存在的威脅、脆弱性、不足和機會。Level 4 過程優(yōu)化階段則負責監(jiān)控系統(tǒng)的執(zhí)行過程,根據(jù)特定的目標配置資源,以支持任務目標的完成。
(二)SemFus框架能更好地解決語義關聯(lián)問題
JDL模型與SemFus框架都從系統(tǒng)視角來看待信息聚合,將兩者進行對比,可以發(fā)現(xiàn)SemFus的優(yōu)勢在于它通過利用語義技術可以克服許多語義問題,使異構數(shù)據(jù)集成更高效。比如解決語義沖突問題、提供標準統(tǒng)一的描述規(guī)范、支持映射、語義推理、連接到關聯(lián)開放數(shù)據(jù)等,這些都是JDL模型所不具備的特征。如表1所示。
三、基于SemFus構建科學論文語義聚合模型
由前文可知,SemFus框架在JDL模型的基礎上豐富了語義聚合的過程,致力于實現(xiàn)各種資源間的語義互操作。但它屬于通用型框架,只能描述資源語義聚合的宏觀流程。若想專門針對科學論文資源進行語義聚合,還需對論文獨有的語義結(jié)構特征來進行單獨設計。
(一)科學論文的構成要素
李楠從外部特征和語義特征這兩方面對學術文獻出版模型進行了定義。外部特征主要指文獻題錄項(篇名、作者、機構、關鍵詞、來源出版物等);語義特征則是指內(nèi)容元素,包括陳述型(觀點、假設、事實、結(jié)論等)和數(shù)據(jù)型元素(圖片、表格、公式、基礎數(shù)據(jù)、實驗結(jié)果等)。
1.外部結(jié)構特征難以滿足更精準的檢索和利用需求
目前廣泛運用于文本標注實踐的結(jié)構化標準主要集中于各類數(shù)字內(nèi)容標簽集,故各學術期刊數(shù)據(jù)庫資源的檢索方式和相互關聯(lián)主要是通過文獻題錄項來實現(xiàn)的。從用戶層面來看,存在的問題是:檢索精度不高,所得的結(jié)果通常是一整篇完整的論文,用戶為了找到有價值的信息內(nèi)容仍然需要消耗很多時間來進行選擇和閱讀,由此可見檢索效率和利用效率都比較低。而隨著大數(shù)據(jù)時代信息過載和信息孤島現(xiàn)象的出現(xiàn),用戶對信息檢索和信息利用的要求越來越高,因此繼續(xù)深入研究科學論文的語義結(jié)構,對語義層面的知識單元進行細化和規(guī)范描述,實現(xiàn)機器可理解和異構資源間的語義聚合,是促進科學論文知識挖掘和知識發(fā)現(xiàn)的核心和關鍵。
2.識別和描述科學論文內(nèi)容結(jié)構是實現(xiàn)語義聚合的基礎
由已有研究和SemFus模型可知,本體構建是語義聚合的關鍵,而科學論文內(nèi)容本體是科學論文內(nèi)容結(jié)構的規(guī)范化知識表示,因此研究科學論文的內(nèi)容結(jié)構是構建科學論文語義聚合模型的基礎。
科學論文的內(nèi)容結(jié)構頗為復雜,一般包括背景、動機、已有研究、研究方法、結(jié)果、討論等內(nèi)容組件。已被廣泛認可的IMRD模型將論文主體部分劃分成了引言(Introduction)、方法(Method)、結(jié)果(Result)和討論(Discussion)四個組成部分。這一模型很普適,但劃分粒度很粗。隨后,越來越多針對這方面的研究,旨在基于相關理論和考慮不同學科特征,探尋粒度更細的科學論文內(nèi)容結(jié)構。ABCDE模型認為文獻包含注釋(Annotation)、背景(Background)、貢獻(Contribution)、討論(Discussion)、實體(Entity)五個部分。SALT本體在ABCDE模型基礎上定義了更細粒度的功能單元,包括摘要(Abstract)、動機(Motivation)、背景(Background)、討論(Discussion)、結(jié)果(Conclusion)等。此外,修辭結(jié)構理論本體OntoReST基于修辭結(jié)構理論,定義了9種修辭關系,包括背景、對比、解釋、證據(jù)、判斷、動機、序列等。
在科學論文更細粒度的知識單元劃分上,Zhang Lei基于IMRD模型,借助Swales體裁模型的語步分析以及Sperber和Wilson的關聯(lián)理論,提出了功能單元(Functional Unit)的概念,并識別和歸納出了科學論文中的41個功能單元。比如引言部分的“研究緣起”“研究意義”“提出假設”等,方法部分的“論證方法”“概述實驗程序”“陳述變量”等,結(jié)果部分的“陳述結(jié)果”“重述假設”等,討論部分的 “解釋結(jié)果”“表明結(jié)果局限性”“指出未來研究方向”等。功能單元的系列實證研究還得出,針對一項特定的信息使用任務,功能單元會與同一或不同組成部分的其他功能單元相關聯(lián),功能單元可以在不同程度上支持、促進閱讀過程的每個階段(導航、精讀、理解、信息使用)。通過目的和功能來組織信息,利用好功能單元自身及其與信息使用任務之間的關聯(lián),可以有效地降低文獻檢索時間、提高文獻檢索準確度、提高閱讀效果和效率。
因此,深入科學論文的內(nèi)容結(jié)構進行知識單元的語義化描述和處理,能為數(shù)字文獻資源提供新的知識組織方法,促使知識的處理方式從資源層面上升到認知層面、從單純的語法處理轉(zhuǎn)變?yōu)閺碗s的語義處理,順應語義網(wǎng)和語義出版的發(fā)展趨勢。
3.多模態(tài)數(shù)據(jù)型內(nèi)容元素有助于實現(xiàn)語義增強
隨著語義網(wǎng)技術和出版形態(tài)的發(fā)展,論文形式愈加豐富,逐漸出現(xiàn)了圖表摘要、結(jié)構化摘要、視頻摘要、可交互圖表、可交互式地圖、實驗數(shù)據(jù)集等具有內(nèi)容增強作用的新型文獻模塊,使得已有研究得出的本體和模型略顯捉襟見肘。如Elsevier于2009年實施的Article of the Future項目,采用三欄式的用戶界面設計,通過集成的3D數(shù)據(jù)可視化工具、提供與文獻相關的實驗數(shù)據(jù)集等多種方式實現(xiàn)了外部特定領域數(shù)據(jù)庫與科學文獻的互聯(lián)。再如JoVE出版社于2006年創(chuàng)辦的JoVE實驗視頻期刊,是全球首例實驗視頻期刊,致力于以視頻方式展現(xiàn)醫(yī)學、化學、物理學等學科領域的研究過程與成果。這些新型的文獻模塊都體現(xiàn)了文獻語義增強的趨勢,同時突出體現(xiàn)了讀者對于檢索精度和效度日益增長的需求。因此,在研究科學論文語義聚合的過程中,不僅要繼承傳統(tǒng)科學論文的內(nèi)容結(jié)構,還要兼顧到這些新型的內(nèi)容元素,以實現(xiàn)多模態(tài)數(shù)據(jù)型知識單元的關聯(lián)和融合。
綜上分析可得,科學論文主要由文獻題錄項、內(nèi)容結(jié)構和多模態(tài)數(shù)據(jù)型內(nèi)容元素三部分組成。要對科學論文資源進行語義聚合,就需要根據(jù)這三方面不同的元素特征來構建或引用相應的本體進行規(guī)范化描述,以實現(xiàn)語義一致性和共享性。
(二)基于SemFus的科學論文語義聚合模型
SemFus框架是從聚合流程角度出發(fā)構建的一個通用型語義框架。從用戶輸入檢索命令開始,數(shù)據(jù)資源進行篩選過濾等預處理,通過RDFizer進行一致性轉(zhuǎn)換,處理各資源間的關系并實現(xiàn)關系的聚合,最后再通過SWOT分析來決定提供給用戶的結(jié)果。本文擬參考SemFus的基本流程,嘗試結(jié)合科學論文語義結(jié)構特征來構建科學論文語義聚合模型,如圖2所示。
1.科學論文資源采集
首先在預處理階段,集成多種智能化、自動化的采集方法和技術對科學論文資源進行大規(guī)模采集,能為其語義聚合和檢索結(jié)果的可視化呈現(xiàn)提供數(shù)據(jù)基礎。科學論文資源主要包括期刊論文、學位論文、會議論文及一些行業(yè)知識庫、特色資源庫里的文獻等。
2.科學論文資源的描述、標引與轉(zhuǎn)換
目標優(yōu)化過程主要是對科學論文資源進行統(tǒng)一描述和轉(zhuǎn)換。具體來說,是將來源于不同數(shù)據(jù)庫、不同網(wǎng)站的分布式異質(zhì)異構論文資源按照統(tǒng)一的標準規(guī)范進行原始資源的描述和組織,抽取、加工、處理和創(chuàng)建標準的元數(shù)據(jù),通過規(guī)范統(tǒng)一的元數(shù)據(jù)管理和適當?shù)恼Z言描述科學論文資源。在描述過程中,需要通過向非結(jié)構化和結(jié)構化數(shù)據(jù)源添加機器能夠自動理解的結(jié)構和語義標注信息來表達科學論文內(nèi)部的邏輯結(jié)構和深層語義內(nèi)涵,實現(xiàn)異構數(shù)據(jù)源的統(tǒng)一表達和組織。以上目標可以通過RDF(資源描述框架)和本體語言等技術得以實現(xiàn)。
3.科學論文資源語義聚合
在情景優(yōu)化階段,主要實現(xiàn)的是科學論文知識單元之間關系的聚合。這是整個模型的核心模塊,其主要功能是利用RDF或本體,增強論文資源的語義表達能力。前文總結(jié)的科學論文的文獻題錄項、科學論文內(nèi)容結(jié)構和多模態(tài)數(shù)據(jù)型內(nèi)容元素三部分內(nèi)容在經(jīng)過資源描述、標引和轉(zhuǎn)換之后,雖然各自內(nèi)部已被統(tǒng)一描述,但相互之間卻還是因資源結(jié)構、性質(zhì)不一樣而不能很好地互聯(lián)互通。利用本體技術建立映射規(guī)則,可以很好地解決局部本體與局部本體之間、局部本體與全局本體之間存在的概念、關系、實例等各種語義沖突問題,將異質(zhì)異構數(shù)據(jù)源聚合到統(tǒng)一的語義視圖中,實現(xiàn)語義層面的資源聚合與共建共享。
4.論文資源聚合結(jié)果可視化展示
最后的威脅評估階段主要是系統(tǒng)依靠語義推理機制來評估由前面階段得到的聚合結(jié)果的優(yōu)劣、機會和風險,最終利用關聯(lián)開放數(shù)據(jù)(LOD)在人機交互界面上發(fā)布系統(tǒng)得到的最合理結(jié)果??梢暬故灸K的主要功能和作用是利用現(xiàn)有的可視化模型和工具將非空間數(shù)據(jù)的聚合結(jié)果轉(zhuǎn)換為視覺形式進行輸出,展現(xiàn)海量論文資源之間的錯綜復雜關系和深層次內(nèi)涵,從而幫助用戶加深對聚合結(jié)果的認知和理解。在這里,關聯(lián)數(shù)據(jù)的語義化和關聯(lián)化的鏈接機制,能夠為語義出版提供一種更為靈活的數(shù)據(jù)發(fā)布及共享方式,實現(xiàn)外部知識庫鏈接、文獻知識單元語義聚合等更高層次的語義出版需求。
四、思考與總結(jié)
語義聚合是關系的聚合,關聯(lián)是知識組織的核心,實現(xiàn)關聯(lián)是為了更好地組織信息和利用信息,促進知識發(fā)現(xiàn)??茖W論文作為科學交流活動重要的知識載體,其價值體現(xiàn)于文獻中蘊含的豐富知識單元。細化科學論文的知識單元和語義結(jié)構,通過聚合流程進行轉(zhuǎn)換和關聯(lián),可以有效地實現(xiàn)科學論文資源自動化、智能化的深度聚合與動態(tài)展示,提高論文資源的利用水平和用戶檢索效率。因此,本文基于一個通用型語義聚合框架SemFus,同時結(jié)合科學論文的語義特征,提出了科學論文語義聚合模型。
但是就目前的實際來看,針對科學論文資源的本體構建工作耗時耗力,尚無通用的、完善的本體可以使用,導致資源難以實現(xiàn)統(tǒng)一的描述和處理。另一方面,關于科學論文論述過程中的邏輯組件特征都是通過人工進行識別,暫時還不能解決內(nèi)容元素自動分類和標引的問題,而自動化和智能化是在機器上實現(xiàn)語義聚合的先決條件。這都是未來要繼續(xù)研究和致力于實現(xiàn)的目標。
參考文獻:
1.肖希明,唐義.國外多領域數(shù)字資源整合研究進展[J].中國圖書館學報, 2013(4):26-35.
2.劉曉娟,李廣建,化柏林.知識融合:概念辨析與界說[J].圖書情報工作, 2016(13).
3.曹樹金,馬翠嫦.信息聚合概念的構成與聚合模式研究[J].中國圖書館學報, 2016(3):4-19.
4.何超,張玉峰.基于Web鏈接挖掘的館藏資源語義聚合與可視化展示研究[J]. 情報科學,2015(2):115-120.
5.李楠,孫濟慶,馬卓.面向?qū)W術文獻的語義出版技術研究[J].出版科學,2015(6):85-92.
6.Behkamal, Behshid. SemFus: Semantic fusion framework based on JDL[J]. Journal of Convergence, 2012, 152.
7.Zhang L, Kopak R, Freund L, et al. A taxonomy of functional units for information use of scholarly journal articles[J]. Proceedings of the American Society for Information Science & Technology, 2010, 47(1):1-10.
8.Kokar M M, Matheusb C J, Baclawskic K. Ontology-based situation awareness[J]. Information Fusion, 2009, 10(1):83-98.
9.Gagnon M. Ontology-based integration of data sources[C]// International Conference on Information Fusion. 2007:1-8.
(作者單位系武漢大學信息管理學院)