李華昱,張培穎,肖 晗
(中國石油大學(xué)(華東)計算機(jī)與通信工程學(xué)院,山東青島 266580)
?
基于抽取規(guī)則和本體映射的領(lǐng)域XML語義集成
李華昱,張培穎,肖晗
(中國石油大學(xué)(華東)計算機(jī)與通信工程學(xué)院,山東青島266580)
油氣井工程領(lǐng)域中存在大量的XML文檔,傳統(tǒng)的XML集成方案無法提供面向語義的信息查詢,導(dǎo)致數(shù)據(jù)利用率不高。針對油氣井XML文檔WeXML語義集成與查詢應(yīng)用需求,提出一種基于抽取規(guī)則和本體映射的語義集成方法。首先定義一系列類、屬性抽取規(guī)則,分別將WeXMLSchema中的元素、屬性映射為WeOWL本體中的類和屬性;然后,利用實例轉(zhuǎn)換算法將WeXML文檔轉(zhuǎn)換為本體實例數(shù)據(jù);由于WeOWL提供有限的局部語義模型,需要在兩者之間建立語義映射,并借助WeOWL中的術(shù)語對全局語義模型中的類和屬性進(jìn)行解釋,進(jìn)而提供面向領(lǐng)域全局本體的語義查詢。通過構(gòu)建WeXML數(shù)據(jù)語義集成原型系統(tǒng),對提出的轉(zhuǎn)換規(guī)則、轉(zhuǎn)換算法和映射規(guī)則進(jìn)行了驗證。
計算機(jī)信息管理系統(tǒng);抽取規(guī)則;本體映射;領(lǐng)域XML;語義集成
XML是領(lǐng)域數(shù)據(jù)重要的信息表示和存儲形式,也是應(yīng)用系統(tǒng)之間進(jìn)行數(shù)據(jù)交換的主要標(biāo)準(zhǔn)。然而,由于XML缺乏足夠的語義信息,傳統(tǒng)的XML集成方案無法提供基于領(lǐng)域術(shù)語的語義查詢,而利用語義Web與本體技術(shù),對XML文檔進(jìn)行語義集成,是一種有效的解決方案,也是領(lǐng)域數(shù)據(jù)集成的研究熱點之一。
目前,XML語義集成主要采用2類方法:1)定義一系列映射規(guī)則,從XML文檔或XMLSchema中抽取本體,并利用映射信息將XML數(shù)據(jù)轉(zhuǎn)換為本體實例數(shù)據(jù),再通過構(gòu)建基于語義的查詢訪問接口,實現(xiàn)語義集成。針對此類方法,劉顯敏等[1]提出了一種基于XML鍵規(guī)則語義實體抽取方法,以此提高XML查詢效率;XML2OWL系統(tǒng)首先采用XSLT描述語義抽取規(guī)則建立OWL本體,再通過實例轉(zhuǎn)換過程生成本體實例數(shù)據(jù)[2];FERDINAND等[3]提出了XMLSchema映射為OWL本體和將XML轉(zhuǎn)換為RDF數(shù)據(jù)的2種獨立方法;XU等[4-5]提出了一種基于映射規(guī)則的領(lǐng)域本體構(gòu)建方法,該方法能夠從XMLSchema抽取語義信息并構(gòu)建XML本體。喬衛(wèi)[6]設(shè)計了XML語義信息抽取模型,通過4個功能模塊解決了XML的語義信息抽取問題,特別是XML結(jié)構(gòu)所隱含的語義。2)在XMLSchema與已有本體之間建立語義映射,利用本體模型描述XML數(shù)據(jù)并通過實例轉(zhuǎn)換或者查詢重寫,提供面向本體模型的語義查詢。例如,WEESA[7]和XMLTOWL[8]采用XML和XSLT定義XMLSchema與本體之間的映射規(guī)則,自動將XML文檔轉(zhuǎn)換為本體實例;文獻(xiàn)[9]采用2個子過程,借助XSLT,分別將XMLSchema和XML文檔映射為本體模型和實例數(shù)據(jù);LEHTI等[10]提出的本體映射方法中,不提供實例數(shù)據(jù)轉(zhuǎn)換功能,而是利用查詢重寫,將基于語義的查詢轉(zhuǎn)換為面向XML的Xquery查詢。CRUZ等[11-12]和XIAO[13]提出了一個基于本體的XML語義數(shù)據(jù)集成框架,該框架首先將局部XML本體進(jìn)行合并生成全局RDF本體,再構(gòu)造一個模式映射表,記錄全局和各個局部本體之間的映射,進(jìn)而實現(xiàn)語義集成。
石油、材料領(lǐng)域中存在若干個XML模型[14],如PetroXML,WellLogML,WITSM[15]和MatML[16]等,針對油氣井XML文檔WeXML,基于文獻(xiàn)[17]和文獻(xiàn)[18]中的MatML語義集成方法及相關(guān)領(lǐng)域數(shù)據(jù)集成方案[19-20],提出了語義解決方案,首先通過定義抽取規(guī)則從WeXMLSchema中抽取油氣井局部本體WeOWL,并通過實例轉(zhuǎn)換部件將WeXML文檔轉(zhuǎn)換為WeOWL本體實例數(shù)據(jù);由于MatOWL是從WeXMLSchema中抽取而來,僅提供油氣井的基本語義信息,需要利用邏輯規(guī)則,在WeOWL與領(lǐng)域本體之間建立語義映射,并借助語義映射信息和邏輯規(guī)則,實現(xiàn)面向領(lǐng)域語義概念模型的油氣井XML數(shù)據(jù)的語義集成與語義查詢。
1.1WeXML基本結(jié)構(gòu)
WeXML(wellXML)是一種描述油氣井日常生產(chǎn)相關(guān)數(shù)據(jù)的XML文檔,通過XML數(shù)據(jù)類型、complexType和simpleType,WeXMLSchema定義了Dept,Well和Geology3類一級元素和75種其他子元素和屬性,WeXML基本結(jié)構(gòu)如圖1所示。
圖1 WeXML 基本結(jié)構(gòu) Fig.1 Basic sturcture of WeXML
圖1中,實線矩形框表示元素類型,以@開頭的矩形框表示屬性。Dept,Well和Geology是3類一級元素類型:Dept描述油氣井單位隸屬關(guān)系,包括礦區(qū)和小隊;Well是WeXML中的核心類型,包括油井和氣井2種類型,記為OilWell和GasWell,每種類型定義產(chǎn)量、壓力、泵工藝等子元素,分別描述日產(chǎn)油、日產(chǎn)液、日產(chǎn)氣、月產(chǎn)油、月產(chǎn)液、月產(chǎn)氣、工藝措施、含水、含砂、壓力類型、泵壓力、泵排量、泵徑、泵深等相關(guān)數(shù)據(jù);Geology類型描述油田、區(qū)塊和儲層等信息。
1.2相關(guān)定義
定義1WeXMLSchema=(CT,ST),ST={st|stisxsd:simpleType},CT={ct|ctisxsd:complesType}=E∪ATT,其中:E={e|eisaxsd:Element},ATT={att|attisaxsd:Attribute}
定義2XSDType為XMLSchema類型集合,XSDType={string,date,dicimal,integer,…}
建立函數(shù)集合FSchema={getEles,getAttrs,getXSDType}:
1)getEles(ct),getAttrs(ct) 分別獲取ct的子元素和屬性;
2)getXSDType(att/st) 分別獲取att/st的名稱、類型和對應(yīng)的XMLSchema數(shù)據(jù)類型。
定義3WeOWL=(C,OP,DP,I,A0)
WeOWL(wellOWLontology)是從WeXMLSchema抽取而來,其中,C是概念集合,OP是對象屬性集合,DP是數(shù)據(jù)類型屬性集合,I是實例集合,A0是公理集合。針對WeOWL定義,建立函數(shù)集合FWeOWL={hasDomain,hasRange,hasSuperclass}:
1)?p∈OP∪DP,?x,y∈C∪XSDType,p.hasDomain(x) 表示屬性p的Domain中包含類x,p.hasRange(y) 表示屬性p的Range中包含類y;
2)?c,x∈C,x=hasSuperclass(c) 用于表示類x為類c的一個父類。
由于WeOWL是從WeXMLSchema抽取而來,無法表達(dá)比WeXMLSchema更豐富的語義信息,需要將WeOWL與領(lǐng)域本體建立映射關(guān)聯(lián),才能提供更為有效的語義集成服務(wù),為此,引入油氣井工程領(lǐng)域本體WeDOWL(wellengineeringdomainOWLontology)。
定義5y=fC/P(x) 為語義抽取函數(shù):x∈ST∪CT∪XSDType,y∈C∪OP∪DP,x為WeXMLSchema中的類型或者屬性;y=fC/P(x) 表示y是由x抽取生成的WeOWL類、對象屬性或者數(shù)據(jù)類型屬性
圖2 WeXML 語義集成框架Fig.2 Semantic integration framework of WeXML
1.3語義集成框架
WeXML語義集成框架如圖2所示,包括WeXML數(shù)據(jù)層、本體實例轉(zhuǎn)換層、語義集成業(yè)務(wù)層和應(yīng)用層。
1)WeXML數(shù)據(jù)層:包括由各個采油生產(chǎn)單位提交的WeXML文檔。
2)本體實例轉(zhuǎn)換層:參照語義抽取規(guī)則,通過實例轉(zhuǎn)換算法,將WeXML中的油氣井?dāng)?shù)據(jù)轉(zhuǎn)換為WeOWL實例數(shù)據(jù),即填充WeOWL實例集合I。
3)語義集成業(yè)務(wù)層:針對WeXMLSchema結(jié)構(gòu),定義語義抽取規(guī)則,將WeXMLSchema中元素和屬性映射為WeOWL中的類、屬性以及層次關(guān)系并建立WeOWL本體;在WeOWL與WeDOWL之間建立語義映射,提供基于領(lǐng)域概念模型的語義查詢。
4)應(yīng)用層:基于WeOWL語義概念模型,提供可視化查詢構(gòu)造界面,能夠根據(jù)查詢需求構(gòu)造SPARQL[21]查詢語句;通過讀取規(guī)則庫中的邏輯規(guī)則并借助推理機(jī),實現(xiàn)面向WeOWL實例數(shù)據(jù)進(jìn)行語義查詢。
2.1語義抽取規(guī)則
通過對WeXMLSchema結(jié)構(gòu)進(jìn)行分析,并參照HUNTER等[22]提出的方法,分別針對類、層次結(jié)構(gòu)、對象屬性、數(shù)據(jù)對象屬性和基數(shù)定義5項抽取規(guī)則,從WeXMLSchema中抽取語義信息并建立WeOWL本體,規(guī)則如下。
規(guī)則1Class抽取規(guī)則
?t∈CT∪STR→(?c∈C)∧(c.id=getName(t))
規(guī)則說明:對于任意CT或STR類型t,它將被轉(zhuǎn)換為WeOWL中的一個類c,并將t的名稱作為c的標(biāo)志符。該規(guī)則簡記為c=fC(t)。
規(guī)則2ClassHierarchy生成規(guī)則
規(guī)則2.1?c1∈C∧(c1.id=’Well’)∧?c2∈C(c2.id=’OilWell’∨c2.id=’GasWell’)→c1=hasSuperclass(c2)
規(guī)則2.2?c1∈C∧(c1.id=’ProdO’)∧?c2∈C(c2.id=’DOProd’∨c2.id=’MOProd’)→c1=hasSuperclass(c2)
規(guī)則2.3?c1∈C∧(c1.id=’ProdG’)∧?c2∈C(c2.id=’DGProd’∨c2.id=’MGProd’)→c1=hasSuperclass(c2)
規(guī)則說明:2.1將’Well’類設(shè)置為’OilWell’和’GasWell’的父類,即將“油井”和“氣井”設(shè)置為“井”的子類;2.2將’ProdO’類設(shè)置為’DOProd’和’MOProd’的父類,即將“日產(chǎn)油”和“月產(chǎn)油”設(shè)置為 “產(chǎn)油”的子類;2.3將’ProdG’類設(shè)置為’DGProd’和’MGProd’的父類,即將“日產(chǎn)氣”和“月產(chǎn)氣”設(shè)置為“產(chǎn)氣”的子類。
定義子類集合Cchild={OilWell,GasWell,DOProd,MOProd,DGProd,MGProd},Cchild包含上述6個子類。
規(guī)則3ObjectProperty抽取規(guī)則
?ct∈CT∧(?x∈getEles(ct)∪getAttrs(ct))∧(x?Cchild)∧(getType(x)∈CT∪STR)→
(?op∈OP)∧(op=fOP(x))∧(op.id=getName(x))∧(op.hasDomain(fC(ct)))∧
(op.hasRange(fC(getType(x))))。
規(guī)則說明:對于任意CT類型ct,如果其包含的元素或?qū)傩詘是CT類型或是ST類型,并且x不包含在Cchild集合,則x將被抽取為對象屬性op。同時,類fC(ct)被添加到op的domain中,類fC(getType(x)) 被添加到op的range中。該規(guī)則簡記為op=fP(ct.x)。
規(guī)則4DataTypeProperty抽取規(guī)則
?ct∈CT∧(?x∈getElements(ct)∪getAttributes(ct))∧(getType(x)∈ST)∧(getXSDType(x)∈XSDType)→(?dp∈DP)∧(dp=fC/DP(x))∧(dp.id=getName(x))∧(dp.hasDomain(fC/P(ct)))∧(dp.hasRange(getXSDType(x)))。
規(guī)則說明:對于任意CT類型ct,如果其包含的元素或?qū)傩詘為ST簡單類型或為XMLSchema數(shù)據(jù)類型,x將被抽取為一個數(shù)據(jù)類型屬性dp。同時,類FC/P(ct)將被添加到dp的domain中,類FC/P(getXSDType(x))將被添加到dp的range中。該規(guī)則簡記為dp=fP(ct.x)。
規(guī)則5PropertyCardinality生成規(guī)則
?ct∈CT∧(?x∈getEles(ct)∪getAttrs(ct))∧(?c=fC(ct))∧(?p=fP(ct.x)),定義如下子規(guī)則:
規(guī)則5.2(x.minOccurs=m)∧hasAtt(x.maxOccurs)→p.MinCardinality(c) =m
規(guī)則說明:如果元素x沒有定義minOccurs和maxOccurs屬性,則p對于類c的Cardinality設(shè)定為1;如果x的minOccurs數(shù)值為m,并且沒有定義maxOccurs屬性,則p對于類c的Cardinality設(shè)定為m。
基于1.2定義的函數(shù)和2.1定義的抽取規(guī)則,通過“本體抽取”模塊從WeXMLSchema中獲取結(jié)構(gòu)信息并建立WeOWL本體,WeOWL結(jié)構(gòu)如圖3所示,其中WeXML是WeOWL的root類。
在利用抽取規(guī)則建立WeOWL本體過程中,設(shè)置映射表MapTab(mappingtable)描述WeXMLSchema中元素、屬性和WeOWL中類、屬性之間的對應(yīng)關(guān)系。
圖3 WeOWL 本體結(jié)構(gòu) Fig.3 Structure of WeOWL ontology
2.2WeOWL實例數(shù)據(jù)轉(zhuǎn)換
生成WeOWL后,需要利用本體實例轉(zhuǎn)換部件(WeOWLinstancetransformation)并參照語義抽取規(guī)則,通過轉(zhuǎn)換算法對WeXML進(jìn)行遍歷,依次讀取元素、屬性和數(shù)值信息,生成WeOWL實例數(shù)據(jù)。實例轉(zhuǎn)換算法如表1所示,輸入為WeXML文檔wexml.xml,WeOWL本體模型weowl.owl,輸出結(jié)果為包括本體實例數(shù)據(jù)的weowl’。
TraverseXML主要包括Transform和TransfromST2個函數(shù)。其中,Transform采用遞歸形式遍歷wexml.xml文檔,針對CT和ST類型元素分別進(jìn)行轉(zhuǎn)換;TransformST專門處理ST類型元素的轉(zhuǎn)換。
表1 WeOWL實例轉(zhuǎn)換算法
算法首先讀取wexml.xml文檔并將文檔根節(jié)點記為rootNode;然后,針對rootNode每一個子節(jié)點執(zhí)行Transform函數(shù)(1-4行),Transform函數(shù)根據(jù)傳入的node參數(shù)類型,分別進(jìn)行處理: 如果為CT類型,從MapTab映射表中獲取node對應(yīng)的類記為c(5-7行),并遍歷node的每一個屬性和子元素(8行),其中,屬性直接轉(zhuǎn)換為數(shù)據(jù)類型實例數(shù)據(jù)(9-11行),子元素如果為CT類型,遞歸執(zhí)行Transform函數(shù)并轉(zhuǎn)換為對象類型實例數(shù)據(jù)(13-14行),如果為ST類型,執(zhí)行TransformST函數(shù)(15-16行)。TransformST函數(shù)根據(jù)ST是否為枚舉類型,分別處理ST類型的實例數(shù)據(jù)轉(zhuǎn)換(19-24行)。
由于WeOWL是從WeXMLSchema中抽取而來,僅提供局部、有限的語義信息,需要在WeOWL和WeDOWL之間建立語義映射,進(jìn)而提供面向領(lǐng)域全局語義模型的語義查詢。
本體映射由用戶通過邏輯規(guī)則進(jìn)行定義,定義的邏輯規(guī)則將存入到規(guī)則庫中。通過參照邏輯規(guī)則,推理機(jī)引擎能夠利用WeOWL術(shù)語對WeDOWL中的類和屬性進(jìn)行解釋,自動地將WeOWL本體實例數(shù)據(jù)歸類為WeDOWL實例。邏輯規(guī)則定義形式如下所示:
weowl:Oilwell(?x)∧weowl:hasMeasure(?x,?y)∧weowl:hasMeasureDate(?y,?z)→wedowl:MeaOilWell(?x)。
以上規(guī)則表示:如果在WeOWL中x為油井,并且在某一時間進(jìn)行過工藝措施,那么x可以作為WeDOWL中的“措施油井”類型。
例如:查詢“2015年1月以后所有措施油井井號、增油產(chǎn)量及實施的工藝措施類型”,可以通過設(shè)定以下邏輯規(guī)則:
weowl:Oilwell(?x)∧weowl:hasWellNo(?x,a)∧weowl:hasMeasure(?x,?b)∧weowl:hasMeasureDate(?b,?c) ∧weowl:measureDate(?c,’2015.1’)∧weowl:oilAdd(?b,?d)∧weowl:hasMeaName(?b,?e)→wedowl:MeaOilWell(?x)∧wedowl:wellName(?x,?a)∧wedowl:oilAdd(?x,d)∧wedowl:MeaType(?x,?b)。
用戶可以通過查詢構(gòu)造器設(shè)置如下SPARQL語句:
Select?a?b?c
Where{ ?ardf:typeMeaOilWell. ?awedowl:wellName?b.?awedowl:oilAdd?c. }
查詢語句提交給語義查詢處理器后,處理器將利用規(guī)則庫和推理機(jī),自動將WeOWL中相關(guān)實例數(shù)據(jù)歸類為MeaOilWell實例,完成語義查詢。
基于Eclipse開發(fā)平臺,開發(fā)了WeXMLSemSys原型系統(tǒng)。WeXMLSemSys采用JavaSwing設(shè)計查詢操作界面,將Dom4j作為WeXML文檔的解析工具,利用JenaAPI完成Sparql語義查詢和邏輯推理。該原型系統(tǒng)主要包括3個功能:瀏覽WeXML數(shù)據(jù)內(nèi)容并將WeXML文檔轉(zhuǎn)換為WeOWL實例數(shù)據(jù);通過Sparql語句對數(shù)據(jù)進(jìn)行查詢;利用Jena推理機(jī)和邏輯規(guī)則實現(xiàn)推理并返回語義查詢結(jié)果。
在實際應(yīng)用中,WeXMLSemSys讀取了勝利油田某采油廠2015年的103個WeXML文檔,每個文檔包含1-2口油井的生產(chǎn)數(shù)據(jù),通過實例轉(zhuǎn)換算法產(chǎn)生了基于領(lǐng)域全局本體的WeDOWL的實例數(shù)據(jù),能夠有效支持面向語義的數(shù)據(jù)查詢,提高數(shù)據(jù)使用效率。
近年來,很多學(xué)者關(guān)注XML語義集成和XML與本體之間映射的相關(guān)研究,并取得了一定的應(yīng)用成果。通過比較,本文提出的方法具有以下特點:1)WeOWL本體構(gòu)建方法并不是將XML文檔直接與特定本體進(jìn)行映射,而是首先根據(jù)抽取規(guī)則,自動構(gòu)建局部本體,然后再與領(lǐng)域全局本體進(jìn)行語義映射;2)該方法是針對特定領(lǐng)域的XML文檔WeXML,除了與相關(guān)工作類似的集成方法之外,還根據(jù)WeXMLSchema和領(lǐng)域特點,加入了特定的抽取規(guī)則和映射方法。通過構(gòu)建原型系統(tǒng)WeXMLSemSys,對本文提出的方法進(jìn)行了驗證,取得了良好的應(yīng)用效果。
/< class="emphasis_italic">References
:
[1]劉顯敏, 李建中. 基于鍵規(guī)則的XML實體抽取方法[J]. 計算機(jī)研究與發(fā)展,2014,51(1):64-75.
LIUXianmin,LIJianzhong.Key-basedmethodforextractingentitiesfromXMLdata[J].JournalofComputerResearchandDevelopment, 2014, 51(1):64-75.
[2]BOHRINGH,AUERS.MappingXMLtoOWLontologies[J].LeipzigerInformatik-Tage, 2005,72:147-156.
[3]FERDINANDM,ZIRPINSC,TRASTOURD.LiftingXMLSchematoOWL[J].LectureNotesinComputerScience, 2004,3140:354-358.
[4]XUJiuyun,WANGHongquan,DUANYouxiang,etal.AutomaticallybootstrappingOWLontologiesfromdomain-specificXMLdocuments[J].JournalofComputationalInformationSystems, 2007,3(3): 1269-1276.
[5]XUJiuyun,WANGHongquan,DUANYouxiang.Auto-buildingOWLontologyfromXMLdatasources[J].JournalofComputationalInformationSystems, 2006,2(3):1051-1057.
[6]喬衛(wèi). 基于領(lǐng)域本體的XML語義信息抽取的研究與實現(xiàn)[D]. 武漢:武漢理工大學(xué),2009.
QIAOWei.ResearchandImplementationofXMLSemanticInformationBasedonDomainOntology[D].Wuhan:WuhanUniversityofTechnology, 2009.
[7]REIFG,JAZAYERIM,GALLH.Towardssemanticwebengineering:WEESA-MappingXMLSchematoontologies[C] //InWorkshoponApplicationDesign.NewYork:IEEEComputerSociety, 2004:105-109.
[8]KOBEISSYN,GENETMG,ZEGHLACHED.MappingXMLtoOWLforseamlessinformationretrievalincontext-awareenvironments[C] //InternationalConferenceonPervasiveServices.[S.l.]:[s.n.], 2007:349-354.
[9]靖爭.XML/Schema到OWLDL本體映射的研究[D]. 沈陽:東北大學(xué),2008.
JINGZheng.ResearchonMappingXML/SchematoOWLDLOntology[D].Shenyang:NortheasternUniversity,2008.
[10]LEHTIP,FANKHAUSERP.XMLdataintegrationwithOWL:Experiencesandchallenges[C] //InternationalSymposiumonApplicationsandtheInternet. [S.l.]:IEEEComputerSociety, 2004:160-167.
[11]CRUZIF,XIAOH,HSUF.Anontology-basedframeworkforXMLsemanticintegration[J].Ideas, 2004,26(1):217-226.
[12]CRUZIF,XIAOH,LABA.Theroleofontologiesindataintegration[J].InternationalJournalofEngineeringIntelligentSystemsforElectricalEngineeringandCommunications, 2005, 13(4):245-252.
[13]XIAOH.QueryProcessingforHeterogeneousDataIntegrationUsingOntologies[D].Chicago:UniversityofIllinois, 2006.
[14]王宏琳.石油勘探開發(fā)信息技術(shù)發(fā)展態(tài)勢——數(shù)據(jù)集成、應(yīng)用集成和知識集成[J]. 石油工業(yè)計算機(jī)應(yīng)用, 2007, 15(1):6-11.
WANGHonglin.Thetrendofnformationtechnology:Dataintegrationapplicationintegrationandknowledgeintegrationinoilexplorationanddevelopment[J].ComputerApplicationsofPetroleum,2007, 15(1):6-11.
[15]WELLSITE.InformationTransferStandardMarkupLanguage[EB/OL].http://www.witsml.org,2007-03-16.
[16]BEGLEYEF.MatMLVersion3.1Schema[EB/OL].http://www.matml.org,2011-02-23.
[17]ZHANGXiaoming,HUChangjun,LIHuayui.SemanticqueryonmaterialsdatabasedonmappingMatMLtoanOWLontology[J].DataScienceJournal,2009,8:1-17.
[18]張曉明. 領(lǐng)域科學(xué)數(shù)據(jù)語義集成模型及映射[D]. 北京:北京科技大學(xué),2009.
ZHANGXiaoming.Domain-specificSemanticModelandMappingforScientificDataIntegration[D].Beijing:UniversityofScienceandTechnologyBeijing, 2009.
[19]劉紫玉,楊國霞, 李學(xué)會. 基于本體的多專業(yè)領(lǐng)域知識語義檢索系統(tǒng)研究[J]. 河北科技大學(xué)學(xué)報, 2011, 32(5):471-476.
LIUZiyu,YANGGuoxia,LIXuehui.Researchinsemanticretrievalsystemforknowledgeofmultiplemajorsdomainbasedonontology[J].JournalofHebeiUniversityofScienceandTechnology, 2011,32(5):471-476.
[20]張立巖,張世民. 基于語義相似度的主觀題評分算法研究[J]. 河北科技大學(xué)學(xué)報,2012,33(3):263-265.
ZHANGLiyan,ZHANGShimin.Algorithmofsubjectiveitemmarkingbasedonsemanticsililarity[J].JournalofHebeiUniversityofScienceandTechnology, 2012,33(3):263-265.
[21]PRUD'HOMMEAUXE,SEABORNEA.SPARQLQueryLanguageforRDF[EB/OL].http://www.w3.org/TR/rdf-sparql-query,2008-01-15.
[22]HUNTERJ,LITTLES,SCHROETERR.Theapplicationofsemanticwebtechnologiestomultimediadatafusionwithinescience[C]//SemanticMultimediaandOntologies.Springer:[s.n.], 2008: 207-226.
DomainXMLsemanticintegrationbasedonextractionrulesandontologymapping
LIHuayu,ZHANGPeiying,XIAOHan
(CollegeofComputerandCommunicationEngineering,ChinaUniversityofPetroleum,Qingdao,Shandong266580,China)
AplentyofXMLdocumentsexistinpetroleumengineeringfield,buttraditionalXMLintegrationsolutioncan’tprovidesemanticquery,whichleadstolowdatauseefficiency.InlightofWeXML(oil&gaswellXMLdata)semanticintegrationandqueryrequirement,thispaperproposesasemanticintegrationmethodbasedonextractionrulesandontologymapping.ThemethodfirstlydefinesaseriesofextractionruleswithwhichelementsandpropertiesofWeXMLSchemaaremappedtoclassesandpropertiesinWeOWLontology,respectively;secondly,analgorithmisusedtotransformWeXMLdocumentsintoWeOWLinstances.BecauseWeOWLprovideslimitedsemantics,ontologymappingsbetweentwoontologiesarethenbuilttoexplainclassandpropertyofglobalontologywithtermsofWeOWL,andsemanticquerybasedonglobaldomainconceptsmodelisprovided.ByconstructingaWeXMLdatasemanticintegrationprototypesystem,theproposedtransformationalrule,thetransferalgorithmandthemappingrulearetested.
computerinformationmanagementsystem;extractionrules;ontologymapping;domainXML;semanticintegration
1008-1542(2016)04-0416-07
10.7535/hbkd.2016yx04015
2015-10-13;
2015-11-24;責(zé)任編輯:陳書欣
山東省自然科學(xué)基金(ZR2014FQ018); 中央高?;究蒲袠I(yè)務(wù)費專項資金(14CX02030A)
李華昱(1977—),男,山東壽光人,副教授,博士,主要從事語義Web與數(shù)據(jù)集成方面的研究。
E-mail:lhyzj@upc.edu.cn
TP391
A
李華昱,張培穎,肖晗.基于抽取規(guī)則和本體映射的領(lǐng)域XML語義集成[J].河北科技大學(xué)學(xué)報,2016,37(4):416-422.
LIHuayu,ZHANGPeiying,XIAOHan.DomainXMLsemanticintegrationbasedonextractionrulesandontologymapping[J].JournalofHebeiUniversityofScienceandTechnology,2016,37(4):416-422.