亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于本體語義驅(qū)動的開放生物醫(yī)學(xué)數(shù)據(jù)集成方法

        2017-12-11 09:31:42劉玉文
        湖北工程學(xué)院學(xué)報 2017年6期
        關(guān)鍵詞:生物醫(yī)學(xué)實(shí)例本體

        王 凱,劉玉文,2

        (1.蚌埠醫(yī)學(xué)院 衛(wèi)生管理系,安徽 蚌埠 233030;2.中國科學(xué)技術(shù)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230027)

        一種基于本體語義驅(qū)動的開放生物醫(yī)學(xué)數(shù)據(jù)集成方法

        王 凱1,劉玉文1,2

        (1.蚌埠醫(yī)學(xué)院 衛(wèi)生管理系,安徽 蚌埠 233030;2.中國科學(xué)技術(shù)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230027)

        生物醫(yī)學(xué)研究通常需要結(jié)合大量異構(gòu)數(shù)據(jù),數(shù)據(jù)間的語義鴻溝限制了生物醫(yī)學(xué)領(lǐng)域知識大規(guī)模融合與開發(fā)。語義Web使用機(jī)器可讀的數(shù)據(jù)格式,為數(shù)據(jù)語義集成提供了可行的技術(shù)支持。本文提出了一種面向語義Web的開放式異構(gòu)生物醫(yī)學(xué)數(shù)據(jù)語義轉(zhuǎn)換和集成方法,建立基于XML(Extensible Markup Language)數(shù)據(jù)實(shí)體與語義本體概念關(guān)系之間的映射關(guān)系集,包含不同類型的映射關(guān)系以及復(fù)雜數(shù)據(jù)變換模式,自動生成具備語義邏輯關(guān)系一致的映射數(shù)據(jù)集,實(shí)現(xiàn)多個異構(gòu)數(shù)據(jù)源數(shù)據(jù)之間的互聯(lián)與集成。試驗(yàn)結(jié)果表明,基于本體語義驅(qū)動的開放生物醫(yī)學(xué)數(shù)據(jù)集成方法可以進(jìn)一步提高計算機(jī)的異構(gòu)數(shù)據(jù)理解能力,證明轉(zhuǎn)換和集成異構(gòu)生物醫(yī)學(xué)數(shù)據(jù)信息是切實(shí)可行的。

        語義本體;生物醫(yī)學(xué)數(shù)據(jù);映射;轉(zhuǎn)換與集成

        生物醫(yī)學(xué)數(shù)據(jù)的異構(gòu)性和分散性使得數(shù)據(jù)的檢索和管理異常困難,主要存在領(lǐng)域數(shù)據(jù)資源的信息難以挖掘、異構(gòu)數(shù)據(jù)類型和字段無法語義解釋以及資源訪問和查詢錯誤率較高等問題。生物醫(yī)學(xué)數(shù)據(jù)集成的目的是將重要的生物學(xué)數(shù)據(jù)最終能夠應(yīng)用到臨床診斷活動中,并為診療工作提供必要的決策支持。因此,迫切需要找到能夠識別異構(gòu)數(shù)據(jù)資源的集成方法,消除語義鴻溝。目前使用較為廣泛的數(shù)據(jù)語義轉(zhuǎn)換方法是面向數(shù)據(jù)倉庫以及聯(lián)機(jī)分析處理(Online analytical processing ,OLAP)的XML數(shù)據(jù)和關(guān)系數(shù)據(jù)庫處理。文獻(xiàn)[1]提出了一種將XML元素轉(zhuǎn)換成RDF(Resource Description Frame)語句的方法,實(shí)現(xiàn)數(shù)據(jù)格式的語義變化,但該方法無法實(shí)現(xiàn)XML的屬性關(guān)系映射。文獻(xiàn)[2]以XSD( XML Schemas Definition )和owl(Ontology Web Language)之間的映射關(guān)系為基礎(chǔ),通過應(yīng)用相同的規(guī)則,構(gòu)建RDF與 XML實(shí)例之間的關(guān)系映射。文獻(xiàn)[3]提出基于XPath的數(shù)據(jù)轉(zhuǎn)換機(jī)制,將XML格式數(shù)據(jù)轉(zhuǎn)換成RDF格式。在關(guān)系數(shù)據(jù)庫轉(zhuǎn)換方面,W3C (World Wide Web)提出關(guān)系數(shù)據(jù)庫到RDF的規(guī)范化變換圖,改變數(shù)據(jù)格式。上述轉(zhuǎn)換方法,由于沒有考慮到數(shù)據(jù)的潛在語義信息,缺乏對數(shù)據(jù)核心語義信息的保留,導(dǎo)致轉(zhuǎn)換后的數(shù)據(jù)語義信息流失率較高。

        本文提出一種面向異構(gòu)數(shù)據(jù)源的開放生物醫(yī)學(xué)數(shù)據(jù)集成方法。通過與關(guān)系數(shù)據(jù)庫、XML文檔以及電子病歷等數(shù)據(jù)載體的協(xié)同操作,產(chǎn)生基于領(lǐng)域本體的數(shù)據(jù)描述集,實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)集成過程由領(lǐng)域語義驅(qū)動,通過定義數(shù)據(jù)模式與本體間的映射,獲取滿足邏輯一致性的數(shù)據(jù)信息。結(jié)合動態(tài)集成機(jī)制采用多源數(shù)據(jù)集,創(chuàng)建原始數(shù)據(jù)語義庫,用于合并包含在不同資源中的同一實(shí)體數(shù)據(jù)。本文的目標(biāo)是轉(zhuǎn)換和集成異構(gòu)生物醫(yī)學(xué)數(shù)據(jù);構(gòu)建面向領(lǐng)域知識驅(qū)動的映射規(guī)則。

        1 生物醫(yī)學(xué)數(shù)據(jù)集的半自動化建模方法

        圖1是單個輸入數(shù)據(jù)資源的數(shù)據(jù)集成與轉(zhuǎn)換框架。使用XML和關(guān)系數(shù)據(jù)庫作為輸入數(shù)據(jù)模型,通過定義基于數(shù)據(jù)輸入約束規(guī)則和OWL本體之間的映射關(guān)系,建立統(tǒng)一的標(biāo)識規(guī)則,確定屬性與本體類的實(shí)例,該規(guī)則允許合并同一類的不同個體。此外,利用數(shù)據(jù)檢測技術(shù)以及自動推理技術(shù),檢查OWL本體的一致性,避免創(chuàng)建邏輯不一致的內(nèi)容。通常情況下,該方法可以擴(kuò)展到任何包含實(shí)體、屬性和關(guān)系的輸入數(shù)據(jù)模型,輸出RDF或OWL格式數(shù)據(jù)實(shí)例,如圖1所示。

        圖1 數(shù)據(jù)集成與轉(zhuǎn)換框架

        2.1生物醫(yī)學(xué)數(shù)據(jù)表示

        病人電子健康記錄存儲了病人在醫(yī)療診斷和健康保健等過程中的大量有效信息。相關(guān)專家研究解決了電子病歷的標(biāo)準(zhǔn)化和規(guī)范化問題,采用雙建模層次構(gòu)建信息模型,用于信息表示和規(guī)范化說明,制定了基于雙模型架構(gòu)的openEHR[4]以及ISO EN13606[5]等標(biāo)準(zhǔn)格式。標(biāo)準(zhǔn)格式結(jié)構(gòu)的電子病歷提供了通用化的信息表示模型,規(guī)范了數(shù)據(jù)的表達(dá)形式,有利于統(tǒng)一化信息的語義標(biāo)準(zhǔn)。電子病歷數(shù)據(jù)的提取通常表示為一組XML文件,其內(nèi)容應(yīng)滿足規(guī)定的約束條件??缯Z義數(shù)據(jù)融合需要將數(shù)據(jù)轉(zhuǎn)換成具有語義識別能力的語義格式。XML技術(shù)和關(guān)系數(shù)據(jù)庫提供了定義數(shù)據(jù)集結(jié)構(gòu)的基本模式和結(jié)構(gòu)框架。本文基于XML schemas和關(guān)系數(shù)據(jù)模式定義數(shù)據(jù)的通用語義處理方法。

        開放數(shù)據(jù)集中的數(shù)據(jù)在數(shù)據(jù)粒度、數(shù)值范圍、規(guī)模以及來源等方面存在巨大差異,同時伴隨著信息動態(tài)增長,數(shù)據(jù)差異呈現(xiàn)動態(tài)變化。萬維網(wǎng)聯(lián)盟開發(fā)了一系列用于數(shù)據(jù)交換的語義Web標(biāo)準(zhǔn)(如RDF),用于語義表示的形式化工具(如OWL本體語言),數(shù)據(jù)查詢結(jié)構(gòu)(如SPARQL)以及用于存儲數(shù)據(jù)的語義機(jī)制(如RDF的存儲架構(gòu)triplestores)。自動描述邏輯推理機(jī)(如Hermit或 Pellet)可用于檢查語義Web數(shù)據(jù)的一致性以及語義信息推理。開放數(shù)據(jù)集[6](Open data set)是基于語義Web數(shù)據(jù)標(biāo)準(zhǔn)下的語義信息存儲、發(fā)布和共享的語義格式數(shù)據(jù)共享集合。開放數(shù)據(jù)集應(yīng)滿足四個基本要求:(1)基于URI的實(shí)體命名規(guī)則;(2)基于HTTP URI的數(shù)據(jù)查詢格式;(3)面向語義Web標(biāo)準(zhǔn)的數(shù)據(jù)檢索形式(如RDF和SPARQL);(4)面向數(shù)據(jù)發(fā)現(xiàn)的URIs鏈接。

        2.2數(shù)據(jù)轉(zhuǎn)換及映射規(guī)則

        數(shù)據(jù)轉(zhuǎn)換規(guī)則的核心是如何確定輸入數(shù)據(jù)集的內(nèi)容轉(zhuǎn)化為語義格式,主要涉及兩個方面:(1)輸入數(shù)據(jù)是否按語義模式轉(zhuǎn)化為語義格式;(2)輸出數(shù)據(jù)集是否存在數(shù)據(jù)冗余。本節(jié)定義了兩種主要類型的規(guī)則,即映射規(guī)則和同一性規(guī)則。

        映射規(guī)則的定義將用圖2所示的例子說明。該例采用基于orthoxml的標(biāo)準(zhǔn)化輸入模式(圖2左上)表示同源基因信息,同源領(lǐng)域知識模型用本體表示(圖2右上)。用方框表示輸入數(shù)據(jù)模式的實(shí)體,用@表示屬性,用箭頭表示關(guān)系。本體中的類使用圓角框表示,數(shù)據(jù)的屬性使用實(shí)心箭頭鏈接。利用映射規(guī)則建立實(shí)體、屬性與本體類之間的語義關(guān)系以及數(shù)值類型屬性和對象之間的語義關(guān)系。類和對象的屬性通過虛線相連,表示從xml架構(gòu)到本體的映射。本體包含一系列的前綴,其中 ro表示關(guān)系本體,ncbi表示NCBI 分類,cdao表示數(shù)據(jù)對比分析本體以及sio表示語義集成本體。

        本方法需要轉(zhuǎn)換實(shí)體、屬性和關(guān)系,映射規(guī)則允許實(shí)現(xiàn)三個層次的一致性。為此,定義了三種基本映射規(guī)則:

        實(shí)體映射規(guī)則。它是指將輸入實(shí)體映射到OWL本體中的類。允許在OWL本體中創(chuàng)建個體實(shí)例。若S表示標(biāo)準(zhǔn)輸入模式實(shí)體,T表示目標(biāo)本體的類,則實(shí)體映射函數(shù)entity_rule(S,T)表示對任何實(shí)例 ,存在一個符合一致性約束的個體t與之對應(yīng)。如圖2中的實(shí)體映射規(guī)則實(shí)現(xiàn)基于XML架構(gòu)的元素基因和本體中的基因類的映射鏈接。實(shí)體映射規(guī)則允許使用條件語句,進(jìn)行補(bǔ)充定義,只將某些滿足特定屬性值的實(shí)例進(jìn)行轉(zhuǎn)換。若A1是與S相關(guān)聯(lián)的屬性, C1在A1條件下的布爾變量,則entity_rule(S,T,C1)表示對任何實(shí)例 ,總存在C1不為假的條件下的一致性約束的個體t∈T。

        圖2 OrthoXML與本體實(shí)例映射關(guān)系圖

        屬性映射規(guī)則。它是指將實(shí)體中的屬性映射到OWL本體類中的數(shù)值型屬性。允許在本體中指定數(shù)值型屬性的數(shù)值。設(shè)S是輸入模式的一個實(shí)體,T是一個本體類,屬性A1、A2是與S和T分別關(guān)聯(lián)的數(shù)值型屬性,則該映射函數(shù)attribute_rule((S,A1),(T,A2))表示對實(shí)體S中任何與A1相關(guān)聯(lián)的實(shí)例,通過映射,總能在本體的類T中找到與數(shù)值型屬性A2相關(guān)聯(lián)的一致性個體T,且A1和A2具有相同的屬性值。如圖2中的屬性映射規(guī)則表示OrthoXML中元基因?qū)傩詉d與本體基因類中數(shù)值型屬性Identifier映射鏈接。

        關(guān)系映射規(guī)則。它是指將兩個實(shí)體的關(guān)聯(lián)關(guān)系映射到OWL本體中兩個類之間的對象屬性關(guān)系。若實(shí)體S1和S2通過關(guān)系R1相關(guān)聯(lián),本體類T1和T2通過對象屬性R2相關(guān)聯(lián),則該映射函數(shù)relation_rule((S1,R1,S2),(T1,R2,T2))是對任意給定的S1、S2的關(guān)聯(lián)關(guān)系R1,實(shí)體映射函數(shù)entity_rule(S1,T1)和entity_rule(S2,T2),均存在一個對象屬性R2,使得類T1、T2分別與其構(gòu)成關(guān)聯(lián)關(guān)系。如圖2中的關(guān)系映射規(guī)則將XML模式中的物種與基因之間的層次關(guān)系映射到本體中的對象屬性關(guān)系in_taxon RO。

        2.3同一性規(guī)則判別

        同一性規(guī)則定義的對象是數(shù)據(jù)類型屬性以及對象屬性,在本體中實(shí)現(xiàn)對個體的區(qū)分。目的是為了防止重復(fù)內(nèi)容的創(chuàng)建以及支持面向多數(shù)據(jù)源的數(shù)據(jù)整合。同一性規(guī)則能夠區(qū)別不同的URI實(shí)體。

        若IR是數(shù)據(jù)類型屬性集或本體類C的對象屬性集, identity_rule(C,IR)表示在C中的所有實(shí)例與IR中的元素具有相同的值。利用數(shù)值型屬性identifier以及對象屬性定義如下同一性規(guī)則,其含義解釋如下:通過對象屬性ro:in_taxon, Gene類的實(shí)例(見表1)與NCBI:organisms類的實(shí)例具有相同的數(shù)值,即表示同一個元素。轉(zhuǎn)化具體執(zhí)行過程如下:

        (1)檢索和執(zhí)行基本實(shí)體規(guī)則。為本體中的所有類生成一組新的實(shí)例集I。

        (2)每一個轉(zhuǎn)換模態(tài)組代表了一組新添加的實(shí)例集,需要添加到I上,通過檢查他們的定義,區(qū)別每組模態(tài)信息。

        (3)對于集合的每個實(shí)例,執(zhí)行如下過程:模式內(nèi)剩余的其他說明語句也將被執(zhí)行以添加附加語義內(nèi)容;檢索和執(zhí)行基本屬性規(guī)則,對實(shí)例的數(shù)值型屬性賦值以及將對象屬性實(shí)例化;檢查同一性規(guī)則,如果實(shí)例是唯一的,則將其添加到輸出數(shù)據(jù)集;否則,將其合并或鏈接到一個等效的元素上。

        表1 蛋白質(zhì)的模式化定義

        2.4數(shù)據(jù)集成

        面向異構(gòu)資源的數(shù)據(jù)集成模型以相同的OWL本體作為數(shù)據(jù)驅(qū)動,采用上述數(shù)據(jù)轉(zhuǎn)換規(guī)則處理不同來源的異構(gòu)數(shù)據(jù)。集成核心內(nèi)容是將XML模式數(shù)據(jù)映射到OWL本體,OWL本體可能包含一系列相關(guān)聯(lián)的本體轉(zhuǎn)換模態(tài),以支持集成過程。使用數(shù)據(jù)集成模型有利于重用不同資源的轉(zhuǎn)換規(guī)則,降低輸入數(shù)據(jù)的結(jié)構(gòu)異質(zhì)性。表2顯示了使用的OWL本體中定義蛋白質(zhì)的模式用例,這種模式不僅降低用戶在構(gòu)建數(shù)據(jù)模型時對本體結(jié)構(gòu)認(rèn)知所產(chǎn)生的數(shù)據(jù)偏差,而且只需做少量修改就能實(shí)現(xiàn)以不同方式存儲關(guān)系蛋白CDS轉(zhuǎn)錄數(shù)據(jù),而不需要提前在輸入模式時加以定義。表2顯示了在處理與直接蛋白質(zhì)轉(zhuǎn)錄沒有關(guān)系的數(shù)據(jù)資源時,如何從變量 protein中設(shè)置參數(shù)變量 cds。

        表2 蛋白質(zhì)的修正模式化定義(不含CDs)

        通過對每個輸入資源進(jìn)行數(shù)據(jù)變換來實(shí)現(xiàn)數(shù)據(jù)集成,利用映射規(guī)則生成OWL本體,并且在轉(zhuǎn)換過程中應(yīng)用同一性規(guī)則限制數(shù)據(jù)冗余,同時合并數(shù)據(jù)實(shí)例,確定來自不同數(shù)據(jù)源的實(shí)例是否對應(yīng)于同一個實(shí)例域,合并具有相同URI的數(shù)據(jù)實(shí)例。

        數(shù)據(jù)集成模型所處理的核心內(nèi)容描述如下:

        ◆命名沖突:不同的輸入模式數(shù)據(jù)可能使用不同的術(shù)語表達(dá)相同的數(shù)據(jù)元素(即實(shí)體、屬性與關(guān)系)[7]。從不同的XML資源到OWL本體的映射解決了輸出本體中通用詞匯的集成問題。

        ◆數(shù)據(jù)冗余:多個數(shù)據(jù)輸入資源實(shí)例可能描述同一個實(shí)體域,并被映射到OWL本體的同一類中[8]。同一性規(guī)則能夠檢測上述冗余情況,通過實(shí)體合并或鏈接到相應(yīng)的OWL數(shù)據(jù),以減少數(shù)據(jù)規(guī)模。

        ◆數(shù)據(jù)不一致:數(shù)據(jù)缺失會引起數(shù)據(jù)的不一致問題。對于給定的實(shí)體,相比于OWL本體,XML數(shù)據(jù)模式可能存儲較少的屬性和關(guān)系信息。在數(shù)據(jù)映射時,XML數(shù)據(jù)可能只對部分OWL本體實(shí)例產(chǎn)生語義關(guān)系,會導(dǎo)致數(shù)據(jù)部分缺失,帶來OWL知識庫的不一致。本模型采取的處理方法是:當(dāng)檢測到這種情況時,將不轉(zhuǎn)換相應(yīng)的源數(shù)據(jù),從而防止不一致的發(fā)生。為降低該方法所帶來的數(shù)據(jù)信息缺失量,將未參與映射的剩余本體實(shí)例數(shù)據(jù)添加到映射結(jié)果集。

        ◆資源之間的差異:由于不同的數(shù)據(jù)資源可能生成同一個OWL實(shí)例,其共同的屬性或關(guān)系數(shù)值可能不同。這可能是在使用同一性規(guī)則時,未將來自不同資源的信息實(shí)體區(qū)別標(biāo)注,導(dǎo)致屬性間存在假性關(guān)聯(lián)。在這種情況下,增加關(guān)系映射后驗(yàn)條件判斷,若該實(shí)體的存在會引起知識庫的不一致性,則它們被認(rèn)為是不同的個體,分別生成各自的本體實(shí)例。

        3 實(shí)驗(yàn)設(shè)計

        在本節(jié)中,首先將描述實(shí)現(xiàn)轉(zhuǎn)換方法的整體實(shí)驗(yàn)設(shè)計。其次將介紹如何將該模型用于不同的生物醫(yī)學(xué)場景。

        3.1實(shí)驗(yàn)用例

        通過從生物醫(yī)學(xué)領(lǐng)域選取典型數(shù)據(jù)電子病歷,分析本模型所提出的方法在數(shù)據(jù)映射、轉(zhuǎn)換以及集成等環(huán)節(jié)的數(shù)據(jù)整合效果。

        電子病歷數(shù)據(jù)涉及醫(yī)療系統(tǒng)的數(shù)字化信息,本實(shí)驗(yàn)用例選取超過2000名結(jié)直腸癌患者的電子病歷數(shù)據(jù),采用去隱私化技術(shù)隱去敏感字段,將數(shù)據(jù)轉(zhuǎn)化成XML語義格式。使用自動推理方法確定每個病人的風(fēng)險水平。采用領(lǐng)域本體技術(shù)將XML轉(zhuǎn)換成openEHR格式數(shù)據(jù),其中組織病理學(xué)報告的模式化定義如表3所示。這一模式定義了基于領(lǐng)域本體的組織病理報告數(shù)據(jù)類,包含一個結(jié)果集(hasfinding)記錄、發(fā)現(xiàn)腺瘤總數(shù)以及腺瘤的大小。

        表3 組織病理學(xué)報告的模式化定義

        3.2設(shè)計內(nèi)容

        通過MySQL數(shù)據(jù)庫,將XML Schema和ADL作為輸入數(shù)據(jù)模式。輸出數(shù)據(jù)集使用OWL或RDF格式,用戶可以定義輸入模式以及OWL本體之間的映射關(guān)系集。為此,在其他轉(zhuǎn)換過程中允許創(chuàng)建映射上載和重用。一旦映射被定義,可以順序執(zhí)行,從而產(chǎn)生相應(yīng)的RDF或OWL格式的數(shù)據(jù)內(nèi)容。應(yīng)用映射規(guī)則的數(shù)據(jù)源生成的語義內(nèi)容,通過一致性規(guī)則約束保證不產(chǎn)生多余的數(shù)據(jù)信息;通過自動推理模塊,以確保轉(zhuǎn)化的內(nèi)容具有邏輯一致性。采用OWLAPI[9]和Jena API來處理和生成的RDF和OWL數(shù)據(jù),使用Hermit推理機(jī)[10]作為語義數(shù)據(jù)推理工具。

        圖3顯示了映射接口的核心部分,包含三個主要部分。左側(cè)使用分層關(guān)系表示數(shù)據(jù)輸入模式。右側(cè)對應(yīng)OWL本體。圖的下部是一個文本框,包含定義的映射規(guī)則,如第三行定義了從實(shí)體molecule類的coorddimension屬性到本體Molecule類的數(shù)據(jù)類型屬性coord_dimension的映射關(guān)系。

        圖4是將XML輸入模式的實(shí)體映射到轉(zhuǎn)換模式的定義系統(tǒng)截圖。圖的左邊是輸入模式openEHR原型,被映射到以本體形式表示的轉(zhuǎn)換模式組織病理學(xué)報告中。圖中可以看到,該映射與原型模式的各變量的特定元素產(chǎn)生關(guān)聯(lián)關(guān)系。

        圖3 映射接口關(guān)系圖

        4 總結(jié)與分析

        本模型相比較于rdb-owl的手工定義映射模型,不會受限于關(guān)聯(lián)格式輸入數(shù)據(jù),且處理復(fù)雜的本體或異構(gòu)源數(shù)據(jù)的集成能力較強(qiáng)。比較于Karma的半自動database-ontology數(shù)據(jù)集成模型,對先前映射過程的知識基礎(chǔ)依賴度較小,適合處理規(guī)模較大的領(lǐng)域知識集。以數(shù)據(jù)倉庫為導(dǎo)向的集成方法,集成數(shù)據(jù)語義鏈接功能,通過定義數(shù)據(jù)轉(zhuǎn)換規(guī)則與映射規(guī)則,允許定義外部數(shù)據(jù)集。與bio-rdf模型所不同的是,本模型的語料庫包含來自多個數(shù)據(jù)源的數(shù)據(jù),語義信息更加豐富,集成后的數(shù)據(jù)信息可操作性較強(qiáng)。將減少關(guān)系數(shù)據(jù)或XML數(shù)據(jù)源的約束條件,只需要定義映射的主要規(guī)則,通過數(shù)據(jù)語義轉(zhuǎn)換,實(shí)現(xiàn)半自動化數(shù)據(jù)集成,并通過同一性規(guī)則檢查,降低數(shù)據(jù)冗余度,提高映射集數(shù)據(jù)質(zhì)量與可靠性。

        圖4 XML輸入模式的實(shí)體映射到轉(zhuǎn)換模式的定義系統(tǒng)截圖

        生物醫(yī)學(xué)數(shù)據(jù)集的開放性以及語義格式的可用性,將有利于生物醫(yī)學(xué)數(shù)據(jù)的互操作。本文提出了一種基于本體的異構(gòu)數(shù)據(jù)源轉(zhuǎn)換與集成模型。較其他方法有以下改進(jìn):采用基于數(shù)據(jù)倉庫的數(shù)據(jù)轉(zhuǎn)換方法。首先,面向語義Web的生物醫(yī)學(xué)數(shù)據(jù)需要開發(fā)程序具備兼容bio rdf或EBI的RDF平臺的數(shù)據(jù)接口,數(shù)據(jù)語義倉庫能夠滿足語義資源池的基本條件,即包含LOD的可用性資源DF和OWL。其次,在生成OWL知識庫的同時,需要使用OWL DL的推理機(jī)制,實(shí)現(xiàn)數(shù)據(jù)的一致性處理以及降低數(shù)據(jù)冗余度,使獲得的數(shù)據(jù)集鏈接能夠使用較小的系統(tǒng)開銷,完成外部資源的數(shù)據(jù)融合。第三,為解決OBDA方法不便于應(yīng)用于本體與XML模式映射的問題,使用數(shù)據(jù)語義倉庫能夠豐富的數(shù)據(jù)語義表示,提高數(shù)據(jù)映射的邏輯準(zhǔn)確性。

        [1] Galperin M Y, Rigden D J, Fernández-Suárez XM. Nucleic Acids Research Database Issue and Molecular Biology Database Collection[J]. Nucleic Acids Res, 2015:112-120.

        [2] Tapuria A, Kalra D, Kobayashi S. Contribution of Clinical Archetypes, and the Challenges, towards Achieving Semantic Interoperability for EHRs[J]. Healthcare Informatics Research, 2013, 19: 286-293.

        [3] Jupp S, Malone J, Bolleman J, et al. The EBI RDF platform: linked open data for the life sciences[J].Bioinformatics, 2014, 30:1338-1345.

        [4] Wang Y, Tao J, et al. Information retrieval and data mining based on open network knowledge[J].Journal of Computer Research and Development, 2014, 52: 456-474.

        [5] Evangelista A T, Hassanien A E .Dimensionality reduction of medical big data using neural-fuzzy classifier[J].Soft Computer, 2014, 19: 1115-1122.

        [6] Abello A, Romero O, Bach Pedersen T, Berlanga R, Nebot V, Aramburu MJ, Simitsis A. Using Semantic Web technologies for exploratory OLAP: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2015(2): 571-585.

        [7] 李勇,張志剛.基于本體語義檢索技術(shù)研究[J].計算機(jī)工程與科學(xué),2015(4): 17-19.

        [8] 劉宇鵬,李生,趙鐵軍.基于WordNet 詞義消歧的系統(tǒng)融合[J].自動化學(xué)報,2014(11): 1575-1580.

        [10] Martínez-Costa C, Schulz S. Ontology content patterns as bridge for the semantic representation of clinical information[J]. Applied clinical informatics, 2014: 660-668.

        (責(zé)任編輯:熊文濤)

        AnIntegrationMethodofOpenBiomedicalDrivenbyDataSemanticOntology

        Wang Kai1, Liu Yuwen1,2

        (1.DepartmentofHealthManagement,BengbuMedicalCollege,Bengbu,Anhui233030,China;2.SchoolofComputerScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei,Anhui230027,China)

        Biomedical research usually requires a large number of heterogeneous data. The semantic gap between data limits the large-scale integration and development of biomedical knowledge. Semantic Web provides a feasible technical support for data semantic integration using the machine-readable data format. This paper presents a method for Semantic Web oriented open semantic heterogeneous biomedical data conversion and integration. In this approach, the mapping relationship between XML data entity and the concept of ontology based semantic set is established to obtain the mapping relationship between different types and complicated data transformation model. The semantic logical relation mapping data consistent set is automatic generated automatically to achieve interoperability between data from heterogeneous data sources and integration. Experimental results show that the integrated method of open biomedical data ontology driven by the heterogeneous data for computer to further improve the understanding. It is verified to be feasible for the transformation and integration of heterogeneous biomedical data.

        semantic ontology; biomedical data; mapping; transformation and integration

        TP391

        A

        2095-4824(2017)06-0078-07

        2017-02-25

        安徽省高校自然科學(xué)一般項(xiàng)目(KJ2015B023by);蚌埠醫(yī)學(xué)院自然科學(xué)重點(diǎn)項(xiàng)目(Byky1411ZD)

        王 凱(1985- ),男,安徽蚌埠人,蚌埠醫(yī)學(xué)院衛(wèi)生管理系講師,碩士。

        劉玉文(1982- ),男,安徽鳳陽人,蚌埠醫(yī)學(xué)院衛(wèi)生管理系講師,中國科技大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院訪問學(xué)者,碩士。

        猜你喜歡
        生物醫(yī)學(xué)實(shí)例本體
        Abstracts and Key Words
        芻議“生物醫(yī)學(xué)作為文化”的研究進(jìn)路——兼論《作為文化的生物醫(yī)學(xué)》
        靈長類生物醫(yī)學(xué)前沿探索中的倫理思考
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        國外生物醫(yī)學(xué)文獻(xiàn)獲取的技術(shù)工具:述評與啟示
        LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        完形填空Ⅱ
        完形填空Ⅰ
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        精品久久久久一区二区国产| 日本爽快片100色毛片| 亚洲精品无amm毛片| 国产AV边打电话边出轨| 极品美女尤物嫩模啪啪| 婷婷久久av综合一区二区三区| 久久亚洲欧美国产精品| 国产精品.xx视频.xxtv| 欧美一级视频在线| 亚洲日本高清一区二区| 中国午夜伦理片| 亚洲深深色噜噜狠狠爱网站| 久久精品国产乱子伦多人| 男人天堂亚洲一区二区| 国产精品日本一区二区在线播放| 久久99精品久久久久久hb无码| 丰满少妇棚拍无码视频| 全亚洲高清视频在线观看 | 国产综合无码一区二区辣椒| 手机看片久久国产免费| 亚洲精品尤物av在线网站| 国产av久久在线观看| 欧美性猛交xxxx富婆| 亚洲A∨无码国产精品久久网| 69精品人妻一区二区| 亚无码乱人伦一区二区| 亚洲精品无码久久久久av麻豆| 91精品91久久久久久| 久久久人妻一区二区三区蜜桃d| 青青草国产精品一区二区| 国产成人精品电影在线观看18 | 少妇人妻字幕精品毛片专区| 欧美乱妇高清无乱码在线观看| 日本欧美国产精品| 亚洲一区二区三区ay| 国产freesexvideos中国麻豆| 久久日本三级韩国三级| 久久精品国产av大片| 日韩不卡的av二三四区| 麻豆久久久9性大片| 日本高清一区二区不卡视频|