亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XML的生物信息數(shù)據(jù)整合模型

        2010-05-13 09:17:24潘雪峰
        現(xiàn)代電子技術(shù) 2009年20期
        關鍵詞:數(shù)據(jù)集成數(shù)據(jù)模型

        潘雪峰

        摘 要:在互聯(lián)網(wǎng)生物信息數(shù)據(jù)庫中,各大研究機構(gòu)之間生物信息數(shù)據(jù)是異地、異構(gòu)和高度自治的,并且信息之間的存放是分散無序的。為了充分使用資源,必須建立關于生物信息數(shù)據(jù)的整合模型。在此提出一種新的基于XML表達的有序?qū)哟畏中螖?shù)據(jù)模型,通過對現(xiàn)有數(shù)據(jù)的結(jié)構(gòu)化,借助BXEEM模型分別使用內(nèi)部指針引用和外部鏈接的方法,將數(shù)據(jù)進行整合,更有利于生物信息數(shù)據(jù)的集成和融合。

        關鍵詞:XML;半結(jié)構(gòu)化;異構(gòu)數(shù)據(jù)集成;數(shù)據(jù)模型;數(shù)據(jù)集成

        中圖分類號:Q811.4;TP311 文獻標識碼:A 文章編號:1004-373X(2009)20-160-03

        Data Integration Model of Biological Information Based on XML

        PAN Xuefeng

        (Wuhan Bioengineering Institute,Wuhan,430415,China)

        Abstract:In Internet biological information database,among the major research institutions and bio-informatics data is remote,heterogeneous,high degree of autonomy,and the stored information is scattered between the disorder.In order to full use resource,integration model of biological information data is built.A new XML-based and orderly expression of data-level fractal model of the existing data structure is proposed,through the use of internal models BXEEM pointer references and external links to the method of data integration,it is more conducive to bio-informatics data integration and fusion.

        Keywords:XML;semi-structure;heterogeneous data integration;data model;data integration

        0 引 言

        生物信息學(Bioinformatics)是通過對生物學實驗數(shù)據(jù)的獲取、加工、存儲、檢索與分析,達到揭示數(shù)據(jù)所蘊含生物學意義的目的[1,2]。

        生物信息數(shù)據(jù)源的主要特點是:國際化生物數(shù)據(jù)庫相互獨立而又利用協(xié)議統(tǒng)一維護原始數(shù)據(jù),而各實驗室的數(shù)據(jù)庫就各有特色;數(shù)據(jù)量龐大且增長速度很快;數(shù)據(jù)通過Internet進行發(fā)布,發(fā)布格式復雜多樣[3,4]。目前非常必要的課題之一是將各自的、獨立的、分散的基因組信息整合到一起,并且可以最大限度地消除冗余數(shù)據(jù),保證數(shù)據(jù)的可靠性和準確性[5]。

        本文重點討論將XML作為中間媒介,建立新的生物信息公共數(shù)據(jù)模型,使異構(gòu)生物信息數(shù)據(jù)的提取與集成更方便。

        1 XML的特點

        擴展標記語言(eXtensible Markup Language,XML)是一門新興的面向Internet應用的標記語言,它將數(shù)據(jù)信息本身的存儲和關聯(lián)與表現(xiàn)形式相分離,且具有強大的可擴展性[6]。生物信息學的發(fā)展同樣引入了XML技術(shù)。XML的特點如下:

        (1) XML數(shù)據(jù)的自描述性。它指XML中的語義標識,一方面限定了元素的層次結(jié)構(gòu),另一方面也說明了元素的含義[7,8]。

        (2) 內(nèi)容的獨立性。它將成為跨平臺數(shù)據(jù)交換和操作的標準模式。實現(xiàn)異構(gòu)數(shù)據(jù)集成中數(shù)據(jù)的互操作性。

        (3) 能描述不同復雜程度的數(shù)據(jù)。XML提供了數(shù)據(jù)的結(jié)構(gòu)化表示,并且易于操作。

        (4) 可擴展性。XML可以在不破壞現(xiàn)有結(jié)構(gòu)和系統(tǒng)的情況下增加新的數(shù)據(jù)字段。應用服務器利用XML對所有數(shù)據(jù)建模,若要改變數(shù)據(jù)模型只需改變數(shù)據(jù)模型定義。

        (5) 結(jié)構(gòu)性。數(shù)據(jù)存儲格式不受顯示格式制約。一般包括三要素:數(shù)據(jù)、結(jié)構(gòu)以及顯示方式。

        因此,運用XML可以有效地解決新舊系統(tǒng)、不同應用系統(tǒng)之間或數(shù)據(jù)源之間的數(shù)據(jù)共享與交互問題。XML和數(shù)據(jù)庫之間是互補的關系,在不同的場合有不同的優(yōu)勢[9,10]。可以很方便地交換復雜數(shù)據(jù)在不同平臺上的瀏覽。

        2 基于XML的生物信息數(shù)據(jù)模型

        實際上,在此提出的半結(jié)構(gòu)化數(shù)據(jù)模型是一種基于帶標簽、帶根的有向有序樹(An Labeled Rooted Directed Ordinal Tree)數(shù)據(jù)模型BXEEM(Based XML Extensible Exchange Model)。下面給出相關定義:

        定義1 有向圖G是一個有序四元組,G=(V,E,vr,Ψ)。其中:V是一個非空的有向圖中根結(jié)點的所有結(jié)點集合;E V×V是此有向圖中邊的集合;(V,E)代表一個有向多重圖(Directed Multi-graph);vr∈V表示根結(jié)點,并且滿足該結(jié)點的入度為0;d(vr,vi)>0,vi∈(V-{ vr }),i=0,1,2,…,n,即vr到V中任意一個結(jié)點vi都有一條通路;Ψ為關聯(lián)函數(shù),是邊集合E到(V×V)的一個映射,是帶信息標簽約束的映射。稱G為帶標簽、帶根的有向連通圖,表示為G(V,E,vr,Ψ)。

        定義2 在帶標簽、帶根的有向連通圖G(V,E,vr,Ψ)中,根結(jié)點(vr∈V)~V中任意一結(jié)點vi都恰有一條單向通路,稱此有向圖為有向樹,記為T(V,E,vr,Ψ),vr為T的根結(jié)點。其中,如果結(jié)點的度d(vi)>1,vi∈(V-{ vr }),i=0,1,2,…,n,則稱vi為內(nèi)點或分支點;如果結(jié)點的度d(vj)=1,vj∈(V-{ vr }),j=0,1,2,…,n,則稱其為葉結(jié)點。Ψ為關聯(lián)函數(shù),是邊集合E到(V×V)的一個映射,是帶信息標簽約束的映射。

        定義3 在帶標簽、帶根的有向樹T(V,E,vr,Ψ)中,存在vi∈(V-{ vr }),i=0,1,2,…,n。從vi出發(fā)的帶標簽連通的最大有向樹,記為T′(Vi,Ei,vr,Ψi)。其中,Vi表示T(Vi,Ei,vr,Ψi)樹的結(jié)點集;Ei表示T(Vi,Ei,vr,Ψi)樹的邊集;Ψi為關聯(lián)函數(shù),是邊集合Ei到(Vi×Vi)的一個映射,是帶信息標簽約束的映射,稱T′為T的子樹。當T′的出度數(shù)為0時,T′是個結(jié)點;當T′的出度數(shù)不為0時,T′是個復雜樹。

        定義4 在帶標簽、帶根的有向樹T(V,E,vr,Ψ)中,T={t1,t2,…,tn},ti{i=0,1,2,…,n}是T的子樹。當t1,t2,…,tn是按照一定順序規(guī)則排列時,則稱T為有序樹。

        定義5 在帶標簽、帶根的有向樹T(V,E,vr,Ψ)中,v0,v1,…,vn∈V,e1,e2,…,en∈E。其中,ei是連接vi-1,vi的邊,交替序列v0 e1v1 e2…vn-1 en vn就稱為聯(lián)結(jié)v0~vn的路徑。v0與vn分別稱為路徑的起點和終點。

        這里的BXEEM(Based XML Extensible Exchange Model)數(shù)據(jù)模型就是基于帶標簽、帶根的有向有序樹(An Labeled Rooted Directed Ordinal Tree)的數(shù)據(jù)模型。樹的每一個節(jié)點都有一個惟一的標識符(ID)。這個標識符可以顯示用XML文檔中某一元素的ID屬性來標識,也可以為其分配一個惟一的ID來標識。然而點和邊的交替序列可以惟一表示節(jié)點之間的路徑。用標簽表示信息的類別、標簽標記標簽之間的信息應如何被處理。

        XML文檔的數(shù)據(jù)模型的示意圖如圖1所示。

        圖1 XML文檔的數(shù)據(jù)模型的示意圖

        3 BXEEM數(shù)據(jù)模型在XML中的應用

        XML雖然與HTML屬于半結(jié)構(gòu)化數(shù)據(jù),但之所以比HTML更具有數(shù)據(jù)描述和數(shù)據(jù)識別能力在于它自身可以定義嚴格的層次結(jié)構(gòu),如通過XML的DTD或Schema定義。因此在面向XML表達的數(shù)據(jù)建模過程中,必須具有描述表達XML元數(shù)據(jù)結(jié)構(gòu)的能力。

        模型對XML定義語法描述為:

        〈! ELEMENT基元(基元頭體,基元主體,關聯(lián)基元)〉

        〈! ATTLIST基元標識符ID#REQUIRED名字CDATA#REQUIRED引用IDREFS#IMPLIED

        〈! --內(nèi)部鏈接關系--〉〉

        〈! ELEMENT基元頭體(基元指針,(#PCDATA|empty|基元)*)*〉〈! --外部超鏈關系--〉

        〈! ELEMENT基元主體(#PCDATA|empty基元描述內(nèi)容)*〉

        〈! ELEMENT基元描述內(nèi)容(#PCDATA|empty)*〉

        〈! ELEMENT關聯(lián)基元(#PCDATA|empty|基元主體)*〉〈! --層次分形關系--〉

        不同的BXEEM對象,其結(jié)構(gòu)是相似的,其自我嵌套、自我描述的特性使得BXM對象在縱向呈現(xiàn)嚴格的層次樹結(jié)構(gòu),而對處于同一層次或非同類路徑的BXEEM對象之間關系,橫向是由鏈接關系實現(xiàn)的,由BXEEM模型可知,鏈接關系存在不同類型的鏈接。由此可歸納出這種描述元數(shù)據(jù)的結(jié)構(gòu)共性,稱之為層次分形-多級超鏈的基元。

        各對象之間關系動態(tài)改變時,通過基元頭體可動態(tài)關聯(lián)和建立新的鏈接關系,根據(jù)不同的需求實現(xiàn)基元的重組織,從而透明映射到BXEEM對象,重新組合形成新的有向圖。基元指針的指向為一個新的出口,該出口可對應于另一個XML文檔。它可采用物理路徑或采用惟一的ID表示。

        此模型建立的基元具有以下特性:

        (1) 層次樹自我遞歸生長的特性。一個基元通過其關聯(lián)基元能夠衍生出新的子基元,多次遞歸生長成樹型結(jié)構(gòu)的組織,由此形成BXEEM模型的對象層次結(jié)構(gòu)關系。此特性實現(xiàn)了對整個BXEEM對象的描述。

        (2) 自我重組織特性。一個基元通過基元頭體實現(xiàn)與外部的動態(tài)導航功能,利用其屬性建立內(nèi)部鏈接關系,從而根據(jù)不同的需求實現(xiàn)基元的動態(tài)重組織。此特性實現(xiàn)了BXEEM對象間鏈接關系的動態(tài)改變。

        通過基元的操作,可保證BXEEM對象代數(shù)操作的一致性。對XML文檔而言,則確保了該文檔的一致有效性和合法性。

        3.1 根據(jù)BXEEM模型對象的定義,在描述表達BXM數(shù)據(jù)模型時,又做了一些規(guī)定

        規(guī)定1 BXEEM模型用有向樹的節(jié)點和有向?qū)嵾叺臉俗R(Label)表示被描述對象(數(shù)據(jù))。結(jié)點用圓表示。結(jié)點必須含有標識符oid以及標記名(Labelname),有向?qū)嵾叡硎緦ο笈c其子對象間的嵌套關系,有向?qū)嵾叺臉俗R表示對象的Labelname。

        規(guī)定2 BXEEM模型用有向虛邊表示對象屬性以及對象間的鏈接引用關系。

        規(guī)定3 BXEEM模型的復雜對象結(jié)點可以具有多個引出向的實邊,但只能有惟一引入向的實邊表明,該對象僅能有一個父對象來反映XML文檔嚴格的層次嵌套關系。

        規(guī)定4 BXEEM模型中規(guī)定結(jié)點在同一層按照從左到右的順序依次排列,以此來表明BXEM數(shù)據(jù)模型與XML文檔的匹配。

        根據(jù)BXEEM模型的定義,層次分形-多級超鏈的基元描述了XML文檔的DTD以及XMLSchema,保證了在該基礎上BXEEM模型表達XML文檔的一致有效性和合法性。與XML文檔匹配有如下關系:XML元素采用XOEM對象表達,XML的子元素嵌套關系反映了BXEEM的子對象關系。XML元素之間的順序不是任意的,因此BXM模型中規(guī)定各結(jié)點按照從左到右的順序作為XML元素表達的順序。

        XML的鏈接引用存在兩種方法:一種是內(nèi)部指針引用,即通過ID與IDREF(S)實現(xiàn)的,在BXM模型中對象的oid與ID相匹配,對象的引用屬性名均可作為IDREF(S)的類型。因此有向虛邊與實圓構(gòu)成內(nèi)部鏈接引用。另一種是外部鏈接,即通過Xlink/Xpointer。外部鏈接分為兩級即link=1時表示線性超鏈(簡單鏈接),link=2時表示擴展超鏈。

        3.2 實例

        以下是一個XML數(shù)據(jù)文檔實例。以信息為例,其BXEEM有向樹如圖2所示?,F(xiàn)以XML描述如下:

        1rgf

        < list > XVSGTVCLSALPPEATDTLNLIASDGPFPYSQDGVVFQNRESVLPTQSYGYYHEYT

        VITPGARTRGTRRIITGEATQEDYYTGDHYATFSLIDQTC

        猜你喜歡
        數(shù)據(jù)集成數(shù)據(jù)模型
        面板數(shù)據(jù)模型截面相關檢驗方法綜述
        加熱爐爐內(nèi)跟蹤數(shù)據(jù)模型優(yōu)化
        電子測試(2017年12期)2017-12-18 06:35:36
        成本與制造數(shù)據(jù)集成分析
        基于Biztalk的異構(gòu)醫(yī)療信息系統(tǒng)數(shù)據(jù)集成研究
        信息系統(tǒng)集成與數(shù)據(jù)集成策略研究
        基于數(shù)據(jù)集成的水上項目國家隊數(shù)據(jù)庫網(wǎng)絡管理平臺的設計與開發(fā)
        面向集成管理的出版原圖數(shù)據(jù)模型
        一種顧及級聯(lián)時空變化描述的土地利用變更數(shù)據(jù)模型
        日本一区二区三区四区在线视频| 无套内谢的新婚少妇国语播放| 久热在线播放中文字幕| 久久久久人妻精品一区5555| 日本一区二区日韩在线| 羞羞色院99精品全部免| 亚洲 日本 欧美 中文幕| 一本一道av无码中文字幕﹣百度 | 午夜福利92国语| 精品亚洲欧美高清不卡高清| 一片内射视频在线观看| 一区二区三区日韩蜜桃| 熟女人妻一区二区在线观看 | 日韩精品专区在线观看| 潮喷大喷水系列无码久久精品| 大陆极品少妇内射aaaaa| 色www亚洲| 区二区三区亚洲精品无| 国产免费二区三区视频| 国产无夜激无码av毛片| 日产精品久久久久久久性色| 亚洲欧洲日韩另类自拍| 亚洲中文字幕乱码在线视频| 国产三级黄色免费网站| 麻豆婷婷狠狠色18禁久久| 久久午夜无码鲁丝片直播午夜精品| 亚洲av影院一区二区三区四区| 无遮挡中文毛片免费观看| 国产精品综合色区av| 国产激情在线观看视频网址| 亚洲一区二区国产激情| 精品露脸国产偷人在视频| 亚洲av无码国产精品色午夜洪| 亚洲综合偷自成人网第页色| 日韩亚洲午夜精品一区二区三区| 中文字幕丰满人妻av| 久久久久人妻一区精品| 国产剧情av麻豆香蕉精品| 少妇av免费在线播放| 日韩中文字幕久久久老色批| 欧洲多毛裸体xxxxx|