亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生物醫(yī)學(xué)異構(gòu)數(shù)據(jù)庫(kù)集成的研究進(jìn)展

        2010-09-18 03:30:08張正國(guó)
        關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù)生物醫(yī)學(xué)數(shù)據(jù)源

        張 智 張正國(guó)

        (中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所 北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院,北京 100005)

        生物醫(yī)學(xué)異構(gòu)數(shù)據(jù)庫(kù)集成的研究進(jìn)展

        張 智 張正國(guó)*

        (中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所 北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院,北京 100005)

        隨著生物醫(yī)學(xué)的快速發(fā)展,不斷地涌現(xiàn)出許多生物醫(yī)學(xué)數(shù)據(jù)庫(kù)。將這些相互獨(dú)立的數(shù)據(jù)庫(kù)有機(jī)地組織在一起,對(duì)于提高一個(gè)學(xué)科或領(lǐng)域的整體知識(shí)水平,以及對(duì)該學(xué)科或領(lǐng)域進(jìn)行更深入、更全面的理解是十分重要的。數(shù)據(jù)集成可以實(shí)現(xiàn)數(shù)據(jù)更廣泛的共享和更有效的利用,已經(jīng)成為生物信息學(xué)的核心研究?jī)?nèi)容之一。介紹生物醫(yī)學(xué)異構(gòu)數(shù)據(jù)庫(kù)集成的方法,綜述生物醫(yī)學(xué)異構(gòu)數(shù)據(jù)庫(kù)集成領(lǐng)域內(nèi)最新的研究進(jìn)展,并且討論和總結(jié)各種方法的特點(diǎn)及使用條件。

        異構(gòu)數(shù)據(jù)庫(kù);數(shù)據(jù)集成;數(shù)據(jù)倉(cāng)庫(kù);聯(lián)邦數(shù)據(jù)庫(kù);中間件

        引言

        隨著生物醫(yī)學(xué)知識(shí)的快速增長(zhǎng)、計(jì)算成本的降低以及互聯(lián)網(wǎng)在傳播媒介上的優(yōu)勢(shì),生物醫(yī)學(xué)數(shù)據(jù)已呈現(xiàn)海量規(guī)模,并且其數(shù)據(jù)量還在加速增長(zhǎng)。截止到2010年1月,權(quán)威的“核酸研究在線分子生物學(xué)數(shù)據(jù)庫(kù)集合”(Nucleic Acids Research online Molecular Biology Database Collection)共收錄了1 230個(gè)分子生物學(xué)數(shù)據(jù)庫(kù)[1]。但是,這些生物醫(yī)學(xué)數(shù)據(jù)庫(kù)大多相互隔離,形成了所謂的“信息孤島”,不能實(shí)現(xiàn)數(shù)據(jù)的共享和更有效的利用。將這些相互獨(dú)立的數(shù)據(jù)庫(kù)有機(jī)地組織在一起,對(duì)于提高一個(gè)學(xué)科或領(lǐng)域的整體知識(shí)水平,以及對(duì)該學(xué)科或領(lǐng)域進(jìn)行更深入、更全面的理解是十分重要的[2]。生物醫(yī)學(xué)由于其復(fù)雜性,既需要多學(xué)科、多方位進(jìn)行地研究,又需要綜合多方面的觀察進(jìn)行分析。生物醫(yī)學(xué)數(shù)據(jù)庫(kù)常是細(xì)分的,而需求常是綜合的,因此數(shù)據(jù)集成對(duì)于生物醫(yī)學(xué)具有必要性和緊迫性?,F(xiàn)在,數(shù)據(jù)集成已經(jīng)成為生物信息學(xué)(bioinformatics)的核心研究?jī)?nèi)容之一,也是一項(xiàng)需要長(zhǎng)期進(jìn)行的工作[3]。

        數(shù)據(jù)集成(data integration)是把不同來(lái)源和不同格式的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而實(shí)現(xiàn)全面的數(shù)據(jù)共享。數(shù)據(jù)集成的核心任務(wù)是將相互關(guān)聯(lián)的異構(gòu)數(shù)據(jù)源集成到一起,使用戶能夠以透明的方式訪問(wèn)[4]。集成是指維護(hù)數(shù)據(jù)源在整體上的數(shù)據(jù)一致性,為用戶提供統(tǒng)一的數(shù)據(jù)訪問(wèn)接口,提高數(shù)據(jù)共享的效率;透明的訪問(wèn)方式是指用戶無(wú)需關(guān)心所需數(shù)據(jù)所屬數(shù)據(jù)源的位置以及如何訪問(wèn)數(shù)據(jù)源,只需關(guān)注對(duì)數(shù)據(jù)的需求和操作。

        由于生物醫(yī)學(xué)數(shù)據(jù)庫(kù)固有的特點(diǎn),其數(shù)據(jù)集成工作困難重重[5]。第一,生物醫(yī)學(xué)數(shù)據(jù)具有多樣性和復(fù)雜性。數(shù)據(jù)的實(shí)體類型包括基因表達(dá)、序列、結(jié)構(gòu)和圖像等多種,而且這些實(shí)體之間通常還有復(fù)雜的關(guān)系。第二,生物醫(yī)學(xué)數(shù)據(jù)的數(shù)據(jù)量通常很大。第三,生物醫(yī)學(xué)數(shù)據(jù)庫(kù)具有異構(gòu)性。不同數(shù)據(jù)庫(kù)之間可能同時(shí)存在系統(tǒng)性異構(gòu)、技術(shù)性異構(gòu)和語(yǔ)義性異構(gòu)等多種異構(gòu)。第四,生物醫(yī)學(xué)數(shù)據(jù)庫(kù)具有自治性。絕大多數(shù)的生物醫(yī)學(xué)數(shù)據(jù)庫(kù)可以自由地刪除數(shù)據(jù)和修改數(shù)據(jù)庫(kù)模式,而不必考慮其他與其相關(guān)的數(shù)據(jù)庫(kù)。其數(shù)據(jù)也按照各種自定的格式或標(biāo)準(zhǔn)進(jìn)行存儲(chǔ)。

        近年來(lái),越來(lái)越多的研究者致力于生物醫(yī)學(xué)異構(gòu)數(shù)據(jù)庫(kù)集成的研究。這些研究面向的領(lǐng)域也更加廣泛,涉及基因組學(xué)、蛋白質(zhì)組學(xué)、相互作用組學(xué)、醫(yī)學(xué)圖像和臨床醫(yī)學(xué)等多個(gè)方面,并產(chǎn)生了豐碩的研究成果。文中介紹了生物醫(yī)學(xué)異構(gòu)數(shù)據(jù)庫(kù)集成的方法,綜述了生物醫(yī)學(xué)異構(gòu)數(shù)據(jù)庫(kù)集成領(lǐng)域內(nèi)最新的研究進(jìn)展,并且討論和總結(jié)了各種方法的特點(diǎn)及使用條件。

        1 生物醫(yī)學(xué)數(shù)據(jù)庫(kù)的異構(gòu)性

        數(shù)據(jù)庫(kù)的異構(gòu)是生物醫(yī)學(xué)數(shù)據(jù)庫(kù)集成的難點(diǎn)和重點(diǎn)。數(shù)據(jù)庫(kù)的異構(gòu)體現(xiàn)在以下三個(gè)方面:系統(tǒng)性異構(gòu)(systematic heterogeneity)、技術(shù)性異構(gòu)(technical heterogeneity)[6]和語(yǔ)義性異構(gòu) (semantic heterogeneity)[6]。

        系統(tǒng)性異構(gòu)包括:一是數(shù)據(jù)庫(kù)所依賴的計(jì)算機(jī)體系結(jié)構(gòu)不同,如大型機(jī)、小型機(jī)和 PC服務(wù)器等;二是數(shù)據(jù)庫(kù)所依賴的操作系統(tǒng)不同,如 Linux、Windows和Unix等;三是數(shù)據(jù)庫(kù)所依賴的網(wǎng)絡(luò)平臺(tái)的不同,如ATM(異步傳輸模式)、Ethernet(以太網(wǎng))和FDDI(光纖分布式數(shù)據(jù)接口)等。

        技術(shù)性異構(gòu)包括:一是數(shù)據(jù)存儲(chǔ)方式不同,如普通文本文件,XML文件,關(guān)系型、層次型、面向?qū)ο笮?、網(wǎng)絡(luò)型或函數(shù)型數(shù)據(jù)庫(kù)等;二是數(shù)據(jù)訪問(wèn)方法不同,可以通過(guò)HTTP等網(wǎng)絡(luò)協(xié)議訪問(wèn),也可以通過(guò)JDBC、ODBC和 SOAP等編程接口訪問(wèn);三是數(shù)據(jù)查詢語(yǔ)言不同,如SQL、OQL和XPath/XQuery等。特別地,不同數(shù)據(jù)庫(kù)支持相同查詢語(yǔ)言的標(biāo)準(zhǔn)和程度也不盡相同。

        語(yǔ)義性異構(gòu)包括:一是數(shù)據(jù)庫(kù)模式(schema)不同,不同數(shù)據(jù)庫(kù)字段的數(shù)據(jù)類型不同、名稱不同以及存在語(yǔ)義差異等;二是實(shí)體命名不同,不同數(shù)據(jù)庫(kù)使用了形式不同,但彼此等價(jià)的規(guī)范化詞表(controlled vocabulary)和本體(ontology)作為實(shí)體的標(biāo)識(shí)符。

        在實(shí)際情況中,生物醫(yī)學(xué)數(shù)據(jù)庫(kù)之間往往同時(shí)存在多種異構(gòu),這更加造成了數(shù)據(jù)集成工作的困難與復(fù)雜程度。因此,解決異構(gòu)問(wèn)題,屏蔽各局部數(shù)據(jù)源的異構(gòu)性,構(gòu)建與平臺(tái)和系統(tǒng)無(wú)關(guān)的查詢平臺(tái),是數(shù)據(jù)集成最重要的任務(wù)。

        2 生物醫(yī)學(xué)異構(gòu)數(shù)據(jù)庫(kù)集成解決方案

        2.1 基于數(shù)據(jù)倉(cāng)庫(kù)的解決方案

        基于數(shù)據(jù)倉(cāng)庫(kù)(data warehouse)的數(shù)據(jù)集成是對(duì)異構(gòu)數(shù)據(jù)源的物理式集成,其系統(tǒng)結(jié)構(gòu)如圖1所示。該系統(tǒng)主要是使用ETL(extract-transform-load)工具,對(duì)各個(gè)異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換,并在通過(guò)集成器進(jìn)行消除數(shù)據(jù)異構(gòu)性后,將數(shù)據(jù)物理地裝載到數(shù)據(jù)倉(cāng)庫(kù)中。特別地,在將數(shù)據(jù)裝載到數(shù)據(jù)倉(cāng)庫(kù)之前,需要經(jīng)過(guò)嚴(yán)格的數(shù)據(jù)清洗(data cleansing),以提高數(shù)據(jù)的質(zhì)量。數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建,實(shí)際上就是各個(gè)異構(gòu)數(shù)據(jù)源模式轉(zhuǎn)換為公共數(shù)據(jù)模式(common data schema)的過(guò)程。當(dāng)用戶直接面向數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行查詢時(shí),各個(gè)數(shù)據(jù)源的異構(gòu)性已經(jīng)消除,這使得檢索過(guò)程更加簡(jiǎn)單和快速。為了確保數(shù)據(jù)倉(cāng)庫(kù)中的信息與各個(gè)數(shù)據(jù)源中的信息保持一致,必須定期更新數(shù)據(jù)倉(cāng)庫(kù)。在實(shí)際應(yīng)用中,EnsEMBL、NCBI和UniProtKB等大型數(shù)據(jù)集成系統(tǒng)都是根據(jù)基于數(shù)據(jù)倉(cāng)庫(kù)的方法構(gòu)建的。

        圖1 基于數(shù)據(jù)倉(cāng)庫(kù)方法的數(shù)據(jù)集成系統(tǒng)架構(gòu)Fig.1 The architecture of data integration system based on data warehouse

        Trissl等人基于數(shù)據(jù)倉(cāng)庫(kù)的方法集成若干蛋白質(zhì)結(jié)構(gòu)信息相關(guān)數(shù)據(jù)庫(kù),建立了 Columba系統(tǒng)[7]。Columba通過(guò)物理的方式集成了12個(gè)異構(gòu)數(shù)據(jù)庫(kù),構(gòu)成了一個(gè)數(shù)據(jù)倉(cāng)庫(kù),其數(shù)據(jù)涵蓋了蛋白質(zhì)基于結(jié)構(gòu)和序列的分類信息、蛋白質(zhì)功能注釋信息、蛋白質(zhì)二級(jí)結(jié)構(gòu)信息和代謝通路信息。Columba已經(jīng)被證明在許多蛋白質(zhì)結(jié)構(gòu)的相關(guān)研究中發(fā)揮了重要作用,是一個(gè)成功和成熟的異構(gòu)數(shù)據(jù)集成系統(tǒng)。在此基礎(chǔ)上,Columba已經(jīng)準(zhǔn)備繼續(xù)集成 LIGAND,MEDLINE和OMIM等數(shù)據(jù)庫(kù),拓展該數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用。Chaurasia等人建立了用于查詢、分析和可視化人類蛋白質(zhì)相互作用組的數(shù)據(jù)倉(cāng)庫(kù) UniHI[8]。UniHI集成了14個(gè)異構(gòu)蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)以及GO和OMIM等輔助數(shù)據(jù)庫(kù)。UniHI系統(tǒng)結(jié)構(gòu)分為數(shù)據(jù)集成、數(shù)據(jù)倉(cāng)庫(kù)和網(wǎng)絡(luò)應(yīng)用程序3個(gè)部分。數(shù)據(jù)集成部分負(fù)責(zé)通過(guò)解析器,將異構(gòu)數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)存到臨時(shí)數(shù)據(jù)庫(kù),此時(shí)已經(jīng)通過(guò)應(yīng)用全局?jǐn)?shù)據(jù)模式消除了數(shù)據(jù)的異構(gòu)性;然后,對(duì)臨時(shí)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、ID轉(zhuǎn)換等修飾性工作;最終,將修飾好的數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)中。用戶通過(guò)網(wǎng)絡(luò)應(yīng)用程序接口訪問(wèn)該數(shù)據(jù)倉(cāng)庫(kù),獲取相應(yīng)信息。UniHI通過(guò)數(shù)據(jù)倉(cāng)庫(kù)的方式完整、一致地描述了人類蛋白質(zhì)相互作用組領(lǐng)域的數(shù)據(jù),其數(shù)據(jù)規(guī)模很大、數(shù)據(jù)質(zhì)量很高,是一個(gè)成功的數(shù)據(jù)集成案例。Tarcea等人基于數(shù)據(jù)倉(cāng)庫(kù)的方法構(gòu)建了分子相互作用的數(shù)據(jù)集成系統(tǒng) MiMI[9]。MiMI采取了深度集成(deep-merging)的策略,即在消除數(shù)據(jù)異構(gòu)性的基礎(chǔ)上,還要進(jìn)一步消除冗余的數(shù)據(jù),消除相互矛盾的數(shù)據(jù),將相關(guān)的數(shù)據(jù)進(jìn)行連接并追蹤數(shù)據(jù)的來(lái)源。其他數(shù)據(jù)集成方法由于是在程序運(yùn)行階段進(jìn)行集成,因此無(wú)法做到如此程度的深度集成。由此可見,只有使用基于數(shù)據(jù)倉(cāng)庫(kù)的方法,才能在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中進(jìn)行如此程度的深度集成,進(jìn)而提高數(shù)據(jù)集成的質(zhì)量。MiMI成功地集成了10個(gè)分子相互作用異構(gòu)數(shù)據(jù)庫(kù)。但并不急于尋找新的數(shù)據(jù)集成到數(shù)據(jù)倉(cāng)庫(kù)中,而是通過(guò)完善深度集成的策略,強(qiáng)調(diào)增強(qiáng)對(duì)已知數(shù)據(jù)的更完善的使用。

        2.2 基于聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)的解決方案

        聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)(Federated Database System,F(xiàn)DBS)是一種元數(shù)據(jù)庫(kù)管理系統(tǒng),負(fù)責(zé)將多個(gè)自治數(shù)據(jù)庫(kù)以透明、虛擬的方式集成到一個(gè)聯(lián)邦數(shù)據(jù)庫(kù)。各自治數(shù)據(jù)庫(kù)通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)互聯(lián),相互提供訪問(wèn)接口,相互分享數(shù)據(jù)。對(duì)這些自治數(shù)據(jù)庫(kù)的操作進(jìn)行控制和協(xié)調(diào)的軟件,稱為聯(lián)邦數(shù)據(jù)庫(kù)管理系統(tǒng)(federated database management system,F(xiàn)DBMS)。FDBMS是一個(gè)管理中心,它能把各成員數(shù)據(jù)庫(kù)模式映射到一個(gè)公共聯(lián)邦模式,負(fù)責(zé)各種模式之間的轉(zhuǎn)換工作,自動(dòng)解決網(wǎng)絡(luò)傳輸問(wèn)題和異構(gòu)數(shù)據(jù)庫(kù)操縱問(wèn)題,接受聯(lián)邦用戶的數(shù)據(jù)請(qǐng)求,把這個(gè)請(qǐng)求翻譯后送到各個(gè)目的數(shù)據(jù)庫(kù)引擎,并將收到的結(jié)果數(shù)據(jù)集成后返回給用戶。其一般結(jié)構(gòu)如圖2所示,它通過(guò)包裝器與各異構(gòu)數(shù)據(jù)源進(jìn)行通信。包裝器從FDBMS接受數(shù)據(jù)訪問(wèn)指令,進(jìn)而轉(zhuǎn)換為各異構(gòu)數(shù)據(jù)源所支持的數(shù)據(jù)訪問(wèn)指令,然后通過(guò)各異構(gòu)數(shù)據(jù)源的服務(wù)器提交執(zhí)行,最后將結(jié)果返回給 FDBMS進(jìn)行異構(gòu)數(shù)據(jù)集成處理。除了包裝器之外,F(xiàn)DBMS還有兩個(gè)核心部分。一個(gè)是全局的元數(shù)據(jù)字典,用于描述數(shù)據(jù)集成的公共聯(lián)邦模式;另一個(gè)是配置數(shù)據(jù)表,其中包括各異構(gòu)數(shù)據(jù)源的配置信息、模式、字段數(shù)據(jù)類型、相應(yīng)的索引、數(shù)據(jù)分布的統(tǒng)計(jì)信息,以及CPU、網(wǎng)絡(luò)、I/O等系統(tǒng)資源情況。

        圖2 基于聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)集成系統(tǒng)架構(gòu)Fig.2 The architecture of data integration system based on federated database system

        Muilu等人使用聯(lián)邦數(shù)據(jù)庫(kù),將歐洲600 000個(gè)孿生雙胞胎的基因組和表型組數(shù)據(jù)進(jìn)行了集成,構(gòu)建了TwinNET系統(tǒng)[10],結(jié)構(gòu)如圖3所示。TwinNET采用IBM的DB 2數(shù)據(jù)庫(kù)和IBM的聯(lián)邦服務(wù)器Discovery Link作為異構(gòu)數(shù)據(jù)集成系統(tǒng)的基礎(chǔ)。8個(gè)國(guó)家的表型組數(shù)據(jù)庫(kù)通過(guò)虛擬專用網(wǎng)絡(luò)(virtual private network,VPN),連接到表型數(shù)據(jù)庫(kù)集線器(Hub)。表型數(shù)據(jù)庫(kù)集線器負(fù)責(zé)將各個(gè)表型組數(shù)據(jù)庫(kù)的數(shù)據(jù)提交到聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)中的信息集成器,完成數(shù)據(jù)集成,基因型數(shù)據(jù)庫(kù)也是以此種形式得到集成。用戶可以通過(guò)網(wǎng)絡(luò)程序,訪問(wèn)聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng),獲取集成后的數(shù)據(jù)。TwinNET十分注重系統(tǒng)的安全性,各個(gè)成員數(shù)據(jù)庫(kù)通過(guò)VPN或安全外殼協(xié)議(secure shell protocol/SSH)的方式連接到聯(lián)邦數(shù)據(jù)庫(kù)。聯(lián)邦數(shù)據(jù)庫(kù)與互聯(lián)網(wǎng)之間有前端防火墻、VPN網(wǎng)關(guān)和非軍事區(qū)3個(gè)屏障,聯(lián)邦數(shù)據(jù)庫(kù)服務(wù)器位于 TwinNET非軍事區(qū)(demilitarized zone,DMZ)內(nèi),因此系統(tǒng)安全性很好。

        圖3 TwinNET系統(tǒng)架構(gòu)[10]Fig.3 The architecture of TwinNET system[10]

        Androulakis等人構(gòu)建了集成X射線衍射圖像異構(gòu)數(shù)據(jù)的聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)[11],采用了第三方軟件框架Fedora成功地構(gòu)建了該聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)。由于圖像數(shù)據(jù)量十分龐大,達(dá)到數(shù)百GB,因此從技術(shù)上和經(jīng)濟(jì)上考慮將這些異構(gòu)圖像數(shù)據(jù)集中存儲(chǔ)在本地?cái)?shù)據(jù)庫(kù)里是不適合的。同時(shí),由于圖像數(shù)據(jù)量比較大以及處理過(guò)程耗時(shí)等特點(diǎn),基于中間件的方法也無(wú)法高效地處理數(shù)據(jù)圖像的集成。因此,Androulakis等人選擇了基于聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)的方法,既考慮了圖像數(shù)據(jù)分布式存儲(chǔ)的便利,又兼顧了數(shù)據(jù)集成的效率問(wèn)題。

        2.3 基于中間件的解決方案

        基于中間件(middleware)的數(shù)據(jù)集成方法通過(guò)統(tǒng)一的全局?jǐn)?shù)據(jù)模式來(lái)訪問(wèn)異構(gòu)數(shù)據(jù)庫(kù),是模型層的數(shù)據(jù)集成方案,數(shù)據(jù)集成中間件位于各異構(gòu)數(shù)據(jù)源(數(shù)據(jù)層)和應(yīng)用系統(tǒng)(應(yīng)用層)之間。這種方法的核心是全局模式(global schema):數(shù)據(jù)集成系統(tǒng)通過(guò)一個(gè)全局模式,將各異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成起來(lái),而數(shù)據(jù)仍存儲(chǔ)在局部數(shù)據(jù)源中。通過(guò)各異構(gòu)數(shù)據(jù)源的包裝器對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使之符合全局模式。用戶提交的查詢是針對(duì)全局模式的,所以用戶不必知道數(shù)據(jù)源的位置、模式及訪問(wèn)方法。按照實(shí)現(xiàn)方式的不同,基于中間件的數(shù)據(jù)集成方法可以分為基于包裝器/中介器、基于本體、基于網(wǎng)格和基于XML共4種具體方法。

        2.3.1 基于包裝器/中介器的方法

        基于包裝器/中介器(wrapper/mediator)方法的體系結(jié)構(gòu)如圖4所示。中介器為應(yīng)用系統(tǒng)提供統(tǒng)一的全局?jǐn)?shù)據(jù)模式和通用的數(shù)據(jù)訪問(wèn)接口,同時(shí)負(fù)責(zé)協(xié)調(diào)各異構(gòu)數(shù)據(jù)源,為用戶提供全局的查詢服務(wù)。中介器將基于全局?jǐn)?shù)據(jù)模式的查詢轉(zhuǎn)換為基于各局部異構(gòu)數(shù)據(jù)源的子查詢,通過(guò)針對(duì)各異構(gòu)數(shù)據(jù)源的包裝器執(zhí)行該子查詢并獲取查詢結(jié)果,最終將結(jié)果集成后返回給用戶。

        圖4 基于包裝器/中介器的數(shù)據(jù)集成系統(tǒng)架構(gòu)Fig.4 The architecture of data integration system based on wrapper/mediator

        Hwang等使用基于包裝器/中介器的方法成功地集成了果蠅相關(guān)的蛋白質(zhì)相互作用數(shù)據(jù)、基因組數(shù)據(jù)和其他輔助數(shù)據(jù)[12]。該研究將蛋白質(zhì)相互作用數(shù)據(jù)存儲(chǔ)在本地?cái)?shù)據(jù)庫(kù),而使用基于包裝器/中介器的方法集成與該數(shù)據(jù)庫(kù)中信息相關(guān)的基因組數(shù)據(jù)(GenBank,F(xiàn)lyBase和GadFly)和其他輔助數(shù)據(jù)(SwissProt和GO),所構(gòu)建的系統(tǒng)分為包裝器模塊、中介器模塊和應(yīng)用模塊等3個(gè)部分。包裝器模塊根據(jù)查詢關(guān)鍵詞,應(yīng)用 HTML、XML和 HTML-XML包裝器,從待集成的5個(gè)數(shù)據(jù)庫(kù)的網(wǎng)頁(yè)上分析并獲取所需的信息。中介器模塊提供中介服務(wù),將包裝器模塊和應(yīng)用模塊連接起來(lái),實(shí)現(xiàn)數(shù)據(jù)集成;中介器分析用戶的查詢請(qǐng)求,將查詢?nèi)蝿?wù)分派給各個(gè)包裝器,在得到包裝器的返回結(jié)果并進(jìn)行集成后,返回給用戶。應(yīng)用模塊負(fù)責(zé)結(jié)果顯示和用戶交互。這項(xiàng)研究成功地將5個(gè)公共數(shù)據(jù)庫(kù)和蛋白質(zhì)相互作用的數(shù)據(jù)進(jìn)行了集成。具有將蛋白質(zhì)組數(shù)據(jù)集成入該系統(tǒng)的擴(kuò)展能力,從而形成一個(gè)以蛋白質(zhì)相關(guān)研究數(shù)據(jù)為中心的綜合性生物學(xué)數(shù)據(jù)集成系統(tǒng)。

        Marenco等人創(chuàng)建了基于包裝器/中介器模式的生物醫(yī)學(xué)數(shù)據(jù)庫(kù)集成框架 QIS[13],其體系結(jié)構(gòu)如圖5所示,核心是3個(gè)功能單元:集成服務(wù)器、數(shù)據(jù)源服務(wù)器和本體服務(wù)器。這3個(gè)功能單元的有機(jī)統(tǒng)一體現(xiàn)了用戶、數(shù)據(jù)和知識(shí)的三位一體結(jié)構(gòu):集成服務(wù)器作為中介器,負(fù)責(zé)調(diào)控另外兩個(gè)功能單元,進(jìn)行數(shù)據(jù)集成以及與客戶端的交互;數(shù)據(jù)源服務(wù)器作為包裝器,負(fù)責(zé)對(duì)各個(gè)異構(gòu)數(shù)據(jù)源進(jìn)行結(jié)構(gòu)化查詢;本體服務(wù)器負(fù)責(zé)管理UMLS本體,為集成服務(wù)器提供語(yǔ)法式查詢,為數(shù)據(jù)源服務(wù)器提供相關(guān)數(shù)據(jù)與本體之間映射的信息。QIS具有很好的泛化能力,可以應(yīng)用于不同領(lǐng)域的數(shù)據(jù)集成。在實(shí)際應(yīng)用中,QIS已經(jīng)成功地應(yīng)用于神經(jīng)科學(xué)和基因組學(xué)。QIS通過(guò)引入本體,為數(shù)據(jù)集成系統(tǒng)提供了在不同粒度下的應(yīng)用。例如:數(shù)據(jù)源服務(wù)器可以通過(guò)本體服務(wù)器的輔助,掌握哪一個(gè)數(shù)據(jù)源中含有神經(jīng)元細(xì)胞的相關(guān)信息,而哪一個(gè)數(shù)據(jù)源中含有某一種特定的神經(jīng)細(xì)胞,如小腦浦肯野細(xì)胞的相關(guān)信息。特別地,通過(guò)引入U(xiǎn)MLS本體,對(duì)于臨床醫(yī)學(xué)信息學(xué)數(shù)據(jù)的集成有著重大的意義。

        圖5 QIS框架的系統(tǒng)架構(gòu)[13]Fig.5 The architecture of QIS framework[13]

        Blankenburg等人構(gòu)建了用于集成異構(gòu)分子相互作用數(shù)據(jù)的 DASMI系統(tǒng)[14],該系統(tǒng)基于分布式注釋系統(tǒng)(distributed annotation system,DAS)[15]。DAS封裝了包裝器/中介器方法,用戶只需要按照DAS規(guī)范調(diào)用即可實(shí)現(xiàn)包裝器/中介器方法。DASMI系統(tǒng)由數(shù)據(jù)交換規(guī)范和提供相互作用數(shù)據(jù)集成的客戶端兩個(gè)部分組成,采用非集中化的(decentralized)系統(tǒng)架構(gòu)(見圖6),提供在線的從分布式異構(gòu)數(shù)據(jù)庫(kù)中獲取的最新數(shù)據(jù)。各個(gè)相互作用數(shù)據(jù)服務(wù)器提供相互作用的數(shù)據(jù),可信度評(píng)分服務(wù)器提供對(duì)于相互作用數(shù)據(jù)的評(píng)分。DASMI客戶端查詢相互作用數(shù)據(jù)服務(wù)器,并集成查詢結(jié)果;DAS客戶端分為基于網(wǎng)絡(luò)程序的客戶端和基于軟件插件的客戶端兩種類型。DAS注冊(cè)表用于維護(hù)互聯(lián)網(wǎng)上可用的 DAS服務(wù)器列表,通過(guò)注冊(cè)新的 DAS服務(wù)器,就可以方便快捷地實(shí)現(xiàn) DASMI系統(tǒng)的擴(kuò)展。DAS服務(wù)器與客戶端的數(shù)據(jù)交換需要符合DAS的 URL規(guī)范和 XML規(guī)范。DAS客戶端通過(guò)HTTP協(xié)議向DAS URL對(duì)應(yīng)的DAS服務(wù)器發(fā)送查詢請(qǐng)求,DAS服務(wù)器通過(guò)DASINT XML協(xié)議響應(yīng)該請(qǐng)求并返回?cái)?shù)據(jù),從而完成一次數(shù)據(jù)交換。因此,DAS的 URL規(guī)范和 XML規(guī)范是 DASMI系統(tǒng)實(shí)現(xiàn)分布式異構(gòu)數(shù)據(jù)集成的基礎(chǔ)和關(guān)鍵,DASMI系統(tǒng)可以對(duì)所有實(shí)現(xiàn)了DAS服務(wù)的相關(guān)相互作用數(shù)據(jù)庫(kù)進(jìn)行有效集成。由于采用了非集中化的系統(tǒng)架構(gòu)和數(shù)據(jù)交換規(guī)范,DASMI系統(tǒng)本身并不需要存儲(chǔ)任何相關(guān)數(shù)據(jù),有效地降低了系統(tǒng)的維護(hù)成本,同時(shí)提高了系統(tǒng)的靈活性和可配置性。Blankenburg等人在DASMI系統(tǒng)的基礎(chǔ)上,又開發(fā)了在線集成、分析和評(píng)估分布式異構(gòu)數(shù)據(jù)庫(kù)的 DASMIweb系統(tǒng)[16]。該系統(tǒng)采用基于網(wǎng)絡(luò)程序的DAS客戶端,專門面向蛋白質(zhì)相互作用異構(gòu)數(shù)據(jù)的集成;集成了35個(gè)蛋白質(zhì)相互作用的相關(guān)數(shù)據(jù)庫(kù),具有靈活、高效的特點(diǎn),并具備一定的擴(kuò)展能力。但是,由于采用了DAS系統(tǒng)的方式進(jìn)行集成,所以該系統(tǒng)集成的對(duì)象只能是實(shí)現(xiàn)了DAS服務(wù)的數(shù)據(jù)庫(kù),對(duì)于其他沒有實(shí)現(xiàn)該服務(wù)的數(shù)據(jù)庫(kù)無(wú)能為力。DASMIweb系統(tǒng)擴(kuò)展能力的高低,取決于科學(xué)共同體對(duì)DAS服務(wù)的支持力度。

        圖 6 DASMI系統(tǒng)架構(gòu)[14]Fig.6 The architecture of DASMI system[14]

        2.3.2 基于本體的方法

        本體對(duì)特定領(lǐng)域的實(shí)體給出名字和描述,使用謂詞來(lái)表示這些實(shí)體間的關(guān)系。本體具有描述數(shù)據(jù)源的語(yǔ)義和解決數(shù)據(jù)源異構(gòu)問(wèn)題的潛力,因此可以用于異構(gòu)數(shù)據(jù)集成。基于本體的數(shù)據(jù)集成中間件通過(guò)將各異構(gòu)數(shù)據(jù)庫(kù)的模式映射到本體,實(shí)現(xiàn)了不同數(shù)據(jù)源間的語(yǔ)義一致,完成了語(yǔ)義層次上的數(shù)據(jù)集成?;诒倔w的數(shù)據(jù)集成的基本思想:一是在領(lǐng)域?qū)<业膸椭拢⑾嚓P(guān)領(lǐng)域的本體;二是收集數(shù)據(jù)源的數(shù)據(jù)模式,并參照已建立的本體,把數(shù)據(jù)源模式與本體間的映射信息按規(guī)定格式存儲(chǔ)在元數(shù)據(jù)庫(kù)中;三是對(duì)用戶的查詢請(qǐng)求,查詢轉(zhuǎn)換器按照本體把查詢請(qǐng)求轉(zhuǎn)換成規(guī)定的格式,在本體的幫助下從元數(shù)據(jù)庫(kù)中匹配出符合條件的數(shù)據(jù)源集合,進(jìn)而實(shí)施查詢;四是將查詢結(jié)果經(jīng)過(guò)定制處理,返回給用戶。

        K?hler等建立了一個(gè)基于本體實(shí)現(xiàn)生物學(xué)數(shù)據(jù)庫(kù)語(yǔ)義集成的系統(tǒng)SEMEDA[17],其總體策略是將數(shù)據(jù)庫(kù)的表和屬性映射到一個(gè)本體,而本體則需要實(shí)現(xiàn)“is a”的層次結(jié)構(gòu),圖7顯示了通過(guò)所建立的本體集成 Enzyme和 Vertebrate兩個(gè)數(shù)據(jù)庫(kù)的思路。首先,將兩個(gè)數(shù)據(jù)庫(kù)中表和屬性映射到本體,用本體提綱挈領(lǐng)地通過(guò)語(yǔ)義方式將所有表和屬性串聯(lián)到一起,形成語(yǔ)義網(wǎng)。同時(shí),通過(guò)規(guī)范詞表(controlled vocabulary),對(duì)數(shù)據(jù)庫(kù)表的屬性值,進(jìn)行語(yǔ)義規(guī)范,以進(jìn)行一致性的語(yǔ)義查詢,如圖7中所示的ec nr和ec_nr兩個(gè)屬性被規(guī)范化為規(guī)范詞表中的“ECID”項(xiàng)?;诒倔w的語(yǔ)義集成方法特別適用于大量異構(gòu)數(shù)據(jù)庫(kù)的集成,能夠通過(guò)本體對(duì)數(shù)據(jù)集成系統(tǒng)進(jìn)行管理,十分靈活,可以方便地添加和刪除數(shù)據(jù)源。同時(shí),該方法不需要維護(hù)復(fù)雜的集成模式,避免了相應(yīng)的問(wèn)題。

        圖7 SEMEDA系統(tǒng)的集成思路[17]Fig.7 The integration way of SEMEDA system[17]

        Alonso-Calvo等人建立了基于本體和代理(agent)的基因、蛋白質(zhì)和疾病相關(guān)異構(gòu)數(shù)據(jù)庫(kù)集成系統(tǒng) OntoFusion[18],結(jié)構(gòu)如圖 8 所示。OntoFusion系統(tǒng)構(gòu)建在多agent系統(tǒng)JADE基礎(chǔ)上,共有4個(gè)模塊:用戶界面、詞表服務(wù)模塊、中介器模塊和數(shù)據(jù)訪問(wèn)模塊。系統(tǒng)的核心模塊是中介器模塊,負(fù)責(zé)提供對(duì)各異構(gòu)數(shù)據(jù)庫(kù)的一致性訪問(wèn)。詞表服務(wù)模塊負(fù)責(zé)維護(hù)和提供醫(yī)學(xué)和遺傳學(xué)本體,數(shù)據(jù)訪問(wèn)模塊實(shí)現(xiàn)對(duì)公共和私有生物醫(yī)學(xué)數(shù)據(jù)庫(kù)的查詢,用戶界面模塊包括用戶接口和管理模塊。OntoFusion系統(tǒng)采用了多agent架構(gòu),使得其各個(gè)模塊可以運(yùn)行于不同的計(jì)算機(jī)上,增強(qiáng)了系統(tǒng)的并行處理能力和靈活性。OntoFusion系統(tǒng)提供了獨(dú)立的詞表服務(wù)模塊,既可以用于數(shù)據(jù)集成,完成各異構(gòu)數(shù)據(jù)庫(kù)模式之間的映射,又可以直接為用戶提供本體數(shù)據(jù),使詞表服務(wù)模塊的復(fù)用性得到充分體現(xiàn)。

        圖8 OntoFusion系統(tǒng)架構(gòu)[18]Fig.8 The architecture of OntoFusion system[18]

        Noy等建立了通過(guò)本體倉(cāng)庫(kù)(repository)集成生物醫(yī)學(xué)數(shù)據(jù)的系統(tǒng) BioPortal[19]。BioPortal提供兩個(gè)主要功能:一是開放的生物醫(yī)學(xué)本體倉(cāng)庫(kù),二是使用該本體倉(cāng)庫(kù)進(jìn)行生物醫(yī)學(xué)數(shù)據(jù)源的集成。BioPortal的生物醫(yī)學(xué)本體倉(cāng)庫(kù)包含134個(gè)本體,極大地拓展了數(shù)據(jù)集成的領(lǐng)域。特別地,BioPortal為編程者提供了用于訪問(wèn)該本體倉(cāng)庫(kù)的網(wǎng)絡(luò)服務(wù)(web service),可以方便地為需要該項(xiàng)功能的用戶提供服務(wù)。通過(guò)豐富的本體信息,BioPortal集成了諸如 ArrayExpress,DrugBank,OMIM,PubChem 和UniProtKB等20個(gè)不同領(lǐng)域內(nèi)著名的異構(gòu)生物醫(yī)學(xué)數(shù)據(jù)源,體現(xiàn)了強(qiáng)大的適應(yīng)能力和擴(kuò)展性。Min等人創(chuàng)立了前列腺癌本體(prostate cancer ontology,PCO),并以此為基礎(chǔ)開發(fā)了前列腺癌數(shù)據(jù)集成系統(tǒng)PCIS[20]。PCIS利用PCO為美國(guó)著名的福克斯·蔡斯癌癥中心(Fox Chase Cancer Center,F(xiàn)CCC),成功地集成了與兩個(gè)前列腺癌相關(guān)的數(shù)據(jù)庫(kù)系統(tǒng)。該系統(tǒng)的關(guān)鍵是通過(guò)創(chuàng)建PCO與兩個(gè)異構(gòu)數(shù)據(jù)庫(kù)模式之間的映射關(guān)系以達(dá)到消除語(yǔ)義性異構(gòu)的目的。特別地,PCIS使用了一種語(yǔ)義查詢語(yǔ)言SPARQL進(jìn)行查詢的構(gòu)造,這樣可以更好地利用PCO語(yǔ)義方面的優(yōu)勢(shì)。PCIS是基于本體的數(shù)據(jù)集成方法在臨床醫(yī)學(xué)領(lǐng)域內(nèi)的成功應(yīng)用之一。

        2.3.3 基于網(wǎng)格的方法

        開放網(wǎng)格服務(wù)架構(gòu)-數(shù)據(jù)訪問(wèn)與集成(open grid services architecture-data access and integration,OGSA-DAI),是一種成熟的基于網(wǎng)格技術(shù)(grid technology)的分布式異構(gòu)數(shù)據(jù)集成中間件。OGSADAI通過(guò)定義數(shù)據(jù)訪問(wèn)的接口,隱藏?cái)?shù)據(jù)庫(kù)驅(qū)動(dòng)、數(shù)據(jù)傳輸?shù)燃夹g(shù)細(xì)節(jié),使用戶可以通過(guò)統(tǒng)一的網(wǎng)絡(luò)服務(wù)接口連接和使用分布式數(shù)據(jù)源,使得數(shù)據(jù)共享和使用更加方便。特別是在互聯(lián)網(wǎng)飛速發(fā)展的今天,基于網(wǎng)格的OGSA-DAI數(shù)據(jù)集成方法非常適合用于公開在互聯(lián)網(wǎng)上發(fā)布的生物醫(yī)學(xué)數(shù)據(jù)庫(kù)的集成。

        Crompton等使用基于網(wǎng)格的OGSA-DAI技術(shù)進(jìn)行了生物信息學(xué)領(lǐng)域的數(shù)據(jù)集成[21]。OGSA-DAI客戶端按照用戶的查詢請(qǐng)求,創(chuàng)建網(wǎng)格數(shù)據(jù)服務(wù),同時(shí)調(diào)用 Jones等開發(fā)的 BDW[22]中間件的DWQueryActivity服務(wù)進(jìn)行查詢。BDWQueryActivity使用包裝器查詢目標(biāo)數(shù)據(jù)庫(kù),獲取查詢結(jié)果。然后,XSL轉(zhuǎn)換器將結(jié)果轉(zhuǎn)換為BDW格式文件,并經(jīng)過(guò)數(shù)據(jù)集成模塊處理,將集成后的結(jié)果返回給OGSI-DAI客戶端,進(jìn)而返回給用戶。BDW是一個(gè)建立生物多樣性方面網(wǎng)格系統(tǒng)的中間件,但是Crompton等人將 BDW應(yīng)用在生物信息學(xué)領(lǐng)域,使BDW中間件實(shí)現(xiàn)了基于網(wǎng)格的異構(gòu)數(shù)據(jù)查詢和集成,并取得了成功。Luo等建立了一種基于網(wǎng)格的、用于分布式醫(yī)學(xué)數(shù)據(jù)庫(kù)集成的模型[23],所支持的異構(gòu)數(shù)據(jù)源類型包括關(guān)系型數(shù)據(jù)庫(kù)(MySQL、Oracle和SQL Server)及文件數(shù)據(jù)源,其系統(tǒng)結(jié)構(gòu)如圖9所示。該模型使用OGSA-DAI組件提供的網(wǎng)格數(shù)據(jù)服務(wù)(grid data service)作為本系統(tǒng)的核心組件,通過(guò)網(wǎng)格系統(tǒng)來(lái)訪問(wèn)各分布式數(shù)據(jù)庫(kù),隱藏了這些數(shù)據(jù)庫(kù)之間的異構(gòu)性和動(dòng)態(tài)性。該模型還提供了其他的功能組件用于實(shí)現(xiàn)數(shù)據(jù)集成和數(shù)據(jù)查詢功能。最終,通過(guò)應(yīng)用程序接口可以實(shí)現(xiàn)基于網(wǎng)格技術(shù)的網(wǎng)絡(luò)應(yīng)用程序,供用戶使用。該模型使用了網(wǎng)格技術(shù)及OGSA-DAI,實(shí)現(xiàn)了基于標(biāo)準(zhǔn)框架的分布式數(shù)據(jù)源的訪問(wèn)和集成。同時(shí),該模型提供了成熟的服務(wù)接口,以數(shù)據(jù)源相互獨(dú)立的方式支持了對(duì)醫(yī)學(xué)數(shù)據(jù)庫(kù)的一致性訪問(wèn)。

        2.3.4 基于XML的方法

        XML(eXtensible Markup Language)可擴(kuò)展標(biāo)記語(yǔ)言,以一種開放的自我描述方式定義數(shù)據(jù)結(jié)構(gòu),在描述數(shù)據(jù)內(nèi)容的同時(shí)又能突出對(duì)結(jié)構(gòu)的描述,從而體現(xiàn)出數(shù)據(jù)之間的關(guān)系。XML有很強(qiáng)的數(shù)據(jù)結(jié)構(gòu)表達(dá)能力及擴(kuò)展性,非常適合于解決數(shù)據(jù)集成中關(guān)鍵的語(yǔ)義異構(gòu)性問(wèn)題??梢詫悩?gòu)數(shù)據(jù)源的數(shù)據(jù)模式描述為 Schema或 DTD文檔,進(jìn)而轉(zhuǎn)換為XML文檔結(jié)構(gòu),從而實(shí)現(xiàn)局部異構(gòu)數(shù)據(jù)源的數(shù)據(jù)模式到全局?jǐn)?shù)據(jù)模式的映射與數(shù)據(jù)的轉(zhuǎn)換。同樣具有跨平臺(tái)特性的XML數(shù)據(jù)描述技術(shù)與Java編程技術(shù)的結(jié)合,可以很好地解決系統(tǒng)異構(gòu)性的問(wèn)題。同時(shí),可以利用基于成熟的XPath技術(shù)的XQuery查詢語(yǔ)言來(lái)訪問(wèn)XML數(shù)據(jù)。XQuery之于XML相當(dāng)于SQL之于關(guān)系型數(shù)據(jù)庫(kù),可以完成復(fù)雜的查詢?nèi)蝿?wù)。

        圖9 基于網(wǎng)格的數(shù)據(jù)集成系統(tǒng)架構(gòu)[23]Fig.9 The architecture of data integration system based on grid[23]

        Huang等構(gòu)建了一個(gè)基于XML方法的生物數(shù)據(jù)集成系統(tǒng) JXP4BIGI[24]。JXP4BIGI是一個(gè)獨(dú)立于系統(tǒng)的通用框架中間件,其功能包括對(duì)異構(gòu)數(shù)據(jù)的訪問(wèn)、提取、轉(zhuǎn)換和集成。JXP4BIGI有4個(gè)核心組件,即XML生物實(shí)體模板,查詢/邏輯提取組件,包裝器和 JXP處理器。XML生物實(shí)體模板也稱為Java XML頁(yè)面(JXP),是用于表示生物實(shí)體的數(shù)據(jù)結(jié)構(gòu)。包裝器按照查詢/邏輯提取組件的要求,在從異構(gòu)數(shù)據(jù)源獲取到所需數(shù)據(jù)后,就將其存儲(chǔ)到JXP中。然后,JXP處理器就來(lái)分析處理這些 JXP,以抽取出用戶所需的數(shù)據(jù),返回給用戶。由于定義目標(biāo)生物實(shí)體的模板是XML文件,因此可以靈活地定義非常復(fù)雜的描述目標(biāo)實(shí)體的結(jié)構(gòu),為解決數(shù)據(jù)的異構(gòu)性奠定了堅(jiān)實(shí)的語(yǔ)義描述基礎(chǔ)。JXP4BIGI是基于Java技術(shù)開發(fā)的,因此具有平臺(tái)獨(dú)立性,使其中間件的特點(diǎn)更加鮮明,適用范圍更廣。Bales等人提出了基于XML的生物醫(yī)學(xué)數(shù)據(jù)集成框架XBrain[25],該系統(tǒng)結(jié)構(gòu)如圖 10 所示。XBrain 所集成的異構(gòu)數(shù)據(jù)源分為3種數(shù)據(jù)模型:關(guān)系型(如CSM)、XML類型(如 IM)和本體類型(如OQAFMA)。XBrain采用 XQuery,在分布式條件下的擴(kuò)展應(yīng)用 XQueryD,實(shí)現(xiàn)數(shù)據(jù)的獲取;利用 XML技術(shù),實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的集成。XQueryD處理器負(fù)責(zé)根據(jù)用戶提交的查詢需求,從各個(gè)異構(gòu)數(shù)據(jù)源獲取數(shù)據(jù)。其中,XQueryD處理器使用 Silkroute[26]完成XML和關(guān)系型數(shù)據(jù)庫(kù)之間的映射,使用 StruSQL包裝器完成XML和本體之間的映射。XBrain可以提供CSV、HTML和XML3種格式的查詢結(jié)果返回給用戶。XBrain使用XML技術(shù)集成的數(shù)據(jù)模型基本涵蓋了生物醫(yī)學(xué)數(shù)據(jù)可能的數(shù)據(jù)模型,具有數(shù)據(jù)集成對(duì)象的全面性。XBrain使用了成熟的XQueryD技術(shù),構(gòu)建的應(yīng)用程序具有很好的性能,特別是穩(wěn)定性和查詢速度。

        圖10 XBrain系統(tǒng)架構(gòu)[25]Fig.10 The architecture of XBrain system[25]

        3 結(jié)論

        本文綜述了生物醫(yī)學(xué)異構(gòu)數(shù)據(jù)庫(kù)集成領(lǐng)域內(nèi)的最新研究進(jìn)展,對(duì)基于數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)和中間件的3種方法及其相關(guān)研究進(jìn)行了介紹和討論。下面將對(duì)這些方法的特點(diǎn)和適用性進(jìn)行總結(jié)。

        數(shù)據(jù)倉(cāng)庫(kù)通常利用成熟的關(guān)系型數(shù)據(jù)庫(kù),因此處理海量數(shù)據(jù)具有優(yōu)勢(shì)。利用數(shù)據(jù)倉(cāng)庫(kù)還可以對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,特別是數(shù)據(jù)清洗,以提高數(shù)據(jù)的質(zhì)量??梢岳脭?shù)據(jù)倉(cāng)庫(kù)提供的工具進(jìn)行聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)挖掘,對(duì)數(shù)據(jù)進(jìn)行多層次、全方位的有效利用。數(shù)據(jù)倉(cāng)庫(kù)通常在本地存儲(chǔ),而且對(duì)其中的數(shù)據(jù)進(jìn)行了預(yù)處理,因此實(shí)現(xiàn)了以磁盤的空間換取了用戶查詢的時(shí)間,提高了數(shù)據(jù)存儲(chǔ)和查詢的效率。數(shù)據(jù)倉(cāng)庫(kù)增加了數(shù)據(jù)的可獲取性,當(dāng)使用其他兩種方法時(shí),如果某一個(gè)外部數(shù)據(jù)源暫停數(shù)據(jù)訪問(wèn)服務(wù)時(shí),數(shù)據(jù)集成系統(tǒng)的數(shù)據(jù)來(lái)源就減少了一個(gè),而數(shù)據(jù)倉(cāng)庫(kù)則不會(huì)發(fā)生這種情況。但是,數(shù)據(jù)倉(cāng)庫(kù)也存在一些不足:其架構(gòu)不夠靈活,不能及時(shí)反映所集成數(shù)據(jù)源的改變;建立數(shù)據(jù)倉(cāng)庫(kù)的成本較高;隨著數(shù)據(jù)量的不斷增長(zhǎng),存儲(chǔ)設(shè)備不斷增加,數(shù)據(jù)更新和維護(hù)逐漸困難。

        聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)著重實(shí)現(xiàn)各異構(gòu)數(shù)據(jù)源之間的互操作,其最常用的方法是將每個(gè)數(shù)據(jù)庫(kù)模式分別和其他所有數(shù)據(jù)庫(kù)模式進(jìn)行映射。如果有n個(gè)自治數(shù)據(jù)庫(kù),則聯(lián)邦中需要建立 n(n-1)個(gè)模式映射規(guī)則。但是,當(dāng)參與聯(lián)邦的數(shù)據(jù)庫(kù)很多(n值很大)時(shí),建立映射規(guī)則的任務(wù)將變得很復(fù)雜而難于實(shí)現(xiàn)和維護(hù)。所以,聯(lián)邦數(shù)據(jù)庫(kù)集成系統(tǒng)適用于自治數(shù)據(jù)庫(kù)的數(shù)量比較少、各數(shù)據(jù)庫(kù)有較好的自治性、允許用戶單獨(dú)查詢、各數(shù)據(jù)庫(kù)間能夠彼此聯(lián)合回答查詢的情況。

        中間件是目前比較流行的數(shù)據(jù)集成方法。由于每次查詢都要連接到各數(shù)據(jù)源,因此該方法可以很好地反映所集成數(shù)據(jù)的實(shí)時(shí)性。該方法可以集成非數(shù)據(jù)庫(kù)數(shù)據(jù)源,如半結(jié)構(gòu)化數(shù)據(jù)?;谥虚g件的數(shù)據(jù)集成系統(tǒng)中的數(shù)據(jù)源的查詢能力可以是受限的,如可以不支持SQL查詢。因?yàn)檫@些數(shù)據(jù)源是完全自治的,所以很容易對(duì)系統(tǒng)中數(shù)據(jù)源進(jìn)行添加或刪除,這使得系統(tǒng)的數(shù)據(jù)維護(hù)工作大大減少、系統(tǒng)的靈活性大大加強(qiáng)。該方法也存在一些不足之處。基于該方法建立的數(shù)據(jù)集成系統(tǒng)通常是只讀的,而數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)既可讀也可寫;不支持各異構(gòu)數(shù)據(jù)源之間的互操作;因?yàn)樵摲椒ㄊ腔诔绦蜻\(yùn)行時(shí)的數(shù)據(jù)集成方法,所以受程序運(yùn)行效率的限制,很難完成在線的數(shù)據(jù)清洗等維護(hù)數(shù)據(jù)質(zhì)量的工作;該方法可能引發(fā)原始數(shù)據(jù)源非故意的拒絕訪問(wèn),此時(shí)系統(tǒng)所集成的數(shù)據(jù)源就會(huì)減少。例如NCBI嚴(yán)格限制用戶每天訪問(wèn)的次數(shù),如超限,可能會(huì)被暫時(shí)禁止訪問(wèn)。當(dāng)數(shù)據(jù)源的查詢能力受限時(shí),如何處理查詢和進(jìn)行優(yōu)化也是亟需完善的工作。

        [1] Cochrane GR and Galperin MY.The 2010 Nucleic Acids Research Database Issue and online Database Collection: a community of data resources[J].Nucleic Acids Research,2010,38(Database issue):D1-D4.

        [2] Karasavvas KA, Baldock R, Burger A. Bioinformatics integration and agent technology[J].J Biomed Inform,2004,37(3):205-219.

        [3] Goble C,Stevens R,Hull D,et al.Data curation + process curation= data integration + science [J]. Briefingsin Bioinformatics,2008,9(6):506-17.

        [4] Maurizio L.Data integration:a theoretical perspective[A].In:Proceedings the ACM Symposium on Principles of Database Systems[C].New York:ACM Press,2002.233 -246.

        [5] Hernandez T and Kambhampati S. Integration of biological sources:current systems and challenges ahead [J].ACM SIGMOD Record,2004,33(3):51-60.

        [6] K?hler J. Integration of life science databases[J]. Drug Discovery Today,2004,2(2):61-69.

        [7] Trissl S,Rother K,Müller H,et al.Columba:an integrated database of proteins,structures,and annotations [J].BMC Bioinformatics,2005,6:81.

        [8] Chaurasia G,Malhotra S,Russ J,et al.UniHI 4:new tools for query,analysis and visualization of the human protein-protein interactome[J].Nucleic Acids Res,2009,37(Database issue):D657-660.

        [9] Tarcea VG,Weymouth T,Ade A,et al.Michigan molecular interactions r2:from interacting proteins to pathways[J].Nucleic Acids Res,2009,37(Database issue):D642-646.

        [10] Muilu J,Peltonen L,Litton JE.The federated database-a basis for biobank-based post-genome studies,integrating phenome and genome data from 600,000 twin pairs in Europe [J].Eur J Hum Genet,2007,15(7):718-723.

        [11] Androulakis S,Schmidberger J,Bate MA,et al.Federated repositories of X-ray diffraction images[J].Acta Crystallogr D Biol Crystallogr,2008,D64(Pt 7):810 -814.

        [12] Hwang DS,F(xiàn)otouhi F,Son YJ.A case study:development of an organism-specific protein interaction database and its associated tools [J]. InternationalJournalofCooperative Information Systems,2003,12(2):15.

        [13] Marenco L,Wang TY,Shepherd G,et al.QIS:A framework for biomedical database federation[J].J Am Med Inform Assn,2004,11(6):523-34.

        [14] Blankenburg H,F(xiàn)inn RD,Prlic'A,et al.DASMI:exchanging,annotating and assessing molecularinteraction data [J].Bioinformatics,2009,25(10):1321-1328.

        [15] Dowell RD, Jokerst RM,Day A, et al. The distributed annotation system [J].BMC Bioinformatics,2001,2:7.

        [16] Blankenburg H,Ramírez F,Büch J,et al.DASMIweb:online integration,analysis and assessmentofdistributed protein interaction data[J].Nucleic Acids Res,2009,37(Web Server issue):W122-128.

        [17] K?hler J,Philippi S,and Lange M.SEMEDA:ontology based semantic integration of biological databases[J].Bioinformatics,2003,19(18):2420-2427.

        [18] Alonso-Calvo R,Maojo V,Billhardt H,et al.An agent-and ontology-based system for integrating public gene,protein,and disease databases[J].J Biomed Inform,2007,40(1):17-29.

        [19] Noy NF,Shah NH,Whetzel PL,et al.BioPortal:ontologies and integrated data resources at the click of a mouse [J].Nucleic Acids Res,2009,37(Web Server issue):W170-173.

        [20] Min H,Manion FJ,Goralczyk E,et al.Integration of prostate cancer clinical data using an ontology[J].J Biomed Inform,2009,42(6):1035-1045.

        [21] Crompton S,Matthews B,Gray A,et al.Data integration in bioinformaticsusing OGSA-DAI[EB/OL]. http://www.allhands.org.uk/2005/proceedings/papers/500.pdf,2005/2009-12-18.

        [22] Jones AC,White RJ,Gray WA,et al.Building a Biodiversity GRID[A].In Konagaya A and Satou K,eds.:Grid Computing in Life Science[M].Berlin:Springer-Verlag,2005.140-151.

        [23] Luo Y,Jiang L,Zhuang TG.A grid-based model for integration of distributed medicaldatabases [J]. JournalofDigital Imaging,2008,22(6):579-588.

        [24] Huang Y,Ni T,Zhou L,et al.JXP4BIGI:a generalized,Java XML-based approach for biological information gathering and integration[J].Bioinformatics,2003,19(18):2351-2358.

        [25] Bales N,Brinkley J,Lee ES,et al.A framework for XML-based integration ofdata,visualization and analysisin a biomedical domain [A].Database and XML Technologies[M].Berlin Heidelberg:Springer-Verlag,2005.207-221.

        [26] Fernandez M,Kadiyska Y,Morishima A,et al.SilkRoute:a framework for publishing relational data in XML [J].ACM Transactions on Database Technology,2002,27(4):438-493.

        Progress in Biomedical Heterogeneous Database Integration

        ZHANG ZhiZHANG Zheng-Guo*
        (Institute of Basic Medical Sciences,Chinese Academy of Medical Sciences,Peking Union Medical College,Beijing 100005,China)

        With the rapid development of biomedicine,many biomedical databases have constantly emerged.How to methodically organize these independent databases is fundamental to increase the overall knowledge and understanding of a specific subject.Data integration can implement wider data sharing and more effective utilization of data,and it has become the core research content of bioinformatics.In this paper,the methods of the integration of biomedical heterogeneous database were introduced,and the newest progress in this field was reviewed.The characteristics and the use conditions of all methods were discussed and summarized as well.

        heterogeneous database;database integration;data warehouse;federated database;middleware

        R318

        A

        0258-8021(2010)03-0454-10

        10.3969/j.issn.0258-8021.2010.03.022

        2009-12-25,

        2010-01-08

        中華醫(yī)學(xué)基金(CMB03-787)

        *通訊作者。 E-mail:zhangzg126@126.com

        猜你喜歡
        數(shù)據(jù)倉(cāng)庫(kù)生物醫(yī)學(xué)數(shù)據(jù)源
        芻議“生物醫(yī)學(xué)作為文化”的研究進(jìn)路——兼論《作為文化的生物醫(yī)學(xué)》
        靈長(zhǎng)類生物醫(yī)學(xué)前沿探索中的倫理思考
        基于數(shù)據(jù)倉(cāng)庫(kù)的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        國(guó)外生物醫(yī)學(xué)文獻(xiàn)獲取的技術(shù)工具:述評(píng)與啟示
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
        分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉(cāng)庫(kù)中的設(shè)計(jì)
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
        LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
        基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析探索與實(shí)踐
        精品久久中文字幕系列| 日韩人妻中文无码一区二区| 欧美黑寡妇特a级做爰| 无码国产色欲xxxxx视频| 欧洲亚洲第一区久久久| 国产黄色看三级三级三级| 国产天堂av在线一二三四| 无人区一码二码三码四码区| japanese无码中文字幕| 视频一区视频二区亚洲免费观看| 一道之本加勒比热东京| 又色又爽又黄高潮的免费视频| 乱码午夜-极品国产内射| 亚洲五月七月丁香缴情| 久久99人妖视频国产| 亚洲精品第一国产综合精品| 国产亚洲av片在线观看18女人| 无码AV无码免费一区二区| 久久伊人精品色婷婷国产| 天天摸夜夜摸摸到高潮| 男人天堂网在线视频| 精品日产一区2区三区| 亚洲久悠悠色悠在线播放| 女人被狂躁到高潮视频免费网站| 久久国产热精品波多野结衣av| 精品久久一区二区av| 伊人久久大香线蕉午夜av| 亚洲色大网站www永久网站| 4hu44四虎www在线影院麻豆 | 国产女同舌吻1区2区| 韩日午夜在线资源一区二区| 免费人成在线观看播放国产| 中文字幕一区二区三区亚洲| 无码人妻丰满熟妇啪啪网不卡| 中日av乱码一区二区三区乱码| 18禁黄无遮挡免费网站| 亚洲视频免费一区二区| 国产精品无码av天天爽| 国产黑色丝袜在线观看视频| 亚洲乱妇熟女爽到高潮视频高清| 久久视频在线|