亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于內(nèi)存計(jì)算的基因疾病搜索系統(tǒng)

        2019-01-11 06:00:16臧天儀
        關(guān)鍵詞:表型基因型蛋白質(zhì)

        楊 勤, 臧天儀

        (哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001)

        0 引 言

        近年來(lái)隨著人類(lèi)基因組計(jì)劃(Human Genome Project, HGP)的順利交付,生物技術(shù)不斷進(jìn)步,從而誕生了生命科學(xué)和計(jì)算機(jī)科學(xué)結(jié)合起來(lái)的新科學(xué)—生物信息學(xué)。生物信息學(xué)是結(jié)合應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的方法研究生物問(wèn)題,是建立在分析生物學(xué)的基礎(chǔ)上,其研究重點(diǎn)主要體現(xiàn)在基因組學(xué)(Genomics)和蛋白質(zhì)組學(xué)(Proteomics)2方面。具體就是從核酸和蛋白質(zhì)序列出發(fā),分析序列中表達(dá)的結(jié)構(gòu)功能的生物信息。由于下一代高通量測(cè)序(NGS)技術(shù)的迅猛發(fā)展,生物實(shí)驗(yàn)方法和檢測(cè)手段正日趨豐富多樣,由此也就生成了海量生物數(shù)據(jù)。如何有效利用這些數(shù)據(jù)來(lái)研究疾病的發(fā)生機(jī)理,尋找致病基因即已成為生物信息學(xué)的重要研究分支。

        利用現(xiàn)有的數(shù)據(jù)進(jìn)行致病基因的預(yù)測(cè),提高致病基因的檢驗(yàn)效率是目前生物信息學(xué)的研究熱點(diǎn)。作為生物重要特征,基因型(Genotype)指的是一個(gè)生物體內(nèi)的DNA所包含的基因,表型是指受基因、環(huán)境等影響而在生物體上表現(xiàn)出來(lái)的特征。整合生物學(xué)數(shù)據(jù)庫(kù)是為了更好地研究基因與疾病之間關(guān)系,而目前各種分析策略在整體上可劃定為基于文本的研究、基于網(wǎng)絡(luò)的研究和基于本體的研究三大類(lèi)。生物大數(shù)據(jù)一直都是業(yè)界矚目的焦點(diǎn),況且生物數(shù)據(jù)量龐大,數(shù)據(jù)格式未能統(tǒng)一,傳統(tǒng)方法分析頗顯復(fù)雜繁冗,許多生物項(xiàng)目都遷移到大數(shù)據(jù)平臺(tái)亟待處理,對(duì)其進(jìn)行大數(shù)據(jù)分析、整合與挖掘則已尤其顯得緊急與迫切。

        本次研究主要分2個(gè)部分。一部分是整合相關(guān)的基因型、表型和疾病數(shù)據(jù),充分利用蛋白質(zhì)相互作用網(wǎng)絡(luò),疾病相似性網(wǎng)絡(luò)。疾病-基因二分網(wǎng)絡(luò)構(gòu)建異構(gòu)綜合網(wǎng)絡(luò),將已知的致病基因作為種子節(jié)點(diǎn),改進(jìn)網(wǎng)頁(yè)排序TrustRank算法,設(shè)計(jì)提出YSearch算法模型預(yù)測(cè)致病基因;另一部分則是系統(tǒng)實(shí)現(xiàn),將整合后的數(shù)據(jù)存儲(chǔ)在NoSql數(shù)據(jù)庫(kù)HBase,繼而通過(guò)Spark大數(shù)據(jù)框架構(gòu)建搜索引擎,編碼實(shí)現(xiàn)預(yù)測(cè)算法,輸出致病基因的排序結(jié)果,從而為疾病治療提供參考。研究?jī)?nèi)容可論述如下。

        1 相關(guān)理論與方法

        1.1 相關(guān)生物網(wǎng)絡(luò)

        疾病網(wǎng)絡(luò)與基因網(wǎng)絡(luò)是根據(jù)OMIM數(shù)據(jù)構(gòu)建,OMIM是持續(xù)更新的、關(guān)于人類(lèi)基因和遺傳紊亂的數(shù)據(jù)庫(kù)。對(duì)于疾病相似性網(wǎng)絡(luò)D,其中節(jié)點(diǎn)d1,d2,…,dn∈VD在網(wǎng)絡(luò)中代表一種疾病,2個(gè)節(jié)點(diǎn)間的連線ED表示2種疾病是相似的,邊的權(quán)重ADi, j表示相似程度。表型描述的更標(biāo)準(zhǔn)化方法包括每個(gè)特征的頻率估計(jì),將大大增加基因型-表型相關(guān)性分析的產(chǎn)量。鄰接矩陣歸一化D滿(mǎn)足:

        Di, j=p(dj|di)=ADi, j/∑jADi, j

        (1)

        蛋白質(zhì)相互作用網(wǎng)絡(luò)G,其中節(jié)點(diǎn)g1,g2,···,gm∈VG在網(wǎng)絡(luò)中代表一個(gè)蛋白質(zhì),如果蛋白質(zhì)gi與蛋白質(zhì)gj存在相互作用關(guān)系,則鄰接表AGi, j=1,否則為零。PPI網(wǎng)絡(luò)數(shù)據(jù)來(lái)自于HPRD數(shù)據(jù)庫(kù),通過(guò)預(yù)處理將數(shù)據(jù)存儲(chǔ)在鄰接表中。PPI鄰接矩陣歸一化G滿(mǎn)足:

        Gi, j=p(gj|gi)=AGi, j/∑jAGi, j

        (2)

        基因-疾病對(duì)應(yīng)網(wǎng)絡(luò)DG與GD,其中從疾病到基因的轉(zhuǎn)移矩陣GDG,如果基因gi是疾病dj的致病基因,則鄰接矩陣Ai, j=1,否則為零。OMIM數(shù)據(jù)文件中每條記錄表示每個(gè)疾病表型描述對(duì)應(yīng)的致病基因條目,處理后的轉(zhuǎn)移概率滿(mǎn)足:

        MDG=p(gi|dj)=Ai, j/∑jAi, j

        (3)

        同理,從基因到疾病的轉(zhuǎn)移矩陣MGD滿(mǎn)足:

        MGD=p(dj|gi)=Aj, i/∑iAj, i

        (4)

        首先構(gòu)建生物信息的異構(gòu)網(wǎng)絡(luò)表明來(lái)自多個(gè)公共資源的先驗(yàn)信息,表示成G=(V,E),其中V表示節(jié)點(diǎn)集合,E表示邊集合,蛋白質(zhì)相互作用網(wǎng)絡(luò)是無(wú)向無(wú)權(quán)圖;疾病-基因?qū)?yīng)網(wǎng)絡(luò)是有向無(wú)權(quán)圖;疾病表型相似性網(wǎng)絡(luò)是無(wú)向有權(quán)圖。在異構(gòu)網(wǎng)絡(luò)中存在著4種狀態(tài)轉(zhuǎn)移,抽象出來(lái)即如圖1所示。

        1.2 改進(jìn)TrustRank算法

        本文設(shè)計(jì)疾病表型-基因關(guān)聯(lián)算法YSearch是基于網(wǎng)頁(yè)排序算法TrustRank的設(shè)計(jì)改進(jìn),算法包括2種形式:查詢(xún)疾病的致病基因以及查詢(xún)基因?qū)е碌募膊?。分別是在疾病表型相似性網(wǎng)絡(luò)與蛋白質(zhì)相互作用網(wǎng)絡(luò)隨機(jī)游走,還有疾病-基因二分網(wǎng)絡(luò)的迭代處理。算法的設(shè)計(jì)代碼描述如下。

        圖1 整合后的異構(gòu)網(wǎng)絡(luò)

        算法:YSearch

        輸入:G為蛋白質(zhì)相互作用轉(zhuǎn)移矩陣;D為疾病表型相似性轉(zhuǎn)移矩陣;M為疾病-基因?qū)?yīng)轉(zhuǎn)移矩陣;α為調(diào)整參數(shù);n為算法迭代次數(shù)

        輸出:TR為分?jǐn)?shù)

        Begin

        s=SelectSeed()//種子集

        TR0=s

        fori=1 tondo

        TRk+1=α·M·TRk+(1-α)·s

        ReturnTR

        end

        算法的工作原理可概括為:先人工識(shí)別高質(zhì)量節(jié)點(diǎn)(即種子集),種子集指向的節(jié)點(diǎn)質(zhì)量也可能高,即TR值高,與種子集節(jié)點(diǎn)連接越遠(yuǎn),節(jié)點(diǎn)的TR值越低。綜上可知,TR算法也就是一個(gè)利用網(wǎng)絡(luò)的拓?fù)湫再|(zhì)在全局網(wǎng)絡(luò)中進(jìn)行排序的設(shè)計(jì)過(guò)程。

        2 系統(tǒng)框架

        2.1 數(shù)據(jù)

        考慮到迄今尚未見(jiàn)到專(zhuān)門(mén)的基因相互作用網(wǎng)絡(luò)數(shù)據(jù),且假設(shè)蛋白質(zhì)與基因相對(duì)應(yīng),因此研究利用了蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI)。數(shù)據(jù)來(lái)源是HPRD數(shù)據(jù)庫(kù)(Human Protein Reference Database)。這是與人類(lèi)蛋白質(zhì)有關(guān)的蛋白質(zhì)組學(xué)信息數(shù)據(jù)庫(kù)。本文的HPRD數(shù)據(jù)是通過(guò)網(wǎng)址http://hprd.org/download下載給定的txt文件。文件存儲(chǔ)著蛋白質(zhì)相互作用數(shù)據(jù),文件格式詳見(jiàn)表1。

        表1 HPRD數(shù)據(jù)格式

        疾病表型相似性的數(shù)據(jù)來(lái)源是MimMiner網(wǎng)站,van等人使用MeSH解析了OMIM數(shù)據(jù)庫(kù),對(duì)其中5 000多種人類(lèi)表型進(jìn)行文本挖掘,生成疾病表型相似性網(wǎng)絡(luò)。通過(guò)網(wǎng)址http://www.cmbi.ru.nl/MimMiner/suppl.html下載數(shù)據(jù)文件。文件的每一行開(kāi)頭都是一個(gè)蛋白質(zhì)MIM編號(hào),其后就依序排布著一系列與其有相互作用關(guān)系的蛋白質(zhì)MIM編號(hào)和相似度,一共是5 080*5 080的對(duì)稱(chēng)矩陣。

        基因-疾病對(duì)應(yīng)網(wǎng)絡(luò)的數(shù)據(jù)來(lái)源是OMIM(Online Mendelian Inheritance in Man)數(shù)據(jù)庫(kù),通過(guò)網(wǎng)址https://omim.org/downloads/,下載morbidmap.txt文件。文件格式詳情可參見(jiàn)表2。

        表2 morbidmap文件數(shù)據(jù)格式

        2.2 Spark平臺(tái)

        本文采用的是Spark on yarn平臺(tái), Apache Spark是一個(gè)以速度、易用性和復(fù)雜分析為特點(diǎn)構(gòu)建的大數(shù)據(jù)處理框架。Spark在數(shù)據(jù)處理過(guò)程中使用成本更低的洗牌(Shuffle)方式,提升 MapReduce性能,由于內(nèi)存數(shù)據(jù)存儲(chǔ)和實(shí)時(shí)的處理能力,Spark比其它的大數(shù)據(jù)處理技術(shù)的性能要更加出色。還支持大數(shù)據(jù)查詢(xún)的延遲計(jì)算,可以?xún)?yōu)化大數(shù)據(jù)處理流程。關(guān)于優(yōu)化,仍需補(bǔ)充的一點(diǎn)就是,當(dāng)需要多次處理同一數(shù)據(jù)集時(shí),將中間結(jié)果保存在內(nèi)存中而不是將其寫(xiě)入磁盤(pán)的 Spark的設(shè)計(jì)初衷就是研發(fā)既可以在內(nèi)存中、又可以在磁盤(pán)上工作的執(zhí)行引擎。當(dāng)內(nèi)存中的數(shù)據(jù)過(guò)期時(shí),Spark操作符就會(huì)執(zhí)行外部操作,可以將某個(gè)數(shù)據(jù)集的一部分送入內(nèi)存而剩余部分置于磁盤(pán)中。Spark的性能優(yōu)勢(shì)得益于這種內(nèi)存中的數(shù)據(jù)存儲(chǔ)?;诖耍傻肧park生態(tài)系統(tǒng)的架構(gòu)設(shè)計(jì)如圖2所示。

        2.3 HBase

        大量生物網(wǎng)絡(luò)數(shù)據(jù)都存儲(chǔ)在NoSQL數(shù)據(jù)庫(kù)HBase中,通過(guò)Spark平臺(tái)操作數(shù)據(jù)。HBase是一個(gè)面向列、可靠性高的分布式存儲(chǔ)系統(tǒng),一個(gè)開(kāi)源的非關(guān)系型分布式數(shù)據(jù)庫(kù)(NoSQL)。在技術(shù)上,改進(jìn)了谷歌的BigTable方法,利用HBase技術(shù)可在廉價(jià)PC機(jī)群上搭建起大規(guī)模存儲(chǔ)集群,HBase為了擴(kuò)展海量數(shù)據(jù),可采用增加節(jié)點(diǎn)實(shí)現(xiàn)線性擴(kuò)展,從而可以在集群上管理大量非結(jié)構(gòu)化或半結(jié)構(gòu)化的稀疏數(shù)據(jù)。HBase僅能通過(guò)主鍵或主鍵的range檢索數(shù)據(jù)來(lái)支持單行事務(wù)操作。需要注意的是,HBase的數(shù)據(jù)存儲(chǔ)形式與其它數(shù)據(jù)庫(kù)不一樣,其中包含了:行鍵(Row Key)、時(shí)間戳(Timestamp)、列族(Column Family)、表和區(qū)域(Table&Region)和單元格(Cell)。HBase系統(tǒng)內(nèi)部框架如圖3所示。

        圖2 Spark生態(tài)系統(tǒng)

        3 系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)

        基因型是控制生物性狀的基因座上特定等位基因的組合,在不考慮具體基因座時(shí)可以泛指生物個(gè)體的全部遺傳組成。與基因型相對(duì)的是表型,而表型是指生物個(gè)體表現(xiàn)的性狀。基因型是表型的遺傳基礎(chǔ)。不同基因型表現(xiàn)相同表型、以及相同基因型表現(xiàn)不同表型的現(xiàn)象廣泛存在,這使得從基因型到表型的遺傳調(diào)控這一科學(xué)難題頗顯研究難度。而研究中通過(guò)運(yùn)用計(jì)算機(jī)大數(shù)據(jù)技術(shù),匯聚整合這些數(shù)據(jù)庫(kù)的問(wèn)題就歸結(jié)集中在數(shù)據(jù)格式不統(tǒng)一上。輸入文件的數(shù)據(jù)來(lái)源主要有注釋變異文件、VCF文件、xml文件等,整體大數(shù)據(jù)框架是Spark on yarn平臺(tái),主要選用技術(shù)包括MongoDB數(shù)據(jù)庫(kù)存儲(chǔ)和Spark SQL查詢(xún),輸出的是與輸入相關(guān)的基因型或者表型。設(shè)計(jì)課題提供一個(gè)可擴(kuò)展且高性能的存儲(chǔ)、處理、分析基因大數(shù)據(jù)的解決方案,設(shè)計(jì)構(gòu)建框架如圖4所示。

        圖3HBase系統(tǒng)架構(gòu)

        Fig.3HBasesystemstructure

        圖4 YSearch系統(tǒng)框架

        系統(tǒng)首頁(yè)是搜索頁(yè)面,如圖5所示??梢允謩?dòng)輸入疾病或基因名稱(chēng),也可以點(diǎn)擊示例輸入,再點(diǎn)擊搜索,生成如圖6所示的結(jié)果頁(yè)面。比如搜索疾病尋找致病基因,通過(guò)輸入疾病表型名稱(chēng),在結(jié)果頁(yè)面中展示了相關(guān)聯(lián)的蛋白質(zhì)名稱(chēng)與其相關(guān)度,然后可以點(diǎn)擊蛋白質(zhì)名稱(chēng)跳轉(zhuǎn)到HPRD數(shù)據(jù)庫(kù)中相關(guān)蛋白質(zhì)的詳盡解讀內(nèi)容。鏈接HRRD效果界面則如圖7所示。同樣查詢(xún)基因?qū)е碌募膊∫彩穷?lèi)似操作。

        圖5 系統(tǒng)首頁(yè)

        圖6 搜索結(jié)果頁(yè)面

        圖7 鏈接HPRD頁(yè)面

        4 結(jié)束語(yǔ)

        使用計(jì)算方法預(yù)測(cè)候選基因-疾病相關(guān)性既可以研究發(fā)病機(jī)理,而且也有助于疾病診斷、治療,以及預(yù)防。近年來(lái)隨著精準(zhǔn)醫(yī)療的提出與廣受關(guān)注,個(gè)人醫(yī)療數(shù)據(jù)正日趨豐富,通過(guò)大數(shù)據(jù)技術(shù)來(lái)展開(kāi)處理研究已成為未來(lái)的熱點(diǎn)領(lǐng)域。同時(shí)個(gè)人健康也正成為時(shí)下的熱、焦點(diǎn)話題,隨之優(yōu)化疾病-基因關(guān)聯(lián)算法,完善搜索系統(tǒng)則更加顯現(xiàn)出兼具著不容忽視的社會(huì)和經(jīng)濟(jì)雙重效益。在此基礎(chǔ)上,該研究對(duì)生物醫(yī)藥產(chǎn)業(yè)的發(fā)展也必將發(fā)揮不可低估的重要推動(dòng)作用。

        猜你喜歡
        表型基因型蛋白質(zhì)
        蛋白質(zhì)自由
        肝博士(2022年3期)2022-06-30 02:48:48
        人工智能與蛋白質(zhì)結(jié)構(gòu)
        海外星云(2021年9期)2021-10-14 07:26:10
        建蘭、寒蘭花表型分析
        蛋白質(zhì)計(jì)算問(wèn)題歸納
        GABABR2基因遺傳變異與肥胖及代謝相關(guān)表型的關(guān)系
        慢性乙型肝炎患者HBV基因表型與血清學(xué)測(cè)定的臨床意義
        西安地區(qū)育齡婦女MTHFRC677T基因型分布研究
        72例老年急性白血病免疫表型分析
        BAMBI基因敲除小鼠的繁育、基因型鑒定
        甘蔗黃葉病毒基因型研究進(jìn)展
        狠干狠爱无码区| 激情内射亚洲一区二区三区| 亚洲成a∨人片在线观看不卡| 内射后入在线观看一区| 欧美在线成人免费国产| 丝袜美腿在线播放一区二区| 风韵丰满熟妇啪啪区老熟熟女| 亚洲一本到无码av中文字幕| 中文字幕精品久久天堂一区| 自拍av免费在线观看| 国产精品婷婷久久爽一下| 全球av集中精品导航福利| 欧美亚洲韩国国产综合五月天| 97中文乱码字幕在线| 欧美颜射内射中出口爆在线| 毛片24种姿势无遮无拦| 男女好痛好深好爽视频一区| 中文字幕视频一区懂色| 日韩久久无码免费毛片软件| 无码国产色欲xxxxx视频| AV无码免费不卡在线观看| 国产一区二区三区精品毛片| 午夜dy888国产精品影院| 国产va免费精品观看| 亚洲AV秘 无套一区二区三区| 一区二区三区乱码专区| av综合网男人的天堂| 国际无码精品| 中文在线最新版天堂av| 精品人妻一区二区三区久久| 无码av免费一区二区三区试看| 久久精品成人91一区二区| 国产护士一区二区三区| 黑人巨大精品欧美一区二区免费| 国内少妇人妻丰满av| 中文乱码字幕在线中文乱码| 少妇被黑人整得嗷嗷叫视频 | 永久免费av无码网站yy| 91网红福利精品区一区二| 久久中文字幕亚洲综合| 免费无码又黄又爽又刺激|