亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于疾病數(shù)據(jù)庫的文本挖掘工具對比研究

        2018-03-22 02:41:02,,,,
        關(guān)鍵詞:表型工具綜合征

        , , , , ,

        醫(yī)學(xué)研究已進(jìn)入分子階段,疾病表型及基因的相似性可能提示分子間的相互作用。由于大多數(shù)疾病均為多個基因共同作用的結(jié)果,基礎(chǔ)醫(yī)學(xué)研究人員通過分子實(shí)驗(yàn)確定致病基因的方式費(fèi)力而耗時,臨床研究人員想要針對疾病基因進(jìn)行治療也非常困難。新興的生物信息挖掘技術(shù)可以幫助基礎(chǔ)醫(yī)學(xué)研究人員在實(shí)驗(yàn)前篩選候選基因,也可幫助臨床研究人員針對具有相似表型或基因的疾病進(jìn)行進(jìn)一步準(zhǔn)確診斷治療及老藥新用的嘗試[1]。疾病數(shù)據(jù)庫的挖掘?qū)τ诎l(fā)現(xiàn)致病基因、闡明分子通路具有重要的意義,這可以通過疾病表型及基因的相似性比較實(shí)現(xiàn)。10余年來,科研人員開發(fā)了多種疾病數(shù)據(jù)庫文本挖掘工具。本文選取eRAM、PhenUMA 、Gendoo 、G2D 4種性能良好且運(yùn)行穩(wěn)定的免費(fèi)工具進(jìn)行對比分析,并利用這些工具進(jìn)行疾病基因發(fā)現(xiàn)的實(shí)證研究,力求為疾病的遺傳學(xué)研究提供準(zhǔn)確有效的依據(jù),為臨床及基礎(chǔ)醫(yī)學(xué)研究人員提供有效的參考信息,提高疾病遺傳研究的效率。

        1 四種文本挖掘工具

        精準(zhǔn)醫(yī)學(xué)罕見疾病注釋百科全書eRAM[2](encyclopedia of Rare Disease Annotation for Precision Medicine)(http://www.unimd.org/eRAM/)是由華東師范大學(xué)陳庚等人研發(fā)的文本挖掘工具。它整合了10個知名數(shù)據(jù)庫的疾病數(shù)據(jù),主要包括罕見病及其用藥門戶網(wǎng)站(Orphanet)、人類疾病數(shù)據(jù)庫(MalaCards)、NIH-遺傳和罕見疾病(Genetic and Rare Diseases,NGRD)、國際罕見病組織數(shù)據(jù)庫(National Organization for Rare Disorders,NORD),為15 942種罕見疾病提供了豐富的臨床和分子注釋。在其知識庫構(gòu)建過程中將大量的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為可操作利用的結(jié)構(gòu)化數(shù)據(jù),支持基因、表型、疾病間關(guān)系的可視化網(wǎng)絡(luò)構(gòu)建。分析結(jié)果有準(zhǔn)確相關(guān)基因和全部相關(guān)基因兩種參考排序方式,兩種分析結(jié)果中疾病種類及排序不盡相同,為相關(guān)疾病預(yù)測提供了更多可能。該工具可用于疾病信息檢索、基因型檢索、表型網(wǎng)絡(luò)構(gòu)建、基因網(wǎng)絡(luò)構(gòu)建和疾病對網(wǎng)絡(luò)構(gòu)建。eRAM提供豐富而準(zhǔn)確的知識,不僅有助于研究人員探索罕見疾病的潛在機(jī)制,而且有助于臨床醫(yī)生做出準(zhǔn)確的診斷和治療決策。

        PhenUMA[3](http://www.PhenUMA.uma.es/)是由西班牙馬拉加大學(xué)Rocío Rodríguez-López等人基于生物醫(yī)學(xué)和生物分子數(shù)據(jù)庫中的有效信息建成的獨(dú)立知識庫。它以基因功能和疾病表型關(guān)系為基礎(chǔ),構(gòu)建、分析和可視化生物網(wǎng)絡(luò),且分析功能多樣化,構(gòu)建網(wǎng)絡(luò)可視化效果好。該工具可用于研究功能相關(guān)基因之間的新的病理學(xué)關(guān)系,將疾病歸類到特定表型的簇中,發(fā)現(xiàn)與表型相關(guān)的疾病等。PhenUMA有助于臨床和基礎(chǔ)研究人員重新解釋其研究結(jié)果,并通過優(yōu)先考慮表面上非相關(guān)的隱含因素來重新設(shè)計實(shí)驗(yàn)。

        Gendoo[4](Gene,Disease Features Ontology-based Overview System)(http://Gendoo.dbcls.jp/)由東京大學(xué)Takeru Nakazato 等人研發(fā),通過使用MeSH詞匯生成相關(guān)藥物的特征概況、生物現(xiàn)象和解剖結(jié)構(gòu)描述疾病和基因。該工具可用于說明基因和疾病的特征,分別比較基因和疾病特征之間的差異和相似之處,將加速從生物學(xué)和臨床角度對組學(xué)數(shù)據(jù)的分析。

        G2D[5](Genes to Diseases)(http://g2d2.ogic.ca/)由加拿大渥太華健康研究所Carolina Perez-Iratxeta等人開發(fā)。它通過數(shù)據(jù)挖掘算法評估疾病映射的染色體區(qū)域中的基因優(yōu)先級。如果表型已經(jīng)與多個位點(diǎn)連鎖,則也可檢測來自兩個基因位點(diǎn)的蛋白質(zhì)之間的相互作用。G2D指出了查詢蛋白質(zhì)和基因組中序列相似性匹配的位置,并利用了現(xiàn)有的關(guān)于假基因預(yù)測的信息,對識別疾病相關(guān)基因具有極大的幫助。

        2 研究方法

        2.1 4種工具的對比項(xiàng)目

        對比分析eRAM、PhenUMA、Gendoo、G2D在運(yùn)算原理、數(shù)據(jù)輸入、分析功能以及結(jié)果輸出4方面的不同。運(yùn)算原理的對比項(xiàng)目包括知識庫來源、運(yùn)算方法、創(chuàng)建時間、更新周期,數(shù)據(jù)輸入的對比項(xiàng)目包括可錄入數(shù)據(jù)種類、輸入格式,分析功能的對比項(xiàng)目包括功能塊、分析起始選項(xiàng)、分析項(xiàng)目,結(jié)果輸出的對比項(xiàng)目包括輸出選項(xiàng)、可視化項(xiàng)目、結(jié)果下載格式。

        2.2 實(shí)證研究

        以Rett綜合征為例,利用上述工具進(jìn)行疾病基因發(fā)現(xiàn)的實(shí)證研究。Rett綜合征是一種伴X染色體的遺傳疾病,多發(fā)于女性患者,其發(fā)病率為1/10 000~1/15 000?;颊叱1憩F(xiàn)為腦部發(fā)育遲緩、刻板動作、呼吸障礙、運(yùn)動障礙以及孤獨(dú)癥樣的社交障礙,后期可能伴有癲癇的發(fā)生[6]。

        當(dāng)前國際權(quán)威的在線人類孟德爾遺傳數(shù)據(jù)庫(Online Mendelian Inheritance in Man,OMIM)中,查詢到Rett綜合征的相關(guān)基因僅有1個,為甲基化CpG結(jié)合蛋白-2(methyl-CpG binding protein 2,MECP2)。因此將MECP2作為與Rett綜合征相關(guān)的已知基因。

        利用上述4種工具對Rett 綜合征的相關(guān)基因進(jìn)行挖掘,選取各工具挖掘結(jié)果中得分排位高的前3種基因,篩除已知相關(guān)基因MECP2,并去重,進(jìn)一步驗(yàn)證。

        驗(yàn)證方法如下:通過在PubMed、CNKI、萬方等數(shù)據(jù)庫中檢索相關(guān)文獻(xiàn),驗(yàn)證各工具分析結(jié)果中所得基因是否與Rett綜合征相關(guān);通過在蛋白質(zhì)數(shù)據(jù)庫UniProt中查詢某基因的蛋白參與的生物過程和分子功能;通過查閱該生物過程和分子功能是否與Rett 綜合征的病因或癥狀相關(guān),推斷該基因是否可能與Rett 綜合征相關(guān)。

        3 結(jié)果與分析

        3.1 運(yùn)算原理的比較

        4種工具運(yùn)算原理比較的結(jié)果見表1。

        表1 4種文本挖掘工具運(yùn)算原理比較

        如表1所示,eRAM整合了來自13個數(shù)據(jù)庫的知識,相對完整;Gendoo 和G2D知識庫來源相對較少。eRAM是最新創(chuàng)建的,G2D創(chuàng)建較早,Gendoo 和G2D更新次數(shù)較多,但在近幾年內(nèi)沒有更新。

        4種工具的運(yùn)算方法總結(jié)如下。

        eRAM采用夾角余弦法,通過特征向量對之間的夾角余弦值度量。

        PhenUMA采用Resnik法,使用基于Resnik方法的兩種不同的語義相似性度量計算基因之間的功能相似性和表型譜之間的表型相似性[7]。這兩種測量都基于“信息內(nèi)容”(Information Concept,IC)的概念,它使用每個術(shù)語概率(一個術(shù)語的注釋數(shù)與總注釋數(shù)的比例)的對數(shù)進(jìn)行計算。如果術(shù)語的概率降低,則信息內(nèi)容增加,因此該術(shù)語的特異性和信息含量也增加。Resnik提出,一個給定本體的兩個術(shù)語之間的語義相似性由最具信息含量的共同祖先(Most Informative Common Ancestor,MICA)的IC決定。通過從術(shù)語組中所有可能的術(shù)語對中選擇出最大MICA來獲取術(shù)語組之間的相似性分?jǐn)?shù)。

        Gendoo采用通過比較OMIM條目的概況和基因表達(dá)數(shù)據(jù)的聚類結(jié)果發(fā)現(xiàn)基因組之間的相似性,將所開發(fā)的特征概況應(yīng)用于疾病相關(guān)基因的分析,但其具體運(yùn)算方法不詳。

        G2D的運(yùn)算方法同PhenUMA。

        3.2 數(shù)據(jù)輸入的比較

        4種工具數(shù)據(jù)輸入的比較結(jié)果見表2。

        表2 4種文本挖掘工具數(shù)據(jù)輸入的比較

        表2顯示,4種工具均允許輸入基因ID號,只有eRAM、Gendoo允許輸入疾病名稱。

        eRAM可錄入數(shù)據(jù)種類最多, G2D 相對可錄入數(shù)據(jù)種類較少。

        PhenUMA和Gendoo支持錄入多個檢索詞,eRAM和G2D僅可輸入單個檢索詞。

        3.3 分析功能的比較

        4種工具分析功能的比較結(jié)果見表3。

        表3 4種文本挖掘工具分析功能的比較

        4種工具均支持疾病/表型相關(guān)基因檢索。eRAM和PhenUMA功能塊較多,可分析項(xiàng)目也較多。

        eRAM特色功能塊為基因/表型/疾病對的網(wǎng)絡(luò)構(gòu)建;PhenUMA特色功能塊為基因/表型/疾病的網(wǎng)絡(luò)構(gòu)建和基因/疾病富集分析,且只有PhenUMA具有富集分析功能;G2D功能塊較少,但篩選項(xiàng)較完善。

        3.4 結(jié)果輸出的比較

        4種工具結(jié)果輸出的比較見表4。

        表4 4種文本挖掘工具結(jié)果輸出的比較

        4種文本挖掘工具中,eRAM和PhenUMA的分析結(jié)果較完全(表4),可視化效果較好,結(jié)果中鏈接穩(wěn)定(圖1、圖2)。尤其PhenUMA中可給出4種表現(xiàn)形式的結(jié)果圖,且具有篩選功能。 G2D、Gendoo可視化效果相對較差,而且結(jié)果中的鏈接有時失效。

        Gendoo在結(jié)果列表中給出與疾病相似度分?jǐn)?shù),并把分?jǐn)?shù)劃分層級,按顏色區(qū)分。

        G2D在結(jié)果中給出疾病相關(guān)的Mesh詞、Mesh詞出現(xiàn)頻率及所在文章和相關(guān)基因的本體注釋,其結(jié)果以列表形式給出。

        圖1 eRAM中Rett綜合征與schizophrenia間共享基因網(wǎng)絡(luò)

        圖2 PhenUMA中Rett 綜合征的相關(guān)基因網(wǎng)絡(luò)

        圖2的左側(cè)為網(wǎng)絡(luò)示意圖中不同顏色線段的意義說明,可通過調(diào)節(jié)滑鈕篩選結(jié)果。

        3.5 實(shí)證研究結(jié)果與分析

        OMIM數(shù)據(jù)庫顯示僅有1種基因與Rett綜合征相關(guān)。由于Rett綜合征尚未被認(rèn)定為單基因疾病,故推測仍有已被認(rèn)證但未被OMIM收錄的相關(guān)基因,以及未被認(rèn)證的相關(guān)基因。本文利用上述文本挖掘工具可快速發(fā)現(xiàn)Rett綜合征的潛在相關(guān)基因。

        4種文本挖掘工具對Rett綜合征的分析結(jié)果如下:eRAM預(yù)測出6種相關(guān)基因,PhenUMA在中度置信水平下預(yù)測出21種相關(guān)基因,Gendoo預(yù)測出56種相關(guān)基因,G2D預(yù)測出100種相關(guān)基因。選取每種工具分析結(jié)果中的前3位相關(guān)基因(除MECP2,因MECP2是OMIM數(shù)據(jù)庫收錄的已知Rett 綜合征相關(guān)基因):它們分別是eRAM中的EGR2(early growth response 2)、CDKL5(cyclin-dependent kinase-like 5),PhenUMA中的BCHE(butyrylcholin esterase)、CDKL5;Gendoo中的CDKL5、DLX5(distal-less homeobox 5;D2D中的TAZ(tafazzin)、IKBKG(Inhibitor Of Nuclear Factor Kappa B Kinase Subunit Gamma)。

        經(jīng)過去重,得出6種相關(guān)基因:EGR2、CDKL5、BCHE、DLX5、TAZ、IKBKG。通過查詢PubMed、UniProt中關(guān)于這些基因的先驗(yàn)知識,進(jìn)一步分析它們與Rett綜合征相關(guān)的可能性。

        EGR2為序列特異性DNA結(jié)合轉(zhuǎn)錄因子,其參與的腦發(fā)育、外周神經(jīng)系統(tǒng)發(fā)育、學(xué)習(xí)與記憶等生物過程與Rett綜合征的智力嚴(yán)重低下等癥狀相關(guān)。Swanberg S E等人研究表明,EGR2在出生后的人類皮層中發(fā)育增加,并在RTT和自閉癥患者皮質(zhì)中下調(diào)[8],故推測EGR2與Rett 綜合征相關(guān)。

        CDKL5介導(dǎo)MECP2的磷酸化,可能調(diào)控纖毛生成。Vitorino M等人研究表明CDKL5基因突變導(dǎo)致非典型Rett綜合征[9]。

        BCHE具有廣泛底物特異性的酯酶,有助于神經(jīng)遞質(zhì)乙酰膽堿的失活,可以降解神經(jīng)毒性有機(jī)磷酸酯,其參與的學(xué)習(xí)、成神經(jīng)細(xì)胞分化、對糖皮質(zhì)激素的反應(yīng)等生物過程與Rett 綜合征的智力嚴(yán)重低下、舞蹈樣動作、肌張力低等癥狀相關(guān)。

        DLX5涉及骨發(fā)育的轉(zhuǎn)錄因子,其參與的骨形態(tài)發(fā)生、口腔發(fā)育、頭部發(fā)育等生物過程與生長遲緩、獲得性小頭、永久性手的失用、進(jìn)行性行走困難,步態(tài)不穩(wěn)、軀體的失用和共濟(jì)失調(diào)等癥狀相關(guān)。Proudfoot A等人研究表明,DLX5是轉(zhuǎn)錄因子,與乳腺癌、肺癌、淋巴瘤、Rett綜合征和人類骨質(zhì)疏松癥有關(guān)[10]。

        TAZ的基因編碼是在心臟和骨骼肌中高水平表達(dá)的蛋白質(zhì)。經(jīng)查閱先驗(yàn)知識,推測TAZ與Rett綜合征相關(guān)可能性較小。

        IKBKG的基因編碼kappaB激酶(IKK)是復(fù)合物抑制劑的調(diào)節(jié)亞基,可以激活NF-κB,導(dǎo)致參與炎癥、免疫、細(xì)胞存活和其它途徑的基因的活化。經(jīng)查閱先驗(yàn)知識,推測IKBKG與Rett綜合征相關(guān)可能性較小。

        OMIM庫中僅列1種Rett綜合征相關(guān)基因MECP2。本文利用上述疾病庫文本挖掘工具并結(jié)合先驗(yàn)知識推測,除OMIM數(shù)據(jù)庫所列以外的4種相關(guān)基因,這是對OMIM的有益補(bǔ)充。

        4 結(jié)論

        eRAM、PhenUMA、Gendoo、G2D 4種工具均可用于快速獲取疾病/基因相關(guān)信息,并預(yù)測疾病與基因的潛在相關(guān)關(guān)系。eRAM和PhenUMA知識庫功能全面,可視化效果好,推薦優(yōu)先使用。Gendoo和G2D在功能項(xiàng)目上也提供有益的補(bǔ)充,將各工具結(jié)合使用可得出更加可信的分析結(jié)果。

        經(jīng)實(shí)證研究推測基因EGR2、CDKL5、BCHE、DLX與Rett綜合征相關(guān),這可作為OMIM數(shù)據(jù)庫對Rett 綜合征相關(guān)基因闡述的補(bǔ)充。

        基于疾病數(shù)據(jù)庫的文本挖掘工具可以有效預(yù)測疾病的相關(guān)基因,預(yù)測疾病、表型、基因間相似和相關(guān)關(guān)系,有助于疾病病因及治療等研究。

        猜你喜歡
        表型工具綜合征
        SAPHO綜合征99mTc-MDP及18F-FDG代謝不匹配1例
        Chandler綜合征1例
        波比的工具
        波比的工具
        考前綜合征
        豬繁殖與呼吸綜合征的預(yù)防和控制
        建蘭、寒蘭花表型分析
        “巧用”工具
        讀者(2017年18期)2017-08-29 21:22:03
        GABABR2基因遺傳變異與肥胖及代謝相關(guān)表型的關(guān)系
        慢性乙型肝炎患者HBV基因表型與血清學(xué)測定的臨床意義
        人妻中出中文字幕在线| 人妻少妇av中文字幕乱码| 国产成+人+综合+亚洲 欧美| 日本精品视频一视频高清| 国产自拍三级黄片视频| 狠狠色欧美亚洲狠狠色www| 天堂…在线最新版资源| 亚洲AV一二三四区四色婷婷| 丝袜美腿一区二区在线观看| 久久国产在线精品观看| 亚洲av成人噜噜无码网站| 韩国三级中文字幕hd久久精品| 亚洲综合国产成人丁香五月小说| 久久精品国产亚洲综合av| 国产乱人无码伦av在线a| 亚洲乱亚洲乱少妇无码99p| 国产成人av大片大片在线播放| 亚洲国产精品一区二区久| 中文字幕日韩熟女av| 最新国产女主播在线观看| 久久久久亚洲精品无码网址蜜桃| 激情另类小说区图片区视频区| 男女上床视频在线观看| 亚洲成人福利在线视频| 亚洲欧美国产国产综合一区| 亚洲熟妇色xxxxx欧美老妇 | 久久青青草原亚洲av| 丝袜人妻一区二区三区| 人妻少妇邻居少妇好多水在线| 少妇的诱惑免费在线观看| 国产一区二区三区小向美奈子 | 91久久精品一区二区三区大全| 午夜时刻免费入口| 亚洲国产高清在线观看视频| 国产一区二区内射最近人| 亚洲国产熟女精品传媒| 亚洲熟女一区二区三区| 国产成+人+综合+亚洲专| 亚洲中文字幕第一页免费| 全黄性性激高免费视频| 日日摸夜夜添夜夜添无码免费视频|