亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用Weka挖掘白血病與基因的關系

        2015-03-22 03:18:14,
        中華醫(yī)學圖書情報雜志 2015年1期
        關鍵詞:高頻詞白血病基因組

        ,

        白血病是造血干細胞功能異常的克隆性惡性疾病,是國內十大高發(fā)性惡性腫瘤之一。目前醫(yī)學界普遍認為白血病的發(fā)病機制與感染、放射、化學和遺傳等因素有關,但其確切病因至今尚未明確。近年來,有關基因與白血病關系的研究較熱,文獻也較多。本文利用Weka平臺挖掘文獻中白血病與基因的潛在關系。

        1 研究工具

        1.1 聚類挖掘平臺Weka

        Weka平臺(Waikato Environment for Knowledge Analysis)的全名是懷卡托智能分析環(huán)境,是一個公開的數(shù)據(jù)挖掘工作平臺。它集合了大量能承擔數(shù)據(jù)挖掘任務的機器學習算法,包括對數(shù)據(jù)進行預處理、分類、回歸、聚類、關聯(lián)規(guī)則以及在新的交互式界面上的可視化,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。Weka的數(shù)據(jù)格式要求為ARFF(Attribute-Relation File Format)文件,這是一種ASCII文本文件,也是一種二維表格。Cobweb是Weka提供的聚類算法之一,是現(xiàn)在流行的一種簡單增量概念聚類算法。它用分類屬性-值對描述輸入對象,以一個分類樹的形式創(chuàng)建層次聚類[1]。

        1.2 數(shù)據(jù)處理工具BICOMS

        書目信息共現(xiàn)分析系統(tǒng)(Bliographic Item Co-Occurrence Mining System,BICOMS) 是文本挖掘的基礎工具,所生成的矩陣可以進一步應用于聚類分析和社會網絡分析等[2-3]。

        2 研究步驟和結果

        2.1 利用BICOMS抽取高頻詞、生成矩陣

        以“l(fā)eukemia [majr] AND genes [majr]”為檢索策略,檢索PubMed,得到4 069條文獻記錄,并將結果保存成xml文件。利用BICOMS抽取主要主題詞/副主題,設定出現(xiàn)頻次的閾值為100,即頻次大于100的42個詞為高頻詞。這些高頻詞出現(xiàn)9 662次,累計百分比為39.222%(9 662/24 634)。其中排名前10位的高頻詞見表1,出現(xiàn)頻次最高的為原癌基因(706次)。

        表1 排名前10位的高頻詞及其出現(xiàn)頻次

        再利用BICOMS生成高頻詞的共現(xiàn)矩陣(表2)和零一矩陣(即詞篇矩陣),以txt形式導出,并利用Excel將零一矩陣轉置(表3),再分別保存成Weka所需的csv格式文件。

        表2 高頻詞共現(xiàn)矩陣(42行×42列)(部分)

        表3 高頻詞詞篇矩陣轉置矩陣4069(行)×42(列)(部分)

        2.2 采用Weka中聚類算法Cobweb實現(xiàn)聚類

        打開Weka3.6.8,進入Explorer模塊,通過Preprocess的Open功能導入csv文件,以未監(jiān)督的過濾器NumberToNomal過濾數(shù)據(jù),然后保存成ARFF文件以用于聚類分析。

        選擇Weka提供的聚類算法Cobweb,根據(jù)研究需要設置不同參數(shù),對比聚類結果,選擇聚類結果最優(yōu)時的參數(shù)設置為Weka.clusters.Cobweb -A 1.0 -C 0.0028209479177387815 -S 42,聚類模型選擇use training set,選擇store clusters for visualization以保存聚類結果用于可視化。運行后得到的聚類樹結果如圖1所示。

        圖1 聚類樹結果

        2.3 對聚類結果進行優(yōu)化

        Cobweb共進行了7次聚合,5次剪切,形成一棵節(jié)點數(shù)為12、葉子數(shù)(即主題詞數(shù))為42的聚類樹。分析得出各葉子節(jié)點,具體數(shù)據(jù)見表4。

        表4 高頻詞的Cobweb聚類結果

        注:此結果是經過加工優(yōu)化的結果

        3 分析和討論

        3.1 聚類效果分析

        本文的目的是試圖找出各類白血病與各個基因之間的關系,因此理想的聚類結果是每類中都有白血病高頻詞和相關基因,且越多越好。從表5可見,第1,2,4,5類中沒有白血病或基因高頻詞,聚類效果較差;其余類既有白血病相關高頻詞,也有基因相關高頻詞,聚類效果較好。

        表5 各類聚類效果比較

        注:染色體和泛指的基因名詞也算基因;聚類率=(白血病數(shù)+基因數(shù))/該類總葉子樹,且越大越好

        聚類結果較差的原因有三:一是高頻詞中存在非白血病相關主題詞或基因相關主題詞,二是因Cobweb把所有高頻詞看作要聚類的屬性而不能百分之百地將基因和白血病聚在一起,三是數(shù)據(jù)存在局限性。本文使用的42個高頻詞中,白血病數(shù)與基因數(shù)分布不均,白血病數(shù)(11)小于基因數(shù)(15)。

        3.2 基因關系研究分析

        根據(jù)聚類結果,查閱并分析每類,即聚類效果較好的第3,6,7類文獻,得出白血病與基因關系的研究熱點和方向,總結如下。

        第3類聚類結果表明B淋巴細胞白血病和骨髓增生異常綜合癥與免疫球蛋白基因和癌基因融合及表達相關。Yone J等[4]發(fā)現(xiàn),bcl-2基因第五側翼區(qū)是免疫球蛋白基因重排的一個端點集中區(qū)。與14號染色體長臂第32個基因和18號染色體長臂第21個基因易位影響bcl-2基因第三區(qū)域相比,bcl-2基因第五區(qū)域不僅能融合重鏈基因,也能融合兩條輕鏈基因位點。他們克隆并測定了11條B淋巴細胞腫瘤中的bcl-2基因第五側翼區(qū)與免疫球蛋白的融合鏈,這些腫瘤細胞由長距離聚合酶鏈式反應聚合而來。bcl-2基因第五區(qū)域與免疫球蛋白融合基因的異構解剖激活bcl-2基因。特異性癌基因-免疫球蛋白基因重組的形成機制與14號染色體和18號染色體易位不同。

        第6類聚類結果表明實驗性白血病、成人T細胞白血病和成紅細胞細胞白血病與病毒基因、abl基因和bcr-abl融合蛋白及其轉錄相關。Kamihire S等[5]將人類T細胞白血病病毒整合成人T細胞白血病細胞基因組DNA,發(fā)現(xiàn)Ⅰ型人類T細胞白血病病毒是成人T細胞白血病的病原體,且白血病細胞總是攜帶前病毒基因組,以單克隆的方式與宿主基因組同一序列位點整合,稱為單克隆整合。部分前病毒基因組缺失最先出現(xiàn)在gag區(qū)域,然后擴散到pol和env區(qū)域,而且長末端重復和pX區(qū)域幾乎總是守恒的。前病毒狀態(tài)的分析可提供有用的診斷和病毒學—腫瘤學信息,包括成人T細胞白血病和Ⅰ型人類T細胞白血病病毒的病理學,尤其是pX基因在腫瘤形成中重要作用的信息。

        第7類結果表明淋巴瘤與人類第11號染色體、原癌基因和ras基因突變及表達相關。自然殺傷細胞腫瘤是一種很罕見的疾病,已經報道的常見異常腫瘤抑制基因有Rb,p53,p15INK4B和p14ARF。Sugimoto KJ等[6]用DNA印記法、聚合酶鏈式反應單核苷酸多態(tài)性檢測法、蛋白質印跡法和免疫組織化學著色法分析N-ras,K-ras,H-ras,c-myc,n-myc和mdm2等癌基因的狀態(tài),發(fā)現(xiàn)ras基因家族沒有發(fā)生點突變,c-myc和N-myc沒有發(fā)生突變,c-myc蛋白沒有過度表達,但mdm2蛋白在一部分案例中表達度很高,且mdm2蛋白的過度表達與p14ARF,p53和Rb基因不相關。最后得出結論:mdm2的過度表達可能與自然殺傷細胞腫瘤有關,尤其是有攻擊性的子類。

        4 結論

        本文利用Weka軟件平臺對PubMed數(shù)據(jù)庫中的白血病與基因相關數(shù)據(jù)進行Cobweb聚類挖掘分析,得出白血病在基因方面的3個研究熱點。根據(jù)癌癥基因組圖譜研究網(The Cancer Genome Atlas Research Network)發(fā)表于國際權威雜志NEJM 2013年5月30日在線版上的成果[7],9種基因與白血病有關。

        它們分別是轉錄融合基因、編碼核仁磷蛋白的基因(npm1)、腫瘤抑制基因、DNA甲基化相關基因、信號轉導基因、染色質修飾基因、黏連蛋白復合物基因、隨性轉錄因子基因和剪接體復合物基因。本文得出的白血病研究相關熱點基因均在其列。

        猜你喜歡
        高頻詞白血病基因組
        白血病男孩終于摘到了星星
        軍事文摘(2024年2期)2024-01-10 01:59:00
        30份政府工作報告中的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        省級兩會上的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        牛參考基因組中發(fā)現(xiàn)被忽視基因
        28份政府工作報告中的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        省級兩會上的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        一例蛋雞白血病繼發(fā)細菌感染的診治
        白血病外周血體外診斷技術及產品
        基因組DNA甲基化及組蛋白甲基化
        遺傳(2014年3期)2014-02-28 20:58:49
        有趣的植物基因組
        世界科學(2014年8期)2014-02-28 14:58:31
        欧洲人妻丰满av无码久久不卡| 在线看亚洲一区二区三区| 青青草手机在线免费观看视频| 亚洲av无一区二区三区久久| 无码中文字幕人妻在线一区二区三区| 国产熟女精品一区二区三区| 国产一区二三区中文字幕| 无码人妻久久久一区二区三区| ā片在线观看免费观看| 欧美成人免费观看国产| 黑人一区二区三区高清视频| 男女边摸边吃奶边做视频韩国| 欧美a级毛欧美1级a大片免费播放| 欧美自拍视频在线| 国产人成在线免费视频| 一区二区三区视频在线观看| 国产成人a人亚洲精品无码| 国产小毛片| 日韩精品高清不卡一区二区三区| 日本一区二区三级在线观看| 国产二级一片内射视频插放| 亚洲精品国产一二三无码AV| 蜜桃视频成年人在线观看| 国产aⅴ激情无码久久久无码| 日韩精品无码免费专区网站| 日韩精品久久久中文字幕人妻| 久久国产精品免费专区| 亚洲av成人片色在线观看高潮| 国产激情з∠视频一区二区| 日本韩国黄色三级三级| 看女人毛茸茸下面视频| 少妇性荡欲视频| 国产亚洲精品福利在线| 日本av一区二区在线| 欧美多人片高潮野外做片黑人| 精品视频一区二区三三区四区| 亚洲美女av一区二区| 麻豆精品一区二区av白丝在线| 黑人巨大av在线播放无码| 日韩在线视精品在亚洲| 日本黄色影院一区二区免费看|