,
白血病是造血干細胞功能異常的克隆性惡性疾病,是國內十大高發(fā)性惡性腫瘤之一。目前醫(yī)學界普遍認為白血病的發(fā)病機制與感染、放射、化學和遺傳等因素有關,但其確切病因至今尚未明確。近年來,有關基因與白血病關系的研究較熱,文獻也較多。本文利用Weka平臺挖掘文獻中白血病與基因的潛在關系。
Weka平臺(Waikato Environment for Knowledge Analysis)的全名是懷卡托智能分析環(huán)境,是一個公開的數(shù)據(jù)挖掘工作平臺。它集合了大量能承擔數(shù)據(jù)挖掘任務的機器學習算法,包括對數(shù)據(jù)進行預處理、分類、回歸、聚類、關聯(lián)規(guī)則以及在新的交互式界面上的可視化,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。Weka的數(shù)據(jù)格式要求為ARFF(Attribute-Relation File Format)文件,這是一種ASCII文本文件,也是一種二維表格。Cobweb是Weka提供的聚類算法之一,是現(xiàn)在流行的一種簡單增量概念聚類算法。它用分類屬性-值對描述輸入對象,以一個分類樹的形式創(chuàng)建層次聚類[1]。
書目信息共現(xiàn)分析系統(tǒng)(Bliographic Item Co-Occurrence Mining System,BICOMS) 是文本挖掘的基礎工具,所生成的矩陣可以進一步應用于聚類分析和社會網絡分析等[2-3]。
以“l(fā)eukemia [majr] AND genes [majr]”為檢索策略,檢索PubMed,得到4 069條文獻記錄,并將結果保存成xml文件。利用BICOMS抽取主要主題詞/副主題,設定出現(xiàn)頻次的閾值為100,即頻次大于100的42個詞為高頻詞。這些高頻詞出現(xiàn)9 662次,累計百分比為39.222%(9 662/24 634)。其中排名前10位的高頻詞見表1,出現(xiàn)頻次最高的為原癌基因(706次)。
表1 排名前10位的高頻詞及其出現(xiàn)頻次
再利用BICOMS生成高頻詞的共現(xiàn)矩陣(表2)和零一矩陣(即詞篇矩陣),以txt形式導出,并利用Excel將零一矩陣轉置(表3),再分別保存成Weka所需的csv格式文件。
表2 高頻詞共現(xiàn)矩陣(42行×42列)(部分)
表3 高頻詞詞篇矩陣轉置矩陣4069(行)×42(列)(部分)
打開Weka3.6.8,進入Explorer模塊,通過Preprocess的Open功能導入csv文件,以未監(jiān)督的過濾器NumberToNomal過濾數(shù)據(jù),然后保存成ARFF文件以用于聚類分析。
選擇Weka提供的聚類算法Cobweb,根據(jù)研究需要設置不同參數(shù),對比聚類結果,選擇聚類結果最優(yōu)時的參數(shù)設置為Weka.clusters.Cobweb -A 1.0 -C 0.0028209479177387815 -S 42,聚類模型選擇use training set,選擇store clusters for visualization以保存聚類結果用于可視化。運行后得到的聚類樹結果如圖1所示。
圖1 聚類樹結果
Cobweb共進行了7次聚合,5次剪切,形成一棵節(jié)點數(shù)為12、葉子數(shù)(即主題詞數(shù))為42的聚類樹。分析得出各葉子節(jié)點,具體數(shù)據(jù)見表4。
表4 高頻詞的Cobweb聚類結果
注:此結果是經過加工優(yōu)化的結果
本文的目的是試圖找出各類白血病與各個基因之間的關系,因此理想的聚類結果是每類中都有白血病高頻詞和相關基因,且越多越好。從表5可見,第1,2,4,5類中沒有白血病或基因高頻詞,聚類效果較差;其余類既有白血病相關高頻詞,也有基因相關高頻詞,聚類效果較好。
表5 各類聚類效果比較
注:染色體和泛指的基因名詞也算基因;聚類率=(白血病數(shù)+基因數(shù))/該類總葉子樹,且越大越好
聚類結果較差的原因有三:一是高頻詞中存在非白血病相關主題詞或基因相關主題詞,二是因Cobweb把所有高頻詞看作要聚類的屬性而不能百分之百地將基因和白血病聚在一起,三是數(shù)據(jù)存在局限性。本文使用的42個高頻詞中,白血病數(shù)與基因數(shù)分布不均,白血病數(shù)(11)小于基因數(shù)(15)。
根據(jù)聚類結果,查閱并分析每類,即聚類效果較好的第3,6,7類文獻,得出白血病與基因關系的研究熱點和方向,總結如下。
第3類聚類結果表明B淋巴細胞白血病和骨髓增生異常綜合癥與免疫球蛋白基因和癌基因融合及表達相關。Yone J等[4]發(fā)現(xiàn),bcl-2基因第五側翼區(qū)是免疫球蛋白基因重排的一個端點集中區(qū)。與14號染色體長臂第32個基因和18號染色體長臂第21個基因易位影響bcl-2基因第三區(qū)域相比,bcl-2基因第五區(qū)域不僅能融合重鏈基因,也能融合兩條輕鏈基因位點。他們克隆并測定了11條B淋巴細胞腫瘤中的bcl-2基因第五側翼區(qū)與免疫球蛋白的融合鏈,這些腫瘤細胞由長距離聚合酶鏈式反應聚合而來。bcl-2基因第五區(qū)域與免疫球蛋白融合基因的異構解剖激活bcl-2基因。特異性癌基因-免疫球蛋白基因重組的形成機制與14號染色體和18號染色體易位不同。
第6類聚類結果表明實驗性白血病、成人T細胞白血病和成紅細胞細胞白血病與病毒基因、abl基因和bcr-abl融合蛋白及其轉錄相關。Kamihire S等[5]將人類T細胞白血病病毒整合成人T細胞白血病細胞基因組DNA,發(fā)現(xiàn)Ⅰ型人類T細胞白血病病毒是成人T細胞白血病的病原體,且白血病細胞總是攜帶前病毒基因組,以單克隆的方式與宿主基因組同一序列位點整合,稱為單克隆整合。部分前病毒基因組缺失最先出現(xiàn)在gag區(qū)域,然后擴散到pol和env區(qū)域,而且長末端重復和pX區(qū)域幾乎總是守恒的。前病毒狀態(tài)的分析可提供有用的診斷和病毒學—腫瘤學信息,包括成人T細胞白血病和Ⅰ型人類T細胞白血病病毒的病理學,尤其是pX基因在腫瘤形成中重要作用的信息。
第7類結果表明淋巴瘤與人類第11號染色體、原癌基因和ras基因突變及表達相關。自然殺傷細胞腫瘤是一種很罕見的疾病,已經報道的常見異常腫瘤抑制基因有Rb,p53,p15INK4B和p14ARF。Sugimoto KJ等[6]用DNA印記法、聚合酶鏈式反應單核苷酸多態(tài)性檢測法、蛋白質印跡法和免疫組織化學著色法分析N-ras,K-ras,H-ras,c-myc,n-myc和mdm2等癌基因的狀態(tài),發(fā)現(xiàn)ras基因家族沒有發(fā)生點突變,c-myc和N-myc沒有發(fā)生突變,c-myc蛋白沒有過度表達,但mdm2蛋白在一部分案例中表達度很高,且mdm2蛋白的過度表達與p14ARF,p53和Rb基因不相關。最后得出結論:mdm2的過度表達可能與自然殺傷細胞腫瘤有關,尤其是有攻擊性的子類。
本文利用Weka軟件平臺對PubMed數(shù)據(jù)庫中的白血病與基因相關數(shù)據(jù)進行Cobweb聚類挖掘分析,得出白血病在基因方面的3個研究熱點。根據(jù)癌癥基因組圖譜研究網(The Cancer Genome Atlas Research Network)發(fā)表于國際權威雜志NEJM 2013年5月30日在線版上的成果[7],9種基因與白血病有關。
它們分別是轉錄融合基因、編碼核仁磷蛋白的基因(npm1)、腫瘤抑制基因、DNA甲基化相關基因、信號轉導基因、染色質修飾基因、黏連蛋白復合物基因、隨性轉錄因子基因和剪接體復合物基因。本文得出的白血病研究相關熱點基因均在其列。