肺癌是發(fā)病率和死亡率增長(zhǎng)最快和對(duì)人群健康和生命威脅最大的惡性腫瘤之一。近年來(lái)分子生物學(xué)研究結(jié)果顯示,癌癥發(fā)生、發(fā)展的關(guān)鍵是細(xì)胞基因組本身的異常。肺癌分子生物學(xué)領(lǐng)域的發(fā)展不但給肺癌研究提供了新的技術(shù)和方法,而且使肺癌的診斷、治療進(jìn)入了更廣闊的新領(lǐng)域[1]。
聚類分析是文本挖掘中常用的方法,已被應(yīng)用于模式識(shí)別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、生物信息學(xué)等很多研究領(lǐng)域中[2]。本研究根據(jù)基因的不同對(duì)肺癌與基因相關(guān)文獻(xiàn)進(jìn)行聚類分析,將肺癌分類,從而找出與不同種類肺癌相關(guān)的基因。通過(guò)文獻(xiàn)調(diào)研發(fā)現(xiàn),閆雷等利用MetaMap和Mesh主題詞表對(duì)白血病相關(guān)文獻(xiàn)進(jìn)行的共詞聚類分析發(fā)現(xiàn),不同種類白血病與不同基因之間的關(guān)系[3];Melaiu O等聯(lián)合使用不同的文本挖掘工具確定了PTGS2、BIRC5、ASS1、JUNB等多種惡性胸膜間皮瘤的標(biāo)志物[4]。
在肺癌領(lǐng)域進(jìn)行文本挖掘的研究較少,根據(jù)基因的不同進(jìn)行分類研究的更少。因此本研究擬通過(guò)PubMed數(shù)據(jù)庫(kù)下載肺癌與基因相關(guān)文獻(xiàn),利用命名實(shí)體識(shí)別工具PubTator提取文獻(xiàn)中不同類型肺癌及基因的名稱,構(gòu)建疾病-基因矩陣并對(duì)其進(jìn)行聚類分析,旨在發(fā)現(xiàn)與不同類型肺癌存在關(guān)聯(lián)的基因及其與肺癌的具體關(guān)聯(lián),為進(jìn)行肺癌相關(guān)基因領(lǐng)域研究的學(xué)者提供參考。
本文選取PubMed數(shù)據(jù)庫(kù),在Mesh字段下,截止時(shí)間(檢索時(shí)間)為2018年6月30日,檢索式為("Lung Neoplasms"[Mesh])AND "Genes"[Mesh],檢索得出8 743篇文獻(xiàn)的pmid號(hào),使用命名實(shí)體識(shí)別工具PubTator對(duì)pmid號(hào)進(jìn)行提取,在PubTator中對(duì)8 743篇文章中的疾病和基因2個(gè)命名實(shí)體進(jìn)行識(shí)別,去除空缺值、消除噪聲,共得到33 657條記錄。部分結(jié)果如表1所示。
表1 pmid號(hào)—肺癌名稱—類別—疾病號(hào)表(部分)
將表1中的記錄通過(guò)pmid號(hào)進(jìn)行自然連接,形成每一行記錄中既有疾病又有基因相關(guān)聯(lián)的完整數(shù)據(jù)記錄。
部分結(jié)果如表2所示。
表2 肺癌-基因查詢表(部分)
得到查詢表之后,將肺癌1、基因1打包為一個(gè)詞,對(duì)所有pmid號(hào)中共同出現(xiàn)的次數(shù)進(jìn)行編程統(tǒng)計(jì),形成肺癌-基因-頻次表。部分結(jié)果如表3所示。
PubTator是一個(gè)基于Web的文本挖掘工具,通過(guò)使用多個(gè)先進(jìn)的文本挖掘算法進(jìn)行文本注釋和加速人工生物編審。它支持對(duì)PubMed檢索結(jié)果進(jìn)行標(biāo)注,可以識(shí)別化學(xué)物質(zhì)、疾病、基因、變異、物種等5類生物醫(yī)學(xué)實(shí)體。
COREMINE Medical是基于本體的醫(yī)學(xué)信息檢索平臺(tái),由中國(guó)科學(xué)院中國(guó)醫(yī)學(xué)科學(xué)院、美國(guó)國(guó)立醫(yī)學(xué)圖書館等機(jī)構(gòu)聯(lián)合開發(fā),是國(guó)際上先進(jìn)的醫(yī)學(xué)信息檢索平臺(tái)。COREMINE Medical可以對(duì)PubMed中相關(guān)文獻(xiàn)的基因、疾病、蛋白質(zhì)等不同的實(shí)體進(jìn)行分類,從而滿足不同研究者的需求。
表3肺癌-基因-頻次表(部分)
基因號(hào)疾病號(hào)頻次基因號(hào)疾病號(hào)頻次1956D0022896524609D055752327157D00817545516653D002289311956D008175310596D008175317157D002289285999D002289303845D0022892571543D008175301956C5382312365915D008175303845D0081752135728D0022892916653D0081751664193D008175283845C538231153595D008175271029D0022891444255D008175271029D0081751444255D002289262064D002289961029C5382312522060D008175702272D002289257157C538231681026D008175242064D0081756813649D00817524238D00228962673D0022892311186D0081755627436D0022892311186D00228953999D0081752316653C538231517015D008175234609D008175441026D002289222064C538231425290D00228922596D002289426667D00817522207D002289407040D008175224609D002289404613D05575222238D008175367157D05575222207D00817535595D00228921238C538231341612D002289212272D008175345915D00228921
使用SPSS 18.0軟件對(duì)疾病-基因矩陣進(jìn)行聚類分析,常用的聚類方法主要有k-means聚類算法、層次聚類算法、SOM聚類算法、FCM聚類算法。通過(guò)對(duì)以上幾種聚類方法的適用數(shù)據(jù)類型進(jìn)行分析比較后,選擇分析-分類-系統(tǒng)聚類,使用ward法,區(qū)間選擇歐式平方距離,將疾病號(hào)代入個(gè)案標(biāo)記依據(jù),基因號(hào)代入變量選項(xiàng),歐氏距離衡量的是多維空間中各個(gè)點(diǎn)之間的絕對(duì)距離,公式如下:
式中,d12表示兩點(diǎn)之間的距離,x1為點(diǎn)1的橫坐標(biāo),x2為點(diǎn)2的橫坐標(biāo),y1為點(diǎn)1的縱坐標(biāo),y2為點(diǎn)2的縱坐標(biāo)。
結(jié)果如圖1所示。
從圖1可看出,本文以疾病為分類依據(jù),縱軸表示疾病名稱,橫軸表示聚類數(shù)的劃分距離。以變異大小為1對(duì)疾病進(jìn)行分類,大致把疾病分為疾病號(hào)D008175(A549 lung cancer)、疾病號(hào)D002289(Advanced non-small-cell lung cancer)、疾病號(hào)C538231(small cell lung carcinoma)及剩下的70種疾病四大類。與各種類型的肺癌相關(guān)的基因如表4所示。
圖1 聚類結(jié)果
疾病名稱基因名稱A549 lung cancerCip1,p21,STRAP,TGF-beta,Bcl2,Bcl-xL,CD31 ,HIF-1alphah,TERT,IL-6 p73,miR-125a,PCNA,Rhoa,wwox,Fibulin-3,MMP-2Advanced non-small-cell lung cancerP53,EGFR,K-RAS,CDKN2,HER2,RASSF1A,C-MYC,ALK,FHIT,BCL2,RARB,CYCLIN D1Small-cell lung carcinomaAKT,CD34,PTEN,MGMT,CDKN2,HER2,RASSF1A,C-MYCALK,BCL2,RARB,CYCLIN D1,FHIT,Lung cancer(others)AKT,CD34,Cip1,p21,STRAP ,GRB2,GRP,GRPR,GSK3beta,GSPT1,GST,GST1,GSTM,GSTM1,GSTM3,GSTP,GSTP1,GSTT1,Hap2,Hap3,hARD1,hASH1,Hbp1,hBUBR1,hDAB2,IPHDAC,HDAC1,HDAC10,HDAC2,HDAC3,HELLS,Hel-N1,HER2,HER-2/neu,HER3,HERC5,HES-1,HFH-11B,hG9a,HGF,hGM-CSF,hGPx1,HHLA2,HIC-1,Hif1,HIF-1alpha,HIF2a,HK II,HLA A,HLA-A,HLA-B
使用Gene Pattern聚類軟件對(duì)疾病-基因共現(xiàn)矩陣進(jìn)行聚類分析。
根據(jù)與SPSS的聚類效果進(jìn)行比較,聚類方法選擇Pairwise complete-linkage,結(jié)果如圖2所示。圖2中的紅色代表相關(guān)程度強(qiáng),粉白色代表相關(guān)程度平均值,藍(lán)色代表相關(guān)程度弱。
圖2 Gene Pattern結(jié)果
通過(guò)圖2發(fā)現(xiàn),Gene Pattern軟件在橫坐標(biāo)方向上,按照與不同基因共同出現(xiàn)的頻次將疾病大致分為3類;縱坐標(biāo)上,每個(gè)基因在不同種類的肺癌中出現(xiàn)的頻次不同而分布在不同的顏色塊中。圖2的橫坐標(biāo)表示不同類型的肺癌,縱坐標(biāo)表示2 458個(gè)與肺癌相關(guān)的基因。肺癌從左至右大致被分為疾病為疾病號(hào)D002289(A549 non-small cell lung cancer)、疾病為疾病號(hào)D008175(A549 lung cancer)、疾病為疾病號(hào)C538231(small cell lung carcinoma)三大類。由圖2中的顏色方塊結(jié)果可看出,幾乎90%的基因都與這三大類疾病有相關(guān)關(guān)系,但關(guān)聯(lián)的程度是相同的。結(jié)合表3的分析,得到表5所示的結(jié)果。
表5 三大類肺癌相關(guān)基因
利用COREMINE Medical數(shù)據(jù)庫(kù)查找與肺癌相關(guān)的文獻(xiàn)和與肺癌相關(guān)的基因。同時(shí)結(jié)合表3確定關(guān)系最為密切的EGFR、P53、KRAS 3種基因。在PubMed數(shù)據(jù)庫(kù)、WOS數(shù)據(jù)庫(kù)中查閱影響因子2.5以上的相關(guān)文獻(xiàn)進(jìn)行原文回溯,證明聚類分析結(jié)果的正確性。
2.2.1 EGFR基因
根據(jù)聚類分析的結(jié)果,EGFR基因主要與非小細(xì)胞肺癌(NSCLC)有關(guān)。KeL等在2018年發(fā)現(xiàn),EGFR基因主要在NSCLC患者的19號(hào)外顯子處發(fā)生突變[5]。黃潔等在2018年發(fā)現(xiàn),EGFR基因主要參與NSCLC早期的細(xì)胞增殖凋亡的多個(gè)環(huán)節(jié)[6]。馬玲等發(fā)現(xiàn),EGFR 基因在晚期非小細(xì)胞肺癌患者體內(nèi)突變率較高,并且以第19外顯子缺失突變?yōu)橹鱗7]。蔡忠等在2018年發(fā)現(xiàn),EGFR基因在包括肺癌在內(nèi)的多種實(shí)體瘤中均為高表達(dá)基因,與NSCLC的A549細(xì)胞結(jié)合能力很強(qiáng),是抗腫瘤研究的熱點(diǎn)靶標(biāo)之一[8]。活化后的EGFR可激活細(xì)胞內(nèi)相應(yīng)的酪氨酸激酶,通過(guò)信號(hào)分子的傳導(dǎo),觸發(fā)多種二酰亞胺信號(hào)傳導(dǎo)級(jí)聯(lián)反應(yīng),包括絲裂原活化蛋白激酶相關(guān)培養(yǎng)(MAPK)、應(yīng)激活化蛋白激酶(JNK)和絲氨酸/蘇氨酸激酶(AKT)等信號(hào)通路。王珊等在2017年發(fā)現(xiàn),EGFR基因突變與患者年齡、腺癌分化程度、有無(wú)淋巴結(jié)轉(zhuǎn)移及TNM分期無(wú)關(guān)[9]。
2.2.2 KRAS基因
聚類分析結(jié)果中,KRAS基因主要與A549 NSCLC有關(guān)。KeL等在2018年發(fā)現(xiàn),KRAS與EGFR基因主要在NSCLC晩期患者中高水平突變表達(dá)[5]。Kordiak J等在2019年發(fā)現(xiàn),肺癌組織中第12密碼子KRAS點(diǎn)突變的瘤內(nèi)異質(zhì)性和不均勻分布多發(fā)生在NSCLC中,EBC-DNA中 KRAS突變狀態(tài)與NSCLC患者腫瘤組織高度一致,提示監(jiān)測(cè)EBC-DNA中KRAS突變作為NSCLC標(biāo)志物的有效性[10]。曹慧等在2016年發(fā)現(xiàn)KRAS基因主要與肺腺癌有關(guān),檢測(cè)到KRAS基因第12及第13位密碼子的6種突變是肺癌患者的主要突變類型,以第12密碼子Gly12Ala的突變?yōu)橹鱗11]。
2.2.3 P53 基因
聚類分析結(jié)果中,P53基因主要與NSCLC有關(guān)。Amelio I等在2018年發(fā)現(xiàn),P53基因主要在晚期NSCLC患者體內(nèi)發(fā)生突變[12]。VogiatziF等在2016年發(fā)現(xiàn),P53基因可通過(guò)調(diào)節(jié)內(nèi)質(zhì)網(wǎng)ENTPD5酶將UDP水解成UMP,促進(jìn)蛋白的N-糖基化來(lái)誘導(dǎo)肺癌的進(jìn)展和轉(zhuǎn)移[13]。王文娟等在2016年發(fā)現(xiàn),P53基因在肺癌組織中突變大多為GC-AT和GC-TA的堿基顛換,且突變發(fā)生時(shí),肺癌組織中Egr-1及EMT通路均被激活[14]。
將SPSS的聚類結(jié)果與Gene Pattern的聚類結(jié)果比較之后發(fā)現(xiàn),二者關(guān)于疾病的聚類分類數(shù)目基本一致,基因的分類略有不同,但是高共現(xiàn)的疾病基因?qū)Υ笾孪嗤?。如在肺癌基因的研究領(lǐng)域,“熱門基因”有MAPK4、ERK3、CXCR7、EGFR、P53等?!盁衢T疾病”為A549非小細(xì)胞肺癌、小細(xì)胞肺癌、A549肺癌及AAH(肺腺癌前期病變:不典型瘤樣增生)等。為了進(jìn)一步檢驗(yàn)分類結(jié)果的正確性,在COREMINE Medical中再次進(jìn)行檢索,得到的高頻基因與肺癌-基因-頻次表中的基因大致相同。同時(shí)對(duì)高頻詞基因相關(guān)的文獻(xiàn)進(jìn)行回溯,總結(jié)基因與具體哪種肺癌存在何種關(guān)系,以驗(yàn)證和豐富聚類分析的結(jié)果。
總之,研究人員更注重對(duì)非小細(xì)胞肺癌(NSCLC)的研究。雖然不同研究涉及的基因、蛋白(基因表達(dá)的結(jié)果也可作為基因研究的參考)不同,但是大多都聚焦到基因是在哪個(gè)位置發(fā)生了何種變異導(dǎo)致疾病的發(fā)生,通過(guò)哪個(gè)通道發(fā)生了一系列生理生化反應(yīng)促進(jìn)或者抑制了肺癌的發(fā)生。如EGFR基因主要與NSCLC有關(guān),與聚類分析結(jié)果一致,且突變主要是第19外顯子缺失突變;KRAS基因主要與A549 NSCLC有關(guān),與聚類分析結(jié)果一致,且基因突變以第12密碼子Gly12Ala突變?yōu)橹?;P53基因主要在晚期NSCLC患者體內(nèi)發(fā)生突變,與聚類分析結(jié)果一致,且突變大多為GC-AT和GC-TA的堿基顛換。
本文通過(guò)對(duì)肺癌、基因進(jìn)行命名實(shí)體識(shí)別、實(shí)體數(shù)據(jù)的標(biāo)準(zhǔn)化處理、肺癌-基因矩陣構(gòu)建、肺癌-基因矩陣的聚類分析、結(jié)果驗(yàn)證等環(huán)節(jié),深入研究了與不同類型肺癌存在關(guān)聯(lián)的基因及其在肺癌不同階段的具體關(guān)聯(lián),可為相關(guān)學(xué)者的研究提供參考。本研究雖然驗(yàn)證了本研究與以往文獻(xiàn)結(jié)果的“一致性”,但并未揭示肺癌與基因之間的新發(fā)現(xiàn),這是下一步研究要解決的主要問(wèn)題。