亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類分析的肺癌與基因相關(guān)關(guān)系研究

        2019-10-14 05:42:42
        關(guān)鍵詞:肺癌研究

        肺癌是發(fā)病率和死亡率增長(zhǎng)最快和對(duì)人群健康和生命威脅最大的惡性腫瘤之一。近年來(lái)分子生物學(xué)研究結(jié)果顯示,癌癥發(fā)生、發(fā)展的關(guān)鍵是細(xì)胞基因組本身的異常。肺癌分子生物學(xué)領(lǐng)域的發(fā)展不但給肺癌研究提供了新的技術(shù)和方法,而且使肺癌的診斷、治療進(jìn)入了更廣闊的新領(lǐng)域[1]。

        聚類分析是文本挖掘中常用的方法,已被應(yīng)用于模式識(shí)別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、生物信息學(xué)等很多研究領(lǐng)域中[2]。本研究根據(jù)基因的不同對(duì)肺癌與基因相關(guān)文獻(xiàn)進(jìn)行聚類分析,將肺癌分類,從而找出與不同種類肺癌相關(guān)的基因。通過(guò)文獻(xiàn)調(diào)研發(fā)現(xiàn),閆雷等利用MetaMap和Mesh主題詞表對(duì)白血病相關(guān)文獻(xiàn)進(jìn)行的共詞聚類分析發(fā)現(xiàn),不同種類白血病與不同基因之間的關(guān)系[3];Melaiu O等聯(lián)合使用不同的文本挖掘工具確定了PTGS2、BIRC5、ASS1、JUNB等多種惡性胸膜間皮瘤的標(biāo)志物[4]。

        在肺癌領(lǐng)域進(jìn)行文本挖掘的研究較少,根據(jù)基因的不同進(jìn)行分類研究的更少。因此本研究擬通過(guò)PubMed數(shù)據(jù)庫(kù)下載肺癌與基因相關(guān)文獻(xiàn),利用命名實(shí)體識(shí)別工具PubTator提取文獻(xiàn)中不同類型肺癌及基因的名稱,構(gòu)建疾病-基因矩陣并對(duì)其進(jìn)行聚類分析,旨在發(fā)現(xiàn)與不同類型肺癌存在關(guān)聯(lián)的基因及其與肺癌的具體關(guān)聯(lián),為進(jìn)行肺癌相關(guān)基因領(lǐng)域研究的學(xué)者提供參考。

        1 數(shù)據(jù)與方法

        1.1 數(shù)據(jù)來(lái)源

        本文選取PubMed數(shù)據(jù)庫(kù),在Mesh字段下,截止時(shí)間(檢索時(shí)間)為2018年6月30日,檢索式為("Lung Neoplasms"[Mesh])AND "Genes"[Mesh],檢索得出8 743篇文獻(xiàn)的pmid號(hào),使用命名實(shí)體識(shí)別工具PubTator對(duì)pmid號(hào)進(jìn)行提取,在PubTator中對(duì)8 743篇文章中的疾病和基因2個(gè)命名實(shí)體進(jìn)行識(shí)別,去除空缺值、消除噪聲,共得到33 657條記錄。部分結(jié)果如表1所示。

        表1 pmid號(hào)—肺癌名稱—類別—疾病號(hào)表(部分)

        將表1中的記錄通過(guò)pmid號(hào)進(jìn)行自然連接,形成每一行記錄中既有疾病又有基因相關(guān)聯(lián)的完整數(shù)據(jù)記錄。

        部分結(jié)果如表2所示。

        表2 肺癌-基因查詢表(部分)

        得到查詢表之后,將肺癌1、基因1打包為一個(gè)詞,對(duì)所有pmid號(hào)中共同出現(xiàn)的次數(shù)進(jìn)行編程統(tǒng)計(jì),形成肺癌-基因-頻次表。部分結(jié)果如表3所示。

        1.2 研究工具

        PubTator是一個(gè)基于Web的文本挖掘工具,通過(guò)使用多個(gè)先進(jìn)的文本挖掘算法進(jìn)行文本注釋和加速人工生物編審。它支持對(duì)PubMed檢索結(jié)果進(jìn)行標(biāo)注,可以識(shí)別化學(xué)物質(zhì)、疾病、基因、變異、物種等5類生物醫(yī)學(xué)實(shí)體。

        COREMINE Medical是基于本體的醫(yī)學(xué)信息檢索平臺(tái),由中國(guó)科學(xué)院中國(guó)醫(yī)學(xué)科學(xué)院、美國(guó)國(guó)立醫(yī)學(xué)圖書館等機(jī)構(gòu)聯(lián)合開發(fā),是國(guó)際上先進(jìn)的醫(yī)學(xué)信息檢索平臺(tái)。COREMINE Medical可以對(duì)PubMed中相關(guān)文獻(xiàn)的基因、疾病、蛋白質(zhì)等不同的實(shí)體進(jìn)行分類,從而滿足不同研究者的需求。

        表3肺癌-基因-頻次表(部分)

        基因號(hào)疾病號(hào)頻次基因號(hào)疾病號(hào)頻次1956D0022896524609D055752327157D00817545516653D002289311956D008175310596D008175317157D002289285999D002289303845D0022892571543D008175301956C5382312365915D008175303845D0081752135728D0022892916653D0081751664193D008175283845C538231153595D008175271029D0022891444255D008175271029D0081751444255D002289262064D002289961029C5382312522060D008175702272D002289257157C538231681026D008175242064D0081756813649D00817524238D00228962673D0022892311186D0081755627436D0022892311186D00228953999D0081752316653C538231517015D008175234609D008175441026D002289222064C538231425290D00228922596D002289426667D00817522207D002289407040D008175224609D002289404613D05575222238D008175367157D05575222207D00817535595D00228921238C538231341612D002289212272D008175345915D00228921

        2 結(jié)果與分析

        2.1 聚類分析

        使用SPSS 18.0軟件對(duì)疾病-基因矩陣進(jìn)行聚類分析,常用的聚類方法主要有k-means聚類算法、層次聚類算法、SOM聚類算法、FCM聚類算法。通過(guò)對(duì)以上幾種聚類方法的適用數(shù)據(jù)類型進(jìn)行分析比較后,選擇分析-分類-系統(tǒng)聚類,使用ward法,區(qū)間選擇歐式平方距離,將疾病號(hào)代入個(gè)案標(biāo)記依據(jù),基因號(hào)代入變量選項(xiàng),歐氏距離衡量的是多維空間中各個(gè)點(diǎn)之間的絕對(duì)距離,公式如下:

        式中,d12表示兩點(diǎn)之間的距離,x1為點(diǎn)1的橫坐標(biāo),x2為點(diǎn)2的橫坐標(biāo),y1為點(diǎn)1的縱坐標(biāo),y2為點(diǎn)2的縱坐標(biāo)。

        結(jié)果如圖1所示。

        從圖1可看出,本文以疾病為分類依據(jù),縱軸表示疾病名稱,橫軸表示聚類數(shù)的劃分距離。以變異大小為1對(duì)疾病進(jìn)行分類,大致把疾病分為疾病號(hào)D008175(A549 lung cancer)、疾病號(hào)D002289(Advanced non-small-cell lung cancer)、疾病號(hào)C538231(small cell lung carcinoma)及剩下的70種疾病四大類。與各種類型的肺癌相關(guān)的基因如表4所示。

        圖1 聚類結(jié)果

        疾病名稱基因名稱A549 lung cancerCip1,p21,STRAP,TGF-beta,Bcl2,Bcl-xL,CD31 ,HIF-1alphah,TERT,IL-6 p73,miR-125a,PCNA,Rhoa,wwox,Fibulin-3,MMP-2Advanced non-small-cell lung cancerP53,EGFR,K-RAS,CDKN2,HER2,RASSF1A,C-MYC,ALK,FHIT,BCL2,RARB,CYCLIN D1Small-cell lung carcinomaAKT,CD34,PTEN,MGMT,CDKN2,HER2,RASSF1A,C-MYCALK,BCL2,RARB,CYCLIN D1,FHIT,Lung cancer(others)AKT,CD34,Cip1,p21,STRAP ,GRB2,GRP,GRPR,GSK3beta,GSPT1,GST,GST1,GSTM,GSTM1,GSTM3,GSTP,GSTP1,GSTT1,Hap2,Hap3,hARD1,hASH1,Hbp1,hBUBR1,hDAB2,IPHDAC,HDAC1,HDAC10,HDAC2,HDAC3,HELLS,Hel-N1,HER2,HER-2/neu,HER3,HERC5,HES-1,HFH-11B,hG9a,HGF,hGM-CSF,hGPx1,HHLA2,HIC-1,Hif1,HIF-1alpha,HIF2a,HK II,HLA A,HLA-A,HLA-B

        使用Gene Pattern聚類軟件對(duì)疾病-基因共現(xiàn)矩陣進(jìn)行聚類分析。

        根據(jù)與SPSS的聚類效果進(jìn)行比較,聚類方法選擇Pairwise complete-linkage,結(jié)果如圖2所示。圖2中的紅色代表相關(guān)程度強(qiáng),粉白色代表相關(guān)程度平均值,藍(lán)色代表相關(guān)程度弱。

        圖2 Gene Pattern結(jié)果

        通過(guò)圖2發(fā)現(xiàn),Gene Pattern軟件在橫坐標(biāo)方向上,按照與不同基因共同出現(xiàn)的頻次將疾病大致分為3類;縱坐標(biāo)上,每個(gè)基因在不同種類的肺癌中出現(xiàn)的頻次不同而分布在不同的顏色塊中。圖2的橫坐標(biāo)表示不同類型的肺癌,縱坐標(biāo)表示2 458個(gè)與肺癌相關(guān)的基因。肺癌從左至右大致被分為疾病為疾病號(hào)D002289(A549 non-small cell lung cancer)、疾病為疾病號(hào)D008175(A549 lung cancer)、疾病為疾病號(hào)C538231(small cell lung carcinoma)三大類。由圖2中的顏色方塊結(jié)果可看出,幾乎90%的基因都與這三大類疾病有相關(guān)關(guān)系,但關(guān)聯(lián)的程度是相同的。結(jié)合表3的分析,得到表5所示的結(jié)果。

        表5 三大類肺癌相關(guān)基因

        2.2 結(jié)果驗(yàn)證

        利用COREMINE Medical數(shù)據(jù)庫(kù)查找與肺癌相關(guān)的文獻(xiàn)和與肺癌相關(guān)的基因。同時(shí)結(jié)合表3確定關(guān)系最為密切的EGFR、P53、KRAS 3種基因。在PubMed數(shù)據(jù)庫(kù)、WOS數(shù)據(jù)庫(kù)中查閱影響因子2.5以上的相關(guān)文獻(xiàn)進(jìn)行原文回溯,證明聚類分析結(jié)果的正確性。

        2.2.1 EGFR基因

        根據(jù)聚類分析的結(jié)果,EGFR基因主要與非小細(xì)胞肺癌(NSCLC)有關(guān)。KeL等在2018年發(fā)現(xiàn),EGFR基因主要在NSCLC患者的19號(hào)外顯子處發(fā)生突變[5]。黃潔等在2018年發(fā)現(xiàn),EGFR基因主要參與NSCLC早期的細(xì)胞增殖凋亡的多個(gè)環(huán)節(jié)[6]。馬玲等發(fā)現(xiàn),EGFR 基因在晚期非小細(xì)胞肺癌患者體內(nèi)突變率較高,并且以第19外顯子缺失突變?yōu)橹鱗7]。蔡忠等在2018年發(fā)現(xiàn),EGFR基因在包括肺癌在內(nèi)的多種實(shí)體瘤中均為高表達(dá)基因,與NSCLC的A549細(xì)胞結(jié)合能力很強(qiáng),是抗腫瘤研究的熱點(diǎn)靶標(biāo)之一[8]。活化后的EGFR可激活細(xì)胞內(nèi)相應(yīng)的酪氨酸激酶,通過(guò)信號(hào)分子的傳導(dǎo),觸發(fā)多種二酰亞胺信號(hào)傳導(dǎo)級(jí)聯(lián)反應(yīng),包括絲裂原活化蛋白激酶相關(guān)培養(yǎng)(MAPK)、應(yīng)激活化蛋白激酶(JNK)和絲氨酸/蘇氨酸激酶(AKT)等信號(hào)通路。王珊等在2017年發(fā)現(xiàn),EGFR基因突變與患者年齡、腺癌分化程度、有無(wú)淋巴結(jié)轉(zhuǎn)移及TNM分期無(wú)關(guān)[9]。

        2.2.2 KRAS基因

        聚類分析結(jié)果中,KRAS基因主要與A549 NSCLC有關(guān)。KeL等在2018年發(fā)現(xiàn),KRAS與EGFR基因主要在NSCLC晩期患者中高水平突變表達(dá)[5]。Kordiak J等在2019年發(fā)現(xiàn),肺癌組織中第12密碼子KRAS點(diǎn)突變的瘤內(nèi)異質(zhì)性和不均勻分布多發(fā)生在NSCLC中,EBC-DNA中 KRAS突變狀態(tài)與NSCLC患者腫瘤組織高度一致,提示監(jiān)測(cè)EBC-DNA中KRAS突變作為NSCLC標(biāo)志物的有效性[10]。曹慧等在2016年發(fā)現(xiàn)KRAS基因主要與肺腺癌有關(guān),檢測(cè)到KRAS基因第12及第13位密碼子的6種突變是肺癌患者的主要突變類型,以第12密碼子Gly12Ala的突變?yōu)橹鱗11]。

        2.2.3 P53 基因

        聚類分析結(jié)果中,P53基因主要與NSCLC有關(guān)。Amelio I等在2018年發(fā)現(xiàn),P53基因主要在晚期NSCLC患者體內(nèi)發(fā)生突變[12]。VogiatziF等在2016年發(fā)現(xiàn),P53基因可通過(guò)調(diào)節(jié)內(nèi)質(zhì)網(wǎng)ENTPD5酶將UDP水解成UMP,促進(jìn)蛋白的N-糖基化來(lái)誘導(dǎo)肺癌的進(jìn)展和轉(zhuǎn)移[13]。王文娟等在2016年發(fā)現(xiàn),P53基因在肺癌組織中突變大多為GC-AT和GC-TA的堿基顛換,且突變發(fā)生時(shí),肺癌組織中Egr-1及EMT通路均被激活[14]。

        3 結(jié)論與討論

        將SPSS的聚類結(jié)果與Gene Pattern的聚類結(jié)果比較之后發(fā)現(xiàn),二者關(guān)于疾病的聚類分類數(shù)目基本一致,基因的分類略有不同,但是高共現(xiàn)的疾病基因?qū)Υ笾孪嗤?。如在肺癌基因的研究領(lǐng)域,“熱門基因”有MAPK4、ERK3、CXCR7、EGFR、P53等?!盁衢T疾病”為A549非小細(xì)胞肺癌、小細(xì)胞肺癌、A549肺癌及AAH(肺腺癌前期病變:不典型瘤樣增生)等。為了進(jìn)一步檢驗(yàn)分類結(jié)果的正確性,在COREMINE Medical中再次進(jìn)行檢索,得到的高頻基因與肺癌-基因-頻次表中的基因大致相同。同時(shí)對(duì)高頻詞基因相關(guān)的文獻(xiàn)進(jìn)行回溯,總結(jié)基因與具體哪種肺癌存在何種關(guān)系,以驗(yàn)證和豐富聚類分析的結(jié)果。

        總之,研究人員更注重對(duì)非小細(xì)胞肺癌(NSCLC)的研究。雖然不同研究涉及的基因、蛋白(基因表達(dá)的結(jié)果也可作為基因研究的參考)不同,但是大多都聚焦到基因是在哪個(gè)位置發(fā)生了何種變異導(dǎo)致疾病的發(fā)生,通過(guò)哪個(gè)通道發(fā)生了一系列生理生化反應(yīng)促進(jìn)或者抑制了肺癌的發(fā)生。如EGFR基因主要與NSCLC有關(guān),與聚類分析結(jié)果一致,且突變主要是第19外顯子缺失突變;KRAS基因主要與A549 NSCLC有關(guān),與聚類分析結(jié)果一致,且基因突變以第12密碼子Gly12Ala突變?yōu)橹?;P53基因主要在晚期NSCLC患者體內(nèi)發(fā)生突變,與聚類分析結(jié)果一致,且突變大多為GC-AT和GC-TA的堿基顛換。

        4 結(jié)語(yǔ)

        本文通過(guò)對(duì)肺癌、基因進(jìn)行命名實(shí)體識(shí)別、實(shí)體數(shù)據(jù)的標(biāo)準(zhǔn)化處理、肺癌-基因矩陣構(gòu)建、肺癌-基因矩陣的聚類分析、結(jié)果驗(yàn)證等環(huán)節(jié),深入研究了與不同類型肺癌存在關(guān)聯(lián)的基因及其在肺癌不同階段的具體關(guān)聯(lián),可為相關(guān)學(xué)者的研究提供參考。本研究雖然驗(yàn)證了本研究與以往文獻(xiàn)結(jié)果的“一致性”,但并未揭示肺癌與基因之間的新發(fā)現(xiàn),這是下一步研究要解決的主要問(wèn)題。

        猜你喜歡
        肺癌研究
        中醫(yī)防治肺癌術(shù)后并發(fā)癥
        對(duì)比增強(qiáng)磁敏感加權(quán)成像對(duì)肺癌腦轉(zhuǎn)移瘤檢出的研究
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國(guó)內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        新版C-NCAP側(cè)面碰撞假人損傷研究
        PFTK1在人非小細(xì)胞肺癌中的表達(dá)及臨床意義
        microRNA-205在人非小細(xì)胞肺癌中的表達(dá)及臨床意義
        免费a级毛片在线播放| 麻豆AV免费网站| 911国产在线观看精品| 亚洲精品国产二区在线观看| 亚洲视频免费一区二区| 国产边摸边吃奶叫床视频| 亚洲乱码av乱码国产精品| 国产69精品久久久久app下载| 中文字幕久无码免费久久| 无码h黄动漫在线播放网站| 不卡国产视频| 开心五月激动心情五月| 精品厕所偷拍一区二区视频| 无码国产精品久久一区免费 | 人妻中出精品久久久一区二| 天堂岛国精品在线观看一区二区| 国产精品夜色视频久久| 日本一区二区三区人妻| 帅小伙自慰videogay男男| 黑人上司粗大拔不出来电影| 熟妇人妻AV中文字幕老熟妇 | AV无码人妻一区二区三区牛牛| 国产三级在线观看高清| 美女脱了内裤露出奶头的视频| 成人无码av一区二区| 国产性猛交╳xxx乱大交| 亚洲AV秘 无码一区二区三区臀| 亚洲国产精品一区亚洲国产| 99e99精选视频在线观看| 久久www免费人成人片| 久久免费看少妇高潮v片特黄| 久久精品国产亚洲AV无码不| 午夜视频手机在线免费观看| 极品老师腿张开粉嫩小泬| 无遮挡边吃摸边吃奶边做| 国产伦精品一区二区三区四区| 亚洲国产综合精品一区最新| 国产一区二区三区四区三区| 欧美日韩不卡视频合集| 中文字幕日本女优在线观看| 国产av精品麻豆网址|