亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于TCGA數(shù)據(jù)挖掘篩選肺鱗癌預后相關lncRNA分子標簽

        2018-12-07 03:16:18何楊婷肖金榮王喚卓李旸凱
        癌變·畸變·突變 2018年6期
        關鍵詞:數(shù)據(jù)庫模型

        劉 穎,王 可,何楊婷,肖金榮,王喚卓,李旸凱,魏 晟,*

        (1.華中科技大學同濟醫(yī)學院公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系環(huán)境與健康教育部重點實驗室,湖北 武漢 430030;2. 華 中科技大學同濟醫(yī)學院附屬同濟醫(yī)院胸外科,湖北 武漢 430030)

        肺癌是全世界發(fā)病率和死亡率最高的惡性腫瘤之一,且發(fā)病人數(shù)逐年上升[1-2]。作為肺癌的主要類型,非小細胞肺癌(non-small cell lung cancer,NSCLC) 占肺癌病例的85%~90%,肺鱗狀細胞癌(肺鱗癌)是NSCLC的主要類型[3]。全球每年約40萬人死于肺鱗癌。由于肺鱗癌易轉移和缺乏用于診斷和預后的生物標志物,肺鱗癌患者5年生存率不足15%[4]。改善肺癌患者的預后情況是提高肺癌病人生存率的關鍵因素[5-6]。因此,尋找與肺鱗癌預后相關的生物標志物,通過生物標志物對肺鱗癌患者的預后情況進行早期評估,對提高肺鱗癌病人的預后及生存率非常重要。

        長鏈非編碼RNA(long non-coding RNA,lncRNA)是近年來才認識到的一種具有重要調控功能的分子標志物,其長度大于200 nt且不具備編碼功能。當前l(fā)ncRNA的功能仍在研究之中,但初步的研究結果發(fā)現(xiàn)其可通過促癌或抑癌作用,影響多種腫瘤細胞的增殖擴散或凋亡過程[7-9]。分子標簽(signature)是指將一定數(shù)量的分子標記物進行組合,形成一個新的變量,并用此變量來判斷或定義某些生物學特性。與單個標記物的分子模式不同,分子標簽不單以單基因功能為研究基礎,而且更加注重基因之間的共同協(xié)調作用,從整體和系統(tǒng)水平上對某種特定的生物學特性進行描述[10]。腫瘤基因組圖譜數(shù)據(jù)庫(the Cancer Genome Atlas,TCGA)數(shù)據(jù)庫作為目前全球范圍內最大的腫瘤公共數(shù)據(jù)庫,對常見腫瘤提供了多種組學數(shù)據(jù),是當前研究腫瘤組學數(shù)據(jù)的重要來源[11]。本研究通過對TCGA數(shù)據(jù)庫中肺鱗癌轉錄組測序數(shù)據(jù)的挖掘,評估lncRNA表達水平對肺鱗癌病人進行預后預測的價值。

        1 資料與方法

        1.1 研究對象

        2017年12月從TCGA網(wǎng)站(https://cancergenome.nih.gov/)下載肺鱗癌病人癌和癌旁組織的RNA測序數(shù)據(jù)及臨床數(shù)據(jù)。RNA測序數(shù)據(jù)由肺鱗癌組織樣本通過Illumina高通量測序平臺進行測序得到。下載的RNA測序數(shù)據(jù)包含肺鱗癌病人496例癌組織的lncRNA表達數(shù)據(jù)以及48例癌旁組織的14 165個lncRNA表達數(shù)據(jù)。肺鱗癌患者的臨床數(shù)據(jù)包括466例肺鱗癌的相關臨床信息,如性別、年齡、種族、病理分期、吸煙狀態(tài)、放療、化療情況及存活狀態(tài)等。

        1.2 研究方法

        1.2.1 數(shù)據(jù)預處理 去除在肺鱗癌病人中生存時間顯示為0的患者以及表達值缺失超過5% 的lncRNA。最終有48例肺鱗癌病人癌組織和癌旁組織的3 921個lncRNA位點用于差異表達分析;用于預后分析的數(shù)據(jù)集包括443例肺鱗癌病人的lncRNA表達數(shù)據(jù)和臨床數(shù)據(jù)。

        1.2.2 差異表達分析和熱圖繪制 對48例肺鱗癌病人癌組織和癌旁組織的3 921個lncRNA進行配對t檢驗,根據(jù)t檢驗對應的P值,采用BH法(Benjamini and Hochberg,1995)計算每個lncRNA的錯誤發(fā)現(xiàn)率(false discorvery rate,F(xiàn)DR)值[12]。同時計算癌和癌旁組織中l(wèi)ncRNA表達水平的倍數(shù)變化(fold change)。本次研究確定lncRNA差異表達的標準為FDR<0.05且倍數(shù)變化絕對值≥3[13]。其中,倍數(shù)變化≥3為lncRNA在肺鱗癌組織中表達水平上調,倍數(shù)變化≤1/3為lncRNA在肺鱗癌組織中表達水平下調。對篩選出的差異表達的lncRNA進行非監(jiān)督聚類分析,并繪制熱圖(heatmap)。

        1.2.3 lncRNA標志物篩選 采用LASSO(Least Absolute Shrinkage and Selector Operation)Cox回歸進行肺鱗癌預后相關lncRNA篩選。并通過LASSO Cox的系數(shù)構建lncRNA分子標簽。lncRNA分子標簽=β1×EXPlncRNA1+β2×EXPlncRNA2+...+βn× EXPlncRNAn。 (EXP:lncRNA的表達水平,β:回歸相關系數(shù))。代入相關數(shù)據(jù)后,計算分子標簽得分。分別通過lncRNA分子標簽得分的中位數(shù)將肺鱗癌病人劃分為高表達組和低表達組;lncRNA分子標簽得分的四分位數(shù)將肺鱗癌病人劃分為4組。計算不同風險組病人發(fā)生死亡的風險比(hazard ratio,HR)及95%置信區(qū)間(confidence interval,CI)。

        1.2.4 構建預測模型 在lncRNA分子標簽的基礎上加入相關臨床變量,如年齡、性別、種族、吸煙情況、放療情況、化療情況和臨床病理分期,構建關于肺鱗癌預后的預測模型,并用Harrell’s C統(tǒng)計量對預測模型的預測效果進行評估,C統(tǒng)計量的范圍在0.50~0.70時說明預測模型的準確性一般,當C統(tǒng)計量大于0.70時說明預測模型的準確性較優(yōu)[14-15]。

        1.3 統(tǒng)計學分析

        應用SAS 9.4軟件對數(shù)據(jù)進行統(tǒng)計分析。運用R 3.3.0軟件和GraPad- Prism 5軟件進行相關圖形制作。連續(xù)性資料表示為x±s。運用t檢驗的方法比較兩樣本之間均數(shù)的差異情況。計數(shù)資料之間的差異性分析釆用χ2檢驗或確切概率計算法。

        2 結 果

        2.1 納入對象基本情況

        符合條件的肺鱗癌患者443人,其中男性患者死亡220人(73.33%),未死亡108人(75.52%);女性患者死亡80人(26.67%),未死亡35人(24.48%);肺鱗癌死亡患者平均年齡(66.9±8.5)歲,未死亡患者平均年齡(68.9±7.8)歲。種族、吸煙、放療、化療、生存時間等情況見表1。

        表1 從TCGA數(shù)據(jù)庫中納入分析的肺鱗狀細胞癌患者的基本特征(n=443)

        2.2 癌組織和癌旁組織中差異表達的lncRNA

        對48例肺鱗癌病人癌和癌旁組織的lncRNA位點進行配對t檢驗,經(jīng)分析滿足條件FDR<0.05且倍數(shù)變化絕對值≥3的lncRNA共有322個,所有l(wèi)ncRNA在癌組織中均表達上調。對差異表達的lncRNA進行無監(jiān)督聚類分析,結果以熱圖的形式呈現(xiàn),圖中紅色表示癌組織,藍色表示癌旁組織,見圖1。

        2.3 LASSO Cox回歸篩選與肺鱗癌預后相關的lncRNA

        在322個具有差異的lncRNA位點中,篩選出6個lncRNA進入模型,分別為ENSG00000186615.9(KTN1-AS1)、 ENSG00000204949.7(FAM83A-AS1)、 ENSG000 00232855.5(AF131217.1)、ENSG00000258592.1(RP11-108M12.3)、 ENSG00000259230.1(CTD-2555C10.3)、ENSG00000278514.1(AC068831.16)。lncRNA在TCGA數(shù)據(jù)庫中的基因注釋信息以及經(jīng)LASSO Cox回歸分析得到的回歸系數(shù)和lncRNA在癌和癌旁組織中的倍數(shù)變化及FDR值情況見表2。肺鱗癌和癌旁組織中這些lncRNA表達情況見圖2。6個lncRNA均在癌組織中出現(xiàn)表達上調,差異有統(tǒng)計學意義(FDR<0.01)。

        對LASSO Cox回歸篩選出的6個lncRNA及其系數(shù)構建lncRNA分子標簽,分子標簽值計算公式為:

        (EXP:基因表達水平)

        表2 從TCGA數(shù)據(jù)庫中篩選出6個lncRNA的注釋信息及其在癌組織和癌旁組織中的表達情況比較

        2.4 lncRNA分子標簽與肺鱗癌預后的關系

        圖2 LASSO Cox回歸篩選出6個lncRNA在肺鱗癌癌旁組織和癌組織中的表達水平

        表3 lncRNA分子標簽與肺鱗癌預后之間的關系

        采用Cox回歸分析方法,建立2個基于lncRNA分子標簽的肺鱗癌預后預測模型。模型1未調整變量,模型2調整年齡、性別、種族、吸煙狀態(tài)、化療情況、放療情況和病理分期變量。結果見表3。調整相應臨床變量后,高表達組肺鱗癌病人的死亡風險是低表達組病人的2.14倍,且差異具有統(tǒng)計學意義(HR=2.14,95%CI: 1.50~3.04,P<0.01)。當根據(jù)分子標簽表達水平的四等分點-0.15、-0.09、-0.04將肺鱗癌患者劃分為4組時,分子標簽值位于下四分位數(shù)和中位數(shù)之間時,HR為1.62(95%CI:0.93~2.83,P=0.09);分子標簽值位于中位數(shù)與上四分位數(shù)之間時,HR為2.22(95%CI:1.33~3.70,P<0.01);分子標簽值大于上四分位 數(shù) 時 , HR為 3.30(95%CI: 1.98~5.50, P<0.01);lncRNA分子標簽的Kaplan Meier生存曲線如圖3所示,調整變量后隨著分子標簽水平的升高,肺鱗癌病人發(fā)生死亡的風險逐漸增加(P<0.01)。

        2.5 lncRNA分子標簽的預測模型對肺鱗癌病人預后的預測價值

        Cox生存分析結果顯示,單獨使用lncRNA分子標簽進行肺鱗癌病人預后狀況預測時,C統(tǒng)計量的結果為0.63(95%CI:0.58~0.69)。當加入臨床變量年齡、性別、種族、吸煙、放療、化療、病理分期后,其預測模型的C統(tǒng)計量為0.69(95%CI:0.64~0.75)。兩者相比,差異具有統(tǒng)計學意義(P=0.015)。通過模型效果評價標準可以看出,當在lncRNA分子標簽的基礎上加入臨床變量構建預后預測模型時,其預測效果進一步優(yōu)化,表明包含lncRNA分子標簽和臨床變量的預測模型可以對肺鱗癌病人的預后狀況進行有效預測。

        圖3 lncRNA分子標簽表達水平不同的肺鱗癌病人的生存曲線比較

        3 討 論

        本研究采用TCGA數(shù)據(jù)庫中l(wèi)ncRNA表達數(shù)據(jù)探討與肺鱗癌預后相關的lncRNA標志物。經(jīng)過差異表達分析及LASSO Cox回歸發(fā)現(xiàn)6個與肺鱗癌預后相關的lncRNA位點并組成lncRNA分子標簽,進一步進行臨床指標的相關分析。結果顯示,隨著分子標簽水平的升高,肺鱗癌病人發(fā)生死亡的風險逐漸增加。當根據(jù)lncRNA分子標簽的中位數(shù)將人群分為高表達組和低表達組時,高表達組病人的死亡風險是低表達組肺鱗癌病人2.14倍。當調整了性別、年齡、吸煙狀態(tài)、種族、病理分期、化療情況、放療情況構建預后預測模型后,其C統(tǒng)計量的結果增加至0.69。由以上結果可見,基于lncRNA分子標簽的預測模型具有較為良好的效能,可以對肺鱗癌病人的預后狀況進行有效預測。

        本研究發(fā)現(xiàn)的6個lncRNA位點在包括肺鱗癌在內的多種腫瘤發(fā)生發(fā)展中的作用,在以往的研究中已經(jīng)有報道。lncRNA KTN1-AS1的高表達是頭頸部鱗狀細胞癌預后的危險因素,且其參與構建的3-lncRNA 標志物能較好預測患者的生存情況[16]。lncRNA FAM83AAS1可通過促進MAPK信號傳導通路發(fā)揮致癌作用,促使乳腺上皮等細胞癌變,也可通過激活EGFR下游傳導信號促進腫瘤細胞增殖侵襲和EGFR酪氨酸激酶抑制劑耐藥,高表達預示乳腺癌預后不良[17-18]?;赥CGA數(shù)據(jù)庫的研究中,lncRNA RP11-108M12.3在肺鱗癌組是不良預后的保護因素,與本研究結果一致,且其參與構建的5-lncRNA標志物也具有獨立的預后價值[19]。LncRNA CTD-2555C10.3的高表達是肺腺癌的預后危險因素,其參與構建的7維轉錄組分子標簽對肺腺癌預后有較好的指示作用[20]。

        本次研究采用TCGA數(shù)據(jù)庫在全基因組范圍內挖掘肺鱗癌預后相關lncRNA,檢測方法一致,樣本量較大,可信度較高。首先,本研究采用LASSO Cox回歸的方法篩選肺鱗癌預后相關的lncRNA標志物,避免了樣本量遠小于自變量帶來的多重共線性問題和減小了II類錯誤。第二,本研究將單個lncRNA構建分子標簽,進一步構建lncRNA預測方程比單個lncRNA位點具有更好的預后預測效果。

        當然,本研究也存在一定的局限性:第一,本研究構建的預測模型僅考慮了lncRNA的表達,未考慮其他水平的生物標志物對肺鱗癌病人預后的影響,如甲基化、以及DNA序列變異等,因此其應用價值還有待進一步的研究;第二,本研究中預測模型建立在美國肺鱗癌人群,但其在中國肺鱗癌人群中的預測效果如何仍需要進一步驗證。

        綜上所述,經(jīng)TCGA轉錄組測序數(shù)據(jù)庫的挖掘,篩選出lncRNA 分子標簽及其和臨床變量構建的預后預測模型對肺鱗癌預后有較好的預測價值,為肺鱗癌的臨床預后判斷提供了更多可供選擇的生物標志物。

        猜你喜歡
        數(shù)據(jù)庫模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        數(shù)據(jù)庫
        財經(jīng)(2017年15期)2017-07-03 22:40:49
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        3D打印中的模型分割與打包
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        无码片久久久天堂中文字幕| 国产放荡对白视频在线观看| 久久亚洲精品无码va白人极品| 日本VA欧美VA精品发布| 国产熟女自拍视频网站| 亚洲中文字幕精品久久吃奶| 亚洲熟妇久久精品| 亚洲中文无码av在线| bbbbbxxxxx欧美性| 麻豆精品一区二区三区| 亚洲精品动漫免费二区| 无码熟熟妇丰满人妻啪啪| 级毛片无码av| 亚洲国产精品悠悠久久琪琪| 国产成人亚洲综合无码品善网| 久久成人麻豆午夜电影| 亚洲粉嫩av一区二区黑人| 国产91成人精品高潮综合久久| 色欲aⅴ亚洲情无码av| 极品熟妇大蝴蝶20p| 国产av91在线播放| 日本系列中文字幕99| 真人做爰片免费观看播放| 久久99精品免费一区二区| 中国av一区二区三区四区| 日本三级吃奶头添泬| 国产乱人伦av在线a| 亚洲中文字幕精品久久久久久直播| 亚洲精品一区二区在线免费观看| 未满十八勿入av网免费| 97色在线视频| 国产av午夜精品一区二区入口| 99国产精品久久久久久久成人热| 国产成人亚洲日韩欧美| caoporon国产超碰公开| 久久亚洲中文字幕乱码| 久久香蕉国产线熟妇人妻| 97中文字幕在线观看| 日本成人中文字幕亚洲一区| 久久精品国产清自在天天线| 全免费a级毛片免费看视频 |