李方舟,郗雪艷,杜伯雨,2,戴文敬△
(湖北醫(yī)藥學(xué)院:1.生物醫(yī)藥研究院;2.基礎(chǔ)醫(yī)學(xué)院,湖北 十堰 442000)
阿爾茨海默病(AD)是一種由阿諾斯·阿爾茨海默(Alois Alzheimer)發(fā)現(xiàn)、埃米爾·克雷佩林(Emil Kraepelin)命名的常見并伴隨緩慢進(jìn)展的神經(jīng)性退行癡呆[1-2]。AD主要以淀粉樣β肽沉聚在大腦最容易受影響的部位,例如大腦內(nèi)側(cè)顳葉、皮層而形成的神經(jīng)斑塊和神經(jīng)纖維纏結(jié)為特征[3]。AD是一個(gè)全球性的健康難題,影響著全世界范圍內(nèi)近5 000萬人口的健康,是造成人類癡呆的主要原因。根據(jù)預(yù)測,AD的患病人數(shù)將會(huì)在10年之后翻倍,并在2050年達(dá)到近1.5億[4-5]。因此,AD的診斷與治療方法的開發(fā)應(yīng)用變得尤為重要。
AD的病理特征主要分為兩大類:(1)通過積聚而造成的正向損傷,如神經(jīng)纖維纏結(jié)、淀粉樣斑塊和其他在AD患者腦內(nèi)發(fā)現(xiàn)的沉積物;(2)由于萎縮而造成的負(fù)向損傷,如神經(jīng)細(xì)胞、軸突、樹突、海馬體等大面積萎縮[6-8]。
到目前為止,關(guān)于AD的發(fā)病進(jìn)展及發(fā)病機(jī)制提出了一些假設(shè),但具體病因和疾病進(jìn)展機(jī)制還有待證明。關(guān)于AD的病因提出了2條主要的假說,膽堿成因假說和淀粉樣蛋白成因假說。膽堿成因假說認(rèn)為膽堿功能受損是造成AD的關(guān)鍵因素;淀粉樣蛋白成因則認(rèn)為淀粉樣蛋白生成及修飾過程中有異,產(chǎn)生淀粉樣蛋白異構(gòu)體是AD的主要發(fā)病原因[5,9-10]。作為一種多因素疾病,其病程的進(jìn)展與多種風(fēng)險(xiǎn)因素相關(guān),如年齡的增長、遺傳、頭部損傷、血管疾病、細(xì)菌或病毒的感染、重金屬等環(huán)境因素等[5]。其中最為主要的風(fēng)險(xiǎn)因素是年齡,絕大多數(shù)AD患者的年齡均在65歲以上,年輕人(30歲左右)除非是家族遺傳性AD,否則基本不會(huì)患有這種疾病[11]。衰老是遲發(fā)性AD的最大危險(xiǎn)因素,占AD病例的95%以上。但近期確診1例排除已有基因突變和家族性AD的19歲AD患者,表明AD將不再局限于老年人[12]。
截至目前,AD沒有治愈的方法,只有一些改善癥狀的治療手段[13-14]。而最大限度地減輕AD對(duì)患者損害的方法是在AD進(jìn)展為輕度癥狀前給予患者神經(jīng)性保護(hù)的藥物[15]。所以對(duì)潛在AD患者的早期診斷是緩解疾病癥狀極為關(guān)鍵的影響因素。2011年美國國家衰老研究所阿爾茨海默病協(xié)會(huì)提出了新的診斷標(biāo)準(zhǔn),這包括臨床癥狀及生物標(biāo)志物的共同診斷[5]。AD有2類生物標(biāo)志物:(1)可以通過正電子成像術(shù)和腦脊液中檢測到的腦淀粉樣蛋白標(biāo)志物;(2)神經(jīng)元損傷標(biāo)志物,如腦脊液tau蛋白、與代謝相關(guān)的氟脫氧葡萄糖(FDG)及通過核磁成像技術(shù)直接觀測到的大腦萎縮等[16-18]。
過去的生物信息學(xué)分析僅僅分析篩選了AD的差異性表達(dá)基因作為AD的診斷標(biāo)志物,如EGFR、CD44、BCL2L1、HGG4、LPP、CTAGE等[19-20]。為了進(jìn)一步了解AD的發(fā)病原因及發(fā)病機(jī)制,發(fā)掘AD的特征標(biāo)志物,提高診斷效率,本研究綜合WGCNA、差異性分析及Lasso回歸分析,基于GEO數(shù)據(jù)庫中AD患者組及對(duì)照組基因表達(dá)圖譜,用R語言更準(zhǔn)確地篩選AD的關(guān)鍵基因及信號(hào)通路,以達(dá)到初步篩選AD關(guān)鍵基因、開闊疾病的診斷思路、開發(fā)有效治療方法的目的。
1.1數(shù)據(jù)來源及去批次 研究所用數(shù)據(jù)來源于美國國立生物技術(shù)中心的GEO數(shù)據(jù)庫。以“Alzheimer′s disease”“Homosapiens”檢索高通量測序數(shù)據(jù)集。篩選出注釋平臺(tái)分別為GPL570、GPL27556的2個(gè)數(shù)據(jù)集GSE5281和GSE138260。運(yùn)用R語言對(duì)2個(gè)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行ID轉(zhuǎn)換、數(shù)據(jù)合并,并對(duì)GEO 2組數(shù)據(jù)集進(jìn)行去批次運(yùn)算,以去除2組數(shù)據(jù)的批次效應(yīng),增加接下來生物信息學(xué)分析的準(zhǔn)確性。
1.2WGCNA篩選與疾病相關(guān)基因 用R語言進(jìn)行WGCNA分析,排除異常信息及異常樣本,構(gòu)建共表達(dá)網(wǎng)絡(luò),將基因分為不同的模塊。不同基因模塊與表型數(shù)據(jù)關(guān)聯(lián)分析,計(jì)算篩選出與患病相關(guān)性最高的基因模塊。輸出這個(gè)模塊基因的表達(dá)數(shù)據(jù)集以進(jìn)行后續(xù)生物信息學(xué)分析。
1.3基因表達(dá)差異性分析 用R語言對(duì)數(shù)據(jù)按照表型進(jìn)行分組后,進(jìn)行表達(dá)差異性分析,篩選出|logFC|>1.2且P<0.05的差異表達(dá)基因。
1.4Lasso回歸進(jìn)一步篩選關(guān)鍵基 應(yīng)用R語言對(duì)篩選出的差異表達(dá)基因進(jìn)行Lasso回歸篩選與表型相關(guān)基因。
1.5功能富集分析 應(yīng)用R語言對(duì)差異表達(dá)基因進(jìn)行京都基因和基因組數(shù)據(jù)庫(KEGG)和基因本體(GO)富集分析。KEGG富集分析可以用于分析篩選出基因可能的生物學(xué)功能和其涉及的相關(guān)信號(hào)通路;而GO富集分析則可用于分析基因的相關(guān)功能,又可分為生物過程(BP)、分子功能(MF)和細(xì)胞成分(CC)。
2.1GSE5281和GSE138260數(shù)據(jù)合并及對(duì)數(shù)據(jù)進(jìn)行去批次效應(yīng) GSE5281數(shù)據(jù)集包含74例正常和84例AD患者的基因表達(dá)信息;GSE138260數(shù)據(jù)集則包含19例正常和17例AD患者的基因表達(dá)信息。2組數(shù)據(jù)未處理的數(shù)據(jù)點(diǎn)散亂(圖1B),進(jìn)行去批次效應(yīng)后數(shù)據(jù)點(diǎn)相對(duì)集中在一個(gè)范圍內(nèi)(圖1A);減小后續(xù)分析的誤差。
注:A.GEO 歸一化數(shù)據(jù)圖;B.GEO 原始數(shù)據(jù)圖。
2.2WGCNA篩選與疾病相關(guān)的基因集 數(shù)據(jù)集去批次效應(yīng)后,R語言排除異常離群樣本GES5281_GSM119676(圖2A)。通過表達(dá)矩陣與表型數(shù)據(jù)的共同載入,確定軟閾值為8,構(gòu)建表達(dá)網(wǎng)絡(luò)(圖2B)。
注:A.GEO 樣本聚類樹;B.AD與健康的模塊-性狀關(guān)系圖;C.尺度獨(dú)立性和平均連接閾值圖;D.基因模塊聚類樹。
通過WGCNA分析基因共被分為14個(gè)模塊(圖2C);是否患病與14個(gè)基因模塊的相關(guān)性計(jì)算表明brown模塊的704個(gè)基因與AD的相關(guān)性最高,其相關(guān)性系數(shù)為0.53,P值為9e-16(圖2D)。
2.3篩選疾病相關(guān)基因中差異性表達(dá)的基因 以brown模塊中704個(gè)基因的表達(dá)矩陣為對(duì)象,以|logFC|>1.2且P<0.05為閾值篩選表達(dá)差異的基因并作圖。結(jié)果顯示共有39個(gè)表達(dá)差異的基因,其中10個(gè)下調(diào)基因,29個(gè)上調(diào)基因(圖3A、B)。
注:A.火山圖;B.熱圖。
2.4Lasso回歸篩選關(guān)鍵基因與驗(yàn)證 通過Lasso回歸構(gòu)建表型模型,Lasso算法推薦有2個(gè)閾值;lambda.min對(duì)應(yīng)出9個(gè)關(guān)鍵基因,lambda.1se對(duì)應(yīng)出7個(gè)關(guān)鍵基因(圖4A、B)。R語言對(duì)模型進(jìn)行自我預(yù)測,選擇曲線下面積(AUC)值更接近1的lambda.min。篩選出9個(gè)關(guān)鍵基因?yàn)镸ALAT1、NSUN6、SRRM2、ATP5B、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX(表1)。通過受試者操作特征曲線(ROC曲線)驗(yàn)證Lasso回歸篩選的基因,其AUC值均在0.74以上(圖4E、F),證明這9個(gè)基因均可作為潛在AD的生物標(biāo)志物。其中,MALAT1、NSUN6、SRRM2、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX這8個(gè)基因在AD中表達(dá)上調(diào);ATP5B這個(gè)基因在AD中表達(dá)下調(diào)(圖5)。
表1 Lasso篩選的12個(gè)關(guān)鍵基因
注: A.系數(shù)分布圖;B.Lasso 交叉驗(yàn)證曲線;C、D. min,1se ROC 曲線;E.MALAT1、NSUN6、SRRM2、ATP5B、SLC35E1 ROC曲線; F.MKNK2、ZC3H7B、CMBL、JPX 曲線。
圖5 9個(gè)關(guān)鍵基因的表達(dá)箱線圖
2.5KEGG和GO的信號(hào)通路富集分析 對(duì)差異表達(dá)的基因進(jìn)行KEGG富集分析和GO富集分析顯示,KEGG富集分析顯示這39個(gè)基因主要參與礦物質(zhì)元素的吸收、近端小管碳酸氫鹽回收等通路調(diào)控(圖6A);GO富集分析表明,差異表達(dá)基因的主要分子功能與氧化還原驅(qū)動(dòng)的活性跨膜轉(zhuǎn)運(yùn)蛋白、磷脂酰膽堿翻轉(zhuǎn)酶活性等相關(guān)(圖6B)。
注:A.KEGG分析氣泡圖;B.GO分析氣泡圖。
為了更準(zhǔn)確地了解AD的內(nèi)在發(fā)病機(jī)制,挖掘其生物標(biāo)志物,本研究使用現(xiàn)代生物信息學(xué)方法,從GEO數(shù)據(jù)庫2個(gè)數(shù)據(jù)集GSE5281和GSE138260的AD患者與健康對(duì)照組的基因表達(dá)數(shù)據(jù)進(jìn)行R語言綜合分析,篩選AD患病關(guān)鍵基因及對(duì)基因進(jìn)行富集分析。首先R語言數(shù)據(jù)合并后,對(duì)合并數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理;WGCNA分析對(duì)基因表達(dá)數(shù)據(jù)中的基因分為14個(gè)模塊,對(duì)模塊和患病與否進(jìn)行相關(guān)性分析篩選出704個(gè)關(guān)鍵基因。隨后,對(duì)這704個(gè)關(guān)鍵基因進(jìn)行差異性分析進(jìn)一步篩選出上調(diào)29個(gè)、下調(diào)10個(gè),共39個(gè)差異表達(dá)關(guān)鍵基因。本研究構(gòu)建了表型模型,利用Lasso回歸分析最終篩選出MALAT1、NSUN6、SRRM2、ATP5B、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX 9個(gè)關(guān)鍵基因,其可能是潛在的AD生物標(biāo)志物。ATP5B在AD患者中顯著性下調(diào),ATP5B參與多種細(xì)胞功能,包括腺苷基核糖核苷酸結(jié)合活性、血管抑素結(jié)合活性和質(zhì)子轉(zhuǎn)運(yùn)ATP酶活性等,參與脂質(zhì)代謝過程[21-22]。MALAT1、NSUN6、SRRM2、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX 8個(gè)基因在AD患者中表達(dá)上調(diào),其中MALAT1是多種基因的轉(zhuǎn)錄調(diào)節(jié)因子,并參與調(diào)控細(xì)胞周期[23],NSUN6、SRRM2、SLC35E1、MKNK2等基因均與基因的轉(zhuǎn)錄調(diào)控相關(guān)。這些基因參與調(diào)控AD的具體機(jī)制及其在其中起到的作用需要進(jìn)一步的實(shí)驗(yàn)驗(yàn)證。
本研究對(duì)差異性表達(dá)基因的富集分析顯示,這些關(guān)鍵基因與礦物質(zhì)元素的吸收、近端小管碳酸氫鹽回收等通路相關(guān),其分子功能主要涉及氧化還原驅(qū)動(dòng)的活性跨膜轉(zhuǎn)運(yùn)蛋白、磷脂酰膽堿翻轉(zhuǎn)酶活性過程,提示了在AD疾病的進(jìn)展中,微量元素的吸收、氧化還原等代謝反應(yīng)、脂質(zhì)代謝可能起到關(guān)鍵作用。
本研究雖然以GEO數(shù)據(jù)庫中的2個(gè)數(shù)據(jù)集為研究對(duì)象,篩選出了潛在的AD診斷標(biāo)志物,即MALAT1、NSUN6、SRRM2、ATP5B、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX,為AD的診斷、機(jī)制和治療靶點(diǎn)提供了新的思路,但需實(shí)驗(yàn)進(jìn)一步驗(yàn)證。生物信息學(xué)綜合差異基因表達(dá)、WGCNA及Lasso回歸分析的篩選方法可極大地縮短疾病關(guān)鍵基因、生物標(biāo)志物的選擇確認(rèn),有助于揭示疾病的內(nèi)在分子機(jī)制,從而開發(fā)更加精準(zhǔn)的診斷方法與更加有效的治療方式。