王麗萍,唐旭清
(江南大學(xué) 理學(xué)院,中國江蘇 無錫 214122)
急性肺損傷(acute lung injury,ALI)是臨床上常見的健康問題,是各種直接和間接致傷因素引起的肺泡上皮細胞及毛細血管內(nèi)皮細胞損傷,可造成彌漫性肺間質(zhì)及肺泡水腫,導(dǎo)致急性低氧性呼吸功能不全,發(fā)展至嚴重階段(氧合指數(shù)<200)被稱為急性呼吸窘迫綜合征(acute respiratory distress syndrome,ARDS)。在過去的20年里,ARDS的死亡率一直保持在40%左右[1]。目前,臨床上可使用的ALI/ARDS的標(biāo)志物很少[1],因此,獲得肺損傷患者的臨床生物學(xué)信息,發(fā)現(xiàn)新的靶點生物標(biāo)志物,對于有效治療疾病至關(guān)重要。
疾病的進展是一個動態(tài)的過程,Lesterhuis等[2]通過對比復(fù)雜疾病的動態(tài)生物標(biāo)志物和靜態(tài)生物標(biāo)志物,發(fā)現(xiàn)在系統(tǒng)狀態(tài)中存在“臨界點”。Dahlem等[3]研究表明:在某一觸發(fā)因素下,“臨界點”會迅速進入到疾病狀態(tài),所以可將臨界點視為復(fù)雜疾病的早期預(yù)警信號。一般來說,復(fù)雜疾病的進展過程可以分為3個階段:正常狀態(tài)、疾病前狀態(tài)(或臨界狀態(tài))和疾病狀態(tài)。疾病前狀態(tài)是從正常狀態(tài)到疾病狀態(tài)的臨界狀態(tài),在此階段,如果采用適當(dāng)?shù)闹委熑钥梢曰謴?fù)到正常狀態(tài),且可以收集相關(guān)信息以獲取疾病的早期預(yù)警信號[4]。Chen等[4]提出了動態(tài)網(wǎng)絡(luò)生物標(biāo)志物(dynamic network biomarkers,DNB)的概念,發(fā)現(xiàn)在疾病前狀態(tài)基因調(diào)控網(wǎng)絡(luò)的1個子模塊代表疾病的信息行為,并推導(dǎo)出了基于網(wǎng)絡(luò)的3個動態(tài)標(biāo)準。生物標(biāo)志物是生物生理狀態(tài)的指標(biāo),通常用于檢查生物學(xué)或醫(yī)學(xué)中的器官功能或疾病狀態(tài)。大多數(shù)傳統(tǒng)的生物標(biāo)志物[5~6]是根據(jù)疾病狀態(tài)和正常狀態(tài)之間信息的差異表達來識別,其目的是將疾病狀態(tài)與正常狀態(tài)區(qū)分開,而不是預(yù)測疾病狀態(tài)。確定臨界點或疾病前狀態(tài)的生物標(biāo)志物是醫(yī)學(xué)和生物學(xué)中的一個重要挑戰(zhàn),除了可在網(wǎng)絡(luò)層面了解復(fù)雜疾病的分子機制之外,還可以盡早預(yù)防和治療疾病[7]。
前述DNB方法已被多個研究小組應(yīng)用于復(fù)雜疾病和生理過程的分析[8~11]。盡管該方法可以檢測復(fù)雜疾病的臨界狀態(tài),但在同一疾病狀態(tài)下需要多個樣本數(shù)據(jù),這限制了其臨床應(yīng)用。Liu等[12]提出的單樣本動態(tài)網(wǎng)絡(luò)生物標(biāo)志理論只需要1個病例樣本,將其他正常樣本作為參考樣本,更適用于臨床應(yīng)用。此外,Liu等[13]建立了單樣本“l(fā)andscape”動態(tài)網(wǎng)絡(luò)生物標(biāo)志物,其將單個樣本的分子網(wǎng)絡(luò)圖轉(zhuǎn)化為拓撲圖構(gòu)建的模型可用于預(yù)測疾病的早期預(yù)警信號。趙宏倩等[14]對乳腺癌數(shù)據(jù)的所有基因計算局部得分,并通過得分排序選取關(guān)鍵基因,沒有使用聚類或其他啟發(fā)式算法。本文基于小鼠急性肺損傷的高通量表達數(shù)據(jù),采用單樣本動態(tài)網(wǎng)絡(luò)生物標(biāo)志物的方法構(gòu)建復(fù)合指標(biāo),檢測疾病的早期預(yù)警信號,模塊化樣本特異性網(wǎng)絡(luò),最大化DNB得分,找出了疾病的臨界狀態(tài)。
本研究的數(shù)據(jù)來自GEO(Gene Expression Omnibus)數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)。根據(jù)以下3個篩選條件得到數(shù)據(jù)集GSE2565:1)來源于人體組織或動物;2)具有多個時間序列的基因表達譜數(shù)據(jù);3)同一時間節(jié)點既有患病樣本的數(shù)據(jù),也有正常樣本的數(shù)據(jù)作為參考。數(shù)據(jù)來源實驗是將雄性小鼠全身暴露于空氣中或32 mg/m3的光氣中20 min,肺組織在暴露后0.5 h、1 h、4 h、8 h、12 h、24 h、48 h、72 h 收集,以確定光氣暴露后基因表達的變化。每個采樣點有6個病例樣本和6個對照樣本[15]。使用R3.2.5(http://www.R-project.org/)對下載的數(shù)據(jù)進行預(yù)處理(矯正、標(biāo)準化及表達值計算),共得到13 662個基因的表達數(shù)據(jù),利用Limma程序包[16]篩選每個時刻的差異表達基因用于后續(xù)分析。
識別單個樣本的臨界狀態(tài)需要對照樣本組作為參考。通常,正常樣本可用作參考樣本,其表達譜可用作參考數(shù)據(jù)集,將參考樣本和病例樣本在每個時間節(jié)點的基因表達譜數(shù)據(jù)進行比較,可以提取單個樣本的信息。
1.2.1 構(gòu)建樣本特異性網(wǎng)絡(luò)
給定n個參考樣本,參考樣本數(shù)據(jù)中基因x和y之間的皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,記為P)可以計算為:
其中,xi和yi是第i個樣本中基因x和y的表達值,和是所有樣本中基因x和y的平均表達值,Pn(x,y)是n個參考樣本中兩個基因(x,y)之間的相關(guān)性。
將新的單個樣本s添加到參考樣本中后,可以基于總n+1個樣本通過等式(1)重新計算兩個基因之間的相關(guān)性(圖1A),記為Pn+1(x,y)。兩個特定基因(x,y)的單樣本相關(guān)性(記為sP)定義如下:
sP(x,y)是由添加到參考樣本中的新單個樣本引起的,因此它表征了該單個樣本與參考樣本的特定相關(guān)信息。由于P遵循正態(tài)分布,因此等式(2)中的sP同樣遵循具有n個共同樣本的差分正態(tài)分布,通過單樣本網(wǎng)絡(luò)理論[17]可以準確評估sP的統(tǒng)計顯著性。具體地,可以通過等式(3)為每個sP計算“Z”分數(shù),并且可以基于“Z”分數(shù)從標(biāo)準正態(tài)累積分布近似地獲得每個sP的P值[18]。
通過等式(2)計算差異基因中所有基因?qū)χg的相關(guān)性sP,通過等式(3)評估其顯著性,如果它們的sP顯著,則認為在兩個基因之間有邊緣連接。以差異基因為頂點,sP的值作為連接邊的權(quán)重,構(gòu)建單個樣本特異性網(wǎng)絡(luò)(圖1B)。采用k-means聚類算法將網(wǎng)絡(luò)分解為基于sP的多個模塊(圖1C)。
1.2.2 量化臨界狀態(tài)的復(fù)合指標(biāo)
s-DNB組內(nèi)基因的相關(guān)性可以建模為組內(nèi)成員之間成對sP絕對值的均值:
s-DNB組內(nèi)基因和組外其他基因的相關(guān)性可以建模為:
基于網(wǎng)絡(luò)分解的模塊,我們使用等式(7)來評估每一個模塊:
等式(7)就是依據(jù)系統(tǒng)接近臨界狀態(tài)時出現(xiàn)3種現(xiàn)象來構(gòu)造的[4]。根據(jù)等式(7)計算出來的指標(biāo)值是每個時刻每一個模塊的分值,選擇每個時刻得分最高的模塊作為當(dāng)前時刻的候選s-DNB(圖1D),并設(shè)置s-DNB的評分為α。基于DNB理論,所有時刻得分最高的點視為該樣本的臨界狀態(tài),該時刻對應(yīng)的候選s-DNB模塊為整個過程的s-DNB模塊。
圖1 識別單個樣本中候選s-DNB的算法流程圖(A)單個樣本基因相關(guān)性計算;(B)單個樣本特異性網(wǎng)絡(luò)構(gòu)建;(C)聚類;(D)復(fù)合指標(biāo)計算。Fig.1 Algorithm flow chart for identifying candidate s-DNB in a single sample(A)Gene correlation calculation of a single sample;(B)Construction of a single sample-specific network;(C)Clustering;(D)Calculating composite indicators.
在每個采樣點,對當(dāng)前時刻基因做差異分析,設(shè)置參數(shù)P為0.05,log2(FC)(FC:fold change)為0.5。8 個時間點分別獲得了 53、135、721、896、439、475、714、625 個差異表達基因,取其并集共得到2 308個基因,差異基因的火山圖見圖2。通過對差異基因進行1.2中的操作,最終確定急性肺損傷的臨界狀態(tài)在8 h,由于個體差異,不同樣本的s-DNB不完全相同,根據(jù)試驗的經(jīng)驗值,設(shè)置s-DNB的評分為α=4.0,分別得到6個病例樣本的s-DNB模塊。生物實驗(GSE2565)發(fā)現(xiàn),最突出的生理影響發(fā)生在接觸后8 h內(nèi),肺水腫增加,最終存活率下降。在因氯化碳吸入引起急性肺損傷的小鼠中,12 h后觀察到50%~60%的死亡率,24 h后觀察到60%~70%的死亡率[15]。具體地,圖3顯示了復(fù)合指標(biāo)F的變化情況,6個病例樣本在臨界狀態(tài)的得分分別為6.333 3、5.853 7、5.294 6、5.739 5、4.592 8、4.979 8。從圖 3 可以看到,第 4個時間點(8 h)的值最大,且超過給定閾值4.0,表明基于s-DNB的預(yù)測與實際疾病發(fā)展一致。
圖2 差異基因的火山圖P<0.05,log2(FC)>0.5,紅色表示上調(diào)基因,藍色表示下調(diào)基因。Fig.2 Volcano map of differential genesP<0.05,log2(FC)>0.5,red means up-regulated genes,and blue means down-regulated genes.
圖3 復(fù)合指標(biāo)變化曲線橫坐標(biāo)表示肺組織暴露時間,縱坐標(biāo)表示復(fù)合指標(biāo),6條折線代表6個病例樣本復(fù)合指標(biāo)的變化情況。Fig.3 The changing curves of composite indicatorThe abscissa represents the lung tissue exposure time,the ordinate represents the composite index,and the six broken lines represent the changes in the composite indexes of six case samples.
s-DNB是代表疾病從正常狀態(tài)過渡到疾病狀態(tài)的重要網(wǎng)絡(luò),因此它們與發(fā)病機理中涉及的基因相關(guān)聯(lián)。本研究采用生物信息學(xué)數(shù)據(jù)庫DAVID(https://david.abcc.ncifcrf.gov/)[19]中的 GO注釋和KEGG通路分析來研究s-DNB的生物功能行為。由于s-DNB模塊越大,包含的冗余基因可能越多,所以我們對個數(shù)為130的s-DNB模塊進行了GO分析,發(fā)現(xiàn)所識別的s-DNB基因與炎癥反應(yīng)、細胞趨化性、細胞增殖、調(diào)亡的負調(diào)控、細胞黏附連接、氧化應(yīng)激反應(yīng)等有關(guān),具體見表1。文獻研究表明:細胞凋亡的失調(diào)在急性肺損傷和其他相關(guān)疾病的發(fā)生中起著至關(guān)重要的作用[20~21];急性肺損傷是肺部炎癥反應(yīng)的廣泛表現(xiàn)[22]。KEGG通路分析結(jié)果顯示,s-DNB中的基因與細胞衰老、凋亡、免疫、氧化應(yīng)激反應(yīng)等有關(guān),具體見表2。文獻研究表明:內(nèi)質(zhì)網(wǎng)中的部分蛋白質(zhì)加工有助于肺纖維化的發(fā)生[23];p53通路基因在癌癥易感性位點中顯著富集,腫瘤易感基因通常在癌癥中發(fā)生突變[24]。
表1 GO功能分析Table 1 GO function analysis
表2 KEGG通路分析Table 2 KEGG pathway analysis
為了分析s-DNB的動力學(xué)分子機制,我們進一步構(gòu)建了s-DNB模塊的蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)圖(圖 4)。PPI網(wǎng)絡(luò)從系統(tǒng)的角度論述了疾病的分子機制,網(wǎng)絡(luò)中包含104個s-DNB基因節(jié)點和300條相互作用關(guān)系。使用CytoHubba插件中的MCC(maximal clique centrality)算法計算網(wǎng)絡(luò)中每個節(jié)點的最大團中心性,篩選出最大團中心度排名前10 的關(guān)鍵基因:HSPA5(heat shock protein 5)、HSPA9(heat shock protein 9)、HSPA1A(heat shock protein 1A)、HSPA1B(heat shock protein 1B)、HSPB1(heat shock protein 1)、HSPB8(heat shock protein 8)、HSPH1(heat shock 105 kDa/110 kDa protein 1)、HSP90AA1[heat shock protein 90,alpha(cytosolic),class A member 1]、HSP90AB1[heat shock protein 90 alpha(cytosolic),class B member 1]、DNAJB1[DnaJ(Hsp40)homolog,subfamily B,member 1],這10個關(guān)鍵基因的熱圖展示見圖5,可以看到所選基因在病例樣本中的表達值均高于參考樣本的表達值,說明這些基因在疾病的發(fā)展進程中起著正調(diào)控的作用。
圖4 PPI網(wǎng)絡(luò)圖顏色表示節(jié)點度的變化,顏色越紅,度越大。Fig.4 PPI network diagramThe colors represent the change in the degree of nodes.The redder the color,the greater the degree.
圖5 10個關(guān)鍵基因在所有樣本中的熱圖Fig.5 Heatmap of 10 key genes in all samples
HSP90AA1和HSP90AB1同屬于HSP90家族,在信號轉(zhuǎn)導(dǎo)、蛋白質(zhì)折疊、蛋白質(zhì)降解和形態(tài)演變中具有關(guān)鍵作用[25]。HSPA5、HSPA9、HSPA1A和HSPA1B都是HSP70家族成員。HSPA5參與內(nèi)質(zhì)網(wǎng)中蛋白質(zhì)的折疊和組裝,Shen等[26]發(fā)現(xiàn),HSPA5與ATF6相結(jié)合在響應(yīng)內(nèi)質(zhì)網(wǎng)應(yīng)激時彼此分離,并通過抑制高爾基體定位信號和細胞分裂來保留內(nèi)質(zhì)網(wǎng)中的ATF6,在內(nèi)質(zhì)網(wǎng)應(yīng)激期間HSPA5的解離使ATF6可以轉(zhuǎn)運至高爾基體。HSPA9主要位于線粒體,也存在于內(nèi)質(zhì)網(wǎng)、質(zhì)膜和細胞質(zhì)囊泡中,在細胞增殖、應(yīng)激反應(yīng)和線粒體維持中起作用。HSPA1A和HSPA1B又稱HSP70-1和HSP70-2,研究表明二者的同時消耗可抗癌細胞增殖[27]。Choi等[28]發(fā)現(xiàn)HSPB1可以抵抗細胞壓力,并與癌癥進展和肺纖維化有關(guān);Li等[29]分析了HSPB1基因多態(tài)性與肺癌患者放射性損傷風(fēng)險之間的關(guān)系,發(fā)現(xiàn)HSPB1的RS2868371基因型可能與輻射引起的食道損害有關(guān)。HSPB8在多種癌癥中發(fā)揮作用:通過激活ERK-CREB途徑促進癌細胞的生長,并可能成為胃癌患者的潛在預(yù)后因素[30];通過抑制磷酸肌醇3-激酶(PI3K)/AKT途徑減少肝癌細胞的遷移[31];可以調(diào)節(jié)乳腺癌細胞的增殖和遷移[32]等。Liang等[33]的研究表明,用白介素-1β抗體或HSPH1抑制劑治療可減輕急性肺損傷大鼠的肺損傷;Lenna等[34]發(fā)現(xiàn)DNAJB1與肺動脈高壓的嚴重程度(通過肺動脈壓測量)呈正相關(guān)。這些已有的研究進一步驗證了我們方法的有效性。
與一般生物標(biāo)志物相比,動態(tài)網(wǎng)絡(luò)生物標(biāo)志物更適合于表征系統(tǒng)狀態(tài)的轉(zhuǎn)移。本研究基于差異關(guān)聯(lián)的信息預(yù)測疾病狀態(tài),構(gòu)造用于量化單個樣本的早期預(yù)警信號。我們使用肺組織暴露在光氣和空氣中的小鼠急性肺損傷生物數(shù)據(jù),基于差異基因之間的差分皮爾遜相關(guān)系數(shù)構(gòu)建樣本特異性網(wǎng)絡(luò)并模塊化,根據(jù)系統(tǒng)達到臨界狀態(tài)分子網(wǎng)絡(luò)的3種變化構(gòu)建早期預(yù)警信號,識別出了s-DNB模塊,找到了疾病的臨界點。指標(biāo)變化顯示,在8 h系統(tǒng)達到了臨界狀態(tài),這與原始數(shù)據(jù)[暴露后4~12 h,光氣暴露小鼠的谷胱甘肽S-轉(zhuǎn)移酶(glutathione S-transferase,GST)水平明顯高于空氣暴露小鼠,且小鼠在接觸光氣8 h內(nèi),肺水腫增加,最終存活率下降]相吻合。針對關(guān)鍵基因的功能分析、PPI網(wǎng)絡(luò)分析、熱圖展示以及相關(guān)文獻報道,都進一步驗證了我們方法的有效性。此外,文中用于檢測臨界狀態(tài)的s-DNB評分的閾值是本研究中的經(jīng)驗值,但它對結(jié)果沒有顯著影響。由于個體差異性,同一疾病的每個個體都有不同的DNB,要確定每種疾病所有個體的共同臨界閾值可能需要整個群體的數(shù)據(jù),以系統(tǒng)有效的方式識別s-DNB閾值是我們未來的重要工作。