哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081) 趙 敏 張 薇 孫 琳 王玉鵬 劉美娜
【提 要】 目的 應(yīng)用蛋白質(zhì)組學(xué)技術(shù),基于sigFeature變量篩選方法,獲得小麥不耐受患者血清差異表達(dá)蛋白;利用富集分析獲得差異蛋白生物學(xué)解釋,為小麥不耐受發(fā)病機制的研究提供依據(jù)。方法 收集小麥不耐受患者和對照組血清樣本;應(yīng)用TMT標(biāo)記定量蛋白質(zhì)組學(xué)技術(shù)獲得蛋白表達(dá)數(shù)據(jù)、sigFeature方法篩選差異表達(dá)蛋白;進行差異蛋白GO功能注釋和KEGG富集分析,外部數(shù)據(jù)集進行差異蛋白驗證。結(jié)果 TMT技術(shù)鑒定蛋白849個,sigFeature篩選獲得差異蛋白22個。富集分析結(jié)果:GO富集分析發(fā)現(xiàn)差異蛋白參與血小板脫顆粒、急性期反應(yīng)等生物學(xué)過程;KEGG富集分析發(fā)現(xiàn)差異蛋白參與補體與凝血級聯(lián)通路。外部驗證結(jié)果:ITIH2蛋白的ROC 曲線下面積最大,AUC值為0.8673。結(jié)論 補體系統(tǒng)抑制和脂質(zhì)代謝過程的改變是小麥不耐受發(fā)生的重要環(huán)節(jié);ITIH2蛋白可能是小麥不耐受的關(guān)鍵蛋白;本研究從人體血清蛋白質(zhì)組學(xué)的角度,為探究小麥不耐受的發(fā)生和調(diào)控機制提供依據(jù)。
近年來,食物不耐受流行程度大幅度增加,成為世界范圍內(nèi)的公共衛(wèi)生問題[1];食物不耐受是指由于食物成分的化學(xué)作用,酶/運輸缺陷等引起的變態(tài)反應(yīng)性疾病,發(fā)生率約為15%~20%[2]。小麥不耐受在我國食物不耐受的種類中占有較高的比例[3-4],但發(fā)病機制尚不清楚,尚無從人體血清蛋白質(zhì)組學(xué)方向的研究。作為蛋白質(zhì)組學(xué)的重要分支,血清蛋白質(zhì)組學(xué)可以利用質(zhì)譜技術(shù)分析特定人群血清中的全部蛋白質(zhì),從整體水平上研究蛋白質(zhì)的表達(dá)、結(jié)構(gòu)、功能;結(jié)合統(tǒng)計學(xué)與生物信息學(xué)技術(shù),能夠獲得差異蛋白、篩選生物標(biāo)志物,為疾病發(fā)病機制的探索與研究提供依據(jù)[5]。
本研究從血清蛋白質(zhì)組學(xué)角度入手,利用串聯(lián)質(zhì)譜定量法(tandem mass tag,TMT)對小麥不耐受患者與對照組血清進行蛋白質(zhì)定量分析;利用sigFeature變量篩選方法獲得差異蛋白,GO功能注釋和KEGG富集分析解釋差異蛋白生物學(xué)功能;并用外部數(shù)據(jù)集進行差異蛋白驗證,為小麥不耐受發(fā)病機制研究提供方向和新思路。
收集某醫(yī)院變態(tài)反應(yīng)科就診患者血清,ELISA方法對人體血清中14種食物進行特異性IgG抗體檢測;根據(jù)食物IgG水平將檢測結(jié)果分為四個等級:<50U/ml為陰性,記作0級;50~100U/ml為輕度不耐受,記作+1級;100~200U/ml為中度不耐受,記作+2級;>200U/ml為重度不耐受,記作+3級[6];獲得小麥不耐受患者及對照血清樣本各7例,收集年齡、BMI、日常生活中食物攝入情況、家中是否養(yǎng)動物等基本信息。
TMT是用于標(biāo)記不同蛋白樣品并進行LC-MS/MS定量研究的體外標(biāo)記技術(shù)。流程如下:①制備不同的蛋白樣品;②Trypsin酶切獲得相應(yīng)樣品的多肽;③利用不同的TMT標(biāo)簽標(biāo)記樣品;④等量混合成一個樣品;⑤LC-MS/MS檢測;⑥數(shù)據(jù)庫檢索與定量分析。
sigFeature是一種基于支持向量機-遞歸特征消除(support vector machine-recursive feature elimination,SVM-RFE)的特征選擇算法[7]。SVM通過核函數(shù)將線性不可分?jǐn)?shù)據(jù)映射到高維空間使其線性可分[8],尤其適用于小樣本、高維數(shù)據(jù)分類模型構(gòu)建[9];由于本研究特征數(shù)遠(yuǎn)大于樣本數(shù),因此選用線性核函數(shù)。SVM-RFE是基于SVM最大間隔原理的序列后向選擇算法[10],該算法在迭代過程中剔除分類能力較弱的特征,保留分類能力較強的特征,迭代包括三個步驟:第一,訓(xùn)練SVM模型,獲得每個特征的權(quán)重w;第二,根據(jù)特征排序標(biāo)準(zhǔn)計算每個特征得分;第三,剔除得分最小的特征,保留其余特征進行下一次迭代。待所有特征均被剔除后,根據(jù)特征剔除順序獲得特征重要性排序列表。sigFeature將SVM-RFE與t統(tǒng)計量結(jié)合,利用SVM計算權(quán)重,t統(tǒng)計量計算不同類別之間的差異,將兩者結(jié)果的乘積作為特征排序標(biāo)準(zhǔn),進行逐步特征選擇。該方法能夠更好地消除噪聲和無關(guān)特征,篩選到數(shù)量較少、具有更高分類精度和良好生物學(xué)功能的特征。假設(shè)訓(xùn)練集{(x1,y1),…,(xn,yn),xj∈Rd,yi∈(-1,1)},xi={xi1,…,xid}是d維的輸入向量,y是分類標(biāo)簽,則SVM的分類超平面f(x)可用方程式(1)表示,式中w=(w1,w2,…,wd)為權(quán)重,b為位移項。支持向量機權(quán)重的計算方式如公式(2)所示,αi為拉格朗日乘子。病例組與對照組的分離程度由方程式(3)表示,Δδ越大則兩組間差異越大。n+、n-分別表示病例組和對照組樣本數(shù)。
(1)
(2)
(3)
(4)
(5)
(6)
如果兩組樣本數(shù)均大于1,采用兩獨立樣本t檢驗方法計算某一特征的組間差異,即公式(7)。由于本研究病例組和對照組樣本數(shù)均大于1,因此,通過公式(7)計算特征的重要性排序得分。
(7)
利用R軟件獲得差異蛋白,并進行GO功能注釋和KEGG富集分析:GO功能注釋分析差異蛋白參與的生物過程、分子功能、細(xì)胞組分;KEGG富集分析獲得差異蛋白參與的最主要的代謝和信號轉(zhuǎn)導(dǎo)途徑。
21例血清樣本作為外部驗證數(shù)據(jù)集,小麥不耐受患者7例,對照14例。繪制驗證數(shù)據(jù)集ROC曲線并計算曲線下面積;AUC值作為衡量差異蛋白分類性能的指標(biāo),取值范圍在0.5至1之間,值越大說明模型預(yù)測性能越好。
本研究利用模擬實驗,比較sigFeature方法與隨機森林(RF)、偏最小二乘法(PLS)在不同參數(shù)條件下對小樣本蛋白質(zhì)組學(xué)數(shù)據(jù)的變量篩選效果。模擬實驗參數(shù)設(shè)置如下:總樣本量設(shè)置為N=6,8,10,12,18,24,30,50,80,100,病例組與對照組樣本量相等;總變量數(shù)為1000;差異變量比例為p=3%(30),5%(50),8%(80),10%(100);變量間相關(guān)性設(shè)置為r=0.2,0.4,0.6,0.8。比較三種方法在不同參數(shù)設(shè)置條件下的平衡準(zhǔn)確度,以評價三種方法的變量篩選效果:平衡準(zhǔn)確度=(靈敏度+特異度)/2。
模擬實驗結(jié)果如圖1~4所示。結(jié)果顯示,不同相關(guān)系數(shù)條件下,樣本量較小時,sigFeature方法變量篩選效果最好且較穩(wěn)定,其次為PLS,RF較差且不穩(wěn)定;隨著樣本量的增大,三種方法的平衡準(zhǔn)確度均增大;當(dāng)N=100時,sigFeature與PLS方法的平衡準(zhǔn)確度趨近于1,高于RF。
圖1 p=3%(30)時,三種方法在不同相關(guān)系數(shù)下平衡準(zhǔn)確度比較
圖2 p=5%(50)時,三種方法在不同相關(guān)系數(shù)下平衡準(zhǔn)確度比較
圖3 p=8%(80)時,三種方法在不同相關(guān)系數(shù)下平衡準(zhǔn)確度比較
圖4 p=10%(100)時,三種方法在不同相關(guān)系數(shù)下平衡準(zhǔn)確度比較
病例組與對照組單因素logistic回歸分析結(jié)果見表1,年齡、BMI、水果、蔬菜、瘦肉及肝臟、海鮮、生冷食物、辛辣食物、維生素、是否養(yǎng)動物差異均無統(tǒng)計學(xué)意義(P>0.05),兩組具有可比性,可以進行后續(xù)分析。
表1 小麥不耐受發(fā)生相關(guān)因素logistic回歸分析結(jié)果
LC-MS/MS原始數(shù)據(jù)經(jīng)過MaxQuant搜庫和定量分析鑒定到849種蛋白質(zhì),其中上調(diào)465種,下調(diào)384種。sigFeature變量篩選獲得蛋白重要性排序列表,排序靠前的22種蛋白對小麥不耐受患者和正常樣本的分類效果最好,其中上調(diào)6種,下調(diào)16種,見表2。差異蛋白聚類分析結(jié)果的熱圖見圖5,根據(jù)差異蛋白在不同組間的表達(dá)量可以將樣本分為病例組和對照組,兩組間無交叉。
表2 差異表達(dá)蛋白
GO富集分析結(jié)果見圖6,差異蛋白參與的生物學(xué)過程主要集中在血小板脫顆粒過程、急性期反應(yīng)過程、細(xì)胞蛋白質(zhì)定位的正調(diào)控過程、細(xì)胞趨化性過程、白細(xì)胞凋亡調(diào)控等過程,參與的差異蛋白主要有F8、CLU、GAS6、SAA2、YWHAG、LGALS3、PRG3;細(xì)胞組成中,大部分蛋白位于分泌顆粒腔、細(xì)胞質(zhì)囊泡腔、囊泡腔、血小板α顆粒管腔、血小板α顆粒等結(jié)構(gòu)中,參與的差異蛋白主要有F8、CLU、GAS6、PRG3、CAMP、ITIH2、CLU、ITIH2、LGALS3、SAA2;差異蛋白分子功能主要是酶抑制劑活性、化學(xué)引物活性、受體酪氨酸激酶結(jié)合、蛋白酪氨酸激酶結(jié)合、蛋白激酶調(diào)節(jié)活性等,參與的差異蛋白主要有ITIH2、GAS6、YWHAG、LGALS3、SAA2、CLU、PRG3。KEGG富集分析發(fā)現(xiàn)差異蛋白富集在補體與凝血級聯(lián)通路。
sigFeature方法篩選獲得22個差異蛋白,其中13個在驗證數(shù)據(jù)集中沒有表達(dá),9個在驗證數(shù)據(jù)集中表達(dá),表達(dá)蛋白的AUC分布見表3。驗證數(shù)據(jù)集ITIH2蛋白的AUC值最大,ROC曲線分析結(jié)果見圖7,變量篩選數(shù)據(jù)集AUC為0.8163,曲線下面積95%置信區(qū)間為0.58~1,靈敏度為85.71%,特異度為71.43%;驗證數(shù)據(jù)集AUC為0.8673,曲線下面積95%置信區(qū)間為0.67~1,靈敏度為85.71%,特異度為85.71%。
圖5 差異表達(dá)蛋白聚類熱圖
圖6 差異蛋白GO富集分析結(jié)果
表3 變量篩選與驗證數(shù)據(jù)集差異蛋白AUC分布
圖7 ITIH2蛋白ROC曲線分析
sigFeature是一種將SVM-RFE與t統(tǒng)計量結(jié)合的方法,具有適用于小樣本高維組學(xué)數(shù)據(jù),且能夠篩選到分類精度更高的特征的優(yōu)點,實際研究中主要用于基因表達(dá)數(shù)據(jù)的分類及變量篩選[7],本文將其用于小樣本蛋白組學(xué)數(shù)據(jù)的研究中。模擬實驗表明sigFeature方法在小樣本蛋白質(zhì)組學(xué)數(shù)據(jù)中具有較好的變量篩選效果,因此將其應(yīng)用于小麥不耐受差異蛋白的篩選研究,但該方法計算相對復(fù)雜,運算速度較慢。
小麥中的某些蛋白質(zhì)會使機體產(chǎn)應(yīng)不耐受反應(yīng),引起消化、呼吸、皮膚、神經(jīng)等多個系統(tǒng)的疾病。隨著小麥年產(chǎn)量的增高,小麥不耐受人數(shù)也逐漸增加,因此,研究小麥不耐受致病機制及關(guān)鍵調(diào)控蛋白具有重要意義。目前關(guān)于小麥不耐受的研究較少且多從植物角度入手[11-13],有研究發(fā)現(xiàn)α-淀粉酶抑制劑、ω-5麥醇溶蛋白會引起小麥過敏反應(yīng)及相關(guān)疾??;利用SDS聚丙烯酰胺凝膠電泳技術(shù)分析小麥蛋白成分,發(fā)現(xiàn)麥谷蛋白可能是引起小麥不耐受的蛋白。本研究從人體血清蛋白質(zhì)組學(xué)角度入手,發(fā)現(xiàn)補體與凝血級聯(lián)通路是差異蛋白主要參與的代謝通路,ITIH2蛋白是疾病調(diào)控的關(guān)鍵蛋白。
補體與凝血系統(tǒng)是先天性免疫的重要組成部分,主要由絲氨酸蛋白酶抑制劑及激活劑組成,通路激活后產(chǎn)生級聯(lián)反應(yīng)以抵御病原體入侵,促進傷口愈合,發(fā)揮機體的防御功能[14]。補體系統(tǒng)與凝血系統(tǒng)可通過多條途徑相互作用,例如凝血因子XIIa可以激活補體因子C1r從而啟動補體系統(tǒng),凝血酶可以激活補體系統(tǒng)的C5釋放C5a,C5a對中性粒細(xì)胞具有顯著的趨化活性;相反,當(dāng)抗凝系統(tǒng)被抑制時,補體通過增強血液凝固特性和增強炎癥反應(yīng)來促進血栓形成,進而增強凝血。補體和凝血級聯(lián)通路的差異蛋白為CLU、F8。CLU為簇蛋白,是一種可溶性補體激活調(diào)節(jié)劑,能夠調(diào)節(jié)末端補體級聯(lián)反應(yīng)并抑制C9與C5b-8復(fù)合物結(jié)合,調(diào)節(jié)促炎性細(xì)胞因子的生成,具有抑制補體系統(tǒng)和脂質(zhì)轉(zhuǎn)運的作用[15]。有研究發(fā)現(xiàn)CLU與雞蛋過敏反應(yīng)有關(guān),但其機制需要進一步研究[16]。F8為凝血因子VIII,是血液凝固過程的關(guān)鍵蛋白,F(xiàn)8的缺乏會導(dǎo)致不同程度的出血紊亂[17]。有研究表明F8與免疫反應(yīng)有關(guān)[18],本研究首次發(fā)現(xiàn)F8與小麥不耐受有關(guān)。
ITIH2為間α-胰蛋白酶抑制劑重鏈H2,由絲氨酸蛋白酶抑制劑組成。過去研究發(fā)現(xiàn),α-淀粉酶/胰蛋白酶抑制劑是人類先天免疫反應(yīng)的誘導(dǎo)劑,與小麥過敏反應(yīng)有關(guān),通過TLR4-MD2-CD14途徑激活免疫細(xì)胞上的Toll樣受體4,誘導(dǎo)抗原呈遞細(xì)胞向外周淋巴結(jié)遷移,促進炎性趨化因子和細(xì)胞因子產(chǎn)生炎癥反應(yīng),從而增強人體先天免疫作用[19-20]。本研究發(fā)現(xiàn)ITIH2蛋白在小麥不耐受的調(diào)控中發(fā)揮關(guān)鍵作用,外部驗證中ITIH2蛋白的AUC值最高。
小麥不耐受的調(diào)控是一個復(fù)雜的過程,涉及到許多蛋白質(zhì)共同參與,目前研究多為植物方向,無法闡明食物攝入后機體代謝過程的改變。因此,從人體血清蛋白質(zhì)組學(xué)角度更容易理解疾病發(fā)生、發(fā)展的分子機制。本研究立足于人體血清蛋白質(zhì)組學(xué),發(fā)現(xiàn)補體和凝血系統(tǒng)的改變是小麥不耐受發(fā)生的重要環(huán)節(jié),ITIH2蛋白是小麥不耐受的關(guān)鍵調(diào)控蛋白,為深入研究疾病的致病機制提供依據(jù)。