馬慶波,向 華,劉 偉,王世鑫
(1.重慶醫(yī)科大學(xué)檢驗系,臨床檢驗診斷學(xué)省部共建教育部重點實驗室,重慶 400016;2.天津市東麗區(qū)東麗醫(yī)院,天津 300300)
基于貝葉斯-神經(jīng)網(wǎng)絡(luò)篩選矽肺早期標(biāo)志物及建立診斷模型
馬慶波1,向 華1,劉 偉1,王世鑫2
(1.重慶醫(yī)科大學(xué)檢驗系,臨床檢驗診斷學(xué)省部共建教育部重點實驗室,重慶 400016;2.天津市東麗區(qū)東麗醫(yī)院,天津 300300)
應(yīng)用液體芯片-飛行時間質(zhì)譜技術(shù)檢測了79例早期矽肺組和25例非暴露正常對照組的血清蛋白質(zhì)。以貝葉斯判別法的最小錯誤率為目標(biāo)函數(shù),借助遺傳算法全局優(yōu)化搜索能力,篩選出能代表早期矽肺病人分類特征的最小最優(yōu)差異蛋白質(zhì)譜峰子集。用選定的差異蛋白質(zhì)譜峰子集建立早期矽肺的神經(jīng)網(wǎng)絡(luò)診斷模型,該模型的特異性為96%,敏感性為96.25%,準(zhǔn)確率為96.15%。其中,1 777 u蛋白質(zhì)譜峰經(jīng)過二級質(zhì)譜鑒定其氨基酸序列為補體C3的1個片段C3f(complement C3f),該片段在矽肺暴露人群中異常低,具有潛在的診斷意義。
液體芯片-飛行時間質(zhì)譜(MALDI-TOF-MS);矽肺;貝葉斯;神經(jīng)網(wǎng)絡(luò);標(biāo)志物
矽肺是吸入二氧化硅粉塵顆粒所致的以肺間質(zhì)纖維化為主的全身性疾病。早期健康監(jiān)護是矽肺防治的關(guān)鍵環(huán)節(jié),但目前尚無有效的早期健康監(jiān)護指標(biāo)。液體芯片-飛行時間質(zhì)譜(MALDI-TOF MS)技術(shù)是一種蛋白質(zhì)鑒定技術(shù),基本過程是取患者或健康對照的臨床樣品,如血清、尿液、腦脊髓液等,通過磁珠分離,去除樣品中的高豐度蛋白和其他雜質(zhì),同時富集低豐度目標(biāo)蛋白。向分離得到的樣品中加入基質(zhì)混合后,進行飛行時間質(zhì)譜分析,得到所有蛋白的質(zhì)譜圖,隨后選擇軟件內(nèi)嵌的統(tǒng)計算法進行統(tǒng)計學(xué)分析,獲得矽肺組的差異表達蛋白質(zhì),用于預(yù)測未知樣品的歸屬(患者或無疾病)。最后對篩選出差異表達的多肽/蛋白進行序列鑒定,探討矽肺的發(fā)病機制,探索發(fā)現(xiàn)血清早期診斷(篩檢)的生物標(biāo)志物。對于復(fù)雜的模式識別,軟件內(nèi)嵌的統(tǒng)計算法參數(shù)的調(diào)節(jié)能力有限,不一定能滿足診斷需求。
Bonissone[1]總結(jié)過經(jīng)驗:樣品數(shù)N與特征數(shù)n之比應(yīng)足夠大,通常N是n的5~10倍。本工作基于140個初始蛋白質(zhì)譜峰特征空間構(gòu)建貝葉斯分類器,以最小錯分率為準(zhǔn)則,啟用遺傳算法全局搜索最優(yōu)解對原始特征空間進行篩選,構(gòu)造出一個精簡的特征空間。用篩選后的特征蛋白質(zhì)譜峰建立早期矽肺的神經(jīng)網(wǎng)絡(luò)診斷模型,并對模型的性能做5倍交叉驗證。
選用美國 Invitrogen公司的Dynabeads RPC18磁珠對矽塵暴露人群(79例)和非暴露正常對照組(25例)研究對象的血清蛋白質(zhì)進行分離提取,bruker ultra Flex TOF/TOF采集信號,參數(shù)設(shè)置為:線性陽離子模式,第一離子源25 kV,第二離子源23.45 kV,檢測范圍800~10 000 u。使用flexAnalysis軟件設(shè)置信噪比大于5的蛋白質(zhì)譜峰,顯示每個樣本的總峰數(shù)、信噪比、峰強度和峰面積。將信號分組,矽塵暴露人群(n=79,包括無塵肺0期、無塵肺0+期和I期矽肺)作為受試組,健康人群(n=25)作為對照組,然后導(dǎo)入到分析軟件(bruker Clinprotools 2.2)進行數(shù)據(jù)分析,組間比較采用 T檢驗分析,篩選出140個有統(tǒng)計學(xué)意義的(P<0.05)。
判別分析是判斷樣品應(yīng)歸于哪一個總體,并對待判樣品做出正確的歸類,首先要已知總體及待判樣品的特征變量(差異蛋白質(zhì)譜峰),從而對總體及待判樣品事物的特性進行變量指標(biāo)的描述,進而判別待判樣品的歸屬。由此可知,特征變量是判別分析中的一個重要問題,變量選擇是否恰當(dāng)是判別效果優(yōu)劣的關(guān)鍵。
貝葉斯(Bayes)判別思想是根據(jù)先驗概率求出后驗概率,并依據(jù)后驗概率分布做出統(tǒng)計推斷。將樣本類別記為ωi,則先驗概率為P(ωi),樣本X的類條件概率密度函數(shù)為P(x/ωi)。對于待測樣本,貝葉斯公式可以計算出該樣本屬于各類的概率,叫做后驗概率,根據(jù)后驗概率作為識別樣本的依據(jù)。
以后驗概率為判決函數(shù):fi(x)=P(ωi/x)
對于本研究的二分類問題,i值取1和2,即選擇P(ω1/x)和P(ω2/x)中較大值所對應(yīng)的類作為決策結(jié)果。
按照已知P(ωi)條件下的決策規(guī)則進行決策,固定的特征變量組合(固定的差異蛋白峰組合)會有固定的錯誤分類率,而不能反映把整個特征空間劃分成某種類型空間的總的最小錯誤分類率。
遺傳算法是模擬生物在自然界環(huán)境中遺傳進化過程的一種自適應(yīng)全局優(yōu)化概率搜索算法。本工作將不同差異蛋白質(zhì)譜峰的相對表達值的組合定義為遺傳算法的個體,每個個體是問題的一個解,稱為“染色體”。大量的個體則形成了初始種群,種群中的這些染色體在后續(xù)迭代中不斷進化,稱為遺傳。在每一代中用“適值”來測量染色體的好壞,生成的下一代染色體稱為后代。后代是由前一代染色體通過交叉或者變異運算形成的。在新一代形成過程中,根據(jù)適應(yīng)度的大小選擇部分后代,淘汰部分后代。采用貝葉斯分類器的錯誤識別率為適應(yīng)度函數(shù)尋求不同類型空間的總的最小錯誤分類率,然后不斷淘汰錯誤分類率高的差異蛋白質(zhì)譜峰組合模式,逐漸選擇在分類中表現(xiàn)優(yōu)異的差異蛋白質(zhì)譜峰組合模式。
本研究采用美國 MathWorks公司的MATLAB軟件編程,實現(xiàn)矽肺早期診斷標(biāo)志物的篩選,示于圖 1,調(diào)用了 MathWorks公司的Bayes分類器和英國設(shè)菲爾德大學(xué)開發(fā)的遺傳算法工具箱。差異峰的FDR值選取為0.05,這也就等價于控制fdr不能超過5%。一個較大規(guī)模的遺傳算法初始總?cè)簬砀蠓秶乃阉骺臻g,防止過早的收斂。但是大群體增加了對于Bayes分類器評價的計算量。在本工作中,初始種群選取100,即100組7個不同蛋白峰的組合。以貝葉斯分類器作為遺傳算法的評價函數(shù)對醫(yī)學(xué)模型進行評價時,不僅僅要考慮到識別的正確率,更要關(guān)注特異性和敏感性,所以本工作貝葉斯分類器評價函數(shù)的輸出,1為敏感性、*為特異性。預(yù)期的誤差精度定義為0.01,交叉概率為0.8,變異概率為0.2,最大迭代次數(shù)為100。運用遺傳算法按上述參數(shù)尋求高敏感性和高特異性的7個蛋白峰的組合。遺傳算法循環(huán)100次后,算法達到了最大迭代次數(shù),篩選出7個差異蛋白質(zhì)譜峰,分別是3 317.26、5 081.66、8 671.21、1 777.41、8 761.39、5 130.84、901.47 u。
圖1 特征篩選方法的總體構(gòu)架Fig.1 Flowchart of biomarker selection
建立3層BP神經(jīng)網(wǎng)絡(luò),輸入向量為x=(x1,x2,…,xn);隱層輸出向量為ho=(ho1,ho2,…,hop),輸出層向量為yo=(yo1,yo2,…,yoq),期望輸出向量為d=(d1,d2,…,dq)。
網(wǎng)絡(luò)學(xué)習(xí)的目的是通過調(diào)整網(wǎng)絡(luò)中的連接權(quán)重,使實際輸出與期望輸出的誤差最小。實現(xiàn)模型的具體步驟如下:用初步篩選的差異蛋白質(zhì)譜峰作為神經(jīng)網(wǎng)絡(luò)模型的輸入樣本;取總樣本的3/4為訓(xùn)練樣本集、1/4為盲法測試樣本集,輸入層神經(jīng)元數(shù)為7,輸出層神經(jīng)元數(shù)為1;輸出值分別用0代表健康對照組,1代表矽塵暴露組;隱層層數(shù)及神經(jīng)元數(shù)沒有一個定量的標(biāo)準(zhǔn),可以根據(jù)訓(xùn)練效果調(diào)整這些參數(shù)[2]。本研究使用Matlab軟件在初始權(quán)值和閾值固定的條件下編程,自動形成不同隱層神經(jīng)元數(shù)的組合模式完成訓(xùn)練[3]。其他訓(xùn)練參數(shù)采用默認函數(shù)。
根據(jù)均方根誤差確定最佳隱藏層神經(jīng)元數(shù)。
式中,yt為預(yù)測值,^yt為期望值,n為預(yù)測個數(shù)。神經(jīng)網(wǎng)絡(luò)隱藏層神經(jīng)元數(shù)目為4時,MSE值最小(0.003 86),示于圖2。
圖2 基于不同隱藏神經(jīng)元數(shù)的神經(jīng)網(wǎng)絡(luò)均方根誤差Fig.2 MSEaccording to the different combination of neurons
訓(xùn)練樣本的不同順序會對網(wǎng)絡(luò)訓(xùn)練產(chǎn)生影響,訓(xùn)練出的網(wǎng)絡(luò)隨機性大、泛化能力差,為了驗證診斷模型的泛化能力,可以采用交叉驗證(cross validation)的方法。交叉驗證是驗證分類器性能的一種統(tǒng)計分析方法,基本思想是把樣本分組,一部分作為訓(xùn)練集,另一部分作為測試集。首先用訓(xùn)練集對網(wǎng)絡(luò)進行訓(xùn)練,再用測試集來檢驗訓(xùn)練得到的模型,以此作為評價網(wǎng)絡(luò)的性能指標(biāo)。交叉驗證方法包括hold-out method、K-fold cross validation和leave-one-out cross validation。本工作采用 K-fold cross validation方法進行驗證,該方法將原始數(shù)據(jù)分成5組(一般是均分),每個子集數(shù)據(jù)分別做一次驗證集,其余的5-1組子集數(shù)據(jù)作為訓(xùn)練集,這樣會得到5個模型,用這5個模型最終驗證集的平均分類準(zhǔn)確率作為此5-fold-CV下分類器的性能指標(biāo)。選用同樣的神經(jīng)網(wǎng)絡(luò)模型和參數(shù),共進行5次計算。也就是將原始104例樣本循環(huán)驗證一遍,從而驗證模型的可靠性。5次平均敏感性和特異性分別為96.25%和96%,預(yù)測結(jié)果列于表1。
表1 診斷模型的5倍驗證結(jié)果比較Table 1 Comparison of 5-fold cross validation results
本研究應(yīng)用磁珠分選和MALDI-TOF以及ClinPro Tools軟件得到了矽肺組的差異蛋白質(zhì)表達譜,借助貝葉斯判別法并整合遺傳算法篩選出了 7種差異蛋白特征子集。其中,m/z1 777.56的蛋白質(zhì)譜峰在矽肺暴露人群中異常低表達,示于圖3。進一步的二級質(zhì)譜鑒定其氨基酸序列,結(jié)果為補體C3的一個片段-C3f(complement C3f)[4],示于圖 4。
圖3 各期人群m/z1 777.56血清蛋白差異峰質(zhì)譜圖Fig.3 Averagem/z1 777.56 spectrum profiles obtain from early silicosis patients and controls in range of 0.8—10 ku
已有研究證明,補體是一種重要的內(nèi)源性免疫防御系統(tǒng)調(diào)節(jié)物,補體的C3分解片段(C3a,C3f,iC3b)在心肌梗死、阿爾茨海默病、鼻咽癌、乳腺癌、HCC和系統(tǒng)性硬化癥等疾病中都有異常表達[5-10]。C3f能夠提高血管內(nèi)皮細胞的通透性,其核心分子 HWESAS還具有生長激素樣作用[11]。而且 C3f能夠提高皮膚成纖維細胞TGF-β1的合成和分泌[12]。成纖維細胞是矽肺發(fā)病中的效應(yīng)細胞之一,由此可以推測,C3f在矽肺的發(fā)病過程中可能是通過影響成纖維細胞中的細胞因子 TGF-β表達水平而發(fā)揮其作用的。
由此可見,運用貝葉斯分類器結(jié)合遺傳算法篩選出早期矽肺的代表特征所建立的神經(jīng)網(wǎng)絡(luò)診斷模型具有較高的敏感性和特異性[13],為早期矽塵暴露人群的診斷提供了新的檢測方法[14-15]。在應(yīng)用基質(zhì)輔助激光解析電離飛行時間質(zhì)譜技術(shù)發(fā)現(xiàn)矽肺早期血清標(biāo)志物的研究中,針對高維蛋白質(zhì)質(zhì)譜數(shù)據(jù),運用遺傳算法作為特征空間搜索策略,利用貝葉斯分類器作為特征蛋白峰組合的評價函數(shù),獲得了一種從MALDI質(zhì)譜數(shù)據(jù)篩選差異蛋白的方法。在塵暴露人群和正常對照人群數(shù)據(jù)上進行驗證實驗,以此選擇出的最優(yōu)特征蛋白峰子集,建立矽塵暴露人群神經(jīng)網(wǎng)絡(luò)診斷模型,取得了較好的分類性能。
圖4 m/z1 777 Mascot搜索結(jié)果Fig.4 Mascot result ofm/z1 777
[1]BONISSONE P P,HENRION M,KANAL L N,et al.Uncertainty in artificial intelligence 6[M].Elsevier Science Pub Co,1991.
[2]鄧 偉.BP神經(jīng)網(wǎng)絡(luò)構(gòu)建與優(yōu)化的研究及其在醫(yī)學(xué)統(tǒng)計中的應(yīng)用[D].上海:復(fù)旦大學(xué),2002.
[3]劉耦耕,賀素良.BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)的計算機自動確定[J].計算機工程與應(yīng)用,2004,40(13):72-74.
[4]ROTHER K,TILL G O,H?NSCH G M.The complement system[M].Springer Verlag,1998.
[5]HORTIN G L.The MALDI-TOF mass spectrometric view of the plasma proteome and peptidome[J].Clinical Chemistry,2006,52(7):1 223-1 237.
[6]CHANGJ,CHEN L C,WEI S Y,et al.Increase diagnostic efficacy by combined use of fingerprint markers in mass spectrometry-plasma peptidomes from nasopharyngeal cancer patients for example[J].Clinical biochemistry,2006,39(12):1 144-1 151.
[7]L EE I N,CHEN C H,SHEU J C,et al.Identification of complement C3a as a candidate biomarker in human chronic hepatitis C and HCV-related hepatocellular carcinoma using a proteomics approach[J].Proteomics,2006,6(9):2 865-2 873.
[8]LI J,ORLANDI R,WHITE C N,et al.Independent validation of candidate breast cancer serum biomarkers identified by mass spectrometry[J].Clinical Chemistry,2005,51(12):2 229-2 235.
[9]SELL E H,LAMERZJ,BUERGER K,et al.Identification of novel biomarker candidates by differential peptidomics analysis of cerebrospinal fluid in alzheimers disease[J].Combinatorial Chemistry& High Throughput Screening,2005,8(8):801-806.
[10]MARSHALL J,KUPCHAK P,ZHU W,et al.Processing of serum proteins underlies the mass spectral fingerprinting ofmyocardial infarction[J].Journal of Proteome Research,2003,2(4):361-372.
[11]XIANG Y,MATSUI T,MATSUO K,et al.Comprehensive investigation of disease-specific short peptides in sera from patients with systemic sclerosis:Complement C3f-des-arginine,detected predominantly in systemic sclerosis sera,enhances proliferation of vascular endothelial cells[J].Arthritis Care&Research,2007,56(6):2 018-2 030.
[12]向 陽,加藤智啟.補體片段 C3f,DRC3f對皮膚成纖維細胞合成和分泌轉(zhuǎn)化生長因子-β1的調(diào)節(jié)作用[J].湖北民族學(xué)院學(xué)報:醫(yī)學(xué)版,2007,24(1):10-13.
[13]HU Y,ZHANG S,YU J,et al.SELDI-TOFMS:the proteomics and bioinformatics approaches in the diagnosis of breast cancer[J].The Breast,2005,14(4):250-255.
[14]KIM K J,CHO S B.Prediction of colon cancer using an evolutionary neural network[J].Neurocomputing,2004,61:361-379.
[15]HUANG C J,LIAO W C.Application of probabilistic neural networks to the class prediction of leukemia and embryonal tumor of central nervous system[J].Neural Processing Letters,2004,19(3):211-226.
Serum Biomarkers Selection and Diagnostic Prediction of Early Silicosis Patients Using Bayesian Network and Neural Network
MA Qing-bo1,XIANG Hua1,LIU Wei1,WAN G Shi-xin2
(1.Key L aboratory of Medical Diagnostics of Ministry of Education,Faculty of L aboratory Medicine,Chongqing Medical University,Chongqing400016,China;2.The Dongli Hospital ofTianjin,Tianjin300300,China)
Sera of 79 workers exposed to silica and 25 healthy controls were determined by matrix-assisted laser desorption ionization mass spectrometry(MALDI-TOF MS).Based on the minimum error Bayes decision theory,serum biomarkers of early silicosis patients were selected by making use of the global optimal ability of the genetic algorithm.Mass spectrometric peaks of 22 proteins were selected and used by artificial neural network(ANN)to establish a diagnostic model.A blinded test shows the ratios of correctness,sensitivity and specificity are 96.15%,96.25%and 96%,respectively.Search results of tandem mass spectra against a protein database show that the 1 777 u mass spectrometric peak is identified as C3f,which is a fragment of complement C3.The 1 777 u mass spectrometric peak is significantly decreased in silicosis patients.The results indicate that C3f may be the potential biomarkers for the diagnosis of early stage of silicosis.
book=51,ebook=50
matrix-assisted laser desorption ionization mass spectrometry(MALDI-TOF MS)silicosis;Bayes;artificial neural network;biomarker
R 135.2;TP 183
A
1004-2997(2011)01-0050-05
2010-03-25;
2010-06-17
國家自然科學(xué)基金面上項目(30771788)和天津市衛(wèi)生局科技基金項目(06KG10)資助
馬慶波(1974~),男(回族),陜西人,碩士研究生,從事生物醫(yī)學(xué)信息的計算機處理研究。E-mail:mmqqbb@tom.com
向 華(1963~),男(漢族),重慶人,副教授,檢驗儀器學(xué)專業(yè)。E-mail:xianghuacq@163.com