余慶邦,范明,王曉稼,鄭智國,許沈華,陳占紅,厲力華△
(1.杭州電子科技大學(xué)生命信息與儀器工程學(xué)院,杭州 310018;2.浙江省腫瘤研究所, 杭州 310022)
癌癥由人類基因中的原癌基因決定,而基因通過蛋白質(zhì)進行表達。研究顯示,癌癥早期患者的蛋白質(zhì)水平已經(jīng)表現(xiàn)出一系列和細胞癌變相關(guān)的變化[1]。隨著蛋白質(zhì)組學(xué)和質(zhì)譜技術(shù)的發(fā)展,大部分國內(nèi)外研究者采用公共數(shù)據(jù)集,將蛋白質(zhì)質(zhì)譜分析技術(shù)運用于乳腺癌早期診斷方面[2]。然而,這些研究著重于設(shè)計分析算法的框架,對進一步尋找影響腫瘤特性的生物標(biāo)志物輔助治療方面鮮有嘗試。TNM分期很好地描述了腫瘤的大小和淋巴結(jié)受累情況,而這兩個因素都屬于預(yù)后指標(biāo)證據(jù)分級中的A類證據(jù)[3],對于乳腺癌的治療評估非常重要。本研究運用浙江省腫瘤醫(yī)院提供的乳腺癌臨床SELDI-TOF質(zhì)譜數(shù)據(jù),采用成熟的算法框架,依據(jù)臨床TNM分期,探索腫瘤大小、淋巴結(jié)受累情況在蛋白質(zhì)質(zhì)譜中的表達差異,通過數(shù)據(jù)分析尋找相關(guān)生物標(biāo)志物,為乳腺癌靶向治療提供蛋白質(zhì)水平的參考,對實現(xiàn)乳腺癌個體化治療有促進作用。
本研究所用樣本的臨床TNM分期依據(jù)《AJCC癌癥分期手冊》簡單概括為:T指腫瘤原發(fā)灶的情況,無原發(fā)腫瘤證據(jù)用T0表示,隨著腫瘤體積的增加和鄰近組織受累范圍的增加,依次用T1~T4來表示; N指區(qū)域淋巴結(jié)(regional lymph node)受累情況,無區(qū)域淋巴結(jié)轉(zhuǎn)移用N0表示,隨著淋巴結(jié)受累程度和范圍的增加,依次用N1~N3表示;M指遠處轉(zhuǎn)移情況,無遠處轉(zhuǎn)移者用M0表示,有遠處轉(zhuǎn)移者用M1表示[3]。
浙江省腫瘤醫(yī)院提供2006年8月至2009年7月間住院214例乳腺癌患者的血清蛋白質(zhì)質(zhì)譜樣本,每例樣本約有65536維蛋白特征。各病例樣本均從手術(shù)日起,采用電話和門診復(fù)診等形式進行跟蹤隨訪,隨訪日期截止到患者死亡或滿5年,包括血清蛋白質(zhì)檢測時間、臨床TNM分期、免疫組化信息和病理類型等重要信息。仔細篩查病理信息,本研究選取的病例樣本均為女性,單側(cè)乳腺癌;為防止相關(guān)治療引起生物標(biāo)志物的變化干擾實驗,蛋白質(zhì)質(zhì)譜檢測時間為化療和手術(shù)等治療之前;病理類型選為乳腺癌中常見的浸潤性導(dǎo)管癌。篩選之后,有102例病例供本實驗使用,統(tǒng)計具體TNM分期數(shù)量用以分組對照實驗,見表1。
表1 102例病例中具體的TNM分期對應(yīng)的病例數(shù)量
本研究通過使用特征選擇、機器學(xué)習(xí)和統(tǒng)計分析方法,分析SELDI-TOF蛋白質(zhì)譜數(shù)據(jù),挑選出有價值的蛋白質(zhì)位點。具體實驗流程見圖1。
圖1 實驗流程圖
3.2.1數(shù)據(jù)預(yù)處理 對于SELDI-TOF質(zhì)譜儀獲得的原始質(zhì)譜數(shù)據(jù),除了真實的質(zhì)譜信號還包含大量的噪聲,主要是低頻基線信號、高頻信號以及實驗儀器自身系統(tǒng)誤差。因此,在分析質(zhì)譜數(shù)據(jù)之前對數(shù)據(jù)進行預(yù)處理是十分必要的。本研究采用文獻[4]中所述的預(yù)處理方法,進行譜峰校正,修正m/z值的偏差;重采樣,統(tǒng)一m/z值;基線去除,使樣本基線靠近水平線;標(biāo)準(zhǔn)化,規(guī)范每個蛋白位點的強度值便于計算分析;譜線平滑,過濾高頻噪聲。
3.2.2蛋白質(zhì)特征選擇 第一步,經(jīng)過數(shù)據(jù)預(yù)處理后,依據(jù)腫瘤大小以及淋巴結(jié)受累情況對樣本分組,運用t-test對每組質(zhì)譜數(shù)據(jù)根據(jù)t值進行排序,選擇3 000個排名靠前的特征位點,初步減小特征維數(shù),降低了后續(xù)步驟計算復(fù)雜度以便特征挑選。
第二步,經(jīng)過初篩之后仍然存在高維度的特征,運用近鄰傳播聚類算法(affinity propagation clustering,AP)[5]進一步提取特征。AP算法首先將數(shù)據(jù)集的所有特征位點都視為候選的聚類中心,并計算各個位點間的負歐幾里得距離s(i,k)如下式:
s(i,k)=-‖xi-xk‖2
(1)
式中,xi和xk表示任意兩個蛋白質(zhì)位點。將負歐幾里得距離組成的矩陣稱為每個特征位點間的相似度矩陣SN×N。假設(shè)每個特征為點成為類代表點的可能性相同,并設(shè)置聚類偏向函數(shù)P值為通用的相似矩陣中位值。該算法迭代過程中,不斷更新可信度r(i,k)和可用度a(i,k)這兩個重要參數(shù),從而得到對應(yīng)的聚類中心,最后進一步分配相關(guān)位點獲得聚類結(jié)果。
第三步,數(shù)據(jù)經(jīng)過聚類之后,特征維數(shù)仍然遠大于樣本數(shù),再通過零空間LDA算法提取有效特征。經(jīng)典LDA(linear discriminant analysis,LDA)算法在“小樣本”的情況下,其類內(nèi)散布矩陣奇異,將導(dǎo)致算法失效。而零空間LDA算法有效克服了上述缺陷,去除了類內(nèi)散布矩陣和類間散布矩陣中的零空間部分,獲得最優(yōu)投影方向系數(shù)。總體散布矩陣ST以及最優(yōu)投影方向Wopt公式如下:
(2)
(3)
第四步,通過上述兩個步驟的處理,數(shù)據(jù)集不僅在維度上有了很大的降低,而且數(shù)據(jù)特征間的相關(guān)性也進一步減小,但是并不是剩下的特征對分類器來說都具有判別意義。支持向量機遞歸特征去除算法(support vector machine recursive feature elimination, SVM-RFE)結(jié)合SVM分類器,對特征進行選擇。使用SVM分類器訓(xùn)練剩余的特征位點,得到訓(xùn)練后的SVM參數(shù);通過特征權(quán)重計算排序,剔除排列靠后權(quán)重低的特征。其中,排序準(zhǔn)則如下式:
RC=W2-W-(-P)2
(4)
式中,W2和W-(-P)2分別表示完整SVM的權(quán)重和假設(shè)剔除第P個特征后SVM的權(quán)重。
第五步,為結(jié)合SVM分類模型,在特征選擇的過程中使用留一法交叉驗證,每組數(shù)據(jù)不斷循環(huán)迭代,集合每次排名前五的特征位點,剔除相同特征,最后每組統(tǒng)一選擇35個特征的特征子集用于SVM分類,獲得分類結(jié)果并統(tǒng)計分析。
根據(jù)TNM分期統(tǒng)計的樣本,分兩個部分分組實驗。
(1) 選擇不同腫瘤大小,相同區(qū)域淋巴結(jié)受累情況,無遠處轉(zhuǎn)移的樣本進行對照實驗,即TNM分期為T1N0M0(14例)與T2N0M0(22例)組,尋找腫瘤大小差異樣本的相關(guān)生物標(biāo)志物。
(2) 選擇同腫瘤大小,不同區(qū)域淋巴結(jié)受累情況,無遠處轉(zhuǎn)移的三個分組進行對照實驗,即TNM分期為T2N0M0(22例)與T2N3M0(17例)組、T2N1M0(26例)與T2N3M0(17例)組和T2N0M0(22例)與T2N2M0(23例)組。尋找區(qū)域淋巴結(jié)受累情況差異樣本的相關(guān)生物標(biāo)志物。
將每個分組統(tǒng)一挑選出35個排名靠前的生物標(biāo)志物作為一個特征集用于分類測試,通過分類準(zhǔn)確度、敏感性和特異性三個參數(shù)來評價挑選結(jié)果。并對每組挑選出的蛋白位點使用T檢驗,P<0.05具有顯著差異的位點個數(shù)。
表2 具體TNM分期分組分類結(jié)果及P值
如表2所示,四個組均表現(xiàn)出了較好的分類效果,說明腫瘤大小和淋巴結(jié)受累轉(zhuǎn)移情況的差異可以在蛋白質(zhì)質(zhì)譜中體現(xiàn),挑選出的生物標(biāo)志物具有參考價值。雖然由于生物標(biāo)志物在腫瘤患者間并不如患者與健康人間表現(xiàn)得那么敏感易區(qū)分,在數(shù)據(jù)上并不如早期發(fā)現(xiàn)研究中那樣具有高的分類率,但是本文數(shù)據(jù)建立在一定的乳腺癌的樣本之上,所得結(jié)果具有一定價值。
通過t檢驗統(tǒng)計顯示,所挑選的部分生物標(biāo)志物具有統(tǒng)計學(xué)意義。但仍有部分位點存在無統(tǒng)計意義上的顯著差異或生物學(xué)意義,這是因為T檢驗比較的是兩個分組在該位點的均值差異是否顯著。限于篇幅,僅選擇兩個位點,通過樣本均值圖來觀察挑選出的生物標(biāo)志物。圖2(a)是T1N0M0與T2N0M0組中P值為0.018的MZ9323.006點,體現(xiàn)了不同腫瘤大小的分組樣本在生物標(biāo)志物上的差異;圖2(b)是T2N1M0與T2N3M0組中P值為0.020的MZ8710.061點,體現(xiàn)了同腫瘤大小,不同淋巴結(jié)情況的分組樣本在生物標(biāo)志物上的差異。從圖中可以看出,所挑選的生物標(biāo)志物均在波峰或者波谷附近,具有較好的區(qū)分度。
(a)MZ9323.006點
(b)MZ8710.061點
本研究運用浙江省腫瘤醫(yī)院提供的乳腺癌臨床SELDI-TOF質(zhì)譜數(shù)據(jù),依據(jù)臨床TNM分期,采用特征選擇、機器學(xué)習(xí)和統(tǒng)計分析方法,探索影響腫瘤大小、淋巴結(jié)受累情況的差異。實驗結(jié)果發(fā)現(xiàn),腫瘤大小和淋巴結(jié)受累情況的差異在蛋白質(zhì)水平表達,可以通過分組對比質(zhì)譜數(shù)據(jù)分析獲得相關(guān)差異結(jié)果,并挑選出有代表性的特征位點。在實際臨床應(yīng)用中,可通過檢測相關(guān)生物標(biāo)志物在化療等治療過程中的變化,作為評價治療效果的參考,或者監(jiān)測相關(guān)標(biāo)志物進行靶向治療。因此,對比不同病例樣本,挑選出有價值的蛋白質(zhì)位點,對療效評價、個體化治療等都有重要意義。