宋一明,鞠 哲,張萬(wàn)里
(沈陽(yáng)航空航天大學(xué),理學(xué)院,沈陽(yáng) 110136)
作為一種常見(jiàn)而重要的蛋白質(zhì)的翻譯后修飾(Post-Transational Modifications,PTMs),賴氨酸糖化可以潛在地影響多種生物過(guò)程,如構(gòu)象、功效和免疫原性等[1]。糖化是糖分子(如果糖或葡萄糖)與蛋白質(zhì)或脂質(zhì)分子共價(jià)結(jié)合的典型過(guò)程。與糖基化需要酶的控制作用相比,糖化是一種非酶修飾的過(guò)程。首先,不穩(wěn)定的席夫堿(Schiffbase)重新排列,形成更穩(wěn)定的阿馬多里產(chǎn)物(n-substituted 1-amino-1-de‐oxy-ketose),隨后,阿馬多里產(chǎn)物可進(jìn)一步反應(yīng)形成晚期糖化終產(chǎn)物(Advanced Glycation Endproducts,AGEs),該終產(chǎn)物為不可逆交聯(lián)產(chǎn)物[2-3]。賴氨酸糖化可以發(fā)生在細(xì)胞內(nèi)和細(xì)胞外的蛋白質(zhì)中[4-5]。一般來(lái)說(shuō),細(xì)胞內(nèi)的糖化比細(xì)胞外的糖化更為復(fù)雜,因?yàn)榧?xì)胞質(zhì)中的多種潛在來(lái)源也可以反應(yīng)形成AGEs。糖化反應(yīng)的動(dòng)力學(xué)分析指出,穩(wěn)定狀態(tài)下的糖化量與葡萄糖濃度、蛋白質(zhì)半衰期和糖化率成正比[6]。大量研究表明糖化與多種人類疾病的發(fā)生和發(fā)展密切相關(guān),如糖尿病及其血管并發(fā)癥、腎功能衰竭、帕金森病和阿爾茨海默?。?-9]。因此,破譯糖化的分子機(jī)制和生物學(xué)功能對(duì)上述疾病的治療具有重要意義。
目前,糖化的分子機(jī)制在很大程度上仍是未知的。為了更好地理解糖化的分子機(jī)制,需要高精度地識(shí)別糖化底物及其相應(yīng)的糖化位點(diǎn)。大規(guī)模蛋白質(zhì)組學(xué)方法如質(zhì)譜分析,已被用于檢測(cè)糖化位點(diǎn)[10-11]。然而傳統(tǒng)的實(shí)驗(yàn)方法不僅花費(fèi)高,并且耗時(shí)耗力,很大程度上延緩了相關(guān)研究的進(jìn)展。因此,有關(guān)蛋白質(zhì)糖化的計(jì)算輔助方法受到了越來(lái)越多的關(guān)注。到目前為止,已有很多學(xué)者通過(guò)機(jī)器學(xué)習(xí)算法對(duì)糖化位點(diǎn)進(jìn)行了預(yù)測(cè)。Johansen等[12]利用人工神經(jīng)網(wǎng)絡(luò)算法提出了第一個(gè)預(yù)測(cè)賴氨酸糖化位點(diǎn)的預(yù)測(cè)器NetGlycate,最終得到的馬氏相關(guān)系數(shù)為0.77,AUC 值為0.58,體現(xiàn)了使用機(jī)器學(xué)習(xí)算法進(jìn)行蛋白質(zhì)糖化位點(diǎn)預(yù)測(cè)的可行性。Liu 等[13]提出了一種預(yù)測(cè)糖化位點(diǎn)的計(jì)算方法PreGly,該方法使用氨基酸因子、氨基酸出現(xiàn)頻率和k 間距氨基酸對(duì)組成進(jìn)行特征提取,使用最大相關(guān)和最小冗余(mRMR,max Relevance and Min Redundancy)進(jìn)行特征選擇,在k =4 時(shí)獲得了最優(yōu)的模型。Xu 等[14]開(kāi)發(fā)了一種名為Gly-PseAAC 的預(yù)測(cè)器,利用位置特異性氨基酸偏好提取蛋白質(zhì)包含的信息,然后使用支持向量機(jī)(Support vector Machine,SVM)算法預(yù)測(cè)糖化位點(diǎn),通過(guò)PSAAP特征有效地驗(yàn)證了賴氨酸是否發(fā)生糖化反應(yīng)的問(wèn)題。Ju 等[15]提出了BPB(Bi-Profile Bayes)的特征提取方式,并結(jié)合支持向量機(jī)進(jìn)行預(yù)測(cè),預(yù)測(cè)的結(jié)果要優(yōu)于以上算法。
然而,標(biāo)準(zhǔn)的SVM算法會(huì)因數(shù)據(jù)中存在野點(diǎn)或噪聲而導(dǎo)致分類精度下降,因此Lin 等[16]提出了模糊支持向量機(jī)(Fuzzy Support Vector Machine,F(xiàn)SVM)方法,其思想為給每個(gè)樣本以不同的隸屬度,可以有效地降低野點(diǎn)或噪聲對(duì)分類精度的影響。在此基礎(chǔ)上,學(xué)者們提出了更多的隸屬度函數(shù)設(shè)計(jì)方法,如文獻(xiàn)[17]將樣本的不確定性和樣本與類中心的距離相結(jié)合,提出了一種基于信息熵的改進(jìn)FSVM 算法,在不平衡數(shù)據(jù)集上具有較高的分類精度。李村合等[18]通過(guò)加入?yún)?shù)來(lái)調(diào)整分離超平面與樣本的距離,當(dāng)樣本分布不均時(shí)也能得到較高的分類精度。Wang 等[19]提出了基于中心核對(duì)齊的模糊支持向量機(jī)。左喻灝等[20]提出了Re‐lief-F 特征加權(quán)的FSVM 算法,通過(guò)賦予樣本權(quán)重與特征權(quán)重來(lái)提高分類效率。本文在文獻(xiàn)[15]的基礎(chǔ)上,提出了一種基于兩步特征加權(quán)的模糊支持向量機(jī)算法。首先,利用信息增益算法獲取樣本的特征權(quán)重;然后,選擇信息增益最大的特征,計(jì)算其與剩余特征的斯皮爾曼相關(guān)系數(shù),將最大的特征權(quán)重與其他特征的相關(guān)系數(shù)相乘并加到其他特征原有的權(quán)重上,得到新的特征權(quán)重;最后,將得到的特征權(quán)重應(yīng)用到隸屬度函數(shù)距離的計(jì)算與核函數(shù)的構(gòu)建中,同時(shí)考慮樣本的親和度,通過(guò)樣本內(nèi)部的分布情況對(duì)隸屬度函數(shù)做出進(jìn)一步修正。本文將上述算法與BPB 的特征提取方式結(jié)合,提出了一種預(yù)測(cè)賴氨酸糖化位點(diǎn)的方法FS‐VM_GlySite,并用十折交叉驗(yàn)證,結(jié)果表明,F(xiàn)SVM_GlySite 的預(yù)測(cè)結(jié)果要優(yōu)于現(xiàn)有的幾種常用的預(yù)測(cè)模型。
本文使用文獻(xiàn)[15]中的訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練和測(cè)試。此訓(xùn)練集來(lái)自蛋白質(zhì)賴氨酸修飾數(shù)據(jù)庫(kù)CPLM[21],包含了223 個(gè)實(shí)驗(yàn)標(biāo)注的糖化賴氨酸位點(diǎn)和446 個(gè)非糖化賴氨酸位點(diǎn)。使用滑動(dòng)窗口表示數(shù)據(jù)集的賴氨酸殘基K,與文獻(xiàn)[15]設(shè)置相同,窗口大小設(shè)置為15,每個(gè)訓(xùn)練樣本都表示賴氨酸殘基K 下游和上游各有的7個(gè)殘基的肽段。為了統(tǒng)一每個(gè)肽段的長(zhǎng)度,添加虛擬殘基“X”來(lái)填補(bǔ)沒(méi)有足夠殘基的位置。這里將糖化多肽作為正類訓(xùn)練樣本,而非糖化多肽作為負(fù)類訓(xùn)練樣本。
給定序列片段S=s1s2...sn,其中sj(j=1,2,...,n)為單個(gè)氨基酸,n 為序列片段長(zhǎng)度。S屬于類C1或類C2,其中C1和C2分別表示糖化位點(diǎn)和非糖化位點(diǎn)。根據(jù)貝葉斯準(zhǔn)則,假設(shè)sj(j=1,2,...,n)相互獨(dú)立,則兩類S 的后驗(yàn)概率可表示為
式(1)和式(2)可重新表示為
假設(shè)類別的先驗(yàn)分布是均勻的,即P(c1)=P(c-1),則決策函數(shù)可表示為
根據(jù)文獻(xiàn)[22],式(5)可以進(jìn)一步寫(xiě)成
支持向量機(jī)是一種流行的機(jī)器學(xué)習(xí)算法,被廣泛應(yīng)用于各種PTMs 位點(diǎn)的預(yù)測(cè)[23-25]。模糊支持向量機(jī)則是給每個(gè)樣本以不同的隸屬度,降低野點(diǎn)和噪聲對(duì)分類的干擾。一個(gè)訓(xùn)練1,-1}為訓(xùn)練樣本的標(biāo)簽,+1 代表正類,-1 為負(fù)類,si∈[0,1]為模糊隸屬度,表示樣本xi屬于類yi的權(quán)重。FSVM模型為
通過(guò)求解上述問(wèn)題得到最終的分類決策函數(shù)為
式中:K(xi,xj)為核函數(shù),目的是將樣本通過(guò)非線性映射?(x),使其映入高維核空間。
設(shè)計(jì)出好的隸屬度函數(shù)是模糊支持向量機(jī)的關(guān)鍵。本文使用的算法首先對(duì)特征進(jìn)行兩步加權(quán),再將得到的特征權(quán)重應(yīng)用到隸屬度函數(shù)的設(shè)計(jì)與核函數(shù)的構(gòu)建中,最后通過(guò)樣本親和度對(duì)隸屬度函數(shù)作出修正,從而得到每個(gè)樣本的隸屬度。
1.3.1 進(jìn)行特征加權(quán)
(1)計(jì)算出所有特征的信息增益Gain(k),如式(9)、(10)所示
式中:D 為數(shù)據(jù)集;|D|為數(shù)據(jù)集中的樣本個(gè)數(shù);D 中有h個(gè)類別標(biāo)簽Ki(i=1,2,...,h);|Ki,D|為D中標(biāo)簽為Ki的樣本個(gè)數(shù)。若特征A 有v個(gè)取值A(chǔ)j(j=1,2,...,v),|Dj|為D 中在特征A 上取值為Aj的集合。式(10)表示特征對(duì)樣本集合不確定性的減少程度,為信息熵與條件熵之差。
(2)計(jì)算出特征之間的斯皮爾曼相關(guān)系數(shù)矩陣corr(i,k),如式(11)所示
式中:Ri和Si表示樣本i取值的等級(jí);-R和-S表示變量R和S的平均等級(jí);N為樣本個(gè)數(shù)。斯皮爾曼相關(guān)系數(shù)用來(lái)衡量?jī)蓚€(gè)變量之間的相關(guān)性大小,越趨近于0,兩個(gè)變量之間的相關(guān)性越低,絕對(duì)值大于0.4則認(rèn)定為具有一定相關(guān)性。
(3)找到信息增益值最大的特征,位置記為M,然后根據(jù)其與剩余特征的相關(guān)系數(shù),找到相關(guān)系數(shù)大于0.4 的特征,以式(12)賦予最終的特征權(quán)重w(k),相關(guān)系數(shù)小于0.4 的不作處理。將已得到w(k)的特征忽略,對(duì)未賦予w(k)的特征重復(fù)上述過(guò)程,直至全部特征都被賦予新的w(k)
(4)對(duì)RBF 核函數(shù)K(xi,xj)=exp(-γ||xixj||2)作出修改,根據(jù)特征權(quán)重w 得到特征矩陣的對(duì)角矩陣形式
新的特征加權(quán)核函數(shù)為
1.3.2 設(shè)計(jì)模糊隸屬度函數(shù)
(1)本文在距離計(jì)算上均使用特征加權(quán)距離方法,如式(13)所示
式中:l表示特征的個(gè)數(shù)。
(2)通過(guò)模糊C 均值算法得到樣本的正負(fù)類中心x+cen、x-cen,計(jì)算dcen+i= d(xi,x+cen)、dcen-i=d(xi,x-cen),賦予特征加權(quán)隸屬度s1(xi),如式(14)所示
模糊C 均值算法具體思路為:假定對(duì)數(shù)據(jù)集S 進(jìn)行分類,樣本xi屬于第j個(gè)聚類中心cj的隸屬度為μij,表達(dá)式如式(15)、(16)所示
式中:m 為隸屬度因子;N 與H 分別表示樣本個(gè)數(shù)與聚類中心數(shù);||xi-cj||2表示xi到中心點(diǎn)cj的距離。要求最小化目標(biāo)函數(shù)J,給定任意初值后進(jìn)行迭代,當(dāng)maxij{|μ(k+1)ij-μ(k)ij|}<ε 時(shí)停止迭代,表示繼續(xù)迭代后μij已無(wú)明顯變化;k為迭代次數(shù);ε為誤差閾值。
(3)計(jì)算樣本的親和度A(xi),如式(17)~(19)所示
式中:U(xi,D)、T(xi,D)分別表示刪除每個(gè)樣本前后樣本間距離標(biāo)準(zhǔn)差的變化比率、樣本均值的變化比率。當(dāng)樣本分散度低、緊密度高時(shí),樣本對(duì)數(shù)據(jù)集的影響就越大,樣本的親和度就越?。?6]。
(4)將樣本親和度歸一化,以此保證親和度與s1(xi)在同等數(shù)量級(jí)上,得到隸屬度s2(xi)=-A(xi),計(jì)算得到最終的隸屬度函數(shù)s(xi)=s1(xi)+s2(xi)。再將s(xi)歸一化,防止隸屬度為負(fù)的情況的出現(xiàn)。
參數(shù)c的區(qū)間為c={2-5,2-4,...,215},參數(shù)γ的區(qū)間為γ={2-15,2-14,...,23}。為了防止數(shù)據(jù)集正負(fù)樣本不平衡對(duì)分類精度的影響,本文在參數(shù)c 的設(shè)定上使用文獻(xiàn)[27]的方式,對(duì)不同類樣本賦以不同的懲罰項(xiàng)c+=c-(N-p)/p,其中c+、c-分別為少類樣本與多類樣本的懲罰項(xiàng);p表示少類樣本個(gè)數(shù);N-p為多數(shù)類樣本個(gè)數(shù)。
本文使用十折交叉驗(yàn)證來(lái)評(píng)估模型,具體為靈敏度(SN)、特異度(SP)、準(zhǔn)確率(ACC)、馬氏相關(guān)系數(shù)(MCC)和ROC 曲線下面積(AUC)5個(gè)指標(biāo),前4個(gè)指標(biāo)定義為
式中:N+為糖化位點(diǎn)個(gè)數(shù);N+-為錯(cuò)誤預(yù)測(cè)為非糖化位點(diǎn)的糖化位點(diǎn)個(gè)數(shù);N-為非糖化位點(diǎn)個(gè)數(shù);N-+為被錯(cuò)誤預(yù)測(cè)為糖化位點(diǎn)的非糖化位點(diǎn)個(gè)數(shù)。
通過(guò)十折交叉驗(yàn)證得到的AUC 值作為模型FSVM_GlySite 的評(píng)價(jià)指標(biāo)。 由于FS‐VM_GlySite 是在文獻(xiàn)[15]的訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練的,本文還將FSVM_GlySite與BPB_Gl‐ySite[15]進(jìn)行了比較。如表1 所示,F(xiàn)SVM_Gly‐Site 得到的SN、SP、ACC、MCC 和AUC(64.62%、73.92%、70.82%、37.27%和76.40%)均高于BPB_GlySite 方法(63.68%、72.60%、69.63%、34.99%和76.22%)。這是由于本文進(jìn)行兩步特征加權(quán)的方式可以最大程度地放大重要和次重要特征與弱相關(guān)和不相關(guān)特征在權(quán)重上的差值,有效地避免了后者對(duì)分類的干擾,加強(qiáng)了相對(duì)重要特征對(duì)分類的貢獻(xiàn),并且在考慮了樣本親和度后,衡量了每個(gè)樣本的存在與否對(duì)數(shù)據(jù)集的影響;利用樣本內(nèi)部的分布情況對(duì)隸屬度函數(shù)做出了適當(dāng)修正,減少了僅使用樣本與類中心距離作為隸屬度函數(shù)時(shí)對(duì)數(shù)據(jù)集幾何形狀的依賴,降低了噪聲和野點(diǎn)對(duì)分離超平面的干擾。本文使用了聚類的方式獲得類中心,相比于求平均值計(jì)算出的類中心,其含有數(shù)據(jù)集中更多的樣本信息,有助于獲取更準(zhǔn)確的樣本隸屬度值。雖然FSVM_Gl‐ySite 在SP 上低于Gly-PseAAC[14]的74.30%,但是在SN 上有著顯著的提升(57.48%),說(shuō)明FSVM_GlySite 可以更精確地識(shí)別賴氨酸糖化位點(diǎn)。
表1 訓(xùn)練集下的比較結(jié)果 (%)
為了進(jìn)一步評(píng)估FSVM_GlySite 的有效性,將其與其他現(xiàn)有的預(yù)測(cè)方法進(jìn)行比較,包括NetGlycate[12]、PreGly[13]、Gly-PseAAC[14]和BPB_GlySite[15]。由于NetGlycate 和PreGly 都是在包含89 個(gè)糖化位點(diǎn)和126 個(gè)非糖化位點(diǎn)的Johansen 基準(zhǔn)數(shù)據(jù)集[12]上訓(xùn)練的。因此,將本文算法與BPB_GlySite 和Gly-PseAAC 也通過(guò)Johansen基準(zhǔn)數(shù)據(jù)集上的十折交叉驗(yàn)證進(jìn)行重新訓(xùn)練。比較結(jié)果見(jiàn)表2,其中FSVM_Gl‐ySite 的SN、ACC、MCC 和AUC 值最高,分別為87.64%、87.91%、75%和92%。雖然PreGly 獲得了最高的SP值(95.85%),但Sn值(71.06%)遠(yuǎn)低于FSVM_GlySite(87.64%),這表明PreG‐ly 傾向于將賴氨酸殘基預(yù)測(cè)為非糖化位點(diǎn),其識(shí)別的糖化位點(diǎn)明顯少于FSVM_GlySite,因此在Johansen基準(zhǔn)數(shù)據(jù)集上,F(xiàn)SVM_GlySite同樣優(yōu)于現(xiàn)有的糖化位點(diǎn)預(yù)測(cè)器。
本文提出一種新的基于兩步特征加權(quán)的模糊支持向量機(jī)算法,并結(jié)合Bi-Profile Bayes方法構(gòu)建了一個(gè)賴氨酸糖化位點(diǎn)預(yù)測(cè)模型FS‐VM_GlySite。實(shí)驗(yàn)結(jié)果表明,模糊支持向量機(jī)算法的分類性能效果好于標(biāo)準(zhǔn)的支持向量機(jī)算法,并且所提出的預(yù)測(cè)模型的預(yù)測(cè)效果優(yōu)于現(xiàn)有的糖化位點(diǎn)預(yù)測(cè)方法。然而,本文所采用的是單一的特征編碼方法,后續(xù)的工作將會(huì)嘗試融合更多特征的方法,進(jìn)一步提升預(yù)測(cè)模型的性能。