亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于理化性質(zhì)局部并行融合的蛋白質(zhì)相互作用預(yù)測(cè)方法

2021-04-11 08:12:22陳春燕呂俊龍

梧州學(xué)院學(xué)報(bào) 2021年6期

陳春燕,呂俊龍

(1.蚌埠醫(yī)學(xué)院衛(wèi)生管理學(xué)院，安徽蚌埠 233000；2.蚌埠學(xué)院計(jì)算機(jī)工程學(xué)院，安徽蚌埠 233000)

蛋白質(zhì)相互作用預(yù)測(cè)研究在生物學(xué)領(lǐng)域具有重要的意義，當(dāng)前預(yù)測(cè)方法主要分為2種：實(shí)驗(yàn)方法和計(jì)算方法。傳統(tǒng)的實(shí)驗(yàn)方法需花費(fèi)大量的人力、物力，計(jì)算方法逐漸成為研究者關(guān)注的熱點(diǎn)。文獻(xiàn)[1]對(duì)蛋白質(zhì)原始序列的PSSM矩陣，進(jìn)行了局域編碼，提出了串行多特征融合的特征提取方法，并設(shè)計(jì)了有監(jiān)督和半監(jiān)督的分類(lèi)器；文獻(xiàn)[2]提出了氨基酸理化性質(zhì)組成編碼、氨基酸組成編碼及自協(xié)方差編碼的多特征融合提取方法；文獻(xiàn)[3]充分考慮了蛋白質(zhì)序列對(duì)發(fā)生相互作用較為復(fù)雜的特點(diǎn)，提出了自協(xié)方差編碼方式，在釀酒酵母數(shù)據(jù)集上達(dá)到了88.09%的準(zhǔn)確率。然而，蛋白質(zhì)結(jié)構(gòu)復(fù)雜，對(duì)原始序列進(jìn)行編碼提取特征向量，預(yù)測(cè)精度有待提高[4]。因此，本研究先將原始序列轉(zhuǎn)化為位置特異性得分矩陣 (Position-Specific Scoring Matrix, PSSM )，然后根據(jù)理化性質(zhì)對(duì)PSSM進(jìn)行分區(qū)，并行融合為新的矩陣[5]，提取特征向量，分類(lèi)器選擇多項(xiàng)式核和高斯核組合核支持向量機(jī)，以期提高蛋白質(zhì)相互作用預(yù)測(cè)的準(zhǔn)確率。

1 特征提取

1.1 蛋白質(zhì)序列表示方法

蛋白質(zhì)序列的基本組成單位是氨基酸，其由20種不同的氨基酸混合組成，表示為下：

P=p1p2…pi…pL

其中，pi表示序列中第i個(gè)氨基酸，L是蛋白質(zhì)序列的長(zhǎng)度。

1.2 蛋白質(zhì)數(shù)值化表示方法

使用PSSM矩陣將一維蛋白質(zhì)原始序列進(jìn)行數(shù)值化表示，轉(zhuǎn)換為二維矩陣[6]。使用PSI-BLAST程序得到包含蛋白質(zhì)序列位置信息和蛋白質(zhì)進(jìn)化信息的PSSM矩陣。PSI-BLAST程序的詳細(xì)信息[7]，可以在網(wǎng)絡(luò)獲取，網(wǎng)址為https://blast.ncbi.nlm.nih.gov/Blast.cgi。

PSSM矩陣定義如下：

該結(jié)構(gòu)是L×20的矩陣，L是蛋白質(zhì)序列的長(zhǎng)度，每列代表1種氨基酸，20種氨基酸共20列[8]。pi，j表示生物進(jìn)化過(guò)程中，i殘基突變?yōu)榘被醞的可能性。pi，j的值>0，說(shuō)明突變可能性較大，突變可能性與pi，j的值呈正相關(guān)關(guān)系。pi，j的值<0，說(shuō)明發(fā)生突變的可能小，且是保守的，pi，j的值越小越保守[9]。圖1是原始序列轉(zhuǎn)為PSSM矩陣的示意圖。

圖1 蛋白質(zhì)序列轉(zhuǎn)換為PSSM矩陣示意圖

1.3 構(gòu)建特征向量

采用Expasy在線(xiàn)分析工具，獲得蛋白質(zhì)的6種理化特性，分別是帶正電殘基總數(shù)、帶負(fù)電殘基總數(shù)、消光系數(shù)、不穩(wěn)定指數(shù)、脂肪族指數(shù)和親水性平均值。

根據(jù)蛋白質(zhì)的6種理化特征，將氨基酸進(jìn)行重組，在得到的6種理化特征中，選擇其中3種作為1組，剩下的3種作為3組，可以得到4組氨基酸[10]。因此，可以將PSSM矩陣分為A、B、C、D4個(gè)區(qū)域。每個(gè)區(qū)域生成1個(gè)新的PSSM矩陣，并將4個(gè)矩陣進(jìn)行并行融合，生成基于理化特征的新的NPSSM矩陣。

蛋白質(zhì)序列用特征向量VA表示。由于在蛋白質(zhì)序列中，氨基酸殘基的保守性與其在序列中的位置相關(guān)，所以將每條蛋白質(zhì)序列劃分為若干個(gè)局部區(qū)域，而每個(gè)局部區(qū)域的長(zhǎng)為固定值，即20種氨基酸表示為20列[11]。將每條蛋白質(zhì)序列分割成15個(gè)非交叉局部區(qū)域，因此重新劃分后的NPSSM矩陣可以通過(guò)公式(1)來(lái)表示每個(gè)區(qū)域的特征信息，而NPSSM矩陣的特征向量VA(k)是k×20的向量。若k=15，因此會(huì)得到每條序列的一個(gè)1×300維的特征向量。

(1)

1.4 主成分分析法提取關(guān)鍵特征

蛋白質(zhì)序列的特征向量VA是一個(gè)1×300維的特征向量，維數(shù)較高會(huì)使預(yù)測(cè)模型失去泛化能力，從而降低預(yù)測(cè)精度[12]。主成分分析(Principal Component Analysis, PCA)方法主要用于數(shù)據(jù)降維。本研究用主成分分析法PCA提取其中最具辨別力的新特征子集。在既保證預(yù)測(cè)精度，又不影響運(yùn)算效率的前提下，經(jīng)過(guò)反復(fù)試驗(yàn)，我們把降維后的維度設(shè)定為25，主成分的貢獻(xiàn)率可以達(dá)到90%。

蛋白質(zhì)相互作用預(yù)測(cè)是判斷蛋白質(zhì)序列對(duì)之間是否存在相互作用，因此將兩條蛋白質(zhì)序列的特征向量結(jié)合起來(lái)，表示蛋白質(zhì)對(duì)的特征向量。對(duì)于蛋白質(zhì)序列A和B，分別對(duì)A、B的特征向量VA和VB進(jìn)行降維，降維后的向量分別為VA’和VB’，蛋白質(zhì)對(duì)的特征向量用VAB表示，采用適量拼接方式，即VAB= VA’? VB’。

1.5 特征提取流程

蛋白質(zhì)序列經(jīng)過(guò)數(shù)值化表示，轉(zhuǎn)化為PSSM矩陣，根據(jù)6種理化特征進(jìn)行分區(qū)，構(gòu)建特征向量的過(guò)程見(jiàn)表1。

表1 構(gòu)建特征向量的過(guò)程

具體的特征向量構(gòu)建流程如圖2所示。

圖2 構(gòu)建特征向量流程

2 基于支持向量機(jī)的預(yù)測(cè)模型構(gòu)建

2.1 組合核支持向量機(jī)

在數(shù)據(jù)集相同的情況下，組合核函數(shù)具有比單一核函數(shù)更好的預(yù)測(cè)性能。多項(xiàng)式核函數(shù)如果階數(shù)較高，則會(huì)引起參數(shù)過(guò)多，計(jì)算復(fù)雜度會(huì)增加。高斯核函數(shù)在局部區(qū)域可以將輸入的向量映射到更高維的空間，并且參數(shù)較少，對(duì)于樣本大小不敏感，表現(xiàn)出良好的分類(lèi)性能。因此，本研究選擇全局二次多項(xiàng)式核和局部高斯核作為組合核函數(shù)，起到優(yōu)勢(shì)互補(bǔ)的作用。

二次多項(xiàng)式核和高斯核的組合核函數(shù)數(shù)學(xué)描述如公式(2～4)：

K=λG(xi,yj)+(1-λ)P(xi,yj

(2)

(3)

(4)

其中xi，yj是數(shù)據(jù)集中的樣本點(diǎn)，并引入了核參數(shù)λ、σ1、σ2，當(dāng)λ=0或λ=1時(shí)，組合核函數(shù)就變?yōu)閱我缓撕瘮?shù)。

2.2 模型構(gòu)造

蛋白質(zhì)相互作用預(yù)測(cè)是典型的二分類(lèi)問(wèn)題，預(yù)測(cè)結(jié)果只有2種情況：蛋白質(zhì)對(duì)之間存在相互作用或不可能發(fā)生相互作用。因此，分類(lèi)器選擇二分類(lèi)模型支持向量機(jī)(Support Vector Machines，SVM)。然而，根據(jù)蛋白質(zhì)序列的PSSM矩陣得到的特征向量不會(huì)是一個(gè)簡(jiǎn)單的線(xiàn)性關(guān)系，因此引入核函數(shù)使支持向量機(jī)能夠適應(yīng)高維非線(xiàn)性數(shù)據(jù)[13]。本模型選取二次多項(xiàng)式核和高斯核作為組合核函數(shù)，不但優(yōu)化了單一核函數(shù)運(yùn)行模式預(yù)測(cè)精度低的問(wèn)題，還兼顧了蛋白質(zhì)之間相互作用發(fā)生位置的局部性和全局性的特定特征。

本研究采用LIBSVM進(jìn)行SVM分類(lèi)，LIBSVM中的懲罰系數(shù)C和核函數(shù)參數(shù)λ的最優(yōu)值用網(wǎng)格搜索法求解。本研究采取5折交叉驗(yàn)證(5-Fold Cross-Validation)來(lái)保證預(yù)測(cè)方法的精度。選取正、負(fù)樣本中80%的數(shù)據(jù)作為訓(xùn)練集， 20%作為測(cè)試集，最后用預(yù)測(cè)得到的標(biāo)簽與真實(shí)的標(biāo)簽作對(duì)比，正樣本標(biāo)簽判定為正、負(fù)樣本標(biāo)簽判定為負(fù)，預(yù)測(cè)正確的樣本數(shù)量所占總樣本數(shù)量的比例(%)作為模型的預(yù)測(cè)準(zhǔn)確率。預(yù)測(cè)模型流程如圖3所示。

圖3 預(yù)測(cè)模型流程

3 結(jié)果與分析

3.1 試驗(yàn)數(shù)據(jù)

本研究數(shù)據(jù)集選取蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)DIP(The Database of Interacting Proteins)中的釀酒酵母(Yeast)數(shù)據(jù)集。在進(jìn)行試驗(yàn)之前，首先要構(gòu)建正、負(fù)樣本數(shù)據(jù)集，構(gòu)建正樣本數(shù)據(jù)集，必須剔除數(shù)據(jù)集中的冗余數(shù)據(jù)，即剔除長(zhǎng)<50的序列，并且剔除相似性≥40%的序列。構(gòu)建與正樣本數(shù)據(jù)基本平衡的負(fù)樣本數(shù)據(jù)，共計(jì)5 594個(gè)正樣本和5 594個(gè)負(fù)樣本。

3.2 性能評(píng)價(jià)

本研究采用5次試驗(yàn)結(jié)果的預(yù)測(cè)準(zhǔn)確率、靈敏度、精度和馬修斯相關(guān)系數(shù)的平均值來(lái)評(píng)價(jià)預(yù)測(cè)方法的性能，各性能評(píng)價(jià)指標(biāo)數(shù)學(xué)描述見(jiàn)公式(5～8)：

(5)

(6)

(7)

(8)

3.3 試驗(yàn)結(jié)果

3.3.1 預(yù)測(cè)結(jié)果

5次試驗(yàn)預(yù)測(cè)結(jié)果見(jiàn)表2，可知本研究提出的預(yù)測(cè)方法的準(zhǔn)確率最高達(dá)到95.11%，平均為93.98%；靈敏度最高達(dá)到95.14%，平均為93.13%；精度最高達(dá)到94.57%，平均為93.79%；馬修斯相關(guān)系數(shù)最高達(dá)到89.41%，平均為88.67%。

表2 釀酒酵母數(shù)據(jù)集測(cè)試效果 %

3.3.2 與其他方法對(duì)比

為了驗(yàn)證本研究方法優(yōu)于其他特征提取方法，特將本研究方法與其他3種特征提取方法作比較，特征提取方法及英文簡(jiǎn)稱(chēng)，見(jiàn)表3。

表3 特征提取方法及英文簡(jiǎn)稱(chēng)

4種方法的平均預(yù)測(cè)性能見(jiàn)表4，本研究方法PCPSMF的預(yù)測(cè)準(zhǔn)確率、靈敏度、精度及馬修斯相關(guān)系數(shù)平均值分別達(dá)到93.98%、93.13%、93.79%、88.67。PPSMF的預(yù)測(cè)準(zhǔn)確率、靈敏度、精度及馬修斯相關(guān)系數(shù)平均值分別達(dá)到90.34%、91.68%、91.66%、86.17%；PGS的預(yù)測(cè)準(zhǔn)確率、靈敏度、精度及馬修斯相關(guān)系數(shù)平均值分別達(dá)到86.41%、88.05%、87.21%、84.36%；PCLS的預(yù)測(cè)準(zhǔn)確率、靈敏度、精度及馬修斯相關(guān)系數(shù)平均值分別達(dá)到91.23%、90.17%、90.54%、85.49%。PCLS的預(yù)測(cè)準(zhǔn)確率要比PGS高一些，原因在于PGLS根據(jù)理化性質(zhì)提取了局部信息，PPSMF對(duì)特征向量降維，所以使SVM表現(xiàn)出了更好的性能。

本研究的方法PCPSMF在預(yù)測(cè)準(zhǔn)確率上優(yōu)于其他方法，原因在于PCPSMF首先提取了原始序列的PSSM矩陣，又利用了蛋白質(zhì)的理化性質(zhì)進(jìn)行了二次編碼，為了彌補(bǔ)SVM對(duì)高維數(shù)據(jù)分類(lèi)性能欠佳的缺陷，使用PCA提取了關(guān)鍵特征信息。

3.3.3 模型泛化性驗(yàn)證

從DIP數(shù)據(jù)庫(kù)中選取其他4個(gè)數(shù)據(jù)集進(jìn)行模型的泛化驗(yàn)證，結(jié)果見(jiàn)表5。本方法對(duì)human數(shù)據(jù)集的預(yù)測(cè)正確率為91.61%，pylori數(shù)據(jù)集的預(yù)測(cè)正確率也超過(guò)了90%，對(duì)其他兩個(gè)數(shù)據(jù)集的預(yù)測(cè)正確率也接近90%。測(cè)試結(jié)果表明，基于理化性質(zhì)局部編碼的特征提取方法，配合使用組合核函數(shù)作為SVM的核函數(shù)，這種方法對(duì)未知數(shù)據(jù)有較好的分類(lèi)性能，外推能力較好，進(jìn)一步對(duì)模型的泛化性進(jìn)行了有效的評(píng)估。

表5 不同數(shù)據(jù)集測(cè)試結(jié)果

4 結(jié)束語(yǔ)

本研究提出了基于理化性質(zhì)局部編碼的蛋白質(zhì)相互作用預(yù)測(cè)方法，先把蛋白質(zhì)原始序列轉(zhuǎn)化為PSSM矩陣，再根據(jù)理化性質(zhì)將氨基酸進(jìn)行重組，重新計(jì)算PSSM矩陣，構(gòu)建每條蛋白質(zhì)序列的特征向量，采用主成分分析法進(jìn)行降維處理。在分類(lèi)器的選擇上，使用組合核支持向量機(jī)。試驗(yàn)結(jié)果表明，本研究方法正確但是存在一定的局限性，下一步，在特征提取方法上可以嘗試多特征融合方法來(lái)進(jìn)一步完善本研究的模型。