亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Transformer網(wǎng)絡(luò)的抗癌肽的預(yù)測(cè)

2022-12-08 07:23:00蔡標(biāo)，葛成，徐晴，陸翼，孔韌，常珊

現(xiàn)代計(jì)算機(jī) 2022年18期

蔡標(biāo)，葛成，徐晴，陸翼，孔韌，常珊

（江蘇理工學(xué)院生物信息與醫(yī)藥工程研究所，常州 213001）

0 引言

每年有數(shù)百萬(wàn)人死于癌癥［1-2］。傳統(tǒng)的物理和化學(xué)方法，包括靶向治療、化療和放射治療，仍然是治療癌癥的主要方法，這些方法側(cè)重于殺死癌細(xì)胞，但正常細(xì)胞也會(huì)受到不利影響，導(dǎo)致嚴(yán)重的副作用。更重要的是，這些治療方法昂貴且低效?？拱╇模ˋCPs）是一系列由10～60個(gè)氨基酸組成的短肽，其具有較強(qiáng)的陽(yáng)離子特性，是一種新的癌癥治療方法［3］?？拱╇木哂卸喾N優(yōu)勢(shì)，包括高特異性、易于合成和修改、生產(chǎn)成本低等［4-6］?？拱╇闹荒芘c癌細(xì)胞的陰離子細(xì)胞膜成分相互作用，因此，它們可以選擇性地殺死癌細(xì)胞［7］，而對(duì)正常細(xì)胞幾乎沒(méi)有傷害。近年來(lái)，抗癌肽治療方法成為研究熱點(diǎn)，用于治療不同臨床階段中的不同類型的腫瘤［8-10］。然而，只有很少一部分的抗癌肽能夠最終被用于臨床治療。此外，通過(guò)實(shí)驗(yàn)方法識(shí)別潛在的新抗癌肽的過(guò)程耗時(shí)、昂貴，并且實(shí)驗(yàn)室資源有限。因此，迫切需要開(kāi)發(fā)高效的抗癌肽預(yù)測(cè)技術(shù)。

目前，已有一些關(guān)于抗癌肽預(yù)測(cè)的研究。Tyagi等［11］開(kāi)發(fā)了一個(gè)支持向量機(jī)（SVM）模型，并以氨基酸組成和二肽組成作為特征信息輸入到SVM模型進(jìn)行抗癌肽預(yù)測(cè)。Hajisharifi等［12］開(kāi)發(fā)了兩種預(yù)測(cè)抗癌肽的機(jī)器學(xué)習(xí)方法，使用Chou［13］提出的偽氨基酸組成模型（pseudo amino acid composition，PseAAC）和本地對(duì)齊核（local alignment kernel）方法得到特征信息，結(jié)合SVM模型進(jìn)行預(yù)測(cè)。Vijayakumar等［14］提出了一種使用支持向量機(jī)和蛋白質(zhì)相關(guān)度測(cè)量特征向量的計(jì)算方法預(yù)測(cè)蛋白質(zhì)中的抗癌肽。Chen等［15］提出將二肽組成和偽氨基酸組分信息作為特征，結(jié)合支持向量機(jī)構(gòu)建了抗癌肽的預(yù)測(cè)算法，是當(dāng)時(shí)最優(yōu)的抗癌肽預(yù)測(cè)模型。LeYi等［16］采用了氨基酸組成、二肽組成、氨基酸理化性質(zhì)以及每種氨基酸在序列中的出現(xiàn)頻率等信息，結(jié)合支持向量機(jī)構(gòu)建了40個(gè)子模型，再以40個(gè)子模型的輸出作為輸入來(lái)搭建模型進(jìn)行抗癌肽的預(yù)測(cè)。近幾年來(lái)，深度學(xué)習(xí)技術(shù)發(fā)展迅速，基于深度學(xué)習(xí)的抗癌肽預(yù)測(cè)方法成為了研究熱點(diǎn)。Yi等［17］將抗癌肽序列使用獨(dú)熱編碼和K-mer稀疏矩陣進(jìn)行特征表示，再結(jié)合長(zhǎng)短期記憶［18］（long short-term memory，LSTM）神經(jīng)網(wǎng)絡(luò)模型進(jìn)行抗癌肽預(yù)測(cè)。

雖然這些方法取得了很好結(jié)果，但是它們都需要提前將肽序列通過(guò)復(fù)雜的特征提取算法映射為特征向量，再輸入到機(jī)器學(xué)習(xí)模型或深度學(xué)習(xí)模型中進(jìn)行抗癌肽預(yù)測(cè)，整個(gè)過(guò)程十分繁瑣，并且其性能在很大程度上依賴于特征提取算法的設(shè)計(jì)。因此，迫切需要一種更加簡(jiǎn)單、高效的抗癌肽預(yù)測(cè)方法。值得注意的是，方春等［19］提出了一種僅使用LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行抗癌肽預(yù)測(cè)的方法，該方法不需要額外的特征提取算法，僅將肽序列作為輸入，采用文本處理中的字符嵌入方法，自動(dòng)將序列映射到特征向量表示，模型自行抽取特征進(jìn)行訓(xùn)練和預(yù)測(cè)。但是該方法最終的結(jié)果較基于特征提取算法結(jié)合機(jī)器學(xué)習(xí)的方法相比，并沒(méi)有提升。Ahmed等［20］使用二進(jìn)制輪廓信息（BRF）、基于物理化學(xué)的信息（AAIs）表示和基于進(jìn)化信息（BLO62）的表示三種氨基酸序列特征，利用多頭神經(jīng)網(wǎng)絡(luò)解決抗癌肽分類問(wèn)題。

本文提出了一種使用深度學(xué)習(xí)Transformer網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)抗癌肽的方法。該方法僅需要將肽序列作為輸入，模型自動(dòng)將序列信息通過(guò)字符嵌入的方法映射為特征向量，無(wú)需使用復(fù)雜的特征表示方法，實(shí)現(xiàn)了使用Transformer網(wǎng)絡(luò)模型來(lái)自動(dòng)識(shí)別抗癌肽和非抗癌肽，并在兩個(gè)數(shù)據(jù)集上對(duì)模型進(jìn)行了評(píng)估實(shí)驗(yàn)。此外，本文還將模型與現(xiàn)有的機(jī)器學(xué)習(xí)模型，如SVM、隨機(jī)森林（RF）、樸素貝葉斯（NB）和深度學(xué)習(xí)模型ACP-DL進(jìn)行了比較，五倍交叉驗(yàn)證實(shí)驗(yàn)結(jié)果表明，本文方法能夠有效地預(yù)測(cè)抗癌肽，明顯優(yōu)于現(xiàn)有方法。模型的工作流程如圖1所示。

1 材料與方法

1.1 數(shù)據(jù)集

為了將本文方法與ACP-DL方法進(jìn)行比較，使用了Yi等［17］公布的兩組抗癌肽數(shù)據(jù)集，數(shù)據(jù)集的詳細(xì)信息如表1所示，每個(gè)數(shù)據(jù)集都包括相同數(shù)量的正樣本和負(fù)樣本，其中正樣本表示該樣本是抗癌肽，負(fù)樣本表示該樣本非抗癌肽。

表1 數(shù)據(jù)集的統(tǒng)計(jì)

1.2 數(shù)據(jù)長(zhǎng)度分布

兩組抗癌肽數(shù)據(jù)集肽序列的長(zhǎng)度分布統(tǒng)計(jì)如圖2所示。ACP240數(shù)據(jù)集中肽序列長(zhǎng)度分布在10～209個(gè)殘基之間，樣本的平均長(zhǎng)度為30.5個(gè)殘基；ACP740數(shù)據(jù)集中肽序列長(zhǎng)度分布在10～97個(gè)殘基之間，樣本的平均長(zhǎng)度為26.4個(gè)殘基。因此，在接下來(lái)對(duì)序列進(jìn)行字符嵌入時(shí)，每個(gè)序列被填充或者截?cái)酁榻咏骄L(zhǎng)度的固定值30。

1.3 序列表征

本研究使用的方法不需要額外設(shè)計(jì)復(fù)雜的算法來(lái)提取特征，如氨基酸理化性質(zhì)，氨基酸組成特征等，只需將肽序列作為輸入，具體的序列表征流程如圖3所示。創(chuàng)建了一個(gè)氨基酸與其對(duì)應(yīng)編號(hào)的字典，每個(gè)氨基酸都有一個(gè)整數(shù)可與之對(duì)應(yīng)，因此輸入的肽序列首先會(huì)被整數(shù)編碼；之后將序列固定統(tǒng)一長(zhǎng)度，不夠固定長(zhǎng)度的序列需要在末尾位置補(bǔ)0，超過(guò)固定長(zhǎng)度的序列將會(huì)被截?cái)啵釛壋龅牟糠?；然后通過(guò)Transformer進(jìn)行詞嵌入訓(xùn)練，使20種氨基酸中每個(gè)氨基酸都能由一組向量表示。如圖3所示，假設(shè)輸入的肽序列為“FALAKA-LKKAL”，首先需要將序列用整數(shù)進(jìn)行編碼，此時(shí)的序列長(zhǎng)度為11，如果設(shè)置固定長(zhǎng)度為12，那么序列的末尾位置將會(huì)自動(dòng)補(bǔ)0至固定長(zhǎng)度。通過(guò)神經(jīng)網(wǎng)絡(luò)的不斷訓(xùn)練，每個(gè)氨基酸都會(huì)由一組向量唯一表示。最終，每條肽序列可被編碼為M×N矩陣，M為設(shè)置的固定長(zhǎng)度，N為設(shè)置的特征向量維度。

1.4 Transformer模型

Transformer最早用于自然語(yǔ)言處理方面的研究，如今被大范圍地應(yīng)用與拓展［21-22］。在這之前，自然語(yǔ)言處理的相關(guān)研究主要采用循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），LSTM和GRU等模型。Transformer與LSTM等模型的最大區(qū)別在于LSTM等模型的訓(xùn)練過(guò)程是迭代的、串行的，需要逐一處理輸入字符。而Transformer的訓(xùn)練是并行的，即所有字符是同時(shí)訓(xùn)練的，這樣就大大提高了計(jì)算效率。由于Transformer模型沒(méi)有LSTM的迭代操作，所以需要將每個(gè)字符的位置信息傳給Transformer，從而識(shí)別出序列中的順序關(guān)系，即需要對(duì)序列進(jìn)行位置編碼，以獲取順序信息。完整的Transformer包括編碼和解碼兩部分，主要用來(lái)進(jìn)行自然語(yǔ)言處理方面的工作，如機(jī)器翻譯，語(yǔ)言建模等。本文研究屬于文本分類的范疇，所以只需要用到Transformer的編碼部分。完整的編碼部分主要包括字符嵌入、位置編碼、自注意力機(jī)制、殘差連接和全連接層。

1.5 算法流程

本文提出的算法流程如圖4所示。首先，將肽序列進(jìn)行字符嵌入得到序列的嵌入矩陣，并將其與位置編碼后的矩陣進(jìn)行疊加，得到特征矩陣。接著，特征矩陣經(jīng)過(guò)N次重復(fù)的多頭注意力機(jī)制與殘差連接，以及線性映射與殘差連接模塊。最后，通過(guò)全連接層和Sigmoid激活函數(shù)層得到一個(gè)概率值，設(shè)定一個(gè)閾值，當(dāng)概率值大于該閾值時(shí)，輸出為1；反之，輸出為0，其中1表示該肽序列為抗癌肽，0表示該肽序列為非抗癌肽。

1.6 評(píng)價(jià)方法與評(píng)價(jià)指標(biāo)

本研究采用五倍交叉驗(yàn)證來(lái)評(píng)估Transformer模型的性能。在每次驗(yàn)證中，數(shù)據(jù)集被隨機(jī)分成5等份：4等份數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，其余1等份數(shù)據(jù)作為測(cè)試數(shù)據(jù)。確保訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)之間沒(méi)有重疊。最終驗(yàn)證結(jié)果取五倍交叉驗(yàn)證結(jié)果的平均值。為了便于比較，采用與ACP_DL相同的評(píng)價(jià)指標(biāo)，包括準(zhǔn)確性（accuracy，Acc）、敏感性（sensitive，Sens）、特異性（specificity，Spec）、精確率（precision，Prec）和馬修斯相關(guān)系數(shù)（Matthews correlation coefficient，MCC），定義如下：

其中，TN表示真反例，TP表示真正例，F(xiàn)N表示假反例，F(xiàn)P表示假正例。同時(shí)，也采用了ROC曲線和AUC來(lái)評(píng)估性能。

2 結(jié)果

2.1 設(shè)備選擇與模型參數(shù)設(shè)置

本文采用Keras深度學(xué)習(xí)框架，在一臺(tái)Tesla K80機(jī)器上進(jìn)行訓(xùn)練，其顯存為11 G?？拱╇牡念A(yù)測(cè)實(shí)質(zhì)是二分類問(wèn)題，因此，本文選擇模型的損失函數(shù)為binary_crossentropy，優(yōu)化函數(shù)選擇adam，激活函數(shù)為sigmoid，批大小設(shè)置為2。通過(guò)多次參數(shù)調(diào)優(yōu)，在ACP240上的訓(xùn)練輪數(shù)設(shè)置為200，在ACP740上的訓(xùn)練輪數(shù)設(shè)置為100。

2.2 實(shí)驗(yàn)設(shè)置

為了將本文模型與ACP-DL模型以及其他機(jī)器學(xué)習(xí)模型進(jìn)行比較，在相同的數(shù)據(jù)集上執(zhí)行了本文模型，如表2所示。

表2 實(shí)驗(yàn)設(shè)置

模型都采取五倍交叉驗(yàn)證，并取五次的平均值進(jìn)行比較。需要注意的是，三個(gè)機(jī)器學(xué)習(xí)模型與ACP-DL模型的五倍交叉驗(yàn)證結(jié)果在Yi［31］的論文中已經(jīng)給出，這里不再進(jìn)行重復(fù)實(shí)驗(yàn)。

2.3 實(shí)驗(yàn)結(jié)果與分析

本文模型在ACP740和ACP240數(shù)據(jù)集上的五倍交叉驗(yàn)證結(jié)果如表3所示。從表3可以看到，在ACP740數(shù)據(jù)集上，模型的平均準(zhǔn)確率（Acc）為83.75%，標(biāo)準(zhǔn)差為5.97%；平均敏感性（Sens）為84.89%，標(biāo)準(zhǔn)差為7.64%；平均特異性（Spec）為85.26%，標(biāo)準(zhǔn)差為3.27%；平均精確率（Prec）為82.06%，標(biāo)準(zhǔn)差為9.37%；平均馬修斯相關(guān)系數(shù)（MCC）為67.39%，標(biāo)準(zhǔn)差為12.13%。其ROC曲線下面積（AUC）為0.898，如圖5所示。在ACP240數(shù)據(jù)集上，模型的平均準(zhǔn)確率為87.92%，標(biāo)準(zhǔn)差為2.72%；平均敏感性為85.93%，標(biāo)準(zhǔn)差為4.87%；平均特異性為93.05%，標(biāo)準(zhǔn)差為1.65%；平均精確率為82.06%，標(biāo)準(zhǔn)差為6.82%；平均馬修斯相關(guān)系數(shù)為76.04%，標(biāo)準(zhǔn)差為5.08%。其ROC曲線下面積為0.910，如圖6所示。模型在ACP740上的訓(xùn)練損失函數(shù)和訓(xùn)練正確率如圖7所示，在ACP240上的訓(xùn)練損失函數(shù)和訓(xùn)練正確率如圖8所示，可以看出模型的訓(xùn)練損失整體呈下降趨勢(shì)。

表3 模型在兩個(gè)數(shù)據(jù)集上的五倍交叉驗(yàn)證結(jié)果

模型在ACP240數(shù)據(jù)集上的訓(xùn)練損失出現(xiàn)多個(gè)短暫峰值，這是由于該數(shù)據(jù)集的樣本數(shù)量相對(duì)較少，導(dǎo)致訓(xùn)練波動(dòng)。表4展示了不同方法在同一數(shù)據(jù)集下的性能比較。從表4可以看出，與其它四種模型相比，本文模型提升顯著。這表明該模型能夠很好地完成抗癌肽預(yù)測(cè)任務(wù)，并且不需要額外設(shè)計(jì)復(fù)雜的特征提取算法，較其他模型相比更加簡(jiǎn)單、高效、高準(zhǔn)確率。

表4 不同方法在同一數(shù)據(jù)集下的性能比較

3 結(jié)語(yǔ)

本文提出了一種基于Transformer模型的抗癌肽預(yù)測(cè)方法。該方法具有如下特點(diǎn):

（1）與現(xiàn)有方法相比，具有較優(yōu)的抗癌肽預(yù)測(cè)性能；

（2）僅需將肽序列作為輸入，模型自動(dòng)將序列信息通過(guò)字符嵌入的方法映射為特征向量，無(wú)需復(fù)雜的特征表示方法，實(shí)現(xiàn)了使用Transformer網(wǎng)絡(luò)模型來(lái)自動(dòng)識(shí)別抗癌肽和非抗癌肽。