亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer網(wǎng)絡(luò)的抗癌肽的預(yù)測(cè)

        2022-12-08 07:23:00標(biāo),葛成,徐晴,陸翼,孔韌,常
        現(xiàn)代計(jì)算機(jī) 2022年18期
        關(guān)鍵詞:抗癌標(biāo)準(zhǔn)差氨基酸

        蔡 標(biāo),葛 成,徐 晴,陸 翼,孔 韌,常 珊

        (江蘇理工學(xué)院生物信息與醫(yī)藥工程研究所,常州 213001)

        0 引言

        每年有數(shù)百萬(wàn)人死于癌癥[1-2]。傳統(tǒng)的物理和化學(xué)方法,包括靶向治療、化療和放射治療,仍然是治療癌癥的主要方法,這些方法側(cè)重于殺死癌細(xì)胞,但正常細(xì)胞也會(huì)受到不利影響,導(dǎo)致嚴(yán)重的副作用。更重要的是,這些治療方法昂貴且低效??拱╇模ˋCPs)是一系列由10~60個(gè)氨基酸組成的短肽,其具有較強(qiáng)的陽(yáng)離子特性,是一種新的癌癥治療方法[3]??拱╇木哂卸喾N優(yōu)勢(shì),包括高特異性、易于合成和修改、生產(chǎn)成本低等[4-6]??拱╇闹荒芘c癌細(xì)胞的陰離子細(xì)胞膜成分相互作用,因此,它們可以選擇性地殺死癌細(xì)胞[7],而對(duì)正常細(xì)胞幾乎沒(méi)有傷害。近年來(lái),抗癌肽治療方法成為研究熱點(diǎn),用于治療不同臨床階段中的不同類型的腫瘤[8-10]。然而,只有很少一部分的抗癌肽能夠最終被用于臨床治療。此外,通過(guò)實(shí)驗(yàn)方法識(shí)別潛在的新抗癌肽的過(guò)程耗時(shí)、昂貴,并且實(shí)驗(yàn)室資源有限。因此,迫切需要開(kāi)發(fā)高效的抗癌肽預(yù)測(cè)技術(shù)。

        目前,已有一些關(guān)于抗癌肽預(yù)測(cè)的研究。Tyagi等[11]開(kāi)發(fā)了一個(gè)支持向量機(jī)(SVM)模型,并以氨基酸組成和二肽組成作為特征信息輸入到SVM模型進(jìn)行抗癌肽預(yù)測(cè)。Hajisharifi等[12]開(kāi)發(fā)了兩種預(yù)測(cè)抗癌肽的機(jī)器學(xué)習(xí)方法,使用Chou[13]提出的偽氨基酸組成模型(pseudo amino acid composition,PseAAC)和本地對(duì)齊核(local alignment kernel)方法得到特征信息,結(jié)合SVM模型進(jìn)行預(yù)測(cè)。Vijayakumar等[14]提出了一種使用支持向量機(jī)和蛋白質(zhì)相關(guān)度測(cè)量特征向量的計(jì)算方法預(yù)測(cè)蛋白質(zhì)中的抗癌肽。Chen等[15]提出將二肽組成和偽氨基酸組分信息作為特征,結(jié)合支持向量機(jī)構(gòu)建了抗癌肽的預(yù)測(cè)算法,是當(dāng)時(shí)最優(yōu)的抗癌肽預(yù)測(cè)模型。LeYi等[16]采用了氨基酸組成、二肽組成、氨基酸理化性質(zhì)以及每種氨基酸在序列中的出現(xiàn)頻率等信息,結(jié)合支持向量機(jī)構(gòu)建了40個(gè)子模型,再以40個(gè)子模型的輸出作為輸入來(lái)搭建模型進(jìn)行抗癌肽的預(yù)測(cè)。近幾年來(lái),深度學(xué)習(xí)技術(shù)發(fā)展迅速,基于深度學(xué)習(xí)的抗癌肽預(yù)測(cè)方法成為了研究熱點(diǎn)。Yi等[17]將抗癌肽序列使用獨(dú)熱編碼和K-mer稀疏矩陣進(jìn)行特征表示,再結(jié)合長(zhǎng)短期記憶[18](long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行抗癌肽預(yù)測(cè)。

        雖然這些方法取得了很好結(jié)果,但是它們都需要提前將肽序列通過(guò)復(fù)雜的特征提取算法映射為特征向量,再輸入到機(jī)器學(xué)習(xí)模型或深度學(xué)習(xí)模型中進(jìn)行抗癌肽預(yù)測(cè),整個(gè)過(guò)程十分繁瑣,并且其性能在很大程度上依賴于特征提取算法的設(shè)計(jì)。因此,迫切需要一種更加簡(jiǎn)單、高效的抗癌肽預(yù)測(cè)方法。值得注意的是,方春等[19]提出了一種僅使用LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行抗癌肽預(yù)測(cè)的方法,該方法不需要額外的特征提取算法,僅將肽序列作為輸入,采用文本處理中的字符嵌入方法,自動(dòng)將序列映射到特征向量表示,模型自行抽取特征進(jìn)行訓(xùn)練和預(yù)測(cè)。但是該方法最終的結(jié)果較基于特征提取算法結(jié)合機(jī)器學(xué)習(xí)的方法相比,并沒(méi)有提升。Ahmed等[20]使用二進(jìn)制輪廓信息(BRF)、基于物理化學(xué)的信息(AAIs)表示和基于進(jìn)化信息(BLO62)的表示三種氨基酸序列特征,利用多頭神經(jīng)網(wǎng)絡(luò)解決抗癌肽分類問(wèn)題。

        本文提出了一種使用深度學(xué)習(xí)Transformer網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)抗癌肽的方法。該方法僅需要將肽序列作為輸入,模型自動(dòng)將序列信息通過(guò)字符嵌入的方法映射為特征向量,無(wú)需使用復(fù)雜的特征表示方法,實(shí)現(xiàn)了使用Transformer網(wǎng)絡(luò)模型來(lái)自動(dòng)識(shí)別抗癌肽和非抗癌肽,并在兩個(gè)數(shù)據(jù)集上對(duì)模型進(jìn)行了評(píng)估實(shí)驗(yàn)。此外,本文還將模型與現(xiàn)有的機(jī)器學(xué)習(xí)模型,如SVM、隨機(jī)森林(RF)、樸素貝葉斯(NB)和深度學(xué)習(xí)模型ACP-DL進(jìn)行了比較,五倍交叉驗(yàn)證實(shí)驗(yàn)結(jié)果表明,本文方法能夠有效地預(yù)測(cè)抗癌肽,明顯優(yōu)于現(xiàn)有方法。模型的工作流程如圖1所示。

        1 材料與方法

        1.1 數(shù)據(jù)集

        為了將本文方法與ACP-DL方法進(jìn)行比較,使用了Yi等[17]公布的兩組抗癌肽數(shù)據(jù)集,數(shù)據(jù)集的詳細(xì)信息如表1所示,每個(gè)數(shù)據(jù)集都包括相同數(shù)量的正樣本和負(fù)樣本,其中正樣本表示該樣本是抗癌肽,負(fù)樣本表示該樣本非抗癌肽。

        表1 數(shù)據(jù)集的統(tǒng)計(jì)

        1.2 數(shù)據(jù)長(zhǎng)度分布

        兩組抗癌肽數(shù)據(jù)集肽序列的長(zhǎng)度分布統(tǒng)計(jì)如圖2所示。ACP240數(shù)據(jù)集中肽序列長(zhǎng)度分布在10~209個(gè)殘基之間,樣本的平均長(zhǎng)度為30.5個(gè)殘基;ACP740數(shù)據(jù)集中肽序列長(zhǎng)度分布在10~97個(gè)殘基之間,樣本的平均長(zhǎng)度為26.4個(gè)殘基。因此,在接下來(lái)對(duì)序列進(jìn)行字符嵌入時(shí),每個(gè)序列被填充或者截?cái)酁榻咏骄L(zhǎng)度的固定值30。

        1.3 序列表征

        本研究使用的方法不需要額外設(shè)計(jì)復(fù)雜的算法來(lái)提取特征,如氨基酸理化性質(zhì),氨基酸組成特征等,只需將肽序列作為輸入,具體的序列表征流程如圖3所示。創(chuàng)建了一個(gè)氨基酸與其對(duì)應(yīng)編號(hào)的字典,每個(gè)氨基酸都有一個(gè)整數(shù)可與之對(duì)應(yīng),因此輸入的肽序列首先會(huì)被整數(shù)編碼;之后將序列固定統(tǒng)一長(zhǎng)度,不夠固定長(zhǎng)度的序列需要在末尾位置補(bǔ)0,超過(guò)固定長(zhǎng)度的序列將會(huì)被截?cái)啵釛壋龅牟糠?;然后通過(guò)Transformer進(jìn)行詞嵌入訓(xùn)練,使20種氨基酸中每個(gè)氨基酸都能由一組向量表示。如圖3所示,假設(shè)輸入的肽序列為“FALAKA-LKKAL”,首先需要將序列用整數(shù)進(jìn)行編碼,此時(shí)的序列長(zhǎng)度為11,如果設(shè)置固定長(zhǎng)度為12,那么序列的末尾位置將會(huì)自動(dòng)補(bǔ)0至固定長(zhǎng)度。通過(guò)神經(jīng)網(wǎng)絡(luò)的不斷訓(xùn)練,每個(gè)氨基酸都會(huì)由一組向量唯一表示。最終,每條肽序列可被編碼為M×N矩陣,M為設(shè)置的固定長(zhǎng)度,N為設(shè)置的特征向量維度。

        1.4 Transformer模型

        Transformer最早用于自然語(yǔ)言處理方面的研究,如今被大范圍地應(yīng)用與拓展[21-22]。在這之前,自然語(yǔ)言處理的相關(guān)研究主要采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),LSTM和GRU等模型。Transformer與LSTM等模型的最大區(qū)別在于LSTM等模型的訓(xùn)練過(guò)程是迭代的、串行的,需要逐一處理輸入字符。而Transformer的訓(xùn)練是并行的,即所有字符是同時(shí)訓(xùn)練的,這樣就大大提高了計(jì)算效率。由于Transformer模型沒(méi)有LSTM的迭代操作,所以需要將每個(gè)字符的位置信息傳給Transformer,從而識(shí)別出序列中的順序關(guān)系,即需要對(duì)序列進(jìn)行位置編碼,以獲取順序信息。完整的Transformer包括編碼和解碼兩部分,主要用來(lái)進(jìn)行自然語(yǔ)言處理方面的工作,如機(jī)器翻譯,語(yǔ)言建模等。本文研究屬于文本分類的范疇,所以只需要用到Transformer的編碼部分。完整的編碼部分主要包括字符嵌入、位置編碼、自注意力機(jī)制、殘差連接和全連接層。

        1.5 算法流程

        本文提出的算法流程如圖4所示。首先,將肽序列進(jìn)行字符嵌入得到序列的嵌入矩陣,并將其與位置編碼后的矩陣進(jìn)行疊加,得到特征矩陣。接著,特征矩陣經(jīng)過(guò)N次重復(fù)的多頭注意力機(jī)制與殘差連接,以及線性映射與殘差連接模塊。最后,通過(guò)全連接層和Sigmoid激活函數(shù)層得到一個(gè)概率值,設(shè)定一個(gè)閾值,當(dāng)概率值大于該閾值時(shí),輸出為1;反之,輸出為0,其中1表示該肽序列為抗癌肽,0表示該肽序列為非抗癌肽。

        1.6 評(píng)價(jià)方法與評(píng)價(jià)指標(biāo)

        本研究采用五倍交叉驗(yàn)證來(lái)評(píng)估Transformer模型的性能。在每次驗(yàn)證中,數(shù)據(jù)集被隨機(jī)分成5等份:4等份數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余1等份數(shù)據(jù)作為測(cè)試數(shù)據(jù)。確保訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)之間沒(méi)有重疊。最終驗(yàn)證結(jié)果取五倍交叉驗(yàn)證結(jié)果的平均值。為了便于比較,采用與ACP_DL相同的評(píng)價(jià)指標(biāo),包括準(zhǔn)確性(accuracy,Acc)、敏感性(sensitive,Sens)、特異性(specificity,Spec)、精確率(precision,Prec)和馬修斯相關(guān)系數(shù)(Matthews correlation coefficient,MCC),定義如下:

        其中,TN表示真反例,TP表示真正例,F(xiàn)N表示假反例,F(xiàn)P表示假正例。同時(shí),也采用了ROC曲線和AUC來(lái)評(píng)估性能。

        2 結(jié)果

        2.1 設(shè)備選擇與模型參數(shù)設(shè)置

        本文采用Keras深度學(xué)習(xí)框架,在一臺(tái)Tesla K80機(jī)器上進(jìn)行訓(xùn)練,其顯存為11 G??拱╇牡念A(yù)測(cè)實(shí)質(zhì)是二分類問(wèn)題,因此,本文選擇模型的損失函數(shù)為binary_crossentropy,優(yōu)化函數(shù)選擇adam,激活函數(shù)為sigmoid,批大小設(shè)置為2。通過(guò)多次參數(shù)調(diào)優(yōu),在ACP240上的訓(xùn)練輪數(shù)設(shè)置為200,在ACP740上的訓(xùn)練輪數(shù)設(shè)置為100。

        2.2 實(shí)驗(yàn)設(shè)置

        為了將本文模型與ACP-DL模型以及其他機(jī)器學(xué)習(xí)模型進(jìn)行比較,在相同的數(shù)據(jù)集上執(zhí)行了本文模型,如表2所示。

        表2 實(shí)驗(yàn)設(shè)置

        模型都采取五倍交叉驗(yàn)證,并取五次的平均值進(jìn)行比較。需要注意的是,三個(gè)機(jī)器學(xué)習(xí)模型與ACP-DL模型的五倍交叉驗(yàn)證結(jié)果在Yi[31]的論文中已經(jīng)給出,這里不再進(jìn)行重復(fù)實(shí)驗(yàn)。

        2.3 實(shí)驗(yàn)結(jié)果與分析

        本文模型在ACP740和ACP240數(shù)據(jù)集上的五倍交叉驗(yàn)證結(jié)果如表3所示。從表3可以看到,在ACP740數(shù)據(jù)集上,模型的平均準(zhǔn)確率(Acc)為83.75%,標(biāo)準(zhǔn)差為5.97%;平均敏感性(Sens)為84.89%,標(biāo)準(zhǔn)差為7.64%;平均特異性(Spec)為85.26%,標(biāo)準(zhǔn)差為3.27%;平均精確率(Prec)為82.06%,標(biāo)準(zhǔn)差為9.37%;平均馬修斯相關(guān)系數(shù)(MCC)為67.39%,標(biāo)準(zhǔn)差為12.13%。其ROC曲線下面積(AUC)為0.898,如圖5所示。在ACP240數(shù)據(jù)集上,模型的平均準(zhǔn)確率為87.92%,標(biāo)準(zhǔn)差為2.72%;平均敏感性為85.93%,標(biāo)準(zhǔn)差為4.87%;平均特異性為93.05%,標(biāo)準(zhǔn)差為1.65%;平均精確率為82.06%,標(biāo)準(zhǔn)差為6.82%;平均馬修斯相關(guān)系數(shù)為76.04%,標(biāo)準(zhǔn)差為5.08%。其ROC曲線下面積為0.910,如圖6所示。模型在ACP740上的訓(xùn)練損失函數(shù)和訓(xùn)練正確率如圖7所示,在ACP240上的訓(xùn)練損失函數(shù)和訓(xùn)練正確率如圖8所示,可以看出模型的訓(xùn)練損失整體呈下降趨勢(shì)。

        表3 模型在兩個(gè)數(shù)據(jù)集上的五倍交叉驗(yàn)證結(jié)果

        模型在ACP240數(shù)據(jù)集上的訓(xùn)練損失出現(xiàn)多個(gè)短暫峰值,這是由于該數(shù)據(jù)集的樣本數(shù)量相對(duì)較少,導(dǎo)致訓(xùn)練波動(dòng)。表4展示了不同方法在同一數(shù)據(jù)集下的性能比較。從表4可以看出,與其它四種模型相比,本文模型提升顯著。這表明該模型能夠很好地完成抗癌肽預(yù)測(cè)任務(wù),并且不需要額外設(shè)計(jì)復(fù)雜的特征提取算法,較其他模型相比更加簡(jiǎn)單、高效、高準(zhǔn)確率。

        表4 不同方法在同一數(shù)據(jù)集下的性能比較

        3 結(jié)語(yǔ)

        本文提出了一種基于Transformer模型的抗癌肽預(yù)測(cè)方法。該方法具有如下特點(diǎn):

        (1)與現(xiàn)有方法相比,具有較優(yōu)的抗癌肽預(yù)測(cè)性能;

        (2)僅需將肽序列作為輸入,模型自動(dòng)將序列信息通過(guò)字符嵌入的方法映射為特征向量,無(wú)需復(fù)雜的特征表示方法,實(shí)現(xiàn)了使用Transformer網(wǎng)絡(luò)模型來(lái)自動(dòng)識(shí)別抗癌肽和非抗癌肽。

        猜你喜歡
        抗癌標(biāo)準(zhǔn)差氨基酸
        Fuzheng Kang' ai decoction (扶正抗癌方) inhibits cell proliferation,migration and invasion by modulating mir-21-5p/human phosphatase and tensin homology deleted on chromosome ten in lung cancer cells
        用Pro-Kin Line平衡反饋訓(xùn)練儀對(duì)早期帕金森病患者進(jìn)行治療對(duì)其動(dòng)態(tài)平衡功能的影響
        抗癌之窗快樂(lè)攝影
        抗癌之窗(2020年1期)2020-05-21 10:18:10
        月桂酰丙氨基酸鈉的抑菌性能研究
        三十年跑成抗癌明星
        特別健康(2018年9期)2018-09-26 05:45:26
        UFLC-QTRAP-MS/MS法同時(shí)測(cè)定絞股藍(lán)中11種氨基酸
        中成藥(2018年1期)2018-02-02 07:20:05
        抗癌新聞
        一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
        對(duì)于平均差與標(biāo)準(zhǔn)差的數(shù)學(xué)關(guān)系和應(yīng)用價(jià)值比較研究
        氨基酸分析儀測(cè)定玉米漿中17種游離氨基酸的不確定度評(píng)定
        三上悠亚av影院在线看| 亚洲综合自拍偷拍一区| 公与淑婷厨房猛烈进出| 免费无码又爽又刺激聊天app| 亚洲不卡无码高清视频| 日韩色久悠悠婷婷综合| 亚洲三级视频一区二区三区| 粗大猛烈进出白浆视频| 欧美国产亚洲日韩在线二区| 中文字幕精品人妻av在线| 国产一品二品精品在线| 专干老肥熟女视频网站300部| 在线免费观看国产精品| 久久精品国产亚洲av蜜桃av| 日本中文字幕婷婷在线| 免费操逼视频| 免费AV一区二区三区无码| 中文字幕精品亚洲一区二区三区| 久久精品国产av一级二级三级| 日韩一卡2卡3卡4卡新区亚洲| 亚洲AV无码国产成人久久强迫| 少妇一级内射精品免费| 欧美巨鞭大战丰满少妇| 亚洲精品字幕在线观看| 91久久国产情侣真实对白| 熟女一区二区国产精品| 亚洲精品蜜夜内射| 国产精品 视频一区 二区三区| 成年毛片18成年毛片| 少妇爽到高潮免费视频| 久久精品人妻无码一区二区三区| 91天堂素人精品系列全集亚洲| 精品国产麻豆免费人成网站| 久久黄色视频| 亚洲一区av无码少妇电影 | 欧美色图50p| 亚洲综合久久精品少妇av| 亚洲精品乱码久久久久久中文字幕| 亚洲精品国产成人AV| 熟女乱乱熟女乱乱亚洲| 免费人成小说在线观看网站|