亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于FAVOR+和增強(qiáng)損失的蛋白溶解預(yù)測(cè)

        2024-02-22 08:01:50楊子航王順?lè)?/span>
        關(guān)鍵詞:溶解性編碼器損失

        楊子航,王順?lè)?/p>

        (云南大學(xué) 信息學(xué)院,云南 昆明 650504)

        0 引 言

        蛋白質(zhì)的溶解性往往代表著它的產(chǎn)量,從而在制藥與食品等行業(yè)中發(fā)揮重要作用[1]。迄今為止,在大腸桿菌表達(dá)系統(tǒng)中可以成功生產(chǎn)的可溶性重組蛋白實(shí)例仍然很少,這導(dǎo)致了難以提高整體生產(chǎn)能力。為了獲得可溶性蛋白質(zhì),大多數(shù)成熟的策略通常涉及一系列試錯(cuò)步驟,卻無(wú)法保證成功。同時(shí)提高產(chǎn)量和最小化生產(chǎn)成本的一種方法是通過(guò)使用計(jì)算模型來(lái)提供準(zhǔn)確的溶解性預(yù)測(cè)[2],在實(shí)驗(yàn)工作之前預(yù)測(cè)出高度可溶解的蛋白質(zhì)。

        目前,已經(jīng)提出了幾種預(yù)測(cè)方法[3-5],但現(xiàn)有方法存在一定的不足且預(yù)測(cè)效果上仍然表現(xiàn)不佳。在已有工作的基礎(chǔ)上,本文提出了一種多輸入的深度學(xué)習(xí)模型FESOL來(lái)應(yīng)對(duì)現(xiàn)有方法的局限性并提高蛋白質(zhì)溶解性的預(yù)測(cè)性能。方法受到FAVOR+(fast attention via positive orthogonal random features)[6]這種快速注意力機(jī)制的高效性和它與常規(guī)Transformer[7]的兼容性的啟發(fā),應(yīng)用它代替?zhèn)鹘y(tǒng)自注意力使得模型能夠在蛋白質(zhì)長(zhǎng)序列的溶解性預(yù)測(cè)中高效提取全局特征,同時(shí)克服由于傳統(tǒng)注意力而引起的計(jì)算復(fù)雜度問(wèn)題。此外,在交叉熵的基礎(chǔ)上,進(jìn)一步結(jié)合余弦相似度,設(shè)計(jì)了增強(qiáng)的損失函數(shù),文中記名為EhL(enhanced loss)。傳統(tǒng)的交叉熵?fù)p失只關(guān)注樣本是否被正確分類(lèi)[8],EhL一定程度上彌補(bǔ)了這一不足,使得模型在處理多個(gè)輸入時(shí)能夠關(guān)注到不同輸入的差異性。本文提出的方法針對(duì)蛋白質(zhì)長(zhǎng)序列和多數(shù)據(jù),通過(guò)FAVOR+和EhL的相互配合,編碼更多特定于不同輸入的信息,從而提高溶解性預(yù)測(cè)的準(zhǔn)確性。

        1 相關(guān)工作

        近幾年,深度學(xué)習(xí)領(lǐng)域快速發(fā)展,相比于傳統(tǒng)機(jī)器學(xué)習(xí)方法不靈活等特點(diǎn),深度學(xué)習(xí)能夠直接高效地捕獲到原始數(shù)據(jù)中所關(guān)心的信息,因此通過(guò)深度學(xué)習(xí)的方法探索蛋白質(zhì)性質(zhì)與其序列的內(nèi)在關(guān)系是目前比較熱門(mén)的一個(gè)研究領(lǐng)域,并取得了良好的研究成果[9,10]。在蛋白質(zhì)溶解性預(yù)測(cè)中,Khurana S等提出了DeepSol,一種基于深度學(xué)習(xí)的蛋白質(zhì)溶解性預(yù)測(cè)器,框架的主干是一個(gè)卷積神經(jīng)網(wǎng)絡(luò),它利用了k-mer 結(jié)構(gòu)以及從蛋白質(zhì)序列中提取的額外序列和結(jié)構(gòu)特征[3]。Chen J等提出了一種新的結(jié)構(gòu)感知方法GraphSol,通過(guò)結(jié)合預(yù)測(cè)的接觸圖和圖神經(jīng)網(wǎng)絡(luò),從序列中預(yù)測(cè)蛋白質(zhì)溶解度[11]。Wu X等提出了EPSOL,使用Bi-gram和Tri-gram來(lái)增強(qiáng)原始蛋白質(zhì)序列的表示,通過(guò)多維嵌入獲得全面的蛋白質(zhì)特征表示,利用多卷積池進(jìn)一步整合并最后預(yù)測(cè)[4]。

        利用CNN和多數(shù)據(jù)融合進(jìn)行蛋白質(zhì)溶解性預(yù)測(cè)已經(jīng)取得了良好的效果,但仍存在一定的不足,主要體現(xiàn)在兩方面:其一,基于卷積神經(jīng)網(wǎng)絡(luò)的模型將無(wú)法直接高效的捕獲到序列的長(zhǎng)程依賴信息,這也導(dǎo)致了這類(lèi)模型不能夠最大限度提取有意義的長(zhǎng)序列特征進(jìn)行準(zhǔn)確的下游預(yù)測(cè);其二,當(dāng)在多輸入下使用傳統(tǒng)交叉熵作為模型訓(xùn)練損失時(shí),僅學(xué)習(xí)各個(gè)輸入關(guān)聯(lián)到標(biāo)簽的一般特征,而無(wú)法充分考慮到不同類(lèi)型的輸入數(shù)據(jù)可以在高級(jí)表示空間呈現(xiàn)出獨(dú)特的特征,這將導(dǎo)致模型無(wú)法有效提取豐富的預(yù)測(cè)特征。

        Transformer通過(guò)注意力機(jī)制并行處理整個(gè)輸入,它能夠直接有效提取序列全局特征,有效緩解了卷積網(wǎng)絡(luò)難以捕獲長(zhǎng)程信息的問(wèn)題。例如,Thumuluri V提出了NetSolP,一個(gè)基于Transformer的深度學(xué)習(xí)蛋白質(zhì)語(yǔ)言模型,專(zhuān)注于直接從序列預(yù)測(cè)溶解性和可用性[12]。但是,Transformer由于其較高計(jì)算復(fù)雜度而不能很好地?cái)U(kuò)展到長(zhǎng)序列。為了優(yōu)化Transformer模型的復(fù)雜度,Choromanski K等提出了Performer,并在蛋白質(zhì)序列建模任務(wù)上測(cè)試了其有效性[6]。其復(fù)雜度上的優(yōu)化主要得益于FAVOR+,它通過(guò)核技巧近似傳統(tǒng)注意力分布,利用矩陣運(yùn)算規(guī)則將時(shí)間復(fù)雜度降到了線性,這很好解決了由序列長(zhǎng)度引起的計(jì)算復(fù)雜度問(wèn)題。因此應(yīng)用FAVOR+有望改善長(zhǎng)序列蛋白質(zhì)的溶解性預(yù)測(cè)。

        2 FESOL模型

        2.1 模型輸入

        提出的模型接受單個(gè)蛋白質(zhì)的8種不同輸入數(shù)據(jù),可以概括為4個(gè)部分:①原始氨基酸序列、2-mer和3-mer增強(qiáng)表示;②從蛋白質(zhì)序列預(yù)測(cè)的二級(jí)結(jié)構(gòu)序列;③從蛋白質(zhì)序列預(yù)測(cè)的溶劑相對(duì)可及性序列;④從蛋白質(zhì)序列中提取的附加特征,共57個(gè)數(shù)值形式的特征。表1中總結(jié)了這8種輸入數(shù)據(jù)。

        表1 輸入數(shù)據(jù)總結(jié)

        2.2 模型總體框架

        FESOL是一個(gè)在多輸入數(shù)據(jù)下完成分類(lèi)任務(wù)的深度學(xué)習(xí)模型,架構(gòu)如圖1所示。它由7個(gè)編碼器以及1個(gè)分類(lèi)器組成。并行的7個(gè)編碼器在結(jié)構(gòu)上都是相同的,從模型的整體工作過(guò)程來(lái)說(shuō),它首先接受一個(gè)樣本的7種不同序列特征輸入,分別是Seq、2-mer、3-mer、Rsa、Rsa20、SS和SS8,它的7個(gè)編碼器分別為一個(gè)樣本的不同輸入各編碼到一個(gè)表示向量,產(chǎn)生7個(gè)表示向量再與57個(gè)附加特征(Add)直接連接為一個(gè)全局表示向量,與此同時(shí),7個(gè)表示向量計(jì)算余弦相似度損失(LCS),以在高級(jí)特征空間中約束不同特征向量的相似程度。之后,F(xiàn)ESOL的分類(lèi)器直接將這個(gè)全局表示向量映射到預(yù)測(cè)標(biāo)簽,這個(gè)分類(lèi)器是一個(gè)兩層的全連接網(wǎng)絡(luò)。最終,預(yù)測(cè)標(biāo)簽與實(shí)際標(biāo)簽計(jì)算交叉熵?fù)p失并結(jié)合余弦相似度損失訓(xùn)練整個(gè)網(wǎng)絡(luò)。

        圖1 FESOL總體框架

        2.3 編碼器

        單個(gè)編碼器在Transformer基礎(chǔ)上,引入了FAVOR+機(jī)制,其結(jié)構(gòu)如圖2所示,它由嵌入層(Embedding)、多頭注意力層(MulHAttn)和前饋神經(jīng)網(wǎng)絡(luò)層(FFN)順序堆疊組成。由于各個(gè)編碼器獨(dú)立工作,且結(jié)構(gòu)相同,本節(jié)將以氨基酸序列輸入(Seq)為例,介紹其對(duì)應(yīng)的編碼器(Enc1)的工作過(guò)程。

        圖2 編碼器結(jié)構(gòu)

        (1)嵌入層

        整齊后氨基酸序列是Enc1的輸入,它由20種不同的氨基酸和1個(gè)填充構(gòu)成。Enc1從嵌入層開(kāi)始,將每個(gè)氨基酸轉(zhuǎn)換為相應(yīng)的嵌入向量。經(jīng)過(guò)嵌入層后,得到氨基酸序列嵌入矩陣E∈RL×d, 其中L是氨基酸序列長(zhǎng)度,d是嵌入向量的維度大小。

        (2)多頭注意力層

        Enc1的多頭注意力與早期工作(Transformer)中的注意力機(jī)制[13,14]有所不同,它是基于正交隨機(jī)特征的快速注意力,通過(guò)隱式計(jì)算注意力分布,利用矩陣運(yùn)算規(guī)則將時(shí)間復(fù)雜度降到了線性,使得編碼器能夠在捕獲長(zhǎng)序列的上下文信息時(shí)更加簡(jiǎn)潔高效。Enc1的每個(gè)子層中,多頭注意力層是核心,它幫助編碼器將序列的嵌入矩陣轉(zhuǎn)換為潛在特征矩陣。多頭注意力的具體計(jì)算公式被列出

        MH(E)=Concat(head1,head2,…,headn)Wh

        (1)

        (2)

        (3)

        在FAVOR+的注意力分布矩陣A中,A(i,j)=K(qiT,kiT), 核函數(shù)K定義如下[6]

        K(x,y)=[φ(x)Tφ(y)]

        (4)

        這里的φ(u) 是一個(gè)隨機(jī)特征圖,qi,ki分別對(duì)應(yīng)到矩陣Q,K的第i行向量。最終高效的注意力機(jī)制的計(jì)算形式具體表示為

        Attn(Q,K,V)=U-1(QP((KP)TV))

        (5)

        U=diag(QP((KP)T1L))

        (6)

        對(duì)于QP,KP的矩陣行分別由φ(qiT)T和φ(kiT)T給出。 diag(z) 獲得以輸入向量為對(duì)角線的對(duì)角矩陣。1L表示長(zhǎng)度為L(zhǎng)的全1向量。

        編碼器通過(guò)FAVOR+計(jì)算注意力分布,能夠?qū)ESOL的計(jì)算復(fù)雜度從O(L2d) 降至了O(Lrd), 有效提高了長(zhǎng)序列的計(jì)算效率。

        除了注意力的有效近似估計(jì)外,本層還添加了殘差連接。嵌入矩陣E通過(guò)多頭注意力層后,得到帶有殘差連接的輸出H∈RL×nr

        H=LayerNorm(MH(E)+E)

        (7)

        (3)前饋神經(jīng)網(wǎng)絡(luò)層

        前饋神經(jīng)網(wǎng)絡(luò)層由兩個(gè)線性變換組成,中間通過(guò)一個(gè)elu激活函數(shù)連接,計(jì)算過(guò)程描述為

        O=elu(HW1+b1)W2+b2

        (8)

        W1∈Rd×m和W2∈Rm×d是權(quán)重矩陣,b1和b2是偏置值。這一層得到的O∈RL×d為氨基酸序列的特征矩陣,取O的第一行o∈Rd作為氨基酸序列的特征表示向量,提供給分類(lèi)器進(jìn)行溶解性預(yù)測(cè)。

        2.4 分類(lèi)器

        FESOL的分類(lèi)器是一個(gè)簡(jiǎn)單的兩層全連接神經(jīng)網(wǎng)絡(luò)。它接受x作為輸入,x由每種輸入特定的編碼器生成的表示向量和附加的特征連接而成

        x=Concat(o1,o2,…,o7,oAdd)

        (9)

        o1,o2,…,o7分別對(duì)應(yīng)到Seq,2-mer,3-mer,Rsa,Rsa20,SS,SS8這7個(gè)不同特征輸入的表示向量,oAdd是附加特征組成的特征向量。分類(lèi)器的輸出是預(yù)測(cè)概率yp

        yp=softmax(elu(xW3+b3)W4+b4)

        (10)

        2.5 EhL損失

        在交叉熵?fù)p失下學(xué)習(xí)的表示僅捕獲所有輸入數(shù)據(jù)的一般上下文,但可能不是特定于每種輸入的信息。這將直接導(dǎo)致預(yù)測(cè)模型學(xué)習(xí)到的表示向量中缺乏不同輸入之間的差異性,而這些無(wú)法學(xué)習(xí)到的差異性可能是決定蛋白質(zhì)溶解性的潛在特征,進(jìn)而影響到溶解性的預(yù)測(cè)效果。為了體現(xiàn)不同輸入的差異性,希望不同輸入的表示向量應(yīng)當(dāng)互不相同,因此本研究中增強(qiáng)了訓(xùn)練模型的損失函數(shù),將交叉熵和余弦相似度相結(jié)合,新增的余弦相似度損失可以在高級(jí)特征空間中迫使不同輸入的表示互不相同,從而提高FESOL編碼器提取豐富特征的能力。

        總體上,F(xiàn)ESOL的7個(gè)編碼器分別將7種不同數(shù)據(jù)的輸入編碼到7個(gè)獨(dú)立的d維的表示向量,然后,進(jìn)一步利用每種輸入特定的編碼器生成的表示向量來(lái)構(gòu)建反映不同輸入數(shù)據(jù)獨(dú)特性的余弦相似度損失,同時(shí),結(jié)合交叉熵?fù)p失構(gòu)建出EhL。這里的交叉熵?fù)p失由FESOL分類(lèi)器給出的預(yù)測(cè)概率與真實(shí)標(biāo)簽計(jì)算得到。

        EhL=αLCE+βLCS

        (11)

        這里的LCE,LCS分別代表交叉熵?fù)p失和余弦相似度損失,α,β是權(quán)重系數(shù),α約束預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽的接近程度,β控制各個(gè)表示向量的差異程度。LCE計(jì)算如下,表示二分類(lèi)交叉熵?fù)p失

        (12)

        LCS先計(jì)算單個(gè)樣本的不同表示間的余弦相似度,然后進(jìn)行求和

        (13)

        這里的cs計(jì)算兩個(gè)向量余弦相似度,規(guī)范定義在下列等式中給出

        (14)

        其中,p,q是分別代表一個(gè)向量。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文中使用的原始數(shù)據(jù)集來(lái)自于Smialowski等從大腸桿菌中收集的異源表達(dá)的蛋白質(zhì)序列,并由Xiang Wu等[4]進(jìn)行了預(yù)處理的基礎(chǔ)上作為訓(xùn)練數(shù)據(jù)集。數(shù)據(jù)集由28 972個(gè)可溶性和40 448個(gè)不溶性蛋白質(zhì)組成。

        研究中使用的獨(dú)立的測(cè)試集由1000個(gè)可溶性蛋白質(zhì)序列和1001個(gè)不溶性蛋白質(zhì)序列組成,它已被廣泛用作評(píng)估方法性能的基準(zhǔn)測(cè)試集。為了與現(xiàn)有方法進(jìn)行公平比較,采用此測(cè)試集對(duì)幾種最先進(jìn)的基于序列的蛋白質(zhì)溶解性預(yù)測(cè)方法進(jìn)行全面比較。

        3.2 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)中將預(yù)測(cè)蛋白質(zhì)溶解性的任務(wù)作為二分類(lèi)問(wèn)題,目標(biāo)是最小化預(yù)測(cè)的溶解性標(biāo)簽和實(shí)驗(yàn)測(cè)量的標(biāo)簽之間的差異。Pytorch庫(kù)被用來(lái)實(shí)現(xiàn)所提出的模型。模型訓(xùn)練中,使用學(xué)習(xí)率為0.001和正則率為0.005的AdamW優(yōu)化器,批次大小為32,訓(xùn)練輪次設(shè)置為10。至于輸入數(shù)據(jù),為了保證方法的可對(duì)比性,所有蛋白質(zhì)的序列數(shù)據(jù)長(zhǎng)度固定為L(zhǎng)=1200,這類(lèi)似于之前的工作[3,4],少于1200個(gè)氨基酸用0填充,超過(guò)1200個(gè)氨基酸被截?cái)酁?200。不同的序列形式輸入數(shù)據(jù)的嵌入維數(shù)d均設(shè)置為64,這些數(shù)據(jù)依次為Seq、2-mer、3-mer、Rsa、Rsa20、SS和SS8。此外,EhL中的權(quán)重系數(shù)α,β經(jīng)過(guò)實(shí)驗(yàn)探索后均設(shè)置為1。

        3.3 評(píng)價(jià)指標(biāo)

        研究中使用到的評(píng)價(jià)指標(biāo)包括正確率(Accuracy)、馬修斯相關(guān)系數(shù)(MCC)和Rawi等[5]介紹到的每類(lèi)選擇性(Selectivity)、每類(lèi)靈敏度(Sensitivity),這些指標(biāo)已在之前研究中用于評(píng)估其它先進(jìn)方法的性能,MCC的值在-1和1之間,越接近1表示模型預(yù)測(cè)越好。其它5個(gè)指標(biāo)具體計(jì)算為

        (15)

        (16)

        (17)

        (18)

        (19)

        其中,TP和TN分別代表正確分類(lèi)的可溶和不可溶蛋白質(zhì)的樣本數(shù),F(xiàn)N和FP分別代表被錯(cuò)誤分類(lèi)的可溶和不可溶蛋白質(zhì)的樣本數(shù)。

        此外,EhL系數(shù)影響和消融研究中還使用到Precision、Recall和AUC,Precision、Recall這兩個(gè)指標(biāo)被廣泛用于評(píng)估分類(lèi)問(wèn)題的性能[15,16],定義為

        (20)

        (21)

        AUC定義為接受者操作特性曲線(ROC)下的面積,一般來(lái)說(shuō),提供更大AUC的分類(lèi)器表明它具有更好的性能。

        3.4 增強(qiáng)損失性能分析

        為了驗(yàn)證增強(qiáng)損失EhL的有效性,實(shí)驗(yàn)中對(duì)FESOL依次使用EhL和交叉熵(CE)進(jìn)行了訓(xùn)練,并在MCC上進(jìn)行了比較,同時(shí),為了更全面探索EhL在不同序列長(zhǎng)度輸入下的適用性,設(shè)置了從600到1200,以100長(zhǎng)度遞增的序列截?cái)嚅L(zhǎng)度上進(jìn)行模型訓(xùn)練并比較預(yù)測(cè)性能,結(jié)果如圖3所示。可以發(fā)現(xiàn),EhL在所有的不同截?cái)嚅L(zhǎng)度下均取得了更高的性能,能夠適應(yīng)于不同長(zhǎng)度下的預(yù)測(cè)。在長(zhǎng)度為1200時(shí),EhL最高超過(guò)僅使用交叉熵?fù)p失時(shí)的0.3以上,雖然長(zhǎng)度為600和1000時(shí)兩條折線最為接近,但是也略微勝過(guò)了交叉熵。

        圖3 EhL和交叉熵對(duì)FESOL性能影響

        根據(jù)觀察到的實(shí)驗(yàn)結(jié)果,設(shè)計(jì)的增強(qiáng)損失函數(shù)EhL可以提高多輸入下的預(yù)測(cè)性能??傮w而言,實(shí)驗(yàn)結(jié)果表明了損失函數(shù)的組合是一個(gè)簡(jiǎn)單且有效的策略,它有助于在多輸入模型的學(xué)習(xí)過(guò)程中捕獲更豐富的表示并提高分類(lèi)性能。

        3.5 EhL系數(shù)分析

        為了探究EhL中的權(quán)重系數(shù)α,β在不同的取值下的對(duì)模型預(yù)測(cè)性能的影響。實(shí)驗(yàn)中對(duì)0.5、1、2這3個(gè)參數(shù)上進(jìn)行了網(wǎng)格搜索,并在Accuracy、Precision、Recall、MCC這4個(gè)評(píng)價(jià)指標(biāo)上對(duì)預(yù)測(cè)性能進(jìn)行了比較,具體預(yù)測(cè)結(jié)果見(jiàn)表2。

        表2 FESOL在不同α,β下的預(yù)測(cè)性能

        實(shí)驗(yàn)中主要關(guān)注引入不同比重的余弦相似度后對(duì)預(yù)測(cè)效果產(chǎn)生的影響,因此固定α取值,比較β對(duì)預(yù)測(cè)性能的影響??梢园l(fā)現(xiàn)在比較α=0.5時(shí),β=0.5取的相對(duì)最高性能,對(duì)于其它兩組β=1,2,隨著β取到更大值,性能也隨之增大;比較α=1時(shí),當(dāng)β=1時(shí)取得全局最高性能,而對(duì)于β=0.5,2時(shí),性能也呈現(xiàn)隨β增大而增大;比較α=2時(shí),當(dāng)β=2時(shí)取得相對(duì)較高性能,但是,對(duì)于β=0.5,2時(shí)卻呈現(xiàn)與之前相反結(jié)果,隨β增大性能反而下降。根據(jù)固定α?xí)r的對(duì)比可知,在α,β等比例取值時(shí),一致取得了最高性能,也說(shuō)明了添加余弦相似度的必要性。

        3.6 消融研究

        FESOL總共有8種不同類(lèi)型的輸入,為了探究不同的輸入對(duì)FESOL預(yù)測(cè)性能的貢獻(xiàn)程度,實(shí)驗(yàn)中通過(guò)移除網(wǎng)絡(luò)中的單個(gè)輸入組件來(lái)進(jìn)行消融研究。具體來(lái)說(shuō),將所有輸入分為了4組,氨基酸(Seq,2-mer,3-mer)、溶劑可及性(Rsa,Rsa20)、二級(jí)結(jié)構(gòu)(SS,SS8)和附加特征(Add),并依次測(cè)試了移除氨基酸(Without Seq)、溶劑可及性(Without Rsa)、二級(jí)結(jié)構(gòu)(Without SS)和附加特征(Without Add)時(shí)模型性能,并與所有輸入(All)進(jìn)行比較。

        實(shí)驗(yàn)結(jié)果見(jiàn)表3,可以發(fā)現(xiàn)氨基酸序列對(duì)最終的預(yù)測(cè)性能是最重要的。如果沒(méi)有氨基酸序列,Accuracy、Precision、Recall和MCC分別從0.803、0.802、0.804和0.605下降到0.696、0.779、0.546和0.410,氨基酸序列的重要程度在之前的研究[4]中也得到了驗(yàn)證。其次,溶劑可及性也是重要的,在沒(méi)有它們輸入時(shí),Accuracy、Precision、Recall和MCC分別下降到0.775、0.796、0.738和0.551。此外,相較于其它輸入數(shù)據(jù),二級(jí)結(jié)構(gòu)和附加特征顯得不那么重要,但它們也有利于提高預(yù)測(cè)性能。

        表3 FESOL與移除不同輸入的性能

        此外,展示了提出的FESOL與移除不同組件后的模型的ROC曲線,如圖4所示,所有輸入下FESOL的ROC曲線明顯高于沒(méi)有氨基酸輸入的模型,但是相較于其它模型則高度并不明顯。結(jié)果表明,不同類(lèi)型的輸入數(shù)據(jù)對(duì)蛋白質(zhì)溶解性預(yù)測(cè)產(chǎn)生的作用也是不同的。最關(guān)鍵的數(shù)據(jù)是氨基酸輸入,其它包括溶劑可及性、二級(jí)結(jié)構(gòu)和附加特征僅作為一種改善預(yù)測(cè)性能的輔助信息。

        圖4 FESOL與移除不同輸入的ROC曲線

        3.7 FESOL性能分析

        為了評(píng)估FESOL的預(yù)測(cè)性能,在6個(gè)評(píng)價(jià)指標(biāo)上使用獨(dú)立測(cè)試集將FESOL與3種先進(jìn)的預(yù)測(cè)方法進(jìn)行了比較,包括PaRSnIP、DeepSOL和EPSOL。FESOL訓(xùn)練過(guò)程中的損失收斂曲線如圖5所示,可以發(fā)現(xiàn),訓(xùn)練5輪左右時(shí)模型收斂,取驗(yàn)證集上損失達(dá)到最低的模型,進(jìn)而在測(cè)試集上進(jìn)行性能評(píng)估。

        圖5 損失收斂曲線

        性能預(yù)測(cè)結(jié)果見(jiàn)表4,可以發(fā)現(xiàn)FESOL在所有方法中取得了最高的Accuracy=0.80、MCC=0.60、Selectivity(insoluble)=0.80、Sensitivity(soluble)=0.80。唯一例外的是Selectivity(soluble)=0.84和Sensitivity(insoluble)=0.88兩個(gè)指標(biāo),它們由DeepSol S2產(chǎn)生了最高分?jǐn)?shù)。但是, 在使用Selectivity(insoluble)和Sensitivity(soluble)指標(biāo)評(píng)估時(shí),DeepSol S2的表現(xiàn)卻明顯更低,綜合顯示,F(xiàn)ESOL能夠兼顧到正類(lèi)和類(lèi)負(fù)樣本,性能顯得更加均衡穩(wěn)定。

        表4 FESOL與其它方法的性能

        4 結(jié)束語(yǔ)

        本文提出了用于蛋白質(zhì)溶解性預(yù)測(cè)的多輸入深度學(xué)習(xí)模型FESOL,并在獨(dú)立測(cè)試集上驗(yàn)證了其有效性。該模型巧妙地利用了FAVOR+的線性計(jì)算復(fù)雜度特點(diǎn),從而為更長(zhǎng)的蛋白質(zhì)序列預(yù)測(cè)問(wèn)題提供有效的解決方案。實(shí)驗(yàn)結(jié)果表明,余弦相似度與交叉熵相結(jié)合的增強(qiáng)損失能夠在多輸入數(shù)據(jù)的分類(lèi)問(wèn)題下有助于提高性能。未來(lái),主要工作將探索僅基于原始氨基酸序列的高效模型,在進(jìn)一步提高預(yù)測(cè)能力的同時(shí),更加注重模型簡(jiǎn)潔易用。

        猜你喜歡
        溶解性編碼器損失
        共沉淀引發(fā)的溶解性有機(jī)質(zhì)在水鐵礦/水界面的分子分餾特性*
        少問(wèn)一句,損失千金
        胖胖損失了多少元
        垃圾滲濾液溶解性有機(jī)物的分子指紋特征
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        基于FPGA的同步機(jī)軸角編碼器
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        溶解性有機(jī)質(zhì)對(duì)水中重金屬生物有效性的影響研究
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        一般自由碰撞的最大動(dòng)能損失
        国产精品麻豆成人av电影艾秋| 精品少妇人妻成人一区二区| 免费在线视频一区| 青青青草国产熟女大香蕉| 亚洲美女主播内射在线| 国产专区国产精品国产三级| 国产女同va一区二区三区| 一道本久久综合久久鬼色| 少妇内射兰兰久久| 啪啪无码人妻丰满熟妇| 久久久久99精品国产片| 亚洲精品日韩自慰喷水白浆| 国产高清无码91| 亚洲精品一区二区三区国产 | 日本一二三区在线观看视频| 小雪好紧好滑好湿好爽视频| 国产在线精品一区二区三区直播| 欧美xxxx黑人又粗又长精品| 探花国产精品三级在线播放| av东京热一区二区三区| 久久黄色精品内射胖女人| 亚洲一区二区三区小说| 被群cao的合不拢腿h纯肉视频| 精品亚洲少妇一区二区三区| 成人性生交大片免费看激情玛丽莎| 国产一区二区三区色哟哟| 久久精品国产久精国产果冻传媒| 日韩人妻无码免费视频一区二区三区| 久久99国产亚洲高清| 日本国产精品高清在线| 少妇伦子伦情品无吗| av人摸人人人澡人人超碰妓女 | 野外少妇愉情中文字幕| 国产一级黄色录像| 中文字幕亚洲综合久久久| 国产a∨天天免费观看美女| 秋霞鲁丝片av无码| 精品视频在线观看免费无码 | 国产一区二区三区日韩精品| 成人白浆超碰人人人人| 亚洲www视频|