亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        CISI2.0:更好的抗體交叉或自身相互作用預(yù)測(cè)工具

        2021-10-13 04:51:02周雨薇岳鵬黃健
        關(guān)鍵詞:二肽開(kāi)發(fā)性特征提取

        周雨薇,岳鵬,黃健*

        (1.電子科技大學(xué)生命科學(xué)與技術(shù)學(xué)院 成都 611731;2.成都東軟學(xué)院健康醫(yī)療科技學(xué)院 成都 611844)

        抗體(antibody)是指機(jī)體內(nèi)一類能識(shí)別外來(lái)潛在有害分子的表面并與之特異性結(jié)合,從而引發(fā)適應(yīng)性免疫反應(yīng)的免疫球蛋白(immunoglobulin,Ig)[1]。抗體在脊椎動(dòng)物的免疫防御系統(tǒng)中起著不可或缺的作用[2],在重大疾病的預(yù)防、診斷與治療中也起著至關(guān)重要的作用[3]。在臨床實(shí)踐中,單克隆抗體(monoclonal antibody,mAb)的出現(xiàn)對(duì)癌癥和自身免疫性疾病的治療產(chǎn)生了革命性的影響,不少化學(xué)小分子不能作用的蛋白成為抗體藥物的高效靶標(biāo)。由于二代測(cè)序、噬菌體展示等技術(shù)的發(fā)展,抗體藥物產(chǎn)業(yè)進(jìn)入飛速發(fā)展的時(shí)代。單克隆抗體的結(jié)合特異性、安全性、構(gòu)象穩(wěn)定、可制造性等多種特性,使其成為目前最大的一類生物治療藥物[1]。據(jù)統(tǒng)計(jì),美國(guó)FDA 批準(zhǔn)上市的抗體藥已多達(dá)100 種[4],全球正在進(jìn)行I、II 期臨床試驗(yàn)的抗體藥物超過(guò)550 種,另有79 種已進(jìn)入開(kāi)發(fā)最后階段[5]。全球抗體藥物占據(jù)著巨大的市場(chǎng)份額,2018 年全球最暢銷的藥品TOP10 中,就有8 種是抗體藥物,當(dāng)年抗體的全球市場(chǎng)價(jià)值為1152 億美元,預(yù)計(jì)2025年能達(dá)到3000 億美元[6]。無(wú)論從臨床價(jià)值還是產(chǎn)業(yè)角度,抗體藥物相關(guān)的研究在生物醫(yī)藥行業(yè)的熱度會(huì)持續(xù)增長(zhǎng)。雖然抗體產(chǎn)業(yè)發(fā)展如此迅猛,但進(jìn)入臨床試驗(yàn)階段的人源或人源化治療性抗體最終能夠成功開(kāi)發(fā)上市的只有15%左右[7]。不少抗體由于低表達(dá)、低穩(wěn)定性、高聚集、存在交叉或自身相互作用等問(wèn)題導(dǎo)致研發(fā)失敗。許多相互依存的因素影響著治療性抗體的成功開(kāi)發(fā),而選擇具有良好理化特性的候選藥能為后續(xù)研發(fā)奠定良好基礎(chǔ)??砷_(kāi)發(fā)性(developability)評(píng)估[8]的主要目標(biāo)是嚴(yán)格評(píng)估單克隆抗體候選物的生化和生物物理特性,并選擇開(kāi)發(fā)風(fēng)險(xiǎn)低的抗體分子。

        目前,對(duì)抗體生物物理與生物化學(xué)特性進(jìn)行測(cè)試已有多種相關(guān)實(shí)驗(yàn)方法,如反映抗體的粘度、聚集傾向、溶解度的直立單層色譜(SMAC)、體積排除色譜(SEC)、親和捕獲自相互作用納米顆粒光譜(AC-SINS)、克隆自相互作用生物膜干涉(CSIBLI)、疏水相互作用色譜(HIC);反應(yīng)抗體結(jié)合特異性的常見(jiàn)抗原或桿狀病毒顆粒(BVP)的酶聯(lián)免疫吸附試驗(yàn)(ELISA)、多特異性試劑結(jié)合試驗(yàn)(PSR);反映抗體熱穩(wěn)定性的差示掃描熒光(TmDSF)等[9]。文獻(xiàn)[10]對(duì)被批準(zhǔn)上市或處于II、III 期臨床試驗(yàn)的137 個(gè)抗體進(jìn)行了12 種實(shí)驗(yàn)測(cè)定,給每項(xiàng)實(shí)驗(yàn)中表現(xiàn)最差的10%的抗體標(biāo)記一項(xiàng)缺陷。結(jié)果顯示,約2/3 的上市抗體沒(méi)有缺陷,而二期臨床試驗(yàn)中的抗體約2/3 有一項(xiàng)或以上缺陷。這一觀察結(jié)果提示了大規(guī)模測(cè)試綜合評(píng)估抗體理化特性,可作為候選抗體的可開(kāi)發(fā)性評(píng)估標(biāo)志[10]。然而,通過(guò)實(shí)驗(yàn)評(píng)估抗體藥物可開(kāi)發(fā)性相關(guān)理化性質(zhì)費(fèi)事費(fèi)錢費(fèi)力。相較而言,計(jì)算方法更省時(shí)省錢[11?12]。

        對(duì)抗體理化性質(zhì)進(jìn)行預(yù)測(cè)在近年來(lái)迅速成為免疫信息學(xué)研究的熱點(diǎn)。文獻(xiàn)[13]對(duì)12 種抗體的長(zhǎng)期穩(wěn)定性進(jìn)行了為期2 年的測(cè)量,他們計(jì)算抗體凈電荷、空間聚集屬性(spatial aggregation propensity,SAP)分?jǐn)?shù),從中得出了可開(kāi)發(fā)性指數(shù)(developability index,DI),并證明了其與抗體的聚集屬性密切相關(guān)。然而,DI 基于抗體晶體結(jié)構(gòu)或同源建模形成的理論結(jié)構(gòu)進(jìn)行計(jì)算,速度較慢,結(jié)果受理論預(yù)測(cè)模型精度的影響較大。文獻(xiàn)[14]僅基于序列預(yù)測(cè)抗體聚集傾向,最佳模型的AUC 為0.76,性能欠佳,且收費(fèi)使用。文獻(xiàn)[15]僅根據(jù)抗體序列,采用支持向量機(jī)訓(xùn)練了能能預(yù)測(cè)抗體交叉或自身相互作用的模型CISI,準(zhǔn)確率可達(dá)到88.20%,該模型可快速高通量地評(píng)估影響抗體可開(kāi)發(fā)性的交叉或自身相互作用,缺點(diǎn)是模型中所含的特征數(shù)過(guò)多,容易導(dǎo)致過(guò)擬合,泛化性較弱。

        針對(duì)上述問(wèn)題,本文提出一個(gè)新的模型,用于預(yù)測(cè)抗體的交叉或自身相互作用,并提供了免費(fèi)在線服務(wù)工具。該模型可作為抗體可開(kāi)發(fā)性評(píng)估流程中的一個(gè)環(huán)節(jié),以便研究者快速篩選出可開(kāi)發(fā)性較高的候選抗體,加快研究進(jìn)程,降低研發(fā)成本。

        1 數(shù)據(jù)與預(yù)處理

        1.1 數(shù)據(jù)來(lái)源

        本文所使用的數(shù)據(jù)下載自文獻(xiàn)[10],包括48 條已被批準(zhǔn)的和89條處于臨床II、III 試驗(yàn)的抗體序列信息以及已被廣泛運(yùn)用于抗體理化性質(zhì)測(cè)定的12 種實(shí)驗(yàn)檢測(cè)的結(jié)果。本文采用多特異性試劑結(jié)合試驗(yàn)(poly-specificity reagent,PSR)、交叉作用色譜(cross-interaction chromatography,CIC)、克隆自相互作用生物膜干涉測(cè)定(clone self-interaction by biolayer interferometry,CSI-BLI)、親和捕獲自相互作用納米顆粒光譜(affinity-capture self-interaction nanoparticle spectroscopy,AC-SINS)4 個(gè)指標(biāo)對(duì)抗體的交叉或自身相互作用進(jìn)行綜合評(píng)估。

        1.2 數(shù)據(jù)預(yù)處理

        為保證數(shù)據(jù)的準(zhǔn)確性,有沖突記錄的6 條抗體序列被排除。將抗體重鏈可變區(qū)與輕鏈可變區(qū)連接(重鏈在前,輕鏈在后)作為抗體的序列。文獻(xiàn)[10]對(duì)給每項(xiàng)實(shí)驗(yàn)中表現(xiàn)最差的10%的抗體標(biāo)記一項(xiàng)缺陷,當(dāng)實(shí)驗(yàn)數(shù)據(jù)超過(guò)或低于該閾值時(shí),該抗體則標(biāo)記為一項(xiàng)缺陷。根據(jù)缺陷數(shù),將抗體分為正負(fù)樣本,至少有一項(xiàng)缺陷的為正樣本。4 種實(shí)驗(yàn)的閾值如表1 所示,最終得到85 條陰性樣本(未顯示缺陷標(biāo)記),46 條陽(yáng)性樣本,每條抗體的標(biāo)記情況詳見(jiàn)圖1。CIC、CIS、AC-SINS、PSR:1 表示該實(shí)驗(yàn)方法測(cè)出的結(jié)果顯示抗體有缺陷,0 表示沒(méi)有缺陷。flags:每種缺陷標(biāo)記之和,大于等于1 時(shí)抗體為陽(yáng)性樣本,等于0 時(shí)抗體為陰性樣本。在機(jī)器學(xué)習(xí)中,正負(fù)樣本不平衡是一個(gè)常見(jiàn)的問(wèn)題,多數(shù)量樣本所含有的信息量較大,會(huì)對(duì)分類器學(xué)習(xí)過(guò)程造成影響。為解決該問(wèn)題,85 條陰性樣本被隨機(jī)分為包含42、43 條抗體的兩組,再分別與46 條陽(yáng)性樣本組成兩個(gè)相對(duì)平衡的子數(shù)據(jù)集(group1、group2),分別構(gòu)建模型,最后集成模型預(yù)測(cè)抗體的交叉或自身相互作用。

        表1 4 種評(píng)估抗體交叉或自身相互作用的實(shí)驗(yàn)閾值

        圖1 每個(gè)抗體交叉或自身相互作用的缺陷標(biāo)記熱圖

        2 分析方法

        2.1 特征提取

        目前機(jī)器學(xué)習(xí)技術(shù)已越來(lái)越多的用于DNA、RNA、蛋白質(zhì)序列分析,但其輸入必須是數(shù)值而不能是字符。構(gòu)建一個(gè)高效的預(yù)測(cè)工具,除了基準(zhǔn)數(shù)據(jù)集可靠之外,使用適當(dāng)?shù)姆椒ǎ瑢⑿蛄袛?shù)據(jù)無(wú)失真地轉(zhuǎn)為數(shù)值表達(dá),以描述他們與結(jié)構(gòu)和功能屬性的內(nèi)在關(guān)聯(lián)也是至關(guān)重要的[16]?;诖罅繉?shí)驗(yàn),本研究選擇二肽與期望均值的偏差(dipeptide deviation from expected mean,DDE)[17]來(lái)提取序列特征。氨基酸頻率與各自期望平均值的偏差值由文獻(xiàn)[18]提出,用于確定蛋白質(zhì)的親緣關(guān)系。編碼20 種氨基酸的密碼子數(shù)有所不同,理論上,編碼相鄰的兩個(gè)氨基酸的密碼子數(shù)目越多,該二肽組分出現(xiàn)的頻率越大,DDE 反應(yīng)了二肽組分出現(xiàn)的頻率與期望值偏差,DDE 絕對(duì)值越大,說(shuō)明該二肽組分與理論值偏差較大,能夠揭示特定蛋白質(zhì)序列的潛在標(biāo)志。DDE 通過(guò)計(jì)算二肽組分Dc、理論均值Tm和理論方差Tv3 個(gè)參數(shù)構(gòu)建DDE 特征向量,具體計(jì)算過(guò)程如下:

        式中,Nrs是由r 和s 型氨基酸所代表的二肽的數(shù)量;N是蛋白質(zhì)或肽的長(zhǎng)度。

        式中,對(duì)于給定的二肽r、s,Cr是編碼第一個(gè)氨基酸r的密碼子數(shù)量;Cs是編碼第二個(gè)氨基酸s的密碼子數(shù)量;CN是密碼子總數(shù),除去3 個(gè)終止密碼子,編碼氨基酸的密碼子數(shù)CN=61。根據(jù)理論均值Tm,即可算出理論方差Tv:

        DDE 可被定義為:

        對(duì)于400 種二肽組成,均計(jì)算他們之間DDE,最終可得到一個(gè)400 維的特征向量,可表示為:

        除此之外,為比較不同的特征提取算法,使用iFeature 軟件包[19]計(jì)算了包括AAC,DPC,TPC,CKSAAP,DDE,GAAC,CKSAAGP,GDPC,GTPC,Moran,Geary,NMBroto,CTDC,CTDT,CTDD,CTriad,KSCTriad,SOCNumber,QSOrder,PAAC這20 種特征描述符,除了上述詳細(xì)介紹的DDE 之外,其余算法的具體過(guò)程以及用法的參數(shù)解釋均在iFeature 的操作手冊(cè)中有詳細(xì)介紹,這里便不再贅述。

        2.2 特征選擇

        特征選擇(feature selection,FS)也稱特征子集選擇,指從已有的所有M個(gè)特征中,選擇出N(N

        目前,研究者已提出許多有效的特征選擇方法用于降維。集成學(xué)習(xí)方法已應(yīng)用到了包括生物信息在內(nèi)的眾多領(lǐng)域中,該方法結(jié)合多個(gè)單一技術(shù)來(lái)解決相同的問(wèn)題,旨在克服單一技術(shù)的弱點(diǎn),同時(shí)保留各個(gè)技術(shù)的優(yōu)勢(shì)[20]。文獻(xiàn)[21]基于PageRank 算法,開(kāi)發(fā)了一種集成排序的方法MRMD2.0,用于特征排序與降維。MRMD2.0 首先計(jì)算得出不同的特征排序;然后將所有的排序用有向圖表示(a→b表示特征b比特征a重要,得到一個(gè)鏈接列表),使用PageRank 得到每個(gè)特征的新排名;最后采用序列前向選擇,從中篩選出最優(yōu)特征子集。

        2.3 分類算法

        支持向量機(jī)(support vector machine,SVM)是由文獻(xiàn)[22]在1995 年首次提出的用于分類與回歸分析中一種監(jiān)督式學(xué)習(xí)模型與相關(guān)學(xué)習(xí)算法。SVM 的基本思想是在空間中找出間隔最大的、能正確劃分正負(fù)樣本的超平面。在線性可分的情況下,樣本點(diǎn)中與超平面距離最近的點(diǎn)稱為“支持向量”,其余的樣本點(diǎn)稱為“非支持向量”。非支持向量的移動(dòng)與刪除不會(huì)對(duì)最優(yōu)超平面產(chǎn)生影響,即支持向量對(duì)模型起著決定性的作用。支持向量機(jī)能有效解決實(shí)際問(wèn)題中樣本較少但特征維度較高的問(wèn)題,它具有的另一個(gè)優(yōu)勢(shì)是,在線性不可分的情況下,使用核函數(shù),即使用核變換將原數(shù)據(jù)隱式映射到新的空間,然后在新空間里用線性方法,找超平面將樣本分開(kāi)。支持向量機(jī)靈活多變,深受各個(gè)領(lǐng)域的研究者喜愛(ài),目前已應(yīng)用于(超)文本分類、圖像分類、金融預(yù)測(cè)、生物信息學(xué)[23-25]等相關(guān)領(lǐng)域。鑒于SVM 處理分類問(wèn)題的出色表現(xiàn),許多團(tuán)隊(duì)基于SVM 開(kāi)發(fā)了軟件包,以便研究者使用。LIBSVM 是文獻(xiàn)[26]開(kāi)發(fā)的一個(gè)操作簡(jiǎn)單、快速有效的開(kāi)源軟件包,本課題使用該軟件包來(lái)構(gòu)建模型。

        2.4 模型評(píng)價(jià)

        為了直觀地衡量一個(gè)分類預(yù)測(cè)器的好壞,需要引入一些指標(biāo)參數(shù)對(duì)模型進(jìn)行評(píng)估,對(duì)于分類問(wèn)題,常用的評(píng)價(jià)指標(biāo)有:敏性感(sensitivity,Sn)、特異性(specificity,Sp)、準(zhǔn)確率(accuracy,ACC)、馬氏相關(guān)系數(shù)(MCC)等。其中Sn 與Sp 只能表示對(duì)一類樣本的預(yù)測(cè)能力。ACC 代表了模型的整體預(yù)測(cè)準(zhǔn)確度。MCC 是一個(gè)相對(duì)平衡的預(yù)測(cè)評(píng)價(jià)指標(biāo),它綜合考慮了TP、TN、FP 和FN,避免了樣本不平衡偏差。相關(guān)的計(jì)算公式如下:

        此外,本文使用了ROC 曲線下面積(area under curve,AUC)作為模型評(píng)估的另一項(xiàng)指標(biāo)。ROC曲線即受試者工作特征曲線(receiver operating characteristic curve),是一個(gè)以在不同條件下的1-Sp 為橫坐標(biāo),Sn 為縱坐標(biāo)繪制的二維曲線。AUC 的值介于0~1。ROC 曲線越靠近左上角,即曲線下面積越大時(shí),模型的預(yù)測(cè)性能越好。實(shí)際情況中,AUC 的取值在0.5~1;該值與Sn、Sp、ACC 等指標(biāo)不同,不受預(yù)測(cè)閾值的影響,是一個(gè)更具可比性的反映模型好壞的指標(biāo)。

        3 實(shí)驗(yàn)結(jié)果

        3.1 基于DDE 特征的模型預(yù)測(cè)結(jié)果

        將用于預(yù)測(cè)抗體交叉或自身相互作用的數(shù)據(jù)分為兩組(group1、group2),分別進(jìn)行DDE 特征提取,并使用MRMD2.0 降維,最終第一組得到的特征數(shù)為86、第二組特征數(shù)為152。將最優(yōu)特征子集組成的特征空間作為輸入,得到group1 與group2 兩組數(shù)據(jù)的最優(yōu)模型參數(shù)c、g值(表2),當(dāng)c與g取最優(yōu)值時(shí),兩個(gè)模型的留一交叉檢驗(yàn)ACC 分別為72.72%與82.02%。接下來(lái)分別訓(xùn)練SVM 子模型(CISI1 與CISI2),表3 中列出了兩個(gè)SVM 子模型的詳細(xì)預(yù)測(cè)結(jié)果。

        表2 兩組數(shù)據(jù)的最優(yōu)c、g 值與模型的準(zhǔn)確率

        表3 兩組數(shù)據(jù)集基于留一法交叉檢驗(yàn)的預(yù)測(cè)模型評(píng)估指標(biāo)

        上述結(jié)果中,子模型的準(zhǔn)確率最高僅能達(dá)到82.02%,本文采用集成方法得到集成模型,提高預(yù)測(cè)效能,集成策略為:將所有樣本作為每個(gè)子模型的輸入,每個(gè)樣本得到兩個(gè)預(yù)測(cè)結(jié)果以及其屬于該類別的概率,對(duì)兩個(gè)概率值求平均得到最終的概率均值,作為判斷樣本類別的標(biāo)準(zhǔn)(閾值為0.5)。如表4 所示,當(dāng)集成模型時(shí),對(duì)抗體交叉或自身相互作用的預(yù)測(cè)準(zhǔn)確率能達(dá)到96.18%,敏感性能夠提升到100.00%,AUC 為0.9699,結(jié)果表明集成模型是預(yù)測(cè)抗體自相互作用與交叉相互作用的更優(yōu)模型。

        表4 抗體交叉或自身相互作用集成模型的預(yù)測(cè)結(jié)果

        3.2 DDE 特征

        為了確定與抗體交叉或自身相互作用密切相關(guān)的特征,表5 列出了兩個(gè)子模型中共同包含的DDE 特征,共45 個(gè)。這些DDE 特征中所包含的氨基酸,多為疏水的非極性氨基酸。其中共有11 個(gè)在正樣本組與負(fù)樣本組之間有著較高的DDE差異比率(>2 或<0.5)如表6 所示,結(jié)果顯示,在正負(fù)樣本間DDE 差異比率最大的二肽組分為TN、FN、GA、NP、WT、DR。在具有交叉或自身相互作用的抗體中,TN 的DDE 值為負(fù)樣本組的25.914倍,而NP 的DDE 值明顯降低,僅為負(fù)樣本組的0.067 倍。這說(shuō)明當(dāng)表6 中列出的二肽組分的出現(xiàn)的頻率偏離了期望值時(shí),抗體更易出現(xiàn)交叉或自身相互作用缺陷,在開(kāi)發(fā)前期需要盡早淘汰。

        表5 CISI1 與CISI2 共有的DDE 特征

        表6 正樣本組與負(fù)樣本組的平均DDE 差異比率

        3.3 不同特征提取算法的比較

        為了更為全面地評(píng)價(jià)不同特征提取算法的預(yù)測(cè)效果,使用了iFeature 包中的其余19 種方法對(duì)相同分組的數(shù)據(jù)進(jìn)行特征提取,MRMD2.0 篩選特征子集,建立SVM 模型,同樣采用投票策略集成預(yù)測(cè)器,從特征維度,分類器效能方面比較不同的特征提取算法對(duì)識(shí)別抗體交叉或自身相互作用的影響。

        MRMD2.0 對(duì)每類特征進(jìn)行降維后的結(jié)果如圖2 所示,圖中橫坐標(biāo)括號(hào)里為原始特征維度。僅從特征數(shù)量看,在預(yù)測(cè)精度提升的前提下,多數(shù)的特征在兩個(gè)子數(shù)據(jù)集中都被減少了60%以上,如:TPC、DDE、CKSAAP、CTriad、GTPC、KSCTriad。部分特征,如CKSAAP、CKSAAGP,存在著在兩個(gè)數(shù)據(jù)集中維度相差較大的情況,同樣說(shuō)明這些特征容易受樣本的影響,缺乏泛化性。

        圖2 MRMD2.0 降維結(jié)果

        好的特征不僅在數(shù)量上要少,同時(shí)還能保證模型的效能。20 種特征提取算法得到的數(shù)據(jù)建立集成模型的具體預(yù)測(cè)結(jié)果如表7。基于DDE 特征得到模型的Sn、Sp、ACC、MCC 與AUC 均為最高,因此,在綜合特征維度以及集成分類器的分能效能考慮之后,認(rèn)為DDE 這類特征能夠作為預(yù)測(cè)抗體的交叉或自身相互作用的重要標(biāo)志。

        表7 20 種特征提取算法構(gòu)建的集成預(yù)測(cè)器的結(jié)果

        3.4 與已發(fā)表的模型相比

        本課題組在之前的研究中,構(gòu)建了預(yù)測(cè)抗體交叉或自身相互作用的集成模型CISI,數(shù)據(jù)預(yù)處理過(guò)程與本文相同,但隨機(jī)分組樣本不同。該模型使用的特征提取方法為三肽組分(TPC),特征選擇方法為f-score,基于兩個(gè)SVM 集成最終的預(yù)測(cè)模型。子模型分別包含了356、346 個(gè)特征,準(zhǔn)確率分別為86.52%與89.89%,集成模型的準(zhǔn)確率為88.20%。CISI 模型中包含的特征數(shù)遠(yuǎn)遠(yuǎn)超過(guò)了樣本數(shù),易造成過(guò)擬合現(xiàn)象,模型泛化性低。本研究中使用不同的特征提取、特征選擇方法進(jìn)行改進(jìn),從特征層面與模型效能層面與CISI 比較,由于CISI 與本文對(duì)正負(fù)樣本的定義相反,本文將敏感性定義為對(duì)有缺陷的樣本的識(shí)別能力,對(duì)原文中的敏感性特異性進(jìn)行轉(zhuǎn)換。

        如表8 所示,CISI 使用了TPC 特征,兩個(gè)子模型的特征數(shù)為300 以上,而CISI2.0 使用DDE特征,模型用了更少的特征數(shù),敏感性、特異性、ACC、AUC 均得到了提升,其中敏感性達(dá)到了100%,CISI2.0 能識(shí)別出所有具有交叉或自身相互作用缺陷的抗體,而CISI 的敏感性僅為86.05%。綜上,認(rèn)為相對(duì)于CISI,CISI2.0 是預(yù)測(cè)抗體交叉或自身相互作用的更優(yōu)模型。

        表8 CISI 與CISI2.0 在特征與模型層面的比較

        3.5 在線服務(wù)

        上述特征提取、特征篩選、模型構(gòu)建等過(guò)程,都是使用命令或腳本完成處理的,為了方便研究人員使用本文構(gòu)建的預(yù)測(cè)模型,需要開(kāi)發(fā)一個(gè)用戶友好的在線網(wǎng)頁(yè)服務(wù)器。利用HTML、CSS、PHP、JavaScript、Python 等語(yǔ)言將CISI2.0 集成模型開(kāi)發(fā)為在線服務(wù)工具,用戶可通過(guò)以下鏈接訪問(wèn)并使用此工具:http://i.uestc.edu.cn/CISI2/。CISI2.0 的主頁(yè)如圖3,要求用戶分別輸入FASTA 格式的重鏈與輕鏈序列數(shù)據(jù),點(diǎn)擊“Predict”,在結(jié)果頁(yè)面會(huì)返回每條抗體的預(yù)測(cè)結(jié)果,頁(yè)面上方有結(jié)果說(shuō)明。

        圖3 CISI2.0 在線工具主頁(yè)面

        4 結(jié)束語(yǔ)

        進(jìn)行單克隆抗體藥物的可開(kāi)發(fā)性評(píng)估,對(duì)治療性抗體開(kāi)發(fā)具有指導(dǎo)意義。在早期篩選出具有良好理化性質(zhì)的先導(dǎo)抗體有助于提高后期開(kāi)發(fā)的成功率,降低研發(fā)成本。因此,本文以臨床II、III 期或已批準(zhǔn)上市的137 條抗體序列與實(shí)驗(yàn)數(shù)據(jù)為基礎(chǔ),建立模型預(yù)測(cè)抗體交叉或自身相互作用。首先,根據(jù)實(shí)驗(yàn)測(cè)定值,將抗體序列劃分為正負(fù)樣本集,為了避免數(shù)據(jù)集不平衡的情況,將負(fù)樣本分成與正樣本數(shù)量相當(dāng)?shù)慕M,分別與正樣本組成子數(shù)據(jù)集。然后采用DDE 算法提取序列特征,MRMD2.0篩選最優(yōu)特征子集,最后構(gòu)建基于SVM 的集成模型。最終模型的敏感性達(dá)到100%,準(zhǔn)確率為96.18%。為了探究DDE 是否為最適特征,本文與其余19 種特征提取算法進(jìn)行了比較,基于DDE 特征構(gòu)建的模型,特征數(shù)較少,并且各項(xiàng)評(píng)價(jià)指標(biāo)均為最好,所以認(rèn)為DDE 能作為預(yù)測(cè)抗體交叉或自身相互作用的重要標(biāo)志。除此之外,與已發(fā)表的模型相比,CISI2.0 在使用較少特征的基礎(chǔ)上,提高了模型的預(yù)測(cè)準(zhǔn)確率,降低了過(guò)擬合風(fēng)險(xiǎn)。

        當(dāng)然,本文仍有一些不足:數(shù)據(jù)的規(guī)模和質(zhì)量直接關(guān)系到任何一種機(jī)器學(xué)習(xí)模型的最終效能,獲得可靠的數(shù)據(jù)以及正負(fù)樣本的構(gòu)建標(biāo)準(zhǔn)是建立模型最重要的基礎(chǔ)。本研究中所用抗體樣本量有限,無(wú)法進(jìn)行獨(dú)立驗(yàn)證。因此,需要跟進(jìn)抗體數(shù)據(jù)庫(kù)、相關(guān)文獻(xiàn)的更新,以及關(guān)注抗體行業(yè)的發(fā)展,收集更多的抗體數(shù)據(jù),使得樣本含量小、樣本不平衡的情況得以解決。此外,集成學(xué)習(xí)已經(jīng)成為分類算法的主流。本研究的集成模型中,每個(gè)基分類器都是SVM 模型,可以考慮嘗試新的集成方法,同樣的數(shù)據(jù),用不同的機(jī)器學(xué)習(xí)算法構(gòu)建模型,最后將不同方法的基分類器集成。

        最后,希望本文提出的算法流程以及構(gòu)建的預(yù)測(cè)模型能夠?qū)υu(píng)估抗體可開(kāi)發(fā)性相關(guān)領(lǐng)域提供借鑒與幫助,能作為抗體可開(kāi)發(fā)性評(píng)估流程的一個(gè)環(huán)節(jié)。接下來(lái)的工作將著眼于其余影響抗體可開(kāi)發(fā)性的重要因素,從結(jié)構(gòu)、安全性、可制造性等,全面對(duì)抗體的可開(kāi)發(fā)性進(jìn)行評(píng)估。

        猜你喜歡
        二肽開(kāi)發(fā)性特征提取
        大型海藻中環(huán)二肽類抑藻活性化合物的分離純化
        科技型中小企業(yè)開(kāi)發(fā)性金融融資戰(zhàn)略的相關(guān)研究
        左旋多巴與脯氨酸或谷氨酸構(gòu)成的環(huán)二肽的合成及其DPPH自由基清除活性測(cè)試
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        電化學(xué)發(fā)光分析法測(cè)定糖尿病相關(guān)二肽
        開(kāi)發(fā)性核電廠廠址保護(hù)工作探索與初步實(shí)踐
        Bagging RCSP腦電特征提取算法
        二肽的生物合成及應(yīng)用研究進(jìn)展
        開(kāi)發(fā)性金融支持現(xiàn)代農(nóng)業(yè)示范區(qū)建設(shè)的實(shí)踐與探索
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        成视频年人黄网站免费视频| 亚洲欧洲久久久精品| 亚洲AV无码成人精品区网页| 8090成人午夜精品无码| 亚洲一区二区国产精品视频| 国产精品毛片av一区二区三区| 日本二区三区在线免费| 校园春色综合久久精品中文字幕| 久久99国产精品久久99| 亚洲第一页综合图片自拍| 欧美不卡视频一区发布| 欧美日韩亚洲成色二本道三区| 日韩精人妻无码一区二区三区| 久久久成人av毛片免费观看| 香港三级日本三韩级人妇久久| 91中文人妻熟女乱又乱| 射精专区一区二区朝鲜| 中文无码乱人伦中文视频在线v| 美女视频一区| 99福利影院| 日本人妻三级在线观看| 亚洲男人综合久久综合天堂| 少妇被又大又粗又爽毛片 | 中文字幕精品人妻丝袜| 日韩有码中文字幕在线观看| 97久久综合区小说区图片区| 无遮挡又黄又刺激又爽的视频| 久热这里只有精品99国产| 26uuu欧美日本在线播放| 国产黄色三级三级三级看三级| 亚洲av一区二区三区色多多| 2019最新中文字幕在线观看| 亚洲精品久久久久久久久av无码 | 国产精品一卡二卡三卡| av手机天堂在线观看| 久久综合九色综合97婷婷| 爱情岛论坛亚洲永久入口口| 亚洲午夜精品久久久久久人妖| 亚洲人成综合网站在线| 欧美xxxxx精品| 一区二区三区在线日本视频|