俠之大者,為國為民。武俠小說中,大俠往往有奇遇。段譽吞了莽牯朱蛤、郭靖飲下梁子翁的藥蛇血,兩人于是百毒不侵。凡此種種,類似主動免疫(接種疫苗)或被動免疫(血清療法)的原始版本。動物免疫血清用于傳染病治療已有上百年的歷史,德國科學(xué)家馮·貝林因此獲得首枚諾貝爾生理學(xué)與醫(yī)學(xué)獎。當(dāng)前,康復(fù)患者血漿治療新冠肺炎依然有效。這些療法其實質(zhì)是多克隆抗體藥物。從1986 年美國食品藥品監(jiān)督管理局批準(zhǔn)第1 個單克隆抗體藥物迄今,全球上市的單抗藥已有上100 個,廣泛用于腫瘤、自身免疫性疾病、傳染病等各類疾病的治療。近十年來,全球最暢銷的十大藥物中,抗體藥物每每占據(jù)半壁甚至更多江山。阿達木單抗常年蟬聯(lián)最暢銷藥物之首,年度銷售額近200 億美元。因此,開發(fā)單抗藥物,為國為民,不僅緩解人類病痛,還能推動社會經(jīng)濟發(fā)展。
雖然開發(fā)單抗藥物的成功率高于傳統(tǒng)化學(xué)藥物,但仍是萬里挑一。近年來,抗體可開發(fā)性預(yù)測已成為生物信息學(xué)研究的一個熱點。早期預(yù)測抗體可開發(fā)性可減少研發(fā)成本,加快研發(fā)進程,降低市場價格,利國利民。該領(lǐng)域的經(jīng)典研究是所謂的可開發(fā)性指數(shù)(DI)計算,相應(yīng)方法已整合到價格不菲的DS 軟件平臺中。然而,貴不見得好。該方法基于同源建模得到的抗體結(jié)構(gòu),運算速度慢,結(jié)果也常不靠譜。這篇論文基于抗體序列,繞過結(jié)構(gòu),直接預(yù)測抗體的交叉或自身相互作用,而這些互作會直接影響抗體的可開發(fā)性。相應(yīng)預(yù)測模型速度飛快,可處理大規(guī)模抗體數(shù)據(jù),開發(fā)的網(wǎng)絡(luò)程序CISI2.0 自由免費。但這還遠遠不夠。
最近,百度旗下的生物信息公司百圖生科與清華大學(xué)智能產(chǎn)業(yè)研究院正在合作舉辦2021 全球抗體親和力預(yù)測大賽,任務(wù)是根據(jù)抗原和抗體的氨基酸序列預(yù)測抗體?抗原結(jié)合的親和力。廣義上講,親和力是開發(fā)抗體藥的前提,因此,預(yù)測可開發(fā)性首先要預(yù)測抗體?抗原結(jié)合的親和力。我們期待包括親和力預(yù)測在內(nèi)的更多更好的抗體可開發(fā)性預(yù)測方法與工具的問世,讓生物信息的學(xué)子們能為國為民做出自己的貢獻!
當(dāng)前,生命科學(xué)正處于第三次革命中,關(guān)注于生物信息存儲、傳輸與表達,是理解“生命是什么”的最佳契機。生物醫(yī)學(xué)也處于一個百花開放、百家爭鳴的時代,“生物信息學(xué)”“系統(tǒng)生物學(xué)”“合成生物學(xué)”等多個學(xué)科快速發(fā)展,“Hi-C”“單細胞”“相分離”“焦亡”等是當(dāng)前分子生物學(xué)領(lǐng)域最火的名詞。
分子生物學(xué)的研究大都繞不開“基因的表達”。調(diào)控基因表達最關(guān)鍵的調(diào)控元件就是啟動子,它負(fù)責(zé)和RNA 聚合酶的特異性結(jié)合,從而轉(zhuǎn)錄出RNA。因此,開發(fā)能夠準(zhǔn)確識別啟動子的模型,對于研究基因的表達意義重大。該文章對2005 年以來開發(fā)的39 個用于原核啟動子識別的計算工作進行了總結(jié)和展望。論文對已發(fā)表的用于原核啟動子識別的基準(zhǔn)數(shù)據(jù)集進行了搜集和整理,整理得到的資料為將來如何構(gòu)建合理的、具有代表性的訓(xùn)練和測試數(shù)據(jù)提供了參考;進而,對廣泛使用的DNA 序列描述符進行了介紹,這些DNA 序列特征提取方法不但可以用原核啟動子的預(yù)測,也可以用于其他DNA 調(diào)控元件的表征;再次,是關(guān)于序列特征的優(yōu)化算法應(yīng)用,包括基于信息論的mRMR 和基于概率論的F-Score 等算法,如何將這些算法的優(yōu)點結(jié)合,是提高啟動子識別精度的一個途徑;最后是關(guān)于機器學(xué)習(xí)方法的應(yīng)用。
目前,盡管已經(jīng)對原核啟動子預(yù)測的研究取得了較滿意的結(jié)果,但這些模型僅限于大腸桿菌等少數(shù)幾個模式生物。將這些方法用于更多的物種上,構(gòu)建合適的模型,也是未來的發(fā)展方向。希望該文章能為更多學(xué)者就此問題研究時,提供新思路、新角度。