張倩
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
作為一種重要的生物實(shí)驗(yàn)技術(shù)手段,DNA 測(cè)序(DNA sequencing)在生物學(xué)研究中有著廣泛的應(yīng)用,伴隨著第二代測(cè)序技術(shù)的日趨完善,許多物種已經(jīng)完成了全基因組的從頭測(cè)序。并且近年來(lái),單分子測(cè)序(SMS)技術(shù)已經(jīng)出現(xiàn)了各種重要的應(yīng)用。這些技術(shù)也被稱為第三代測(cè)序技術(shù),產(chǎn)生的測(cè)序讀數(shù)比Illumina的讀數(shù)長(zhǎng)2 到3 個(gè)數(shù)量級(jí)(10-100kbp 對(duì)100-250bp)。較長(zhǎng)的讀數(shù)長(zhǎng)度使得包括Pacific Biosciences(PacBio)和Oxford Nanopore Technology(ONT)在內(nèi)的新的SMS 技術(shù)在解決復(fù)雜的基因組組裝問(wèn)題和檢測(cè)大型結(jié)構(gòu)變異方面具有前所未有的強(qiáng)大功能。
常用的群體遺傳變異鑒定工具有DNSTAR、GATK、samtools、freebayes、SOAPsnp、Varscan2、sambam?ba 等軟件。其中最常用的為GATK、samtools、sambam?ba 和freebayes。這四個(gè)工具中,sambamba 軟件在單樣本數(shù)據(jù)以及多樣本數(shù)據(jù)中,在速度方面均具備顯著優(yōu)勢(shì)。而gatk 軟件只在多樣本數(shù)據(jù)分析上有一定的檢測(cè)速度優(yōu)勢(shì)。而在變異鑒定結(jié)果準(zhǔn)確性方面,samtools 和sambamba 軟件傾向于尋找比較全面的變異,而gatk 和freebayes 軟件則更傾向于尋找準(zhǔn)確性較高的變異[1]。
現(xiàn)在在基因組數(shù)據(jù)中有兩個(gè)比較具體的挑戰(zhàn):新型測(cè)序技術(shù)產(chǎn)生基因數(shù)據(jù)的高特異性和高靈敏度的SNPs 鑒定及indels 鑒定。這兩項(xiàng)任務(wù)對(duì)研究罕見變異、等位基因特異性轉(zhuǎn)錄和翻譯以及剪接位點(diǎn)突變至關(guān)重要。目前的方法對(duì)于Illumina 短read 數(shù)據(jù)中的SNPs 和indel 的精度均在99%以上,然而這些方法會(huì)留下大量潛在的假陽(yáng)性和假陰性。這些方法都依靠專家建立可靠的將信號(hào)與噪聲分開的概率模型,這個(gè)過(guò)程是很耗時(shí)的,從本質(zhì)上講是受限于我們對(duì)于導(dǎo)致噪聲的因素的理解與建模能力。
所以在傳統(tǒng)基因鑒定工具愈發(fā)成熟的加持下,研究人員將目光投向了近些年大展身手的深度學(xué)習(xí)之上,利用深度學(xué)習(xí)來(lái)構(gòu)造由數(shù)據(jù)驅(qū)動(dòng)的無(wú)偏噪聲模型。
深度學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),深度學(xué)習(xí)受到了越來(lái)越多研究者的關(guān)注,它在特征提取和建模上都有著相較于淺層模型顯然的優(yōu)勢(shì)。深度學(xué)習(xí)善于從原始輸入數(shù)據(jù)中挖掘越來(lái)越抽象的特征表示,而這些表示具有良好的泛化能力。它克服了過(guò)去人工智能中被認(rèn)為難以解決的一些問(wèn)題。且隨著訓(xùn)練數(shù)據(jù)集數(shù)量的顯著增長(zhǎng)以及芯片處理能力的劇增[2]。它應(yīng)用于多種領(lǐng)域,包括圖像分類、翻譯、游戲和生命科學(xué)。
深層神經(jīng)網(wǎng)絡(luò)是目前的主要形式,其神經(jīng)元間的連接模式受啟發(fā)于動(dòng)物視覺皮層組織,而卷積神經(jīng)網(wǎng)絡(luò)則是其中一種經(jīng)典而廣泛應(yīng)用的結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的局部連接、權(quán)值共享及池化操作等特性使之可以有效地降低網(wǎng)絡(luò)的復(fù)雜度,減少訓(xùn)練參數(shù)的數(shù)目,使模型對(duì)平移、扭曲、縮放具有一定程度的不變性,并具有強(qiáng)魯棒性和容錯(cuò)能力,且也易于訓(xùn)練和優(yōu)化。基于這些優(yōu)越的特性,它在各種信號(hào)和信息處理任務(wù)中的性能優(yōu)于標(biāo)準(zhǔn)的全連接神經(jīng)網(wǎng)絡(luò)。
采用深度學(xué)習(xí)的算法來(lái)處理基因數(shù)據(jù)并用于基因變異鑒定的核心思想是:基因變異鑒定問(wèn)題也可以轉(zhuǎn)換為分類問(wèn)題,對(duì)于一個(gè)變異候選位點(diǎn)來(lái)說(shuō),其variant call 就是在對(duì)這個(gè)數(shù)據(jù)進(jìn)行分類;因此從基因數(shù)據(jù)中訓(xùn)練出概率模型,再用概率模型去判斷后續(xù)數(shù)據(jù)。
本文中介紹這一核心思想下的兩種深度學(xué)習(xí)使用方法,第一種將格式為bam 的變異基因數(shù)據(jù)和格式為fa 文件的參考序列轉(zhuǎn)換為堆積張量,將堆積張量用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試。第二種采用工具尋找基因數(shù)據(jù)中的特征,并將這些特征矢量化為適合訓(xùn)練網(wǎng)絡(luò)的特征,再用于概率模型的訓(xùn)練。
2016 年12 月Google 旗下的子公司Verily 發(fā)了一篇文章描述了一個(gè)針對(duì)全基因組測(cè)序變異位點(diǎn)(SNP和small indel)檢測(cè)的新算法,這個(gè)算法不同于一般基于統(tǒng)計(jì)方法的軟件,而是利用了卷積神經(jīng)網(wǎng)絡(luò)識(shí)別變異位點(diǎn)[3]。DeepVariant 利用谷歌大腦為圖像分類而訓(xùn)練的神經(jīng)網(wǎng)絡(luò)架構(gòu)Inception v2,將候選SNP 周圍的reads 編碼為221×100 位圖圖像,其中每列是一個(gè)核苷酸,每行是一個(gè)從樣本庫(kù)中讀取的reads 序列。前五行代表參考序列,后95 行代表隨機(jī)抽樣覆蓋了這個(gè)變異候選位點(diǎn)的reads 序列。每個(gè)RGBA 類型的圖像像素將堿基A、C、G、T 編碼為不同的紅色值,質(zhì)量分?jǐn)?shù)編碼為綠色值,正負(fù)鏈信息編碼為藍(lán)色值,與參考序列的變異編碼為alpha 值。
堆積圖選取的編碼信息如下:
(1)base:序列堿基
(2)base quality:堿基質(zhì)量分?jǐn)?shù)
(3)mapping quality:序列比對(duì)質(zhì)量
(4)strand 正反向鏈
(5)supports variant:是否支持alternative allele
(6)supports reference:是否支持reference allele
帶有明確變異位點(diǎn)標(biāo)簽的編碼堆積圖放入13 層網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,此網(wǎng)絡(luò)采用Inception v2 網(wǎng)絡(luò)架構(gòu)。訓(xùn)練好網(wǎng)絡(luò)之后,將沒有標(biāo)簽的變異候選位點(diǎn)堆積圖放入網(wǎng)絡(luò)中,即可進(jìn)行變異鑒定。
神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果為每個(gè)變異候選位點(diǎn)的基因型概率。
圖1 DeepVariant整體過(guò)程
同樣是使用深度學(xué)習(xí)來(lái)處理基因變異鑒定,Remi Torracinta[4]的方法與DeepVariant 卻不一樣。Remi Tor?racinta 設(shè)計(jì)的方法采用Goby 框架來(lái)找到reads 比對(duì)序列和參考序列的特征,并且將這些特征矢量化為適合訓(xùn)練前饋神經(jīng)網(wǎng)絡(luò)的特征和標(biāo)簽。
Matcha 的神經(jīng)網(wǎng)絡(luò)中最核心的是特征映射器,特征映射器將樣本中的對(duì)齊序列轉(zhuǎn)換為一組適合訓(xùn)練神經(jīng)網(wǎng)絡(luò)的固定特征集。不論在基因組上有多少對(duì)齊的reads 序列,映射器都會(huì)產(chǎn)生一個(gè)固定長(zhǎng)度的輸出,這些輸出可以一致性的轉(zhuǎn)換為一個(gè)固定長(zhǎng)度的用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入向量。再每個(gè)基因組位點(diǎn),映射器都會(huì)生成每種基因型的reads 序列的讀數(shù)和reads 序列中支持這個(gè)基因型的不同位置的數(shù)量。每一個(gè)基因組位點(diǎn)會(huì)衍生出數(shù)百個(gè)特征。
對(duì)于標(biāo)簽映射器來(lái)說(shuō),有兩種不同的方法,一種是單獨(dú)調(diào)用等位基因,并對(duì)等位基因的數(shù)量進(jìn)行編碼,另一種類似于DeepVariant。這兩種方法分別適用于任意倍體基因組和二倍體基因組。
模型采用DeepLearning4 框架,并于Goby 框架進(jìn)行集成,網(wǎng)絡(luò)結(jié)構(gòu)為五層網(wǎng)絡(luò)。將對(duì)齊后的基因文件輸入特征和標(biāo)簽映射器,選擇特征映射器,會(huì)在訓(xùn)練集上產(chǎn)生用映射器訓(xùn)練的模型,這個(gè)模型可以用于在測(cè)試集上的基因變異鑒定。
通過(guò)現(xiàn)在出現(xiàn)的兩種不同的用深度學(xué)習(xí)方法來(lái)進(jìn)行基因變異鑒定方法的介紹,筆者對(duì)他們?cè)谧儺愯b定效果和范圍上的優(yōu)缺點(diǎn)做出如表1 對(duì)比分析。
表1 兩種深度學(xué)習(xí)應(yīng)用方法的比較
兩種方式使用了不同的思路來(lái)使用深度學(xué)習(xí)對(duì)基因數(shù)據(jù)進(jìn)行變異鑒定。兩者既有相似之處也有不同之處。兩個(gè)方法最核心的思想是一樣的:從數(shù)據(jù)中訓(xùn)練概率模型,并用這個(gè)概率模型進(jìn)行后續(xù)判斷。不同之處在于:DeepVariant 是將基因數(shù)據(jù)經(jīng)過(guò)編碼轉(zhuǎn)換為堆積圖,再將堆積圖用圖像分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練和鑒定;Matcha 是利用Goby 框架從數(shù)據(jù)中尋找特征,然后手動(dòng)將特征放入網(wǎng)絡(luò)。
DeepVariant 只適用于二倍體生物,而Matcha 可以用于任意倍體生物的基因變異鑒定;DeepVariant 能夠?qū)ふ易儺愵愋椭械腟NPs 和INDEL,而Matcha 專門用于尋找SNPs。
同時(shí)計(jì)算效率上兩者也有較大差異。將數(shù)據(jù)轉(zhuǎn)換為堆積圖,DeepVariant 至少需要使用300 萬(wàn)像素,而Matcha 使用了642 個(gè)浮點(diǎn)表示特征與標(biāo)簽,所以Mat?cha 的數(shù)量級(jí)較小,對(duì)硬件的要求也比較低。
隨著深度學(xué)習(xí)的火熱,基因數(shù)據(jù)研究者也將自己的目光放在了深度學(xué)習(xí)之上。本文對(duì)兩種不同類型的采用深度學(xué)習(xí)進(jìn)行基因變異鑒定的方法進(jìn)行了介紹與對(duì)比,深度學(xué)習(xí)算法有時(shí)是比GTAK 等工具性能更好的。結(jié)合發(fā)展趨勢(shì)與需求,未來(lái)研究工作地重點(diǎn)可能主要包括:
(1)Matcha 類似的需要手動(dòng)尋找特征的方法,雖然有著更廣闊的應(yīng)用范圍,但由于這個(gè)特征集在開發(fā)期間至少要經(jīng)過(guò)15 次的迭代微調(diào),所以這個(gè)模型并不會(huì)泛化。是否有更好地尋找特征集的方法,能夠減少微調(diào)過(guò)程及次數(shù),使這個(gè)模型能夠泛化。
(2)DeepVariant 對(duì)Illumina 數(shù)據(jù)的效果較好,但對(duì)于PacBio 等reads 序列較長(zhǎng)的數(shù)據(jù)來(lái)說(shuō),DeepVariant不是最佳選擇。下一步研究工作,可以著重考慮修改網(wǎng)絡(luò),使其能夠?qū)Φ谌驍?shù)據(jù)和PacBio 等基因數(shù)據(jù)有較好的效果。
(3)DeepVariant 所使用網(wǎng)絡(luò)較大,這導(dǎo)致計(jì)算效率較低,計(jì)算成本較大。今后的研究可以考慮使用不同大小的網(wǎng)絡(luò),使得計(jì)算效率能夠得到較大的提升。
(4)DeepVariant 因?yàn)槠渚幋a信息較多,導(dǎo)致堆積圖像素較大,DeepVariant 的堆積圖是一個(gè)七通道圖像。今后的研究可以考慮選擇編碼哪些關(guān)鍵信息來(lái)更改堆積圖的大小,使得其計(jì)算效率提升的同時(shí)準(zhǔn)確率不會(huì)大幅下降。
利用深度學(xué)習(xí)方法來(lái)進(jìn)行基因變異鑒定仍處于發(fā)展階段,其中還有很多問(wèn)題等待研究者們解決。