亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基因變異鑒定的深度學(xué)習(xí)方法與研究展望

2021-04-25 05:24:12張倩

現(xiàn)代計(jì)算機(jī) 2021年6期

張倩

（四川大學(xué)計(jì)算機(jī)學(xué)院，成都610065）

0 引言

作為一種重要的生物實(shí)驗(yàn)技術(shù)手段，DNA 測(cè)序（DNA sequencing）在生物學(xué)研究中有著廣泛的應(yīng)用，伴隨著第二代測(cè)序技術(shù)的日趨完善，許多物種已經(jīng)完成了全基因組的從頭測(cè)序。并且近年來(lái)，單分子測(cè)序（SMS）技術(shù)已經(jīng)出現(xiàn)了各種重要的應(yīng)用。這些技術(shù)也被稱為第三代測(cè)序技術(shù)，產(chǎn)生的測(cè)序讀數(shù)比Illumina的讀數(shù)長(zhǎng)2 到3 個(gè)數(shù)量級(jí)（10-100kbp 對(duì)100-250bp）。較長(zhǎng)的讀數(shù)長(zhǎng)度使得包括Pacific Biosciences（PacBio）和Oxford Nanopore Technology（ONT）在內(nèi)的新的SMS 技術(shù)在解決復(fù)雜的基因組組裝問(wèn)題和檢測(cè)大型結(jié)構(gòu)變異方面具有前所未有的強(qiáng)大功能。

常用的群體遺傳變異鑒定工具有DNSTAR、GATK、samtools、freebayes、SOAPsnp、Varscan2、sambam?ba 等軟件。其中最常用的為GATK、samtools、sambam?ba 和freebayes。這四個(gè)工具中，sambamba 軟件在單樣本數(shù)據(jù)以及多樣本數(shù)據(jù)中，在速度方面均具備顯著優(yōu)勢(shì)。而gatk 軟件只在多樣本數(shù)據(jù)分析上有一定的檢測(cè)速度優(yōu)勢(shì)。而在變異鑒定結(jié)果準(zhǔn)確性方面，samtools 和sambamba 軟件傾向于尋找比較全面的變異，而gatk 和freebayes 軟件則更傾向于尋找準(zhǔn)確性較高的變異[1]。

現(xiàn)在在基因組數(shù)據(jù)中有兩個(gè)比較具體的挑戰(zhàn)：新型測(cè)序技術(shù)產(chǎn)生基因數(shù)據(jù)的高特異性和高靈敏度的SNPs 鑒定及indels 鑒定。這兩項(xiàng)任務(wù)對(duì)研究罕見變異、等位基因特異性轉(zhuǎn)錄和翻譯以及剪接位點(diǎn)突變至關(guān)重要。目前的方法對(duì)于Illumina 短read 數(shù)據(jù)中的SNPs 和indel 的精度均在99%以上，然而這些方法會(huì)留下大量潛在的假陽(yáng)性和假陰性。這些方法都依靠專家建立可靠的將信號(hào)與噪聲分開的概率模型，這個(gè)過(guò)程是很耗時(shí)的，從本質(zhì)上講是受限于我們對(duì)于導(dǎo)致噪聲的因素的理解與建模能力。

所以在傳統(tǒng)基因鑒定工具愈發(fā)成熟的加持下，研究人員將目光投向了近些年大展身手的深度學(xué)習(xí)之上，利用深度學(xué)習(xí)來(lái)構(gòu)造由數(shù)據(jù)驅(qū)動(dòng)的無(wú)偏噪聲模型。

1 核心思想

深度學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù)，深度學(xué)習(xí)受到了越來(lái)越多研究者的關(guān)注，它在特征提取和建模上都有著相較于淺層模型顯然的優(yōu)勢(shì)。深度學(xué)習(xí)善于從原始輸入數(shù)據(jù)中挖掘越來(lái)越抽象的特征表示，而這些表示具有良好的泛化能力。它克服了過(guò)去人工智能中被認(rèn)為難以解決的一些問(wèn)題。且隨著訓(xùn)練數(shù)據(jù)集數(shù)量的顯著增長(zhǎng)以及芯片處理能力的劇增[2]。它應(yīng)用于多種領(lǐng)域，包括圖像分類、翻譯、游戲和生命科學(xué)。

深層神經(jīng)網(wǎng)絡(luò)是目前的主要形式，其神經(jīng)元間的連接模式受啟發(fā)于動(dòng)物視覺皮層組織，而卷積神經(jīng)網(wǎng)絡(luò)則是其中一種經(jīng)典而廣泛應(yīng)用的結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的局部連接、權(quán)值共享及池化操作等特性使之可以有效地降低網(wǎng)絡(luò)的復(fù)雜度，減少訓(xùn)練參數(shù)的數(shù)目，使模型對(duì)平移、扭曲、縮放具有一定程度的不變性，并具有強(qiáng)魯棒性和容錯(cuò)能力，且也易于訓(xùn)練和優(yōu)化。基于這些優(yōu)越的特性，它在各種信號(hào)和信息處理任務(wù)中的性能優(yōu)于標(biāo)準(zhǔn)的全連接神經(jīng)網(wǎng)絡(luò)。

采用深度學(xué)習(xí)的算法來(lái)處理基因數(shù)據(jù)并用于基因變異鑒定的核心思想是：基因變異鑒定問(wèn)題也可以轉(zhuǎn)換為分類問(wèn)題，對(duì)于一個(gè)變異候選位點(diǎn)來(lái)說(shuō)，其variant call 就是在對(duì)這個(gè)數(shù)據(jù)進(jìn)行分類；因此從基因數(shù)據(jù)中訓(xùn)練出概率模型，再用概率模型去判斷后續(xù)數(shù)據(jù)。

本文中介紹這一核心思想下的兩種深度學(xué)習(xí)使用方法，第一種將格式為bam 的變異基因數(shù)據(jù)和格式為fa 文件的參考序列轉(zhuǎn)換為堆積張量，將堆積張量用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試。第二種采用工具尋找基因數(shù)據(jù)中的特征，并將這些特征矢量化為適合訓(xùn)練網(wǎng)絡(luò)的特征，再用于概率模型的訓(xùn)練。

2 DeepVariant

2016 年12 月Google 旗下的子公司Verily 發(fā)了一篇文章描述了一個(gè)針對(duì)全基因組測(cè)序變異位點(diǎn)（SNP和small indel）檢測(cè)的新算法，這個(gè)算法不同于一般基于統(tǒng)計(jì)方法的軟件，而是利用了卷積神經(jīng)網(wǎng)絡(luò)識(shí)別變異位點(diǎn)[3]。DeepVariant 利用谷歌大腦為圖像分類而訓(xùn)練的神經(jīng)網(wǎng)絡(luò)架構(gòu)Inception v2，將候選SNP 周圍的reads 編碼為221×100 位圖圖像，其中每列是一個(gè)核苷酸，每行是一個(gè)從樣本庫(kù)中讀取的reads 序列。前五行代表參考序列，后95 行代表隨機(jī)抽樣覆蓋了這個(gè)變異候選位點(diǎn)的reads 序列。每個(gè)RGBA 類型的圖像像素將堿基A、C、G、T 編碼為不同的紅色值，質(zhì)量分?jǐn)?shù)編碼為綠色值，正負(fù)鏈信息編碼為藍(lán)色值，與參考序列的變異編碼為alpha 值。

堆積圖選取的編碼信息如下：

（1）base：序列堿基

（2）base quality：堿基質(zhì)量分?jǐn)?shù)

（3）mapping quality：序列比對(duì)質(zhì)量

（4）strand 正反向鏈

（5）supports variant：是否支持alternative allele

（6）supports reference：是否支持reference allele

帶有明確變異位點(diǎn)標(biāo)簽的編碼堆積圖放入13 層網(wǎng)絡(luò)中進(jìn)行訓(xùn)練，此網(wǎng)絡(luò)采用Inception v2 網(wǎng)絡(luò)架構(gòu)。訓(xùn)練好網(wǎng)絡(luò)之后，將沒有標(biāo)簽的變異候選位點(diǎn)堆積圖放入網(wǎng)絡(luò)中，即可進(jìn)行變異鑒定。

神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果為每個(gè)變異候選位點(diǎn)的基因型概率。

圖1 DeepVariant整體過(guò)程

3 Matcha

同樣是使用深度學(xué)習(xí)來(lái)處理基因變異鑒定，Remi Torracinta[4]的方法與DeepVariant 卻不一樣。Remi Tor?racinta 設(shè)計(jì)的方法采用Goby 框架來(lái)找到reads 比對(duì)序列和參考序列的特征，并且將這些特征矢量化為適合訓(xùn)練前饋神經(jīng)網(wǎng)絡(luò)的特征和標(biāo)簽。

Matcha 的神經(jīng)網(wǎng)絡(luò)中最核心的是特征映射器，特征映射器將樣本中的對(duì)齊序列轉(zhuǎn)換為一組適合訓(xùn)練神經(jīng)網(wǎng)絡(luò)的固定特征集。不論在基因組上有多少對(duì)齊的reads 序列，映射器都會(huì)產(chǎn)生一個(gè)固定長(zhǎng)度的輸出，這些輸出可以一致性的轉(zhuǎn)換為一個(gè)固定長(zhǎng)度的用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入向量。再每個(gè)基因組位點(diǎn)，映射器都會(huì)生成每種基因型的reads 序列的讀數(shù)和reads 序列中支持這個(gè)基因型的不同位置的數(shù)量。每一個(gè)基因組位點(diǎn)會(huì)衍生出數(shù)百個(gè)特征。

對(duì)于標(biāo)簽映射器來(lái)說(shuō)，有兩種不同的方法，一種是單獨(dú)調(diào)用等位基因，并對(duì)等位基因的數(shù)量進(jìn)行編碼，另一種類似于DeepVariant。這兩種方法分別適用于任意倍體基因組和二倍體基因組。

模型采用DeepLearning4 框架，并于Goby 框架進(jìn)行集成，網(wǎng)絡(luò)結(jié)構(gòu)為五層網(wǎng)絡(luò)。將對(duì)齊后的基因文件輸入特征和標(biāo)簽映射器，選擇特征映射器，會(huì)在訓(xùn)練集上產(chǎn)生用映射器訓(xùn)練的模型，這個(gè)模型可以用于在測(cè)試集上的基因變異鑒定。

4 對(duì)比分析

通過(guò)現(xiàn)在出現(xiàn)的兩種不同的用深度學(xué)習(xí)方法來(lái)進(jìn)行基因變異鑒定方法的介紹，筆者對(duì)他們?cè)谧儺愯b定效果和范圍上的優(yōu)缺點(diǎn)做出如表1 對(duì)比分析。

表1 兩種深度學(xué)習(xí)應(yīng)用方法的比較

5 深度學(xué)習(xí)下基因變異鑒定方法分析研究

兩種方式使用了不同的思路來(lái)使用深度學(xué)習(xí)對(duì)基因數(shù)據(jù)進(jìn)行變異鑒定。兩者既有相似之處也有不同之處。兩個(gè)方法最核心的思想是一樣的：從數(shù)據(jù)中訓(xùn)練概率模型，并用這個(gè)概率模型進(jìn)行后續(xù)判斷。不同之處在于：DeepVariant 是將基因數(shù)據(jù)經(jīng)過(guò)編碼轉(zhuǎn)換為堆積圖，再將堆積圖用圖像分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練和鑒定；Matcha 是利用Goby 框架從數(shù)據(jù)中尋找特征，然后手動(dòng)將特征放入網(wǎng)絡(luò)。

DeepVariant 只適用于二倍體生物，而Matcha 可以用于任意倍體生物的基因變異鑒定；DeepVariant 能夠?qū)ふ易儺愵愋椭械腟NPs 和INDEL，而Matcha 專門用于尋找SNPs。

同時(shí)計(jì)算效率上兩者也有較大差異。將數(shù)據(jù)轉(zhuǎn)換為堆積圖，DeepVariant 至少需要使用300 萬(wàn)像素，而Matcha 使用了642 個(gè)浮點(diǎn)表示特征與標(biāo)簽，所以Mat?cha 的數(shù)量級(jí)較小，對(duì)硬件的要求也比較低。

6 結(jié)語(yǔ)

隨著深度學(xué)習(xí)的火熱，基因數(shù)據(jù)研究者也將自己的目光放在了深度學(xué)習(xí)之上。本文對(duì)兩種不同類型的采用深度學(xué)習(xí)進(jìn)行基因變異鑒定的方法進(jìn)行了介紹與對(duì)比，深度學(xué)習(xí)算法有時(shí)是比GTAK 等工具性能更好的。結(jié)合發(fā)展趨勢(shì)與需求，未來(lái)研究工作地重點(diǎn)可能主要包括：

（1）Matcha 類似的需要手動(dòng)尋找特征的方法，雖然有著更廣闊的應(yīng)用范圍，但由于這個(gè)特征集在開發(fā)期間至少要經(jīng)過(guò)15 次的迭代微調(diào)，所以這個(gè)模型并不會(huì)泛化。是否有更好地尋找特征集的方法，能夠減少微調(diào)過(guò)程及次數(shù)，使這個(gè)模型能夠泛化。

（2）DeepVariant 對(duì)Illumina 數(shù)據(jù)的效果較好，但對(duì)于PacBio 等reads 序列較長(zhǎng)的數(shù)據(jù)來(lái)說(shuō)，DeepVariant不是最佳選擇。下一步研究工作，可以著重考慮修改網(wǎng)絡(luò)，使其能夠?qū)Φ谌驍?shù)據(jù)和PacBio 等基因數(shù)據(jù)有較好的效果。

（3）DeepVariant 所使用網(wǎng)絡(luò)較大，這導(dǎo)致計(jì)算效率較低，計(jì)算成本較大。今后的研究可以考慮使用不同大小的網(wǎng)絡(luò)，使得計(jì)算效率能夠得到較大的提升。

（4）DeepVariant 因?yàn)槠渚幋a信息較多，導(dǎo)致堆積圖像素較大，DeepVariant 的堆積圖是一個(gè)七通道圖像。今后的研究可以考慮選擇編碼哪些關(guān)鍵信息來(lái)更改堆積圖的大小，使得其計(jì)算效率提升的同時(shí)準(zhǔn)確率不會(huì)大幅下降。

利用深度學(xué)習(xí)方法來(lái)進(jìn)行基因變異鑒定仍處于發(fā)展階段，其中還有很多問(wèn)題等待研究者們解決。