亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基因變異鑒定的深度學(xué)習(xí)方法與研究展望

        2021-04-25 05:24:12張倩
        現(xiàn)代計(jì)算機(jī) 2021年6期
        關(guān)鍵詞:變異位點(diǎn)編碼

        張倩

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

        0 引言

        作為一種重要的生物實(shí)驗(yàn)技術(shù)手段,DNA 測(cè)序(DNA sequencing)在生物學(xué)研究中有著廣泛的應(yīng)用,伴隨著第二代測(cè)序技術(shù)的日趨完善,許多物種已經(jīng)完成了全基因組的從頭測(cè)序。并且近年來(lái),單分子測(cè)序(SMS)技術(shù)已經(jīng)出現(xiàn)了各種重要的應(yīng)用。這些技術(shù)也被稱為第三代測(cè)序技術(shù),產(chǎn)生的測(cè)序讀數(shù)比Illumina的讀數(shù)長(zhǎng)2 到3 個(gè)數(shù)量級(jí)(10-100kbp 對(duì)100-250bp)。較長(zhǎng)的讀數(shù)長(zhǎng)度使得包括Pacific Biosciences(PacBio)和Oxford Nanopore Technology(ONT)在內(nèi)的新的SMS 技術(shù)在解決復(fù)雜的基因組組裝問(wèn)題和檢測(cè)大型結(jié)構(gòu)變異方面具有前所未有的強(qiáng)大功能。

        常用的群體遺傳變異鑒定工具有DNSTAR、GATK、samtools、freebayes、SOAPsnp、Varscan2、sambam?ba 等軟件。其中最常用的為GATK、samtools、sambam?ba 和freebayes。這四個(gè)工具中,sambamba 軟件在單樣本數(shù)據(jù)以及多樣本數(shù)據(jù)中,在速度方面均具備顯著優(yōu)勢(shì)。而gatk 軟件只在多樣本數(shù)據(jù)分析上有一定的檢測(cè)速度優(yōu)勢(shì)。而在變異鑒定結(jié)果準(zhǔn)確性方面,samtools 和sambamba 軟件傾向于尋找比較全面的變異,而gatk 和freebayes 軟件則更傾向于尋找準(zhǔn)確性較高的變異[1]。

        現(xiàn)在在基因組數(shù)據(jù)中有兩個(gè)比較具體的挑戰(zhàn):新型測(cè)序技術(shù)產(chǎn)生基因數(shù)據(jù)的高特異性和高靈敏度的SNPs 鑒定及indels 鑒定。這兩項(xiàng)任務(wù)對(duì)研究罕見變異、等位基因特異性轉(zhuǎn)錄和翻譯以及剪接位點(diǎn)突變至關(guān)重要。目前的方法對(duì)于Illumina 短read 數(shù)據(jù)中的SNPs 和indel 的精度均在99%以上,然而這些方法會(huì)留下大量潛在的假陽(yáng)性和假陰性。這些方法都依靠專家建立可靠的將信號(hào)與噪聲分開的概率模型,這個(gè)過(guò)程是很耗時(shí)的,從本質(zhì)上講是受限于我們對(duì)于導(dǎo)致噪聲的因素的理解與建模能力。

        所以在傳統(tǒng)基因鑒定工具愈發(fā)成熟的加持下,研究人員將目光投向了近些年大展身手的深度學(xué)習(xí)之上,利用深度學(xué)習(xí)來(lái)構(gòu)造由數(shù)據(jù)驅(qū)動(dòng)的無(wú)偏噪聲模型。

        1 核心思想

        深度學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),深度學(xué)習(xí)受到了越來(lái)越多研究者的關(guān)注,它在特征提取和建模上都有著相較于淺層模型顯然的優(yōu)勢(shì)。深度學(xué)習(xí)善于從原始輸入數(shù)據(jù)中挖掘越來(lái)越抽象的特征表示,而這些表示具有良好的泛化能力。它克服了過(guò)去人工智能中被認(rèn)為難以解決的一些問(wèn)題。且隨著訓(xùn)練數(shù)據(jù)集數(shù)量的顯著增長(zhǎng)以及芯片處理能力的劇增[2]。它應(yīng)用于多種領(lǐng)域,包括圖像分類、翻譯、游戲和生命科學(xué)。

        深層神經(jīng)網(wǎng)絡(luò)是目前的主要形式,其神經(jīng)元間的連接模式受啟發(fā)于動(dòng)物視覺皮層組織,而卷積神經(jīng)網(wǎng)絡(luò)則是其中一種經(jīng)典而廣泛應(yīng)用的結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的局部連接、權(quán)值共享及池化操作等特性使之可以有效地降低網(wǎng)絡(luò)的復(fù)雜度,減少訓(xùn)練參數(shù)的數(shù)目,使模型對(duì)平移、扭曲、縮放具有一定程度的不變性,并具有強(qiáng)魯棒性和容錯(cuò)能力,且也易于訓(xùn)練和優(yōu)化。基于這些優(yōu)越的特性,它在各種信號(hào)和信息處理任務(wù)中的性能優(yōu)于標(biāo)準(zhǔn)的全連接神經(jīng)網(wǎng)絡(luò)。

        采用深度學(xué)習(xí)的算法來(lái)處理基因數(shù)據(jù)并用于基因變異鑒定的核心思想是:基因變異鑒定問(wèn)題也可以轉(zhuǎn)換為分類問(wèn)題,對(duì)于一個(gè)變異候選位點(diǎn)來(lái)說(shuō),其variant call 就是在對(duì)這個(gè)數(shù)據(jù)進(jìn)行分類;因此從基因數(shù)據(jù)中訓(xùn)練出概率模型,再用概率模型去判斷后續(xù)數(shù)據(jù)。

        本文中介紹這一核心思想下的兩種深度學(xué)習(xí)使用方法,第一種將格式為bam 的變異基因數(shù)據(jù)和格式為fa 文件的參考序列轉(zhuǎn)換為堆積張量,將堆積張量用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試。第二種采用工具尋找基因數(shù)據(jù)中的特征,并將這些特征矢量化為適合訓(xùn)練網(wǎng)絡(luò)的特征,再用于概率模型的訓(xùn)練。

        2 DeepVariant

        2016 年12 月Google 旗下的子公司Verily 發(fā)了一篇文章描述了一個(gè)針對(duì)全基因組測(cè)序變異位點(diǎn)(SNP和small indel)檢測(cè)的新算法,這個(gè)算法不同于一般基于統(tǒng)計(jì)方法的軟件,而是利用了卷積神經(jīng)網(wǎng)絡(luò)識(shí)別變異位點(diǎn)[3]。DeepVariant 利用谷歌大腦為圖像分類而訓(xùn)練的神經(jīng)網(wǎng)絡(luò)架構(gòu)Inception v2,將候選SNP 周圍的reads 編碼為221×100 位圖圖像,其中每列是一個(gè)核苷酸,每行是一個(gè)從樣本庫(kù)中讀取的reads 序列。前五行代表參考序列,后95 行代表隨機(jī)抽樣覆蓋了這個(gè)變異候選位點(diǎn)的reads 序列。每個(gè)RGBA 類型的圖像像素將堿基A、C、G、T 編碼為不同的紅色值,質(zhì)量分?jǐn)?shù)編碼為綠色值,正負(fù)鏈信息編碼為藍(lán)色值,與參考序列的變異編碼為alpha 值。

        堆積圖選取的編碼信息如下:

        (1)base:序列堿基

        (2)base quality:堿基質(zhì)量分?jǐn)?shù)

        (3)mapping quality:序列比對(duì)質(zhì)量

        (4)strand 正反向鏈

        (5)supports variant:是否支持alternative allele

        (6)supports reference:是否支持reference allele

        帶有明確變異位點(diǎn)標(biāo)簽的編碼堆積圖放入13 層網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,此網(wǎng)絡(luò)采用Inception v2 網(wǎng)絡(luò)架構(gòu)。訓(xùn)練好網(wǎng)絡(luò)之后,將沒有標(biāo)簽的變異候選位點(diǎn)堆積圖放入網(wǎng)絡(luò)中,即可進(jìn)行變異鑒定。

        神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果為每個(gè)變異候選位點(diǎn)的基因型概率。

        圖1 DeepVariant整體過(guò)程

        3 Matcha

        同樣是使用深度學(xué)習(xí)來(lái)處理基因變異鑒定,Remi Torracinta[4]的方法與DeepVariant 卻不一樣。Remi Tor?racinta 設(shè)計(jì)的方法采用Goby 框架來(lái)找到reads 比對(duì)序列和參考序列的特征,并且將這些特征矢量化為適合訓(xùn)練前饋神經(jīng)網(wǎng)絡(luò)的特征和標(biāo)簽。

        Matcha 的神經(jīng)網(wǎng)絡(luò)中最核心的是特征映射器,特征映射器將樣本中的對(duì)齊序列轉(zhuǎn)換為一組適合訓(xùn)練神經(jīng)網(wǎng)絡(luò)的固定特征集。不論在基因組上有多少對(duì)齊的reads 序列,映射器都會(huì)產(chǎn)生一個(gè)固定長(zhǎng)度的輸出,這些輸出可以一致性的轉(zhuǎn)換為一個(gè)固定長(zhǎng)度的用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入向量。再每個(gè)基因組位點(diǎn),映射器都會(huì)生成每種基因型的reads 序列的讀數(shù)和reads 序列中支持這個(gè)基因型的不同位置的數(shù)量。每一個(gè)基因組位點(diǎn)會(huì)衍生出數(shù)百個(gè)特征。

        對(duì)于標(biāo)簽映射器來(lái)說(shuō),有兩種不同的方法,一種是單獨(dú)調(diào)用等位基因,并對(duì)等位基因的數(shù)量進(jìn)行編碼,另一種類似于DeepVariant。這兩種方法分別適用于任意倍體基因組和二倍體基因組。

        模型采用DeepLearning4 框架,并于Goby 框架進(jìn)行集成,網(wǎng)絡(luò)結(jié)構(gòu)為五層網(wǎng)絡(luò)。將對(duì)齊后的基因文件輸入特征和標(biāo)簽映射器,選擇特征映射器,會(huì)在訓(xùn)練集上產(chǎn)生用映射器訓(xùn)練的模型,這個(gè)模型可以用于在測(cè)試集上的基因變異鑒定。

        4 對(duì)比分析

        通過(guò)現(xiàn)在出現(xiàn)的兩種不同的用深度學(xué)習(xí)方法來(lái)進(jìn)行基因變異鑒定方法的介紹,筆者對(duì)他們?cè)谧儺愯b定效果和范圍上的優(yōu)缺點(diǎn)做出如表1 對(duì)比分析。

        表1 兩種深度學(xué)習(xí)應(yīng)用方法的比較

        5 深度學(xué)習(xí)下基因變異鑒定方法分析研究

        兩種方式使用了不同的思路來(lái)使用深度學(xué)習(xí)對(duì)基因數(shù)據(jù)進(jìn)行變異鑒定。兩者既有相似之處也有不同之處。兩個(gè)方法最核心的思想是一樣的:從數(shù)據(jù)中訓(xùn)練概率模型,并用這個(gè)概率模型進(jìn)行后續(xù)判斷。不同之處在于:DeepVariant 是將基因數(shù)據(jù)經(jīng)過(guò)編碼轉(zhuǎn)換為堆積圖,再將堆積圖用圖像分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練和鑒定;Matcha 是利用Goby 框架從數(shù)據(jù)中尋找特征,然后手動(dòng)將特征放入網(wǎng)絡(luò)。

        DeepVariant 只適用于二倍體生物,而Matcha 可以用于任意倍體生物的基因變異鑒定;DeepVariant 能夠?qū)ふ易儺愵愋椭械腟NPs 和INDEL,而Matcha 專門用于尋找SNPs。

        同時(shí)計(jì)算效率上兩者也有較大差異。將數(shù)據(jù)轉(zhuǎn)換為堆積圖,DeepVariant 至少需要使用300 萬(wàn)像素,而Matcha 使用了642 個(gè)浮點(diǎn)表示特征與標(biāo)簽,所以Mat?cha 的數(shù)量級(jí)較小,對(duì)硬件的要求也比較低。

        6 結(jié)語(yǔ)

        隨著深度學(xué)習(xí)的火熱,基因數(shù)據(jù)研究者也將自己的目光放在了深度學(xué)習(xí)之上。本文對(duì)兩種不同類型的采用深度學(xué)習(xí)進(jìn)行基因變異鑒定的方法進(jìn)行了介紹與對(duì)比,深度學(xué)習(xí)算法有時(shí)是比GTAK 等工具性能更好的。結(jié)合發(fā)展趨勢(shì)與需求,未來(lái)研究工作地重點(diǎn)可能主要包括:

        (1)Matcha 類似的需要手動(dòng)尋找特征的方法,雖然有著更廣闊的應(yīng)用范圍,但由于這個(gè)特征集在開發(fā)期間至少要經(jīng)過(guò)15 次的迭代微調(diào),所以這個(gè)模型并不會(huì)泛化。是否有更好地尋找特征集的方法,能夠減少微調(diào)過(guò)程及次數(shù),使這個(gè)模型能夠泛化。

        (2)DeepVariant 對(duì)Illumina 數(shù)據(jù)的效果較好,但對(duì)于PacBio 等reads 序列較長(zhǎng)的數(shù)據(jù)來(lái)說(shuō),DeepVariant不是最佳選擇。下一步研究工作,可以著重考慮修改網(wǎng)絡(luò),使其能夠?qū)Φ谌驍?shù)據(jù)和PacBio 等基因數(shù)據(jù)有較好的效果。

        (3)DeepVariant 所使用網(wǎng)絡(luò)較大,這導(dǎo)致計(jì)算效率較低,計(jì)算成本較大。今后的研究可以考慮使用不同大小的網(wǎng)絡(luò),使得計(jì)算效率能夠得到較大的提升。

        (4)DeepVariant 因?yàn)槠渚幋a信息較多,導(dǎo)致堆積圖像素較大,DeepVariant 的堆積圖是一個(gè)七通道圖像。今后的研究可以考慮選擇編碼哪些關(guān)鍵信息來(lái)更改堆積圖的大小,使得其計(jì)算效率提升的同時(shí)準(zhǔn)確率不會(huì)大幅下降。

        利用深度學(xué)習(xí)方法來(lái)進(jìn)行基因變異鑒定仍處于發(fā)展階段,其中還有很多問(wèn)題等待研究者們解決。

        猜你喜歡
        變異位點(diǎn)編碼
        鎳基單晶高溫合金多組元置換的第一性原理研究
        上海金屬(2021年6期)2021-12-02 10:47:20
        CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        《全元詩(shī)》未編碼疑難字考辨十五則
        變異危機(jī)
        變異
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*
        Genome and healthcare
        變異的蚊子
        精品久久久久久无码人妻蜜桃 | 色婷婷综合一区二区精品久久 | 亚洲女同精品久久女同| av网站免费在线浏览| 无码人妻aⅴ一区二区三区| 欧美黑人粗暴多交高潮水最多| 日本口爆吞精在线视频| 国产优质av一区二区三区| 亚洲av午夜精品无码专区| 无码精品人妻一区二区三区人妻斩| 国产午夜精品福利久久| 在线观看国产精品一区二区不卡| 99精品国产在热久久无毒不卡| 日本亚洲色大成网站www久久| 69av在线视频| 久久色悠悠综合网亚洲| 亚洲精品久久激情国产片| 日本精品人妻无码77777| 欧美日韩综合在线视频免费看| 亚洲一区二区自偷自拍另类| 亚洲成熟丰满熟妇高潮xxxxx| 无码人妻丰满熟妇啪啪7774| 无码伊人久久大香线蕉| 91九色中文视频在线观看| 亚洲精品久久久久中文字幕| 精品欧美乱子伦一区二区三区| av天堂手机在线免费| 久久综合九色欧美综合狠狠| 精品亚洲成a人在线观看青青 | 激情偷乱人伦小说视频在线| AV无码系列一区二区三区| 国产自拍在线观看视频| 欧美人与动牲交a精品| 中文人妻无码一区二区三区信息| 久久久国产精品三级av| 无码熟妇人妻av在线影片最多| 国产亚洲婷婷香蕉久久精品| 日韩在线手机专区av| 国产成人自拍高清在线| 久热综合在线亚洲精品| 国语精品视频在线观看不卡|