耿彧 白濤
摘?要:高通量基因測(cè)序因具有費(fèi)用更低、通量更高、速度更快的技術(shù)特點(diǎn)得以迅猛發(fā)展,不同測(cè)序平臺(tái)高質(zhì)量仿真數(shù)據(jù)的產(chǎn)生有利于生物學(xué)研究。設(shè)計(jì)了一種適用于腫瘤異質(zhì)性的讀段仿真工具,能夠真實(shí)反映腫瘤內(nèi)復(fù)雜克隆結(jié)構(gòu),并可實(shí)現(xiàn)各種結(jié)構(gòu)類型及不同測(cè)序平臺(tái)數(shù)據(jù),研究者可根據(jù)自身研究環(huán)境以及測(cè)序數(shù)據(jù)類型的特異性,產(chǎn)生合適的仿真數(shù)據(jù),為腫瘤研究奠定實(shí)驗(yàn)基礎(chǔ)。
關(guān)鍵詞:腫瘤異質(zhì)性;克隆結(jié)構(gòu);仿真工具
中圖分類號(hào):TB?文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2019.03.096
1?引言
目前,腫瘤是急待解決的全球性醫(yī)學(xué)難題。腫瘤基因組學(xué)可從基因水平上挖掘腫瘤發(fā)病機(jī)理,深入理解克隆演變過(guò)程,為尋求耙向診療提供理論依據(jù)。高通量測(cè)序技術(shù)的飛速發(fā)展使得各種測(cè)序平臺(tái)產(chǎn)生海量的讀段數(shù)據(jù),為腫瘤基因組學(xué)奠定了研究基礎(chǔ)。通常,實(shí)際情況在真實(shí)數(shù)據(jù)中是未知的,但仿真數(shù)據(jù)卻可直接測(cè)試結(jié)果。運(yùn)用仿真工具模擬真實(shí)數(shù)據(jù),不僅可充分體現(xiàn)真實(shí)數(shù)據(jù)的特征,減少成本,而且可以對(duì)數(shù)據(jù)的某一特性進(jìn)行獨(dú)立分析,通過(guò)參數(shù)調(diào)整更好的評(píng)價(jià)算法性能。因此,采用合理有效的仿真數(shù)據(jù)不僅能夠驗(yàn)證理論假設(shè)和模型有效性,而且為理論模型應(yīng)用于實(shí)踐提供了有力的支持。
目前,各種類型的讀段仿真工具相繼被提出,分別適用于基因組、宏基因組、轉(zhuǎn)錄組和外顯子組等研究領(lǐng)域。其中,單基因組的仿真工具有來(lái)自于samtools軟件包的Wgsim,錯(cuò)誤模型服從均勻分布;ART依據(jù)真實(shí)數(shù)據(jù)集產(chǎn)生具有上下文相關(guān)的錯(cuò)誤模型;pIRS和ArtificialFastqGenerator基于GC含量進(jìn)行覆蓋度的模型化設(shè)計(jì)。MetaSim、GemSIM、Grinder和NeSSM可指定物種的豐度來(lái)實(shí)現(xiàn)宏基因組的數(shù)據(jù)仿真。PBSIM對(duì)PacBio數(shù)據(jù)集進(jìn)行分析,能產(chǎn)生適合第三代測(cè)序平臺(tái)的長(zhǎng)讀段仿真數(shù)據(jù)。GENOME、FREGENE和FIGG考慮重組率和群體演變歷史,可實(shí)現(xiàn)群體全基因組仿真。Wessim主要針對(duì)外顯子區(qū)域進(jìn)行數(shù)據(jù)仿真。盡管已有的仿真工具對(duì)各種測(cè)序平臺(tái)產(chǎn)生的真實(shí)數(shù)據(jù)仿真效果頗佳,然而它們不能充分體現(xiàn)多級(jí)繼承結(jié)構(gòu)的數(shù)據(jù)特性。由此,本文設(shè)計(jì)了腫瘤基因組的仿真工具,TNSim,主要分析癌克隆中存在的多級(jí)克隆分布情況,形成合成的測(cè)序讀估,有助于對(duì)癌癥的克隆性及腫瘤異質(zhì)性進(jìn)行有效分析,并與已有的幾種仿真工具針對(duì)克隆繼承性進(jìn)行了仿真性能比較。
2?方法
在Peter Nowell提出的CE理論模型中指出腫瘤發(fā)展的動(dòng)態(tài)性,在治療中的抗藥性和選擇壓力下,不斷地分化出新的子克隆,而每種克隆又具有獨(dú)特遺傳變異特性,使得個(gè)體腫瘤發(fā)展具有異質(zhì)性,克隆性及克隆進(jìn)化模式成為理解腫瘤進(jìn)展的關(guān)鍵。因此,對(duì)腫瘤中復(fù)雜克隆結(jié)構(gòu)的讀段仿真成為了必然需求。TNSim由兩個(gè)階段組成,開(kāi)發(fā)實(shí)現(xiàn)了一套完整的多級(jí)克隆結(jié)構(gòu)仿真軟件包,包括正常細(xì)胞數(shù)據(jù)發(fā)生器生成(NorSim)、腫瘤細(xì)胞數(shù)據(jù)發(fā)生器生成(TumSim)、Reads數(shù)據(jù)生成器(ReadGen)。
第一階段設(shè)定正常細(xì)胞與腫瘤細(xì)胞樣本中變異位點(diǎn)及類型,明確變異間繼承關(guān)系,使具有上下級(jí)繼承關(guān)系的子克隆等位基因變化頻率的多態(tài)性保持不變,保證每一級(jí)子克隆新產(chǎn)生的變異情況不與其它子克隆的變異情況發(fā)生沖突,即克隆之間具有互斥關(guān)系。通過(guò)生成索引文件記錄克隆的位置變化信息,來(lái)有效地解決多個(gè)克隆之間的變異位點(diǎn)互斥問(wèn)題。
腫瘤組織中既有遺傳變異,又有與疾病密切相關(guān)的體細(xì)胞變異,因此近來(lái)絕大多數(shù)研究都是聯(lián)合分析正常細(xì)胞和腫瘤組織,為了使所有的變異位點(diǎn)避免沖突,具有唯一性且保證繼承性,由讀段仿真器首先產(chǎn)生正常細(xì)胞和各級(jí)克隆的sim文件,此文件中采用64位無(wú)符號(hào)數(shù)標(biāo)識(shí)量記錄變異位點(diǎn)信息,此標(biāo)識(shí)量在數(shù)據(jù)結(jié)構(gòu)層面僅為一個(gè)整型數(shù)值,卻可以解析出描述一個(gè)變異所需的全部信息,包括位點(diǎn)、變異類型、基因型和其他屬性,節(jié)約存儲(chǔ)空間,提高計(jì)算效率。工作流程如圖1所示。
第二階段為生成仿真數(shù)據(jù)階段,根據(jù)正常細(xì)胞和腫瘤細(xì)胞中子克隆各自的sim文件,形成包括各種變異情況的仿真環(huán)境并完成讀段隨機(jī)采集,在正反鏈上隨機(jī)生成指定長(zhǎng)度的讀段文件(*.fq文件),該工具同時(shí)支持單末端讀段和雙末端讀段采集以及單體型序列的生成,其中雙末端讀段的插入距離符合正態(tài)分布。對(duì)于皮膚癌等腫瘤細(xì)胞具有局部變異率增高的特性,TNSim可以在任意位置設(shè)置任意長(zhǎng)度區(qū)域的不同變異頻率。此外,可按著實(shí)際的需求調(diào)整來(lái)自于不同細(xì)胞和子克隆的覆蓋度構(gòu)成比例,由于變異位點(diǎn)在數(shù)據(jù)發(fā)生器中單獨(dú)生成的,所以不會(huì)改變?cè)幸焉傻母髯宰儺愇稽c(diǎn)信息。TNSim還可以生成各種類型的變異,包括單點(diǎn)變異、短插入/缺失型結(jié)構(gòu)變異、長(zhǎng)插入/缺失型結(jié)構(gòu)變異、串聯(lián)重復(fù)型結(jié)構(gòu)變異、倒置型結(jié)構(gòu)變異、缺失-插入型復(fù)雜結(jié)構(gòu)變異。
3?實(shí)驗(yàn)分析
為了驗(yàn)證TNSim工具生成的具有腫瘤異質(zhì)性的仿真數(shù)據(jù)可靠性,隨機(jī)選取人類基因組中的一條染色體作為參考序列,去除標(biāo)識(shí)為“N”的無(wú)法確定的字符。設(shè)置正常細(xì)胞樣本的變異率為10-3,腫瘤細(xì)胞樣本的變異率為10-4。采用Wgsim、SInC、pRIS與TumorSim四種仿真方法實(shí)現(xiàn)克隆結(jié)構(gòu)仿真數(shù)據(jù)的對(duì)比分析,進(jìn)一步驗(yàn)證TNSim的實(shí)用性與有效性,如圖2所示。選取美國(guó)腫瘤基因組路線圖計(jì)劃的三例腫瘤樣本(AML、BRCA、UCEC),編號(hào)分別為AB-2968、BH-A18P和B5-A0JV。原圖為發(fā)表在Nature上的亞克隆真實(shí)情況結(jié)果分布圖,Wgsim、SInC、pRIS和TNSim根據(jù)已知的變異數(shù)據(jù)和參數(shù),采用相同的數(shù)據(jù)分析流程得到各自的仿真結(jié)果。從圖可見(jiàn),Wgsim、SInC、pRIS都存在不同程度的峰值偏移和假陽(yáng)性峰值問(wèn)題,具有仿真誤差。與之相比,TNSim基本不存在峰值偏移的問(wèn)題,假陽(yáng)性峰也相對(duì)最少。實(shí)驗(yàn)表明,TNSim更能真實(shí)的仿真腫瘤克隆結(jié)構(gòu)及演變模式,更利于腫瘤異質(zhì)性研究中的模型驗(yàn)證。
4?結(jié)論
腫瘤演變中蘊(yùn)含著不同層級(jí)的子克隆,各克隆間互為依存、相互影響,呈現(xiàn)繼承性與變異性共存,具有高度異質(zhì)性的特點(diǎn),群體遺傳進(jìn)化過(guò)程中也存在類似特征。研究腫瘤演變和群體進(jìn)化過(guò)程都需要多級(jí)結(jié)構(gòu)的仿真數(shù)據(jù),針對(duì)演變進(jìn)化中的多級(jí)結(jié)構(gòu)特性及異質(zhì)性特點(diǎn),專門設(shè)計(jì)了仿真工具,利用位點(diǎn)標(biāo)志量設(shè)定變異相關(guān)的類型、位置、繼承關(guān)系并形成讀段仿真數(shù)據(jù),充分展現(xiàn)了克隆或樣本之間保持相同等位基因變異頻率的多層級(jí)繼承關(guān)系。不僅適用于多級(jí)克隆結(jié)構(gòu)的數(shù)據(jù)仿真,也能實(shí)現(xiàn)普通的讀段數(shù)據(jù)仿真。為驗(yàn)證模型和算法的有效性提供依據(jù)。
參考文獻(xiàn)
[1]Kandoth C,McLellan MD,Vandin F,et al.Mutational landscape and significance across 12 major cancer types[J].Nature,2013,502(7471):333-339.
[2]Li,H.et al.The Sequence Alignment/Map format and SAMtools[J].Bioinformatics,2009,(25),2078-2079.
[3]Pattnaik et al.SInC:an accurate and fast error-model based simulator for SNPs,Indels and CNVs coupled with a read generator for short-read sequence[J].BMC Bioinformatics,2014,(15):40.
[4]Hu X,Yuan J,Shi Y,Lu J,Liu B,et al.pIRS:Profile-based Illumina pairend Reads Simulator[J].Bioinformatics,2012,(28):1533-1535.