亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

保留非全長讀段的ISO-seq數(shù)據(jù)轉錄組表達分析

2019-09-06 11:42:34劉學軍瞿錫垚

數(shù)據(jù)采集與處理 2019年4期

劉學軍瞿錫垚張禮

（1.南京航空航天大學計算機科學與技術學院，南京，211106；2.南京林業(yè)大學信息科學技術學院，南京，210037）

引言

由于選擇性剪切（Alternative splicing，AS）的存在，一條前體mRNA可以剪切出多條mRNA并指導蛋白質的生成，這種轉錄組一對多的剪切方式是造成生物多樣性的最重要原因之一。而各項研究都表明選擇性剪切現(xiàn)象普遍存在于高等真核生物中[1]，同時一些特異剪切方式產(chǎn)生的新型異構體也是導致基因疾病的重要原因之一，因此研究選擇性剪切對于揭示人類疾病機制具有重要的意義。

基因及異構體表達水平計算是研究選擇性剪切的一種重要途徑，具有高通量特性的第二代測序技術RNA-seq擁有量化轉錄片段的突出優(yōu)勢，在這一領域具有較多有效的應用[2-3]，很多方法采用RNA-seq數(shù)據(jù)計算基因以及異構體的表達水平。例如，基于泊松分布的PGseq[4]和NURD(Non-uniform read distribution)[5]，以及基于讀段產(chǎn)生式的Cufflinks[6]和RESM[7-8]等。但是由于讀段長度短、GC誤差等缺點的存在使得RNA-seq技術在識別全長異構體方面顯得十分乏力；另外，在表達水平計算方面，RNA-seq技術也面臨著讀段多源映射的問題（參考序列中大量重復和同源序列的存在，導致一個讀段映射至多個位置）[9]，在已有的大多數(shù)方法中，都存在嚴重依賴注釋信息的情況，而注釋信息不完善降低了表達水平計算的準確度。由于統(tǒng)計每個外顯子上讀段數(shù)量是基于RNA-seq技術計算基因及異構體表達水平的基礎[10]，因此即使采用相同注釋信息的模型，不同方法在估計表達值時也存在較大差異[11]。

近幾年誕生的第三代測序技術以其讀段長度長、無聚合酶鏈式反應（Polymerase chain reaction,PCR）過程引入的誤差等特點，迅速得到研究者的關注，并應用于RNA-seq技術不適用的場景。ISO-seq技術是PacBio公司開發(fā)的用于轉錄組研究的第三代測序技術，該技術從細胞中分離出mRNA，在size-selection（長度選擇）之后制備成ISO-seq文庫，用于測序儀測序。整個測序過程沒有對測序片段作任何打斷處理，這樣的測序結果可認為是測序片段的完整讀段，因此ISO-seq技術在誕生之后，被大多數(shù)研究者應用于轉錄組重構和基因組組裝等領域[12-13]。但該技術的測序結果存在較高的錯誤率，為了解決這一問題，大多數(shù)方法同時使用RNA-seq和ISO-seq數(shù)據(jù)。一方面利用RNA-seq數(shù)據(jù)的準確性進行ISO-seq數(shù)據(jù)糾錯，另一方面利用RNA-seq數(shù)據(jù)的高通量輔助預測異構體并計算異構體達水平。例如，IDP[14]方法是ISO-seq數(shù)據(jù)處理的代表方法，它使用混合策略，以聚類方式從RNA-seq數(shù)據(jù)和注釋庫中找出junction（外顯子剪切點），去除沒有junction支持的ISO-seq長讀段，將得到的非冗余多外顯子長讀段作為預測異構體，再將RNA-seq數(shù)據(jù)比對至預測異構體并計算各個預測異構體的表達水平。

IDP在除去冗余全長讀段時，不僅去掉了信息一致的全長讀段，還刪除了全長讀段之間的包含情況，即當一條較短的全長讀段包含于一條較長全長讀段時，只保留較長的讀段。但從ISO-seq測序技術原理來看，在制備cDNA文庫時并沒有進行類似RNA-seq測序技術的隨機打斷，因此本文認為一條全長讀段等價一個異構體，去掉包含關系的讀段會遺漏異構體，最終影響到異構體的預測結果。另外，大多數(shù)研究工作認為ISO-seq數(shù)據(jù)的通量低，不適合計算表達水平，其主要原因在于這些研究工作大都丟棄了占到所有數(shù)據(jù)50%～60%的非全長讀段[15]。而非全長讀段的產(chǎn)生是由于測序時酶失活，導致測序過程無法繼續(xù)進行，但非全長讀段仍然具有ISO-seq數(shù)據(jù)超長讀長的特性，也包含外顯子信息，能夠反映樣本中轉錄本的濃度，丟棄非全長讀段將會直接影響基因和異構體表達水平的計算，故目前的方法大多采用ISO-seq數(shù)據(jù)和RNA-seq數(shù)據(jù)相結合的方式進行異構體表達水平的計算。

本文首次提出僅利用ISO-seq數(shù)據(jù)，且保留非全長讀段進行基于狄利克雷采樣的探測與預測（Dirichlet sampling for isoform detection and prediction，DSIDP）方法。同時，第三代測序技術雖然擁有超長讀長測序，但也無法保證全長讀段數(shù)據(jù)涵蓋所有表達異構體，針對一些沒有全長讀段數(shù)據(jù)的異構體預測問題，本文在沿用DSIDP預測異構體思想的基礎之上，還提出了一種基于馬爾科夫鏈的異構體探測與預測（Markov chain for isoform detection and prediction,MCIDP）方法。兩種模型均在模擬數(shù)據(jù)集和真實數(shù)據(jù)上得到了有效驗證。

1 實驗方法

1.1 數(shù)據(jù)特性

圖1顯示了ISO-seq數(shù)據(jù)中全長讀段和非全長讀段長度分布直方圖，圖中數(shù)據(jù)來自PacBio公司公開數(shù)據(jù)集 MCF-7（http：//www.pacb.com/blog/data-release-human-mcf-7-transcriptome/）。本文統(tǒng)計了 6個cell的原始數(shù)據(jù)（如表1所示），其中按照ISO-seq技術的size-selection原則，對樣本長度1～2 Kb，2～3 Kb和＞3 Kb三個范圍的Cell各選取兩個。從統(tǒng)計結果可以看出全長讀段和非全長讀段的長度分布具有相似的模態(tài)，數(shù)據(jù)多集中在長度為1～3 Kb的區(qū)間內，這說明非全長讀段數(shù)據(jù)也具有遠超過RNA-seq數(shù)據(jù)的長度，從第三代測序數(shù)據(jù)超長讀長這一本質特征來說，非全長讀段與全長讀段一樣，也包含關于異構體的有效信息。并且隨著樣本序列長度的增加，非全長讀段也隨之增加，并達到接近60%。如果在異構體的構建中不考慮這部分數(shù)據(jù)，相當于丟棄了大部分實驗數(shù)據(jù)。因此將ISO-seq數(shù)據(jù)應用于轉錄組學研究領域時，保留非全長讀段具有重要意義。

圖1 ISO-seq數(shù)據(jù)中讀段長度分布直方圖Fig.1 Histograms of ISO-seq reads

表1 MCF-7數(shù)據(jù)集讀段統(tǒng)計Tab.1 Read statistics of MCF-7 data set

為了進一步說明ISO-seq數(shù)據(jù)用于計算表達水平的可行性，隨機選擇了4個基因并統(tǒng)計它們在ISO-seq數(shù)據(jù)和RNA-seq數(shù)據(jù)中外顯子上讀段數(shù)分布情況，結果如圖2所示，第一行顯示了RNA-seq數(shù)據(jù)結果，第二行顯示了ISO-seq數(shù)據(jù)結果。從圖2中可以看出ISO-seq數(shù)據(jù)與RNA-seq數(shù)據(jù)具有極為相似的分布模態(tài)，這說明ISO-seq數(shù)據(jù)與RNA-seq數(shù)據(jù)一樣，能通過讀段計數(shù)反映出樣本中相應轉錄本的濃度，進而可以用來計算轉錄組的表達水平。

圖2 4個基因在ISO-seq數(shù)據(jù)和RNA-seq數(shù)據(jù)中外顯子上的讀段分布Fig.2 Distribution of reads on exons of four genes in ISO-seq data and RNA-seq data

1.2 原始數(shù)據(jù)處理

ISO-seq的下機數(shù)據(jù)中全長和非全長讀段是混合在一起的，需要按照一定的準則將其區(qū)分開。PacBio公司提供的SMRT Analysis軟件根據(jù)讀段數(shù)據(jù)兩端是否均存在接頭序列，將其分為全長讀段和非全長讀段，但這樣的方式需要原始讀段數(shù)據(jù)之間的比對，對計算效率影響較大。圖3展示了PacBio測序原理，ISO-seq數(shù)據(jù)的cDNA文庫是兩端接上接頭的啞鈴狀結構，測序時會在整個結構上循環(huán)進行[16]。根據(jù)這樣的測序原理，本文使用一種簡單高效的方法區(qū)分全長和非全長讀段。當一個零膜導波管（Zero mode waveguide，ZMW）中出現(xiàn)多條Subread時，從中選擇最長的讀段劃分至全長讀段集合，否則，將唯一的一條Subread劃分至非全長讀段集合。整個過程不僅區(qū)分出了全長和非全長讀段，還去掉了多條Subread中的冗余讀段。

圖3 PacBio測序原理Fig.3 PacBio sequencing principle

ISO-seq數(shù)據(jù)的另一特征是較高的測序錯誤率，目前的大多數(shù)研究工作均使用RNA-seq數(shù)據(jù)對其進行糾正，本文使用LoRDEC[17]對非冗余讀段（包括全長讀段和非全長讀段）進行糾錯處理，參數(shù)值k設置為21，s設置為3。糾錯后的數(shù)據(jù)使用BWA-MEM[18]比對至參考基因組，借助基因注釋庫信息從比對結果中獲取到讀段中的外顯子序列。對于沒有RNA-seq數(shù)據(jù)的情況，同樣可以采用僅使用ISO-seq數(shù)據(jù)進行自糾錯的方法，例如Chen等[19]使用最長的讀段作為種子來收集其他所有讀段，構建高度準確的讀段數(shù)據(jù)。

1.3 真實數(shù)據(jù)有效性驗證

MCF-7數(shù)據(jù)集中共有119個Cell，且測序時間并不都是一致，因此本文在建模之前驗證了數(shù)據(jù)的有效性。選取6個Cell的真實數(shù)據(jù)，分為兩組，每組均包含Size-selection的3個長度范圍，即Cell 1,Cell 3,Cell 5為一組記為Group 1，Cell 2,Cell 4,Cell 6為另一組記為Group 2。對兩組數(shù)據(jù)中的5 665個公共基因通過計算RPKM[20]值得到表達水平，在對數(shù)刻度上驗證兩組數(shù)據(jù)獲得的基因表達水平的吻合性。結果如圖4所示，相關系數(shù)為0.900 6?？梢钥闯鲞@兩組重復實驗在基因表達值上具有很高的一致性，表明多次測量得到的讀段具有較好的可重復性，因此數(shù)據(jù)集的有效性得以驗證。

圖4 MCF-7數(shù)據(jù)集重復實驗結果對比Fig.4 Comparison of repeated experiment results of MCF-7 data set

1.4 DSIDP模型

PacBio測序技術從細胞中提取到mRNA后沒有進行分子隨機打斷，因此本文認為經(jīng)過對下機原始數(shù)據(jù)的處理后，得到的所有非冗余全長讀段數(shù)據(jù)即為細胞中表達的異構體集合，并將這個集合作為模型的異構體預測結果。

借鑒RNA-seq數(shù)據(jù)計算表達水平時統(tǒng)計外顯子上讀段數(shù)量的方式，本文將所有ISO-seq讀段數(shù)據(jù)映射至異構體預測集，并統(tǒng)計各預測異構體上讀段數(shù)量，在總讀段數(shù)上做歸一化得到其表達水平。映射過程中，ISO-seq數(shù)據(jù)也將面臨相同基因下多個異構體之間的多源映射問題。MCF-7數(shù)據(jù)集的6個Cell中，35%的讀段存在多源映射的情況，這遠低于二代數(shù)據(jù)70%讀段的多源映射情況[9]。這里的ISO-seq數(shù)據(jù)多源映射是指一條非全長讀段映射至多條預測異構體，如何分配這樣的非全長讀段是計算異構體表達水平中要解決的核心問題。為了解決這個問題，本文提出了DSIDP模型。DSIDP是一個基于Dirichlet分布，對該問題進行建模求解的算法，使用隨機采樣方法將發(fā)生多源映射的非全長讀段映射到概率最大的異構體,通過這樣的方式利用非全長讀段進行異構體表達比例的計算。具體算法過程如下：

算法1DSIDP

輸入：全長讀段數(shù)據(jù)XFL，非全長讀段數(shù)據(jù)XnFL以及異構體預測集合T，和均代表一條讀段數(shù)據(jù)，Ti代表一個異構體，|T|=k；

輸出：預測異構體的表達水平向量E，每一維代表相應預測異構體的表達水平。

(1)將讀段數(shù)據(jù)矩陣XFL和XnFL映射至異構體預測集合矩陣T，統(tǒng)計每個異構體上唯一映射讀段數(shù)量，得到一個k維向量，并對每一維在所有維度上做歸一化記為τ。

(2)將發(fā)生多源映射的讀段數(shù)據(jù)合并記為Xm，則每一個均對應一個tj(tj?T)和一個τj(τj?τ)，τj是歸一化的結果，Isoform～Dirichlet(τj)。

(3)從Isoform～Dirichlet(τj)中采樣得到變量isoform，其中各維度上的概率值表示屬于對應異構體的可能性，選擇概率最大的異構體，在其讀段計數(shù)上加一。

(4)遍歷完所有Xmj之后得到新的異構體讀段計數(shù)向量，歸一化處理結果記為表達水平E。

1.5 MCIDP模型

在RNA-seq數(shù)據(jù)的處理中，LeGault等[21]使用概率連接圖（Probabilistic splice graphs,PSGs）方法對異構體結構進行預測。在固定基因結構的情況下，量化基因的選擇性剪接事件，從測序數(shù)據(jù)中找到異構體的junction，通過junction之間的跳轉做出異構體結構的預測。本文將這樣的思想運用到第3代測序數(shù)據(jù)中，提出了MCIDP模型。由于ISO-seq數(shù)據(jù)長讀段的特點，在junction跨越很長的區(qū)域時，也能有讀段的支持，因此這樣找到的junction較之LeGault等使用RNA-seq數(shù)據(jù)要更為精確和全面。

MCIDP使用馬爾科夫鏈對異構體junction之間的跳轉進行建模。一個基本的馬爾科夫鏈包含3元素：狀態(tài)節(jié)點(V)、初始狀態(tài)概率向量(π)、狀態(tài)轉移概率矩陣(A)，因此，模型可以表示為G=(V,A,π)。其中狀態(tài)節(jié)點由基因結構決定，將基因外顯子由編號從小到大進行排列，并在該排列的兩端加上起始點V0=0和終止點VM=M(M=|V|-1)，即為狀態(tài)節(jié)點集合；Aij表示狀態(tài)節(jié)點i轉移至狀態(tài)節(jié)點j的概率值，且有Aij∈[0,1],?i,；πi表示由狀態(tài)節(jié)點i作為路徑起始點的概率值，且有從模型建立的整個過程可以看出，MCIDP方法只需要知道基因外顯子組成，不依賴注釋庫中異構體的注釋信息。圖5為MCIDP建模示意圖。

圖5 MCIDP建模示意圖Fig.5 Modeling diagram of MCIDP

模型的一條路徑σt即代表一個可能存在的異構體，例如圖5中的路徑V0V1V3V5V6。在任意一條沒有全長讀段的路徑上，如果存在其他的讀段能夠拼接出該路徑，那么該路徑也能夠被模型模擬并預測。表示路徑t中的第k個狀態(tài)節(jié)點，根據(jù)之前的設定，=V0,=VM，其中e=|σ|，表示路徑所包含的狀態(tài)節(jié)點數(shù),下標指示路徑節(jié)點，上標指代路徑。路徑中轉移概率的累積乘積Expr(σt)可表示為

使用極大似然估計出馬爾科夫鏈模型的參數(shù)π和A，令Nij表示狀態(tài)節(jié)點i與狀態(tài)節(jié)點j之間的junction總個數(shù)，則對于Aij和πi的極大似然估計有

MCIDP沿用了DSIDP從全長讀段中建立異構體預測集的思想，將所有非冗余全長讀段數(shù)據(jù)作為模型預測異構體的初始集合。由于構造的圖模型中有些路徑的junction結構較為相似，可以進行合并計算，所以需對所有其他可能存在的異構體根據(jù)定義的距離公式，將其路徑概率累加到結構最近的預測異構體中。這里距離公式的定義同時考慮到了兩個junction之間局部跨區(qū)域的差異和所有junction之間累積起來的全局差異，具體描述如下：

令St表示一個異構體的外顯子序列，基因的第i個外顯子包含于其中，則=1，否則=0,|St|=M。對于兩個異構體外顯子序列St1,St2，若＜i＜M，則認為節(jié)點i處存在這兩個異構體的相似junction，且為開始位置，若=,i＜j＜M，則認為節(jié)點j處為該相似junction的結束位置。由此，兩個異構體中相似junction的初步距離定義為J(St1,St2),可表示為

式中λJ為度量因子，作為指數(shù)距離公式中的底數(shù)。考慮到差異區(qū)域長度對距離的影響，令li表示基因第i個外顯子的長度，L(St)表示異構體St的長度，則兩個junction的差異區(qū)域長度對距離的影響可以定義為Iij(St1,St2)，可表示為

式中λI可視為懲罰因子，所以兩個異構體中相似junction的最終距離定義為Dij(St1,St2)，可表示為

則兩個可能存在的異構體的距離D(St1,St2)可表示為

對于超出距離閾值的可能存在的異構體，對其作Kmeans聚類處理，距離公式使用式（6），并將聚類中心作為新的預測異構體添加至異構體預測集合，該預測異構體的表達比率等價于以其為聚類中心的所有可能存在的異構體路徑概率之和。最終，模型輸出異構體預測集合及集合元素各自的概率值，該概率值即為該基因每個可能存在的異構體的表達比例。

2 實驗結果與分析

2.1 實驗數(shù)據(jù)

本文使用了一個模擬數(shù)據(jù)集和一個真實數(shù)據(jù)集來驗證兩個模型的有效性。模擬數(shù)據(jù)集中，假設了一個擁有10個外顯子和4個異構體的基因，并設置異構體的表達比例分別為t1=0.3，t2=0.3，t3=0.2和t4=0.2，如圖6所示。按照設定的比例，采樣生成了100條全長讀段數(shù)據(jù)，根據(jù)后續(xù)實驗的需求從中隨機選取n條全長讀段，作隨機打斷處理，生成非全長讀段。真實數(shù)據(jù)集來自PacBio公開數(shù)據(jù)MCF-7，本文選取了其中6個Cell的數(shù)據(jù)，各Cell數(shù)據(jù)讀段的統(tǒng)計情況見表1。

圖6 模擬數(shù)據(jù)結構Fig.6 Structure of simulation data

2.2 非全長讀段有效性驗證

從表1可以看出當讀段長度越長時，非全長讀段的數(shù)量就越多。因此本文在模擬數(shù)據(jù)集上做了非全長讀段不同占比的對照實驗，將100條全長讀段按25%，50%和75%的比例隨機抽取，并作隨機打斷，產(chǎn)生相應比例的非全長讀段，剩下的全長讀段作為對照組，全長讀段加上非全長讀段作為實驗組。在各比例的對照實驗中，實驗組與對照組均使用DSIDP方法計算結果，并采用計算值與真實值之間的歐式距離作為誤差度量。如表2和表3所示，在加入非全長讀段數(shù)據(jù)后，各比例實驗的表達水平計算值均比只使用全長讀段數(shù)據(jù)更為精確，表中FL(Full length)表示全長讀段，nFL（non-full length）表示非全長讀段。值得指出的是，在非全長讀段數(shù)據(jù)占75%的比例時，誤差有大幅度的下降，但誤差本身仍然要比其他比例只用全長讀段數(shù)據(jù)結果值大，這說明在計算異構體表達水平時，保留非全長讀段數(shù)據(jù)能夠降低只使用全長讀段數(shù)據(jù)的計算誤差。另外，模擬數(shù)據(jù)集構建的假設前提是該基因的所有異構體均來自細胞內當前表達且被測序到的mRNA分子，與注釋庫中的信息無關，因此可以認為當細胞內出現(xiàn)新型異構體時，也能被DSIDP預測出。例如，假設t4為新型異構體，且100條讀段數(shù)據(jù)中包含有t4，則會被DSIDP預測出其結構和表達值。

表2 模擬數(shù)據(jù)各比例非全長讀段計算結果Tab.2 Calculation results on simulation data with different nFL read proportions

表3 模擬數(shù)據(jù)各比例非全長讀段計算誤差Tab.3 Calculation error on simulation data with different nFL read proportions

2.3 MCIDP預測異構體驗證

MCIDP的提出是為了預測出數(shù)據(jù)中沒有全長讀段的超長異構體，本文將模擬數(shù)據(jù)中t1異構體的所有全長讀段隨機打斷，這時t1異構體即可作為沒有全長讀段的超長異構體，檢驗模型的預測能力。實驗結果如表4所示，可以看出模型能預測出t1這樣的超長異構體，但在表達水平計算上，DSIDP要比MCIDP更精確，原因在于基于馬爾科夫鏈的MCIDP會產(chǎn)生較多低概率的可能路徑。如何把這些低概率路徑合并至真實異構體中是該類模型后續(xù)研究的一個重點。

表4 MCIDP在模擬數(shù)據(jù)上的實驗結果Tab.4 MCIDP results on simulation data

2.4 真實數(shù)據(jù)集實驗結果

在異構體表達水平上，雖然ISO-seq數(shù)據(jù)和RNA-seq數(shù)據(jù)均反映出樣本中原始轉錄本的濃度，但是由于測序技術本身和數(shù)據(jù)特性的較大差異，尤其讀段長度的差異導致異構體構建上的明顯差別，造成兩種數(shù)據(jù)在異構體表達比例計算上的不一致，故無法采用RNA-seq數(shù)據(jù)的計算結果對ISO-seq分析結果進行驗證。因此，對本文中6個cell數(shù)據(jù)進行分組，分為兩次技術性重復實驗，具體分組方式和1.3節(jié)中的相同。其中Group 1包含139 116個全長讀段，147 190個非全長讀段；Group 2包含109 969個全長讀段，95 431個非全長讀段。將本文提出的兩個模型應用到這兩組重復實驗數(shù)據(jù)中，檢驗在公共異構體上獲得的表達比例的吻合程度，驗證本文方法的有效性。

表5給出了兩種方法所預測的異構體數(shù)量以及注釋庫異構體數(shù)量（注釋庫為GENCODE數(shù)據(jù)庫中GRCh37-mapped Releases.26），圖7展示了表5數(shù)據(jù)的韋恩圖，可以看出MCIDP預測出了更多的異構體，與注釋庫中已有異構體的交集也更多。因此，MCIDP較適用于注重預測異構體數(shù)量的問題中。

表5 模型異構體數(shù)量預測結果Tab.5 Number of predicted isoforms

圖7 模型預測異構體數(shù)量韋恩圖Fig.7 Venn diagram of isoform numbers predicted from various methods

另外，注釋庫是對人類基因的所有已知異構體進行注釋，在一些分化后的人體細胞中并不是所有基因都表達，所以圖7中注釋庫中有較多的異構體未被兩種模型預測出，而兩個模型都預測出了大量不在注釋庫中的異構體，這在一定程度上也說明了當前注釋庫還很不完善。圖8展示了所提出的兩種方法在兩次重復實驗中計算得到的公共異構體（共4 914個）表達比例的散點圖。為了更好地呈現(xiàn)大部分低比例異構體數(shù)據(jù)的分布情況，本文采用log(105x+1)函數(shù)對異構體表達比例進行了變換。經(jīng)過函數(shù)變換，DSIDP結果的相關系數(shù)為0.681 7，MCIDP的為0.665 0?？梢钥闯鲈趦山M實驗數(shù)據(jù)量不完全一致的情況下，兩個模型計算的異構體表達比例也能有較好的一致性，這在一定程度上驗證了本文方法的有效性。其中，DSIDP計算的異構體比例在重復實驗中的吻合性要高于MCIDP，顯示了其更為準確的表達水平和計算能力。

圖8 MCF-7數(shù)據(jù)集異構體層面重復實驗結果對比Fig.8 Comparison of repeated experiment results of isoforms in MCF-7 data set

3 結束語

本文在保留ISO-seq數(shù)據(jù)非全長讀段的基礎上提出了兩個適用于不同場景的異構體預測和表達比例計算模型，DSIDP和MCIDP。兩個模型首次僅采用PacBio第三代測序數(shù)據(jù)用于異構體預測以及表達水平的計算。DSIDP從全長讀段中建立異構體預測集合，將所有讀段映射至這個集合之中，統(tǒng)計集合元素各自的讀段數(shù)量，進而計算表達水平，采用Dirichlet采樣的方法解決了讀段多源映射的問題。實驗結果表明DSIDP在異構體表達水平計算上具有較好的準確性。MCIDP是基于馬爾科夫鏈的一個概率模型，通過構造概率圖模型，考慮了轉錄本中所有可能的轉錄路徑，以獲得所有可能的異構體。在一些超長異構體無法獲得全長讀段的情況下，使用MCIDP可以有效地預測出超長異構體。與IDP相比，該模型不依賴異構體的注釋信息，只需獲取基因的外顯子組成即可預測出數(shù)據(jù)中的異構體，但該模型在計算異構體表達水平上具有一定不足，這與模型存在的低概率相似路徑合并這一難點有關。模型中使用的最近距離劃分和聚類處理，實際上都是對相似路徑的合并，在后續(xù)的工作中，擬嘗試采用二階馬爾科夫鏈模型提高相似路徑聚類的準確性，以進一步提高異構體比例計算的準確性。