亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高通量單細胞轉(zhuǎn)錄組數(shù)據(jù)分析方法的研究進展

        2022-04-14 12:48:52張澤坤顧連峰
        關鍵詞:標準化方法

        李 濤, 張澤坤, 顧連峰

        (1.福建農(nóng)林大學林學院;2.海峽聯(lián)合研究院基礎林學與蛋白質(zhì)組學中心,福建 福州 350002)

        自2009年首個單細胞轉(zhuǎn)錄組測序(single-cell RNA sequencing, scRNA-seq)技術(shù)發(fā)布以來,scRNA-seq被越來越廣泛地應用于基礎科學研究中,特別是在發(fā)現(xiàn)新的異質(zhì)細胞類型和追蹤細胞動態(tài)發(fā)育軌跡中發(fā)揮了重要作用.目前,scRNA-seq的通量有了質(zhì)的提升,由原來的幾個細胞發(fā)展到成千上萬個細胞.通量增加的同時也提高了數(shù)據(jù)的復雜性,使后續(xù)數(shù)據(jù)分析面臨巨大挑戰(zhàn).大多數(shù)分析軟件缺乏圖形界面且需要研究者設置參數(shù),不同的參數(shù)選擇會導致截然不同的分析結(jié)果.而怎樣衡量這些由參數(shù)變化引起的不同結(jié)果,及其是否具有顯著的生物學意義在行業(yè)中仍然缺少標準.此外,scRNA-seq所產(chǎn)出的數(shù)據(jù)相比于普通轉(zhuǎn)錄組測序(bulk RNA sequencing, Bulk RNA-seq)存在一些獨特的性質(zhì),例如,由于單個細胞的RNA含量在皮克(pg)水平,scRNA-seq測序的數(shù)據(jù)集具有更高的噪音水平和更多的零值(缺失值)[1].缺失值的產(chǎn)生不僅來源于技術(shù)噪音,還有可能具有生物學意義,即該基因在細胞中并未表達.因此,對高通量scRNA-seq數(shù)據(jù)的分析流程(圖1)和常用軟件的介紹可為數(shù)據(jù)研究提供合適的方法.

        1 單細胞轉(zhuǎn)錄組數(shù)據(jù)的質(zhì)量控制和標準化

        1.1 數(shù)據(jù)質(zhì)量控制

        獲得測序數(shù)據(jù)后的第一步是進行預處理和質(zhì)量控制,早期常用的預處理和質(zhì)量控制工具包括Trimmomatic[2]、Cutadapt[3]、Kraken[4]等.這些軟件開發(fā)之初并非是針對scRNA-seq所設計,無法適應scRNA-seq數(shù)據(jù)集技術(shù)噪音(technical artifacts)和內(nèi)在生物學變異相互結(jié)合的復雜特征.有研究表明,可通過管家基因[5,6],基因的整體表達模式[7,8],以及檢測到的基因數(shù)量和(或)讀段比對的比例去除技術(shù)噪音[9],但是這些方法均存在一定程度的局限,可能會過濾掉一些內(nèi)在的生物變異.隨著scRNA-seq的廣泛應用,開發(fā)了專門針對scRNA-seq數(shù)據(jù)集的質(zhì)量控制軟件,SinQC工具可以通過綜合基因表達模型和文庫質(zhì)量信息去除技術(shù)噪音[10].除了專門的質(zhì)量控制工具以外,Scater等綜合性工具內(nèi)也集成了質(zhì)量控制和預處理組件[11].完成質(zhì)量控制后的下一步是進行序列比對,常用的比對程序是已在Bulk RNA-seq中廣泛應用的STAR[12]、BWA[13]等軟件.有些綜合軟件已經(jīng)內(nèi)置了比對組件,例如10X Genomics公司的Cell Ranger內(nèi)置了STAR作為比對組件,可以一次性完成基于10X Genomics chromium產(chǎn)出的單細胞數(shù)據(jù)的上游分析.對于在試驗中應用了單分子標簽(unique molecular identifier, UMI)進行表達量校準的協(xié)議,應該在比對之前移除這些序列.

        圖1 單細胞轉(zhuǎn)錄組生物信息學分析流程Fig.1 Schematic overview of bioinformatic analysis workflow for scRNA-seq

        過濾掉低質(zhì)量的細胞對于有些scRNA-seq協(xié)議也是十分重要的,現(xiàn)有的許多scRNA-seq協(xié)議在捕獲細胞時可能會對細胞造成損傷甚至死亡,在一些“液滴”中還可能會包括多個細胞或者未捕獲到細胞.這些低質(zhì)量的細胞數(shù)據(jù)應當在進行下游分析之前被剔除,避免造成最終結(jié)果的失真.Ilicic et al[14]提出了基于一組通用特征合并機器學習算法識別并去除上述低質(zhì)量細胞的工具.有時,內(nèi)參(spike in)也被用作質(zhì)量控制的一種常用手段,當內(nèi)參序列比對到參考基因組的比例較高時,提示該細胞的質(zhì)量較低,其內(nèi)源RNA被降解或者細胞裂解不夠充分.在低通量的協(xié)議中,顯微成像是重要的質(zhì)量控制手段,通過對細胞的完整性進行檢測以剔除一些破碎或死亡的細胞,但是當被測序的細胞數(shù)量達到數(shù)以萬計時,對每個細胞進行顯微成像變得不再可能.

        1.2 標準化

        標準化(normalization)是scRNA-seq數(shù)據(jù)分析中關鍵的一步,將直接影響下游分析結(jié)果的可靠性.目前常用的標準化方法大多來自于Bulk RNA-seq,分為兩類,一類基于縮放,例如reads per million (RPM)、fragments per kilobase of transcript per million mapped reads (FPKM)、trimmed mean of M values (TMM)[15]和 DESeq[16]等.這些方法并不適合日趨大型而復雜的單細胞數(shù)據(jù)集,處理批次效應和零膨脹等問題時可能會引入誤差[17].另一類是像remove unwanted variation (RUV)、surrogate variable analysis (SVA)[18]這種需要調(diào)整關鍵參數(shù)的方法.大多數(shù)在Bulk RNA-seq中應用的標準化方法都基于一個內(nèi)在的假設,即每個樣本中處理的RNA總量相似或者其變化是技術(shù)引起的.但是,這個假設在某些情況下是不可靠的,可能會使下游分析失真[19,20].隨著單細胞測序的發(fā)展,逐步開發(fā)了一系列適用于scRNA-seq數(shù)據(jù)集的標準化方法,下面簡要介紹這些方法.

        (1)不基于內(nèi)參的標準化:標準化的選擇主要基于所采用的scRNA-seq協(xié)議的特征,在某些協(xié)議中內(nèi)參的使用是困難的,例如,一系列基于“液滴”的協(xié)議[21-23],無法有效地利用內(nèi)參進行標準化.Lun et al[24,25]提出了一種反卷積方法,通過對基因表達值進行跨細胞求和,并對求和后的值進行標準化,然后利用反卷積將基于跨細胞的因子(pool-based size factors)轉(zhuǎn)化為細胞層次因子(cell-based factors),從而有效地減少單細胞數(shù)據(jù)集零膨脹導致的失真.該方法已經(jīng)被封裝到R包scran中,可以通過調(diào)用computeSumFactors函數(shù)實現(xiàn)反卷積標準化.Qiu et al[26]提出了Census算法,通過將傳統(tǒng)的相對表達量度(例如FPKM)轉(zhuǎn)換為單細胞水平的轉(zhuǎn)錄本相對計數(shù),在無需內(nèi)參和UMI的情況下,改善下游分析的準確性.Census算法還可以結(jié)合回歸分析用于對細胞命運分支點的調(diào)控,單細胞差異剪接和等位基因平衡的研究,可通過調(diào)用R包Monocle 2使用前述功能.但是值得注意的是,Census算法不能有效地控制擴增偏倚,所以在需要準確計算RNA豐度時,應選擇含有內(nèi)參或(和)UMI的協(xié)議.Hafemeister et al[27]開發(fā)了R包sctransform,提出了針對UMI協(xié)議數(shù)據(jù)集的標準化方法.sctransform使用正則化負二項分布的Pearson 殘差,在保留生物異質(zhì)性的同時消除了技術(shù)差異的影響.不同于常用的標準化策略,sctransform的工作流程中并未使用縮放因子,而是專注于為每個基因構(gòu)建單獨的廣義線性模型,使用UMI計數(shù)作為因變量,測序深度作為解釋變量,計算該模型的Pearson 殘差,消除基因平均表達和細胞變異之間的固有依賴,從而有效地去除技術(shù)差異的影響.sctransform目前已被直接集成到單細胞分析R包Seurat中,可以直接在Seurat中調(diào)用相關函數(shù).

        (2)基于內(nèi)參的標準化:定量每個細胞中的總RNA 含量,對于scRNA-seq的下游分析十分重要,而這點無法利用全局縮放準確做到.Jiang et al[28]嘗試了在Bulk RNA-seq中使用人工合成的內(nèi)參進行定量,在一些scRNA-seq試驗中內(nèi)參也被嘗試使用[29-32].內(nèi)參基因被添加到每個細胞中并且在所有細胞中處于相同水平,故可以通過對內(nèi)參基因與細胞自身基因表達水平的比較定量技術(shù)噪音和總RNA量.目前被廣泛使用的內(nèi)參是來自于external RNA controls consortium (ERCC)的92個外源分子集合[28].一些基于內(nèi)參對scRNA-seq數(shù)據(jù)進行標準化的綜合工具被開發(fā).例如,GRM[30]、BASICS[32]、SAMstrt[31]等.GRM通過對測序讀段的表達量(RPKM, FPKM或TPM)和摻入的ERCC進行伽馬回歸模型擬合,以消除技術(shù)噪音并計算基因表達量.GRM是對樣本內(nèi)基因表達水平進行標準化的工具,不能用于樣本間的標準化[17].BASICS基于貝葉斯分層模型整合細胞自身基因和ERCC信息以量化無法解釋的技術(shù)噪音和細胞間的異質(zhì)性.

        (3)特殊的標準化:SCnorm是樣本間的標準化方法,使用分位數(shù)回歸對測序深度具有相似依賴性的基因進行分組,并為每組估計不同的縮放因子,然后使用估計的比例因子對測序深度進行組內(nèi)調(diào)整,以達到標準化的效果.SCnorm是為了解決全局縮放時可能導致的弱表達和中等表達基因被過度校正而開發(fā),既可以對無內(nèi)參的scRNA-seq數(shù)據(jù)進行標準化,也可以對有內(nèi)參的scRNA-seq數(shù)據(jù)進行標準化.當內(nèi)參均勻分布在整個內(nèi)源基因中時,可以有效改善標準化的性能[33].scLVM(single-cell latent variable model)可用于對細胞周期和其它混雜因素引起的變異進行標準化.同時,scLVM也允許使用者對預定基因集的潛在因素進行建模和解釋,從而研究各種scRNA-seq試驗的變異來源[29].

        大部分使用內(nèi)參進行標準化的方法都基于一個重要的假設,即生物協(xié)變量不影響內(nèi)參序列的計數(shù),未知的變異對內(nèi)參和基因計數(shù)的影響是相似的.已有研究表明[20,34],這個假設在某些情況下是不可靠的.事實上,在scRNA-seq試驗中添加內(nèi)參仍然是極富挑戰(zhàn)的,對內(nèi)參分子添加的數(shù)量必須進行精確的校準以避免覆蓋整個文庫,且與內(nèi)源RNA相比,外源的內(nèi)參RNA分子可能會具有不同的降解和逆轉(zhuǎn)錄速率[26].所以,在使用基于內(nèi)參的標準化方法時,應了解內(nèi)參分子與所選系統(tǒng)的特性.

        2 批次效應

        “批次效應”(bach effect)通常是指當樣本來自于不同批次時所產(chǎn)生的技術(shù)差異.例如,不同的時間,不同的操作者,不同的scRNA-seq協(xié)議,甚至不同的測序平臺,都會使測序樣本之間產(chǎn)生批次效應[35,36].理論上,可以通過設計合理的平衡試驗消除批次效應.但是,因為試驗操作過程中的種種限制(例如,芯片的限制,材料獲取的限制等)往往無法進行標準的平衡試驗.所以,為了避免由批次效應引起的技術(shù)變異而產(chǎn)生的誤導性結(jié)論,對scRNA-seq數(shù)據(jù)進行下游分析之前,應進行批次效應校正[37,38].

        已經(jīng)有許多工具被開發(fā)用于消除scRNA-seq數(shù)據(jù)中的批次效應,其中包括一些原本為Bulk RNA-seq開發(fā)的方法,例如,ComBat[39]、limma[40]、DESeq2[41]等.Limma軟件包中的removeBatchEffect函數(shù)可用于在進行下游分析之前刪除由于批次效應和其他變異引起的系統(tǒng)變化.該函數(shù)通過將包含批次效應的封閉項(blocking term)線性擬合到每個基因的表達值,隨后將每個封閉項的系數(shù)設置為零,使用剩余項和殘差計算基因表達值,從而生成去除批次效應的表達矩陣[38,40].最近,一些專門對scRNA-seq數(shù)據(jù)進行批次效應校正的方法被提出來,例如,MNNs(projection of mutual nearest neighbors)[38]、CCA(canonical correlation analysis)[42]、f-scLVM[43]等.MNN方法主要是通過批次之間存在的MNNS消除批次效應,該方法通過MNN對之間的差異表達值進行計算,并在大量配對之后取平均值,從而提高其準確性.最后,從估計的批次效應獲得校正向量,并將其運用到表達值以進行批次效應校正.但是,使用MNN進行批次效應校正有一個先決條件,即每個批次必須至少包含一個與另一個批次共享的細胞群體,否則,MNN的可靠性將會大為降低.

        3 細胞類型的鑒定

        獲得經(jīng)過標準化的數(shù)據(jù)之后,怎樣高效而準確地鑒定細胞類型是scRNA-seq研究中的關鍵一步,通常該步驟包括降維、聚類和注釋.

        3.1 降維

        現(xiàn)在主流的scRNA-seq試驗可以檢測出大量的基因,但同時也意味高維的數(shù)據(jù),數(shù)據(jù)點(細胞)之間的距離變得相似,使細胞群體之間的差異與細胞內(nèi)部的差異變得模糊,這被稱之為“維數(shù)詛咒”[44].一般對于維數(shù)詛咒有兩種處理方法,降維(dimensionality reduction)和特征選擇(feature selection).降維主要是通過將高維的數(shù)據(jù)投影到低維的空間降低數(shù)據(jù)的復雜度,但是在降維的過程中不可避免地會丟失掉一些基因信息,因此降維方法的選擇會涉及對特定屬性優(yōu)先級的劃分.特征選擇是指通過去掉一些無用基因,從而減少分析中的數(shù)據(jù)維度.對scRNA-seq數(shù)據(jù)聚類之前,通過這些方法降低數(shù)據(jù)的維度,有利于減少噪音并加快計算速度[45,46].

        降維技術(shù)對于高維數(shù)據(jù)的可視化和下游分析至關重要,現(xiàn)在常用的降維方法主要分為兩大類,線性降維和非線性降維.線性降維方法中最具代表性的是主成分分析(principal component analysis, PCA),PCA通過確定最大的差異方向(主要成分),將數(shù)據(jù)線性轉(zhuǎn)換到由這些主要成分構(gòu)成的低維空間,具有相對較快的速度,在與稀疏矩陣聯(lián)用時可以在較大的數(shù)據(jù)集上使用.但是PCA因為受到線性降維和假設數(shù)據(jù)集近似符合正態(tài)分布的限制,不適合運用于scRNA-seq數(shù)據(jù)集[45].已經(jīng)有一些類似于PCA的改進方法,例如ZIFA(zero-inflated actor nalysis)[47]、ZINB-WaVE(zero-inflated negative binomial model)[48],用來更好地處理scRNA-seq數(shù)據(jù)集的零膨脹問題.

        非線性降維方法在scRNA-seq中的應用越來越廣泛,能有效避免表征的過度擁擠,在重疊區(qū)域表示出不同的簇.最具代表性的非線性降維技術(shù)是tSNE(t-distributed stochastic neighbor embedding)[49],該技術(shù)通過為每個數(shù)據(jù)點提供二維或三維地圖中的位置,實現(xiàn)可視化高維數(shù)據(jù),避免將數(shù)據(jù)點集中在圖像的中心以改善可視化效果,能有效揭示局部數(shù)據(jù)結(jié)構(gòu),已被運用于許多scRNA-seq數(shù)據(jù)分析.但是,tSNE具有隨機性,對于同一數(shù)據(jù)集運行tSNE會產(chǎn)生不同的嵌入,運算速度慢,容易丟失掉長距離信息(集群間的關系),且tSNE對“困惑”(perplexity)參數(shù)敏感,往往需要多次運行,以確定合適的參數(shù)[45,50],這些特性給降維過程造成困難,需要花費大量時間選擇更具生物學意義的tSNE聚類圖.

        其它的非線性降維方法還包括UMAP(uniform manifold approximation and projection)[51]、diffusion map(DM)[52]、Isomap[53].UMAP是最近提出的一種用于降維的流形學習(manifold learning)技術(shù),與tSNE相比,能保留更多的全局結(jié)構(gòu),特別是子集的連續(xù)性.在運行時間上具有一定優(yōu)勢,且可重復性更高,是非常有發(fā)展前景的降維技術(shù)[54].但是要強調(diào)的是,在scRNA-seq數(shù)據(jù)的分析中,UMAP的實踐運用仍然較少,其可靠性仍然有待檢驗.DM使用距離量度(通常為擴散距離)模擬細胞分化過程,并沿分化路徑對細胞進行排序,同時保留數(shù)據(jù)的非線性結(jié)構(gòu)[55].相比于tSNE,DM更有利于保留全局結(jié)構(gòu)和偽時間順序,但是對于較小的數(shù)據(jù)集(細胞數(shù)量少)和內(nèi)部細胞差異較大的數(shù)據(jù)集,DM的表現(xiàn)可能不如預期[56].

        特征選擇往往在對scRNA-seq數(shù)據(jù)集進行預處理的時候就已經(jīng)進行了,本文所介紹的許多標準化方法和批次效應校正其實就是一種特征選擇.簡要地說,現(xiàn)在常用的特征選擇通?;诟叨茸兓幕?、內(nèi)參和共表達這幾類方法[45].

        總的來說,在scRNA-seq數(shù)據(jù)的實際分析中,往往是上述多種方法聯(lián)合使用,沒有哪一種方法對所有的數(shù)據(jù)類型均表現(xiàn)出良好的可靠性.例如,來自“液滴”體系的稀疏測序數(shù)據(jù)和Smart-seq2協(xié)議的深層測序數(shù)據(jù),對最適軟件的選擇是不同的.所以,對于scRNA-seq數(shù)據(jù)的分析,應綜合考慮數(shù)據(jù)特征、試驗目的等因素后選擇合適的分析流程.

        3.2 聚類

        scRNA-seq的重要用途是鑒定細胞群體的異質(zhì)性,而聚類是基于scRNA-seq探索細胞異質(zhì)性的關鍵步驟.常用的聚類工具(表1)大多數(shù)基于無監(jiān)督學習算法,例如,k均值聚類(k-means)、分層聚類(hierarchical clustering)、基于密度的聚類(density-based clustering)和社區(qū)發(fā)現(xiàn)(community detection).

        表1 常用的scRNA-seq聚類工具Table 1 Summary of scRNA-seq clustering tools

        最經(jīng)典的聚類算法是k-means,隨機選取k個樣本點作為每個簇的中心點,迭代地將樣本點分配給最近的簇并重新計算簇中心.k-means算法的計算復雜度與樣本點的數(shù)量呈線性關系,具有運用在大型單細胞數(shù)據(jù)集上的可能性.同時,k-means算法也存在一些局限性.例如,在運行k-means算法之前需要選定k的數(shù)值,這在某些數(shù)據(jù)集上是困難的.k-means算法更傾向于識別大小相似的簇,從而導致一些稀有的細胞種類被包含到更普遍的細胞種類中.為了克服這些問題,一些工具被開發(fā).SC3[57]通過將不同的聚類結(jié)果合并到一個共識矩陣(consensus matrix)中,提高聚類結(jié)果的魯棒性.RaceID[58]通過篩選背景噪音中無法解釋的離群點加強對稀有細胞類型的檢測,能較好地識別復雜單細胞數(shù)據(jù)集中的稀有細胞類型.但是,當數(shù)據(jù)中不包含稀有細胞種類時,RaceID的可靠性會下降[59].

        分層聚類也是一種常用的聚類方法,通過對數(shù)據(jù)集在不同層次進行劃分,一層一層地進行聚類.可分為兩種策略,自底向上的凝聚方法(agglomerative hierarchical clustering)和自上向下的分裂方法(divisive hierarchical clustering).整個聚類過程可以視為一幅完整的樹狀圖,能夠在不同的尺度(層次)上展示數(shù)據(jù)集的聚類情況.但是,該方法運行較慢且內(nèi)存占用高,對于大型數(shù)據(jù)集聚類成本高昂.CIDR[60]通過隱式插補解決單細胞數(shù)據(jù)集中的“零膨脹”問題,從而在大型單細胞數(shù)據(jù)集上實現(xiàn)快速的分層聚類.在分層聚類中結(jié)合降維已經(jīng)成為了一種廣泛應用的策略,即在每次合并或分裂后進行降維,這種迭代策略有利于對較小的簇進行識別.

        基于密度的聚類方法根據(jù)樣本的密度分布進行聚類,相比于k-means算法只能獲得球狀的聚類形狀,這種聚類方法可以聚類任意的形狀.由于需要大量的樣本才能準確估計密度,故基于密度的聚類方法比較適合于大型單細胞數(shù)據(jù)集[45].最經(jīng)典的是DBSCAN 算法[61],通常需要給定兩個參數(shù),半徑(eps)和密度閾值(MinPts),類似于k-means算法中簇數(shù)k的選擇.在GiniClust[62]中該算法被用于基于Gini基因表達譜的聚類,能有效識別單細胞數(shù)據(jù)集中的稀有細胞類型.在大型簇的檢測中GiniClust是無效的,所以建議在使用GiniClust進行聚類的同時結(jié)合使用其他的聚類方法,避免對大型簇的檢測失真.DBSCAN算法使用固定的參數(shù)進行聚類,當數(shù)據(jù)集密度不均勻時,聚類效果較差.為了解決這個問題,一些能聚類不同密度的簇的算法被提出來,例如OPTICS(ordering points to identify the clustering structure)[63]和DPCA[64].Kausar et al[65]將DPCA聚類算法引入SIMLR,替換原本的k-means聚類算法,發(fā)展出DP-SIMLR(density peaks based clustering for single-cell interpretation via multikernel learning),從而自適應的發(fā)現(xiàn)細胞群體中的異質(zhì)性.

        社區(qū)發(fā)現(xiàn)是越來越流行的聚類方法,專門用于基于圖的數(shù)據(jù)集的聚類,是基于密度聚類的擴展.該算法對社區(qū)的大小、數(shù)量、外形無嚴格假設,能較好地適應非凸或非對稱的社區(qū)[66].社區(qū)發(fā)現(xiàn)算法能在較短時間內(nèi)對大型圖集進行分割,意味著能較好地對大型單細胞數(shù)據(jù)集進行聚類[67].在scRNA-seq中應用最廣泛的社區(qū)發(fā)現(xiàn)算法是Louvain算法(基于模塊度優(yōu)化的啟發(fā)式方法)[67,68],被許多聚類工具所使用[22,69,70].Louvain算法在兩個主要階段(節(jié)點移動和網(wǎng)絡聚合)對質(zhì)量函數(shù)進行優(yōu)化.在本地階段,單個節(jié)點被移動到使質(zhì)量函數(shù)增加最大的社區(qū).在聚合階段,基于先前的分區(qū)創(chuàng)建聚合網(wǎng)絡.先前分區(qū)的每個社區(qū)將成為聚合網(wǎng)絡的新節(jié)點,對這一過程進行迭代,直到質(zhì)量函數(shù)無法優(yōu)化.PhenoGraph使用最近鄰圖(nearest-neighbor graph)對高維的單細胞數(shù)據(jù)集進行建模,獲得代表細胞之間表型關系的圖.隨后使用Louvain算法對圖進行分割,以使模塊度最大化.

        值得注意的是,已經(jīng)有文獻報道Louvain算法在運行過程中可能會產(chǎn)生不良的社區(qū)連接,即被Louvain算法聚類為同一分群的細胞群內(nèi),可能存在沒有關聯(lián)的小分群.為了解決此問題,Traag et al[71]基于Louvain算法提出了Leiden 算法,該算法引入了智能局部移動方法,將Louvain算法中的聚合細分為分區(qū)的細化和基于細化分區(qū)的網(wǎng)絡聚合,從而有效地保證社區(qū)之間的良好連接.

        利用社區(qū)發(fā)現(xiàn)算法進行聚類也不可避免地具有一些限制,scRNA-seq數(shù)據(jù)缺少固有的圖結(jié)構(gòu),在將scRNA-seq數(shù)據(jù)轉(zhuǎn)換為圖結(jié)構(gòu)中常用的k鄰近方法在高維數(shù)據(jù)中的可靠性可能并不魯棒[72].事實上,盡管已經(jīng)有許多聚類算法和軟件被開發(fā),但并沒有一個算法和軟件能適用于所有的情況.且已有研究表明[73,74],單一的算法不可能對所有類型的scRNA-seq數(shù)據(jù)集均表現(xiàn)出較高的魯棒性.

        3.3 注釋

        對所獲得的簇進行注釋是利用scRNA-seq進行研究的關鍵步驟,但是,將每個簇準確而又可靠地對應到其真實代表的細胞種類是困難的.以往研究人員通過查閱大量的相關文獻和數(shù)據(jù)庫鑒定每個簇的真實生物學含義.然而,直到今天,學界對于細胞類型鑒定的方法與規(guī)則仍然未達成統(tǒng)一的標準.

        通過差異表達基因或標記基因?qū)Υ剡M行生物學注釋是一種常用的手段.使用Gene Ontology[75]可以獲得與細胞最相關的生物過程術(shù)語,這些標記基因可以用于試驗驗證.隨著單細胞數(shù)據(jù)集數(shù)量的增長,基于先前的聚類結(jié)果對新的簇進行生物學注釋成為一種可行的策略,一些“投影(合并)”工具被開發(fā),例如,scmap[76]、MetaNeighbor[77]、Seurat3[78].scmap通過將新的簇投影到參考數(shù)據(jù)集,用質(zhì)心(每個基因的表達中值向量)表示每個簇,計算新簇和參考數(shù)據(jù)集中已有簇的相似性,從而識別與新簇最為相似的簇.MetaNeighbor通過近鄰元分析(meta-analysis via neighbor voting)評估細胞種類特異的轉(zhuǎn)錄組圖譜在不同數(shù)據(jù)集之間的可復制性,并識別具有高度相似性的簇.Seurat3通過將來自于單細胞轉(zhuǎn)錄組、單細胞表觀、單細胞蛋白質(zhì)組和單細胞空間信息等不同來源的數(shù)據(jù)集“錨定”到同一共享空間,從而實現(xiàn)跨數(shù)據(jù)集的比較.盡管“投影”策略是優(yōu)質(zhì)的工具,但也仍然存在一些限制.當新簇并不存在于參考數(shù)據(jù)集時,可能會導致投影錯誤或無法投影[46].其次,批次效應和數(shù)據(jù)集本身的可用性都將對投影結(jié)果產(chǎn)生重大影響.

        最近,一種介于無監(jiān)督聚類和投影之間的有監(jiān)督聚類策略被提出來,要求研究者提供一組標記基因列表,對單細胞數(shù)據(jù)集進行有監(jiān)督聚類,從而實現(xiàn)對簇的自動生物學注釋.Garnett[79]和CellAssign[80]是基于此策略而開發(fā)的自動注釋工具.Garnett使用層次模型和分類器進行工作,CellAssign基于概率貝葉斯模型分配細胞類型.

        盡管已經(jīng)有各種各樣的聚類和注釋方法被提出來,但這些方法和工具都有著一定的限制和妥協(xié),所以對scRNA-seq數(shù)據(jù)進行準確而魯棒的聚類和注釋仍需繼續(xù)探索.也許,在不久的將來人們會對細胞類型的鑒定形成統(tǒng)一的規(guī)則,但在這之前,開發(fā)更加高效和準確的聚類工具仍是重點.除此之外,對由計算獲得的聚類和注釋信息進行試驗驗證也是有必要的,盡管現(xiàn)在的計算工具有了很大的進步,但是,試驗驗證仍然是更加被大家接受的金標準.

        4 小結(jié)與展望

        自從2009年第一次對單個細胞的轉(zhuǎn)錄組進行測序,scRNA-seq已經(jīng)在生物學和醫(yī)學領域扮演著越來越重要的角色,這項技術(shù)的發(fā)展開辟了一系列新的研究領域,給許多生物學問題帶來了不同的見解.特別是在腫瘤異質(zhì)性、胚胎細胞發(fā)育圖譜、疾病發(fā)生機制和干細胞再生等方面的研究中發(fā)揮了重要作用,極大地提高了人們對這些與人類健康相關的生物學問題的認識.在過去的這些年,一系列scRNA-seq協(xié)議被相繼提出,研究人員可以選擇的空間越來越大.scRNA-seq協(xié)議的發(fā)展也給數(shù)據(jù)分析帶來了巨大的挑戰(zhàn),單個細胞的測序成本越來越低,使研究人員能夠輕易地獲得數(shù)以萬計的單細胞數(shù)據(jù)集.面對這些巨大、稀疏、高維的數(shù)據(jù)集,怎樣無偏且準確地闡釋其生物學含義,仍需要更加新穎且魯棒的計算分析工具.

        猜你喜歡
        標準化方法
        標準化簡述
        學習方法
        企業(yè)標準化管理信息系統(tǒng)
        標準化是綜合交通運輸?shù)谋U稀庾x《交通運輸標準化體系》
        中國公路(2017年9期)2017-07-25 13:26:38
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        以標準化引領科技創(chuàng)新
        捕魚
        91日韩东京热中文字幕 | 日韩A∨精品久久久久| 久久久久久久久高潮无码| 一区二区三区日本视频| 无码乱肉视频免费大全合集| 久久久无码中文字幕久...| 国产成人午夜福利在线小电影| 蜜桃精品国产一区二区三区| 天堂网av一区二区三区在线观看| 99精品国产在热久久| 国产精品短视频| 一区二区三区观看在线视频| 精品无人区无码乱码毛片国产| 亚洲日韩成人av无码网站| 91爱爱视频| 美女一区二区三区在线视频| 欧美黑人又大又粗xxxxx| 无遮挡边吃摸边吃奶边做| 国产亚洲女人久久久久久| 日本在线观看一二三区| 国产在线视频一区二区三区不卡| 国产精品国产亚洲精品看不卡| 色偷偷久久一区二区三区| 亚洲性69影视| 亚洲成人一区二区三区不卡| 国产偷久久久精品专区| 伊人久久大香线蕉免费视频| 色综久久综合桃花网国产精品| 成年女人免费v片| 国产老熟女狂叫对白| 人人爽亚洲aⅴ人人爽av人人片| 少妇被爽到高潮喷水免费福利| 偷偷色噜狠狠狠狠的777米奇| 亚洲综合AV在线在线播放| 国产一区二区三区蜜桃| 隔壁老王国产在线精品| 国产精品无码午夜福利| 亚洲自拍愉拍| 国产免费人成视频在线观看 | 人妻献身系列第54部| 人妻无码ΑV中文字幕久久琪琪布|