朱曉姝,蒙 霜,龍法寧
(1.廣西師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西桂林 541004;2.玉林師范學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西玉林 537000)
單細(xì)胞轉(zhuǎn)錄組測(cè)序(single-cell RNA-sequencing,scRNA-seq)技術(shù)對(duì)單個(gè)細(xì)胞進(jìn)行測(cè)序,可以準(zhǔn)確度量每個(gè)細(xì)胞的基因表達(dá)水平,更清晰地反映它們之間的差異[1,2]。該技術(shù)解決了批量細(xì)胞(Bulk cell)轉(zhuǎn)錄組測(cè)序技術(shù)對(duì)多個(gè)細(xì)胞測(cè)序獲得多個(gè)細(xì)胞的基因表達(dá)平均水平時(shí),容易丟失單個(gè)細(xì)胞獨(dú)有信息的問(wèn)題[3,4]。以scRNA-seq數(shù)據(jù)為基礎(chǔ),分析細(xì)胞異質(zhì)性[5,6],刻畫基因表達(dá)的動(dòng)態(tài)變化[7],對(duì)細(xì)胞聚類識(shí)別細(xì)胞類型[8],可以在細(xì)胞發(fā)育和細(xì)胞分化、疾病早期診斷和預(yù)后等精準(zhǔn)醫(yī)療領(lǐng)域發(fā)揮重要的作用[9]。例如,阿爾茨海默癥[9,10]、癌癥等重大疾病的早期診斷[9,11],對(duì)延長(zhǎng)病人存活時(shí)間、降低家庭和社會(huì)負(fù)擔(dān)具有重要的意義[11,12]。
當(dāng)前,scRNA-seq技術(shù)發(fā)展迅速,可以對(duì)數(shù)萬(wàn)個(gè)單細(xì)胞測(cè)序,其樣本規(guī)模從以前的幾十至幾百個(gè)細(xì)胞增加到幾千至幾萬(wàn)個(gè)細(xì)胞,導(dǎo)致計(jì)算復(fù)雜度極大增加[13]。此外,scRNA-seq數(shù)據(jù)呈現(xiàn)高稀疏性[14]、高噪聲[15]、高維度[16]、結(jié)構(gòu)信息和位置信息缺乏等特點(diǎn),對(duì)單細(xì)胞準(zhǔn)確聚類造成了較大的困難。高稀疏指“0”值占比達(dá)65%-95%,是極度稀疏的數(shù)據(jù)。高噪聲指單細(xì)胞分離時(shí)產(chǎn)生低質(zhì)量細(xì)胞、單細(xì)胞擴(kuò)增時(shí)覆蓋度不均勻,以及低的測(cè)序深度可能導(dǎo)致基因低表達(dá),而且不同測(cè)序平臺(tái)、測(cè)序協(xié)議和參數(shù)得到的測(cè)序值范圍差異較大,這些都會(huì)導(dǎo)致大量的技術(shù)噪聲。高維度指數(shù)據(jù)維度超過(guò)10 000維,難以準(zhǔn)確地度量細(xì)胞間相似性,并增加計(jì)算開銷。結(jié)構(gòu)信息和位置信息缺乏指測(cè)序時(shí)分離了每個(gè)細(xì)胞,導(dǎo)致細(xì)胞間關(guān)聯(lián)等結(jié)構(gòu)信息[17]、細(xì)胞的位置信息丟失,從而降低聚類準(zhǔn)確性和魯棒性[6,18]。當(dāng)前,單細(xì)胞聚類方法包括傳統(tǒng)的聚類方法和專門設(shè)計(jì)的方法[19,20],主要有k-均值聚類(k-means clustering)和層次聚類(Hierarchical Clustering,HC)等經(jīng)典聚類方法[21,22],以及基于映射[23,24]、基于圖劃分[25]、基于密度[26,27]、基于集成的單細(xì)胞聚類方法[2]。這些方法在“1.3聚類方法”小節(jié)中有具體的描述和分析。
對(duì)于不同類型、不同規(guī)模的scRNA-seq數(shù)據(jù),不同的聚類方法在識(shí)別細(xì)胞類型時(shí),其性能和結(jié)果存在較大差異[28,29]。因此,為了便于研究者根據(jù)數(shù)據(jù)特點(diǎn)選擇合適的聚類方法,準(zhǔn)確識(shí)別細(xì)胞類型[19,30],本研究分別對(duì)采用不同測(cè)序協(xié)議、數(shù)據(jù)格式和數(shù)據(jù)規(guī)模的14個(gè)scRNA-seq數(shù)據(jù)集進(jìn)行分析[31,32],流程見(jiàn)圖1。其中,測(cè)序協(xié)議包括全長(zhǎng)測(cè)序和雙端測(cè)序;數(shù)據(jù)格式包括每百萬(wàn)計(jì)數(shù)(Counts Per Million,CPM)、每百萬(wàn)轉(zhuǎn)錄本(Transcripts Per Million,TPM)、每百萬(wàn)轉(zhuǎn)錄本的每千堿基片段(Fragments Per Kilobase of Transcript Per Million,FPKM)、每百萬(wàn)映射讀長(zhǎng)的每千堿基讀長(zhǎng)(Reads Per Kilobase Per Million Mapped Reads,RPKM)以及原始讀長(zhǎng)(Reads);數(shù)據(jù)規(guī)模為124-9 519個(gè)細(xì)胞;稀疏度為64.11%-94.70%[21,33]。本研究將分析比較6種代表性基因選擇方法選擇高差異表達(dá)基因的情況,以及6種單細(xì)胞聚類方法的聚類準(zhǔn)確性和魯棒性。
圖1 scRNA-seq數(shù)據(jù)聚類分析流程
對(duì)scRNA-seq數(shù)據(jù)進(jìn)行質(zhì)量控制,既可以降低數(shù)據(jù)維度,又可以去除噪聲,從而提高單細(xì)胞聚類的性能[5,34]。質(zhì)量控制主要包括兩個(gè)步驟:過(guò)濾和歸一化。(1)過(guò)濾。通過(guò)設(shè)置閾值,過(guò)濾低質(zhì)量的細(xì)胞和基因。例如,設(shè)置某細(xì)胞中表達(dá)基因數(shù)閾值,過(guò)濾多細(xì)胞、死細(xì)胞等低質(zhì)量細(xì)胞;設(shè)置某基因表達(dá)的細(xì)胞數(shù)閾值,過(guò)濾低表達(dá)基因或稀有基因。(2)歸一化。通過(guò)使用歸一化因子或?qū)?shù)轉(zhuǎn)換對(duì)基因表達(dá)量進(jìn)行歸一化,可以消除scRNA-seq數(shù)據(jù)的拖尾現(xiàn)象。表1列出了6種典型的基因選擇方法的質(zhì)量控制分析。
表1 6種典型的基因選擇方法的質(zhì)量控制分析
從表1可以看出,6種基因選擇方法在質(zhì)量控制的過(guò)濾和歸一化中分別設(shè)置了不同的閾值參數(shù)。例如,過(guò)濾包含表達(dá)基因數(shù)少的低質(zhì)量細(xì)胞時(shí),閾值參數(shù)分別設(shè)為非0表達(dá)基因數(shù)、基因表達(dá)量總和,以及線粒體基因的占比;過(guò)濾在所有細(xì)胞中低表達(dá)的稀有基因時(shí),閾值參數(shù)分別設(shè)為表達(dá)的細(xì)胞數(shù)和基因表達(dá)量總和。為了過(guò)濾低質(zhì)量細(xì)胞,細(xì)胞中非0表達(dá)基因數(shù)的閾值設(shè)置為200或2 000,細(xì)胞中基因表達(dá)計(jì)數(shù)總和閾值設(shè)置為3倍的絕對(duì)偏差中位數(shù)(Median Absolute Deviations,MADs)。為了過(guò)濾稀有基因,非0表達(dá)的細(xì)胞數(shù)閾值設(shè)置為10,基因表達(dá)均值閾值設(shè)置為0.05。使用size.factors因子和對(duì)數(shù)變換進(jìn)行歸一化,size.factors因子的值分別取決于基因表達(dá)總計(jì)數(shù)均值,或總計(jì)數(shù)的中位數(shù),或常數(shù)10 000;對(duì)數(shù)轉(zhuǎn)換消除了在scRNA-seq數(shù)據(jù)中經(jīng)常出現(xiàn)的拖尾現(xiàn)象。
scRNA-seq數(shù)據(jù)在大于10 000的維度中,實(shí)際上只有2 000-3 000個(gè)基因?qū)渭?xì)胞聚類有作用[35]。因此,使用特征選擇方法過(guò)濾對(duì)聚類作用不大的大部分基因,可以同時(shí)去除噪聲和降低計(jì)算復(fù)雜度。特征選擇方法是從高維特征中選擇一組具有統(tǒng)計(jì)意義的原始特征的方法,降維后的特征仍然是原始特征,沒(méi)有引入新的噪聲,因此該方法越來(lái)越受到關(guān)注。但是,特征選擇方法存在如何設(shè)計(jì)合適的選擇策略,以發(fā)現(xiàn)具有實(shí)際意義特征子集的問(wèn)題。
scRNA-seq數(shù)據(jù)的基因選擇策略主要有3種類型。(1)基于高表達(dá)的基因選擇(High Mean Gene,HMG)。該策略通過(guò)設(shè)置閾值,刪除基因表達(dá)量均值低于閾值的基因來(lái)篩選出基因表達(dá)量均值高的基因。比如,Duò等[31]通過(guò)設(shè)置閾值為10%,篩選出基因表達(dá)量均值前10%的基因。(2)基于高差異表達(dá)的基因選擇(High Variable Gene,HVG)。該策略通過(guò)量化每個(gè)基因在所有細(xì)胞中基因表達(dá)水平的差異度,篩選出高差異表達(dá)的基因。例如,Satija等[36]通過(guò)計(jì)算基因表達(dá)量的均值和離散度,量化基因表達(dá)水平差異,選擇高差異表達(dá)的基因。(3)基于基因表達(dá)分布的基因選擇(Drop-out based method)。該策略通過(guò)設(shè)計(jì)統(tǒng)計(jì)模型描述基因表達(dá)分布,并根據(jù)分布特性選擇基因。表2列出了6個(gè)經(jīng)典的基因選擇方法,并從模型因子、測(cè)序平臺(tái)、方法局限性和優(yōu)勢(shì)等方面進(jìn)行對(duì)比分析。從表2可以看出,大多數(shù)基因選擇方法中,均值是重要的模型因子,說(shuō)明高表達(dá)基因在聚類中起著至關(guān)重要的作用。此外,少量或大量的基因識(shí)別數(shù)會(huì)影響聚類的性能。
表2 6種典型的基因選擇方法及其特點(diǎn)對(duì)比
scRNA-seq數(shù)據(jù)缺乏細(xì)胞類型標(biāo)簽和類別數(shù)等先驗(yàn)知識(shí),因此,無(wú)監(jiān)督學(xué)習(xí)的聚類方法是識(shí)別細(xì)胞類型的重要方法。單細(xì)胞聚類方法包含傳統(tǒng)的聚類方法和專門的聚類方法。
(1)傳統(tǒng)的聚類方法
k均值聚類。Macosko等[21]通過(guò)使用k均值方法對(duì)基因進(jìn)行聚類,識(shí)別具有相似表達(dá)的基因子集,在此基礎(chǔ)上對(duì)細(xì)胞周期進(jìn)行評(píng)分排序,根據(jù)評(píng)分實(shí)現(xiàn)單細(xì)胞聚類。Shin等[22]使用皮爾遜相關(guān)系數(shù)計(jì)算細(xì)胞間的相似性,采用最小生成樹連接k個(gè)聚類中心得到細(xì)胞的發(fā)育軌跡,使用k均值聚類方法實(shí)現(xiàn)單細(xì)胞聚類。
層次聚類[37]。Llorens-Bobadilla等[32]使用歐氏距離計(jì)算細(xì)胞之間的距離,通過(guò)重采樣估算類別數(shù),采用層次聚類方法實(shí)現(xiàn)單細(xì)胞聚類。Darmanis等[38]使用皮爾遜相關(guān)系數(shù)計(jì)算細(xì)胞之間的相似性,使用層次聚類方法對(duì)單細(xì)胞聚類。
(2)基于映射的單細(xì)胞聚類方法
SHARP使用“分而治之”策略,將大規(guī)模數(shù)據(jù)分割成塊[23]。使用稀疏隨機(jī)投影(Random Projection,RP)算法,基于隨機(jī)矩陣R將原始的D維數(shù)據(jù)映射為d維數(shù)據(jù)。隨機(jī)矩陣R中的元素定義為D1/4乘以1(或0、-1),降維后的維數(shù)d定義為d=log2(N)/ε2[ε∈(0,1)]。運(yùn)行k次RP算法得到k個(gè)d維矩陣,計(jì)算對(duì)應(yīng)的k個(gè)相似性矩陣,在每個(gè)相似性矩陣上運(yùn)行層次聚類,得到k個(gè)聚類結(jié)果。通過(guò)加權(quán)wMetaC方法集成這k個(gè)聚類結(jié)果,得到最終的聚類結(jié)果。
scDeepCluster融合零膨脹負(fù)二項(xiàng)(Zero Inflation Negative Binomial,ZINB)模型和自編碼器,實(shí)現(xiàn)非線性函數(shù)映射并學(xué)習(xí)低維嵌入表示[24]。在自編碼器中,引入隨機(jī)高斯噪聲以增強(qiáng)低維表示;在解碼器中構(gòu)建3個(gè)全連接層分別估計(jì)均值、離散度和缺失率對(duì)應(yīng)的ZINB損失。使用Kullback-Leibler(KL)散度度量輸入數(shù)據(jù)和重構(gòu)數(shù)據(jù)間的分布差異,并構(gòu)建新的損失函數(shù)。在輸出的低維空間使用k-means進(jìn)行聚類。
(3)基于圖劃分的單細(xì)胞聚類方法
Monocle 3使用統(tǒng)一流形逼近和投影(Uniform Manifold Approximation and Projection,UMAP)將scRNA-seq數(shù)據(jù)映射到低維空間,在此低維空間中使用Louvain社區(qū)檢測(cè)算法實(shí)現(xiàn)圖劃分,對(duì)單細(xì)胞聚類,將相鄰的細(xì)胞類合并為“超級(jí)類”[39]。最后,推斷單個(gè)細(xì)胞在發(fā)育過(guò)程中的路徑或軌跡,識(shí)別每個(gè)超級(jí)類的分支和合并位置。
(4)基于密度的單細(xì)胞聚類方法
SIMLR假設(shè)存在C個(gè)細(xì)胞類,那么細(xì)胞間的相似性矩陣應(yīng)該具有C個(gè)近似的對(duì)角性塊狀結(jié)構(gòu),通過(guò)構(gòu)造加權(quán)的高斯核函數(shù),學(xué)習(xí)多個(gè)高斯核函數(shù)的權(quán)重[26]。定義細(xì)胞間的距離,從不同角度度量細(xì)胞間距離,構(gòu)建對(duì)稱的相似性矩陣S。同時(shí),對(duì)相似性矩陣S、S上低秩約束的輔助低維矩陣L和權(quán)重ω進(jìn)行優(yōu)化學(xué)習(xí)。對(duì)學(xué)習(xí)得到的相似性矩陣直接使用親和傳播(Affinity Propagation,AP)算法聚類,或在降維后的低維空間使用k-means進(jìn)行聚類。
Seurat集成了scRNA-seq數(shù)據(jù)和原位雜交空間轉(zhuǎn)錄組數(shù)據(jù),通過(guò)識(shí)別高差異表達(dá)基因子集,學(xué)習(xí)標(biāo)記基因的表達(dá)模型,去除標(biāo)記基因表達(dá)的隨機(jī)噪聲[27]。通過(guò)將scRNA-seq數(shù)據(jù)估計(jì)的雙峰表達(dá)模型與二值化的空間轉(zhuǎn)錄組數(shù)據(jù)對(duì)齊,建立基因表達(dá)統(tǒng)計(jì)模型,推斷單細(xì)胞的空間位置。構(gòu)建細(xì)胞共享近鄰(Shared Nearest Neighbor,SNN)圖,在共享近鄰圖中使用k-means對(duì)細(xì)胞聚類。
(5)基于集成的單細(xì)胞聚類方法
SC3分別用歐氏距離、Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)度量細(xì)胞間的距離[2]。利用主成分分析得到前d個(gè)主成分,在d個(gè)相似性矩陣中使用k-means聚類。根據(jù)節(jié)點(diǎn)對(duì)出現(xiàn)在同一類中的概率,將d個(gè)聚類結(jié)果集成到一個(gè)共識(shí)矩陣中,最后使用層次聚類對(duì)細(xì)胞聚類。
代表性的單細(xì)胞聚類方法及其特點(diǎn)對(duì)比分析見(jiàn)表3。從表3可以看出,基于映射的聚類方法將高維的scRNA-seq數(shù)據(jù)映射到低維空間,降低計(jì)算復(fù)雜度,可擴(kuò)展性好,適用于大規(guī)模scRNA-seq數(shù)據(jù),但是存在需要大內(nèi)存的局限性。基于圖劃分、基于密度和基于集成的聚類方法,聚類準(zhǔn)確性好,但存在計(jì)算復(fù)雜度高的局限性,適用于小規(guī)模scRNA-seq數(shù)據(jù)。
表3 6種典型的單細(xì)胞聚類方法及其特點(diǎn)對(duì)比
為了深入探討不同方法對(duì)scRNA-seq數(shù)據(jù)分析的性能差異,本研究收集了14個(gè)scRNA-seq數(shù)據(jù)集,分別對(duì)6種基因選擇方法在識(shí)別基因數(shù)、基因重疊度等方面進(jìn)行對(duì)比分析。此外,在使用不同基因選擇方法的基礎(chǔ)上,分別對(duì)6種單細(xì)胞聚類方法的聚類準(zhǔn)確性和穩(wěn)定性等方面進(jìn)行對(duì)比分析。
從基因表達(dá)綜合數(shù)據(jù)庫(kù)(GEO,https://www.ncbi.nlm.nih.gov/geo/)和歐洲生物信息學(xué)研究所網(wǎng)站(EMBL-EBI,https://www.ebi.ac.uk/)下載14個(gè)帶有真實(shí)標(biāo)簽的金標(biāo)準(zhǔn)scRNA-seq數(shù)據(jù)集,包括5個(gè)全長(zhǎng)測(cè)序數(shù)據(jù)集和9個(gè)雙端測(cè)序數(shù)據(jù)集(表4)。這些數(shù)據(jù)集分別具有不同的測(cè)序協(xié)議、數(shù)據(jù)規(guī)模和稀疏度,其中5個(gè)數(shù)據(jù)集包含的細(xì)胞數(shù)大于3 000。這些數(shù)據(jù)集使用的Smart-seq2、10×genomics、Drop-seq等測(cè)序協(xié)議具有不同的特點(diǎn):(1)與10×genomics相比,Smart-seq2具有更高的敏感度,可以檢測(cè)到更多的基因,但其測(cè)序數(shù)據(jù)呈單峰分布,檢測(cè)到的低表達(dá)基因少;(2)10×genomics數(shù)據(jù)呈雙峰分布,可以檢測(cè)到大量的0表達(dá),這可能導(dǎo)致有更多的缺失(Dropout)事件,但它可以測(cè)序更多的細(xì)胞,更有效地檢測(cè)罕見(jiàn)的細(xì)胞類型;(3)Drop-seq捕獲效率較低,成本低,速度更快,不適合小樣本測(cè)序。
表4 14個(gè)scRNA-seq數(shù)據(jù)集信息
為了觀察不同基因選擇方法選擇基因的情況,使用6種基因選擇方法分別在Wang_Lung、Adam數(shù)據(jù)集上檢測(cè)基因。圖2和圖3分別是所檢測(cè)基因的基因數(shù)、基因重疊度的upset圖和韋恩圖。在upset圖中,橫坐標(biāo)是基因選擇方法,包括檢測(cè)到獨(dú)有基因的基因選擇方法,以及檢測(cè)到共有基因的基因選擇方法組合(這些基因選擇方法由豎線相連),縱坐標(biāo)是檢測(cè)的基因數(shù),其下方左側(cè)是每個(gè)基因選擇方法經(jīng)過(guò)質(zhì)量控制后留下的基因數(shù)。
圖2 6種基因選擇方法檢測(cè)基因的upset圖
從圖2和圖3可以看出,在Wang_Lung數(shù)據(jù)集中,除了Seurat方法以外,其他5種方法都檢測(cè)到獨(dú)有基因,Brennecke檢測(cè)到120個(gè)獨(dú)有基因,NBDropFS檢測(cè)到116個(gè)獨(dú)有基因,M3Drop檢測(cè)到654個(gè)獨(dú)有基因,Scran檢測(cè)到79個(gè)獨(dú)有基因,Monocle檢測(cè)到813個(gè)獨(dú)有基因,6種方法檢測(cè)到124個(gè)共有基因。在Adam數(shù)據(jù)集中,Seurat過(guò)濾了絕大部分基因,僅保留了560個(gè)基因;Scran過(guò)濾了少部分基因,保留了11 515個(gè)基因。Scran檢測(cè)到7 695個(gè)獨(dú)有基因,Monocle檢測(cè)到880個(gè)獨(dú)有基因,Brennecke檢測(cè)到14個(gè)獨(dú)有基因,每種方法都與其他5種基因選擇方法檢測(cè)的基因有重疊度,6種方法檢測(cè)到182個(gè)共有基因。Brennecke和Scran在兩個(gè)數(shù)據(jù)集中檢測(cè)的共有基因數(shù)分別是1 488和2 209,可以看出,這兩種方法檢測(cè)的基因重疊度比較大。Monocle與其他5種方法檢測(cè)的基因重疊度相對(duì)比較小。
為了觀察不同基因選擇方法檢測(cè)的基因?qū)Σ煌瑔渭?xì)胞聚類方法的性能影響,分別對(duì)6種基因選擇方法檢測(cè)到的基因使用6種聚類方法進(jìn)行單細(xì)胞聚類,采用調(diào)整的蘭德指數(shù)(Adjusted Rand Index,ARI)[53]評(píng)價(jià)聚類性能。ARI度量了在預(yù)測(cè)類和真實(shí)類中都處在相同類的節(jié)點(diǎn)對(duì)的數(shù)量,其值的范圍是-1到1。當(dāng)ARI達(dá)到最大值1時(shí),表示預(yù)測(cè)的類與真實(shí)類一致。
繪制ARI均值熱圖、ARI箱形圖,以便更深入地觀察和分析聚類性能的差異。融合6種基因選擇方法和6種單細(xì)胞聚類方法,運(yùn)行100次,其中5種單細(xì)胞聚類方法聚類結(jié)果的ARI均值見(jiàn)圖4,聚類結(jié)果的ARI值箱形圖見(jiàn)圖5;此外,第6種單細(xì)胞聚類方法scDeepCluster取10個(gè)不同的隨機(jī)種子,聚類結(jié)果的ARI箱形圖見(jiàn)圖6。實(shí)驗(yàn)中,Monocle分別采用了tSNE和UMAP降維,Seurat分別采用了PCA和ICA降維,其他方法沒(méi)有進(jìn)行降維。Monocle 3分別采用了densityPeak和Louvain對(duì)單細(xì)胞聚類,其他方法則分別采用自帶的聚類方法。
圖4 結(jié)合6種基因選擇方法和5種單細(xì)胞聚類方法聚類結(jié)果的ARI均值
圖6 結(jié)合6種基因選擇方法,scDeepCluster聚類結(jié)果的ARI箱形圖
從圖4和圖5可以看出,Seurat、SC3和Monocle 3結(jié)合不同的基因選擇方法時(shí),聚類性能ARI的穩(wěn)定性更好;SHARP和SIMLR結(jié)合不同的基因選擇方法時(shí),聚類性能ARI的差異相對(duì)比較大。從圖5可以看出,結(jié)合不同的基因選擇方法,Seurat在所有數(shù)據(jù)集上的聚類穩(wěn)定性和準(zhǔn)確性最好,SC3次之,Monocle 3也比較好。此外,在Plasschaert、Wang_Kidney、Wang_Lung、Yong和Zeisel2015等5個(gè)數(shù)據(jù)集中,由于相似性計(jì)算的開銷大,SIMIR方法沒(méi)有實(shí)驗(yàn)結(jié)果。從圖6可以看出,scDeepCluster結(jié)合不同的基因選擇方法時(shí),在所有數(shù)據(jù)集上也表現(xiàn)出比較好的穩(wěn)定性,在大部分?jǐn)?shù)據(jù)集上表現(xiàn)出很好的聚類性能。
為給研究者在選擇合適的方法分析scRNA-seq數(shù)據(jù)時(shí)提供借鑒,本研究對(duì)比分析了scRNA-seq數(shù)據(jù)當(dāng)前典型的質(zhì)量控制、基因選擇和聚類等方法。在對(duì)比分析質(zhì)量控制時(shí),發(fā)現(xiàn)通過(guò)設(shè)置不同的閾值,可以過(guò)濾低質(zhì)量細(xì)胞和稀有基因,并且采用對(duì)數(shù)轉(zhuǎn)換歸一化可以消除數(shù)據(jù)拖尾現(xiàn)象。在對(duì)比分析基因選擇時(shí),通過(guò)比較6種典型的基因選擇方法,發(fā)現(xiàn)均值是檢測(cè)基因的重要模型因子,除Seurat以外的5種基因選擇方法都使用了均值建模。此外,從實(shí)驗(yàn)結(jié)果可以看出,不同方法檢測(cè)到一些相同的共有基因和少量的獨(dú)有基因。6種基因選擇方法在Adam和Wang_Lung數(shù)據(jù)集分別可以檢測(cè)到182個(gè)和124個(gè)共有基因,Scran、Monocle、Brennecke、NBDropFS和M3Drop都檢測(cè)到獨(dú)有基因,Seurat則未檢測(cè)到。檢測(cè)到的共有基因包含了識(shí)別細(xì)胞類型的重要信息,檢測(cè)到的獨(dú)有基因反映了該方法建模條件下識(shí)別細(xì)胞類型的重要信息。在檢測(cè)到的共有基因和獨(dú)有基因的基礎(chǔ)上,可以進(jìn)一步分析它們?cè)诩?xì)胞發(fā)育過(guò)程軌跡推斷中的作用。不同方法檢測(cè)到的基因數(shù)有比較大的差異,Seurat檢測(cè)到的基因數(shù)最少(<1 000),而Scran檢測(cè)到的基因數(shù)最多(10 000左右)。在對(duì)比分析聚類時(shí),結(jié)合6種不同基因選擇方法,對(duì)6種單細(xì)胞聚類方法進(jìn)行聚類性能比較,發(fā)現(xiàn)Seurat、SC3、Monocle 3和scDeepCluster的聚類穩(wěn)定性較好,而SHARP和SIMLR的聚類穩(wěn)定性則相對(duì)較差;Seurat在所有數(shù)據(jù)集上的聚類穩(wěn)定性和準(zhǔn)確性最好,scDeepCluster在大部分?jǐn)?shù)據(jù)集上有很好的聚類準(zhǔn)確性。因此,選擇合適的scRNA-seq數(shù)據(jù)分析方法,需要綜合考慮測(cè)序平臺(tái)、數(shù)據(jù)規(guī)模,以及基因表達(dá)分布等因素。
隨著第三代測(cè)序技術(shù)的迅速發(fā)展,產(chǎn)生了空間轉(zhuǎn)錄組(Spatial Transcriptome,ST)測(cè)序數(shù)據(jù)、單細(xì)胞基因組測(cè)序(single cell DNA sequencing,scDNA-seq)數(shù)據(jù)、單細(xì)胞甲基化測(cè)序(single cell methylation sequencing,sc-methyl-seq)數(shù)據(jù)等多種組學(xué)的測(cè)序數(shù)據(jù),研究不同組學(xué)測(cè)序數(shù)據(jù)的對(duì)齊方法,有效融合多組學(xué)測(cè)序數(shù)據(jù)的重要信息,實(shí)現(xiàn)信息對(duì)齊和互補(bǔ),有助于更準(zhǔn)確地識(shí)別細(xì)胞類型。另外,當(dāng)前的scRNA-seq數(shù)據(jù)具有長(zhǎng)讀長(zhǎng)、大規(guī)模的新特點(diǎn),長(zhǎng)讀長(zhǎng)scRNA-seq數(shù)據(jù)存在更多的噪聲,大規(guī)模scRNA-seq數(shù)據(jù)會(huì)導(dǎo)致更大的內(nèi)存需求和計(jì)算時(shí)間開銷問(wèn)題,進(jìn)一步研究基于數(shù)據(jù)分布的有效去噪方法、適合大規(guī)模數(shù)據(jù)的圖神經(jīng)網(wǎng)絡(luò)降維方法,以提高數(shù)據(jù)質(zhì)量并準(zhǔn)確度量細(xì)胞間相似性,在細(xì)胞類型識(shí)別時(shí)加強(qiáng)生物可解釋性,提升細(xì)胞類型識(shí)別和下游分析的性能等都是以后的重要工作。