林長(zhǎng)松,邵嬌芳,武劍,汪強(qiáng)虎
(南京醫(yī)科大學(xué),江蘇南京 211166)
近些年,隨著單細(xì)胞轉(zhuǎn)錄組測(cè)序技術(shù)的日趨成熟,每天都會(huì)產(chǎn)生海量的單細(xì)胞測(cè)序數(shù)據(jù),如何有效分析并應(yīng)用這些數(shù)據(jù)是細(xì)胞測(cè)序的重點(diǎn)。將單細(xì)胞測(cè)序數(shù)據(jù)分析融入本科生課程是生物信息學(xué)教學(xué)中一個(gè)關(guān)鍵問(wèn)題,理論和實(shí)驗(yàn)教學(xué)中涉及大量先進(jìn)的軟件和分析方法,教師在教學(xué)中發(fā)現(xiàn),本科生在實(shí)驗(yàn)平臺(tái)中進(jìn)行多次訓(xùn)練可以掌握該知識(shí)點(diǎn),因此,教學(xué)團(tuán)隊(duì)需要構(gòu)建性能優(yōu)越的實(shí)訓(xùn)化平臺(tái),以滿足實(shí)驗(yàn)課教學(xué)需求。
生物信息學(xué)專業(yè)具有較強(qiáng)的實(shí)踐性,單細(xì)胞轉(zhuǎn)錄組測(cè)序技術(shù)的興起對(duì)教學(xué)提出了更高的要求。但該課程的教學(xué)尚處于初步探索階段,未形成一個(gè)完整的課程建設(shè)體系,仍面臨著許多問(wèn)題和挑戰(zhàn)[1]。
單細(xì)胞轉(zhuǎn)錄組測(cè)序分析作為一門新興學(xué)科,其一大特點(diǎn)是會(huì)產(chǎn)生海量的數(shù)據(jù)。不僅從下機(jī)數(shù)據(jù)到后續(xù)分析的處理過(guò)程復(fù)雜,而且配置分析環(huán)境也具有較大難度[2]:一是軟件數(shù)量多,僅R 包就多達(dá)幾百個(gè);二是軟件版本不同,不同版本的軟件數(shù)據(jù)分析結(jié)果不盡相同。本科生需要花費(fèi)大量時(shí)間用于配置環(huán)境,給教學(xué)帶來(lái)巨大挑戰(zhàn)。在實(shí)際教學(xué)中,為了解決實(shí)驗(yàn)分析環(huán)境統(tǒng)一化的問(wèn)題,教學(xué)團(tuán)隊(duì)基于docker 技術(shù)構(gòu)建了包含R 包和Python 軟件的標(biāo)準(zhǔn)化實(shí)訓(xùn)平臺(tái)環(huán)境,極大地提高了課堂教學(xué)效率。
單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析知識(shí)點(diǎn)復(fù)雜,要求學(xué)生具備系統(tǒng)的知識(shí)體系,而真正掌握該技術(shù)需要大量的練習(xí)。對(duì)于傳統(tǒng)教學(xué)模式,學(xué)生在有限的學(xué)時(shí)內(nèi)難以將知識(shí)點(diǎn)融會(huì)貫通,甚至?xí)W(xué)習(xí)興趣,配置分析環(huán)境的復(fù)雜性更是加大了學(xué)習(xí)難度。實(shí)驗(yàn)課涉及的典型實(shí)例,學(xué)生在運(yùn)行時(shí)無(wú)法理解深層含義,不能達(dá)到觸類旁通的效果,在分析新的數(shù)據(jù)時(shí)依然感到困難。
由于涉及大量的分析軟件,而每個(gè)軟件的參數(shù)又多而雜,學(xué)生難以在眾多參數(shù)中抓住主要的參數(shù),準(zhǔn)確理解軟件的各項(xiàng)功能,因此,容易出現(xiàn)無(wú)法解決軟件系統(tǒng)報(bào)錯(cuò)的現(xiàn)象。這就需要引入視頻類教學(xué),學(xué)生可以通過(guò)多次回放視頻來(lái)理解、記憶如何使用軟件,更高效地解決實(shí)際運(yùn)行軟件報(bào)錯(cuò)的問(wèn)題。
作為一種輕量級(jí)的虛擬化技術(shù)[3],docker 在生物信息學(xué)分析中被廣泛使用,并且目前生物信息公司多使用docker 技術(shù)完成流程化分析過(guò)程[4]。由于其具有可移植、不依賴操作系統(tǒng)的優(yōu)勢(shì),因此教學(xué)團(tuán)隊(duì)使用docker 建立了一個(gè)容器[5],在此基礎(chǔ)上搭建了標(biāo)準(zhǔn)化的生物信息分析實(shí)訓(xùn)平臺(tái),立足高校實(shí)訓(xùn)場(chǎng)景和教學(xué)需求,集教學(xué)、實(shí)訓(xùn)、案例分析、討論評(píng)價(jià)于一體。該實(shí)訓(xùn)平臺(tái)在實(shí)踐過(guò)程中不斷完善,對(duì)于教學(xué)和科研具有重要意義。
教學(xué)團(tuán)隊(duì)采用docker 技術(shù)建立實(shí)訓(xùn)平臺(tái),在學(xué)習(xí)過(guò)程中為學(xué)生提供了跨平臺(tái)分析的便利,從而提高了教學(xué)效率,也極大方便了科研實(shí)踐。在實(shí)驗(yàn)方面,平臺(tái)不僅包含本科生學(xué)習(xí)用到的大部分軟件,而且提供了相關(guān)的分析代碼和配置文件等。此外,實(shí)訓(xùn)化平臺(tái)穩(wěn)定性較強(qiáng),考慮了不同軟件的兼容性和版本問(wèn)題[6],使得學(xué)生在學(xué)習(xí)過(guò)程中專注于數(shù)據(jù)分析,不受分析環(huán)境問(wèn)題的困擾。而對(duì)于學(xué)有余力的同學(xué),可以進(jìn)一步掌握docker 技術(shù),從底層掌握容器構(gòu)建過(guò)程,強(qiáng)化計(jì)算機(jī)底層知識(shí),提高科研技能,這是傳統(tǒng)教學(xué)模式所無(wú)法做到的[7]。
實(shí)訓(xùn)化平臺(tái)基于容器化技術(shù)及影音技術(shù)的基礎(chǔ)構(gòu)建而成[8],具有專業(yè)化和規(guī)范化的特點(diǎn),整合了豐富的學(xué)習(xí)資源,學(xué)生可以依靠視頻講解進(jìn)行多次訓(xùn)練,并且通過(guò)閱讀糾錯(cuò)文檔,實(shí)現(xiàn)自己修改錯(cuò)誤,極大地提高了學(xué)生的自主學(xué)習(xí)興趣。學(xué)生能夠在不依賴教師的情況下進(jìn)行自我探索、自我提高。
對(duì)于視頻講解:為了滿足當(dāng)下學(xué)生的學(xué)習(xí)需求,將視頻講解運(yùn)用到數(shù)據(jù)分析的教學(xué)中,對(duì)關(guān)鍵代碼的講解和結(jié)果的解讀有助于加深學(xué)生對(duì)知識(shí)的理解。圖文并茂化的生物信息教學(xué),提高了互動(dòng)性和代碼學(xué)習(xí)的趣味性,同時(shí)為學(xué)生提供了自主性的學(xué)習(xí)平臺(tái),使學(xué)生能夠發(fā)揮主觀能動(dòng)性,促進(jìn)教學(xué)優(yōu)化,提升數(shù)據(jù)分析的實(shí)踐質(zhì)量[7]。
對(duì)于糾錯(cuò)文檔:實(shí)訓(xùn)化平臺(tái)倡導(dǎo)學(xué)生自主閱讀糾錯(cuò)文檔,減少依賴性,真正理解軟件的運(yùn)行原理,而不僅僅是模仿代碼,從而提高學(xué)生自主解決問(wèn)題的能力,會(huì)解決錯(cuò)誤也是生物信息學(xué)人才必備的技能之一。
對(duì)于數(shù)據(jù)來(lái)源:實(shí)訓(xùn)化平臺(tái)提供的數(shù)據(jù)集多來(lái)自公共數(shù)據(jù)集,案例分析具有真實(shí)的生物學(xué)意義,因此有助于激發(fā)學(xué)生自主學(xué)習(xí)和探索的興趣,鼓勵(lì)學(xué)生從科學(xué)問(wèn)題出發(fā),將生物信息學(xué)運(yùn)用到實(shí)際當(dāng)中[9]。
此外,實(shí)訓(xùn)平臺(tái)提供個(gè)性化的課前預(yù)習(xí)實(shí)踐,教學(xué)視頻為學(xué)生的課前自主學(xué)習(xí)提供了幫助,減輕了課后壓力。由于單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析需要大量的練習(xí)時(shí)間,所以課前學(xué)習(xí)有助于學(xué)生系統(tǒng)掌握知識(shí)體系,同時(shí)保證了教學(xué)效果。
生物信息學(xué)作為交叉學(xué)科,要求學(xué)生具有較強(qiáng)的自主學(xué)習(xí)能力,而實(shí)訓(xùn)化平臺(tái)滿足了專業(yè)未來(lái)的發(fā)展趨勢(shì),立足生物大數(shù)據(jù)的背景,目標(biāo)是培養(yǎng)學(xué)生自主學(xué)習(xí)的能力和創(chuàng)新能力。
目前,國(guó)內(nèi)高校開設(shè)單細(xì)胞轉(zhuǎn)錄組測(cè)序課程比較少[10],而且涉及的實(shí)驗(yàn)教學(xué)內(nèi)容相對(duì)較少,因此可供參考的內(nèi)容不多,亟需一個(gè)標(biāo)準(zhǔn)化教學(xué)平臺(tái)。生物信息學(xué)教學(xué)團(tuán)隊(duì)將容器化技術(shù)融入課程教學(xué),根據(jù)一線教師的建議及學(xué)生的反饋及時(shí)完善實(shí)訓(xùn)平臺(tái),取得了良好的教學(xué)效果:不僅實(shí)現(xiàn)了學(xué)生分析數(shù)據(jù)能力、自學(xué)能力、探索能力和團(tuán)隊(duì)合作精神的綜合培養(yǎng),而且進(jìn)一步加強(qiáng)了實(shí)驗(yàn)課教學(xué)對(duì)理論課的補(bǔ)充與深化作用[11]。
實(shí)訓(xùn)化平臺(tái)以促進(jìn)教學(xué)、規(guī)范課程建設(shè)、學(xué)生實(shí)訓(xùn)為目標(biāo),提供了完整的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析學(xué)習(xí)體系,并且充分考慮到了學(xué)生選擇模塊的靈活性和組學(xué)分析的個(gè)性化特點(diǎn)[12-14]。學(xué)生除了按照已有的示例數(shù)據(jù)和代碼進(jìn)行實(shí)驗(yàn)外,還可以基于已有的軟件模塊,自行設(shè)計(jì)實(shí)驗(yàn)方案,嘗試自主寫代碼、復(fù)現(xiàn)文獻(xiàn)的實(shí)驗(yàn)流程,在具體的案例分析中,使用生物信息學(xué)方法嘗試解決科學(xué)問(wèn)題。在這個(gè)過(guò)程中,教師引導(dǎo)學(xué)生在實(shí)驗(yàn)中發(fā)現(xiàn)問(wèn)題并解決問(wèn)題,采用文獻(xiàn)匯報(bào)的方式進(jìn)行討論,教師對(duì)學(xué)生的實(shí)驗(yàn)提出建議,形成一個(gè)完整的教學(xué)模式。實(shí)訓(xùn)化平臺(tái)能夠有效幫助教師了解學(xué)生的技能掌握情況,提高教學(xué)質(zhì)量,幫助學(xué)生掌握單細(xì)胞轉(zhuǎn)錄組分析的知識(shí)體系。
生物信息學(xué)相關(guān)實(shí)訓(xùn)化平臺(tái)的構(gòu)建需要穩(wěn)定的軟件環(huán)境,而模塊化結(jié)構(gòu)則是實(shí)訓(xùn)化平臺(tái)的基礎(chǔ)。在教學(xué)中采用的策略是基于生物信息學(xué)分析流程構(gòu)建實(shí)訓(xùn)化平臺(tái)的模塊化結(jié)構(gòu),從而引導(dǎo)學(xué)生系統(tǒng)掌握單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析流程,同時(shí)為其他生物信息學(xué)分析方法的教學(xué)如轉(zhuǎn)錄組數(shù)據(jù)分析方法提供借鑒。目前,教學(xué)上使用的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析平臺(tái)分為以下的模塊化結(jié)構(gòu)(見(jiàn)圖1):
圖1 單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析平臺(tái)架構(gòu)
(1)數(shù)據(jù)讀入整合。
在實(shí)訓(xùn)化平臺(tái)的相關(guān)模塊環(huán)境中利用Cellranger對(duì)單細(xì)胞測(cè)序數(shù)據(jù)進(jìn)行比對(duì),然后根據(jù)需要讀取的數(shù)據(jù)格式,基于Seurat 包分別采取Read10X、Read10X_h5、read.table的方法讀取比對(duì)后的數(shù)據(jù)。讀入數(shù)據(jù)后,對(duì)數(shù)據(jù)采取以下3 種方法整合:Seurat 整合流程(CCA+ MNN)、Seurat(reciprocal PCA)、Harmony 軟件整合操作。
(2)缺失值填充。
由于實(shí)際的單細(xì)胞測(cè)序數(shù)據(jù)不可避免地會(huì)遇到含有缺失值,即表達(dá)矩陣較為稀疏的情況,教學(xué)中常常會(huì)使用scImupute 或VIPER 方法來(lái)對(duì)數(shù)據(jù)進(jìn)行降噪處理,實(shí)現(xiàn)缺失值填充的目的。
(3)差異分析。
分別使用FindNeighbors()和FindClusters()函數(shù)對(duì)整合后的數(shù)據(jù)做降維聚類分群。接著,對(duì)分群?jiǎn)渭?xì)胞數(shù)據(jù)通常采用FindAllMarkers()函數(shù)做單細(xì)胞表達(dá)水平的差異分析,從而可以確定每個(gè)單細(xì)胞亞群特異性高表達(dá)的基因。
(4)細(xì)胞亞群識(shí)別。
基于細(xì)胞異質(zhì)性、細(xì)胞共性、單細(xì)胞數(shù)據(jù)庫(kù),可以對(duì)單細(xì)胞亞群做識(shí)別鑒定分析。目前,使用較為廣泛的單細(xì)胞亞群的鑒定方法主要分為以下四類:基于差異分析確定的單細(xì)胞亞群特異性高表達(dá)基因,利用Marker 基因數(shù)據(jù)庫(kù)識(shí)別細(xì)胞亞群;利用SingleR 或scMCA 或scHCL 等相關(guān)R 包來(lái)比較樣本數(shù)據(jù)的單細(xì)胞基因表達(dá)與已知細(xì)胞類型的bulk RNA,基于相似性指數(shù)的高低確定細(xì)胞類型;訓(xùn)練給定的數(shù)據(jù)集,基于訓(xùn)練的模型半監(jiān)督地預(yù)測(cè)目標(biāo)數(shù)據(jù)的細(xì)胞亞群,通常利用cellassign、axibet 等R 包;利用clusterprofiler、SCSA 等R 包,基于差異基因?qū)arker 基因做富集分析,細(xì)胞類型的判斷標(biāo)準(zhǔn)是富集程度。
(5)CNV 推斷。
對(duì)于單細(xì)胞基因組拷貝數(shù)分析,教學(xué)中通常以inferCNV 和CopyKAT 為主要的教學(xué)方向。inferCNV主要是用于分析腫瘤樣本單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),分析體細(xì)胞水平上拷貝數(shù)大規(guī)模的變化,而CopyKAT 則是計(jì)算每個(gè)細(xì)胞的基因組拷貝數(shù)分析并確定其中的亞克隆結(jié)構(gòu)。
(1)細(xì)胞通訊。
對(duì)于單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)不同細(xì)胞亞群之間的相互作用關(guān)系,常使用CellPhoneDB、iTALK、CellChat、Garnett、Nichenet 等方法確定配體與受體細(xì)胞,從而實(shí)現(xiàn)預(yù)測(cè)配體調(diào)控的靶基因與相應(yīng)受體的目的。
(2)擬時(shí)分析。
為獲得細(xì)胞過(guò)渡狀態(tài)的軌跡,使用monocle2、monocle3、velocyto 或scVelo 做擬時(shí)分析,即細(xì)胞軌跡分析,基于細(xì)胞的基因表達(dá)情況識(shí)別核心基因,實(shí)現(xiàn)對(duì)不同分化狀態(tài)的細(xì)胞排序,從而確定細(xì)胞的發(fā)育軌跡。
(3)富集分析。
單細(xì)胞轉(zhuǎn)錄組的富集分析分別可以利用GSEA 對(duì)差異分析后的樣本或GSVA 對(duì)表達(dá)矩陣計(jì)算特定基因集的變異分?jǐn)?shù)。
(4)轉(zhuǎn)錄因子分析。
單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)可以使用SCENIC 軟件研究轉(zhuǎn)錄因子并確定轉(zhuǎn)錄因子的調(diào)控單元及其調(diào)控的相關(guān)活性分?jǐn)?shù)。
(5)TCGA 聯(lián)合分析。
對(duì)于單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析得到的marker 基因或基因標(biāo)簽等數(shù)據(jù),往往會(huì)利用公共數(shù)據(jù)庫(kù)的bulk RNA 數(shù)據(jù)進(jìn)行驗(yàn)證,如結(jié)合TCGA 或GEO 數(shù)據(jù)庫(kù)對(duì)樣本數(shù)據(jù)做生存分析驗(yàn)證。
單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的實(shí)訓(xùn)化平臺(tái)的每個(gè)模塊都包括教學(xué)視頻、示例代碼、示例數(shù)據(jù)、結(jié)果解釋、錯(cuò)誤糾正。
(1)教學(xué)視頻。
教學(xué)視頻由授課教師按照單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的分析流程分模塊錄制,教師在視頻中展示如何進(jìn)入容器的鏡像環(huán)境、在環(huán)境中運(yùn)行示例代碼、運(yùn)行結(jié)果與教學(xué)中的常見(jiàn)錯(cuò)誤。這種教學(xué)方式便于學(xué)生課前預(yù)習(xí)與課后復(fù)習(xí),極大地提高了教學(xué)效率。
(2)示例代碼。
示例代碼包含了常見(jiàn)的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的分析代碼、針對(duì)特異性數(shù)據(jù)的特殊代碼以及不同方式的結(jié)果呈現(xiàn)代碼。
(3)示例數(shù)據(jù)。
教學(xué)中的示例數(shù)據(jù)覆蓋范圍較廣,包括肺腺癌、宮頸癌、牙周炎等單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),給予學(xué)生一定的自由度以個(gè)人科研興趣為導(dǎo)向進(jìn)行系統(tǒng)的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析流程的學(xué)習(xí),有較好的激勵(lì)作用。
(4)結(jié)果解釋。
實(shí)訓(xùn)化平臺(tái)覆蓋了對(duì)所有示例數(shù)據(jù)運(yùn)行結(jié)果的解讀,從單細(xì)胞轉(zhuǎn)錄數(shù)據(jù)本身的相關(guān)生物學(xué)意義的解釋擴(kuò)展到相關(guān)領(lǐng)域的前沿技術(shù)或文章的最新進(jìn)展與研究思路的指導(dǎo),拓寬了學(xué)生的研究思路,拓展了學(xué)生科研思維,為后續(xù)進(jìn)一步的學(xué)習(xí)與深造奠定了良好的基礎(chǔ)。
(5)錯(cuò)誤糾正。
在錯(cuò)誤糾正版塊包含了以往教學(xué)中常見(jiàn)的錯(cuò)誤示范文檔與運(yùn)行代碼報(bào)錯(cuò)的指導(dǎo)意見(jiàn),提高了學(xué)生的學(xué)習(xí)效率,有較高的用戶友好性。
基于docker 容器及多媒體技術(shù)構(gòu)建的單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析的實(shí)訓(xùn)化平臺(tái)以相關(guān)模塊結(jié)構(gòu)化為特點(diǎn),使得學(xué)生在可移植的安全封裝的穩(wěn)定生物信息分析環(huán)境的基礎(chǔ)上,實(shí)現(xiàn)示例數(shù)據(jù)的復(fù)現(xiàn)。此外,包括示例數(shù)據(jù)、結(jié)果解釋、錯(cuò)誤反饋等用戶友好型模塊,以數(shù)據(jù)覆蓋范圍廣、聯(lián)系科研前沿理論與技術(shù)、錯(cuò)誤反饋及時(shí)為特色,拓展了學(xué)生的科研思路,提升了教學(xué)效率,促進(jìn)了單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)相關(guān)教學(xué)的實(shí)踐與探索。該實(shí)訓(xùn)化平臺(tái)對(duì)其他生物信息學(xué)分析流程及相關(guān)學(xué)科的教學(xué)有良好的示范作用,有一定的借鑒意義。
創(chuàng)新創(chuàng)業(yè)理論研究與實(shí)踐2023年19期