李明麗
張世華
隨著科學(xué)技術(shù)的迅速發(fā)展,多種多樣的海量數(shù)據(jù)正被廣泛地產(chǎn)生和積累。各式各樣的數(shù)據(jù)不僅存在于日常生活中,也正在成為各科學(xué)領(lǐng)域深入研究的基本要素。這種“數(shù)據(jù)密集型”的研究甚至被認(rèn)為是科學(xué)研究的新型范式,顯著促進(jìn)了數(shù)據(jù)科學(xué)的蓬勃發(fā)展。生物醫(yī)學(xué)領(lǐng)域就正在發(fā)生這樣的變化。豐富的組學(xué)大數(shù)據(jù)正在迅速產(chǎn)生,這催生了以生物數(shù)據(jù)解析為對象的生物信息學(xué)的迅速發(fā)展。大數(shù)據(jù)與數(shù)學(xué)特別是運籌學(xué)、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)等的碰撞,正在促進(jìn)基礎(chǔ)研究以及解決復(fù)雜的實際問題的能力不斷發(fā)展和創(chuàng)新,并被廣泛應(yīng)用于生物、信息、工程、軍事等各個領(lǐng)域。
在大數(shù)據(jù)的時代背景下,如何“運籌”優(yōu)化、“統(tǒng)計”計算,實現(xiàn)復(fù)雜數(shù)據(jù)特別是生物大數(shù)據(jù)的解析呢?中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院研究員張世華的研究工作即面向該方向,將幾個傳統(tǒng)學(xué)科緊密聯(lián)系在一起,致力于尋找數(shù)據(jù)解析、生命優(yōu)化的金鑰匙。
近年來,現(xiàn)代生命科學(xué)與生物技術(shù)取得了一系列重要進(jìn)展,并正在擴(kuò)大基礎(chǔ)研究的深度與廣度;同時向應(yīng)用領(lǐng)域滲透,在解決人類發(fā)展所面臨的環(huán)境、資源和健康等重大問題方面展現(xiàn)出廣闊的應(yīng)用前景。生物技術(shù)的不斷發(fā)展,產(chǎn)生了大量的不同層面的數(shù)據(jù),傳統(tǒng)的生物學(xué)研究范式已不足以應(yīng)對生物大數(shù)據(jù)的產(chǎn)生和發(fā)展。應(yīng)用數(shù)學(xué)、運籌學(xué)、統(tǒng)計學(xué)、計算機(jī)科學(xué)等學(xué)科在生物研究領(lǐng)域顯示出越來越重要的作用。
“很多交叉科學(xué)的研究,很難定論它是屬于哪一學(xué)科。從研究本身的角度來說,科學(xué)研究是沒有邊界的,只不過后來人們?yōu)榱朔奖憬涣?、管理和統(tǒng)籌,才劃分并強化了學(xué)科的概念。但很多學(xué)科之間都是密切聯(lián)系的,很多科學(xué)技術(shù)的創(chuàng)新與突破也是多學(xué)科交叉融合的產(chǎn)物。”張世華帶領(lǐng)團(tuán)隊主要圍繞與基因組學(xué)、表觀遺傳學(xué)和網(wǎng)絡(luò)生物學(xué)相關(guān)的生物信息學(xué)和與優(yōu)化、統(tǒng)計以及機(jī)器學(xué)習(xí)交叉的數(shù)據(jù)科學(xué)進(jìn)行探索和研究,專注于開發(fā)新的計算模型與算法,并用于大規(guī)模生物數(shù)據(jù)的分析和生物模式的發(fā)現(xiàn)。
多年來,張世華團(tuán)隊已經(jīng)在生物信息學(xué)與數(shù)據(jù)科學(xué)領(lǐng)域積累了豐富的經(jīng)驗,發(fā)展了多個有影響力的方法,研究成果發(fā)表在Advanced Science、Nature Communications、Nucleic Acids Research、Bioinformatics、IEEE TPAIM、IEEE TKDE、IEEE TFS、AoAS等一系列重要雜志。張世華獲得中國青年科技獎,入選國家“萬人計劃”青年拔尖人才計劃,并主持完成了國家自然科學(xué)基金優(yōu)秀青年基金項目。
通常,一般的方法對異源噪聲數(shù)據(jù)進(jìn)行集成分析時,往往忽略了不同來源的數(shù)據(jù)之間噪聲存在很強的異質(zhì)性。最近,張世華團(tuán)隊提出一個針對異源噪聲建模的貝葉斯聯(lián)合矩陣分解框架;并針對大數(shù)據(jù)可擴(kuò)展性問題,提出基于交替方向乘子法的貝葉斯分布式矩陣分解方法,給出理論的解釋。非獨立同分布噪聲的結(jié)構(gòu)化問題,是機(jī)器學(xué)習(xí)與統(tǒng)計學(xué)領(lǐng)域的一個熱點問題。斯坦福大學(xué)著名統(tǒng)計學(xué)家Jonathan Taylor(2018 ICM 45分鐘報告人)與合作者曾嘗試給出基于先驗知識的思想,但這樣的知識通常是不可得的。張世華團(tuán)隊提出圖噪聲建模的框架(Graphical Noise Modeling)與精妙算法,將這個想法推向可操作的層面,同時加深了人們對經(jīng)典主成分分析方法以及精確矩陣估計問題的理解。
隨著高通量測序技術(shù)(如C h I Pseq,RNA-seq和Single-cell RNA-seq)的發(fā)展,逐漸產(chǎn)生并積累了大量的不同條件且相互關(guān)聯(lián)(如不同癌癥、不同細(xì)胞系、不同時刻)的基因組數(shù)據(jù)。這為通過大規(guī)模數(shù)據(jù)分析和數(shù)據(jù)比較,來揭示不同關(guān)聯(lián)條件下存在的共性和特異性提供了機(jī)會。整合分析與差異分析是兩個常用的數(shù)據(jù)分析的范式。然而,通常的整合方法忽略了差異的模式,而差異分析方法通常不能識別差異部分的組合模式,一些識別組合模式的方法則要求數(shù)據(jù)的維數(shù)是匹配的。張世華團(tuán)隊針對組學(xué)數(shù)據(jù)整合的問題,多年來,開展了系統(tǒng)性的研究。比如,最近提出了一個基于聯(lián)合非負(fù)矩陣分解的技術(shù),以同時識別共有和特異組合模式的強大模型C S M F(Common and Specific patterns via Matrix Factorization),并應(yīng)用于4種不同的生物學(xué)場景。該成果發(fā)表于國際知名期刊Nucleic Acids Research后,隨即獲得了Faculty of 1000 Biology的推薦。
隨著染色質(zhì)構(gòu)象捕獲技術(shù)(3C)及其衍生技術(shù)的迅速發(fā)展,三維基因組圖譜數(shù)據(jù)正在大量累積,這為進(jìn)一步揭示哺乳動物染色體的折疊機(jī)制提供了機(jī)遇和挑戰(zhàn)。張世華團(tuán)隊針對3D基因組圖譜數(shù)據(jù),提出一個通用且高效的多尺度拓?fù)浣Y(jié)構(gòu)域識別方法M S T D,以從多種類型的三維基因組數(shù)據(jù)中鑒定多尺度的拓?fù)浣Y(jié)構(gòu),其中包括順式和反式的交互結(jié)構(gòu)。該方法不僅能夠鑒定多尺度的拓?fù)潢P(guān)聯(lián)結(jié)構(gòu),而且首次提出鑒定啟動子錨定的交互結(jié)構(gòu)域和成對的拓?fù)潢P(guān)聯(lián)交互結(jié)構(gòu)域。該成果發(fā)表于國際知名期刊Nucleic Acids Research。
新興的單細(xì)胞技術(shù)正在逐漸成熟,它使得在單細(xì)胞分辨率下并行檢測大量單細(xì)胞的變化成為可能。這涉及諸如轉(zhuǎn)錄組學(xué)、基因組學(xué)、代謝組學(xué)、染色質(zhì)開放性、甲基化組和三維染色質(zhì)結(jié)構(gòu)等層面的信息。這些技術(shù)給研究者提供了前所未有的機(jī)會,使得人們可以利用單細(xì)胞動態(tài)變化的連續(xù)性,揭示細(xì)胞的時間和空間變化。先前的大量研究證明,使用單細(xì)胞RNA-seq數(shù)據(jù)在轉(zhuǎn)錄組水平上的偽軌跡重構(gòu)是研究細(xì)胞核內(nèi)生物過程動態(tài)性的有效方法。
最近,基于流式細(xì)胞儀分選的單細(xì)胞H i-C技術(shù)的發(fā)展,使研究者能夠通過計算分析來判斷單細(xì)胞的周期相位,并分析染色體結(jié)構(gòu)和組織的動態(tài)性。然而,這項開創(chuàng)性研究的計算方法過度簡化了染色質(zhì)的拓?fù)浣Y(jié)構(gòu)信息,嚴(yán)重依賴于多個經(jīng)驗閾值,缺乏可擴(kuò)展性,對生物用戶來說具有顯著的挑戰(zhàn)性。因此,迫切需要基于單細(xì)胞Hi-C圖譜探索染色體結(jié)構(gòu)動態(tài)特征的有效的、高度自動化的計算方法。為此,張世華團(tuán)隊提出一種功能強大且穩(wěn)健的環(huán)狀軌跡重構(gòu)工具CIRCLET。該方法考慮了染色體的多尺度結(jié)構(gòu)特征,并無須指定起始細(xì)胞,用以排序單細(xì)胞的周期階段。CIRCLET被應(yīng)用于1171個單細(xì)胞的細(xì)胞周期Hi-C圖譜集,表現(xiàn)出最佳的重構(gòu)性能。該工作被國際重要學(xué)術(shù)期刊Advanced Science在線發(fā)表。
“目前,我們做得很有意思的一個事情是,研究可解釋的統(tǒng)計學(xué)與人工智能方法,并應(yīng)用于模擬和生成單細(xì)胞三維基因組圖譜,指導(dǎo)數(shù)據(jù)的產(chǎn)生過程和提高生物發(fā)現(xiàn)的潛能?!边@聽起來很不可思議,但看起來張世華樂在其中,信心滿滿。
2008年,張世華從中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院畢業(yè),獲得運籌學(xué)與控制論專業(yè)博士學(xué)位。博士畢業(yè)之前,他已經(jīng)開始思考自己未來的路該怎么走,他主動聯(lián)系了美國南加州大學(xué)進(jìn)行博士后工作;畢業(yè)前夕,中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院也邀請他留所工作。張世華坦言,留所工作是他的意外之喜,但是也深感責(zé)任在肩。2011年年初,張世華回到中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院,其后他曾先后被邀請到加州洛杉磯分校、新加坡國立大學(xué)、日本東京大學(xué)、美國哈佛大學(xué)進(jìn)行訪問交流。雖然中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院對上課沒有強制要求,但張世華主動開設(shè)了強化基礎(chǔ)、面向前沿的多門課程,比如正在開展的“數(shù)據(jù)科學(xué)與矩陣優(yōu)化”?!白隹蒲衅鋵嵤且粋€不斷學(xué)習(xí)的過程,講課就是這樣一個再學(xué)習(xí)的機(jī)會。因為要不斷地解決問題,所以要不斷學(xué)習(xí)新東西,不能坐吃山空?!睆埵廊A說道。
2010年前后,國內(nèi)有關(guān)數(shù)學(xué)、計算機(jī)與生命科學(xué)交叉研究的青年學(xué)者之間的交流活動還不夠活躍。面對這一情況,他開始思考國內(nèi)是否可以在這方面多進(jìn)行一些交流。2012年,張世華找到中國科學(xué)院遺傳與發(fā)育生物學(xué)研究所王秀杰研究員交流了自己的想法。他們一拍即合,然后組織了“數(shù)學(xué)、計算機(jī)與生命科學(xué)交叉研究青年學(xué)者論壇”。截至目前,該論壇已經(jīng)成功舉行了7屆,論壇主題涵蓋了基因組學(xué)、表觀修飾組、腫瘤基因組、RNA與蛋白質(zhì)結(jié)構(gòu)預(yù)測、機(jī)器學(xué)習(xí)以及腦連接譜等前沿研究領(lǐng)域。論壇不但為青年學(xué)者提供了難得的鍛煉機(jī)會,還提升了學(xué)生們的學(xué)術(shù)交流能力。
諾貝爾曾說過:“科學(xué)研究的進(jìn)展及其日益擴(kuò)充的領(lǐng)域?qū)酒鹞覀兊南M??!痹谌斯ぶ悄軙r代,數(shù)學(xué)、計算機(jī)與生命科學(xué)的交叉研究還能為我們帶來什么樣的驚喜?帶著這一問題,張世華正在路上!