陳晰
重構(gòu)人類(lèi)基因進(jìn)化歷史,對(duì)于研究并預(yù)防遺傳疾病具有重要意義。哈佛大學(xué)來(lái)自中國(guó)的留學(xué)生李揚(yáng)首創(chuàng)了CLIME統(tǒng)計(jì)算法,依托大數(shù)據(jù)時(shí)代巨大的公共基因組數(shù)據(jù),通過(guò)分析不同物種的DNA序列之間的關(guān)系,快速準(zhǔn)確重構(gòu)了2萬(wàn)人的基因進(jìn)化歷史,為推動(dòng)生物醫(yī)學(xué)研究發(fā)展做出巨大貢獻(xiàn)。
李揚(yáng)于1988年出生于北京。2011年赴美留學(xué),師從華人著名統(tǒng)計(jì)學(xué)家劉軍教授,2016獲哈佛大學(xué)統(tǒng)計(jì)學(xué)博士學(xué)位。他在統(tǒng)計(jì)學(xué)中主要的研究方向是通過(guò)統(tǒng)計(jì)建模,利用大規(guī)模的基因組學(xué)數(shù)據(jù)預(yù)測(cè)人類(lèi)基因的功能,從而推動(dòng)生物醫(yī)學(xué)的研究。他的論文刊登在世界著名學(xué)術(shù)刊物如Cell, PLoS Computational Biology, Journal of the American Statistical Association, Nature Methods, Proceeding of National Academy of Science等,同時(shí)還為全球714個(gè)實(shí)驗(yàn)室提供了6,000余次在線分析。其中,10余家實(shí)驗(yàn)室通過(guò)使用CLIME算法應(yīng)用得到了新的科學(xué)成果。
人類(lèi)基因組中大概有2萬(wàn)個(gè)基因,然而目前科學(xué)界只對(duì)其中不到50%的基因有所了解,另外50%的基因并不清楚他們?cè)谌梭w中起到什么作用。但就是這些未知基因的功能,卻左右著人類(lèi)的遺傳疾病。
李揚(yáng)告訴記者,根據(jù)達(dá)爾文的進(jìn)化論,不同的高級(jí)物種可能是從少數(shù)的幾個(gè)低級(jí)物種進(jìn)化而來(lái),通過(guò)分析不同物種的DNA序列之間的關(guān)系,就可以重構(gòu)每個(gè)人類(lèi)基因的進(jìn)化歷史。在大數(shù)據(jù)時(shí)代,巨大的公共基因組數(shù)據(jù)量給研究者提供了一個(gè)良好的契機(jī),CLIME算法正是基于這種思想,并基于嚴(yán)格的數(shù)學(xué)統(tǒng)計(jì)模型而發(fā)明的。
CLIME的統(tǒng)計(jì)模型是根據(jù)統(tǒng)計(jì)學(xué)中著名的隱馬爾科夫模型(Hidden Markov Model)對(duì)人類(lèi)基因在進(jìn)化過(guò)程中的產(chǎn)生和消失進(jìn)行數(shù)學(xué)建模。通過(guò)這個(gè)模型,CLIME分析出每個(gè)人類(lèi)基因的進(jìn)化歷史,同時(shí)進(jìn)一步使用貝葉斯混合模型(Bayesian mixture model),并使用馬爾科夫鏈采樣算法(Markov chain Monte Carlo)把進(jìn)化模型相似的基因進(jìn)行聚類(lèi)。因?yàn)镈 N A測(cè)序數(shù)據(jù)量巨大,統(tǒng)計(jì)分析算法往往需要很長(zhǎng)的計(jì)算時(shí)間。李揚(yáng)在CLIME中提出了一個(gè)動(dòng)態(tài)規(guī)劃(Dynamic Programming)算法,使CLIME可以在短時(shí)間內(nèi)高效完成計(jì)算。
在實(shí)際應(yīng)用中,CLIME算法使用了138個(gè)物種(包含動(dòng)物、植物、單核生物等)的基因序列數(shù)據(jù),重構(gòu)了2萬(wàn)個(gè)人類(lèi)基因的進(jìn)化歷史,把進(jìn)化歷史相似的基因進(jìn)行聚類(lèi)。目前,哈佛大學(xué)已經(jīng)建立了CLIME 算法分析網(wǎng)站www.gene-clime. org,該網(wǎng)站在全球范圍內(nèi)被研究者廣泛使用,已經(jīng)為全球714個(gè)實(shí)驗(yàn)室提供了6,000余次在線分析,在線提供的人類(lèi)基因組進(jìn)化模型的分析結(jié)果已經(jīng)被下載超過(guò)51萬(wàn)余次。此外,全球有10余家實(shí)驗(yàn)室通過(guò)使用CLIME算法,并應(yīng)用于他們的數(shù)據(jù)上得到了新的科學(xué)成果。
芬蘭科學(xué)院院士、赫爾辛基大學(xué)Anu Wartiovaara教授近期在Cell Metabolism上發(fā)表論文,詳細(xì)研究了細(xì)胞代謝中幾個(gè)重要基因的作用。在此文中,Wartiovaara教授實(shí)驗(yàn)室的研究人員使用了CLIME算法,對(duì)幾個(gè)重要的細(xì)胞代謝基因進(jìn)行分析,并得出了幾個(gè)基因之間相關(guān)性的分析。Wartiovaara教授提到:“CLIME算法是李揚(yáng)對(duì)學(xué)術(shù)界的一個(gè)重要貢獻(xiàn),CLIME算法的在線分析網(wǎng)站不僅僅我的研究小組的研究人員經(jīng)常使用,同時(shí)也是被國(guó)際上很多研究人員經(jīng)常使用的工具”。
對(duì)于未來(lái)的研究方向,李揚(yáng)表示,隨著科技發(fā)展,各個(gè)領(lǐng)域各個(gè)行業(yè)的數(shù)據(jù)量都在迅猛增長(zhǎng),每天會(huì)出現(xiàn)不同來(lái)源、不同形式、包含不同信息的數(shù)據(jù)。而通過(guò)數(shù)據(jù)來(lái)發(fā)掘有用的信息,幫助人類(lèi)社會(huì)發(fā)展是當(dāng)今社會(huì)的一個(gè)重要問(wèn)題。因此,自己下一步將重點(diǎn)研究在高緯度下,如何從眾多的變量中選擇出最有預(yù)測(cè)能力的變量。
《中華兒女》:請(qǐng)簡(jiǎn)單介紹一下統(tǒng)計(jì)學(xué)和生物統(tǒng)計(jì)學(xué)?
李揚(yáng):統(tǒng)計(jì)學(xué)可以算是應(yīng)用數(shù)學(xué)的一個(gè)分支。統(tǒng)計(jì)學(xué)不是簡(jiǎn)單的收集和整理數(shù)據(jù),而是通過(guò)概率模型來(lái)對(duì)數(shù)據(jù)進(jìn)行分析,從數(shù)據(jù)中提取有用的信息的系統(tǒng)學(xué)科。統(tǒng)計(jì)學(xué)的研究方法包含廣泛。人們除了使用應(yīng)用數(shù)學(xué)外,還需要了解和使用計(jì)算機(jī)科學(xué)中的很多算法來(lái)分析實(shí)際的數(shù)據(jù)。統(tǒng)計(jì)學(xué)在生物、經(jīng)濟(jì)、金融、社會(huì)學(xué)方面發(fā)揮很大的作用。生物統(tǒng)計(jì)學(xué)是現(xiàn)代統(tǒng)計(jì)學(xué)中最早的應(yīng)用之一。大約100年前,英國(guó)的Fisher , Pearson, Galton等人發(fā)明出了一整套統(tǒng)計(jì)分析的理論框架,他們將統(tǒng)計(jì)學(xué)應(yīng)用在分析遺傳學(xué)、生物學(xué)和農(nóng)業(yè)科學(xué)等學(xué)科中觀測(cè)到的數(shù)據(jù)。比如Galton在研究遺傳學(xué)數(shù)據(jù)中,分析了孩子和父親身高的數(shù)據(jù)。他發(fā)現(xiàn)孩子身高會(huì)有向父輩身高均值回歸的現(xiàn)象,并發(fā)明了線性回歸方法來(lái)解釋這些數(shù)據(jù)?,F(xiàn)代統(tǒng)計(jì)學(xué)已經(jīng)在各科學(xué)的研究和各行業(yè)的生產(chǎn)實(shí)踐中得到極為廣泛的應(yīng)用。
《中華兒女》:統(tǒng)計(jì)學(xué)和生物統(tǒng)計(jì)學(xué)為何現(xiàn)在如此受到人們的關(guān)注?
李揚(yáng):現(xiàn)在是一個(gè)數(shù)據(jù)爆炸的時(shí)代。隨著科學(xué)技術(shù)的發(fā)展,各個(gè)行業(yè)都在變得更加電子化和定量化,都在生成“大數(shù)據(jù)”。這些大數(shù)據(jù)雖然包含很多的信息,但是這些信息都隱藏在數(shù)據(jù)中,并不是直觀表現(xiàn)在外在的。引用我的導(dǎo)師劉軍教授的話,大數(shù)據(jù)是“原油”而不是“石油“。我們需要使用系統(tǒng)的方法來(lái)分析數(shù)據(jù),從數(shù)據(jù)中提取有用的信息。統(tǒng)計(jì)學(xué)通過(guò)建立定量模型來(lái)揭示大數(shù)據(jù)中的復(fù)雜關(guān)系,通過(guò)這些模型預(yù)測(cè)未來(lái)結(jié)果并發(fā)現(xiàn)潛在的科學(xué)機(jī)制。現(xiàn)今各大科技公司都有數(shù)據(jù)科學(xué)(Data Science)部門(mén),招聘了很多數(shù)據(jù)科學(xué)家(Data Scientist)來(lái)分析數(shù)據(jù),提高產(chǎn)品的使用體驗(yàn),更好的為客戶服務(wù)。例如說(shuō)在線打車(chē)公司Uber和Lyft都雇傭了大量的數(shù)據(jù)科學(xué)家,分析海量的用戶打車(chē)數(shù)據(jù),建立統(tǒng)計(jì)模型。這些統(tǒng)計(jì)模型可以預(yù)測(cè)每個(gè)城市人口活動(dòng)的分布,實(shí)現(xiàn)對(duì)出租車(chē)的精確調(diào)度。統(tǒng)計(jì)學(xué)中另一個(gè)重要的研究領(lǐng)域被稱(chēng)為“因果推斷”,它在生物統(tǒng)計(jì)學(xué)中有極大的影響。因果推斷研究如何從數(shù)據(jù)中推斷出因果關(guān)系。比如一個(gè)制藥公司研制出了一種新藥,需要進(jìn)行臨床實(shí)驗(yàn)判斷這個(gè)新藥是否比老的藥更有效果。在實(shí)驗(yàn)中采集各種數(shù)據(jù),通過(guò)統(tǒng)計(jì)分析來(lái)判斷這個(gè)新藥是否有效。
《中華兒女》:可以簡(jiǎn)單介紹一下你的研究工作嗎?
李揚(yáng):我的研究方向是整合生物基因組大數(shù)據(jù),建立統(tǒng)計(jì)模型,來(lái)預(yù)測(cè)人類(lèi)基因的功能。人類(lèi)基因組中含有大概2萬(wàn)個(gè)基因,然而我們只對(duì)其中不到50%的基因有所了解。另外50%的基因我們根本不知道他們是在人體中起到什么作用。對(duì)于現(xiàn)在很多的疾病,我們知道他們是遺傳疾病,但我們并不知道這些疾病是由于哪個(gè)基因產(chǎn)生了變異。所以預(yù)測(cè)這些未知基因的功能就是一個(gè)很重要的問(wèn)題。
我的研究方向是通過(guò)統(tǒng)計(jì)方法,建立人類(lèi)基因的進(jìn)化模型,分析出哪些基因是共同進(jìn)化的。我們的研究之前,人們大致上知道共同進(jìn)化的基因很有可能是相同功能的,但是一直缺乏一個(gè)系統(tǒng)的統(tǒng)計(jì)方法去預(yù)測(cè)兩個(gè)基因的共同進(jìn)化。我研究了這個(gè)問(wèn)題,提出了使用了隱馬爾科夫模型(Hidden Markov Model)對(duì)基因進(jìn)化進(jìn)行建模,并使用馬爾科夫鏈采樣算法(Markov chain Monte Carlo)把進(jìn)化模型相似的基因進(jìn)行聚類(lèi)。這個(gè)模型很成功,我們的論文發(fā)表在了Cell雜志上。我們?cè)谡撐睦锸褂昧?38個(gè)物種(包含動(dòng)物、植物、單核生物等)的基因序列數(shù)據(jù),重構(gòu)了2萬(wàn)個(gè)人類(lèi)基因的進(jìn)化歷史。通過(guò)把進(jìn)化歷史相似的基因進(jìn)行聚類(lèi),我們對(duì)幾千個(gè)人類(lèi)功能未知基因的功能做出了功能預(yù)測(cè),論文發(fā)表之后有美國(guó)、芬蘭、澳大利亞、日本等國(guó)家的實(shí)驗(yàn)室對(duì)我們的預(yù)測(cè)結(jié)果做了生物實(shí)驗(yàn)驗(yàn)證,都得到了正面的結(jié)果。我的另一個(gè)工作是用統(tǒng)計(jì)方法整合基因表達(dá)大數(shù)據(jù),通過(guò)預(yù)測(cè)基因的共同表達(dá)來(lái)發(fā)現(xiàn)基因和基因之間的關(guān)系。我們知道基因是需要通過(guò)轉(zhuǎn)錄表達(dá)成mRNA在細(xì)胞中發(fā)揮功能。兩個(gè)基因的mRNA表達(dá)如果有高度的相關(guān)性,說(shuō)明這兩個(gè)基因很有可能發(fā)揮相關(guān)的作用。之前學(xué)術(shù)界已經(jīng)有多算法來(lái)從數(shù)據(jù)中發(fā)現(xiàn)基因的共同表達(dá),但是這些算法都有一個(gè)共同的問(wèn)題,就是它們都是使用一個(gè)數(shù)據(jù)集來(lái)尋找共同表達(dá)。一個(gè)數(shù)據(jù)集往往數(shù)據(jù)噪音很大,而且你關(guān)心的基因不一定在這個(gè)數(shù)據(jù)集中有表達(dá)。所以,我們提出了一個(gè)新的基于貝葉斯(Bayesian)模型的統(tǒng)計(jì)算法,整合了3000多個(gè)在美國(guó)國(guó)家衛(wèi)生院(National Institute of Health)公共數(shù)據(jù)平臺(tái)上的數(shù)據(jù)集。通過(guò)整合這樣規(guī)模的大數(shù)據(jù),在預(yù)測(cè)基因的共同表達(dá)上這個(gè)新的算法顯著比以前的算法有更高的準(zhǔn)確性。在論文中,我們通過(guò)預(yù)測(cè)的基因共同表達(dá)找到了很多關(guān)聯(lián)基因,我們的合作者還通過(guò)生物實(shí)驗(yàn)驗(yàn)證了其中的一些預(yù)測(cè)。哈佛大學(xué)為這個(gè)新的統(tǒng)計(jì)算法建立了網(wǎng)站(www. gene-clic.org),這個(gè)網(wǎng)站有很高的訪問(wèn)量。
《中華兒女》:能否談一下統(tǒng)計(jì)學(xué)未來(lái)的發(fā)展方向?
李揚(yáng):我認(rèn)為統(tǒng)計(jì)學(xué)在未來(lái)會(huì)越來(lái)越多的注重于應(yīng)用。以前統(tǒng)計(jì)學(xué)中很多研究是建立各種各樣的數(shù)學(xué)理論。這些理論建立了統(tǒng)計(jì)學(xué)的基礎(chǔ),推動(dòng)了統(tǒng)計(jì)算法的發(fā)展。現(xiàn)在我們要做的就是把這些統(tǒng)計(jì)方法應(yīng)用到更廣泛的場(chǎng)景中去。在這方面,統(tǒng)計(jì)學(xué)家們要增加和計(jì)算機(jī)科學(xué)家們的合作?,F(xiàn)在很火的機(jī)器學(xué)習(xí)是統(tǒng)計(jì)學(xué)和計(jì)算機(jī)的交叉學(xué)科,他的很多核心方法是統(tǒng)計(jì)學(xué)的理論,不過(guò)更側(cè)重于應(yīng)用。通過(guò)使用計(jì)算機(jī)科學(xué)的大規(guī)模算法,機(jī)器學(xué)習(xí)把統(tǒng)計(jì)學(xué)應(yīng)用到更大的數(shù)據(jù)集和更多的問(wèn)題中去。對(duì)于未來(lái)我認(rèn)為統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)會(huì)走的越來(lái)越近,統(tǒng)計(jì)學(xué)家會(huì)使用越來(lái)越大規(guī)模的計(jì)算平臺(tái),計(jì)算機(jī)科學(xué)家也會(huì)越來(lái)越多的學(xué)習(xí)統(tǒng)計(jì)理論來(lái)指導(dǎo)他們的數(shù)據(jù)分析。在未來(lái)這個(gè)以數(shù)據(jù)和電子設(shè)備驅(qū)動(dòng)的時(shí)代,統(tǒng)計(jì)學(xué)必然會(huì)發(fā)揮越來(lái)越大的作用。