王輝
1854年,倫敦發(fā)生了大規(guī)模的霍亂,很長時間沒辦法控制。一位醫(yī)師用標點地圖的方法研究了當?shù)厮植己突魜y患者分布之間的關系,發(fā)現(xiàn)一口水井位于霍亂病例地理分布的中心,借此找到了霍亂暴發(fā)的原因:一口被污染的水井。在關閉這口水井之后,霍亂的發(fā)病率明顯地下降了。這是一個簡單的故事,卻展示了統(tǒng)計學的力量,
目前,大數(shù)據(jù)時代拉開帷幕,作為數(shù)據(jù)分析的“靈魂”,統(tǒng)計學的重要性愈發(fā)凸顯?!敖y(tǒng)計學的發(fā)展不僅可以極大地促進其它相關學科的研究,更可以為政府決策提供科學依據(jù),促進整個社會的全面進步!”鄧柯說。
求“實用”踏上統(tǒng)計之路
頤和園路5號,北京大學的所在地,2003年,鄧柯以直博生的身份,在這里踏上了“統(tǒng)計”之路?!霸诒贝笞x本科的4年,我意識到相對于純理論研究,自己更希望能貼近實踐,解決實際生活中的一些問題。而統(tǒng)計學在很多領域都有廣泛的應用,所以我選擇了它。”
鄧柯是個講求“實用”的人,統(tǒng)計學是一門面向應用的學科。他們“脾性相投”,在北京大學一起度過了5年的直博時光?;貞浧疬@段日子,鄧柯說了一個詞——幸運,“那時,國家開始大力引進國外人才,享譽國際的著名統(tǒng)計學家、哈佛大學教授劉軍以長江講座教授的身份被北大引進,與我的博士生導師——北大數(shù)理統(tǒng)計研究所所長耿直教授一同指導我做研究,這讓我受益匪淺?!?/p>
2008年博士畢業(yè)后,為了進一步深造,他漂洋過海來到美國哈佛大學統(tǒng)計系繼續(xù)博士后研究,并于出站后留在哈佛大學工作。一路走來鄧柯在統(tǒng)計學方面已頗有建樹。
“序貫蒙特卡羅”是用來解決在高維復雜系統(tǒng)中進行統(tǒng)計抽樣的一種蒙特卡羅方法,在以“Particle Filter”為代表的一大類重要實際問題中有著非常重要的應用。但是傳統(tǒng)的“序貫蒙特卡羅”方法主要針對連續(xù)型分布,應用到離散型分布時,抽樣效率會大幅降低。為了破解這一難題,鄧柯針對離散型分布的特點,對原有的“序貫蒙特卡羅”方法進行了創(chuàng)新性改進,提出了“序貫拒絕控制抽樣”的新方法,大幅提高了對離散分布的抽樣效率,在許多實際問題中有重要應用。這項研究成果發(fā)表在統(tǒng)計學頂級雜志Journal of the RoyalStatistical Society;Series B
當然,解決實際問題才是鄧柯的出發(fā)點和落腳點。在這方面,生物領域的“Hi-C”數(shù)據(jù)分析就是他的關注點之一。“Hi-C”是一項能夠系統(tǒng)測量基因組中大量位點間相互作用的新技術,是近年來生物學和生物信息學研究中的一個熱點問題。該技術可以在很高的解析度下間接測量染色體中任意兩個位點之間的近似空間距離,從而為系統(tǒng)分析染色體的空間結構提供了基本信息?!叭欢?,由于生物試驗的復雜性,Hi-C數(shù)據(jù)中包含著許多測量偏差和不確定性,為數(shù)據(jù)分析帶來很大挑戰(zhàn)?!编嚳掠y而上,與合作者通過對“Hi-C”數(shù)據(jù)的深入分析,提出了一套通過統(tǒng)計推斷來預測染色體三維結構的新方法,該方法能夠很好地矯正數(shù)據(jù)中的測量偏差并系統(tǒng)性地處理其中的不確定性,使得生物學家能夠在40KB的精細尺度下觀察和分析染色體的三維結構,并從一個新的角度來研究遺傳物質對生命系統(tǒng)的影響。論述這一新方法的系列論文發(fā)表在生物信息學的頂級期刊Bioinformatics和PloS Computational Biology上,獲得廣泛關注。
在這同時,鄧柯還在計算機網(wǎng)絡通訊、醫(yī)學數(shù)據(jù)分析、社會學中的統(tǒng)計問題等方面有了新的突破。
回故土開啟新征程
2013年,鄧柯作為青年千人回國到清華大學任職,“在當時,清華的統(tǒng)計學科基礎相對薄弱。只有清華、北大、中科院的統(tǒng)計學都強大起來,中國之統(tǒng)計才能強起來。所以,我愿意投入到清華的統(tǒng)計學科建設中來。”
隨著統(tǒng)計學成為“一級學科”,國內(nèi)許多高校都加大了統(tǒng)計學科建設的力度。2014年,清華大學決定組建“統(tǒng)計學研究中心”,并聘請鄧柯的博士后導師劉軍教授擔任中心主任,哈佛大學生物統(tǒng)計系林希虹教授擔任共同主任,領導中心的發(fā)展建設。而鄧柯也作為副主任,加入到了中心的建設工作中?!斑@個過程非常艱辛,要找辦公場地,跑手續(xù)、搞裝修、招聘秘書、引進人才、做人事制度改革等許多其他工作。但是,我們最終還是成功地在短短的一年之內(nèi)把中心建立了起來,并推動其迅速步入了快速發(fā)展的軌道?!?015年6月27日,清華大學統(tǒng)計學研究中心成立大會隆重召開,海內(nèi)外150余名專家齊聚清華,鄧柯與他們共同見證了這個歷史性時刻。目前,清華大學統(tǒng)計學研究中心已經(jīng)組建了一只由6位全職教員、3位兼職教員構成的師資隊伍,他們正帶領著2位博士后、十余位博士生向統(tǒng)計學的高峰不斷攀登。
回到清華工作的3年中,鄧柯在學術的道路上不斷前行,取得了豐碩的成果。他首創(chuàng)了排序數(shù)據(jù)集成的貝葉斯方法,大幅提高了排序集成結果的準確性,這項研究成果發(fā)表在統(tǒng)計學頂級雜志Journal of American StatisticsAssociation。他還與合作者一起提出了運用統(tǒng)計學原理整合多種生物組學數(shù)據(jù)的新方法,相關研究成果發(fā)表在NatureCommunications。
基于統(tǒng)計學的文本分析是鄧柯的另一個關注點。盡管作為計算機科學的一個傳統(tǒng)研究領域,文本分析的理論和方法研究倍受關注,并已取得諸多成果。但是,目前仍然缺乏一種有效的方法可以將文本分析中的諸多環(huán)節(jié)進行整合。以中文分析為例:新詞發(fā)現(xiàn)、分詞和命名實體識別這三個關鍵問題大都被分別處理?!案鼮橹匾氖?,現(xiàn)有的主流方法大多依賴高質量的訓練樣本。但是,在許多重要的實際問題中,由于所涉及的文本規(guī)模龐大且風格多樣,幾乎沒有可能低成本地獲取有廣泛代表性的高質量訓練樣本。”鄧柯補充道。這一事實極大地限制了許多文本分析方法的應用范圍。
為了克服這種缺陷,鄧柯劍走偏鋒,提出了一種基于“詞典模型”的統(tǒng)計方法。該方法將新詞發(fā)現(xiàn)、分詞和命名實體識別作為一個整體來通盤處理,既不需要傳統(tǒng)意義上的訓練樣本,又能充分利用文本中的信息,有重要的學術價值和廣闊的應用前景。這一研究成果發(fā)表在頂級綜合性期刊《美國科學院院刊》(Proceedings of the NationalAcademy of Sciences of USA),引起了國內(nèi)外中文處理學界的廣泛關注。
為了支持日益增長的醫(yī)療大數(shù)據(jù)研究和產(chǎn)業(yè)需求,清華大學統(tǒng)計學研究中心于2015年10月成立了“醫(yī)療大數(shù)據(jù)中心”,與國內(nèi)外醫(yī)學界和產(chǎn)業(yè)界建立深入合作,共同推動與醫(yī)療大數(shù)據(jù)相關的理論和應用研究。在這個研究平臺上,鄧柯開展了一系列新的探索。“我國巨大的人口基數(shù)和醫(yī)療資源分配不均衡的現(xiàn)狀使得我國自然形成了多個全國性和區(qū)域性的醫(yī)療中心,它們積累了大量寶貴的醫(yī)療數(shù)據(jù)。如果能夠對這些醫(yī)療大數(shù)據(jù)進行有效的分析,并從中提取出與疾病診斷、疾病治療、療效評價、效費分析相關的重要模式和信息,必將對提升我國醫(yī)療系統(tǒng)的整體效率產(chǎn)生重大推動作用,并有可能催化出重大的新發(fā)現(xiàn)?!编嚳抡f。
“要實現(xiàn)這一目標,不僅要收集大量的醫(yī)學臨床數(shù)據(jù),更要對這些數(shù)據(jù)進行深度清洗和整理從而將其轉換為能夠進行分析的形式,并需要設計出有針對性的分析方法來對這些數(shù)據(jù)進行分析。統(tǒng)計學在這其中的任何一步都發(fā)揮著不可替代的作用?!编嚳卵a充道。目前,鄧柯帶領的課題組正在醫(yī)學自然語言處理和標準化、醫(yī)學知識圖譜構建、醫(yī)學大數(shù)據(jù)模式識別等領域展開卓有成效的尖端研究?!拔覀兤谕诓痪玫膶頃谶@一領域做出一系列重要成果!”鄧柯對未來充滿信心。
鄧柯的“野心”不止如此,他還力圖運用統(tǒng)計學的方法和原理為政府決策提供有力支持。2015年,鄧柯作為數(shù)據(jù)科學家參與到國家質檢總局“進出口食品安全監(jiān)管改革”方案的制定工作中,和總局的專家一道對我國進口食品口岸檢驗歷史數(shù)據(jù)進行了深入分析,并依據(jù)數(shù)據(jù)分析的結果設計了一套全新的監(jiān)管體系和口岸抽檢方案。這從根本上改變了我國進口食品檢驗實踐中長期依賴人為經(jīng)驗的粗曠式做法。目前,這套方案已經(jīng)作為“國家抽檢計劃”在全國質檢系統(tǒng)得到了實際運用?!斑@項工作可能因為保密性而不能發(fā)表文章,但是食品安全和人民群眾的生活息息相關,所以要是做好的話還是非常有意義的。”鄧柯說。