亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        劉漢中:大數(shù)據(jù)時代的“新力量”

        2017-12-28 11:41:23杜月嬌
        科學中國人 2017年30期
        關鍵詞:高維漢中機器

        本刊記者 杜月嬌

        劉漢中:大數(shù)據(jù)時代的“新力量”

        本刊記者 杜月嬌

        劉漢中

        隨著科學技術的發(fā)展和大數(shù)據(jù)時代的到來,人們可以較容易地獲得海量數(shù)據(jù),比如基因芯片數(shù)據(jù)、衛(wèi)星傳感數(shù)據(jù)、文本數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)(百度、谷歌、臉書、推特等)?!斑@些數(shù)據(jù)的最大特點就是海量、高維?!眲h中說道。海量可以理解,高維又是什么概念呢?

        “高維數(shù)據(jù)是指數(shù)據(jù)的維度遠遠大于樣本量,例如基本芯片數(shù)據(jù)、大腦核磁共振成像數(shù)據(jù)、傳感數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)等?!眲h中給出了解釋。如何利用統(tǒng)計學的模型和方法有效地分析和處理這些高維數(shù)據(jù)并用于指導實踐活動,這將是一個非常有意義的研究問題。

        對于作為2016年執(zhí)教于清華大學的劉漢中來說,致力于研究解決高維數(shù)據(jù)和大數(shù)據(jù)問題的統(tǒng)計學方法和理論,把高維統(tǒng)計學和因果推斷發(fā)展成清華大學的核心課程,并應用高維統(tǒng)計分析的方法解決與大數(shù)據(jù)相關的實際問題,則是他回國的最大初衷。

        機器學習和因果推斷的完美結合

        在大數(shù)據(jù)和數(shù)據(jù)科學時代,統(tǒng)計學家和數(shù)據(jù)科學家經(jīng)常面臨解決高維數(shù)據(jù)的問題。這些問題來源于各種不同的領域,如基因學、生物信息學、神經(jīng)科學、環(huán)境科學、信息學和金融學等。也因此,高維統(tǒng)計和變量選擇成為最近20年最為熱門的研究問題之一。而目前,劉漢中正致力于高維數(shù)據(jù)相關的領域的研究,這其中包括高維統(tǒng)計推斷和大數(shù)據(jù)因果推斷。

        2009年,劉漢中從中國科學技術大學統(tǒng)計學專業(yè)畢業(yè),優(yōu)異的學習成績讓他獲得了保送北京大學研究生的資格,這也讓他遇見了對自己研究方向有直接影響的導師郁彬教授。2012年,他又獲得了國家留學基金委博士生聯(lián)合培養(yǎng)項目的名額,在加州大學伯克利分校度過了兩年豐富的時光。之后,在加州大學伯克利分校統(tǒng)計系從事博士后研究,導師為郁彬教授。至今,劉漢中已發(fā)表高水平SCI論文3篇,其中一篇發(fā)表在世界四大名刊之一的美國科學院院報(PNAS)上(劉漢中為共同第一作者)。此外,他還擔任了多個SCI國際學術頂級期刊和重要國際會議(包括AoS,AoAS,JASA,JMLR,ICML)的審稿人。在多項成果中,“利用機器學習的方法,解決大數(shù)據(jù)背景下如何更有效地進行因果推斷的問題”是劉漢中的突出成績之一。

        機器學習和因果推斷是兩個非常重要的研究領域。機器學習的方法已經(jīng)被廣泛地應用于研究相關性關系,并以此進行分類和預測等。但是利用機器學習的方法推斷因果性關系的研究卻很少,這是因為因果性關系的確定比相關性關系要復雜得多。隨機試驗是進行因果推斷的重要手段。在現(xiàn)代的大規(guī)模隨機試驗中,研究者們能夠觀察到大量的解釋變量。然而,在大數(shù)據(jù)背景下,解釋變量的個數(shù)往往大于樣本量,而且并不是所有的解釋變量都對感興趣的因變量有影響。因此,變量選擇或者一定形式的正則化對于提高因果效應的估計精度非常重要。傳統(tǒng)的因果推斷方法不能很好地利用大數(shù)據(jù)的信息,這也使得研究者們迫切需要發(fā)展新的理論和方法研究大數(shù)據(jù)因果推斷。

        考慮到機器學習在相關性關系的研究中獲得的巨大成功,如何把機器學習的方法和大數(shù)據(jù)因果推斷結合起來,這將是一個非常重要的研究方向。在郁彬教授的指引下,劉漢中很快就捕捉到了這一點。他和合作者們(Adam Bloniarz博士、Cun-Hui Zhang教授、Jasjeet S.Sekhon教授、郁彬教授)首次提出了利用高維變量選擇的方法(Lasso)進行大數(shù)據(jù)因果推斷的理論框架,把Lasso的理論和方法推廣到Neyman-Rubin因果模型中去,為研究者們提供了分析大數(shù)據(jù)因果推斷的重要工具。這項研究給出了Lasso能夠更有效地估計平均因果效應的充分條件,并在此基礎上證明了該估計方法的漸近正態(tài)性。同時,給出了漸近方差的一個保守估計,可以用于建立平均因果效應的置信區(qū)間。而劉漢中的研究成果也被《美國科學院院報》接受發(fā)表,初步探索了機器學習和因果推斷這兩個領域的結合方法。

        奮力開啟新征程

        除讓機器學習和因果推斷兩個領域完美結合,劉漢中還有多項非常有意義的創(chuàng)新研究成果。其一就是基于殘差Bootstrap和Lasso+OLS的高維統(tǒng)計推斷。統(tǒng)計推斷,即建立參數(shù)估計的置信區(qū)間、求p值等,是統(tǒng)計學研究的核心之一?!霸诟呔S即大數(shù)據(jù)背景下如何進行統(tǒng)計推斷是一個非常困難的問題”劉漢中直言。這是因為高維的統(tǒng)計學估計方法,例如Lasso、Elastice Net等,他們的極限分布十分復雜,難于估計。傳統(tǒng)的殘差Bootstrap的方法也不能給出漸近合理的置信區(qū)間。

        迎難而上是科研者的使命。最終劉漢中和導師郁彬教授獨辟蹊徑,創(chuàng)新性地把傳統(tǒng)的統(tǒng)計學思想和方法(Bootstrap和最小二乘法)和現(xiàn)代高維變量選擇的工具(Lasso)結合起來,提出了基于兩步估計Lasso+OLS的殘差Bootstrap方法來建立高維稀疏線性回歸模型中參數(shù)的置信區(qū)間。這項研究從理論上證明了該方法的合理性,并且和已知的方法相比,該方法更加通俗易懂,計算速度更快,非常適合數(shù)據(jù)科學家分析大數(shù)據(jù)時使用,其相應的成果也發(fā)表在數(shù)理統(tǒng)計類SCI期刊上。

        科學理論和方法研究的意義之一就是實際應用。研究帶有非負約束的Lasso估計的變量選擇和參數(shù)估計的理論性質(zhì),并把該方法應用到中國股票市場的指數(shù)追蹤問題中,正是應用意義的體現(xiàn)。指數(shù)追蹤是重要的經(jīng)濟金融問題,據(jù)劉漢中介紹,在當時的中國股票市場,由于無法賣空股票,只能依靠買入股票追蹤某種指數(shù),比如滬深300指數(shù)。由于昂貴的交易費用和管理費用,人們通常不會選擇持有構成指數(shù)的所有股票來追蹤該種指數(shù)。如何從大量的股票中選擇出能夠最有效地追蹤指數(shù)的那些股票?這個問題就變得非常重要。為了解決這一問題,劉漢中和合作者們(楊玥含博士、吳嵐教授)提出了帶有非負約束(即只能買入股票,不能賣空股票)的Lasso方法,并且在一定的條件下證明了該方法具有變量選擇相合性和參數(shù)估計相合性。在追蹤滬深300指數(shù)的實際應用中,發(fā)現(xiàn)只用30只股票就可以實現(xiàn)年化追蹤誤差在5%左右。該項研究成果發(fā)表在數(shù)據(jù)分析方向重要期刊上。

        2016年,學成歸來,帶著理想和抱負,劉漢中毅然加入清華大學。在已有研究成果的基礎上,回國后的他積極開展有關高維統(tǒng)計分析和大數(shù)據(jù)因果推斷方面的教學和科研工作。在教學方面,他立志盡全力把高維統(tǒng)計學和因果推斷發(fā)展成清華大學的核心課程;在科研方面,將致力于應用高維統(tǒng)計分析的方法解決與大數(shù)據(jù)相關的實際問題,同時發(fā)展大數(shù)據(jù)背景下進行因果推斷的新理論和新方法。

        “大數(shù)據(jù)因果推斷將是未來統(tǒng)計學研究的重點方向之一?!备呔S統(tǒng)計推斷和因果推斷是清華大學統(tǒng)計學研究中心未來的重點發(fā)展方向之一?;貒蟮膭h中將作為主要研究人員,承擔高維統(tǒng)計推斷和大數(shù)據(jù)因果推斷的教學工作。在國外的學習和研究工作經(jīng)歷,不僅讓劉漢中掌握了大量經(jīng)典的和最新的高維統(tǒng)計學理論和方法,更了解了高維統(tǒng)計學和大數(shù)據(jù)的學術研究前沿動態(tài),同時受到了國外先進的教學授課方法的熏陶?;诖?,劉漢中表示將結合清華大學的實際情況,把國外所學傾囊傳授給清華的莘莘學子,同時希望能夠發(fā)展具有清華大學統(tǒng)計學中心特色的高維統(tǒng)計學核心課程。

        科研上,劉漢中表示除了完成現(xiàn)有課題的論文寫作工作,還將致力于高維統(tǒng)計分析理論和應用研究、機器學習和因果推斷研究。具體而言,將在因果推斷的Neyman-Rubin框架下,研究各種機器學習方法(例如Elastic Net、Ridge等)的統(tǒng)計性質(zhì),發(fā)展適合大數(shù)據(jù)因果推斷的統(tǒng)計學新方法,并把這些方法應用于研究實際中出現(xiàn)的各種因果推斷問題,比如個人醫(yī)療、A/B檢驗(例如互聯(lián)網(wǎng)點擊率影響因素探索)等。

        如何利用好大數(shù)據(jù)時代提供的海量高維數(shù)據(jù)?盡管“還有相當長一段路要走”,但在劉漢中看來,“同時充滿了各種機遇和機會”。但作為大數(shù)據(jù)時代的新生力量,他將奮力開啟一段新的征程。

        猜你喜歡
        高維漢中機器
        機器狗
        機器狗
        漢中之戰(zhàn)(續(xù))
        漢中為王(二)
        一種改進的GP-CLIQUE自適應高維子空間聚類算法
        測控技術(2018年4期)2018-11-25 09:46:48
        漢中情
        未來機器城
        電影(2018年8期)2018-09-21 08:00:06
        基于加權自學習散列的高維數(shù)據(jù)最近鄰查詢算法
        電信科學(2017年6期)2017-07-01 15:44:37
        漢中仙毫
        陜西畫報(2016年1期)2016-12-01 05:35:27
        一般非齊次非線性擴散方程的等價變換和高維不變子空間
        亚洲天堂av路线一免费观看| 97久久精品人人做人人爽| 久久精品中文字幕第23页| 日本人妻少妇精品视频专区| 中文乱码字幕在线亚洲av | 亚洲视频一区二区久久久| 99热成人精品国产免国语的| 男子把美女裙子脱了摸她内裤| 国产亚洲精品在线视频| 亚洲成人免费av影院| 熟妇人妻无乱码中文字幕真矢织江| 国产午夜精品一区二区三区软件| 欧美自拍丝袜亚洲| 91亚洲国产成人久久精品网站| 亚洲精品中文字幕91| 隔壁老王国产在线精品| 欧美v亚洲v日韩v最新在线| 丝袜欧美视频首页在线| 亚洲中文字幕有码av| 精品久久中文字幕系列| 日本最新免费二区| 午夜一级韩国欧美日本国产| 国产av一区网址大全| 久久综合精品人妻一区二区三区 | 黄片视频免费在线播放观看 | 国产成人av综合亚洲色欲| 久久99老妇伦国产熟女高清| 蕾丝女同一区二区三区| 无码人妻丰满熟妇啪啪网站| 亚洲熟妇20| 国产91一区二这在线播放| 亚洲av成人永久网站一区| 亚洲国产aⅴ成人精品无吗| 激情综合色综合啪啪五月丁香 | AV无码专区亚洲AVL在线观看 | 人妻丰满熟妇一二三区| 呦系列视频一区二区三区| 成人h动漫精品一区二区| 国产日韩午夜视频在线观看| 中文字幕漂亮人妻在线| 永久免费看啪啪网址入口|