文/本刊記者 傅宇凡
未來數(shù)據(jù)工廠和數(shù)據(jù)工人的出現(xiàn)將是一個(gè)趨勢。大數(shù)據(jù)需要不同層次的人才。
“在雨季,一個(gè)象波士頓這樣的城市,一分鐘之內(nèi)也許要降落下千千萬萬粒雨滴,如果其中的一滴是紅色的,我們的工作就是找到那滴雨?!?/p>
這是諾貝爾物理學(xué)獎(jiǎng)獲得者丁肇中在會見鄧小平時(shí),對他發(fā)現(xiàn)的J粒子所做的比喻。經(jīng)過長達(dá)十年的實(shí)驗(yàn)、測量、校正、數(shù)據(jù)分析,丁肇中發(fā)現(xiàn)了J粒子,并獲得了1976年的諾貝爾物理學(xué)獎(jiǎng)。
在新技術(shù)層出不窮的今天,大數(shù)據(jù)與大科學(xué)、大發(fā)現(xiàn)更加緊密關(guān)聯(lián),2012年上帝粒子的發(fā)現(xiàn),將大數(shù)據(jù)推向世界舞臺的中心。在過去的2014年,大數(shù)據(jù)無疑已經(jīng)成為科學(xué)界的寵兒,國內(nèi)眾多大數(shù)據(jù)科研機(jī)構(gòu)紛紛成立,并構(gòu)建自己的學(xué)科數(shù)據(jù)中心、大數(shù)據(jù)資源庫。
許榕生教授
郭華東院士
2014年6月,大數(shù)據(jù)與科學(xué)發(fā)現(xiàn)國際研討會(CODATA Workshop on Big Data for International Scientific Programmes)在北京舉辦,如何挖掘科學(xué)大數(shù)據(jù)的能量與潛力、如何更好利用科學(xué)大數(shù)據(jù)為科學(xué)發(fā)現(xiàn)服務(wù),如何使大數(shù)據(jù)、大科學(xué)、大發(fā)現(xiàn)融會貫通,都是本次會議研討重要話題。
本次大會的主席、中國科學(xué)院郭華東院士目前擔(dān)任國際科技數(shù)據(jù)委員會主席,曾提出“大數(shù)據(jù)+大科學(xué)=大發(fā)現(xiàn)”,總結(jié)多年的工作,他認(rèn)為大數(shù)據(jù)更多的是信息的發(fā)掘與應(yīng)用,至于大發(fā)現(xiàn),不光要大數(shù)據(jù)還要有新的數(shù)據(jù),新的實(shí)驗(yàn)與觀測方法。相比互聯(lián)網(wǎng)的大數(shù)據(jù)與商業(yè)大數(shù)據(jù),當(dāng)前,科學(xué)大數(shù)據(jù)的理論研究與實(shí)踐還相對較少。
IDC的統(tǒng)計(jì)數(shù)字顯示,中國目前擁有的數(shù)據(jù)量占全球的14%;而到2020年,這一比例將上升至21%。但是,相關(guān)的數(shù)據(jù)表明,我們的數(shù)據(jù)利用率不到0.4%,更多的數(shù)據(jù)仍然沉睡在各個(gè)角落、各個(gè)單位。
究其原因,一方面是由于共享機(jī)制與政策,另一方面,也是因?yàn)閿?shù)據(jù)處理的方法仍有欠缺。
中國科學(xué)院高能物理所的許榕生教授說:“大數(shù)據(jù)不是萬金油,一吃就靈。大數(shù)據(jù)的魅力,是在海量的數(shù)據(jù)中篩選出自己想要的數(shù)據(jù)?!倍@中間,數(shù)據(jù)的分類處理非常重要。
上世紀(jì)八九十年代,北京正負(fù)電子對撞機(jī)在高能所建成,實(shí)驗(yàn)室急需既懂高能物理又懂得電腦軟件和數(shù)據(jù)處理的人才,諾貝爾物理獎(jiǎng)獲得者李政道向高能所推薦了加州大學(xué)的許榕生博士。
數(shù)據(jù)獲取和處理是利用北京正負(fù)電子對撞機(jī)進(jìn)行高能物理實(shí)驗(yàn)研究的關(guān)鍵環(huán)節(jié),許榕生回國后,最初就是幫助高能所的科學(xué)家,過濾、檢驗(yàn)、分類處理從對撞機(jī)中產(chǎn)生的海量數(shù)據(jù),從而分析出物理實(shí)驗(yàn)的各種結(jié)果。由此他獲得了1993 年物理學(xué)會的最高獎(jiǎng)——胡剛復(fù)物理獎(jiǎng),其創(chuàng)建的“北京譜儀數(shù)據(jù)的離線處理技術(shù)”在當(dāng)時(shí)的VAX計(jì)算機(jī)上設(shè)計(jì)了數(shù)據(jù)過濾、數(shù)據(jù)分類,以及數(shù)據(jù)刻度、數(shù)據(jù)重建的體系,建立了數(shù)據(jù)處理的秩序,從而推動(dòng)對粒子物理基本理論輕子普適性問題的解決。
時(shí)隔二十年,近期的北京對撞機(jī)實(shí)驗(yàn)每天約產(chǎn)生2T數(shù)據(jù),最新的歐洲核子研究中心CERN每秒就產(chǎn)生超過2P的數(shù)據(jù),大數(shù)據(jù)改變了科學(xué)范式,形成新的科學(xué)范式——數(shù)據(jù)密集型科學(xué)。
許教授認(rèn)為,未來數(shù)據(jù)挖掘與分析大有可為。 “數(shù)據(jù)分析需要注意兩個(gè)問題,第一是數(shù)據(jù)準(zhǔn)確,第二是軟件利索?!睌?shù)據(jù)準(zhǔn)確需要進(jìn)行數(shù)據(jù)過濾與校正,而軟件利索,則需要基礎(chǔ)軟件、半基礎(chǔ)軟件和針對性軟件?;A(chǔ)軟件需要統(tǒng)計(jì)學(xué)及數(shù)據(jù)可視化人才,半基礎(chǔ)軟件則是需要數(shù)據(jù)專家,也就是國際上正在興起的“數(shù)據(jù)科學(xué)家(CDS,Chief Data Scientist)”,針對性軟件則需要各專業(yè)的分析專家。
人才缺乏是各方面專家一致的看法,郭華東院士在不同場合呼吁,大數(shù)據(jù)與大科學(xué)研究需要一支特定的隊(duì)伍,包括學(xué)科帶頭人、技術(shù)專家以及后備青年科學(xué)家力量。
根據(jù)麥肯錫咨詢的預(yù)測,到2018年,僅美國本土大數(shù)據(jù)人才缺口就超過14萬名,同時(shí),通過分析大數(shù)據(jù)并為企業(yè)做出有效決策的人才缺口將高達(dá)150萬名。
近年來,世界各國紛紛成立數(shù)據(jù)科學(xué)研究機(jī)構(gòu),各大學(xué)也成立相關(guān)學(xué)院培養(yǎng)人才。如美國紐約大學(xué)、英國鄧迪大學(xué)均從2013年起設(shè)立數(shù)據(jù)科學(xué)碩士學(xué)位,美國哥倫比亞大學(xué)將從2015年起設(shè)立博士學(xué)位。在國內(nèi),香港中文大學(xué)自2008年起就設(shè)立了“數(shù)據(jù)科學(xué)商業(yè)統(tǒng)計(jì)”科學(xué)碩士學(xué)位。2014年4月,清華大學(xué)聯(lián)合青島市成立了“清華-青島數(shù)據(jù)科學(xué)研究院”,宣布將推出多學(xué)科交叉培養(yǎng)的大數(shù)據(jù)碩士項(xiàng)目,并于9月招收第一批大數(shù)據(jù)碩士學(xué)位研究生;2014年6月,上海市啟動(dòng)“數(shù)據(jù)科學(xué)和大數(shù)據(jù)人才培養(yǎng)計(jì)劃”,計(jì)劃在未來3年培養(yǎng)和引進(jìn)千名高端數(shù)據(jù)人才。首批大數(shù)據(jù)工程碩士招生于6月開始報(bào)名,9月入學(xué)。西安交大、浙江大學(xué)、華東師大等高校也先后設(shè)立了數(shù)據(jù)科學(xué)研究中心。
許教授認(rèn)為,“未來數(shù)據(jù)工廠和數(shù)據(jù)工人的出現(xiàn)將是一個(gè)趨勢。大數(shù)據(jù)需要不同層次的人才?!薄拔锢碓O(shè)施好辦,大數(shù)據(jù)存儲并不能改變什么,重要的是化大為小,各司專題,才能找到那粒紅色的雨滴?!?/p>