亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數據科學人才的需求與培養(yǎng)

        2016-04-08 03:49:13陳振沖賀田田
        大數據 2016年5期
        關鍵詞:工業(yè)界碩士科學家

        陳振沖,賀田田

        香港理工大學電子計算學系,香港 999077

        數據科學人才的需求與培養(yǎng)

        陳振沖,賀田田

        香港理工大學電子計算學系,香港 999077

        信息科技業(yè)已進入大數據時代。作為能夠從大數據中挖掘知識的人才,數據科學家(data scientist)受到各行各業(yè)的青睞。首先從美國和中國主要的在線人才招聘平臺收集數據,通過對比分析得出數據科學家與傳統(tǒng)的數據分析師(data analyst)在工作性質、工作能力要求以及薪資待遇等方面的差別。其次,考察和總結了世界范圍內優(yōu)秀大學數據科學人才培養(yǎng)的概況,并與工業(yè)界的實際要求進行對比。根據以上兩者之間的差異,就當前大學數據科學人才的培養(yǎng)提出了建議和對策。

        大數據;數據科學;大學教育;人才培養(yǎng)

        1 引言

        信息科技已經進入大數據的時代?!按髷祿钡臄祿萘浚╲olume)、增長速度(velocity)、多樣性(variety)、多變性(variability)和精確性(veracity)相比以往都有了翻天覆地的變化。因此,傳統(tǒng)的數據處理方法遇到了前所未有的挑戰(zhàn)。大數據帶來的巨大挑戰(zhàn),同時也是巨大的機遇。

        數據資源是重要的現代戰(zhàn)略資源,其重要性在本世紀有可能超過石油、煤炭、礦產,成為人類最重要的資源[1]。因此,如何存儲、管理數據,發(fā)現大數據中有價值的信息,成為科學界、工業(yè)界炙手可熱的問題。眾所周知,“事”在人為,數據處理的策劃、實施的主體是具備專業(yè)知識和技能的數據處理人才。大到一個國家,小到一間公司或一個集體,若想充分利用數據帶來的價值,必須擁有具有專業(yè)知識和技術的數據人才。培養(yǎng)出足夠的、合格的數據人才,對我國在未來掌握大數據的核心價值起著至關重要的作用。

        在本文中,筆者首先闡述大數據時代催生出的新興科學——數據科學,之于大數據處理的重要性;而后,通過總結工業(yè)界對于時下最熱門的兩個數據科學方面的職業(yè)(數據科學家和數據分析師)的要求,闡述工業(yè)界對于數據科學人才的一般要求;而后,再通過對比的方式得出大學教育培養(yǎng)數據科學人才與工業(yè)界要求的差異;最后對數據科學人才培養(yǎng)提出行之有效的建議。

        2 大數據處理與數據科學

        當今社會,伴隨著計算機互聯(lián)網技術的普及與發(fā)展,人類社會的諸多活動都會產生大量的數據。比如在科學研究方面,目前生物學的數據每年都以指數速率增長[2],截至2013年,歐洲生物信息協(xié)會保存的基因和蛋白質的數據就達到20 PB[3]。此外,政府和企業(yè)的政務以及業(yè)務數據的總量也迅速增長。國內一項調查顯示,接近30%的國內企業(yè)擁有500 TB以上級別的企業(yè)數據庫用于存儲企業(yè)數據[4]。截至2014年,全球各國政府和地區(qū)僅開放的數據集就已超過700000個[5]。而人類使用互聯(lián)網終端產生的數據,更是難以計數。面對如此巨大的數據總量,如何存儲、處理、發(fā)現數據中有價值的信息,成為科學界、工業(yè)界炙手可熱的話題。

        為應對大數據帶來的前所未有的挑戰(zhàn),一個以多學科多技術融合為特點的新興基礎學科[6]——數據科學,已經形成并迅速發(fā)展。從宏觀角度而言,數據科學是一門利用數據學習知識的學科,其目標是通過在數據中提取的有價值的信息來生產數據產品。數據科學結合了諸多領域中的理論和技術,包括應用數學、統(tǒng)計、模式識別、機器學習、數據可視化、數據倉庫以及高性能計算①https:// en.wikipedia.org/ wiki/Data_science。從其定義不難看出,數據科學與傳統(tǒng)的數據分析學科有一定的交集,但不完全相同。可以看到,數據科學涉及的學科更多、更全面。

        知識的獲取是整個數據處理過程最重要的組成部分,也是獲取海量數據之后的重要目的。目前,數據分析以獲取知識的方法傳統(tǒng)上稱為data analysis,但近年來,data analytics這一術語也經常見到,特別是談論大數據與社交媒體分析的時候。雖然這兩個術語都可翻譯為數據分析,但它們是否全無分別呢?

        data analysis一般泛指傳統(tǒng)的數據分析方法。針對不同的數據,data analysis運用統(tǒng)計學相關的方法,如T檢驗、F檢驗、卡方檢驗、邏輯回歸等,獲取數據中的相關知識。相比于data analysis,dataanalytics更加與時俱進。針對各式各樣的數據,data analytics首先針對數據建立數學模型,然后運用各類方法,如數理統(tǒng)計類方法、機器學習、數據挖掘等,對數據進行深層次的知識發(fā)掘。根據之前提到的數據科學的定義(數據科學是一門利用不同方法從數據中獲取知識的科學),它更傾向于運用data analytics為主、data analysis為輔的方式發(fā)掘數據中的知識。由以上兩種不同的知識發(fā)掘方法,催生出兩大類不同的數據科學工作者,即數據科學家(data scientist)和數據分析師(data analyst)。在下文中,筆者將著重分析和對比工業(yè)界對以上兩類數據科學工作者的要求和大學教育培養(yǎng)數據科學工作者之間的差異。

        3 數據科學人才的要求與培養(yǎng)現狀

        根據前文所述可知,能否培養(yǎng)出能夠應對和處理不同類型數據的專業(yè)數據科學人才是能否應對大數據帶來的巨大挑戰(zhàn)的關鍵。作為向工業(yè)界輸送人才的重要力量,大學教育理應成為數據科學人才培養(yǎng)的重要基地。本節(jié)將著重分析工業(yè)界對于數據工作者的要求和大學數據科學人才培養(yǎng)的概況,并總結二者的差異。

        3.1 數據科學工作者——工業(yè)界的要求

        雖然目前工業(yè)界雇傭數據科學工作者時會用各式各樣的工作頭銜,如數據工程師、數據分析師、數據分析員等,但根據前文的闡述,數據科學工作者可以大概分為兩類:數據分析師與數據科學家。這兩類數據科學工作者可以看作為實現不同層次的數據處理而設定的工作崗位。為了能夠明確區(qū)分工業(yè)界對于二者的要求,筆者主要以中美兩國兩家在線招聘平臺,拉勾網②www.lagou.com和CareerBuilder③http://www.careerbuilder.com/當日投放的招聘廣告為樣本,統(tǒng)計了中美兩國對于數據分析師和數據科學家的崗位要求,并對統(tǒng)計結果進行對比分析。使用以上兩個在線招聘平臺的數據作對比分析主要基于下列原因:其一,拉勾網和CareerBuilder分別是中國內地和美國較大的IT類在線招聘平臺,在這兩個平臺投放的招聘廣告在一定程度上能夠代表兩國工業(yè)界對于數據分析師和數據科學家的崗位要求;其二,兩個在線招聘平臺均提供了詳細的關鍵字搜索、分類搜索以及過濾功能,筆者能夠借助這些功能實現不同角度的對比分析。

        從2016年5月21日的廣告投放數據,筆者統(tǒng)計了中美兩國對于數據科學家和數據分析師的學歷及工作經驗要求,見表1。從表1可以看到,雖然具體的數據有所差異,但中美兩國公司對于數據科學家以及數據分析師的要求基本相似。數據科學家需要更高的學歷,例如:要求碩士以上學歷的招聘廣告在拉勾網上達到27.7%,在CareerBuilder上則接近42%。在其他調查報告中,對于數據科學家的學歷要求也給出了相似的結果。例如,在一項由RJMetrics發(fā)起的調查中④https://rjmetrics.com/press/newstudy-finds-52-of-data-scientistshave-earnedthat-title-withinthe-past-4-years/,在過去4年成功獲得數據科學家工作職位的數據科學工作者中,接近45%的數據科學家至少擁有碩士學歷,而擁有博士學歷的數據科學家也接近20%。相比于數據科學家,數據分析師更需要相對豐富的工作經驗,例如CareerBuilder和拉勾網要求數據分析師有3~5年工作經驗的招聘比例分別達到24.65%和56.6%,而要求同樣工作經驗的數據科學家的比例只有12.9%和26%。由表1的統(tǒng)計分析不難發(fā)現,數據科學家對于數據科學的理論要求更高,而數據分析師更傾向于強調數據處理的熟練程度。

        表1 數據分析師與數據科學家的學歷及工作經驗要求

        除去比較學歷和工作經驗的要求,筆者還對數據分析師和數據科學家的工作職責要求進行了對比分析。根據拉勾網和CareerBuilder于2016年5月21日的招聘廣告投放數據,表2列出了中美兩國對于數據科學家和數據分析師工作職責要求的對比情況。

        從表2可以看出,數據分析師被要求參與更多的應用性工作:如40%的招聘廣告標明數據分析師需要撰寫數據報告,而要求數據分析師利用工具軟件進行數據挖掘的招聘廣告超過了50%。相比之下,中美兩國對于數據科學家的要求更強調數據科學理論,例如:美國至少80%的數據科學家工作要求應聘者具備建立數據模型的能力,而國內幾乎所有的數據科學家崗位都要求應聘者具備數據建模的能力;此外,中美兩國對于數據科學家的應聘者的算法設計能力、統(tǒng)計推理和數據挖掘理論以及決策支持方面的能力也有較高要求。而這些理論方面的崗位要求,在數據分析師的崗位要求中基本不會涉及。由表2的統(tǒng)計可以看出,就工作職責而言,數據科學家與數據分析師的區(qū)別也是顯而易見,例如:數據科學家需掌握更全面的數據科學理論和應用知識,而數據分析師則更強調應用。由于工作性質、職責不盡相同,數據分析師與數據科學家的薪資待遇也不完全相同。筆者通過調查CareerBuilder投放的數據科學家的崗位招聘廣告發(fā)現,大多數招聘公司給出的年薪都在10萬~20萬美元,少數公司對于優(yōu)秀的數據科學家可以給出更高的年薪。相比之下,數據分析師的年薪普遍低于10萬美元,只有少數公司能夠給經驗豐富的數據分析師更高的勞動報酬。

        表2 數據分析師與數據科學家的職責要求

        根據表1和表2的統(tǒng)計,可以區(qū)分工業(yè)界對于數據分析師與數據科學家的要求。一名合格的數據分析師需要具備較強的實際應用能力,能夠收集和管理數據,利用工具或軟件分析數據,生成分析報告或撰寫數據報告,能夠實現不同的算法;而一名合格的數據科學家需要具備分析、研究、解決問題的能力,能夠根據不同的數據建立數據模型,設計和實現數據分析、知識獲取的算法,并且能夠與商業(yè)或決策部門合作,利用從數據中獲得的知識提供決策支持。只有具備以上相應能力的應聘者,才能成為符合工業(yè)界要求的數據科學人才。

        表3 不同產業(yè)公司投放的數據人才招聘廣告數量

        3.2 供需失衡——數據科學人才的需求

        在大數據的時代背景下,公司和企業(yè)都已認識到數據所能帶來的巨大價值。但是數據科學人才的供應卻明顯不足。調查了近2000家各類形式的商業(yè)團體的數據分析人才狀況[15],超過40%的受訪公司承認自身缺乏具備深度數據分析能力的數據人才。據麥肯錫預測,到2018年,僅美國本土專業(yè)數據分析人才的缺口就將達到14萬~19萬人之多[14]。

        同樣通過對在線工作招聘網站數據的分析,可以在一定程度上了解工業(yè)界對數據科學人才的強烈需求。僅透過中國香港www.indeed.hk和美國CareerBuilder在線招聘網站的關鍵字data scientist和data analyst的查詢,收集到2016年4—5月在以上兩地投放的數據科學人才相關的招聘廣告總計超過3000條。為了解不同行業(yè)對于數據科學人才的需求,基于在線招聘平臺2016年5月21日的廣告投放數據,統(tǒng)計了不同行業(yè)投放數據科學相關職位的招聘廣告的數量信息。

        表3給出了拉勾網在2016年5月21日當日數據科學相關人才招聘廣告中公司的分類統(tǒng)計及職位提供數。不難看出,和數據密切相關的產業(yè),如移動互聯(lián)網、金融、數據服務以及電子商務產業(yè),都需要大量的數據科學人才。同時,從整體的人才需求而言,各行各業(yè)根據自身的特點,都有一定量的數據科學人才需求??梢哉f,在大數據的時代背景下,數據的巨大價值和利用專業(yè)數據人才管理數據、發(fā)掘知識的理念已經深入人心,不同的行業(yè)都希望結合自身特點,利用本行業(yè)特有的數據創(chuàng)造更大的商業(yè)價值。因為各行各業(yè)對于數據科學人才均有需求,這就對數據科學工作者的全面性提出了更高的要求:能夠處理不同行業(yè)、不同類型的數據;能夠利用不同方法發(fā)現數據中的知識和價值。

        3.3 數據科學人才的培養(yǎng)

        作為向各個產業(yè)培養(yǎng)和輸送人才的基地,大學理應承擔起培養(yǎng)合格的數據科學人才的責任。為應對數據科學人才需求的挑戰(zhàn),國內外的大學均在一定程度上改變各自的教學計劃或內容,希望能夠培養(yǎng)更多的數據科學人才。為調查世界范圍內優(yōu)秀大學的數據科學人才培養(yǎng)情況,依據QS2015全球大學的排名情況,著重了解了QS排名前50的大學數據相關的教學培養(yǎng)計劃。在本次調查和統(tǒng)計中,重點關注每所大學的全日制碩士教育,調查教學計劃中是否開設數據科學相關的專業(yè)。此次調查和統(tǒng)計過程中并未考慮本科教育的原因是:其一,絕大多數學校在本科教育中并未將數據科學作為一門獨立的教學學科,而僅開設一定量的數據科學相關的課程,如數據挖掘、算法設計等;其二,相比于本科教育,碩士培養(yǎng)的方向更加精細化,這也為培養(yǎng)專業(yè)的數據科學人才提供了前提條件;其三,根據前文的敘述,盡管工業(yè)界對于數據人才的要求不盡相同,但是碩士水平的人才的比例仍然占很大一部分?;谝陨?點原因,著重考察優(yōu)秀大學在碩士培養(yǎng)計劃中是否考慮到數據科學人才的培養(yǎng),這能夠在一定程度上揭示當前大學教育對于數據科學人才培養(yǎng)的重視程度。

        表4 QS世界排名前50大學中開設數據科學相關碩士培養(yǎng)計劃的學校統(tǒng)計

        首先,將QS世界排名前50的大學中設有數據科學相關的碩士培養(yǎng)計劃的大學做了整理,見表4。根據統(tǒng)計,在2015—2016年度,QS世界排名前50的大學中,僅有17所大學開設數據科學相關的碩士培養(yǎng)計劃。也就是說,超過60%的大學在碩士階段沒有數據科學相關專業(yè)。作為替代,這些未開設數據科學相關專業(yè)的大學設有一定量的關于數據科學的課程供碩士學生選擇。這個現狀和目前學術界與工業(yè)界的“大數據熱”形成了鮮明的對比。

        通過觀察這17所大學所在的國家,發(fā)現這17所學校僅僅來自3個國家,分別為美國10所、英國6所、新加坡1所。通過大學所在地的分布,可以看出,作為大學教育整體領先的歐美地區(qū),對數據科學專業(yè)的重視程度也相對較高。因此英美兩國的優(yōu)秀大學中,均有一定比例的大學開設了數據科學相關的專業(yè)。同時,這也契合了前文中所敘述的問題,英美兩國的大學對工業(yè)界大量的數據人才需求做出了及時的應對,比如開設專門的碩士培養(yǎng)計劃,向社會輸送專業(yè)的數據科學人才。

        其次,詳細調查了各個大學數據科學相關專業(yè)的碩士培養(yǎng)計劃,包括培養(yǎng)計劃的名稱、開設的院系和培養(yǎng)計劃中著重處理的數據類型。通過此項調查,可以了解到不同大學對于數據科學人才培養(yǎng)的側重點。表5給出了該項調查的詳細結果。在開設數據科學相關專業(yè)的17所大學中,碩士培養(yǎng)計劃的名稱、開設院系以及針對的數據類型不盡相同。8所大學的計算機院系開設了數據科學碩士培養(yǎng)計劃(倫敦大學學院、芝加哥大學、加州大學伯克利分校、曼徹斯特大學、布里斯托大學、加州大學圣地亞哥分校、華威大學以及倫敦帝國學院)。除芝加哥大學外,另外7個開設在計算機院系的碩士培養(yǎng)計劃并不強調處理特定的數據處理類型。這一特點同時也呈現在由統(tǒng)計類、信息類以及數據科學類院系所開設的碩士培養(yǎng)計劃中。而由商業(yè)、運籌學以及公共健康類的院系開設的數據科學碩士培養(yǎng)計劃,則傾向于應對特定的數據類型,諸如公共健康數據、金融及商業(yè)數據。從這些統(tǒng)計數據可以推斷,由計算機、統(tǒng)計、信息類院系開設的數據科學碩士培養(yǎng)計劃將培養(yǎng)教學中更大的比重放在如何將數據科學理論應用到不同數據的處理和發(fā)掘方面,而商業(yè)類院系開設的碩士培養(yǎng)計劃更傾向于利用數據對科學理論處理和發(fā)掘商業(yè)以及金融數據。

        雖然各個大學碩士培養(yǎng)計劃的名稱、開設院系以及針對的數據類型不盡相同,但作為數據科學相關的碩士培養(yǎng)計劃,課程的設置應該或多或少具有一定的相似性。為驗證以上推斷,調查了17所開設數據科學相關碩士培養(yǎng)計劃的大學的詳細的課程設置情況,并進行了橫向的對比分析。通過該對比分析,可以在一定程度上了解到目前大學教育對于合格的數據科學人才的一般要求。圖1列舉了8個多所大學開設的熱門課程。從圖1中可以看出大學教育對于數據科學人才培養(yǎng)的幾點考慮,具體如下。

        ● 是否精通統(tǒng)計學相關的知識在很大程度上決定了一個數據科學工作者是否合格。眾所周知,統(tǒng)計學、統(tǒng)計推理等學科在數據挖掘過程中扮演著重要的角色,諸多知識發(fā)掘方法都源于統(tǒng)計學中的模型。

        ● 堅實的數據分析方面的知識也是數據科學人才培養(yǎng)的重要組成部分,從圖1中看到,8個大學碩士培養(yǎng)計劃中開設了數據分析類的課程。

        表5 各大學開設數據科學的院系以及針對的數據類型

        ● 并行和高性能計算也是合格的數據科學人才必備的技能之一。伴隨著大數據時代的到來,可收集的數據總量與日俱增,傳統(tǒng)方法的效率不足以應對龐大的數據總量。因此,傳統(tǒng)方法的并行以及高性能計算的應用能夠大大加速數據處理和知識發(fā)掘的過程。

        ● 除統(tǒng)計學相關的課程外,其他知識發(fā)掘的方法,如機器學習、數據挖掘也是數據科學人才培養(yǎng)的重點。

        從以上4個特點不難看出,目前大學培養(yǎng)數據科學人才基本按照數據科學的定義和范疇進行,但更著重培養(yǎng)學生掌握在一定數據類型中發(fā)掘知識的原理和方法,同時要求學生掌握數據存儲、處理方面的理論。

        圖1 數據科學相關碩士培養(yǎng)計劃下相似的課程設置

        表6 中國內地與中國香港及美國較優(yōu)秀的10所大學

        3.4 數據科學人才的培養(yǎng)——中美之對比

        為了解中美兩國大學培養(yǎng)數據科學人才的概況,還調查了中國內地、中國香港和美國較優(yōu)秀的10所大學的數據科學相關碩士培養(yǎng)計劃,見表6。經統(tǒng)計,在美國排名前10的大學中,共有5所大學設有專門的數據科學相關的碩士培養(yǎng)計劃,分別為哈佛大學、斯坦福大學、芝加哥大學、約翰·霍普金斯大學和康奈爾大學。而中國內地和中國香港,僅有香港中文大學開設了全日制數據科學相關的碩士培養(yǎng)計劃。

        不過,以上略顯懸殊的對比并不能說明中國的優(yōu)秀大學不足夠重視數據科學人才的培養(yǎng),而是因為中國內地的碩士教育制度與美國和中國香港有一定的差異。在美國和中國香港地區(qū),大學中設有專門的授課式碩士培養(yǎng)計劃,而中國內地的大學多數采用授課和研究混合式的碩士培養(yǎng)計劃?;谶@個原因,中國內地很多大學并未直接給出明確的數據科學碩士培養(yǎng)計劃,但是很多大學都設有專門的數據科學相關的研究院,通過這些研究院培養(yǎng)數據科學方面的人才。表7列出了3所大學開設的數據科學相關的研究院或研究小組,分別是清華大學的數據科學研究院、復旦大學的數據科學重點實驗室和南京大學的機器學習與數據挖掘研究所。在這些研究院中,均設有數據科學相關的研究方向。同時,還可以通過其他幾個實例來了解中國優(yōu)秀大學對于數據科學人才的培養(yǎng):如清華大學于2014年開設大數據碩士培養(yǎng)計劃并于2014年9月開始招生;復旦大學也在2015年正式開設數據科學專業(yè)研究生培養(yǎng)計劃[7]。因以上列舉的培養(yǎng)計劃主要針對專業(yè)碩士(非全日制),所以它們并未計入第3.3節(jié)中的統(tǒng)計和對比。不過這也足夠說明,數據科學人才的培養(yǎng)在我國同樣得到了相當程度的重視。

        3.5 人才培養(yǎng)與市場需求的對比

        本節(jié)對大學數據科學人才的培養(yǎng)與市場需求進行了對比。二者之間的具體差異已經在表8中做了總結。從表8可以看出,當前大學教育對于數據科學人才的培養(yǎng)目標與市場的要求存在一定差異。

        首先,很多大學僅開設一定量的數據科學相關的課程,而工業(yè)界更需要能夠全面系統(tǒng)掌握數據科學理論的人才;其次,很多大學側重數據科學相關的理論,如數學或統(tǒng)計建模、算法設計等,而工業(yè)界更傾向于聘用可以將數據科學理論應用到特定行業(yè)(如金融、商業(yè)、公共信息等)的人才;第三,由于學校教育的時間限制,學生對于不同工具、軟件的掌握不可能做到面面俱到,而不同行業(yè)、不同的公司,要求使用的數據處理工具往往不盡相同;最后,就是巨大的人才缺口,如前文所述,在大數據的時代背景下,數據科學人才的需求總量遠大于大學培養(yǎng)的人才總量。以上4點是目前數據科學人才培養(yǎng)與市場需求之間存在的突出矛盾。

        表7 中國內地優(yōu)秀大學數據科學相關研究院舉例

        表8 數據科學人才的培養(yǎng)與市場需求的差異

        4 數據科學人才培養(yǎng)的改進

        根據數據科學人才培養(yǎng)與市場需求之間存在的突出矛盾,筆者給出以下關于數據科學人才培養(yǎng)的建議。

        首先,各個大學應大力支持數據科學這一新興基礎科學的研究,發(fā)展和完善數據科學理論體系,為數據科學人才培養(yǎng)提供必要的理論和知識基礎。第二,鑒于大學教育在本科教育更重視基礎能力的培養(yǎng),我國的優(yōu)秀大學可以借鑒世界范圍內優(yōu)秀高等學府的經驗,在碩士教育階段開設專門的數據科學碩士培養(yǎng)計劃,在本科教育階段適當開設數據科學相關的基礎課程,以培養(yǎng)不同層次的數據科學人才。依據目前大學培養(yǎng)數據科學人才的概況和工業(yè)界對于數據科學人才的需求,給出如下數據科學碩士培養(yǎng)計劃以供參考。該培養(yǎng)計劃根據數據科學的定義,將數據科學碩士培養(yǎng)分為4部分:相關基礎學科學習、知識發(fā)掘方法的學習、數據科學理論在大數據背景下的應用以及數據科學在不同行業(yè)中的應用。前3個階段可以看作數據科學理論體系的培養(yǎng),最后一個階段強調實際應用。接下來筆者將對這4個階段分別進行詳細的介紹。

        (1)基礎學科的學習

        基礎學科是數據科學人才培養(yǎng)的前提。在碩士培養(yǎng)的初始階段,學校應該開設基礎科目以夯實學生的理論基礎。依據數據科學的發(fā)展現狀,數據科學的基礎學科至少應包括高等微積分、數理統(tǒng)計、矩陣論等數學方面的學科。開設這一類課程的原因有二:一是數據科學與數學類的學科聯(lián)系緊密,眾多的知識發(fā)掘方法都需要學生以數學為基礎去理解和學習;二是選擇學習數據科學專業(yè)的學生可能有著不同的本科教育背景,學生可以根據自身情況酌情選擇所修的課程。例如,出自數學、統(tǒng)計學相關專業(yè)的學生可能在以上提到的幾個科目比較擅長,因此他們可以選擇少修或者跳過種類基礎學科的學習。而來自數學基礎相對薄弱的專業(yè)的學生,在進修數據科學專業(yè)的初始階段,應著重學習數學方面的基礎理論,為今后的課程打好基礎。

        (2)系統(tǒng)地學習知識發(fā)掘的方法

        知識的獲取是整個數據處理過程中的關鍵,是處理數據的重要目的。在學生掌握相關基礎學科理論的前提下,學??梢蚤_設不同的課程,讓學生系統(tǒng)地學習知識獲取的方法。依據前文中提到的開設數據科學學科的大學的培養(yǎng)計劃,筆者認為這一部分的課程至少應包括以下科目:統(tǒng)計推理、機器學習、數據挖掘和數據分析。通過學習統(tǒng)計推理、機器學習相關的課程,學生可以掌握一系列知識獲取的概率模型,如貝葉斯模型、線性回歸模型、邏輯回歸模型等。通過學習數據挖掘、數據分析相關的課程,學生能夠進一步將基礎理論和實際的知識獲取方法(算法)聯(lián)系起來,如利用統(tǒng)計推理中的殘差分析在數據中發(fā)現知識的算法[8,9]以及一些經典的數據挖掘算法,如決策樹、k-means、k-NN等。知識獲取方法這一部分是數據科學人才培養(yǎng)的關鍵,各個大學可以根據自身實際情況,盡量開設全面系統(tǒng)的課程,讓學生從多個不同的角度深刻全面地理解數據科學理論中知識獲取的方法。在培養(yǎng)學生掌握知識獲取方法的同時,各個大學也應開設一定量的學習計算機程序語言的科目,以提高來自不同專業(yè)背景的學生掌握流行的計算機程序語言,如Java、R、C++、C#等。

        (3)掌握高效的數據處理方法

        在大數據的時代背景下,數據科學工作者面對的數據的容量、復雜度都今非昔比。海量數據帶來的最直接挑戰(zhàn)就是傳統(tǒng)的方法難以處理如此巨大的數據集。因此,現代的數據處理方法在獲取知識的過程中起到至關重要的作用。學校應在碩士階段開設專門的課程以培養(yǎng)學生利用數據科學理論處理大數據的能力。根據世界范圍內優(yōu)秀大學的教學經驗,我國的大學可以酌情開設針對大數據的高性能計算、并行計算、分布式計算、數據倉庫、數據庫管理等課程以及Spark、Hadoop等大數據處理平臺的課程。通過學習這些課程,學生可以掌握如何高效地處理大數據,在大數據中獲取有價值的知識,進而成為具備大數據處理能力的數據科學人才。

        (4)數據科學在不同領域中的應用

        在夯實數據科學理論的基礎上,學校也應重視培養(yǎng)學生在不同類型的數據中獲取知識的能力。畢竟行業(yè)、領域不同,數據不盡相同。為達到以上目的,學校可以嘗試與工業(yè)界合作,以實習的方式讓學生在工作中接觸不同類型的數據,利用所學的知識嘗試做數據科學方面的工作。當然,學校也可根據當前的市場需求,利用已經開放的數據資源,開設數據科學在熱門行業(yè)、領域中的應用課程。通過這一類應用性課程的學習,學生能夠根據自身的興趣和未來的就業(yè)取向在數據科學理論的應用上有的放矢。因為數據量日益龐大,近來生物學方面的研究愈發(fā)依賴計算機技術,因此,學??勺们殚_設計算生物學相關的課程,讓感興趣的學生學習。通過學習這些課程,學生可以了解和掌握數據科學在生物學領域中的應用,如在基因表達數據中的聚類分析[10]、在PPI網絡中發(fā)現蛋白質化合物的方法[11]等。再比如,在搜索優(yōu)化、定向推薦以及定向廣告投放等時下流行的技術中,一部分知識的獲取是基于文檔分類以及特征抽取的方法完成的。為培養(yǎng)有志在這個方面發(fā)展的學生,學??梢蚤_設數據科學在自然語言處理方面的應用課程。通過學習這一類課程,學生可以掌握一系列自然語言處理和特征抽取的基本模型,并進一步研究復雜的、可并行的模型使特征抽取效率更高,準確率更高[12,13]。數據科學在不同行業(yè)、不同領域中的應用實例還有很多,在此筆者不一一列舉。總之,通過接觸和學習如何處理不同來源的數據,學生的實際應用能力可以得到大大加強。

        數據科學目前還處于起步和發(fā)展的階段,理論體系還需要完善。在將來的一段時間內,數據科學的理論、相關的知識獲取方法以及應用還會進一步豐富,大學教育也應該根據不同時期數據科學的發(fā)展情況,調整培養(yǎng)計劃,適應市場需求。

        5 結束語

        在大數據的時代背景下,各行各業(yè)均意識到了數據所能帶來的巨大價值,因此紛紛向數據科學人才拋出橄欖枝,希望能借數據科學工作者的手,發(fā)掘數據中的潛在價值。在本文中,首先探討了能夠應對大數據處理的學科——數據科學;依據收集到的實例,考察了工業(yè)界對于不同類型的數據科學人才(數據科學家和數據分析師)的需求和崗位要求的異同;根據當前國內外優(yōu)秀大學開設的數據科學相關的學科培養(yǎng)計劃,總結了國內外優(yōu)秀大學在碩士學歷水平上培養(yǎng)數據科學人才的概況;根據大學教育培養(yǎng)數據科學人才的概況與工業(yè)界對于數據科學人才的具體需求,總結出大學教育培養(yǎng)的數據科學人才與工業(yè)界實際需求之間存在的突出矛盾;最后,根據供需之間的矛盾給出關于大學培養(yǎng)數據科學人才的4點改進建議,即重視基礎學科的學習,系統(tǒng)地掌握知識發(fā)掘方法,掌握高效的數據處理方法以及精通數據科學在不同領域中的應用。人類也已進入大數據時代,能否培養(yǎng)出合格的數據專業(yè)人才關系到能否掌握數據的核心價值。作為為社會各界輸送人才的基地,大學教育對于數據科學人才的培養(yǎng)至關重要。

        [1] ZHU Y Y, XIONG Y.Protection and utilization of data resources[M].Shanghai: Shanghai Scientific and Technical Publishers, 2008: 133-137.

        [2] HOWE D, COSTANZO M, FEY P, et al.The future of biocuration[J].Nature, 2008, 455(7209): 47-50.

        [3] MARX V.The big challenges of big data[J].Nature, 2013, 498(7453): 255-260.

        [4] China Academyof Informationand Communications Technology.Survey on the development of big data in China[R].2015.

        [5] FAN L, HONG X, CHAO H, et al.Challenge and countermeasure of governing government big data[J].Big Data Research, 2016, 2(3): 27-38.

        [6] PAN Z, CHENG X, YUAN X.Developing trend forecasting of big data in 2016 from CCF TFBD: interpretation and proposals[J].Big Data Research, 2016, 2(1): 105-113.

        [7] ZHU Y Y, XIONG Y.Training data scientists in the era of big data[J].Big Data Research, 2016, 2(3): 106-112.

        [8] CHAN K C C,WONG A K C, CHIU D K Y.Learning sequential patterns for probabilistic inductive prediction[J].IEEE Transactions on Systems Man and Cybernetics, 1994, 24(10): 1532-1547.

        [9] CHING J Y, WONG A K C, CHAN K C C.Class-dependent discretization for inductive learning from continuous and mixed-mode data[J].IEEE Transactionson Pattern Analysis and Machine Intelligence, 1995, 17(7): 641-651.

        [10] AU W H, CHAN K C, WONG A K, et al.Attribute clustering for grouping, selection, and classification of gene expression data[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2005, 2(2): 83-101.

        [11] HU A L, CHAN K C C.Utilizing both topological and attribute information for protein complex identification in ppi networks[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2013, 10(3): 780-792.

        [12] LIU Z, ZHANG Y, CHANG E Y, et al.Plda+: parallel latent dirichlet allocation with data placement and pipeline processing[J].ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 389-396.

        [13] LIU Z, HUANG W, ZHENG Y, et al.Automatic keyphrase extraction via topic decomposition[C]//Conference on Empirical Methods in Natural Language Processing, October 9-11, 2010, Massachusetts, USA.[S.l.:s.n.], 2010: 366-376.

        [14] MANYIKA J, CHUI M, BROWN B, et al.Big data: the next frontier for innovation, competition, and productivity[J].McKinsey Global Institute, 2011.

        [15] RANSBOTHAM S, KIRON D, PRENTICE P K.The Talent Dividend[J].MIT Sloan Management Review, 2015, 56(4): 1.

        Data science: the demand and development of talents

        Keith C C CHAN, HE Tiantian
        Department of Computing, The Hong Kong Polytechnic University, Hong Kong 999077, China

        Information technology has entered the era of big data.As talents who can discover the knowledge in big data, data scientists are tremendously demanded.The differences between data scientists and data analysts in the job nature, entry requirement and even remuneration were presented.Through a careful survey of the current job markets in the US and China.Then, it was revealed the gap between the kind of talents that were required for the jobs and the kind of graduates that the universities were training out.After a gap analysis, the views to the kind of data science programs which we believe may best develop the talents for the current and future job market were presented.

        big data, data science, university education, talent development

        TP3

        A

        10.11959/j.issn.2096-0271.2016058

        陳振沖(1959-),男,博士,香港理工大學學務長,電子計算學系教授。分別于1984年、1985年和1989年在加拿大滑鐵盧大學計算機科學與統(tǒng)計學系獲學士、系統(tǒng)設計工程方向碩士及博士學位,畢業(yè)后供職于IBM加拿大實驗室,并于1994年加入香港理工大學電子計算學系擔任教職工作至今。目前主要研究方向為大數據分析、生物信息學、計算生物學、數據挖掘、機器學習、模糊邏輯系統(tǒng)、遺傳算法、人工智能以及軟件工程。

        賀田田(1985-),男,香港理工大學電子計算學系博士生,主要研究方向為數據挖掘、圖聚類分析、生物信息學和遺傳算法。

        2016-07-30

        猜你喜歡
        工業(yè)界碩士科學家
        昆明理工大學工商管理碩士(MBA)簡介
        期望優(yōu)秀的工業(yè)文化
        鍛造與沖壓(2020年1期)2020-12-13 15:24:45
        期望優(yōu)秀的工業(yè)文化
        鍛造與沖壓(2020年2期)2020-12-04 16:17:27
        假如我是科學家
        如何寫好碩士博士學位論文
        專業(yè)課程中引入職業(yè)信息與科研經驗的實踐與探索
        與科學家面對面
        兩岸工業(yè)界簽署交流合作備忘錄
        臺聲(2015年24期)2015-08-15 00:49:13
        當天才遇上科學家(二)
        當天才遇上科學家(一)
        国产啪啪视频在线观看| 在线播放亚洲第一字幕| 麻豆国产巨作AV剧情老师| 亚洲国产精品久久亚洲精品| 亚洲午夜无码AV不卡| 色哟哟精品中文字幕乱码| 日本高清一级二级三级| 东京热人妻一区二区三区| 国产成人亚洲综合一区| 免费啪啪av人妻一区二区| 在线观看免费日韩精品| 影音先锋女人av鲁色资源网久久| 久久亚洲国产中v天仙www| 99精品又硬又爽又粗少妇毛片| 日本一级特黄aa大片| 国产 字幕 制服 中文 在线| 最新无码国产在线播放| 国产午夜在线观看视频| 少妇真人直播免费视频| 精品人妻一区二区三区四区| 精品久久杨幂国产杨幂| 日本办公室三级在线观看| 潮喷失禁大喷水aⅴ无码| 成人免费ā片在线观看| 97久久成人国产精品免费| 亚洲综合第一页中文字幕| 中国丰满熟妇xxxx性| 亚洲AV无码永久在线观看| 国产精品后入内射日本在线观看 | 国产欧美va欧美va香蕉在| 免费黄色电影在线观看| 激情人妻网址| 亚洲精品一品区二品区三区| 黑人巨大无码中文字幕无码| 亚洲爆乳大丰满无码专区| 极品少妇一区二区三区| 亚洲国产aⅴ成人精品无吗| 亚洲欧美国产日韩天堂在线视| 亚洲中文字幕第二十三页| 亚洲综合色区一区二区三区| 全部孕妇毛片|