姚力 朱龍飛 崔晨
摘 要: 隨著信息技術(shù)與人類生產(chǎn)生活的交匯融合,數(shù)據(jù)迅猛增長,數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源。大數(shù)據(jù)給科學研究帶來了巨大變化,數(shù)據(jù)驅(qū)動的研究范式在各學科領(lǐng)域興起,數(shù)據(jù)科學人才培養(yǎng)成了應對大數(shù)據(jù)時代所面臨挑戰(zhàn)的關(guān)鍵。文章從數(shù)據(jù)科學人才培育的機遇與現(xiàn)狀出發(fā),調(diào)研了國內(nèi)外高校在數(shù)據(jù)科學專業(yè)建設方面的案例。在此基礎(chǔ)上,探索并提出數(shù)據(jù)科學教育體系中可采用的具體策略和方法,為高等院校數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)相關(guān)專業(yè)的發(fā)展提供了思路。
關(guān)鍵詞: 大數(shù)據(jù); 數(shù)據(jù)科學; 人才培養(yǎng); 專業(yè)建設
中圖分類號:TP309 文獻標志碼:A 文章編號:1006-8228(2018)11-87-04
Abstract: The convergence of information technology and human life has led to the rapid growth of data, which becomes the basic strategic resource of the country. Big data brings great changes to scientific research, and data driven research paradigms are rising in various disciplines. Data science education is the key to success in coping with the challenges in the era of big data. This paper reviews the opportunity and current situation in data science education, and investigates on the cases of data science specialty construction in colleges and universities. Specific strategies and methods that can be used in the data science education system are proposed, which provides a way for the development of data science and big data specialties in universities.
Key words: big data; data science; talent cultivation; specialty construction
0 引言
數(shù)據(jù)科學在20世紀60年代被提出,在當時并未獲得學術(shù)界的注意和認可。1974年,計算機科學家、圖靈獎獲得者Peter Naur在其著作《計算機方法的簡明調(diào)研》的前言中首次明確提出了數(shù)據(jù)科學(Data Science)的概念,“數(shù)據(jù)科學是一門基于數(shù)據(jù)處理的科學,一旦數(shù)據(jù)與其代表事物的關(guān)系被建立起來,將為其他領(lǐng)域與科學提供借鑒”。2001年美國統(tǒng)計學教授William Cleveland發(fā)表了《數(shù)據(jù)科學:拓展統(tǒng)計學的技術(shù)領(lǐng)域的行動計劃》,首次將數(shù)據(jù)科學作為一個單獨學科,并把數(shù)據(jù)科學定義為統(tǒng)計學領(lǐng)域擴展到以數(shù)據(jù)作為現(xiàn)金計算對象相結(jié)合的部分,奠定了數(shù)據(jù)科學的理論基礎(chǔ)[1]。數(shù)據(jù)科學作為一門較為新興的學科,所關(guān)注的正是在大數(shù)據(jù)時代的背景下,如何應用和數(shù)據(jù)相關(guān)的技術(shù)和理論來服務社會。
在數(shù)據(jù)科學課程理論的研究中,經(jīng)常會提及數(shù)據(jù)、信息和知識這三個概念。一個稱為“知識金字塔”(圖1)的模型被廣泛用于表示三者之間的關(guān)系。如今,由于大量的數(shù)據(jù)正在以前所未有的速度產(chǎn)生,而這些數(shù)據(jù)沒有被有效地處理轉(zhuǎn)化成信息,從而延誤了知識的提取和產(chǎn)生。從原始數(shù)據(jù)中提取價值需要一種明確的系統(tǒng)和方法,數(shù)據(jù)科學代表了解決大數(shù)據(jù)挑戰(zhàn)所必需的一門學科。教育應發(fā)揮其作用,培養(yǎng)具備適應數(shù)據(jù)科學領(lǐng)域知識,能批判性地思考并正確利用相應技術(shù)來解決大數(shù)據(jù)問題的人才[2]。
1 大數(shù)據(jù)、數(shù)據(jù)科學和數(shù)據(jù)科學家的概念
1.1 大數(shù)據(jù)
大數(shù)據(jù)描述了我們正面臨的數(shù)據(jù)挑戰(zhàn)。一家產(chǎn)業(yè)咨詢服務機構(gòu)的研究報告稱,2016年,全球大數(shù)據(jù)產(chǎn)業(yè)市場規(guī)模為1403億美元,預計到2020年將達到10270億美元。促成大數(shù)據(jù)時代出現(xiàn)的兩個主要因素是計算技術(shù)的快速發(fā)展和由此產(chǎn)生的數(shù)據(jù)爆炸。前者包括硬件技術(shù),如CPU速度和網(wǎng)絡帶寬,以及軟件技術(shù),如分布式并行處理框架的出現(xiàn);后者包括基于網(wǎng)絡的軟件的日益普及以及各種傳感器的廣泛使用。
如何定義大數(shù)據(jù)?Gartner將其定義為3V特征,即“高容量,高速度和高多樣性的信息資產(chǎn),這些資產(chǎn)具有成本效益,創(chuàng)新形式的信息處理形式,以增強洞察力和決策能力”[3]。在此定義的基礎(chǔ)上,IBM提出了大數(shù)據(jù)5V特點。①Volume:數(shù)據(jù)量大,包括采集、存儲和計算的量都非常大。②Variety:數(shù)據(jù)類型、來源和處理方式的多樣性。③Value:數(shù)據(jù)價值密度相對較低。隨著互聯(lián)網(wǎng)及物聯(lián)網(wǎng)的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,價值是迄今為止最具挑戰(zhàn)性的維度。④Velocity:數(shù)據(jù)增長速度快,處理速度也快,時效性要求高。⑤Veracity:數(shù)據(jù)的準確性是指數(shù)據(jù)的質(zhì)量、可靠性和不確定性。
1.2 數(shù)據(jù)科學
數(shù)據(jù)科學是門包羅萬象的學科涉及很多方面的內(nèi)容,涵蓋數(shù)學、統(tǒng)計學、計算機科學、人工智能、模式識別、分布式計算、圖形學等多個領(lǐng)域的技術(shù)和理論。我們可以這樣定義數(shù)據(jù)科學:數(shù)據(jù)科學是一門通過系統(tǒng)性研究來獲取與數(shù)據(jù)相關(guān)的知識體系的科學[4]。這里有兩個層面的含義:一是研究數(shù)據(jù)本身,數(shù)據(jù)的各種類型、結(jié)構(gòu)、狀態(tài)、屬性、變化形式和變化規(guī)律;二是通過對數(shù)據(jù)的研究,為自然科學和社會科學的研究提供一種新的方法,稱為科學研究的數(shù)據(jù)方法,其目的在于揭示自然界和人類行為的現(xiàn)象和規(guī)律。
2010年,Drew Conway提出了第一張揭示數(shù)據(jù)科學的學科地位的維恩圖(圖2),首次明確探討了數(shù)據(jù)科學的學科定位問題。從數(shù)據(jù)科學維恩圖的中心部分可看出,數(shù)據(jù)科學位于統(tǒng)計學、機器學和某一領(lǐng)域知識的交叉之處,具備較為顯著的交叉型學科的特點,即數(shù)據(jù)科學是一門以統(tǒng)計學、機器學習和領(lǐng)域知識為理論基礎(chǔ)的新興學科。同時,從該圖的外圍可看出,數(shù)據(jù)科學家需要具備數(shù)學與統(tǒng)計學知識、領(lǐng)域?qū)崙?zhàn)和黑客精神,即數(shù)據(jù)科學具有三個基本要素:理論知識(數(shù)學與統(tǒng)計學)、實踐經(jīng)驗(領(lǐng)域?qū)崉眨┖途瘢ê诳途瘢?/p>
1.3 數(shù)據(jù)科學家
“數(shù)據(jù)科學家”是在2009年由Natahn Yau首次提出,其概念是采用科學方法、運用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察的工程師。數(shù)據(jù)科學家通過精深的專業(yè)知識,包括數(shù)學,統(tǒng)計學和計算機科學,在某具體學科解決復雜的數(shù)據(jù)問題。
數(shù)據(jù)科學家專注于從數(shù)據(jù)中提取可操作的知識,以解決業(yè)務問題。他們在一定的期限內(nèi),完成假設驅(qū)動的分析,深入持續(xù)的對那些容量大,且結(jié)構(gòu)錯綜復雜的數(shù)據(jù)進行探索和挖掘。他們利用簡單的方法,并通過簡單明了的可視化操作,把科學家的復雜的想法傳達到人們手中,從而領(lǐng)導一個團隊進行方法選擇、評估結(jié)果以實施效果[5]。
數(shù)據(jù)科學家所需硬件技能主要包括計算機科學、統(tǒng)計數(shù)學、數(shù)據(jù)挖掘、數(shù)據(jù)可視化、領(lǐng)導力和軟技能。目前,許多數(shù)據(jù)科學家在接受正規(guī)數(shù)據(jù)科學學位課程的教育,國內(nèi)外一些大學也正在或計劃提供這類課程。
2 數(shù)據(jù)科學教育的現(xiàn)狀
在國外,數(shù)據(jù)科學專業(yè)是以數(shù)據(jù)分析學專業(yè)為基礎(chǔ)發(fā)展而來的,可追溯至2007年北卡羅來納州立大學率先設立的數(shù)據(jù)分析碩士學位。之后,美國諸多高校也都陸續(xù)開始在計算機、管理、金融等專業(yè)中開設數(shù)據(jù)科學的系列課程。其中,數(shù)據(jù)科學概論課程起到一個統(tǒng)領(lǐng)的作用。以美國哈佛大學“數(shù)據(jù)科學”課程為例,其內(nèi)容全面廣泛,強調(diào)學生動手實踐能力的培養(yǎng)。華盛頓大學開設的“數(shù)據(jù)科學導論”課程同樣表現(xiàn)出內(nèi)容的豐富性。麻省理工學院開設了“計算思維和數(shù)據(jù)科學導論”課程,介紹如何利用計算機來理解真實世界的現(xiàn)象。該課程為學生提供許多主題的淺顯介紹, 讓學生知道在他們的職業(yè)生涯中可以用計算機完成什么樣的任務。華盛頓大學開設了“數(shù)據(jù)科學簡介”,介紹了關(guān)系型數(shù)據(jù)庫、MapReduce、NoSQL、基礎(chǔ)數(shù)據(jù)分析、機器學習、可視化、圖論等。
通過這些知名高校的網(wǎng)站上的數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),“概率統(tǒng)計”和“數(shù)據(jù)挖掘”是最受歡迎的課程。在數(shù)據(jù)科學中,概率和統(tǒng)計是最基本和必要的知識。數(shù)據(jù)挖掘在數(shù)據(jù)科學出現(xiàn)之前便是一門受歡迎的課程,其在數(shù)據(jù)科學課程中仍然很重要。進一步調(diào)研了碩士的數(shù)據(jù)科學課程發(fā)現(xiàn),在碩士課程中教授許多不同的高級課程,如“信息檢索”、“信息和社會網(wǎng)絡分析”、“文本挖掘”。 一些課程則同時出現(xiàn)在學士課程和碩士課程中,包括“數(shù)據(jù)挖掘”、“數(shù)據(jù)庫”、“機器學習”、“數(shù)據(jù)可視化”、“統(tǒng)計建模”、“算法”和“數(shù)據(jù)科學導論”。 最普遍開設的課程是統(tǒng)計學相關(guān)的如“探索性數(shù)據(jù)分析”和“數(shù)據(jù)庫”,這表明,統(tǒng)計學是數(shù)據(jù)科學教育和計算機科學的另一個核心組成部分。
相比而言,國內(nèi)數(shù)據(jù)科學專業(yè)起步較晚,2015年,教育部首次設立了數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)。包括清華大學、北京大學、中國科學院大學等開設了大數(shù)據(jù)和數(shù)據(jù)科學相關(guān)課程。其中,中國人民大學信息資源管理學院朝樂門老師編寫的《數(shù)據(jù)科學》,是國內(nèi)較早的關(guān)于數(shù)據(jù)科學的教材。清華大學成立了“數(shù)據(jù)科學研究院”,是國內(nèi)首批培養(yǎng)數(shù)據(jù)科學人才的研究院,目的是培養(yǎng)更多有跨界意識和跨界實踐的人才。
基于上述調(diào)研,我們觀察到:數(shù)據(jù)科學學士課程還處于起步階段,數(shù)據(jù)挖掘、機器學習和數(shù)據(jù)可視化是最受歡迎的核心課程,而統(tǒng)計學和數(shù)據(jù)庫是學士和碩士課程的兩個基礎(chǔ)通識課程。
3 數(shù)據(jù)科學教育的途徑
根據(jù)前文對數(shù)據(jù)科學教育的調(diào)查和學科研究,我們提出以下數(shù)據(jù)科學教育實現(xiàn)的途徑。
3.1 開設CDO相關(guān)技能課程
首席數(shù)據(jù)官(Chief Data Officer,簡稱CDO)是以數(shù)據(jù)為中心的組織高層管理角色,是大數(shù)據(jù)戰(zhàn)略的制定者和推動者,負責數(shù)據(jù)資產(chǎn)的管理和開發(fā)利用,通過數(shù)據(jù)推動業(yè)務的創(chuàng)新和發(fā)展。我們將CDO定義為一位高級數(shù)據(jù)科學家,他們有很強的領(lǐng)導能力、溝通能力、項目管理技能、系統(tǒng)思考能力和數(shù)據(jù)方面的技術(shù)知識。他們還需要對大數(shù)據(jù)技術(shù)和解決方案、大數(shù)據(jù)分析生命周期、數(shù)據(jù)管理有很好的理解。雖然要同時具備上述全部知識和技能并不容易,然而一個大數(shù)據(jù)項目的領(lǐng)導者應該在這些領(lǐng)域擁有盡可能多的知識。
3.2 在教學中牢記數(shù)據(jù)分析生命周期
數(shù)據(jù)分析生命周期是專門為大數(shù)據(jù)問題和數(shù)據(jù)科學項目而設計的。它定義了從項目開始到項目結(jié)束整個分析流程的最佳實踐,脫胎于數(shù)據(jù)分析和決策科學領(lǐng)域中的成熟方法,并建立在廣泛收集了數(shù)據(jù)科學家的反饋并參考了其他成熟的流程的基礎(chǔ)上。
最著名和最廣泛使用的數(shù)據(jù)挖掘過程模型是CRISP-DM,即“跨行業(yè)數(shù)據(jù)挖掘標準流程”[6]。該框架提供了一種用于數(shù)據(jù)分析項目的方法,其中涉及組織技能、數(shù)據(jù)集以及領(lǐng)導者的參與。在此基礎(chǔ)上,我們重新完善了數(shù)據(jù)分析生命周期的6個階段。如圖3所示,這6個階段形成一個循環(huán)。
下面概述數(shù)據(jù)分析生命周期主要階段的任務。第1階段:發(fā)現(xiàn)。在這個階段,成員需要學習業(yè)務領(lǐng)域的相關(guān)知識,重點把業(yè)務問題轉(zhuǎn)化為分析挑戰(zhàn)以待在后續(xù)解決。第2階段:數(shù)據(jù)準備。團隊需要執(zhí)行提取、加載和轉(zhuǎn)換,將數(shù)據(jù)導入準備好的分析沙盤中,以便在項目過程中進行數(shù)據(jù)和進行數(shù)據(jù)分析。第3階段:規(guī)劃模型。在該階段,團隊需要確定在后續(xù)模型構(gòu)建階段所采用的方法、技術(shù)和工作流程,挑選最合適的模型。第4階段:建立模型。團隊在這個階段構(gòu)建并運行由上階段確定的模型,創(chuàng)建用于測試、培訓和生產(chǎn)的數(shù)據(jù)集。第5階段:溝通結(jié)果。團隊需要與主要利益相關(guān)人進行合作,以第1階段所制定的標準來判斷項目結(jié)果是成功還是失敗。第6階段:實施。團隊應該提交最終報告、簡報、代碼和技術(shù)文檔。
每個學院可以在不同的階段中找到自己的優(yōu)勢。例如,商學院在商業(yè)理解方面有優(yōu)勢,信息學院在數(shù)據(jù)理解方面有優(yōu)勢,統(tǒng)計學系在模型規(guī)劃方面有優(yōu)勢,計算機科學系則在建模方面有優(yōu)勢。
3.3 傳授大數(shù)據(jù)技術(shù)和建模技術(shù)
大數(shù)據(jù)技術(shù)和模型建立技術(shù)是數(shù)據(jù)科學的兩個最技術(shù)性的組成部分,應在教學方案中作為重點。重要的大數(shù)據(jù)技術(shù)包括Hadoop及其生態(tài)系統(tǒng)和分布式并行處理框架[7]。這兩類技術(shù)被廣泛應用于處理社交網(wǎng)絡數(shù)據(jù)、傳感器位置流數(shù)據(jù)和Web日志數(shù)據(jù)。其他重要的大數(shù)據(jù)技術(shù)包括NoSQL數(shù)據(jù)庫、內(nèi)存計算、云計算、大數(shù)據(jù)倉庫和數(shù)據(jù)虛擬化。
在模型構(gòu)建方面的挑戰(zhàn)主要包括處理實時流數(shù)據(jù)、可伸縮的機器學習算法。機器學習允許數(shù)據(jù)學習的范式,并提供了從大數(shù)據(jù)集中發(fā)現(xiàn)知識的有效方法,是數(shù)據(jù)科學教育的重要組成部分。在數(shù)據(jù)科學教育中,應有效地將機器學習和大數(shù)據(jù)分析結(jié)合起來,以應對大數(shù)據(jù)時代不斷發(fā)展的挑戰(zhàn)。
3.4 將研究方法納入數(shù)據(jù)分析的教學
數(shù)據(jù)科學學生應接受科學思維、推理和分析方法的培訓。盡管大數(shù)據(jù)問題本質(zhì)上是基于發(fā)現(xiàn)和學習的,但學生應該學會如何提出一個研究問題,如何處理這個問題,以及如何驗證結(jié)果。學生應該能夠區(qū)分基于發(fā)現(xiàn)的研究問題和傳統(tǒng)的假設驅(qū)動的研究問題。研究方法相關(guān)的課程可以幫助學生提高批判性思維的能力,吸收來自各個學科的知識,用科學的方法解決問題,并評估結(jié)果,因此建議將研究方法納入數(shù)據(jù)分析課程。
3.5 為學生提供真實的工程項目
數(shù)據(jù)科學通過使用真實數(shù)據(jù)來解決現(xiàn)實世界的問題,這意味著傳統(tǒng)的以教科書為基礎(chǔ)的教育方式不適合數(shù)據(jù)科學教育。通過參與現(xiàn)實世界的實際項目或案例研究來學習是數(shù)據(jù)科學教育的重要組成部分。也就是說,學生應該在一個通過實踐學習的環(huán)境中學習,在這個環(huán)境中,學生可以獲得關(guān)于數(shù)據(jù)科學如何使用大數(shù)據(jù)技術(shù)來解決現(xiàn)實世界問題的經(jīng)驗。這是數(shù)據(jù)科學教育的一個必修課。
3.6 與多個教學部門協(xié)作
數(shù)據(jù)科學是一門多學科的研究,其課程通常是在大學內(nèi)聯(lián)合各系部級提供的。例如,數(shù)據(jù)科學課程可以由計算機科學系、統(tǒng)計學系或商學院聯(lián)合提供,也可以通過共享教師資源來實現(xiàn)協(xié)作。又或者,由計算機科學系提供數(shù)據(jù)科學教育方案,而其他院系負責講授一些相關(guān)課程。
3.7 與產(chǎn)業(yè)界和政府部門合作
產(chǎn)業(yè)界和政府是真實世界數(shù)據(jù)的良好來源,不僅是針對數(shù)據(jù)的教學資源,也包括其他教學外的組成部分,如計算資源、培訓、證書、學生實習和工作。產(chǎn)學研合作研究是推動教育向前發(fā)展的既定模式,公司會很樂意招聘這些曾實習過的學生,因為這些學生已經(jīng)參與了這些項目,并且很清楚他們的業(yè)務問題。大學也可以通過與產(chǎn)業(yè)界和政府的合作獲得資金,以促進數(shù)據(jù)科學教育。
4 結(jié)束語
大數(shù)據(jù)改變了人們的工作、生活與思維模式,已成為包括計算機科學和統(tǒng)計學在內(nèi)的多個學科領(lǐng)域的新研究方向?,F(xiàn)代社會需要一門新學科來系統(tǒng)研究大數(shù)據(jù)時代的新現(xiàn)象、理念、理論、方法、技術(shù)、工具和實踐,即數(shù)據(jù)科學。
本文探討了數(shù)據(jù)科學的發(fā)展、學科地位、知識體系等基本問題,并提出了數(shù)據(jù)科學專業(yè)建設的核心內(nèi)容,即對數(shù)據(jù)進行管理和分析,從而提取其價值,獲得對事物洞察的各種技術(shù)手段,把學生引進數(shù)據(jù)科學的大門。
與傳統(tǒng)科學不同,數(shù)據(jù)科學人才培養(yǎng)既要有傳統(tǒng)科學中的理論與實踐,還需要有數(shù)據(jù)科學家的精神素質(zhì),即原創(chuàng)性設計、批判性思考、好奇心等。未來數(shù)據(jù)科學專業(yè)的建設應圍繞數(shù)據(jù)科學的三個基本要素,加強數(shù)學、統(tǒng)計學和計算機科學等學科之間的合作,調(diào)動社會、產(chǎn)業(yè)界的數(shù)據(jù)資源,更好的培養(yǎng)“理論、實踐和精神為一體”的綜合性人才。
參考文獻(References):
[1] Data science: history [EB /OL]. https://en.wikipedia.org/wiki/Data_science.
[2] 甘容輝,何高大.大數(shù)據(jù)時代高等教育改革的價值取向及實現(xiàn)路徑[J].中國電化教育,2015.11:70-76
[3] 王新才,丁家友.大數(shù)據(jù)知識圖譜:概念、特征、應用與影響[J].情報科學,2013.9:10-14
[4] 朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014.31(2):10-19
[5] 秦小燕,初景利.國外數(shù)據(jù)科學家能力體系研究現(xiàn)狀與啟示[J].圖書情報工作,2017.61(23):40-50
[6] CRISP-DM [EB /OL].https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining.
[7] 陳吉榮,樂嘉錦.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J].計算機工程與科學,2013.35(10):25-35