亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        “數(shù)據(jù)科學概論”課程設計

        2017-12-11 06:01:20覃雄派陳躍國杜小勇王偉娟
        大數(shù)據(jù) 2017年6期
        關(guān)鍵詞:科學分析課程

        覃雄派,陳躍國,杜小勇,王偉娟

        1. 中國人民大學信息學院,北京 100872; 2. 中國人民大學出版社,北京 100872

        “數(shù)據(jù)科學概論”課程設計

        覃雄派1,陳躍國1,杜小勇1,王偉娟2

        1. 中國人民大學信息學院,北京 100872; 2. 中國人民大學出版社,北京 100872

        大數(shù)據(jù)時代已經(jīng)到來,為了挖掘大數(shù)據(jù)的價值,社會急需大量合格的數(shù)據(jù)科學家,數(shù)據(jù)科學家的培養(yǎng)是一個緊迫的問題。提出了三大課程群的課程體系建設思路,其中“數(shù)據(jù)科學概論”是數(shù)據(jù)科學課程群的導論和入門性質(zhì)的一門課程。本課程通過案例對關(guān)鍵技術(shù)的原理進行介紹,提供了中等規(guī)模實際問題的全流程實踐案例,有利于學生掌握。數(shù)據(jù)科學是一門交叉學科,課程應該體現(xiàn)學科交叉的特點。對于時間序列數(shù)據(jù),從統(tǒng)計學視角和數(shù)據(jù)挖掘/機器學習視角,對其分析和建模技術(shù)進行了介紹和比較。

        數(shù)據(jù)科學;課程群;數(shù)據(jù)科學概論;課程設計

        1 引言

        信息技術(shù)的進步大大降低了人們獲取數(shù)據(jù)、存儲數(shù)據(jù)和傳輸數(shù)據(jù)的成本,使得越來越多的企業(yè)/機構(gòu)有能力從自身的業(yè)務系統(tǒng)或通過互聯(lián)網(wǎng)等其他途徑獲取規(guī)模日益龐大的數(shù)據(jù)。數(shù)據(jù)的價值對于企業(yè)而言越發(fā)重要,人們更加重視對歷史數(shù)據(jù)的積累。

        不斷堆積的數(shù)據(jù)在規(guī)模和復雜度上逐漸超越了企業(yè)/機構(gòu)采用已有技術(shù)方案在執(zhí)行數(shù)據(jù)管理和數(shù)據(jù)分析任務時所能達到的處理能力,形成了大數(shù)據(jù)。

        大數(shù)據(jù)[1,2]具有3個主要的特點,其中最重要的特點是數(shù)據(jù)量大(big volume),其規(guī)模超出了已有工具的處理能力,需要研發(fā)新的工具進行處理。大數(shù)據(jù)的第二個特點是數(shù)據(jù)類型多樣,人們希望把不同來源、不同類型的數(shù)據(jù)關(guān)聯(lián)起來,進而分析其中隱藏的規(guī)律。大數(shù)據(jù)的第三個特點是數(shù)據(jù)生成速度快,比如在傳感器網(wǎng)絡中,傳感設備生成的數(shù)據(jù)數(shù)量大、速度快,需要及時處理。

        數(shù)據(jù)中蘊含著規(guī)律性,即數(shù)據(jù)中包含價值。很多企業(yè)/機構(gòu)對于收集數(shù)據(jù)樂此不疲,究其原因,是數(shù)據(jù)帶來的價值或者潛在的價值超出了它們收集數(shù)據(jù)和管理數(shù)據(jù)的成本。數(shù)據(jù)的價值體現(xiàn)通過兩個實例可見一斑。2012年,早在颶風Frances來臨的一周之前 ,沃爾瑪(Wal-Mart)公司的首席信息官(chief information officer ,CIO)Linda M Dillman督促她的團隊根據(jù)幾周之前颶風Charley來襲期間沃爾瑪?shù)匿N售數(shù)據(jù),對新颶風來襲的銷售進行預測。這些銷售數(shù)據(jù)保存在數(shù)據(jù)倉庫中,達到TB級別?;谶@些數(shù)據(jù),可以預測將要產(chǎn)生的銷售情況,其目的是提高公司的銷售額。分析人員對數(shù)據(jù)進行挖掘分析,以發(fā)現(xiàn)對某些產(chǎn)品的不同尋常的需求。他們發(fā)現(xiàn),人們確實更多地購買了某些特定的產(chǎn)品,而不是普通的手電筒等。比如,他們以前并沒有了解到,颶風到來前,草莓餡餅的銷售量出現(xiàn)了增長,是平時銷量的7倍左右,而最暢銷產(chǎn)品則是啤酒。據(jù)此,他們提前備貨,并且及時銷售出去,極大地提高了公司的銷售額。2016年,谷歌公司 的AlphaGo圍棋程序擊敗了人類棋手李世石九段,給人們留下了深刻的印象 。Deep Mind公司開發(fā)的AlphaGo程序利用深度學習、增強學習 、蒙特卡洛樹搜索等技術(shù)建立了學習模型,然后用成千上萬的實際對弈棋局對其進行訓練,使其棋藝不斷得到增強,最后達到甚至超過人類九段的水平。

        數(shù)據(jù)科學家是伴隨大數(shù)據(jù)技術(shù)的崛起和數(shù)據(jù)科學的興起而出現(xiàn)的新的就業(yè)崗位。近年來,對數(shù)據(jù)科學家的需求持續(xù)增長。數(shù)據(jù)科學家被譽為21世紀最性感的職業(yè)①https://hbr.org/2012/10/data-scientistthe-sexiest-jobof-the-21stcentury。他們使用各種技術(shù)對不同來源的數(shù)據(jù)進行分析,幫助企業(yè)做出更加明智的決策。

        2 數(shù)據(jù)科學的創(chuàng)立

        數(shù)據(jù)科學②https://en.wikipedia.org/wiki/Data_science-④http://dblab.xmu.edu.cn/wp-content/uploads/2014/10/Data-scienceand-itsrelationship-tobig-data.pdf是2010年以來逐漸興起的科學分支,人們普遍認為該門科學正在逐步形成,其知識體系仍在創(chuàng)立之中。

        根據(jù)維基百科的釋義,數(shù)據(jù)科學是一個交叉的領(lǐng)域,它研究具體的方法、過程和系統(tǒng),以便從不同形式的數(shù)據(jù)(包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù))中抽取知識,獲得對事物的理解和洞察。從這個意義上講,數(shù)據(jù)科學和傳統(tǒng)的數(shù)據(jù)挖掘是類似的。但數(shù)據(jù)科學的內(nèi)涵有所擴大,它是一個全新的概念,試圖把統(tǒng)計方法和數(shù)據(jù)分析方法統(tǒng)一起來,目的是分析和理解客觀現(xiàn)象產(chǎn)生的數(shù)據(jù)。它吸收了來自若干傳統(tǒng)領(lǐng)域的技術(shù)和方法,這些領(lǐng)域包括數(shù)學、統(tǒng)計學、計算機科學,特別是計算機科學領(lǐng)域的數(shù)據(jù)庫、大數(shù)據(jù)、機器學習、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等子領(lǐng)域的相關(guān)技術(shù)和方法。

        就筆者的理解,數(shù)據(jù)科學的本質(zhì)是從數(shù)據(jù)中挖掘和抽取價值。數(shù)據(jù)科學是對數(shù)據(jù)分析、抽取信息和知識的過程提供指導和支持的基本原則和方法的科學。數(shù)據(jù)科學研究各種類型數(shù)據(jù)的不同狀態(tài)、屬性及其變化規(guī)律,研究各種方法和技術(shù)手段以對數(shù)據(jù)進行簡單以及復雜的分析,從而揭示自然界和人類行為等不同現(xiàn)象背后的規(guī)律。

        數(shù)據(jù)科學的核心任務是從數(shù)據(jù)中抽取信息、發(fā)現(xiàn)知識。它的研究對象是各種各樣的數(shù)據(jù)及其特性。數(shù)據(jù)科學包含一組概念、原則、過程、技術(shù)/方法以及工具,為其核心任務服務。其中,概念和基本原則給予人們觀察問題、解決問題的一套完整的思想框架,而大量的數(shù)據(jù)分析技術(shù)/方法和工具則幫助人們切實實現(xiàn)數(shù)據(jù)科學的目標。

        簡而言之,數(shù)據(jù)科學是以各類數(shù)據(jù)作為研究對象,建立在應對數(shù)據(jù)分析挑戰(zhàn)的眾多關(guān)鍵技術(shù)基礎(chǔ)上的一般意義上的科學。為了建立數(shù)據(jù)科學,人們需要從深層次梳理關(guān)鍵的數(shù)據(jù)分析處理技術(shù),解析它們的定位和相互關(guān)聯(lián)關(guān)系,在理論層面把這些技術(shù)聯(lián)系起來,也就是對基本概念、理論和技術(shù)加以系統(tǒng)化的整理。

        數(shù)據(jù)科學不是憑空發(fā)展起來的,它是一門新興的交叉學科。它從數(shù)學/統(tǒng)計學、計算機科學等傳統(tǒng)學科領(lǐng)域,特別是從數(shù)據(jù)庫、數(shù)據(jù)挖掘、大數(shù)據(jù)分析、人工智能/機器學習、可視化等領(lǐng)域借鑒了大量的理論和技術(shù),吸收了有效的成分,逐步建立起自己的學科體系。由于相關(guān)的理論和技術(shù)來自不同的研究方向,相互之間存在較大的差異,比如研究的基本假設等,數(shù)據(jù)科學試圖在此基礎(chǔ)上,構(gòu)建和諧自洽的理論體系。

        3 數(shù)據(jù)科學專業(yè)與課程

        數(shù)據(jù)是新的石油,正成為一種生產(chǎn)資料、稀有資產(chǎn),是重要的戰(zhàn)略資源,全面融入社會、生產(chǎn)、生活各個方面,深刻改變著世界的經(jīng)濟格局、利益格局、安全格局。數(shù)據(jù)包含信息,可以為人們的決策服務。發(fā)揮數(shù)據(jù)的潛在價值需要大量的數(shù)據(jù)科學家,他們的工作是結(jié)合相關(guān)領(lǐng)域的背景知識,對數(shù)據(jù)進行建模、分析、展現(xiàn)等。

        麥肯錫咨詢公司發(fā)布了一份分析報告,預計到2018年,大數(shù)據(jù)或者數(shù)據(jù)分析人員的崗位需求將激增,其中數(shù)據(jù)科學家的缺口為140000~190000人。懂得如何利用大數(shù)據(jù)做決策的管理人員的崗位缺口,則將達到1500000人左右。對數(shù)據(jù)處理需求最旺盛的行業(yè)包括制藥業(yè)、計算機軟件、互聯(lián)網(wǎng)、科研、IT技術(shù)服務、生物技術(shù)、金融業(yè)等。為了滿足企事業(yè)單位對數(shù)據(jù)科學人才的需求,國內(nèi)外各知名高校設立了專門的數(shù)據(jù)科學類專業(yè),或在相關(guān)專業(yè)開設了數(shù)據(jù)科學課程。數(shù)據(jù)科學專業(yè)或課程在高校中越來越受到學生的歡迎和重視[3]⑤http://dblab.xmu.edu.cn/post/3007/。

        3.1 數(shù)據(jù)科學專業(yè)的創(chuàng)立

        一些知名大學創(chuàng)立了新的數(shù)據(jù)科學相關(guān)專業(yè),設計了一整套課程體系,招收和培養(yǎng)碩士生和博士生。比如,哥倫比亞大學專門成立了數(shù)據(jù)科學研究所(Data Science Institute),體現(xiàn)了對數(shù)據(jù)科學的重視。他們于2014年秋季開始招生,培養(yǎng)數(shù)據(jù)科學碩士。該專業(yè)開設的課程主要包括傳統(tǒng)的數(shù)學和統(tǒng)計學課程以及相關(guān)的計算機課程,具體包括概率論、統(tǒng)計分析與建模、算法、計算機系統(tǒng)、機器學習、探索式數(shù)據(jù)分析與數(shù)據(jù)可視化、數(shù)據(jù)科學倫理、數(shù)據(jù)科學大作業(yè)等方面的課程。

        根據(jù)調(diào)研材料,筆者注意到,國外數(shù)據(jù)科學專業(yè)的創(chuàng)立,有些是由工程學院或者計算機學院發(fā)起的,以美國大學為例,如哥倫比亞大學、斯坦福大學 、美國西北大學、加州大學伯克利分校、弗吉尼亞大學等,有些則是由管理學院或者商學院發(fā)起的,如卡內(nèi)基梅隆大學、紐約大學 、普渡大學 、亞利桑那州立大學、康涅狄格大學等。這一方面體現(xiàn)了數(shù)據(jù)科學專業(yè)跨學科的特點,同時也體現(xiàn)了各個專業(yè)渴望對數(shù)據(jù)科學相關(guān)技術(shù)方法進行了解、掌握和運用。其他開設大數(shù)據(jù)和數(shù)據(jù)科學相關(guān)專業(yè)的高校,還有芝加哥大學、約翰霍普金斯大學 、羅徹斯特大學 、伊利諾伊大學厄巴納-香檳分校、喬治·華盛頓大學 、德克薩斯大學奧斯汀分校 、明尼蘇達大學雙城分校等。

        在國內(nèi),2017年3月教育部批準新增32所高校第二批開設“數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)”本科新專業(yè)。至此,總共有35所高校開設“數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)”專業(yè)。中國人民大學成為第二批獲得教育部“數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)”本科新專業(yè)批準的院校之一,并且于2017年9月開始招生。這個新專業(yè)是由中國人民大學統(tǒng)計學院和信息學院聯(lián)合申請的。

        3.2 數(shù)據(jù)科學課程的開設

        數(shù)據(jù)科學專業(yè)學生的培養(yǎng)需要一系列的課程。其中,數(shù)據(jù)科學(概論)課程起到一個統(tǒng)領(lǐng)的作用。以美國哈佛大學“數(shù)據(jù)科學”課程為例,其內(nèi)容全面廣泛,強調(diào)學生動手實踐能力的培養(yǎng)。

        ● 廣博是該課程內(nèi)容的突出特點。具體涉及統(tǒng)計推斷、代數(shù)理論、算法編程、機器學習、人工智能、數(shù)據(jù)可視化等多個學科,在數(shù)據(jù)可視化部分,甚至還涉及一些美學和社會學知識。這些內(nèi)容充分體現(xiàn)了數(shù)據(jù)科學本身是一門綜合性的新興學科,“數(shù)據(jù)科學”課程需要給予學生一個全景式的介紹。

        ● 特別重視學生動手實踐能力的培養(yǎng),課程項目是該課程教學中的重要組成部分。該課程專門配備了一支由25名助教組成的指導團隊,對項目小組實現(xiàn)“一對一”的指導。由于數(shù)據(jù)科學常常面對的是開放性的問題,這些問題沒有唯一、確定的答案,通過對實際生活中遇到的數(shù)據(jù)問題進行分析和解決,學生能夠切身體會到數(shù)據(jù)科學家的工作內(nèi)容和思想方法。在實踐過程中,學生對知識的理解和掌握程度將大大加深,解決問題的能力會得到極大提高。

        ● 過程是評判成績的重要依據(jù)。該課程強調(diào)對過程進行細致的考核與評判,及時發(fā)現(xiàn)學生存在的知識漏洞,從而有針對性地進行輔導。

        華盛頓大學開設的“數(shù)據(jù)科學導論”課程⑥https://www.pce.uw.edu/courses/introduction-todata-science同樣表現(xiàn)出內(nèi)容的豐富性。該課程是數(shù)據(jù)科學課程群的第一門課程,數(shù)據(jù)科學課程群包括“數(shù)據(jù)科學導論(Introduction to Data Science)”“數(shù)據(jù)分析方法(M e t h o d s f o r D a t a Analysis)”“從大規(guī)模數(shù)據(jù)中獲取知識(Deriving Knowledge from Data at Scale)”3門課程。其中,數(shù)據(jù)科學導論課程講授數(shù)據(jù)存儲、管理和操作的相關(guān)技術(shù)和工具,并且把這些技術(shù)和工具應用到實際場景中,包括關(guān)系數(shù)據(jù)庫技術(shù)和各類新型的NoSQL技術(shù),目的是使學生可以根據(jù)問題選擇合適的工具。課程的具體內(nèi)容包括數(shù)據(jù)的基本概念、數(shù)據(jù)的類型、關(guān)系數(shù)據(jù)庫系統(tǒng)、NoSQL數(shù)據(jù)庫、Hadoop大數(shù)據(jù)平臺、探索式數(shù)據(jù)分析等。該課程沒有糾結(jié)于什么是數(shù)據(jù)科學、數(shù)據(jù)科學的內(nèi)涵是什么,而是通過介紹工具和實際應用場景使學生迅速獲得利用現(xiàn)有工具解決實際問題的經(jīng)驗。

        麻省理工學院開設了“計算思維和數(shù)據(jù)科學導論(I ntro duction to Computational Thinking and Data Science)”課程。該課程強調(diào)涉獵的范圍,而不是一味增加深度。它為學生提供許多主題的淺顯介紹,這樣學生就可以知道在他們的職業(yè)生涯中可以用計算機完成什么樣的任務。課程的內(nèi)容包括繪圖、隨機程序、概率和統(tǒng)計、隨機漫步、蒙特卡洛模擬、數(shù)據(jù)模型化、優(yōu)化問題和分類歸并等。該課程要求學生具備一定 的Python編程經(jīng)驗,掌握計算復雜度的基礎(chǔ)知識。

        教材為課程提供了內(nèi)容支撐,國外出版的數(shù)據(jù)科學方面的教材可以分為如下幾類。

        ● 一些教材專注于數(shù)據(jù)科學基本原理、技術(shù)和方法的討論,比如《數(shù)據(jù)分析的要素(The Elements of Data Analytic Style)》《數(shù)據(jù)科學的藝術(shù):數(shù)據(jù)工作者指南(The Art of Data Science: a Guide for Anyone Who Works with D at a)》《數(shù)據(jù)智能:利用數(shù)據(jù)科學把信息轉(zhuǎn)換為洞察力(Data Smart:Using Data Science to Transform Information into Insight)》等。

        ● 一些作者專門為數(shù)據(jù)科學調(diào)整和重新編寫統(tǒng)計分析、數(shù)據(jù)挖掘和機器學習方面的教材,比如《統(tǒng)計學和貝葉斯數(shù)據(jù)分析方法(Statistics and Bayesian Data Analysis)》《數(shù)據(jù)科學中的統(tǒng)計推斷(Statistical Inference for Data Science)》《應用預測式建模技術(shù)(Applied Predictive Modeling)》《統(tǒng)計思維(Think Stats)》等。

        ● 大量的教材通過具體的編程語言、工具和案例介紹數(shù)據(jù)科學,使用的語言主要有R、Python、MATLAB等。這些教材包括《數(shù)據(jù)科學的R語言實踐(Practical Data Science with R)》《精通數(shù)據(jù)科學的Python語言編程(Mastering Python for Data Science)》《使用R語言建立機器學習系統(tǒng)(Building Machine Learning Systems with Python)》等。這類教材很多,本文不在此一一列出。

        ● 有些教材特別介紹數(shù)據(jù)科學技術(shù)在具體領(lǐng)域的應用,比如《商業(yè)中的數(shù)據(jù)科學:你必須了解的數(shù)據(jù)挖掘技術(shù)與數(shù)據(jù)分析思維(Data Science for Business: What You Need to Know About Data Mining and Data-Analytic Thinking)》等。

        ● 數(shù)據(jù)可視化是數(shù)據(jù)科學的一個重要方面,一部分教材專門介紹這方面的技術(shù)和原理,比如《量化信息的可視化(The Visual Display of Quantitative Information)》《可視化:關(guān)于設計、統(tǒng)計分析、可視化中的數(shù)據(jù)流動的指南(Visualize This: The Flowing Data Guide to Design, Visualization, and Statistics)》《如你所見:量化分析的簡單可視化技術(shù)(Now You See It:Simple Visualization Techniques for Quantitative Analysis)》等。

        ● 少量教材從文化、社會、法律、倫理等方面對數(shù)據(jù)科學進行討論,如《數(shù)學成為毀滅性的武器:大數(shù)據(jù)是如何加劇不平等和對民主造成威脅的(Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy)》等。

        可以看出,國外出版的大量教材注重實踐性和可操作性,并未糾結(jié)于數(shù)據(jù)科學理論體系的創(chuàng)立。就筆者的認識,數(shù)據(jù)科學理論體系的創(chuàng)立正在進行,遠未完成。

        國內(nèi)一些高校,包括清華大學、北京大學、中國科學院大學等開設了大數(shù)據(jù)和數(shù)據(jù)科學相關(guān)課程。一些專家開始編寫相關(guān)講義和教材,其中,中國人民大學信息資源管理學院(即檔案學院)朝樂門老師編寫的《數(shù)據(jù)科學》,是國內(nèi)較早的關(guān)于數(shù)據(jù)科學的教材。該教材共包括8個部分(基礎(chǔ)知識、數(shù)據(jù)預處理、數(shù)據(jù)統(tǒng)計、機器學習、數(shù)據(jù)可視化、數(shù)據(jù)計算、數(shù)據(jù)管理以及R編程),既涵蓋了數(shù)據(jù)科學的基本內(nèi)容,又避免了與相關(guān)課程的低級重復。每章設有綜合例題,做到理論學習與動手操作相結(jié)合。

        4 “數(shù)據(jù)科學概論”課程定位內(nèi)容與教學設計

        數(shù)據(jù)科學家需要什么樣的具體技能呢?這是人們關(guān)心的問題,也為數(shù)據(jù)科學這門課程應該提供什么樣的內(nèi)容提供一個指引。下面介紹筆者在“數(shù)據(jù)科學概論”課程設計方面的想法和實踐。

        4.1 數(shù)據(jù)科學課程群與“數(shù)據(jù)科學概論”課程定位

        中國人民大學信息學院在數(shù)據(jù)庫研究方面具有悠久的歷史。在大數(shù)據(jù)時代,信息學院計算機系與時俱進,對課程體系進行了梳理,提出了建設三大課程群的課程體系建設思路,包括算法課程群、系統(tǒng)結(jié)構(gòu)課程群和數(shù)據(jù)科學課程群。其中,數(shù)據(jù)科學課程群將由一系列課程構(gòu)成,包 括數(shù)據(jù)庫、大數(shù)據(jù)、商務智能、數(shù)據(jù)挖掘、統(tǒng)計分析、機器學習與深度學習等。課程體系的改革為2017年招生的數(shù)據(jù)科學專業(yè)方向?qū)W生的培養(yǎng)打下了基礎(chǔ)。

        在數(shù)據(jù)科學課程群中,把“數(shù)據(jù)科學概論”定位為一門入門和導論性質(zhì)的課程。通過該課程的學習,學生了解了數(shù)據(jù)科學的內(nèi)涵,掌握了數(shù)據(jù)處理的技術(shù)原理,并且通過一些實踐案例增強了動手能力,為深入學習后續(xù)課程打下了良好的基礎(chǔ)。

        從2013年起,筆者已經(jīng)在中國人民大學信息學院本科生開設了4年的“數(shù)據(jù)科學概論”課程,開始時作為一門選修課。選修的人數(shù)逐年上升,由最初的十幾名到現(xiàn)在的四十幾名。

        4.2 “數(shù)據(jù)科學概論”課程內(nèi)容

        “數(shù)據(jù)科學概論”課程的內(nèi)容,分為四大模塊,分別如下。

        ● 數(shù)據(jù)科學基礎(chǔ)(fundamentals):講述數(shù)據(jù)科學的基本概念和原則。

        ● 數(shù)據(jù)和數(shù)據(jù)上的計算(data and computing on data):講述不同的數(shù)據(jù)類型及其分析方法。數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),具體包括表格(關(guān)系數(shù)據(jù)庫)、文本、社交網(wǎng)絡、時間序列數(shù)據(jù)、軌跡數(shù)據(jù)等。分析方法包括統(tǒng)計學方法、數(shù)據(jù)挖掘和機器學習方法等。

        ● 數(shù)據(jù)處理基礎(chǔ)設施、平臺和工具(infrastructure, platforms and tools):講述云平臺、數(shù)據(jù)庫、大數(shù)據(jù)平臺及工具以及編程語言Python。

        ● 大數(shù)據(jù)案例和實踐(applications and practice):講述大數(shù)據(jù)應用的成功案例,并且面向金融領(lǐng)域的量化交易應用,從數(shù)據(jù)采集、模型訓練、預測、評價到可視化等環(huán)節(jié),帶領(lǐng)讀者完成數(shù)據(jù)分析處理全流程的實踐。

        這4個部分的內(nèi)容相輔相成,構(gòu)成該課程的內(nèi)容體系,如圖1所示。沒有第一部分的內(nèi)容,第二部分的內(nèi)容將是松散的。而沒有第三部分的內(nèi)容,數(shù)據(jù)分析將無法落地。第四部分的內(nèi)容則引導讀者靈活運用所學知識,解決具體的實際問題,特別是復雜的工程問題。

        圖1 “數(shù)據(jù)科學概論quot;課程的內(nèi)容

        第一部分對數(shù)據(jù)科學的定義、數(shù)據(jù)科學和傳統(tǒng)學科的關(guān)系、數(shù)據(jù)科學的原則以及數(shù)據(jù)科學的4個關(guān)鍵視角進行了介紹。數(shù)據(jù)科學的定義及其與傳統(tǒng)學科的關(guān)系第3節(jié)已經(jīng)論述。這里簡單介紹數(shù)據(jù)科學的若干基本原則以及4個關(guān)鍵視角。

        筆者認為數(shù)據(jù)科學包含如下7個基本的原則。

        (1)數(shù)據(jù)分析階段

        數(shù)據(jù)分析可以劃分成一系列明確的階段,包括理解業(yè)務數(shù)據(jù)、收集數(shù)據(jù)、對數(shù)據(jù)進行集成、對數(shù)據(jù)進行分析挖掘、對結(jié)果進行可視化以及把結(jié)果表達給目標受眾等。把數(shù)據(jù)分析任務看作一個工作流,劃分成一系列明確的階段,是結(jié)構(gòu)化地分析問題、解決問題的思想方法。

        (2)描述性分析(descriptive analysis)和預測性分析(predictive analysis)

        對數(shù)據(jù)進行分析有兩個方面的目的,即了解過去和預見未來。由此,數(shù)據(jù)分析分為兩類,分別是描述性分析和預測性分析。面向過去,發(fā)現(xiàn)隱藏在數(shù)據(jù)表面之下的歷史規(guī)律或模式,這類分析稱為描述性分析。這些隱藏的模式可以幫助人們更好地進行決策。面向未來,對現(xiàn)有的數(shù)據(jù)進行深度分析,構(gòu)建分類/回歸模型,對未來趨勢進行預測,稱為預測性分析。

        (3)實體相似度

        在數(shù)據(jù)科學中經(jīng)常要計算實體間的相似度。比如在推薦系統(tǒng)中,要計算用戶之間的相似度,或者計算商品之間的相似度。在實際工作中,雖然為特定實體建立了高維的刻畫模型,但還是有可能遺漏某些信息,沒有完整地刻畫客觀對象。即便這樣,人們還是有信心使用已有的屬性信息計算實體之間的相似度。因為在一些屬性上相似的實體在其他屬性上一般也是相似的,這些屬性可能是未知的屬性,沒有進行采集和數(shù)字化。

        (4)模型的泛化

        一般要避免模型對歷史數(shù)據(jù)的過度匹配,這種現(xiàn)象稱為過擬合(over fit)。過擬合導致模型的泛化能力差,也就是模型在新數(shù)據(jù)上的分類或者預測的效果不好。

        (5)分析結(jié)果與場景的結(jié)合

        對數(shù)據(jù)進行深入分析以后獲得的結(jié)果是否具有實際應用價值,是否能夠幫助人們做出更好的決策,需要結(jié)合具體的應用場景進行評估。

        (6)相關(guān)性與因果性

        從大量的基礎(chǔ)數(shù)據(jù)中,可能分析出變量之間的相關(guān)性。相關(guān)性很有用,在一定程度上可以幫助人們進行預測。但是相關(guān)性和因果關(guān)系有重大區(qū)別,相關(guān)性不意味著因果性。

        (7)并行處理

        并行處理可以提高數(shù)據(jù)處理的速度。并行處理分為任務并行(t a sk p a r a l l e l i s m)和數(shù)據(jù)并行(d a t a parallelism)兩種類型。所謂任務并行,就是通過多個進程(正在運行的應用程序)對數(shù)據(jù)進行處理,通過操作系統(tǒng)的多任務處理能力,提高數(shù)據(jù)處理的效率。數(shù)據(jù)并行指的是把整個數(shù)據(jù)集(大規(guī)模)劃分成一系列小的數(shù)據(jù)集,然后利用多個進程對這些小的數(shù)據(jù)集進行并行操作,以達到提高數(shù)據(jù)處理速度的目的。

        4個關(guān)鍵視角包括以下幾個方面。

        (1)縱向視角(時間維度)

        數(shù)據(jù)有其完整的生命周期,數(shù)據(jù)的生命周期包括數(shù)據(jù)的產(chǎn)生、數(shù)據(jù)的表示和保存、數(shù)據(jù)的銷毀等各個階段。伴隨數(shù)據(jù)整個生命周期的是人們對數(shù)據(jù)的分析處理流程。在數(shù)據(jù)存續(xù)的整個生命周期內(nèi),有可能對數(shù)據(jù)進行多次分析。分析處理流程劃分成數(shù)據(jù)采集、表示和存儲、集成、分析、展現(xiàn)等主要階段。

        (2)計算視角(系統(tǒng)維度)

        數(shù)據(jù)處理系統(tǒng)依賴于計算機系統(tǒng)的存儲和計算能力建立。整個系統(tǒng)可以切分成數(shù)據(jù)庫、存儲/檢索與分析系統(tǒng)、應用系統(tǒng)(數(shù)據(jù)產(chǎn)品)等主要層次或者子系統(tǒng)。這是對數(shù)據(jù)處理系統(tǒng)進行觀察的一種視角。

        (3)橫向視角(數(shù)據(jù)類型維度)

        針對不同的應用,采集到的數(shù)據(jù)類型豐富多樣,包括表格數(shù)據(jù)、HTML網(wǎng)頁文件、XML文件、資源描述規(guī)范(resource description framework,RDF)數(shù)據(jù)、文本數(shù)據(jù)、圖(社交網(wǎng)絡)數(shù)據(jù)、多媒體數(shù)據(jù)(音頻/視頻/圖像)等。這些數(shù)據(jù)可以劃分成結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)等不同類型。類型多樣的數(shù)據(jù)之間,當它們描述的是現(xiàn)實世界中同樣的實體、事件時,便具有內(nèi)在的聯(lián)系,必須建立它們之間的關(guān)聯(lián),以便實現(xiàn)跨媒體的數(shù)據(jù)分析。

        (4)價值提升視角(價值維度)

        對于不同的應用來講,數(shù)據(jù)價值提升的過程具有共性。首先,原始數(shù)據(jù)一般數(shù)據(jù)量較大,但是數(shù)據(jù)的價值密度低,有可能包含很多的噪聲(即錯誤數(shù)據(jù))。這些數(shù)據(jù)必須經(jīng)過清洗,以便剔除錯誤,提高數(shù)據(jù)的質(zhì)量。此外,不同來源的數(shù)據(jù)需要集成起來,刪除重復數(shù)據(jù)。多源異構(gòu)數(shù)據(jù)之間還要建立數(shù)據(jù)之間的關(guān)聯(lián)。掌握的數(shù)據(jù)越全面,越多樣,分析結(jié)果越有可能反映客觀實際。對數(shù)據(jù)進行分析的方法,根據(jù)分析的復雜度分為簡單分析和復雜分析。所謂簡單分析,就是對數(shù)據(jù)進行多維的匯總統(tǒng)計、生成報表等操作。而復雜分析則包括運用統(tǒng)計分析方法、數(shù)據(jù)挖掘方法、機器學習方法,對數(shù)據(jù)進行深入分析。通過適當?shù)姆治?,可以挖掘到?shù)據(jù)中隱藏的模式、相關(guān)性等。如果數(shù)據(jù)中反復出現(xiàn)一些模式,可以在此基礎(chǔ)上抽象出知識。知識比模式、相關(guān)性等更加具有普遍性的規(guī)律。數(shù)據(jù)價值提升的過程伴隨著數(shù)據(jù)(信息)規(guī)模的縮小和數(shù)據(jù)(信息)價值密度的提高。

        4.3 “數(shù)據(jù)科學概論”課程教學設計

        在教學設計方面,體現(xiàn)如下特點。

        (1)學科交叉

        學科交叉在時間序列分析方面表現(xiàn)得尤為明顯。傳統(tǒng)的統(tǒng)計學研究時間序列的趨勢性、季節(jié)性、噪聲等成分,并且用移動平均線(moving average,MA)模型、自回歸(auto-regressive,AR)模型、自回歸移動平均(auto-regressive and moving average,ARMA)模型、 自回歸積分移動平均(autoregressive integrated moving average,ARIMA)模型、 自回歸條件異方差(auto-regressive conditional heteroskedasticity,ARCH)模型、 廣義ARCH(generalized auto-regressive conditional heteroskedasticity,GARCH)模型等對時間序列進行建模,強調(diào)模型的嚴謹性及其自洽性。而數(shù)據(jù)挖掘和機器學習領(lǐng)域的專家們則通過對時間序列的降維表示、相似度計算以及分類/聚類/關(guān)聯(lián)規(guī)則分析等技術(shù)手段,解釋時間序列數(shù)據(jù)中蘊含的規(guī)律性。近年來,研究人員還把具有優(yōu)良時間關(guān)系建模能力的深度學習模型(如長短期記憶(long short term memory,LSTM)神經(jīng)網(wǎng)絡)應用到了時間序列的建模和預測上,并且取得了良好的效果。在“時間序列”的教學實踐中,把來自統(tǒng)計學和機器學習/數(shù)據(jù)挖掘領(lǐng)域的技術(shù)手段和方法進行了對比介紹,并且分析其長處和短處,幫助學生進一步思考。

        (2)知識點案例與綜合案例

        為了幫助學生把握技術(shù)原理,并且能夠開始運用這些原理,對復雜的工程問題進行求解,筆者從兩個方面進行案例式講解。一方面是針對各個知識點給出實例,通過簡單的實例講解每個技術(shù)的原理,使學生迅速把握其本質(zhì),而不是陷入艱難的數(shù)據(jù)推導和絕望中。這并不是說數(shù)學推導是不需要的,而是作為一門入門性質(zhì)的課程,更為重要的是讓學生把握技術(shù)的原理和思想,而艱難但是必要、深入的數(shù)學推導過程可以在后續(xù)的課程中進行介紹。

        另一方面,從問題出發(fā),展示問題的分析和解決策略及其實現(xiàn)過程,也就是傳統(tǒng)意義上的綜合實例,而且是面向?qū)嶋H應用的綜合實例。在本課程中,用一部分時間講述數(shù)據(jù)科學的常用編程語言Python以及幾個重要的函數(shù)庫,包括數(shù)據(jù)處理函數(shù)庫 pandas、機器學習與數(shù)據(jù)挖掘函數(shù)庫 Scikit-Learn、數(shù)據(jù)可視化函數(shù)庫 Matplotlib、社交網(wǎng)絡分析函數(shù)庫NetworkX、文本分析函數(shù)庫 NLTK以及深度學習函數(shù)庫 Theano和 Keras等。在此基礎(chǔ)上,面向金融領(lǐng)域的量化交易應用,從數(shù)據(jù)采集、模型訓練、預測、評價到可視化等環(huán)節(jié),帶領(lǐng)學生完成數(shù)據(jù)處理和分析的實踐,打通整個流程。錘煉學生的編程實戰(zhàn)能力,使其深刻體會運用數(shù)據(jù)科學方法解決實際問題的樂趣。

        (3)教學內(nèi)容的深度展開和寬度展開

        在教學內(nèi)容的展開路線上,從簡單的數(shù)據(jù)管理和分析、多維分析和結(jié)構(gòu)化數(shù)據(jù)分析,到復雜的數(shù)據(jù)挖掘和機器學習,由淺入深形成了對內(nèi)容的深度展開。然后,對文本、社交網(wǎng)絡、時間序列、軌跡等數(shù)據(jù)單獨進行介紹,完成了內(nèi)容的寬度展開。

        5 結(jié)束語

        大數(shù)據(jù)時代已經(jīng)到來,數(shù)據(jù)科學正在興起,時代對數(shù)據(jù)科學家提出了緊迫的需求。本文把中國人民大學信息學院建設數(shù)據(jù)科學課程群的思想以及筆者對“數(shù)據(jù)科學概論”課程設計的想法和經(jīng)驗展現(xiàn)出來,與同行們交流。

        [1] 覃雄派, 王會舉, 杜小勇, 等. 大數(shù)據(jù)分析-RDBMS與MapReduce的競爭與共生[J].軟件學報, 2012, 23(1): 32-45.QIN X P, WANG H J, DU X Y, et al. Big data analysis-competition and symbiosis of RDBMS and MapReduce[J]. Journal of Software, 2012, 23(1): 32-45.

        [2] 王珊, 王會舉, 覃雄派, 等. 架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J]. 計算機學報, 2011,34(10): 1741-1752.WANG S, WANG H J, QIN X P, et al.Architecting big data: challenges, studies and forecasts[J]. Chinese Journal of Computers, 2011, 34(10): 1741-1752.

        [3] 許嘉, 呂品. 哈佛大學數(shù)據(jù)科學課程教學初探[J].教育界: 高等教育研究, 2015(5): 109-110.XU J, LV P. Introduction to teaching of data science course in Harvard university[J].Education Circle, 2015(5): 109-110.

        Course design of the quot;Introduction to Data Sciencequot;

        QIN Xiongpai1, CHEN Yueguo1, DU Xiaoyong1, WANG Weijuan2
        1. School of Information, Renmin University of China, Beijing 100872, China
        2. China Renmin University Press, Beijing 100872, China

        Big data era has arrived. In order to extract the value from big data, the community needs a large number of qualified data scientists. The training of data scientists is a pressing problem. School of Information Renmin University of China (Computer Science Department) proposed the construction thinking of building a curriculum system of three course groups, among them“Introduction to Data Science” is an introductory course of the data science course group. Firstly, the key technologies were introduced by cases for students to easily grasp the basic idea were introduced. Besides that, in order to enhance students'ability to analyze real problems (complex engineering problems) and to solve them, a whole-process practice case for a mediumsized practical problem was provided. Data science is an interdisciplinary subject, the course should reflect the interdisciplinary characteristics. For example, for time series data, the methods from statistics perspective and data mining / machine learning perspective to model and analyze the data, some comparison of the methods was given.

        data science, course group, Introduction to Data Science, course design

        TP 311.13

        A

        10.11959/j.issn.2096-0271.2017065

        ③http://courses.csail.mit.edu/18.337/2015/docs/50YearsData Science.pdf

        覃雄派(1971-),男,博士,中國人民大學信息學院講師,目前主要從事高性能數(shù)據(jù)庫、大數(shù)據(jù)分析、信息檢索等方面的研究工作,主持1項國家自然科學基金面上項目,參與多項國家“973”計劃、“863”計劃、國家自然科學基金項目,在國內(nèi)外期刊和會議上發(fā)表論文20余篇。

        陳躍國(1978-),男,博士,中國人民大學信息學院副教授、博士生導師,中國計算機學會高級會員,數(shù)據(jù)庫專家委員會委員,大數(shù)據(jù)專家委員會通信委員,F(xiàn)rontiers of Computer Science青年編委,主要研究方向為大數(shù)據(jù)分析系統(tǒng)和語義搜索。主持國家自然科學基金項目2項,廣東省科技應用重大專項1項,參與多項國家核高基(核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品)、“973”計劃、“863”計劃項目,近年來在SIGMOD、SIGIR、ICDE、AAAI、IEEE TKDE、WWW等國際重要期刊和會議上發(fā)表論文30余篇。

        杜小勇(1963-),男,博士,中國人民大學信息學院教授、博士生導師,教育部數(shù)據(jù)工程與知識工程重點實驗室主任,中國計算機學會會士,《大數(shù)據(jù)》期刊編委會副主任。主要研究方向為智能信息檢索、高性能數(shù)據(jù)庫、知識工程。主持和參與多項國家核高基(核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品)、“973”計劃、“863”計劃、國家自然科學基金項目,近年來在SIGMOD、VLDB、AAAI、IEEE TKDE等國際重要期刊和會議上發(fā)表論文百余篇。

        王偉娟(1979-),女,中國人民大學出版社編輯,主要研究方向為大數(shù)據(jù)、云計算、統(tǒng)計分析、數(shù)據(jù)科學。

        2017-05-24

        猜你喜歡
        科學分析課程
        數(shù)字圖像處理課程混合式教學改革與探索
        隱蔽失效適航要求符合性驗證分析
        軟件設計與開發(fā)實踐課程探索與實踐
        計算機教育(2020年5期)2020-07-24 08:53:38
        為什么要學習HAA課程?
        科學大爆炸
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        科學
        科學拔牙
        MOOC起步,從微課程開始
        物理與工程(2014年2期)2014-02-27 11:22:21
        无码a级毛片免费视频内谢| 国产精品成人有码在线观看| 中文字幕午夜精品一区二区三区| 麻豆国产精品久久人妻| 男女啪啪永久免费观看网站| 无码中文av有码中文av| 亚洲国产av午夜福利精品一区| 蜜桃传媒免费在线播放| 久久久av精品波多野结衣| 亚洲AV无码久久久一区二不卡| 久久国产精品av在线观看| 国产黄色av一区二区三区| 久久久无码人妻精品一区 | 亚洲av在线播放观看| 亚洲av色香蕉一区二区三区软件| 内射白浆一区二区在线观看| 久久av高潮av无码av喷吹| 国产目拍亚洲精品一区二区| 麻豆视频黄片在线免费观看| 一本久久综合亚洲鲁鲁五月天| 久久精品国内一区二区三区| 久久99久久99精品免视看国产成人| 91精品国产综合久久精品密臀| 中文无码伦av中文字幕| 国产精品国语对白露脸在线播放| 亚洲青涩在线不卡av| 日本久久精品中文字幕| 丰满人妻被黑人猛烈进入| 精品一区二区三区免费爱| 亚洲国产91精品一区二区| 国产无套粉嫩白浆在线| 国产人妻黑人一区二区三区| 我和丰满老女人性销魂| 日韩精品人妻久久久一二三| 老师翘臀高潮流白浆| 亚洲九九夜夜| 国产饥渴的富婆一凶二区 | 国产亚洲精品日韩香蕉网| 羞羞色院99精品全部免| 亚洲国产av玩弄放荡人妇系列| 国产精品九九九久久九九|