亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        “數(shù)據(jù)科學(xué)”課程群與“數(shù)據(jù)科學(xué)導(dǎo)論”課程建設(shè)初探

        2019-01-10 05:59:22覃雄派陳躍國李翠平柴云鵬徐君文繼榮杜小勇
        大數(shù)據(jù) 2018年6期
        關(guān)鍵詞:導(dǎo)論可視化科學(xué)

        覃雄派,陳躍國,李翠平,柴云鵬,徐君,文繼榮,杜小勇

        中國人民大學(xué)信息學(xué)院,北京 100872

        1 引言

        數(shù)據(jù)科學(xué)是以計算機(jī)科學(xué)(特別是數(shù)據(jù)庫、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等)和統(tǒng)計學(xué)為基礎(chǔ),融合其他學(xué)科的一門新興的交叉學(xué)科。它研究數(shù)據(jù)的各種類型、狀態(tài)、屬性及其變化規(guī)律,研究如何對數(shù)據(jù)進(jìn)行分析,從而揭示自然界和人類行為等現(xiàn)象背后的規(guī)律。

        2016年,北京大學(xué)、對外經(jīng)濟(jì)貿(mào)易大學(xué)及中南大學(xué)3所高校申請并且成功獲得教育部批準(zhǔn),建立“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”本科專業(yè)。2017年,又有32所高校獲批建立該專業(yè),中國人民大學(xué)為其中之一。2018年3月,教育部公布第三批獲批建立“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)的院校。至此,共有280多所高校獲批建立該專業(yè)。

        如何設(shè)計“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)的課程體系、建設(shè)各門課程,成為各個高校的教學(xué)主管領(lǐng)導(dǎo)和任課老師關(guān)心的問題。本文介紹中國人民大學(xué)信息學(xué)院在計算機(jī)專業(yè)教育課程體系方面進(jìn)行的改革,并重點介紹其中“數(shù)據(jù)科學(xué)導(dǎo)論”課程的建設(shè)情況。

        2 課程建設(shè)思路

        2.1 計算機(jī)專業(yè)教育課程體系

        隨著計算機(jī)及互聯(lián)網(wǎng)的飛速發(fā)展,當(dāng)今社會已進(jìn)入大數(shù)據(jù)時代,數(shù)據(jù)及其應(yīng)用已經(jīng)滲透到社會和生活的方方面面。2015年9月5日國務(wù)院發(fā)布了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,系統(tǒng)部署了大數(shù)據(jù)發(fā)展工作,這意味著大數(shù)據(jù)發(fā)展正式上升為國家戰(zhàn)略。數(shù)據(jù)的處理與分析是推動生產(chǎn)力增長的關(guān)鍵要素,國家急需大量能構(gòu)建系統(tǒng)、會分析數(shù)據(jù)、懂領(lǐng)域業(yè)務(wù)的復(fù)合型人才。

        在新的需求背景下,中國人民大學(xué)信息學(xué)院(以下簡稱信息學(xué)院)把計算機(jī)專業(yè)課程劃分為“問題求解”“系統(tǒng)平臺”和“數(shù)據(jù)科學(xué)”3條主線、“數(shù)學(xué)和自然科學(xué)”“人文社科教育”兩條輔線,如圖1所示。

        “問題求解”類課程主要訓(xùn)練學(xué)生用計算機(jī)求解問題的思維方式、方法和實現(xiàn)手段(編程)?!跋到y(tǒng)平臺”類課程主要介紹和訓(xùn)練支持問題求解的實際計算機(jī)軟硬件系統(tǒng)的使用、設(shè)計與實現(xiàn)?!皢栴}求解”和“系統(tǒng)平臺”兩條主線中的課程設(shè)置主要是為了使計算機(jī)專業(yè)的學(xué)生在兩個方面打下扎實的基礎(chǔ)。而“數(shù)據(jù)科學(xué)”類課程涉及大數(shù)據(jù)從獲取、存儲、管理、分析到領(lǐng)域應(yīng)用等整個數(shù)據(jù)生命周期各個環(huán)節(jié)的內(nèi)容,尤其是云計算、大數(shù)據(jù)、人工智能(基于大數(shù)據(jù)的智能)等新技術(shù),將重點集中在這一主線中進(jìn)行講授和訓(xùn)練。“數(shù)學(xué)和自然科學(xué)”輔線課程將為計算機(jī)專業(yè)的學(xué)生打下扎實的數(shù)學(xué)和自然科學(xué)基礎(chǔ),“人文社科教育”類課程的主要目標(biāo)是提高學(xué)生的人文素養(yǎng),積累社會學(xué)科的基礎(chǔ)知識和方法論,同時數(shù)據(jù)科學(xué)中的大數(shù)據(jù)和人工智能的課程也會與人文社會學(xué)科深度結(jié)合。

        從縱向看,從大一到大四,4個年級的課程深度逐步加強(qiáng)。大一階段,主要通過“問題求解”主線中的程序設(shè)計等課程,訓(xùn)練學(xué)生的計算機(jī)編程能力,培養(yǎng)計算思維。從大二開始,設(shè)置“系統(tǒng)平臺”和“數(shù)據(jù)科學(xué)”類課程,系統(tǒng)地培養(yǎng)學(xué)生問題求解的方法和能力,訓(xùn)練學(xué)生如何抽象問題、建立模型、求解問題,并編程實現(xiàn);通過系統(tǒng)平臺方面的基礎(chǔ)課讓學(xué)生初步了解計算機(jī)軟硬件系統(tǒng),學(xué)習(xí)實際系統(tǒng)模塊的設(shè)計與開發(fā),同時也會通過導(dǎo)論類型的課程開啟“數(shù)據(jù)科學(xué)”主線課程的學(xué)習(xí)。大三階段的學(xué)習(xí)會再增加一個難度,增強(qiáng)問題求解的理論基礎(chǔ)和復(fù)雜問題求解的能力,并訓(xùn)練學(xué)生完整設(shè)計和開發(fā)復(fù)雜的計算機(jī)系統(tǒng)的能力;在“數(shù)據(jù)科學(xué)”方面,也對大數(shù)據(jù)從獲取、存儲、管理、挖掘到可視化等整個數(shù)據(jù)生命周期各個環(huán)節(jié)進(jìn)行綜合講授和訓(xùn)練。在大四階段的畢業(yè)設(shè)計中,學(xué)生針對導(dǎo)師提出的開放性問題進(jìn)行探索,在調(diào)研、分析、研究、設(shè)計與開發(fā)等方面得到進(jìn)一步的訓(xùn)練?!邦I(lǐng)域應(yīng)用”板塊通過大三和大四的選修課和畢業(yè)設(shè)計完成。

        圖1 計算機(jī)專業(yè)教育課程體系

        2.2 “數(shù)據(jù)科學(xué)”課程群

        傳統(tǒng)計算機(jī)專業(yè)教育是以計算為中心的,與數(shù)據(jù)科學(xué)相關(guān)的課程設(shè)置比較薄弱,一般只包括關(guān)系數(shù)據(jù)庫系統(tǒng)一門課程,甚至只是一門選修課。但是在數(shù)字經(jīng)濟(jì)環(huán)境下,云計算、物聯(lián)網(wǎng)、人工智能都和大數(shù)據(jù)密切相關(guān),需要轉(zhuǎn)換思維,增加一系列重要的數(shù)據(jù)科學(xué)和與大數(shù)據(jù)相關(guān)的新課程。這些課程應(yīng)涵蓋數(shù)據(jù)從準(zhǔn)備、存儲、管理、分析到領(lǐng)域應(yīng)用等整個數(shù)據(jù)生命周期各個環(huán)節(jié)的內(nèi)容。

        此外,在課程體系建設(shè)方面,需要加強(qiáng)實踐課程的建設(shè),尤其是設(shè)計和建設(shè)以數(shù)據(jù)管理和分析課程為核心的在線實驗平臺,加強(qiáng)學(xué)生的實踐能力和動手能力;與企業(yè)合作建設(shè)新課程,給學(xué)生提供了解工業(yè)界的實際情況和最新技術(shù)的機(jī)會及充足的鍛煉機(jī)會。

        為了提高大數(shù)據(jù)人才的培養(yǎng)質(zhì)量,信息學(xué)院專門為數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)精心打造了一系列精品課程,試圖在本科階段給學(xué)生打下扎實的數(shù)學(xué)、大數(shù)據(jù)和計算機(jī)基礎(chǔ)。數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)是一個寬口徑的專業(yè),與很多行業(yè)有相關(guān)性,全面而扎實的基礎(chǔ)可以提高本專業(yè)學(xué)生的適應(yīng)能力。

        在圖2中,“數(shù)據(jù)科學(xué)導(dǎo)論”“大數(shù)據(jù)計算智能”“非結(jié)構(gòu)化大數(shù)據(jù)分析”等課程是專門為大數(shù)據(jù)專業(yè)開設(shè)的新課程。信息學(xué)院精選了優(yōu)秀教師組建課程建設(shè)團(tuán)隊,例如“數(shù)據(jù)科學(xué)導(dǎo)論”課程由杜小勇教授和文繼榮教授牽頭,陳躍國教授、徐君教授、覃雄派博士參與;“大數(shù)據(jù)計算智能”和“非結(jié)構(gòu)化大數(shù)據(jù)分析”由李翠平教授和張靜博士負(fù)責(zé);“計算機(jī)系統(tǒng)基礎(chǔ)”課程由柴云鵬副教授負(fù)責(zé);“并行與分布式計算”由張峰博士負(fù)責(zé)。此外,信息學(xué)院的傳統(tǒng)精品課程“數(shù)據(jù)庫系統(tǒng)概論”由杜小勇教授和陳紅教授聯(lián)合授課。

        2.3 “數(shù)據(jù)科學(xué)導(dǎo)論”課程

        “數(shù)據(jù)科學(xué)導(dǎo)論”是一門入門課程,同時也是“數(shù)據(jù)科學(xué)”課程群統(tǒng)領(lǐng)式的課程,把學(xué)生引進(jìn)數(shù)據(jù)科學(xué)的大門。它的目標(biāo)有兩個,一個是擴(kuò)展寬廣的視野和培養(yǎng)濃厚的興趣,另一個是打下堅實的基礎(chǔ),有利于學(xué)生學(xué)習(xí)后續(xù)課程,有利于培養(yǎng)數(shù)據(jù)科學(xué)家。

        一般來講,該課程在大二下學(xué)期開設(shè)。在該時間點,學(xué)生已經(jīng)學(xué)習(xí)了必備的數(shù)學(xué)知識和編程基礎(chǔ)知識,為該課程的學(xué)習(xí)做好了準(zhǔn)備。而這門課的學(xué)習(xí),又為大三的專業(yè)課學(xué)習(xí)打下了必要的基礎(chǔ)。

        由此可見,“數(shù)據(jù)科學(xué)導(dǎo)論”課程的地位非常重要,它在學(xué)科基礎(chǔ)課和專業(yè)課之間起到了承上啟下的作用。由于它的入門和統(tǒng)領(lǐng)地位,在內(nèi)容上它與后續(xù)的專業(yè)課程不可避免地會有部分重復(fù)。因此,這門課程在設(shè)計時,首先需要回答一個問題,即如何處理和后續(xù)課程的關(guān)系。換句話說,“數(shù)據(jù)科學(xué)導(dǎo)論”課程在廣度和深度方面應(yīng)該如何設(shè)計,才能既避免和后續(xù)課程的簡單重復(fù),同時又能夠起到入門和引領(lǐng)的作用。

        “數(shù)據(jù)科學(xué)導(dǎo)論”包含很多內(nèi)容,而大部分內(nèi)容可以擴(kuò)展為一門課程。例如,在講到文本分析的時候,“數(shù)據(jù)科學(xué)導(dǎo)論”課程里面只對文本分析的概念、技術(shù)和方法做了初步的介紹,讓學(xué)生理解概念,會用工具,培養(yǎng)其數(shù)據(jù)思維。而在非結(jié)構(gòu)化大數(shù)據(jù)分析課程里面,則深入介紹了文本的處理和分析方法。又如,在講到人工神經(jīng)網(wǎng)絡(luò)的時候,“數(shù)據(jù)科學(xué)導(dǎo)論”課程只需把神經(jīng)網(wǎng)絡(luò)的基本原理、深度學(xué)習(xí)的基本概念介紹清楚,學(xué)生會使用相關(guān)工具即可,具體的神經(jīng)網(wǎng)絡(luò)模型很多,不勝枚舉,可以選擇一兩種加以介紹,其他模型可以放在后續(xù)的機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)課程中細(xì)細(xì)地展開分析。

        圖2 “數(shù)據(jù)科學(xué)”課程群

        3 “數(shù)據(jù)科學(xué)導(dǎo)論”課程內(nèi)容安排及教學(xué)計劃

        3.1 國外若干著名大學(xué)的“數(shù)據(jù)科學(xué)導(dǎo)論”課程建設(shè)情況

        在設(shè)計課程內(nèi)容時,筆者團(tuán)隊首先調(diào)研了加州大學(xué)洛杉磯分校、斯坦福大學(xué)、華盛頓大學(xué)等幾個國外著名大學(xué)的“數(shù)據(jù)科學(xué)導(dǎo)論”課程的內(nèi)容安排,下面對其進(jìn)行詳細(xì)介紹。

        加州大學(xué)洛杉磯分校的數(shù)據(jù)科學(xué)導(dǎo)論課程的主要內(nèi)容包括數(shù)據(jù)管理、機(jī)器學(xué)習(xí)、自然語言處理、統(tǒng)計分析、可視化等。該課程將自然語言處理進(jìn)行了重點介紹,課程內(nèi)容還包括大數(shù)據(jù)工具Hadoop、各種NoSQL數(shù)據(jù)庫、Python編程語言等。課程最后安排了一系列的實踐案例,要求學(xué)生在實際業(yè)務(wù)數(shù)據(jù)集上運(yùn)用所學(xué)知識解決實際問題。該課程只需學(xué)生具有數(shù)學(xué)特別是概率統(tǒng)計的基礎(chǔ),會編程即可,沒有其他先決條件,適用于本科生。

        斯坦福大學(xué)的數(shù)據(jù)科學(xué)導(dǎo)論課程主要包含3個方面的內(nèi)容,分別是數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)、R編程語言。該課程同時包括一系列來自實際業(yè)務(wù)的案例分析講座,包括天氣預(yù)報、市場營銷、生物學(xué)、股票市場、醫(yī)藥行業(yè)等,學(xué)生可以跟著教師的介紹,實際動手操作,一步步解決問題,這對于培養(yǎng)學(xué)生的動手能力是非常必要的。該課程在內(nèi)容設(shè)計和教學(xué)設(shè)計上,照顧到?jīng)]有計算機(jī)基礎(chǔ)的學(xué)生,適用于本科生。

        華盛頓大學(xué)的數(shù)據(jù)科學(xué)導(dǎo)論課程的主要內(nèi)容包括實現(xiàn)(大規(guī)模)數(shù)據(jù)管理的S Q L數(shù)據(jù)庫(關(guān)系數(shù)據(jù)庫管理系統(tǒng))、NoSQL數(shù)據(jù)庫技術(shù)及其選擇和取舍(trade off)、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的基本技術(shù)、統(tǒng)計建模方法(如線性和非線性回歸、數(shù)據(jù)可視化等)。該課程最后選擇圖數(shù)據(jù)分析作為特別的專題進(jìn)行介紹。該課程雖然稱為“數(shù)據(jù)科學(xué)導(dǎo)論”,但是其中的內(nèi)容是以一系列相對獨(dú)立的專題講座的形式講授的,前后兩次課堂內(nèi)容并不一定連續(xù),適用于研究生或者高年級本科生。

        縱觀這些著名大學(xué)的數(shù)據(jù)科學(xué)導(dǎo)論課程可以發(fā)現(xiàn),在內(nèi)容安排方面有以下共同點:

        ● 數(shù)據(jù)管理不能缺失,數(shù)據(jù)科學(xué)導(dǎo)論不能只講數(shù)據(jù)分析而不講數(shù)據(jù)管理,把數(shù)據(jù)管理起來是分析的基礎(chǔ);

        ● 強(qiáng)調(diào)動手能力培養(yǎng),選用的編程語言有R、Python等,問題來自實際應(yīng)用;

        ● 選擇某種數(shù)據(jù)類型進(jìn)行深入介紹,比如圖數(shù)據(jù)、文本數(shù)據(jù)等,不同學(xué)校在內(nèi)容上各有取舍;

        ● 數(shù)據(jù)可視化內(nèi)容必不可少。

        3.2 信息學(xué)院“數(shù)據(jù)科學(xué)導(dǎo)論”課程建設(shè)情況和新規(guī)劃

        數(shù)據(jù)科學(xué)導(dǎo)論課程在中國人民大學(xué)開設(shè)已有5年時間。在探索的過程中,增長了課程建設(shè)的經(jīng)驗,同時也有一些教訓(xùn)。這門課程剛開始作為大三的選修課開設(shè),隨著數(shù)據(jù)科學(xué)和大數(shù)據(jù)人才需求的逐步旺盛,學(xué)生興趣濃厚,選修這門課的學(xué)生逐漸增多。部分學(xué)生的學(xué)習(xí)主動性很高,積極參加中國計算機(jī)學(xué)會和各大互聯(lián)網(wǎng)公司的大數(shù)據(jù)大賽,并且獲得了好名次。

        2017年,中國人民大學(xué)獲批建設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)后,對該課程的定位為學(xué)科基礎(chǔ)課。中國人民大學(xué)信息學(xué)院領(lǐng)導(dǎo)全方位督導(dǎo)這門課程的建設(shè),對教學(xué)大綱、教學(xué)內(nèi)容、教學(xué)環(huán)節(jié)、實踐環(huán)節(jié)進(jìn)行了重新梳理,為2017年開始招生的“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)本科生開設(shè)這門課程做好了準(zhǔn)備。

        該課程作為選修課程講授時,主要的教訓(xùn)有3點,分別是內(nèi)容過于繁多、難度偏大、實踐部分安排的時間不夠。經(jīng)過信息學(xué)院“數(shù)據(jù)科學(xué)導(dǎo)論”課程建設(shè)小組多次討論,在教學(xué)目標(biāo)方面,突出兩個方面:一個是掌握數(shù)據(jù)分析的基本思路、基本理論與基本方法;另一個是實踐應(yīng)用能力培養(yǎng),即面向?qū)嶋H應(yīng)用中不同行業(yè)的需求,能夠給出數(shù)據(jù)解決方案設(shè)計和最終實現(xiàn)。

        對上述前期教學(xué)的3個經(jīng)驗教訓(xùn)進(jìn)行梳理后,信息學(xué)院在內(nèi)容方面刪繁就簡,突出結(jié)構(gòu)化數(shù)據(jù)分析或者流數(shù)據(jù)處理、文本分析、圖數(shù)據(jù)分析三大塊;在難度方面,把該門課程定位為入門的課程,目的是培養(yǎng)學(xué)生濃厚的興趣,因此難度上要降低,對算法的數(shù)學(xué)基礎(chǔ)和推導(dǎo)過程的把握由后續(xù)的各門專業(yè)選修課程來承擔(dān)。本門課程僅要求掌握基本原理,加強(qiáng)實踐環(huán)節(jié),要求學(xué)生熟練掌握主流工具,完成數(shù)據(jù)管理和分析全流程的實踐,切實培養(yǎng)學(xué)生的動手(編程)能力。在具體的教學(xué)中,設(shè)計了模塊式教學(xué)法以及基于大作業(yè)(project)的教學(xué)法。通過3個大作業(yè),把理論講解和動手實踐有機(jī)結(jié)合起來。

        3.2.1 教學(xué)內(nèi)容模塊化

        “數(shù)據(jù)科學(xué)導(dǎo)論”是一門入門性質(zhì)的課程,內(nèi)容安排上一定要注意取舍,達(dá)到廣度和深度的平衡,既要避免泛泛而談、沒有重點,也要避免過于強(qiáng)調(diào)某個方面,但是廣度不夠。

        從廣度上來講,要幫助學(xué)生構(gòu)建起一個完整的知識體系。在理論部分,要包括數(shù)據(jù)科學(xué)的基本概念、技術(shù)和方法,數(shù)據(jù)的不同類型,數(shù)據(jù)處理的流程和數(shù)據(jù)的生命周期,數(shù)據(jù)處理的不同模式,數(shù)據(jù)分析的主要方法等。其中數(shù)據(jù)的類型是非常豐富的,包括文本、社交網(wǎng)絡(luò)、社交媒體、時間序列、軌跡數(shù)據(jù)、音頻/圖像和視頻等。在應(yīng)用部分,要包括數(shù)據(jù)處理的基礎(chǔ)設(shè)施、平臺和各種工具以及一系列精心設(shè)計的案例。

        在深度上,只能選擇部分內(nèi)容進(jìn)行深入的介紹。在介紹完數(shù)據(jù)科學(xué)的基本概念、技術(shù)和方法以及主要的數(shù)據(jù)類型及其分析方法之后,可以選擇某種具體的數(shù)據(jù)類型進(jìn)行深入的介紹。同時在應(yīng)用部分,要設(shè)計一些實際的案例,要求學(xué)生結(jié)合實際數(shù)據(jù)進(jìn)行上機(jī)實踐。

        教學(xué)內(nèi)容分為四大模塊,分別是基礎(chǔ)(base)模塊、關(guān)系數(shù)據(jù)/流數(shù)據(jù)處理(relational & stream)模塊、文本數(shù)據(jù)處理和分析(text)模塊、圖數(shù)據(jù)處理和分析(graph)模塊。

        基礎(chǔ)模塊為后續(xù)的3個實踐模塊做準(zhǔn)備工作。它的內(nèi)容包括以下幾方面。

        ● 概念:數(shù)據(jù)科學(xué)概論,主要介紹數(shù)據(jù)科學(xué)的基本概念、大數(shù)據(jù)及其價值、數(shù)據(jù)處理的全生命周期,包括數(shù)據(jù)的采集和獲取、數(shù)據(jù)預(yù)處理/清洗和集成、數(shù)據(jù)管理、數(shù)據(jù)分析、可視化和解釋等。

        ● 方法:包括各種數(shù)據(jù)模型、數(shù)據(jù)處理的不同模式(批處理和流式處理)、通用的數(shù)據(jù)分析方法、數(shù)據(jù)可視化等。

        ● 平臺和工具:包括分布式計算與大數(shù)據(jù)平臺(Hadoop & Spark)以及Python語言。其中Python語言部分包括對Python語言基礎(chǔ)以及Python的幾個重要的庫(數(shù)據(jù)預(yù)處理庫pandas、機(jī)器學(xué)習(xí)庫Scikit-Learn、可視化庫Matplotlib)的介紹。

        大數(shù)據(jù)具有4個關(guān)鍵的特點,分別是數(shù)據(jù)量大(volume)、數(shù)據(jù)類型多樣(variety)、數(shù)據(jù)價值密度低(variety)以及速率快(velocity)。上述的教學(xué)內(nèi)容完全體現(xiàn)了大數(shù)據(jù)的這些特點。分布式計算與大數(shù)據(jù)平臺體現(xiàn)了數(shù)據(jù)量大,數(shù)據(jù)模型體現(xiàn)了數(shù)據(jù)類型多樣,數(shù)據(jù)的清洗和集成體現(xiàn)了數(shù)據(jù)價值密度低,數(shù)據(jù)處理的不同模式體現(xiàn)了速率快。經(jīng)過模塊內(nèi)部整理以后,基礎(chǔ)模塊的內(nèi)容可以被劃分成如下子模塊,見表1。

        后續(xù)的3個模塊除了介紹理論之外,還要介紹平臺、方法和應(yīng)用。由于是導(dǎo)論課程,其主要目的是把學(xué)生引進(jìn)數(shù)據(jù)科學(xué)的大門,培養(yǎng)其對數(shù)據(jù)的感覺和興趣,基礎(chǔ)理論不必講得太深入(可以放在后續(xù)專業(yè)選修課程中深入介紹),而是偏向工具的使用和應(yīng)用的開發(fā),讓學(xué)生迅速獲得對數(shù)據(jù)價值的認(rèn)識。特別需要注意的是,要準(zhǔn)備好必要的數(shù)據(jù)集,以便學(xué)生可以利用一些工具對其進(jìn)行處理和分析。

        關(guān)系數(shù)據(jù)/流數(shù)據(jù)處理模塊提供兩個選項,可以根據(jù)需要進(jìn)行選擇。第一個選項側(cè)重于介紹大數(shù)據(jù)的實時流式處理,內(nèi)容包括流式處理基礎(chǔ)、流式處理工具和流式處理應(yīng)用,可以選擇Storm作為典型流式數(shù)據(jù)處理系統(tǒng)加以介紹,大作業(yè)部分可以針對傳感器數(shù)據(jù),實現(xiàn)實時匯總和可視化。第二個選項側(cè)重于介紹關(guān)系模型、SQL語言以及分布式大數(shù)據(jù)多維分析(OLAP),工具部分可以選擇對MySQL以及SQL on Hadoop系統(tǒng)加以介紹,做到會用即可,大作業(yè)部分可以針對銷售數(shù)據(jù)進(jìn)行多維分析以及可視化。

        文本數(shù)據(jù)處理和分析模塊依賴于分布式的大數(shù)據(jù)處理平臺和分析工具,包括Hadoop/Spark、NLTK for Spark、Scikit Learn for Spark等,使用各種文本分析方法,實現(xiàn)對文本的分詞、索引與檢索、情感分析、實體識別、可視化等關(guān)鍵任務(wù)。大作業(yè)部分可以針對產(chǎn)品評論進(jìn)行情感分析,并且從產(chǎn)品維度、時間維度進(jìn)行匯總,最后進(jìn)行可視化,讓用戶了解熱門產(chǎn)品及客戶對不同產(chǎn)品的態(tài)度變化等。

        圖數(shù)據(jù)處理和分析模塊依賴于GraphX on Spark平臺(工具)或者Neo4J數(shù)據(jù)庫,對圖數(shù)據(jù)進(jìn)行創(chuàng)建、查詢、路徑分析、PageRank、社區(qū)檢測等。大作業(yè)部分可以基于公開數(shù)據(jù)集進(jìn)行重要節(jié)點排名、社區(qū)檢測等,甚至可以擴(kuò)展到金融領(lǐng)域,實現(xiàn)欺詐團(tuán)伙的檢測。

        這3個模塊都帶有很強(qiáng)的實踐性,教師在講解平臺、方法和應(yīng)用的基礎(chǔ)上,給學(xué)生布置大作業(yè),要求學(xué)生熟練使用上述平臺和工具,對數(shù)據(jù)集進(jìn)行處理、分析和可視化,并且解釋結(jié)果,體現(xiàn)數(shù)據(jù)的價值。

        表1 數(shù)據(jù)科學(xué)導(dǎo)論課程內(nèi)容的模塊與子模塊

        3.2.2 教學(xué)計劃

        在時間安排上(共15個教學(xué)周,一個教學(xué)周2次課,每次課2課時,共30次課),基礎(chǔ)模塊被分配12次課,后續(xù)的3個模塊分別被分配6次課,共18次課。

        在基礎(chǔ)模塊,3位教師可以分別準(zhǔn)備關(guān)于不同子模塊的內(nèi)容,3位教師的教學(xué)計劃見表2(3位教師分別被命名為教師1、教師2、教師3)。

        表2 3位教師3個教學(xué)班的教學(xué)計劃(串行并行相結(jié)合)

        3.2.3 課程考核方法

        采用上述教學(xué)計劃,本課程的考核分為3個方面,包括平時的上機(jī)實踐、大作業(yè)和期末閉卷考試。在平時的上機(jī)實踐中,學(xué)生必須完成上機(jī)練習(xí)題目,并提交上機(jī)實驗報告。大作業(yè)鍛煉學(xué)生綜合運(yùn)用所學(xué)知識解決復(fù)雜問題的能力。期末考試考查學(xué)生對知識點的掌握和靈活運(yùn)用能力。最終成績按照15:15:15:15:40的比例,由平時成績、大作業(yè)1、大作業(yè)2、大作業(yè)3和期末成績構(gòu)成。

        3.3 課程參考教材及配套資源建設(shè)

        自2013年以來,“數(shù)據(jù)科學(xué)導(dǎo)論”課程在中國人民大學(xué)信息學(xué)院計算機(jī)系開設(shè)已經(jīng)有5年。筆者團(tuán)隊在授課的過程中,不斷整理講義。2016年開始,經(jīng)過兩年的精心編寫和仔細(xì)校對,《數(shù)據(jù)科學(xué)概論》教材于2018年3月正式出版。

        這本教材包括兩個部分,分別是理論篇和應(yīng)用篇。理論篇包括兩個模塊:一是數(shù)據(jù)科學(xué)基礎(chǔ),講述數(shù)據(jù)科學(xué)的基本概念和原則;二是數(shù)據(jù)和數(shù)據(jù)上的計算,講述不同的數(shù)據(jù)類型及其分析方法,數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),分析方法包括統(tǒng)計學(xué)方法、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法等。應(yīng)用篇也包括兩個模塊:一是數(shù)據(jù)處理基礎(chǔ)設(shè)施、平臺和工具,講述云平臺、數(shù)據(jù)庫、大數(shù)據(jù)平臺、工具以及編程語言Python;二是數(shù)據(jù)科學(xué)案例和實踐,講述大數(shù)據(jù)應(yīng)用的案例,并且面向金融領(lǐng)域的量化交易應(yīng)用,從數(shù)據(jù)采集、模型訓(xùn)練、預(yù)測、評價到可視化等環(huán)節(jié),帶領(lǐng)讀者完成數(shù)據(jù)分析處理的實踐。在具體授課中,教師可以選擇其他行業(yè)領(lǐng)域的實踐案例進(jìn)行介紹。

        為了方便各個高校教師開設(shè)和講授“數(shù)據(jù)科學(xué)導(dǎo)論”課程和提高學(xué)生的課程學(xué)習(xí)效果,筆者團(tuán)隊建設(shè)了課程配套網(wǎng)站,網(wǎng)站上提供了課程PPT、代碼、數(shù)據(jù)、實驗參考和技術(shù)博客等資源。配套資源網(wǎng)站還針對若干難點專題,給出了基于實例的詳細(xì)和深入的剖析,幫助學(xué)生深入理解所學(xué)知識。這些難點包括最大期望(expectation maximization ,EM)算法、反向傳播算法、深度神經(jīng)網(wǎng)絡(luò)模型、奇異值分解(singular value decomposition,SVD)算法、概率潛在語義分析(probabilistic latent semantic analysis,PLSA)算法等。

        4 結(jié)束語

        本文介紹了中國人民大學(xué)信息學(xué)院面向大數(shù)據(jù)時代的課程體系改革,包括“問題求解”“系統(tǒng)平臺”和“數(shù)據(jù)科學(xué)”三大課程群建設(shè)的構(gòu)想和實踐以及“數(shù)據(jù)科學(xué)”課程群的具體內(nèi)涵。在此基礎(chǔ)上,重點介紹了“數(shù)據(jù)科學(xué)導(dǎo)論”課程的建設(shè)情況,包括課程的目標(biāo)和定位、課程內(nèi)容安排、課程教學(xué)計劃、考核方法、實踐環(huán)節(jié)設(shè)計等。

        猜你喜歡
        導(dǎo)論可視化科學(xué)
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        評《工程管理導(dǎo)論》(書評)
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        科學(xué)大爆炸
        科學(xué)
        使公民有道德:導(dǎo)論
        科學(xué)拔牙
        打造平衡中的適度:一部值得推薦的英語文學(xué)教材——評《文學(xué)導(dǎo)論》
        日韩在线第二页| 日韩欧美在线综合网| 国产午夜av秒播在线观看| 国产成人精品2021| 国产亚洲欧美精品久久久| 无码人妻av一区二区三区蜜臀| 久久精品亚洲中文字幕无码网站| 日产精品久久久久久久| 亚洲色成人网一二三区| 国产美女a做受大片免费| 一区二区三区国产偷拍| 蜜桃网站入口可看18禁| 黄片小视频免费观看完整版| 精品亚洲成av人在线观看| 少妇激情一区二区三区视频| 中国丰满熟妇av| 国产精品亚洲欧美天海翼| 亚洲欧美久久婷婷爱综合一区天堂| 国产一区二区精品久久呦| 久久精品亚洲94久久精品| 国产av在线观看久久| 人妻少妇出轨中文字幕| 在线综合亚洲欧洲综合网站| 亚洲精品国产美女久久久| 99精品欧美一区二区三区美图| 欧美丝袜秘书在线一区| 日本岛国一区二区三区| 东京热加勒比视频一区| 久久久精品国产免大香伊| 成人做受视频试看60秒| 久久综合精品国产丝袜长腿| 3亚洲日韩在线精品区| 精品人妻一区二区三区不卡毛片| 亚洲高清一区二区三区在线播放| 无码人妻久久一区二区三区蜜桃| 双腿张开被9个男人调教| 亚洲国产成人精品无码区在线观看 | 日本草逼视频免费观看| 国产精品高清国产三级国产av| 亚洲女人毛茸茸粉红大阴户传播| 欧美69久成人做爰视频|