許嘉 呂品
【摘 要】大數(shù)據(jù)時(shí)代的到來(lái)催生了對(duì)數(shù)據(jù)科學(xué)人才的強(qiáng)烈需求。為了盡快培養(yǎng)出合格的數(shù)據(jù)科學(xué)人才,國(guó)外已有不少名校開(kāi)設(shè)了數(shù)據(jù)科學(xué)相關(guān)課程或?qū)I(yè),然而,開(kāi)設(shè)這類(lèi)課程的國(guó)內(nèi)高校數(shù)量還非常少。本文通過(guò)調(diào)研哈佛大學(xué)數(shù)據(jù)科學(xué)課程的相關(guān)情況,為我國(guó)高校盡快建立數(shù)據(jù)科學(xué)人才培養(yǎng)體系提供借鑒和參考。
【關(guān)鍵詞】數(shù)據(jù)科學(xué) 哈佛大學(xué) 課程教學(xué)
一、 引言
數(shù)據(jù)科學(xué)是一門(mén)蓬勃發(fā)展的新興學(xué)科。它一方面研究數(shù)據(jù)本身,包括數(shù)據(jù)的各種類(lèi)型、狀態(tài)、屬性、變化形式和變化規(guī)律;另一方面通過(guò)數(shù)據(jù)揭示自然界和人類(lèi)行為的現(xiàn)象與規(guī)律,從而為自然科學(xué)和社會(huì)科學(xué)提供新的研究方法。隨著人類(lèi)進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)科學(xué)在各行各業(yè)中發(fā)揮的作用日趨重要,各行業(yè)對(duì)數(shù)據(jù)科學(xué)人才的需求急劇增長(zhǎng),數(shù)據(jù)科學(xué)家迅速成為熱門(mén)職業(yè)。然而,由于數(shù)據(jù)科學(xué)人才培養(yǎng)的滯后,今后幾年國(guó)內(nèi)外都將面臨巨大的數(shù)據(jù)科學(xué)人才缺口。面對(duì)這一情況,國(guó)外很多著名大學(xué)(如哈佛大學(xué)、麻省理工學(xué)院、哥倫比亞大學(xué)、倫敦大學(xué)等)都已開(kāi)設(shè)了數(shù)據(jù)科學(xué)專(zhuān)業(yè)或課程,開(kāi)始加強(qiáng)數(shù)據(jù)科學(xué)人才的培養(yǎng)。目前,國(guó)內(nèi)設(shè)立數(shù)據(jù)科學(xué)專(zhuān)業(yè)或課程的高校還非常少,僅有復(fù)旦大學(xué)、廈門(mén)大學(xué)等幾所高校在建立實(shí)驗(yàn)室或開(kāi)設(shè)課程方面進(jìn)行了初步探索。為了填補(bǔ)數(shù)據(jù)科學(xué)人才空缺,國(guó)內(nèi)應(yīng)有更多高校承擔(dān)起培養(yǎng)數(shù)據(jù)科學(xué)人才的重任。針對(duì)國(guó)內(nèi)高校在開(kāi)設(shè)數(shù)據(jù)科學(xué)課程時(shí)可能面臨的經(jīng)驗(yàn)不足的問(wèn)題,筆者對(duì)哈佛大學(xué)的數(shù)據(jù)科學(xué)公開(kāi)課程進(jìn)行了調(diào)研。通過(guò)對(duì)哈佛大學(xué)數(shù)據(jù)科學(xué)課程教學(xué)各方面的介紹,希望能夠?yàn)槲覈?guó)高校盡快建立數(shù)據(jù)科學(xué)人才培養(yǎng)體系提供借鑒和參考。
二、課程基本情況
哈佛大學(xué)從2013年開(kāi)始開(kāi)設(shè)數(shù)據(jù)科學(xué)課程,該課程面向有一定編程能力和統(tǒng)計(jì)學(xué)知識(shí)背景的本科生與研究生。課程主講教師有兩位,分別是Rafael Irizarry教授和Verena Kaynig-Fittkau博士。Irizarry教授現(xiàn)為哈佛大學(xué)公共衛(wèi)生學(xué)院和癌癥研究中心生物統(tǒng)計(jì)學(xué)教授,主要研究基因組學(xué)和計(jì)算生物學(xué),尤其是基因組數(shù)據(jù)。Kaynig-Fittkau博士具有計(jì)算機(jī)科學(xué)的背景,現(xiàn)為哈佛大學(xué)工程與應(yīng)用科學(xué)學(xué)院博士后研究員,主要研究生物醫(yī)學(xué)數(shù)據(jù)與圖像處理。他們還邀請(qǐng)了奧地利林茨大學(xué)助理教授Marc Streit博士作為客座教授來(lái)講授該課程的部分章節(jié),他的主要研究方向?yàn)樾畔⒖梢暬⒖梢暬治龊蜕飻?shù)據(jù)可視化。此外,該課程還配備有一支由25名課程助教組成的教學(xué)團(tuán)隊(duì),主要負(fù)責(zé)輔導(dǎo)學(xué)生完成課程項(xiàng)目。
數(shù)據(jù)科學(xué)這門(mén)課程的教學(xué)內(nèi)容主要包括進(jìn)行調(diào)查研究的五個(gè)關(guān)鍵方面:①通過(guò)數(shù)據(jù)再加工、抓取、采樣、清洗以獲得信息豐富且容易管理的數(shù)據(jù)集;②通過(guò)數(shù)據(jù)存儲(chǔ)和管理以便能夠快速而可靠地訪問(wèn)數(shù)據(jù),特別是大數(shù)據(jù);③通過(guò)探索性數(shù)據(jù)分析獲得對(duì)數(shù)據(jù)的假設(shè)和直覺(jué)信息;④基于諸如回歸、分類(lèi)、聚類(lèi)等統(tǒng)計(jì)工具進(jìn)行預(yù)測(cè);⑤通過(guò)可視化、描述、說(shuō)明性總結(jié)來(lái)表達(dá)數(shù)據(jù)分析結(jié)果。
本課程的教學(xué)包括教師授課、課程實(shí)驗(yàn)、課后作業(yè)、課程項(xiàng)目、課外閱讀等組成部分。課程不設(shè)期末考試,學(xué)生獲得的成績(jī)由課后作業(yè)和課程項(xiàng)目的完成情況決定。其中,課后作業(yè)占最終成績(jī)的65%,課程項(xiàng)目個(gè)人表現(xiàn)占10%,團(tuán)隊(duì)表現(xiàn)占25%。
1.教師授課。頻率是每周兩次,每次課時(shí)長(zhǎng)約1小時(shí),共計(jì)持續(xù)11周,授課內(nèi)容如表1所示。另外,每周還有一次由助教講授的輔導(dǎo)課程。
表1 哈佛大學(xué)數(shù)據(jù)科學(xué)課程周表
周次 第1次授課內(nèi)容 第2次授課內(nèi)容
1 課程概述 (1)統(tǒng)計(jì)學(xué)總結(jié)和探索性數(shù)據(jù)分析;(2)IPython
2 可視化目標(biāo),數(shù)據(jù)類(lèi)型,統(tǒng)計(jì)圖表 (1)視覺(jué)屬性,顏色,設(shè)計(jì)原則;(2)探索數(shù)據(jù)
3 多維數(shù)據(jù)、地圖、文本可視化 (1)大數(shù)據(jù)可視化;
(2)距離、聚類(lèi)和降維
4 數(shù)據(jù)抓取 統(tǒng)計(jì)推斷簡(jiǎn)介
5 統(tǒng)計(jì)建模、方差和平滑 回歸與預(yù)測(cè)
6 機(jī)器學(xué)習(xí)簡(jiǎn)介 混雜
7 矩陣代數(shù) 貝葉斯統(tǒng)計(jì)
8 決策樹(shù),集成學(xué)習(xí) 集成學(xué)習(xí),性能評(píng)估
9 支持向量機(jī)和核技巧 聚類(lèi)方法:k-均值,均值漂移
10 MapReduce 圖表可視化與故事講述
11 深度學(xué)習(xí) 總結(jié)和展望
2.課程實(shí)驗(yàn)。作為教師授課的補(bǔ)充,課程實(shí)驗(yàn)通常采用編寫(xiě)Python程序解決實(shí)際問(wèn)題的方式進(jìn)行。要求學(xué)生努力寫(xiě)出正確的、高質(zhì)量的、可讀性好的代碼,同時(shí)需要考慮可重用性、錯(cuò)誤處理等方面的問(wèn)題,并且寫(xiě)好相應(yīng)注釋與文檔。
3.課后作業(yè)。課后作業(yè)被認(rèn)為是學(xué)習(xí)數(shù)據(jù)科學(xué)技巧和檢測(cè)對(duì)材料理解程度的機(jī)會(huì),也是學(xué)生在這門(mén)課程中獲得成績(jī)的重要來(lái)源。教師對(duì)學(xué)生每次提交作業(yè)的時(shí)間設(shè)定了嚴(yán)格的規(guī)定,同時(shí)為了應(yīng)對(duì)事先無(wú)法預(yù)計(jì)的特殊情況,每位學(xué)生被允許有兩次推遲一天交作業(yè)的機(jī)會(huì),其他晚于截止期提交的作業(yè)都將被拒絕。
4.課程項(xiàng)目。從課程中期開(kāi)始進(jìn)行數(shù)據(jù)科學(xué)項(xiàng)目,目的是讓學(xué)生經(jīng)歷完整的數(shù)據(jù)科學(xué)過(guò)程,是本課程的重要特色。課程項(xiàng)目以小組的方式完成,每組3至4人,持續(xù)時(shí)間大約為1個(gè)月。項(xiàng)目中的重要部分是iPython流程書(shū),需要詳細(xì)記錄得到結(jié)果的每一步,包括如何收集數(shù)據(jù)、嘗試的不同方法、使用的描述統(tǒng)計(jì)方法以及從中獲得的結(jié)論。學(xué)生完成課程項(xiàng)目后,要把涵蓋項(xiàng)目目標(biāo)、過(guò)程、結(jié)果的報(bào)告以網(wǎng)頁(yè)的形式發(fā)布在互聯(lián)網(wǎng)上。每個(gè)小組還需要制作一個(gè)時(shí)長(zhǎng)為2分鐘的視頻來(lái)講述項(xiàng)目,視頻需要上傳到視頻網(wǎng)站平臺(tái)上,如YouTube或Vimeo等。
5.課外閱讀。本課程并沒(méi)有指定教材,授課教師推薦了三本書(shū)籍作為課外讀物,分別是:《Python for Data Analysis》(注:中譯本《用Python進(jìn)行數(shù)據(jù)分析》已由機(jī)械工業(yè)出版社出版)《Machine Learning for Hackers》(注:中譯本《機(jī)器學(xué)習(xí):實(shí)用案例解析》,已由機(jī)械工業(yè)出版社出版)和《Probabilistic Programming and Bayesian Methods for Hackers》。課外閱讀的目的是幫助學(xué)生為課堂學(xué)習(xí)和完成作業(yè)做準(zhǔn)備,學(xué)生預(yù)先熟悉新的術(shù)語(yǔ)和定義,以便決定聽(tīng)課時(shí)哪些部分需要更加注意,同時(shí)能夠更加全面而系統(tǒng)地構(gòu)建知識(shí)體系。
通過(guò)學(xué)習(xí)這門(mén)課程,預(yù)期學(xué)生能夠獲得的知識(shí)和能力包括:能夠使用Python和其他工具抓取、清洗、處理數(shù)據(jù);能夠使用數(shù)據(jù)管理技術(shù)在本地或云基礎(chǔ)設(shè)施上存儲(chǔ)數(shù)據(jù);能夠使用統(tǒng)計(jì)方法和可視化方法快速研究數(shù)據(jù);能夠根據(jù)對(duì)數(shù)據(jù)的統(tǒng)計(jì)和計(jì)算分析進(jìn)行預(yù)測(cè);能夠應(yīng)用計(jì)算機(jī)科學(xué)中的基本概念(如模塊化、抽象化、封裝化)解決數(shù)據(jù)分析中的問(wèn)題;能夠使用MapReduce在集群和云基礎(chǔ)設(shè)施上實(shí)現(xiàn)數(shù)據(jù)密集型計(jì)算;能夠使用描述性統(tǒng)計(jì)和可視化有效表達(dá)數(shù)據(jù)分析結(jié)果。
三、帶給我們的啟示
1.廣博是授課內(nèi)容的突出特點(diǎn)。從課程周表可以看出,該課程的授課內(nèi)容非常廣博,涉及統(tǒng)計(jì)推斷、代數(shù)理論、算法編程、機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)可視化等多個(gè)學(xué)科,在進(jìn)行數(shù)據(jù)可視化時(shí)甚至還涉及一些美學(xué)和社會(huì)學(xué)知識(shí)。這說(shuō)明數(shù)據(jù)科學(xué)這門(mén)課程并沒(méi)有封閉的、完善的知識(shí)體系,而是一門(mén)綜合性的新興學(xué)科。如此廣博的內(nèi)容無(wú)疑對(duì)教師自身的能力素質(zhì)和教學(xué)水平提出了更高的要求。開(kāi)設(shè)數(shù)據(jù)科學(xué)課程的教師一方面應(yīng)當(dāng)努力提高自身知識(shí)水平,多閱讀相關(guān)各學(xué)科領(lǐng)域的經(jīng)典著作和前沿論文,爭(zhēng)取做到融會(huì)貫通;另一方面則應(yīng)該與不同學(xué)科背景的教師分工合作,組建跨學(xué)科的教學(xué)團(tuán)隊(duì),從而能夠勝任數(shù)據(jù)科學(xué)課程的教學(xué)任務(wù)。
2.實(shí)踐是培養(yǎng)能力的最佳途徑。課程項(xiàng)目是該課程教學(xué)中的重要組成部分,為了指導(dǎo)學(xué)生完成好課程項(xiàng)目,該課程專(zhuān)門(mén)配備了一支由25名助教組成的教學(xué)團(tuán)隊(duì),實(shí)現(xiàn)了對(duì)項(xiàng)目小組“一對(duì)一”的指導(dǎo)。由于學(xué)生完成課程項(xiàng)目后,要把項(xiàng)目報(bào)告和視頻在互聯(lián)網(wǎng)上公開(kāi)發(fā)布,全世界的人包括授課教師、其他同學(xué)甚至學(xué)生日后找工作時(shí)的用人單位都可以看到該學(xué)生在完成課程項(xiàng)目、解決實(shí)際問(wèn)題中掌握的知識(shí)和能力。公開(kāi)項(xiàng)目的完成情況并接受廣泛的監(jiān)督和評(píng)判,促使學(xué)生必須以更加認(rèn)真的態(tài)度對(duì)待。通過(guò)對(duì)實(shí)際生活中所遇到的數(shù)據(jù)問(wèn)題進(jìn)行探索性分析,學(xué)生能夠初步切身體會(huì)到數(shù)據(jù)科學(xué)家的工作內(nèi)容和思維方法。在這種實(shí)踐過(guò)程中,學(xué)生對(duì)知識(shí)的理解和掌握程度將大大加深,解決實(shí)際問(wèn)題的能力會(huì)得到極大鍛煉。
3.過(guò)程是評(píng)判成績(jī)的重要依據(jù)。該課程并不是通過(guò)考試成績(jī)?cè)u(píng)判學(xué)生的學(xué)習(xí)效果,而主要是通過(guò)課后作業(yè)和課程項(xiàng)目的完成情況給學(xué)生打分。在評(píng)判學(xué)生的作業(yè)和項(xiàng)目時(shí),與得到的最終結(jié)果同樣重要的是如何得到這些結(jié)果的過(guò)程。由于數(shù)據(jù)科學(xué)常常面對(duì)的是開(kāi)放性的問(wèn)題,這些問(wèn)題往往沒(méi)有唯一的、確定的答案,因此學(xué)生的分析過(guò)程是其學(xué)習(xí)效果的最直接體現(xiàn)。對(duì)過(guò)程進(jìn)行細(xì)致的考核與評(píng)判無(wú)疑加大了教師的工作量,但此舉有助于教師了解學(xué)生對(duì)相關(guān)知識(shí)的掌握程度,及時(shí)發(fā)現(xiàn)學(xué)生存在的知識(shí)漏洞,從而能夠有針對(duì)性地進(jìn)行輔導(dǎo),這是對(duì)學(xué)生高度負(fù)責(zé)的表現(xiàn)。
四、結(jié)語(yǔ)
本文通過(guò)對(duì)哈佛大學(xué)數(shù)據(jù)科學(xué)課程教學(xué)情況進(jìn)行介紹,希望能為國(guó)內(nèi)高校建立數(shù)據(jù)科學(xué)人才培養(yǎng)體系提供參考。當(dāng)然,國(guó)外眾多名校在數(shù)據(jù)科學(xué)課程教學(xué)方面都有各自的特點(diǎn)和側(cè)重點(diǎn)。國(guó)內(nèi)高校應(yīng)當(dāng)博采眾長(zhǎng),既要吸取國(guó)外名校的先進(jìn)經(jīng)驗(yàn),又要結(jié)合我國(guó)國(guó)情和本校特點(diǎn),將數(shù)據(jù)科學(xué)人才培養(yǎng)體系建設(shè)得有特色、有水平。
【參考文獻(xiàn)】
[1]朱揚(yáng)勇,熊赟.數(shù)據(jù)學(xué)[M].上海:復(fù)旦大學(xué)出版社. 2009.
[2]楊旭,湯海京,丁剛毅.數(shù)據(jù)科學(xué)導(dǎo)論[M].北京:北京理工大學(xué)出版社. 2014.
[3]中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專(zhuān)家委員會(huì).中國(guó)大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書(shū)[M].2013.
[4]廈門(mén)大學(xué)數(shù)據(jù)科學(xué)課程主頁(yè). http://dblab.xmu.edu.cn/post/2984.
[5]哈佛大學(xué)數(shù)據(jù)科學(xué)課程主頁(yè). http://cs109.github.io/2014.