迪莉婭
[摘 ? ?要] ? ?隨著大數(shù)據(jù)的興起,數(shù)據(jù)科學(xué)家的短缺受到普遍的關(guān)注。高校承擔(dān)著培養(yǎng)數(shù)據(jù)科學(xué)人才的使命。探討了數(shù)據(jù)科學(xué)家的含義和所具備的素質(zhì),分析了國內(nèi)外高校數(shù)據(jù)科學(xué)專業(yè)碩士課程設(shè)置的內(nèi)容和特點,提出了完善我國高校數(shù)據(jù)科學(xué)專業(yè)碩士課程建設(shè)的策略。
[關(guān)鍵詞] ? ?高校;數(shù)據(jù)科學(xué);碩士;課程
[中圖分類號] ? ?G642.0 ? ? ? ?[文獻(xiàn)標(biāo)志碼] ? ?A ? ? ? ?[文章編號] ? ?1005-4634(2014)06-0039-05
數(shù)據(jù)科學(xué)這個詞早在20世紀(jì)60年代就已經(jīng)出現(xiàn),但直到今天,數(shù)據(jù)科學(xué)才開始在統(tǒng)計學(xué)和數(shù)據(jù)挖掘社區(qū)的應(yīng)用中實現(xiàn)。數(shù)據(jù)科學(xué)是通過數(shù)據(jù)推理和探索發(fā)現(xiàn)深層次知識的科學(xué)。這一學(xué)科通過使用數(shù)學(xué)和算法技術(shù)來解決一些最復(fù)雜的商業(yè)分析問題,利用原始信息數(shù)據(jù)找出隱藏在表面之下的洞見。它嚴(yán)格地以基于證據(jù)的分析和建立強(qiáng)大的決策能力為中心[1]。在數(shù)據(jù)科學(xué)出現(xiàn)之前,高校設(shè)置的商業(yè)智能課程受到普遍歡迎。雖然數(shù)據(jù)科學(xué)是商業(yè)智能的進(jìn)一步發(fā)展,但二者在內(nèi)容、工具、應(yīng)用的方法上有很大差異,對企業(yè)的運營模式產(chǎn)生了重要的影響(見表1[2])。
因為數(shù)據(jù)科學(xué)的興起,數(shù)據(jù)科學(xué)家也同樣成為炙手可熱的詞匯。2009年,數(shù)據(jù)科學(xué)家這個詞由 DJ Patil 和 Jeff Hammerbacker第一次使用并引起熱議。引起熱議的原因之一是其稀缺性。從全球范圍來看,數(shù)據(jù)科學(xué)家的短缺成為普遍現(xiàn)象。根據(jù)麥肯錫預(yù)計,到2018年,僅在美國市場,數(shù)據(jù)科學(xué)家人才短缺將達(dá)到14萬至19萬,而相關(guān)方面的管理人才短缺將達(dá)到150萬[3]。同樣,著名的咨詢公司埃森哲在《數(shù)據(jù)分析在行動:通向高投資回報率之路的突破與壁壘》報告中也預(yù)計,到2018年,僅美國和英國,需要具備高深科學(xué)、技術(shù)、工程和數(shù)學(xué)知識的職位,其增長速度將是其他職業(yè)的五倍,是金融服務(wù)等信息密集型行業(yè)職位的四倍[4]。
1 ? ?何為數(shù)據(jù)科學(xué)家
雖然學(xué)術(shù)界和實踐領(lǐng)域?qū)τ诤螢閿?shù)據(jù)科學(xué)家尚無定論。但從對數(shù)據(jù)科學(xué)家的描述和具備的素養(yǎng)方面能夠更好地認(rèn)識數(shù)據(jù)科學(xué)家的內(nèi)涵。
1.1 ? ?數(shù)據(jù)科學(xué)家是什么
《哈佛商業(yè)評論》認(rèn)為數(shù)據(jù)科學(xué)家是集“數(shù)據(jù)黑客、分析師、溝通大師和受信任的顧問”于一身的職業(yè)[5]。IBM大數(shù)據(jù)產(chǎn)品副總裁Anjul Bhambhri認(rèn)為,數(shù)據(jù)科學(xué)家是“半個分析家,半個藝術(shù)家”。因為數(shù)據(jù)科學(xué)家具有好奇心,他們審視著數(shù)據(jù)和尋找事物發(fā)展的趨勢,就像文藝復(fù)興時期的人們想真正地學(xué)習(xí)和帶來組織機(jī)構(gòu)的變化[6]。LinkedIn首席科學(xué)家DJ Patil認(rèn)為最好的數(shù)據(jù)科學(xué)家往往是“硬的科學(xué)家”,更像是物理學(xué)家,而不是計算機(jī)科學(xué)專業(yè)的學(xué)生。因為物理學(xué)家有很強(qiáng)的數(shù)學(xué)背景,計算機(jī)技能,并且這個學(xué)科發(fā)展主要來自于數(shù)據(jù)[7]。
1.2 ? ?數(shù)據(jù)科學(xué)家應(yīng)具有的素養(yǎng)
目前,數(shù)據(jù)科學(xué)家應(yīng)具備的條件和背景也眾說不一。Kaggle總裁兼首席科學(xué)家Jeremy Howard認(rèn)為,一個偉大的數(shù)據(jù)科學(xué)家應(yīng)具備創(chuàng)新、堅韌、好奇、技術(shù)功底深厚這四項素質(zhì)。一方面數(shù)據(jù)科學(xué)家要具有科學(xué)家的基本素質(zhì),比如客觀、誠實、嚴(yán)謹(jǐn);另一方面,數(shù)據(jù)科學(xué)家主要是用數(shù)據(jù)說話,應(yīng)具備數(shù)據(jù)收集、數(shù)據(jù)改寫、可視化、機(jī)器學(xué)習(xí)、計算機(jī)編程等能力,能使數(shù)據(jù)驅(qū)動決策并主導(dǎo)產(chǎn)品的開發(fā)[8]。
學(xué)者Chris Wiggins認(rèn)為數(shù)據(jù)科學(xué)家應(yīng)該具備三大能力:分析能力、技術(shù)能力、溝通合作能力。分析能力主要指能夠靈活應(yīng)用統(tǒng)計工具和數(shù)學(xué)工具進(jìn)行數(shù)據(jù)分析和可視化的能力;技術(shù)能力又包括五種能力,具體表現(xiàn)為:(1)處理分布式文件系統(tǒng)工具的能力,如Hadoop、MapReduce等;(2)掌握Python、Java、 Pig與Hive等編程語言的能力;(3)機(jī)器學(xué)習(xí)能力;(4)掌握非傳統(tǒng)型數(shù)據(jù)庫工具的能力,如Vertica及MongoDB等;(5)掌握自然語言處理的能力;數(shù)據(jù)科學(xué)家還應(yīng)該具備良好的與同事、客戶溝通的技巧和合作的精神和能力[9]。
人人游戲高級數(shù)據(jù)科學(xué)家陳弢認(rèn)為數(shù)據(jù)科學(xué)家除了具備科學(xué)家的基本素養(yǎng)和技術(shù)能力之外,在理念上的突破顯得更為重要。因為很多數(shù)據(jù)科學(xué)家都具有深厚的統(tǒng)計學(xué)背景,而統(tǒng)計學(xué)的目標(biāo)是從各種類型的數(shù)據(jù)中提取有價值的信息,但不強(qiáng)調(diào)對事物的洞察力和深度的知識。所以,如何實現(xiàn)從固有的統(tǒng)計思維到數(shù)據(jù)思維的突破是一大挑戰(zhàn)[8]。
綜上所述,數(shù)據(jù)科學(xué)家是高端復(fù)合型的人才,融數(shù)據(jù)分析家、科學(xué)家、物理學(xué)家、藝術(shù)家的基本素質(zhì)于一身。其具備的能力主要體現(xiàn)在以下幾個方面:(1)科學(xué)家的基本素質(zhì):好奇、創(chuàng)新性、客觀、誠實、嚴(yán)謹(jǐn);(2)掌握數(shù)據(jù)科學(xué)領(lǐng)域的各種技術(shù)能力;(3)一定的溝通、合作和管理能力。具體見表2[2]。
2 ? ?國外高校數(shù)據(jù)科學(xué)碩士課程設(shè)置情況分析
隨著大數(shù)據(jù)的應(yīng)用和研究的興起,為更好地滿足社會需求,2009年后,世界許多著名大學(xué)都設(shè)置了數(shù)據(jù)科學(xué)專業(yè)碩士學(xué)位課程,其目標(biāo)是培養(yǎng)具備像數(shù)據(jù)科學(xué)家一樣的基本素質(zhì)和能力的復(fù)合型人才。根據(jù)EMC的調(diào)查顯示,目前數(shù)據(jù)科學(xué)比商業(yè)智能在學(xué)位教育中尤其在研究生和博士學(xué)位教育中所含的比例越來越高。由此可見,數(shù)據(jù)科學(xué)家的培養(yǎng)在高等教育中的地位越來越高(見圖1[10])。
目前,世界各國名校的數(shù)據(jù)科學(xué)研究生課程設(shè)置具有以下特點:(1)數(shù)據(jù)科學(xué)專業(yè)碩士的培養(yǎng)機(jī)構(gòu)主要由高校計算機(jī)科學(xué)學(xué)院或信息科學(xué)的學(xué)院承擔(dān);(2)授課方式分為網(wǎng)絡(luò)授課和在校授課兩種方式;(3)授課內(nèi)容除了增加大數(shù)據(jù)、云計算等方面的內(nèi)容,有的學(xué)校增加了管理學(xué)方面的課程,如企業(yè)管理、金融管理等,但核心課程主要圍繞數(shù)據(jù)技術(shù)方面展開。同時,還有些高校,如鄧迪大學(xué)、圣徒彼得大學(xué)還開設(shè)了學(xué)生實踐課,讓學(xué)生參與大數(shù)據(jù)領(lǐng)域的項目,培養(yǎng)學(xué)生的實踐能力(見表3)。
除了采用實地授課的方式外,在美國的紐約市立大學(xué)專業(yè)進(jìn)修學(xué)院、艾姆赫斯特學(xué)院、美國西北大學(xué)等高校為數(shù)據(jù)科學(xué)專業(yè)碩士的培養(yǎng)還開設(shè)了網(wǎng)絡(luò)課程(見表4)。
另外,還有一些大學(xué),例如美國的約翰霍普金斯大學(xué)、斯坦福大學(xué)開設(shè)了數(shù)據(jù)科學(xué)的網(wǎng)上免費課程,采用視頻和網(wǎng)絡(luò)交流的方式學(xué)習(xí),學(xué)生通過考核可以獲得約翰霍普金斯大學(xué)、斯坦福大學(xué)頒發(fā)的所學(xué)數(shù)據(jù)科學(xué)相關(guān)課程的證書(見圖2[11])。
3 ? ? 我國高校數(shù)據(jù)科學(xué)碩士課程設(shè)置情況分析
隨著大數(shù)據(jù)理念和技術(shù)的深入發(fā)展,為滿足數(shù)據(jù)科學(xué)家人才的需求,我國一些高校以所在的信息學(xué)院、計算機(jī)學(xué)院和研究生院為主,采用大學(xué)+政府+企業(yè)聯(lián)合培養(yǎng)的模式,開設(shè)了與數(shù)據(jù)科學(xué)相關(guān)的專業(yè)碩士課程。
最早開始我國數(shù)據(jù)科學(xué)碩士培養(yǎng)的高校是北京航空航天大學(xué),于2013年設(shè)立了數(shù)據(jù)科學(xué)專業(yè)碩士課程。2014年,清華大學(xué)宣布成立數(shù)據(jù)科學(xué)研究院,并推出多學(xué)科交叉培養(yǎng)的大數(shù)據(jù)碩士項目。同年,中國科學(xué)院大學(xué)研究生院與中國科技服務(wù)企業(yè)文思海輝和IBM三方聯(lián)合開設(shè)大數(shù)據(jù)研究生班(見表5)。
從課程設(shè)置來說,我國的數(shù)據(jù)科學(xué)專業(yè)碩士的培養(yǎng)重點也放在技術(shù)能力的培養(yǎng)上,例如,北京航空航天大學(xué)數(shù)據(jù)科學(xué)專業(yè)碩士課程分為專業(yè)核心課程、專業(yè)基礎(chǔ)課程和學(xué)位基礎(chǔ)課程,課程上除開設(shè)大數(shù)據(jù)技術(shù)方面的內(nèi)容外,還融入了數(shù)學(xué)、統(tǒng)計方面的教學(xué)內(nèi)容,但對管理學(xué)方面的內(nèi)容卻甚少涉及(見圖3[13])。
總體來講,我國高校非常重視數(shù)據(jù)科學(xué)人才復(fù)合型特點的培養(yǎng),在課程教學(xué)方面,將理論和實踐緊密結(jié)合,加強(qiáng)與企業(yè)的緊密合作,有些采取聯(lián)合辦學(xué)的方式,這為數(shù)據(jù)科學(xué)人才的培養(yǎng)提供了重要的實踐場所,但還需要進(jìn)一步增強(qiáng)管理和專業(yè)方面的課程內(nèi)容。
4 ? ?完善我國高校數(shù)據(jù)科學(xué)碩士課程設(shè)置的 ? ? ? 策略
1)加強(qiáng)高校+政府+企業(yè)數(shù)據(jù)科學(xué)人才的培養(yǎng)模式。政府、大學(xué)、企業(yè)合作,是培養(yǎng)大數(shù)據(jù)人才的重要途徑。因為在大數(shù)據(jù)理論和技術(shù)研究領(lǐng)域,大學(xué)具有一定的優(yōu)勢,但是大學(xué)不生產(chǎn)大數(shù)據(jù),政府和企業(yè)的大數(shù)據(jù)為人才培養(yǎng)提供了重要的實踐場所。比較而言,雖然我國高校數(shù)據(jù)科學(xué)碩士培養(yǎng)建立較晚,但是在數(shù)據(jù)人才的培養(yǎng)上,依托所在高校的綜合力量聯(lián)合辦學(xué),加強(qiáng)與企業(yè)與政府的合作成為我國數(shù)據(jù)科學(xué)人才培養(yǎng)的重要特點。但目前我國只有為數(shù)不多的學(xué)校開設(shè)數(shù)據(jù)科學(xué)相關(guān)的學(xué)位課程,很難滿足當(dāng)前數(shù)據(jù)人才的需求,這就需要更多的高校加強(qiáng)數(shù)據(jù)科學(xué)專業(yè)方面的學(xué)科建設(shè),與企業(yè)、政府緊密合作,不斷提升我國數(shù)據(jù)科學(xué)人才在理論和實踐方面的培養(yǎng)水平。
2)建立專業(yè)+大數(shù)據(jù)人才的培養(yǎng)方向。目前我國數(shù)據(jù)科學(xué)課程設(shè)置多注重大數(shù)據(jù)技術(shù)應(yīng)用課程,融入專業(yè)內(nèi)容較少。數(shù)據(jù)科學(xué)家不僅需要懂技術(shù),還需要懂專業(yè)和管理。因此,未來高校能否具備培養(yǎng)專業(yè)大數(shù)據(jù)人才的條件和能力將更具挑戰(zhàn)。
2014年,美國政府就如何充分利用生物醫(yī)學(xué)大數(shù)據(jù)而啟動Big Data to Knowledge計劃,這是繼2012年美國國家大數(shù)據(jù)計劃實施后新一輪面向生物大數(shù)據(jù)的基礎(chǔ)研究計劃[13]。為此,美國設(shè)立專門的生物大數(shù)據(jù)人才培養(yǎng)計劃和專業(yè)。我國的生物大數(shù)據(jù)技術(shù)發(fā)展和應(yīng)用還處于起步階段,人才缺乏是重要的制約因素。生物大數(shù)據(jù)人才需要既懂生物專業(yè)又要懂大數(shù)據(jù)技術(shù)方面的人才,目前我國大數(shù)據(jù)人才培養(yǎng)的專業(yè)設(shè)置狀況很難滿足這方面的需求。因此,高校需要承擔(dān)起這方面的使命,專業(yè)+大數(shù)據(jù)人才的培養(yǎng)才能更好地應(yīng)對我國眾多專業(yè)領(lǐng)域數(shù)據(jù)的利用和挖掘方面的需求。
3)建立線下+線上+免費的多樣化授課方式。目前我國高校數(shù)據(jù)科學(xué)專業(yè)碩士的培養(yǎng)主要以線下課堂教學(xué)為主,形式比較單一。在大數(shù)據(jù)時代,充分利用現(xiàn)代信息技術(shù),豐富授課的方式和內(nèi)容是未來教學(xué)的趨勢,當(dāng)下興起的慕課通過平臺發(fā)布和分享全球各大高校課程的教學(xué)內(nèi)容就是很好的說明。例如在Coursera慕課平臺可以搜索到大量的數(shù)據(jù)科學(xué)課程資源,學(xué)生可以在不同的大學(xué)享受全球最優(yōu)秀的課程資源,并通過學(xué)習(xí)和相應(yīng)的考核獲得課程的學(xué)習(xí)證書(見表6[14])。
在數(shù)據(jù)科學(xué)領(lǐng)域,慕課平臺上英文的課程資源比較豐富,中文的課程比較缺乏。這就需要我國高校通過網(wǎng)絡(luò)技術(shù)不斷加強(qiáng)和豐富數(shù)據(jù)科學(xué)線上和網(wǎng)絡(luò)課程內(nèi)容,增加授課方式和內(nèi)容的靈活度,更好地普及大數(shù)據(jù)的知識,提高學(xué)生數(shù)據(jù)利用方面的素養(yǎng)。
參考文獻(xiàn)
[1]Frank L.What is Data Science?What is analytics? What is a data scientist?[EB/OL].(2014-07-25)[2014-09-23].https://datajobs.com/what-is-data-science.
[2]Damian R M.What Is Data Science Anyway? [EB/OL].(2014-07-26)[2014-9-23].http://www.linkedin.com/today/post/article/20140416153636-24302729-what-is-data-science-anyway.
[3]James M,Michael C,Brad B.Big Data:the Next Frontier for Innovation,Competition and Productivity[R].Mckinsey Global Institute,2011:1-156.
[4]保羅索爾曼.數(shù)據(jù)科學(xué)家炙手可熱[N/OL].(2013-04-02)[2014-09-23].http://www.ftchinese.com/story/001049735.
[5]哈佛商業(yè)評論.數(shù)據(jù)科學(xué)家,21 世紀(jì)最性感的職業(yè)[J].21 世紀(jì)商業(yè)評論,2012,(10):2.
[6]IBM.what is a data scientist[EB/OL].[2014-09-23].http://www-01.ibm.com/software/data/infosphere/data-scientist/.
[7]Mike L.what is data science? [EB/OL].(2010-06-02][2014-09-23].http://radar.oreilly.com/2010/06/what-is-data-science.html.
[8]賽迪網(wǎng).揭密數(shù)據(jù)科學(xué)家[EB/OL].(2013-10-21)[2014-09-23]. http://tech.cnr.cn/techgd/201310/t20131021_513890666.shtml.
[9]Chris W.The Data Science Revolution[EB/OL].[2014-09-23].http://www.mathaware.org/mam/2012/pdfs/DataScienceRevolution.pdf.
[10]EMC2.Career of the Future: Data Scientist Study Results Infographic[EB/OL].[2014-09-23].http://www.emc.com/microsites/bigdata/infographic.htm.
[11]Paul M.The Johns Hopkins Data Science Specialization[EB/OL].[2014-09-23]. http://jhudatascience.org/.
[12]2013年北航大數(shù)據(jù)碩士高端班9月招生簡章[EB/OL].[2014-09-23].http://bigdata.beihangsoft.cn/news.asp?id=77.
[13]李勤.生物大數(shù)據(jù)“行路難”[N/OL].(2014-08-12)[2014-09-23].http://www.cas.cn/xw/cmsm/201408/t20140812_4183586.shtml.
[14]Coursera慕課網(wǎng)站[EB/OL].[2014-09-23].https://www.coursera.org/#courses?search=data science.