譚紅葉,李 茹,呂國英
(山西大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006)
目前,數(shù)據(jù)已成為與自然資源、人力資源一樣重要的戰(zhàn)略資源[1]。要想有效組織、使用并發(fā)現(xiàn)數(shù)據(jù)中隱含的巨大價值,必須擁有數(shù)據(jù)科學(xué)與工程專業(yè)人才。但由于國內(nèi)外高校開展數(shù)據(jù)科學(xué)與工程人才培養(yǎng)的時間不長,技術(shù)市場上掌握大數(shù)據(jù)處理和應(yīng)用開發(fā)技術(shù)的人才十分短缺。因此,高校需要與時俱進(jìn),面向新時代新挑戰(zhàn),為國家和社會培養(yǎng)出足夠的優(yōu)秀的數(shù)據(jù)人才。
數(shù)據(jù)科學(xué)通常指利用科學(xué)的方法、過程和系統(tǒng)從結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中抽象出有效知識并加以應(yīng)用的學(xué)科;數(shù)據(jù)工程是指利用工程的觀點進(jìn)行數(shù)據(jù)管理和分析以及開展系統(tǒng)的研發(fā)和應(yīng)用[2]。國際上認(rèn)可的數(shù)據(jù)科學(xué)過程為:首先提出與數(shù)據(jù)相關(guān)的問題,即基于數(shù)據(jù)想要預(yù)測、估計或發(fā)現(xiàn)什么;然后獲取數(shù)據(jù),即數(shù)據(jù)采集與清洗、存儲與管理;然后分析挖掘數(shù)據(jù),即探究數(shù)據(jù)中是否存在規(guī)律性或反常的東西;最后對數(shù)據(jù)建模,并進(jìn)行模型驗證,驗證從數(shù)據(jù)中學(xué)到的東西是否正確或有意義。這個過程與計算機(jī)科學(xué)緊密相關(guān),每個環(huán)節(jié)相互作用相互影響,如圖1所示[3]。
隨著數(shù)據(jù)的規(guī)模增大、結(jié)構(gòu)混亂等復(fù)雜因素的出現(xiàn),過去能解、易解的問題變成了不可解或不可表示的問題;數(shù)據(jù)的存儲、軟件系統(tǒng)與計算模型的設(shè)計與實現(xiàn)也遇到了各種困難和挑戰(zhàn)。傳統(tǒng)的計算機(jī)科學(xué)要從關(guān)注科學(xué)計算、商業(yè)計算轉(zhuǎn)變?yōu)殛P(guān)注利用數(shù)據(jù)科學(xué)與工程理論與方法進(jìn)行的大數(shù)據(jù)計算,這就要求高校必須要培養(yǎng)具有數(shù)據(jù)科學(xué)與工程相關(guān)能力的計算機(jī)專業(yè)人才,以契合新時代下國家重大行業(yè)和地方產(chǎn)業(yè)的需求。但傳統(tǒng)的計算機(jī)科學(xué)專業(yè)人才培養(yǎng)方案缺乏數(shù)據(jù)人才所需具備的數(shù)據(jù)思維與數(shù)據(jù)采集、存儲與管理、分析與挖掘、可視化與應(yīng)用的覆蓋數(shù)據(jù)科學(xué)完整過程的一系列理論知識和實踐能力的培養(yǎng)與訓(xùn)練。因此,現(xiàn)行的計算機(jī)專業(yè)教學(xué)體系在完成數(shù)據(jù)科學(xué)與工程相關(guān)能力的培養(yǎng)上,無論教學(xué)內(nèi)容還是教學(xué)方式均有待優(yōu)化和改革。
圖1 數(shù)據(jù)科學(xué)過程示意圖
構(gòu)建數(shù)據(jù)科學(xué)與工程特色鮮明的計算機(jī)科學(xué)與技術(shù)人才培養(yǎng)方案的改革思路為:圍繞數(shù)據(jù)科學(xué)與工程獨特的學(xué)科基礎(chǔ)和內(nèi)涵,優(yōu)化計算機(jī)科學(xué)與技術(shù)課程體系;結(jié)合學(xué)院高水平學(xué)科平臺,系統(tǒng)構(gòu)建“數(shù)據(jù)科學(xué)與工程課程群”;依托協(xié)同創(chuàng)新中心與創(chuàng)新團(tuán)隊,探索多種人才培養(yǎng)模式。
從思維與意識、知識、能力、技能等方面確定具有優(yōu)良數(shù)據(jù)科學(xué)與工程素養(yǎng)的計算機(jī)科學(xué)與技術(shù)人才的培養(yǎng)目標(biāo):①思維與意識:培養(yǎng)學(xué)生的數(shù)據(jù)思維,樹立學(xué)生從抽象的數(shù)據(jù)中提取價值和解釋數(shù)據(jù)的意識。②知識:培養(yǎng)學(xué)生掌握能支持在數(shù)據(jù)科學(xué)領(lǐng)域與計算機(jī)科學(xué)領(lǐng)域進(jìn)行探索創(chuàng)新所需的算法設(shè)計與實現(xiàn)、數(shù)據(jù)分析與挖掘等的專業(yè)基礎(chǔ)知識。③能力:培養(yǎng)學(xué)生能夠從數(shù)據(jù)工程師的角度分析問題,并具備采用一定策略進(jìn)行數(shù)據(jù)收集、存儲與管理、分析與挖掘、呈現(xiàn)與應(yīng)用的能力;具備從程序員的角度分析問題及采用一定策略進(jìn)行算法設(shè)計與實現(xiàn)解決問題的能力,并具有計算機(jī)軟硬件系統(tǒng)的全局認(rèn)識和基本的計算機(jī)系統(tǒng)設(shè)計能力;具備自我探索學(xué)習(xí)與凝練問題的能力。④技能:培養(yǎng)學(xué)生能熟練使用Java等語言及其開發(fā)環(huán)境實現(xiàn)可以正確運行的程序;較為熟練地掌握和使用通用數(shù)據(jù)科學(xué)工具與平臺。
高水平學(xué)科平臺不僅是科研創(chuàng)新的引擎,同時也是教學(xué)創(chuàng)新的輸出源頭。近年來,山西大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院努力構(gòu)建了以下學(xué)科平臺。
(1)攀升計劃與學(xué)位點。山西大學(xué)有計算機(jī)科學(xué)與技術(shù)一級學(xué)科博士學(xué)位點及博士后科研流動站,其計算機(jī)學(xué)科被評為“山西省高等學(xué)校優(yōu)勢學(xué)科攀升計劃項目”,而且,該學(xué)科還是山西省2012年設(shè)立的首批特色重點學(xué)科。
(2)重點實驗室。學(xué)院擁有“計算智能與中文信息處理實驗室”教育部重點實驗室、“智能信息處理實驗室”山西省重點實驗室、智能信息處理山西省院士工作站。
(3)創(chuàng)新基地。2013年,山西大學(xué)計算機(jī)學(xué)科牽頭的“面向信息化的大數(shù)據(jù)分析與處理協(xié)同創(chuàng)新基地”通過山西省教育廳評審,列入首批培育建設(shè)項目;2015年該基地被山西省教育廳評審認(rèn)定為“大數(shù)據(jù)挖掘與智能技術(shù)山西省協(xié)同創(chuàng)新中心”。
(4)實驗平臺。圍繞科學(xué)研究與教學(xué)的實驗環(huán)境,本學(xué)科在教育部重點實驗室、山西省重點實驗室著力建設(shè)了兩個大型實驗儀器平臺:①教育部重點實驗室高性能計算平臺,該實驗平臺可提供Windows 2008 HPC(1個管理節(jié)點,25個計算節(jié)點,1個文件服務(wù)器,全千兆網(wǎng)絡(luò)互聯(lián))、Linux HPC(1個管理結(jié)點,18個計算節(jié)點,1個1T存儲,全千兆網(wǎng)絡(luò)互聯(lián))和遠(yuǎn)程虛擬計算機(jī)(4顆6核CPU/2.0G,256G內(nèi)存)3種系統(tǒng)環(huán)境的計算資源,為用戶提供單機(jī)多CPU和多核計算資源服務(wù)。②山西省重點實驗室大數(shù)據(jù)管理與計算平臺,該實驗平臺可提供Redhat Linux系統(tǒng)環(huán)境的計算資源(1個管理節(jié)點,43個普通計算節(jié)點(2顆6核CPU/2.1G,48G內(nèi)存),2個大內(nèi)存計算節(jié)點(2顆6核CPU/2.1G,512G內(nèi)存),全千兆網(wǎng)絡(luò)互聯(lián)),為用戶提供集群式大數(shù)據(jù)計算服務(wù)。
(5)創(chuàng)新團(tuán)隊。學(xué)院建成了山西省教育廳“智能信息處理”科技創(chuàng)新團(tuán)隊、山西省科技廳“智能信息處理”首批科技創(chuàng)新重點團(tuán)隊、山西省高等學(xué)?!皬?fù)雜系統(tǒng)”優(yōu)秀創(chuàng)新團(tuán)隊、山西省“傳染病傳播及防控”科技創(chuàng)新培育團(tuán)隊4個創(chuàng)新團(tuán)隊。
學(xué)校依托這些學(xué)科平臺,主動應(yīng)對新挑戰(zhàn),以培養(yǎng)數(shù)據(jù)科學(xué)與工程特色的計算機(jī)科學(xué)與技術(shù)人才為目標(biāo),優(yōu)化傳統(tǒng)的計算機(jī)科學(xué)與技術(shù)專業(yè)課程體系,以特色研究型課程為抓手,系統(tǒng)建設(shè)了“數(shù)據(jù)分析與挖掘課程群”,拓展了多種培養(yǎng)模式,把人才培養(yǎng)融入到學(xué)科建設(shè)、科學(xué)研究、協(xié)同創(chuàng)新、社會服務(wù)中。
參照文獻(xiàn)[4-7],圍繞數(shù)據(jù)科學(xué)過程,基于以下原則對計算機(jī)專業(yè)的課程體系進(jìn)行了優(yōu)化。
原則1:突出數(shù)據(jù)科學(xué)基礎(chǔ)理論教學(xué)。在加強(qiáng)概率論、數(shù)理統(tǒng)計教學(xué)的同時,將數(shù)據(jù)科學(xué)導(dǎo)論、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、信息檢索、自然語言處理等課程作為重要的專業(yè)必修課或選修課進(jìn)行講授。
原則2:裁剪傳統(tǒng)的計算機(jī)類課程,強(qiáng)化數(shù)據(jù)科學(xué)相關(guān)部分。在高級語言程序設(shè)計、操作系統(tǒng)、數(shù)字邏輯、計算機(jī)組成原理、計算機(jī)系統(tǒng)結(jié)構(gòu)等課程中弱化傳統(tǒng)材料的講授,引入計算機(jī)科學(xué)在數(shù)據(jù)分析領(lǐng)域的最新應(yīng)用與進(jìn)展,如引入數(shù)據(jù)科學(xué)領(lǐng)域流行的Python與R語言,引導(dǎo)學(xué)生掌握泛型編程語言,彌補(bǔ)教材與時代脫節(jié)的不足。
原則3:強(qiáng)調(diào)覆蓋數(shù)據(jù)科學(xué)完整過程。開設(shè)數(shù)據(jù)采集技術(shù)、多源數(shù)據(jù)融合、大數(shù)據(jù)開源架構(gòu)與平臺、數(shù)據(jù)可視化等課程,力求覆蓋數(shù)據(jù)采集與處理、存儲與管理、分析與挖掘、呈現(xiàn)與應(yīng)用等數(shù)據(jù)科學(xué)的核心環(huán)節(jié)。
課程體系如圖2所示,主要包括以下幾個論域。
論域1:概率與數(shù)理統(tǒng)計,該論域主要引導(dǎo)學(xué)生理解概率與數(shù)理統(tǒng)計的核心概念和理論,掌握處理隨機(jī)現(xiàn)象與數(shù)理統(tǒng)計的基本思想和方法,培養(yǎng)學(xué)生運用概率與數(shù)理統(tǒng)計方法分析和解決實際問題的能力。
論域2:數(shù)據(jù)準(zhǔn)備,該論域主要引導(dǎo)學(xué)生理解和掌握如何根據(jù)數(shù)據(jù)分析目標(biāo)并在保證用戶體驗的情況下對數(shù)據(jù)進(jìn)行采集與處理、存儲與管理的基本理論與方法。
論域3:計算機(jī)基礎(chǔ)與數(shù)據(jù)科學(xué)平臺,該論域主要引導(dǎo)學(xué)生掌握數(shù)據(jù)分析所需要的算法設(shè)計、程序?qū)崿F(xiàn)、數(shù)據(jù)庫等理論和方法,能夠根據(jù)具體應(yīng)用搭建計算環(huán)境和平臺,并進(jìn)行有效的算法實現(xiàn)。
論域4:數(shù)據(jù)挖掘與可視化,該論域主要引導(dǎo)學(xué)生理解數(shù)據(jù)分析挖掘的基本理論和方法,利用相應(yīng)算法、模型及工具進(jìn)行數(shù)據(jù)分析,并可以設(shè)計合適的圖表來正確傳達(dá)數(shù)據(jù)內(nèi)涵。
論域5:數(shù)據(jù)的行業(yè)應(yīng)用,該論域主要引導(dǎo)學(xué)生結(jié)合特定領(lǐng)域業(yè)務(wù)問題和現(xiàn)狀,通過數(shù)據(jù)模型的建立、分析與驗證獲得可行的行業(yè)數(shù)據(jù)解決方案。
上述論域涵蓋了用計算機(jī)進(jìn)行數(shù)據(jù)分析所需的數(shù)學(xué)基礎(chǔ)和計算機(jī)基礎(chǔ),分析數(shù)據(jù)需要構(gòu)建的數(shù)據(jù)科學(xué)平臺,獲得滿足數(shù)據(jù)分析目標(biāo)的數(shù)據(jù)的方法,進(jìn)行數(shù)據(jù)分析的建模方法,包含場景、關(guān)系、交互、模式等方式的解釋數(shù)據(jù)的設(shè)計與實現(xiàn),建模進(jìn)行預(yù)測等數(shù)據(jù)科學(xué)與工程專業(yè)人員所關(guān)注的核心問題。具體教學(xué)進(jìn)一步將人才培養(yǎng)落實到“算法設(shè)計與實現(xiàn)能力”與“數(shù)據(jù)分析與挖掘能力”的培養(yǎng)上,因此,學(xué)生完成該課程體系的4年學(xué)習(xí)之后,可以達(dá)到具有優(yōu)良數(shù)據(jù)科學(xué)與工程素養(yǎng)的計算機(jī)科學(xué)與技術(shù)人才的培養(yǎng)目標(biāo)。
山西大學(xué)借助“計算機(jī)科學(xué)與技術(shù)一級學(xué)科博士點”及“計算智能與中文信息處理教育部重點實驗室”,以優(yōu)勢學(xué)科和科研創(chuàng)新為特色,為高年級本科生設(shè)立數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、文本信息處理、人工智能、信息檢索等特色研究型課程。
圖2 數(shù)據(jù)科學(xué)與工程特色的計算機(jī)科學(xué)與技術(shù)專業(yè)課程體系示意圖
在這些課程中,教師將最新的科研成果、方法與理念轉(zhuǎn)化為教學(xué)內(nèi)容,突出一系列數(shù)據(jù)分析、知識獲取的理論、方法與模型的講授與訓(xùn)練,以學(xué)生為主體,采用靈活的教學(xué)方式,使學(xué)生通過這些課程的學(xué)習(xí)提升探索研究的興趣。這些課程都是數(shù)據(jù)科學(xué)與工程學(xué)科體系中重要的理論基礎(chǔ)課程,是數(shù)據(jù)人才培養(yǎng)的關(guān)鍵。學(xué)院通過開設(shè)這些課程,積累了數(shù)據(jù)科學(xué)與方向課程的授課經(jīng)驗,打造了一支高素質(zhì)的智能信息處理教學(xué)團(tuán)隊,為系統(tǒng)實施數(shù)據(jù)科學(xué)與工程課程體系奠定了基礎(chǔ)。
1)與國內(nèi)企業(yè)合作,創(chuàng)建校企協(xié)同培養(yǎng)模式。
山西大學(xué)依托“大數(shù)據(jù)挖掘與智能技術(shù)山西省協(xié)同創(chuàng)新中心”,與山西省多家煤基產(chǎn)業(yè)大型國企和骨干軟件企業(yè)組成核心協(xié)同單位。學(xué)校積極構(gòu)建校企協(xié)同培養(yǎng)新模式,邀請企業(yè)研發(fā)工程師為學(xué)生講授相關(guān)高級課程,突出行業(yè)背景、問題分析與建模、技術(shù)創(chuàng)新等環(huán)節(jié)的教學(xué),將學(xué)生所學(xué)基礎(chǔ)理論和方法與應(yīng)用聯(lián)系起來,為學(xué)生提供與企業(yè)合作解決技術(shù)難題的機(jī)會。同時,與合作單位推出企業(yè)實習(xí)項目、畢業(yè)設(shè)計項目,讓學(xué)生嘗試為企業(yè)提供技術(shù)支持,提升自己解決行業(yè)問題的能力與未來實際工作的能力。
2)與國際知名學(xué)者聯(lián)手,探索國內(nèi)外協(xié)同培養(yǎng)模式。
學(xué)校的協(xié)同創(chuàng)新中心還與在數(shù)據(jù)挖掘領(lǐng)域處于國際領(lǐng)先地位的加拿大Regina大學(xué)組成核心協(xié)同單位,這為開展國際學(xué)術(shù)交流與合作提供了渠道。學(xué)校探索了暑期學(xué)校、暑期課程等協(xié)同培養(yǎng)新模式,邀請國外有影響力的教授(如Regina大學(xué)的姚一豫教授每年暑假定期來學(xué)校授課、團(tuán)隊研討、項目咨詢)為學(xué)生講授相關(guān)高級課程,同時,推出國際交換學(xué)習(xí)項目,開闊學(xué)生的學(xué)術(shù)視野,培養(yǎng)學(xué)生的學(xué)術(shù)研究與創(chuàng)新意識。
3)結(jié)合科研訓(xùn)練與學(xué)科競賽,深化問題驅(qū)動式培養(yǎng)模式。
除了傳統(tǒng)的專業(yè)課程實驗、綜合課程設(shè)計、系統(tǒng)畢業(yè)設(shè)計之外,教學(xué)團(tuán)隊還引入大學(xué)生創(chuàng)新性實驗、科研訓(xùn)練項目與學(xué)科競賽活動,學(xué)生根據(jù)自己的特點與興趣選擇合適的項目。在項目實現(xiàn)過程中,老師重點培養(yǎng)學(xué)生發(fā)現(xiàn)問題、解決問題的能力,學(xué)生通過與老師定期互動、系統(tǒng)學(xué)習(xí)相關(guān)領(lǐng)域知識、閱讀重要文獻(xiàn)、小組研討等方式,完成問題提出、模型設(shè)計、技術(shù)實現(xiàn)和論文撰寫等一系列科研工作,得到一整套發(fā)現(xiàn)問題、解決問題的能力訓(xùn)練和提升,增強(qiáng)實踐動手能力,強(qiáng)化批判性和創(chuàng)造性思維與意識。
在數(shù)據(jù)成為重要戰(zhàn)略資源的年代,專業(yè)的數(shù)據(jù)人才培養(yǎng)具有重大意義。目前提出的具有數(shù)據(jù)科學(xué)與工程特色的計算機(jī)科學(xué)與技術(shù)專業(yè)人才培養(yǎng)模式的相應(yīng)改革還在進(jìn)行中,取得的效果還需進(jìn)一步驗證和分析,相信這種思路和方法對其他大學(xué)實施數(shù)據(jù)人才培養(yǎng)的改革能夠產(chǎn)生積極影響,同時也能夠為我國高等教育面向大數(shù)據(jù)時代的轉(zhuǎn)向提供新思路。
[1]李國杰. 大數(shù)據(jù)(Big Data)科學(xué)問題研究[EB/OL]. (2015-10-03)[2017-08-09]. http://www.360doc.com/content/15/1003/19/275 24068_503084390.shtml.
[2]周傲英, 錢衛(wèi)寧, 王長波. 數(shù)據(jù)科學(xué)與工程: 大數(shù)據(jù)時代的新興交叉學(xué)科[J]. 大數(shù)據(jù), 2015(2): 90-99.
[3]Venturi D. 如何自學(xué)數(shù)據(jù)科學(xué)?這21個課程能幫你入門數(shù)據(jù)科學(xué)過程[EB/OL]. (2017-01-30)[2017-08-09]. http://www.sohu.com/a/125282481_465975.
[4]陳振沖, 賀田田.數(shù)據(jù)科學(xué)人才的需求與培養(yǎng)[J]. 大數(shù)據(jù), 2016(5): 95-106.
[5]徐昊, 秦玥, 黃嵐. 面向通識教育的數(shù)據(jù)科學(xué)課程建設(shè)[J]. 計算機(jī)教育, 2016(8): 158-162.
[6]陸楓. 面向大數(shù)據(jù)時代的計算機(jī)系統(tǒng)能力培養(yǎng)改革與實踐[J]. 計算機(jī)教育, 2017(3): 33-36.
[7]許嘉, 呂品. 哈佛大學(xué)數(shù)據(jù)科學(xué)課程教學(xué)初探[J]. 教育探索, 2015(15): 109-110.