互聯(lián)網(wǎng)的普及已經(jīng)產(chǎn)生了一個大數(shù)據(jù)的時代,人們的方方面面都產(chǎn)生了大量的網(wǎng)絡數(shù)據(jù)信息,大數(shù)據(jù)時代的數(shù)據(jù)量更大、結構更復雜,因而從大數(shù)據(jù)中挖掘有價值的信息資源具有重要意義。大數(shù)據(jù)人才要求具備數(shù)學、計算機、統(tǒng)計學的綜合知識。本文主要從人才素質(zhì)的培養(yǎng)、知識結構的形成、課程設置的調(diào)整以及應用型人才的培養(yǎng)四個方面,對大數(shù)據(jù)時代的統(tǒng)計學教育提出了相應的建議。
大數(shù)據(jù)最重要的特征是具有"4V"的特點,即Volume、Velocity、Variety和Veracity:1.數(shù)量大,其數(shù)量已經(jīng)達到了PB級和 ZB級別;2.類型多,數(shù)據(jù)的結構類型多樣,包括網(wǎng)頁、圖片、音頻、視頻等格式的數(shù)據(jù);3.高效。如今數(shù)據(jù)的產(chǎn)生十分迅速,同時也需要高效的數(shù)據(jù)處理迅速對其作出反應,高效、及時、連續(xù)不斷的的數(shù)據(jù)監(jiān)測、處理,可以避免數(shù)據(jù)死角,實現(xiàn)全方位監(jiān)測,提取有價值的信息。4.真實性。真實是數(shù)據(jù)處理的最終目的,大數(shù)據(jù)可以通過適當?shù)慕y(tǒng)計學的研究工具和方法獲得真實的數(shù)據(jù)分析結果,但由于大數(shù)據(jù)的易得性和泛濫性,導致數(shù)據(jù)的信噪比越來越大,數(shù)據(jù)的真實性受到了挑戰(zhàn),所以需要通過新的統(tǒng)計工具和方法降低信噪比。
大數(shù)據(jù)對傳統(tǒng)產(chǎn)業(yè)造成了沖擊,比如傳統(tǒng)的媒體報紙行業(yè)日漸沒落,而互聯(lián)網(wǎng)企業(yè)則發(fā)展迅猛,任何行業(yè)都可以通過做“互聯(lián)網(wǎng)+”得到快速發(fā)展。大數(shù)據(jù)促使信息獲取方式的變革,較大的樣本量也變得極容易收集,數(shù)據(jù)的維度也在不斷的擴張。比如人們在觀看視頻和網(wǎng)絡新聞時表的評論也成為了信息的監(jiān)測的對象,增加數(shù)據(jù)來源的渠道。大數(shù)據(jù)促使信息推送方式也就是廣告的變革,瀏覽器通過追蹤定位記錄用戶瀏覽的信息,廣告商根據(jù)用戶訪問記錄投放更加精準的廣告,從而帶來了一個精準營銷的時代,數(shù)據(jù)是企業(yè)了解市場與自身發(fā)展趨勢的主要依據(jù),但是國內(nèi)由于大數(shù)據(jù)起步較晚,還沒有建立起為大數(shù)據(jù)人才制定的一套獨有的教育模式,而統(tǒng)計學是研究數(shù)據(jù)的學科,因此從統(tǒng)計學入手培養(yǎng)數(shù)據(jù)人才是目前最便捷的教育方式。大數(shù)據(jù)與統(tǒng)計學二者是有緊密聯(lián)系的,體現(xiàn)在對數(shù)據(jù)的處理流程有很多相似之處,都需要做數(shù)據(jù)采集和分析。但二者也有區(qū)別,主要體現(xiàn)在研究目的和技術上。大數(shù)據(jù)的目的是挖掘出商業(yè)投資、金融分析、風險管理和醫(yī)療健康等領域的有價值的信息,涉及的技術有數(shù)據(jù)庫、分布式文件系、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)等。而統(tǒng)計學主要目的是發(fā)現(xiàn)數(shù)據(jù)背后的本質(zhì)和規(guī)律,以概率論、抽樣推斷和相關回歸分析等數(shù)理統(tǒng)計原理為研究方法。因此,如何利用統(tǒng)計學的傳統(tǒng)優(yōu)勢,對統(tǒng)計學教育進行改革,培養(yǎng)大數(shù)據(jù)人才是本文主要探討的內(nèi)容。
大數(shù)據(jù)時代的統(tǒng)計學教育首先需要培養(yǎng)學生的自學能力,因為需要多學科的知識融合。其次,是溝通能力的培養(yǎng)。大數(shù)據(jù)統(tǒng)計工作者在工作中需要經(jīng)常會與各個部門的員工交流溝通,傳達結論給產(chǎn)品經(jīng)理和工程師,共同確立最合適方案,并能將專業(yè)的數(shù)據(jù)分析結果用通俗易懂的語言表達出來,可通過積極的多參加演講活動培養(yǎng)數(shù)據(jù)人才優(yōu)秀的溝通表達能力;最后,需要培養(yǎng)數(shù)據(jù)敏感性,提高其視野和眼界。數(shù)據(jù)科學家經(jīng)常面對各種各樣的海量數(shù)據(jù),并需要從這些數(shù)據(jù)中挖掘出有價值的信息,這就需要數(shù)據(jù)科學家具有強烈的數(shù)據(jù)敏感性。數(shù)據(jù)敏感性是無法一蹴而就的,而是通過長期的數(shù)據(jù)分析工作和閱讀數(shù)據(jù)分析報告的經(jīng)驗積累的。
統(tǒng)計學家是需要具備數(shù)學、統(tǒng)計、計算機知識的綜合型數(shù)據(jù)人才,因此統(tǒng)計學學生不僅要學習統(tǒng)計學理論知識,還要學習計算機和數(shù)學方面的知識。計算機方面,熟練應用計算機軟件是數(shù)據(jù)人才進行數(shù)據(jù)分析的基礎。因此,企業(yè)招聘統(tǒng)計數(shù)據(jù)人才時一般都會要求其至少會使用一種腳本語言,如 Python、PHP等,精通數(shù)據(jù)庫和SQL,會使用R、MATLAB、SAS等分析工具以及可以使用Map Reduce、Hadoop、Hive等計算工具,可用 Hadoop、Pig做大數(shù)據(jù)分析,可以編寫復雜 SQL查詢流程,可以用數(shù)據(jù)庫、統(tǒng)計軟件編寫程序代碼。數(shù)學方面,除了高等數(shù)學、線性代數(shù)、概率論等基礎課程,還應該學習隨機過程論、函數(shù)逼近論、圖論等方面的知識。因為隨著數(shù)據(jù)分析研究問題的深入,所有的統(tǒng)計問題、計算機問題的本質(zhì)都是回歸到數(shù)學問題,只有擁有更加有深度的數(shù)學理論知識,才能滿足大數(shù)據(jù)時代數(shù)據(jù)科學家的需要。
我國目前的統(tǒng)計學研究生教育課程設置更偏向于經(jīng)濟統(tǒng)計方向、數(shù)理統(tǒng)計方向、金融統(tǒng)計與風險管理方向。統(tǒng)計學研究生必修課包括高等概率論、高等數(shù)理統(tǒng)計、回歸分析、多元統(tǒng)計、時間序列分析、探索性數(shù)據(jù)分析、統(tǒng)計調(diào)查和英語、思政等;選修課包括金融統(tǒng)計實務、定性數(shù)據(jù)分析、金融風險管理、投資學、金融計算等。顯然這樣的課程設計缺少計算機方面的課程,但是所有數(shù)據(jù)分析的實現(xiàn)都需要計算機來完成,包括計算機語言、數(shù)據(jù)庫、數(shù)據(jù)結構、數(shù)據(jù)可視化等。其中,數(shù)據(jù)可視化是一項比較新的技術,即用API把圖形、表格、地圖、Dashboard等相關服務有機結合,使分析結果簡單易懂,將數(shù)據(jù)結果與設計結合起來,讓深奧難懂的分析結果以簡單易懂、生動有趣的形式進行圖形化的信息展現(xiàn)。綜上所述,大數(shù)據(jù)時代已經(jīng)到來,我們的課程設置應做出相應的調(diào)整。下面是美國某大學的數(shù)據(jù)分析專業(yè)的主要課程設置,其多元化的課程設計十分具有參考價值。
其在數(shù)據(jù)挖掘方面的課程有聚類、關聯(lián)性規(guī)則、因子分析、存活時間分析、邏輯回歸、非線性回歸、多元統(tǒng)計分析等。在數(shù)據(jù)分析方面的課程有時間軸分析、主成分分析、非參數(shù)回歸、統(tǒng)計流程控制、非結構化數(shù)據(jù)概念的學習、Map Reduce技術、大數(shù)據(jù)分析方法、時間序列分析、概率模型與優(yōu)化、多目的決策分析、決策樹、影響圖、敏感性分析等,在數(shù)據(jù)管理方面的課程有ETL(Extract、Tr ansform、Load)、數(shù)據(jù)治理、管理責任等。在計算機軟件方面的課程有數(shù)據(jù)模型、數(shù)據(jù)庫設計、WEBUI設計、企業(yè)門戶設計實踐、云計算概述、資訊門戶系統(tǒng)數(shù)據(jù)庫建模設計實踐 、Java核心技術、Java Web開發(fā)技術、編譯原理、高級軟件工程等。選修類課程有社交網(wǎng)絡分析、多元統(tǒng)計分許與 R語言建模、流數(shù)據(jù)分析技術、數(shù)據(jù)可視化技術、計算廣告學、商業(yè)智能、大數(shù)據(jù)技術與應用前沿技術講座等。
由此可見,大數(shù)據(jù)時代的數(shù)據(jù)分析工作需要數(shù)學、計算機以及統(tǒng)計學三個學科的緊密結合,通過三個不同的學科進行聯(lián)合培養(yǎng),對原有課程進行調(diào)整,應根據(jù)新時代人才培養(yǎng)的要求,增設新的與大數(shù)據(jù)前沿領域發(fā)展相關的課程,如計算機網(wǎng)絡和大數(shù)據(jù)相關軟件的應用教程,進行不同課程之間的合并重組和統(tǒng)籌安排,在已有課程中提高社會實踐教育課程的比重,引導學生正確認識大數(shù)據(jù)和大數(shù)據(jù)時代,培養(yǎng)其運用大數(shù)據(jù)的相關分析工具解決實際問題的能力,促使其學習更多處理不同數(shù)據(jù)結構的知識,例如圖像處理、視頻處理、自然語言處理、文本處理、語言識別等課程,這些專業(yè)課程可根據(jù)企業(yè)的供需有選擇的學習。
大數(shù)據(jù)時代培養(yǎng)的數(shù)據(jù)人才不僅需要掌握扎實的理論知識和具備基本素養(yǎng),也需要具備實踐應用能力。因此,研究生教育可以建立導師雙軌制,一名校內(nèi)導師一名校外導師,可通過校企合作的方式進行研究生的聯(lián)合培養(yǎng),注重學生的實際操作能力。校內(nèi)導師注重學生的理論性,校外導師注重學生的實踐性,學生通過在校外導師所在的企業(yè)實習,學??梢阅承┢髽I(yè)中建立專業(yè)性教育實踐基地,鼓勵學生到大數(shù)據(jù)相關的企業(yè)中去做相關項目的社會實踐,從而熟悉并且掌握實際工作中所需要的技能,總而言之,雙導師制為大數(shù)據(jù)時代培養(yǎng)應用型數(shù)據(jù)分析提供了一個可供學生接觸大數(shù)據(jù)的平臺。此外,研究方向、培養(yǎng)目標也需要與時俱進,新的研究方向需要被建立,如大數(shù)據(jù)分析、計算廣告學等方向。不同的研究方向應配置不同的培養(yǎng)方案與體系和針對該研究方向的審核方式。與之相同需要與時俱進的是培養(yǎng)目標,大數(shù)據(jù)時代的培養(yǎng)目標并不僅僅是像以前那樣進行數(shù)據(jù)的收集、整理與分析那么簡單,而是要求學生掌握新的研究方法,掌握大數(shù)據(jù)時代數(shù)據(jù)科學家所需要的專業(yè)技術,可以獨立完成數(shù)據(jù)的分析,有價值信息的提取以及成為做出響應決策。
面對大數(shù)據(jù)時代的諸多挑戰(zhàn),培養(yǎng)統(tǒng)計學人才的教育模式也得與時俱進,做出相應變革,推動統(tǒng)計學和數(shù)學、計算機學科的合作,從而為適應大數(shù)據(jù)時代的發(fā)展趨勢培養(yǎng)更加全面、更加專業(yè)的復合型數(shù)據(jù)人才,使得海量數(shù)據(jù)的市場價值不斷被挖掘和實現(xiàn)。綜上所述,統(tǒng)計學教育的改革不是一朝一夕的事情,而是一個不斷發(fā)展和不斷進步的過程,需要多學科的合作,從而更好的應對大數(shù)據(jù)時代的挑戰(zhàn)。
[1]耿直.大數(shù)據(jù)時代統(tǒng)計學面臨的機遇與挑戰(zhàn)[J].統(tǒng)計研究,2014(1):5-9.