何少芳,周 麗,李緒孟,楊玉蟾,吳自然
(湖南農(nóng)業(yè)大學(xué)信息與智能科學(xué)技術(shù)學(xué)院,湖南 長沙 410128)
大數(shù)據(jù)時代背景下,運用大數(shù)據(jù)科學(xué)技術(shù)從海量的、各種各樣的數(shù)據(jù)源中采集有用的數(shù)據(jù)信息,并進(jìn)行數(shù)據(jù)的預(yù)處理(包括數(shù)據(jù)探索和清洗)、分析與建模并展示,已經(jīng)被廣泛應(yīng)用于各個學(xué)科領(lǐng)域中。隨著數(shù)據(jù)信息在現(xiàn)代生活和社會發(fā)展中展現(xiàn)出愈發(fā)重要的作用,數(shù)據(jù)分析能力也逐漸成為大數(shù)據(jù)時代對新型人才提出的新要求[1]。因此,在人才培養(yǎng)中,著重加強數(shù)據(jù)綜合分析與應(yīng)用能力尤為重要。統(tǒng)計學(xué)已深入醫(yī)學(xué)、社會學(xué)和管理學(xué)等眾多研究領(lǐng)域,成為數(shù)據(jù)分析中不可或缺的手段,而具有數(shù)據(jù)分析思維和行業(yè)數(shù)據(jù)分析能力的統(tǒng)計學(xué)專業(yè)人才在各行各業(yè)中均發(fā)揮著重要的作用[2]。統(tǒng)計學(xué)可以分為理論統(tǒng)計學(xué)(數(shù)理統(tǒng)計學(xué))和應(yīng)用統(tǒng)計學(xué),相對于理論統(tǒng)計學(xué)側(cè)重于理論研究,應(yīng)用統(tǒng)計學(xué)以具體問題為研究對象,著重強調(diào)統(tǒng)計方法論的實際應(yīng)用,通過對研究對象的定性分析和統(tǒng)計學(xué)領(lǐng)域的定量研究得到有價值的結(jié)論[3]。與快速發(fā)展的大數(shù)據(jù)分析技術(shù)相比,統(tǒng)計學(xué)本科專業(yè)實踐課程的改革相對較慢,如何結(jié)合高等院校自身學(xué)科的特點和優(yōu)勢,凝練出既能滿足社會需要又具有自身特色的統(tǒng)計學(xué)專業(yè)培養(yǎng)方向,是一個值得探究的問題。具體的,通過統(tǒng)計學(xué)專業(yè)相關(guān)實踐課程教學(xué)改革[4-5](如“大數(shù)據(jù)分析綜合實踐”課程、“統(tǒng)計學(xué)實踐”課程[6]和“時間序列分析實踐”課程[7]等),實現(xiàn)由理論統(tǒng)計學(xué)向應(yīng)用統(tǒng)計學(xué)的成功轉(zhuǎn)變,這是一件非常有意義的工作。
應(yīng)用統(tǒng)計學(xué)人才的培養(yǎng)目標(biāo)是:培養(yǎng)具有良好的數(shù)學(xué)和計算機基礎(chǔ),掌握特定領(lǐng)域的基礎(chǔ)知識和統(tǒng)計學(xué)的基本理論、方法和技術(shù),能理論聯(lián)系實際,利用統(tǒng)計學(xué)專業(yè)知識解決該領(lǐng)域具體問題的人才[8]?!按髷?shù)據(jù)分析綜合實踐”是統(tǒng)計學(xué)專業(yè)的重要實踐課程之一,一般安排在第六學(xué)期,共40課時。該課程的教學(xué)目標(biāo)與人才培養(yǎng)目標(biāo)一致,旨在利用良好的數(shù)學(xué)基礎(chǔ)、Python或R語言以及多元統(tǒng)計分析、應(yīng)用回歸分析和時間序列分析等理論方法,對具體問題建模并進(jìn)行數(shù)據(jù)處理與分析。它是對統(tǒng)計學(xué)相關(guān)知識融會貫通并綜合運用到實際問題中的實踐類課程。大數(shù)據(jù)分析現(xiàn)有的教學(xué)研究主要集中于實踐平臺建設(shè)[9]和數(shù)據(jù)分析課程教學(xué)資源與教學(xué)改革[10]等。本文結(jié)合本校統(tǒng)計學(xué)專業(yè)學(xué)生的具體情況,先對“大數(shù)據(jù)分析綜合實踐”課程教學(xué)的必要性進(jìn)行說明,然后對實踐教學(xué)內(nèi)容與框架進(jìn)行設(shè)計,最后結(jié)合源自文獻(xiàn)的實踐項目給出教學(xué)案例分析。
為統(tǒng)計學(xué)專業(yè)學(xué)生開設(shè)的“大數(shù)據(jù)分析綜合實踐”課程旨在運用統(tǒng)計學(xué)的基本理論、方法和技術(shù)解決具體問題。與該門實踐課程密切相關(guān)的先修課程主要有“高等數(shù)學(xué)”“概率論與數(shù)理統(tǒng)計”“統(tǒng)計學(xué)”“多元統(tǒng)計分析”“應(yīng)用回歸分析”“時間序列分析”“大數(shù)據(jù)處理與分析”?!岸嘣y(tǒng)計分析”[11]中的主成分分析、因子分析、聚類分析、判別分析、典型相關(guān)分析,“應(yīng)用回歸分析”[12]中的經(jīng)典線性回歸、廣義線性模型、縱向數(shù)據(jù)(分層模型)、回歸與分類方法(決策樹、bagging、隨機森林、人工神經(jīng)網(wǎng)絡(luò)、支持向量機、k最近鄰方法)、生存分析和Cox模型以及“時間序列分析”中處理時間序列的典型方法和模型等,都為大數(shù)據(jù)分析綜合實踐中用到的機器學(xué)習(xí)算法提供了豐富的理論基礎(chǔ)。
當(dāng)前,“大數(shù)據(jù)分析綜合實踐”的實踐項目一般從大學(xué)生統(tǒng)計建模競賽、大學(xué)生數(shù)學(xué)建模競賽、大數(shù)據(jù)競賽平臺DataFountain[13]的歷屆賽題以及已出版的文獻(xiàn)中選擇,因而,在實踐教學(xué)過程中沒有標(biāo)準(zhǔn)的實踐項目指導(dǎo)教材。從另一方面來說,該門課程學(xué)習(xí)目標(biāo)明確,完全遵從問題驅(qū)動或者數(shù)據(jù)驅(qū)動模式,即從問題或數(shù)據(jù)出發(fā),除了會靈活運用統(tǒng)計學(xué)專業(yè)知識外,還得需要什么就臨時學(xué)習(xí)什么,由此獲得更多的知識和自主學(xué)習(xí)的能力。
在“大數(shù)據(jù)分析綜合實踐”教學(xué)過程中,學(xué)生的學(xué)習(xí)和實踐情況不僅能有效反映該學(xué)生對統(tǒng)計學(xué)基本知識與方法的掌握情況,還能體現(xiàn)學(xué)生融會貫通、綜合運用知識解決實際問題的能力。通過該課程的學(xué)習(xí),不僅能加深學(xué)生對統(tǒng)計學(xué)相關(guān)理論知識的理解,還能深化學(xué)生的實踐意識,促使學(xué)生選擇適當(dāng)?shù)哪P团c方法分析問題和數(shù)據(jù),并利用統(tǒng)計學(xué)軟件或Python語言對各種數(shù)據(jù)進(jìn)行處理與建模分析,進(jìn)而獲得有價值的結(jié)論。換句話說,該門課程既能使學(xué)生分析問題和處理數(shù)據(jù)的能力得到有效提升,還能培養(yǎng)學(xué)生科學(xué)創(chuàng)新的能力,為順利完成第四學(xué)年的大學(xué)生畢業(yè)論文保駕護(hù)航。學(xué)習(xí)能力較強且實踐項目完成得較好的學(xué)生可以通過查閱相關(guān)參考文獻(xiàn),對項目中涉及的模型或方法進(jìn)一步拓展或改進(jìn),將項目內(nèi)容完善成一篇優(yōu)秀的本科畢業(yè)論文。
結(jié)合人才培養(yǎng)方案中統(tǒng)計專業(yè)學(xué)生開設(shè)的課程內(nèi)容,“大數(shù)據(jù)分析綜合實踐”教學(xué)框架的構(gòu)建最大限度地利用先修課程知識和現(xiàn)有的實驗室條件。以大數(shù)據(jù)分析技術(shù)與統(tǒng)計學(xué)知識完美結(jié)合為依托,達(dá)到提升統(tǒng)計學(xué)專業(yè)學(xué)生的統(tǒng)計學(xué)運用能力的目的。該課程的實踐項目一般來源于大學(xué)生統(tǒng)計建模大賽、大學(xué)生數(shù)學(xué)建模競賽、大數(shù)據(jù)競賽平臺的賽題和已出版的文獻(xiàn)。本文以統(tǒng)計學(xué)專業(yè)已完成的實踐教學(xué)活動為基礎(chǔ),構(gòu)建教學(xué)框架如下。
考慮到課時有限,教學(xué)內(nèi)容僅包括5個實踐項目,其中,前4個來源于大數(shù)據(jù)競賽平臺DataFountain,第五個來自已出版的文獻(xiàn),項目信息如表1所示。項目任務(wù)既有回歸也有分類,前3個項目屬于分類問題,后面2個是回歸問題。項目涉及的知識點主要有數(shù)據(jù)預(yù)處理、特征工程、類別不均衡處理、回歸與分類模型、集成學(xué)習(xí)、模型評估分析以及可視化等。值得注意的是,所涉及的知識點中有部分是以前未學(xué)過的,如用戶畫像、RFM模型、海洋漂流軌跡建模、車輛碰撞狀態(tài)建模和SHAP模型,它們都需要在實踐過程中即學(xué)即用。實踐項目中包含少部分未學(xué)知識,旨在拓寬學(xué)生的大數(shù)據(jù)思維,讓其深刻體會“掌握特定領(lǐng)域的基礎(chǔ)知識和統(tǒng)計學(xué)的基本理論、方法和技術(shù),理論聯(lián)系實際,利用統(tǒng)計學(xué)專業(yè)知識和大數(shù)據(jù)分析技術(shù)解決該領(lǐng)域的具體問題”。
表1 實踐項目信息
實踐項目內(nèi)容的一般框架是數(shù)據(jù)預(yù)處理、特征工程、模型預(yù)測、模型評估分析以及分析與決策,而可視化貫穿其中,利用圖形繪制的方式對數(shù)據(jù)處理與分析結(jié)果進(jìn)行展示。以基于隨機森林算法實現(xiàn)電信用戶流失預(yù)測任務(wù)為例,框架如圖1所示,數(shù)據(jù)集提供了7 043條用戶樣本,每條樣本包含21列屬性,數(shù)據(jù)預(yù)處理需要做的工作是異常值處理和缺失值處理;考慮到屬性較多,先對特征進(jìn)行可視化分析,如流失客戶占比,基本特征對客戶流失的影響、業(yè)務(wù)特征對客戶流失影響和合約特征對流失客戶的影響等,再進(jìn)入特征工程(特征選擇和特征提取);模型預(yù)測中涉及類別不平衡問題處理和交叉驗證調(diào)參;模型評估分析采用精確率、召回率和F1值評價模型性能。
圖1 電信用戶流失預(yù)測項目框架
本文以源自文獻(xiàn)“基于XGBoost的在線短租市場價格預(yù)測及特征分析模型”[14]的實踐項目為例進(jìn)行實踐教學(xué)案例分析。
目前,針對房產(chǎn)相關(guān)的研究主要集中在價格預(yù)測模型和影響因素分析方面。文獻(xiàn)[14]選取美國洛杉磯2020年最新的Airbnb數(shù)據(jù)集(含37 048條樣本、105個屬性特征)為研究對象,提出一種基于XGBoost的在線短租市場價格預(yù)測及特征分析模型,建模流程[14]如圖2所示。它在對原始數(shù)據(jù)實施特征工程和特征選擇后,基于XGBoost模型建立了在線短租場景下的價格預(yù)測模型,通過與多個已有價格預(yù)測模型在性能指標(biāo)上對比來驗證模型的性能,并采用SHAP值對模型中價格的影響因素進(jìn)行分析。利用SHAP模型解釋結(jié)果,分析影響價格的因素,以增強模型的可解釋性,為房東定價和服務(wù)提升提供決策參考。該文獻(xiàn)完整呈現(xiàn)了大數(shù)據(jù)分析綜合實踐內(nèi)容框架中的各個要素。通過學(xué)習(xí)該文獻(xiàn)并進(jìn)行項目的實踐操作,學(xué)生不僅能掌握大數(shù)據(jù)分析的常用方法和技術(shù),切身體會如何運用所學(xué)知識解決實際問題,還能學(xué)習(xí)論文寫作方法和技巧,為畢業(yè)論文寫作打下堅實的基礎(chǔ)。
圖2 XGBoost建模流程
項目實踐教學(xué)流程依據(jù)文獻(xiàn)內(nèi)容布局而定,主要包括價格預(yù)測問題的國內(nèi)外研究現(xiàn)狀的了解、模型與方法的學(xué)習(xí)、特征工程、模型優(yōu)化和評估以及基于SHAP模型解釋分析的編程實現(xiàn)。模型與方法的學(xué)習(xí)主要有XGBoost、LightGBM、ExtraTrees、AdaBoost、GBR和SHAP模型。編程部分在Python語言集成環(huán)境平臺(如Anaconda、PyCharm)上實現(xiàn),其中,特征工程需要實現(xiàn)數(shù)據(jù)異常值及目標(biāo)變量處理、缺失值處理及獨熱編碼、Lasso特征選擇,并將部分處理結(jié)果可視化,包括房源價格分布直方圖、部分特征變量與目標(biāo)變量熱力圖、數(shù)據(jù)缺失情況柱狀圖和Lasso特征選擇的特征重要度直方圖;模型優(yōu)化采用交叉驗證和網(wǎng)格搜索實現(xiàn)超參數(shù)調(diào)優(yōu),而模型收斂情況則通過可視化XGBoost與各分類模型的學(xué)習(xí)曲線來分析;模型性能采取與同類工作以及其他主流機器學(xué)習(xí)模型對比的方式來評估;模型解釋用可視化SHAP特征分析摘要和SHAP特征依賴關(guān)系來說明。
“大數(shù)據(jù)分析綜合實踐”的教學(xué)效果主要通過學(xué)生在實踐過程中的學(xué)習(xí)情況和項目內(nèi)容的完成情況來檢驗。學(xué)生在每個項目中獲得的成績根據(jù)該項目各個部分內(nèi)容的實際完成情況來綜合評定,對于學(xué)習(xí)能力強、動手能力強以及有創(chuàng)新意識學(xué)生將給予更高的成績。學(xué)生的總成績由所有實踐項目成績加權(quán)平均獲得,權(quán)重因子依據(jù)每個項目的難易程度確定。
大數(shù)據(jù)背景下,將統(tǒng)計學(xué)專業(yè)知識與大數(shù)據(jù)分析技術(shù)相結(jié)合,培養(yǎng)具有數(shù)據(jù)分析思維和行業(yè)數(shù)據(jù)分析能力的統(tǒng)計學(xué)專業(yè)人才,有利于優(yōu)化統(tǒng)計學(xué)專業(yè)人才培養(yǎng)方案。實踐課程教學(xué)在統(tǒng)計學(xué)專業(yè)教學(xué)中具有重要的地位,通過專業(yè)課程實踐培養(yǎng)學(xué)生的專業(yè)技能、實際動手能力和創(chuàng)新思維。本文以統(tǒng)計學(xué)專業(yè)的“大數(shù)據(jù)分析綜合實踐”課程為研究對象,從課程實質(zhì)、教學(xué)現(xiàn)狀和課程作用3個方面對“大數(shù)據(jù)分析綜合實踐”課程教學(xué)的必要性進(jìn)行闡述;對實踐項目內(nèi)容和教學(xué)框架進(jìn)行設(shè)計,并以來自文獻(xiàn)“基于XGBoost的在線短租市場價格預(yù)測及特征分析模型”的實踐項目為例進(jìn)行詳細(xì)的實踐教學(xué)案例分析。統(tǒng)計學(xué)專業(yè)2018級學(xué)生已完成該課程學(xué)習(xí),由教學(xué)效果檢驗可知,這屆學(xué)生在統(tǒng)計學(xué)基礎(chǔ)知識和大數(shù)據(jù)處理與分析能力等方面都有較大提升。