呂瓊帥 楊雨 鞏躍洪 褚龍現(xiàn) 高敬禮
摘? 要:數(shù)據(jù)挖掘課程是大數(shù)據(jù)和人工智能方向重要的核心課程,主要培養(yǎng)學生在數(shù)據(jù)驅(qū)動的范式下結(jié)合問題場景和社會需求,具備利用數(shù)據(jù)挖掘方法和技術(shù)分析、解決實際問題的能力。針對數(shù)據(jù)挖掘課程教學過程中存在的“痛點”問題,以培養(yǎng)工程型創(chuàng)新性人才為導向,從課程內(nèi)容體系、學科競賽體系和課程隊伍體系三個維度,探索并構(gòu)建基于“教賽協(xié)同”的數(shù)據(jù)挖掘課程教學改革的策略和方法,為地方高等院校大數(shù)據(jù)和人工智能相關(guān)專業(yè)的發(fā)展提供思路。
關(guān)鍵詞:教學改革;教賽協(xié)同;數(shù)據(jù)挖掘;課程內(nèi)容;競賽體系;課程隊伍
中圖分類號:G642? ? ? ? 文獻標志碼:A? ? ? ? ? 文章編號:2096-000X(2024)10-0136-04
Abstract: Data Mining is an important core course in the direction of big data and artificial intelligence, and this course mainly trains students to combine problem scenarios and social needs under the data-driven paradigm, and have the ability to use data mining methods and techniques to analyze and solve practical problems. In response to the "pain points" in the teaching process of data mining courses, to cultivate innovative talents with engineering skills, this article explores and constructs strategies and methods for teaching reform of data mining courses based on "teaching and competition collaboration" from three dimensions: curriculum content system, discipline competition system, and curriculum team system. This provides ideas for the development of big data and artificial intelligence-related majors in local universities.
Keywords: teaching reform; teaching and competition collaboration; data mining; course content; competition system; course team
2023年3月22日,由中國高等教育學會競賽評估與管理體系研究專家工作組發(fā)布的《2022全國普通高校大學生競賽分析報告》[1]中,與數(shù)據(jù)挖掘相關(guān)的比賽達到了將近20項,約占總比賽數(shù)量的25%。與其他學科競賽相比,數(shù)據(jù)挖掘相關(guān)的學科競賽對知識的廣度和深度的要求更為具體,更加側(cè)重新問題、新技術(shù)和新應(yīng)用的引入,培養(yǎng)和塑造工程創(chuàng)新型人才導向的育人特征更加突出。為使教學與競賽相輔相成,在制定數(shù)據(jù)挖掘課程的大綱時,可以對照學科競賽涉及的知識分布歸納總結(jié)出該課程的培養(yǎng)目標與課程要求,使課程大綱與工程教育認證的目標更加契合,能夠?qū)Ξ厴I(yè)要求進行較好的支撐;反過來,也可以將課程內(nèi)容與知識點延伸到競賽的題目中,進一步加深學生對所學知識的理解和應(yīng)用。因此,基于“教賽協(xié)同”的數(shù)據(jù)挖掘課程的教學改革探索與實踐對于推動實踐育人工作的深入,培養(yǎng)具有數(shù)據(jù)思維的應(yīng)用型人才具有重要的意義。
一? 教學現(xiàn)狀
數(shù)據(jù)挖掘課程是一門多學科交叉課程,不僅涉及概率統(tǒng)計、數(shù)值優(yōu)化、機器學習等理論較強的知識,也涉及數(shù)據(jù)采集、數(shù)據(jù)預處理、構(gòu)建模型和模型評價等實踐較強的技術(shù),具有非常強的實用性,在醫(yī)療、教育、金融、氣象和軍工等多個領(lǐng)域均有實際應(yīng)用[2]??紤]到數(shù)據(jù)挖掘課程的特點以及與其他學科的交叉融合,課題組通過實踐教學與文獻調(diào)研[3-6],歸納總結(jié)了數(shù)據(jù)挖掘課程教學過程中存在的主要問題。
(一)? 課程內(nèi)容涉及廣、理論深
完整的數(shù)據(jù)挖掘課程內(nèi)容應(yīng)涉及到數(shù)據(jù)獲取、分析和建模等各個環(huán)節(jié),可細分為數(shù)據(jù)質(zhì)量分析、數(shù)據(jù)特征工程、數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約、數(shù)據(jù)集成、挖掘建模、模型優(yōu)化和模型發(fā)布等。此外,在這些內(nèi)容中,尤其是挖掘建模部分涉及到的分類模型、預測模型、聚類模型、關(guān)聯(lián)規(guī)則模型和時序模型等又涉及到較深的數(shù)學理論知識。這些因素不但增加了教學的難度,也容易使學生產(chǎn)生畏難的情緒。
(二)? 實驗數(shù)據(jù)量少,數(shù)據(jù)簡單
數(shù)據(jù)是數(shù)據(jù)挖掘課程實驗的關(guān)鍵。當前,數(shù)據(jù)挖掘課程主要采用的數(shù)據(jù)都是公共的數(shù)據(jù)資源,例如:加州大學歐文分校開放的UCI(University Of California, Irvine)。公共的數(shù)據(jù)資源一般數(shù)據(jù)量較小,而且是比較“干凈”的數(shù)據(jù),稍作處理后就可以直接導入模型中進行分析。這樣獲取的數(shù)據(jù)直接省去了數(shù)據(jù)探索、數(shù)據(jù)預處理等環(huán)節(jié)涉及到的技術(shù)與方法,無法讓學生了解到數(shù)據(jù)挖掘的完整過程,會讓學生誤以為學習數(shù)據(jù)挖掘就是在學習模型的使用。殊不知,構(gòu)建模型之前的一系列數(shù)據(jù)處理工作要占到整個工作量的60%[2]。
(三)? 教材內(nèi)容過于同質(zhì)化,且文字表述不易理解
數(shù)據(jù)挖掘課程的教材種類繁多,有外文翻譯過來的教材,也有國內(nèi)學者自己編寫的教材。整體上內(nèi)容過于同質(zhì)化,有些翻譯的教材文字表述生澀難懂,邏輯性欠佳。而且一些教材對原理的介紹過于偏重,缺少具有針對性的實例,使學生讀起來云里霧里,不知所云。這導致學生逐漸失去了閱讀教材的興趣,也無法通過課下自學逐漸理清數(shù)據(jù)挖掘的整個知識脈絡(luò)。
(四)? 課程考核形式單一,缺少過程監(jiān)督
試卷、期末大作業(yè)和課程設(shè)計是主要的課程考核形式。試卷側(cè)重于考察概念性的知識,缺少對學生解決問題能力的考察;期末大作業(yè)和課程設(shè)計雖然可以較為全面地反映學生對知識的掌握情況,但過程的監(jiān)控和指導不易操作。此外,這些課程考核結(jié)果都帶有任課老師一定的主觀判斷,缺少第三方較為客觀的評價。
上述問題既是課題組在以往講授數(shù)據(jù)挖掘課程的教學過程中遇到的突出問題,也是文獻調(diào)研過程中提到具有共性的問題。針對這些問題,在工程教育專業(yè)認證的背景下,課題組進行了基于“教賽協(xié)同”的數(shù)據(jù)挖掘課程教學改革探索。
二? “教賽協(xié)同”的數(shù)據(jù)挖掘課程改革與探索
結(jié)合教學過程中的經(jīng)歷與感悟,將具體的教學改革與實施方案進行了總結(jié),主要分為“教賽協(xié)同”的課程內(nèi)容體系構(gòu)建,“教賽協(xié)同”的學科競賽體系構(gòu)建和“教賽協(xié)同”的課程團隊體系構(gòu)建。
(一)? “教賽協(xié)同”的課程內(nèi)容體系構(gòu)建
“教賽協(xié)同”的數(shù)據(jù)挖掘課程教學體系的構(gòu)建側(cè)重于“教”,并以競賽為導向進行教學實踐。這里的“教”主要針對緩解數(shù)據(jù)挖掘課程內(nèi)容涉及廣,理論深和教材內(nèi)容理論多、案例少的問題。由于與數(shù)據(jù)挖掘相關(guān)的競賽題目多出自于大型的互聯(lián)網(wǎng)公司及著名的科研機構(gòu),在很大程度上可以反映當前大數(shù)據(jù)方向應(yīng)用的熱點和研究方向[7]。課程團隊在對中國人工智能大賽、阿里巴巴天池大數(shù)據(jù)競賽、百度飛槳和Kaggle等大數(shù)據(jù)競賽進行調(diào)研的基礎(chǔ)上,構(gòu)建出適用于本專業(yè)方向的競賽池,并以此為切入點,依據(jù)應(yīng)用方向和研究熱點構(gòu)建數(shù)據(jù)挖掘的課程內(nèi)容,如圖1所示。
在以競賽為導向開展教學實踐時,教師從競賽池中選取具有代表性的題目,將競賽的真實案例拆解為不同的知識模塊,通過教學環(huán)節(jié)的有效聯(lián)動將各個知識點無縫地串聯(lián)起來。課程團隊在現(xiàn)有數(shù)據(jù)挖掘課程教學大綱的基礎(chǔ)上,依據(jù)側(cè)重點不同將數(shù)據(jù)挖掘任務(wù)的過程分為四個模塊,見表1。下面以Kaggle競賽中共享單車需求預測為例,從數(shù)據(jù)探索、數(shù)據(jù)預處理、挖掘建模和模型優(yōu)化與評價四個部分歸納梳理教學內(nèi)容的安排與設(shè)計。
在城鎮(zhèn)化進程中,為解決共享單車的供需失衡問題,Kaggle平臺中的Bike sharing demand競賽提供了10 886組數(shù)據(jù),每組數(shù)據(jù)包含datetime,season,holiday等12個特征,最終目標是預測未來特定時間和地點共享單車的需求量。按照知識模塊的劃分,從數(shù)據(jù)探索、數(shù)據(jù)預處理、挖掘建模和模型優(yōu)化與評價四個方面簡要介紹教學內(nèi)容設(shè)計的思路。
1? 數(shù)據(jù)探索
這個階段的主要工作是驗證數(shù)據(jù)質(zhì)量、數(shù)據(jù)可視化和特征工程,通過對數(shù)據(jù)集的結(jié)構(gòu)和規(guī)律進行分析,從而形成較為全面的數(shù)據(jù)質(zhì)量報告。數(shù)據(jù)質(zhì)量分析[8]主要是檢查數(shù)據(jù)中是否存在“臟”數(shù)據(jù),即:異常值,缺失值,特殊符號等;數(shù)據(jù)可視化是數(shù)據(jù)規(guī)律及分布的一種更直觀的呈現(xiàn)形式;特征工程獲取數(shù)據(jù)的統(tǒng)計特征及屬性間的相關(guān)性,直接影響到模型的性能。教師引導學生通過數(shù)據(jù)質(zhì)量分析判斷數(shù)據(jù)集是否滿足模型構(gòu)建的需求,選擇合適的可視化工具了解數(shù)據(jù)規(guī)律及分布,熟悉特征工程的方法選取數(shù)據(jù)集中的關(guān)鍵屬性。以共享單車需求預測為例,將count屬性中不符合3?滓原則的點標記為離群點進行刪除,以消除后面對統(tǒng)計推斷和模型構(gòu)建的干擾,通過相關(guān)性分析,可以得到氣溫、風速和濕度與組車數(shù)量的關(guān)系。
2? 數(shù)據(jù)預處理
這個階段的主要任務(wù)是經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)集成和屬性規(guī)約等相關(guān)工作后讓數(shù)據(jù)更好地適配特定挖掘模型及算法。教師指導學生通過數(shù)據(jù)清洗,篩選掉與挖掘任務(wù)無關(guān)的數(shù)據(jù),噪聲數(shù)據(jù)和重復數(shù)據(jù),根據(jù)問題場景利用數(shù)據(jù)集成將分散在不同數(shù)據(jù)源或?qū)傩灾械臄?shù)據(jù)經(jīng)過轉(zhuǎn)換、提煉后集成在一起,并選用合適的數(shù)據(jù)規(guī)約方法構(gòu)造出較小且具有代表性的數(shù)據(jù)以縮減后續(xù)挖掘所需的時間,降低存儲成本。在共享單車需求預測的問題中,通過對datetime屬性的變化與提煉,獲取到“年”“月”“日”“小時”等更易處理的細粒度的信息,更有益于后續(xù)模型對單車需求時間規(guī)律的分析。
3? 模型構(gòu)建
通過數(shù)據(jù)探索與預處理,獲取到了可以直接建模的數(shù)據(jù),依據(jù)不同的問題場景和數(shù)據(jù)形式,可以選擇分類、預測、聚類、關(guān)聯(lián)和時序等模型。就共享單車需求問題來講,該問題是一個回歸預測問題,常用的方法包括支持向量機回歸模型、隨機森林、XGBoost和GBDT等。教師可以引導學生結(jié)合前期處理過的數(shù)據(jù),嘗試用多種不同模型對數(shù)據(jù)進行挖掘,在此過程中講解模型參數(shù)的作用及設(shè)置技巧,以幫助學生積累更多的模型選用經(jīng)驗。
4? 模型優(yōu)化與評價
模型的優(yōu)化是學生在掌握了不同模型的優(yōu)缺點之后,教師啟發(fā)學生從提升模型性能與泛化能力的角度對現(xiàn)有的解決方案進行改進與升級。結(jié)合單車共享需求預測問題,可以引導學生從參數(shù)調(diào)優(yōu),優(yōu)化策略的角度考慮模型改進方案。為了評價改進后方案的優(yōu)劣,學生可以從模型預測的準確率方面與基礎(chǔ)模型進行對比。此外,也可以將模型或結(jié)果提交到競賽網(wǎng)站上進行評分和排名,通過參與競賽社區(qū)的討論,可以發(fā)現(xiàn)更多優(yōu)秀的模型改進策略與技巧,既增強了靈活運用知識的能力,也拓展了與數(shù)據(jù)挖掘課程內(nèi)容相關(guān)的前沿知識。
上述教學內(nèi)容構(gòu)建的方式,一方面,可以依托競賽提供的真實數(shù)據(jù)進行教學內(nèi)容的設(shè)計,以期通過真實的案例,實現(xiàn)知識點或模塊的重組。同時,可以將競賽中用到的新技術(shù)整合到教學內(nèi)容中,使教學內(nèi)容一直緊跟技術(shù)前沿。另一方面,可以依托競賽的敏捷性和持續(xù)性,鞏固教學內(nèi)容和拓展新的教學案例,將課堂教學內(nèi)容和實驗內(nèi)容與競賽內(nèi)容進行有機銜接。因此,以競賽為導向的數(shù)據(jù)挖掘課程教學體系的構(gòu)建,可以在一定程度上解決數(shù)據(jù)挖掘課程內(nèi)容涉及廣,理論深和教材內(nèi)容理論多、案例少的問題。
(二)? “教賽協(xié)同”的學科競賽體系構(gòu)建
“教賽協(xié)同”的數(shù)據(jù)挖掘競賽體系的構(gòu)建側(cè)重于賽,并以教學為依托實現(xiàn)以教代培、以教促賽。為了緩解數(shù)據(jù)挖掘課程實驗數(shù)據(jù)量少,數(shù)據(jù)簡單和課程考核形式單一,缺少過程監(jiān)督的問題,競賽體系的構(gòu)建既可以擴充課程實驗案例,又可以實現(xiàn)對學生的過程監(jiān)督。競賽體系的構(gòu)建以競賽池為基礎(chǔ)從教學的角度分為基礎(chǔ)部分和強化部分,如圖2所示。
基礎(chǔ)部分包含招募成員、競賽流程、基礎(chǔ)競賽題目和文獻查閱方法等內(nèi)容,作用是推廣競賽、引導學生入門、招募成員和激發(fā)學生興趣。學生可以根據(jù)個人志趣和能力,針對遇到的問題以組為單位構(gòu)建團隊、查閱資料、檢索文獻,形成規(guī)范性的文檔總結(jié),初步積累競賽經(jīng)驗。同時,為保證學生參與競賽的可持續(xù)性,不但要注意團隊成員能力分配上的布局,以避免打擊學生參與競賽的積極性,而且還要使團隊成員年級構(gòu)成上呈現(xiàn)階梯分布,以防止老隊員退役后出現(xiàn)斷層現(xiàn)象。此外,以團隊為主按照學期制定合理的任務(wù)目標,可以加速數(shù)據(jù)挖掘技術(shù)在團隊成員中傳承。
強化部分主要通過教師對競賽題目的逆向拆解來幫助學生理解數(shù)據(jù)挖掘課程中涉及到的特征工程和構(gòu)建模型算法,作用是教師將問題的解決方案拆解為知識模塊以方便學生理清知識脈絡(luò)。通過強化部分的培訓,可以使學生接觸到不同應(yīng)用場景的真實數(shù)據(jù)與案例,讓學生感受到數(shù)據(jù)挖掘的各個關(guān)節(jié)的知識點是如何在具體問題中應(yīng)用的,教師可以根據(jù)學生設(shè)計的解決方案、競賽排名和完成題目的數(shù)量實現(xiàn)對學生的過程監(jiān)督。教師還要緊跟學術(shù)前沿[9],加強與企業(yè)間的溝通與合作,并將最新的技術(shù)與方案整合到強化部分的培訓中,以最大限度地完善與更新培訓內(nèi)容。
總之,“教賽協(xié)同”的課程競賽體系構(gòu)建不但有助于學生了解數(shù)據(jù)挖掘過程中的各個環(huán)節(jié)、應(yīng)用前沿和研究熱點,還可以驗證現(xiàn)有解決方案的優(yōu)劣并激發(fā)學生對方法進行改進、創(chuàng)新的熱情。
(三)? “教賽協(xié)同”的課程團隊體系構(gòu)建
“教賽協(xié)同”的數(shù)據(jù)挖掘課程團隊體系構(gòu)建(圖3),一方面,以比賽為契機,增強教師隊伍的教育教學能力,打造結(jié)構(gòu)化、層次化的數(shù)據(jù)挖掘教學團隊;另一方面,以比賽為抓手,鍛煉學生隊伍,培養(yǎng)數(shù)據(jù)思維,增強學生團隊的協(xié)作能力、團隊榮譽感和歸屬感。
在課程體系和競賽體系的框架下,首先,綜合考慮職稱、學歷及競賽經(jīng)驗等因素,組織與數(shù)據(jù)挖掘課程相關(guān)的教師,構(gòu)建數(shù)據(jù)挖掘課程的教學團隊,一方面,教學團隊應(yīng)幫助學生降低競賽內(nèi)容的高階性,幫助學生梳理競賽的知識要點,提升解決復雜應(yīng)用場景問題的能力;另一方面,還應(yīng)讓學生感受到數(shù)據(jù)挖掘課程內(nèi)容所具有的挑戰(zhàn)性,對于一些重要的知識點讓學生“跳一跳”“蹦一蹦”才能夠得著[10]。其次,通過組織團隊活動、營造良好的團隊文化和獎懲機制,調(diào)動學生及團隊的積極性。在團隊活動中,賦予學生自主權(quán),采用學生組織討論,教師積極參與的模式,讓學生自行設(shè)定相關(guān)知識模塊選題的組會。通過學生查閱和收集與數(shù)據(jù)挖掘前沿技術(shù)發(fā)展相關(guān)的技術(shù)報告和視頻,可以幫助學生團隊形成創(chuàng)新、團結(jié)、實干、共享的團隊文化。同時,制定合理的獎懲機制,打通課程考核與競賽成績的置換通道,為學生團隊的發(fā)展提供制度保障。最后,鼓勵教師團隊與學生團隊之間的資源共享和互促共進。利用教師團隊學識優(yōu)勢與技術(shù)優(yōu)勢,將課程資源和競賽資源充分與學生共享,并組織學生團隊協(xié)助教師團隊將競賽資源轉(zhuǎn)化為數(shù)據(jù)挖掘課程的教學資源和教學場景。利用學生團隊的創(chuàng)新優(yōu)勢與組織優(yōu)勢,啟發(fā)學生將已掌握的知識遷移到更多的與數(shù)據(jù)挖掘應(yīng)用相關(guān)的應(yīng)用場景中,通過教師的點撥和參與,既可以提升學生團隊的自主創(chuàng)新意識,也激發(fā)了教師團隊的教學熱情。
通過“教賽協(xié)同”的數(shù)據(jù)挖掘課程團隊體系的構(gòu)建,可以有效推進課程教學改革的進度,保證教學改革的效果,提升創(chuàng)新型工程人才的培養(yǎng)質(zhì)量。
三? 結(jié)束語
秉承工程教育認證的培養(yǎng)目標,踐行創(chuàng)新型工程人才的教學理念,實施“教賽協(xié)同”的數(shù)據(jù)挖掘課程教學改革,進行以競賽為導向的教學實踐,并以教學為依托實現(xiàn)以教代培、以教促賽,同時以競賽為契機,鍛造優(yōu)秀的數(shù)據(jù)挖掘課程教學團隊。通過“教賽協(xié)同”的數(shù)據(jù)挖掘課程教學改革的實施,本課程團隊已初步完成了教學模塊及內(nèi)容的重構(gòu),教學案例及資源的積累和教學團隊的整合。學生參與競賽的熱情高漲,部分學生及團隊已獲得多項競賽榮譽,申請了軟件著作權(quán),撰寫了大數(shù)據(jù)相關(guān)的論文準備發(fā)表。當然,隨著數(shù)據(jù)挖掘技術(shù)的更新迭代及應(yīng)用場景的不斷復雜化,培養(yǎng)高素質(zhì)的創(chuàng)新型工程應(yīng)用人才需要長期堅持不懈的探索與實踐,以培養(yǎng)出更多適合社會需求的應(yīng)用技術(shù)型人才。
參考文獻:
[1] 《2022全國普通高校大學生競賽分析報告》發(fā)布[EB/OL]. (2023-03-21).https://cahe.edu.cn/site/content/16010.html.
[2] 杜欣然,楊厚群,符發(fā).學科競賽驅(qū)動的數(shù)據(jù)挖掘人才培養(yǎng)模式探索[J].計算機教育,2022(4):201-206.
[3] 劉波,蔡燕斯,鐘少丹.大數(shù)據(jù)背景下數(shù)據(jù)挖掘課程實踐教學的探索[J].高教學刊,2019(18):124-125,128.
[4] 姚力,朱龍飛,崔晨.大數(shù)據(jù)時代數(shù)據(jù)科學課程建設(shè)與人才培養(yǎng)的探索[J].計算機時代,2018(11):87-90,93.
[5] 丁毅濤.大數(shù)據(jù)時代下的數(shù)據(jù)挖掘課程改革探索[J].科技風,2021(27):27-29.
[6] 康雁,林英,朱燕萍,等.基于SE-CDIO的數(shù)據(jù)挖掘課程教學改革[J].云南大學學報(自然科學版),2020,42(S1):54-57.
[7] 大數(shù)據(jù)系統(tǒng)軟件國家工程實驗室,和鯨科技.數(shù)據(jù)競賽白皮書·上篇[EB/OL].(2020-01-16).https://blog.heywhale.com/shu-ju-jin g-sai/.
[8] 張良均,譚立云,劉名軍,等.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機械工業(yè)出版社,2019.
[9] 趙旭俊,蔡江輝,馬洋,等.大數(shù)據(jù)科研成果支撐教學研究——以《數(shù)據(jù)挖掘與智能決策》為例[J].高教學刊,2020(27):93-96.
[10] 吳巖.建設(shè)中國“金課”[J].中國大學教學,2018(12):4-9.