楊琳
摘 要:數(shù)據(jù)挖掘技術(shù)是大數(shù)據(jù)相關(guān)專業(yè)的專業(yè)核心課程,其內(nèi)容豐富,涉及知識點(diǎn)多,是一門交叉性很強(qiáng)的學(xué)科,教學(xué)難度大。結(jié)合高職特點(diǎn),本文從該門課程教學(xué)模式及課程設(shè)計兩方面進(jìn)行研究和探索,為數(shù)據(jù)挖掘技術(shù)課程的教學(xué)提供一些參考。
關(guān)鍵詞:數(shù)據(jù)挖掘;PBL;課程設(shè)計;挖掘建模
如今,大數(shù)據(jù)的蓬勃發(fā)展,各行各業(yè)的決策越來越依靠大數(shù)據(jù)說話,傳統(tǒng)的數(shù)據(jù)庫技術(shù)已經(jīng)不能滿足現(xiàn)實(shí)需求,數(shù)據(jù)挖掘技術(shù)這一知識發(fā)現(xiàn)型數(shù)據(jù)技術(shù)日趨成熟。隨著大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)紛紛在各大高職院校中設(shè)置,數(shù)據(jù)挖掘技術(shù)作為專業(yè)核心課程,同時也是一門涉及多學(xué)科領(lǐng)域的交叉學(xué)科,課程內(nèi)容豐富,教學(xué)難度較大。隨著數(shù)據(jù)技術(shù)的發(fā)展,數(shù)據(jù)挖掘在商務(wù)智能、人工智能、機(jī)器學(xué)習(xí)等領(lǐng)域有著舉足輕重的地位,是一門面向未來的課程。通過本門課程學(xué)習(xí),可以培養(yǎng)學(xué)生的數(shù)據(jù)思維及應(yīng)用能力,無論以后從事大數(shù)據(jù)相關(guān)事業(yè),或其他的行業(yè)都可終身受益。面對本門課程的復(fù)雜性,怎樣進(jìn)行課程設(shè)計,讓高職學(xué)生得以掌握,是作為教學(xué)工作者一直思考的問題,本文從教學(xué)模式及課程設(shè)計兩方面對此進(jìn)行探討。
一、選取先進(jìn)的教學(xué)模式
高職大數(shù)據(jù)技術(shù)及應(yīng)用專業(yè)開設(shè)的數(shù)據(jù)挖掘技術(shù)課程是一門基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù),兼有大數(shù)據(jù)的數(shù)據(jù)類型多、數(shù)據(jù)價值密度低、處理速度快的特征。同時,數(shù)據(jù)挖掘涉及數(shù)據(jù)庫理論、統(tǒng)計學(xué)等數(shù)學(xué)知識、編程算法、編程工具等相關(guān)學(xué)科,有范圍廣,交叉性強(qiáng),難度大的特點(diǎn)。高職生的數(shù)學(xué)、編程算法理論基礎(chǔ)較為薄弱,用傳統(tǒng)的教學(xué)模式來進(jìn)行教學(xué)對該門課程的教學(xué)是不夠的,選取一個合適的教學(xué)模式來優(yōu)化教學(xué)尤為重要。
數(shù)據(jù)挖掘過程主要有:確定挖掘目標(biāo)——數(shù)據(jù)取樣——數(shù)據(jù)探索——數(shù)據(jù)預(yù)處理——挖掘建?!P驮u價六個步驟。具體實(shí)施過程中很難單純用理論描述,通常會引入案例來實(shí)現(xiàn)這一過程。通過各種教學(xué)模式的綜合比較發(fā)現(xiàn), PBL教學(xué)模式非常適合數(shù)據(jù)挖掘技術(shù)這門課程。
PBL教學(xué)模式是問題驅(qū)動型教學(xué)模式,以問題為學(xué)習(xí)的起點(diǎn),圍繞著專業(yè)領(lǐng)域可能遇到的真實(shí)案例進(jìn)行學(xué)習(xí),整個過程以學(xué)生為中心,教師更多是擔(dān)任認(rèn)知指導(dǎo),每個課程單元即問題結(jié)束后要進(jìn)行評價。這一過程和數(shù)據(jù)挖掘過程不謀而合。
二、基于PBL教學(xué)模式進(jìn)行課程設(shè)計
數(shù)據(jù)挖掘技術(shù)這一門課程主要分為理論教學(xué)和實(shí)踐操作兩個部分,本文主要從理論教學(xué)這一部分入手。在教學(xué)過程中,為了避免過程的交叉重復(fù),理論教學(xué)主要選取一個項(xiàng)目貫穿教學(xué)全過程,實(shí)踐操作項(xiàng)目和理論教學(xué)同步,由淺入深,便于學(xué)生理解掌握。這就要求理論教學(xué)引入的案例具有廣泛性,能夠覆蓋到全部知識點(diǎn)。在此,本文以連鎖餐飲為案例,作一個說明引導(dǎo)。
與此同時,數(shù)據(jù)挖掘技術(shù)在高職課程中開設(shè),主要特點(diǎn)在于應(yīng)用,必須要掌握一門數(shù)據(jù)挖掘工具,常用的工具有SPSS、R語言,Python語言等等。鑒于Python語言眾多開源庫,如用于數(shù)據(jù)分析的Pandas,用于可視化的Matplotlib,用于數(shù)值計算的Numpy,用于機(jī)器學(xué)習(xí)的Sklearn等資源豐富,操作簡單實(shí)用,是目前最主流的數(shù)據(jù)挖掘工具。因此,本門課程選用Python語言進(jìn)行編程展現(xiàn)。
1、問題驅(qū)動,案例主導(dǎo)
數(shù)據(jù)挖掘的目的是在大量數(shù)據(jù)中提取有用的信息,從而幫助用戶作決策。針對案例,如連鎖餐飲進(jìn)行數(shù)據(jù)挖掘應(yīng)用,先找到問題點(diǎn),確定挖掘目標(biāo)。真實(shí)情境是連鎖餐飲同質(zhì)化,客戶流失加速,市場競爭大,資源未得到有效合理的應(yīng)用等問題。驅(qū)動型問題主要是通過數(shù)據(jù)挖掘開發(fā)應(yīng)用需求,以解決某連鎖餐飲經(jīng)營危機(jī),如:菜單智能推送、客戶群分類、菜品銷售預(yù)測等。
2、數(shù)據(jù)探索及預(yù)處理
通過對原始數(shù)據(jù)取樣,使用Python數(shù)據(jù)分析工具進(jìn)行數(shù)據(jù)探索,對數(shù)據(jù)質(zhì)量進(jìn)行異常值、缺失值分析,對數(shù)據(jù)特征進(jìn)行分布、對比、統(tǒng)計、周期性、貢獻(xiàn)度、相關(guān)性分析。通過對數(shù)據(jù)進(jìn)行探索分析,了解數(shù)據(jù)的規(guī)律和趨勢,為數(shù)據(jù)預(yù)處理環(huán)節(jié)提供支持。
在數(shù)據(jù)挖掘中,由于數(shù)據(jù)量大,價值密度低,常常存在大量數(shù)據(jù)不完整、不一致、有異常數(shù)據(jù)等情況,將會嚴(yán)重影響挖掘建模的效率及準(zhǔn)確性,因此數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中占有極為重要的地位,由于數(shù)據(jù)量大,數(shù)據(jù)預(yù)處理的工作量占比很重,一般在60%左右,屬于數(shù)據(jù)挖掘技術(shù)中的苦力活。一般數(shù)據(jù)預(yù)處理主要由以下四個部分組成:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約。其中,涉及大量的數(shù)據(jù)知識,在高職學(xué)生中主要以應(yīng)用為主,如數(shù)據(jù)變換中的規(guī)范化,如最小-最大規(guī)范化和零-均值規(guī)范化,教學(xué)過程中用Python代碼和數(shù)學(xué)公式對比演示,這樣學(xué)生能夠輕松掌握,不再對著一個個專業(yè)術(shù)語不知所措。
3、挖掘建模,評價優(yōu)化
在PBL教學(xué)模式中,提出驅(qū)動性問題是該模式的關(guān)鍵。在建立數(shù)據(jù)挖掘模型時,問題的提出直接影響模型的選擇。以連鎖餐飲為例,在此前通過數(shù)據(jù)預(yù)處理以后,數(shù)據(jù)符合數(shù)據(jù)建模要求,進(jìn)入建模階段。根據(jù)數(shù)據(jù)挖掘的目標(biāo)和數(shù)據(jù)的形式,可以通過不同的建模方法獲取不同的信息,幫助企業(yè)作出商業(yè)決策,提升競爭力。數(shù)據(jù)挖掘建模主要有:分類與預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則、時序模式、離群點(diǎn)檢測。教師先簡單介紹幾種挖掘模型的特征及實(shí)現(xiàn)方法,然后用PBL的問題驅(qū)動法提出問題,引導(dǎo)學(xué)生通過共同探討分析選擇模型,最后實(shí)現(xiàn)模型構(gòu)建及模型評價優(yōu)化。
在此,做簡單的類比,幫助學(xué)生通俗地理解業(yè)務(wù)與挖掘模型的關(guān)系??梢酝ㄟ^菜單智能推送這一商業(yè)模式,提高點(diǎn)菜效率,提升客戶體驗(yàn),選擇的關(guān)聯(lián)規(guī)則這一挖掘建模模式可以實(shí)現(xiàn);通過對餐飲客戶消費(fèi)行為的測量,可以評判客戶的價值,可以選用聚類分析這一挖掘建模模式;對菜品銷售進(jìn)行預(yù)測,選用時序模式可以解決生產(chǎn)和銷售的匹配度,讓資源優(yōu)化。
不同的商業(yè)決策可以通過不同的挖掘建模方法解決,選用不同的算法可以得出不同的結(jié)果,如選用LM神經(jīng)網(wǎng)絡(luò)和CART決策樹兩種算法建立預(yù)測模型,得到的結(jié)論并不一致,可以通過調(diào)參優(yōu)化、模型評價等方法得到最優(yōu)解。
4、實(shí)踐實(shí)戰(zhàn),總結(jié)提煉
通過設(shè)置和理論課程同進(jìn)度的實(shí)踐項(xiàng)目,讓學(xué)生學(xué)到的知識點(diǎn)得以強(qiáng)化,并提高動手及編程能力。同時,數(shù)據(jù)挖掘常常應(yīng)用在分析或方案中,用數(shù)據(jù)說話是當(dāng)今決策的重要手段。高職生重操作輕寫作很顯然不利于技能提升,所以在提交實(shí)踐成果主要以項(xiàng)目報告形式提交。除了建模代碼外,還要結(jié)合Python可視化編程,及過程解析和總結(jié)說明等方式展現(xiàn)在項(xiàng)目報告中,從而鍛煉學(xué)生的綜合素養(yǎng)。
三、結(jié)論
本文主要針對數(shù)據(jù)挖掘技術(shù)這門教學(xué)難度大,綜合性強(qiáng)的交叉性課程,在高職中開展的教學(xué)方式進(jìn)行探討。使用PBL教學(xué)模式,解決了照搬照抄機(jī)械模仿學(xué)習(xí)方法,通過問題啟發(fā)驅(qū)動學(xué)生思考,從而達(dá)到教學(xué)目標(biāo)。
參考文獻(xiàn):
[1] 何鋒; 劉祖根; 余建坤; 余益民. 數(shù)據(jù)挖掘技術(shù)課程中的貫穿式案例教學(xué)設(shè)計 [J]. 科技資訊,2019(10): 169-171
[2] 張艷. 大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學(xué)新思考[J]. 計算機(jī)時代,2014(4): 59-61