亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        本科數(shù)據(jù)挖掘課程教學(xué)內(nèi)容的結(jié)構(gòu)化設(shè)計

        2020-03-08 06:02:22陳朝焰許洪云劉攀
        現(xiàn)代計算機(jī) 2020年36期
        關(guān)鍵詞:數(shù)據(jù)挖掘可視化教學(xué)內(nèi)容

        陳朝焰,許洪云,劉攀

        (上海商學(xué)院商務(wù)信息學(xué)院,上海201400)

        大數(shù)據(jù)時代,數(shù)據(jù)挖掘成為數(shù)據(jù)科學(xué)領(lǐng)域的核心關(guān)鍵技術(shù)。越來越多的高校開設(shè)數(shù)據(jù)科學(xué)類本科專業(yè),開展數(shù)據(jù)挖掘課程建設(shè)成為數(shù)據(jù)科學(xué)人才培養(yǎng)和學(xué)科建設(shè)的重要組成部分。針對本科生的特點,對本科數(shù)據(jù)挖掘課程的理論和實踐教學(xué)內(nèi)容進(jìn)行結(jié)構(gòu)化設(shè)計,在實踐教學(xué)部分按照項目開發(fā)流程,將理論知識的教學(xué)融入實踐教學(xué)的結(jié)構(gòu)化框架,起到鞏固理論知識和加深算法理解的作用。教學(xué)實踐表明,這種結(jié)構(gòu)化設(shè)計有助于加深學(xué)生對教學(xué)內(nèi)容的理解,能更好地開展實踐教學(xué),提高學(xué)生學(xué)習(xí)的積極性,進(jìn)而提高教學(xué)質(zhì)量。

        結(jié)構(gòu)化設(shè)計;數(shù)據(jù)挖掘;本科教學(xué);教學(xué)內(nèi)容

        0 引言

        隨著計算技術(shù)的進(jìn)步和物聯(lián)網(wǎng)的廣泛應(yīng)用,“人-機(jī)-物”三元世界深度融合,數(shù)據(jù)的采集、存儲與傳播的成本大大降低,人們生成或獲取數(shù)據(jù)越來越便捷,導(dǎo)致數(shù)據(jù)呈爆炸式增長,迎來了大數(shù)據(jù)時代。如今,數(shù)據(jù)已經(jīng)滲透到各個行業(yè)和各個領(lǐng)域,成為重要的生產(chǎn)資料。數(shù)據(jù)已經(jīng)成為企業(yè)和國家競爭力的源泉,圍繞這些數(shù)據(jù)進(jìn)行深入的數(shù)據(jù)分析,對個人的消費(fèi)行為,企業(yè)商品的生產(chǎn)、流通和分配,社會的運(yùn)作方式,甚至國家的治理方略等都會產(chǎn)生深遠(yuǎn)影響。

        數(shù)據(jù)已經(jīng)成為國家基礎(chǔ)性戰(zhàn)略資源。2012年聯(lián)合國發(fā)布Big Data for Development:Challenges&Opportunities[1]詳細(xì)闡明了數(shù)據(jù)生態(tài)系統(tǒng),并分析了各國在運(yùn)用大數(shù)據(jù)時所面臨的機(jī)遇和挑戰(zhàn)。為迎接大數(shù)據(jù)時代帶來的重大機(jī)遇與挑戰(zhàn),我國制定了一系列的發(fā)展規(guī)劃。2015年國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,明確指出全面推進(jìn)我國大數(shù)據(jù)發(fā)展和應(yīng)用,并提出加快建設(shè)數(shù)據(jù)強(qiáng)國。2016年發(fā)布的《中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十三個五年規(guī)劃綱要》中提出:“把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源,全面實施促進(jìn)大數(shù)據(jù)發(fā)展行動,加快推動數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用,助力產(chǎn)業(yè)轉(zhuǎn)型升級和社會治理創(chuàng)新”。工業(yè)和信息化部也制定了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》,明確指出要加快建設(shè)數(shù)據(jù)強(qiáng)國,為實現(xiàn)制造強(qiáng)國和網(wǎng)絡(luò)強(qiáng)國提供強(qiáng)大的產(chǎn)業(yè)支撐。近年來,國內(nèi)許多高校和科研院所也在積極響應(yīng)國家的大數(shù)據(jù)戰(zhàn)略,開設(shè)大數(shù)據(jù)相關(guān)專業(yè),加大對大數(shù)據(jù)相關(guān)人才的培養(yǎng)力度。據(jù)南方都市報報道[2],截止到2020年,開設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)”本科專業(yè)的院校已達(dá)612所。

        數(shù)據(jù)科學(xué)類專業(yè)的廣泛開設(shè)使得數(shù)據(jù)挖掘課程處于核心地位。數(shù)據(jù)的快速增長,導(dǎo)致數(shù)據(jù)的體量大、種類繁多且變化頻繁,為數(shù)據(jù)分析帶來了挑戰(zhàn),超越了經(jīng)典數(shù)據(jù)庫軟件工具的處理能力,人們對于海量數(shù)據(jù)的挖掘需求越來越迫切。數(shù)據(jù)挖掘?qū)鹘y(tǒng)的數(shù)據(jù)分析方法與大數(shù)據(jù)處理方法進(jìn)行有機(jī)結(jié)合,已經(jīng)成為大數(shù)據(jù)領(lǐng)域的核心技術(shù),而數(shù)據(jù)挖掘課程也成為了數(shù)據(jù)科學(xué)專業(yè)方向的骨干課程。然而,一部分高校的數(shù)據(jù)挖掘課程建設(shè)的研究成果主要集中在研究生層次[3-5],專門針對本科數(shù)據(jù)挖掘課程的教學(xué)研究相對偏少[6-7]。因此,在大數(shù)據(jù)類本科專業(yè)呈井噴式增長的條件下,迫切需要結(jié)合大數(shù)據(jù)的時代背景,針對本科生的數(shù)據(jù)挖掘課程教學(xué)開展研究。

        本文在筆者課程教學(xué)改革經(jīng)驗的基礎(chǔ)上,結(jié)合在上海商學(xué)院講授《數(shù)據(jù)挖掘及應(yīng)用》課程的教學(xué)實踐,針對大數(shù)據(jù)時代背景下開展本科數(shù)據(jù)挖掘課程的教學(xué)進(jìn)行探討,對本科數(shù)據(jù)挖掘課程的教學(xué)內(nèi)容進(jìn)行梳理和結(jié)構(gòu)化設(shè)計,并對教學(xué)方法進(jìn)行總結(jié),以期在提高教學(xué)質(zhì)量的同時,進(jìn)一步提升學(xué)生的綜合實踐能力,從而更好地培養(yǎng)數(shù)據(jù)挖掘人才。

        1 數(shù)據(jù)挖掘課程的特點

        根據(jù)維基百科的定義,大數(shù)據(jù)通常指規(guī)模龐大、結(jié)構(gòu)復(fù)雜,難以通過現(xiàn)有技術(shù)在有效的時間內(nèi)獲取和處理的數(shù)據(jù)集。大數(shù)據(jù)具有規(guī)模巨大(Volume)、種類繁多(Volume)、變化速度快(Velocity)和價值密度低(Value)的4V特點。雖然大數(shù)據(jù)價值密度低,但其中卻蘊(yùn)含著巨大的價值,如何從原始數(shù)據(jù)中提取有用的模式或知識,據(jù)此對未來做出合理的預(yù)測,并對未來做出有價值的判斷,是數(shù)據(jù)挖掘需要解決的重點問題。大數(shù)據(jù)時代急需經(jīng)過專業(yè)訓(xùn)練的數(shù)據(jù)挖掘人才,這需要寬泛的知識和技能,需圍繞這些知識和技能研究數(shù)據(jù)挖掘課程的特點,并據(jù)此開展面向本科生的教學(xué)內(nèi)容設(shè)計和教學(xué)方法改革。

        數(shù)據(jù)挖掘課程具有如下特點:

        (1)多學(xué)科領(lǐng)域交叉。數(shù)據(jù)挖掘交叉融合了多個學(xué)科領(lǐng)域的知識,如概率論與數(shù)理統(tǒng)計中的抽樣、參數(shù)估計、假設(shè)檢驗、方差分析和回歸分析,數(shù)據(jù)庫與數(shù)據(jù)倉庫中數(shù)據(jù)的存儲、索引和查詢技術(shù),機(jī)器學(xué)習(xí)與模式識別中的搜索算法與統(tǒng)計學(xué)習(xí)理論,可視化技術(shù)中的數(shù)據(jù)整理與展示等。同時,數(shù)據(jù)挖掘還吸納了來自工程優(yōu)化、進(jìn)化計算、信息論、信號處理和信息檢索等領(lǐng)域的思想,并將其用于解決大數(shù)據(jù)所帶來的挑戰(zhàn)。

        (2)強(qiáng)調(diào)數(shù)據(jù)思維。Mayer-Schonberger等人指出了大數(shù)據(jù)時代的思維變革[8]:

        ●更多:不是隨機(jī)樣本,而是全體數(shù)據(jù)。小數(shù)據(jù)時代,應(yīng)用場景通常較為單一,通常采用隨機(jī)采樣的統(tǒng)計方法獲取數(shù)據(jù),希望用盡可能少的數(shù)據(jù)獲得盡可能多的信息。然而,在大數(shù)據(jù)時代,數(shù)據(jù)的類型多且來源豐富,需利用網(wǎng)絡(luò)爬蟲、系統(tǒng)日志甚至是多傳感器技術(shù),盡可能收集全面而完整的數(shù)據(jù),即全數(shù)據(jù)模式;

        ●更雜:不是精確性,而是混雜性。大數(shù)據(jù)時代允許不精確,大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效;

        ●更好:不是因果關(guān)系,而是相關(guān)關(guān)系。在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。

        (3)理論性、工程性和實踐性較強(qiáng)。一方面,數(shù)據(jù)挖掘的專業(yè)性較強(qiáng),一些算法的數(shù)學(xué)原理比較抽象,具有較強(qiáng)的理論性;另一方面,各種數(shù)據(jù)挖掘算法的實現(xiàn)需要借助編程語言或軟件工具,具有很強(qiáng)的工程性;再者,數(shù)據(jù)挖掘在科學(xué)與工程、零售、電信服務(wù)和金融數(shù)據(jù)分析等諸多領(lǐng)域均有廣泛應(yīng)用,具有很強(qiáng)的實踐性。

        (4)挖掘算法種類繁多。2006年在香港舉辦的數(shù)據(jù)挖掘國際會議(IEEEInternational Conference on Data Mining,ICDM)評選出了數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法[9]:C4.5算法、K-means算法、SVM算法、Apriori算法、EM算法、PageRank算法、AdaBoost算法、KNN算法、Naive Bayes算法和CART算法等。除了這10種外,還有相當(dāng)一部分算法未列出,而且隨著時間的推移,越來越多新算法被提出。

        (5)內(nèi)容更新快速。一方面,人工智能領(lǐng)域的發(fā)展,尤其是深度學(xué)習(xí)領(lǐng)域的突破,為數(shù)據(jù)挖掘注入了新鮮血液,深度學(xué)習(xí)領(lǐng)域的算法和框架可以直接用來解決數(shù)據(jù)挖掘中的分類等問題;另一方面,大數(shù)據(jù)和云計算技術(shù)的進(jìn)步,并行處理和分布式處理成為主流,為數(shù)據(jù)挖掘帶來了眾多的工具和框架,這些工具和框架不僅種類繁多而且更新?lián)Q代快。

        2 數(shù)據(jù)挖掘原理教學(xué)內(nèi)容的結(jié)構(gòu)化設(shè)計

        數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有趣模式和知識的過程[10]。數(shù)據(jù)挖掘課程教學(xué)內(nèi)容主要圍繞如何從數(shù)據(jù)中發(fā)現(xiàn)有用的知識或挖掘有用的模式。通過課程的學(xué)習(xí),學(xué)生應(yīng)能對從各種不同類型數(shù)據(jù)中挖掘有用模式與知識的過程有清晰和全面的認(rèn)識,如數(shù)據(jù)采集、數(shù)據(jù)清洗整理與探索、數(shù)據(jù)庫與數(shù)據(jù)倉庫的管理與維護(hù)、通過機(jī)器學(xué)習(xí)算法進(jìn)行模式提取、處理結(jié)果的可視化,等等。按照是否對數(shù)據(jù)類別標(biāo)簽進(jìn)行標(biāo)注,可將數(shù)據(jù)挖掘技術(shù)劃分成兩大類:有監(jiān)督的方法和無監(jiān)督的方法。有監(jiān)督的方法包括分類(最近鄰分類、樸素貝葉斯分類、決策樹、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)等)和回歸(線性回歸和非線性回歸),其中分類用于離散類型目標(biāo)變量的預(yù)測,而回歸則用于連續(xù)類型目標(biāo)變量的預(yù)測;而無監(jiān)督的方法主要有聚類分析和關(guān)聯(lián)規(guī)則分析等。

        圖1 數(shù)據(jù)挖掘原理知識點的結(jié)構(gòu)化框架

        早在2006年,國際計算機(jī)協(xié)會(Association for Computing Machinery,ACM)承辦的SIGKDD頂級會議成立了專門的課程委員會,制定了數(shù)據(jù)挖掘課程大綱[11]。然而,隨著大數(shù)據(jù)時代的到來,ACM的大綱內(nèi)容已略顯陳舊,需結(jié)合大數(shù)據(jù)時代數(shù)據(jù)挖掘的新特點和新內(nèi)容進(jìn)行教學(xué)內(nèi)容設(shè)計。圖1從課程教學(xué)的角度給出了數(shù)據(jù)挖掘原理的結(jié)構(gòu)化知識點。

        (1)模塊1:緒論

        講授數(shù)據(jù)、大數(shù)據(jù)和數(shù)據(jù)挖掘的基本概念,知識發(fā)現(xiàn)的過程,可以挖掘的數(shù)據(jù)類型,可以發(fā)現(xiàn)的知識種類,如何對挖掘的知識進(jìn)行評估,以及數(shù)據(jù)挖掘的應(yīng)用等。

        (2)模塊2:數(shù)據(jù)預(yù)處理

        講授數(shù)據(jù)對象與屬性類型,數(shù)據(jù)的統(tǒng)計描述與概要性描述,數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)變換和數(shù)據(jù)降維等。

        (3)模塊3:數(shù)據(jù)管理

        講授關(guān)系數(shù)據(jù)庫與結(jié)構(gòu)化查詢語言、NoSQL數(shù)據(jù)庫、NewSQL數(shù)據(jù)庫等。另外,可進(jìn)一步講授存儲和處理大數(shù)據(jù)集的分布式框架Hadoop、MapReduce和Spark等。

        (4)模塊4:分類技術(shù)

        分類技術(shù)內(nèi)容較多,可選講部分內(nèi)容。常見的分類技術(shù)有最近鄰、樸素貝葉斯、決策樹、基于規(guī)則的分類器和支持向量機(jī)等。本模塊重點講授分類器的訓(xùn)練過程,如何挑選模型,如何利用訓(xùn)練樣本對模型進(jìn)行訓(xùn)練,如何利用測試樣本對模型進(jìn)行測試。此外,還可以對集成的方法進(jìn)行講解。

        (5)模塊5:人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)

        人工神經(jīng)網(wǎng)絡(luò)是一種典型的非線性分類技術(shù),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)變得越來越重要,故單獨(dú)作為一個教學(xué)模塊。此部分可先介紹感知機(jī)的概念,由多層感知機(jī)過渡到人工神經(jīng)網(wǎng)絡(luò),再過渡到深度神經(jīng)網(wǎng)絡(luò)。重點講授人工神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)、激活函數(shù)、輸入層、輸出層和隱藏層等概念。同時,強(qiáng)調(diào)反向傳播、損失函數(shù)、梯度消失問題和正則化技術(shù)等。

        (6)模塊6:回歸分析

        從時間序列的視角,重點講授經(jīng)典的回歸分析方法,如線性回歸、非線性回歸、邏輯回歸和嶺回歸等。需特別強(qiáng)調(diào)邏輯回歸用于解決分類問題,可看作是線性回歸在概率預(yù)測問題中的推廣。

        (7)模塊7:關(guān)聯(lián)分析

        講授頻繁項集與關(guān)聯(lián)規(guī)則的基本概念,頻繁模式挖掘算法(Apriori算法、FP-Growth算法),關(guān)聯(lián)規(guī)則的生成過程。

        (8)模塊8:聚類分析

        講授聚類分析的基本概念,基于劃分的方法(Kmeans、K-medoids、K-median和K-center等),基于層次的方法(BIRCH方法、CURE方法、ROCK方法和CHEMALOEN方法等),基于密度的方法(DBSCAN方法、OPTICS方法和DENCLUE方法等),基于網(wǎng)格的方法(STING方法和CLIQUE方法等),基于模型的方法(基于概率模型的方法和基于神經(jīng)網(wǎng)絡(luò)模型的方法)等。

        (9)模塊9:文本挖掘與網(wǎng)絡(luò)挖掘

        文本挖掘是數(shù)據(jù)挖掘的一個分支。文本挖掘的對象是半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本,主要完成短語提取、概念提取和可視化展示等任務(wù),可進(jìn)一步進(jìn)行關(guān)聯(lián)分析、文本分類或文本聚類等;網(wǎng)絡(luò)挖掘是數(shù)據(jù)挖掘的另一個分支。網(wǎng)絡(luò)挖掘?qū)W(wǎng)頁內(nèi)容及后臺交易數(shù)據(jù)進(jìn)行挖掘,提取感興趣的模式或有用的知識。由于網(wǎng)頁上的內(nèi)容多為文本信息,故諸如文本分類、文本聚類和關(guān)聯(lián)規(guī)則等文本挖掘的內(nèi)容亦可用于網(wǎng)絡(luò)挖掘。

        (10)模塊10:數(shù)據(jù)可視化

        介紹常用可視化圖表類型,高維數(shù)據(jù)可視化,文本數(shù)據(jù)可視化,網(wǎng)絡(luò)數(shù)據(jù)可視化,時空數(shù)據(jù)可視化,層次結(jié)構(gòu)數(shù)據(jù)可視化。

        (11)模塊11:應(yīng)用

        講授數(shù)據(jù)挖掘在科學(xué)與工程、金融數(shù)據(jù)分析、商品零售數(shù)據(jù)分析、電信用戶行為分析與電商商品推薦、電商產(chǎn)品評論情感分析等的應(yīng)用。

        授課教師可針對不同專業(yè)學(xué)生的學(xué)科知識結(jié)構(gòu)特點,有針對性地選擇上述各教學(xué)模塊,進(jìn)行數(shù)據(jù)挖掘原理部分的教學(xué)。

        3 數(shù)據(jù)挖掘?qū)嵺`教學(xué)內(nèi)容的結(jié)構(gòu)化設(shè)計

        早期數(shù)據(jù)挖掘課程主要面向研究生開設(shè),重點講授數(shù)據(jù)挖掘算法的基本原理,并輔以一定的課程實驗。近年來,數(shù)據(jù)科學(xué)成為研究熱點,數(shù)據(jù)挖掘技術(shù)獲得了更為廣泛的應(yīng)用,面向本科生開設(shè)數(shù)據(jù)挖掘課程的需求越來越強(qiáng)烈。經(jīng)典的數(shù)據(jù)挖掘教材[10-12]內(nèi)容涵蓋了非常寬廣的數(shù)據(jù)挖掘知識,各算法均給出了數(shù)學(xué)背景知識和算法設(shè)計過程,具有一定的廣度和深度,比較適合于研究生層次的教學(xué)。然而本科生可能很難深入理解算法背后的數(shù)學(xué)理論,會進(jìn)入惡性循環(huán)產(chǎn)生厭學(xué)情緒,需再原有原理性內(nèi)容基礎(chǔ)上增加工程實踐環(huán)節(jié)。

        針對本科生數(shù)據(jù)挖掘課程的實踐教學(xué),本文建議按照項目開發(fā)過程開展結(jié)構(gòu)化教學(xué)。第一種情況,當(dāng)課程學(xué)時非常充足時,例如64個學(xué)時,則可32個學(xué)時用于上一小節(jié)中數(shù)據(jù)挖掘原理知識的教學(xué),另外32個學(xué)時用于數(shù)據(jù)挖掘技術(shù)的項目編程實踐教學(xué);第二種情況,當(dāng)課時很有限時,例如只有32個學(xué)時,則應(yīng)采用弱化數(shù)據(jù)挖掘算法理論知識,強(qiáng)化算法的工程實現(xiàn),并按照項目開發(fā)的模式開展實踐教學(xué)。

        結(jié)合數(shù)據(jù)挖掘項目的開發(fā)流程,對數(shù)據(jù)挖掘處理過程進(jìn)行結(jié)構(gòu)化設(shè)計,在項目開發(fā)過程中穿插進(jìn)行理論知識的教學(xué),實現(xiàn)理論和實踐的交叉融合,讓學(xué)生在項目開發(fā)實踐中理解算法基本原理。圖2給出了數(shù)據(jù)挖掘項目開發(fā)的過程,其遵循科學(xué)研究的基本邏輯,按照從發(fā)現(xiàn)問題,到分析問題,再到解決問題的基本過程,將數(shù)據(jù)挖掘項目的開發(fā)過程分解為5個步驟。

        圖2 數(shù)據(jù)挖掘項目開發(fā)流程的結(jié)構(gòu)化框架

        下面給出這五個步驟的詳細(xì)解釋:

        步驟1:設(shè)置目標(biāo)。根據(jù)特定的目標(biāo)場景需求,明確數(shù)據(jù)挖掘項目的目標(biāo)任務(wù)及其對應(yīng)的考核指標(biāo);

        步驟2:獲取數(shù)據(jù)。搜集能用于解決上述問題的數(shù)據(jù)集,獲取數(shù)據(jù)有多重途徑,可實時采集數(shù)據(jù),當(dāng)條件不具備時,可利用計算機(jī)軟件進(jìn)行仿真生成數(shù)據(jù),亦可購買數(shù)據(jù)或直接采用已公開的數(shù)據(jù)集等;

        步驟3:數(shù)據(jù)預(yù)處理。該部分是關(guān)鍵環(huán)節(jié),內(nèi)容繁多,需學(xué)生有足夠的耐心認(rèn)真完成。首先,進(jìn)行數(shù)據(jù)整理,對獲得的數(shù)據(jù)進(jìn)行適當(dāng)整理,轉(zhuǎn)化為更加適合處理的格式。同時對來自數(shù)據(jù)輸入的錯誤、缺失值、異常值或其他各種錯誤進(jìn)行處理,完成數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)整合等任務(wù);其次,對數(shù)據(jù)進(jìn)行探索性分析,將數(shù)據(jù)中的顯著模式進(jìn)行可視化;再次,進(jìn)行特征提取,獲得數(shù)據(jù)中的隱藏模式,進(jìn)而抽象出所需的目標(biāo)變量;最后,如果數(shù)據(jù)的維數(shù)比較多,還需進(jìn)行降維處理;

        步驟4:數(shù)據(jù)建模。該部分是重點和難點,可穿插進(jìn)行理論知識的教學(xué)。依據(jù)獲得的特征及目標(biāo)變量類型,抽象出數(shù)學(xué)模型,并建立相應(yīng)的數(shù)據(jù)挖掘任務(wù)。常見的數(shù)據(jù)挖掘任務(wù)可以分為五類:分類、回歸、聚類分析、關(guān)聯(lián)分析和異常檢測。將數(shù)據(jù)集劃分成訓(xùn)練集、驗證集和測試集,對模型進(jìn)行訓(xùn)練、驗證和測試,并對模型進(jìn)行評估;

        步驟5:結(jié)果展示。利用可視化技術(shù)對挖掘到的知識進(jìn)行表示,并發(fā)布決策結(jié)果。由于面向的用戶類型多樣,可以是領(lǐng)域?qū)<?、工程師、企業(yè)決策者或業(yè)務(wù)分析師等,這些用戶具有不同的領(lǐng)域知識,關(guān)注的焦點也不同,需結(jié)合用戶的反饋意見進(jìn)行持續(xù)改進(jìn)。

        圍繞上述數(shù)據(jù)挖掘的五個步驟,教師可在進(jìn)行實踐教學(xué)的同時,在步驟4穿插進(jìn)行相關(guān)理論知識點的教學(xué),例如挑選十大數(shù)據(jù)挖掘算法中的一種,作為數(shù)據(jù)建模的基本模型,講解基本的數(shù)學(xué)原理、算法思想和算法設(shè)計流程等,然后讓學(xué)生編程實現(xiàn)(計算機(jī)類和數(shù)據(jù)科學(xué)類專業(yè)的學(xué)生)或用軟件工具實現(xiàn)(信管類或應(yīng)用統(tǒng)計類專業(yè)的學(xué)生)。這樣可以做到熟悉數(shù)據(jù)挖掘流程的同時,獲得理論知識的應(yīng)用經(jīng)驗。真正做到理論和實踐的交叉融合。

        4 結(jié)語

        大數(shù)據(jù)時代,數(shù)據(jù)挖掘是核心關(guān)鍵技術(shù),已經(jīng)有越來越多的高校為本科生開設(shè)數(shù)據(jù)挖掘課程。本科數(shù)據(jù)挖掘課程的教學(xué)重在算法的應(yīng)用實踐,筆者通過多年的實踐教學(xué),提出對數(shù)據(jù)挖掘課程教學(xué)內(nèi)容進(jìn)行結(jié)構(gòu)化設(shè)計的思想:在理論教學(xué)內(nèi)容部分按照課程理論知識點的前后聯(lián)系構(gòu)建結(jié)構(gòu)化框架,供教師選擇性使用;在實踐教學(xué)內(nèi)容中,結(jié)合數(shù)據(jù)挖掘項目開發(fā)流程構(gòu)建結(jié)構(gòu)化框架。并針對不同的學(xué)時,給出了面向本科生的教學(xué)建議。筆者的課程開設(shè)教學(xué)實踐證明,通過結(jié)構(gòu)化設(shè)計,學(xué)生運(yùn)用數(shù)據(jù)挖掘算法解決工程實踐問題的能力明顯提高,能在項目開發(fā)實踐中鞏固加深對理論知識的理解。同時,教師也可在結(jié)構(gòu)化設(shè)計中不斷完善自身的知識結(jié)構(gòu),進(jìn)而提高自身教學(xué)水平。

        猜你喜歡
        數(shù)據(jù)挖掘可視化教學(xué)內(nèi)容
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        挖掘數(shù)學(xué)教學(xué)內(nèi)容所固有的美
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        “啟蒙運(yùn)動”一課教學(xué)內(nèi)容分析
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        “清末新政”也可作為重要的教學(xué)內(nèi)容
        日韩大片高清播放器大全| 91久久国产自产拍夜夜嗨| 日本一区二区三区在线| 亚洲最大av在线精品国产| 精品国产免费一区二区三区香蕉| 精品久久久久久久久久中文字幕| 精品国产福利片在线观看| 久久夜色精品国产三级| 精品卡一卡二乱码新区| 无遮挡又黄又刺激又爽的视频 | 亚洲中文欧美日韩在线| 人妻有码中文字幕在线| 伊人久久大香线蕉av波多野结衣| 久久中文字幕无码专区| 91成人午夜性a一级毛片| 美女射精视频在线观看| 日韩大片高清播放器大全| 久久久久亚洲av无码专区导航| 久久久久一| 国产一区二区三区口爆在线| a级毛片免费观看在线播放| 两个黑人大战嫩白金发美女| 视频女同久久久一区二区三区| 麻神在线观看免费观看| 中文字幕久久久人妻无码| 中文字幕不卡在线播放| 在线观看国产av一区二区| 亚洲国产av无码精品| 欧美性xxxx狂欢老少配| baoyu网址国产最新| 91精品国产综合久久久蜜| 久久久www成人免费精品| 亚洲av日韩aⅴ无码电影| 女同欲望一区二区三区| 日日噜噜夜夜狠狠va视频v| 国产精品久久久久久人妻精品 | 久久人妻精品中文字幕一区二区 | 午夜精品久久久| 午夜一区二区三区在线观看| 丰满人妻被两个按摩师| 丝袜足控一区二区三区|