亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        統(tǒng)計學(xué)專業(yè)數(shù)據(jù)挖掘課程實驗教學(xué)模式探索

        2018-11-14 12:58:22張海永
        關(guān)鍵詞:數(shù)據(jù)挖掘實驗方法

        關(guān) 鵬,錢 云,張海永

        (1.巢湖學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院,安徽 合肥 238000;2.滁州學(xué)院 數(shù)學(xué)與金融學(xué)院,安徽 滁州 239000)

        1 引言

        2016年美國統(tǒng)計協(xié)會 (American Statistical Asociation)對統(tǒng)計學(xué)的內(nèi)涵給出一個較為簡潔的說明,將統(tǒng)計學(xué)定義為:“the science of learning from data”,即從數(shù)據(jù)中學(xué)習(xí)的科學(xué)[1].該定義實際上與數(shù)據(jù)科學(xué)(Data Science)的內(nèi)涵如出一轍.筆者以為ASA之所以對統(tǒng)計學(xué)做出這樣的內(nèi)涵解釋,實際上表明在大數(shù)據(jù)浪潮中,統(tǒng)計學(xué)正走在變革的道路上.

        大數(shù)據(jù)時代,數(shù)據(jù)的產(chǎn)生、收集、分析與應(yīng)用等環(huán)節(jié)都發(fā)生著深刻的變化.互聯(lián)網(wǎng)技術(shù)的高速發(fā)展使每個人成為數(shù)據(jù)的生產(chǎn)者,數(shù)據(jù)生產(chǎn)已經(jīng)突破了時間、地點的限制,數(shù)據(jù)量也由抽樣數(shù)據(jù)向大數(shù)據(jù)轉(zhuǎn)化;數(shù)據(jù)的存儲類型由紙和筆記載的關(guān)系型結(jié)構(gòu)化數(shù)據(jù)向半結(jié)構(gòu)、非結(jié)構(gòu)和異構(gòu)的網(wǎng)絡(luò)數(shù)據(jù)類型轉(zhuǎn)化;數(shù)據(jù)的采集由根據(jù)統(tǒng)計分析目的的調(diào)查式收集向基于大數(shù)據(jù)技術(shù)的自動化采集方法轉(zhuǎn)化;數(shù)據(jù)的分析由傳統(tǒng)的驗證型分析方法向探索型分析方法轉(zhuǎn)化;數(shù)據(jù)的應(yīng)用由輔助管理決策向引導(dǎo)變革轉(zhuǎn)化.以上變化正在重塑數(shù)據(jù)分析流程,而數(shù)據(jù)分析模式的變革必然引起教育模式的改革.

        事實上,在大數(shù)據(jù)洪流的沖擊下,統(tǒng)計學(xué)專業(yè)的人才培養(yǎng)模式已經(jīng)悄然發(fā)生變化.當前,統(tǒng)計學(xué)專業(yè)融合大數(shù)據(jù)、計算機、人工智能等相關(guān)學(xué)科知識,引導(dǎo)學(xué)生認識和掌握數(shù)據(jù)處理的新技術(shù),推動交叉學(xué)科應(yīng)用型人才的培養(yǎng),已經(jīng)成為共識.其中,在統(tǒng)計學(xué)專業(yè)課程體系中引入數(shù)據(jù)挖掘課程就是典型的代表.數(shù)據(jù)挖掘技術(shù)在一定程度上彌補了傳統(tǒng)統(tǒng)計分析方法的不足,可以進一步增強學(xué)生探索性數(shù)據(jù)分析的能力,更加適應(yīng)大數(shù)據(jù)時代的需求.與統(tǒng)計學(xué)強調(diào)推斷理論和方法不同,數(shù)據(jù)挖掘強調(diào)經(jīng)驗,著重于從數(shù)據(jù)中挖掘有用的模式和價值,只要能夠有效地解決問題,方法和模型本身并不重要.因而,筆者認為數(shù)據(jù)挖掘課程能夠拓展統(tǒng)計學(xué)專業(yè)學(xué)生數(shù)據(jù)分析的思路和方法,進一步加深對數(shù)據(jù)分析內(nèi)涵的理解.由此,本文致力于探索大數(shù)據(jù)背景下統(tǒng)計學(xué)專業(yè)數(shù)據(jù)挖掘?qū)嶒炚n程教學(xué)模式,以提升統(tǒng)計學(xué)人才實踐應(yīng)用能力,使其不斷適應(yīng)大數(shù)據(jù)分析的需求.

        2 大數(shù)據(jù)時代市場對應(yīng)用型統(tǒng)計人才的新需求

        數(shù)據(jù)分析師是統(tǒng)計學(xué)專業(yè)大學(xué)生畢業(yè)后的主要職業(yè)選擇之一.數(shù)據(jù)分析師是指在不同行業(yè)中,專門從事數(shù)據(jù)搜集、整理、分析,并依據(jù)數(shù)據(jù)做出行業(yè)或市場研究、評估和預(yù)測的專業(yè)人員;是以實際數(shù)據(jù)為依據(jù),對項目現(xiàn)狀及遠期進行統(tǒng)計、分析、預(yù)測并轉(zhuǎn)化為決策信息的專業(yè)人才[2].

        為了客觀分析大數(shù)據(jù)時代應(yīng)用型統(tǒng)計人才需具備的知識、能力和技術(shù),本文通過智聯(lián)招聘網(wǎng)對企業(yè)公布的數(shù)據(jù)分析師職位招聘信息進行了調(diào)研,這些招聘信息都是面向應(yīng)屆本科畢業(yè)生的,具有較強的針對性,調(diào)研時間為2018年8月3日.本文調(diào)研了七家上市公司[3],有國企事業(yè)單位、互聯(lián)網(wǎng)公司、金融公司、網(wǎng)絡(luò)游戲公司、網(wǎng)絡(luò)媒體公司等,各公司對數(shù)據(jù)分析師的崗位職責(zé)、知識要求、能力要求和技術(shù)要求見表1所示.

        從數(shù)據(jù)分析師的崗位職責(zé)來看,不同類型的企業(yè)雖然具體要求不同,但是核心職責(zé)是相同的,主要有三個方面:負責(zé)業(yè)務(wù)部門的數(shù)據(jù)需求分析,也就是通過調(diào)研了解業(yè)務(wù)部門的需求,確定數(shù)據(jù)分析對象和目的;構(gòu)建業(yè)務(wù)數(shù)據(jù)分析指標體系,即如何開展數(shù)據(jù)分析工作,確定數(shù)據(jù)采集、處理和分析及結(jié)果解讀等環(huán)節(jié)的指標、方法、模型及數(shù)據(jù)分析工具等;為業(yè)務(wù)部門提供數(shù)據(jù)決策支持,包括撰寫調(diào)研報告、數(shù)據(jù)分析報告及設(shè)計數(shù)據(jù)產(chǎn)品和開發(fā)數(shù)據(jù)分析工具等等.從崗位職責(zé)的核心要素來看,數(shù)據(jù)分析師是非常契合統(tǒng)計學(xué)專業(yè)的人才培養(yǎng)目標的,從調(diào)研到設(shè)計到分析到結(jié)果解讀,是數(shù)據(jù)分析的一個完整流程.但是,也可以看出很多企業(yè)在數(shù)據(jù)分析中特別強調(diào)了數(shù)據(jù)挖掘方法,如北京計算機技術(shù)及應(yīng)用研究所強調(diào)用戶行為挖掘和個性化推薦、金融界強調(diào)用戶行為數(shù)據(jù)和網(wǎng)絡(luò)日志數(shù)據(jù)挖掘,而這些都不是傳統(tǒng)統(tǒng)計學(xué)分析方法的范疇.

        從知識要求來看,大部分企業(yè)都要求數(shù)據(jù)分析師具有統(tǒng)計學(xué)專業(yè)背景,但互聯(lián)網(wǎng)公司特別強調(diào)統(tǒng)計學(xué)、數(shù)學(xué)和計算機的交叉和融合.實際上,數(shù)據(jù)分析師作為復(fù)合型人才,除了掌握必要的統(tǒng)計分析理論和方法外,數(shù)學(xué)建模和編程能力都是必不可少的.

        從能力要求來看,較強的數(shù)據(jù)敏感度和清晰的邏輯思維能力是核心要素.其次,從業(yè)務(wù)來看,數(shù)據(jù)分析師需要同不同的部門打交道,溝通協(xié)調(diào)能力和團隊協(xié)作能力也是必不可少的.

        從技術(shù)要求來看,大部分企業(yè)都要求數(shù)據(jù)分析師至少要掌握一種統(tǒng)計分析軟件,如SPSS或MATLAB;至少要熟悉一種編程語言,如Python或R;至少要掌握一種數(shù)據(jù)庫技術(shù),如MySql/Oracle/SQL Server等,最簡單的是excel.在高校及商業(yè)統(tǒng)計分析領(lǐng)域,R語言是當前最受歡迎的統(tǒng)計編程語言之一.

        綜合以上分析可以得出,統(tǒng)計學(xué)專業(yè)的學(xué)生要想成為出色的數(shù)據(jù)分析師,除了具備堅實的統(tǒng)計學(xué)理論和方法外,還需要具備良好的計算機能力,如數(shù)據(jù)庫技術(shù)和編程能力.更重要的是,數(shù)據(jù)挖掘方法與技術(shù)作為大數(shù)據(jù)技術(shù)的基礎(chǔ)已經(jīng)成為數(shù)據(jù)分析師必備的技能,也是企業(yè)招聘時重點關(guān)注的技術(shù).

        3 基于R語言的項目式數(shù)據(jù)挖掘?qū)嵺`教學(xué)模式探索

        R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng).其功能包括:數(shù)據(jù)存儲和處理系統(tǒng);數(shù)組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統(tǒng)計分析工具;優(yōu)秀的統(tǒng)計制圖功能;簡便而強大的統(tǒng)計編程語言.特別是,R是免費、開源、全面、可視、交互的專業(yè)統(tǒng)計分析和數(shù)據(jù)挖掘軟件.通過R的相關(guān)集成開發(fā)環(huán)境(IDE),如RStudio/PyCharm等,用戶可以輕松訪問數(shù)據(jù)庫,并利用一些集成的統(tǒng)計工具,靈活機動的進行數(shù)據(jù)分析,構(gòu)建屬于自己的統(tǒng)計分析項目(Project),甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法.因此,R受到了教育界的熱捧,成為大學(xué)生最喜歡的統(tǒng)計分析與數(shù)據(jù)挖掘軟件之一.此外,2018 IEEE頂級編程語言交互排行榜中,R語言排名第七,是過去十年中發(fā)展最快的編程語言之一,也是最好的數(shù)據(jù)科學(xué)語言之一[4].由此,筆者認為,R語言是統(tǒng)計學(xué)專業(yè)學(xué)生進行數(shù)據(jù)分析的不二之選.

        項目式學(xué)習(xí)(project-based learning,以下簡稱 PjBL)是一種以學(xué)生為中心的系統(tǒng)教學(xué)方法或模式,讓學(xué)生圍繞來自項目中的現(xiàn)實工作任務(wù)來學(xué)習(xí)知識和技能,并認真地設(shè)計產(chǎn)品和任務(wù)[5].其中,項目是指復(fù)雜的任務(wù),學(xué)習(xí)者為了完成項目目標,需要展開調(diào)查、參與設(shè)計、解決問題、制定決策等[6].項目式學(xué)習(xí)最大的亮點是通過完成項目的形式,發(fā)揮學(xué)生學(xué)習(xí)的主動性和自覺性,在做中學(xué),在學(xué)中做,有利于提高學(xué)生學(xué)習(xí)效率,提升學(xué)生實踐和創(chuàng)新能力.

        基于以上分析,筆者認為在R軟件的集成開發(fā)環(huán)境下,實施數(shù)據(jù)挖掘?qū)嶒炚n程的項目式學(xué)習(xí)方案是可行的,也符合應(yīng)用型統(tǒng)計人才培養(yǎng)目標的定位.下面將從數(shù)據(jù)挖掘?qū)嶒炚n程教學(xué)計劃、實驗項目設(shè)計、考核方式、典型項目示例和實驗教學(xué)效果進行論述.

        3.1 課程教學(xué)計劃

        數(shù)據(jù)挖掘是一門多學(xué)科交叉且實踐應(yīng)用性較強的課程,一般是在碩士研究生階段才開設(shè)的課程.在本科生階段開設(shè)數(shù)據(jù)挖掘課程具有較大的難度,需協(xié)調(diào)好相關(guān)課程的前后邏輯,如該課程必須開設(shè)在概率論與數(shù)理統(tǒng)計、數(shù)據(jù)庫原理、計算機基礎(chǔ)等課程之后.作為應(yīng)用型本科院校,巢湖學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院于2016年開始在統(tǒng)計學(xué)本科專業(yè)開設(shè)數(shù)據(jù)挖掘課程,課程性質(zhì)為專業(yè)核心能力課程,總學(xué)時52,理論課學(xué)時40,實驗課學(xué)時12.理論課與實驗課的安排如表2所示.

        由于統(tǒng)計學(xué)專業(yè)學(xué)生未將R語言的學(xué)習(xí)列入人才培養(yǎng)方案,所以在理論課階段安排了8個學(xué)時的R語言學(xué)習(xí),目的是在進入正式的數(shù)據(jù)挖掘項目學(xué)習(xí)之前,熟悉R的數(shù)據(jù)組織、整理和可視化方法,教學(xué)方法為講練結(jié)合、學(xué)生邊聽邊實踐操作.從模式識別的角度來看,數(shù)據(jù)挖掘技術(shù)的主要任務(wù),包括分類、聚類、回歸、關(guān)聯(lián)、序列分析和偏差分析6種模式的識別[7].其中,回歸是統(tǒng)計學(xué)的傳統(tǒng)分析方法,時間序列分析方法在人才培養(yǎng)方案中有專門的《時間序列分析》課程.因此,本課程主要選擇了分類和聚類這兩類方法,分類選擇了近鄰分析法和支持向量機,聚類主要有k-means聚類和基于密度的聚類方法.另外,人工神經(jīng)網(wǎng)絡(luò)作為人工智能的熱點研究領(lǐng)域,也納入本課程學(xué)習(xí)中,可以作為深度學(xué)習(xí)的入門知識.

        表2

        3.2 實驗項目設(shè)計

        在實驗教學(xué)中,本課程圍繞K近鄰分析、支持向量機、k-means聚類和人工神經(jīng)網(wǎng)絡(luò)四個主要的算法設(shè)計了四個綜合性的開放性實驗項目.實驗教學(xué)過程采取項目學(xué)習(xí)式教學(xué)模式,授課教師只是提出實驗的問題和實驗的目的,并不規(guī)定嚴格的實驗步驟和過程,教師根據(jù)理論課所講授知識及時引導(dǎo)學(xué)生,讓學(xué)生根據(jù)實驗問題和目的,自行設(shè)計實驗內(nèi)容和實驗過程,包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模型與方法選擇、基于R軟件的數(shù)據(jù)分析過程、結(jié)果的可視化與分析等.在實驗過程中,教師指導(dǎo)學(xué)生組成實驗項目小組,一般由3名學(xué)生共同組隊,通過小組討論、相互協(xié)作共同完成實驗項目.經(jīng)過教師的指導(dǎo),使每個實驗項目小組在3個課時的時間內(nèi),確定實驗內(nèi)容和項目實施計劃,實驗實施過程可在課后完成.實驗項目結(jié)項方式為小組成員共同完成項目實驗報告,項目實驗報告內(nèi)容包括實驗?zāi)康?、實驗?nèi)容、實驗過程、結(jié)果分析和實驗總結(jié).

        3.3 考核方式

        數(shù)據(jù)挖掘作為考查課,考核方式比較靈活,也給課程組進行考核方式改革提供了便利.課程組經(jīng)過研討決定采取開放性課程設(shè)計的方式作為期末考試的形式,并結(jié)合平時課程表現(xiàn)和平時實驗項目完成情況評價綜合成績.其中,期末的開放性課程設(shè)計成績在綜合成績中占比60%,平時課堂表現(xiàn)和平時實驗項目完成情況占比40%(課堂表現(xiàn)占40%,平時實驗項目完成情況占比60%).

        3.4 典型實驗項目教學(xué)示例-以基于R的K-近鄰分析為例

        K-近鄰分析法(K-nearest neighbor,KNN)是分類型數(shù)據(jù)預(yù)測的經(jīng)典數(shù)據(jù)挖掘方法,在輸入變量較多,樣本量較大的情況下,是簡單而有效的建模方法[8].課程組設(shè)計了鳶尾花數(shù)據(jù)集(IRIS)的分類預(yù)測實驗項目.

        3.4.1 問題提出

        利用已有的鳶尾花數(shù)據(jù)集(IRIS),通過K-近鄰分析法對新的鳶尾花數(shù)據(jù)進行分類預(yù)測,要求構(gòu)建合理、具體的模型,基于R軟件實現(xiàn)模型的訓(xùn)練和預(yù)測.

        3.4.2 項目提要

        請同學(xué)們根據(jù)實驗問題,設(shè)計實驗內(nèi)容.一些實驗要點供同學(xué)們參考:

        a.如何利用R軟件掌握鳶尾花數(shù)據(jù)集(IRIS)的特征?

        提要:str()函數(shù)可以查看數(shù)據(jù)集的變量和數(shù)據(jù);scale()函數(shù)可以實現(xiàn)數(shù)據(jù)的歸一化處理.另外,請同學(xué)們自行查閱資料了解R軟件數(shù)據(jù)預(yù)處理的方法.

        b.K-近鄰分析法中距離的選取依據(jù)是什么?

        提要:K-近鄰分析法將樣本包括的觀測數(shù)據(jù)看成是p維特征空間(變量個數(shù)為p個)中的向量,應(yīng)選擇合適的距離度量方法,以測度預(yù)測向量X0與鄰居向量X之間的距離,作為鄰近關(guān)系的依據(jù).主要的距離度量方法有:閔可夫斯基距離、歐氏距離、絕對距離、切比雪夫距離和夾角余弦距離.請同學(xué)們查閱資料分析各種距離度量方法的適用范圍,并確定鳶尾花數(shù)據(jù)集(IRIS)適用的距離度量方法.

        c.K-近鄰分析法中K值選取的依據(jù)是什么?

        K-近鄰法的核心問題之一是確定預(yù)測向量X0的鄰居個數(shù),即K值的確定.一般可以依據(jù)以下方法:一是依據(jù)旁置法計算參數(shù)K取不同值時的預(yù)測誤差;二是依據(jù)留一法計算參數(shù)K取不同值時的預(yù)測誤差.請同學(xué)們查閱資料,是否還有其他更好的K值確定方法?

        3.4.3 R軟件操作提要

        R實現(xiàn)K-近鄰法的函數(shù)是class包中的knn函數(shù).可通過install.packages(‘class’)加載class程序包,并使用library(class)載入到工作空間中,可通過help(knn)查看knn函數(shù)的使用方法.

        3.5 實驗教學(xué)效果

        通過一個學(xué)期的實驗教學(xué)來看,本文提出的基于R語言的項目式數(shù)據(jù)挖掘?qū)嶒灲虒W(xué)模式取得了較好的教學(xué)效果.從學(xué)生的綜合成績來看,成績分布合理,不及格率較低,大部分學(xué)生的綜合成績分布在70-89這個分數(shù)段內(nèi),說明學(xué)生對數(shù)據(jù)挖掘的基本理論和應(yīng)用技術(shù)掌握的較好.從平時實驗項目的完成情況來看,大部分小組能夠較好的完成實驗項目.對于項目式教學(xué)模式,不少同學(xué)反映比單純的輸出式教學(xué)模式效果好很多,不但增強了學(xué)習(xí)的主動性和積極性,而且增強了團隊合作意識,廣受學(xué)生歡迎.

        但是在實踐教學(xué)過程中,也出現(xiàn)了很多問題.例如,在課程教學(xué)初期,學(xué)生普遍反映R語言的入門難度較大,希望教師能夠在R語言學(xué)習(xí)方面給予更多的建議和支持;在項目式學(xué)習(xí)過程中,出現(xiàn)了實驗完成效果參差不齊和個別學(xué)生過于依賴小組其他成員,從而坐享其成的情況.筆者認為,任何教學(xué)模式都不是完美的,這些問題還需要任課教師結(jié)合學(xué)生學(xué)習(xí)實際拿出解決方案,這也是筆者在下一階段的教學(xué)過程中重點思考的問題.

        4 總結(jié)

        數(shù)據(jù)挖掘作為一門多學(xué)科交叉且應(yīng)用性較強的課程,在教學(xué)內(nèi)容和教學(xué)方法上與傳統(tǒng)統(tǒng)計學(xué)課程有較大的區(qū)別.但是,從數(shù)據(jù)分析的流程來看,數(shù)據(jù)挖掘方法與傳統(tǒng)統(tǒng)計分析方法又有相通之處,關(guān)鍵是讓學(xué)生了解二者之間的區(qū)別與聯(lián)系.因此,在數(shù)據(jù)挖掘?qū)嶒炚n程教學(xué)中,本文基于大數(shù)據(jù)時代企業(yè)對應(yīng)用型統(tǒng)計人才的需求,采取了基于R語言的項目式數(shù)據(jù)挖掘?qū)嶒灲虒W(xué)模式.通過項目式學(xué)習(xí),讓學(xué)生在掌握理論知識的基礎(chǔ)上,探索解決實際問題的能力,進一步提升數(shù)據(jù)分析能力,以適用大數(shù)據(jù)時代數(shù)據(jù)分析師的職業(yè)要求.

        猜你喜歡
        數(shù)據(jù)挖掘實驗方法
        記一次有趣的實驗
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        做個怪怪長實驗
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        可能是方法不對
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        久久久天堂国产精品女人| av一区二区在线免费观看| 国产毛片av一区二区| 人妻无码一区二区三区免费| 久久精品国产自清天天线| 国产精品98视频全部国产| 日韩在线精品免费观看| 婷婷五月深深久久精品| 日本xxxx色视频在线播放| 尤物无码一区| 中文字幕专区一区二区| 亚洲av永久无码精品网站| 国产美女久久精品香蕉69| 女的把腿张开男的猛戳出浆| 国产女主播在线免费看| 日韩av无码社区一区二区三区| 国产激情内射在线影院| 久久国产综合精品欧美| 91精品福利一区二区三区| 99国产精品99久久久久久| 99久久国产露脸精品竹菊传媒 | 一区二区三区四区中文字幕av| 国产成人a在线观看视频免费 | 加勒比av在线一区二区| 亚洲人精品午夜射精日韩| 嗯啊哦快使劲呻吟高潮视频| 91在线区啪国自产网页| 粉嫩人妻91精品视色在线看| 国产精品一卡二卡三卡| 亚洲AV无码一区二区三区日日强| 国产三级精品三级在线观看粤语| 青青草国产手机观看视频| 99精品国产一区二区三区| 麻豆AV免费网站| 女同欲望一区二区三区| 国产婷婷色一区二区三区| 精品久久久久久无码国产| 2022AV一区在线| 一区二区视频在线观看地址| 久久午夜夜伦鲁鲁片免费无码| 国产亚洲精品国产福利在线观看 |