亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)背景下數(shù)據(jù)挖掘課程實(shí)踐教學(xué)改革與探索

        2017-10-16 07:01:55魯江坤重慶人文科技學(xué)院計(jì)算機(jī)工程學(xué)院
        新商務(wù)周刊 2017年4期
        關(guān)鍵詞:數(shù)據(jù)挖掘實(shí)驗(yàn)課程

        文/魯江坤,重慶人文科技學(xué)院 計(jì)算機(jī)工程學(xué)院

        大數(shù)據(jù)背景下數(shù)據(jù)挖掘課程實(shí)踐教學(xué)改革與探索

        文/魯江坤,重慶人文科技學(xué)院 計(jì)算機(jī)工程學(xué)院

        大數(shù)據(jù)背景;數(shù)據(jù)挖掘?qū)嵺`教學(xué);WEKA 工具

        1 引 言

        近年來,隨著大數(shù)據(jù)與移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計(jì)算等新興信息技術(shù)的深度融合,以及大數(shù)據(jù)在各行各業(yè)的創(chuàng)新應(yīng)用,大數(shù)據(jù)已經(jīng)引起科技界、產(chǎn)業(yè)界和政府的高度關(guān)注[1-5]。大數(shù)據(jù)隱含著巨大的社會(huì)、經(jīng)濟(jì)及科研價(jià)值。因此,通過有效地組織和應(yīng)用大數(shù)據(jù),建立“用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”的管理機(jī)制,將極大地推動(dòng)社會(huì)經(jīng)濟(jì)和科學(xué)研究發(fā)展。其中,大數(shù)據(jù)分析與挖掘技術(shù),作為探測數(shù)據(jù)價(jià)值的關(guān)鍵手段,是大數(shù)據(jù)研究與應(yīng)用的核心[5-6]。同時(shí),各行各業(yè)的數(shù)據(jù)科學(xué)與工程專業(yè)人才需求呈現(xiàn)爆發(fā)式增長。

        到2017年為止,目前已有兩批35高校申請(qǐng)了數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)。在上述背景下,高校計(jì)算機(jī)類本科專業(yè)開設(shè)數(shù)據(jù)挖掘課程是十分必要,且具有重要意義。通過數(shù)據(jù)挖掘課程學(xué)習(xí),可以掌握數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則、分類、聚類、可視化等技術(shù),培養(yǎng)學(xué)生的計(jì)算思維能力,提高學(xué)生實(shí)踐能力與創(chuàng)新應(yīng)用能力,幫助學(xué)生形成科學(xué)思維和專業(yè)素養(yǎng)。但是,數(shù)據(jù)挖掘是一門具有前沿性、實(shí)踐性較強(qiáng)的交叉學(xué)科課程,其內(nèi)容主要涉及人工智能、數(shù)據(jù)庫和統(tǒng)計(jì)學(xué)等多學(xué)科知識(shí),從而導(dǎo)致數(shù)據(jù)挖掘課程存在教學(xué)難度大、理論教學(xué)過多、學(xué)習(xí)興趣難以提高等問題[7]。

        2 數(shù)據(jù)挖掘?qū)嵺`教學(xué)軟件分類

        在數(shù)據(jù)挖掘?qū)嵺`教學(xué)中,選擇合適的數(shù)據(jù)挖掘工具是非常重要的。現(xiàn)有的數(shù)據(jù)挖掘工具可分為商用數(shù)據(jù)挖掘工具和開源數(shù)據(jù)挖掘工具兩大類。其中,商用數(shù)據(jù)挖掘工具包括IBM 公司Intelligent Miner、Microsoft公司SQL Server Analysis Services、SPSS 公司Clementine、SAS公司Enterprise Miner等。但是,這些商用挖掘工具價(jià)格較高,且不能進(jìn)行二次開發(fā)。因此,目前數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)大多采用開源數(shù)據(jù)挖掘工具。開源數(shù)據(jù)挖掘工具主要包括WEKA(Waikato Environment for Knowledge Analysis)、RapidMiner、NLTK(Natural Language Toolkit)、KNIME(KonstanzInformation Miner)和R- programming 等。其中,在2005年8月召開第11屆ACM SIGKDD國際會(huì)議上,懷卡托大學(xué)WEKA 小組榮獲數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域的最高服務(wù)獎(jiǎng)。

        另外,實(shí)驗(yàn)數(shù)據(jù)是數(shù)據(jù)挖掘?qū)嵺`教學(xué)順利開展的關(guān)鍵。在具體教學(xué)的過程中選擇教材為《數(shù)據(jù)挖掘?qū)嵱冒咐治觥?,配套相?yīng)的案例進(jìn)行實(shí)踐教學(xué),部分實(shí)驗(yàn)數(shù)據(jù)來自教材配套光盤,部分實(shí)驗(yàn)選擇TipDM來完成實(shí)驗(yàn)。對(duì)于數(shù)據(jù)挖掘?qū)嶒?yàn)來說,還有一些數(shù)據(jù)集來自于用于數(shù)據(jù)挖掘?qū)嶒?yàn)的標(biāo)準(zhǔn)數(shù)據(jù)集主要來自于加州大學(xué)歐文分校(University of California,Irvine)公開提供的UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集(http://archive.ics.uci.edu/ml/)。由于WEKA自帶23個(gè)示例數(shù)據(jù)集,WEKA 可作為數(shù)據(jù)挖掘?qū)嵺`教學(xué)的首選工具,同時(shí)也支持學(xué)生選擇其它開源工具。

        3 WEKA 數(shù)據(jù)挖掘?qū)嶒?yàn)項(xiàng)目設(shè)置

        整個(gè)教學(xué)的過程中選擇的是WEKA3.8.1版本。作為數(shù)據(jù)挖掘開源工具,WEKA 匯集了最前沿的機(jī)器學(xué)習(xí)算法、數(shù)據(jù)預(yù)處理工具以及數(shù)據(jù)可視化圖形用戶界面,WEKA 主界面稱為WEKA GUI選擇器,通過Explorer(探索者)、KnowledgeFlow(知識(shí)流)、Experimenter(實(shí)驗(yàn)者)和Simple CLI(簡單命令行)、workbench等按鈕提供5種主要應(yīng)用程序,并供用戶選擇。WEKA可以讀取ARFF、CSV和C4.5等格式的數(shù)據(jù)文件,并支持JDBC 訪問的各種數(shù)據(jù)庫。ARFF(Attribute- Relation File Format)是一種WEKA 專用文件格式。ARFF 文件是ASCII 文本文件,用于描述共享一組屬性(Attribute)結(jié)構(gòu)的實(shí)例(Instance)二維表,表格中的行、列分別稱作一個(gè)實(shí)例和一個(gè)屬性。WEKA自帶23個(gè)ARFF 文件位于安裝目錄的data 子目錄下,可作為測試用示例數(shù)據(jù)集。WEKA 支持標(biāo)稱型(nominal)、數(shù)值型(numeric)、字符串(string)、日期型(date)和關(guān)系型(relational)等5 種數(shù)據(jù)類型。另外,WEKA 還支持通過JDBC將數(shù)據(jù)庫字段類型映射到Java語言數(shù)據(jù)類型。

        數(shù)據(jù)挖掘是一門與實(shí)際應(yīng)用緊密結(jié)合且實(shí)踐性較強(qiáng)的課程。實(shí)踐教學(xué)環(huán)節(jié)中,首先教師詳細(xì)講解實(shí)驗(yàn)步驟,然后安排學(xué)生進(jìn)行實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果做詳細(xì)分析與評(píng)價(jià)。為了提高學(xué)生實(shí)踐應(yīng)用能力,數(shù)據(jù)挖掘理論課和實(shí)驗(yàn)課學(xué)時(shí)通常按2:1 分配。

        ?

        4 WEKA 數(shù)據(jù)挖掘?qū)嵺`教學(xué)示例

        下面通過一個(gè)實(shí)踐教學(xué)示例介紹數(shù)據(jù)挖掘中決策樹分類C4.5算法,并通過WEKA 工具從實(shí)驗(yàn)數(shù)據(jù)集中挖掘有用的規(guī)則或知識(shí)。

        4.1 C4.5分類器實(shí)驗(yàn)準(zhǔn)備

        示例中C4.5分類器實(shí)驗(yàn)教學(xué)準(zhǔn)備主要包括選用實(shí)驗(yàn)數(shù)據(jù)集、掌握決策樹分類C4.5算法和掌握WEKA工具中Classify面板上測試模式用法等。

        (1)選用實(shí)驗(yàn)數(shù)據(jù)集。實(shí)驗(yàn)數(shù)據(jù)集選取教材中配套的數(shù)據(jù)肝癌預(yù)測樣本數(shù)據(jù).xls,實(shí)驗(yàn)之前需要將其轉(zhuǎn)為.csv格式。該數(shù)據(jù)集包含300 個(gè)樣本和11個(gè)屬性,其中描述屬性10個(gè),類別屬性1個(gè),類別屬性DECISion包含是否復(fù)發(fā)兩個(gè)值。

        (2)掌握決策樹分類C4.5算法。WEKA工具中J48是基于C4.5算法實(shí)現(xiàn)的決策樹分類法,其分類性能可通過系列參數(shù)設(shè)置來優(yōu)化,如圖1(a)所示。

        (3)掌握Classify 面板上測試模式用法。

        WEKA工具支持4 種測試模式(Test options),一是“Use training set”,即直接將訓(xùn)練集樣本用于測試,評(píng)估分類器預(yù)測性能;二是“Suppliedtest set”,即從一個(gè)文件中加載一組樣本,評(píng)估分類器預(yù)測性能;三是“Cross-validation”,即通過交叉驗(yàn)證評(píng)價(jià)分類器,可在“Folds”文本框中輸入交叉驗(yàn)證的折數(shù);四是“Percentage split”,即取指定百分比的樣本用于訓(xùn)練,其余樣本用于測試,評(píng)估分類器預(yù)測性能。

        4.2 C4.5分類器實(shí)驗(yàn)步驟

        示例中C4.5分類器實(shí)驗(yàn)步驟主要包括加載肝癌預(yù)測數(shù)據(jù)集、選擇并設(shè)置C4.5分類器、設(shè)置分類測試選項(xiàng)、構(gòu)建和評(píng)估C4.5分類器、決策樹模型可視化顯示等。具體步驟如下:

        (1)加載肝癌預(yù)測數(shù)據(jù)集:在WEKA 預(yù)處理面板中單擊“Open file”按鈕,選擇并打開data 目錄中的相應(yīng).csv格式的數(shù)據(jù);

        (2)選擇并設(shè)置C4.5分類器:首先單擊Classify選項(xiàng)切換到Classify面板;然后單擊Classify面板上部的Choose按鈕打開對(duì)話框,并單擊trees條目并展開子條目;最后單擊J48選擇C4.5分類器及默認(rèn)參數(shù)設(shè)置“J48-C0.25-M 2”。注意:該步驟要求學(xué)生認(rèn)真觀察、分析C4.5分類器參數(shù)設(shè)置。

        (3)設(shè)置分類測試選項(xiàng):從單擊Classify面板中“Test options”選擇Use training test選項(xiàng),以確定測試策略;提醒學(xué)生可以嘗不同測試模式的效果。

        (4)構(gòu)建和評(píng)估C4.5分類器:單擊Classify 面板中Start按鈕,通過訓(xùn)練集構(gòu)建C4.5分類器,然后對(duì)所有訓(xùn)練樣本進(jìn)行分類來評(píng)估性能,并在Classify面板右側(cè)“Classifier output”區(qū)域顯示訓(xùn)練和測試結(jié)果的文字描述。注意:該步驟要求學(xué)生仔細(xì)觀察、分析分類器輸出的文字描述。

        (5)重復(fù)(1)~(4),如果更改數(shù)據(jù)集、重設(shè)分類器選項(xiàng)或調(diào)整測試選項(xiàng),每次單擊Start 按鈕,都會(huì)構(gòu)建和評(píng)估一個(gè)新分類器,并在Classify 面板左下角的“Result List”上添加相應(yīng)的新條目。

        (6)決策樹模型可視化顯示:在Classify 面板中單擊右鍵“Result List”中“trees.J48”條目,在彈出菜單中選擇“Visualize tree”菜單項(xiàng),學(xué)生能夠非常清楚的看出結(jié)果的可視化效果。

        采用WEKA工具實(shí)施數(shù)據(jù)挖掘?qū)嶒?yàn)過程中,要打破驗(yàn)證實(shí)驗(yàn)方式。針對(duì)數(shù)據(jù)收集整理、數(shù)據(jù)挖掘?qū)嵤⒔Y(jié)果顯示及分析等每一個(gè)步驟,學(xué)生必須自主制定實(shí)驗(yàn)方案,自主完成實(shí)驗(yàn)。特別是在實(shí)施WEKA數(shù)據(jù)挖掘前,學(xué)生要清楚了解相關(guān)算法原理、各種參數(shù)含義以及對(duì)數(shù)據(jù)要求等。例如,本示例中學(xué)生要了解以下4個(gè)問題:(1)如何控制分類樹的精度;(2)如何處理不完整數(shù)據(jù);(3)如何對(duì)連續(xù)屬性進(jìn)行離散化;(4)如何在決策樹構(gòu)造過程中進(jìn)行剪枝。同時(shí),教師在學(xué)生實(shí)施挖掘?qū)嶒?yàn)時(shí)要加強(qiáng)巡視,對(duì)算法中參數(shù)設(shè)置、數(shù)據(jù)要求等可能出現(xiàn)的問題要及時(shí)啟發(fā)提示、釋疑, 并引導(dǎo)學(xué)生實(shí)施參數(shù)調(diào)整,查看其對(duì)挖掘結(jié)果的影響。

        5 結(jié)論

        數(shù)據(jù)挖掘是一門理論與實(shí)踐并重且涉及多學(xué)科的交叉學(xué)科課程,本科教學(xué)應(yīng)當(dāng)培養(yǎng)學(xué)生計(jì)算思

        維能力,側(cè)重學(xué)生的實(shí)踐應(yīng)用能力。WEKA 是用Java 開發(fā)的數(shù)據(jù)挖掘著名開源軟件,在開源數(shù)據(jù)挖掘工具WEKA 平臺(tái)上進(jìn)行了數(shù)據(jù)挖掘算法實(shí)驗(yàn)、測試、分析和二次開發(fā),可以獲得更好的教學(xué)效果。另外,WEKA 安裝目錄中有幾個(gè)文件值得關(guān)注:WekaManual.pdf 是WEKA 用戶手冊;weka-src.jar 是打包源程序,可以解壓供學(xué)生學(xué)習(xí)、研究和分析相關(guān)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法源代碼;RunWeka.ini是運(yùn)行WEKA 的配置文件。

        [1]陳恩紅,于劍.大數(shù)據(jù)分析??把訹J].軟件學(xué)報(bào),2014,25(9):1887-1888.

        [2]吳信東,葉明全,胡東輝,等.普適醫(yī)療信息管理與服務(wù)的關(guān)鍵技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)學(xué)報(bào),2012,35(5):1-19.

        [3]周慶,牟超,楊丹.教育數(shù)據(jù)挖掘研究進(jìn)展綜述[J].軟件學(xué)報(bào),2015,26(11):3026-3042.

        [4]寧康,陳挺.生物醫(yī)學(xué)大數(shù)據(jù)的現(xiàn)狀與展望[J].科學(xué)通報(bào),2015,60(5/6):534-546.

        [5]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.

        [6]梁吉業(yè),錢宇華,李德玉,等.大數(shù)據(jù)挖掘的粒計(jì)算理論與方法[J].中國科學(xué):信息科學(xué),2015,45(11):1355-1369.

        [7]黃嵐.數(shù)據(jù)挖掘課程實(shí)踐教學(xué)資源庫建設(shè)[J].計(jì)算機(jī)教育,2014(12):89-92.

        隨著大數(shù)據(jù)與移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等新興信息技術(shù)的深度融合,以及大數(shù)據(jù)在各行各業(yè)的創(chuàng)新應(yīng)用,在計(jì)算機(jī)類專業(yè)本科生中開設(shè)數(shù)據(jù)挖掘課程變得十分重要。然而,數(shù)據(jù)挖掘是一門理論與實(shí)踐并重且涉及多學(xué)科的交叉學(xué)科課程,導(dǎo)致本科生學(xué)習(xí)該課程面臨較大難度和挑戰(zhàn)。因此,培養(yǎng)學(xué)生計(jì)算思維及實(shí)踐應(yīng)用能力,并讓他們體驗(yàn)實(shí)踐教學(xué)對(duì)完成教學(xué)目標(biāo)尤為重要。本文重點(diǎn)討論以開源數(shù)據(jù)挖掘工具WEKA 為平臺(tái)進(jìn)行實(shí)踐教學(xué)的思路,并給出WEKA 數(shù)據(jù)挖掘?qū)嵺`教學(xué)實(shí)例。

        編號(hào):16CRKXJ11,名稱:以項(xiàng)目驅(qū)動(dòng)的《數(shù)據(jù)挖掘》課程改革的實(shí)踐探索,重慶人文科技學(xué)院校級(jí)項(xiàng)目研究成果。

        猜你喜歡
        數(shù)據(jù)挖掘實(shí)驗(yàn)課程
        記一次有趣的實(shí)驗(yàn)
        數(shù)字圖像處理課程混合式教學(xué)改革與探索
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        軟件設(shè)計(jì)與開發(fā)實(shí)踐課程探索與實(shí)踐
        為什么要學(xué)習(xí)HAA課程?
        做個(gè)怪怪長實(shí)驗(yàn)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        国产av一区二区三区区别| 亚洲精品无码久久久影院相关影片| 精品日韩欧美一区二区在线播放| 狠狠躁狠狠躁东京热无码专区| 亚洲中文字幕诱惑第一页| 美女很黄很色国产av| 精品久久久无码中字| 日韩专区欧美专区| 青青草手机成人自拍视频| 国产一区二区视频免费在线观看| 无人高清电视剧在线观看| 欧美激情五月| 人妻免费黄色片手机版| 五月激情综合婷婷六月久久| 免费观看又色又爽又黄的| 女女同性黄网在线观看| 久久亚洲国产高清av一级| 熟妇人妻无乱码中文字幕真矢织江| 国产人在线成免费视频| 国产激情久久久久久熟女老人| 国产在线一区二区三区四区乱码| 丁香婷婷激情综合俺也去| 毛片在线播放a| 中文字幕大乳少妇| 亚洲国产av一区二区三区天堂| 久久久久亚洲av成人网人人网站 | 日本韩国一区二区三区| 日韩日本国产一区二区| 三个男吃我奶头一边一个视频| 亚洲 高清 成人 动漫| 日韩偷拍视频一区二区三区 | 最新中文字幕人妻少妇| 熟妇人妻av中文字幕老熟妇| 被欺辱的高贵人妻被中出| 国产人妻久久精品二区三区老狼| 先锋五月婷婷丁香草草| 少妇三级欧美久久| 开心激情网,开心五月天| 国产精品人人做人人爽人人添| 精品少妇ay一区二区三区| 青青手机在线视频观看|