亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于實例的本科數(shù)據(jù)挖掘課程教學探索

        2013-04-29 00:44:03譚征孫紅霞王立宏任滿杰
        計算機教育 2013年9期
        關(guān)鍵詞:教學探索實例

        譚征 孫紅霞 王立宏 任滿杰

        摘要:分析數(shù)據(jù)挖掘原理與算法課程在教學中存在的弊端,并基于數(shù)據(jù)挖掘課程的本質(zhì),闡述在以培養(yǎng)應(yīng)用型人才為主的大學中,如何以實例為主線,貫穿教學過程,開設(shè)本課程的,思路和做法。

        關(guān)鍵詞:數(shù)據(jù)挖掘原理與算法;實例;教學探索

        0.引言

        隨著經(jīng)濟、科技和信息技術(shù)的飛速發(fā)展,特別是網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)的產(chǎn)生和存儲能力有了很大程度的提高。數(shù)據(jù)挖掘的出現(xiàn),為人們提供了一條解決“數(shù)據(jù)豐富而知識貧乏”困境的有效途徑Ⅲ。所以很多高校,包括世界上一些著名高校都開設(shè)了數(shù)據(jù)挖掘課程。課程的基礎(chǔ)理論部分一般包括數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則、分類、聚類、時間序列挖掘、Web挖掘等內(nèi)容。該課程使學生學會分析研究數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理、常用算法、結(jié)果的可視化等技術(shù),并培養(yǎng)學生的數(shù)據(jù)抽象能力,幫助學生形成科學思維和專業(yè)素養(yǎng),使他們畢業(yè)后在就業(yè)上有更多的選擇。

        筆者將探討基于實例教學的數(shù)據(jù)挖掘課程的教學內(nèi)容安排,強調(diào)淡化學科背景,加強算法的應(yīng)用性訓(xùn)練,將實際的例子貫穿于教學中,并重新組織授課內(nèi)容、安排實踐環(huán)節(jié),教會學生學以致用。

        1.教學現(xiàn)狀分析

        1.1課程本質(zhì)

        數(shù)據(jù)挖掘原理與算法涉及的學科領(lǐng)域很寬泛。其最終目的是在數(shù)據(jù)中挖掘出可供人們利用的知識和信息,因此數(shù)據(jù)挖掘技術(shù)要從數(shù)據(jù)庫技術(shù)、統(tǒng)計學、機器學習、神經(jīng)網(wǎng)絡(luò)、知識系統(tǒng)、信息檢索、高性能計算和可視化等領(lǐng)域汲取營養(yǎng)。另外,每個學科都在進行著日新月異的發(fā)展變化,數(shù)據(jù)挖掘技術(shù)遇到的挑戰(zhàn)也為相關(guān)學科領(lǐng)域的深入研究提供了新的契機。由于課程難度較大,很多高校把這門課程作為研究生的專業(yè)課程,也有院校將此課作為本科生高年級選修課開設(shè)腳。但是本科生開設(shè)這門課程的普通院校較少,我們能借鑒的教學經(jīng)驗有限。

        1.2數(shù)據(jù)挖掘課程教學環(huán)節(jié)的弊端

        ①某些學校對本科生開設(shè)的數(shù)據(jù)挖掘課程,其教學過程對理論的探討過多,與應(yīng)用存在距離,沒有體現(xiàn)出這門課程面向應(yīng)用的特質(zhì),缺少對學生工程能力的訓(xùn)練,存在學生在學了這門課程后不知道能干什么的現(xiàn)象。

        ②教學形式呆板單一。傳統(tǒng)的教師講、學生聽的教學模式,很難引起學生的探究興趣,不利于發(fā)揮他們自身的能動性和創(chuàng)新動機。

        2.選擇恰當實例貫穿數(shù)據(jù)挖掘課程的教學過程

        煙臺大學計算機學院所開設(shè)的數(shù)據(jù)挖掘課程在教學上安排了6章內(nèi)容,涉及3個實例(其中兩個是實際生活中的項目課題):第1個是用于房產(chǎn)信息調(diào)查的房產(chǎn)客戶關(guān)系管理系統(tǒng);第2個是用于煙臺大學督評中心評教文本分類的中文文本數(shù)據(jù)挖掘系統(tǒng);第3個是用于國家葡萄酒檢測中心的數(shù)據(jù)分析的葡萄酒成分數(shù)據(jù)挖掘系統(tǒng)。

        2.1房產(chǎn)客戶關(guān)系管理系統(tǒng)

        在講述房產(chǎn)客戶關(guān)系管理系統(tǒng)時內(nèi)容涵蓋緒論、知識發(fā)現(xiàn)過程和關(guān)聯(lián)規(guī)則3章,重點講授內(nèi)容包括:

        (1)數(shù)據(jù)倉庫。住房管理數(shù)據(jù)倉庫中的數(shù)據(jù)是按主題組織的,可從歷史觀點提供信息。數(shù)據(jù)挖掘技術(shù)能按知識工程的方法完成高層次需求,可以發(fā)現(xiàn)蘊藏在數(shù)據(jù)內(nèi)部的知識模式。挖掘后形成的知識表示模式可為企業(yè)決策提供支持。

        (2)通過對客戶信息進行分析,闡述關(guān)聯(lián)規(guī)則的參數(shù):support、confidence、expected confidence,并簡單介紹關(guān)聯(lián)規(guī)則中的多維、多層次等拓展知識。

        (3)關(guān)聯(lián)規(guī)則挖掘。①講授關(guān)聯(lián)規(guī)則挖掘的Apriori算法;②講述布爾關(guān)聯(lián)規(guī)則的概念,對處理后形成的交易數(shù)據(jù)庫進行布爾關(guān)聯(lián)規(guī)則挖掘,將問題轉(zhuǎn)化為尋找以決策屬性為結(jié)果的規(guī)則;③將關(guān)聯(lián)規(guī)則挖掘應(yīng)用于客戶關(guān)系管理的最終目的是努力將潛在客戶轉(zhuǎn)變?yōu)楝F(xiàn)實客戶,將滿意客戶轉(zhuǎn)變?yōu)橹艺\的終生客戶,提高客戶滿意程度,降低市場銷售及宣傳成本,增加利潤率。

        (4)設(shè)minsup=10%,minconf=70%。在統(tǒng)計的各類人群中獵取咨詢的渠道主要是雜志、報紙、互聯(lián)網(wǎng)和電視。經(jīng)試驗統(tǒng)計后得到以下有關(guān)知識:①滿足age>50 AND職業(yè)=“工人”的客戶占所統(tǒng)計總?cè)藬?shù)的9.7%;其中滿足age>50 AND職業(yè)=“工人”AND渠道=“TV”的客戶占92%。②符合學歷=“大?!盇ND職業(yè)=“工人”的客戶占所統(tǒng)計總?cè)藬?shù)的24.8%,其中滿足學歷=“大?!盇ND職業(yè)=“工人”AND渠道=“newspaper”的客戶占82%。③被統(tǒng)計人群中滿足income=“5000-9000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”的客戶占所統(tǒng)計總?cè)藬?shù)的32.7%;其中滿足income=“4000-6000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”AND渠道=“雜志”的客戶占83%。④被統(tǒng)計人群中滿足學歷=“本科”AND income≥“10000”的客戶占所統(tǒng)計總?cè)藬?shù)的占11.6%;其中符合學歷=“本科”ANDincome≥“8000”AND職業(yè)=“公司經(jīng)理”AND渠道=“雜志”的客戶占86.5%。

        (5)教師要分析Apriori算法的瓶頸和改進,介紹Close算法和FP-樹算法,并且要求學生們掌握這3種經(jīng)典算法。

        2.2中文文本數(shù)據(jù)挖掘系統(tǒng)

        中文文本數(shù)據(jù)挖掘系統(tǒng)圍繞評教分類模型的建立講述特征選擇和主要分類算法。根據(jù)煙臺大學教學督評中心提供的學生對教師的中文評教文本,利用分類的方法找出其評價的傾向性,結(jié)合教材,重點講授了以下內(nèi)容:

        1)特征選擇。

        ①介紹有監(jiān)督、無監(jiān)督和半監(jiān)督的特征選擇方法。②介紹使用分詞軟件后,統(tǒng)計詞頻,去掉小于閾值的低頻詞。③對比詞頻率、IG值(信息增益)、期望值差異對分類結(jié)果的影響留取特征詞。

        部分數(shù)據(jù)示例如下:用特征選擇的方法對重要的屬性進行抽取,略去對分類影響不大的屬性,達到降維的目的,把特征選擇作為預(yù)處理。我們選用517條主觀評價作為訓(xùn)練樣本,其中233條留言是一般評價,采用以下3種方式進行特征選擇:詞頻率、IG值(信息增益)、期望值差異。不同方式特征選擇對分類準確性的影響如表1所示。

        2)分類。

        在介紹常用的分類基礎(chǔ)知識和決策樹、ID3、樸素貝葉斯分類、最近鄰分類算法之后,又介紹了基于潛在語義分析的降維技術(shù),講授了支持向量機(SVM)適用于文本分類的原因。布置給學生的任務(wù)是用爬蟲獲取網(wǎng)評,作傾向性分析。

        評教文本分類統(tǒng)計后的結(jié)論是:將降維技術(shù)和支持向量機算法結(jié)合在評教模型的建立過程中,研究討論的主要內(nèi)容有:①各個指標取不同值對分類的影響,這些指標主要集中在特征抽取和選擇、保留詞性和降維維數(shù)等幾方面;②對分詞后的文本進行特征選擇,篩去了詞頻數(shù)小于4的文本;③降維至30維,并適當設(shè)置SVM中的可變參數(shù),找到合適的訓(xùn)練一測試樣本的比例,最后綜合出一個現(xiàn)有條件下的最佳分類模型。

        2.3葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)

        葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)介紹數(shù)值數(shù)據(jù)的預(yù)處理和聚類2章內(nèi)容。對葡萄酒成份的分析是根據(jù)所提供的酒中各成份的含量數(shù)據(jù),采用聚類或分類的方法確定某種葡萄酒的種類,比如是紅葡萄酒、白葡萄酒還是甜葡萄酒。圍繞這個問題我們介紹了如下內(nèi)容:

        1)數(shù)值數(shù)據(jù)的預(yù)處理。

        ①介紹葡萄酒中各個屬性的含義和取值范圍;②講授數(shù)據(jù)的離散化技術(shù),如等深、等寬、聚類技術(shù);③講授本例中使用的m一估值計算對數(shù)值屬,1生的離散化技術(shù);④講述本例中如何避免0值出現(xiàn)及去噪聲技術(shù)。

        葡萄酒中各成份的含量數(shù)據(jù)如表2所示。

        2)聚類。

        在介紹聚類的基本知識和常用算法(如k均值、k中心點、DBSCAN技術(shù))之后,講解了:①本課題使用的層次聚類算法。在測試結(jié)果時通過測試樣本和分類樣本的不同比例,對結(jié)果進行了對比。②講述了用樸素貝葉斯分類計數(shù)對這一問題的分類處理,同時對比了聚類和分類算法在同一問題上的結(jié)論差異。利用樸素的貝葉斯分類器可以完成預(yù)測目標,根據(jù)訓(xùn)練樣本建立分類器,對待測樣本進行預(yù)測,準確率可達到90%以上。③引導(dǎo)學生思考對問題的處理可以聯(lián)合使用各種算法,并分析各種算法對結(jié)果的影響,從而找出解決問題的最佳方案。

        2.4利用已知算法和實例講授Web挖掘技術(shù)

        因特網(wǎng)規(guī)模龐大、結(jié)構(gòu)復(fù)雜、動態(tài)變化性大,蘊含大量的信息。將Web上豐富的信息轉(zhuǎn)變成有用的知識正是Web挖掘的意義所在。用之前中文文本分類的方法引導(dǎo)學生在一些購物網(wǎng)站中下載對商品評論的中文文本,抽取特征詞,進行傾向性分析,使學生熟悉支持向量機的分類方法,分詞軟件的使用及文本挖掘的整個過程。

        3.結(jié)語

        文章在前期制定應(yīng)用型本科生數(shù)據(jù)挖掘課程教學大綱的基礎(chǔ)上,針對數(shù)據(jù)挖掘課程內(nèi)容多學科交叉的特點,在教學中提出淡化學科背景,注重算法應(yīng)用與實踐,以客戶關(guān)系管理、葡萄酒數(shù)據(jù)分析、中文評教文本分類等實例作為授課內(nèi)容主線,讓實例教學始終圍繞著典型的算法和前沿知識展開的教學方式。在今后的教學工作中,我們還應(yīng)該不斷站在學科發(fā)展的前列,經(jīng)常更新實例,使其更好地融入教學,將教與學有機統(tǒng)一,取得更好的教學效果。因此我們還有大量的工作需要探索研究。

        參考文獻:

        [1]宋成,李晉宏,項目驅(qū)動的數(shù)據(jù)挖掘教學模式探討[J],中國電力教育,2011(27):116-177.

        [2]劉云霞,統(tǒng)計學專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J],吉林工程技術(shù)師范學院學報,2010(6),20-22.

        [3]徐金寶,對應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程的嘗試[J],計算機教育,2007(7):27-29.

        [4]高園園,呂慶文,數(shù)據(jù)挖掘課程的教學思考[J],醫(yī)學信息,2009,22(11):23-24.

        [5]譚征,孫紅霞,王立宏,普通院校本科生開設(shè)數(shù)據(jù)挖掘課程的教學研究[J],福建電腦,2011,27(10):38-39.

        [6]曾志強,本科數(shù)據(jù)挖掘教學研究[J],科教文匯(上旬刊),2009(10):26-27.

        (見習編輯:劉麗麗)

        猜你喜歡
        教學探索實例
        就地瀝青熱再生應(yīng)用實例探討
        Catalan數(shù)及幾種應(yīng)用實例
        商情(2017年42期)2017-12-26 12:34:41
        內(nèi)蒙古商貿(mào)職業(yè)學院國際商務(wù)會計人才培養(yǎng)的實驗教學探索與實踐
        中國市場(2016年38期)2016-11-15 23:50:40
        高職國際交流與合作背景下的劍橋商務(wù)英語教學探索
        考試周刊(2016年84期)2016-11-11 23:20:32
        基于素質(zhì)教育視角下的民族高校邏輯學教學探索與實踐
        文教資料(2016年19期)2016-11-07 11:05:12
        高中數(shù)學課堂中德育溶合的探索
        試析網(wǎng)絡(luò)教學平臺在機械制圖課程教學中的應(yīng)用
        高分子材料與工程專業(yè)綜合實驗的教學探索
        中國市場(2016年36期)2016-10-19 04:57:58
        完形填空Ⅱ
        完形填空Ⅰ
        性色视频加勒比在线观看| 国产高潮流白浆免费观看不卡| 亚洲中文字幕有综合久久| 三级国产高清在线观看| 又大又粗欧美黑人aaaaa片| 越南女子杂交内射bbwxz| 欧美刺激午夜性久久久久久久| 色妞一区二区三区免费视频| 精品福利一区二区三区蜜桃| 黑色丝袜秘书夹住巨龙摩擦| 亚洲综合伊人制服丝袜美腿| 国产肥熟女视频一区二区三区| 久久精品国产一区二区蜜芽| 久久综合久中文字幕青草| 国产极品裸体av在线激情网| 亚洲色精品aⅴ一区区三区| 亚州精品无码久久aV字幕| 国产白浆流出一区二区| 激情综合五月婷婷久久| 国语精品一区二区三区| 国产女高清在线看免费观看| 亚洲国产人成自精在线尤物| 久久精品网站免费观看| 亚洲精品久久久久久久久av无码| 久久精品性无码一区二区爱爱 | 五月色丁香婷婷网蜜臀av| 99国内精品久久久久久久| 五月婷网站| 国产精品亚洲二区在线| 免费国产黄网站在线观看视频| 小sao货水好多真紧h视频| 国产360激情盗摄一区在线观看| 国产三级精品三级在线专区2| 欧美精品亚洲精品日韩专区| 亚洲欧美另类自拍| 久久天天躁狠狠躁夜夜中文字幕 | 日本高清一区二区三区在线观看| 国产亚洲2021成人乱码| 综合精品欧美日韩国产在线 | 日韩精品一区二区免费| 国产在线观看无码免费视频|