亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術(shù)在教學(xué)中的應(yīng)用研究

        2013-04-26 03:22:06劉志嫵
        關(guān)鍵詞:結(jié)點(diǎn)決策樹分支

        劉志嫵

        (沈陽理工大學(xué)信息科學(xué)與工程學(xué)院,遼寧沈陽 110159)

        隨著海量數(shù)據(jù)收集、強(qiáng)大的多處理器計(jì)算機(jī)和數(shù)據(jù)挖掘算法三種基礎(chǔ)技術(shù)的發(fā)展成熟,數(shù)據(jù)挖掘技術(shù)在商業(yè)及電子商務(wù)應(yīng)用中已經(jīng)大量投入使用。目前隨著高等教育改革的不斷深入,數(shù)據(jù)挖掘技術(shù)正在向該領(lǐng)域發(fā)展。

        高等教育的重點(diǎn)是提高教育質(zhì)量,為社會培養(yǎng)具有綜合素質(zhì)的復(fù)合型人才。而提高學(xué)生成績是衡量教學(xué)質(zhì)量的主要依據(jù)之一,也是評價(jià)學(xué)生對知識的掌握程度的重要標(biāo)志之一,因此,通過對學(xué)生成績進(jìn)行預(yù)測分析,可以為教學(xué)管理者深化教學(xué)改革,合理安排教學(xué)計(jì)劃,提高教學(xué)質(zhì)量提供重要依據(jù)。

        數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢和統(tǒng)計(jì)的功能,但卻無法發(fā)現(xiàn)海量數(shù)據(jù)中隱藏的關(guān)系和規(guī)則。而采用數(shù)據(jù)挖掘技術(shù),可以從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏的知識和規(guī)律。

        各學(xué)校多年來積累了大量的學(xué)生成績數(shù)據(jù),將數(shù)據(jù)挖掘技術(shù)應(yīng)用于成績預(yù)測分析,可以對其進(jìn)行全面分析,找到潛在的影響學(xué)生成績的因素,使教學(xué)管理者可以得到許多有價(jià)值的信息和知識,并利用其提高教學(xué)質(zhì)量和教學(xué)管理水平。

        目前數(shù)據(jù)挖掘技術(shù)在教學(xué)領(lǐng)域中的應(yīng)用在逐漸增多,例如將數(shù)據(jù)挖掘技術(shù)用于學(xué)生綜合排名的分析[1],有的用于試卷分析[2],也有用于學(xué)生的文理分科的分析[3]。

        本文主要研究用數(shù)據(jù)挖掘中的決策樹算法,對學(xué)校的學(xué)生成績數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,建立學(xué)生成績的預(yù)測分析模型及分類規(guī)則,力求找到基礎(chǔ)課、專業(yè)基礎(chǔ)課及專業(yè)課之間潛在的聯(lián)系,并用實(shí)例進(jìn)行驗(yàn)證。

        1 決策樹C4.5算法

        1.1 決策樹方法

        決策樹方法是利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個(gè)結(jié)點(diǎn),再根據(jù)該屬性字段的不同取值建立樹的分支。每個(gè)分支子集中重復(fù)建立樹的下層結(jié)點(diǎn)和分支的過程[4]。采用決策樹,可以將數(shù)據(jù)規(guī)則可視化,不需要長時(shí)間的構(gòu)造過程,實(shí)際應(yīng)用中的決策樹可能很復(fù)雜,但每一條從根結(jié)點(diǎn)到葉結(jié)點(diǎn)的路徑的含義仍然是可以理解的。決策樹的這種易于理解性,對于數(shù)據(jù)挖掘的使用者來說是一個(gè)顯著的優(yōu)點(diǎn),因此決策樹方法在知識發(fā)現(xiàn)系統(tǒng)中應(yīng)用較廣泛。

        決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類。該方法的思路就是從訓(xùn)練集數(shù)據(jù)中,自動地構(gòu)造決策樹,從而可以根據(jù)這個(gè)決策樹對任意實(shí)例進(jìn)行判定。決策樹可分為分類樹和回歸樹兩種,分類樹對離散變量做決策樹,而回歸樹是對連續(xù)變量做決策樹。決策樹算法的核心是確定分支準(zhǔn)則,即如何從眾多的屬性中選擇一個(gè)最佳的分支屬性。

        最早的決策樹算法是由Hunt等人[5]于1966年提出的概念學(xué)習(xí)系統(tǒng)CLS(Concept Learn System),CLS的不足之處是它處理的問題不能太大,為此Quinlan于1986年提出了ID3算法,ID3只能處理離散型描述屬性,Quinlan于1993年又提出了能處理連續(xù)屬性的C4.5算法。C4.5算法是ID3的改進(jìn)算法,不僅可以處理離散型描述屬性,還能處理連續(xù)型描述屬性[5]。本文根據(jù)需求確定分析目標(biāo),采用C4.5算法建立決策樹分析模型和分類規(guī)則,很好地對學(xué)生成績進(jìn)行預(yù)測分析。

        1.2 決策樹C4.5算法

        決策樹C4.5算法用信息增益比作為選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中分支屬性的評價(jià)標(biāo)準(zhǔn),克服了ID3算法使用信息增益選擇屬性時(shí)偏向于取值較多的屬性的不足。其處理數(shù)據(jù)的過程如下。

        1)元數(shù)據(jù)預(yù)處理

        通過ETL將所有的元數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)倉庫,如果元數(shù)據(jù)是連續(xù)型,則應(yīng)離散化處理。

        2)算每個(gè)屬性的信息增益和信息增益率計(jì)算過程如下:

        (1)計(jì)算每個(gè)訓(xùn)練集分類信息的期望值

        設(shè)訓(xùn)練數(shù)據(jù)集為T,在T中類別標(biāo)識屬性有m個(gè)獨(dú)立的取值,即定義了m個(gè)分類Ci,i=1,2,3,...,m,Ri為數(shù)據(jù)集 T 中屬于 Ci類的子集,ri是Ri中元組的數(shù)量,則T在分類中的期望信息量可由式(1)計(jì)算。

        (2)計(jì)算屬性A的信息熵

        假設(shè)屬性A具有n個(gè)不同的取值{a1,a2,…,an},則通過屬性A的取值將數(shù)據(jù)集T劃分為n個(gè)子集,其中Tj表示在數(shù)據(jù)集T中屬性A的取值為aj(j=1,2,…,n)的子集,如果 A 被選為決策屬性,則這些子集將對應(yīng)該結(jié)點(diǎn)的不同分支。

        用 Tij表示 Tj子集中屬于 Ci(i=1,2,3,…,m)類的元組數(shù),則屬性A對于分類Ci的熵可由式(2)計(jì)算。

        屬性A的每個(gè)取值對分類Ci的期望信息量計(jì)算如下:

        (3)計(jì)算屬性A的信息增益

        屬性A為分類提供的信息量就是屬性A的信息增益,由式(4)計(jì)算:

        (4)計(jì)算信息增益率

        信息增益率定義如下:

        必須用式(5)對每個(gè)屬性(A,B,C,…)計(jì)算增益率。

        3)構(gòu)造決策樹

        信息增益率是選擇決策樹分裂屬性的基礎(chǔ),擁有最大增益率的屬性將被選擇作為決策樹的分支屬性。將要構(gòu)建決策樹的訓(xùn)練集T,按照計(jì)算的增益率劃分成n個(gè)子集。如果第i個(gè)子集Ti中所有的元組類別相同,該節(jié)點(diǎn)將成為決策樹的葉結(jié)點(diǎn),并停止分裂。訓(xùn)練集T中不符合上述條件的其它子集將繼續(xù)遞歸分割構(gòu)造樹的分支,直到所有的子集中的元組屬于同一類別。生成決策樹后,可以從樹中提取規(guī)則,用于對新的數(shù)據(jù)集進(jìn)行分類。

        2 實(shí)例分析

        2.1 學(xué)生成績的元數(shù)據(jù)

        以學(xué)校的工業(yè)電氣自動化專業(yè)學(xué)生一些課程成績數(shù)據(jù)為例,通過數(shù)據(jù)挖掘分析,找到各科成績的內(nèi)在聯(lián)系,從而有的放矢,提高學(xué)生的整體學(xué)習(xí)質(zhì)量。學(xué)生成績數(shù)據(jù)庫包含學(xué)生序號(SNO),和某些主要課程的分?jǐn)?shù)。例如:電工基礎(chǔ)(記為FEE)、電機(jī)與拖動(記為EMD)、自動控制原理(記為ACP),自動控制系統(tǒng)(記為ACS)和高等數(shù)學(xué)(記為HM),部分?jǐn)?shù)據(jù)列于表1。

        2.2 數(shù)據(jù)預(yù)處理

        為了便于進(jìn)行數(shù)據(jù)挖掘,對表1中的數(shù)據(jù)進(jìn)行規(guī)范化,將小于60分的成績用0表示,大于等于60分的成績用1表示,結(jié)果將表1轉(zhuǎn)換為一個(gè)數(shù)據(jù)只有0和1的表。

        從所有學(xué)生數(shù)據(jù)中抽樣作為數(shù)據(jù)訓(xùn)練集,共有210條記錄。其中各科及格人數(shù)和不及格人數(shù)統(tǒng)計(jì)如表2所示。

        表1 學(xué)生成績表 分?jǐn)?shù)

        表2 各門課成績統(tǒng)計(jì) 人數(shù)

        2.3 用C4.5算法構(gòu)造決策樹

        表2顯示了樣本訓(xùn)練集中,含有基于課程的五個(gè)分類,在每個(gè)類別中,根據(jù)成績的及格與否將學(xué)生人數(shù)分為兩個(gè)子集。

        課程ACS(自動控制系統(tǒng))被選為類別標(biāo)識屬性,其余課程作為決策屬性集。構(gòu)造決策樹的目的是發(fā)現(xiàn)課程ACS(自動控制系統(tǒng))與其它課程的內(nèi)在聯(lián)系。

        訓(xùn)練數(shù)據(jù)集中包含210個(gè)元組,其中ACS(自動控制系統(tǒng))所對應(yīng)的子集中的元組數(shù)為:及格人數(shù)r1=137,不及格人數(shù)r2=73。

        為了計(jì)算每個(gè)決策屬性的信息增益,首先要計(jì)算課程ACS(自動控制系統(tǒng))的期望信息量如下:

        進(jìn)一步統(tǒng)計(jì),其它作為決策屬性的任一課程與標(biāo)識屬性課程ACS的成績搭配情況,例如課程HM(高等數(shù)學(xué))成績及格(為1)且課程ACS(自動控制系統(tǒng))成績也及格(為1)的人數(shù)為110人,HM(高等數(shù)學(xué))成績及格(為1)且ACS(自動控制系統(tǒng))成績不及格(為0)的人數(shù)為52人,HM成績不及格(為0)且ACS成績及格(為1)的人數(shù)為27人,HM 成績不及格(為0)且ACS成績也不及格(為0)的人數(shù)為21人。其它課程成績與課程ACS的成績搭配情況,列于表3。而其它任兩門課程成績與標(biāo)識屬性課程ACS的成績搭配情況列于表4。其中只列出EMD(電機(jī)與拖動)和FEE(電工基礎(chǔ))兩門課成績與ACS成績的搭配情況。

        表3 兩門課程的成績搭配情況

        表4 三門課程的成績搭配情況

        按式(4),得決策屬性HM的信息增益為

        按式(5),可得決策屬性HM的信息增益率為

        用同樣的方法,可以對其它決策屬性進(jìn)行信息增益和信息增益率的計(jì)算。計(jì)算結(jié)果列于表5。

        表5 各門課程的信息增益和信息增益率

        由表5結(jié)果可知,決策屬性FEE(電工基礎(chǔ))的信息增益率最大,因此將該屬性選作決策樹的根結(jié)點(diǎn),并且因?yàn)镕EE屬性只有兩種取值:0(不及格)和1(及格),所以,從該結(jié)點(diǎn)可以分裂出兩個(gè)分支:一支為不及格(記為:分支0),另一支為及格的(記為:分支1)。由表3搭配4的數(shù)據(jù)可見,F(xiàn)EE和ACS都及格的人數(shù)為108人,占FEE及格人數(shù)(125人,參見表2)的比例為

        108/125=0.864

        它表示分支1的估計(jì)準(zhǔn)確率為86.4%,滿足設(shè)置的80% 的標(biāo)準(zhǔn),因此分支1可以停止分裂。

        在分支0中,F(xiàn)EE不及格人數(shù)為85人(見表2),F(xiàn)EE和ACS都不及格的人數(shù)為60人,準(zhǔn)確率為70.59%,不滿足要求,因此需要進(jìn)一步分裂。

        為確定下一個(gè)分支結(jié)點(diǎn),用上述方法計(jì)算除根結(jié)點(diǎn)之外的另三個(gè)屬性的信息增益率,結(jié)果顯示,屬性EMD具有最大的信息增益率,因此它被選擇為根結(jié)點(diǎn)的分支0的下一個(gè)分支結(jié)點(diǎn)。

        面對種種似是而非的說法,很多人無法弄清真相。應(yīng)該說,這不是老師們的問題。因?yàn)檎Z文本色教學(xué),不管怎樣系統(tǒng)全面,不管怎樣立足實(shí)際,它還只是一個(gè)教學(xué)主張,而不是具體的教學(xué)方法。為了推動語文課程改革的深入,也為了更好地滿足教師實(shí)踐本色語文教學(xué)主張的需要,我們必須總結(jié)出能體現(xiàn)語文本色教學(xué)主張的教學(xué)方法。

        同樣屬性EMD也有兩個(gè)取值0和1,所以也分裂為分支1和分支0。由表4可以看到,在FEE和EMD都不及格的學(xué)生中,有18人ACS成績不及格,有3人ACS成績及格,所以在EMD的分支0上,ACS不及格的估計(jì)準(zhǔn)確率為 18/21=85.7%。分支0滿足預(yù)先設(shè)定的標(biāo)準(zhǔn),可以停止分裂。

        在表3中也可以看到,在FEE不及格且EMD及格的學(xué)生中,有52人ACS成績及格,12人不及格,因此在EMD結(jié)點(diǎn)的分支1上,ACS及格的估計(jì)準(zhǔn)確率為:52/64=81.3%,分支1滿足預(yù)先設(shè)定的標(biāo)準(zhǔn),也可以停止分裂。則所構(gòu)造的決策樹如圖1所示。

        圖1 學(xué)生成績決策樹

        圖1中,結(jié)點(diǎn)X為電工基礎(chǔ)(FEE),結(jié)點(diǎn)Y為電機(jī)與拖動(EMD),結(jié)點(diǎn) Z1為自動控制系統(tǒng)(ACS)及格,結(jié)點(diǎn)Z0為自動控制系統(tǒng)(ACS)不及格。

        2.4 分類規(guī)則描述

        決策樹算法的主要優(yōu)勢就是可以用來直接抽取分類規(guī)則。對于圖1的決策樹從根結(jié)點(diǎn)到每個(gè)葉結(jié)點(diǎn)的路徑用IF…THEN的形式描述分類規(guī)則。這里僅以ACS屬性提取的分類規(guī)則描述如下:

        IF電工基礎(chǔ)成績及格THEN自動控制系統(tǒng)成績通常也及格,準(zhǔn)確率為86.4%,學(xué)生人數(shù)的覆蓋率為125/210=59.5%。

        IF電工基礎(chǔ)成績不及格 并且電機(jī)與拖動成績也不及格THEN自動控制系統(tǒng)成績通常不及格,準(zhǔn)確率為85.7%,學(xué)生人數(shù)的覆蓋率為21/210=10%。

        IF電工基礎(chǔ)成績不及格,但電機(jī)與拖動成績及格THEN自動控制系統(tǒng)成績一般及格,準(zhǔn)確率為81.25%,學(xué)生人數(shù)的覆蓋率為64/210=30.5%。

        因此,可以得出結(jié)論:學(xué)生的電工基礎(chǔ)課程學(xué)習(xí)的情況會嚴(yán)重影響到專業(yè)課自動控制系統(tǒng)的學(xué)習(xí)效果。學(xué)生的電機(jī)與拖動課程學(xué)習(xí)的情況也會影響到專業(yè)課自動控制系統(tǒng)的學(xué)習(xí)效果。因此,要使學(xué)生學(xué)好專業(yè)課自動控制系統(tǒng),必須重視電工基礎(chǔ)課程教學(xué)效果。那些電工基礎(chǔ)課不及格的學(xué)生,必須重視電機(jī)與拖動課程的學(xué)習(xí),才能在自動控制系統(tǒng)課程上取得好成績。

        3 結(jié)束語

        本文采用決策樹C4.5算法,對學(xué)生的基礎(chǔ)課、專業(yè)基礎(chǔ)課及專業(yè)課成績進(jìn)行分析,提出了提高學(xué)生的自動控制系統(tǒng)專業(yè)課程成績的決策樹模型,從而有助于教師有針對性的開展教學(xué)改革,提高授課質(zhì)量。實(shí)驗(yàn)表明,應(yīng)用該算法,構(gòu)造的決策樹結(jié)構(gòu)簡單,分類基本正確。本文是使用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在教學(xué)管理領(lǐng)域的一個(gè)嘗試,仍有一些問題需要進(jìn)一步研究和探索。

        [1]楊宇音,趙雅明,曲立敏.因子分析法在大學(xué)生綜合排名中的應(yīng)用[J].貴州大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,34(1):10 -13.

        [2]趙雅明,金祥林,劉志勇.因子分析法在試卷分析中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2005,14(???:94 -97.

        [3]武麗芬.改進(jìn)的決策樹算法在文理分科中的應(yīng)用研究[J].微計(jì)算機(jī)應(yīng)用,2011,32(8):7 -12.

        [4]陳志泊,韓慧,王建新.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2009:111-125.

        [5]廖開際,劉鳳英,胡建軍.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:北京大學(xué)出版社,2008:167-173.

        [6]王倩.決策樹在信息檢索中的性能研究[J].微計(jì)算機(jī)信息,2008,1(3):201 -208.

        猜你喜歡
        結(jié)點(diǎn)決策樹分支
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        巧分支與枝
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個(gè)數(shù)估計(jì)
        一類擬齊次多項(xiàng)式中心的極限環(huán)分支
        基于決策樹的出租車乘客出行目的識別
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        基于Raspberry PI為結(jié)點(diǎn)的天氣云測量網(wǎng)絡(luò)實(shí)現(xiàn)
        生成分支q-矩陣的零流出性
        碩果累累
        永久天堂网av手机版| 美女叉开双腿让男人插| 日韩在线精品免费观看| 亚无码乱人伦一区二区| 亚洲国产另类精品| 精品国产18禁久久久久久久| 亚洲成人色黄网站久久| 产美女被爽到高潮免费a| 久久精品国产色蜜蜜麻豆| 久久网视频中文字幕综合| aa视频在线观看播放免费| 亚洲国产精品国自产拍性色| 精品国内在视频线2019| 久久中文字幕av一区二区不卡| 在线观看中文字幕一区二区三区| 国产成人高清在线观看视频 | 91亚洲精品久久久中文字幕| 一区二区三区无码高清视频| 东北寡妇特级毛片免费| 精品少妇一区一区三区| 日本大片一区二区三区| 国产乱妇无码大片在线观看| 亚洲欧美精品伊人久久| 91精品国产综合久久青草| 久久蜜桃资源一区二区| 帮老师解开蕾丝奶罩吸乳网站| 初高中生精品福利视频| 亚洲综合天堂av网站在线观看| 久久人妻av无码中文专区| 热re99久久精品国产99热| 亚洲国产高清美女在线观看| 国产一区二区精品人妖系列在线| 无码精品人妻一区二区三区av| 精品十八禁免费观看| 激情偷拍视频一区二区| 国产精品一区二区av麻豆| 少妇邻居内射在线| 日本福利视频免费久久久| 男女av一区二区三区| 丰满老熟妇好大bbbbb| 完整在线视频免费黄片|