亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于糊模ID3算法的高校學(xué)生流失數(shù)據(jù)挖掘研究

        2014-04-29 00:44:03趙永暉
        計(jì)算機(jī)時(shí)代 2014年3期
        關(guān)鍵詞:決策樹數(shù)據(jù)挖掘

        趙永暉

        摘 要: 目前高校不斷擴(kuò)招,生源卻逐漸減少,于是預(yù)防和減少學(xué)生流失正成為各高校必須面對(duì)的問題。通過對(duì)高校學(xué)生流失情況進(jìn)行數(shù)據(jù)挖掘,可發(fā)現(xiàn)一些有價(jià)值的信息,為解決高校學(xué)生流失問題提供幫助。基于糊模理論提出了糊模ID3算法,并將該算法運(yùn)用于分析高校學(xué)生流失原因之中。通過實(shí)驗(yàn)證明,該算法生成的決策樹更加合理,分類速度更快,為解決高校學(xué)生流失問題提供了理論依據(jù)。

        關(guān)鍵詞: 學(xué)生流失; 數(shù)據(jù)挖掘; 糊模ID3算法; 決策樹

        中圖分類號(hào):TP311.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2014)03-36-02

        0 引言

        我國(guó)高等教育歷經(jīng)十多年的改革發(fā)展,各高校不斷擴(kuò)大招生規(guī)模,學(xué)校也越來越多,而參加高考的人數(shù)近年來卻逐漸減少,所以生源競(jìng)爭(zhēng)日趨激烈,生源質(zhì)量也有所下降,同時(shí),學(xué)生流失在當(dāng)前各高校是一個(gè)十分普遍的現(xiàn)象,這些對(duì)高校的管理和教學(xué)是一個(gè)挑戰(zhàn),而如何預(yù)防和減少學(xué)生的流失則成為各高校需要迫切解決的問題[1]。

        高校在發(fā)展的同時(shí),也積累了大量的學(xué)生個(gè)人信息數(shù)據(jù)。在這些海量的數(shù)據(jù)中隱藏著一些內(nèi)在的聯(lián)系和規(guī)律,對(duì)分析研究高校學(xué)生流失的原因有很大的幫助。從海量數(shù)據(jù)中挖掘出有價(jià)值的信息,是預(yù)防和減少學(xué)生流失的一個(gè)重要手段。傳統(tǒng)的統(tǒng)計(jì)分析方法,只能獲取一些表面的信息,有很大的局限性,分析和預(yù)測(cè)的結(jié)果不夠理想。

        目前,以ID3算法為代表的決策樹算法是數(shù)據(jù)挖掘中一種重要的方法,該算法是1986年由Quinlan提出的[2],但該算法對(duì)不精確、不確定信息的處理能力較弱。糊模ID3算法基于糊模理論提出對(duì)ID3算法的一種推廣,綜合了模糊理論和決策樹的優(yōu)點(diǎn),不僅具有很強(qiáng)的分類處理能力,而且能很好地處理模糊性和不確定性問題[3]。

        1 模糊決策樹

        1.1 ID3算法

        決策樹的算法中最典型的是ID3學(xué)習(xí)算法,它采用分治策略,通過遞歸構(gòu)造決策樹,在樹的結(jié)點(diǎn)上采用信息增益最大的屬性作為分枝屬性,具有容易理解、處理速度快等優(yōu)點(diǎn)。

        1.2 糊模ID3算法

        模糊決策樹學(xué)習(xí)算法有很多,比較常見的是糊模ID3算法,它是模糊理論在ID3算法中的運(yùn)用,主要用于處理模糊和不確定的信息。它也采用了分治策略,在構(gòu)造模糊決策樹時(shí),選取最小模糊信息熵作為節(jié)點(diǎn)屬性選擇標(biāo)準(zhǔn)。

        設(shè)有經(jīng)過模糊后的示例集合V={V1,V2,…,Vn},模糊特征屬性A={A1,A2,…,Am},模糊類屬性C={C1,C2,…,Cj},每個(gè)屬性Ai的屬性值K(Ai)={ai1,ai2,…,aiki}(i=1,2,…,m),隸屬度umn表示第m個(gè)示例Vm關(guān)于第n個(gè)屬性的值,它是K(Am)上的模糊子集。

        對(duì)于數(shù)據(jù)集V的信息增益G(Ai,V)的計(jì)算公式如下:

        公式⑴

        其中,,j為分類個(gè)數(shù),。

        構(gòu)建模糊決策樹過程如下:選取一個(gè)結(jié)點(diǎn)中的任一個(gè)屬性值A(chǔ)i,根據(jù)公式⑴計(jì)算出每個(gè)屬性Ai對(duì)于數(shù)據(jù)集V的信息增益G(Ai,V),從所有屬性值中選取最大信息增益的屬性作為測(cè)試屬性,根據(jù)這個(gè)屬性進(jìn)行模糊分割,得到其他節(jié)點(diǎn),并依次判別是否葉子節(jié)點(diǎn),重復(fù)以上的過程,直到每一個(gè)結(jié)點(diǎn)都是葉子為止。

        葉子節(jié)點(diǎn)產(chǎn)生的條件:①測(cè)試屬性全部用完;②當(dāng)前節(jié)點(diǎn)的模糊分割的隸屬度之和小于給定的閾值α;③當(dāng)前節(jié)點(diǎn)中僅包含一類的示例。

        2 利用模糊決策樹分析學(xué)生流失

        各高校都有學(xué)生信息管理系統(tǒng),積累了大量的學(xué)生考試成績(jī)數(shù)據(jù)和其他學(xué)生基本情況信息,這為數(shù)據(jù)挖掘提供了基礎(chǔ)條件。通過把糊模決策樹算法運(yùn)用于學(xué)生信息數(shù)據(jù)庫(kù)中,利用數(shù)據(jù)挖掘技術(shù),挖掘出有價(jià)值的信息,以供分析學(xué)生流失的原因。

        2.1 數(shù)據(jù)模糊化處理

        分析學(xué)生流失的原因,勢(shì)必要討論評(píng)測(cè)學(xué)生的各項(xiàng)指標(biāo),如學(xué)生專業(yè)課考試成績(jī)、大學(xué)英語(yǔ)、技能水平和性別等。其中專業(yè)課考試成績(jī)、大學(xué)英語(yǔ)是百分制數(shù)據(jù),比較特殊,是離散型數(shù)據(jù)。

        在以往的數(shù)據(jù)挖掘過程中,離散型數(shù)據(jù)劃分成若干個(gè)區(qū)間,得到一個(gè)符號(hào)類屬性,但在臨界處會(huì)突變,從而增加誤差。如規(guī)定大學(xué)英語(yǔ)成績(jī)?cè)?0到100之間為優(yōu),若甲學(xué)生的成績(jī)?yōu)?0分,評(píng)價(jià)為優(yōu),而乙同學(xué)成績(jī)?yōu)?9分,評(píng)價(jià)為良,其實(shí)兩個(gè)同學(xué)成績(jī)非常接近,英語(yǔ)水平相差無幾,現(xiàn)強(qiáng)行區(qū)分成兩個(gè)等級(jí),很明顯增加了誤差。這是采用決策樹ID3算法的一個(gè)缺點(diǎn),所以對(duì)于模糊數(shù)據(jù),采用糊糊決策樹算法是比較科學(xué)。

        本文的原始數(shù)據(jù)是我校2006級(jí)到2010級(jí)學(xué)生的成績(jī)和相關(guān)一些基本情況信息,主要包括學(xué)生的姓名、性別、身份證號(hào)、地址、民族、籍貫、各門功課的成績(jī)、技能成績(jī)等。收集數(shù)據(jù)后,把各門功課的成績(jī)求出平均值作為學(xué)生的專業(yè)課成績(jī),抽取了一部分作為訓(xùn)練集,同時(shí)根據(jù)分析學(xué)生流失原因的需要,去掉了學(xué)生的民族、籍貫和地址等一些與流失不太相關(guān)的屬性,并對(duì)數(shù)據(jù)進(jìn)行了模糊化處理,處理后得到數(shù)據(jù)如表1所示。

        表1 模糊處理后的訓(xùn)練集(學(xué)生信息表)

        [編號(hào)\&性別\&專業(yè)成績(jī)\&專業(yè)技能\&文理科\&是否流失\&男\&女\&優(yōu)\&良\&中\&差\&強(qiáng)\&中\&弱\&文\&理\&是\&否\&1\&0\&0\&0.7\&0.2\&0.1\&0\&0.1\&0.6\&0.3\&0\&1\&0\&1\&2\&1\&0\&0.1\&0.7\&0.2\&0.1\&0.7\&0.1\&0.2\&1\&0\&0\&1\&3\&1\&0\&0.8\&0.1\&0.1\&0\&0.3\&0.6\&0.1\&1\&0\&0\&1\&4\&0\&1\&0.8\&0.1\&0\&0.1\&0.1\&0.2\&0.7\&0\&1\&0\&1\&5\&1\&0\&0.5\&0.2\&0.1\&0.2\&0.2\&0.3\&0.5\&0\&1\&1\&0\&6\&0\&1\&0.7\&0.2\&0.1\&0\&0.1\&0.3\&0.6\&0\&1\&0\&1\&7\&1\&1\&0.6\&0.2\&0.1\&0.1\&0.5\&0.3\&0.2\&0\&1\&0\&1\&8\&0\&1\&0.6\&0.2\&0.1\&0.1\&0.8\&0.1\&0.1\&1\&0\&0\&1\&9\&1\&0\&0.1\&0.2\&0.6\&0.1\&0.4\&0.1\&0.5\&0\&1\&1\&0\&……\&90\&1\&0\&0.8\&0.2\&0\&0\&1\&0\&0\&0\&1\&1\&0\&]

        2.2 構(gòu)造模糊決策樹

        采用1.2節(jié)介紹的構(gòu)建模糊決策樹過程構(gòu)造模糊決策樹,閾值α=0.7。由于計(jì)算過程比較復(fù)雜,在這里不詳細(xì)敘述,僅給出糊模ID3算法生成的部分模糊決策樹,如圖1所示。

        [D\&專業(yè)成績(jī)\&][D∩優(yōu)\&0.89\&][D∩良\&專業(yè)技能\&][D∩中\&0.34\&][D∩差\&0.27\&] [優(yōu)][良][中] [差][0.72\&][0.90\&][0.46\&] [強(qiáng)][中][弱]

        圖1 部分模糊決策樹

        2.3 決策推理

        一個(gè)嚴(yán)格決策樹可以轉(zhuǎn)變成一個(gè)規(guī)則集合[4]。模糊決策樹與ID3決策樹一樣可以轉(zhuǎn)變成相應(yīng)的模糊規(guī)則。從根節(jié)點(diǎn)開始,沿著決策樹的分支,通過屬性值向下搜索到葉節(jié)點(diǎn),即為一個(gè)規(guī)則。輸入一個(gè)樣本,依次從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的順序進(jìn)行決策,由于模糊決策樹中的樣本可能同時(shí)被劃分到多個(gè)葉節(jié)點(diǎn)上,因此結(jié)果為[0 1]之間的隸屬度。

        在本例中,根據(jù)模糊決策樹轉(zhuǎn)換得到的一組模糊規(guī)則挖掘到一些有價(jià)值的信息。

        專業(yè)成績(jī)優(yōu)秀學(xué)生流失可能性小,這是因?yàn)閷I(yè)成績(jī)優(yōu)秀的學(xué)生學(xué)習(xí)興趣高,自信心足,學(xué)習(xí)目標(biāo)明確。專業(yè)技能強(qiáng)但專業(yè)成績(jī)良的學(xué)生也不太會(huì)流失,主要原因是這類學(xué)生動(dòng)手能力強(qiáng),學(xué)習(xí)技能熱情高,就業(yè)前景好。專業(yè)成績(jī)中等,專業(yè)技能一般的學(xué)生流失與不流失概率差不多,因此這部分學(xué)生是最需要關(guān)注的,要及時(shí)指導(dǎo)他們的學(xué)習(xí),培養(yǎng)其學(xué)習(xí)興趣,加強(qiáng)溝通,了解原因,防止學(xué)生流失。專業(yè)成績(jī)和技能都比較差的學(xué)生流失可能性最大,主要原因是對(duì)專業(yè)不感興趣,學(xué)習(xí)動(dòng)力不足,基礎(chǔ)較差等。

        2.4 實(shí)驗(yàn)結(jié)果比較與分析

        為了驗(yàn)證本文提出的模糊決策樹算法的有效性,針對(duì)表1中模糊處理后的高校學(xué)生流失數(shù)據(jù)信息,分別采有ID3算法和糊模ID3算法進(jìn)行了分析,結(jié)果如表2所示。其實(shí)驗(yàn)環(huán)境如下:Intel Core(TM2) Duo CPU 1.83GHz,2G內(nèi)存,Windows Vista,Matlab7.0[5]。

        表2 實(shí)驗(yàn)結(jié)果

        [算法名稱\&訓(xùn)練精度\&測(cè)試精度\&運(yùn)行時(shí)間/s\&ID3算法\&0.86%\&0.72\&9.7\&糊模ID3算法\&0.84%\&0.79\&7.6\&]

        實(shí)驗(yàn)結(jié)果表明,在測(cè)試精度和運(yùn)行時(shí)間兩個(gè)方面糊模ID3算法比ID3算法更優(yōu)。由于ID3算法與訓(xùn)練數(shù)據(jù)過度適應(yīng),ID3算法比糊模ID3算法的訓(xùn)練精度更高。在各種現(xiàn)象中,往往存在著許多事物,不能簡(jiǎn)單劃分到某一個(gè)區(qū)間,存在著不確定性,而糊模ID3算法能很好地體現(xiàn)不確性。ID3算法由于生成規(guī)則是明確的,沒有反映出不確定性,所以糊模ID3算法具有較強(qiáng)的分類能力及穩(wěn)健性,規(guī)則以一定的隸屬度表示,知識(shí)的表示更為自然,更加容易理解。

        3 結(jié)束語(yǔ)

        為了解決ID3算法對(duì)不精確、不確定信息的處理能力較弱的問題,基于糊模理論提出了糊模ID3算法,并將算法應(yīng)用于高校學(xué)生流失原因分析和預(yù)測(cè),并利用我校的學(xué)生信息數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,糊模ID3算法用于高校學(xué)生流失原因分析中,生成的決策樹更加合理,精度和速度更優(yōu),知識(shí)的表示更為自然,更容易理解。這些優(yōu)勢(shì)能很好地為高校管理提供準(zhǔn)確的學(xué)生流失信息,為預(yù)防和減少學(xué)生流失提供了強(qiáng)而有力的理論依據(jù)。

        參考文獻(xiàn):

        [1] 楊清波.高校學(xué)生流失問題分析及對(duì)策[J].科學(xué)咨詢(科技·管理),

        2012.10:12-13

        [2] Quinkm J R.Induction of decision tree[J]. Machine Learning,

        1986.1(1):81-106

        [3] 楊斷利,張銳,王文顯.基于模糊決策樹的高校就業(yè)數(shù)據(jù)挖掘研究[J].

        河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2012.35(2):111-113

        [4] 張朝杰.一種基于模糊決策樹的軟件工作量估算方法[D].國(guó)防科學(xué)技

        術(shù)大學(xué),2010:21-22

        [5] 張化光,劉鑫蕊,孫秋野.MATLIB/SIMULINK實(shí)用教程[M].人民郵電

        出版社,2009.

        猜你喜歡
        決策樹數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于改進(jìn)決策樹的故障診斷方法研究
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        基于決策樹的出租車乘客出行目的識(shí)別
        基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        精品av一区二区在线| 免费中文熟妇在线影片| 亚洲欧美日韩中文在线制服| 无码人妻一区二区三区在线| 中国女人做爰视频| 艳妇乳肉豪妇荡乳av无码福利 | 一进一出一爽又粗又大| 236宅宅理论片免费| 四虎国产精品免费久久麻豆| 日本高清在线一区二区| 狠色人妻丝袜中文字幕| 一二区成人影院电影网| 五月天激情婷婷婷久久| 久久久久麻豆v国产精华液好用吗| 岛国精品一区二区三区| 久久夜色精品国产亚洲av老牛| 亚洲成年国产一区二区| 亚洲熟妇av一区| 黑人玩弄人妻中文在线| 国产精品98福利小视频| 亚洲国产综合一区二区| 国产在线一区二区三区四区| 中文无码精品a∨在线观看不卡| 国产女合集小岁9三部| 中文字幕日本人妻一区| 五月婷婷开心五月激情| 国产无遮挡又黄又爽高潮| 被群cao的合不拢腿h纯肉视频| 在线a人片免费观看国产| 亚洲国产日韩综合天堂| 亚洲一区在线观看中文字幕| 人妻无码一区二区视频| 九九99国产精品视频| 久久国产精品懂色av| 中国久久久一级特黄久久久| 97夜夜澡人人双人人人喊| 久久人妻AV无码一区二区| 东京道一本热码加勒比小泽| 国产精品高清视亚洲乱码| 国产福利视频在线观看| 国产精品久久久久久2021|