亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹(shù)算法在高校學(xué)生就業(yè)分析中的應(yīng)用研究

        2016-11-14 03:27:51張永雄余丙軍鄧志虹
        現(xiàn)代計(jì)算機(jī) 2016年29期
        關(guān)鍵詞:英語(yǔ)水平決策樹(shù)類(lèi)別

        張永雄,余丙軍,鄧志虹

        (1.廣州工商學(xué)院經(jīng)濟(jì)貿(mào)易系,廣州 510850;2.華南理工大學(xué)計(jì)算中心,廣州 510641)

        決策樹(shù)算法在高校學(xué)生就業(yè)分析中的應(yīng)用研究

        張永雄1,余丙軍2,鄧志虹1

        (1.廣州工商學(xué)院經(jīng)濟(jì)貿(mào)易系,廣州510850;2.華南理工大學(xué)計(jì)算中心,廣州510641)

        隨著大數(shù)據(jù)分析技術(shù)的快速發(fā)展,對(duì)于高校就業(yè)信息的海量數(shù)據(jù),如何有效地利用這些數(shù)據(jù),發(fā)掘有價(jià)值的知識(shí),是目前高校研究的熱點(diǎn)課題。提出一種利用決策樹(shù)算法分析就業(yè)信息的方法,并通過(guò)實(shí)例驗(yàn)證其可行性,為高校決策部門(mén)改進(jìn)教學(xué)管理提供有價(jià)值的參考方案。

        決策樹(shù);信息增益;準(zhǔn)確率

        2015廣東省青年創(chuàng)新人才類(lèi)項(xiàng)目(No.2015WQNCX160)

        0 引言

        近年來(lái),全球經(jīng)濟(jì)面臨下行壓力,隨著高校招生規(guī)模的擴(kuò)大,會(huì)導(dǎo)致畢業(yè)生就業(yè)形勢(shì)不樂(lè)觀,畢業(yè)生就業(yè)方式變得自主化和多元化。如何充分利用過(guò)去畢業(yè)生的就業(yè)信息資源,來(lái)挖掘有價(jià)值的信息,使得高校相關(guān)部門(mén)做出正確的決策,是目前高校研究的熱門(mén)課題。盡管數(shù)據(jù)挖掘技術(shù)在商業(yè)界上的應(yīng)用取得了顯著的效果,但在教育界上的應(yīng)用卻比較少。本文利用決策樹(shù)算法對(duì)電子商務(wù)專(zhuān)業(yè)畢業(yè)生的就業(yè)信息進(jìn)行分析,找出影響畢業(yè)生就業(yè)的主要因素及其之間的關(guān)系,為高校決策部門(mén)提供一種數(shù)據(jù)分析的可行方案。

        1 分類(lèi)分析與決策樹(shù)算法

        1.1分類(lèi)分析的概述

        分類(lèi)就是要把一個(gè)事件或?qū)ο髣澏ǖ浇o定的類(lèi)別上。例如,小額貸款公司可以根據(jù)收入水平、工作情況和教育程度等信息給客戶進(jìn)行信用風(fēng)險(xiǎn)的分析,確定客戶的風(fēng)險(xiǎn)等級(jí)。分類(lèi)的過(guò)程一般是包含兩個(gè)步驟:首先,分析已有的數(shù)據(jù),建立一個(gè)分類(lèi)的模型以描述數(shù)據(jù)屬性與類(lèi)別之間的對(duì)應(yīng)關(guān)系;其次,利用所獲得的分類(lèi)模型對(duì)新數(shù)據(jù)進(jìn)行類(lèi)別預(yù)測(cè)。

        在分類(lèi)分析過(guò)程中,對(duì)于分類(lèi)模型準(zhǔn)確率的分析是必不可少的。要使得一個(gè)分類(lèi)模型被認(rèn)可,那么分類(lèi)模型的準(zhǔn)確率必須要符合規(guī)定的要求。

        1.2決策樹(shù)算法

        決策樹(shù)是一個(gè)類(lèi)似流程圖的樹(shù)形結(jié)構(gòu)[1],決策樹(shù)分類(lèi)方法以樹(shù)的形式采用自上而下的方式給出分類(lèi)規(guī)則。決策樹(shù)包含兩類(lèi)節(jié)點(diǎn):內(nèi)部節(jié)點(diǎn)和葉子節(jié)點(diǎn)。其中,每個(gè)內(nèi)部節(jié)點(diǎn)代表對(duì)一個(gè)屬性的測(cè)試,該屬性是分裂屬性,這是由于根據(jù)該屬性的不同取值可以把數(shù)據(jù)分成不同的部分。

        使用決策樹(shù)方法一般分為兩個(gè)階段:一是決策樹(shù)構(gòu)建;二是決策樹(shù)剪枝。決策樹(shù)構(gòu)建是指訓(xùn)練集得到一個(gè)基礎(chǔ)的樹(shù)形結(jié)構(gòu)。但是,在決策樹(shù)構(gòu)建的過(guò)程中,會(huì)有許多由噪聲或異常數(shù)據(jù)所產(chǎn)生的分枝。因此,決策樹(shù)減枝就是識(shí)別并消除這些分枝,提高分類(lèi)的準(zhǔn)確性。

        本文采用信息增益方法的決策樹(shù)。信息論認(rèn)為:一個(gè)信息所表達(dá)的信息量取決于它的概率p,并且可以用-log2(p)表示其包含的信息量[2]。

        定義1 假設(shè)|T|是表示數(shù)據(jù)集T的記錄總數(shù),f(Ci,T)表示數(shù)據(jù)集中屬于類(lèi)別Ci的記錄總數(shù),則:

        定義2假設(shè)數(shù)據(jù)集T中的屬性D有k個(gè)不同的取值,那么可以把數(shù)據(jù)集T分為k個(gè)子集T1,T2,…,TK,則該屬性D的平均信息量為:

        定義3根據(jù)屬性D對(duì)數(shù)據(jù)集T的劃分,信息增益為:

        構(gòu)建決策樹(shù)的基本過(guò)程是[3]:創(chuàng)建一個(gè)節(jié)點(diǎn)N,如果該節(jié)點(diǎn)中的所有樣本均為同一個(gè)類(lèi)別C,那么返回N作為一個(gè)葉子節(jié)點(diǎn),并標(biāo)記為類(lèi)別C;如果候選集為空,那么返回N作為一個(gè)葉子節(jié)點(diǎn)并標(biāo)記為默認(rèn)類(lèi)別C_default。從候選屬性集中選擇最優(yōu)分裂屬性D,把節(jié)點(diǎn)N標(biāo)記為D,然后從候選集中刪除D,對(duì)于D中的每一個(gè)取值,都要建立測(cè)試分枝。遞歸以上過(guò)程,直到當(dāng)前節(jié)點(diǎn)所有樣本均為同一類(lèi)別,或者候選集為空,標(biāo)記該節(jié)點(diǎn)為默認(rèn)類(lèi)別,或者某一分枝沒(méi)有符合測(cè)試條件的樣本,創(chuàng)建一個(gè)葉子節(jié)點(diǎn)并將其標(biāo)記為默認(rèn)類(lèi)別。

        2 決策樹(shù)在就業(yè)分析中的應(yīng)用

        2.1數(shù)據(jù)采集

        高校對(duì)每一年的畢業(yè)生都有數(shù)據(jù)的統(tǒng)計(jì),本文在眾多的數(shù)據(jù)屬性中,選一些用人企業(yè)較為關(guān)心的屬性作為研究?jī)?nèi)容。本文選取畢業(yè)生中性別、專(zhuān)業(yè)綜合成績(jī)、英語(yǔ)水平、計(jì)算機(jī)等級(jí)、專(zhuān)業(yè)技能等級(jí)、社團(tuán)經(jīng)驗(yàn)(含學(xué)生會(huì))和畢業(yè)生起薪作為研究的數(shù)據(jù)屬性。在電子商務(wù)專(zhuān)業(yè)應(yīng)屆畢業(yè)生中隨機(jī)選取11名學(xué)生的信息作為研究的數(shù)據(jù)集。

        2.2數(shù)據(jù)清洗和轉(zhuǎn)換

        在采集的數(shù)據(jù)中,必須對(duì)數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換。例如,在專(zhuān)業(yè)綜合成績(jī)里,教務(wù)信息系統(tǒng)導(dǎo)出來(lái)的數(shù)據(jù)是學(xué)生各門(mén)課程的成績(jī),那么需要取其平均成績(jī),80分以上為良好及以上,60到80(不含)為及格。本文研究的是畢業(yè)生起薪與各項(xiàng)屬性的關(guān)系情況,把畢業(yè)生起薪作為類(lèi)別,分為三類(lèi),分別是A1,A2和A3,其中,A1表示少于2000元,A2表示2000(含)到3500元,A3表示3500(含)元以上。所以,經(jīng)過(guò)清洗和轉(zhuǎn)換后的數(shù)據(jù)如表1所示。

        表1 學(xué)生樣本就業(yè)信息表

        2.3構(gòu)建決策樹(shù)

        根據(jù)前面的定義可知,首先計(jì)算數(shù)據(jù)集T的平均信息量:

        然后,計(jì)算每一個(gè)決策屬性的期望信息量。如英語(yǔ)水平的期望信息量為:

        所以,屬性“英語(yǔ)水平”的信息增益為:

        gain(英語(yǔ)水平)=info(T)-info英語(yǔ)水平(T)=0.845351

        同理,可算出屬性性別,專(zhuān)業(yè)綜合成績(jī),計(jì)算機(jī)等級(jí),專(zhuān)業(yè)技能等級(jí),社團(tuán)經(jīng)驗(yàn)的信息增益分別為

        gain(性別)=0.060879;

        gain(專(zhuān)業(yè)綜合成績(jī))=0.1831498;

        gain(計(jì)算機(jī)等級(jí))=0.0790364;

        gain(專(zhuān)業(yè)技能等級(jí))=0.1943273;

        gain(社團(tuán)經(jīng)驗(yàn))=0.2426972;

        通過(guò)比較,可知英語(yǔ)水平的信息增益是最大的,因此,最優(yōu)分裂屬性為“英語(yǔ)水平”。由于當(dāng)英語(yǔ)水平為四級(jí)時(shí),所有的樣本都屬于同一類(lèi)別,所以為該分枝創(chuàng)建一個(gè)葉子節(jié)點(diǎn),標(biāo)記為類(lèi)別“A3”。

        接下來(lái),對(duì)英語(yǔ)水平為二級(jí)B的數(shù)據(jù)組成的節(jié)點(diǎn)進(jìn)一步選擇分裂屬性,此時(shí)需要重新計(jì)算數(shù)據(jù)集的熵。通過(guò)遞歸以上步驟,最后生成的決策樹(shù)如圖1所示。

        2.4規(guī)則知識(shí)描述

        通過(guò)圖1可以提取分類(lèi)規(guī)則,從根節(jié)點(diǎn)向下到每個(gè)葉子節(jié)點(diǎn)所進(jìn)過(guò)的路徑都可以提取一條分類(lèi)規(guī)則。提出的規(guī)則如下:

        (1)IF(英語(yǔ)水平=四級(jí))THEN畢業(yè)生起薪=A3(即工資大于或者等于3500元)

        圖1 學(xué)生樣本的決策樹(shù)

        (2)IF(英語(yǔ)水平=二級(jí)B)AND(社團(tuán)經(jīng)驗(yàn)=有)THEN畢業(yè)生起薪=A2(即工資介于2000到3500元之間)

        (3)IF(英語(yǔ)水平=二級(jí)B)AND(社團(tuán)經(jīng)驗(yàn)=無(wú))AND(專(zhuān)業(yè)技能等級(jí)=高級(jí))THEN畢業(yè)生起薪=A2(即工資介于2000到3500元之間)

        (4)IF(英語(yǔ)水平=二級(jí)B)AND(社團(tuán)經(jīng)驗(yàn)=無(wú))AND(專(zhuān)業(yè)技能等級(jí)=中級(jí))THEN畢業(yè)生起薪=A2(即工資少于2000元)

        從以上規(guī)則可知,對(duì)于電子商務(wù)專(zhuān)業(yè)的學(xué)生來(lái)說(shuō),如果英語(yǔ)水平是四級(jí)以上的,工資普遍都比較高,其次,企業(yè)比較重視學(xué)生的社會(huì)實(shí)踐經(jīng)驗(yàn),接著才是專(zhuān)業(yè)技能等級(jí)。

        3 結(jié)語(yǔ)

        本文利用決策樹(shù)算法建立了一個(gè)簡(jiǎn)單的學(xué)生就業(yè)信息分析模型。該模型能較好地反映出目前企業(yè)需要具有哪些技能的電子商務(wù)專(zhuān)業(yè)學(xué)生,為學(xué)校及教研室對(duì)課程的改革,教學(xué)管理的改進(jìn)都有非常好的參考價(jià)值。但是,由于樣本量少,模型并非完全反映出企業(yè)的真實(shí)人才需要。該模型通過(guò)k倍交叉驗(yàn)證法[4]進(jìn)行準(zhǔn)確率的評(píng)估,得到65%的準(zhǔn)確率,這個(gè)準(zhǔn)確度不算理想,也許是樣本量太小或者由其他因素造成。盡管如此,本文給出了一種利用決策樹(shù)分析高校學(xué)生就業(yè)信息的可行方法,為高校相關(guān)部分進(jìn)行教學(xué)管理改革提供了有效的參考方案。

        [1]Breiman L,F(xiàn)riedman J,Olshen R,et al.Classification and Regression Trees[M].1984,Nibterey,CA:Wadsworth and Brooks.

        [2]Quinlan J R.C4.5 Programs for Machine Learning[M].1993:Morgan Kaufmann.

        [3]MEHMED K,閃四清等譯.數(shù)據(jù)挖掘——概念、模型、方法和算法[M].北京:清華大學(xué)出版社

        [4]毛國(guó)君,段立娟,王實(shí).數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué),2007

        Decision Tree;Information Gain;Accuracy Rate

        Research on the Application of Decision Tree Algorithm in College Students' Employment Analysis

        ZHANG Yong-xiong1,YU Bing-jun2,Deng Zhi-hong1
        (1.Department of Economy and Trade,Guangzhou College of Technology and Business,Guangzhou 510850;2.Computing Center,South China University of Technology,Guangzhou 510641)

        With the rapid development of large data analysis technology,the massive data of employment information for colleges and universities,how to effectively use these data to explore the value of knowledge,which is currently a hot topic of research in Colleges and universities. Puts forward a method of using decision tree to analyze the employment information,and verifies its feasibility through an example,which provides a valuable reference for the improvement of teaching management in Colleges and universities.

        1007-1423(2016)29-0061-04

        10.3969/j.issn.1007-1423.2016.29.014

        張永雄(1982-),男,廣東廣州人,碩士研究生,講師,研究方向?yàn)閿?shù)據(jù)分析與云計(jì)算余丙軍(1977-),男,湖北黃岡人,碩士研究生,工程師,研究方向?yàn)閿?shù)據(jù)分析與云計(jì)算鄧志虹(1981-),女,碩士研究生,講師,研究方向?yàn)榻逃蒲蟹椒?/p>

        2016-08-25

        2016-10-10

        猜你喜歡
        英語(yǔ)水平決策樹(shù)類(lèi)別
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        句子教學(xué)——提高學(xué)生英語(yǔ)水平的奠基石
        通道形式與英語(yǔ)水平對(duì)大學(xué)生英語(yǔ)聽(tīng)力成績(jī)的影響
        基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
        服務(wù)類(lèi)別
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        論類(lèi)別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類(lèi)別全科醫(yī)師培養(yǎng)模式的探討
        英語(yǔ)水平
        人妻丰满熟妇岳av无码区hd| 国产日产久久福利精品一区| 欧美自拍丝袜亚洲| 久久无码一一区| 99re国产电影精品| 精品亚洲一区二区视频| 日韩中文字幕久久久老色批| 无码h黄肉3d动漫在线观看| 女人被狂躁c到高潮| 亚洲av无码一区二区三区在线| 亚洲男人天堂av在线| 亚洲天堂av在线免费播放| 高潮内射主播自拍一区| 国产人成视频在线视频| 久久精品国产只有精品96| 国产成人无码av一区二区| 亚洲精品乱码久久久久久久久久久久| 国产亚洲美女精品久久久| 亚洲人成影院在线高清| 久久影院最新国产精品| 国产自拍在线观看视频| 五月丁香综合激情六月久久| 广东少妇大战黑人34厘米视频 | 国语自产偷拍在线观看| 麻豆国产人妻欲求不满| 一本大道香蕉视频在线观看| 亚洲国产精品国自产拍av在线| 日韩av水蜜桃一区二区三区| 国产人成无码视频在线观看 | 久久99国产伦精品免费| 亚洲国产综合久久精品 | 一本精品99久久精品77| 亚洲国产精品尤物yw在线观看| 91成人午夜性a一级毛片| 男生自撸视频在线观看| 国产91清纯白嫩初高中在线观看| 无码国模国产在线观看| 亚洲国产成人AV人片久久网站 | 麻豆久久91精品国产| 亚洲欧美精品suv| 国产成人精品三级麻豆|