亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹技術(shù)在高職學(xué)生就業(yè)信息庫中的應(yīng)用

        2015-05-12 05:06:29林灃
        廣西教育·C版 2015年3期
        關(guān)鍵詞:決策樹學(xué)習(xí)成績類別

        林灃

        【摘 要】以現(xiàn)有的數(shù)據(jù)挖掘決策樹算法作為理論支撐,從就業(yè)數(shù)據(jù)出發(fā),按照數(shù)據(jù)挖掘的基本步驟和方法,執(zhí)行C4.5決策樹算法對數(shù)據(jù)進行分類和預(yù)測,從積累的大量數(shù)據(jù)中得到以就業(yè)類別為屬性的分類規(guī)則,以此為學(xué)校領(lǐng)導(dǎo)機構(gòu)提供決策支持,提高就業(yè)水平,對就業(yè)指導(dǎo)工作具有一定的現(xiàn)實意義。

        【關(guān)鍵詞】C4.5 數(shù)據(jù)挖掘 決策樹 就業(yè)信息庫

        【中圖分類號】 G 【文獻標識碼】 A

        【文章編號】0450-9889(2015)03C-0181-03

        隨著高校的大規(guī)模擴招,學(xué)生人數(shù)逐年遞增,畢業(yè)生的大量輸出給社會帶來巨大的壓力,學(xué)生就業(yè)管理工作趨向于復(fù)雜化,如何能夠有效地提高畢業(yè)生就業(yè)率在高校中已經(jīng)成為一個急待解決的問題。然而我們通常做的都只是表面的去統(tǒng)計畢業(yè)生的就業(yè)數(shù)據(jù),不進行深層次的數(shù)據(jù)分析,得到的往往也只是表面信息。合理利用現(xiàn)代化的信息手段整理過往畢業(yè)生的就業(yè)數(shù)據(jù),從中尋找影響用人單位錄用畢業(yè)生的關(guān)鍵要素才是解決問題的關(guān)鍵所在。

        有效利用數(shù)據(jù)挖掘技術(shù)對大學(xué)畢業(yè)生就業(yè)信息進行分析,將信息中內(nèi)在的聯(lián)系挖掘出來,這是傳統(tǒng)的、表層的評價方法無法做到的。本文將選取決策樹C4.5算法構(gòu)建就業(yè)決策分類樹抽取規(guī)則知識,原因是就業(yè)數(shù)據(jù)具有分類的預(yù)知性、離散性的特點。

        一、決策樹算法

        決策樹方法的原始啟蒙來源于概念學(xué)習(xí)系統(tǒng),屬于數(shù)據(jù)挖掘核心技術(shù)算法之一,有一定的優(yōu)勢。它的特點是基于實例數(shù)據(jù),將大量數(shù)據(jù)有目的地分類,把一個復(fù)雜的問題分成更簡單的問題并重復(fù)使用這一技巧,找出潛在的、對決策有利用價值的信息,決策樹算法多數(shù)情況下應(yīng)用在預(yù)測模型中。如果引用信息論中的說法,就是在選擇決策節(jié)點屬性時,用信息增益來進行判定。

        所謂決策樹,實際上是一種形象的叫法,它是由決策節(jié)點、分支、葉子和連接線組成,其形狀類似倒長的樹型結(jié)構(gòu)。決策樹的節(jié)點一般用矩形表示,代表一個非類別屬性,每個葉子用橢圓形表示,代表一個類別。矩形和橢圓形的連接線代表一條分支,每條分支代表著這個屬性可能出現(xiàn)的值。每一條從根節(jié)點到葉子節(jié)點的路徑則代表著一條分類規(guī)則。

        目前眾多決策樹算法中最為著名的是Quinlan在ID3算法的基礎(chǔ)上進行改進提出來的C4.5算法。C4.5算法的先進性體現(xiàn)在:C4.5算法比ID3算法先進的方面在于選擇屬性時采用的是信息增益率去替代信息增益,使得在屬性選擇時不會對取值多的屬性帶有更強的偏向性,所得出的計算結(jié)果更準確;分析連續(xù)型屬性是C4.5算法又一改進,并且當(dāng)在樣本集中出現(xiàn)空缺的屬性值時,C4.5算法也能進行處理,從而提高結(jié)果的準確性;C4.5算法能夠直接將連續(xù)值屬性進行分割,分別計算信息增益率,并選取結(jié)果當(dāng)中信息增益率最大的分割為屬性標準,從而轉(zhuǎn)換為離散的二值屬性,完成對連續(xù)型屬性的離散化處理;C4.5算法在構(gòu)造樹的過程中采用后修剪枝葉的方法,能有效的控制決策樹的高度,同時,相對其他的算法而言C4.5生成的決策樹分枝也有所減少。

        為了能使用最小的信息構(gòu)造最為簡單的決策樹,在對訓(xùn)練樣本子集進行分類時,在選取當(dāng)前節(jié)點的測試屬性時,就必須把具有最高信息增益的屬性找出來。具體方法如下:

        假設(shè)有訓(xùn)練樣本數(shù)據(jù)集S,類別屬性C可以取k個不同的值,將訓(xùn)練樣本數(shù)據(jù)集S分為k個不同的類Ci (i=1,2,……,k),Ri為數(shù)據(jù)集S中屬于Ci類的子集,用ri表示子集Ri中的樣本數(shù)量。

        用Pi表示任意樣本屬于類別Ci的概率:,|S|表示集合S中的樣本數(shù)量。樣本集合S的平均不確定性和純度的高低是通過信息熵反映的。如果熵值越小,平均不確定性越低,純度越高。

        每個屬性的信息增益率都可以由上述的公式計算出來,這樣集合S的決策樹的根節(jié)點就可以根據(jù)計算出來的信息增益率最高的屬性來確定,并以該屬性作為標記屬性,對屬性的每一個值創(chuàng)建分枝,并據(jù)此劃分樣本。

        二、數(shù)據(jù)預(yù)處理

        (一)數(shù)據(jù)準備

        在本研究中,選擇畢業(yè)生的就業(yè)信息作為研究數(shù)據(jù),通過分析畢業(yè)生在校的學(xué)習(xí)情況、專業(yè)及專業(yè)類別等信息,挖掘出用人單位的行業(yè)性質(zhì)。在進行構(gòu)造決策樹時,必須對數(shù)據(jù)進行規(guī)格化處理,能保證數(shù)據(jù)的高質(zhì)量和一致性。同時還要對用人單位行業(yè)性質(zhì)的文字描述進行量化和對學(xué)習(xí)情況等決策屬性進行離散化。

        (二)數(shù)據(jù)的轉(zhuǎn)換

        在所采集的數(shù)據(jù)中選取4項作為實驗樣本。選取學(xué)習(xí)成績、外語水平、實踐能力、就業(yè)方向構(gòu)成四維向量表。數(shù)據(jù)選擇如下:學(xué)習(xí)成績(CJ)采集學(xué)習(xí)成績的平均值分段劃分為三級,中等(CJ<75),良好(75≤CJ≤85),優(yōu)秀(CJ≥85)。外語水平(WY)劃分為兩級,通過全國英語等級B級,通過全國英語等級四級。實踐能力(SJNL)劃分為三級,優(yōu)秀(實踐能力強),一般(實踐能力一般),差(實踐能力差)。就業(yè)方向(JYFX)劃分四級,國有企業(yè)事業(yè)單位(V),外資企業(yè)(X),私營企業(yè)(Y),自主創(chuàng)業(yè)(Z)。

        三、構(gòu)造決策樹

        選取決策樣本數(shù)據(jù)集,如表1所示:

        第一步,將樣本訓(xùn)練集中的分類標志屬性選出來,本例中選擇“就業(yè)方向”作為分類標志屬性,而“學(xué)習(xí)成績”“外語水平”“實踐能力”則作為決策樹的決策屬性集。將畢業(yè)生就業(yè)數(shù)據(jù)表中“就業(yè)方向”分為4類:C1、C2、C3、C4分別代表國有企業(yè)事業(yè)單位:V;外資企業(yè):X;私營企業(yè):Y;自主創(chuàng)業(yè):Z。畢業(yè)生就業(yè)數(shù)據(jù)表中的20條記錄構(gòu)建決策樹的樣本集S的20個元組,其中C1、C2、C3、C4類分別對應(yīng)的子集的元組個數(shù)分別為r1=5,r2=5,r3=7,r4=3。要得出每一個決策屬性的信息增益率,那么就要計算S的分類期望信息量:

        從信息增益率值可以看出值最大的是“實踐能力”屬性,所以將該屬性定為根節(jié)點構(gòu)建決策樹。

        其余的分支點,我們可以通過重復(fù)上述的步驟得出,并生成最終的決策樹,如圖1所示。

        根據(jù)決策樹可以直接提取分類規(guī)則:

        IF實踐能力=優(yōu)秀+英語水平=四級+學(xué)習(xí)成績=優(yōu)秀THEN就業(yè)類別=X/V。

        IF實踐能力=優(yōu)秀+英語水平=B級+學(xué)習(xí)成績=優(yōu)秀或良好THEN就業(yè)類別=V。

        IF實踐能力=一般+學(xué)習(xí)成績=良好+英語水平=B級THEN就業(yè)類別=X/Y/Z。

        IF實踐能力=一般+學(xué)習(xí)成績=中等+英語水平=B級THEN就業(yè)類別=Y。

        IF實踐能力=一般+學(xué)習(xí)成績=優(yōu)秀+英語水平=B級THEN就業(yè)類別=X。

        IF實踐能力=差+英語水平=B級+學(xué)習(xí)成績=中等THEN就業(yè)類別=V/Y。

        IF實踐能力=差+英語水平=B級+學(xué)習(xí)成績=良好THEN就業(yè)類別=Y/Z。

        從上述分類規(guī)則中我們可以發(fā)現(xiàn),不同的能力和水平對于提高學(xué)生就業(yè)層次具有非常微妙的影響,如果全面加強學(xué)生成績的培養(yǎng),則提高畢業(yè)生進入國企就業(yè)的數(shù)量;如果重視加強實踐能力和外語水平的雙方面培養(yǎng),則能提高進入外企就業(yè)的畢業(yè)生數(shù)量。當(dāng)然我們還可以擴大訓(xùn)練樣本集,添加更多的數(shù)據(jù),這樣所構(gòu)建的決策樹能反映數(shù)據(jù)之間更多的內(nèi)在聯(lián)系。

        在當(dāng)前復(fù)雜的就業(yè)形勢下,文章提出了對就業(yè)數(shù)據(jù)進行挖掘,并建立數(shù)據(jù)挖掘模型,利用C4.5決策樹算法,分析畢業(yè)生就業(yè)信息系統(tǒng)中的數(shù)據(jù)。并在通過算法建立的決策樹模型中,最終得到以就業(yè)類別為屬性的分類規(guī)則,進一步分析這些分類規(guī)則,能為學(xué)校的就業(yè)提供分析和決策。如能進一步完善基于就業(yè)分析模型決策樹的分類器,將決策樹技術(shù)引入高校學(xué)生就業(yè)信息中,尋求影響學(xué)生就業(yè)的主要因素,最終必將推動高校教育管理的改革與發(fā)展。

        【參考文獻】

        [1] 張駿,王琴.C4.5算法在研究生就業(yè)信息庫中的應(yīng)用研究[J].信息技術(shù),2009(11)

        [2] 雷松澤,郝燕.基于決策樹的就業(yè)數(shù)據(jù)挖掘[J].西安工業(yè)學(xué)院學(xué)報,2005(10)

        [3] 邱瑾.決策樹在高職學(xué)生就業(yè)數(shù)據(jù)分析中的應(yīng)用研究 [J].柳州職業(yè)技術(shù)學(xué)院學(xué)報,2012(4)

        [4] 利珊.數(shù)據(jù)挖掘在就業(yè)分析中的應(yīng)用[J].蘭州工業(yè)高等??茖W(xué)校學(xué)報,2011(8)

        [5] 張繼美,桂紅兵.R-C4.5決策樹模型在高職就業(yè)分析中的應(yīng)用[J].電腦知識與技術(shù),2011(7)

        [6] 何文秀.數(shù)據(jù)挖掘技術(shù)在高校就業(yè)工作中的應(yīng)用研究[J].現(xiàn)代計算機,2008(3)

        [7] 常志玲,王嵐.一種新的決策樹模型在就業(yè)分析中的應(yīng)用[J].計算機工程與科學(xué),2011(5)

        【作者簡介】林 灃(1982- ),男,廣西南寧人,廣西機電職業(yè)技術(shù)學(xué)院講師,工程師,研究方向:數(shù)據(jù)庫,數(shù)據(jù)挖掘。

        (責(zé)編 丁 夢)

        猜你喜歡
        決策樹學(xué)習(xí)成績類別
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        名落孫山
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于決策樹的出租車乘客出行目的識別
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        大學(xué)生學(xué)習(xí)動機與學(xué)習(xí)成績的相關(guān)研究
        人間(2015年21期)2015-03-11 15:24:34
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        聚合酶鏈式反應(yīng)快速鑒別5種常見肉類別
        xxxx国产视频| 国产精品国产三级第一集| 亚洲av精品一区二区三区 | 亚洲高清一区二区三区在线播放| 久久精品国产成人午夜福利| 色综合视频一区中文字幕| 中国一级免费毛片| 亚洲乱码中文字幕综合| 国产av一区二区亚洲精品| 国产麻豆精品一区二区三区v视界 妺妺窝人体色www看美女 | 亚洲国产精品高清一区| 97久久人人超碰超碰窝窝| 久久久久亚洲av成人网址| 全程国语对白资源在线观看| 在线麻豆精东9制片厂av影现网| 亚洲av之男人的天堂网站| 日韩最新在线不卡av| 综合成人亚洲网友偷自拍| 久久久久亚洲av成人片| 特级毛片爽www免费版| 精品伊人久久香线蕉| 色综久久综合桃花网国产精品| 亚洲国产精品高清一区| 曰批免费视频播放免费直播| 亚洲高清有码在线观看| 蜜桃国产精品视频网站| 欧美国产综合欧美视频| 中文字幕在线亚洲日韩6页手机版| 国产成人午夜av影院| 高清中文字幕一区二区| 台湾无码av一区二区三区| 久久久久99精品成人片试看| 91精品人妻一区二区三区蜜臀| 产美女被爽到高潮免费a| 亚洲av日韩综合一区在线观看| 精品18在线观看免费视频| 久久无人码人妻一区二区三区| 国产视频自拍一区在线观看| 老师脱了内裤让我进去| 丰满熟妇人妻av无码区| 国产剧情av麻豆香蕉精品|