亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘在高職院校就業(yè)指導(dǎo)中的應(yīng)用研究

        2011-03-17 02:47:38陳海宇郭曉偉
        關(guān)鍵詞:學(xué)業(yè)成績決策樹增益

        陳海宇,郭曉偉

        (羅定職業(yè)技術(shù)學(xué)院電子信息系,羅定 527200)

        數(shù)據(jù)挖掘在高職院校就業(yè)指導(dǎo)中的應(yīng)用研究

        陳海宇,郭曉偉

        (羅定職業(yè)技術(shù)學(xué)院電子信息系,羅定 527200)

        提高就業(yè)率是以培養(yǎng)應(yīng)用型人才為宗旨的高職院校重要目標(biāo).將C45算法應(yīng)用于就業(yè)信息統(tǒng)計分析中,通過對就業(yè)數(shù)據(jù)預(yù)處理、就業(yè)決策樹的構(gòu)建和剪枝,從其抽取分類規(guī)則,并指出決定就業(yè)單位類別的決策屬性,得到一些較實用的預(yù)測畢業(yè)生就業(yè)動態(tài)的規(guī)律,從而更好地服務(wù)于學(xué)生就業(yè)指導(dǎo)工作.

        決策樹;數(shù)據(jù)挖掘 ;維度表;規(guī)則

        近幾年,各高校的學(xué)生信息庫逐步建立并得到完善、完整,可以對這些積累的學(xué)生管理中的數(shù)據(jù)以及通過技術(shù)實訓(xùn)、社會實踐實際調(diào)查采集的相關(guān)數(shù)據(jù)進(jìn)行挖掘,使得具有分類的預(yù)知性與離散性的就業(yè)數(shù)據(jù),變成有價值的知識.利用挖掘的結(jié)果,一方面可以指導(dǎo)在校低年級學(xué)生的學(xué)習(xí),另一方面可以指導(dǎo)不同類型的畢業(yè)生選擇合適的就業(yè)途徑,提高就業(yè)率.

        1 數(shù)據(jù)挖掘與就業(yè)指導(dǎo)工作

        數(shù)據(jù)挖掘(Data Mining)是從海量的數(shù)據(jù)中,抽取潛在的、有價值的規(guī)則或知識的過程,其本質(zhì)上是一類深層次的數(shù)據(jù)分析方法[1].

        將數(shù)據(jù)挖掘應(yīng)用于高校的就業(yè)工作中,能從眾多的學(xué)生信息庫、學(xué)生就業(yè)信息庫中挖掘出學(xué)生就業(yè)的基本規(guī)律,引導(dǎo)教育改革的方向,影響決策者的基本決策.在高等院校中,存在著大量的學(xué)生個人的教育信息和就業(yè)信息.對于教育信息,既和教學(xué)相關(guān),如學(xué)業(yè)成績、外語水平、計算機(jī)水平、普通話水平、獲獎情況、實踐操作能力等,又和非智力因素有關(guān),如學(xué)生的性別、身體狀況、性格特征、心理因素、職業(yè)道德等.畢業(yè)生就業(yè)信息則包括企業(yè)地域、企業(yè)性質(zhì)、職位、行業(yè)、薪資待遇等.利用決策樹數(shù)據(jù)挖掘算法從無次序、規(guī)律的學(xué)生個人教育信息和就業(yè)信息中推理出決策樹型的分類規(guī)則,并且該算法具有數(shù)據(jù)分析效率高、直觀易懂的特點(diǎn),更能啟發(fā)相應(yīng)管理者因材施教,增強(qiáng)學(xué)生的綜合競爭力,同時對畢業(yè)生做一個有效的就業(yè)指導(dǎo),對提高學(xué)生的就業(yè)率將會有事半功倍的效果[2].

        把數(shù)據(jù)挖掘技術(shù)應(yīng)用到學(xué)生就業(yè)教育工作中,綜合分析學(xué)生個人的綜合信息和畢業(yè)后的就業(yè)動態(tài),使隱藏在其中的信息外顯.經(jīng)過對學(xué)生相關(guān)數(shù)據(jù)進(jìn)行分析,可以顯示:影響學(xué)生就業(yè)的重要教育、個人因素,以及就業(yè)方向的影響,等每個教育者都急需知道的問題,這是傳統(tǒng)評價方法無法做到的.

        2 C45算法原理與決策樹的生成

        決策樹是一種常用于預(yù)測模型的算法,通過將大量數(shù)據(jù)有目的地分類,從中找到有價值的、潛在的信息,特別適合大規(guī)模的數(shù)據(jù)處理.其采用自頂向下的方法對雜亂的學(xué)生綜合信息進(jìn)行決策挖掘,把無序的數(shù)據(jù)整理成一棵倒掛的樹,從樹根到葉結(jié)點(diǎn)所經(jīng)過的一條路徑形成一條選取的規(guī)則[3].C45算法是在ID3基礎(chǔ)上發(fā)展起來的決策樹生成算法,其采用信息增益率作為屬性選擇折度量標(biāo)志,通過四個式子對相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理后,歸納得到?jīng)Q策樹[4].假設(shè)T為事例集合,Ci為事例樣本類標(biāo)號,i=1,2,…m,熵的計算方法如下式(1)所示.

        式一中:freq(Ci T)表示集合 T中屬于類Ci的數(shù)目,|T|表示集合T中的樣本個數(shù).

        若按照非類別屬性X,選取n個不同值T1,T2,…Tn,產(chǎn)生的決策樹信息量的期望值即條件熵如下式(2).

        式中:T是按照屬性X進(jìn)行分區(qū)的集合,|Ti|是基于屬性X的某個值的子樹中每一類例子的數(shù)目.由此得到對屬性X作為決策分類屬性的度量值(互信息)即增益大的是要選取的節(jié)點(diǎn),如式(3)所示.

        用導(dǎo)致最大信息增益Gain的屬性X作為擴(kuò)展屬性進(jìn)行分枝,信息增益率為GainRatio(X)=Gain(X)/Split(X).C45算法需要對每個決策屬性的信息增益率進(jìn)行算,并通過屬性的每一個取值建立由樹節(jié)點(diǎn)引出的分枝,生成一棵完全的樹后,要對決策樹進(jìn)行剪枝策略,刪去最不可靠的樹枝,消除訓(xùn)練集中的噪聲,從而提高分類識別的速度和數(shù)據(jù)準(zhǔn)確分類的能力.修剪后的決策樹,可以進(jìn)行決策規(guī)則的提取,每條分類規(guī)則都是走一條從根結(jié)點(diǎn)到葉結(jié)點(diǎn)的路徑,用IF-T HEN形式表示[5],路徑上的分支結(jié)點(diǎn)及邊表示相應(yīng)的條件取值,而葉結(jié)點(diǎn)表示由此取值得到的結(jié)論.

        3 在就業(yè)指導(dǎo)工作中的應(yīng)用分析

        3.1 數(shù)據(jù)準(zhǔn)備和預(yù)處理

        采用自頂向下企業(yè)數(shù)據(jù)倉庫可以從總體上把握整個數(shù)據(jù)倉庫的規(guī)模、粒度的級別和元數(shù)據(jù)管理,是一種系統(tǒng)的解決方法,并能夠最大限度地減少集成問題[6].構(gòu)建星型模式(Star Schema)的數(shù)據(jù)倉庫,它通過使用一個包含主題的事實表和多個包含事實的非正規(guī)化描述的維度表來執(zhí)行典型的決策支持查詢,是一種關(guān)系型數(shù)據(jù)庫結(jié)構(gòu),模式的中間是事實表,周圍是維度表,數(shù)據(jù)在事實表中維護(hù),維度數(shù)據(jù)在維度表中維護(hù).每個維度表通過一個關(guān)鍵字(一般情況下為主鍵)與事實表關(guān)聯(lián)[7].

        在C45算法中,采用近三年學(xué)校畢業(yè)生就業(yè)信息情況進(jìn)行分類過半數(shù)據(jù)作為訓(xùn)練模型,其余的數(shù)據(jù)作為測試數(shù)據(jù)集用來測試模型準(zhǔn)確度,如圖1所示,實例中使用了學(xué)生就業(yè)統(tǒng)計表、學(xué)生綜合測評表、學(xué)生自然情況表、學(xué)生獎罰情況表、社會實踐情況表等,建立多維數(shù)據(jù)集后,方便在綜合測評情況、獲獎情況、受處分情況、課外實踐情況下進(jìn)行分析和選擇.

        圖1 星型模式的多維數(shù)據(jù)集

        學(xué)生就業(yè)統(tǒng)計表中,包括學(xué)生學(xué)號、姓名、工作單位等屬性.目的是挖掘出哪些素質(zhì)以及素質(zhì)的水平與哪一種類型工作相關(guān)聯(lián),在學(xué)生綜合測評、學(xué)生獲獎情況表和社會實踐情況表中提出若干素質(zhì)項,如:學(xué)業(yè)成績、技能水平(包括外語水平、計算機(jī)水平、普通話水平,取得資格考證)、實踐能力、性格特征(包括外向開朗樂觀有很強(qiáng)的責(zé)任心為優(yōu),外向開朗樂觀為良,而內(nèi)向沒責(zé)任感的則為差)等作為決策屬性.對工作單位屬性進(jìn)行量化,分為三種:學(xué)校(A)、公司企業(yè)(B)、自主創(chuàng)業(yè)(C)等,而每個工作單位分為三種工作種:中學(xué)教師(A1)、小學(xué)教師(A2)、大型公司企業(yè)(B1)、小型公司企業(yè)(B2)、創(chuàng)辦工廠(C1)、開店鋪(C2)等.

        給出如表1所示的本校學(xué)生就業(yè)統(tǒng)計記錄數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,并進(jìn)行分析,從而得出什么行業(yè)、什么層次的就業(yè)條件適合具備什么能力的學(xué)生.教育管理者根據(jù)導(dǎo)出的規(guī)則更好地對學(xué)生進(jìn)行就業(yè)指導(dǎo)教育;并且以此為依據(jù)進(jìn)行教育教學(xué)的改革與加強(qiáng)具體某專業(yè)的學(xué)生必須進(jìn)行哪些方面技能與實踐的培養(yǎng),從整體提高學(xué)生就業(yè)層次、學(xué)校的就業(yè)率.

        3.2 用C45算法構(gòu)造就業(yè)決策樹

        在學(xué)生就業(yè)統(tǒng)計數(shù)據(jù)中選取屬性:學(xué)業(yè)成績、技能水平、實踐能力、性格特征作為決策屬性把工作單作為類別識.科、就業(yè)數(shù)據(jù)訓(xùn)練樣本集S中,共有20個元組,其中選取A1中學(xué)教師A2小學(xué)教師、B1大型公司企業(yè)、C1創(chuàng)辦工廠四個類別進(jìn)行分析,該四類所對應(yīng)的子集中元組個數(shù)分別為:R1=5、R2=8、R3=3、R4=2,則利用公式計算集合S分類的期望信息量.

        表1 就業(yè)數(shù)據(jù)訓(xùn)練樣本集

        然后計算每一個決策性的期望信息量(熵值),其中i=1,2,3,4,5,6則對屬性“學(xué)業(yè)成績”,當(dāng)學(xué)業(yè)成績=“優(yōu)”.

        屬性“學(xué)業(yè)成績”的信息增益為:

        Gain(學(xué)業(yè)成績)=I(R1,R2,R3,R4)-E(學(xué)業(yè)成績)=1.8164-1.2881=0.5283.

        屬性“學(xué)業(yè)成績”的信息增益率為:Ratio(學(xué)業(yè)成績)=Gain(學(xué)業(yè)成績)/E(學(xué)業(yè)成績)=0.4101

        同理計算得到每一個決策屬性的信息增益和信息增益率如表2所示.

        表2 就業(yè)信息的屬性信息增益和信息增益率

        從上表2可知,屬性GainRatio(學(xué)業(yè)成績)=0.4101具有最大的信息增益率值,所以選擇該屬性作為決策樹的根節(jié)點(diǎn)進(jìn)行測試.重復(fù)上述,生成一棵決策樹,可以采用前修剪方法和后剪枝方法對其采取剪枝策略,后剪枝方法比較常用,是指輸入為一個未剪枝的樹T,輸出為剪枝后的決策樹T1,T1是修剪了T中一個或多個子樹后獲得的樹.實質(zhì)是把就業(yè)訓(xùn)練集中的孤立點(diǎn)與噪聲消除,經(jīng)過修剪后得到的就業(yè)決策樹的屬性如圖2所示.

        決策樹圖2中,通過訓(xùn)練集得到?jīng)Q策樹分類模型對新數(shù)據(jù)進(jìn)行分類,可以比較容易地對學(xué)生就業(yè)的動態(tài)進(jìn)行判斷,從圖中可以看出,專業(yè)成績是學(xué)生就業(yè)方向中的關(guān)鍵,其次是技能水平.

        3.3 決策樹中提取規(guī)則知識

        修剪后的決策樹,對其根到葉子結(jié)點(diǎn)的每條路徑創(chuàng)建一個規(guī)則,以IF-THEN形式的分類規(guī)則描述.由決策樹提取的分類規(guī)則沿著其給定路徑上的每個屬性和屬性像關(guān)聯(lián)值形成規(guī)則條件IF的一個合取項,則葉結(jié)點(diǎn)包含類預(yù)測,形成結(jié)論 THEN部分.關(guān)鍵的第一層次單位類別,就業(yè)決策樹中只提取A1、A2、B1、C1類的規(guī)則,從圖2中可提出對應(yīng)規(guī)則:

        圖2 修剪后的就業(yè)決策樹

        規(guī)則1 if學(xué)業(yè)成績=“優(yōu)”and技能水平=“一級”then在各地中學(xué)就業(yè);

        規(guī)則2 if技能水平=“二級以上”and性格特征=“優(yōu)、良”then在大型公司企業(yè)就業(yè);

        規(guī)則3 if實踐能力=“強(qiáng)”and專業(yè)成績=“良”then自主創(chuàng)業(yè);

        規(guī)則4 if技能水平=“一級”and性格特征=“差”then在各地小學(xué)就業(yè);

        根據(jù)以上規(guī)則可以知道,如果要提學(xué)生各類別的就業(yè)層次,對于三種不同類型的就業(yè)單位,要求有差別.若是教育類專業(yè)學(xué)生想提高就業(yè)層次需要加強(qiáng)專業(yè)素質(zhì)培養(yǎng),還需增強(qiáng)技能水平的訓(xùn)練;對于非教育類學(xué)生,若外語專業(yè)學(xué)生則需要加強(qiáng)計算機(jī)和其它技能的培養(yǎng),若計算機(jī)專業(yè)學(xué)生則需加強(qiáng)提高外語水平.實質(zhì)上對于以大型公司與企業(yè)為就業(yè)目標(biāo)的學(xué)生來說,需加強(qiáng)綜合技能水平和實踐能力的培養(yǎng);如果是進(jìn)行自主創(chuàng)業(yè)的學(xué)生,則需要有更強(qiáng)的實踐能力,也需要一定的知識支持,才能取得創(chuàng)業(yè)的成功.

        4 結(jié) 論

        決策樹是數(shù)據(jù)挖掘中的一個常用的算法工具,而C45算法是數(shù)據(jù)挖掘中的核心算法,在ID3基礎(chǔ)上改進(jìn)而生成的,適用范圍比較廣,構(gòu)造簡單、能正確分類、頻率較高的決策樹算法.根據(jù)就業(yè)數(shù)據(jù)具有分類的預(yù)知性與離散性的特點(diǎn),選擇決策樹C45算法通過數(shù)據(jù)轉(zhuǎn)換與預(yù)處理,參數(shù)和類選定,構(gòu)造和修剪決策樹,建構(gòu)成就業(yè)決策樹,生成分規(guī)則后,完成分類數(shù)據(jù)挖掘,為供決策者提供決策幫助.經(jīng)過實驗,效果較好,在今后的學(xué)習(xí)中,將考慮更完善地對其它屬性如院校的知名度、所學(xué)專業(yè)、學(xué)生的職業(yè)道德、應(yīng)聘技巧等進(jìn)行深入研究,給以教師更多的就業(yè)指導(dǎo)提示,學(xué)生就業(yè)方向的選擇.

        [1]毛國君,段立娟,王 實,等,數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2006.

        [2]馬秀紅,宋建社,董晟飛.數(shù)據(jù)挖掘中決策樹的探討[J].計算機(jī)工程與應(yīng)用,2004,40(1):185.

        [3]楊學(xué)兵,張 俊.決策樹算法及其核心技術(shù)[J].計算機(jī)技術(shù)與發(fā)展,2007,17(1):20-22.

        [4]李 楠,段隆振,陳 萌.決策樹C45算法在數(shù)據(jù)挖掘中的分析及其應(yīng)用[J].計算機(jī)與現(xiàn)代化,2008,160(12).

        [5]Han J.Datamining Techniques[R].Canada Montreal Proe 1996 ACM-SIGMOD Int Conf on Management of Data,1996.

        [6]王曙燕,耿國華,周明全.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[J].計算機(jī)應(yīng)用研究,2005,(9):194-195,205.

        [7]黎 婭,郭江娜.決策樹的剪枝策略研究[J].河南科學(xué),2009,27(3):320-323.

        The Application of Data Mining in Higher Vocational Career Guidance

        CHEN Hai-yu,GUO Xiao-wei

        (Electronic Information Department,Luoding Vocational Technical College,Luoding 527200,China)

        T o raise the employment rate is the important goal of vocational colleges whose purpose is to train practical talents.C45 algorithm is applied to the statistical analysis of employment information through the pre-employment data,employment,decision tree construction and pruning,its classification rule extraction.The decision attributes of employment unit category are decided and some of the more practical graduate employment laws are predicted to better serve the student employment guidance.

        decision tree;data mining;dimension table;rule

        TE258;T P183

        A

        1671-119X(2011)02-0056-04

        2011-01-11

        陳海宇(1978-),女,碩士,講師,研究方向:計算機(jī)應(yīng)用、軟件工程.

        猜你喜歡
        學(xué)業(yè)成績決策樹增益
        基于回歸分析模型的學(xué)生學(xué)業(yè)成績差異研究
        基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
        基于單片機(jī)的程控增益放大器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:36
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        基于Multisim10和AD603的程控增益放大器仿真研究
        電子制作(2018年19期)2018-11-14 02:37:02
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于決策樹的出租車乘客出行目的識別
        學(xué)業(yè)成績與習(xí)得性無助:有調(diào)節(jié)的中介效應(yīng)
        大學(xué)生上網(wǎng)情況與學(xué)業(yè)成績關(guān)系的實證研究
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        亚洲成在人网av天堂| 国产一区内射最近更新| 午夜福利麻豆国产精品| 精品少妇大屁股白浆无码| 中文字幕亚洲日本va| 精品粉嫩av一区二区三区| 内射人妻视频国内| 草草网站影院白丝内射| a√无码在线观看| 国产精品国产三级国产剧情 | 黄桃av无码免费一区二区三区| 97久久天天综合色天天综合色hd| 人妻av一区二区三区av免费 | 久久国产免费观看精品3| 亚洲av成人一区二区三区在线观看| 亚洲AV日韩Av无码久久| 国产在线一区二区三区四区乱码 | 成人欧美一区二区三区在线观看| 欧美性猛交内射兽交老熟妇| 亚洲中文欧美日韩在线| 日本国产一区在线观看| 国产99视频精品免视看7| 99久久国产露脸精品竹菊传媒| 国产高潮流白浆免费观看不卡| 日本女优久久精品观看| 老色鬼在线精品视频| 亚洲av成人无码网天堂| 国产美女亚洲精品一区| 中文字幕av永久免费在线| 亚洲av无码专区亚洲av伊甸园| 久久6国产| 国内自拍视频在线观看h| 免费亚洲一区二区三区av| 爆爽久久久一区二区又大又黄又嫩 | 亚洲av男人电影天堂热app| 99精品国产兔费观看久久99| 久久精品国产久精国产69| 在线播放国产自拍av| 亚洲 自拍 另类小说综合图区| 国产精品自产拍在线观看免费| 青青青草视频手机在线|