段潤英+黃欣榮
摘要:為深入挖掘剖析影響應加大學生求職擇業(yè)的關鍵因素及其潛在的相互作用,筆者針對南京信息職業(yè)技術學院近年來的畢業(yè)生選擇推薦就業(yè)、自主擇業(yè)、自主創(chuàng)業(yè)或升學、待業(yè)等各種情況的決策因素進行了廣泛的統(tǒng)計,以數(shù)據(jù)挖掘分類技術為支撐設計了C4.5算法對各種潛在的影響畢業(yè)生就業(yè)選擇的因素進行了系統(tǒng)化的剖析,從而得出影響應屆畢業(yè)生就業(yè)率的決策模型。本研究的主要意義在于學生可以算法模型在大學在讀期間努力完善自己的知識結(jié)構(gòu),不斷增強自身的綜合素質(zhì)及社會競爭力。從而適應日益嚴峻的就業(yè)形勢和經(jīng)濟社會發(fā)展的需要,提高入職簽約成功率。應屆畢業(yè)生也可以參照算法模型對比自身的素質(zhì)素養(yǎng)有針對性的選擇目標單位進行擇業(yè)。高等院校則可以根據(jù)該算法模型統(tǒng)計各界畢業(yè)生的就業(yè)指數(shù)進行縱向及橫向的對比分析,進有針對性的改良教學計劃,使院校培養(yǎng)出的畢業(yè)生更加符合當代社會的需求,刺激就業(yè)率快速增長。
關鍵詞:數(shù)據(jù)挖掘;分類;決策樹;C4.5算法;大學生求職
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2017)05-0151-03
1 C4.5算法
C4.5 算法是對ID3算法的優(yōu)化改良。與ID3算法不同的是,C4.5算法是以數(shù)據(jù)增益率為標準來選擇決策樹的每個節(jié)點的節(jié)點屬性。算法默認選擇當前分支節(jié)點下數(shù)據(jù)增益率最高的屬性作為當前節(jié)點的測試屬性。C4.5算法具有的這一特性使得對數(shù)據(jù)挖掘結(jié)果中的樣本分類所需的數(shù)據(jù)量大大減少,而且能夠準確的反映出劃分的最小隨機性或“不純性”。這種理論方法使得對一個對象分類所需的期望測試數(shù)目達到最小,從而設計一棵最為簡單的決策樹。為了研究的方便,下面對算法中的相關術語給出定義。
定義1:設數(shù)據(jù)集S為包含S個數(shù)據(jù)樣本的集合,且類別屬性可以取m個不同的值,對應于m個不同的類別Ci (i=1,2,…,m)。假設Si為類別Ci中樣本的個數(shù);對一個給定數(shù)據(jù)對象進行分類所需要的信息量,稱為S劃分前的熵,即:
其中Pi是任意一個數(shù)據(jù)對象屬于類別Ci的概率:。Pi=Si/S。
定義 2:設一個屬性A取v個不同的離散屬性值{a1,a2,…av}。利用屬性A可以將集合S劃分為v個子集{S1,S2,…Sv},其中Sj包含了S 集合中屬性A取aj值的數(shù)據(jù)樣本。若屬性A被選為測試屬性,即用屬性A 對當前樣本集進行劃分。設Sij為子集Sj中屬于Ci類別的樣本數(shù)。那么利用屬性A劃分當前樣
2 挖掘?qū)ο蠹澳繕舜_定
本文以南京信息職業(yè)技術學院六百名2016屆畢業(yè)生的就業(yè)情況作為研究對象,通過建立C4.5算法比對分析六百位2016屆畢業(yè)生的學習成績及個人素質(zhì)等相關信息得出可能影響學生擇業(yè)就業(yè)的潛在因素,為在校學生有針對性的提高自身素養(yǎng)提供了參考方向,同時也給學校學生工作委員會就業(yè)指導中心的專兼任教師調(diào)整學校課程安排和就業(yè)指導工作的中心提供了理論支撐。
3 數(shù)據(jù)采集
利用C4.5算法進行數(shù)據(jù)挖掘分析需要確立具體、可查的研究對象,所以建立算法分析模板前應對可預見的可能影響學生擇業(yè)就業(yè)的潛在因素進行系統(tǒng)化、精細化的搜集整理。數(shù)據(jù)采集樣本的準確程度直接影響了算法分析結(jié)果的參考價值。
根據(jù)研究分析需要,本文主要從南京信息職業(yè)技術學院學生學籍管理系統(tǒng)中“基本信息服務”界面采集了學生“學生基本信息”,從“學習中心-成績查詢服務”界面導出了2016界畢業(yè)生的“學生成績信息”。南京信息職業(yè)技術學院學生工作委員會下轄的就業(yè)指導中心的同事們向我們提供了2016界相關畢業(yè)生的“就業(yè)狀況信息”。筆者使用隨機抽樣的方式從調(diào)取到的近五千條數(shù)據(jù)記錄中截取了600條相關記錄作為本次研究分析的對象。在截取的600條畢業(yè)生信息中安排400條數(shù)據(jù)組成訓練數(shù)據(jù)集,剩余200條數(shù)據(jù)分配為測試數(shù)據(jù)集。
從南京信息職業(yè)技術學院學生學籍管理系統(tǒng)中“基本信息服務”界面采集了學生“學生基本信息”主要包括以下內(nèi)容:院系、專業(yè)、班級、姓名、學號、性別、能力特長、政治面貌、健康情況、獎懲情況與培訓工作經(jīng)歷、社會實踐活動等。另外,該界面還顯示了諸如民族、籍貫、身份證號等與畢業(yè)生就業(yè)選擇無關或受反歧視、反地方保護政策限制對畢業(yè)生就業(yè)影響較小的因素,本文不作討論。
從“學習中心-成績查詢服務”界面導出“學生成績信息”,主要包括以下屬性:學號、姓名、學年、學期、學分、課程性質(zhì)、總評成績等。該界面也提供了畢業(yè)生英語水平、計算機水平等被用人單位普遍重視的基礎技能成績的查詢服務。
由南京信息職業(yè)技術學院學生工作委員會就業(yè)指導中心提供的畢業(yè)生“就業(yè)狀況信息”主要包括以下屬性:專業(yè)、班級、學號、姓名、就業(yè)單位、單位性質(zhì)、單位通信地址、單位聯(lián)系方式、單位效益等。
4 數(shù)據(jù)集成
本文研究的初始數(shù)據(jù)即從數(shù)據(jù)采集流程中“學生基本信息”、“學生成績信息”及“就業(yè)狀況信息”三個數(shù)據(jù)庫選取。為了進一步提高數(shù)據(jù)挖掘質(zhì)量,提高算法效能我們需要將采集到的數(shù)據(jù)進行集成處理,即將采集到的三個數(shù)據(jù)庫中的相干信息統(tǒng)一整合到一個新的數(shù)據(jù)庫中。
通過觀察發(fā)現(xiàn),三個數(shù)據(jù)庫中均包含的數(shù)據(jù)屬性有“姓名”、“學號”兩個,由于以中文字符作為數(shù)據(jù)存儲格式的“姓名”屬性相較于以數(shù)字字符作為數(shù)據(jù)存儲格式的“學號”屬性難以在算法中錄入、檢索,故本文采用樣本的“學號”屬性作為主鍵將三個獨立的數(shù)據(jù)庫整合形成一個“南京信息職業(yè)技術學院2016屆畢業(yè)生就業(yè)信息匯總表”。表內(nèi)共包含以下樣本個體的屬性信息:專業(yè)、班級、姓名、學號、性別、政治面貌、獎懲情況、社會實踐活動、學習成績、英語水平、計算機水平、單位名稱、單位性質(zhì)、單位聯(lián)系方式、單位地址、單位效益,共計16項。
經(jīng)過認真的考校和從業(yè)內(nèi)專業(yè)人士等渠道獲取的相關信息我們發(fā)現(xiàn)表內(nèi)的有些屬性和算法實施的目的有關,一些與數(shù)據(jù)挖掘分析任務相干性較小或者不相干。因此,對表內(nèi)的數(shù)據(jù)屬性進行歸約以得到最小的屬性集從而保證數(shù)據(jù)挖掘結(jié)論的正確性和有效性是十分必要的。endprint
5 構(gòu)造決策樹
我們將“就業(yè)情況”中的“單位性質(zhì)”作為類別標識屬性,把“學生基本信息”中的“性別”、“專業(yè)”、“政治面貌”、“獲獎情況”、“實踐能力”、“學習成績”、“英語水平”、“計算機水平”作為決策屬性構(gòu)建訓練數(shù)據(jù)集。將學生就業(yè)的樣本集設為S,其包含有400個元組。這400個元祖根據(jù)就業(yè)單位性質(zhì)劃分為A1、A2、A3、B1、B2、B3、C1、C2、C3九個類別,分別對應著較好的國企、一般的國企、差的國企、較好的外企、一般的外企、差的外企、較好的私企、一般的私企、差的私企九類就業(yè)單位。各個類別標識屬性對應的樣本數(shù)參照表1樣本統(tǒng)計分析表所示。
通過表1中的數(shù)據(jù)統(tǒng)計結(jié)果我們不難看出,400個訓練數(shù)據(jù)元組中進入A1、B1、C1類單位就業(yè)的僅有十一個個體,相較于400個數(shù)據(jù)的總體所占比例過低,不具有代表性。這與本文通過研究既有應屆畢業(yè)生就業(yè)數(shù)據(jù)分析得出潛在的可能影響就業(yè)的普適性因素以提高應屆畢業(yè)生就業(yè)率的初衷背道而馳。因此,本文僅選擇了進入二(A2&B2&C2)、三類(A3&B3&C3)單位工作的數(shù)據(jù)元祖使用決策樹C4.5 算法進行挖掘分析,冀圖得到更精確、更具有普適性的分析結(jié)果。C4.5決策樹的具體的構(gòu)建過程如圖1所示。
400個元組,其中A2、A3、B2、B3、C2、C3對應的子集元組數(shù)分別為s1=32,s2=41,s3=35,s4=62,s5=61,s6=158,計算每個決策屬性的信息增益率,按照公式(1)首先計算集合S的熵:I(s1,s2,s3,s4,s5,s6)=I(32,41,35,62,61,158)=2.320543,然后根據(jù)公式(2)、公式(3)和公式(4)計算每一個決策屬性的信息增益率。
由上述結(jié)果可知,數(shù)據(jù)增益率最高的屬性是“社會實踐活動”,因此該屬性應作為決策樹的根結(jié)點。實踐能力分出“優(yōu)”、“良”和“差”三個分支,對應的元組個數(shù)依次為116、259和25。由上述結(jié)果可知,數(shù)據(jù)增益率最高的屬性是“英語水平”,因此該屬性是實踐能力為“優(yōu)”的分支結(jié)點。對實踐能力為“良”和“差”的分支進行上述計算,結(jié)果為實踐能力為“良”和“差”的分支結(jié)點均是屬性“獲獎情況”,同理確定其他的分支節(jié)點。
6 生成分類規(guī)則
從圖1實踐能力分支為優(yōu)的決策樹中從根結(jié)點到每個葉結(jié)點的流程我們可以歸納出如下分類原則(表2)。
通過上述分類原則可以看出,有社會實踐經(jīng)歷豐富且具有較高的英語應用能力的畢業(yè)生占了較好企業(yè)就業(yè)樣本中的絕大多數(shù);而社會實踐經(jīng)歷較為薄弱但獲得過省市以上獎勵榮譽的畢業(yè)生,基本上能夠在差的國企、一般性外企和較好的私企就業(yè);社會實踐能力一般且沒有獲得過較高等級的獎勵的畢業(yè)生只能混跡于較差企業(yè)等。
7 結(jié)語
根據(jù)潛在的可能影響到應屆大學畢業(yè)生就業(yè)的數(shù)據(jù)屬性所具有的離散性的特點,本文利用決策樹C4.5算法對目標數(shù)據(jù)進行了挖掘分析,構(gòu)建了大學生就業(yè)影響因素的分析模型,同時樹立建立了分類規(guī)則,數(shù)據(jù)挖掘分析具有較高的參考價值和實踐意義。通過C4.5算法模型分析出的應屆畢業(yè)生就業(yè)影響因素分類規(guī)則對在校大學生針對性的提高自身綜合素質(zhì)具有導向作用,也可以為高校就業(yè)指導工作的轉(zhuǎn)型提供思路。
參考文獻
[1]楊斷利,張銳,王文顯.基于模糊決策樹的高校就業(yè)數(shù)據(jù)挖掘研究[J].河北農(nóng)業(yè)大學學報,2012,35(2):111-114.
[2]麥曉冬,賈萍,翁建榮,等.基于多尺度粗糙集模型的決策樹在高校就業(yè)數(shù)據(jù)分析中的應用[J].華南師范大學學報(自然科學版),2014,46(4):31-36.
[3]李如平.數(shù)據(jù)挖掘中決策樹分類算法的研究[J].華東理工大學學報,2015,33(2):192-196.endprint