亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹的數(shù)據(jù)挖掘技術(shù)在就業(yè)信息管理系統(tǒng)中的應(yīng)用研究

        2019-09-19 13:40:58葉章浩
        科技傳播 2019年16期
        關(guān)鍵詞:英語水平決策樹數(shù)據(jù)挖掘

        葉章浩

        近年來,我國(guó)的高等教育事業(yè)不斷的取得進(jìn)步,各類高等學(xué)校也相應(yīng)的增加了招生人數(shù),這使得高等學(xué)校畢業(yè)生的就業(yè)壓力和就業(yè)難度也在不斷增加,解決好高校畢業(yè)生的就業(yè)問題,成為高校所必須面對(duì)的一個(gè)基本問題。如何更加清晰直觀的了解學(xué)生的就業(yè)動(dòng)向和就業(yè)趨勢(shì),制定下一步的就業(yè)政策,更是高校就業(yè)管理部門所關(guān)注的一個(gè)重點(diǎn)問題。這樣一來,畢業(yè)生就業(yè)信息管理系統(tǒng)不僅需要對(duì)信息進(jìn)行存儲(chǔ)和查詢,更是需要可以對(duì)就業(yè)數(shù)據(jù)進(jìn)行挖掘,挖掘出畢業(yè)生就業(yè)的趨勢(shì)和動(dòng)向。在本文中,作者設(shè)計(jì)并開發(fā)了畢業(yè)生就業(yè)信息管理系統(tǒng),并在此基礎(chǔ)上使用了基于C4.5 決策樹的數(shù)據(jù)挖掘技術(shù),從而可以更好的挖掘?qū)W生的就業(yè)動(dòng)向和就業(yè)趨勢(shì),為高校學(xué)生就業(yè)指導(dǎo)工作提出更好的建議和意見,也可以為學(xué)校相關(guān)部門的就業(yè)政策的制定和培養(yǎng)方案的制定提供決策支持。

        1 就業(yè)信息管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        該系統(tǒng)基于B/S 模式進(jìn)行構(gòu)建,采用JSP 技術(shù)進(jìn)行開發(fā),使用MySql 數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。在功能實(shí)現(xiàn)方面,該系統(tǒng)由管理員模塊、學(xué)生模塊、用人單位模塊三大模塊所構(gòu)成。

        在管理員模塊中,管理員可以進(jìn)行以下操作:1)對(duì)學(xué)生信息進(jìn)行管理,增加、刪除、修改學(xué)生信息。進(jìn)行學(xué)生信息的審核,導(dǎo)出學(xué)生在線簽約的三方協(xié)議。2)對(duì)招聘信息進(jìn)行管理,并對(duì)企業(yè)發(fā)布的招聘信息進(jìn)行審核。3)對(duì)就業(yè)政策信息進(jìn)行管理。4)對(duì)企業(yè)介紹信息進(jìn)行管理。5)查看各專業(yè)就業(yè)率統(tǒng)計(jì)圖和就業(yè)報(bào)表。6)對(duì)系統(tǒng)用戶信息、個(gè)人信息等進(jìn)行管理。

        在學(xué)生模塊中,畢業(yè)生可以進(jìn)行以下操作:1)查看企業(yè)招聘信息。2)查看就業(yè)政策信息。3)查看企業(yè)介紹信息。4)查看個(gè)人就業(yè)基本信息及在線簽約三方協(xié)議。

        在用人單位模塊中,用人單位招聘人員可以進(jìn)行以下操作:1)查看應(yīng)聘學(xué)生的個(gè)人信息,進(jìn)行三方協(xié)議的在線簽約。2)發(fā)布企業(yè)招聘信息。3)發(fā)布企業(yè)介紹信息。4)對(duì)企業(yè)用戶個(gè)人信息進(jìn)行修改。

        2 數(shù)據(jù)挖掘技術(shù)的概述

        2.1 數(shù)據(jù)挖掘的定義

        數(shù)據(jù)挖掘(Datamining),也被稱之為數(shù)據(jù)采礦或者資料勘探,數(shù)據(jù)挖掘可以從大量的數(shù)據(jù)中,通過算法來提取其中所隱藏的未知的并具有潛在價(jià)值信息[1]。數(shù)據(jù)挖掘可以將大量的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識(shí),在大量的數(shù)據(jù)中分析數(shù)據(jù)之間的趨勢(shì)、關(guān)系和模式。數(shù)據(jù)挖掘主要是針對(duì)未知模式、關(guān)系的探索,從已有的數(shù)據(jù)中發(fā)現(xiàn)未知的潛在的具有價(jià)值的信息。采用數(shù)據(jù)挖掘,學(xué)校就業(yè)部門可以從大量的就業(yè)數(shù)據(jù)中獲得學(xué)生的就業(yè)趨勢(shì)和就業(yè)動(dòng)向,從而為學(xué)生就業(yè)提供更好的決策支持。

        2.2 數(shù)據(jù)挖掘的特點(diǎn)和內(nèi)容

        數(shù)據(jù)挖掘具有以下的特點(diǎn):

        1)數(shù)據(jù)量大。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取潛在的有用的信息。

        2)數(shù)據(jù)挖掘具有較快的響應(yīng)速度。數(shù)據(jù)挖掘中的數(shù)據(jù)是不斷發(fā)生變化的,因此數(shù)據(jù)挖掘應(yīng)該快速響應(yīng)數(shù)據(jù)的變化,并做出相應(yīng)的決策支持。

        3)數(shù)據(jù)挖掘的規(guī)則基于大量數(shù)據(jù)樣本,其規(guī)則有可能對(duì)某一條數(shù)據(jù)并不適用。

        數(shù)據(jù)挖掘研究的內(nèi)容有以下幾個(gè)方面:進(jìn)化運(yùn)算、最優(yōu)化、發(fā)現(xiàn)算法、可視化、信息檢索、知識(shí)發(fā)現(xiàn)等[1]。

        2.3 數(shù)據(jù)挖掘的方法

        數(shù)據(jù)挖掘的主要方法包括:分類、聚類、關(guān)聯(lián)規(guī)則、預(yù)測(cè)、估計(jì)、Web 數(shù)據(jù)挖掘、圖形圖像數(shù)據(jù)挖掘等[1]。

        2.4 數(shù)據(jù)挖掘的過程

        數(shù)據(jù)挖掘的過程如下:

        1)確定目標(biāo)。對(duì)數(shù)據(jù)挖掘的具體目標(biāo)進(jìn)行確定,定義數(shù)據(jù)挖掘的任務(wù)。

        2)數(shù)據(jù)理解。對(duì)于所要挖掘的數(shù)據(jù)進(jìn)行熟悉,了解數(shù)據(jù)的質(zhì)量,發(fā)現(xiàn)數(shù)據(jù)的屬性,對(duì)數(shù)據(jù)信息進(jìn)行檢查。

        3)數(shù)據(jù)準(zhǔn)備。將采集的數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗、合并等,并選取所需要的數(shù)據(jù),構(gòu)建新的數(shù)據(jù)。

        4)數(shù)據(jù)挖掘。采用合適的方法對(duì)數(shù)據(jù)進(jìn)行分析,從而得到具有價(jià)值的信息。

        5)分析和應(yīng)用。將分析所得到的知識(shí)應(yīng)用于具體的信息系統(tǒng)中,為信息系統(tǒng)提供決策支持。

        3 C4.5 決策樹算法在就業(yè)信息管理系統(tǒng)中的應(yīng)用

        3.1 C4.5 決策樹算法的概述

        決策樹算法是數(shù)據(jù)挖掘中常用的算法之一,可以在海量的數(shù)據(jù)中對(duì)數(shù)據(jù)進(jìn)行分類,并做出預(yù)測(cè),發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系。決策樹在本質(zhì)上就是一棵樹,它可以將相同屬性的數(shù)據(jù)進(jìn)行歸類,在這棵樹中,每一個(gè)葉子節(jié)點(diǎn)都代表著一個(gè)類別的屬性,決策樹可以從葉子節(jié)點(diǎn)上分析出所需要的具體數(shù)據(jù)[2]。當(dāng)前最常用的決策樹算法有ID3、C4.5、CART、ASSISTANT 算法等。

        采用決策樹進(jìn)行分類時(shí),可以按照以下的步驟進(jìn)行:1)采集數(shù)據(jù)信息。對(duì)所需要分類的數(shù)據(jù)進(jìn)行采集,并對(duì)數(shù)據(jù)進(jìn)行清洗,形成數(shù)據(jù)訓(xùn)練集。2)構(gòu)建數(shù)據(jù)模型,對(duì)數(shù)據(jù)進(jìn)行泛化,構(gòu)造決策樹模型。3)采用構(gòu)造好的決策樹模型對(duì)數(shù)據(jù)進(jìn)行分類。在進(jìn)行分類的時(shí)候,在根節(jié)點(diǎn)開始對(duì)數(shù)據(jù)的屬性進(jìn)行測(cè)試,并順著分支到達(dá)葉節(jié)點(diǎn),該葉節(jié)點(diǎn)即為數(shù)據(jù)分類后所處的類。

        對(duì)于C4.5 決策樹算法的信息增益率,可以采用以下的方法進(jìn)行計(jì)算:

        1)設(shè)具有一個(gè)集合S={Ni|i=1,2,…,s},類標(biāo)號(hào)屬性集為{Ci|i=1,2,…,m},si為集合S 屬于類別Ci的樣本的數(shù)量,則集合S 的熵的計(jì)算公式如下所示:

        2)計(jì)算給定屬性A 的信息熵、信息增益、信息增益率。

        給定屬性A,屬性A 具有w 個(gè)不同的值{a1,a2,…,aw},則集合S 可以劃分為w 個(gè)不同的子集,定義sk 為Sk 的樣本數(shù)量,sik 為Sk 中類別Ci 的樣本數(shù)量,則屬性A 的子集的熵的計(jì)算公式如下所示:

        由于熵值越小,純度越高,則對(duì)于給定的子集,信息熵的計(jì)算公式為:

        由此可得屬性A 的信息增益公式為:

        屬性A 的信息增益率公式為:

        通過C4.5 決策樹算法對(duì)屬性的信息增益率進(jìn)行計(jì)算,并對(duì)各個(gè)分枝進(jìn)行劃分,從而建立相應(yīng)的決策樹,并對(duì)屬性數(shù)據(jù)進(jìn)行分析預(yù)測(cè)。

        3.2 數(shù)據(jù)的預(yù)處理

        3.2.1 數(shù)據(jù)的采集

        在畢業(yè)生就業(yè)信息管理系統(tǒng)中,包含了大量畢業(yè)生的基本信息,這些基本信息包括學(xué)生的院系、專業(yè)、綜合成績(jī)、英語水平、計(jì)算機(jī)水平等。在本文的研究中所需要采集的數(shù)據(jù)包括畢業(yè)生個(gè)人的學(xué)號(hào)、綜合成績(jī)、英語水平、計(jì)算機(jī)水平、科研水平、就業(yè)單位等信息。在系統(tǒng)管理員模塊的“學(xué)生就業(yè)信息管理”功能中,可以對(duì)這些數(shù)據(jù)以excel 表形式進(jìn)行導(dǎo)出。然后需要對(duì)數(shù)據(jù)進(jìn)行合并、量化、轉(zhuǎn)換、清理、集成等處理工作[2],即可獲得所需要的數(shù)據(jù)。

        3.2.2 數(shù)據(jù)的建模和泛化

        對(duì)于獲取的數(shù)據(jù),可以采用一個(gè)五維向量N={N1,N2,N3,N4,N5}進(jìn)行表示,其中N1 代表綜合成績(jī),N2 代表英語水平,N3 代表計(jì)算機(jī)水平,N4代表科研水平,N5 代表就業(yè)單位情況。對(duì)于各數(shù)據(jù)的屬性,可以做出如下的定義:

        綜合成績(jī)(CJ)可以分為優(yōu)秀和良好兩個(gè)等級(jí),可以將成績(jī)泛化為1(優(yōu)秀),2(良好)。

        英語水平(YY)可以分為優(yōu)秀和良好兩個(gè)等級(jí),優(yōu)秀等級(jí)為通過英語六級(jí)考試,良好為通過英語六級(jí)考試以下水平??梢詫⒂⒄Z水平泛化為1(優(yōu)秀),2(良好)。

        計(jì)算機(jī)水平(JSJ)可以分為通過計(jì)算機(jī)一級(jí)水平考試和通過計(jì)算機(jī)二級(jí)水平考試兩個(gè)等級(jí),可以將計(jì)算機(jī)水平泛化為1(一級(jí)),2(二級(jí))。

        科研水平(KY)可以分為優(yōu)秀(有大量的實(shí)驗(yàn)室經(jīng)歷和大量?jī)?yōu)秀論文的發(fā)表)、良好(有少量的實(shí)驗(yàn)室經(jīng)歷和少量論文的發(fā)表)、差(無實(shí)驗(yàn)室經(jīng)歷,無論文發(fā)表)三個(gè)等級(jí),可以將科研水平泛化為1(優(yōu)秀),2(良好),3(差)。

        就業(yè)單位(DW)可以分為國(guó)企(G), 私企(S),外企(W)。各類單位的層次可以分為好單位(H)和差單位(C)。由此可以將單位泛化為:好國(guó)企(HG),差國(guó)企(CG),好私企(HS),差私企(CS),好外企(HW),差外企(CW)。

        3.3 決策樹的構(gòu)建

        表1 即為本次實(shí)驗(yàn)所選取的就業(yè)數(shù)據(jù)樣本訓(xùn)練集。其中就業(yè)單位為標(biāo)識(shí)屬性,綜合成績(jī)、英語水平、計(jì)算機(jī)水平、科研水平為決策屬性。

        表1 就業(yè)數(shù)據(jù)樣本訓(xùn)練集

        在就業(yè)數(shù)據(jù)樣本訓(xùn)練集S 中,共具有20 組元組。我們按照單位類型進(jìn)行決策樹的構(gòu)建,在這些元組中,好國(guó)企(HG),差國(guó)企(CG),好外企(HW),差外企(CW),好私企(HS),差私企(CS)所對(duì)應(yīng)的子集中元組的個(gè)數(shù)分別為h1=6,h2=6,h3=5,h4=1,h5=2,h6=0。對(duì)各屬性的信息增益進(jìn)行計(jì)算可得:

        綜合成績(jī)、英語水平、計(jì)算機(jī)水平、科研水平的信息增益率分別為:GainRation(綜合成績(jī))=0.583,GainRation(英語水平)=0.254,GainRation(計(jì)算機(jī)水平)=0.244,GainRation(科研水平)=0.136。將各屬性的信息增益率進(jìn)行比較,信息增益率最大的為根節(jié)點(diǎn),按上述步驟進(jìn)行重復(fù),對(duì)每個(gè)分支進(jìn)行劃分,建立最終決策樹如圖1 所示。

        圖1 基于C4.5構(gòu)造的就業(yè)信息決策樹

        3.4 分類關(guān)聯(lián)規(guī)則的獲得

        通過上述構(gòu)建的決策樹,可以對(duì)HG,HS,HW的分類規(guī)則進(jìn)行提取,并可以獲得以下的分類規(guī)則:

        1)IF(綜合成績(jī)=“優(yōu)秀”and 科研水平=“優(yōu)秀或者良好”and 英語水平=“良好”)THEN(工作單位為好國(guó)企);

        2)IF(英語水平=“優(yōu)秀”and 計(jì)算機(jī)水平=“二級(jí)”)THEN(工作單位為好外企);

        3)IF(綜合成績(jī)=“良好”and 計(jì)算機(jī)水平=“二級(jí)”)THEN(工作單位為好私企)。

        通過上述分類關(guān)聯(lián)規(guī)則可以看出,綜合成績(jī)優(yōu)秀,科研水平優(yōu)秀或良好,外語成績(jī)良好的學(xué)生,工作單位一般為好國(guó)企;英語水平優(yōu)秀,計(jì)算機(jī)水平二級(jí)的學(xué)生,工作單位一般為好外企;綜合成績(jī)良好,計(jì)算機(jī)水平二級(jí)的學(xué)生,工作單位一般為好私企。

        由于不同的單位對(duì)于學(xué)生的要求并不盡相同,因此對(duì)于不同就業(yè)目標(biāo)的學(xué)生,所制定的培養(yǎng)方案也是不相同的。對(duì)于就業(yè)目標(biāo)為好國(guó)企的學(xué)生,需要有效地提高綜合成績(jī)、科研水平以及英語成績(jī);對(duì)于就業(yè)目標(biāo)為好外企的學(xué)生,需要有效地提高其英語成績(jī)以及計(jì)算機(jī)水平;對(duì)于就業(yè)目標(biāo)為好私企的學(xué)生,需要有效地提高其綜合成績(jī)以及計(jì)算機(jī)水平。

        通過上述數(shù)據(jù)挖掘結(jié)果,學(xué)校就業(yè)管理部門的相關(guān)工作人員可以根據(jù)學(xué)生的不同就業(yè)目標(biāo),制定相應(yīng)的培養(yǎng)方案和就業(yè)政策,以便于有效的提高學(xué)生的就業(yè)水平和就業(yè)質(zhì)量。

        4 結(jié)束語

        本文在畢業(yè)生就業(yè)信息管理系統(tǒng)的基礎(chǔ)上,采用基于C4.5 決策樹的數(shù)據(jù)挖掘技術(shù)對(duì)就業(yè)數(shù)據(jù)進(jìn)行分析和預(yù)測(cè),從而獲得影響大學(xué)生就業(yè)的關(guān)鍵因素,為學(xué)生的就業(yè)提供了更好的指導(dǎo),學(xué)生可以根據(jù)自身的就業(yè)需求和就業(yè)目標(biāo),學(xué)習(xí)相應(yīng)的知識(shí),提高相應(yīng)的能力。學(xué)校相關(guān)部門也可以根據(jù)這些關(guān)聯(lián)規(guī)則,制定相應(yīng)的培養(yǎng)方案,從而使得高校畢業(yè)生的就業(yè)率得以有效地提高。

        猜你喜歡
        英語水平決策樹數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        句子教學(xué)——提高學(xué)生英語水平的奠基石
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        通道形式與英語水平對(duì)大學(xué)生英語聽力成績(jī)的影響
        基于決策樹的出租車乘客出行目的識(shí)別
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        国产精品无码无片在线观看3D| 很黄很色很污18禁免费| 亚洲精品无码久久久久去q| 成人a级视频在线观看| 亚洲av无码片在线观看| 女同啪啪免费网站www| 天天摸天天做天天爽天天舒服| 狼人综合干伊人网在线观看| 亚洲一区二区三区在线视频| 国产99一区二区三区四区| 欧美激情一区二区三区 | 久久久久亚洲AV无码专| 综合久久久久6亚洲综合| 国产麻豆成人精品av| 在线观看午夜视频国产| 色欲一区二区三区精品a片| 欧美一区二区三区视频在线观看| 婷婷午夜天| 四虎精品免费永久在线| 精品一区二区三区免费爱| 久久精品国产亚洲黑森林| 成 人 网 站 在线 看 免费| 在线观看免费人成视频国产| 丝袜美腿在线观看视频| 一边摸一边做爽的视频17国产 | 亚洲精品国产av成人网| 久久女人精品天堂av影院麻| 成人欧美一区二区三区在线观看| 日本人与黑人做爰视频网站| 欧美日韩在线免费看| 天堂在线观看av一区二区三区| 亚洲视频综合在线第一页| 最近更新中文字幕一区二区| 久久精品中文字幕无码绿巨人| 国产绳艺sm调教室论坛| 青青视频一区| 亚洲成熟丰满熟妇高潮XXXXX| 国语对白自拍视频在线播放| 一边摸一边做爽的视频17国产| 亚洲理论电影在线观看| 久久久午夜精品福利内容|