王凱 王娜 郭利霞
摘? 要:隨著近年來高校招生規(guī)模的不斷擴(kuò)大,高校畢業(yè)生人數(shù)逐年攀升,就業(yè)問題成為高校工作中的重點(diǎn)和難點(diǎn),也是社會(huì)各界關(guān)注的熱點(diǎn)。在計(jì)算機(jī)相關(guān)技術(shù)飛速發(fā)展的今天,數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域的應(yīng)用日趨廣泛。文章將探討數(shù)據(jù)挖掘技術(shù)在高校畢業(yè)生就業(yè)工作中的應(yīng)用,利用C4.5決策樹算法對(duì)高校畢業(yè)生數(shù)據(jù)進(jìn)行分類和相關(guān)性分析,為高校畢業(yè)生提供精準(zhǔn)的就業(yè)指導(dǎo)。
關(guān)鍵詞:數(shù)據(jù)挖掘;高校就業(yè);決策樹算法;C4.5算法
Abstract:With the continuous expansion of college enrollment in recent years,the number of college graduates is increasing year by year. The employment problem has become the focus and difficulty in the work of colleges,and it is also the focus of the community. With the rapid development of computer technology,data mining technology is widely used in various fields. This paper will discuss the application of data mining technology in the employment of college graduates,and use C4.5 algorithm to classify and analyze the data of college graduates,so as to provide accurate employment guidance for college graduates.
Keywords:data mining;college employment;decision tree algorithm;C4.5 algorithm
0? 引? 言
我國國內(nèi)知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的研究處于不斷的發(fā)展和提高過程中,從目前來看,現(xiàn)階段國內(nèi)對(duì)數(shù)據(jù)挖掘的研究主要集中在方法、應(yīng)用和Web挖掘三個(gè)方面。發(fā)展至今,數(shù)據(jù)挖掘技術(shù)在國內(nèi)商業(yè)、企業(yè)、辦公等應(yīng)用范圍已經(jīng)得到了廣泛的應(yīng)用,與此同時(shí)在教育、科研等領(lǐng)域的應(yīng)用也日漸廣泛。國內(nèi)各個(gè)高校在推動(dòng)高校畢業(yè)生就業(yè)工作方面做出了大量的探索和實(shí)踐,特別是在高校信息化管理能力不斷提升的今天,各級(jí)各類高校學(xué)生管理信息系統(tǒng)和高校畢業(yè)生就業(yè)信息管理系統(tǒng)被普遍應(yīng)用。相關(guān)系統(tǒng)中存儲(chǔ)了大量有關(guān)高校畢業(yè)生的各方面各類別的信息。但是,目前大多數(shù)高校使用數(shù)據(jù)挖掘技術(shù)對(duì)相關(guān)信息進(jìn)行知識(shí)發(fā)現(xiàn)的意識(shí)還有待提高,有關(guān)高校畢業(yè)生的大量隱藏信息尚未得到充分發(fā)掘。因此,在具體工作實(shí)踐中使用數(shù)據(jù)挖掘技術(shù)不僅是為了更好地促進(jìn)高校畢業(yè)生就業(yè)相關(guān)工作的開展,也是將數(shù)據(jù)挖掘技術(shù)中的一些方法應(yīng)用到高校畢業(yè)生就業(yè)工作中,有著十分積極的意義,還能為在校大學(xué)生選擇目標(biāo)行業(yè)或企業(yè)時(shí)提供有參考價(jià)值的信息。大學(xué)生就業(yè)問題不僅僅是教育難題,更是重要的社會(huì)問題。選擇高校畢業(yè)生就業(yè)信息,并基于數(shù)據(jù)挖掘技術(shù)進(jìn)行分類研究,目的是構(gòu)建一套基于高校畢業(yè)生的就業(yè)預(yù)測模型,挖掘并提取就業(yè)數(shù)據(jù)的內(nèi)在聯(lián)系。本文基于數(shù)據(jù)挖掘技術(shù),針對(duì)新鄉(xiāng)職業(yè)技術(shù)學(xué)院2019屆畢業(yè)生就業(yè)情況進(jìn)行應(yīng)用研究,旨在探索一種有助于對(duì)大學(xué)生就業(yè)情況進(jìn)行預(yù)測的模式,推動(dòng)本校就業(yè)指導(dǎo)工作,對(duì)現(xiàn)階段促進(jìn)高校大學(xué)生就業(yè)有重要的現(xiàn)實(shí)意義。
1? 數(shù)據(jù)挖掘技術(shù)
1.1? 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)
數(shù)據(jù)挖掘,是在大型數(shù)據(jù)存儲(chǔ)庫中自動(dòng)地發(fā)現(xiàn)有用信息的過程。這種技術(shù)主要用來探查大型數(shù)據(jù)庫,用來發(fā)現(xiàn)先前未知的有用模式[1]。數(shù)據(jù)挖掘技術(shù)主要運(yùn)用各種算法、統(tǒng)計(jì)或分析方法,對(duì)在數(shù)據(jù)庫或數(shù)據(jù)倉庫中累積的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)歸納與數(shù)據(jù)整合等處理,提取出類似于趨勢、模式或相關(guān)性等有用的信息,最后將其中有價(jià)值的信息提供給決策者,用于參考和決策。通俗地講,數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中發(fā)掘出信息或知識(shí)的過程。
數(shù)據(jù)挖掘是非常復(fù)雜并且會(huì)反復(fù)出現(xiàn)人機(jī)交互的一個(gè)完整過程,可以劃分為幾個(gè)相互聯(lián)系的階段,其基本工作過程如圖1所示。
第一階段是數(shù)據(jù)準(zhǔn)備階段,為了保證結(jié)果的準(zhǔn)確性和有效性,需要對(duì)初始數(shù)據(jù)中存在的大量冗余、有噪聲的數(shù)據(jù)進(jìn)行清理,為下一階段提供較高質(zhì)量的數(shù)據(jù)。主要包含數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)預(yù)處理三個(gè)階段;第二階段是數(shù)據(jù)挖掘階段,這是整個(gè)過程中的核心部分,其主要任務(wù)是根據(jù)明確的目標(biāo)和任務(wù),采用運(yùn)行恰當(dāng)?shù)乃惴ㄩ_展工作并得到預(yù)期的結(jié)果;第三階段是結(jié)果表達(dá)與解釋,主要針對(duì)結(jié)果進(jìn)行反復(fù)的分析和驗(yàn)證,最終將可信度高的結(jié)果以簡單、直觀的形式呈現(xiàn)給用戶。
1.2? 決策樹分類算法
分類技術(shù)(或分類方法)是一種根據(jù)輸入數(shù)據(jù)集建立分類模型的系統(tǒng)方法,是數(shù)據(jù)挖掘過程中的一種常見技術(shù)。分類技術(shù)主要是針對(duì)已經(jīng)建立的類別,對(duì)觀察值進(jìn)行統(tǒng)一劃分。決策樹分類方法是數(shù)據(jù)挖掘技術(shù)中進(jìn)行分類分析的一種典型方法,通過對(duì)信息增益原理的利用構(gòu)造一個(gè)決策樹模型,并試圖用于揭示數(shù)據(jù)之間的分類規(guī)則。由于具有生成模型簡單易懂、分類精度高、處理速度快等優(yōu)點(diǎn),決策樹算法得到了廣泛的應(yīng)用和推廣。
在實(shí)際應(yīng)用中,決策樹更多被表示成一種類似流程圖的樹結(jié)構(gòu),根據(jù)層次的不同分為根結(jié)點(diǎn)、分支結(jié)點(diǎn)和葉子結(jié)點(diǎn)。根結(jié)點(diǎn)位于決策樹的最上方,是整個(gè)決策的起點(diǎn);分支結(jié)點(diǎn)由其上一層結(jié)點(diǎn)的屬性分割,代表數(shù)據(jù)子集;葉子結(jié)點(diǎn)代表分類結(jié)果。決策樹的每一條從根結(jié)點(diǎn)到一個(gè)葉子結(jié)點(diǎn)的路徑都是一條預(yù)測路徑,直觀地將屬性和結(jié)果的關(guān)系表示出來。