摘要:管理信息系統(tǒng)的應(yīng)用使得職業(yè)學(xué)校的就業(yè)指導(dǎo)工作產(chǎn)生了質(zhì)的飛躍,但隨著畢業(yè)生人數(shù)的極具增長,系統(tǒng)中不可避免地積聚了大量的就業(yè)信息數(shù)據(jù),與之匹配的統(tǒng)計方法已不能適應(yīng)現(xiàn)實的需求。數(shù)據(jù)挖掘技術(shù)可以有效解決這一問題,它所包含的Apriori算法,能建立在學(xué)校的就業(yè)歷史數(shù)據(jù)之上,深入分析畢業(yè)生的就業(yè)數(shù)據(jù)從而發(fā)現(xiàn)真正影響學(xué)生就業(yè)問題的內(nèi)因,還能通過結(jié)合學(xué)生的受教育與就業(yè)需求之間的相關(guān)性,分析出社會對人才的真正需求,進(jìn)而為職業(yè)學(xué)校的管理者提供參考數(shù)據(jù),幫助他們對學(xué)校的教育模式進(jìn)行改革,使其更契合當(dāng)下社會對人才的需求,從而最大程度地提高畢業(yè)生就業(yè)指導(dǎo)工作的有效性。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apriori算法;就業(yè)指導(dǎo)
中圖分類號:TP311.52 文獻(xiàn)標(biāo)識碼:A 文章編號:1007—9599 (2012) 14—0000—02
一、引言
在學(xué)生管理工作中,學(xué)生就業(yè)指導(dǎo)是一個非常重要的方面。如何對學(xué)生就業(yè)進(jìn)行有效的指導(dǎo),是當(dāng)前職業(yè)學(xué)校面臨的一個重要課題。本文首先根據(jù)學(xué)生就業(yè)指導(dǎo)主題建立江蘇省揚州商務(wù)高等職業(yè)學(xué)校學(xué)生就業(yè)指導(dǎo)數(shù)據(jù)倉庫,利用多維關(guān)聯(lián)規(guī)則Apriori算法,從無次序、規(guī)律的學(xué)生的相關(guān)學(xué)業(yè)和就業(yè)信息中找尋出兩者之間內(nèi)在的關(guān)聯(lián)性,并推算出關(guān)聯(lián)規(guī)則,為學(xué)生培養(yǎng)與就業(yè)指導(dǎo)提供決策依據(jù)。由于數(shù)據(jù)挖掘技術(shù)的Apriori算法演進(jìn)而得的多維關(guān)聯(lián)規(guī)則的算法,使得該算法不可避免地會形成大量的候選頻繁謂詞集,降低算法性能。本文針對這一缺點,提出使用不產(chǎn)生候選的多維關(guān)聯(lián)規(guī)則Apriori算法,它的原理是長頻模式直接由短頻模式利用遞歸的方式獲得,這樣就可以有效避免產(chǎn)生大量額外的候選頻繁謂詞語集,從而提高了算法效率。
二、數(shù)據(jù)挖掘應(yīng)用流程
SQL Serve對數(shù)據(jù)挖掘的過程是經(jīng)由工作流以節(jié)點連接的方式完成的。這種方式完全符合當(dāng)今通用的跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(Crisp—DM),本文以就業(yè)數(shù)據(jù)倉庫為數(shù)據(jù)挖掘的對象,其流程如圖1所示。
數(shù)據(jù)挖掘流程基于Crisp—DM如下所示:
問題的提出與表征—>數(shù)據(jù)準(zhǔn)備—>建?!?gt;產(chǎn)生規(guī)則—>測評與詳解。
1.問題的提出與表征:通過對問題進(jìn)行解析,從而發(fā)現(xiàn)學(xué)生整體的就業(yè)情況與學(xué)生成績、專業(yè)、區(qū)域等相關(guān)信息的關(guān)聯(lián)。2.數(shù)據(jù)準(zhǔn)備:根據(jù)不同的問題,采用SQL Serve中的處理工具對就業(yè)數(shù)據(jù)倉庫進(jìn)行篩選,如通過選擇、抽樣和匯總等方式增加記錄選項,通過過濾等方式增加字段選項,從而從就業(yè)數(shù)據(jù)倉庫中獲得符合條件的子集,建構(gòu)特定的數(shù)據(jù)挖掘庫。3.建模:數(shù)據(jù)模型的建立必須依據(jù)數(shù)據(jù)的特征和數(shù)據(jù)挖掘的目標(biāo)的基礎(chǔ)之上。筆者認(rèn)為,選用數(shù)據(jù)挖掘技術(shù)的Apriori算法演進(jìn)而得的多維關(guān)聯(lián)規(guī)則的算法來進(jìn)行數(shù)據(jù)挖掘分析非常適合。4.測評與詳解:當(dāng)數(shù)據(jù)挖掘應(yīng)用于學(xué)生就業(yè)實際之后,對所得的數(shù)據(jù)進(jìn)行測評,并結(jié)合測評結(jié)果對其進(jìn)行詳解。
三、關(guān)聯(lián)規(guī)則的挖掘
(一)求取單維、多維頻繁謂詞。每一條就業(yè)信息都包含著許多屬性,如果要找到它們所構(gòu)成的頻繁謂詞集,就要先找到它們中每一維所包含的頻繁謂語。因此,可以通過用SQL語言編程的方式,對數(shù)據(jù)庫進(jìn)行操作。
對學(xué)生信息的每一維屬性而言,對就業(yè)信息事務(wù)表的操作,應(yīng)運用SQL語言的Distinct語句對其進(jìn)行操作,經(jīng)過篩選留下來的都是滿足條件的單維頻繁謂詞。在此基礎(chǔ)之上,再通過K維頻繁謂詞進(jìn)行數(shù)據(jù)挖掘。
系統(tǒng)的核心算法是基于多位關(guān)聯(lián)規(guī)則的多維頻繁謂詞集的求取,是數(shù)據(jù)挖掘技術(shù)的Apriori算法演進(jìn)而得的多維關(guān)聯(lián)規(guī)則的算法但是該算法可能會產(chǎn)生大量候選頻繁謂詞集,降低算法性能。
基于經(jīng)典的Apiori算法,頻繁K—謂詞集求頻繁(K+1)謂詞集的時候應(yīng)利用利用Apriori性質(zhì)。因此,開始時要產(chǎn)生頻繁(K+1)謂詞集。之后,隨著掃描數(shù)據(jù)庫的次數(shù)過多,可能產(chǎn)生大量的侯選項集,在頻繁項目集長度變大的情況下,運算時間顯著增加。基于此,下文的算法描述就是為了有效解決這一缺陷而設(shè)計的,提出使用不產(chǎn)生候選的多維關(guān)聯(lián)規(guī)則Apriori算法,它的原理是長頻模式直接由短頻模式利用遞歸的方式獲得,這樣就可以有效避免產(chǎn)生大量額外的候選頻繁謂詞語集,從而提高了算法效率。
(二)不產(chǎn)生候選的多維關(guān)聯(lián)規(guī)則Apriori算法描述。該算法目的是由頻繁K—謂詞項求得頻繁K+1的謂詞項,主要是通過函數(shù)遞歸來實現(xiàn)的。算法過程如圖2所示:通過執(zhí)行該算法,先找出頻繁一維謂詞集,之后再找出所有的頻繁K維謂詞集。比如:一維頻繁謂詞設(shè)置為“年齡—21歲”,二維謂詞就設(shè)置為“年齡—21歲”、“性別—女”。如果能夠滿足二維謂詞的值,那么就可以進(jìn)一步選取三維謂詞:“年齡—21歲”、“性別—女”、“學(xué)生地區(qū)—興化”;如果不能滿足二維謂詞的值,那么只要是含有“年齡—21歲”、“性別—女”的多維模式將不再會被選取,轉(zhuǎn)而對二維謂詞“年齡—21歲”、“性別—男”進(jìn)行計數(shù),再重復(fù)前面的流程。經(jīng)過如此反復(fù)地運算、判斷,最終就能找到全部的頻繁K維謂詞集。
(三)產(chǎn)生強關(guān)聯(lián)規(guī)則。置信度與支持度是關(guān)聯(lián)規(guī)則的基礎(chǔ),算法中發(fā)現(xiàn)的頻繁k—謂詞集,其實就是找到能夠匹配最小支持度值的頻繁詞項。接著就是在頻繁謂詞項之中,再通過匹配最小置信度來生成關(guān)聯(lián)規(guī)則。從而得到以下的強關(guān)聯(lián)規(guī)則流程圖,見圖2。
(四)相關(guān)性分析。執(zhí)行上述的多維關(guān)聯(lián)規(guī)則挖掘的算法,就可以獲得所有符合匹配值的頻繁維謂詞集,并視它們?yōu)閺婈P(guān)聯(lián)規(guī)則。隨后,對這些強管理規(guī)則,利用相關(guān)的概念來進(jìn)行解析。
每一個關(guān)聯(lián)規(guī)則中,最后輸出的結(jié)論(B)是最需要關(guān)注的一個屬性維;另外的屬性維作為條件則為(A)。頻繁謂詞項是A∪B,它們的值在算法的執(zhí)行過程之中既已保存;可以通過Apriori的算法性質(zhì)推知,子集A和B一定都是頻繁的,因此,它們的值也同樣已經(jīng)保存。所以,通過以下公式就
能很容易判斷每條規(guī)則的相關(guān)性。相關(guān)性判斷的流程圖如圖4。
四、規(guī)則釋義與應(yīng)用
算法模型得出的知識,通過一系列的評估與檢測,可最終被確認(rèn)為正確的知識,并結(jié)合相關(guān)領(lǐng)域作出相應(yīng)的解釋。
從圖5的示例中,我們可以看出:地區(qū)A和地區(qū)B的學(xué)生之中成績中等以上的學(xué)生就業(yè)率較高。這說明:①這兩類地區(qū)的實際經(jīng)濟狀況較為良好,人們物質(zhì)生活水平普遍較高,家長有能力也也愿意支付較高的實習(xí)費用,所以學(xué)生就業(yè)率相對較高;②同時,他們的成績還不足以支撐他們進(jìn)入更高層次的院校深造,如國家自學(xué)考試或成人高等教育,因此,能夠進(jìn)入民營企業(yè)工作對他們來說是比較合理的選擇。
從圖6的示例中,我們可以看出:地區(qū)C的學(xué)生由于成績相對較低,因此學(xué)生的就業(yè)比較靈活,但同時也反映出嚴(yán)重的就業(yè)不穩(wěn)定現(xiàn)象。這正好說明:地區(qū)C是江蘇北部幾個經(jīng)濟欠發(fā)達(dá)的地區(qū),人們的經(jīng)濟狀況相對蘇南要差,家庭比較貧困,以至于很多家庭都無力幫助學(xué)生就業(yè),同時,學(xué)生自身的學(xué)業(yè)水平也不高,兩者相和從而導(dǎo)致他們對學(xué)習(xí)沒有多大期許,寧愿選擇外出打工,去幫助家里減輕經(jīng)濟負(fù)擔(dān)。而學(xué)生多數(shù)是在民企工作,他們?nèi)狈夹g(shù),所以工作也不穩(wěn)定。還有的人在個體經(jīng)營者那兒打工,想做就做,不想做就換一家這種情況。
此外,我們還可以根據(jù)關(guān)聯(lián)規(guī)則,分析出經(jīng)濟環(huán)境的優(yōu)劣,對于學(xué)生的就業(yè)率會帶來一定的影響。如世界金融危機的爆發(fā),使得我國國內(nèi)經(jīng)濟的增速趨緩,這導(dǎo)致了部分中小企業(yè)生產(chǎn)經(jīng)營困難,珠三角、長三角地區(qū)部分企業(yè)出現(xiàn)倒閉裁員的現(xiàn)象,特別是紡織服裝、加工制造等勞動密集型產(chǎn)業(yè)的困難較大。原本商務(wù)、經(jīng)貿(mào)、財會類的學(xué)生就業(yè)去向主要是各私營公司或私營企業(yè),在此形勢影響下,近幾年的就業(yè)情況明顯下降了很多。但是烹飪、美容、旅游服務(wù)等第三產(chǎn)業(yè)類專業(yè)的學(xué)生就業(yè)率并沒有受到太大影響,究其原因,主要還是由于職業(yè)學(xué)校學(xué)生依靠技能就業(yè),有一技之長有手藝,還是能夠就業(yè)的,甚至能夠自主創(chuàng)業(yè)。
通過以上的論述,我們可以看出,關(guān)聯(lián)規(guī)則可以給學(xué)校的管理者們提供一些指導(dǎo)依據(jù),即學(xué)生入學(xué)初始,就應(yīng)考慮他們未來的就業(yè)問題,通過關(guān)聯(lián)規(guī)則中給出的合理因素,使學(xué)生能有效避免“誤入歧途”,從而真正提高他們的就業(yè)率和質(zhì)量。這也是學(xué)校管理者們能清醒地意識到每一個不合理的因素都有可能成為制約學(xué)生就業(yè)的重大隱患。必須認(rèn)識到只有切實提高學(xué)生創(chuàng)新能力和實踐能力才能提高學(xué)生真正的就業(yè)率。
五、結(jié)束語
本文將數(shù)據(jù)挖掘技術(shù)應(yīng)用于學(xué)生就業(yè)指導(dǎo)系統(tǒng),通過挖掘Apriori算法算出關(guān)聯(lián)規(guī)則,并分析學(xué)生的就業(yè)情況。對學(xué)生的信息進(jìn)行分析后,發(fā)現(xiàn)學(xué)生的學(xué)業(yè)和就業(yè)信息屬性之間彼此關(guān)聯(lián),這可以幫助學(xué)校明晰自身的培養(yǎng)目標(biāo),進(jìn)而改進(jìn)自身的教學(xué)方法,為學(xué)生的教育教學(xué)提供實踐依據(jù),從而真正提高畢業(yè)生的就業(yè)能力,使他們能在激烈的社會競爭中脫穎而出,不僅提高他們的就業(yè)率,還能相應(yīng)地提高他們的就業(yè)質(zhì)量。
參考文獻(xiàn)
[1]胡海員.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)在招生決策中的應(yīng)用研究[D].東南大學(xué),2010
[2]徐龍琴,劉雙印.基于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的高校決策支持系統(tǒng)的探索[J].佳木斯大學(xué)學(xué)報(自然科學(xué)版),2010(23):59—63
[3]盧碩.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在決策支持系統(tǒng)中的應(yīng)用研究[D].西安電子科技大學(xué),2011:1,7—10.
[4] T.Gnardellis and B.Boutsinas,On Experimenting with Data Mining in Education,2011.
[5] Surajit chaudhuri,Umeshwar Dayal,An Overview of Data Warehousing and OLAPTechnology,ACM SIGMOD Record,26(1):65—74,2010.