韓王瑩
(陜西職業(yè)技術(shù)學(xué)院陜西西安710100)
隨著現(xiàn)代信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘被應(yīng)用在各個(gè)不同的領(lǐng)域,從而實(shí)現(xiàn)對(duì)大量信息的有效挖掘。作為企業(yè)人力管理,如何借助數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)對(duì)企業(yè)管理的科學(xué)化、合理化,并從大量的數(shù)據(jù)中挖掘中有利于企業(yè)決策的信息,成為當(dāng)前思考的重要問題。對(duì)此,本文通過構(gòu)建決策樹算法,并對(duì)其在人力資源管理中的應(yīng)用進(jìn)行了詳細(xì)的分析。
決策樹主要被運(yùn)用于分類的一種樹結(jié)構(gòu)。它是一個(gè)以樹狀結(jié)構(gòu)表示的分類器,并通過大量的訓(xùn)練樣本來產(chǎn)生。在樹狀結(jié)構(gòu)當(dāng)中,每個(gè)不同的節(jié)點(diǎn)都是對(duì)屬性的判斷,整個(gè)樹狀結(jié)構(gòu)中葉子的節(jié)點(diǎn)則成為分類的最終的結(jié)果。其每個(gè)內(nèi)部的節(jié)點(diǎn)代表對(duì)屬性的測(cè)試,一條線則代表一個(gè)測(cè)試的結(jié)果。最上面的節(jié)點(diǎn)為根結(jié)點(diǎn)。
決策樹算法進(jìn)行分類主要分為兩部分,一部分是通過訓(xùn)練集建立決策樹模型,另一部分則是對(duì)數(shù)據(jù)的輸入。在對(duì)決策樹建立的過程中,包括兩個(gè)階段:第一為建樹;第二為剪枝。建樹則是遞歸的過程,剪枝則是對(duì)決策樹進(jìn)行適當(dāng)?shù)男拚?。而ID3算法作為決策樹中的典型算法,其原理則是利用信息增量值對(duì)節(jié)點(diǎn)的最佳分裂指標(biāo)質(zhì)量進(jìn)行衡量。
假設(shè)H=F1*F2*…*Fn為n為有窮向量空間,其中Fi的表示為又窮離散符號(hào)集合,H當(dāng)中的元素e=<V1,V2,…Vn>為例子,其中Vi∈Fi,i=1,2,…n。假設(shè)PE和NE表示為E中的兩例子集,成為正例集與反例集。PE和NE的大小分別用p和n進(jìn)行表示,并假設(shè)在向量空間H上的決策樹對(duì)其中任意的例子進(jìn)行分類的概率和H當(dāng)中的正反例概率是保持一致的,并且通過決策樹可作出正確的判斷的信息量為:
如以其中的屬性A作為該決策樹的一個(gè)根,則A具有Vv(v=1,2,…,v)個(gè)不同的值,由此通過該信息可以得到?jīng)Q策樹可以將H分為v個(gè)不同的子集,由此可以得到子集Hi的信息熵E(Hi):
通過公式(2)以A作為根節(jié)點(diǎn)的信息增益的值:
對(duì)人力資源的數(shù)據(jù)挖掘很多,如優(yōu)秀專業(yè)技術(shù)技術(shù)模型、員工忠誠(chéng)度等。以優(yōu)秀專業(yè)技術(shù)人才為例,該模型主要根據(jù)人力資源管理模型當(dāng)中所建立的相關(guān)人才指數(shù)體系的內(nèi)容對(duì)具體的屬性進(jìn)行選取,其中的人才指數(shù)包括學(xué)歷、職稱、年齡和職位等。因此,通過決策樹算法,則構(gòu)成系統(tǒng)數(shù)據(jù)挖掘模型。
通過對(duì)企業(yè)人力資源管理的調(diào)查發(fā)現(xiàn),在當(dāng)前的人力資源管理中,很多企業(yè)的人力資源管理集中在人事管理和檔案管理。同時(shí)對(duì)人力資源數(shù)據(jù)庫(kù)進(jìn)行的挖掘,通常為企業(yè)人力部門提供相關(guān)的決策信息。因此,結(jié)合企業(yè)的實(shí)際需求,本文將該系統(tǒng)分為人事管理、數(shù)據(jù)挖掘管理兩個(gè)子系統(tǒng)的獨(dú)立的應(yīng)用程序。其中人事管理根據(jù)要求分為人事管理、資料管理、系統(tǒng)設(shè)置、查詢統(tǒng)計(jì)、員工考核與培訓(xùn)等功能。其具體的功能如圖1所示。
圖1 系統(tǒng)功能設(shè)計(jì)Fig.1 System function design
人力資源管理子系統(tǒng)中,包括人事檔案、系統(tǒng)管理、查詢、培訓(xùn)考核、工資等功能。人事檔案管理主要實(shí)現(xiàn)對(duì)企業(yè)員工基本信息的管理,包括姓名、年齡、職稱等綜合情況,并可對(duì)其中的信息進(jìn)行修改、添加和刪除;系統(tǒng)管理功能對(duì)系統(tǒng)的相關(guān)功能參數(shù)、數(shù)據(jù)備份、日志管理和系統(tǒng)的權(quán)限進(jìn)行管理;查詢管理包括查詢和統(tǒng)計(jì)兩大功能。其中查詢功能主要對(duì)系統(tǒng)相關(guān)信息進(jìn)行查詢統(tǒng)計(jì),包括個(gè)人基本信息查詢、工資查詢、考勤查詢等;培訓(xùn)考核主要根據(jù)企業(yè)人力資源管理制度對(duì)員工進(jìn)行培訓(xùn)和相關(guān)指標(biāo)的綜合考核。如指定部門培訓(xùn)計(jì)劃、月度培訓(xùn)計(jì)劃、培訓(xùn)指標(biāo)設(shè)定等;工資則主要對(duì)員工的應(yīng)發(fā)工資、實(shí)發(fā)工資、公積金、保險(xiǎn)等內(nèi)容的管理。數(shù)據(jù)挖掘子系統(tǒng)包括員工忠誠(chéng)度挖掘、優(yōu)秀人才挖掘、人才招聘挖掘等。
結(jié)合系統(tǒng)功能的需求,本文選擇B/S訪問模式對(duì)系統(tǒng)進(jìn)行布局。其主要的原因在于傳統(tǒng)C/S結(jié)構(gòu)在系統(tǒng)數(shù)據(jù)維護(hù)和更新方面比較麻煩,并且維護(hù)的成本也通常比較高。而B/S模式其典型的優(yōu)點(diǎn)在于應(yīng)用程序和數(shù)據(jù)庫(kù)的獨(dú)立性,使得對(duì)應(yīng)用程序的修改不需要再根據(jù)以往的C/S模式一樣,需要對(duì)系統(tǒng)數(shù)據(jù)庫(kù)進(jìn)行更新。在客戶端的選擇方面,用戶只需要根據(jù)安裝web瀏覽器即可實(shí)現(xiàn)對(duì)系統(tǒng)的訪問和數(shù)據(jù)的挖掘,從而給用戶帶來很大的方便,提高了系統(tǒng)的實(shí)用性。對(duì)此,本系統(tǒng)其具體的架構(gòu)如圖2所示。
圖2 系統(tǒng)整體架構(gòu)Fig.2 Overall system architecture
應(yīng)用層:用戶通過互聯(lián)網(wǎng)對(duì)功能的請(qǐng)求,將請(qǐng)求首先傳送給應(yīng)用服務(wù)器,并通過頁面中的ASP腳本實(shí)現(xiàn)應(yīng)用層和業(yè)務(wù)層的響應(yīng)。
業(yè)務(wù)層:該層作為該系統(tǒng)的邏輯控制中樞,負(fù)責(zé)對(duì)客戶請(qǐng)求進(jìn)行邏輯處理。該層分為應(yīng)用服務(wù)器和應(yīng)用程序。通過應(yīng)用服務(wù)器對(duì)請(qǐng)求的分配,從而傳遞給不同的應(yīng)用程序,并通過業(yè)務(wù)層中的COM組件實(shí)現(xiàn)與數(shù)據(jù)層的響應(yīng)。
數(shù)據(jù)層:通過ADO.NET組件實(shí)現(xiàn)與數(shù)據(jù)庫(kù)的連接。包括connection對(duì)象、command對(duì)象等。
整體系統(tǒng)的工具采用VS2005,并以SQL server 2008作為數(shù)據(jù)庫(kù)。
結(jié)合人力資源管理系統(tǒng)的相關(guān)情況,本文對(duì)數(shù)據(jù)挖掘系統(tǒng)的整體挖掘設(shè)計(jì)則如圖3所示。
系統(tǒng)登錄的流程主要包括以下步驟:第一,打開功能界面;第二,輸入用戶名和密碼;第三步,系統(tǒng)匹配。匹配成功,進(jìn)入第四步;匹配錯(cuò)誤,則提示“用戶名或密碼錯(cuò)誤”;第五步,進(jìn)入功能界面并結(jié)束登陸流程。其功能界面如圖4所示。
該界面其具體實(shí)現(xiàn)代碼如下:
procedure TLOGIN.BitBtn1Click(Sender:TObject);
var
s,str1,str2,str3:string;
b:Int64;
i:integer;
begin
str1:=dblookupcombobox1.Text;
str2:=trim(edit2.Text);
if adoquery1.Locate('username',str1,[])=true then
begin
str3:=adoquery1.Fieldbyname('password').AsString;
圖3 DM系統(tǒng)總體結(jié)構(gòu)Fig.3 DMsystem architecture diagram
圖4 登陸界面Fig.4 Login screen
if str3=trim(str2)then
begin
userid:=adoquery1.Fieldbyname('id').AsString;
username:=adoquery1.Fieldbyname('username').
AsString;
hide;
jhgy.ShowModal;
close;
end
else messagebox(0,'密碼錯(cuò)誤,請(qǐng)重新輸入!','錯(cuò)誤',mb_ok);
end
else
messagebox(0,'操作員不存在,請(qǐng)重新選擇!','錯(cuò)誤',mb_ok);
end;
4.2.1 接口的實(shí)現(xiàn)
為實(shí)現(xiàn)數(shù)據(jù)挖掘系統(tǒng)中的決策樹算法與其他接口的連接,本系統(tǒng)對(duì)該系統(tǒng)的文件進(jìn)行統(tǒng)一規(guī)定,主要包括Names文件、Data文件、Tcshow和Rcshow文件等。
4.2.2 屬性定義
該模塊主要給用戶提供自定義屬性的功能。在數(shù)據(jù)挖掘中包含很多的屬性,因此,為挖掘的需要,本文在系統(tǒng)中輸入不同的屬性,如職稱、姓名、職位等。同時(shí)針對(duì)不同屬性,提供屬性合并的方式,“大專、大本”進(jìn)行合并,都統(tǒng)稱為“一般學(xué)歷”。
4.2.3 數(shù)據(jù)抽取
采用隨機(jī)抽取的方法對(duì)數(shù)據(jù)進(jìn)行抽取。其步驟為:系統(tǒng)自動(dòng)將帶入到隨機(jī)產(chǎn)生的哈希函數(shù)當(dāng)中。從而得到其地址。如果大于抽取的記錄或者是發(fā)生沖突的時(shí)候,則采用開放地址IFA重新生成函數(shù),直到該過程合適位置,最后將所有的數(shù)據(jù)都存入到RecPos()當(dāng)中。
4.2.4 決策樹生成
Step1:從name、data等文件中國(guó)獨(dú)處相關(guān)的數(shù)據(jù),并將其分別存儲(chǔ)到rec、target等數(shù)組當(dāng)中;Step2:處理連續(xù)性屬性;Step3:生成TreeRec;Step4:生成決策樹;Step5:剪枝.
4.2.5 數(shù)據(jù)挖掘結(jié)果
本文以46例優(yōu)秀技術(shù)員數(shù)據(jù)作為樣本,選擇性別、年齡、職稱、學(xué)歷、婚姻和黨派作為關(guān)聯(lián)屬性,通過挖掘可以得到職稱作為員工的一個(gè)重要的評(píng)價(jià)。高職稱大多為優(yōu)秀人才,中低職稱當(dāng)中的優(yōu)秀的人才則很少。
文中以數(shù)據(jù)挖掘在人力資源管理系統(tǒng)中應(yīng)用和系統(tǒng)的設(shè)計(jì)作為研究?jī)?nèi)容,構(gòu)建了對(duì)企業(yè)優(yōu)秀人才、員工招聘和員工忠誠(chéng)度的挖掘系統(tǒng),同時(shí)實(shí)現(xiàn)了基礎(chǔ)的人力資源管理功能,更好的輔助企業(yè)做好對(duì)人力資源管理的日常工作和決策,從而使得該系統(tǒng)具有很大的實(shí)用價(jià)值。
[1] 王雙苗.我國(guó)企業(yè)人力資源管理現(xiàn)狀及發(fā)展趨勢(shì)分析[J].生產(chǎn)力研究,2012(2):210-211,251.WANG Shuang-miao.HRMsituation and development trend analysis of China’s enterprises[J].Productivity Research,2012(2):210-211,251.
[2]李旭軍.計(jì)算機(jī)信息管理系統(tǒng)設(shè)計(jì)原理探究[J].咸寧學(xué)院學(xué)報(bào),2012(8):139-140.LI Xu-jun.Computer information management system design principles to explore[J].Xianning College,2012(8):139-140.
[3] 謝楓平.數(shù)據(jù)分類中決策樹算法的一些改進(jìn)[J].龍巖學(xué)院學(xué)報(bào),2009(2):22-26.XIE Feng-ping.Some improvements in data classification decision tree algorithm[J].Longyan University,2009(2):22-26.
[4] 楊靜,張楠男,李建,等.決策樹算法的研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010(2):114-116,120.YANG Jing,ZHANG Nan-nan,LI Jian.Research and application of decision tree algorithm[J].Computer Technology and Development,2010(2):114-116,120.
[5] 汪海銳,李偉.基于關(guān)聯(lián)規(guī)則的決策樹算法[J].計(jì)算機(jī)工程,2011(9):104-106,109.WANG Hai-rui,LI Wei.Decision tree algorithm based on association rules[J].Computer Engineering,2011(9):104-106,109.
[6] 朱前飛,高芒.COM組件和ActiveX技術(shù)在B/S體系結(jié)構(gòu)中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2011(9):104-106,109.ZHU Qian-fei,GAO Mang.COMcomponents and ActiveX technology in the B/S architecture application[J].Computer Engineering and Design,2011(9):104-106,109.
[7] 劉澤洪,于洪鵬.基于多Agent的分布式數(shù)據(jù)庫(kù)管理系統(tǒng)[J].電子科技,2011,24(4):50-53.LIU Ze-hong,YU Hong-peng.Multi-Agent based distributed database management system[J].Electronic Science and Technology,2011,24(4):50-53.
[8] 吳楠,高佳.基于ArcEngine的信息管理系統(tǒng)關(guān)鍵技術(shù)研究[J].現(xiàn)代電子技術(shù),2013(12):74-77.WU Nan,GAO Jia.Key technology research information management system based ArcEngine[J].Modern Electronics Technique,2013(12):74-77.