王 卓 汪映隆
(國網(wǎng)固原供電公司,寧夏 固原 756000)
隨著企業(yè)的發(fā)展,公司的人事管理部門面臨很大的挑戰(zhàn):一方面,不同地區(qū)的文化不同,工資結構也不同。因此,要保證員工的穩(wěn)定性,減少由于人員流動而導致經(jīng)營和管理費用增加。另外,由于人員不斷增加,企業(yè)的人事部也要不斷完善現(xiàn)有的管理方式以及服務觀念。改善經(jīng)營方式,提升服務觀念,就需要以大量的信息作為決策依據(jù)。在這種情況下,為了明確求職人員的求職意向與招聘企業(yè)的崗位需求,為不同的用戶提供自己需要的信息,需要緩解人才市場上的就業(yè)難題。
文獻[1]使用決策樹算法進行多級冗余數(shù)據(jù)智能檢索方法的研究,在云計算的基礎上,對決策樹進行信息量處理,并根據(jù)信息量的大小,在每個節(jié)點上選取一個檢測屬性。在建立決策樹后,再對其中的分類規(guī)則進行抽取,有效地檢索數(shù)據(jù)智能成果,因此,該文提出基于改進決策樹算法的人力資源智能推薦方法研究。
在數(shù)據(jù)挖掘的各方面,其中,最常用的方法就是決策樹算法。決策樹算法的分類就是要找出同一種東西的相同之處和同一種東西之間的差別。例如普通的病毒庫在發(fā)現(xiàn)一種新的病毒后對其進行特征分析,然后將其歸入病毒庫中的某一種,在該基礎上根據(jù)已有的樣本生成的分類規(guī)則,對新樣本進行分區(qū)[2]。決策樹是一種具有樹形結構的分類器,每個樹的內結點代表一個屬性的檢驗,檢驗結果由樹的一條枝干代表,而葉子節(jié)點則由一個類來標注,而根結點是最上層的一個節(jié)點。圖1 就是分類算法中是最典型的決策樹分類示意圖。
圖1 決策樹分類
傳統(tǒng)ID3 算法是決策樹算法中一種較為典型的構造算法,相關研究學者發(fā)現(xiàn)該方法也存在一些缺點和問題。改進決策樹算法已成為當前數(shù)據(jù)分類挖掘算法的首要算法,該算法利用信息量大的特點選取一個屬性作為劃分決策樹的結點,從而克服了ID3 算法偏向于某一屬性的缺點。采用不同的修剪技術,在樹木構造的過程中或者是在樹木構造結束后,可以防止樹木不平衡。修正ID3 算法無法克服連續(xù)屬性的缺點,對連續(xù)屬性進行離散后處理[3]。
改進決策樹算法給出了一組人力資源樣本集S,信息增量計算如公式(1)所示。
式中:G(s,a)為屬性a在樣本集的信息增益;s為樣本集;S(s,a)為樣本集S按屬性;a為進行分裂的均勻性及廣度。
利用公式(1)計算具有最大信息量的屬性a,并以a為決策樹的根節(jié)點,分割人力資源樣本集,得到一棵決策樹[4]。按照這個準則將一個樣本集合劃分為n個子集合,然后一步一步地分割,當?shù)趈個子集合S中的數(shù)據(jù)屬于同一類型時,就會停止分割,并且將這個結點當作樹的葉子節(jié)點。對其他子集也是如此,通過遞歸的方式逐漸形成一棵樹,直至各子集內的數(shù)據(jù)屬于同一類別,可以得出改進決策樹的表達式,如公式(2)所示。
式中:pi為任意樣本對應類別ci的概率,用來估算,t為訓練集樣本總數(shù)。
當對人力資源數(shù)據(jù)進行歸納分類時,首先,對數(shù)據(jù)進行預處理。其次,對數(shù)據(jù)進行屬性選擇、變換以及清洗。數(shù)據(jù)清理主要是對資料進行預處理[5]、去除噪聲、清除空白值等工作。屬性選擇的任務就是利用相關性分析的方法,找到與分類任務有關的屬性,剔除無關或冗余的,從而加快學習速度,避免在學習中出現(xiàn)錯誤。數(shù)據(jù)變換是指將數(shù)據(jù)規(guī)范化或一般化的過程。
人力資源推薦方法的整體流程如下:對人力資源信息進行收集,將其與該信息的有關特性進行組合。對已收集的信息進行預處理,將預處理后的人力資源信息保存在人力資本數(shù)據(jù)庫中,使用數(shù)據(jù)庫中保存的人力資源信息,運用改進決策樹計算來實現(xiàn)人力資源推廣。根據(jù)得到的結果產(chǎn)生推薦列表,從而完成人力資源智能推薦方法[6]。
在人力資源智能推薦方法的運行過程中,數(shù)據(jù)來源是十分關鍵的,對人力資源數(shù)據(jù)進行采集,這樣既能提供廣泛的人力資源數(shù)據(jù),又能提高數(shù)據(jù)采集速度,還能對大規(guī)模的人力資源推薦問題進行分析。從大量的數(shù)據(jù)中提取有用的人才信息是實現(xiàn)人力推薦的前提[7]。采用分散式云集組的數(shù)據(jù)收集方法,收集人力資源信息。該文充分利用云集群高可用性和高并發(fā)度的優(yōu)勢,并使用基于改進決策樹分區(qū)相關任務隊列的實時、高質量的人力資源數(shù)據(jù)收集方法,從而提高后續(xù)數(shù)據(jù)預處理和算法產(chǎn)生的數(shù)據(jù)利用率。圖2 為采集人力資源數(shù)據(jù)的過程圖。
圖2 人力資源的數(shù)據(jù)采集過程
采用分散式云集組的數(shù)據(jù)收集方法,收集人才信息。該文充分利用云集群高可用性和高并發(fā)性的優(yōu)勢,能夠收集基于任務排隊的實時、高質量的人力資源數(shù)據(jù),從而有效提高了后續(xù)數(shù)據(jù)預處理和算法產(chǎn)生的數(shù)據(jù)利用率。改進決策樹算法將同一個任務隊列中的每個子服務器劃分到同一個任務隊列中,從而提高數(shù)據(jù)的數(shù)據(jù)匯聚和增量采集效率的吞吐率。同時,還可以通過執(zhí)行對下級服務器的配置來擴充收集任務,從而有效地提高了收集的可擴充性。主服務器合理地利用了內存模式中的高效率存儲特性,保證分布式人力資源數(shù)據(jù)采集的實時性,實現(xiàn)了以內存模式為基礎的流式處理[8]。
當初始的決策樹建立完畢后,要通過修剪技術對決策樹進行剪枝,以去除由噪聲數(shù)據(jù)和孤立點面引起的分支異常。這要求設置1 個用于計算出錯率的最大閾值,將該值設為10%。當子樹的錯誤率被剪除后,其差錯率比出錯率高時,則必須保留節(jié)點,反之,則可剪除節(jié)點。
在改進決策樹中,以單個指標作為參考,在決策樹的每個節(jié)點上傳遞,考慮到企業(yè)對人才的真實需求與所收集的人才資料中所包括的信息內容不可能完全一致。因此,該研究將對“1”與“0”的結果進行統(tǒng)計來決定最后的推薦結果。設定企業(yè)的人才需要的信息為y={y1,y2,...,ym},在決策樹的根節(jié)點位置上,其輸出結果如公式(3)、公式(4)所示。
式中:k為企業(yè)的根節(jié)點信息粒、人才需求信息的相交數(shù)據(jù)。當k=ε時,表示該需求信息與根節(jié)點的信息粒沒有發(fā)生相交,其輸出結果為“0”,當k=ε時,代表該需求信息與根節(jié)點的信息粒相交,其輸出結果為“1”。
采用上述方式對改進決策樹中的人才需要信息進行擬合計算。在輸出結果中,“1”代表的數(shù)字越大,說明該人才與公司的實際需要符合得越好。
為證明該文提出的基于改進決策樹算法的人力資源智能推薦方法的有效性,進行試驗測試,對比該文方法與傳統(tǒng)方法1、2 的管理效果。為驗證該文方法的正確性,本章將該文方法運用到測試中,并對其能否滿足規(guī)定的試驗標準,能否取得良好的推薦效果進行檢驗。在試驗測試前,需要一些準備工作,保證本次試驗的準確性。
本次試驗選用Matlab 軟件作為仿真試驗環(huán)境,基于改進決策樹算法的人力資源智能推薦方法進行有效性測試,試驗環(huán)境的參數(shù)見表1。
表1 試驗環(huán)境
目前測試環(huán)境市場中主流的算法是KNIME,RapidMiner,Weka,這些都是以Weka 為基礎的算法,并且Weka 可以很方便地對算法進行改進。因此,在該試驗研究中選擇以Java為開發(fā)環(huán)境的Weka 作為工作平臺。在研究過程中,對試驗環(huán)境進行詳細的參數(shù)設定。表2 為Weka 測試的詳細參數(shù)。
表2 測試參數(shù)
根據(jù)上述試驗環(huán)境進行準備,將3 種人力資源推薦方法進行對比,該試驗挑選5000 條人力資源數(shù)據(jù)作為樣本數(shù)據(jù),采用3 種方法進行人力資源推薦后,查看各方法的職位入職人數(shù),將結果進行對比,其試驗結果見表3。
表3 試驗結果
由表3 的試驗結果可知,使用該文設計的基于改進決策樹算法的人力資源智能推薦方法經(jīng)過人力資源智能推薦后,成功入職的人數(shù)要遠遠大于其余兩種方法的人數(shù),在方法2 中,當樣本數(shù)據(jù)不超過2000 條時,其入職人數(shù)與該文方法的人數(shù)趨于一致。隨著樣本數(shù)據(jù)增加,該方法的推薦性能逐漸降低,與方法1 相比,該文方法減少了1098 個職位,與方法2 相比,該文方法減少了1008 個職位。由此可以證明基于改進決策樹算法的人力資源智能推薦方法的有效性,有一定的參考價值。
該文對決策樹方法及其在人力資本智能推薦方法中的運用進行深入研究,并將相應數(shù)據(jù)預處理與分布式數(shù)據(jù)收集流程結合,建立人力資本信息倉,并使該資料倉儲內數(shù)據(jù)成為決策樹計算的輸入訓練數(shù)據(jù)集,采用該算法獲得推薦結果列表,從而實現(xiàn)人力資源推薦。在實踐中,所提出的方法在推薦質量和效果方面都有優(yōu)勢,可以用于各類人力資源招聘平臺,為不同的用戶提供所需的人力資源信息。