郭建龍, 方院生, 黃欽偉, 商震雷, 周青云
(1. 廣東電網有限責任公司 培訓與評價中心;2. 廣東電網有限責任公司 電力科學研究院, 廣東 廣州 510520;3. 廣東電網有限責任公司, 廣東 廣州 510520)
大數據技術能夠令人們更容易采集信息,還可通過數據應用需求,利用數據分析技術為企業(yè)提供更多的服務,而人才畫像技術為大數據技術的主要應用之一,人才畫像技術的目標為從多維度角度建立針對人才的代表性標簽屬性[1-2]。通過建立標簽屬性對人才多個角度的特征進行描述。
人才畫像技術的發(fā)展是在用戶畫像技術的基礎上實現的,傳統用戶畫像技術采用的數據只源于業(yè)務系統、事件系統以及關系信息等,有很多種類的信息是缺失的,無法得到準確全面的人才畫像[3-4]。在大數據環(huán)境下,可采集的數據維度更多,信息更加充分健全,而且隨著互聯網與物聯網的逐漸發(fā)展,能夠通過各種渠道采集信息,可建立全方位人才畫像。本文主要將大數據技術應用于人才畫像技術中,根據聚類分析方法和網絡爬蟲的清洗數據作用,構建人才畫像技術應用模型,對企業(yè)掌握現階段領域杰出人才情況具有重要意義。
基于大數據的人才畫像技術能夠幫助企業(yè)發(fā)現人才特質和崗位需求間的匹配關系,為人才與企業(yè)提供更好的建議。將人才畫像數據作為基礎,構造動態(tài)分層的分段調整體系,改進人才培養(yǎng)目標,發(fā)揮真實數據的充分作用,提高人才招聘質量與效果[5]。
人才畫像技術的主要依據為二層數據倉儲設計,第一層為原始數據采集與預處理,通過人才數據后臺、網絡訪問的方式采集數據并完成匯總,對采集數據進行清洗處理,將冗余數據刪除;第二層為分析結果,主要負責對數據集成后的標簽進行保存,構建人才畫像。其中標簽可設計成內容與權重兩個部分,對人才提取的標簽內容并非一直不發(fā)生改變,其權重隨時間的改變而改變。利用標簽能夠對人才提出有針對性的選擇方案。
在大數據環(huán)境下,可挖掘的人才數據信息很多,應利用數據分析技術對人才用戶特征標識數據進行采集,人才畫像主要數據信息標識如圖1所示。
圖1 人才畫像數據信息圖
(1) 用戶層次。人才用戶層次主要有中高端人才、白領人才、藍領人才和應屆畢業(yè)生[6-7]。中高端人才想要找到更加廣闊的的空間,對薪資有更高的要求;白領人才更加注重用戶體驗與高效率;藍領人才對網絡的掌握程度較差,流通性相對較高,更加關注信息的及時性。應屆畢業(yè)生對流通信息的掌握能力尚有很大的提高空間,對信息及時性要求更高[8]。
(2) 地域分布。依據網絡人才分布的區(qū)域,顯示各個年齡段人才用戶對全國不同地域的求職需求,并且便于為企業(yè)招聘提供準確的信息。
(3) 人才學歷。人才學歷也就是學歷、專業(yè)、畢業(yè)院校等標簽。
(4) 性別。也就是男女性別標簽,利用發(fā)送電子簡歷對男女人才對各個職業(yè)的偏好性進行判斷。
(5) 行為特點。行為特點也就是在招聘網站中人才點擊應聘職位的次數標簽,可依據人才瀏覽行為與用戶活躍度獲取。
(6) 社交網絡。社交網絡也就是通過注冊登錄的社交網絡以及企業(yè)平臺標簽。
(7) 專業(yè)技能。專業(yè)技能就是人才在所處領域中可體現自身能力的憑證,包括資格證書、專利等。
采集的數據中有很多冗余、重復和錯誤數據,為了提高數據的準確性,防止對標簽挖掘和決策產生不利影響,應通過數據分析算法對采集的原始數據進行清洗處理,防止冗余標簽干擾挖掘操作。
箱形圖如圖2所示。
圖2 箱形圖
主要用于對數據分布情況進行統計,用于對數據整體分布狀態(tài)進行觀察[9-10]。通過中位數、上四分位數、下四分位數、上下邊界統計量表示數據的分布[11]。經統計,形成箱體圖,箱體涵蓋了絕大多數正常數據,處于箱體上下邊界范圍外的即為異常數據。
人才畫像構建即在有限時間范圍內的人才求職行為與內容構建臨時人才畫像,同時令該人才畫像求職行為與內容和描述性標簽屬性匹配,在有效時間范圍內人才求職行為與內容標簽屬性不匹配的情況下,需在臨時人才畫像中建立新的標簽屬性[12]。
(1) 數據標準化。構建人才畫像應分析不同媒介中資源整合的能力,構造統一標準實現對完整人才畫像的構建。
(2) 人才信息整合。對人才資料進行統計分析,提取主要因素,通過數據分析算法清洗處理采集到的原始數據。
通過職位內容和主題的相似度對主題網絡爬蟲進行設計,通過詞語或短語特征詞表示主題,內容也可被劃分成詞語與短語,從而通過向量空間模型對主題與網頁進行描述。為了形成描述主題的特征向量,把若干個與主題有關的網頁進行關鍵詞提取,則可獲取該主題特征向量和向量權重[13-14]。通過向量空間模型,可把內容描述成詞頻向量,如式(1)。
CTF=(TF1,TF2,…,TFn)
(1)
式中,TFi表示描述第i個內容在網站中的詞頻。
本文通過余弦間隔對網站的相關度進行衡量,在夾角是0°的情況下,相似度最高,為1,也就是內容和主題最相關。反之,在夾角是90°的情況下,相似度最低,為0,也就是網頁內容和主題不相關[15]。相似度計算如式(2)。
(2)
式中,t表示描述體現主題的詞語集合;s表示描述主題鏈接文本集合;ωsk表示描述集合中特征詞的關聯度;ωtk表示描述集合中特征詞針對某主題的關鍵性,具體計算如式(3)。
(3)
式中,TFtk表示描述主題出現的頻率;N表示描述文檔集中全部文檔數量;nk表示描述出現的文檔數量。
通過爬蟲對招聘網站進行清洗處理,對內容進行分析,通過式(1)、式(2)求出主題相似度,將得到的結果與既定閾值相比,若相似度超過閾值,則認為內容和主題有關,需進行內容提取。
(3) 標簽挖掘。利用部署環(huán)境平臺對標簽進行加工與處理,針對爬取數據完成結構化操作,通過聚類分析方法進行數據挖掘。
聚類分析方法屬于數據挖掘,聚類主要是為了在無先驗知識的情況下,按照數據相似程度把數據聚類為不同種類,令同一類型的元素盡量類似,而不同種類元素盡量不同,也被稱作非監(jiān)督分類,聚類方法主要有統計學方法與機器學習方法,本節(jié)選用K-means算法,該算法是一種典型算法,其聚類目標為在既定分組數k(k≤n)的情況下,利用聚類依據聚類成都將樣本點劃分為幾個簇,在相同簇中,數據相似度很高,但簇間相似度很低。也就是針對簇集合A={A1,A2,…,Ak},在數值模型中針對下式計算最小值,其中μi用于描述分類Ai的均值,如式(4)。
(4)
詳細流程如下。
① 針對采集的n個人才數據對象,將k個對象當成初始聚類中心;
② 按照各聚類對象均值求出各對象和上述中心的不同程度,把上述元素依次劃分至差異度最低的簇;
③ 對所有改變了的聚類均值進行重新計算;
④ 重復運行步驟(2)與步驟(3),直至所有聚類均不出現改變;
⑤ 輸出結果。
將人才屬性組成記錄,得到有n條數據記錄的集合(x1,x2,…,xn),同時所有xi都是d維向量,也就是xi(xi1,xi2,…,xid),其中xi1—xid代表人才標簽。
通過K-means算法對經清洗后的數據進行挖掘,把相同種類的數據集合在一起,對人才標簽進行挖掘。至此,人才畫像技術應用可視化模型構建完成。
(4) 標簽驗證。利用實際案例對挖掘標簽結果的準確性進行驗證,使得與標簽相應的處理結果達到預期結果。
(1) 結合業(yè)務。在建立人才畫像的過程中需考慮實際業(yè)務場景或所屬領域,防止過于抽象,在相同環(huán)境下標簽的名稱在很大程度上有不同的意義,應分別對待。
(2) 控制粒數。畫像粒度并非越細越好,分割標簽也并非越多越好,分割的標簽數量越多,涵蓋的人數越少,描述性能越差,越可能為偽特征。
(3) 動態(tài)變化。不可盲目采用人才畫像,人才畫像絕大多數是靜態(tài)特征,人才特征也會隨時間與空間的改變而發(fā)生改變,也有一定的動態(tài)人才畫像信息,例如人才在招聘網站上的訪問路徑與時間等。
下面把基于大數據的人才畫像技術應用于制造領域杰出人才特征分析中,為制造企業(yè)招聘杰出人才提供依據。我國的制造領域一般包括基礎的工業(yè)部門如機械、建材、輕紡等以及一些新興的工業(yè)部門如航空航天工業(yè)、汽車工業(yè)等,以我國2017—2018年政府數據網內全部制造企業(yè)為數據樣本,因部分企業(yè)不具有代表性,所以排除3—5線城市制造業(yè);排除第一產業(yè)聯動制造業(yè);排除無應用價值的國內外合資企業(yè);排除存在股權不穩(wěn)定等無法正常管理因素的制造業(yè),剩余企業(yè)369家,將其按照制造業(yè)生產方式分為智能機器人、數控機床與增材制造3種。
現對3種分類制造業(yè)樣本進行人才數據畫像分布情況測試,以圖測試本文應用研究實用性。將實驗指標設為杰出人才年齡、杰出人才所處機構、杰出人才專利數量、杰出人才地理分布4種。
杰出人才年齡分布情況匹配情況如表1所示。
表1 智能制造杰出人才年齡分布
由表1可知,絕大多數制造領域杰出人才年齡處于50—59歲范圍內,從智能機器人、數控機床與增材制造三個制造領域杰出人才的年齡組成分析,增材制造領域杰出人才呈中年、青年、老年的年齡梯隊,智能機器人與數控機床領域均需補充青年人才。
本節(jié)把制造領域人才所處機構劃分成高校、研究院、行業(yè)協會3類,人才所處機構分布情況如表2所示。
表2 智能制造杰出人才機構分布
由表2可知,在研究的3個領域中,研究型人才的數量最多,主要來源于高校與研究所,一些來源于企業(yè),說明高校與研究所應列為制造企業(yè)招聘的重點。
在制造領域杰出人才專利數量分布情況如表3所示。
表3 制造杰出人才專利數量分布
綜合看來,高校與研究所人才專利數量相對較多,而協會人才專利數量相對較少,可以認為高校與研究所應列為制造企業(yè)招聘的重點。
此次測試的369家企業(yè)人才分布在以下10個省份,智能機器人、數控機床以及增材制造人才在各省的人才數量,如表4—表6所示。
表4 智能機器人杰出人才地區(qū)分布
表5 數控機床杰出人才地區(qū)分布
表6 增材制造杰出人才地區(qū)分布
分析表4可知,智能機器人領域人才大部分分布于北京、陜西與江蘇地區(qū);數控機床人才主要分布在北京、遼寧與陜西,北京最多;增材制造人才主要分布在北京、陜西與江蘇。綜合看來,企業(yè)在招聘制造領域人才的過程中,可主要考慮北京、陜西地區(qū)。
在經過杰出人才年齡、杰出人才所處機構、杰出人才專利數量、杰出人才地理分布4種實驗結果的算例分析后,將得到的分析結果進行證明本文模型的準確性判斷即標簽驗證,如式(5)
(5)
式中,(MF1,MF2,…,MFn)表示分割的標簽總數量;K表示標簽數據擬合個數。具體驗證結果如圖3所示。
圖3 標簽驗證結果
由圖3可知,本文算例分析的挖掘結果可在最大程度上符合企業(yè)要求與社會實際情況,說明本文應用模型可有效挖掘出大數據下的人才畫像,是人才畫像技術的突出應用。
本文進行了基于大數據的人才畫像技術應用研究,并將該技術應用于制造領域杰出人才畫像構建中,在杰出人才年齡、杰出人才所處機構、杰出人才專利數量和杰出人才地理分布4個方面進行本文模型準確度驗證,研究結論為:從整體分析,制造業(yè)杰出人才年齡主要在50—59歲范圍內,學術型人才相對較多,可重點考慮高校與研究院,從地域的角度分析,主要集中于北京。為了有效發(fā)展制造領域,智能機器人企業(yè)與數控機床企業(yè)應招聘中青年專業(yè)杰出人才,增財制造企業(yè)應增加有專利技術的杰出人才,經過標簽驗證后的處理結果說明本文模型人才畫像挖掘程度可達到企業(yè)要求。
本文的創(chuàng)新主要體現在應用基于大數據的人才畫像技術為某個領域與企業(yè)提供杰出人才群體特征,便于該領域發(fā)展。同時,其設計的網絡爬蟲具有可遷移性和代表性,說明構建的人才畫像應用模型可被應用于各領域中。