練佳熠,黃婉平
(1.柳州市城市職業(yè)學院,廣西 柳州 545036;2.柳州市第十二中學,廣西 柳州 545006)
高校畢業(yè)生就業(yè)指導工作一直是關乎國家經濟發(fā)展、民生改善和社會穩(wěn)定的重要工作。為了更好地完成這項工作,高校需要全面了解本校學生的就業(yè)現狀,深入分析當前形勢下學生存在的就業(yè)問題及其產生的原因。這樣,才能夠有針對性地為相關學生提供全面、及時、個性化的就業(yè)信息,幫助其實現就業(yè)。在實現高校畢業(yè)生就業(yè)這個目標的過程中,除了不斷優(yōu)化學校的就業(yè)管理工作,還需要完善相關的信息化建設,從中獲取大量精準有效的數據來協助就業(yè)工作。
就業(yè)信息缺乏專門的存儲整合流程,容易導致造成大量數據信息丟失。在就業(yè)工作中產生的數據通常來源于就業(yè)信息化系統和文檔收集兩大渠道。其中就業(yè)系統中的數據基本都存儲在業(yè)務數據庫中,通常就業(yè)系統會每隔幾年便升級或更換,此時原有數據通常會因為遷移工作的難度造成損失;通過各種電子文檔收集的就業(yè)信息,也會因為保存不當、人員的變動等各種原因隨著時間的推移而逐漸丟失,使得寶貴的就業(yè)信息資源被浪費。
高校各信息系統之間整合困難,就業(yè)系統很難獲取其他系統的數據支持。高校信息平臺缺乏統一的規(guī)劃,各個部門雖然都建立了自己的信息平臺,但數據標準沒有統一并且數據基本都存在各自的業(yè)務數據庫中,有效信息相互之間不能實時共享,導致信息資源利用率低,無法對就業(yè)工作提供有效的支持,造成在工作中對類似數據出現重復獲取的情況,嚴重影響工作效率和參與者情緒[1]。
隨著時代的不斷發(fā)展,高校對就業(yè)工作的要求在不斷提升,不再是過去的管理好應屆畢業(yè)生的就業(yè)就行了,還要從就業(yè)的信息中提煉出對學院各層面發(fā)展都有用的信息,但是在智能手機大量使用的今天,不僅每年數據量都在大幅增加,數據類型也從過去的一些簡單數據變?yōu)榘纛l、圖表、圖像、視頻等多種類型的復雜數據。此時無論是以人工方式對Excel等辦公文檔的分析,還是傳統數據庫管理系統提供的插入、查詢、統計等技術,都無法發(fā)現隱藏在數據中的關系和規(guī)則,也無法通過現在已有的數據來預測將來的發(fā)展趨勢和挖掘數據背后隱藏信息的手段。
由于缺少對就業(yè)數據深入統計、分析和預測的手段,無法提煉有效信息,當前大部分院校的就業(yè)信息工作還是基本停留在對就業(yè)信息發(fā)布和管理的應用層面上,以服務好應屆畢業(yè)生的就業(yè)工作為主要目標,無法提供信息去支持學校發(fā)展、專業(yè)建設、課程設計、教師發(fā)展、在校學生職業(yè)生涯規(guī)劃和就業(yè)指導,使得學校中存儲的大量就業(yè)數據無法發(fā)揮應有的作用[2]。
使用Hadoop生態(tài)圈搭建圖1所示的大數據平臺,制定就業(yè)工作的數據標準化管理,根據數據標準去采集相應的數據,將數據經過清洗處理后,存儲在數據倉庫如Hive、HBase中,可以供多個應用系統共享,解決數據共享的問題,然后通過對就業(yè)數據的分析,將結果以決策者最容易理解和接收的方式呈現出來,幫助決策者從多個角度理解當前的就業(yè)情況、發(fā)展趨勢等,能對學校、專業(yè)、課程、學生的發(fā)展提出指導性建議[3]。
圖1 基于大數據的高校就業(yè)決策系統
建立大數據平臺的核心意義是能對多個來源的數據進行整合并進行關聯分析,從而避免出現每個部門一套數據,基層教師和學生疲于應付的情況。要實現這個目標,就必須提前制定所有參與方在使用大數據平臺時都必須遵循的數據標準。本平臺的數據標準主要針對平臺內的底層數據相關要素進行規(guī)范,包含數據資源和數據交換共享2個部分,其中數據資源包括元數據、數據元素、數據字典和數據目錄等,數據交換共享包括數據交易和數據開放共享相關標準。
在本系統中,首先根據教育部、教育廳等上級部門對就業(yè)工作的要求去制定基礎業(yè)務數據標準,再結合本校的就業(yè)工作特色,制定適合本校就業(yè)工作的數據標準,這樣就可以約定數據在采集、預處理、存儲、分析、可視化和應用等流程需要遵循的數據標準,在系統中實現數據身份的識別,提高數據共享和復用的質量。
這一階段的主要工作是將物理上存儲在各處的就業(yè)數據提取出來,實現數據的邏輯集中,從而成為一個統一的視圖,解決以往多系統分散建設無法數據整合的問題。由于原始數據種類多樣,格式、位置、存儲、時效性等迥異,該階段的重點是如何從異構數據源中收集數據并轉換成相應的格式進行處理。
首先是確定數據的種類,就業(yè)數據的來源主要包含就業(yè)系統在內的校內信息系統的數據庫、日志和接口數據等,外部信息系統的數據和其他信息技術手段如Excel、Word等收集的就業(yè)數據[4]。
接下來需要根據不同的數據源采用相應的采集方法,對于信息系統里的數據庫,可以使用sqoop組件,該組件是一款開源的工具,可以在Hadoop與傳統的關系數據庫間進行大量數據的傳遞,通過它可以將關系型數據庫中的數據導入到Hadoop的HDFS上,也可以將HDFS的數據導進到關系型數據庫中;信息系統中的相關日志,通常以log文件或是通過HTTP接口傳遞出去,可以通過flume組件進行實時采集。flume是一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸的系統,通過它可以高效率地將多個信息系統中采集到相關的日志或接口數據,并配合Kafka進行實時數據處理。其他信息技術手段如Excel、Word等電子文檔的數據,一般是根據臨時增加的就業(yè)業(yè)務編寫和收集的,也可以是其他系統如釘釘、智慧校園等導出的數據形式,是就業(yè)工作中常見的辦公形式,如果不進行歸檔則很容易造成數據流失,這類數據也必須存儲到大數據平臺中,通常使用Python技術按照數據標準從這些文檔中提取有用的數據再存儲到大數據平臺中[5]。
在圖2中,對上述采集的數據進行舉例說明。大數據平臺中的基礎性數據如學生基本信息、課程成績、就業(yè)崗位信息等,通常存儲在學工管理系統和就業(yè)系統的數據庫中,應該設計一個固定的周期,定時將這些數據庫存儲的相關數據通過sqoop組件導入到大數據平臺的存儲組件中;對于一些實時變動的數據,如學生的就業(yè)崗位實時信息,數據量一般比較小且變化頻繁,sqoop組件就不適用了,此時可以在就業(yè)系統開發(fā)一個就業(yè)崗位變動的業(yè)務日志,通過flume組件實時監(jiān)控這個業(yè)務日志文件,當日志文件添加了新的信息時,flume組件就會采集新增的數據到大數據平臺中進行處理。
圖2 針對學生就業(yè)崗位信息的數據采集
采集的數據一般并不能夠直接使用,除了要將無效的數據刪除,還需要根據業(yè)務需要對數據進行變形與增強再進行使用。在圖2的例子中,通過sqoop采集到的學生基礎數據,因為是直接從數據庫中導入,數據的格式、種類和數量通常不能直接在大數據平臺中使用,需要進行相應處理,如將學生信息表中的班級和輔導員外鍵編號替換為班級名稱和輔導員名稱;通過flume采集的實時數據一般是json格式的,需要結合Kafka將json格式進行轉換和處理后再使用。
大數據平臺常見的存儲組件是HDFS、Hive、HBase和Kafka,可以將采集的數據根據業(yè)務需求選擇相應的存儲組件和處理方式。
HDFS是Hadoop的分布式文件系統,可以部署在廉價的機器上,通過多個服務器的集群實現高吞吐量的數據訪問,非常適合大規(guī)模數據集上的應用,適合存儲視頻文件、海量文檔等超大文件,可以將采集到的數據存儲到HDFS上,不僅效率更高還可以保證數據的可靠性。
Hive是基于Hadoop的一個數據倉庫工具,通常用于保存采集到的關系型數據,然后可以通過HQL語句進行離線查詢分析。例如圖2中通過sqoop導入的學生基本數據如畢業(yè)生基本信息、課程成績、在校表現情況、公司信息、歷史就業(yè)數據等,一般存儲在Hive中。如果需要對數據進行分析,例如需要分析學生在校的專業(yè)成績和專業(yè)對口率之間的關系,可以通過HQL語句或是按照相應算法編寫mapreduce程序進行處理。
Kafka是高吞吐量的分布式發(fā)布訂閱消息系統,適合于存儲和處理高吞吐量的流式數據,如學生的登錄日志、實習簽到日志、學生的實時就業(yè)/離職日志等,還可以通過Kafka Streaming或Spark Streaming來對Kafka中的流式數據進行實時處理。例如圖2中通過flume導入的學生實時就業(yè)崗位變動信息,可以先存儲在Kfaka中,通過Spark或Storm進行實時處理和分析得出結果。
HBase是適合實時存儲大量數據的數據庫,可以將主數據、部分被頻繁使用或有實時性需要的數據存儲到這里,例如學生的賬號信息、實時就業(yè)信息、公司的招聘信息等,基于大數據平臺的業(yè)務系統可以通過根據需要實時查詢、更新、分析HBase中的相關數據,如果數據量太大,可以選擇Spark集群來進行實時分析處理或是MapReduce進行離線處理。例如,圖2中通過sqoop導入的學生基本數據中需要用于應用系統作為交換數據,例如就業(yè)崗位數據,可以存儲在HBase中;通過flume采集到的實時崗位變動信息,可以在處理后存儲到HBase中,再結合學生的基礎數據和原有崗位數據,可以生成完整且實時的學生就業(yè)信息崗位表,提供給上層系統使用。
在大多數院校的信息系統中,僅僅是對數據進行了簡單的統計和展示,用匯報的方式將數據交給決策者,然后讓決策者去分析和處理數據,期待其找出存在的問題,結果反而讓決策者迷失在海量的數據中。在本平臺當中,強調的是信息對使用者的價值,從業(yè)務角度對數據進行分析,然后將結果以使用者最容易理解和接收的形式呈現出來,下面將通過2個案例進行展示。
2.5.1 就業(yè)駕駛艙
圖3是構建方案中供決策者看的就業(yè)駕駛艙,管理者可從多個角度查看當前的就業(yè)形勢。最中間的儀表盤是學院當前的就業(yè)率,左側儀表盤是已工作但是未簽約學生比例,右側的上半部分是即將就業(yè)的學生比例,右側的下半部分是即將離職的學生比例。通過這個駕駛艙,決策者不僅可以了解當前的就業(yè)率,也可以預測到將來的就業(yè)率是朝著什么方向發(fā)展。例如已工作未簽約的比例或預計就業(yè)的比例較高時,意味著就業(yè)率在未來會進一步提升;預計離職的比例較高,未來就業(yè)率就會下降。在這樣的數據支撐下做決策將更有效率、更加準確。
圖3 就業(yè)駕駛艙
2.5.2 學生崗位預測
將該生的當前的基本信息、課程信息等特征,歷屆學生的特征和就業(yè)信息等數據,通過隨機森林決策樹、貝葉斯模型、GBDT等算法進行分析和預測,得到該生的崗位預測情況。這樣不僅可以對學生的職業(yè)規(guī)劃起指導作用,同時學生如果對崗位預測不滿意,也可以及時調整自己的校園規(guī)劃來實現崗位目標。學生崗位預測如圖4所示。
圖4 學生崗位預測
如何促進大學生就業(yè)是當前高校關注的一個重點問題,關系到高校教育持續(xù)健康的發(fā)展。基于大數據的高校就業(yè)決策系統,通過大數據平臺和就業(yè)信息的數據標準化管理,將各平臺資源進行整合,對數據進行深入分析和可視化展示,能有效提高就業(yè)信息的時效性和價值性,不僅幫助高校就業(yè)工作更有效地開展,還能實時反饋信息供學校各專業(yè)更好地根據當前的就業(yè)形勢進行調整,有助于培養(yǎng)更符合社會和時代要求的優(yōu)秀學生,對高校就業(yè)工作信息化建設有較大的意義。