彭秦晉
(晉中學(xué)院人事處,山西晉中030619)
21世紀初期,美國工程專家在數(shù)據(jù)庫基礎(chǔ)上構(gòu)建出數(shù)據(jù)倉庫的技術(shù).隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的廣泛應(yīng)用,逐漸打破了傳統(tǒng)的高校教育理念,促使高校的管理方式和管理決策都發(fā)生了天翻地覆的變化,而數(shù)據(jù)倉庫的建設(shè)則為高校的信息化發(fā)展提供了幫助,成為促進高校發(fā)展、增強教學(xué)實力、提升教學(xué)水平的主要因素.如何滿足基于數(shù)據(jù)倉庫的人事信息化管理,通過數(shù)據(jù)分析,發(fā)現(xiàn)數(shù)據(jù)中的重要價值,輔助高校制定人才招聘長遠規(guī)劃、培養(yǎng)學(xué)科帶頭人等,這是當(dāng)前人事管理的課題和新使命[1].
決策支持系統(tǒng)一般由數(shù)據(jù)倉庫、OLAP(On-Line Analysis Processing)、數(shù)據(jù)挖掘、分析模型等組成,通過分析模型、相關(guān)算法等支持管理者制定客觀的、科學(xué)的、規(guī)范的、基于基礎(chǔ)數(shù)據(jù)的決策.本系統(tǒng)提供信息瀏覽、教務(wù)分析、科研分析、薪酬分析四大統(tǒng)計數(shù)據(jù)功能和招聘決策分析、績效決策分析兩大類的決策分析,由于涉及到的內(nèi)容較多,本文主要針對博士招聘決策支持系統(tǒng)的實現(xiàn)過程進行分析[2].
基于數(shù)據(jù)倉庫技術(shù)的決策支持系統(tǒng)對從聯(lián)機事務(wù)處理系統(tǒng)(OLTP)收集的大量數(shù)據(jù)進行查詢,從而進行數(shù)據(jù)分析.因此,OLTP是決策支持系統(tǒng)的主要數(shù)據(jù)源泉,為其提供了大量的、可靠的歷史性元數(shù)據(jù).首先,數(shù)據(jù)倉庫對OLTP數(shù)據(jù)進行清洗操作,將數(shù)據(jù)重新構(gòu)建成面向主題的數(shù)據(jù)集市,為決策支持系統(tǒng)提供數(shù)據(jù)基礎(chǔ).各數(shù)據(jù)模型通過特定技術(shù)對元數(shù)據(jù)進行重新修改,轉(zhuǎn)換為數(shù)據(jù)倉庫所能識別和使用的數(shù)據(jù),為分析作好準(zhǔn)備.其次,多維數(shù)組存儲的聯(lián)機分析處理(OLAP)為用戶提供了一個多角度的數(shù)據(jù)分析.它利用常規(guī)的方式分析數(shù)據(jù),并挖掘數(shù)據(jù)中的隱含意義做出趨勢分析[3].最后,通過數(shù)據(jù)分析工具Tableau Public、BI、EXCEL等,提供直觀的分析結(jié)果[4].
如圖1所示,一套完整的博士招聘決策支持系統(tǒng)由數(shù)據(jù)源的抽取、OLTP數(shù)據(jù)的清洗、數(shù)據(jù)倉庫建立、OLAP的運用、BI(Business Intelligence)工具的終端使用五個步驟完成.
從數(shù)據(jù)源位置來看有內(nèi)部信息和外部信息,內(nèi)部信息有教職工基礎(chǔ)信息、科研信息、教學(xué)計劃、專業(yè)信息等,外部信息有外院校的專業(yè)信息、外院校博士研究生招生信息、外院校博士研究生就業(yè)情況等.從數(shù)據(jù)源格式來看,有FOXPRO、SQL、ACCESS等,分布在不同的人事管理系統(tǒng)(如干部任免系統(tǒng),教務(wù)系統(tǒng)、科研系統(tǒng)等).
圖1 博士招聘決策支持系統(tǒng)的數(shù)據(jù)倉庫體系圖
ETL數(shù)據(jù)清洗就是將高校內(nèi)部或者外部業(yè)務(wù)系統(tǒng)中不同編碼規(guī)則的、分散的、重復(fù)的數(shù)據(jù)源端的聯(lián)機事務(wù)處理數(shù)據(jù),經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)和加載(load)至數(shù)據(jù)倉庫的過程.ETL是很重要的一環(huán),本系統(tǒng)ETL數(shù)據(jù)清洗花費的時間約占整個項目過程的1/3.不完整的或者錯誤的數(shù)據(jù)通常需要過濾掉或者返還給業(yè)務(wù)部門進行修正.不規(guī)范的數(shù)據(jù)要進行統(tǒng)一規(guī)范和標(biāo)準(zhǔn)化(比如教師所學(xué)專業(yè)名稱,有的用簡寫,有的用全稱).各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)會出現(xiàn)重復(fù)現(xiàn)象,重復(fù)的數(shù)據(jù)(維表中出現(xiàn))需要整理導(dǎo)出再次讓業(yè)務(wù)部門確認.
數(shù)據(jù)倉庫是由多個數(shù)據(jù)集市集成在一起的.連接多個數(shù)據(jù)源來滿足特定的部門或主題要求,最終形成部門或者主題級的數(shù)據(jù)倉庫.建立數(shù)據(jù)倉庫不是一次性完成的,是逐步進行的.數(shù)據(jù)集市一般包括某一特定領(lǐng)域的與之業(yè)務(wù)有關(guān)聯(lián)的數(shù)據(jù)(如:財務(wù)、招生、就業(yè)、人事等不同部門,數(shù)據(jù)倉庫是面向整體的,數(shù)據(jù)集市是面向某個部門或某個主題的(如:博士隊伍集市、科研集市、教學(xué)集市等).
聯(lián)機分析處理技術(shù)最初是由美國學(xué)者考拉于1993年提出的,其主要具備兩個方面的特點:一個是在線性,簡言之就是實現(xiàn)用戶的即時溝通和互動過程;另一個是多思維分析性,就是在多種思維建立的基礎(chǔ)上,使用者能夠參與過程,并進行結(jié)果反饋,且對于使用者提出的分析需求利用分析運算法對數(shù)據(jù)進行從簡到繁的探究分析,此過程也是聯(lián)機分析處理的核心內(nèi)容[5].聯(lián)機分析處理系統(tǒng)具有較強的靈活性,多用于分析,使數(shù)據(jù)信息更加直觀,更具有可視化,使用者對繁多數(shù)據(jù)的多樣分析變得簡單且高效.
OLAP 比較常用的操作有切片(slice)、切塊(dice)、下鉆(drill-down)、旋轉(zhuǎn)(rotate)、上卷(roll up)等.主要是完成對科研維、職稱維和時間維的建立和處理.OLAP模塊可以完成各個部門、各個專業(yè)、各個博士的科研成果及在職時間等,并展示出分析結(jié)果.對多維數(shù)據(jù)集的查詢通過MDX語句來完成.
BI就是商業(yè)智能(Business Intelligence),大眾化的前端工具分為報表工具、分析工具、查詢工具等,它們的操作不需要有數(shù)據(jù)分析、挖掘算法基礎(chǔ),只在屏幕上直觀顯示結(jié)果,易理解.根據(jù)部門職能的不同、要求的不同,有的需要提供分析報表,有的需要趨勢或者預(yù)測分析.在實際操作過程中,一個完整的數(shù)據(jù)倉庫系統(tǒng)需要借助多種工具來實現(xiàn)[6].管理者可以運用各種不同的工具,從多角度、多視角觀察數(shù)據(jù),并以圖形、報表等多種形式展示,從而深入了解包含在數(shù)據(jù)中的信息和內(nèi)涵.
目前,博士化率不低于25%是師資評價中一項重要的指標(biāo),各大高校人事部門都在為如何能招聘到滿足需求的博士犯愁,尤其對于文科類博士招聘更是難上加難.盡管大費周章地招聘到了博士,但有的博士甘愿冒著違約的風(fēng)險去尋找新的崗位.這是高校人才招聘過程中存在的現(xiàn)實困境.下面通過基于數(shù)據(jù)倉庫的決策支持系統(tǒng),科學(xué)、合理地為管理者提供解決這一難題的決策支持[7].
了解需求找到主題,針對招聘需求,可以歸納出典型的主題域.在數(shù)據(jù)倉庫中,主題域是由一組相關(guān)的表來具體實現(xiàn)的,這些表來源于不同的數(shù)據(jù)源.
最常見、最穩(wěn)定的模式是星型模型.它由一個包含有大量數(shù)據(jù)的中心表和多個小的附屬表組成,通常稱之為事實表和維度表.事實表中除了數(shù)值指標(biāo)外,就是和各個維表相關(guān)聯(lián)的關(guān)鍵字;維度表則是由與事實表相關(guān)聯(lián)的關(guān)鍵字和維度本身的一些屬性值組成.星型數(shù)據(jù)倉庫結(jié)構(gòu)設(shè)計中,通常把某一主題的分散在不同業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)進行重組后,在數(shù)據(jù)倉庫中按這兩類數(shù)據(jù)分類存儲.
根據(jù)博士招聘主題需求,提出以下事實表和維度表的設(shè)計,見圖2.
博士隊伍事實表包括:課程代碼、科研代碼、學(xué)科代碼、時間代碼、職稱代碼、部門代碼、地區(qū)代碼、博士數(shù)量、在校時間.
維度表包括:課程維度表(課程代碼、所授課程名、年課時量);科研維度表(科研代碼、科研名稱、類型、類別、申請時間、結(jié)題時間、科研經(jīng)費);學(xué)科方向維度表(學(xué)科代碼、學(xué)科名稱);時間維度表(時間代碼、年、月);職稱維度表(職稱代碼、職稱名、聘任時間);部門維度(部門代碼、部門名、入職時間);地區(qū)維度(地區(qū)代碼、所在國家、所在省、所在市).
圖2 博士隊伍的星型模型
從圖2可以看出,博士隊伍數(shù)據(jù)集市是以博士隊伍事實表為中心的,四周輻射多個維度表,事實表與維度表通過主鍵與外鍵鏈接,存在一對一、一對多和多對多等多種關(guān)系.根據(jù)部門博士隊伍的信息,可以統(tǒng)計不同部門、不同學(xué)科的博士人數(shù)在不同職稱等級、不同地區(qū)的組成比例以及科研經(jīng)費數(shù)量等數(shù)據(jù)[8].
例如:某學(xué)校約500名教職工,只留下與博士相關(guān)的信息,分析近五年該學(xué)校的博士情況(見圖3).
運用EXCEL中數(shù)據(jù)透視表分別統(tǒng)計不同學(xué)科類別、不同地區(qū)以及性別不同的情況,可以發(fā)現(xiàn)山西籍的理學(xué)女博士數(shù)量最多,山西籍的工學(xué)男博士數(shù)量次之.就地區(qū)來講河北籍的博士數(shù)量較多.根據(jù)分析計算結(jié)果得出如下結(jié)論:(1)文史、藝術(shù)類女性博士較男性博士較容易來該校工作.(2)山西籍理學(xué)女博士更愿意來該校工作,博士招聘時可將更多注意力集中到籍貫、性別和學(xué)科類別上.上述結(jié)論可為管理層做出人才引進的工作方向提供支持.
利用聚類的關(guān)聯(lián)分析法,分析博士數(shù)據(jù)集市,設(shè)置最小的置信度50%,根據(jù)相關(guān)條件得出置信度大于等于50%的組合.見表1.
由表1可知科研績點數(shù)和教學(xué)超工作量數(shù)直接關(guān)系到博士能長時間服務(wù)于同一所院校,這一結(jié)論有助于學(xué)校管理者為今后更科學(xué)地制定、考核博士的科研及教學(xué)任務(wù)提供決策支持.
圖3 數(shù)據(jù)透視分析結(jié)果
表1 置信度超過50%組合的統(tǒng)計表
數(shù)據(jù)倉庫技術(shù)是新時代衍生出來的新產(chǎn)物,有很多問題亟待解決,比如系統(tǒng)的更新升級、人資體系的日新月異等,不斷增加的信息數(shù)據(jù)多樣化,也在一定程度上加大了數(shù)據(jù)倉庫運轉(zhuǎn)的復(fù)雜性和繁瑣性[9].高校應(yīng)結(jié)合自身人事管理體系,充分考慮數(shù)據(jù)倉庫的實施目標(biāo)和運行程序,制定符合現(xiàn)代化社會發(fā)展的科學(xué)方案,探究與之相匹配的數(shù)據(jù)倉庫,積極推進高校的人事管理工作.