徐建民
在經(jīng)歷了2004、2005年的基礎設施的廣泛建設浪潮后,從今年開始,各企事業(yè)單位都基本進入了數(shù)據(jù)大集中及數(shù)據(jù)整合0的時期,怎樣把前期投入的設施用起來,真正為企業(yè)帶來效益成了他們又一輪追逐的目標。本文通過分析義烏人勞社保局在數(shù)據(jù)整合技術方面的理論研究及實踐應用,旨在給廣大的讀者一個借鑒。
義烏市人事勞動社會保障局(以下簡稱義烏人勞社保局)依托有利的經(jīng)濟條件、社會環(huán)境等方面的優(yōu)勢,在“金保工程”信息化建設中取得了非常大的進步,養(yǎng)老、醫(yī)保、就業(yè)、人才四大數(shù)據(jù)資源的建設成為整個“金保工程”信息化建設的核心。
為了全面、準確、及時地收集整個義烏人事勞動社會保障業(yè)務信息,充分挖掘數(shù)據(jù)庫中數(shù)據(jù)的價值,需建設一個宏觀決策分析系統(tǒng),借助現(xiàn)代信息技術,對數(shù)據(jù)進行匯總、整理、交換和分析等加工處理,形成宏觀決策數(shù)據(jù)庫,為人事勞動社會保障政策的制定提供依據(jù)和支持,對政策執(zhí)行情況進行監(jiān)測。
宏觀決策支持系統(tǒng)建設采用先進的數(shù)據(jù)整合技術,充分整合養(yǎng)老、醫(yī)保、就業(yè)、人才數(shù)據(jù)資源,并建設一個統(tǒng)一的數(shù)據(jù)整合平臺。該數(shù)據(jù)整合平臺能將四大數(shù)據(jù)生產(chǎn)庫的數(shù)據(jù),經(jīng)過抽取、規(guī)則轉換、清洗、加載,形成整合資源庫,該數(shù)據(jù)庫主要存儲人事勞動社會保障業(yè)務統(tǒng)計信息、結果性數(shù)據(jù)等,同時該整合數(shù)據(jù)庫還為宏觀決策提供數(shù)據(jù)支持。
數(shù)據(jù)整合存在的問題
在信息化時代新環(huán)境下,勞動和社會保障部門領導要做出一項決策,往往依賴于信息系統(tǒng)。比如: 實現(xiàn)常規(guī)統(tǒng)計分析、監(jiān)測預警、預測分析、風險分析等; 進行數(shù)據(jù)、圖表、多媒體等各種形式的查詢; 對比計劃和執(zhí)行情況; 對比本期和歷史情況; 對比部分和總體情況; 要求能夠進行數(shù)據(jù)挖掘; 監(jiān)測勞動保障政策的執(zhí)行情況; 預測政策出臺效果; 監(jiān)測勞動力資源結構、市場需求、就業(yè)趨勢、就業(yè)率變化狀況; 預測就業(yè)結構及變化趨勢; 監(jiān)測基金收繳、發(fā)放、運轉、儲備和調劑狀況; 預測基金支付風險; 監(jiān)測勞動保障待遇享受對象動態(tài)變化; 預測人數(shù)變化趨勢等等,通過多手段綜合運用,建立完整而科學的決策方法。
這些決策分析需要的數(shù)據(jù)通常都是統(tǒng)計數(shù)據(jù),但是在現(xiàn)有信息系統(tǒng)下進行決策分析會比較復雜,因為現(xiàn)有數(shù)據(jù)主要存在如下幾個問題:
數(shù)據(jù)源利用問題 勞動和社會保障的信息化建設已經(jīng)進入了全面的實質性應用階段,各個應用系統(tǒng)積累了大量的數(shù)據(jù)。但是這也給決策分析帶來一個問題:做出一個決策分析往往需要查詢多個基于各種異構數(shù)據(jù)源的業(yè)務系統(tǒng)和外部系統(tǒng)后,進行大量數(shù)據(jù)分析后才能作出此決策。其工作量大,數(shù)據(jù)利用率不高,且容易出現(xiàn)人為差錯,從而影響決策的質量。
數(shù)據(jù)源質量問題 現(xiàn)有業(yè)務信息系統(tǒng)的數(shù)據(jù)為大量的業(yè)務數(shù)據(jù),這些數(shù)據(jù)無法提升為信息,及時提供給決策部門; 并且已有的業(yè)務信息系統(tǒng)平臺及開發(fā)工具互不兼容,直接提取這些業(yè)務數(shù)據(jù)比較麻煩。
數(shù)據(jù)源標準問題 每個業(yè)務系統(tǒng)都有對于大量的數(shù)據(jù),但是沒有統(tǒng)一的數(shù)據(jù)接口,也沒有一種通用的標準和規(guī)范:如各個業(yè)務系統(tǒng)使用不同的指標代碼體系和編碼體系、使用不同的數(shù)據(jù)格式等,導致各個業(yè)務數(shù)據(jù)庫之間無法直接集成。
歷史數(shù)據(jù)問題 統(tǒng)計分析需要大量的歷史數(shù)據(jù)作為它的基礎,而現(xiàn)階段的業(yè)務系統(tǒng)的歷史數(shù)據(jù)存放不是非常完整。
基于以上問題,需要建設一個數(shù)據(jù)整合平臺,按照宏觀決策的需求,利用數(shù)據(jù)整合技術,將相關數(shù)據(jù)提取、分類與整理后,經(jīng)過數(shù)據(jù)計算與變換,最后形成宏觀決策所需的數(shù)據(jù)和信息,保存在數(shù)據(jù)整合資源數(shù)據(jù)庫中,為決策系統(tǒng)提供數(shù)據(jù)支持。
數(shù)據(jù)資源分析
數(shù)據(jù)整合資源庫的數(shù)據(jù)都是一些統(tǒng)計和分析數(shù)據(jù),如:每月各險種基金繳費統(tǒng)計、各年齡段基金繳費統(tǒng)計等。這些來源都是生產(chǎn)數(shù)據(jù)庫,所以在數(shù)據(jù)整合之前,需對現(xiàn)有生產(chǎn)數(shù)據(jù)資源進行歸類分析。經(jīng)過簡單的數(shù)據(jù)歸類分析,現(xiàn)階段義烏人勞社保信息系統(tǒng)生產(chǎn)數(shù)據(jù)資源主要分為公共信息數(shù)據(jù)集、養(yǎng)老基金數(shù)據(jù)集、醫(yī)?;饠?shù)據(jù)集和就業(yè)基金數(shù)據(jù)集等。
1. 公共信息數(shù)據(jù)集是實現(xiàn)各險種基礎信息統(tǒng)一管理的基礎數(shù)據(jù)集。主要包括:
● 個人基本信息:包括個人信息庫、IC卡信息庫等。
● 單位基本信息:包括單位基本信息庫、單位所屬分支機構信息庫、社保機構信息庫、社保機構經(jīng)辦人員庫、銀行信息庫等。
● 參?;拘畔欤喊▎挝粎⒈P畔旌蛡€人參保信息庫等。
● 參數(shù)信息庫: 職工平均工資信息庫、帳戶記帳利率信息庫、銀行利率信息庫、社會保險繳費比例信息庫、代碼庫、帳戶記帳利率信息庫、銀行利率信息庫等。
2. 養(yǎng)老基金數(shù)據(jù)集主要包括:
● 單位應付信息庫: 單位應付信息庫、單位實付信息庫等。
● 離退休人員信息庫:離退休人員變更信息庫、離退休人員帳戶信息庫、離退休人員待遇信息庫等。
● 養(yǎng)老保險待遇信息庫:養(yǎng)老保險待遇支付信息庫、養(yǎng)老補發(fā)退發(fā)信息庫、養(yǎng)老供養(yǎng)親屬基本信息庫、養(yǎng)老供養(yǎng)親屬待遇信息庫等。
3. 醫(yī)療基金數(shù)據(jù)集主要包括:
● 醫(yī)療參保人員信息庫:醫(yī)療保險參保人員基本信息庫、醫(yī)療包干人員基本信息庫、參保人員及帳戶變動信息庫、人員就診檔案信息庫等。
● 醫(yī)療機構信息庫:定點醫(yī)療機構結算參數(shù)庫、定點醫(yī)療服務機構信息庫、定點醫(yī)療機構預付費用信息庫、定點醫(yī)療機構應付信息庫、定點醫(yī)療機構年度結算信息庫、定點醫(yī)療機構藥品目錄庫等。
● 醫(yī)療待遇信息庫: 費用分類信息庫、醫(yī)療保險結算費用信息庫、醫(yī)療包干人員預付費用庫 、醫(yī)療包干人員費用結算庫、醫(yī)療保險個人帳戶返還庫、醫(yī)療費用分段個人自付比例庫、定點醫(yī)療機構預付標準庫等。
4. 就業(yè)相關數(shù)據(jù)集主要包括:
● 就業(yè)服務機構信息庫:社保代發(fā)機構基本信息庫、社保代發(fā)機構撥付記錄庫、就業(yè)機構服務情況庫等。
● 參保人員機構信息庫:參保人員失業(yè)保險信息庫、人員失業(yè)情況信息庫、失業(yè)人員變更信息庫、個人職業(yè)指導和介紹就業(yè)情況庫等。
● 失業(yè)待遇信息庫: 失業(yè)待遇信息庫、失業(yè)人員待遇支付明細庫、失業(yè)保險補發(fā)退發(fā)信息庫、失業(yè)待遇金額標準庫、失業(yè)保險金享受期限標準庫等。
● 人才交流信息庫: 人才引進信息庫、人才派遣信息庫、人才就業(yè)信息庫、人才調動信息庫、再就業(yè)信息庫、人事代理信息庫、畢業(yè)生落戶信息庫、企業(yè)招聘信息庫、個人應聘信息庫等。
數(shù)據(jù)整合的實現(xiàn)方式
義烏人勞社保局信息系統(tǒng)數(shù)據(jù)庫大多為Oracle數(shù)據(jù)庫,數(shù)據(jù)整合實現(xiàn)方式通常可以采用數(shù)據(jù)庫開發(fā)技術和ETL技術實現(xiàn)。
數(shù)據(jù)庫開發(fā)技術 利用數(shù)據(jù)庫開發(fā)技術的數(shù)據(jù)整合主要指利用數(shù)據(jù)庫(主要是ORACLE數(shù)據(jù)庫)本身的功能,如觸發(fā)器、PL/SQL存儲過程、DBLINK等功能完成,完成對各個業(yè)務系統(tǒng)所需要數(shù)據(jù)的抽取、查詢和關聯(lián)等。
該數(shù)據(jù)整合實現(xiàn)技術運用在義烏人勞社保信息系統(tǒng)有如下優(yōu)勢:
1. 由于義烏人勞社保信息系統(tǒng)都是ORACLE數(shù)據(jù)庫,采用ORACLE的開發(fā)技術,適合于ORACLE數(shù)據(jù)庫之間的數(shù)據(jù)集成。
2. 投資少,基本都是靠開發(fā)人員手工編程為主,只需要一些開發(fā)費用。
但是該數(shù)據(jù)整合實現(xiàn)技術也存在一些局限性:
1. 擴展性較差。由于都是開發(fā)人員手工編程,后期的維護成本較高,特別是在決策需求發(fā)生變化時,需要開發(fā)人員修改程序源代碼。
2. 數(shù)據(jù)整合效率問題。由于數(shù)據(jù)庫都靠開發(fā)商編寫,在系統(tǒng)日趨龐大的情況下,在面對復雜的數(shù)據(jù)整合問題上,效率難以得到保證。
ETL技術 通過ETL技術及專業(yè)ETL軟件,即數(shù)據(jù)抽取(Extract)、轉換(Transform)、裝載(Load)能將數(shù)據(jù)從原業(yè)務數(shù)據(jù)庫經(jīng)過抽取,進行轉換,最后加載到目標數(shù)據(jù)庫,實現(xiàn)業(yè)務數(shù)據(jù)之間的整合。
該數(shù)據(jù)整合實現(xiàn)技術運用在義烏人勞社保信息系統(tǒng)有如下優(yōu)勢:
高效率。ETL軟件的數(shù)據(jù)抽取、轉換、加載的效率非常高,特別對于大數(shù)據(jù)量的抽取。并且支持對Oracle9i增量數(shù)據(jù)抽取。
改進數(shù)據(jù)質量。能夠根據(jù)各種條件校驗源數(shù)據(jù)和目標數(shù)據(jù)質量,對垃圾數(shù)據(jù)進行清洗。
強大管理功能。能夠通過WEB管理界面對數(shù)據(jù)抽取策略執(zhí)行制定時間觸發(fā)方式,對抽取結果進行分析等。
多平臺、多數(shù)據(jù)源支持。支持各種平臺、各種數(shù)據(jù)庫系統(tǒng)(如Oracle、SQLServer等)以及不同版本數(shù)據(jù)庫之間的數(shù)據(jù)抽取。
具備多種數(shù)據(jù)轉換控件,能夠完成各種非常復雜的數(shù)據(jù)轉換工作。
但是該數(shù)據(jù)整合實現(xiàn)技術也存在一些局限性: 投資費用較為昂貴,實施周期通常較長。
數(shù)據(jù)整合的實施
數(shù)據(jù)整合實施工作大致可以分為4個階段:
第一階段為業(yè)務分析階段。 該階段主要包括了解需要采集的數(shù)據(jù)結構定義,和數(shù)據(jù)表之間的業(yè)務聯(lián)系,例如:需要了解系統(tǒng)中如社保個人信息及帳戶、單位個人信息及賬戶、退休人員信息等業(yè)務表的具體數(shù)據(jù)結構定義,表之間的相互關聯(lián)等。
第二階段為設計實施階段。該階段主要定義數(shù)據(jù)整合規(guī)則及策略。數(shù)據(jù)整合規(guī)則定義包括字段映射、合并、函數(shù)計算等,來實現(xiàn)業(yè)務需求定義的數(shù)據(jù)轉換功能。數(shù)據(jù)整合策略主要定義時間策略(定時策略、自動重試、手工策略、事件觸發(fā)等)。
第三階段為數(shù)據(jù)校驗階段。數(shù)據(jù)校驗階段是數(shù)據(jù)整合階段最重要的階段。由于不同業(yè)務信息資源之間存在著語義上的區(qū)別,這些語義上的不同會引起各種不完整甚至錯誤信息的產(chǎn)生,語義沖突會帶來數(shù)據(jù)集成結果。在系統(tǒng)正式運行之前,必須建立嚴格的數(shù)據(jù)校驗機制,以保證生產(chǎn)數(shù)據(jù)和整合平臺數(shù)據(jù)的一致性,可建議采用如下方法:
● 數(shù)據(jù)的采樣:每張表采集定量的數(shù)據(jù)作為參照,跟轉換后數(shù)據(jù)進行比較。
● 數(shù)據(jù)的條數(shù):每張表記錄原始數(shù)據(jù)的記錄總數(shù),跟轉換后數(shù)據(jù)進行比較。
● 數(shù)據(jù)的重要指標匯總:對于各主要指標,要跟轉換后進行比較。
第四階段為系統(tǒng)上線階段。將設計好的數(shù)據(jù)整合流程正式發(fā)布,并可以設定計劃定時執(zhí)行 ,系統(tǒng)管理人員可以通過監(jiān)控界面,進行任務監(jiān)控和跟蹤。隨著數(shù)據(jù)轉換業(yè)務逐漸增加,管理人員還可以根據(jù)具體的業(yè)務需求,進行數(shù)據(jù)轉換加載任務的時間計劃修改和維護,管理人員可以自己修改計劃任務,合理安排所有的數(shù)據(jù)轉換任務能夠在規(guī)定的時間范圍內完成所有的數(shù)據(jù)轉換和加載任務。
數(shù)據(jù)整合平臺能夠實現(xiàn)多個業(yè)務應用系統(tǒng)、多種異構數(shù)據(jù)源信息的綜合利用,為宏觀決策水平的提高提供基礎數(shù)據(jù)。但是,數(shù)據(jù)整合是一項復雜而又基礎性的工作,在實際整合過程中會遇到許多想象不到的問題,只有將這些問題一一化解,對數(shù)據(jù)轉換的結果認真校驗,才能確保數(shù)據(jù)整合的準確性,才能最終達到數(shù)據(jù)整合平臺建設“完整、正確、統(tǒng)一、及時、安全”的要求。