楊金峰 侯景嚴 王松
摘 要:隨著互聯(lián)網(wǎng)的飛速發(fā)展,企業(yè)建立了諸多信息管理系統(tǒng),其數(shù)據(jù)產(chǎn)生量也爆炸式增長。合理利用各類系統(tǒng)的異構(gòu)數(shù)據(jù)挖掘潛在信息,對助力企業(yè)決策者確立企業(yè)發(fā)展方向及計劃具有重要意義。為此,文章針對企業(yè)內(nèi)部已有信息系統(tǒng)數(shù)據(jù)分散、基本結(jié)構(gòu)不一致的異構(gòu)狀態(tài),依托“態(tài)勢感知”思想,借助數(shù)據(jù)可視化分析方法和圖形化展示手段建立面向異構(gòu)數(shù)據(jù)的態(tài)勢感知系統(tǒng),有助于挖掘歷史數(shù)據(jù)的價值以及提升企業(yè)決策者態(tài)勢感知的支持度。
關鍵詞:異構(gòu)數(shù)據(jù),大數(shù)據(jù),決策支持
中圖法分類號:TP311文獻標識碼:A
1 引言
隨著時間的推移,計算機科學與技術發(fā)展日新月異,許多科研企業(yè)搭上了數(shù)字化、智能化的快車,構(gòu)建了一連串輔助辦公的核心業(yè)務軟件系統(tǒng),如人力資源管理軟件、固定資產(chǎn)管理軟件、供應商管理軟件、測試管理軟件等。經(jīng)過時間的積累,諸多系統(tǒng)產(chǎn)生了大量的應用數(shù)據(jù),企業(yè)逐漸進入大數(shù)據(jù)時代。數(shù)據(jù)的積累可以通過數(shù)據(jù)本身為系統(tǒng)提供反查依據(jù),也可以通過數(shù)據(jù)挖掘、數(shù)據(jù)分析等信息化手段得到潛在的數(shù)據(jù)或關聯(lián)關系,為企業(yè)中、高領導層提供做出決策的態(tài)勢感知支持,進而對系統(tǒng)的建設和使用做出正相關反饋[1] 。但企業(yè)內(nèi)部建立的系統(tǒng)不是一天、一次性建成的,導致在企業(yè)辦公應用系統(tǒng)中形成了不同編程語言、不同操作系統(tǒng)、不同硬件架構(gòu),不同數(shù)據(jù)庫的系統(tǒng)集群[2] 。不同的系統(tǒng)產(chǎn)生了大量的密集型多來源異構(gòu)數(shù)據(jù),影響了企業(yè)統(tǒng)一視圖的建設,將此類異構(gòu)的數(shù)據(jù)進行整合并建設精細化、集成化的態(tài)勢感知系統(tǒng)顯得尤為重要。
本文針對多來源的異構(gòu)數(shù)據(jù)在企業(yè)態(tài)勢感知系統(tǒng)中的應用,提出通過異構(gòu)數(shù)據(jù)的整合,將其應用于態(tài)勢感知系統(tǒng),并建立一系列指標供決策者在決策前感知發(fā)展態(tài)勢。
2 相關理論
2.1 異構(gòu)數(shù)據(jù)整合
異構(gòu)數(shù)據(jù)顧名思義是指基本結(jié)構(gòu)不同的數(shù)據(jù)庫數(shù)據(jù),是由多個擁有獨立、完整的DBMS 數(shù)據(jù)庫數(shù)據(jù)組成的集合。異構(gòu)數(shù)據(jù)的異構(gòu)性主要體現(xiàn)在異構(gòu)的計算機體系結(jié)構(gòu)、異構(gòu)的操作系統(tǒng)、異構(gòu)的數(shù)據(jù)格式、異構(gòu)的數(shù)據(jù)存儲地點以及異構(gòu)的數(shù)據(jù)存儲邏輯模型。本文的數(shù)據(jù)整合主要由異構(gòu)的數(shù)據(jù)格式和異構(gòu)的存儲邏輯模型構(gòu)成。數(shù)據(jù)格式存在多樣性,包括關系型數(shù)據(jù)庫和非關系型數(shù)據(jù)庫;存儲邏輯模型主要在不同業(yè)務邏輯中存儲和維護相同意義的數(shù)據(jù)。異構(gòu)數(shù)據(jù)整合的目的是實現(xiàn)不同層次結(jié)構(gòu)的數(shù)據(jù)庫數(shù)據(jù)資源的共享和集成。其關鍵在于組織基礎數(shù)據(jù),并借助不同的工具和簡單的邏輯整合,生成具有統(tǒng)一對外接口的數(shù)據(jù)倉庫資源。數(shù)據(jù)整合的步驟如圖1 所示,包括數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等步驟,最終形成數(shù)據(jù)倉庫,為后續(xù)環(huán)節(jié)提供統(tǒng)一化的數(shù)據(jù)支撐。
數(shù)據(jù)抽取的概念是將上層需要的數(shù)據(jù)從下層源中按照一定規(guī)則進行提取。當前現(xiàn)有數(shù)據(jù)抽取的技術手段有全量和增量2 種抽取方式。第一種全量的方式類似于數(shù)據(jù)的遷移和復制,它對下層源中所有數(shù)據(jù)進行原封不動的抽取。而第二種增量的方式則是對比上次抽取時的狀態(tài),只抽取有變化的部分。這種方式最重要的環(huán)節(jié)是如何捕捉源的變化。在確保結(jié)果準確率和性能最優(yōu)化的前提下,其主要方法有觸發(fā)器方式、時間戳方式、日志記錄方式等。
異構(gòu)數(shù)據(jù)最終生成數(shù)據(jù)倉庫并對外提供統(tǒng)一化接口的關鍵一步是數(shù)據(jù)清洗和轉(zhuǎn)換,具體操作為通過檢查數(shù)據(jù)有效性和一致性,對缺失值進行處理。其主要處理方法有部分數(shù)據(jù)丟棄法、缺失數(shù)據(jù)補全法、真值轉(zhuǎn)換法、不處理等??筛鶕?jù)源頭數(shù)據(jù)庫表以及字段的特性來選擇方法對其進行處理。而數(shù)據(jù)轉(zhuǎn)換則是因為異構(gòu)的原因而引入,主要解決各源頭系統(tǒng)中對某一特定事物表述方式不同的問題。如A 系統(tǒng)將性別表示為男、女,而B 系統(tǒng)則表示為F,M,此時應根據(jù)數(shù)據(jù)倉庫的標準對源頭系統(tǒng)的數(shù)據(jù)做轉(zhuǎn)換,達到最終一致的效果。
2.2 態(tài)勢感知與決策
態(tài)勢感知是指能全局地發(fā)現(xiàn)周圍的發(fā)展狀態(tài)和趨勢,它是基于環(huán)境且動態(tài)的。此概念最早出現(xiàn)在軍事研究中,包含感知、理解和預測3 個方面。態(tài)勢感知數(shù)據(jù)系統(tǒng)則以大數(shù)據(jù)為基礎,從全局視角出發(fā),發(fā)現(xiàn)潛在問題,監(jiān)測業(yè)務發(fā)展,反饋決策效果。態(tài)勢感知數(shù)據(jù)系統(tǒng)所處地位高于綜合信息管理系統(tǒng)。它融合多種處理方法和分析算法,對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進行分析處理,并充分利用多樣的可視化組件圖形對處理的結(jié)果進行展示,最終為企業(yè)決策者態(tài)勢感知提供有力支持。系統(tǒng)對應態(tài)勢感知概念中的3 個層次為:數(shù)據(jù)管理層、數(shù)據(jù)分析層、數(shù)據(jù)展示層。具體態(tài)勢感知系統(tǒng)結(jié)構(gòu)如圖2 所示。數(shù)據(jù)管理層是該系統(tǒng)的基礎模塊,主要功能是對異構(gòu)數(shù)據(jù)進行整合,完成異構(gòu)數(shù)據(jù)的抽取、清洗和轉(zhuǎn)換,最終形成可對上層模塊提供統(tǒng)一化接口的存儲管理倉庫。數(shù)據(jù)分析層是態(tài)勢感知系統(tǒng)的關鍵,主要通過各類數(shù)據(jù)處理方法和數(shù)據(jù)分析算法對業(yè)務數(shù)據(jù)進行全方位的統(tǒng)計分析,得到可供展示的半成品態(tài)勢感知數(shù)據(jù)。展示層對態(tài)勢感知數(shù)據(jù)進行多維度的展示,通過多樣化的圖表(如柱形圖、環(huán)圖、雷達圖等)準確清晰地表示數(shù)據(jù),并依靠各業(yè)務系統(tǒng)設立的角色對展示權(quán)限進行約束。
態(tài)勢感知數(shù)據(jù)系統(tǒng)可以快速連接現(xiàn)有系統(tǒng)數(shù)據(jù),有效分析數(shù)據(jù)潛在問題與趨勢,幫助各角色人員對企業(yè)發(fā)展態(tài)勢進行準確感知,并在此基礎上做出決策,以供執(zhí)行層業(yè)務人員修正業(yè)務內(nèi)存在的問題。
3 系統(tǒng)設計
3.1 系統(tǒng)頂層架構(gòu)
本系統(tǒng)通過對企業(yè)決策支持的現(xiàn)狀和業(yè)務需求進行分析,并結(jié)合企業(yè)內(nèi)部在用的信息化綜合管理系統(tǒng),采用自底向上的模式,其具體分為3 個層次,包括數(shù)據(jù)管理層、數(shù)據(jù)分析層和數(shù)據(jù)展示層。實現(xiàn)態(tài)勢感知數(shù)據(jù)系統(tǒng)的思路為:首先在數(shù)據(jù)管理層對企業(yè)內(nèi)部建立的大量業(yè)務系統(tǒng)產(chǎn)生的異構(gòu)數(shù)據(jù)進行整合,經(jīng)過一系列的清洗及轉(zhuǎn)換,形成可供分析使用的數(shù)據(jù)倉庫;然后分析企業(yè)內(nèi)態(tài)勢感知指標體系,并提出供決策使用的指標以及結(jié)合數(shù)據(jù)處理方法和數(shù)據(jù)分析算法得到的待展示數(shù)據(jù);最后選擇適用于展示數(shù)據(jù)的可視化組件并形成圖形化界面,給予各層次決策者不同的數(shù)據(jù)權(quán)限、展示權(quán)限,從而為其決策提供充分依據(jù)。面向異構(gòu)數(shù)據(jù)的態(tài)勢感知系統(tǒng)架構(gòu)如圖3 所示。
3.2 數(shù)據(jù)管理模塊
數(shù)據(jù)管理模塊主要管理來自各獨立系統(tǒng)的異構(gòu)數(shù)據(jù),并對數(shù)據(jù)分析模塊提供輸出。其主要處理同構(gòu)化的異構(gòu)數(shù)據(jù)并對中間結(jié)果進行抽取清洗和轉(zhuǎn)換,最終生成可供上級分析模塊使用的數(shù)據(jù)倉庫。數(shù)據(jù)抽取主要針對當前已經(jīng)建立的一系列應用系統(tǒng),目前企業(yè)內(nèi)系統(tǒng)數(shù)據(jù)庫均為諸如MySQL,Oracle,SQL Server的關系型數(shù)據(jù)庫,直接通過JDBC 接口連接即可。各數(shù)據(jù)庫數(shù)據(jù)鏈接后,還需要對管理的數(shù)據(jù)做進一步的清洗和轉(zhuǎn)換。具體操作包括數(shù)據(jù)庫數(shù)據(jù)列命名、數(shù)據(jù)行重復值刪除、缺失值處理、異常值處理,也包括數(shù)據(jù)重排序和數(shù)據(jù)的一致化處理。該模塊是態(tài)勢感知數(shù)據(jù)系統(tǒng)的基礎,因此對數(shù)據(jù)的安全性和保密性提出高要求尤為重要。數(shù)據(jù)安全性主要參考源系統(tǒng)的業(yè)務權(quán)限,對用戶建立角色并保證對特定用戶角色開放特定數(shù)據(jù)權(quán)限。
3.3 數(shù)據(jù)分析模塊
數(shù)據(jù)分析模塊主要分為2 部分:一是按照業(yè)務需求確立態(tài)勢感知的指標體系,二是根據(jù)確立的指標體系并結(jié)合數(shù)據(jù)處理方法和數(shù)據(jù)分析算法對數(shù)據(jù)倉庫中的數(shù)據(jù)進行分析處理得到的待展示結(jié)果。指標體系需求確立數(shù)據(jù)領域與用戶,數(shù)據(jù)領域劃分為戰(zhàn)略規(guī)劃、科研管理、生產(chǎn)管理、人力管理、財務管理、采購管理、質(zhì)量管理等。用戶分為決策層(高層)、管理層(中層)、執(zhí)行層(基層)。其中,決策層指標體系關注戰(zhàn)略目標、監(jiān)控運營盈虧等綜合性指標;管理層指標體系關注目標計劃完成狀況、分析發(fā)現(xiàn)的問題;執(zhí)行層主要細化到各自負責的業(yè)務執(zhí)行狀況,關注具體業(yè)務指標。數(shù)據(jù)處理方法主要涵蓋數(shù)據(jù)關聯(lián)、匯總和合并,而數(shù)據(jù)分析算法則比較多樣,包含回歸、分類、聚類等,最終得到以領域劃分,以角色控制的待展示數(shù)據(jù)。
3.4 可視化模塊
可視化模塊輸入為數(shù)據(jù)分析的結(jié)果,選擇適用于該數(shù)據(jù)結(jié)構(gòu)的可視化圖形進行繪制,得到最終結(jié)果并與門戶系統(tǒng)集成,供用戶使用??梢暬枨罂煞譃橐韵拢?個方面:數(shù)據(jù)變化趨勢、數(shù)據(jù)統(tǒng)計分布、潛在數(shù)據(jù)分析。而開發(fā)平臺上對應可視化前端組件非常豐富,具體有:柱線組合圖、環(huán)圖、矩形樹圖、漏斗圖、氣泡圖。因此可根據(jù)展示數(shù)據(jù)類型按需選擇可視化圖表設計成果,最終發(fā)布成果到企業(yè)門戶系統(tǒng)供各層人員查看并感知發(fā)展態(tài)勢。
4 系統(tǒng)實現(xiàn)
基于上文中態(tài)勢數(shù)據(jù)感知系統(tǒng)的理論模型和企業(yè)現(xiàn)有信息管理,結(jié)合系統(tǒng)頂層設計和模塊詳細設計,構(gòu)建了面向異構(gòu)數(shù)據(jù)的態(tài)勢感知系統(tǒng)。首先整理企業(yè)現(xiàn)有綜合管理系統(tǒng),包括人力管理、生產(chǎn)及科研管理、財務與薪酬管理等系統(tǒng),并統(tǒng)一管理和標準化各系統(tǒng)數(shù)據(jù)源,而后對這些異構(gòu)數(shù)據(jù)進行整合。其次進行業(yè)務調(diào)研、需求梳理,形成業(yè)務板塊并建立一套符合單位現(xiàn)狀和業(yè)務現(xiàn)狀的態(tài)勢感知指標體系,覆蓋戰(zhàn)略規(guī)劃、科研管理、生產(chǎn)管理、人力管理、財務管理、采購管理等10 余個模塊,建立100 余個需求指標。最終使用以折線圖、柱形圖、環(huán)形圖為代表的可視化圖形進行繪制,綜合生成態(tài)勢感知結(jié)果。如圖4 所示,針對企業(yè)內(nèi)部全年計劃完成情況分布,提取綜合計劃管理系統(tǒng)數(shù)據(jù)并生成環(huán)形圖,以展示相關業(yè)務的態(tài)勢,點擊環(huán)形圖也可展示各部分組成數(shù)據(jù)全貌,給予決策者詳細的參考。如圖5 所示,針對企業(yè)內(nèi)部員工基本信息,提取人力資源管理系統(tǒng)數(shù)據(jù)并生成員工年齡分布柱狀圖,以展示員工各年齡階段分布。決策者可以由此了解企業(yè)員工整體年齡分布是否符合正態(tài)分布,并據(jù)此對新員工招聘年齡和企業(yè)崗位任職等抉擇性信息作出調(diào)整。
5 結(jié)束語
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)增長飛速。合理利用數(shù)據(jù)已成為日常業(yè)務的重要工作。態(tài)勢感知系統(tǒng)可以將業(yè)務系統(tǒng)數(shù)據(jù)進行整合,挖掘潛在數(shù)據(jù)并利用可視化工具對其進行更加直觀、美化的展示。因此,本文基于企業(yè)內(nèi)各業(yè)務系統(tǒng),并面向異構(gòu)數(shù)據(jù)研究建立本地化的態(tài)勢感知數(shù)據(jù)系統(tǒng),以豐富的圖表形式展現(xiàn)了企業(yè)內(nèi)部業(yè)務現(xiàn)狀和發(fā)展趨勢;利用大量隱藏、有價值的業(yè)務數(shù)據(jù)整合異構(gòu)信息系統(tǒng)數(shù)據(jù),以豐富的圖表直觀表達了數(shù)據(jù)分布和企業(yè)重要發(fā)展態(tài)勢,從而為各層員工傳遞信息并為其作出有效決策提供數(shù)據(jù)支持。
參考文獻:
[1] 程龍軍.面向大數(shù)據(jù)的指揮決策系統(tǒng)模型研究[J].山西電子技術,2015(1):85?87.
[2] 楊明亮.基于數(shù)據(jù)抽取的決策支持系統(tǒng)研究與實現(xiàn)[J].數(shù)字技術與應用,2018,36(3):47?48.
作者簡介:
楊金峰(1996—),碩士,助理工程師,研究方向:軟件設計開發(fā)及數(shù)據(jù)庫應用。
王松(1989—),碩士,高級工程師,研究方向:軟件開發(fā)及數(shù)據(jù)分析(通信作者)。