丁 琳
SAP中國思愛普(北京)軟件系統(tǒng)有限公司,上海 201203
商務(wù)智能(Business Intelligence, BI)是企業(yè)利用數(shù)據(jù)倉庫(DW)、數(shù)據(jù)挖掘(DM)、在線分析處理(OLAP)和決策支持系統(tǒng)(DSS)等現(xiàn)代信息技術(shù)對企業(yè)經(jīng)營過程中產(chǎn)生的大量結(jié)構(gòu)化和非結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)和信息進行收集、整理、分析,以便輔助企業(yè)做出爭取決策,采取有效戰(zhàn)術(shù)行動,優(yōu)化業(yè)務(wù)流程,全面提升企業(yè)績效的工具、方法和技術(shù)的統(tǒng)稱。借助商務(wù)智能這一手段,企業(yè)可以在市場日益變化,競爭愈加激烈,組織結(jié)構(gòu)復雜,企業(yè)規(guī)模快速擴張龐大的商業(yè)環(huán)境之下,保持高效運營、正確決策、快速響應(yīng),實現(xiàn)企業(yè)從數(shù)據(jù)到信息、從信息到知識、從知識到利潤的轉(zhuǎn)化。
企業(yè)實施商務(wù)智能項目時,數(shù)據(jù)的采集和集成是通常遇到的問題。由于實施過程一般分階段分梯度進行,因此企業(yè)BI始終要面對業(yè)務(wù)流程隨市場環(huán)境趨勢不斷變化的現(xiàn)狀,系統(tǒng)架構(gòu)始終處于不斷補充擴大的過程。
在企業(yè)內(nèi)部隨著信息化的歷史變遷,從部門級應(yīng)用,到各公司獨立應(yīng)用,再到企業(yè)一體化應(yīng)用,企業(yè)使用不同廠商、不同版本的各種管理軟件。如果說這種系統(tǒng)應(yīng)用的廣度已經(jīng)使人頭痛,更頭痛的是集團型企業(yè)各種信息系統(tǒng)的集成問題。如從數(shù)據(jù)集成到應(yīng)用系統(tǒng)集成,再到集團型企業(yè)所面臨的人員集成、信息集成、流程集成、應(yīng)用平臺集成等方面,涉及面越來越多,集成重點也愈來愈從技術(shù)走向業(yè)務(wù)系統(tǒng)。
與此同時,行業(yè)市場激烈的競爭環(huán)境,迫使企業(yè)不得不在應(yīng)用系統(tǒng)逐步整合集中的進程中,同步進行大規(guī)模的企業(yè)范圍內(nèi)的數(shù)據(jù)整合,以BI作為企業(yè)戰(zhàn)略重要支撐。那么企業(yè)BI必然率先解決數(shù)據(jù)驅(qū)動的根本,即解決數(shù)據(jù)的獲取、轉(zhuǎn)換和整合等問題。
目前,全球各大軟件廠商提供的商務(wù)智能解決方案均是將業(yè)務(wù)應(yīng)用的操作型關(guān)系數(shù)據(jù)庫作為商務(wù)智能數(shù)據(jù)倉庫或集市的ETL數(shù)據(jù)源,這種解決方案旨在將業(yè)務(wù)流程和操作與業(yè)務(wù)分析和查詢分離,應(yīng)用組合各司其職合理架構(gòu)。因此,市面上大部分BI產(chǎn)品本身只對數(shù)據(jù)倉庫或集市或OLAP進行單向提取和展現(xiàn)操作,也就是“只讀”的操作,展現(xiàn)層不提供大量和頻繁的數(shù)據(jù)寫操作。試想一旦BI產(chǎn)品具備數(shù)據(jù)寫處理,BI的產(chǎn)品定位和架構(gòu)界限劃分將變得模糊不清,在實際應(yīng)用中也難免出現(xiàn)業(yè)務(wù)需求匹配解決方案時的定位混淆問題。即使市面上有少數(shù)BI產(chǎn)品具備訪問權(quán)限可控的“回寫、轉(zhuǎn)存”功能,啟用功能時勢必要謹慎考慮對數(shù)據(jù)倉庫或OLAP多維分析的數(shù)據(jù)更新頻率和重構(gòu)立方體的工作量問題,事實上這類BI產(chǎn)品的“寫處理”能力非常局限,一般僅處理單表中度量型或備注型的字段更新,也不具備工作流和規(guī)則引擎等基本流程控制功能。
筆者提出,在商務(wù)智能體系架構(gòu)中增加構(gòu)建一層數(shù)據(jù)采集平臺,作為核心業(yè)務(wù)應(yīng)用組合架構(gòu)中的重要補充來源,從而解決企業(yè)快速獲取非系統(tǒng)性數(shù)據(jù)來源或外部來源數(shù)據(jù)導入系統(tǒng)的問題,以保證企業(yè)數(shù)據(jù)資產(chǎn)完整性以及信息充分有效性,實現(xiàn)商務(wù)智能支撐企業(yè)決策的要求。
數(shù)據(jù)采集情況復雜,方式種類繁多。較為常見的情況是業(yè)務(wù)應(yīng)用系統(tǒng)之間跨多數(shù)據(jù)庫,結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)源,以及手工填報錄入和導入源文件等。簡單的采集方式可以是網(wǎng)頁手工錄入數(shù)據(jù),掃描條形碼,自動化定時數(shù)據(jù)抽取,修正或者補錄過程等方式,最終是為數(shù)據(jù)存儲或數(shù)據(jù)分析提供基礎(chǔ)內(nèi)容??梢姛o論何種情況方式,數(shù)據(jù)采集都包括了數(shù)據(jù)源收集、識別、選取和存儲等環(huán)節(jié),是一個從目標處理到完成輸入輸出的復雜過程。
商務(wù)智能的數(shù)據(jù)采集平臺包括對業(yè)務(wù)數(shù)據(jù)、協(xié)同數(shù)據(jù)、公用資源以及公司各級下屬單位或部門的數(shù)據(jù)進行采集。數(shù)據(jù)采集工作主要通過數(shù)據(jù)采集適配器、網(wǎng)頁在線數(shù)據(jù)填報、客戶端數(shù)據(jù)上報、以及后臺批量數(shù)據(jù)導入等方式,迅速地從生產(chǎn)數(shù)據(jù)庫、文件系統(tǒng)采集到數(shù)據(jù),存儲到采集數(shù)據(jù)庫及文件系統(tǒng),并盡量降低給生產(chǎn)數(shù)據(jù)庫帶來的影響。
數(shù)據(jù)采集平臺要求數(shù)據(jù)的準確一致、格式符合BI分析使用,因此設(shè)計了數(shù)據(jù)上報和審核的業(yè)務(wù)流程,系統(tǒng)層次結(jié)構(gòu)和流程設(shè)計如下:
審批層:由具體填報人員以網(wǎng)頁在線填報或客戶端填報方式,將數(shù)據(jù)錄入填報系統(tǒng)中(系統(tǒng)自動將數(shù)據(jù)標示為狀態(tài)寫為提交)。
填報層:各分支結(jié)構(gòu)審核人員將在系統(tǒng)中對數(shù)據(jù)審核(系統(tǒng)中只顯示待審核數(shù)據(jù)),如數(shù)據(jù)符合要求則通過審核(系統(tǒng)將標志位改為審核),否則退回(系統(tǒng)將標志位改為提交)。
ETL層:由系統(tǒng)自動通過ETL工具將數(shù)據(jù)寫入公司總部采集平臺的數(shù)據(jù)庫,ETL過程需根據(jù)業(yè)務(wù)需求具體設(shè)計。
2)數(shù)據(jù)存儲分為兩層級
各下屬單位數(shù)據(jù)存儲:各個下屬單位有各自數(shù)據(jù)庫,存儲在線填報系統(tǒng)數(shù)據(jù)。
總部數(shù)據(jù)中心:總部采集平臺數(shù)據(jù)庫,存儲各下屬單位數(shù)據(jù)。(審核后數(shù)據(jù))。
3)數(shù)據(jù)采集內(nèi)容
數(shù)據(jù)采集平臺為數(shù)據(jù)集成和整合應(yīng)用提供數(shù)據(jù)基礎(chǔ),數(shù)據(jù)采集覆蓋整個醫(yī)藥企業(yè)應(yīng)用系統(tǒng)的業(yè)務(wù)數(shù)據(jù),采集數(shù)據(jù)主要用于為主數(shù)據(jù)管理及商務(wù)智能系統(tǒng)提供數(shù)據(jù)來源。通過數(shù)據(jù)采集平臺,可以將公司商務(wù)智能分析需要的各類業(yè)務(wù)分析主題的維度和事實都導入到數(shù)據(jù)倉庫的ODS數(shù)據(jù)區(qū)中。
1)數(shù)據(jù)采集適配器
數(shù)據(jù)采集適配器是利用Web Service提供服務(wù),自動將需要采集的各級數(shù)據(jù)中心的應(yīng)用系統(tǒng)數(shù)據(jù)源讀入中間暫存數(shù)據(jù)集,然后從數(shù)據(jù)集將已更改數(shù)據(jù)寫入采集平臺數(shù)據(jù)庫中。
適配器方式數(shù)據(jù)采集過程如下:
適配器客戶端發(fā)起連接請求;
服務(wù)端應(yīng)答,通過SSL與之建立連接;
適配器客戶端發(fā)送數(shù)據(jù);
服務(wù)端接收數(shù)據(jù),并在接收完畢后反饋接收狀態(tài);
服務(wù)端識別數(shù)據(jù)類型和數(shù)據(jù)格式的標記,根據(jù)類型格式標記從規(guī)則引擎中取得數(shù)據(jù)處理規(guī)則對采集到的數(shù)據(jù)內(nèi)容進行校驗;
將校驗信息存入信息反饋庫中,校驗通過的數(shù)據(jù)裝載采集數(shù)據(jù)庫庫,校驗失敗的缺陷信息到信息反饋庫,不進行載入處理。
2)網(wǎng)頁在線數(shù)據(jù)填報
網(wǎng)頁數(shù)據(jù)采集是B/S架構(gòu)部署的人工在線填報方式,文本信息通過HTML表單形式進行填報,Excel或XML文件以附件的形式上傳導入數(shù)據(jù)庫,審批流程控制和工作流由WebService提供服務(wù),數(shù)據(jù)校驗規(guī)則在瀏覽器實現(xiàn),數(shù)據(jù)復雜計算規(guī)則在數(shù)據(jù)庫后臺批處理實現(xiàn)。
數(shù)據(jù)填報采集流程如下:
用戶登陸網(wǎng)頁在線填報頁面;
根據(jù)模板進行數(shù)據(jù)填報,并提交數(shù)據(jù);
服務(wù)端識別數(shù)據(jù)類型和數(shù)據(jù)格式的標記,根據(jù)類型格式標記從規(guī)則引擎中取得數(shù)據(jù)處理規(guī)則對采集到的數(shù)據(jù)內(nèi)容進行校驗;
將校驗信息存入信息反饋庫中,校驗通過的數(shù)據(jù)裝載采集數(shù)據(jù)庫庫,校驗失敗的缺陷信息到信息反饋庫,不進行載入處理。
3)客戶端數(shù)據(jù)上報
數(shù)據(jù)填報客戶端是C/S架構(gòu)部署在用戶終端的數(shù)據(jù)收集和報送的軟件工具。
客戶端數(shù)據(jù)采集過程如下:
客戶端發(fā)起連接請求;
服務(wù)端應(yīng)答,驗證客戶端的用戶權(quán)限,通過SSL與之建立連接;
客戶端發(fā)送數(shù)據(jù);
服務(wù)端接收數(shù)據(jù),并在接收完畢后反饋接收狀態(tài);
服務(wù)端識別數(shù)據(jù)類型和數(shù)據(jù)格式的標記,根據(jù)類型格式標記從規(guī)則引擎中取得數(shù)據(jù)處理規(guī)則對采集到的數(shù)據(jù)內(nèi)容進行校驗;
將校驗信息存入信息反饋庫中,校驗通過的數(shù)據(jù)裝載采集數(shù)據(jù)庫庫,校驗失敗的缺陷信息到信息反饋庫,不進行載入處理。
采用客戶端填報數(shù)據(jù)有如下優(yōu)點:
可以在線填寫數(shù)據(jù),也可以離線填寫數(shù)據(jù),本地存儲,在線同步;
可以將校驗規(guī)則預(yù)置到客戶端,減少缺陷數(shù)據(jù)的產(chǎn)生;
可以將報送失敗的數(shù)據(jù)重新上報;
可以查詢上報批次數(shù)據(jù);
通過客戶端的更新功能可以自動獲取服務(wù)端的最新業(yè)務(wù)規(guī)則以及報送狀態(tài)信息,可以進行客戶端桌面數(shù)據(jù)庫中數(shù)據(jù)的備份,查詢統(tǒng)計等操作。
4)后臺批量數(shù)據(jù)導入
批量導入方式提供后臺批量數(shù)據(jù)進行集中入庫的功能,系統(tǒng)管理人員將符合要求的數(shù)據(jù)上傳服務(wù)器系統(tǒng)指定目錄即可完成導入工作。
批量導入的數(shù)據(jù)獲取過程:
系統(tǒng)管理人員將上報數(shù)據(jù)方上報的數(shù)據(jù)組織成符合要求的數(shù)據(jù)文件,并存儲在離線介質(zhì)上。
服務(wù)器端得到存儲介質(zhì)的離線數(shù)據(jù)進行校驗及導入操作。
將導入結(jié)果狀態(tài)記錄在信息反饋庫中。
數(shù)據(jù)采集平臺,對業(yè)務(wù)應(yīng)用系統(tǒng)相互孤立,軟件產(chǎn)品系統(tǒng)不兼容,企業(yè)應(yīng)用系統(tǒng)大整合尚未完成的企業(yè),也能盡早的實施商務(wù)智能應(yīng)用,通過中間的數(shù)據(jù)采集處理,率先完成數(shù)據(jù)整合,有助于解決企業(yè)在信息系統(tǒng)建設(shè)過程中的數(shù)據(jù)不集中不完整等問題,作為商務(wù)智能底層架構(gòu)的補充數(shù)據(jù)來源,是企業(yè)實施商務(wù)智能應(yīng)用的基礎(chǔ)。
[1]W.H.Inmon Building the Data Warehouse,機械工業(yè)出版社,2003,3.
[2]余長慧,潘和平.商務(wù)智能及其核心技術(shù).計算機應(yīng)用研究,2006(9).
[3]趙青,余志毅,趙洪明.商務(wù)智能在企業(yè)管理應(yīng)用中的障礙及策略.科技創(chuàng)業(yè)月刊,2008(7).
[4]夏國恩,金煒東,張葛祥.商務(wù)智能在中國的現(xiàn)狀和發(fā)展.科技進步與對策,2012(2).