崔有文, 周金海
(南京中醫(yī)藥大學(xué) 信息技術(shù)學(xué)院,江蘇 南京 210023)
基于Pentaho的中藥飲片企業(yè)商業(yè)智能研究
崔有文, 周金海
(南京中醫(yī)藥大學(xué) 信息技術(shù)學(xué)院,江蘇 南京 210023)
將中藥飲片企業(yè)ERP、質(zhì)量標(biāo)準(zhǔn)生產(chǎn)執(zhí)行系統(tǒng)(QSMES)等業(yè)務(wù)系統(tǒng)與商業(yè)智能平臺集成,構(gòu)建基于Pentaho的商業(yè)智能解決方案,實(shí)現(xiàn)對企業(yè)內(nèi)外部的海量數(shù)據(jù)進(jìn)行深度地剖析,為中藥飲片企業(yè)提供決策支持.本文基于Pentaho的商業(yè)智能解決方案構(gòu)建了面向中藥飲片企業(yè)的數(shù)據(jù)倉庫,實(shí)現(xiàn)了數(shù)據(jù)的多維查詢.Pentaho商業(yè)智能的關(guān)鍵技術(shù)推廣應(yīng)用于中藥飲片企業(yè),將能有效地提升企業(yè)決策水平.
中藥飲片企業(yè);商業(yè)智能;Pentaho;數(shù)據(jù)倉庫;聯(lián)機(jī)分析處理
在企業(yè)信息化的進(jìn)程中,中藥飲片企業(yè)相繼建立了獨(dú)立的業(yè)務(wù)系統(tǒng),如ERP、中藥飲片質(zhì)量標(biāo)準(zhǔn)生產(chǎn)執(zhí)行系統(tǒng)(QSMES)等,積累了大量的業(yè)務(wù)數(shù)據(jù)和信息資源,然而各業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)常常會出現(xiàn)彼此獨(dú)立甚至矛盾等情況,如何充分有效地利用企業(yè)的這些信息資源來實(shí)現(xiàn)戰(zhàn)略目標(biāo),已成為中藥飲片企業(yè)面臨的嶄新課題.因此引入商業(yè)智能的關(guān)鍵技術(shù)幫助中藥飲片企業(yè)制定適合于企業(yè)自身的解決方案,成為了提升了中藥飲片企業(yè)信息化應(yīng)用水平的必然之選.
商業(yè)智能(Business Intelligence, BI)是一套完整的解決方案,它將數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘等技術(shù)結(jié)合起來,通過企業(yè)信息門戶將知識以適當(dāng)?shù)姆绞竭M(jìn)行展示,以實(shí)現(xiàn)技術(shù)服務(wù)于決策的目的[1].傳統(tǒng)的BI項(xiàng)目投入費(fèi)用高,實(shí)施周期長,短期內(nèi)管理者很難看到這類項(xiàng)目的業(yè)務(wù)價(jià)值,且不少傳統(tǒng)BI項(xiàng)目的應(yīng)用價(jià)值僅僅停留在固定報(bào)表生成層面.而開源的Pentaho BI實(shí)施費(fèi)用低,維護(hù)成本低,管理者能夠迅速啟動BI項(xiàng)目的實(shí)施工作,實(shí)施周期可以靈活控制,且Pentaho易于融入到傳統(tǒng)的OLTP應(yīng)用中.基于Pentaho的商業(yè)智能能夠充分利用中藥飲片企業(yè)各類的業(yè)務(wù)系統(tǒng),從業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源中抽取需要的數(shù)據(jù),通過對這些基礎(chǔ)數(shù)據(jù)的轉(zhuǎn)換處理,實(shí)現(xiàn)商業(yè)信息的搜集、管理和分析,為企業(yè)決策者提供全面、準(zhǔn)確和直觀的決策支持.
Pentaho平臺是第一個(gè)以業(yè)務(wù)流程為中心,面向解決方案的BI平臺,整合了BI系統(tǒng)的開發(fā),部署和運(yùn)行環(huán)境.它強(qiáng)化了BI應(yīng)用,借助工作流技術(shù),將決策作為業(yè)務(wù)的一個(gè)環(huán)節(jié),實(shí)現(xiàn)與企業(yè)業(yè)務(wù)過程整合的概念[2].
Pentaho的功能強(qiáng)大,對BI的功能全面支持,包括數(shù)據(jù)倉庫,ETL,OLAP,數(shù)據(jù)挖掘等技術(shù);提供流程設(shè)計(jì),報(bào)表生成,測試和部署的集成開發(fā)環(huán)境;易與其他開源軟件整合,源碼公開,有利于功能定制開發(fā)[3].
Pentaho平臺主要由以下幾個(gè)部分組成,各部分來自各個(gè)開源項(xiàng)目,Pentaho平臺對這些開源項(xiàng)目進(jìn)行改進(jìn)、擴(kuò)充和集成:
1)ETL:Kettle[4]是和Pentaho整合的開源ETL工具, Kettle通過制定作業(yè)(job)以及轉(zhuǎn)換(transformation)實(shí)現(xiàn)對數(shù)據(jù)的抽取、轉(zhuǎn)換以及加載,Kettle的ETL引擎是異構(gòu)數(shù)據(jù)源整合以及執(zhí)行job和transformation的核心,且可以運(yùn)行在不同的服務(wù)器以及集群服務(wù)器上.
2)報(bào)表設(shè)計(jì):Pentaho平臺支持多種開源報(bào)表設(shè)計(jì),包括即席查詢(Ad Hoc Query)報(bào)表設(shè)計(jì)、JFreeReport設(shè)計(jì)以及BIRT報(bào)表設(shè)計(jì).
3)OLAP:Mondrian是Pentaho平臺進(jìn)行聯(lián)機(jī)分析處理的引擎,可將多維模型的MDX(multi-dimensional expressions)查詢解析成SQL查詢.分析人員可以不寫代碼直接對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行可視化交互分析.
4)數(shù)據(jù)挖掘:Weka是Pentaho的數(shù)據(jù)挖掘平臺,集合大量能夠承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化.
2.1 中藥飲片企業(yè)BI平臺體系結(jié)構(gòu)
在中藥飲片企業(yè)ERP系統(tǒng)、質(zhì)量標(biāo)準(zhǔn)生產(chǎn)執(zhí)行系統(tǒng)等基礎(chǔ)上構(gòu)建Pentaho BI平臺來實(shí)現(xiàn)系統(tǒng)集成,使企業(yè)各業(yè)務(wù)系統(tǒng)有一個(gè)合理、嚴(yán)格的流程控制,有效地完成日常的業(yè)務(wù)作業(yè),產(chǎn)生大量準(zhǔn)確的基礎(chǔ)數(shù)據(jù),同時(shí)可以將這些操作型數(shù)據(jù)轉(zhuǎn)換成分析型數(shù)據(jù),并通過對分析型數(shù)據(jù)進(jìn)一步的分析、提煉,篩選出決策信息,輔助中藥飲片企業(yè)決策者做出正確的決策,促進(jìn)中藥飲片企業(yè)對信息的深度利用.
基于Pentaho的中藥飲片企業(yè)BI平臺體系結(jié)構(gòu)主要由企業(yè)的各業(yè)務(wù)系統(tǒng)、業(yè)務(wù)數(shù)據(jù)庫、數(shù)據(jù)轉(zhuǎn)換工具、數(shù)據(jù)倉庫、OLAP分析工具、數(shù)據(jù)挖掘工具、報(bào)表分析工具以及分析結(jié)果的可視化展示組成如圖1所示.
如圖1所示,用戶根據(jù)業(yè)務(wù)需求構(gòu)建多維數(shù)據(jù)模型,設(shè)計(jì)數(shù)據(jù)倉庫結(jié)構(gòu)框架.通過ETL工具將各業(yè)務(wù)系統(tǒng)中的海量數(shù)據(jù)轉(zhuǎn)換為分析型數(shù)據(jù),加載至數(shù)據(jù)倉庫中.利用OLAP和數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行分析處理.分析和處理的結(jié)果可以直接提供給用戶,也可以形成決策知識庫,并通過報(bào)表等可視化方式直觀地展現(xiàn)給用戶.
圖1 中藥飲片企業(yè)BI平臺體系結(jié)構(gòu)圖Fig. 1 Structure diagram of Chinese medicine enterprise BI platform
2.2 數(shù)據(jù)倉庫設(shè)計(jì)
數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時(shí)間不斷變化的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程[5],數(shù)據(jù)倉庫模型設(shè)計(jì)結(jié)構(gòu)的實(shí)現(xiàn)有星型模型、雪花模型和混合模型,本文研究采用的數(shù)據(jù)倉庫模型為星型模型,該模型主要事由事實(shí)表以及與其相關(guān)的維度表構(gòu)成,可以優(yōu)化數(shù)據(jù)倉庫的查詢時(shí)間,提高查詢性能.
1)主題域的確定
主題是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行綜合歸類的標(biāo)準(zhǔn),數(shù)據(jù)倉庫中的數(shù)據(jù)是按照主題進(jìn)行組織的.從中藥飲片企業(yè)的實(shí)際業(yè)務(wù)運(yùn)作情況看,可以將主題域確定為:中藥飲片生產(chǎn)、中藥飲片銷售、原料采購、原料和飲片成品庫存等主題.各主題主要信息描述如表1所示.
表1 主題信息描述表Tab.1 Description table of theme information
2)數(shù)據(jù)倉庫各主題域維度及事實(shí)的確定
數(shù)據(jù)倉庫中每個(gè)主題域?qū)?yīng)的實(shí)體分成事實(shí)實(shí)體和維度實(shí)體,事實(shí)實(shí)體通過每一維的關(guān)鍵字與維度實(shí)體聯(lián)系在一起.本文根據(jù)主題域的設(shè)計(jì),構(gòu)建了中藥飲片生產(chǎn)事實(shí)表、中藥飲片銷售事實(shí)表、原料采購事實(shí)表和庫存事實(shí)表,依據(jù)主題域的屬性構(gòu)建了與事實(shí)表關(guān)聯(lián)的維度表.數(shù)據(jù)倉庫各事實(shí)表和維度表的詳細(xì)信息如表2所示.
3)Kettle的ETL處理
設(shè)計(jì)好數(shù)據(jù)倉庫之后,需要將中藥飲片企業(yè)各業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)按照設(shè)計(jì)好的主題域加載至數(shù)據(jù)倉庫中形成分析型數(shù)據(jù).這一過程基于Kettle的ETL處理.首先,制定對各主題域數(shù)據(jù)操作的Job(作業(yè)).Job[6]是基于工作流模型的,協(xié)調(diào)數(shù)據(jù)源、執(zhí)行過程和相關(guān)依賴性的ETL活動,圖2為數(shù)據(jù)倉庫構(gòu)建的Job(作業(yè))流程圖.
表2 事實(shí)與維度信息描述表Tab.2 Description table of fact and dimension information
圖2 數(shù)據(jù)倉庫構(gòu)建Job流程圖Fig. 2 Flow diagram of data warehouse job
制定完作業(yè)流程,還需要進(jìn)一步對每個(gè)主題域進(jìn)行Transformation(轉(zhuǎn)換)操作,Transformation[6]是由一系列step(步驟)組成的邏輯工作網(wǎng)絡(luò),它負(fù)責(zé)對分散在不同數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、加載處理.圖3為銷售主題域數(shù)據(jù)的轉(zhuǎn)換圖.
圖3 銷售數(shù)據(jù)Transformation流程圖Fig. 3 Flow diagram of sale data transformation
通過以上的作業(yè)(Job)和轉(zhuǎn)換(Transformation)操作,可以快速、準(zhǔn)確地將中藥飲片企業(yè)各業(yè)務(wù)系統(tǒng)的操作型數(shù)據(jù)轉(zhuǎn)換為分析型數(shù)據(jù)并存儲至數(shù)據(jù)倉庫中.
2.3 OLAP分析
OLAP是面向主題的多維數(shù)據(jù)分析技術(shù),幫助管理者從多個(gè)角度觀察數(shù)據(jù),從不同的主題分析數(shù)據(jù),最終直觀地得到有效的信息.在一個(gè)OLAP數(shù)據(jù)模型中,信息被抽象視為一個(gè)立方體(Cube),它包括維(Dimension)和度量(Measure).這個(gè)多維的數(shù)據(jù)模型使終端用戶提交的復(fù)雜查詢、報(bào)表數(shù)據(jù)的分類排列、概要數(shù)據(jù)向詳細(xì)數(shù)據(jù)的轉(zhuǎn)化和過濾、數(shù)據(jù)的切片等工作變得簡單[7].
1)數(shù)據(jù)立方體的建立
數(shù)據(jù)立方體或數(shù)據(jù)超立方體是聯(lián)機(jī)分析處理數(shù)據(jù)組織的基本單元.一個(gè)數(shù)據(jù)立方體主要是由主題域所確定的事實(shí)和維度所組成,其包含若干個(gè)單元格.以中藥飲片企業(yè)銷售主題域?yàn)槔?銷售數(shù)據(jù)立方體包含中藥飲片成品、銷售客戶、日期3個(gè)維度以及銷售事實(shí).如圖4所示.
圖4 中藥飲片成品銷售數(shù)據(jù)立方體Fig. 4 Cube of Chinese Medicine sale data
Pentaho的Mondrian提供了OLAP服務(wù),數(shù)據(jù)立方體用Mondrian XML schema描述, schema是將MDX查詢轉(zhuǎn)換為SQL查詢的關(guān)鍵.Mondrian通過對schema的解析,操縱數(shù)據(jù)集,完成OLAP分析任務(wù).銷售數(shù)據(jù)立方體模型對應(yīng)的簡化了的schema如下:
各主題域數(shù)據(jù)立方體所對應(yīng)的schema是由Pentaho schema 設(shè)計(jì)器完成,生成的schema可以直接發(fā)布至Mondrian服務(wù)器上進(jìn)行OLAP分析.
2)多維分析
Saiku是一個(gè)模塊化的進(jìn)行聯(lián)機(jī)分析處理的分析套件,基于JackRabbit的工作區(qū)管理,通過JSON或XML進(jìn)行數(shù)據(jù)通信,提供了一個(gè)基于jQuery的開發(fā)前臺,對于多維的數(shù)據(jù)立方體能夠?qū)崿F(xiàn)拖拽式分析.Saiku可以方便地集成到Pentaho平臺中.
在嵌入了Saiku的Pentaho平臺下,用戶選擇好由Pentaho schema 設(shè)計(jì)器所制定的數(shù)據(jù)立方體,即可以對基于主題域的數(shù)據(jù)立方體進(jìn)行拖拽式的多維分析處理.中藥飲片成品銷售數(shù)據(jù)的多維查詢結(jié)果如圖5所示.
圖5 中藥飲片成品銷售數(shù)據(jù)多維查詢圖Fig. 5 Diagram of Chinese medicine sale data multi-dimension query
通過對中藥飲片成品的時(shí)間、客戶和產(chǎn)品的多維分析,可以得出不同時(shí)間段、針對不同客戶所銷售各種中藥飲片成品的一般性結(jié)論.隨著中藥飲片企業(yè)各業(yè)務(wù)數(shù)據(jù)的積累,這種多維分析還將發(fā)現(xiàn)更多隱含的信息,可以幫助企業(yè)決策獲得更好的支持.
中藥飲片企業(yè)在生產(chǎn)、銷售等各項(xiàng)業(yè)務(wù)進(jìn)程中均會產(chǎn)生海量的業(yè)務(wù)數(shù)據(jù),傳統(tǒng)的業(yè)務(wù)系統(tǒng)無法對基礎(chǔ)數(shù)據(jù)進(jìn)行有效的分析,導(dǎo)致大量對企業(yè)決策有用的信息流失.基于Pentaho的商業(yè)智能解決方案可以將獨(dú)立于各自業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)有效地整合起來,通過對企業(yè)ERP系統(tǒng)、質(zhì)量標(biāo)準(zhǔn)生產(chǎn)執(zhí)行系統(tǒng)(QSMES)等業(yè)務(wù)系統(tǒng)的基礎(chǔ)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、加載處理,最終形成分析型數(shù)據(jù),從中提煉出決策信息.于此同時(shí),傳統(tǒng)的商業(yè)智能實(shí)施起來成本高,周期長,很難在短期內(nèi)實(shí)現(xiàn)其業(yè)務(wù)價(jià)值,而開源的Pentaho BI 平臺不僅大大減少了商業(yè)智能的開發(fā)成本,還能夠使決策者快速、及時(shí)、準(zhǔn)確、直觀地了解到隱藏在企業(yè)各項(xiàng)運(yùn)營業(yè)務(wù)中的決策信息,實(shí)現(xiàn)中藥飲片企業(yè)對信息的深度利用,提升決策水平.
[1] 鄭洪源,周良. 商業(yè)智能解決方案的研究與應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2005(9):92-94. ZHENG Hong-yuan, ZHOU Liang.Research and Application of Business Intelligence Scheme[J].Application Research of Computers,2005(9):92-94.
[2] Pentaho Corporation. Pentaho open source business intelligence platform technical white paper [EB/OL].http://www.pentaho. com/,2006.
[3] 陳榮鑫,付永鋼,陳維斌. 基于Pentaho的商業(yè)智能系統(tǒng)[J].計(jì)算機(jī)工程與設(shè)計(jì),2008(9):2407-2409. CHEN Rong-xin,FU Yong-gang,CHEN Wei-bin.Business intelligence system based on Pentaho[J].Computer Engineering and Design, 2008(9):2407-2409.
[4] Pentaho Corporation. Kettle conceptual model [EB/OL]. http:// www.pentaho.com/,2006.
[5] 顏石專,李戰(zhàn)懷. 基于數(shù)據(jù)倉庫和OLAP的商務(wù)決策系統(tǒng)[J].微電子學(xué)與計(jì)算機(jī),2006(2):64-67. YAN Shi-zhuan, LI Zhan-huai. Commercial Decision System Based on Data Warehouse and OLAP[J]. Microelectronics & Computer, 2006(2):64-67.
[6] Matt Casters, Roland Bouman, Jos Van Dongen. Pentaho Kettle Solutions: Building Open Source Etl Solution with Pentaho Data Integration[M].JOHN WILEY & SONS INC,2010.
[7] 喻鋼,周定康. 聯(lián)機(jī)分析處理(OLAP)技術(shù)的研究[J].計(jì)算機(jī)應(yīng)用,2001(11):80-81,84. YU Gang,ZHOU DIN-kang.Research of OLAP technology[J]. Computer Applications, 2001(11):80-81,84.
Research on Chinese medicine enterprise business intelligence based on Pentaho
CUI You-wen, ZHOU Jin-hai
(Institute of Information Technology, Nanjing University of Chinese Medicine, Nanjing 210023, China)
Integrating Chinese Medicine enterprise business system such as ERP, QSMES with the Business Intelligence platform and structuring the Business Intelligence solution based on Pentaho to analyze the enterprise big data and provide the support to the decision maker. Based on Pentaho BI solution, this paper attempts to build the data warehouse about the Chinese Medicine enterprise and execute multidimensional queries. Application of the critical technology of Pentaho BI to Chinese Medicine enterprise will improve their decision-making effectively.
chinese medicine enterprise; business intelligence; pentaho; data warehouse; OLAP
TN-9
A
1674-6236(2014)07-0012-04
2013-09-05稿件編號:201309034
江蘇省科技支撐項(xiàng)目(工業(yè)部分)(BE2011012)
崔有文(1990-),男,江蘇儀征人,碩士研究生.研究方向:醫(yī)藥信息工程.