隨著國(guó)家《文化產(chǎn)業(yè)發(fā)展綱要》的發(fā)布和出版單位改制進(jìn)程的加速,各出版單位信息化建設(shè)也開(kāi)始從局部信息化向 “編、印、發(fā)、財(cái)”同平臺(tái)、一體化的出版ERP系統(tǒng)升級(jí)換代。同時(shí),有實(shí)力的出版社還著手引進(jìn)上線OA協(xié)同辦公系統(tǒng)和數(shù)字出版加工系統(tǒng),在打造業(yè)務(wù)數(shù)字化管理平臺(tái)的同時(shí)建設(shè)行政網(wǎng)絡(luò)辦公平臺(tái)。門戶網(wǎng)站也開(kāi)始升級(jí)改造,增加電子書(shū)在線銷售和紙質(zhì)書(shū)網(wǎng)上發(fā)行功能?!耙痪W(wǎng)兩平臺(tái),多系統(tǒng)建設(shè)”成了許多出版單位信息化建設(shè)的最新目標(biāo)。
但是,各出版單位局部信息化系統(tǒng)的增加,使得各系統(tǒng)之間不能共享和流通,嚴(yán)重影響了“一網(wǎng)兩平臺(tái)”的應(yīng)用性能。原因在于建設(shè)方案忽視了信息化建設(shè)中的另一項(xiàng)重要內(nèi)容:企業(yè)應(yīng)用集成(EAI)。
EAI是通過(guò)建立《數(shù)據(jù)交換平臺(tái)》來(lái)聯(lián)系橫貫整個(gè)出版社的異構(gòu)系統(tǒng)、應(yīng)用、數(shù)據(jù)源等,完成在出版社內(nèi)部的ERP、財(cái)務(wù)管理、OA、數(shù)字出版系統(tǒng)、網(wǎng)站系統(tǒng)以及其它重要的內(nèi)部系統(tǒng)之間共享和無(wú)縫地交換數(shù)據(jù)。數(shù)據(jù)集成則是企業(yè)應(yīng)用集成的重要環(huán)節(jié),出版社實(shí)現(xiàn)數(shù)據(jù)集成,可以使更多的人更充分地使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動(dòng)和相應(yīng)費(fèi)用,提高信息平臺(tái)的管理效能。
山東出版集團(tuán)建設(shè)基于WEB平臺(tái)的出版業(yè)務(wù)綜合管理平臺(tái)時(shí),引進(jìn)了系統(tǒng)集成商。集成商采用.NTE技術(shù)結(jié)合IBM的ETL工具,推陳出新定制開(kāi)發(fā)了數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),支持整個(gè)平臺(tái)各異構(gòu)系統(tǒng)之間的數(shù)據(jù)集成。該系統(tǒng)運(yùn)行三年來(lái),穩(wěn)定性和安全性都比較高,問(wèn)題是每當(dāng)增加新的集成任務(wù),都需要集成商安排專人修改程序,重新進(jìn)行調(diào)試和部署安裝,擴(kuò)展性較差。
2007年,《平章數(shù)據(jù)交換中心系統(tǒng)2.0》首次將企業(yè)應(yīng)用集成產(chǎn)品化,沿襲了ETL是企業(yè)數(shù)據(jù)集成的主要解決方案的理念,同時(shí)開(kāi)發(fā)了用于集成任務(wù)擴(kuò)展的系統(tǒng)設(shè)置模塊、調(diào)度引擎和消息引擎。
ETL中三個(gè)字母分別代表Extract、Transform、Load,即抽取、轉(zhuǎn)換、加載。數(shù)據(jù)抽取,從源數(shù)據(jù)源系統(tǒng)抽取目的數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換,將從源數(shù)據(jù)源系統(tǒng)獲取的數(shù)據(jù)按照業(yè)務(wù)需求轉(zhuǎn)換成目的數(shù)據(jù)源系統(tǒng)要求的形式,并對(duì)錯(cuò)誤、不一致的數(shù)據(jù)進(jìn)行清洗和加工;數(shù)據(jù)加載,將轉(zhuǎn)換后的數(shù)據(jù)裝載到目的數(shù)據(jù)源。
ETL原本是作為構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)環(huán)節(jié),負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),如關(guān)系數(shù)據(jù)平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。在《平章數(shù)據(jù)交換中心系統(tǒng)2.0》中,則將ETL應(yīng)用于各分散系統(tǒng)、分散平臺(tái)之間的數(shù)據(jù)遷移、數(shù)據(jù)交換和數(shù)據(jù)同步。其工作體系圖如下:
數(shù)據(jù)抽取支持全表和增量抽取;數(shù)據(jù)清洗可以針對(duì)各個(gè)系統(tǒng)的各個(gè)環(huán)節(jié)可能出現(xiàn)的數(shù)據(jù)二義性、重復(fù)、不完整和違反業(yè)務(wù)規(guī)則等問(wèn)題先行試抽取,將有問(wèn)題的記錄先剔除出來(lái),根據(jù)實(shí)際情況再做相應(yīng)的清洗調(diào)整操作;數(shù)據(jù)轉(zhuǎn)換,支持在ETL引擎中轉(zhuǎn)換和直接使用SQL語(yǔ)句進(jìn)行轉(zhuǎn)換兩種方式,可以針對(duì)數(shù)據(jù)交換中心數(shù)據(jù)庫(kù)建立的模型,通過(guò)一系列的轉(zhuǎn)換來(lái)實(shí)現(xiàn)將數(shù)據(jù)從業(yè)務(wù)模型到分析模型,通過(guò)內(nèi)建的庫(kù)函數(shù)、自定義腳本或其他的擴(kuò)展方式,實(shí)現(xiàn)了各種復(fù)雜的轉(zhuǎn)換,并且支持調(diào)試環(huán)境,清楚地監(jiān)控?cái)?shù)據(jù)轉(zhuǎn)換的狀態(tài);數(shù)據(jù)裝載也同樣支持SQL語(yǔ)句裝載和批量工具裝載。兩者的區(qū)別在于前者裝載時(shí)進(jìn)行了日志記錄,裝載內(nèi)容可恢復(fù),后者易于使用,并且在裝入大量數(shù)據(jù)時(shí)效率較高。
為提高交換效率和解決負(fù)載均衡,系統(tǒng)設(shè)計(jì)有專門的任務(wù)調(diào)度工作引擎。用以管理數(shù)千個(gè)來(lái)自不同系統(tǒng)的數(shù)據(jù)交換任務(wù),可以順序排隊(duì),亦可優(yōu)先處理,或者按照更高級(jí)的組合策略進(jìn)行。任務(wù)完成情況則通過(guò)消息引擎及時(shí)反饋、記錄,便于用戶觀測(cè)。
系統(tǒng)最為核心的模塊是集成擴(kuò)展模塊。當(dāng)原有集成平臺(tái)有新系統(tǒng)增加或需要增加新的集成任務(wù)時(shí),技術(shù)人員只需要按照需求編寫(xiě)ETL任務(wù)包,并打上規(guī)則標(biāo)簽,通過(guò)窗口加載。而企業(yè)人員只需要按照需要定義好任務(wù)執(zhí)行策略,交調(diào)度工作引擎模塊管理即可。
系統(tǒng)采用微軟.NET技術(shù)+SQL2008開(kāi)發(fā),B/S架構(gòu),目前用于安徽省出版集團(tuán)、廣東省出版集團(tuán)、中國(guó)電力出版社有限責(zé)任公司、中國(guó)鐵道出版社、黨建讀物出版社等多家出版單位。很好地實(shí)現(xiàn)了各單位“一網(wǎng)兩平臺(tái)、多系統(tǒng)”的企業(yè)應(yīng)用集成。與傳統(tǒng)的接口程序方式完成相比,采用《平章數(shù)據(jù)交換中心》系統(tǒng)完成應(yīng)用集成,不僅可減少硬件投入,同時(shí)保障了整個(gè)企業(yè)應(yīng)用集成的安全性、可擴(kuò)展性。
(作者單位系北京平章科技發(fā)展有限責(zé)任公司)