李晶晶,陳 侃,徐 丹
(中國交通通信信息中心,北京 100011)
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘在行業(yè)化數(shù)據(jù)中心的應(yīng)用分析
李晶晶,陳 侃,徐 丹
(中國交通通信信息中心,北京 100011)
隨著云計(jì)算的發(fā)展,私有云和公有云相結(jié)合的技術(shù)可以支撐行業(yè)化數(shù)據(jù)中心的建設(shè),在此基礎(chǔ)之上建設(shè)數(shù)據(jù)倉庫實(shí)現(xiàn)數(shù)據(jù)挖掘,對(duì)支撐和推動(dòng)行業(yè)信息化發(fā)展中具有重要作用?;谛袠I(yè)化數(shù)據(jù)中心的建設(shè),利用統(tǒng)一的方式進(jìn)行數(shù)據(jù)存儲(chǔ)管理,規(guī)范數(shù)據(jù)接口,并在此基礎(chǔ)上對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行深度的挖掘,利用數(shù)據(jù)挖掘技術(shù)提取隱藏的預(yù)測性信息,挖掘數(shù)據(jù)間的內(nèi)在聯(lián)系,找出最有價(jià)值的信息和知識(shí)。本文分析了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù),在“行業(yè)化數(shù)據(jù)中心”所能提供的應(yīng)用及價(jià)值,對(duì)支撐和推動(dòng)行業(yè)信息化發(fā)展中的重要作用,旨在為行業(yè)信息化發(fā)展邁向新臺(tái)階,提供一個(gè)可供參考的建設(shè)方案。
數(shù)據(jù)中心;云計(jì)算;數(shù)據(jù)倉庫;數(shù)據(jù)挖掘
數(shù)據(jù)倉庫概念始于20世紀(jì)80年代中期,面向信息爆炸時(shí)代數(shù)據(jù)的有效利用,數(shù)據(jù)倉庫與組織機(jī)構(gòu)的操作數(shù)據(jù)庫分別維護(hù)的決策支持?jǐn)?shù)據(jù)庫,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)平臺(tái),對(duì)信息處理提供支持的數(shù)據(jù)庫。
它具有以下特點(diǎn):
(1)面向主題。操作型數(shù)據(jù)庫中的數(shù)據(jù)是圍繞應(yīng)用組織的,各個(gè)業(yè)務(wù)系統(tǒng)可能是相互分離的;數(shù)據(jù)倉庫是面向主題的,主題是一個(gè)歸類的標(biāo)準(zhǔn),每個(gè)主題基本對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域,如交通運(yùn)輸行業(yè)中的水運(yùn)、陸運(yùn)等。
(2)集成性。不同操作型系統(tǒng)之間的數(shù)據(jù)一般是相互獨(dú)立、異構(gòu)的;數(shù)據(jù)倉庫中的數(shù)據(jù)來自于對(duì)分散數(shù)據(jù)的抽取、轉(zhuǎn)換和加載,保證數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)關(guān)于整個(gè)行業(yè)的一致性。
(3)數(shù)據(jù)的非易失性。在數(shù)據(jù)倉庫中只要保存過去的業(yè)務(wù)數(shù)據(jù),不需實(shí)時(shí)更新每一筆業(yè)務(wù),根據(jù)商業(yè)需要每隔一段時(shí)間進(jìn)行一次新數(shù)據(jù)導(dǎo)入。
(4)數(shù)據(jù)的時(shí)變性。數(shù)據(jù)倉庫包含著各種歷史數(shù)據(jù),有些數(shù)據(jù)可能與某個(gè)特定日期、星期、月份、季度或者年份有關(guān),具有時(shí)間戳特性。
行業(yè)化數(shù)據(jù)中心的數(shù)據(jù)倉庫建設(shè)過程是一個(gè)不斷迭代的過程,從關(guān)鍵行業(yè)應(yīng)用、全局應(yīng)用出發(fā),逐步地?cái)U(kuò)展模型,擴(kuò)展分析主題。在不同的時(shí)間階段,用戶的需求是多變的,隨著數(shù)據(jù)中心的應(yīng)用不斷增加,需要滾動(dòng)式建設(shè)數(shù)據(jù)倉庫。
數(shù)據(jù)倉庫建設(shè)需要經(jīng)歷需求調(diào)研的過程。首先是業(yè)務(wù)調(diào)研,對(duì)數(shù)據(jù)中心各應(yīng)用系統(tǒng)和關(guān)鍵用戶需求的采訪,記錄客戶的需求。對(duì)搜集的需求要進(jìn)行歸納整理,確定不同的優(yōu)先級(jí),劃定第一個(gè)迭代實(shí)施的范圍。收集供驗(yàn)證模型正確的驗(yàn)證數(shù)據(jù)、報(bào)表、報(bào)告等。其次是技術(shù)調(diào)研,對(duì)分析后的需求和用戶部門(掌握數(shù)據(jù)源信息)確認(rèn)數(shù)據(jù)的支持范圍。
數(shù)據(jù)存儲(chǔ)設(shè)計(jì)要根據(jù)需求圈定的數(shù)據(jù)范圍,設(shè)計(jì)數(shù)據(jù)倉庫中表的結(jié)構(gòu)。設(shè)計(jì)中要考慮數(shù)據(jù)倉庫的特點(diǎn),考慮數(shù)據(jù)量,考慮數(shù)據(jù)問題、緩變維度的處理,采用聚合規(guī)則。同時(shí)根據(jù)上面技術(shù)調(diào)研的結(jié)果在數(shù)據(jù)倉庫設(shè)計(jì)過程中,進(jìn)行數(shù)據(jù)的準(zhǔn)備(ETL)的初步設(shè)計(jì)、數(shù)據(jù)更新規(guī)則、字段映射、維表處理等。ETL過程將涉及到的源系統(tǒng)中的數(shù)據(jù)對(duì)數(shù)據(jù)倉庫進(jìn)行抽取、轉(zhuǎn)換與裝載。
按照以上數(shù)據(jù)倉庫建設(shè)方法,本人所在的交通運(yùn)輸行業(yè)數(shù)據(jù)中心的數(shù)據(jù)倉庫,優(yōu)先從行業(yè)行政主管部門的角度進(jìn)行主題設(shè)計(jì)。以交通運(yùn)輸行業(yè)為例,需要建設(shè)三層次的基礎(chǔ)數(shù)據(jù)庫:行業(yè)基礎(chǔ)數(shù)據(jù)庫、空間數(shù)據(jù)庫、元數(shù)據(jù)庫。如圖1所示。
圖1 行業(yè)基礎(chǔ)數(shù)據(jù)庫
行業(yè)基礎(chǔ)數(shù)據(jù)庫包括:從業(yè)人員基礎(chǔ)數(shù)據(jù)庫,經(jīng)營業(yè)戶基礎(chǔ)數(shù)據(jù)庫,車輛船舶基礎(chǔ)數(shù)據(jù)庫,基礎(chǔ)設(shè)施數(shù)據(jù)庫等。
行業(yè)主題數(shù)據(jù)庫以行業(yè)行政許可、執(zhí)法管理、信用評(píng)價(jià)、應(yīng)急指揮等方面業(yè)務(wù)和應(yīng)用系統(tǒng)間的數(shù)據(jù)共享需求為導(dǎo)向進(jìn)行建設(shè)。
空間數(shù)據(jù)庫,包括空間基礎(chǔ)地理數(shù)據(jù)和交通專題空間數(shù)據(jù),是數(shù)據(jù)中心的重要組成部分,可以實(shí)現(xiàn)交通行業(yè)對(duì)空間數(shù)據(jù)資源的充分有效管理和綜合利用。它將空間數(shù)據(jù)和屬性數(shù)據(jù)有機(jī)地集成起來,實(shí)現(xiàn)有效的存儲(chǔ)和管理,并在此基礎(chǔ)上實(shí)現(xiàn)便利的空間索引、查詢和各種分析操作。
元數(shù)據(jù),包括空間基礎(chǔ)地理數(shù)據(jù)和交通專題空間數(shù)據(jù),是用于描述數(shù)據(jù)的數(shù)據(jù),描述數(shù)據(jù)集的內(nèi)容、質(zhì)量、表示方式、空間參考、管理方式及數(shù)據(jù)集的其他特征。元數(shù)據(jù)庫統(tǒng)一保存了數(shù)據(jù)中心全生命周期的業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)與管理元數(shù)據(jù),是數(shù)據(jù)管理中的元數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)支撐。
數(shù)據(jù)交換平臺(tái)是數(shù)據(jù)中心中將各應(yīng)用數(shù)據(jù)庫、各機(jī)構(gòu)數(shù)據(jù)庫、各主題數(shù)據(jù)庫進(jìn)行整合交換共享的基礎(chǔ)平臺(tái)。行業(yè)數(shù)據(jù)中心的數(shù)據(jù)交換平臺(tái)主要是各業(yè)務(wù)數(shù)據(jù)庫的基礎(chǔ)上形成行業(yè)各機(jī)構(gòu)共享數(shù)據(jù)庫(交換區(qū)),進(jìn)而形成一個(gè)機(jī)構(gòu)基準(zhǔn)庫(存儲(chǔ)區(qū)),最終形成行業(yè)基礎(chǔ)數(shù)據(jù)庫或主題應(yīng)用庫。其功能架構(gòu)如圖2所示。
圖2 數(shù)據(jù)交換平臺(tái)功能架構(gòu)
數(shù)據(jù)交換平臺(tái)基于ETL技術(shù)實(shí)現(xiàn)機(jī)構(gòu)、應(yīng)用系統(tǒng)之間的應(yīng)用層交換和數(shù)據(jù)層交換;目錄層除了實(shí)現(xiàn)目錄服務(wù)的編目、注冊(cè)、發(fā)布、訂閱、查詢、維護(hù)等功能外,交換服務(wù)目錄還提供和數(shù)據(jù)交換平臺(tái)的接口,實(shí)現(xiàn)目錄平臺(tái)和交換平臺(tái)的功能關(guān)聯(lián)。交換平臺(tái)包括交換管理監(jiān)控模塊、應(yīng)用層交換模塊和數(shù)據(jù)層交換模塊。其中,交換管理監(jiān)控模塊對(duì)數(shù)據(jù)交換進(jìn)行有效管理和監(jiān)控,包括流程配置、流程調(diào)度、交換監(jiān)控;應(yīng)用層交換模塊包括路由轉(zhuǎn)發(fā)組件;數(shù)據(jù)層交換模塊包括數(shù)據(jù)抽取組件、文件發(fā)送組件、文件接收組件、數(shù)據(jù)庫執(zhí)行組件和數(shù)據(jù)裝載組件等。
3.1 交換管理監(jiān)控模塊
數(shù)據(jù)交換平臺(tái)應(yīng)通過圖形化界面等方式為交換任務(wù)配置具體的交換流程,供交換管理監(jiān)控服務(wù)器調(diào)度。包括流程配置、流程調(diào)度、流程監(jiān)控,其中,流程調(diào)度要能夠?qū)崿F(xiàn)流程啟動(dòng)、流程執(zhí)行、流程結(jié)束等功能。
3.2 應(yīng)用層交換模塊
先由相應(yīng)用戶提出查詢請(qǐng)求,請(qǐng)求方前置機(jī)把請(qǐng)求發(fā)送給交換平臺(tái)的應(yīng)用層交換模塊;如果有權(quán)限訪問,應(yīng)用層交換模塊將請(qǐng)求信息路由轉(zhuǎn)發(fā)給服務(wù)提供方;服務(wù)提供方的前置機(jī)接收到請(qǐng)求,并通過業(yè)務(wù)系統(tǒng)取得響應(yīng)數(shù)據(jù),發(fā)回給交換平臺(tái)的應(yīng)用層交換模塊;應(yīng)用層交換模塊接收到響應(yīng),發(fā)回給請(qǐng)求方。
3.3 數(shù)據(jù)層交換模塊
數(shù)據(jù)層交換模塊的功能是實(shí)現(xiàn)數(shù)據(jù)交換,主要由數(shù)據(jù)抽取、文件發(fā)送、文件接收、數(shù)據(jù)裝載與數(shù)據(jù)庫執(zhí)行等功能組件構(gòu)成。
(1)數(shù)據(jù)抽取。數(shù)據(jù)抽取主要是針對(duì)各個(gè)部門不同的數(shù)據(jù)資源執(zhí)行抽取操作。數(shù)據(jù)抽取類型分為結(jié)構(gòu)化文件、非結(jié)構(gòu)化文件和數(shù)據(jù)庫等幾種類型,抽取方式為增量或完全。前置機(jī)在抽取數(shù)據(jù)之后向交換管理監(jiān)控服務(wù)器返回成功或失敗信息和抽取結(jié)果。
(2)文件發(fā)送。文件發(fā)送指前置機(jī)在接收到發(fā)送文件列表等信息之后,往URL地址發(fā)送文件內(nèi)容,最后向交換管理監(jiān)控服務(wù)器返回成功或失敗信息結(jié)果。
(3)文件接收組件。文件接收指前置機(jī)在接收到接收文件列表等信息之后,往URL地址接收文件內(nèi)容,最后向交換管理監(jiān)控服務(wù)器返回成功或失敗信息結(jié)果。
(4)數(shù)據(jù)庫執(zhí)行組件。數(shù)據(jù)庫執(zhí)行組件分為SQL執(zhí)行和存儲(chǔ)過程執(zhí)行組件。SQL語句的功能為清空表、備份等,執(zhí)行存儲(chǔ)過程功能主要用于數(shù)據(jù)清洗比對(duì)等,最后向交換管理監(jiān)控服務(wù)器返回成功或失敗信息結(jié)果。
(5)數(shù)據(jù)裝載組件。數(shù)據(jù)裝載主要針對(duì)各種不同的數(shù)據(jù)資源執(zhí)行裝載操作。數(shù)據(jù)裝載類型分為結(jié)構(gòu)化文件、非結(jié)構(gòu)化文件和數(shù)據(jù)庫等幾種類型,數(shù)據(jù)裝載組件將待裝載的數(shù)據(jù)文件進(jìn)行安全處理和解析后,按指定映射關(guān)系進(jìn)入數(shù)據(jù)庫、結(jié)構(gòu)化文件或非結(jié)構(gòu)化文件,并根據(jù)裝載結(jié)果向管理監(jiān)控服務(wù)器,返回成功或失敗信息結(jié)果。
數(shù)據(jù)挖掘(Data Mining)顧名思義就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘技術(shù)主要包括關(guān)聯(lián)規(guī)則、聚類、分類、回歸、決策樹等幾種算法。
行業(yè)數(shù)據(jù)中心的建設(shè)可以應(yīng)用各種算法和功能實(shí)現(xiàn)具有行政、公益和商業(yè)價(jià)值的結(jié)果,提供給各級(jí)的行業(yè)從業(yè)人員進(jìn)行決策支持。
4.1 基本統(tǒng)計(jì)功能
(1)均值分析。均值分析過程計(jì)算指定變量的綜合描述統(tǒng)計(jì)量,包括反映總體特征的分析和離散態(tài)勢兩部分。利用均值分析功能,行業(yè)數(shù)據(jù)中心可以研究行業(yè)內(nèi)各從業(yè)人員和產(chǎn)品的收入情況、平均水平及差異情況等。
(2)多種統(tǒng)計(jì)分布函數(shù)。包括如正態(tài)分布、F分別、卡方分布等基本統(tǒng)計(jì)分布函數(shù),利用分布函數(shù)可以計(jì)算行業(yè)中可能產(chǎn)生變化的相應(yīng)概率值,實(shí)現(xiàn)對(duì)統(tǒng)計(jì)指標(biāo)的評(píng)估判斷。
4.2 數(shù)據(jù)挖掘功能
(1)回歸分析?;貧w分析是統(tǒng)計(jì)分析中應(yīng)用最多、最廣泛的一個(gè)分支,在金融、工業(yè)技術(shù)、氣象、交通運(yùn)輸?shù)刃袠I(yè),都需要利用回歸分析從數(shù)據(jù)中建立模型,獲得參數(shù)。數(shù)據(jù)挖掘產(chǎn)品提供變量的全部選入和逐步回歸兩種處理方式,詳盡地計(jì)算主要統(tǒng)計(jì)量并進(jìn)行方差分析。
(2)聚類分析。許多應(yīng)用領(lǐng)域要求考察數(shù)據(jù)的聚集態(tài)勢,從而將數(shù)據(jù)劃分為合理的類別,如行業(yè)輿情分析的研究。在分類判據(jù)未知的情況下,聚類分析是主要的研究方法。數(shù)據(jù)挖掘產(chǎn)品提供屬性重要度指標(biāo)用于衡量屬性在聚類過程中的重要性,不同的聚類數(shù)量對(duì)數(shù)據(jù)挖掘業(yè)務(wù)實(shí)施的指導(dǎo)程度不同。
(3)決策樹。決策樹本身使用明確的知識(shí)表示方式,從宏觀到細(xì)節(jié)逐層描述蘊(yùn)涵在數(shù)據(jù)之中的因果規(guī)則。當(dāng)數(shù)據(jù)庫龐大時(shí),僅僅依賴分析人員的直覺和經(jīng)驗(yàn)幾乎無法發(fā)現(xiàn)這些蘊(yùn)涵其中復(fù)雜而富有層次的因果關(guān)系。決策樹模塊提供主流的學(xué)習(xí)算法,能自動(dòng)生成決策樹,并顯示為圖形,為數(shù)據(jù)分析人員提供幫助。在某些重大事件中,如“馬航”事件,通過決策樹模型進(jìn)行數(shù)據(jù)分析,可以為領(lǐng)導(dǎo)提供決策支持。
(4)關(guān)聯(lián)分析。關(guān)聯(lián)規(guī)則常用于從大量的業(yè)務(wù)記錄和其他信息中提取出具有因果依賴關(guān)系的規(guī)則,利用這些規(guī)則,決策者能夠通過數(shù)據(jù)挖掘的關(guān)聯(lián)分析,分析行業(yè)內(nèi)的產(chǎn)品和服務(wù)之間的消費(fèi)關(guān)系。在交通運(yùn)輸行業(yè)來看,包括不同地域?qū)煌üぞ摺⑼ㄐ欧?wù)、物流服務(wù)的依賴程度都不同,各產(chǎn)品之間的上下游關(guān)系可以通過關(guān)聯(lián)分析輔助得出,有利于產(chǎn)品設(shè)計(jì)和產(chǎn)業(yè)合理規(guī)劃布局的決策。
通過數(shù)據(jù)倉庫的建設(shè)可以規(guī)范行業(yè)數(shù)據(jù)的管理,建立各主題數(shù)據(jù)資源目錄,以及實(shí)現(xiàn)主題間數(shù)據(jù)資源的共享與交換,為數(shù)據(jù)挖掘與分析打下基礎(chǔ)。同時(shí)采用云計(jì)算和數(shù)據(jù)倉庫技術(shù)構(gòu)建行業(yè)數(shù)據(jù)中心具有科學(xué)性和創(chuàng)新性,因此,筆者建議各行業(yè)關(guān)注基于“行業(yè)云”行業(yè)化數(shù)據(jù)中心的建設(shè),以滿足各行業(yè)自身對(duì)信息化和數(shù)據(jù)資源的整合與共享服務(wù)的需求。
[1] 袁玉宇.云計(jì)算時(shí)代的數(shù)據(jù)中心.北京:電子工業(yè)出版社,2012.P3-4
[2] 王克照.智慧政府之路(大數(shù)據(jù)云計(jì)算物聯(lián)網(wǎng)架構(gòu)應(yīng)用).清華大學(xué),2014.P137-151
[3] 陳文偉,黃金才.?dāng)?shù)據(jù)倉庫與數(shù)據(jù)挖掘,2004.P101-151
[4] (美)黃鎧,(美)福克斯,(美)唐加拉.云計(jì)算與分布式系統(tǒng):從并行處理到物聯(lián)網(wǎng).北京:機(jī)械工業(yè)出版社,2013
[5] (美)埃爾.云計(jì)算:概念、技術(shù)與架構(gòu).北京:機(jī)械工業(yè)出版社,2014
10.3969/J.ISSN.1672-7274.2015.05.017
TP392
B
1672-7274(2015)05-0064-04