楊 頲 韓 路 許 勤 孫元浩
1(中國(guó)銀行股份有限公司上海市分行 上海 200233) 2(星環(huán)信息科技(上海)有限公司 上海 200233)
?
大型商業(yè)銀行基于Hadoop分布式數(shù)據(jù)倉(cāng)庫(kù)建設(shè)初探
楊 頲1韓 路1許 勤1孫元浩2
1(中國(guó)銀行股份有限公司上海市分行 上海 200233)2(星環(huán)信息科技(上海)有限公司 上海 200233)
商業(yè)銀行的數(shù)據(jù)規(guī)模隨著傳統(tǒng)業(yè)務(wù)擴(kuò)展和互聯(lián)網(wǎng)發(fā)展水平的不斷提高而與日俱增,使得銀行對(duì)數(shù)據(jù)的存儲(chǔ)、管理和應(yīng)用要求越來越高。通過搭建基于Hadoop技術(shù)的大數(shù)據(jù)平臺(tái),利用分布式文件系統(tǒng)HDFS、SQL分析引擎Inceptor、Nosql數(shù)據(jù)庫(kù)工具Hyperbase、流處理工具Stream等架構(gòu),探索了大型商業(yè)銀行Hadoop分布式數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建過程,最終實(shí)現(xiàn)了由基于集中式存儲(chǔ)架構(gòu)的傳統(tǒng)關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)向分布式數(shù)據(jù)倉(cāng)庫(kù)的遷移工作。該分布式數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、ETL調(diào)度管理、歷史數(shù)據(jù)檢索、交互式分析以及流數(shù)據(jù)處理。應(yīng)用表明,相比基于集中式存儲(chǔ)架構(gòu)的傳統(tǒng)關(guān)系型數(shù)據(jù)倉(cāng)庫(kù),分布式數(shù)據(jù)倉(cāng)庫(kù)可大幅提高數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)服務(wù)的效率。
分布式數(shù)據(jù)倉(cāng)庫(kù) Hadoop 數(shù)據(jù)批處理 歷史數(shù)據(jù)查詢 交互式分析
隨著銀行在業(yè)務(wù)開展過程中內(nèi)部數(shù)據(jù)快速增長(zhǎng)以及互聯(lián)網(wǎng)浪潮下外部數(shù)據(jù)的采集成本不斷降低,傳統(tǒng)集中式數(shù)據(jù)分析平臺(tái)在數(shù)據(jù)存儲(chǔ)和分析應(yīng)用上都面臨了巨大挑戰(zhàn)[1]。如何運(yùn)用大數(shù)據(jù)理念及技術(shù),有效整合內(nèi)外部數(shù)據(jù),為銀行提供客戶分析、精準(zhǔn)營(yíng)銷、差異化定價(jià)、風(fēng)險(xiǎn)管理等服務(wù),同時(shí)做好爆炸式增長(zhǎng)數(shù)據(jù)的存儲(chǔ)、管理工作是全行業(yè)共同面臨的問題。
本文基于Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建了分布式數(shù)據(jù)倉(cāng)庫(kù)[2],設(shè)計(jì)了數(shù)據(jù)采集加工流程、規(guī)范以及調(diào)度、配置平臺(tái),完成了從集中式數(shù)據(jù)倉(cāng)庫(kù)向分布式數(shù)據(jù)倉(cāng)庫(kù)的重點(diǎn)應(yīng)用遷移和部分新場(chǎng)景的開發(fā)工作,大幅提升了數(shù)據(jù)加工和服務(wù)效率。本文從系統(tǒng)建設(shè)背景、應(yīng)用架構(gòu)設(shè)計(jì)、ETL設(shè)計(jì)、應(yīng)用成果等方面做重點(diǎn)介紹。
1.1 傳統(tǒng)存儲(chǔ)技術(shù)與大數(shù)據(jù)快速增長(zhǎng)的矛盾
由于所在銀行的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)經(jīng)歷了十多年積累,涵蓋了較全面的各類業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)總量增長(zhǎng)了近30倍,平均每年增幅接近30%。數(shù)據(jù)倉(cāng)庫(kù)采用了傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),屬于集中式存儲(chǔ)架構(gòu)體系,其成本高、擴(kuò)容困難、故障恢復(fù)耗時(shí)長(zhǎng)等缺陷日益突出,使得在對(duì)海量數(shù)據(jù)進(jìn)行綜合運(yùn)用時(shí)極為困難,無法滿足對(duì)數(shù)據(jù)運(yùn)用的完整性要求。傳統(tǒng)數(shù)據(jù)庫(kù)還不能有效管理、處理非結(jié)構(gòu)化數(shù)據(jù),不能便捷地收集和存儲(chǔ)外部數(shù)據(jù)來源,并與內(nèi)部數(shù)據(jù)有效的整合。
1.2 大數(shù)據(jù)處理緩慢與需求快速響應(yīng)的矛盾
傳統(tǒng)數(shù)據(jù)庫(kù)不再適用海量數(shù)據(jù)的存儲(chǔ),搜索和分析,效率低,業(yè)務(wù)需求實(shí)現(xiàn)周期長(zhǎng)。大數(shù)據(jù)時(shí)代快速增長(zhǎng)的數(shù)據(jù)量帶來的另外一個(gè)問題是,數(shù)據(jù)處理的時(shí)效性要求越來越高。傳統(tǒng)數(shù)據(jù)庫(kù)的集中式架構(gòu)決定了其數(shù)據(jù)處理的能力存在瓶頸,對(duì)于TB級(jí)數(shù)據(jù)的處理捉襟見肘?,F(xiàn)階段,各業(yè)務(wù)單位,特別是一些監(jiān)管部門的數(shù)據(jù)需求,不但要求分析查詢的時(shí)間范圍大、處理邏輯復(fù)雜,而且往往有比較嚴(yán)格的時(shí)間要求,傳統(tǒng)數(shù)據(jù)庫(kù)已無法滿足業(yè)務(wù)部門的時(shí)效性要求。
分布式數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)平臺(tái)有效整合現(xiàn)有傳統(tǒng)數(shù)據(jù)分析平臺(tái)和基于互聯(lián)網(wǎng)技術(shù)的大數(shù)據(jù)平臺(tái),如圖1所示,實(shí)現(xiàn)數(shù)據(jù)采集、存儲(chǔ)管理、數(shù)據(jù)管控、數(shù)據(jù)挖掘分析、實(shí)時(shí)決策分析等功能。
圖1 分布式數(shù)據(jù)倉(cāng)庫(kù)邏輯架構(gòu)
2.1 數(shù)據(jù)源層
從各渠道運(yùn)用不同方式獲取源數(shù)據(jù),并進(jìn)行分析清理,抽取有效數(shù)據(jù)進(jìn)行整合處理后供后續(xù)分析使用。數(shù)據(jù)采集支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)由總行核心系統(tǒng)、外圍系統(tǒng)以及分行特色業(yè)務(wù)系統(tǒng)每天產(chǎn)生的傳統(tǒng)業(yè)務(wù)數(shù)據(jù)組成,非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)由平臺(tái)系統(tǒng)日志、運(yùn)營(yíng)日志、互聯(lián)網(wǎng)模式下海量文字、音頻、視頻信息(包括社交網(wǎng)絡(luò)、法院、人民銀行、銀聯(lián)等公開信息)。
2.2 數(shù)據(jù)儲(chǔ)存層
通過構(gòu)建分布式文件系統(tǒng)(HDFS)以及其上的非關(guān)系型數(shù)據(jù)庫(kù),在支持海量異構(gòu)數(shù)據(jù)儲(chǔ)存的同時(shí),具備良好的容量擴(kuò)展能力[3]。針對(duì)數(shù)據(jù)異構(gòu)集成,一方面,進(jìn)一步做好銀行內(nèi)部結(jié)構(gòu)化數(shù)據(jù)的清理梳理、完善和升級(jí)各類業(yè)務(wù)數(shù)據(jù)要素。另一方面,通過Hadoop大數(shù)據(jù)技術(shù)實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的集成,采用多種組織方式,支持多種類型、多種存儲(chǔ)方式的系統(tǒng)結(jié)構(gòu),實(shí)現(xiàn)對(duì)大數(shù)據(jù)量和繁雜數(shù)據(jù)類型的有效存儲(chǔ),滿足大數(shù)據(jù)的全數(shù)據(jù)運(yùn)營(yíng)需要。
基于Hadoop技術(shù)的分布式文件系統(tǒng)(HDFS),突破了集中式數(shù)據(jù)倉(cāng)庫(kù)在容量擴(kuò)展時(shí)影響上層應(yīng)用運(yùn)行、擴(kuò)展能力局限的缺點(diǎn),在確保集群數(shù)據(jù)完整性、可靠性的同時(shí),通過直接擴(kuò)充集群節(jié)點(diǎn)的方式,在管控層自動(dòng)調(diào)度下實(shí)現(xiàn)文件自動(dòng)備份、遷移,實(shí)現(xiàn)存儲(chǔ)容量的線性擴(kuò)充。
2.3 數(shù)據(jù)計(jì)算層
Hadoop技術(shù)的核心計(jì)算架構(gòu)MapReduce利用HDFS分布式存儲(chǔ)和自身分布式計(jì)算的特點(diǎn),實(shí)現(xiàn)計(jì)算單元與文件分塊的結(jié)合,將計(jì)算任務(wù)分解并分派至不同計(jì)算單元進(jìn)行運(yùn)算,再將計(jì)算結(jié)果聚合,實(shí)現(xiàn)更快、吞吐量更大、可線性擴(kuò)展的數(shù)據(jù)計(jì)算能力,適用于大量數(shù)據(jù)的離線、批量處理[4]。
Spark技術(shù)是基于內(nèi)存的分布式計(jì)算架構(gòu),占有更少的硬盤讀取資源和網(wǎng)絡(luò)資源,適合大量數(shù)據(jù)的實(shí)時(shí)分析、決策任務(wù)[5]。
流處理技術(shù)負(fù)責(zé)實(shí)時(shí)抓取業(yè)務(wù)流中產(chǎn)生的數(shù)據(jù),計(jì)算并挖掘生命周期較短的數(shù)據(jù)的價(jià)值,為部分實(shí)時(shí)性要求較高的業(yè)務(wù)場(chǎng)景提供實(shí)時(shí)決策[6]。
2.4 數(shù)據(jù)服務(wù)層
基于儲(chǔ)存層和計(jì)算層的海量?jī)?chǔ)存能力和高速計(jì)算能力,實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的整合,并通過數(shù)據(jù)挖掘技術(shù),為客戶從不同側(cè)面構(gòu)建360度視圖,包括資產(chǎn)負(fù)債畫像、現(xiàn)金流畫像、風(fēng)險(xiǎn)偏好畫像、情緒畫像等[7]。對(duì)于特定業(yè)務(wù)場(chǎng)景,利用實(shí)時(shí)決策、機(jī)器學(xué)習(xí)、數(shù)據(jù)沙箱等技術(shù)對(duì)源數(shù)據(jù)進(jìn)行分析清理,抽取有效信息進(jìn)行整合、歸集,建立對(duì)應(yīng)數(shù)據(jù)集市,用于支持后續(xù)營(yíng)銷、管理和業(yè)務(wù)場(chǎng)景優(yōu)化。
2.5 應(yīng)用發(fā)布層
經(jīng)服務(wù)層加工后的擁有較高業(yè)務(wù)價(jià)值的信息,通過多種渠道提供給行內(nèi)各業(yè)務(wù)環(huán)節(jié),實(shí)現(xiàn)多種形式的數(shù)據(jù)展現(xiàn),支持各類管理和市場(chǎng)決策需求,包括儀表板、報(bào)表/指標(biāo)、OLAP分析等。同時(shí),為了進(jìn)一步提高信息自動(dòng)化的處理水平,在安全可控的情況下將數(shù)據(jù)直接提供給各類業(yè)務(wù)系統(tǒng),實(shí)現(xiàn)無需人工干預(yù)的自動(dòng)化的業(yè)務(wù)決策和處理。
2.6 數(shù)據(jù)管控層
安全管理上,通過建立統(tǒng)一的數(shù)據(jù)管控功能,實(shí)現(xiàn)數(shù)據(jù)ETL處理、任務(wù)調(diào)度管理、元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)生命周期管理等數(shù)據(jù)監(jiān)控、管理手段,以提升數(shù)據(jù)質(zhì)量,便于上層應(yīng)用分析統(tǒng)計(jì)。另一方面,通過建立嚴(yán)格的安全管理手段,從硬件、網(wǎng)絡(luò)、應(yīng)用等不同層次實(shí)現(xiàn)數(shù)據(jù)訪問的安全可控。
開發(fā)了大數(shù)據(jù)集成管理平臺(tái),如圖2所示,提供了包括集成開發(fā)環(huán)境、代碼管理、作業(yè)調(diào)度、數(shù)據(jù)ETL等一整套解決方案,降低了大數(shù)據(jù)開發(fā)的技術(shù)要求,傳統(tǒng)數(shù)據(jù)庫(kù)開發(fā)人員可以快速轉(zhuǎn)型到大數(shù)據(jù)平臺(tái)進(jìn)行開發(fā)。
圖2 ETL工具架構(gòu)
在數(shù)據(jù)ETL平臺(tái)上實(shí)現(xiàn)了對(duì)文本文件的校驗(yàn)、轉(zhuǎn)換以及貼源層、模型層、展現(xiàn)層等多層次數(shù)據(jù)加工、處理工作,并制定了統(tǒng)一的開發(fā)規(guī)范和數(shù)據(jù)規(guī)范,保證數(shù)據(jù)質(zhì)量。作業(yè)調(diào)度監(jiān)控功能對(duì)管理平臺(tái)內(nèi)發(fā)布的任務(wù)進(jìn)行靈活調(diào)度配置和監(jiān)控,支持任務(wù)之間的順序、依賴、互斥等邏輯關(guān)系。調(diào)度管理精度細(xì)化至表級(jí)別,實(shí)現(xiàn)了每張表的加工狀態(tài)、執(zhí)行時(shí)間監(jiān)控,并對(duì)異常狀態(tài)進(jìn)行報(bào)警,保證了每日數(shù)據(jù)的時(shí)效性。此外,管理平臺(tái)提供了統(tǒng)一的集成開發(fā)環(huán)境,使用統(tǒng)一的開發(fā)界面,實(shí)現(xiàn)了大數(shù)據(jù)開發(fā)的代碼管理、版本管理和項(xiàng)目發(fā)布管理,支持開發(fā)、投產(chǎn)、運(yùn)維工作的分離,滿足信息安全工作的要求。
在數(shù)據(jù)從傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)向分布式數(shù)據(jù)倉(cāng)庫(kù)遷移的過程中,如何選擇數(shù)據(jù)在大數(shù)據(jù)平臺(tái)中采用的儲(chǔ)存格式和結(jié)構(gòu)是影響后續(xù)數(shù)據(jù)計(jì)算性能的關(guān)鍵。因此,需要根據(jù)數(shù)據(jù)的分布特點(diǎn)以及使用場(chǎng)景(邏輯架構(gòu)如圖3所示),結(jié)合星環(huán)TDH平臺(tái)各組件的性能特點(diǎn)和優(yōu)勢(shì),設(shè)計(jì)最合適的儲(chǔ)存格式和表結(jié)構(gòu)。
圖3 大數(shù)據(jù)平臺(tái)表結(jié)構(gòu)設(shè)計(jì)
4.1 統(tǒng)計(jì)分析/批處理
數(shù)據(jù)批處理是數(shù)據(jù)倉(cāng)庫(kù)中最主要的應(yīng)用場(chǎng)景之一,每日都有大量的業(yè)務(wù)數(shù)據(jù)文件以全量或增量形式導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)平臺(tái)需要對(duì)這些文件進(jìn)行批量導(dǎo)入、清洗、加工、展現(xiàn),并根據(jù)不同業(yè)務(wù)需要進(jìn)行定制化開發(fā)和統(tǒng)計(jì)分析。
(1) 貼源層
數(shù)據(jù)倉(cāng)庫(kù)的貼源層以文本表形式儲(chǔ)存,文本表具有無壓縮、行式儲(chǔ)存的特性,實(shí)現(xiàn)了對(duì)原始文本文件到數(shù)據(jù)倉(cāng)庫(kù)的過渡,同時(shí)支持從Sqoop、Flume、Oracle、DB2等不同數(shù)據(jù)來源獲取原始數(shù)據(jù)。
(2) 模型層
在完成原始數(shù)據(jù)的文本文件導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)后,需要對(duì)貼源層數(shù)據(jù)進(jìn)行批量加工和整合。在此過程中包含大量的Join、Group by操作,同時(shí)數(shù)據(jù)級(jí)別經(jīng)常在100 GB以上。ORC表是一種優(yōu)化的列式存儲(chǔ)格式[8],壓縮比高,并支持分區(qū)、分桶兩種結(jié)構(gòu)優(yōu)化策略,對(duì)大數(shù)據(jù)量的Join、Group by操作有較大的性能優(yōu)勢(shì),適用于批量數(shù)據(jù)加工場(chǎng)景。對(duì)于有事務(wù)性要求的任務(wù),可選用ORC事務(wù)表進(jìn)行儲(chǔ)存。ORC事務(wù)表在ORC表的基礎(chǔ)上滿足了事務(wù)性要求,支持?jǐn)?shù)據(jù)的增、刪、改、查以及回滾等操作,滿足銀行在傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中對(duì)數(shù)據(jù)一致性和事務(wù)性的需求。
在設(shè)計(jì)模型層中ORC表的結(jié)構(gòu)時(shí),可根據(jù)批處理的SQL語句、表的大小以及主鍵進(jìn)行針對(duì)性的優(yōu)化。例如,將常用于Where條件的字段或者日期字段作為ORC表的分區(qū)字段,可在批處理和查詢操作過程中減少計(jì)算引擎對(duì)表的掃描文件數(shù),從而大幅提高批處理和查詢效率。此外,對(duì)于常用的Join字段或者Group by的字段作為分桶字段,可優(yōu)化分布式計(jì)算引擎的執(zhí)行計(jì)劃,更均衡地分配計(jì)算任務(wù),提高計(jì)算效率。
(3) 交互式分析
數(shù)據(jù)的即席交互式分析和報(bào)表實(shí)時(shí)展現(xiàn)是銀行數(shù)據(jù)的重要使用場(chǎng)景之一,查詢統(tǒng)計(jì)性能要求較高,且包含多表的Join、Group by操作以及任意字段的靈活組合查詢,因此ORC表無法滿足要求。Holodesk表是基于SSD和內(nèi)存的分布式列式存儲(chǔ)結(jié)構(gòu),對(duì)Group by和多表間的Join操作進(jìn)行了針對(duì)性優(yōu)化,復(fù)雜查詢請(qǐng)求的返回時(shí)間可控制在秒級(jí)別,可滿足數(shù)據(jù)交互式分析和自由查詢的性能要求。
4.2 并發(fā)檢索查詢
Hyperbase是基于HBase優(yōu)化的Nosql數(shù)據(jù)庫(kù),適用于非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和固定條件的歷史數(shù)據(jù)檢索;Elastic Search支持對(duì)歷史數(shù)據(jù)進(jìn)行全文檢索、關(guān)鍵字檢索、范圍檢索等復(fù)雜條件的查詢;對(duì)于既有固定條件,又包含部分關(guān)鍵字檢索需求的使用場(chǎng)景,則通過將歷史數(shù)據(jù)儲(chǔ)存于Hyperbase,并在Elastic Search中建立全文索引字段實(shí)現(xiàn)[9]。
4.3 實(shí)時(shí)處理
對(duì)于流式數(shù)據(jù)的實(shí)時(shí)處理場(chǎng)景,數(shù)據(jù)以Stream表的格式儲(chǔ)存,實(shí)現(xiàn)從Kafka、Socket、Stream等不同數(shù)據(jù)源采集數(shù)據(jù),并支持通過SQL對(duì)流數(shù)據(jù)進(jìn)行簡(jiǎn)單的邏輯處理和計(jì)算,降低了流計(jì)算應(yīng)用的開發(fā)成本。對(duì)于實(shí)時(shí)數(shù)據(jù)服務(wù),基于面向數(shù)據(jù)服務(wù)的架構(gòu)(DSOA),通過標(biāo)準(zhǔn)數(shù)據(jù)服務(wù)實(shí)時(shí)采集數(shù)據(jù)[10],儲(chǔ)存于Hyperbase中,常用于采集外部非結(jié)構(gòu)化數(shù)據(jù)場(chǎng)景。
目前基于大數(shù)據(jù)平臺(tái)的分布式數(shù)據(jù)倉(cāng)庫(kù)已全面上線,負(fù)責(zé)全轄每日業(yè)務(wù)數(shù)據(jù)的批處理加工和實(shí)時(shí)展現(xiàn),并提供統(tǒng)一數(shù)據(jù)管理和大數(shù)據(jù)應(yīng)用服務(wù)。如圖4所示,縱坐標(biāo)為數(shù)據(jù)服務(wù)耗時(shí)的時(shí)間取對(duì)數(shù)。在數(shù)據(jù)批處理效率上,相比傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)每日耗時(shí)8小時(shí)以上,基于大數(shù)據(jù)平臺(tái)的批處理耗時(shí)達(dá)到1小時(shí)以內(nèi);歷史數(shù)據(jù)檢索服務(wù)實(shí)現(xiàn)海量歷史數(shù)據(jù)的高速查詢、搜索,單個(gè)業(yè)務(wù)自主查詢速度從原有的半小時(shí)提升至秒級(jí)別,大幅提高各類渠道數(shù)據(jù)請(qǐng)求的響應(yīng)效率;在交互式分析上,基于Holodesk提供客戶360度視圖的實(shí)時(shí)自由查詢服務(wù)。客戶畫像寬表包含500個(gè)字段,文件大小約50 GB,任意字段組合查詢結(jié)果返回從20分鐘提升到10秒以內(nèi),大幅提高自由查詢功能模塊使用體驗(yàn)。
圖4 分布式數(shù)據(jù)倉(cāng)庫(kù)效率提升對(duì)比
本文通過搭建基于Hadoop技術(shù)的分布式數(shù)據(jù)倉(cāng)庫(kù),充分整合了銀行數(shù)據(jù)資源,在信息化建設(shè)過程中積累的海量業(yè)務(wù)數(shù)據(jù)基礎(chǔ)上,擴(kuò)充了數(shù)據(jù)采集的范圍,積極納入行外非結(jié)構(gòu)化數(shù)據(jù),同時(shí)延長(zhǎng)了數(shù)據(jù)保存周期。此外,根據(jù)不同的數(shù)據(jù)應(yīng)用場(chǎng)景,使用不同的Hadoop技術(shù)并進(jìn)行針對(duì)性的優(yōu)化,從而大幅提高了在數(shù)據(jù)批處理、歷史數(shù)據(jù)檢索和交互式分析等數(shù)據(jù)使用場(chǎng)景上的服務(wù)效率?;贖adoop技術(shù)的分布式數(shù)據(jù)倉(cāng)庫(kù)有效彌補(bǔ)了基于集中式存儲(chǔ)架構(gòu)的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)在面對(duì)數(shù)據(jù)快速增長(zhǎng)和快速響應(yīng)分析的挑戰(zhàn)時(shí)遇到的性能瓶頸,并為業(yè)務(wù)分析人員提供了更高時(shí)效性的數(shù)據(jù)資源和更強(qiáng)的數(shù)據(jù)分析能力。進(jìn)一步發(fā)揮分布式數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)和性能優(yōu)勢(shì),利用機(jī)器學(xué)習(xí)技術(shù)對(duì)清洗、整合后的數(shù)據(jù)進(jìn)行深層分析、挖掘,更充分地發(fā)揮數(shù)據(jù)資產(chǎn)的價(jià)值,是下一步的主要研究、探索方向。
[1] 黃蕾.大數(shù)據(jù)時(shí)代下銀行業(yè)的變化和發(fā)展趨勢(shì)[J].中國(guó)經(jīng)貿(mào),2016(18):46-46.
[2] 邱焯.以技術(shù)驅(qū)動(dòng)大數(shù)據(jù)發(fā)展[J].上海信息化,2016(12):68-71.
[3] 信懷義.基于商業(yè)銀行大數(shù)據(jù)訪問規(guī)律的HDFS副本策略優(yōu)化研究[J].軟件,2015,36(11):74-79.
[4] 常廣炎.Hadoop云計(jì)算及其關(guān)鍵技術(shù)[J].軟件導(dǎo)刊,2015,14(9):7-9.
[5] 王磊,時(shí)亞文.基于Spark的大數(shù)據(jù)計(jì)算模型[J].電腦知識(shí)與技術(shù),2016,12(20):7-8.
[6] 張新宇,許占功.流計(jì)算引擎在傳統(tǒng)金融企業(yè)的實(shí)踐[J].中國(guó)金融電腦,2016(4):35-38.
[7] 胡明國(guó).大數(shù)據(jù)時(shí)代下客戶立體畫像在銀行業(yè)應(yīng)用研究[J].中國(guó)城市金融,2016(1):40-42.
[8] Zhu F,Liu J,Xu L,et al.A Lightweight Evaluation Framework for Table Layouts in MapReduce Based Query Systems[M]//Web Technologies and Applications.Springer International Publishing,2015.
[9] Bai J.Feasibility analysis of big log data real time search based on Hbase and ElasticSearch[C]//Ninth International Conference on Natural Computation.IEEE,2014.
[10] 李鳳云,黃迎春,馮永新.基于WebService的SOA實(shí)現(xiàn)技術(shù)研究[J].科技視界,2012(23):17-19.
APRELIMINARYSTUDYONTHECONSTRUCTIONOFLARGECOMMERCIALBANKSBASEDONHADOOPDISTRIBUTEDDATAWAREHOUSE
Yang Ting1Han Lu1Xu Qin1Sun Yuanhao2
1(BankofChinaShanghaiBranch,Shanghai200233,China)2(Transwarp(Shanghai)Inc.,Shanghai200233,China)
With the expansion of traditional business and the development of Internet, the rapid growth of data volumes in commercial banks requires stronger abilities on storage, management, application on a huge amount of data. Based on Hadoop and its various frameworks, including HDFS, Inceptor, Hyperbase, Stream, a distributed data warehouse for commercial banks was constructed. Various applications were migrated from the relational data warehouse based on centralized storage architecture, including the storage of heterogeneous data, management of ETL processing, historical data retrieval, interactive analysis and streaming data processing. Compared to the relational data warehouse, it is shown that the efficiency of data storage and services are substantially promoted on the distributed data warehouse.
Distributed data warehouse Hadoop ETL processing Historical data retrieval Interactive analysis
2017-06-02。楊頲,碩士,主研領(lǐng)域:大數(shù)據(jù),機(jī)器學(xué)習(xí)。韓路,碩士。許勤,高工。孫元浩,碩士。
TP311
A
10.3969/j.issn.1000-386x.2017.08.013