張 偉
(中國(guó)大唐集團(tuán)科學(xué)技術(shù)研究院有限公司,北京 100040)
數(shù)據(jù)的爆炸式增長(zhǎng)以及其蘊(yùn)含的巨大價(jià)值將對(duì)企業(yè)未來(lái)的發(fā)展產(chǎn)生深遠(yuǎn)的影響,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。大型國(guó)有企業(yè)擁有豐富客戶(hù)資源的海量數(shù)據(jù)積累,在大數(shù)據(jù)時(shí)代要充分挖掘數(shù)據(jù)價(jià)值,跟上時(shí)代步伐。如何應(yīng)用數(shù)據(jù),挖掘數(shù)據(jù)的價(jià)值,讓數(shù)據(jù)為企業(yè)的發(fā)展保駕護(hù)航,將是未來(lái)信息技術(shù)發(fā)展道路上關(guān)注的重點(diǎn)。
為了滿(mǎn)足大型企業(yè)對(duì)于數(shù)據(jù)多樣化、個(gè)性化需求,本設(shè)計(jì)方案提供高效、統(tǒng)一的數(shù)據(jù)接口,搭建一個(gè)數(shù)據(jù)精確、性能高效、方便分析的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。通過(guò)該方案可對(duì)上游各類(lèi)數(shù)據(jù)按照主題模型、應(yīng)用集市進(jìn)行匯總,為下游輸出標(biāo)準(zhǔn)化、模型化的數(shù)據(jù),以滿(mǎn)足用戶(hù)的需求,同時(shí)利用數(shù)據(jù)倉(cāng)庫(kù)高效的數(shù)據(jù)處理能力,縮短報(bào)表生成時(shí)間,提高數(shù)據(jù)統(tǒng)計(jì)效率。根據(jù)對(duì)應(yīng)用業(yè)務(wù)及技術(shù)特點(diǎn)進(jìn)行綜合評(píng)估,提出基于Hadoop模式的數(shù)據(jù)分析平臺(tái)方案。
數(shù)據(jù)分析平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)總體框架需要遵循如下技術(shù)原則:
(1)開(kāi)放性:引入業(yè)界開(kāi)放的、成熟的標(biāo)準(zhǔn),從而保證系統(tǒng)成為符合標(biāo)準(zhǔn)又不失靈活性的開(kāi)放平臺(tái),為未來(lái)的系統(tǒng)擴(kuò)展奠定基礎(chǔ)。
(2)可擴(kuò)展性:隨著新的業(yè)務(wù)需求的不斷產(chǎn)生,支持基礎(chǔ)數(shù)據(jù)模型、應(yīng)用分析模型、前端應(yīng)用的擴(kuò)展性;支持在統(tǒng)一系統(tǒng)架構(gòu)中服務(wù)器、存儲(chǔ)、I/O設(shè)備等的可擴(kuò)展性。
(3)可靠性:制定并實(shí)施數(shù)據(jù)倉(cāng)庫(kù)高可用性方案、運(yùn)行管理監(jiān)控制度、運(yùn)行維護(hù)制度、故障處理預(yù)案等,保證數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在復(fù)雜環(huán)境下的可靠性。
搭建數(shù)據(jù)分析的基礎(chǔ)平臺(tái),建立完善的ETL(Extract-Transform-Load,數(shù)據(jù)倉(cāng)庫(kù)技術(shù))調(diào)度機(jī)制并對(duì)數(shù)據(jù)進(jìn)行初步的整合,建立基于應(yīng)用的基礎(chǔ)寬表。
基于Hadoop+Oracle混合技術(shù)架構(gòu)的數(shù)據(jù)分析技術(shù)平臺(tái),滿(mǎn)足數(shù)據(jù)分析工作及后續(xù)數(shù)據(jù)支撐的需要[1]。大數(shù)據(jù)分析平臺(tái)的邏輯架構(gòu)如圖1所示。
(1)基于Hadoop架構(gòu)的系統(tǒng)設(shè)計(jì)
首先,Hadoop支持超大文件存儲(chǔ)和處理,一般來(lái)說(shuō),HDFS存儲(chǔ)的文件可以支持TB和PB級(jí)別的數(shù)據(jù)。
圖1 大數(shù)據(jù)分析平臺(tái)的邏輯架構(gòu)
其次,Hadoop具備高可用能力,可以快速應(yīng)對(duì)硬件故障。在集群環(huán)境中,硬件故障是常見(jiàn)性問(wèn)題,當(dāng)有上千臺(tái)服務(wù)器連在一起時(shí),故障率會(huì)增高,因此故障檢測(cè)和自動(dòng)恢復(fù)HDFS文件系統(tǒng)是平臺(tái)的核心能力。假設(shè)某一個(gè)DataNode節(jié)點(diǎn)掛掉之后,因?yàn)閿?shù)據(jù)備份,還可以從其他節(jié)點(diǎn)里找到。NameNode通過(guò)心跳機(jī)制來(lái)檢測(cè)DataNode是否還存在。數(shù)據(jù)自動(dòng)保存多個(gè)副本,副本丟失后自動(dòng)恢復(fù)??蓸?gòu)建在廉價(jià)機(jī)上,實(shí)現(xiàn)線(xiàn)性(橫向)擴(kuò)展,當(dāng)集群增加新節(jié)點(diǎn)之后,NameNode也可以感知,將數(shù)據(jù)分發(fā)和備份到相應(yīng)的節(jié)點(diǎn)上。 最后,具備流式數(shù)據(jù)處理能力 ,HDFS的數(shù)據(jù)處理規(guī)模比較大,應(yīng)用程序能以流的形式訪(fǎng)問(wèn)數(shù)據(jù)庫(kù)。處理能力的核心的是數(shù)據(jù)的吞吐量,而不是訪(fǎng)問(wèn)速度。訪(fǎng)問(wèn)速度最終是要受制于網(wǎng)絡(luò)和磁盤(pán)的速度,機(jī)器節(jié)點(diǎn)再多,也不能突破物理的局限。HDFS具有高吞吐量。
但是,Oracle在企業(yè)數(shù)據(jù)庫(kù)領(lǐng)域耗時(shí)30多年建立起來(lái)的核心地位并不會(huì)很快消失,企業(yè)的大量歷史數(shù)據(jù)沉淀在Oracle中,基于Oracle進(jìn)行數(shù)據(jù)整合和預(yù)處理,會(huì)大幅度提升開(kāi)發(fā)效率,但是隨著業(yè)務(wù)的升級(jí)改造,新產(chǎn)品研發(fā)中,高性?xún)r(jià)比的研發(fā)投入在Hadoop架構(gòu)下的高可擴(kuò)展等優(yōu)勢(shì)更加明顯。
總之,基于安全、穩(wěn)定、高效的原因考慮,保留傳統(tǒng)Oracle數(shù)據(jù)平臺(tái)的數(shù)據(jù)分析功能,將傳統(tǒng)數(shù)據(jù)平臺(tái)中壓力較大的計(jì)算任務(wù)剝離,并降低數(shù)據(jù)存儲(chǔ)的容量,充分利用Hadoop平臺(tái)的分布式處理優(yōu)勢(shì),解決數(shù)據(jù)處理效率問(wèn)題,支持向傳統(tǒng)平臺(tái)的數(shù)據(jù)回滾。數(shù)據(jù)分析平臺(tái)前期主要完成數(shù)據(jù)存儲(chǔ)、簡(jiǎn)單查詢(xún)、各項(xiàng)管理工具、開(kāi)發(fā)工具的應(yīng)用實(shí)施,必須由下列組件完成相關(guān)的功能。所需的基礎(chǔ)組件如圖2所示。
(2)建設(shè)ETL調(diào)度系統(tǒng)
建設(shè)穩(wěn)定、高效的ETL機(jī)制對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、加載等操作,并實(shí)現(xiàn)每日增全量數(shù)據(jù)的自動(dòng)化加載;同時(shí)要實(shí)現(xiàn)對(duì)ETL任務(wù)的監(jiān)控與ETL任務(wù)報(bào)錯(cuò)后的跟蹤處理并保留一定時(shí)間的ETL日志。
圖2 Hadoop基礎(chǔ)架構(gòu)組件
(3)整合ODS貼源層數(shù)據(jù),建立常用基礎(chǔ)寬表
數(shù)據(jù)拆分系統(tǒng)與數(shù)據(jù)下載系統(tǒng)是兩個(gè)獨(dú)立的用于省內(nèi)數(shù)據(jù)下發(fā)的系統(tǒng),存在數(shù)據(jù)重復(fù)、互為補(bǔ)集等情況,需將兩處共有數(shù)據(jù)合并處理,整合形成操作數(shù)據(jù)存儲(chǔ)(Operational Data Store,ODS)貼源數(shù)據(jù)層。同時(shí),各部門(mén)基于日常業(yè)務(wù)需求和技術(shù)應(yīng)用,將多個(gè)數(shù)據(jù)表進(jìn)行關(guān)聯(lián),建立常用基礎(chǔ)寬表,以滿(mǎn)足客戶(hù)信息查詢(xún)、交易明細(xì)查詢(xún)、監(jiān)管數(shù)據(jù)調(diào)取等日常工作需求,提高數(shù)據(jù)提取效率。
2.2.1數(shù)據(jù)導(dǎo)入
數(shù)據(jù)采集能從不同數(shù)據(jù)源中進(jìn)行指定規(guī)則的數(shù)據(jù)提取作業(yè),抽取后的數(shù)據(jù)存儲(chǔ)支持落地與不落地兩大類(lèi)進(jìn)行,抽取后的數(shù)據(jù)可以為數(shù)據(jù)轉(zhuǎn)換環(huán)節(jié)進(jìn)行處理提供輸入,也可以直接進(jìn)行處理或者加載。
數(shù)據(jù)采集采用多樣性的接口方式,除了支持傳統(tǒng)的JDBC/ODBC接口、FTP文件接口[2],從抽取支持的實(shí)時(shí)性來(lái)看,支持批量數(shù)據(jù)抽??;從抽取方式來(lái)看,包括全量抽取和增量抽取兩種方式,其中全量抽取可將所有歷史數(shù)據(jù)一次性抽取完成;增量抽取根據(jù)規(guī)則要求進(jìn)行抽取。
數(shù)據(jù)加載功能包括數(shù)據(jù)初始化工作、文件加載、壓縮加載、不落地加載等。數(shù)據(jù)加載功能具備將采集、處理后的數(shù)據(jù)源文件保存到數(shù)據(jù)庫(kù)中。支持加載時(shí)事物提交的參數(shù)配置,允許設(shè)定數(shù)據(jù)文件相關(guān)輸入路徑與加載文件匹配規(guī)則等信息,由數(shù)據(jù)裝載完成發(fā)現(xiàn)文件、獲取文件、加載數(shù)據(jù)、數(shù)據(jù)校驗(yàn)等操作流程后完成數(shù)據(jù)入庫(kù)操作。
在加載實(shí)現(xiàn)過(guò)程中支持提供不同類(lèi)別的行為定義腳本,數(shù)據(jù)加載執(zhí)行組件將根據(jù)定義行為腳本類(lèi)型調(diào)起相應(yīng)的腳本執(zhí)行來(lái)加載到數(shù)據(jù)。數(shù)據(jù)加載結(jié)束或失敗時(shí),都需要向在ETL系統(tǒng)相應(yīng)的數(shù)據(jù)庫(kù)日志表中記錄操作日志,為后續(xù)數(shù)據(jù)稽核與問(wèn)題排查提供詳細(xì)信息。
數(shù)據(jù)加載主要滿(mǎn)足以下功能:
(1)數(shù)據(jù)滿(mǎn)足自動(dòng)加載和手動(dòng)加載兩種方式,自動(dòng)方式基于調(diào)度程序,定期定時(shí)執(zhí)行抽取任務(wù);且支持文件落地和不落地兩種存儲(chǔ)加載(落地加載是將數(shù)據(jù)源保存在ETL物理服務(wù)器中,進(jìn)行接口保存加載。不落地加載是指將數(shù)據(jù)源寫(xiě)入緩沖池中,不在物理機(jī)上保存而實(shí)現(xiàn)的加載)。
(2)支持多任務(wù)的并行加載,支持多個(gè)數(shù)據(jù)庫(kù)連接同一裝載任務(wù)的并發(fā)執(zhí)行。
(3)加載過(guò)濾,即具備基于數(shù)據(jù)屬性值的過(guò)濾加載。
(4)數(shù)據(jù)裝載需要支持Oracle數(shù)據(jù)、TXT文本、Excel、CSV等多種不同數(shù)據(jù)格式進(jìn)行加載。
(5)提供圖形化裝載界面對(duì)整個(gè)ETL裝載過(guò)程進(jìn)行監(jiān)控,包括文件名稱(chēng)、目標(biāo)表名稱(chēng)、數(shù)據(jù)日期、加載開(kāi)始日期、加載結(jié)束日期、加載狀態(tài)、成功筆數(shù)和失敗筆數(shù)等。
(6)數(shù)據(jù)裝載過(guò)程需要對(duì)錯(cuò)誤數(shù)據(jù)進(jìn)行過(guò)濾,在對(duì)記錄進(jìn)行過(guò)濾的同時(shí),能將發(fā)生錯(cuò)誤的數(shù)據(jù)記錄到相應(yīng)的錯(cuò)誤表中,并給出錯(cuò)誤原因。
(7)具備加載對(duì)象的參數(shù)配置功能,將數(shù)據(jù)加載過(guò)程中需要設(shè)置的命令、參數(shù)、規(guī)則進(jìn)行配置,控件會(huì)自動(dòng)生成相應(yīng)的可執(zhí)行代碼來(lái)完成作業(yè)。
2.2.2數(shù)據(jù)清洗
(1)數(shù)據(jù)探查
根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)通過(guò)多維度視角進(jìn)行數(shù)據(jù)的全面探查,系統(tǒng)使用者可以通過(guò)數(shù)據(jù)實(shí)體關(guān)系、主要指標(biāo)項(xiàng),數(shù)據(jù)實(shí)體輪廓、內(nèi)容形式、自定義規(guī)則以及問(wèn)題數(shù)據(jù)批注等方面進(jìn)行數(shù)據(jù)的探查。
(2)指標(biāo)探查
通過(guò)對(duì)數(shù)據(jù)實(shí)體評(píng)估指標(biāo)進(jìn)行探查分析,對(duì)于造成數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行定位;通過(guò)評(píng)估指標(biāo)規(guī)則,對(duì)表中的字段進(jìn)行探查;可通過(guò)單一規(guī)則或組合規(guī)則進(jìn)行明細(xì)數(shù)據(jù)記錄級(jí)的探查。
(3)內(nèi)容探查
①獨(dú)特值探查
允許查看某個(gè)值在屬性中的重復(fù)頻率、哪些記錄包含該獨(dú)特值以及對(duì)實(shí)體表中各屬性的獨(dú)特值個(gè)數(shù)排序。
②模式探查
描述數(shù)據(jù)值字符形狀以標(biāo)識(shí)格式偏差,其中 a 等同于字母、 d 等同于數(shù)字、下劃線(xiàn) (_) 等同于空格(相對(duì)于其他約定)。例如,aaaa 模式(一行四個(gè)字母)將表示為“a4”。因此,數(shù)據(jù)值“Jane Rizzo”將表示為“a4_a5”。
③掩碼探查
將文本字符標(biāo)識(shí)為字母、數(shù)字或特殊字符。掩碼模式是掩碼編碼的形狀,它指明了單詞、短語(yǔ)或數(shù)字的常見(jiàn)質(zhì)量。例如, A 等同于一個(gè)字母, N 等同于一個(gè)數(shù)字。因此,如果產(chǎn)品代碼為 1H-3389BD,則其掩碼為 NA-NNNNAA。
(4)相似數(shù)據(jù)清洗檢查
利用模式匹配,對(duì)相似數(shù)據(jù)記錄進(jìn)行去重,并且滿(mǎn)足相關(guān)記錄查詢(xún);通過(guò)計(jì)算數(shù)據(jù)記錄的相似性,對(duì)相同或者相似的記錄進(jìn)行分組,通過(guò)數(shù)據(jù)責(zé)任人確認(rèn)進(jìn)行去重或合并。
(5)最佳匹配記錄清洗
匹配記錄后,在匹配的記錄組中標(biāo)準(zhǔn)化并標(biāo)記最佳記錄。根據(jù)用戶(hù)定義的規(guī)則標(biāo)準(zhǔn)化通過(guò)常見(jiàn)關(guān)鍵詞鏈接的一組匹配的記錄中的數(shù)據(jù),例如,需要將一個(gè)匹配記錄中的出生日期或聯(lián)系方式填充到所有其他匹配記錄中[3]。用于最佳匹配的最常見(jiàn)規(guī)則包括:1字符值和數(shù)字值的上限/ 下限,2最長(zhǎng)值和最短值,3最常出現(xiàn)值和最少出現(xiàn)值,4指定輸入源中的值,5最新的值和最舊的值。
2.2.3數(shù)據(jù)治理
數(shù)據(jù)治理過(guò)程需要逐一確定具體數(shù)據(jù)問(wèn)題的原因,方可達(dá)到有效,提升數(shù)據(jù)質(zhì)量[4]。數(shù)據(jù)質(zhì)量問(wèn)題主要體現(xiàn)在:數(shù)據(jù)質(zhì)量不高、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)保存周期不一致、缺少數(shù)據(jù)字典等方面。建立數(shù)據(jù)分析平臺(tái)可以盡可能形成干凈、統(tǒng)一的數(shù)據(jù)源,為業(yè)務(wù)支撐提供數(shù)據(jù)支持。
(1)提升數(shù)據(jù)質(zhì)量:對(duì)數(shù)據(jù)源系統(tǒng)及關(guān)聯(lián)源系統(tǒng)進(jìn)行數(shù)據(jù)分析,排查數(shù)據(jù)重復(fù)的具體原因,搭建策略模型,以重新獲取缺失數(shù)據(jù)及空值數(shù)據(jù),使得進(jìn)入分析平臺(tái)的數(shù)據(jù)字段在數(shù)據(jù)類(lèi)型、字段中文名稱(chēng)、字段英文命名上的一致性。
(2)統(tǒng)一數(shù)據(jù)結(jié)構(gòu):按分門(mén)別類(lèi)的對(duì)來(lái)源于零散的多個(gè)業(yè)務(wù)源系統(tǒng)數(shù)據(jù)進(jìn)行存放,并進(jìn)行簡(jiǎn)單的匯總加工,以便后續(xù)直接使用。
(3)統(tǒng)一存放周期:通過(guò)整合層對(duì)核心數(shù)據(jù)(如:賬戶(hù)余額、協(xié)議等)形成歷史拉鏈表,統(tǒng)一數(shù)據(jù)周期,以支持長(zhǎng)期歷史趨勢(shì)分析。
(4)統(tǒng)一數(shù)據(jù)字典:多渠道、多角度分析源系統(tǒng)數(shù)據(jù),形成統(tǒng)一數(shù)據(jù)字典,并可對(duì)數(shù)據(jù)字典進(jìn)行統(tǒng)一版本管理。
2.2.4ETL任務(wù)調(diào)度與監(jiān)控
統(tǒng)一調(diào)度包括統(tǒng)一調(diào)度配置、統(tǒng)一調(diào)度運(yùn)行、調(diào)度策略、統(tǒng)一調(diào)度監(jiān)控等模塊。ETL調(diào)度與監(jiān)控:通過(guò)對(duì)ETL整個(gè)處理流程中的獨(dú)立的ETL數(shù)據(jù)處理環(huán)節(jié)(如數(shù)據(jù)抽取、轉(zhuǎn)換或加載)進(jìn)行監(jiān)控,以及在監(jiān)控過(guò)程中根據(jù)每個(gè)處理環(huán)節(jié)的處理任務(wù)自動(dòng)生成該處理環(huán)節(jié)的監(jiān)控指標(biāo),從而一方面可以及時(shí)發(fā)現(xiàn)問(wèn)題數(shù)據(jù)以及進(jìn)一步分析問(wèn)題數(shù)據(jù)產(chǎn)生的原因,因而提高了ETL的監(jiān)控效率以及提高了監(jiān)控結(jié)果的準(zhǔn)確性。通過(guò)郵件、短信等系統(tǒng)自動(dòng)報(bào)警功能,減少人工監(jiān)控,從而在進(jìn)一步提高效率的同時(shí)還簡(jiǎn)化了ETL監(jiān)控的實(shí)現(xiàn)過(guò)程,減少了人為因素的影響從而進(jìn)一步提高了 ETL監(jiān)控結(jié)果以及對(duì)ETL處理過(guò)程的質(zhì)量判斷的準(zhǔn)確性[5]。
系統(tǒng)應(yīng)用監(jiān)控:系統(tǒng)應(yīng)用監(jiān)控主要針對(duì)即席查詢(xún)應(yīng)用的監(jiān)控。在硬件及操作系統(tǒng)層面,由全行統(tǒng)一的運(yùn)行平臺(tái)統(tǒng)一進(jìn)行監(jiān)控。數(shù)據(jù)庫(kù)監(jiān)控包括數(shù)據(jù)庫(kù)軟硬件監(jiān)控、數(shù)據(jù)庫(kù)空間監(jiān)控以及數(shù)據(jù)庫(kù)資源監(jiān)控。
平臺(tái)安全設(shè)計(jì)考慮下面內(nèi)容:通信使用SSL/HTTPS協(xié)議,保證傳遞數(shù)據(jù)間的安全性。數(shù)據(jù)庫(kù)中密碼采用MD5或DES加密以保障安全。系統(tǒng)資源采用獨(dú)立授權(quán),采用逐級(jí)管理員方式保障用戶(hù)登錄合法性。系統(tǒng)日志記錄用戶(hù)各種操作,確保真實(shí)性,以便對(duì)系統(tǒng)進(jìn)行審計(jì)[6]。系統(tǒng)提供備份和恢復(fù)知識(shí)庫(kù)的能力。在系統(tǒng)出現(xiàn)故障的時(shí)候,能夠收集錯(cuò)誤信息。
對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的信息展示,需要提供靈活而又安全的訪(fǎng)問(wèn)控制。面對(duì)現(xiàn)在的信息展示手段和技術(shù)的更新?lián)Q代,數(shù)據(jù)倉(cāng)庫(kù)的信息安全控制需要全面的滿(mǎn)足當(dāng)前豐富的業(yè)務(wù)場(chǎng)景的需要。
搭建統(tǒng)一門(mén)戶(hù),支持單點(diǎn)登錄,同步辦公門(mén)戶(hù)系統(tǒng)用戶(hù)信息,提供單點(diǎn)登錄的支持方案,支持采用第三方安全認(rèn)證平臺(tái)(如AD/LDAP)。
安全控制:權(quán)限控制,與單位現(xiàn)有IT基礎(chǔ)架構(gòu)緊密集成,集中管理用戶(hù)身份驗(yàn)證和訪(fǎng)問(wèn)授權(quán),符合各部門(mén)安全策略要求[7]。
用戶(hù)管理是控制用戶(hù)功能權(quán)限、數(shù)據(jù)訪(fǎng)問(wèn)權(quán)限、資源訪(fǎng)問(wèn)權(quán)限的基礎(chǔ)。支持按用戶(hù)、用戶(hù)組、角色進(jìn)行管理;支持多套應(yīng)用系統(tǒng)共用同一套用戶(hù)管理系統(tǒng)。
用戶(hù)管理包括用戶(hù)、角色的管理。用戶(hù)是登錄系統(tǒng)的基本單位,一個(gè)用戶(hù)可以屬于多個(gè)機(jī)構(gòu)。角色是一組權(quán)限的集合,通過(guò)給用戶(hù)或用戶(hù)組賦予角色,使之獲得相應(yīng)的權(quán)限[8]。定義系統(tǒng)有的操作權(quán)限,或者說(shuō)功能權(quán)限。
整個(gè)系統(tǒng)中有一個(gè)超級(jí)管理員對(duì)所有的管理員、用戶(hù)進(jìn)行管理。
借助Hadoop+Oracle混合技術(shù)架構(gòu),發(fā)揮Oracle在垂直應(yīng)用行業(yè)的先天優(yōu)勢(shì)和Hadoop在云平臺(tái)的并行計(jì)算及分析優(yōu)勢(shì),構(gòu)建一個(gè)多層平臺(tái)架構(gòu),包括數(shù)據(jù)導(dǎo)入、清洗、治理和監(jiān)控等核心模塊,解決行業(yè)應(yīng)用中的數(shù)據(jù)匯總和綜合分析問(wèn)題,并對(duì)外提供安全可擴(kuò)展的數(shù)據(jù)服務(wù)能力。在應(yīng)用實(shí)施中,通過(guò)在Hadoop集群上建立常用基礎(chǔ)寬表,可以滿(mǎn)足客戶(hù)信息查詢(xún)、交易明細(xì)查詢(xún)、監(jiān)管數(shù)據(jù)調(diào)取等日常工作需求,提高數(shù)據(jù)提取效率。