作者/郭文卓,王子豪,中國煙草總公司江蘇省公司
大數據技術在江蘇煙草數據中心的應用
作者/郭文卓,王子豪,中國煙草總公司江蘇省公司
以大數據技術的發(fā)展為背景,結合江蘇煙草數據中心建設的實際情況,分析了江蘇煙草數據中心以Hadoop及Impala等大數據技術為核心,輔以Kettle和JSP等數據處理及展現技術共同構建基于大數據技術的自定義數據查詢平臺的架構設計和實現方案。展現了大數據技術帶來的遠超傳統(tǒng)技術平臺的靈活性以及對于大數據量查詢的快速響應能力。
煙草;數據中心;大數據;Hadoop;Impala
當前許多企業(yè)都已基本實現了信息化建設,企業(yè)積累了海量數據。同時企業(yè)間的競爭日益加劇,企業(yè)為了生存及發(fā)展需要保證自身能夠更加準確、快速和個性化地為客戶提供產品及服務。而大數據技術能夠從海量的數據中獲取傳統(tǒng)數據分析手段無法獲知的價值和模式,幫助企業(yè)更加迅速、科學、準確地進行決策和預測。
1.1 大數據技術現狀
廣大企業(yè)的迫切需求反之也促進了大數據技術的飛速發(fā)展,涌現出了諸如Hadoop、Spark等實用的架構平臺。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構支持大規(guī)模的集群,允許使用簡單的編程模型進行跨計算機集群的分布式大數據處理。通過使用專門為分布式計算設計的文件系統(tǒng)HDFS,計算的時候只需要將計算代碼推送到存儲節(jié)點上,即可在存儲節(jié)點上完成數據本地化計算。因此,Hadoop實現了高可靠性、高可拓展性、高容錯性和高效性,可以輕松應對PB級別的數據處理。
1.2 大數據技術對煙草數據中心建設的影響
當前,煙草企業(yè)基于多年的信息化建設已經積累了海量數據,同時每天還不斷有新的各種數據產生。在高并發(fā)、大體量的情況下,需要在數據采集、存儲和運算方面采用與以往完全不同的計算存儲模式,這就不可避免地需要采用大數據技術。同時,除了購進單、卷煙交易數據、貨源投放數據等結構化數據外,還產生越來越多的非結構化數據,利用大數據技術,對非結構化數據進行預處理,可為人工判斷和機器學習大大縮減范圍。對海量數據以及非結構化的信息進行分析統(tǒng)計,僅僅依靠傳統(tǒng)的技術手段很難實現,只有引入大數據技術才能充分的將所有的數據資源利用起來,成為企業(yè)決策的助力。
2.1 江蘇煙草數據中心體系架構
目前江蘇煙草數據中心以一體化數據中心、一體化數據管理和一體化數據分析三個部分為核心,構建了一套完整的數據中心架構。
一體化數據中心是整個數據中心最核心的部分。通過數據倉庫模型、數據存儲、ETL工具等組成部分,構建了業(yè)務數據的收集、加工、存儲、分發(fā)的總體架構。建立了按ODS(SODS、UODS)、DW、DM三層結構設計建設的數據倉庫。
一體化數據管理通過主數據管理、信息代碼管理、ESB平臺構建了企業(yè)主數據收集、標準化、同步分發(fā)過程。結合指標管理,全面管控企業(yè)的公用基礎信息。通過數據質量管理,全面有效管控數據質量。通過數據服務管理,有效提升數據中心的對外服務能力與水平。通過元數據管理來管理數據中心元數據。
一體化數據分析通過構建移動信息、業(yè)務分析、數據挖掘三大模塊,針對性解決當前不同人員的決策、管理以及操作需求,發(fā)揮數據中心的數據、技術、平臺優(yōu)勢。通過移動信息模塊為各級領導提供決策支持;通過業(yè)務分析模塊為業(yè)務人員的日常工作提供支撐;通過數據挖掘模塊,發(fā)掘數據所蘊含的隱性價值。
基于上述一整套架構的支撐,目前數據中心構建了全省范圍的數據集成、交換體系,一方面提升了全省基礎數據、業(yè)務數據的規(guī)范化程度和數據質量,另一方面為在建業(yè)務系統(tǒng)的實施、已有系統(tǒng)的改造提供了標準化的高質量數據保障。
2.2 大數據技術的應用場景分析
隨著江蘇數據中心的不斷運行,一些基于傳統(tǒng)技術架構的功能逐漸暴露出種種問題。其中較為突出的問題有:一是使用者對于大數據量數據的查詢需求?;趥鹘y(tǒng)技術架構的查詢功能響應較慢;二是分析支持靈活性的不足。傳統(tǒng)統(tǒng)計分析應用的數據結構大多是預先定義好的,面對靈活的非傳統(tǒng)的統(tǒng)計查詢需求難以支撐,需要進行額外的加工處理。
江蘇煙草數據中心結合互聯網大數據技術特性,引入Hadoop平臺以及Impala等工具,搭建基于大數據的自定義數據查詢平臺,以補充基于傳統(tǒng)技術架構的功能不足,并為未來進一步發(fā)展建設基于大數據技術和云環(huán)境的數據中心做好準備。
3.1 設計思路及架構
基于大數據的自定義數據查詢平臺是在現有數據中心的建設成果之上,以數據中心的數據存儲為基礎,以Hadoop、Hive、Impala等大數據技術工具為手段,以簡單靈活、快速高效的查詢展現為目標,建立的數據查詢分析支持平臺。
3.2 技術方案
自定義數據查詢平臺的建設主要涉及數據存儲架構、后臺數據加工準備、前端展現三塊內容。
自定義數據查詢平臺的數據存儲分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關的元數據存儲,另一部分則是查詢所需的各種統(tǒng)計數據的存儲。元數據的存儲根據元數據庫的不同主要分為兩部分。第一部分為基于Mysql數據庫的元數據存儲。這部分元數據主要包括有ETL工具KETTLE的元數據,以及前端自定義查詢需要定義的權限、數據源、表、列和表列關系等信息。第二部分為基于Hive的元數據存儲。這部分存儲的是前端查詢需要使用的Impala工具的元數據。統(tǒng)計數據的存儲則是使用Hadoop的HDFS實現的。根據Hadoop平臺架構,自定義數據查詢平臺的HDFS建立在6臺虛擬主機構建的集群上的。其中:2臺虛擬主機作為NameNode,一臺為主節(jié)點,另一臺為備份節(jié)點;其余4臺虛擬主機都作為DataNode用于存儲數據。所有數據將會統(tǒng)一分塊自動分配存儲到4個DataNode上。
自定義數據查詢平臺的數據加工,是通過開源ETL工具KETTLE實現的。通過KETTLE從數據中心現有數據倉庫及數據集市中讀取需要的數據,根據自定義數據查詢平臺的數據模型定義對數據進行處理,最終加載到Hadoop的HDFS文件系統(tǒng)中。
自定義數據查詢平臺的前端展現功能,主要是基于JSP技術實現頁面開發(fā),通過JDBC或者ODBC對后臺Mysql數據庫進行訪問。使用者在查詢頁面中組織定義查詢的內容,查詢服務自動根據獲取的元數據信息將定義的查詢內容拼接轉換成為查詢SQL,之后通過Impala執(zhí)行查詢SQL對HDFS文件系統(tǒng)中的統(tǒng)計數據進行查詢。
3.3 系統(tǒng)實現效果
利用大數據技術,自定義數據查詢平臺較好地解決了目前數據中心所面對的問題,滿足了使用人員對于大數據量以及分析靈活性的需求。面對使用人員層出不窮的查詢需求,自定義數據查詢平臺通過預先梳理、分類定義各種維度以及統(tǒng)計指標。
使用者可以自由的根據實際需求選擇分析所需的維度及統(tǒng)計指標,同時還可以基于這些基礎的內容更進一步自定義過濾條件以及計算公式,并指定其展現形式。
在大數據量查詢效率方面,自定義查詢平臺相比傳統(tǒng)架構的查詢功能有了較大提升。
大數據技術的發(fā)展方興未艾,應用前景無比廣闊,對各行各業(yè)的巨大作用正在逐步展現。江蘇煙草數據中心的建設既要看到大數據技術未來的前景,更需要明確地認識到大數據平臺的建設并非一朝一夕,需要有明確而長遠的規(guī)劃,不斷完善數據環(huán)境建設、云計算環(huán)境的構建以及數據服務的擴展。
* [1]陳鵬.大數據時代下的信息安全問題研究[J].電子制,2015,18:48
* [2]劉憶魯,劉長銀,侯艷權.大數據時代下的信息安全問題論述[J].信息通信.2016,181—182
* [3]崔洪剛,唐浩,汪永超.大數據時代下的信息安全問題研究[J].通訊世界,2016,07:239