亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的工業(yè)大數(shù)據(jù)存儲(chǔ)分析系統(tǒng)

        2020-08-16 13:53:29范旭輝
        科技創(chuàng)新與應(yīng)用 2020年23期

        范旭輝

        摘? 要:工業(yè)大數(shù)據(jù)具有規(guī)模龐大、業(yè)務(wù)復(fù)雜等的特點(diǎn),為數(shù)據(jù)存儲(chǔ)、查詢和分析計(jì)算帶了難度。為了優(yōu)化工業(yè)大數(shù)據(jù)存儲(chǔ)管理,提高系統(tǒng)存儲(chǔ)、查詢、分析效率,利用基于Hadoop技術(shù)針對(duì)業(yè)務(wù)庫(kù)和實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)庫(kù)的存儲(chǔ)管理進(jìn)行優(yōu)化。系統(tǒng)設(shè)計(jì)業(yè)務(wù)庫(kù)的集群化同步存儲(chǔ)架構(gòu),基于Maxwell組件將MySQL業(yè)務(wù)庫(kù)數(shù)據(jù)實(shí)時(shí)同步到HBase,實(shí)現(xiàn)業(yè)務(wù)庫(kù)的讀寫(xiě)分離、提高數(shù)據(jù)查詢和數(shù)據(jù)分析的效率;其次,基于Kafka和Flink對(duì)業(yè)務(wù)庫(kù)同步數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算處理,實(shí)現(xiàn)高并發(fā)數(shù)據(jù)寫(xiě)入場(chǎng)景下的低延遲響應(yīng);最后,實(shí)驗(yàn)進(jìn)行了HBase和MySQL的性能對(duì)比測(cè)試,結(jié)果表明本系統(tǒng)在大規(guī)模數(shù)據(jù)場(chǎng)景下具有更好的計(jì)算效率表現(xiàn),能夠有效進(jìn)行工業(yè)大數(shù)據(jù)分析存儲(chǔ)。

        關(guān)鍵詞:工業(yè)大數(shù)據(jù);Hadoop;Flink;HBase

        中圖分類(lèi)號(hào):TP311.13? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號(hào):2095-2945(2020)23-0018-04

        Abstract: Industrial big data has the characteristics such as large scale and complex business, which makes it difficult for data storage, query, analysis and calculation. In order to optimize the storage management of industrial big data and improve the efficiency of system storage, query and analysis, the storage management of business database and real-time monitoring database is optimized based on Hadoop technology. The system designs the clustered synchronous storage architecture of the business library. Based on the Maxwell component, the MySQL business library data is synchronized to HBase in real time to achieve the read-write separation of the business library, improve the efficiency of data query and data analysis. Based on Kafka and Flink, real-time calculation and processing of synchronous data in the business database are carried out to realize low latency response in the scenario of high concurrent data writing. Finally, the experiment conducted a performance comparison test of HBase and MySQL, which shows that the system has better calculation efficiency performance in large-scale data scenarios, and can effectively analyze and store industrial big data.

        Keywords: industrial big data; Hadoop; Flink; HBase

        引言

        工業(yè)數(shù)據(jù)的存儲(chǔ)分析是工業(yè)信息化應(yīng)用、推進(jìn)智能制造的前提和基礎(chǔ)[1],然而工業(yè)數(shù)據(jù)的海量性、增量性為其的存儲(chǔ)管理帶來(lái)了難度,同時(shí)也對(duì)數(shù)據(jù)存儲(chǔ)的可拓展性、高效性提出了高要求[2]。目前,大多工業(yè)信息系統(tǒng)[3-4]通過(guò)結(jié)構(gòu)化數(shù)據(jù)庫(kù)如MySQL等進(jìn)行數(shù)據(jù)存儲(chǔ)。面對(duì)頻繁讀寫(xiě)的應(yīng)用服務(wù),有研究[4]通過(guò)備份同步業(yè)務(wù)庫(kù),實(shí)現(xiàn)讀寫(xiě)分離的架構(gòu),從而減輕數(shù)據(jù)庫(kù)壓力。然而,這種存儲(chǔ)管理方式對(duì)于復(fù)雜業(yè)務(wù)表的數(shù)據(jù)分析方面并不友好,需要通過(guò)垂直切分或者水平切分進(jìn)行數(shù)據(jù)查詢。

        大數(shù)據(jù)存儲(chǔ)系統(tǒng)HBase是一種分布式的列式數(shù)據(jù)庫(kù),針對(duì)復(fù)雜業(yè)務(wù)的分析具有天然的優(yōu)勢(shì),被廣泛地應(yīng)用在數(shù)據(jù)存儲(chǔ)和分析過(guò)程中[5-8]。然而,HBase的存儲(chǔ)應(yīng)用很難直接切入到現(xiàn)有系統(tǒng)中,或是需要將整套技術(shù)方案推翻重來(lái)。同時(shí),不同于普通應(yīng)用系統(tǒng),工業(yè)數(shù)據(jù)因其特殊的應(yīng)用場(chǎng)景會(huì)產(chǎn)生大量的實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)[2],如設(shè)備、儀表、定位等。這些實(shí)時(shí)增量不斷增長(zhǎng)的時(shí)序數(shù)據(jù)為數(shù)據(jù)存儲(chǔ)的效率提出了要求。此外,在數(shù)萬(wàn)臺(tái)機(jī)器毫秒級(jí)監(jiān)控的場(chǎng)景中,服務(wù)器每秒需要處理GB級(jí)的數(shù)據(jù),傳統(tǒng)通過(guò)負(fù)載均衡進(jìn)行實(shí)時(shí)計(jì)算的處理方式已經(jīng)達(dá)到瓶頸。

        為此,本文提出了一種工業(yè)大數(shù)據(jù)存儲(chǔ)管理與分析系統(tǒng),基于Hadoop平臺(tái)構(gòu)建數(shù)據(jù)存儲(chǔ)平臺(tái),通過(guò)Maxwell實(shí)時(shí)讀取MySQL的數(shù)據(jù)日志寫(xiě)入Kafka消息隊(duì)列,并通過(guò)Flink消費(fèi)處理同步到HBase,在不影響當(dāng)前系統(tǒng)業(yè)務(wù)庫(kù)的同時(shí)提高數(shù)據(jù)查詢和存儲(chǔ)管理效率。

        1 相關(guān)工作

        1.1 Hadoop平臺(tái)簡(jiǎn)介

        從狹義上來(lái)說(shuō),Hadoop[5-8]是一個(gè)由Apache基金會(huì)所維護(hù)的分布式系統(tǒng)基礎(chǔ)架構(gòu),而從廣義上來(lái)說(shuō),Hadoop通常指的是它所構(gòu)建的Hadoop生態(tài),包括Hadoop核心技術(shù)以及基于Hadoop平臺(tái)所部署的大數(shù)據(jù)開(kāi)源組件和產(chǎn)品。這些組件實(shí)現(xiàn)大數(shù)據(jù)場(chǎng)景下的數(shù)據(jù)存儲(chǔ)、分布式計(jì)算、數(shù)據(jù)分析、實(shí)時(shí)計(jì)算、數(shù)據(jù)傳輸?shù)取?/p>

        Hadoop的核心技術(shù):HDFS、MapReduce、HBase被譽(yù)為Hadoop的三駕馬車(chē),更為企業(yè)生產(chǎn)應(yīng)用帶來(lái)了高可靠、高容錯(cuò)和高效率等特性。其中,HBase是一個(gè)可伸縮、分布式、面向列的數(shù)據(jù)庫(kù),和傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)不同,HBase提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫(xiě)訪問(wèn),同時(shí),HBase中保存的數(shù)據(jù)可以使用MapReduce來(lái)處理,它將數(shù)據(jù)存儲(chǔ)和并行計(jì)算完美地結(jié)合在一起。

        1.2 Flink引擎簡(jiǎn)介

        Flink[9]是一個(gè)基于內(nèi)存計(jì)算的分布式計(jì)算框架,通過(guò)基于流式計(jì)算模型對(duì)有界和無(wú)界數(shù)據(jù)提供批處理和流處理計(jì)算。在實(shí)時(shí)計(jì)算方面,相比于開(kāi)源方案Storm和Spark Streaming,F(xiàn)link能夠提供準(zhǔn)實(shí)時(shí)的數(shù)據(jù)計(jì)算,并能夠?qū)⑴幚砗土魈幚斫y(tǒng)一,實(shí)現(xiàn)“批流一體”的整體化方案。這種架構(gòu)使得Flink在執(zhí)行計(jì)算時(shí)具有較低的延遲,F(xiàn)link被譽(yù)為繼Hadoop、Spark之后的第三代分布式計(jì)算引擎。

        1.3 Maxwell簡(jiǎn)介

        Maxwell是一個(gè)能實(shí)時(shí)讀取MySQL二進(jìn)制日志binlog、并生成json格式的消息,作為生產(chǎn)者發(fā)送給Kafka、RabbitMQ、Redis、文件或其它平臺(tái)的應(yīng)用程序。目前,常用的binlog解析工具還有canal、MySQL_streamer,canal由Java開(kāi)發(fā),性能穩(wěn)定,但需要自己編寫(xiě)客戶端來(lái)消費(fèi)canal解析到的數(shù)據(jù);MySQL_streamer由Python開(kāi)發(fā),但其技術(shù)文檔比較粗略,對(duì)開(kāi)發(fā)過(guò)程并不友好。

        2 系統(tǒng)總體設(shè)計(jì)

        系統(tǒng)架構(gòu)設(shè)計(jì):為了實(shí)現(xiàn)大規(guī)模工業(yè)數(shù)據(jù)的高效存儲(chǔ),設(shè)計(jì)基于Hadoop的工業(yè)大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)總體架構(gòu),共包括前端集群、后端業(yè)務(wù)集群和數(shù)據(jù)計(jì)算集群,具體存儲(chǔ)系統(tǒng)架構(gòu)如圖2所示。

        系統(tǒng)主要采用前端界面和后端業(yè)務(wù)分離的思想,在前端集群中,由Nginx負(fù)責(zé)請(qǐng)求的反向代理和負(fù)載均衡,分別指向靜態(tài)文件服務(wù)器或Web服務(wù)器,實(shí)現(xiàn)網(wǎng)頁(yè)相關(guān)界面的顯示與交互。前端集群通過(guò)遠(yuǎn)程調(diào)用的方式與后端業(yè)務(wù)集群進(jìn)行通信,實(shí)現(xiàn)相關(guān)業(yè)務(wù)操作、MySQL數(shù)據(jù)庫(kù)交互操作、數(shù)據(jù)計(jì)算與結(jié)果緩存到Redis等操作。對(duì)于后端業(yè)務(wù)操作中的數(shù)據(jù)計(jì)算環(huán)節(jié)則由數(shù)據(jù)計(jì)算集群負(fù)責(zé),如:實(shí)時(shí)同步業(yè)務(wù)庫(kù)、設(shè)備數(shù)據(jù)實(shí)時(shí)計(jì)算等。

        在數(shù)據(jù)計(jì)算集群中部署了Hadoop平臺(tái)(HDFS、HBase、Yarn)以及Flink、Kafka、Zookeeper等組件。其中HDFS負(fù)責(zé)進(jìn)行底層數(shù)據(jù)的存儲(chǔ),具體由HDFS的DataNode進(jìn)行文件分片多備份存放,由NameNode進(jìn)行元數(shù)據(jù)管理和文件操作管理,同時(shí)通過(guò)Zookeeper注冊(cè)兩個(gè)NameNode并實(shí)時(shí)監(jiān)控狀態(tài),防止一方故障立即切換到另一個(gè),從而保證NameNode的高可用性。HBase負(fù)責(zé)對(duì)同步業(yè)務(wù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),由HMaster管理多個(gè)RegionServer進(jìn)行數(shù)據(jù)維護(hù)和查詢,底層由HDFS進(jìn)行存儲(chǔ)。對(duì)于實(shí)時(shí)計(jì)算部分通過(guò)Kafka Broker接受Kafka生產(chǎn)者生產(chǎn)的實(shí)時(shí)消息,再通過(guò)Kafka消費(fèi)者Flink進(jìn)行處理計(jì)算,其中Kafka的生產(chǎn)、消費(fèi)進(jìn)度由Zookeeper進(jìn)行記錄。Flink不僅提供實(shí)時(shí)計(jì)算,同時(shí)提供離線批量計(jì)算,其計(jì)算過(guò)程通過(guò)Yarn申請(qǐng)計(jì)算資源,具體由ResourceManager管理資源并分配到NodeManager上進(jìn)行計(jì)算。

        3 工業(yè)大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)

        3.1 基于Maxwell的業(yè)務(wù)庫(kù)同步設(shè)計(jì)

        為了緩解基礎(chǔ)業(yè)務(wù)庫(kù)的讀寫(xiě)壓力,提高復(fù)雜業(yè)務(wù)表的查詢分析效率,系統(tǒng)利用Maxwell實(shí)時(shí)監(jiān)聽(tīng)MySQL的binlog日志,然后解析成json格式發(fā)到消息隊(duì)列Kafka,再通過(guò)Flink消費(fèi)Kafka數(shù)據(jù)存儲(chǔ)到HBase,從而供其他后端分析業(yè)務(wù)進(jìn)行讀取、查詢。基于Maxwell的業(yè)務(wù)庫(kù)同步設(shè)計(jì)具體過(guò)程如圖3所示。

        其具體實(shí)現(xiàn)步驟如下:

        (1)編輯MySQL配置文件my.cnf,開(kāi)啟binlog功能;

        (2)創(chuàng)建Maxwell用戶并賦權(quán)限;

        (3)啟動(dòng)Kafka集群;

        (4)修改Maxwell的config.properties文件,配置MySQL數(shù)據(jù)庫(kù)連接信息、配置producer類(lèi)型為Kafka、配置Kafka集群連接信息和topic、配置同步業(yè)務(wù)庫(kù)信息;

        (5)啟動(dòng)Maxwell,開(kāi)始監(jiān)聽(tīng);

        (6)創(chuàng)建Flink消費(fèi)Kafka任務(wù),對(duì)Maxwell產(chǎn)生的數(shù)據(jù)進(jìn)行實(shí)時(shí)處理寫(xiě)入HBase。

        3.2 基于Kafka和Flink的實(shí)時(shí)計(jì)算

        對(duì)于實(shí)時(shí)同步的MySQL業(yè)務(wù)庫(kù)binlog數(shù)據(jù),Maxwell首先進(jìn)行解析傳入Kafka消息隊(duì)列,然后通過(guò)Flink對(duì)這些實(shí)時(shí)產(chǎn)生的業(yè)務(wù)庫(kù)同步數(shù)據(jù)進(jìn)行消費(fèi),實(shí)現(xiàn)寫(xiě)入HBase中。具體步驟包括:

        (1)在Kafka中創(chuàng)建消息訂閱主題“maxwell”,定義副本數(shù)2個(gè),分區(qū)數(shù)9個(gè)。Maxwell作為生產(chǎn)者對(duì)MySQL的binlog文件進(jìn)行解析成json格式數(shù)據(jù),再發(fā)送到“maxwell”這個(gè)主題下。

        (2)服務(wù)器端配置連接信息,包括:Flink流式處理環(huán)境、Zookeeper的集群信息、Kafka集群信息、消費(fèi)者組信息、數(shù)據(jù)格式等。

        (3)通過(guò)Kafka Flink Connector API創(chuàng)建線程池對(duì)接Kafka,將Maxwell的同步數(shù)據(jù)實(shí)時(shí)寫(xiě)入HBase。通過(guò)Flink的DataStream算子的map過(guò)程處理每一條消息,分別調(diào)用HBase API執(zhí)行數(shù)據(jù)寫(xiě)入操作。

        4 系統(tǒng)實(shí)現(xiàn)

        4.1 集群環(huán)境部署

        系統(tǒng)在1個(gè)主節(jié)點(diǎn)、6個(gè)計(jì)算節(jié)點(diǎn)上搭建Hadoop集群,同時(shí)部署MySQL主備節(jié)點(diǎn)、Kafka、Flink、Maxwell等組件。各節(jié)點(diǎn)配置包括:CentOS 7.3 64位操作系統(tǒng)、Intel(R) Xeon CPU 2.4GHz 4Core的CPU、24GB內(nèi)存、1TB硬盤(pán),Hadoop版本為Hadoop 2.6.0,F(xiàn)link版本為Flink 1.9.0,MySQL版本為MySQL 5.6。

        4.2 性能測(cè)試

        系統(tǒng)采用HBase存儲(chǔ)業(yè)務(wù)同步庫(kù)面向數(shù)據(jù)查詢和分析,因此,在性能測(cè)試方面針對(duì)HBase的數(shù)據(jù)查詢性能進(jìn)行實(shí)驗(yàn)。如圖4所示為不同數(shù)據(jù)量情況下執(zhí)行run操作時(shí)MySQL和HBase的耗時(shí)對(duì)比。

        在數(shù)據(jù)量比較少的情況下,MySQL與HBase所用時(shí)間相當(dāng),但隨著數(shù)據(jù)量的增長(zhǎng),HBase和MySQL的處理時(shí)間產(chǎn)生越來(lái)越大的差距,且HBase具有更低的處理延遲。

        如圖5所示為向HBase與MySQL中插入數(shù)據(jù)時(shí)總吞吐量的對(duì)比。當(dāng)數(shù)據(jù)量較小,MySQL吞吐量較HBase更大;當(dāng)數(shù)據(jù)量較大,HBase的吞吐量相比MySQL更優(yōu),且隨著插入數(shù)據(jù)量規(guī)模的增大,MySQL的吞吐量逐漸變小并趨于平緩達(dá)到瓶頸,而HBase在數(shù)據(jù)規(guī)模增大的同時(shí)具有更大的數(shù)據(jù)吞吐量。因此,在處理大規(guī)模數(shù)據(jù)插入場(chǎng)景中,HBase相較MySQL更具優(yōu)勢(shì)。

        5 結(jié)束語(yǔ)

        本文基于Hadoop技術(shù)實(shí)現(xiàn)對(duì)工業(yè)大規(guī)模數(shù)據(jù)進(jìn)行存儲(chǔ)管理,對(duì)業(yè)務(wù)庫(kù)和實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)庫(kù)的存儲(chǔ)管理進(jìn)行優(yōu)化。設(shè)計(jì)業(yè)務(wù)庫(kù)的集群化同步存儲(chǔ)架構(gòu),對(duì)存儲(chǔ)在MySQL中的業(yè)務(wù)數(shù)據(jù)進(jìn)行實(shí)時(shí)同步到Kafka;基于Flink對(duì)業(yè)務(wù)庫(kù)同步數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算處理,實(shí)現(xiàn)高并發(fā)數(shù)據(jù)寫(xiě)入場(chǎng)景下的低延遲響應(yīng);最后,實(shí)驗(yàn)進(jìn)行了HBase和MySQL的性能對(duì)比測(cè)試,結(jié)果表明本系統(tǒng)在大規(guī)模數(shù)據(jù)場(chǎng)景下具有更好的計(jì)算效率表現(xiàn),能夠有效進(jìn)行工業(yè)大數(shù)據(jù)分析存儲(chǔ)。

        參考文獻(xiàn):

        [1]劉祎,王瑋.工業(yè)大數(shù)據(jù)時(shí)代技術(shù)示能性研究綜述與未來(lái)展望[J].科技進(jìn)步與對(duì)策,2019,36(20):154-160.

        [2]何文韜,邵誠(chéng).工業(yè)大數(shù)據(jù)分析技術(shù)的發(fā)展及其面臨的挑戰(zhàn)[J].信息與控制,2018,47(04):398-410.

        [3]黃新波,張瑜,朱波.智能變電設(shè)備監(jiān)控與決策輔助系統(tǒng)數(shù)據(jù)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[J].高壓電器,2016,52(03):15-22.

        [4]王瀚哲,楊超宇,梁胤程.煤礦作業(yè)規(guī)程管理系統(tǒng)設(shè)計(jì)及關(guān)鍵技術(shù)研究[J].中國(guó)煤炭,2014,40(12):71-74+95.

        [5]張華偉,陳勇,李海斌,等.基于HBase的工業(yè)大數(shù)據(jù)時(shí)序數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)[J].電信科學(xué),2017,33(S1):21-27.

        [6]孟祥曦,張凌,郭皓明,等.一種面向工業(yè)互聯(lián)網(wǎng)的云存儲(chǔ)方法[J].北京航空航天大學(xué)學(xué)報(bào),2019,45(01):130-140.

        [7]趙亞楠,李朝奎,肖克炎,等.基于Hadoop的地質(zhì)礦產(chǎn)大數(shù)據(jù)分布式存儲(chǔ)方法[J].地質(zhì)通報(bào),2019,38(Z1):462-470.

        [8]鄭柏恒,孟文,易東,等.在Hadoop集群下的智能電網(wǎng)數(shù)據(jù)云倉(cāng)庫(kù)設(shè)計(jì)[J].制造業(yè)自動(dòng)化,2014,36(19):134-138.

        [9]代明竹,高嵩峰.基于Hadoop、Spark及Flink大規(guī)模數(shù)據(jù)分析的性能評(píng)價(jià)[J].中國(guó)電子科學(xué)研究院學(xué)報(bào),2018,13(02):149-155.

        久久精品中文字幕亚洲| 女人扒开下面无遮挡| 亚洲天堂在线视频播放| 亚洲日韩国产精品不卡一区在线 | 放荡的闷骚娇妻h| 亚洲综合一| 久亚洲一线产区二线产区三线麻豆| 国产高清在线精品一区app| 无码成人aaaaa毛片| 国产成人一区二区三区免费观看| 国产精品午夜福利天堂| 先锋影音人妻啪啪va资源网站| 人人妻人人澡人人爽精品欧美| 欧美视频九九一区二区| 国产精品久久久看三级| 国产人成视频在线视频| 久久久无码中文字幕久...| 亚洲—本道中文字幕久久66| 日本一区二区在线播放| 在线无码中文字幕一区| 性高朝久久久久久久| 久热re在线视频精品免费| 久久久国产熟女综合一区二区三区 | 97夜夜澡人人双人人人喊| 精品免费福利视频| 人妻中出中文字幕在线| 色婷婷av一区二区三区久久 | 亚洲夫妻性生活视频网站| 国产91成人精品高潮综合久久| 久久久久久亚洲av无码蜜芽| 国内精品久久久久影院优| av免费在线观看在线观看| 免费午夜爽爽爽www视频十八禁 | 美利坚日韩av手机在线| 午夜福利院电影| 国内精品一区二区2021在线 | 性av一区二区三区免费| 久久综合狠狠综合久久| 天堂av一区二区在线观看| 亚洲精品中文字幕不卡| 色噜噜久久综合伊人一本|