亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于StarRocks的實時數(shù)倉設計

        2023-02-23 01:26:28高海峰葉春明
        計算機時代 2023年2期
        關鍵詞:架構(gòu)設計考勤視圖

        高海峰,葉春明

        (上海理工大學管理學院,上海 200090)

        0 引言

        當今社會,數(shù)字化、信息化和智能化已成為時代特征,數(shù)字經(jīng)濟已成為經(jīng)濟發(fā)展的必然支持。隨著5G時代的來臨,數(shù)字經(jīng)濟成為新的發(fā)展動力,數(shù)字化轉(zhuǎn)型成為企業(yè)發(fā)展戰(zhàn)略的一個重要選擇。

        IBM Marketing cloud的一份最新報告中指出“僅過去兩年就建立了今天90%的資料,每天建立2.5 億億字節(jié),隨著新設備、傳感器和新技術的出現(xiàn),數(shù)據(jù)增長率也會隨之加速。”

        目前,我國已發(fā)展出一系列成熟的大數(shù)據(jù)基礎設施,批計算方面有基于Spark 計算的分布式集群,流計算方面有基于Storm 的分布式集群。大數(shù)據(jù)的存儲方面有基于融合型數(shù)據(jù)庫的TiDB,有基于MPP 架構(gòu)的數(shù)據(jù)庫ClickHouse[1],有基于Hadoop 的Hive 等等[2]。但是,由于技術迭代更新,各類運算與儲存設備層出不窮,我們在做集群模式的選型時,須遵循三方面的基本原則:集群的穩(wěn)定性、數(shù)據(jù)處理的高效性和投資的合理性。應結(jié)合實際情況,采用相對成熟的更先進的技術,提高整體應用性能,并減少資源的浪費,提升整體的應用建設效能。

        基于上述考慮,本文提出一種新型實時數(shù)倉設計方案,結(jié)合使用了基于StarRocks的存儲技術以及基于Flink的實時計算技術[3],應用于數(shù)據(jù)中臺[4]相關領域的業(yè)務中,在性能以及吞吐量等方面都有明顯的提升。一方面,有效減少了整個集群中服務器節(jié)點的數(shù)量,進而節(jié)約了硬件資源的投入;另一方面,大幅提高了整體的計算性能。

        1 Flink概述

        Apache Flink 是一個較成熟的流計算技術,主要用于在無邊界和有邊界數(shù)據(jù)流上進行有狀態(tài)的計算。Flink 的兼容性以及擴展性都非常優(yōu)秀,常見的集群環(huán)境中都可以運行Flink,計算的速度媲美內(nèi)存計算的速度,計算的數(shù)據(jù)規(guī)模可以達到任意規(guī)模。

        Apache Flink 功能非常強大,可以開發(fā)多種不同種類的應用[5]。它的主要特征包含:流批一體化、事件支持、精細的狀態(tài)管理以及精確一次的狀態(tài)一致性保障等。Flink不僅可以運行在多種資源管理框架上,包括YARN、Mesos、Kubernetes 等,也可以運行在裸機集群上。在高可用模式下,不存在單點故障的問題。事實證明,F(xiàn)link 可以擴展到數(shù)千核心,其狀態(tài)可以達到TB 級別,且仍能保持高吞吐、低延遲的特點。全球各地,有非常多要求苛刻的流處理應用都運行在Flink上面。

        Flink 是近兩年大數(shù)據(jù)計算領域的一顆新星。但是,在我國很多的大型互聯(lián)網(wǎng)企業(yè)中均有實際應用,如阿里、美團、京東等。本文對三種主流的開源流處理框架做對比[6],具體如表1所示。

        表1 3種主流的開源流處理框架的技術對比

        基于以上的綜合比較分析,F(xiàn)link 是一個設計優(yōu)良的框架,低延遲、高性能、高吞吐是三個典型的特征,非常符合項目的選型特征,所以本文采用Flink 技術作為流計算支撐。

        2 StarRocks概述

        StarRocks 是一款高性能分析型數(shù)據(jù)倉庫,使用向量化、MPP 架構(gòu)、可實時更新的列式存儲引擎等技術實現(xiàn)多維、實時、高并發(fā)的數(shù)據(jù)分析。StarRocks 既支持從各類實時和離線的數(shù)據(jù)源高效導入數(shù)據(jù),也支持直接分析數(shù)據(jù)湖上各種格式的數(shù)據(jù)。同時StarRocks具備水平擴展,高可用,高可靠,易運維等特性。廣泛應用于實時數(shù)倉、OLAP 報表、數(shù)據(jù)湖分析等場景。

        StarRocks 也是近兩年在大數(shù)據(jù)分析領域發(fā)展起來的一顆新星,但在國內(nèi)許多大型互聯(lián)網(wǎng)企業(yè)的數(shù)倉建設中均有應用,本文對近幾年主流開源數(shù)倉技術作對比,具體如表2所示。

        表2 ClickHouse和StarRocks的對比

        綜合比較之下,StarRocks 是一個非常不錯的選擇,不僅性能出色,而且功能也非常強大,解決了很多傳統(tǒng)數(shù)倉架構(gòu)的問題,所以這是本文采用StarRocks作為數(shù)倉的根本原因。

        3 架構(gòu)設計

        3.1 整體架構(gòu)設計

        本項目的整體設計結(jié)合了分層架構(gòu)[7]和功能模塊化[8]思路。模塊間采用標準接口的方式,便于升級替換,整體架構(gòu)分為三層,具體如圖1所示。

        圖1 系統(tǒng)整體架構(gòu)圖

        ⑴數(shù)據(jù)采集層:支持多源異構(gòu)數(shù)據(jù)的采集。包括:各類關系型數(shù)據(jù)庫、非關系型數(shù)據(jù)庫、日志平臺、統(tǒng)一數(shù)據(jù)采集工具等。

        ⑵數(shù)據(jù)處理層:與數(shù)據(jù)采集的源數(shù)據(jù)端進行對接,從而實現(xiàn)數(shù)據(jù)的多樣化處理。包括流計算、批計算等,并對外提供統(tǒng)一的數(shù)據(jù)查詢服務。

        ⑶數(shù)據(jù)應用層:基于數(shù)據(jù)處理層提供的統(tǒng)一數(shù)據(jù)查詢服務,提供多場景應用的支持。包括數(shù)據(jù)可視化分析、實時場景等。

        3.2 實時數(shù)倉架構(gòu)設計

        在圖1 所示的系統(tǒng)整體架構(gòu)圖基礎上,對實時鏈路以及數(shù)據(jù)倉庫等細節(jié)進行細化,遵循分層架構(gòu)的原則,將數(shù)據(jù)處理層進一步拆分為兩層:數(shù)據(jù)處理層和數(shù)據(jù)存儲層,旨在突出Flink 的核心角色以及StarRocks 在數(shù)據(jù)存儲中的核心角色。實時數(shù)倉的架構(gòu)設計,具體如圖2所示。

        圖2 實時數(shù)倉架構(gòu)圖

        4 業(yè)務實現(xiàn)

        圖3 所示為考勤業(yè)務場景數(shù)據(jù)處理的流程,技術選型[9]為Kafka+Flink+Redis+StarRocks。

        圖3 考勤業(yè)務場景數(shù)據(jù)處理流程圖

        Kafka 用于實時傳遞需要計算的數(shù)據(jù),F(xiàn)link 用于實時計算并將計算結(jié)果存儲于Redis 中,StarRocks 承擔數(shù)據(jù)倉庫的職責,包括ODS、DWD、DWS、ADS 層,并對外提供統(tǒng)一數(shù)據(jù)查詢服務。

        4.1 數(shù)據(jù)采集

        考勤數(shù)據(jù)實時寫入Kafka 集群,基于業(yè)務屬性和數(shù)據(jù)規(guī)模的考慮,對KafkaTopic 做了細化設計,具體如表3所示。

        表3 KafkaTopic設計

        4.2 數(shù)據(jù)處理

        Flink計算的時間維度如表4所示。

        表4 Flink計算的時間維度

        考勤場景的數(shù)據(jù)范圍及計算要求如表5所示。

        表5 考勤場景的數(shù)據(jù)范圍及計算要求

        4.3 數(shù)據(jù)存儲

        本文采用的存儲技術是StarRocks 集群,具體如圖4所示。

        圖4 StarRocks的數(shù)據(jù)存儲

        StarRocks 支持使用物化視圖來進行查詢加速。不同于一些同類產(chǎn)品的物化視圖需要異步和原表做數(shù)據(jù)同步,StarRocks 的物化視圖可以自動根據(jù)原表更新數(shù)據(jù)。只要原表數(shù)據(jù)發(fā)生變更,物化視圖的更新也同步完成,不需要額外的操作。

        4.4 應用效果

        根據(jù)本文的設計方案,集群部署了50 臺物理機,可以達到以下的性能要求:處理數(shù)據(jù)量50T/天,處理數(shù)據(jù)條數(shù)200億條/天。

        經(jīng)過多輪綜合驗證,具體的時延效果如表6所示。大幅節(jié)省了物理機的部署,降低了CPU 使用率,具體性能效果如表7所示。

        表6 時延效果表

        表7 性能效果表

        基于StarRocks 的13 種查詢場景的性能效果,如表8所示。

        表8 StarRocks性能效果表

        120億數(shù)據(jù)規(guī)模下的性能效果,如圖5所示。

        圖5 StarRocks與ClickHouse性能對比

        從圖5 數(shù)據(jù)可見,StarRocks 的查詢性能明顯優(yōu)于ClickHouse,這得益于StarRocks 針對HLL 查詢的性能優(yōu)化。

        5 結(jié)束語

        本文面向解決傳統(tǒng)數(shù)倉架構(gòu)的效率和吞吐量等問題,設計了高效的實時數(shù)倉架構(gòu),結(jié)合使用了Flink流計算技術及StarRocks 存儲技術。并結(jié)合企業(yè)內(nèi)的考勤業(yè)務場景,實現(xiàn)了基于Kafka+Flink+Redis+StarRocks技術組合的系統(tǒng)升級上線。在減少一倍硬件資源投入的情況下,時延降低至原先的一半,數(shù)據(jù)處理吞吐性能提升至四倍以上,滿足了企業(yè)對于高并發(fā)、實時計算、低延遲和大數(shù)據(jù)存儲的需求,達到了降本增效的目的。

        猜你喜歡
        架構(gòu)設計考勤視圖
        基于安全性需求的高升力控制系統(tǒng)架構(gòu)設計
        基于人臉識別技術的考勤應用研究
        電子制作(2019年12期)2019-07-16 08:45:28
        智能人臉識別考勤系統(tǒng)
        電子制作(2019年9期)2019-05-30 09:42:00
        5.3 視圖與投影
        視圖
        便攜式指紋考勤信息管理系統(tǒng)設計
        Y—20重型運輸機多視圖
        SA2型76毫米車載高炮多視圖
        “最嚴考勤”難留學生心
        對稱加密算法RC5的架構(gòu)設計與電路實現(xiàn)
        日本真人边吃奶边做爽电影| 日韩人妻无码精品系列专区无遮| 亚洲中文字幕高清乱码毛片| 亚洲一区二区三区2021| 亚洲熟妇色自偷自拍另类| 成人白浆超碰人人人人| 色www亚洲| 亚洲福利视频一区二区三区| 丰满女人猛烈进入视频免费网站| 无码人妻av一二区二区三区 | 丰满少妇人妻无码| 国产精品熟女一区二区| 久久久久久99精品| 偷拍一区二区三区黄片| 久久成人成狠狠爱综合网| 少妇脱了内裤让我添| 92精品国产自产在线观看48页| 熟女少妇av一区二区三区| 中国妇女做爰视频| 欧美日韩精品一区二区三区不卡| 国产精品原创永久在线观看| 久久精品国产9久久综合| 妺妺窝人体色www看人体| 亚洲爆乳无码专区| 亚洲区一区二区中文字幕| 青青草免费在线爽视频| 国产激情久久久久影院老熟女 | 曰本人做爰又黄又粗视频| 亚洲国产一区二区三区网| 国产青春草在线观看视频| 国产一区二区三区日韩精品| 使劲快高潮了国语对白在线| 亚洲中字幕永久在线观看| 日韩中文字幕不卡在线| 久久99精品久久久久久9蜜桃| 国产白丝在线| 国产精品国产三级国a| 亚洲精品国产成人片| 亚洲 欧美 国产 日韩 精品| 在线免费观看视频播放| 亚洲乱码中文在线观看|