亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于QingStor對(duì)象存儲(chǔ)的數(shù)據(jù)湖解決方案

        2019-03-23 06:02:29青云QingCloud
        智能制造 2019年9期
        關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)化機(jī)器

        一、數(shù)據(jù)湖

        數(shù)據(jù)湖在學(xué)術(shù)上的定義是一種在系統(tǒng)或者存儲(chǔ)庫(kù)以自然格式存儲(chǔ)的方法。它有助于存儲(chǔ)各種模式和結(jié)構(gòu)形式的數(shù)據(jù),通常是對(duì)象塊或者文件。

        為什么現(xiàn)在會(huì)提出新的自然存儲(chǔ)格式方法?以前如何存儲(chǔ)數(shù)據(jù)?在使用數(shù)據(jù)倉(cāng)庫(kù)時(shí)需調(diào)動(dòng)處理大量的數(shù)據(jù)。正是因?yàn)榇髷?shù)據(jù)的產(chǎn)生,提出了數(shù)據(jù)湖的概念。

        大數(shù)據(jù)來(lái)了,它就像水一樣,我們無(wú)法把水存在傳統(tǒng)的倉(cāng)庫(kù)里。一是它太大了,二是它很廉價(jià),三是它的形態(tài)不一樣了。大數(shù)據(jù)速度大快,就像洪水一樣,在使用過(guò)程中沒(méi)法做減庫(kù)、入庫(kù)的操作,要快速以自然的格式存儲(chǔ)。因此,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)存的是結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)湖里存的是非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)。

        二、數(shù)據(jù)湖實(shí)踐報(bào)告

        采用數(shù)據(jù)湖存儲(chǔ)數(shù)據(jù)的原因,一方面是現(xiàn)階段及未來(lái)需要處理大量非結(jié)構(gòu)化的數(shù)據(jù),另一方面是為了機(jī)器學(xué)習(xí)和人工智能的分析使用。數(shù)據(jù)湖的產(chǎn)生會(huì)把數(shù)據(jù)倉(cāng)庫(kù)的一部分功能移植到數(shù)據(jù)湖中,數(shù)據(jù)湖的成本比數(shù)據(jù)倉(cāng)庫(kù)的成本更低廉。

        經(jīng)過(guò)使用調(diào)研,近一半的人認(rèn)為企業(yè)使用數(shù)據(jù)湖已經(jīng)迫在眉睫,四分之一的人認(rèn)為已經(jīng)部署了數(shù)據(jù)湖,另外四分之一的人會(huì)在一年內(nèi)部署數(shù)據(jù)湖。

        很多人把傳統(tǒng)數(shù)據(jù)放在數(shù)據(jù)湖里,數(shù)據(jù)湖不光有原始數(shù)據(jù),它也有大量的數(shù)據(jù)加工處理工作。它的數(shù)據(jù)量在不斷增加,逐步邁向PB級(jí)。

        從數(shù)據(jù)管理來(lái)說(shuō),數(shù)據(jù)湖還是由傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì)管理和IT部門(mén)管理,業(yè)務(wù)部門(mén)只占少數(shù)。大部分是工程師、架構(gòu)師和分析師在用數(shù)據(jù)湖,業(yè)務(wù)員和非技術(shù)人員用得比較少。

        從架構(gòu)和平臺(tái)的采納方面來(lái)說(shuō),目前數(shù)據(jù)湖以Hadoop為多,傳統(tǒng)數(shù)據(jù)可以采用關(guān)系型數(shù)據(jù)湖,二者結(jié)合使用的也很好。

        三、HashData云端數(shù)據(jù)湖解決方案

        在青云QingCloud上的數(shù)據(jù)湖包括存儲(chǔ)、分析和搜索幾個(gè)模塊。存儲(chǔ)用的是QingStor對(duì)象存儲(chǔ);分析用的是HashData V2版本計(jì)算引擎;數(shù)據(jù)攝取用的是QingMR,結(jié)合Kalka做存儲(chǔ);機(jī)器學(xué)習(xí)除了配有QingMRSteaming和SparkMR,還有SQL機(jī)器學(xué)習(xí)的工具。

        在存儲(chǔ)方面,大家對(duì)數(shù)據(jù)湖的需求是數(shù)據(jù)湖要存得住、存得起。對(duì)象存儲(chǔ)支持海量的數(shù)據(jù)存儲(chǔ),可以無(wú)限擴(kuò)展,存大數(shù)據(jù)沒(méi)問(wèn)題。存得起,就要我們提供一個(gè)經(jīng)濟(jì)實(shí)用的存儲(chǔ)。從存儲(chǔ)角度來(lái)看,如果使用對(duì)象存儲(chǔ),會(huì)大幅降低數(shù)據(jù)湖的存儲(chǔ)成本。

        存儲(chǔ)成本降下來(lái)了,如何保證你的計(jì)算性能?從計(jì)算層面,HashData采用了V2架構(gòu)。

        (1)物聯(lián)網(wǎng)客戶使用實(shí)例

        HashDataV1版本在塊存儲(chǔ)磁盤(pán)上,大概有2萬(wàn)IoT傳感器設(shè)備,每時(shí)每刻都在不斷地產(chǎn)生數(shù)據(jù),數(shù)據(jù)膨脹得非常厲害。如何按照客戶需求降低成本?通過(guò)青云的測(cè)試分級(jí)存儲(chǔ)機(jī)制,實(shí)現(xiàn)了既大幅降低了存儲(chǔ)成本,又保證了查詢性能的目標(biāo)。

        HashDataV2的架構(gòu)繼承了GreenPlum體系,用SQL解決問(wèn)題,這簡(jiǎn)化了數(shù)據(jù)湖的使用。

        (2)大數(shù)據(jù)工具

        大數(shù)據(jù)應(yīng)用對(duì)實(shí)時(shí)性要求比較高。目前用得比較多的三個(gè)工具:Storm、Spark Steaming和FLink。對(duì)比Spark Steaming和Storm:

        實(shí)時(shí)性:Spark Steaming從計(jì)算模型來(lái)看是準(zhǔn)實(shí)時(shí);Storm是實(shí)時(shí)的,數(shù)據(jù)進(jìn)入后便實(shí)時(shí)進(jìn)行處理。

        延時(shí)性:Storm達(dá)到毫秒級(jí),Spark Steaming達(dá)到秒級(jí)。

        存儲(chǔ)量:Spark Steaming更3<-點(diǎn),它更符合大數(shù)據(jù)的處理需求,實(shí)現(xiàn)秒級(jí)接受可滿足一般應(yīng)用場(chǎng)景需要。若產(chǎn)生幾萬(wàn)條乃至10萬(wàn)條數(shù)據(jù)方可批量寫(xiě)入,不需要逐條寫(xiě)。

        HashData標(biāo)配是采用SparkSteaming做實(shí)時(shí)數(shù)據(jù)的攝取。

        機(jī)器學(xué)習(xí)分析Spark MLab是通用的,更多的是做MADlib,MADlib是Apache的頂級(jí)開(kāi)源項(xiàng)目,只在PostgreSQL和GreenPlum體系里可以用。它的特點(diǎn)是基于SQL,以前用Spark做機(jī)器學(xué)習(xí),用Python、Skyline或R。SQL大部分工程師都會(huì)用,學(xué)一兩周就能簡(jiǎn)單上手。Spark能做的具體功能,它也可以做。它也是InDatabase的數(shù)據(jù)分析,數(shù)據(jù)湖就在其所屬的平臺(tái)上,如果要采用另外的工具分析,這里有大量的數(shù)據(jù)交換。它在Base里減少數(shù)據(jù)交換,并且可以充分利用HashData的并行計(jì)算,可以保證其性能。

        四、云端數(shù)據(jù)治理和數(shù)據(jù)安全

        前面談到數(shù)據(jù)治理和數(shù)據(jù)安全。HashData秉承PostgreSQL和GreenPlum完整的權(quán)限管理功能,如Table、Database和Funtcion等。

        在元數(shù)據(jù)管理上,存到HashData里的表和字段,除了存到數(shù)據(jù)節(jié)點(diǎn)上之外,還會(huì)把元數(shù)據(jù)存到GlobalCatalog上,這時(shí)數(shù)據(jù)治理工具或者DPU管理員可清楚地知道存到數(shù)據(jù)湖里有哪些數(shù)據(jù)、什么時(shí)候存的、數(shù)據(jù)有多大都可一目了然,數(shù)據(jù)治理非常方便。

        HashData主要應(yīng)用場(chǎng)景就有工業(yè)數(shù)據(jù)湖。工業(yè)數(shù)據(jù)湖IoT有大量的數(shù)據(jù)需要做分析、預(yù)測(cè)性維修等。一部分是電信用戶行為分析、日志分析;還有交通大數(shù)據(jù)處理工作,例如卡口信息,在工作范圍內(nèi)大量拍照,拍照后人工智能攝像頭可以很方便地把牌照信息進(jìn)行結(jié)構(gòu)化處理解析出來(lái),結(jié)構(gòu)化數(shù)據(jù)的存到HashData上,如牌照、車(chē)牌顏色等都存在數(shù)據(jù)庫(kù)里,并進(jìn)一步分析其流量、高速公路繳費(fèi)信息等。

        總結(jié)來(lái)說(shuō),HashData的優(yōu)勢(shì)是把它放在對(duì)象存儲(chǔ)的成本降下來(lái)了,同時(shí)保證性能不變。HashData也繼承了云的特點(diǎn),通過(guò)鼠標(biāo)操作就可以在幾分鐘內(nèi)把集群起起來(lái),不需要花一兩天的工夫安裝部署。技術(shù)生態(tài)秉承了原來(lái)GreenPlum、PostgreSQL這種用SQL解決問(wèn)題的思路。在彈性方面,HashData支持在線擴(kuò)容。

        猜你喜歡
        數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)化機(jī)器
        機(jī)器狗
        機(jī)器狗
        促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        基于數(shù)據(jù)倉(cāng)庫(kù)的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        未來(lái)機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉(cāng)庫(kù)中的設(shè)計(jì)
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
        基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析探索與實(shí)踐
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        欧美巨大xxxx做受l| 精品国产亚洲第一区二区三区 | 中文字日产幕码三区国产| 成 人片 黄 色 大 片| 女人扒开屁股爽桶30分钟| 亚洲Av午夜精品a区| 美腿丝袜一区二区三区| 蜜臀人妻精品一区二区免费| 国产av自拍视频在线观看| 国模无码一区二区三区| 国产成人www免费人成看片| 亚洲成av人无码免费观看| 色偷偷亚洲精品一区二区| 精品人妻一区三区蜜桃| 亚洲av永久无码精品网址| 日本少妇人妻xxxxx18| 亚洲大尺度动作在线观看一区| 蜜桃视频一区视频二区| 99re6在线视频精品免费下载| 曰本人做爰又黄又粗视频| 色综合久久久久久久久五月| 毛片av在线尤物一区二区| 男男啪啪激烈高潮无遮挡网站网址| 中文字幕亚洲综合久久| 国产熟妇人妻精品一区二区动漫| 日日爽日日操| 风流少妇一区二区三区91| 亚洲桃色视频在线观看一区| 亚洲av日韩av在线观看| 欧美在线a| 人妻夜夜爽天天爽一区 | 欧美牲交videossexeso欧美| 成人综合网亚洲伊人| 国产成人精品aaaa视频一区| 日本国产一区在线观看| 亚洲精品无码精品mv在线观看| 国产高清在线精品一区二区三区| 呦泬泬精品导航| 日韩亚洲在线一区二区| 国产精品一区二区性色| 天美传媒一区二区|