亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分布式數(shù)據(jù)庫的ROLAP數(shù)據(jù)自助分析系統(tǒng)的研究與應(yīng)用

        2018-04-25 09:45:32張波
        科技創(chuàng)新與應(yīng)用 2018年11期
        關(guān)鍵詞:數(shù)據(jù)分析

        張波

        摘 要:文章通過對某保險公司的分布式數(shù)據(jù)庫架構(gòu)下數(shù)據(jù)自助分析平臺中的應(yīng)用方案進行研究與應(yīng)用,提出在自助分析系統(tǒng)中使用分布式MPP數(shù)據(jù)庫進行海量數(shù)據(jù)處理的思路,對開源分布式數(shù)據(jù)庫GreenPlum進行了重點分析,同時結(jié)合ROLAP自助分析系統(tǒng)的功能特點,給出系統(tǒng)部署的應(yīng)用建議。研究內(nèi)容對于分布式數(shù)據(jù)庫在大數(shù)據(jù)決策分析系統(tǒng)的落地具有一定的實用價值。

        關(guān)鍵詞:分布式數(shù)據(jù)庫;BIG LAKE;ROLAP;數(shù)據(jù)分析

        中圖分類號:TP311.1 文獻(xiàn)標(biāo)志碼:A 文章編號:2095-2945(2018)11-0055-02

        Abstract: Through the research and application of the data self-help analysis platform under the distributed database architecture of an insurance company, this paper puts forward the idea of using distributed MPP database for mass data processing in the self-help analysis system, analyzes the open source distributed database GreenPlum emphatically, and through the function characteristics of ROLAP self-help analysis system, the application suggestions of system deployment are given. The research content has certain practical value to the distributed database in big data decision analysis system landing.

        Keywords: distributed database; BIG LAKE; ROLAP; data analysis

        1 概述

        近幾年,隨著移動互聯(lián)網(wǎng)的高速發(fā)展,大數(shù)據(jù)、云計算等新技術(shù)的不斷推進,保險公司面臨著海量的數(shù)據(jù)處理、復(fù)雜的數(shù)據(jù)結(jié)構(gòu)分析、精細(xì)化業(yè)務(wù)需求、平臺能力開放共享等多重壓力,所以需要先進的技術(shù),搭建公司全新的大數(shù)據(jù)處理平臺及自助分析系統(tǒng)。國內(nèi)外有一個非?;馃岬脑~匯“BIG LAKE”(數(shù)據(jù)湖泊),目的是不需要再對數(shù)據(jù)像以前那樣經(jīng)過定制,生成特定的業(yè)務(wù)報表,而是要保存原始數(shù)據(jù),什么時候想分析就從原始數(shù)據(jù)上直接處理。依托云計算分布式數(shù)據(jù)庫技術(shù),處理、整合海量數(shù)據(jù),實現(xiàn)原始清單粒度的ROLAP技術(shù)的自助分析系統(tǒng),將會極大提高數(shù)據(jù)挖掘的價值,為企業(yè)經(jīng)營提供決策、營銷、服務(wù)建議的支撐工作。

        2 云計算下的分布式數(shù)據(jù)庫

        2.1 SQL on Hadoop和MPP技術(shù)選型

        數(shù)據(jù)倉庫是數(shù)據(jù)分析類系統(tǒng)的核心,傳統(tǒng)數(shù)倉一般采用完全共享的架構(gòu)部署,隨著存儲數(shù)據(jù)的增長,性能負(fù)載將急劇增加,導(dǎo)致存儲I/O瓶頸、系統(tǒng)應(yīng)用加載時間長等問題。作為IT的最新演進成果,大數(shù)據(jù)分布式數(shù)據(jù)庫技術(shù)已成為一系列可能改變未來生活和企業(yè)發(fā)展技術(shù)的基石,選型上有Hadoop(分布式系統(tǒng)基礎(chǔ)架構(gòu))、MPP(Massive Parallel Processing,海量并行處理結(jié)構(gòu))架構(gòu)兩種技術(shù)架構(gòu)。這兩種都可處理大規(guī)模數(shù)據(jù)的并行計算,共同之處在于:

        (1)存儲數(shù)據(jù)分布在多個節(jié)點服務(wù)器上。

        (2)支持橫向擴展來提高整個系統(tǒng)的計算能力和存儲容量。

        (3)采用分布式并行計算框架。

        (4)支持X86開放集群架構(gòu)。

        但在數(shù)據(jù)存儲、計算方法、效率、功能上,也存在明顯差異:

        (1)MPP按照關(guān)系數(shù)據(jù)庫行列表方式存儲數(shù)據(jù)(有模式),Hadoop按照文件切片方式分布式存儲(無模式)。

        (2)數(shù)據(jù)分布機制不同,MPP采用Hash分布,計算節(jié)點和存儲緊密耦合,而Hadoop按照文件切塊后隨機分配,節(jié)點和數(shù)據(jù)無耦合。MPP采用SQL并行查詢計劃,Hadoop采用Mapreduce框架。

        (3)MPP數(shù)據(jù)庫在計算并行度和算法上比Hadoop效率更高且靈活。在同樣的環(huán)境下測試對比中,Mapreduce對單表的計算尚可,但對于復(fù)雜查詢,如多表關(guān)聯(lián)等,性能很差。

        (4)MPP數(shù)據(jù)庫采用SQL作為主要交互式語言,SQL語言簡單易學(xué),大幅簡化了數(shù)據(jù)的操作和交互過程。而對MapReduce編程明顯是困難的,這幾年SQL-on-HADOOP技術(shù)大量涌現(xiàn)出來,這些技術(shù)包括:Hive、Impala、SPARK SQL等,雖然易用上有所提高,但仍與MPP數(shù)據(jù)庫有較大差距。SQL-on-Hadoop大多不支持?jǐn)?shù)據(jù)局部更新和刪除功能(update/delete),基本上都缺少索引和存儲過程等特征綜上,MPP在更靈活,適合于統(tǒng)計分析一類的業(yè)務(wù)場景,結(jié)合我公司的自助分析系統(tǒng)的應(yīng)用場景,選用開源的MPP軟件GreenPlum作為系統(tǒng)的分析引擎。

        2.2 開源分布式數(shù)據(jù)庫GreenPlum

        GreenPlum(簡稱:GP)數(shù)據(jù)庫也是關(guān)系型數(shù)據(jù)庫,是由數(shù)個獨立的數(shù)據(jù)庫服務(wù)組合的分布式邏輯數(shù)據(jù)庫,GP于2016年開源。GP的基本組件為Master節(jié)點、Segment節(jié)點以及它們之間的高速互聯(lián)網(wǎng)絡(luò)。Master節(jié)點是訪問入口,負(fù)責(zé)處理客戶端的連接和SQL命令入口,在Segment節(jié)點之間分配工作負(fù)載,整合Segment處理結(jié)果并將最終結(jié)果呈現(xiàn)給客戶端程序。Segment節(jié)點負(fù)責(zé)數(shù)據(jù)存儲和查詢,由Master生成執(zhí)行計劃,處理邏輯數(shù)據(jù),并將結(jié)果返回至Master,節(jié)點間可通過高速互聯(lián)網(wǎng)絡(luò)進行彼此的數(shù)據(jù)交互。

        GP能夠提升大數(shù)據(jù)分析的處理能力,關(guān)鍵原因有兩點:一是采用MPP并行處理架構(gòu),使得對大數(shù)據(jù)量的處理工作可被分配至多個Segment并行執(zhí)行,發(fā)揮了并行計算的性能優(yōu)勢;二是采用完全不共享的數(shù)據(jù)庫體系,使得每個Segment都具有獨立使用的磁盤子系統(tǒng)及數(shù)據(jù)傳輸通道,數(shù)據(jù)存取的I/O能力強。

        3 ROLAP自助分析系統(tǒng)的規(guī)劃與設(shè)計

        OLAP技術(shù)一般分為ROLAP和MLAP兩種,ROLAP技術(shù)擴展性更好,可以在不影響模型的情況下無限擴展指標(biāo)和維度,數(shù)據(jù)加工負(fù)擔(dān)小,適合快速迭代的數(shù)據(jù)分析場景特點。ROLAP自助分析是一種敏捷靈活的分析方法,簡化了用戶對多樣化信息的訪問,為數(shù)據(jù)分析和挖掘創(chuàng)造了良好的條件。

        結(jié)合我公司保險大數(shù)據(jù)的業(yè)務(wù)場景需求,基于ROLAP的思想,可以將清單粒度的業(yè)務(wù)指標(biāo)和維度數(shù)據(jù)放在分布式GP數(shù)據(jù)倉庫存儲,同時為用戶提供一個靈活定制的前臺功能,前臺采用B/S架構(gòu),展現(xiàn)層采用HTML+CSS+JS等語言開發(fā),服務(wù)器端以JAVA、SQL等語言處理業(yè)務(wù)邏輯及數(shù)據(jù)的抽取、清洗采用Mybatis技術(shù)框架,前后臺獨立開發(fā)。

        用戶可以對單指標(biāo)或多指標(biāo)組合,系統(tǒng)隨之自動生成動態(tài)SQL邏輯,利用強大的分布式數(shù)據(jù)庫GP的并行查詢優(yōu)勢,快速在前端生成數(shù)據(jù)分析結(jié)果。在設(shè)計過程中,為達(dá)到最優(yōu)的效率以及靈活可擴展,我們采用獨創(chuàng)的一指標(biāo)一事實表的數(shù)據(jù)存儲模型方式,對查詢接口方面做了大量優(yōu)化,更是引入Redis緩存數(shù)據(jù)庫,在數(shù)據(jù)分析效率方面也是表現(xiàn)極佳。圖2是自助取數(shù)分析的邏輯關(guān)系圖。

        4 結(jié)束語

        大數(shù)據(jù)時代,全球數(shù)據(jù)生產(chǎn)量在高速增長,數(shù)據(jù)將改變企業(yè)的傳統(tǒng)業(yè)務(wù)模式,對系統(tǒng)提出新的挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)處理技術(shù)在原始清單粒度的數(shù)據(jù)分析應(yīng)用中出現(xiàn)了明顯的性能瓶頸,用戶無法靈活自主,快速的獲得想要的信息。而MPP數(shù)據(jù)庫具有很強的大規(guī)模并行數(shù)據(jù)分析處理能力,能夠解決數(shù)據(jù)量過大后系統(tǒng)處理能力低效、數(shù)據(jù)加載耗時較長等問題,因此基于大數(shù)據(jù)分布式數(shù)據(jù)庫技術(shù)實現(xiàn)ROLAP自助分析,將使我們的業(yè)務(wù)人員對數(shù)據(jù)倉庫中的指標(biāo)和維度進行提取和拖拽分析,3-5分鐘便可以滿足任務(wù)數(shù)據(jù)需求,快速、靈活、敏捷地發(fā)現(xiàn)以前無法得到的分析方向,為業(yè)務(wù)人員開啟了數(shù)據(jù)世界的自由掘?qū)氈?,真正實現(xiàn)大數(shù)據(jù)時代業(yè)務(wù)數(shù)據(jù)分析的新模式,最終讓公司在市場競爭中更具活力。

        參考文獻(xiàn):

        [1]魏進武,靳淑嫻,張基恒.大數(shù)據(jù)關(guān)鍵技術(shù)及運營商落地建議[J].郵電設(shè)計技術(shù),2015.

        [2]劉瑋.企業(yè)的變革思維——大數(shù)據(jù)時代的來臨[J].辦公自動化,2014.

        [3]何清,莊福振.基于云計算的大數(shù)據(jù)挖掘平臺[J].中興通訊技術(shù),2013.

        [4]IT架構(gòu)設(shè)計研究組.大數(shù)據(jù)時代的IT架構(gòu)設(shè)計[M].北京:電子工業(yè)出版社,2014.

        [5]薩師煊,王珊.數(shù)據(jù)庫系統(tǒng)概論[M].北京:高等教育出版社,2010.

        [6]Hive DB. http://www.hivedb.org[EB/OL].

        [7]邵佩英.分布式數(shù)據(jù)庫系統(tǒng)及其應(yīng)用[M].科學(xué)出版社,2005.

        猜你喜歡
        數(shù)據(jù)分析
        電子物證檢驗的數(shù)據(jù)分析與信息應(yīng)用研究
        基于matlab曲線擬合的數(shù)據(jù)預(yù)測分析
        商情(2016年40期)2016-11-28 11:28:07
        分眾媒體趨勢下場景營銷的商業(yè)前景
        商(2016年32期)2016-11-24 17:39:41
        佛山某給水管線控制測量探討
        科技資訊(2016年18期)2016-11-15 18:05:53
        SPSS在環(huán)境地球化學(xué)中的應(yīng)用
        考試周刊(2016年84期)2016-11-11 23:57:34
        大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
        科技視界(2016年18期)2016-11-03 22:51:40
        我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
        體育時空(2016年8期)2016-10-25 18:02:39
        Excel電子表格在財務(wù)日常工作中的應(yīng)用
        淺析大數(shù)據(jù)時代背景下的市場營銷策略
        新常態(tài)下集團公司內(nèi)部審計工作研究
        中國市場(2016年36期)2016-10-19 04:31:23
        毛片大全真人在线| 丝袜美腿在线观看视频| 美丽小蜜桃1一3在线观看| 日本孕妇潮喷高潮视频| 国产伦理一区二区| 亚洲精品国精品久久99热一| 精品久久杨幂国产杨幂| 亚洲av自偷自拍亚洲一区| 少妇被黑人嗷嗷大叫视频| 男人和女人做爽爽视频| 国产午夜福利在线播放| 国产一区二区精品久久凹凸| 久久本道久久综合一人| 性感女教师在线免费观看| 国语自产偷拍在线观看| 久久免费的精品国产v∧| 韩国日本亚洲精品视频| 日本熟妇免费一区二区三区| 人妻中文字幕在线中文字幕| 麻豆精品国产精华液好用吗| 欧美性猛交xxxx乱大交丰满| 久久丁香花综合狼人| 国产精品美女主播在线| 国产人成视频在线视频| www插插插无码视频网站| 日本中文字幕不卡在线一区二区| 国产综合自拍| 国产毛片三区二区一区| 亚洲自拍偷拍一区二区三区| 精品人妻av区乱码| 精品久久人人妻人人做精品| 无码视频一区二区三区在线播放| 免费人成视频网站在线观看不卡| 国产麻豆成人精品av| 丁香花五月六月综合激情| 狠狠躁天天躁中文字幕| 久久久久久久98亚洲精品| 手机在线免费av网址| av网站在线观看大全| 美女av一区二区三区| 亚洲国产精品自产拍久久蜜AV|