亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop平臺的大數(shù)據(jù)可視化分析實(shí)現(xiàn)與應(yīng)用

        2022-08-18 07:08:38李林國查君琪李淑敬
        關(guān)鍵詞:可視化數(shù)據(jù)庫用戶

        李林國,查君琪,趙 超,葉 文,李淑敬

        (阜陽師范大學(xué) 信息工程學(xué)院,安徽 阜陽 236041)

        1 概述

        科學(xué)計算可視化是一種將科學(xué)計算問題以可見圖表、動畫等方式呈現(xiàn)的技術(shù)手段.根據(jù)應(yīng)用層級和分析對象的差別,它分為數(shù)據(jù)可視化、信息可視化和知識可視化.隨著大數(shù)據(jù)技術(shù)的應(yīng)用越來越廣泛,可視化技術(shù)能夠?qū)⒑棋?、枯燥的大?shù)據(jù)以更加鮮活的方式呈現(xiàn),并且可以基于偏好或應(yīng)用領(lǐng)域呈現(xiàn)更多的大數(shù)據(jù)細(xì)節(jié)和有效信息.然而傳統(tǒng)的數(shù)據(jù)可視化技術(shù)在處理海量、異構(gòu)和多維度數(shù)據(jù)時遇到了較大瓶頸[1].因此,大數(shù)據(jù)可視化技術(shù)已經(jīng)成為大數(shù)據(jù)分析領(lǐng)域的研究熱點(diǎn),它以人類認(rèn)知規(guī)律和實(shí)際需求為出發(fā)點(diǎn),通過計算機(jī)技術(shù)將復(fù)雜的大數(shù)據(jù)進(jìn)行信息處理,根據(jù)應(yīng)用目的,將核心數(shù)據(jù)或信息以可視化的方式呈現(xiàn),在利于應(yīng)用大數(shù)據(jù)信息的同時,提高大數(shù)據(jù)信息的可讀性、可見性,從而提高大數(shù)據(jù)的實(shí)踐應(yīng)用價值.

        眾所周知,大數(shù)據(jù)已經(jīng)深入應(yīng)用到社會生活的各個領(lǐng)域,如零售、金融、餐飲、通信、電子政務(wù)、輔助醫(yī)療、體育健康、休閑娛樂等[2].在目前最流行的大數(shù)據(jù)處理平臺中,Hadoop是最受關(guān)注、運(yùn)用較多的一種[3].其中Rackspace Hosting公司以基于Hadoop開發(fā)的日志分析系統(tǒng)替代基于MySQL的日志處理模式,實(shí)現(xiàn)了大數(shù)據(jù)的有效分析及應(yīng)用[4-5].Oracle公司利用 Hadoop設(shè)計了Elalytics等系統(tǒng)平臺,完成了Facebook等社交平臺大數(shù)據(jù)的處理和分析[6].此外,亞馬遜、阿里巴巴、京東、拼多多等線上交易平臺通過用戶行為數(shù)據(jù)分析實(shí)現(xiàn)了購物推薦等便捷服務(wù)功能[7-8],騰訊也利用Hadoop為QQ、微信等軟件產(chǎn)生的大數(shù)據(jù)進(jìn)行分析和挖掘,總結(jié)用戶的興趣偏好等有效信息,從而不斷完善軟件功能和服務(wù)[9-10].作為世界最大的中文搜索引擎,百度通過搭建Hadoop集群完成廣告精準(zhǔn)投放、用戶的滿意度分析等[11].通過上述基于Hadoop的大數(shù)據(jù)相關(guān)應(yīng)用綜述,大數(shù)據(jù)處理已經(jīng)深入人們?nèi)粘I畹姆椒矫婷妫虼搜芯科淇梢暬夹g(shù)將變得越來越具有實(shí)際應(yīng)用價值.

        2 大數(shù)據(jù)可視化技術(shù)分析

        2.1 Hadoop平臺核心技術(shù)

        Hadoop是由Apache軟件基金會開發(fā)的一款分布式開源數(shù)據(jù)和計算框架,它支持Java等程序設(shè)計語言的應(yīng)用,其在大數(shù)據(jù)處理和復(fù)雜數(shù)據(jù)集存儲等方面性能卓越[12].狹義上的Hadoop專指HadoopCore,它由HDFS(Hadoop Distributed File System,Hadoop分布式文件系統(tǒng))和MapReduce引擎(可進(jìn)行并行處理的架構(gòu))組成.另外,更加廣泛意義上的Hadoop用于泛指由Hadoop核心平臺所形成的生態(tài)系統(tǒng)(Hadoop Ecosystem),去除Hadoop本身的核心框架(HDFS+MapReduce),還包括Hive、HBase等數(shù)據(jù)倉庫、Sqoop等數(shù)據(jù)遷移配件和數(shù)據(jù)可視化工具等[13].接下來,本文將逐一介紹和分析分布式文件系統(tǒng)、并行計算結(jié)構(gòu),及數(shù)據(jù)倉儲、數(shù)據(jù)遷移和數(shù)據(jù)可視化等方面的核心技術(shù).

        2.1.1 HDFS文件系統(tǒng)與MapReduce并行處理結(jié)構(gòu)

        大數(shù)據(jù)系統(tǒng)的核心仍然是基于初始收集的海量數(shù)據(jù),因此數(shù)據(jù)的存儲模式是大數(shù)據(jù)系統(tǒng)的基礎(chǔ)和核心.基于大數(shù)據(jù)的分布式特征,Hadoop使用的存儲系統(tǒng)為HDFS,其核心正是分布式的.在具體設(shè)計中,大數(shù)據(jù)首先被切塊(一般每塊大小為64兆),然后按照分布式分散存儲的理念,將這些切塊數(shù)據(jù)分別存儲到Hadoop系統(tǒng)的不同集群或計算機(jī)上.在讀取系統(tǒng)數(shù)據(jù)時,這種分布式存儲結(jié)構(gòu)能夠自由地實(shí)現(xiàn)從不同機(jī)器或集群中并行提取相關(guān)切塊文件,從而提高大數(shù)據(jù)提取速度.另外區(qū)別于其他文件系統(tǒng),它以流的結(jié)構(gòu)存取數(shù)據(jù),且只支持尾部追加數(shù)據(jù).

        在數(shù)據(jù)安全性方面,HDFS采用備份機(jī)制,將同一塊數(shù)據(jù)分別存儲到不同的機(jī)器或集群中,一旦某個機(jī)器或集群出現(xiàn)故障,可以輕松地從其他備份機(jī)器或集群中重新恢復(fù)數(shù)據(jù).這種設(shè)計極大地提高了文件系統(tǒng)的數(shù)據(jù)安全性.

        作為HadoopCore的另一個核心組成部分,MapReduce實(shí)現(xiàn)了基于分布式存儲大數(shù)據(jù)的規(guī)?;⑿刑幚?它的核心是Map和Reduce兩個函數(shù),Map實(shí)現(xiàn)數(shù)據(jù)到鍵值對的轉(zhuǎn)換,Reduce以Map的結(jié)果作為輸入處理鍵值對數(shù)據(jù),當(dāng)多個Map和Reduce并行處理時,可以極大地提高大數(shù)據(jù)處理的效率.其核心思想是通過Map和Reduce的方式將數(shù)據(jù)以鍵值對的模式進(jìn)行碎片化處理,從而實(shí)現(xiàn)大數(shù)據(jù)變小數(shù)據(jù),最終完成碎片數(shù)據(jù)的并行處理.

        該框架除了通過構(gòu)造兩個獨(dú)立的函數(shù)實(shí)現(xiàn)數(shù)據(jù)碎片化并行處理以外,還通過兩個固定函數(shù)的定義降低了程序員的負(fù)擔(dān),不需要大數(shù)據(jù)程序員具有很高的分布式編程經(jīng)驗,只需設(shè)置好Map和Reduce兩個函數(shù)即可,另外該框架中還有一個Main函數(shù),支持類似于Java等程序語言的嵌入式編程,從而控制算法的流程和結(jié)構(gòu),并最大化地降低程序員的學(xué)習(xí)負(fù)擔(dān).

        2.1.2 Hive與HBase數(shù)據(jù)分析系統(tǒng)

        Hive是用于Hadoop平臺的一種分布式數(shù)據(jù)分析框架,它不僅能夠?qū)崿F(xiàn)Hadoop平臺的數(shù)據(jù)存取和轉(zhuǎn)換,還提供了豐富的SQL查詢處理手段.為了銜接底層并行處理結(jié)構(gòu),Hive的查詢語句被系統(tǒng)轉(zhuǎn)換為Map和Reduce函數(shù).利用這兩個函數(shù)實(shí)現(xiàn)并行處理,可以極大地降低查詢成本.同時,與HDFS類似,它也采用流模式進(jìn)行數(shù)據(jù)輸入和輸出,不支持?jǐn)?shù)據(jù)的隨機(jī)存取.但是Map和Reduce函數(shù)的轉(zhuǎn)換需要消耗一定的資源,因此對大規(guī)模查詢,效率將會下降,其實(shí)時查詢的效果也不佳.

        HBase是一種基于HDFS的數(shù)據(jù)庫,且它是開源和基于列的,通常傳統(tǒng)數(shù)據(jù)庫均是基于行進(jìn)行數(shù)據(jù)存取和查詢的,而HBase則基于列進(jìn)行相關(guān)操作.它的另外一個重要特征是可以用于存儲非結(jié)構(gòu)化數(shù)據(jù)(這正是大數(shù)據(jù)環(huán)境下亟待解決的問題).傳統(tǒng)數(shù)據(jù)庫一般用于存儲符合某一范式的結(jié)構(gòu)化數(shù)據(jù),但是大數(shù)據(jù)時代,非結(jié)構(gòu)化數(shù)據(jù)將成為主流(如網(wǎng)絡(luò)平臺上發(fā)布的照片,其分辨率、格式、顏色模式等不可能完全統(tǒng)一).因此,HBase既是基于HDFS的,也是對HDFS的有效補(bǔ)充,可以有效地處理非結(jié)構(gòu)化數(shù)據(jù).

        本系統(tǒng)中,由Hive和HBase相互協(xié)作完成底層數(shù)據(jù)處理.首先,通過Hive對HDFS中的原始數(shù)據(jù)進(jìn)行一定程度的清洗、轉(zhuǎn)換和計算;然后,以列的模式存儲于HBase格式的數(shù)據(jù)表中;最后,上層可以嵌入Java API實(shí)現(xiàn)數(shù)據(jù)的高層應(yīng)用.

        2.1.3 Sqoop數(shù)據(jù)遷移

        基于2.1.2節(jié)的分析,大數(shù)據(jù)時代將會產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù),這是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫無法解決的困難.另外不同類型的數(shù)據(jù)庫在數(shù)據(jù)存取和表示方面也會有很多細(xì)微的差別.最終將這些不同類型、不同種類的數(shù)據(jù)庫集中到Hadoop平臺時,必須對數(shù)據(jù)結(jié)構(gòu)進(jìn)行一定程度的轉(zhuǎn)換.Sqoop正是一種專門針對Hadoop與關(guān)系型數(shù)據(jù)進(jìn)行相互轉(zhuǎn)換的工具.

        Sqoop不僅可以實(shí)現(xiàn)將其他類型的數(shù)據(jù)或數(shù)據(jù)庫導(dǎo)入到Hadoop文件系統(tǒng),也可以有效地實(shí)現(xiàn)反向操作.它是大數(shù)據(jù)處理系統(tǒng)的必備環(huán)節(jié),也是進(jìn)行后續(xù)大數(shù)據(jù)可視化分析的基礎(chǔ).本系統(tǒng)應(yīng)用過程中,將根據(jù)具體應(yīng)用場景,將原始數(shù)據(jù)通過Sqoop遷移到Hadoop文件系統(tǒng),再進(jìn)行后續(xù)的查詢、優(yōu)選和可視化操作.

        2.2 Echarts可視化處理

        Echarts是由百度公司開發(fā)的開源可視化圖形工具庫.它為使用者提供了豐富的圖表樣式、直觀且可交互的處理模式及友好的環(huán)境界面.本系統(tǒng)將根據(jù)應(yīng)用場景,將前期大數(shù)據(jù)處理的結(jié)果數(shù)據(jù),采用Echarts進(jìn)行可視化呈現(xiàn),從而提高大數(shù)據(jù)應(yīng)用的直觀性.

        綜合以上幾個步驟,本系統(tǒng)中大數(shù)據(jù)可視化的處理流程可以總結(jié)為幾個步驟:第一,采集并將數(shù)據(jù)導(dǎo)入到Hadoop平臺;第二,通過Hive進(jìn)行數(shù)據(jù)預(yù)處理;第三,對數(shù)據(jù)進(jìn)行篩選、優(yōu)化等處理,并將結(jié)果數(shù)據(jù)存入Hbase數(shù)據(jù)表;第四,根據(jù)需要對數(shù)據(jù)進(jìn)行統(tǒng)計分析,如果有必要,可以形成報表;第五,通過Echarts等可視化工具實(shí)現(xiàn)大數(shù)據(jù)的圖表或動畫模式呈現(xiàn).

        3 系統(tǒng)的設(shè)計與實(shí)現(xiàn)

        3.1 系統(tǒng)設(shè)計的流程及核心要素

        大數(shù)據(jù)可視化呈現(xiàn)是基于平臺中所有相關(guān)企業(yè)的業(yè)務(wù)數(shù)據(jù)構(gòu)建的,由于原始數(shù)據(jù)采用的是多類型數(shù)據(jù)庫系統(tǒng),且業(yè)務(wù)數(shù)據(jù)一般分散存儲在不同的服務(wù)器上,因此首先需要將數(shù)據(jù)集成,把分散的企業(yè)數(shù)據(jù)從分布式數(shù)據(jù)庫集成到Hadoop集群中,從而完成初始數(shù)據(jù)收集.

        接下來,本系統(tǒng)根據(jù)可視化需求構(gòu)建數(shù)據(jù)空間,并以此搭建Hive預(yù)處理數(shù)據(jù)庫.基于初始提供數(shù)據(jù)的結(jié)構(gòu)以關(guān)系型數(shù)據(jù)庫為主,需利用遷移工具Sqoop將數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫遷移至Hadoop的HDFS存儲器上,進(jìn)而再將其加載到便于檢索、查詢的Hive數(shù)據(jù)庫.然后利用HQL語句對數(shù)據(jù)進(jìn)行查詢分析,并將查詢結(jié)果存入HBase數(shù)據(jù)庫,接下來將相應(yīng)的查詢結(jié)果與可視化的設(shè)計主題相結(jié)合,構(gòu)造對應(yīng)的可視化模型,并將模型以固定形式存入到HBase,最后使用Echarts可視化插件對分析模型進(jìn)行圖形可視化呈現(xiàn).

        3.2 Hive數(shù)據(jù)倉庫的搭建及處理

        為了保證數(shù)據(jù)應(yīng)用之前的格式統(tǒng)一性,Hive數(shù)據(jù)庫起到至關(guān)重要的作用.本系統(tǒng)中Hive數(shù)據(jù)庫既能對原始數(shù)據(jù)進(jìn)行格式統(tǒng)一,也能保證數(shù)據(jù)的可靠和完整性,同時它也為數(shù)據(jù)統(tǒng)計、可視化呈現(xiàn)等模塊提供基礎(chǔ).因而,本系統(tǒng)將Hive定性為所有數(shù)據(jù)分析任務(wù)的統(tǒng)一數(shù)據(jù)入口.在此基礎(chǔ)上對Hive中的數(shù)據(jù)進(jìn)行優(yōu)化、分析(包括數(shù)據(jù)的規(guī)范化表示、大數(shù)據(jù)稀疏表示、數(shù)據(jù)智能優(yōu)化等環(huán)節(jié)).

        3.3 Hive、MySQL、HBase數(shù)據(jù)互導(dǎo)

        大數(shù)據(jù)處理的核心要素是數(shù)據(jù)的歸一化表示和存儲,為了實(shí)現(xiàn)不同種類或結(jié)構(gòu)的數(shù)據(jù)共用,本系統(tǒng)利用Sqoop完成數(shù)據(jù)在不同數(shù)據(jù)系統(tǒng)之間的互導(dǎo).它的處理過程為:首先將Hadoop平臺下的數(shù)據(jù)切分為若干小數(shù)據(jù)集,并構(gòu)建MapReduce任務(wù)處理分割后的小數(shù)據(jù)集.數(shù)據(jù)互導(dǎo)過程如下:

        (1)使用Sqoop將數(shù)據(jù)從Hive導(dǎo)入MySQL

        啟動Hadoop集群、MySQL服務(wù).登錄數(shù)據(jù)庫并創(chuàng)建可視化所需原始數(shù)據(jù)表單,并通過shell命令導(dǎo)入數(shù)據(jù),如圖1所示.

        圖1 原始數(shù)據(jù)表單數(shù)據(jù)導(dǎo)入

        (2)使用Sqoop將數(shù)據(jù)從MySQL導(dǎo)入HBase

        啟動HBase服務(wù),并新建一個終端,執(zhí)行相關(guān)命令將數(shù)據(jù)導(dǎo)入HBase,如圖2所示.

        圖2 HBase數(shù)據(jù)導(dǎo)入

        (3)使用HBase Java API將數(shù)據(jù)從本地導(dǎo)入HBase

        本系統(tǒng)采用Java程序?qū)崿F(xiàn)HBase數(shù)據(jù)導(dǎo)入功能.導(dǎo)入數(shù)據(jù)后,運(yùn)行hadoop jar命令(本系統(tǒng)詳細(xì)命令為:hadoop jar/usr,local/bigdatacase/hbase/ImportHBase.jar HBaseImportTest/usr/loacal/bigdatacase/dataset/usr_action.output),從而為可視化分析提供符合要求的輸入數(shù)據(jù).

        3.4 數(shù)據(jù)可視化分析

        本文采用Echarts圖表繪制工具繪制可視化圖形,此外,針對某些特殊需求,在可視化插件無法實(shí)現(xiàn)的地方也可采用自定義可視化算法.其中針對大數(shù)據(jù)分析流程部分如圖3所示.

        圖3 大數(shù)據(jù)分析流程圖

        整個可視化分析具體步驟如下:

        (1)連接MySQL,并獲取數(shù)據(jù).根據(jù)具體可視化需求,通過SQL語句查詢數(shù)據(jù).

        (2)根據(jù)可視化需求,利用相關(guān)函數(shù)得到樣本相關(guān)信息并繪制圖表,從而進(jìn)行可視化展示.如分析某網(wǎng)站用戶的消費(fèi)行為:

        1)每月的產(chǎn)品購買數(shù)量,其命令操作如圖4所示.

        圖4 購買數(shù)量統(tǒng)計操作

        分析結(jié)果如圖5所示.

        圖5 每月用戶購買張數(shù)趨勢圖

        從圖中可以看到,銷量在前幾個月異常高漲,并在3月達(dá)到最高峰,后續(xù)銷量較為穩(wěn)定,且有輕微下降趨勢.

        2)用戶消費(fèi)金額、消費(fèi)次數(shù)的描述統(tǒng)計,命令操作為:grouped_usr = df.groupby(‘user_id’).

        其分析結(jié)果如表1所示,從表中可以看出用戶平均消費(fèi)106元,其中位值只有43,且有土豪用戶消費(fèi)13 990元.結(jié)合分位數(shù)和最大值看,平均數(shù)僅和 75 分位接近,因此肯定存在小部分的高頻消費(fèi)用戶.

        表1 用戶消費(fèi)金額及消費(fèi)次數(shù)統(tǒng)計表

        3)用戶消費(fèi)金額分析,其命令操作如圖6所示.

        圖6 消費(fèi)金額分析操作

        分析結(jié)果如圖7所示.從直方圖可知,用戶消費(fèi)金額絕大部分呈現(xiàn)集中趨勢,高消費(fèi)用戶在圖上幾乎看不到,從而驗證了消費(fèi)行為的行業(yè)規(guī)律.結(jié)合銷量和用戶消費(fèi)金額的可視化分析,可以讓賣方和買方動態(tài)監(jiān)控產(chǎn)品情況,商家可以根據(jù)這些清晰的可視化曲線、圖表適時制定相關(guān)促銷政策或活動,消費(fèi)者也可以根據(jù)這些可視化圖表在合適的時機(jī)購買所需商品.

        圖7 用戶消費(fèi)金額分布圖

        4 總結(jié)

        本文運(yùn)用大數(shù)據(jù)的相關(guān)技術(shù)(如分布式文件系統(tǒng)HDFS、MapReduce計算框架、Hive數(shù)據(jù)倉庫等)進(jìn)行數(shù)據(jù)分析,然后對這些數(shù)據(jù)進(jìn)行可視化處理,并以更加清晰的方式呈現(xiàn)大數(shù)據(jù)分析的結(jié)果.在實(shí)現(xiàn)過程中,本文綜合運(yùn)用大數(shù)據(jù)采集、處理、分析和相關(guān)可視化工具及軟件,將分析結(jié)果用圖、表等形式呈現(xiàn),使結(jié)果更加直觀,且構(gòu)建了完整的大數(shù)據(jù)分析框架,實(shí)現(xiàn)了大數(shù)據(jù)的自動采集、分析和處理.本系統(tǒng)突出了大數(shù)據(jù)的實(shí)際應(yīng)用,體現(xiàn)了大數(shù)據(jù)的強(qiáng)大功能.為用戶利用大數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)分析提供了一個較完善的模板.

        猜你喜歡
        可視化數(shù)據(jù)庫用戶
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        国产午夜精品久久久久| 日韩少妇人妻中文视频| 久草视频在线手机免费看| 亚洲午夜久久久精品影院| 亚洲人午夜射精精品日韩 | 亚洲一区二区三区成人| 亚洲精品美女自拍偷拍| 青青草视频国产在线观看| 国产一区二区三区色哟哟| 永久黄网站色视频免费看| 中文字幕一区二区三区久久网站| 久久久99久久久国产自输拍| 亚洲日本高清一区二区| 米奇欧美777四色影视在线| 亚洲av成人精品日韩在线播放| 毛茸茸性xxxx毛茸茸毛茸茸| 欧美在线a| 日本a一区二区三区在线| 国产亚洲成人精品久久| 日本免费a级毛一片| 妇女性内射冈站hdwwwooo| 国产艳妇av在线出轨| 久久精品国产一区二区涩涩| 国产黄色一区二区三区av| 欧美老肥妇做爰bbww| 亚洲av无码av吞精久久| 亚洲AV秘 无套一区二区三区| 日韩中文字幕久久久老色批| 久久久久亚洲av成人人电影| 日本一卡2卡3卡4卡无卡免费网站| 国产微拍精品一区二区| 国产 在线播放无码不卡| 99久久国内精品成人免费| 国产精品久久久久9999| 亚洲av无码成人精品区在线观看 | а的天堂网最新版在线| 中文字幕一区二区三区日日骚| 东京道一本热中文字幕| 五月天欧美精品在线观看| 蜜桃视频中文在线观看| 色婷婷亚洲一区二区三区在线|