亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于HDFS+Spark的時空大數(shù)據(jù)存儲與處理

        2019-12-19 02:07:13賈旖旎周新民曹芳
        軟件 2019年11期
        關鍵詞:數(shù)據(jù)挖掘

        賈旖旎 周新民 曹芳

        摘? 要: 海量時空數(shù)據(jù)的高效存儲、讀寫、處理與分析是當前地理信息科學領域的研究熱點。本文對目前主流大數(shù)據(jù)技術產(chǎn)品進行了選取和融合,開展了基于HDFS+Spark的時空大數(shù)據(jù)存儲、處理分析等方面的研究和探討,以智慧無錫時空信息云平臺為應用對象,搭建了一套時空大數(shù)據(jù)存儲處理的集群平臺,并通過具體應用實驗,得到了時空數(shù)據(jù)存儲、處理、挖掘的響應時間及可視化展示結(jié)果,證實了HDFS+Spark集群計算平臺在解決時空大數(shù)據(jù)存儲、處理、挖掘方面的有效性。

        關鍵詞: 時空大數(shù)據(jù);集群計算;存儲處理;數(shù)據(jù)挖掘

        【Abstract】: Efficient storage, reading, writing, processing and analysis of massive spatio-temporal data is a hot research topic in geographic information science. This paper chooses and integrates the mainstream big data technology production, investigates and studies the spatio-temporal big data storage and processing analysis based on HDFS+Spark ,and builds the Cluster platform. And also its applied in the experiment and the results of response time and visual display of storage, processing and mining of the spatio-temporal data are obtained, which proves the effectiveness of HDFS+Spark cluster computing platform in solving spatio-temporal big data storage, processing and mining.

        【Key words】: Spatio-temporal big data; Cluster computing; Storage processing; Data mining

        0? 引言

        隨著測繪地理信息技術的發(fā)展和智慧城市建設的不斷推進,時空大數(shù)據(jù)的種類愈多、覆蓋愈廣、更新頻率愈快,數(shù)據(jù)量急劇增加,從MB、GB級逐步達到TB、PB級,使得海量時空數(shù)據(jù)在存儲管理、數(shù)據(jù)檢索、處理分析等方面的難度不斷提升。同時,大量以分布式存儲和并行計算為核心的大數(shù)據(jù)技術平臺及產(chǎn)品隨之涌現(xiàn),如Hadoop、MongoDB、Spark,

        這些平臺及產(chǎn)品有望解決當前大數(shù)據(jù)在存儲和處理中存在的問題。本文圍繞如何應用主流大數(shù)據(jù)技術及產(chǎn)品更好地為時空大數(shù)據(jù)服務,結(jié)合智慧無錫時空大數(shù)據(jù)的應用需求,搭建了一套時空大數(shù)據(jù)存儲處理的集群平臺,并以實驗驗證了該平臺在時空大數(shù)據(jù)的存儲、處理與挖掘中的性能與效率。

        1? 時空大數(shù)據(jù)集群計算平臺選型

        HDFS分布式文件系統(tǒng)是Hadoop核心技術之一,提供了開源的存儲框架,是一個實現(xiàn)數(shù)據(jù)分布式存儲的文件系統(tǒng)[1]。該系統(tǒng)通過高效的分布式算法集成多集群節(jié)點,對大數(shù)據(jù)量的數(shù)據(jù)進行分布式存儲和有效備份,當其中一個節(jié)點宕機時,系統(tǒng)可以讀取其他有效節(jié)點的數(shù)據(jù),并且系統(tǒng)對每個節(jié)點的物理性能要求并不高。因此,HDFS具備了容錯性高、成本低、通用性好等特點。HDFS采用主/從架構(gòu),包括客戶端、主控節(jié)點(NameNode)[2]和數(shù)據(jù)節(jié)點(DataNode)[3]。其中,NameNode主要負責管理文件系統(tǒng)的命名空間、元數(shù)據(jù)信息及客戶端對文件的訪問;DataNode主要負責接收并處理客戶端的讀寫請求和NameNode的調(diào)度,存儲并檢索HDFS的數(shù)據(jù)塊,是文件存儲的實際位置,并通過周期性的心跳報文將所有數(shù)據(jù)塊信息發(fā)送給NameNode。HDFS的這種主/從設計結(jié)構(gòu)使得用戶數(shù)據(jù)不會流經(jīng)主控節(jié)點,從而提高了系統(tǒng)性能和效率[4]。

        Hadoop的MapReduce和Spark是當前最流行的大數(shù)據(jù)處理平臺。Hadoop MapReduce在處理分析數(shù)據(jù)時,首先從集群磁盤中讀取數(shù)據(jù)到內(nèi)存并執(zhí)行計算,再將計算結(jié)果從內(nèi)存寫到集群磁盤,作為下次計算的輸入數(shù)據(jù)。每次都要從磁盤讀取數(shù)據(jù)到內(nèi)存的計算過程,使其面臨I/O消耗過大的問題,因而無法滿足用戶對海量空間數(shù)據(jù)開展實時分析的效率要求。而Spark作為新興的集群計算框架,不僅提供了豐富的Scala、Java、和Python調(diào)用API接口,方便用戶操作,且其基于內(nèi)存迭代計算的處理方式,使其可從內(nèi)存中直接讀取計算數(shù)據(jù),從而避免了磁盤I/O的高消耗。通過擴展Spark對空間數(shù)據(jù)的分布式查詢處理操作,形成了GeoSpark、SpatialSpark等先進系統(tǒng),可實現(xiàn)對海量空間數(shù)據(jù)的快速處理和分析。

        由于HDFS 的高容錯性、高可擴展性、高吞吐量等特點,為海量時空數(shù)據(jù)提供了可靠、安全的存儲,而Spark的內(nèi)存迭代計算比MapReduce更為高效[5],更適合進行交互式處理和運行復雜算法,且可以與HDFS組件進行完美融合,因此本文選擇使用HDFS+Spark的存儲計算框架來進行時空大數(shù)據(jù)的存儲與計算處理應用。

        2? 基于HDFS的時空大數(shù)據(jù)存儲模式

        時空數(shù)據(jù)一般來說包括時間、空間和專題屬性三個維度的信息,有著多源、海量、更新快速的特點[6]。從數(shù)據(jù)格式上來說,時空數(shù)據(jù)通常以矢量數(shù)據(jù)或柵格數(shù)據(jù)的形式進行存儲管理。

        通過實驗,得出單機環(huán)境與3個節(jié)點、6個節(jié)點的集群環(huán)境下不同數(shù)據(jù)量的時空數(shù)據(jù)存入時間對比表如下所示。

        從實驗結(jié)果可以看出,當時空數(shù)據(jù)集大小為500 M時,單機環(huán)境下數(shù)據(jù)存儲時間為8秒,耗時最少,相比之下存儲性能效率最高。這是因為數(shù)據(jù)量較少時,Hadoop集群中涉及到多個節(jié)點之間的數(shù)據(jù)交換,并且會自動進行數(shù)據(jù)備份,存在較為固定的數(shù)據(jù)傳輸時間和數(shù)據(jù)備份時間消耗。隨著數(shù)據(jù)量增加到1.8 G、10 G,集群環(huán)境下的存儲效率優(yōu)勢得到了明顯的體現(xiàn)。尤其當時空數(shù)據(jù)增加到10 G時,單機環(huán)境下的耗時明顯增加,為500 M數(shù)據(jù)耗時的103倍。這是由于單機環(huán)境的硬件配置受限所導致的,而在集群環(huán)境下,隨著存儲量增大,而其固定的時間消耗占比逐漸減小至可忽略不計,這時才能體現(xiàn)出集群環(huán)境下時空大數(shù)據(jù)存儲的優(yōu)勢。

        4.3.2? 數(shù)據(jù)處理性能實驗

        本文將以無錫市區(qū)的地理范圍劃分為6497個500米×500米的格網(wǎng),對每個格網(wǎng)內(nèi)1天的出租車點位數(shù)量(約800萬條數(shù)據(jù))進行空間包含運算,以驗證單機環(huán)境下與不同節(jié)點集群環(huán)境下的空間處理效率。

        通過實驗得出單機環(huán)境與3個節(jié)點、6個節(jié)點的集群環(huán)境下時空數(shù)據(jù)處理的時間對比表如下所示。

        將無錫市6497個格網(wǎng)的1天的出租車點位數(shù)量空間統(tǒng)計的結(jié)果,在前端通過可視化界面進行展示,如圖3所示。

        從實驗結(jié)果可以看出,由于單機環(huán)境中計算機處理器及內(nèi)存的限制,1000個格網(wǎng)和10000個點進行空間包含運算,時間穩(wěn)定在6分鐘左右,效率非常低下。當數(shù)據(jù)量增加到一定程度后,單機處理能力超出界限,導致處理失敗,而集群模式處理的運算效率遠高于單機模式。因此處理海量數(shù)據(jù),必須依靠Spark這種集群模式的并行處理框架,并且隨著集群節(jié)點個數(shù)的增加,處理效率也會隨之提高,集群環(huán)境可解決單機環(huán)境無法處理的問題。

        4.3.3? 數(shù)據(jù)挖掘性能實驗

        基于K-means空間聚類算法分別對無錫市1天的出租車實時位置數(shù)據(jù)進行挖掘分析,形成出租車熱點分布圖,以驗證單機環(huán)境下與不同節(jié)點集群環(huán)境下的時空數(shù)據(jù)挖掘效率。

        通過實驗得出單機環(huán)境與3個節(jié)點、6個節(jié)點的集群環(huán)境下時空數(shù)據(jù)挖掘的時間對比表如下所示。

        基于無錫市某天的出租車實時位置數(shù)據(jù)進行K-means空間聚類,得到無錫市的出租車熱力分布圖5所示。

        從實驗結(jié)果可以看出,隨著數(shù)據(jù)量的增大,基于集群的Spark mllib分布式機器學習框架的并行計算效率明顯占優(yōu)勢。當數(shù)據(jù)量增加到一定程度時,單機將無法勝任此工作。

        5? 結(jié)論

        本文通過對主流的大數(shù)據(jù)技術平臺進行調(diào)研和分析研究后,搭建了一套基于HDFS+Spark的時空大數(shù)據(jù)存儲計算的集群平臺,并用于進行了時空大數(shù)據(jù)存儲、處理與挖掘的性能實驗,得出如下結(jié)論:

        (1)時空數(shù)據(jù)量較少時,數(shù)據(jù)存儲性能在單機環(huán)境下效率較高,而隨著數(shù)據(jù)量的不斷增大,集群環(huán)境的存儲效率明顯提升,是海量時空數(shù)據(jù)存儲的理想選擇。

        (2)由于單機環(huán)境下硬件配置的限制和集群環(huán)境下并行計算處理的優(yōu)勢,時空大數(shù)據(jù)處理、挖掘的效率明顯優(yōu)于單機環(huán)境,并且集群節(jié)點數(shù)量越多,數(shù)據(jù)處理、挖掘的效率越高,即使當數(shù)據(jù)量超過了單機環(huán)境可處理閥值,集群環(huán)境也可以輕松處理。

        參考文獻

        [1]Aisha SIDDIQA, Ahmad KARIM, Abdullah GANI. Big data storage technologies: a survey[C]. Siddiqa et al. / Front Inform Technol Electron Eng, 2017 18(8):1040-1070.

        [2]Name Node. [EB/OL] http://hadoop.apache.org/docs/stable/ hdfs_design.html#Name Node+and+Data Nodes.

        [3]Data Node.[EB/OL] http://hadoop.apache.org/docs/stable/ hdfs_design. html#Name Node+and+Data Nodes.

        [4]王磊, 一種高性能HDFS存儲平臺的研究與實現(xiàn)[D]. 西安電子科技大學, 2013.

        [5]Suthipong D, PeeraponV. Applying One-Versus-One SVMs to Classify MultiLabel Data with Large Labels Using Spark[C]. Knowledge and Smart Technology. IEEE, 2017: 1-4.

        [6]施志林, 時空數(shù)據(jù)分布式存儲研究[D]. 江西理工大學, 2015.

        [7]何濤, 面向海量空間數(shù)據(jù)并行高效處理的存儲模式設計與研究[D]. 電子科技大學, 2014.

        [8]Zaharia M, Chowdhury M, Das T, Dave A, Ma J, McCauley M, Franklin MJ, Shenker S, Stoica I. Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing. In: Proc. of the 9th USENIX Conf. on Networked Systems Design and Implementation. San Jose: USENIX Association Berkeley, 2012. 1-14.

        [9]高彥杰. Spark大數(shù)據(jù)處理[M]. 北京: 機械工業(yè)出版社, 2014.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術在打擊倒賣OBU逃費中的應用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        數(shù)據(jù)挖掘在高校圖書館中的應用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        91精品国产免费青青碰在线观看 | 国产av一区二区内射| 看女人毛茸茸下面视频| 亚洲日韩av一区二区三区中文| 国产色诱视频在线观看| 亚洲欧美国产成人综合不卡| 一本色道久久综合亚洲精品不| 在线观看免费无码专区| 久久精品亚洲中文字幕无码网站| 日韩精品一区二区三区毛片| 91国产精品自拍视频| 亚洲人成网站色7799| 国产欧美亚洲精品a| 免费va国产高清不卡大片| 中文字幕色资源在线视频| 日韩日韩日韩日韩日韩日韩| 免费无码av片在线观看| 无遮高潮国产免费观看韩国| 久久久人妻一区二区三区蜜桃d | 丰满少妇被啪啪到高潮迷轩| 久久香蕉国产线看观看精品yw| 99re这里只有热视频| 亚洲av乱码一区二区三区观影| 伊人久久精品亚洲午夜| 国产麻豆精品一区| 国产精品毛片久久久久久l| 久久精品国产亚洲av网在| 免费在线黄色电影| 国产av国片精品| 妇女自拍偷自拍亚洲精品| 亚洲精品一品区二品区三区| 强行无套内谢大学生初次| 久久国产免费观看精品| 国产亚洲专区一区二区| 337p人体粉嫩胞高清视频| 9191在线亚洲精品| 久久精品国语对白黄色| 亚洲精品乱码久久久久久不卡| 丰满少妇愉情中文字幕18禁片| 激情综合网缴情五月天| 美女午夜福利视频网址|