亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)技術(shù)在海量測(cè)震數(shù)據(jù)中的研究應(yīng)用

        2017-06-15 22:20:23郭凱黃金剛彭克銀龐麗娜
        地震研究 2017年2期
        關(guān)鍵詞:大數(shù)據(jù)

        郭凱 黃金剛 彭克銀 龐麗娜

        摘要:對(duì)目前主要的大數(shù)據(jù)技術(shù)進(jìn)行探討,并對(duì)大數(shù)據(jù)計(jì)算方法在測(cè)震數(shù)據(jù)中應(yīng)用進(jìn)行分析,設(shè)計(jì)了基于大數(shù)據(jù)技術(shù)的測(cè)震數(shù)據(jù)存儲(chǔ)模型以及基于海量數(shù)據(jù)運(yùn)行率管理的計(jì)算模型,編寫(xiě)了分別基于單機(jī)多線程和大數(shù)據(jù)環(huán)境的程序,并進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果表明:采用基于大數(shù)據(jù)技術(shù)的分布式管理和計(jì)算架構(gòu),可以較好地解決海量測(cè)震數(shù)據(jù)的管理困難、共享服務(wù)和科研計(jì)算方面的性能瓶頸。

        關(guān)鍵詞:大數(shù)據(jù);測(cè)震數(shù)據(jù);分布式管理

        中圖分類(lèi)號(hào):P31573文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1000-0666(2017)02-0317-07

        0引言

        大數(shù)據(jù)一般指大小超出常規(guī)的數(shù)據(jù)庫(kù)獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。大數(shù)據(jù)一般具有以下4個(gè)特征:大量化(VOLUME)、快速化(VELOCITY)、多樣化(VARIETY)和價(jià)值化(VALUE)。近年來(lái),大數(shù)據(jù)技術(shù)在計(jì)算性能、無(wú)限擴(kuò)容等方面表現(xiàn)出巨大優(yōu)勢(shì),因此,在醫(yī)學(xué)、金融、科研領(lǐng)域已經(jīng)得到了廣泛的應(yīng)用。

        在“中國(guó)數(shù)字地震觀測(cè)網(wǎng)絡(luò)”項(xiàng)目完成后,我國(guó)的地震監(jiān)測(cè)能力得到了很大提高。相比“九五”期間,“十五”計(jì)劃完成后中國(guó)國(guó)家地震臺(tái)網(wǎng)中心的技術(shù)系統(tǒng)得到了全面提升,無(wú)論在接入臺(tái)站數(shù)量還是在數(shù)據(jù)處理效率上均有了較大的提升(侯建民等,2009)。2008年至2016年底,隨著監(jiān)測(cè)臺(tái)網(wǎng)的不斷完善和擴(kuò)大,存儲(chǔ)的測(cè)震連續(xù)波形數(shù)據(jù)已經(jīng)超過(guò)了100 TB,每年還在以約12 TB的增量數(shù)據(jù)進(jìn)行增加。如此海量的數(shù)據(jù),如何做好管理、服務(wù)、以及分析處理具有很大的挑戰(zhàn)性。以前基于文件、MySql數(shù)據(jù)庫(kù)等方法進(jìn)行管理的模式無(wú)論在數(shù)據(jù)管理、分析處理上都已經(jīng)出現(xiàn)了很大的瓶頸,時(shí)間和效率上已經(jīng)無(wú)法滿(mǎn)足現(xiàn)在地震科學(xué)數(shù)據(jù)管理和科研的需求。而隨著大數(shù)據(jù)技術(shù)的高速發(fā)展,其對(duì)海量數(shù)據(jù)的處理在IO并發(fā)、處理速度上都體現(xiàn)了極大的優(yōu)勢(shì),山東省地震局(李永紅等,2015)、中國(guó)地震局第二監(jiān)測(cè)中心(王丹寧等,2016)、中國(guó)地震臺(tái)網(wǎng)中心等都在該方面開(kāi)展了相關(guān)研究工作,本文主要探討大數(shù)據(jù)技術(shù)在測(cè)震數(shù)據(jù)上的應(yīng)用。

        1大數(shù)據(jù)技術(shù)發(fā)展

        11海量數(shù)據(jù)的存儲(chǔ)技術(shù)[BT)]

        [KG(0.15mm]近年來(lái),隨著數(shù)據(jù)量的高速增長(zhǎng),對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)、備份以及分析時(shí),采用高性能集群和存儲(chǔ)的成本非常高昂。Google公司于2003年提出了GFS的文件存儲(chǔ)方法,面對(duì)的數(shù)據(jù)規(guī)模是TB級(jí)或者GB級(jí),它采用價(jià)格低廉的存儲(chǔ)和計(jì)算機(jī)進(jìn)行穩(wěn)定高效的海量數(shù)據(jù)管理和計(jì)算分析。2006年谷歌公司提出了面向結(jié)構(gòu)化大數(shù)據(jù)的存儲(chǔ)模型——Bigtable,它是一個(gè)為管理大規(guī)模結(jié)構(gòu)化數(shù)據(jù)而設(shè)計(jì)的分布式存儲(chǔ)系統(tǒng),可以擴(kuò)展到PB級(jí)數(shù)據(jù)和上千臺(tái)服務(wù)器,能提供靈活、高性能的存儲(chǔ)解決方案。[KG)]

        Hadoop-HDFS(Hadoop Distributed File System)是文件分布式系統(tǒng),起源于Apache Nutch,也是目前應(yīng)用最廣泛的大數(shù)據(jù)技術(shù)之一(Tom,2014)。Hadoop在2006 年2月成為一個(gè)獨(dú)立的Lucene子項(xiàng)目,是開(kāi)放源碼并行運(yùn)算編程工具和分散式檔案系統(tǒng),憑借其開(kāi)源和易用的特性,[HJ2mm]成為大數(shù)據(jù)處理的首選。HDFS采用了主從(Master/Slave)架構(gòu),一個(gè)集群有一個(gè)Master和多個(gè)Slave,前者稱(chēng)為名字節(jié)點(diǎn)(NameNode),后者稱(chēng)為數(shù)據(jù)節(jié)點(diǎn)(DataNode),放在HDFS上面的數(shù)據(jù)被分為一系列固定大小的數(shù)據(jù)塊(block)(許春玲,張廣泉,2010)。Hbase是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),對(duì)于任何應(yīng)用,Hbase在邏輯上都將所有數(shù)據(jù)存儲(chǔ)在一張表中(許闖等,2012)。

        12海量數(shù)據(jù)的快速計(jì)算

        MapReduce(大規(guī)模數(shù)據(jù)集并行運(yùn)算算法)使得數(shù)據(jù)處理人員只需要執(zhí)行簡(jiǎn)單的運(yùn)算,而將并行化、容錯(cuò)、數(shù)據(jù)存儲(chǔ)、負(fù)載均衡等數(shù)據(jù)處理細(xì)節(jié)放在一個(gè)標(biāo)準(zhǔn)庫(kù)里(Jeffrey,Sanjay,2004)。圖1為MapReduce的計(jì)算架構(gòu),數(shù)據(jù)在Map階段進(jìn)行切割,根據(jù)指定的Key組合為一個(gè)列表,然后根據(jù)Key值進(jìn)行分區(qū),在Reduce階段進(jìn)行計(jì)算合并。

        Spark是近年來(lái)發(fā)展較快的分布式并行數(shù)據(jù)處理框架。MapReduce缺點(diǎn)在于Map和Reduce階段產(chǎn)生的數(shù)據(jù)存儲(chǔ)在硬盤(pán)上效率相對(duì)較低,且只能處理離線數(shù)據(jù),面對(duì)需求實(shí)時(shí)處理的數(shù)據(jù)就無(wú)法滿(mǎn)足需求。Spark和MapReduce的區(qū)別之一在于Spark把中間產(chǎn)生的數(shù)據(jù)放在了內(nèi)存中,并采用RDD(Resilient Distributed Datasets,彈性分布式數(shù)據(jù)集)來(lái)提高計(jì)算效率。

        2大數(shù)據(jù)技術(shù)在測(cè)震數(shù)據(jù)中的應(yīng)用

        IRIS DMC 是全球地震臺(tái)站最大的數(shù)據(jù)匯集中心和處理中心,世界各個(gè)地震研究中心和研究機(jī)構(gòu)通過(guò)Wilber、SeedLink、ArcLink、WebService等標(biāo)準(zhǔn)傳輸方式從IRIS DMC獲取數(shù)據(jù)。圖2為IRIS DMC在2006—2016年期間數(shù)據(jù)匯集和數(shù)據(jù)服務(wù)情況,從圖中可以明顯看到匯集的數(shù)據(jù)量不僅從2006年的幾十TB增長(zhǎng)到現(xiàn)在將近400 TB,對(duì)外服務(wù)提供的數(shù)據(jù)量更是呈現(xiàn)爆發(fā)式增長(zhǎng),2016年的數(shù)據(jù)服務(wù)量比2006年增長(zhǎng)了將近50倍,達(dá)到了900 TB。顯然,如果采用普通的數(shù)據(jù)管理和服務(wù)方式,尤其是在破壞性大地震發(fā)生后面對(duì)全球用戶(hù)的大量數(shù)據(jù)請(qǐng)求響應(yīng)和處理下載,是無(wú)法滿(mǎn)足規(guī)模日益增長(zhǎng)的數(shù)據(jù)服務(wù)需求的。

        中國(guó)地震臺(tái)網(wǎng)中心從最初接入的47個(gè)國(guó)家標(biāo)準(zhǔn)數(shù)字地震觀測(cè)臺(tái)站(趙永等,2002),到已經(jīng)實(shí)現(xiàn)了1 024個(gè)國(guó)家和區(qū)域地震臺(tái)站的測(cè)震波形數(shù)據(jù)實(shí)時(shí)傳輸和匯集(郭凱等,2016),監(jiān)測(cè)能力大幅提升的同時(shí),需要實(shí)時(shí)處理和存儲(chǔ)的數(shù)據(jù)量也達(dá)到了之前20多倍。以前將數(shù)據(jù)備份到光盤(pán)、磁帶庫(kù)的方式在急速增長(zhǎng)的數(shù)據(jù)量面前暴露出數(shù)據(jù)易損壞、恢復(fù)難、數(shù)據(jù)導(dǎo)入導(dǎo)出速度慢等諸多問(wèn)題。從數(shù)據(jù)服務(wù)的角度,由于國(guó)家測(cè)震臺(tái)網(wǎng)西部分布相對(duì)稀疏,東部分布密集。如果M50~60地震發(fā)生在西部,震后時(shí)間波形數(shù)據(jù)由于臺(tái)站密度相對(duì)稀疏,需要處理的臺(tái)站數(shù)據(jù)相對(duì)較少。但如果發(fā)生在華北區(qū)域,按震中800 km選取地震臺(tái)站30 min數(shù)據(jù),最少需要處理300個(gè)臺(tái)站產(chǎn)生約05 GB的數(shù)據(jù),面對(duì)較多用戶(hù)的數(shù)據(jù)處理和下載請(qǐng)求時(shí),對(duì)系統(tǒng)IO和并發(fā)處理能力提出了非常高的要求,普通服務(wù)器很難滿(mǎn)足。

        21基于Hadoop的測(cè)震數(shù)據(jù)存儲(chǔ)模型架構(gòu)設(shè)計(jì)

        中國(guó)地震臺(tái)網(wǎng)中心匯集的測(cè)震波形數(shù)據(jù)采用國(guó)際標(biāo)準(zhǔn)的Miniseed格式,以一個(gè)臺(tái)站一個(gè)分項(xiàng)512字節(jié)、每個(gè)數(shù)據(jù)包1天24個(gè)小時(shí)數(shù)據(jù)做為一個(gè)文件的形式存儲(chǔ),目前所有的數(shù)據(jù)匯集在NAS存儲(chǔ)上,受限于網(wǎng)絡(luò)帶寬以及NAS機(jī)頭數(shù)量,傳輸速度很難超過(guò)100 M/s。在面對(duì)TB級(jí)規(guī)模的測(cè)震波形數(shù)據(jù),單純采用文件方式存儲(chǔ)在數(shù)據(jù)匯集的速度、穩(wěn)定性和安全性方面已經(jīng)無(wú)法滿(mǎn)足要求。

        并發(fā)性性能受限于機(jī)頭性能優(yōu)于NAS隨系統(tǒng)規(guī)模增加呈線性增長(zhǎng)[BG)F][JP]

        [KG(0.15mm]目前國(guó)內(nèi)已開(kāi)展的地震大數(shù)據(jù)存儲(chǔ)方式主要分為2種:①將數(shù)據(jù)按照原始格式導(dǎo)入Hbase中(王丹寧等,2016);②對(duì)原始測(cè)震波形數(shù)據(jù)進(jìn)行解壓縮,整理成ASCII碼放入Hbase中。由于Miniseed格式本身采用了Steim2的壓縮算法,直接將其放入Hbase,對(duì)于提取數(shù)據(jù)時(shí)的計(jì)算效率會(huì)有一定的影響,而將數(shù)據(jù)解壓成ASCII碼的形式,則增長(zhǎng)的數(shù)據(jù)量達(dá)到了將近4倍,會(huì)造成很大的存儲(chǔ)消耗。從測(cè)震數(shù)據(jù)的使用需求來(lái)看,主要分為2種:①實(shí)時(shí)性計(jì)算,主要用于地震速報(bào)、地震預(yù)警和烈度速報(bào)等;②數(shù)據(jù)分析,主要對(duì)歷史數(shù)據(jù)進(jìn)行計(jì)算分析,如噪聲成像、區(qū)域速度結(jié)構(gòu)等科學(xué)研究領(lǐng)域。由于HDFS是為了處理大型數(shù)據(jù)集分析任務(wù)的,是為達(dá)到高的數(shù)據(jù)吞吐量而設(shè)計(jì)的,這就可能要求以高延遲作為代價(jià)。

        基于測(cè)震數(shù)據(jù)的實(shí)際業(yè)務(wù)需求和匯集情況,并且考慮到數(shù)據(jù)存儲(chǔ)的成本,本文提出了如圖3所示的基于Hadoop的測(cè)震數(shù)據(jù)存儲(chǔ)架構(gòu)。將實(shí)時(shí)數(shù)據(jù)和近期1年的測(cè)震波形數(shù)據(jù)放入Hbase中存儲(chǔ),這樣可以滿(mǎn)足對(duì)實(shí)時(shí)性計(jì)算要求較高的地震速報(bào)和地震預(yù)警要求;將歷史數(shù)據(jù)放入HDFS中,并采用1∶[KG-*2]3的比例進(jìn)行數(shù)據(jù)備份,提高了數(shù)據(jù)的安全性,并可以開(kāi)展基于MapReduce和Spark的高效計(jì)算。

        當(dāng)然,測(cè)震數(shù)據(jù)在Hbase中的存儲(chǔ)要結(jié)合實(shí)際的業(yè)務(wù)需求進(jìn)行設(shè)計(jì)。目前國(guó)家臺(tái)網(wǎng)中心采用基于JOPENS的SSS流服務(wù)器來(lái)負(fù)責(zé)接收和分發(fā)近實(shí)時(shí)波形數(shù)據(jù),接收數(shù)據(jù)為512字節(jié)的純數(shù)據(jù)SEED卷(Miniseed數(shù)據(jù)),包含有固定頭段部分(48字節(jié))和數(shù)據(jù)部分,主要記錄臺(tái)站名、通道名、記錄起始時(shí)間、樣本數(shù)目、測(cè)震數(shù)據(jù)等,以一個(gè)臺(tái)站一個(gè)分項(xiàng)(周輝等,2011)。劉堅(jiān)等(2015)對(duì)測(cè)震數(shù)據(jù)存入Hbase的數(shù)據(jù)結(jié)構(gòu)進(jìn)行相關(guān)設(shè)計(jì)和研究,設(shè)計(jì)了Row Key 為,主要基于512字節(jié)數(shù)據(jù)頭段所包含的臺(tái)站信息來(lái)進(jìn)行數(shù)據(jù)的快速檢索(劉堅(jiān)等,2015)。根據(jù)臺(tái)網(wǎng)中心的測(cè)震波形文件存儲(chǔ)格式,并考慮實(shí)際業(yè)務(wù)需求和數(shù)據(jù)檢索效率,本文設(shè)計(jì)了如表1所示的基于Hbase的測(cè)震波形數(shù)據(jù)存儲(chǔ)格式??紤]性能和維護(hù)性,采用每月數(shù)據(jù)存儲(chǔ)在一張表的設(shè)計(jì)思想,每張表有2列,一列是ROWKEY,另一列存儲(chǔ)每條實(shí)時(shí)流,以北京BST臺(tái)站2016年4月9日16點(diǎn)10分32秒接收到的數(shù)據(jù)為例,設(shè)計(jì)的表結(jié)構(gòu)如表2所示。

        22數(shù)據(jù)管理和計(jì)算模型設(shè)計(jì)

        測(cè)震波形數(shù)據(jù)質(zhì)量控制是數(shù)據(jù)共享和服務(wù)非常關(guān)鍵的一步,而運(yùn)行率是評(píng)估臺(tái)站數(shù)據(jù)質(zhì)量在一定時(shí)間范圍內(nèi)的一個(gè)重要指標(biāo)。如果以5年全國(guó)測(cè)震臺(tái)站波形數(shù)據(jù)1 024個(gè)臺(tái)站約65 TB數(shù)據(jù),每個(gè)臺(tái)站1個(gè)分項(xiàng)1小時(shí)運(yùn)行率作為基本單位進(jìn)行統(tǒng)計(jì)并存儲(chǔ)該小時(shí)段的運(yùn)行率,則產(chǎn)生的數(shù)據(jù)量超過(guò)了2億多條,而傳統(tǒng)的數(shù)據(jù)庫(kù)如Mysql在規(guī)模達(dá)到幾百萬(wàn)條數(shù)據(jù)的時(shí),檢索的速度就已經(jīng)達(dá)到了瓶頸,同時(shí),計(jì)算如此海量的數(shù)據(jù),即使采用高性能計(jì)算機(jī)進(jìn)行數(shù)據(jù)運(yùn)行率檢索,也會(huì)受限于IO瓶頸和CPU的數(shù)量,計(jì)算的時(shí)間會(huì)非常漫長(zhǎng)。

        基于臺(tái)網(wǎng)中心目前的數(shù)據(jù)存儲(chǔ)情況以及本文設(shè)計(jì)的測(cè)震數(shù)據(jù)存儲(chǔ)模型,設(shè)計(jì)了一套基于Hadoop的分布式歷史數(shù)據(jù)運(yùn)行率檢索計(jì)算模型,同時(shí)兼容考慮了對(duì)實(shí)時(shí)流數(shù)據(jù)運(yùn)行率的實(shí)時(shí)檢索,如圖4所示。模型基于表2的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)將歷史數(shù)據(jù)首先導(dǎo)入HDFS中,采用Spark計(jì)算模式開(kāi)展多節(jié)點(diǎn)的數(shù)據(jù)運(yùn)行率計(jì)算,以小時(shí)為周期將計(jì)算結(jié)果實(shí)時(shí)放入Hbase中,實(shí)時(shí)流數(shù)據(jù)的計(jì)算流程同歷史數(shù)據(jù)一樣,結(jié)果放入MySql,并按一定周期導(dǎo)入Hbase中。

        [JP2]圖4中,自底向上分為3個(gè)層面。第1層是數(shù)據(jù)源層,主要包括地震波形數(shù)據(jù)文件以及測(cè)震實(shí)時(shí)流,最新的地震波形數(shù)據(jù)文件存儲(chǔ)在NAS存儲(chǔ)服務(wù)器上,可通過(guò)腳本將其掛載到本地進(jìn)行讀寫(xiě),歷史地震波形數(shù)據(jù)文件存儲(chǔ)在HDFS分布式文件系統(tǒng)中,用HDFS接口進(jìn)行存儲(chǔ)和訪問(wèn);第2層是處理層,主要完成系統(tǒng)所需要數(shù)據(jù)計(jì)算功能,主要提供基于歷史地震波形數(shù)據(jù)文件的連續(xù)率計(jì)算以及實(shí)時(shí)地震波形數(shù)據(jù)文件的連續(xù)率計(jì)算;第3層是云平臺(tái)中系統(tǒng)的數(shù)據(jù)持久層,主要提供處理層中各類(lèi)計(jì)算結(jié)果的存儲(chǔ),包括測(cè)震連續(xù)波形數(shù)據(jù)、索引數(shù)據(jù)以及臺(tái)站通道信息數(shù)據(jù)等。其中,連續(xù)率數(shù)據(jù)由于數(shù)據(jù)量巨大,將存儲(chǔ)在分布式數(shù)據(jù)庫(kù)Hbase中,通過(guò)Hbase接口進(jìn)行存儲(chǔ)和訪問(wèn)處理;而其它類(lèi)似基礎(chǔ)信息類(lèi)的數(shù)據(jù),即數(shù)據(jù)量不大但處理響應(yīng)性能要求較高的數(shù)據(jù),將存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)Mysql中,用JDBC/SQL進(jìn)行存儲(chǔ)和訪問(wèn)處理。[JP]

        23基于大數(shù)據(jù)架構(gòu)的測(cè)震數(shù)據(jù)計(jì)算測(cè)試

        本次測(cè)試編寫(xiě)了2個(gè)測(cè)震數(shù)據(jù)運(yùn)行率計(jì)算程序,分別為基于Hadoop的大數(shù)據(jù)計(jì)算版本和基于多線程的單機(jī)版本。這里主要介紹大數(shù)據(jù)計(jì)算版本的程序設(shè)計(jì)和執(zhí)行步驟:首先數(shù)據(jù)處理模塊的主線程獲取HDFS上的數(shù)據(jù)目錄集合,并將目錄集合以任務(wù)集的方式提交至計(jì)算節(jié)點(diǎn)進(jìn)行計(jì)算,計(jì)算節(jié)點(diǎn)每次取出一天的數(shù)據(jù)進(jìn)行計(jì)算,work從HDFS上取出某天目錄下的所有Miniseed文件依次進(jìn)行解析,每個(gè)Miniseed文件按512個(gè)字節(jié)為單位進(jìn)行讀取,讀取時(shí)需要對(duì)重復(fù)數(shù)據(jù)進(jìn)行選優(yōu)計(jì)算,ZooKeeper是一個(gè)開(kāi)放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Hadoop和Hbase的重要組件,提供的功能包括配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等;Hbase是一個(gè)分布式的、面向列的非結(jié)構(gòu)化開(kāi)源數(shù)據(jù)庫(kù),在縱向上可以提供無(wú)限擴(kuò)展能力;Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它通過(guò)Hadoop的并行加載機(jī)制來(lái)統(tǒng)一各類(lèi)消息處理,也是為了通過(guò)集群來(lái)提供實(shí)時(shí)數(shù)據(jù)的緩存和消費(fèi);Spark 是一種與 Hadoop 相似的基于內(nèi)存的開(kāi)源集群計(jì)算環(huán)境,由于Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢(xún)外,它還可以?xún)?yōu)化迭代工作負(fù)載。

        測(cè)試數(shù)據(jù)采用2015年12月的全國(guó)測(cè)震波形數(shù)據(jù),數(shù)據(jù)量約1 TB。多線程版本測(cè)試將1個(gè)月的Miniseed文件保存在10519056服務(wù)器的硬盤(pán)上,目錄按每天1個(gè)文件夾進(jìn)行存放,通過(guò)多線程技術(shù)分別將1個(gè)月的文件進(jìn)行解析,測(cè)試結(jié)果如表5所示。

        通過(guò)上面測(cè)試,發(fā)現(xiàn)大數(shù)據(jù)版本的處理時(shí)間僅為多線程版本的1/6,多線程版本的數(shù)據(jù)放在本地硬盤(pán),受限制于文件讀取效率,而從HDFS文件系統(tǒng)讀取,不限制于硬盤(pán)讀取速率,且可以成倍的提高讀取解析效率;另外,如圖5所示,其中計(jì)算節(jié)點(diǎn)10519053(圖5a)上只有HDFS,所以上傳速率是30~40 M/s,下載速度為0,表示該節(jié)點(diǎn)在為spark運(yùn)算提供文件數(shù)據(jù);計(jì)算節(jié)點(diǎn)10519055(圖5b)上不僅有HDFS節(jié)點(diǎn),還有Spark計(jì)算節(jié)點(diǎn),上傳和下載速度約264 M/s,表明該節(jié)點(diǎn)不僅有Spark的work節(jié)點(diǎn)在接受并解析數(shù)據(jù),同時(shí),該節(jié)點(diǎn)在向外發(fā)送數(shù)據(jù);計(jì)算節(jié)點(diǎn)10519056(圖5c)上也是不僅有HDFS節(jié)點(diǎn),同時(shí)有Spark計(jì)算節(jié)點(diǎn),但是上傳速率很低,說(shuō)明該解析的數(shù)據(jù)并沒(méi)有存放在該節(jié)點(diǎn)上或存放量偏少。但是該節(jié)點(diǎn)文件接受速率為120 M/s,說(shuō)明該節(jié)點(diǎn)在解析數(shù)據(jù)。由于本次測(cè)試的Hadoop集群配置的是千兆網(wǎng)卡,因此,120 M/s左右的速率為正常速率,220 M/s的上傳下載速度表明該節(jié)點(diǎn)不僅接受其他HDFS節(jié)點(diǎn)傳輸過(guò)來(lái)的數(shù)據(jù),同時(shí)在處理本機(jī)上的HDFS節(jié)點(diǎn)數(shù)據(jù)。綜上可知,通過(guò)Spark計(jì)算,還有一定提升空間,由于網(wǎng)絡(luò)帶寬達(dá)到上限,通過(guò)增加服務(wù)器的方式,對(duì)網(wǎng)絡(luò)進(jìn)行負(fù)載均衡,可以進(jìn)一步提升Spark解析任務(wù)的文件讀取效率,進(jìn)一步提升解析速度。

        3結(jié)論

        [KG(0.2mm]本文從測(cè)震數(shù)據(jù)存儲(chǔ)和共享科學(xué)計(jì)算的角度出發(fā),就大數(shù)據(jù)技術(shù)在海量測(cè)震數(shù)據(jù)的存儲(chǔ)和應(yīng)用方面進(jìn)行了相關(guān)研究,基于海量測(cè)震數(shù)據(jù)的實(shí)際業(yè)務(wù)需求和匯集情況,設(shè)計(jì)了一套分別將測(cè)震數(shù)據(jù)放入HDFS和Hbase的數(shù)據(jù)模型,并通過(guò)多副本的設(shè)定來(lái)保證數(shù)據(jù)的安全性;從測(cè)震數(shù)據(jù)質(zhì)量控制的需求出發(fā),提出了一個(gè)基于Hadoop Spark的海量數(shù)據(jù)運(yùn)行率計(jì)算模型,采用測(cè)震數(shù)據(jù)就傳統(tǒng)的多線程計(jì)算和基于Hadoop環(huán)境的集群計(jì)算做了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果體現(xiàn)了大數(shù)據(jù)在海量數(shù)據(jù)處理上進(jìn)行分布式存儲(chǔ)和計(jì)算的強(qiáng)大的性能優(yōu)勢(shì),該性能可以隨著參與計(jì)算節(jié)點(diǎn)的增加來(lái)進(jìn)行提升。因此,對(duì)于開(kāi)展地震波形互相關(guān)、層析成像、區(qū)域速度結(jié)構(gòu)等研究,需要對(duì)海量測(cè)震波形數(shù)據(jù)分析處理的地震科研人員來(lái)說(shuō),可以大大提高效率,使處理速度達(dá)到之前的幾倍、幾十倍甚至更多,體現(xiàn)了大數(shù)據(jù)技術(shù)在地震行業(yè)的利用價(jià)值。[KG)]

        [HTK]本文在撰寫(xiě)過(guò)程中得到孟令媛副研究員、南京云創(chuàng)大數(shù)據(jù)公司馬鳴、汪洲權(quán)的幫助,在此向他們表示衷心感謝。[KH*1D]

        參考文獻(xiàn):

        郭凱,溫瑞智,楊大克,等2016地震預(yù)警系統(tǒng)的效能評(píng)估和社會(huì)效益分析[J].地震學(xué)報(bào),38(1):146-154

        侯建民,黃志斌,余書(shū)明,等2009中國(guó)國(guó)家地震臺(tái)網(wǎng)中心技術(shù)系統(tǒng)[J].地震學(xué)報(bào),31(6):684-690

        李永紅,周娜,趙國(guó)峰,等2015云計(jì)算環(huán)境下地震數(shù)據(jù)管理與服務(wù)應(yīng)用研究[J].震災(zāi)防御技術(shù),10(增刊1):811-817

        劉堅(jiān),李盛樂(lè),戴苗,等2015基于Hbase的地震大數(shù)據(jù)存儲(chǔ)研究[J].大地測(cè)量與地球動(dòng)力學(xué),35(5):890-893

        王丹寧,柴旭超,王文青2016Hadoop平臺(tái)下的地震波形數(shù)據(jù)存儲(chǔ)與應(yīng)用規(guī)劃[J].軟件工程,19(1):48-49

        許闖,劉鵬,劉志忠,等2012一種基于HBase的本體復(fù)用新方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,22(6):57-60

        許春玲,張廣泉2010分布式文件系統(tǒng)Hadoop HDFS與傳統(tǒng)文件系統(tǒng)Linux FS的比較與分析[J].蘇州大學(xué)學(xué)報(bào)(工科版),34(1):5-9

        趙永,薛峰,劉陽(yáng),等2002國(guó)家數(shù)字地震臺(tái)網(wǎng)中心技術(shù)系統(tǒng)與服務(wù)[J].地震地磁觀測(cè)與研究,23(1):16-23

        周輝,申學(xué)林,王文青,等2011通用測(cè)震數(shù)據(jù)獲取軟件包的設(shè)計(jì)與實(shí)現(xiàn)[J].地震研究,34(1):102-107

        JEFFREY D,SANJAY C2004MapReduce:Simplified Data Processing on Large Clusters[C].Conference on Symposium on Opearting Systems Design & Implementation,137-150

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        基于大數(shù)據(jù)的小微電商授信評(píng)估研究
        大數(shù)據(jù)時(shí)代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書(shū)出版的影響和推動(dòng)作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶(hù)端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        人妻少妇中文字幕av| 色av综合av综合无码网站| 亚洲国产99精品国自产拍| 伊人久久大香线蕉免费视频 | 国产精品无码久久综合| 久久久www成人免费精品| 亚洲美免无码中文字幕在线| 亚洲欧美国产日韩制服bt| 婷婷综合缴情亚洲狠狠| 国产精品亚洲精品日产久久久| 日韩精品极品视频在线免费 | 日本丰满少妇xxxx| 日韩一区国产二区欧美三区| 国产欧美日韩久久久久| 伊人色综合久久天天人手人停| 久久午夜无码鲁丝片直播午夜精品| 男女啪啪免费视频网址 | 久久久久久成人毛片免费看| 无码人妻系列不卡免费视频 | 一区二区三区四区午夜视频在线| 亚洲国产精品区在线观看| 丝袜美腿亚洲一区二区| 亚洲国产成人久久综合电影| 91久久福利国产成人精品| 国产91精品自拍视频| 97精品人人妻人人| 中国年轻丰满女人毛茸茸| 人妖熟女少妇人妖少妇| 中文字幕有码久久高清| 亚洲国产精品无码久久久| 全免费a级毛片免费看网站| 一本大道久久东京热无码av| 视频一区精品中文字幕| 国产后入清纯学生妹| 韩国三级中文字幕hd久久精品| 中文字幕五月久久婷热| 精品人妻va一区二区三区| 精品亚洲国产成人| 91日韩高清在线观看播放| 日本久久一级二级三级| 亚洲av产在线精品亚洲第三站|