亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MapReduce的地震波形數(shù)據(jù)并行解壓縮算法研究1

        2015-12-05 05:21:40劉凡鳴郭瑞強(qiáng)李永慶邊鵬飛
        震災(zāi)防御技術(shù) 2015年2期

        劉凡鳴 郭瑞強(qiáng) 李永慶 邊鵬飛

        ?

        基于MapReduce的地震波形數(shù)據(jù)并行解壓縮算法研究1

        劉凡鳴1)郭瑞強(qiáng)1)李永慶2)邊鵬飛2)

        1)河北師范大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,石家莊 050024?2)河北省地震局,石家莊 050021

        近年來(lái)各省級(jí)地震臺(tái)網(wǎng)SEED文件數(shù)據(jù)量急增。在數(shù)據(jù)處理過(guò)程中,利用原有的串行解壓縮算法批量解壓縮地震波形數(shù)據(jù)時(shí)存在操作繁瑣、耗時(shí)較長(zhǎng)的問(wèn)題。本文引入了MapReduce并行編程模型,根據(jù)該編程模型思想結(jié)合原有串行解壓縮算法,提出了一種并行解壓縮地震波形數(shù)據(jù)的算法,并給出了算法的設(shè)計(jì)與實(shí)現(xiàn)。本文從正確性、運(yùn)行效率以及可擴(kuò)展性三個(gè)方面進(jìn)行了對(duì)比實(shí)驗(yàn),驗(yàn)證了使用并行算法解壓縮數(shù)據(jù)的效率較高,并且能夠一次實(shí)現(xiàn)批量地震波形數(shù)據(jù)的解壓縮,且操作簡(jiǎn)單。

        地震波形數(shù)據(jù) 解壓縮 并行 MapReduce

        引言

        目前,中國(guó)數(shù)字地震監(jiān)測(cè)網(wǎng)絡(luò)的測(cè)震臺(tái)站數(shù)量已達(dá)1000多個(gè),它們?yōu)闇y(cè)震臺(tái)網(wǎng)中心提供了大量的波形數(shù)據(jù)。各省級(jí)測(cè)震臺(tái)網(wǎng)中心在完成地震速報(bào)和編目處理后,將這些波形數(shù)據(jù)歸檔成SEED(The Standard for the Exchange of Earthquake Data,地震數(shù)據(jù)交換標(biāo)準(zhǔn))(中國(guó)地震局,2003)格式用于地震科研。單是省級(jí)測(cè)震臺(tái)網(wǎng)中心就已經(jīng)積累了龐大的波形數(shù)據(jù),以河北省地震局為例,目前已經(jīng)積累了10TB左右的波形數(shù)據(jù),而且還以約0.6TB/年的速率增長(zhǎng)。其中,“臺(tái)站卷”歸檔了單個(gè)臺(tái)站的連續(xù)波形,“事件卷”歸檔了多個(gè)臺(tái)站對(duì)同一地震事件的記錄波形。隨著數(shù)字地震波形的廣泛使用,對(duì)地震精定位、波形互相關(guān)分析、重復(fù)地震、波速比、地脈動(dòng)噪聲成像、震動(dòng)圖快速計(jì)算、震源機(jī)制解、震源破裂過(guò)程反演等方面的研究越加深入。在進(jìn)行上述研究時(shí),首先會(huì)將壓縮格式的SEED波形還原成數(shù)字序列,因此需要處理的臺(tái)站數(shù)量也越來(lái)越多。而原有的SEED解壓算法屬于單文件、單線程操作,極大制約了數(shù)據(jù)處理工作的效率。

        Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開(kāi)源的分布式計(jì)算平臺(tái)(White,2012),其核心組件包括分布式文件系統(tǒng)(HDFS)和MapReduce編程模型。其中HDFS具有可靠、可擴(kuò)展等優(yōu)點(diǎn),因此用戶(hù)可以將多臺(tái)廉價(jià)的硬件部署成并行處理集群(Ghemawat等,2003)。而MapReduce是一個(gè)可以在集群上處理大規(guī)模數(shù)據(jù)的并行編程模型,它借鑒了函數(shù)式編程思想,其中分布式系統(tǒng)底層細(xì)節(jié)對(duì)用戶(hù)是透明的,因此用戶(hù)只需編寫(xiě)函數(shù)式程序就可以進(jìn)行并行程序的開(kāi)發(fā)(Dean等,2008)。利用Hadoop架構(gòu)提供的MapReduce編程模型,可將單文件、單線程的SEED解壓縮工作轉(zhuǎn)變?yōu)橛?jì)算機(jī)集群上多文件、多線程的并行處理,因此可以極大地提高解壓縮效率。特別是針對(duì)測(cè)震臺(tái)網(wǎng)數(shù)據(jù)服務(wù)中心在多用戶(hù)環(huán)境下提供數(shù)據(jù)服務(wù)時(shí),這種效率的提高更加明顯。

        目前Hadoop技術(shù)在地震相關(guān)領(lǐng)域已經(jīng)有了初步使用,文必龍等(2014)提出了非結(jié)構(gòu)化地震數(shù)據(jù)在Hadoop分布式平臺(tái)上的存取設(shè)計(jì)方案,該方案采用了混合索引查詢(xún)方法進(jìn)行統(tǒng)一訪問(wèn),提高了數(shù)據(jù)的存儲(chǔ)效率。趙長(zhǎng)海等(2012)探討了MapReduce對(duì)石油勘探領(lǐng)域應(yīng)用算法的適用性,并采用MapReduce處理地震數(shù)據(jù)用以獲取地下構(gòu)造,從而實(shí)現(xiàn)石油勘探。由于地震波形數(shù)據(jù)文件屬于半結(jié)構(gòu)化文件,而處理半結(jié)構(gòu)化文件又是MapReduce的優(yōu)勢(shì)之一,所以MapReduce比較適合以批處理的方式解決問(wèn)題。本文引入了MapReduce的編程模型(李闖等,2010),同時(shí)根據(jù)編程模型和原有串行解壓縮算法,提出了一種并行解壓縮地震波形數(shù)據(jù)的算法(以下簡(jiǎn)稱(chēng)PDSWD算法),并給出了算法的設(shè)計(jì)與實(shí)現(xiàn)。筆者從正確性、運(yùn)行效率以及可擴(kuò)展性三個(gè)方面對(duì)算法進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果表明使用該算法解壓縮數(shù)據(jù)時(shí)效率較高,并且能夠一次實(shí)現(xiàn)批量地震波形數(shù)據(jù)的解壓縮,且操作簡(jiǎn)單、方便實(shí)用。

        1 地震波形數(shù)據(jù)的串行解壓縮算法

        中華人民共和國(guó)地震行業(yè)標(biāo)準(zhǔn)《地震波形數(shù)據(jù)交換格式(DB/T 2-2003)》(中國(guó)地震局,2003)中規(guī)定了SEED的格式,因此本文不再介紹。SEED文件采用Steim2壓縮算法(Mauro等,2006),這種算法既能節(jié)省存儲(chǔ)空間,又能保證數(shù)據(jù)信息不丟失。而地震波形數(shù)據(jù)的解壓縮算法是Steim2壓縮算法的逆過(guò)程(王洪體等,2004),首先需要計(jì)算樣本個(gè)數(shù),然后提取樣本序列的第一個(gè)值并獲取編碼方式,利用差值序列重建原始的32位數(shù)據(jù)樣本序列。

        2 基于MapReduce的地震波形數(shù)據(jù)并行解壓縮算法

        2.1 MapReduce模型

        MapReduce是一個(gè)可以在集群上處理大規(guī)模數(shù)據(jù)的并行編程模型,其分布式系統(tǒng)底層細(xì)節(jié)對(duì)用戶(hù)是透明的。MapReduce主要包括Map和Reduce兩個(gè)階段,用戶(hù)只需根據(jù)自己的需求編寫(xiě)相應(yīng)的Map和Reduce程序,就可以進(jìn)行并行程序的開(kāi)發(fā)。

        輸入數(shù)據(jù)可以看成是若干個(gè)對(duì)的集合,MapReduce的工作原理體現(xiàn)了分治思想,將輸入數(shù)據(jù)切分成若干片,然后交由集群內(nèi)的不同節(jié)點(diǎn)同步處理,以此實(shí)現(xiàn)程序的并行化,其處理流程如圖1所示。在Map階段,MapReduce可根據(jù)用戶(hù)自定義的Map函數(shù),讓每個(gè)Map節(jié)點(diǎn)處理由若干個(gè)對(duì)構(gòu)成的分片,而輸出的中間結(jié)果是新的對(duì)集合,處理過(guò)程可表示為:

        Map: (k1,v1)→List (k2,v2)

        之后混洗操作將key值相同的對(duì)聚集到一起傳遞給Reduce。各個(gè)Reduce節(jié)點(diǎn)再根據(jù)用戶(hù)自定義的Reduce函數(shù),處理具有相同key值的value集合,最后生成新的對(duì)集合輸出,處理過(guò)程可表示為:

        Reduce: (k2,List(v2))→List (k3,v3)

        圖1是MapReduce的數(shù)據(jù)流程。

        2.2 并行解壓縮算法

        由于輸入數(shù)據(jù)中每個(gè)通道中的各條數(shù)據(jù)記錄相互獨(dú)立,在解壓縮過(guò)程中互不影響,因此SEED文件適合并行化處理,可以將解壓縮算法移植到MapReduce上使用。并行解壓縮地震波形數(shù)據(jù)的基本思路是:利用MapReduce編程模型的分治思想,Map階段解壓縮每個(gè)分片中的數(shù)據(jù)記錄,然后將中間結(jié)果傳遞給Reduce階段進(jìn)行規(guī)約,拼接各通道數(shù)據(jù)得到最終結(jié)果。解壓縮過(guò)程如圖2所示。

        以下是MapReduce各階段的流程描述:

        (1)輸入:地震事件波形SEED文件,包括臺(tái)站、位置、臺(tái)網(wǎng)、通道、時(shí)間、樣本數(shù)據(jù)、采樣率以及壓縮數(shù)據(jù)等。

        (2)Map階段:并行解壓縮每個(gè)分片中的各條數(shù)據(jù)記錄,得到原始樣本數(shù)據(jù),根據(jù)輸入文件讀取每條數(shù)據(jù)記錄所屬文件的文件名,以及臺(tái)站、位置、臺(tái)網(wǎng)、通道的信息,將這些信息作為中間結(jié)果的key,將從每條數(shù)據(jù)記錄中讀取的其余頭部信息和解壓縮后得到的數(shù)據(jù)作為中間結(jié)果的value。

        (3)Reduce階段:遠(yuǎn)程拷貝Map階段輸出的中間結(jié)果,把key相同的值對(duì)聚集到一起,并按照數(shù)據(jù)記錄序號(hào)進(jìn)行排序,然后將數(shù)據(jù)傳遞給Reduce節(jié)點(diǎn),根據(jù)用戶(hù)自定義的Reduce函數(shù),將解壓縮后得到的各通道數(shù)據(jù)按照時(shí)間的先后順序進(jìn)行拼接。

        (4)輸出:輸出文件中包含每個(gè)臺(tái)站的各個(gè)通道解壓縮得到的原始樣本,并按采樣順序排列。

        2.3 Map階段處理過(guò)程

        2.3.1 自定義Inputformat

        Inputformat是MapReduce的一個(gè)重要接口,其中包含輸入數(shù)據(jù)切片方法以及每個(gè)從分片讀取鍵值對(duì)的方法。通常系統(tǒng)默認(rèn)的是按行提取鍵值對(duì),即中的key代表行偏移量,value代表該行內(nèi)容。但是由于SEED文件中既有ASCII格式數(shù)據(jù),又有二進(jìn)制格式數(shù)據(jù),而二進(jìn)制數(shù)據(jù)中沒(méi)有換行的概念,因此現(xiàn)有的按行提取鍵值對(duì)的方法不能滿(mǎn)足需求,需要自定義適合地震數(shù)據(jù)處理的Inputformat。因?yàn)榻鈮嚎s操作使用的是SEED文件的數(shù)據(jù)塊部分,所以在讀取鍵值對(duì)的方法中設(shè)置跳過(guò)文件的4個(gè)控制頭段,將數(shù)據(jù)塊的第一個(gè)字節(jié)處作為起始位置,每4096個(gè)字節(jié)為一條記錄,每條記錄作為value,該條記錄所在文件名作為key,將分片解析成<文件名,數(shù)據(jù)記錄>這樣的對(duì)格式作為輸入。

        2.3.2 Map函數(shù)

        Map函數(shù)接收從分片中讀取的<文件名,數(shù)據(jù)記錄>對(duì),并將其作為輸入,通過(guò)用戶(hù)自定義的Map函數(shù)解壓縮每條數(shù)據(jù)記錄,并讀取數(shù)據(jù)記錄中的屬性信息。因?yàn)槊總€(gè)通道包含的數(shù)據(jù)記錄不止一條,所以需要根據(jù)時(shí)間的先后,將各通道內(nèi)數(shù)據(jù)記錄解壓縮后的結(jié)果進(jìn)行拼接。同一通道內(nèi)數(shù)據(jù)記錄的編號(hào)可以反映出時(shí)間的先后,編號(hào)越小則記錄的時(shí)間越早,因此把數(shù)據(jù)記錄的編號(hào)作為排序依據(jù)。

        MapReduce中Map的輸出只會(huì)按照key排序,不會(huì)根據(jù)value進(jìn)行排序。而本文中不僅需要按照key排序,在拼接數(shù)據(jù)時(shí)還需要按照數(shù)據(jù)記錄編號(hào)進(jìn)行排序,但數(shù)據(jù)記錄編號(hào)在value中保存,因此就需要使用二次排序。使用二次排序時(shí)需要定義一個(gè)組合key,在本文中組合key包括需要首先排序的頭部信息,即原始key,以及之后需要排序的value中的數(shù)據(jù)記錄編號(hào)。

        因此Map階段輸出的中間結(jié)果格式為<(頭部信息,數(shù)據(jù)記錄編號(hào)),其余頭部信息@解壓縮后數(shù)據(jù)>。Map階段輸出結(jié)構(gòu)如圖3所示,F(xiàn)N-Sid-Lid-Nid-Cid和Did形成組合key,F(xiàn)N-Sid-Lid-Nid-Cid作為組合key的第一個(gè)值,每個(gè)編碼間用分隔符“-”隔開(kāi),Did作為第二個(gè)值。其中FN為文件名稱(chēng),Sid為臺(tái)站編碼,Lid為位置編碼,Nid為臺(tái)網(wǎng)編碼,Cid為通道編碼,Did為數(shù)據(jù)記錄編號(hào)。其余頭部信息@解壓縮后數(shù)據(jù)作為value輸出,將其余頭部信息和解壓縮后數(shù)據(jù)之間用分隔符“@”隔開(kāi),其余頭部信息各編碼之間用分隔符“-”隔開(kāi)。其中ST為采樣開(kāi)始時(shí)間,ET為采樣結(jié)束時(shí)間,SN為樣本數(shù)目,SR為采樣率,由于剩余的頭部信息與本文算法關(guān)聯(lián)不大,這里就不再一一展開(kāi)介紹。Data為單條數(shù)據(jù)記錄解壓后數(shù)據(jù)。因此Map輸出結(jié)果為<(FN-Sid-Lid-Nid-Cid,Did), Did-ST-ET-SN-SR-剩余頭部信息@解壓縮后數(shù)據(jù)>。

        以下是PDSWD Mapper算法:

        輸入:<文件名,數(shù)據(jù)記錄>

        輸出:<(FN-Sid-Lid-Nid-Cid,Did),Did-ST-ET-SN-SR-剩余頭部信息@解壓縮后數(shù)據(jù)>

        步驟:

        (1)讀取value值;

        (2)獲取分片所屬文件的文件名FN;

        (3)讀取臺(tái)站編碼Sid,位置編碼Lid,臺(tái)網(wǎng)編碼Nid,通道編碼Cid,數(shù)據(jù)記錄編號(hào)Did;

        (4)計(jì)算數(shù)據(jù)記錄中包含的樣本個(gè)數(shù)SN,然后解壓縮數(shù)據(jù)記錄,得到原始數(shù)據(jù)樣本data=decode(d,SN,false);

        (5)獲取數(shù)據(jù)記錄的開(kāi)始時(shí)間ST,采樣率SR,并根據(jù)這兩個(gè)值計(jì)算結(jié)束時(shí)間ET;

        (6)輸出中間結(jié)果Context.write((FN-Sid-Lid-Nid-Cid,Did), Did-ST-ET-SN-SR-剩余頭部信息@解壓縮后數(shù)據(jù))。

        2.4 Reduce階段處理過(guò)程

        Map階段后會(huì)將具有相同key值的鍵值對(duì)分發(fā)到同一個(gè)Reduce節(jié)點(diǎn),在Reduce節(jié)點(diǎn)上拼接屬于同一通道的數(shù)據(jù)記錄解壓后得到的數(shù)據(jù)。由于地震數(shù)據(jù)在采樣過(guò)程中可能會(huì)發(fā)生異常(如兩條數(shù)據(jù)記錄間出現(xiàn)時(shí)間重疊或者時(shí)間間隔的情況),因此不能直接按照數(shù)據(jù)記錄編號(hào)從小到大的順序直接拼接,需要先比較上一條數(shù)據(jù)記錄的結(jié)束時(shí)間和本條數(shù)據(jù)記錄的開(kāi)始時(shí)間。如果兩個(gè)時(shí)間相同,則按數(shù)據(jù)記錄編號(hào)從小到大的順序直接拼接兩條記錄中解壓出的數(shù)據(jù)。如果上一條的結(jié)束時(shí)間和本條的開(kāi)始時(shí)間之間存在時(shí)間間隔,則首先計(jì)算出時(shí)間間隔,并根據(jù)采樣率計(jì)算在該時(shí)間間隔內(nèi)能采集到的樣本個(gè)數(shù),再在兩條數(shù)據(jù)記錄間補(bǔ)充相同個(gè)數(shù)的null。如果本條的開(kāi)始時(shí)間比上條的結(jié)束時(shí)間還早,應(yīng)計(jì)算出兩者重疊的時(shí)間段,再根據(jù)采樣率計(jì)算出在該時(shí)間段內(nèi)能采集到的樣本個(gè)數(shù),然后在上一條數(shù)據(jù)記錄尾部去除相同個(gè)數(shù)的數(shù)據(jù),最后再拼接本條數(shù)據(jù)記錄中解壓縮得到的數(shù)據(jù)。輸入鍵值對(duì)為<(FN-Sid-Lid-Nid-Cid, Did), Did-ST-ET-SN-SR-剩余頭部信息@解壓縮后數(shù)據(jù)>,輸出鍵值對(duì)為<全部頭段信息,按臺(tái)站通道拼接后得到的原始樣本數(shù)據(jù)>。

        以下是PDSWD Reducer算法:

        輸入:<(FN-Sid-Lid-Nid-Cid,Did),Did-ST-ET-SN-SR-剩余頭部信息@解壓縮后數(shù)據(jù)>

        輸出:<全部頭段信息,按臺(tái)站通道拼接后得到的原始樣本數(shù)據(jù)>

        步驟:

        (1)讀取組合鍵中的第一個(gè)key值以及value中除解壓縮后數(shù)據(jù)以外的所有頭部信息,將兩者合并得到全部頭段信息;

        (2)讀取value集合中第一個(gè)value值,獲取結(jié)束時(shí)間ET以及解壓后數(shù)據(jù);

        (3)讀取集合中下一個(gè)value,獲取開(kāi)始時(shí)間ST、結(jié)束時(shí)間ET以及解壓后數(shù)據(jù),通過(guò)比較本條的開(kāi)始時(shí)間與上一條的結(jié)束時(shí)間來(lái)決定數(shù)據(jù)拼接方法;

        (4)重復(fù)步驟(3),直到讀完所有value值,得到按通道拼接好的原始樣本數(shù)據(jù);

        (5)輸出最終結(jié)果Context.write(<全部頭段信息,按臺(tái)站通道拼接后得到的原始樣本數(shù)據(jù)>)。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

        由于條件限制,實(shí)驗(yàn)使用由6臺(tái)PC機(jī)搭建的集群環(huán)境,其中1臺(tái)機(jī)器作為主NameNode節(jié)點(diǎn)和ResourceManager節(jié)點(diǎn),1臺(tái)機(jī)器作為備份NameNode節(jié)點(diǎn),另外4臺(tái)機(jī)器均作為DataNode節(jié)點(diǎn)和NodeManager節(jié)點(diǎn)。每臺(tái)機(jī)器的配置相同,操作系統(tǒng)為SUSE Linux Enterprise 11SP3,CPU型號(hào)為Intel雙核6600、2.40GHz,內(nèi)存為4GB,硬盤(pán)容量為1T,Hadoop版本為2.2.0,開(kāi)發(fā)環(huán)境eclipse+Hadoop plugin。

        實(shí)驗(yàn)數(shù)據(jù)采用河北省地震局提供的2013年9月部分SEED 事件波形數(shù)據(jù),共包含文件140個(gè),文件總大小2.7G。

        3.2 結(jié)果分析

        3.2.1 解壓正確性驗(yàn)證

        為驗(yàn)證本文方法的正確性,使用PDSWD算法和原有解壓縮算法分別解壓縮相同的輸入數(shù)據(jù),PDSWD算法運(yùn)行在Hadoop集群上。每次都將使用PDSWD算法得到的輸出樣本值和原有方法解壓縮得到的輸出樣本值做比較,結(jié)果表明兩組樣本值均完全相同,這就驗(yàn)證了PDSWD算法的正確性。但由于解壓縮后數(shù)據(jù)樣本較多,為便于可視化顯示,筆者隨機(jī)選取了一個(gè)開(kāi)始位置,從開(kāi)始位置處連續(xù)選中30個(gè)樣本數(shù)據(jù),并將這兩組數(shù)據(jù)樣本分別繪圖后得到了如圖4所示的曲線,進(jìn)一步驗(yàn)證了PDSWD算法的正確性。

        3.2.2 運(yùn)行效率對(duì)比實(shí)驗(yàn)

        為了證明本文提出的并行解壓算法的效率,筆者將PDSWD算法與原有的串行解壓縮算法的運(yùn)行效率進(jìn)行了對(duì)比。PDSWD算法運(yùn)行在由PC機(jī)搭建的分布式集群上,原有串行解壓算法運(yùn)行在單臺(tái)機(jī)器上,分別選取19M(1個(gè)文件)、125.6M(5個(gè)文件)、454.5M(20個(gè)文件)、1126.4M(60個(gè)文件)、2764.8M(140個(gè)文件)數(shù)據(jù)作為輸入,觀察運(yùn)行時(shí)間變化。圖5是它們的運(yùn)行時(shí)間對(duì)比,其中PDSWD-3表示在3節(jié)點(diǎn)的集群中使用PDSWD算法,PDSWD-6表示在6節(jié)點(diǎn)的集群中使用PDSWD算法,Original表示原有串行解壓縮算法。當(dāng)輸入數(shù)據(jù)較小時(shí),原有串行解壓算法和PDSWD算法所用時(shí)間基本相同,因?yàn)樽鳂I(yè)的啟動(dòng)和交互需要消耗較多資源;但隨著輸入數(shù)據(jù)的增大,并行解壓縮算法的工作效率逐漸高于串行解壓縮算法的工作效率。

        3.2.3 可擴(kuò)展性實(shí)驗(yàn)

        通過(guò)改變集群規(guī)模,可觀察不同節(jié)點(diǎn)數(shù)量對(duì)并行解壓算法效率的影響。為此筆者在偽分布式集群和3臺(tái)機(jī)器搭建的Hadoop集群上進(jìn)行了實(shí)驗(yàn),條件是只有機(jī)器數(shù)量的不同,其余配置均保持一致。實(shí)驗(yàn)分別解壓縮了19M(1個(gè)文件)、125.6M(5個(gè)文件)、454.5M(20個(gè)文件)、1126.4M(60個(gè)文件)的輸入數(shù)據(jù)并記錄解壓時(shí)間。對(duì)于不同大小的數(shù)據(jù)輸入,均測(cè)試10次運(yùn)行時(shí)間并求出平均值,然后畫(huà)出趨勢(shì)圖進(jìn)行對(duì)比。在輸入數(shù)據(jù)集的大小相同的情況下,可以利用加速比來(lái)衡量增加集群節(jié)點(diǎn)個(gè)數(shù)對(duì)并行解壓算法效率的影響(陸秋等,2012),即:

        式中,1表示加速比;a指的是偽分布式集群運(yùn)行解壓縮程序的執(zhí)行時(shí)間;T指的是多臺(tái)機(jī)器搭建的Hadoop集群運(yùn)行解壓程序的執(zhí)行時(shí)間,本文中T指的是3節(jié)點(diǎn)集群的運(yùn)行時(shí)間。

        圖6展示了運(yùn)行結(jié)果。當(dāng)輸入數(shù)據(jù)較小時(shí),增加節(jié)點(diǎn)數(shù)量后并沒(méi)有明顯的變化;隨著輸入數(shù)據(jù)的不斷增大,加速比的變化愈加明顯。因此當(dāng)輸入數(shù)據(jù)量較大時(shí),增加集群節(jié)點(diǎn)個(gè)數(shù)可以得到更好的效率。

        4 結(jié)語(yǔ)

        本文嘗試將MapReduce編程模型引入到地震波形數(shù)據(jù)處理,提出了基于MapReduce的并行解壓縮地震波形數(shù)據(jù)的算法PDSWD,并給出了較詳細(xì)的算法實(shí)現(xiàn)。與傳統(tǒng)的串行解壓縮算法相比,利用MapReduce并行解壓縮處理數(shù)據(jù)具有更高的加速比,而且可以一次性解壓縮批量文件。下一階段筆者將嘗試使用更大的集群規(guī)模和更大的測(cè)試數(shù)據(jù)集,并對(duì)MapReduce并行解壓縮算法進(jìn)行優(yōu)化,擴(kuò)展其功能,獲得更好的工作效率。

        李闖,趙長(zhǎng)海,晏海華,2010.基于MapReduce的菲涅耳帶地震層析成像并行算法.見(jiàn):2010年全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)(HPC China)論文集,90—96.

        陸秋,程小輝,2012.基于MapReduce的決策樹(shù)算法并行化.計(jì)算機(jī)應(yīng)用,32(9):2463—2465,2469.

        王洪體,陳陽(yáng),莊燦濤,2004.SEED格式STEIM2數(shù)據(jù)壓縮算法在實(shí)時(shí)地震數(shù)據(jù)傳輸中的應(yīng)用.地震地磁觀測(cè)與研究,25(4):14—19.

        文必龍,馮翔,左春雪等,2014.地震資料分布式存取的效率優(yōu)化設(shè)計(jì).計(jì)算機(jī)與數(shù)字工程,42(8):1386—1389.

        趙長(zhǎng)海,晏海華,劉曉朋,熊登,史曉華,2012.以實(shí)際算法為例評(píng)估MapReduce在石油勘探中的應(yīng)用.通信學(xué)報(bào),(Z2):81—89.

        中國(guó)地震局,2003.地震波形數(shù)據(jù)交換格式(DB/T 2-2003).北京:地震出版社.

        Dean J., Ghemawat S., 2008. MapReduce: Simplified data processing on large clusters. Comunications of the ACM, 51 (1): 107—113.

        Ghemawat S., Gobioff H., Leung S.T., 2003. The Google file system. ACM SIGOPS Operating Systems Review, 37 (5): 29—43.

        Mauro M., Terje U., 2006. Mini SEED for LISS and data compression using Steim1 and Steim2. Norweigian National Seismic Network Technical Report.

        White T., 2012. Hadoop: The definitive guide. CA Sebastopol: O’Reilly Media, Inc, 2012.

        Research on Parallel Decompressing Algorithm for Seismic Waveform Data Based on MapReduce

        Liu Fanming1), Guo Ruiqiang1), Li Yongqing2)and Bian Pengfei2)

        1) College of Mathematics and Information Science, Hebei Normal University, Shijiazhuang 050024, China?2) Earthquake Administration of Hebei Province, Shijiazhuang 050021, China

        In recent years, the number of SEED files was growing rapidly. In data processing, original algorithm of decompression batch seismic waveform data operated complicatedly and cost much time. In this paper, MapReduce programming model was introduced and a new parallel algorithm based on the thoughts of programming model and original decompression algorithm was presented. Also the design and implementation of this algorithm were given. Comparative experiments were carried out in terms of correctness, efficiency and extensibility. The results showed that the original algorithm spent more time compared to parallel algorithm which implementing decompression rapidly for a large number of seismic waveform data files. Using this method can decompress bulk of seismic waveform data and operate easily.

        Seismic waveform data; Decompress; Parallel; MapReduce

        河北省重點(diǎn)地區(qū)殼幔結(jié)構(gòu)及地震監(jiān)測(cè)預(yù)報(bào)關(guān)鍵技術(shù)研究(13275407D)、河北省教育廳自然科學(xué)研究項(xiàng)目(QN20131141)和河北師范大學(xué)應(yīng)用開(kāi)發(fā)基金項(xiàng)目(L2012K01)聯(lián)合資助

        2014-11-03

        劉凡鳴,女,生于1990年。河北師范大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院碩士研究生。主要研究方向:數(shù)據(jù)挖掘、分布式計(jì)算。E-mail:mingl.0219@163.com

        郭瑞強(qiáng),男,生于1974年。河北師范大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院副教授,博士,碩士生導(dǎo)師,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)會(huì)員(E200017546M)。主要研究方向:數(shù)據(jù)挖掘、WEB智能系統(tǒng)。E-mail:rqguo@126.com

        少妇被爽到高潮喷水久久欧美精品| 精品人妻一区二区久久| 亚洲性感毛片在线视频| 插鸡网站在线播放免费观看| 久久人与动人物a级毛片| 巨爆乳中文字幕爆乳区| 亚洲中文字幕在线精品2021| 在线观看视频日本一区二区| 麻豆影视视频高清在线观看| 中文字幕国产欧美| 亚洲高清自偷揄拍自拍| 国产一区二区视频免费在线观看| 国产女主播精品大秀系列| 国产a级午夜毛片| 热门精品一区二区三区| 少妇一级淫片中文字幕| 男女啪啪无遮挡免费网站| 337p日本欧洲亚洲大胆色噜噜 | 激情综合色综合啪啪开心| 国产精品久久久久久久免费看| 国产亚洲精品综合一区| 国产影院一区二区在线 | 高潮精品熟妇一区二区三区| 777米奇色狠狠俺去啦| 欧美日韩精品一区二区在线视频| 极品粉嫩小仙女高潮喷水视频| 日本一区二区国产精品| 国产女人水真多18毛片18精品| 97久久精品人人妻人人| 亚洲国产黄色在线观看| 2021国产精品视频网站| 99热久久精里都是精品6| 婷婷五月亚洲综合图区| 日韩精品免费在线视频一区| 免费黄色影片| 亚洲区在线播放| 久久精品国产亚洲av试看 | 亚洲综合欧美日本另类激情| 国产最新一区二区三区| 精品亚洲成av人在线观看| 丰满少妇被猛男猛烈进入久久|