亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        “格網(wǎng)索引+MapReduce”策略下的地理國情統(tǒng)計分析研究

        2017-12-01 06:45:20林雅萍杜震洪張豐劉仁義

        林雅萍,杜震洪,張豐,劉仁義

        (1. 浙江大學(xué) 浙江省資源與環(huán)境信息系統(tǒng)重點(diǎn)實(shí)驗(yàn)室, 浙江 杭州 310028; 2. 浙江大學(xué) 地理信息科學(xué)研究所, 浙江 杭州 310027)

        “格網(wǎng)索引+MapReduce”策略下的地理國情統(tǒng)計分析研究

        林雅萍1,2,杜震洪1,2,張豐1,2*,劉仁義1,2

        (1. 浙江大學(xué) 浙江省資源與環(huán)境信息系統(tǒng)重點(diǎn)實(shí)驗(yàn)室, 浙江 杭州 310028; 2. 浙江大學(xué) 地理信息科學(xué)研究所, 浙江 杭州 310027)

        地理國情統(tǒng)計分析是深度研究地理國情普查數(shù)據(jù)的首要前提.針對現(xiàn)有單機(jī)集中式數(shù)據(jù)存儲與處理方式存在耗時長、效率低甚至不支持的問題,設(shè)計了“格網(wǎng)索引+MapReduce”策略,基于規(guī)則格網(wǎng)設(shè)計普查數(shù)據(jù)文件的分塊組織與分布式存儲方式,研制了格網(wǎng)索引與空間分析相結(jié)合的雙層過濾機(jī)制,構(gòu)建基于MapReduce的地理國情并行統(tǒng)計算法.最后,與無索引MapReduce、ArcGIS平臺進(jìn)行性能對比測試,結(jié)果表明:“格網(wǎng)索引+MapReduce”方法的統(tǒng)計效率遠(yuǎn)高于ArcGIS平臺,對無索引MapReduce方法亦有明顯的效率優(yōu)勢,研究擬為地理國情普查數(shù)據(jù)的高性能、多類型、大批量統(tǒng)計分析提供優(yōu)選方案.

        地理國情統(tǒng)計分析;地理國情普查數(shù)據(jù);格網(wǎng)索引;MapReduce

        地理國情統(tǒng)計分析是將普查數(shù)據(jù)轉(zhuǎn)化為地理國情信息,再提升為國家決策服務(wù)的必要手段,有助于深化普查成果的全面應(yīng)用,發(fā)揮普查成果對社會、經(jīng)濟(jì)的推動作用,提升各相關(guān)領(lǐng)域、專業(yè)的創(chuàng)新能力[1].地理國情統(tǒng)計分析的基本對象是地理國情普查數(shù)據(jù),主要包括地表覆蓋分類和重要國情要素兩大類,具有體量龐大、來源多樣、信息豐富、空間精度高、時效性強(qiáng)、應(yīng)用層面廣等典型的大數(shù)據(jù)特征.

        當(dāng)前,地理國情統(tǒng)計分析工作的開展主要依靠各類統(tǒng)計分析軟件或應(yīng)用系統(tǒng)[2-5],大多采用單機(jī)模式獨(dú)立完成大規(guī)模普查數(shù)據(jù)的存儲與統(tǒng)計分析.但是,由于單機(jī)CPU資源性能有限,在耗費(fèi)大量存儲空間的情況下,其執(zhí)行統(tǒng)計分析任務(wù)則普遍存在耗時長、效率低下的問題,在數(shù)據(jù)量過大時甚至?xí)霈F(xiàn)宕機(jī)的情況.近年來,Hadoop云計算技術(shù)的發(fā)展逐漸成熟,在空間大數(shù)據(jù)領(lǐng)域尤其是柵格數(shù)據(jù)的高效存儲和處理方面已有大量應(yīng)用[6-8],但在矢量數(shù)據(jù)處理方面仍處于探索階段,利用Hadoop進(jìn)行矢量數(shù)據(jù)存儲、索引構(gòu)建、空間查詢、空間分析等探索是目前云GIS領(lǐng)域研究的熱點(diǎn)[9-11].

        為改善現(xiàn)有普查數(shù)據(jù)在單機(jī)集中管理和統(tǒng)計分析處理性能上的局限性,有效提高地理國情統(tǒng)計分析效率,本研究基于Hadoop云平臺,提出“格網(wǎng)索引+MapReduce”策略,設(shè)計基于HDFS的數(shù)據(jù)分塊組織方式,并采用粗粒度格網(wǎng)過濾與細(xì)粒度空間分析相結(jié)合的雙層數(shù)據(jù)過濾機(jī)制,最終應(yīng)用統(tǒng)計分析的并行算法模型,實(shí)現(xiàn)對地理國情統(tǒng)計的大批量、準(zhǔn)實(shí)時、高效并行化處理,旨在為地理國情普查數(shù)據(jù)的后續(xù)深度研究提供基礎(chǔ).

        1 相關(guān)技術(shù)

        HDFS[12]是Hadoop云計算平臺中的分布式文件系統(tǒng),具有多副本冗余備份、數(shù)據(jù)完整性校驗(yàn)、訪問權(quán)限控制、負(fù)載均衡等機(jī)制.HDFS系統(tǒng)遵循主/從式架構(gòu),由1個NameNode和若干DataNode服務(wù)器協(xié)同組成HDFS集群,數(shù)據(jù)文件由DataNode負(fù)責(zé)存儲,由NameNode統(tǒng)一調(diào)度.HDFS能夠?yàn)槌笠?guī)模數(shù)據(jù)提供分布式文件存儲和管理服務(wù).

        MapReduce[13]是Hadoop云計算平臺中的分布式計算基本框架,采用“分而治之,大而化小”的思想,通過定義可高度并行的map和reduce函數(shù),基于本地計算原則,將大規(guī)模數(shù)據(jù)的復(fù)雜計算任務(wù)分發(fā)至對應(yīng)或靠近數(shù)據(jù)的存儲節(jié)點(diǎn)并行執(zhí)行,由于其“遷移計算”代替“遷移數(shù)據(jù)”,降低了數(shù)據(jù)在網(wǎng)絡(luò)傳輸過程中對并行處理效率的影響,能夠支持大規(guī)?;虺笠?guī)模數(shù)據(jù)的大批量高效并行處理.

        借助HDFS的高可靠、高可擴(kuò)的大數(shù)據(jù)存儲系統(tǒng),和MapReduce模型的高吞吐、高容錯并行計算框架,能夠?yàn)榈乩韲槠詹榇髷?shù)據(jù)的高效處理提供支撐.但MapReduce訪問HDFS數(shù)據(jù)的常規(guī)方式是面向數(shù)據(jù)文件的,只能讀取整個數(shù)據(jù)文件,無法根據(jù)所需提取數(shù)據(jù)文件內(nèi)的特定要素記錄,導(dǎo)致讀取的數(shù)據(jù)量增加,尤其是無效數(shù)據(jù)讀取量較大,數(shù)據(jù)有效提取性能較低.因此需要設(shè)計合適的數(shù)據(jù)組織和過濾機(jī)制才能有效支持地理國情統(tǒng)計分析的并行處理.

        2 基于規(guī)則格網(wǎng)的地理國情普查數(shù)據(jù)分塊組織

        2.1 地理國情普查數(shù)據(jù)的統(tǒng)一文本化表達(dá)

        地理國情普查數(shù)據(jù),是地理國情統(tǒng)計分析的基本對象,采用基于Geodatabase模型的矢量數(shù)據(jù)集形式存儲.而Hadoop MapReduce框架默認(rèn)采用文本行的訪問方式讀取數(shù)據(jù)記錄,因此本研究首先對現(xiàn)有基于Geodatabase模型的國普矢量數(shù)據(jù)進(jìn)行文本化處理,再采用統(tǒng)一的文本方式表達(dá)要素記錄的屬性信息與空間信息,并以文本行描述完整的普查數(shù)據(jù)要素記錄信息,降低數(shù)據(jù)的空間復(fù)雜度,以提高數(shù)據(jù)讀取與操作的便捷性.

        首先,將一條要素記錄O包含的屬性信息文本O.Attributes按照順序排列,空間信息和拓?fù)湫畔.Geometry則選用OGC(open geospatial consortium)簡單要素模型中的WKT(well-known text)編碼進(jìn)行文本化,列于屬性文本之后組成文本行,一個文本行包含一個要素記錄的所有信息,最后形成TSV(tab-separated values,用制表符tab分隔值的文件)文本格式的國普數(shù)據(jù)文件.本文設(shè)計的國普數(shù)據(jù)文本格式為:

        基于地理國情統(tǒng)計分析需求,將地表覆蓋分類數(shù)據(jù)文本化為LCRA.tsv文件,將重要國情要素數(shù)據(jù)文本化后整合為GNCF.tsv文件.

        2.2 基于規(guī)則格網(wǎng)的地理國情普查數(shù)據(jù)文件分塊組織

        規(guī)則格網(wǎng)是構(gòu)建空間索引時廣泛使用的一種索引方式,其原理是將數(shù)據(jù)空間劃分為具有一定間隔的網(wǎng)格,通過網(wǎng)格與數(shù)據(jù)的包含關(guān)系,建立兩者之間的映射,并以網(wǎng)格作為數(shù)據(jù)之間空間關(guān)系的載體[14].為有效提高數(shù)據(jù)文件的訪問性能,避免過多無效數(shù)據(jù)讀取帶來的磁盤I/O消耗,本研究基于規(guī)則格網(wǎng)索引理念設(shè)計了普查數(shù)據(jù)文件的分塊組織方式.

        首先,采用基于數(shù)據(jù)集要素對象數(shù)量的空間網(wǎng)格預(yù)估方法[15]確定劃分的網(wǎng)格數(shù)量,其算法模型為

        (1)

        式(1)中,P為劃分網(wǎng)格的數(shù)目,‖R‖為數(shù)據(jù)集R的數(shù)據(jù)對象基數(shù),‖S‖為數(shù)據(jù)集S的數(shù)據(jù)對象基數(shù),M為主存儲器的字節(jié)大小,Sizekp則表示平均單個數(shù)據(jù)對象大小.

        其次,根據(jù)普查數(shù)據(jù)全空間范圍(Xmin,Xmax,Ymin,Ymax),獲取格網(wǎng)單元大小w×l,并對數(shù)據(jù)空間進(jìn)行格網(wǎng)劃分,共有((Xmax-Xmin)/w)×((Ymax-Ymin)/l)個網(wǎng)格,根據(jù)網(wǎng)格的行列號x和y設(shè)置網(wǎng)格的唯一標(biāo)識編碼xy,并創(chuàng)建對應(yīng)的物理存儲文件夾xy.根據(jù)每個網(wǎng)格的空間范圍,判斷國普數(shù)據(jù)文件中各要素所屬的網(wǎng)格編碼,將擁有相同編碼的要素文本放進(jìn)對應(yīng)編碼命名的文件夾中,如圖1所示.

        圖1 地理國情普查數(shù)據(jù)分塊組織Fig.1 Blocking file structure of geographical condition survey data

        國普矢量數(shù)據(jù)包含點(diǎn)、線、面3種幾何要素.點(diǎn)要素數(shù)據(jù)只會存儲在一個對應(yīng)網(wǎng)格編碼命名的文件夾中,將邊界上的點(diǎn)要素劃分至其左側(cè)或左上側(cè)網(wǎng)格內(nèi).因線和面要素在空間中占據(jù)一定的區(qū)域范圍,通??缭蕉鄠€網(wǎng)格.為保留要素的完整性,保證地理國情普查數(shù)據(jù)的客觀性和權(quán)威性,本研究采用冗余存儲策略,將跨越網(wǎng)格單元的多邊形要素數(shù)據(jù)劃分至其覆蓋的多個網(wǎng)格內(nèi),并冗余存儲在網(wǎng)格編碼集合所對應(yīng)的若干文件夾中.如圖2所示,多邊形LCRA1跨越了格網(wǎng)00,10,01,02,12,也即00,10,01,02,12編碼命名的文件夾中均存儲有此多邊形數(shù)據(jù).

        圖2 數(shù)據(jù)冗余存儲機(jī)制Fig.2 Mechanism of data redundancy storage

        3 “格網(wǎng)索引+MapReduce”策略下的地理國情統(tǒng)計分析

        地理國情統(tǒng)計分析,是根據(jù)所需的統(tǒng)計單元和統(tǒng)計對象,通過相應(yīng)的統(tǒng)計指標(biāo)計算、匯總得到成果的過程.針對單機(jī)資源與性能難以有效支撐數(shù)據(jù)的有效提取和大規(guī)模要素統(tǒng)計效率低下甚至無法完成的問題,本研究設(shè)計了“格網(wǎng)索引+MapReduce”策略,采用規(guī)則格網(wǎng)索引與精確分析相結(jié)合的雙層過濾機(jī)制,利用規(guī)則格網(wǎng)索引實(shí)現(xiàn)對普查數(shù)據(jù)的粗粒度空間過濾,在MapReduce的map任務(wù)階段對數(shù)據(jù)進(jìn)行精確的空間分析和要素類型過濾,既利用了規(guī)則格網(wǎng)索引快速檢索的優(yōu)勢,又避免了其他無用數(shù)據(jù)參與統(tǒng)計分析指標(biāo)的計算.

        3.1 基于規(guī)則格網(wǎng)索引與精確分析的雙層過濾機(jī)制

        基于規(guī)則格網(wǎng)索引與精確分析的國普數(shù)據(jù)雙層過濾機(jī)制建立在數(shù)據(jù)分塊組織方式的基礎(chǔ)上.

        基于規(guī)則格網(wǎng)索引的國普數(shù)據(jù)粗粒度過濾,根據(jù)當(dāng)前統(tǒng)計單元的空間范圍R及其最小外包矩形(minimum bounding rectangle,MBR)RMBR,獲取rMBR覆蓋的網(wǎng)格集合GLst1,再獲取GLst1中與R存在拓?fù)湎嘟魂P(guān)系的網(wǎng)格集合GLst,然后根據(jù)GLst中每個網(wǎng)格的空間位置Xgmin,Xgmax,Ygmin,Ygmax計算其編碼xy,網(wǎng)格編碼計算公式如式(2)(3)所示.最后,獲取GLst內(nèi)網(wǎng)格編碼集合,并確定所需數(shù)據(jù)文件的路徑集合.

        (2)

        (3)

        基于空間分析和要素類型判斷的精確分析機(jī)制為利用MapReduce框架讀取文件路徑集合中的各數(shù)據(jù)文件,通過map函數(shù)并行讀取數(shù)據(jù)文件中的要素記錄O,根據(jù)O.Attributes要素屬性過濾無效數(shù)據(jù),再通過O.Geometry與R的疊加分析,過濾不相交的要素、提取相交的部分.對冗余存儲的要素采用參考點(diǎn)法[16]來規(guī)避重復(fù)計算問題,參考點(diǎn)表示如下:

        pr=(max(oR.xl,oS.xl),min(oR.yh,oS.yh)),

        (4)

        式中,pr參考點(diǎn)為O與R重疊區(qū)域的左上角邊界點(diǎn),只有當(dāng)參考點(diǎn)與當(dāng)前要素位于同一網(wǎng)格內(nèi)時,才對要素進(jìn)行提取.

        3.2 基于MapReduce的地理國情統(tǒng)計分析并行化處理

        地理國情統(tǒng)計分析處理過程中數(shù)據(jù)的空間分析處理和基本指標(biāo)的計算匯總過程可并行化實(shí)現(xiàn).以個數(shù)、面積、長度等基本要素指標(biāo)的統(tǒng)計過程為例,以說明基于MapReduce的地理國情統(tǒng)計分析并行統(tǒng)計算法的基本思想.

        將要素分類編碼所屬統(tǒng)計單元要素標(biāo)識碼組裝為key值,要素各指標(biāo)值拼裝成規(guī)則的字符串作為value值,輸出key-value鍵值對,reduce方法負(fù)責(zé)對相同單元和相同分類要素的value值集合進(jìn)行各基本指標(biāo)值的歸并,最終得到統(tǒng)計分析任務(wù)的基本指標(biāo)結(jié)果.下面詳細(xì)描述基于MapReduce的地理國情統(tǒng)計分析并行算法的實(shí)現(xiàn)機(jī)制.

        (1) 獲取研究區(qū)域范圍R、統(tǒng)計單元RList,利用基于規(guī)則格網(wǎng)索引的粗粒度數(shù)據(jù)過濾方法,向MapReduce框架輸入所需數(shù)據(jù)文件,啟動MapReduce并行統(tǒng)計任務(wù).

        (2) 采用map函數(shù)逐行讀取數(shù)據(jù)文件的要素記錄,基于要素屬性及其空間信息,利用精確分析方法判斷要素是否在研究區(qū)域內(nèi)并屬于統(tǒng)計對象.接著計算參考點(diǎn),若參考點(diǎn)與該要素位于同一網(wǎng)格,則對要素進(jìn)行提取和裁切以獲取所需的有效數(shù)據(jù),并對有效部分的面積、長度指標(biāo)進(jìn)行計算,將其分類編碼和所屬統(tǒng)計單元的標(biāo)識碼組裝為key值,統(tǒng)計指標(biāo)數(shù)值之間以“,”間隔組成value值,向reduce函數(shù)輸出key-value鍵值對.具體算法如下:

        算法1地理國情統(tǒng)計Map算法

        MapObject

        1{

        2 if Object.CC is in CCList

        3 for eachr∈RList do

        4 oG=Object.Geometry;

        5 rG=r.Geometry;

        6 if oG and rG intersect then

        7 RP=reference point of oG and rG;

        8 if RP in the grid then

        9 p=overlay(oG,rG);

        10 area=p.getArea();

        11 length=p.getLength();

        12 cc=p.getCC();

        13 id=Object.ID;

        14 index=id +“,”+area+“,”+length;

        15 OID=cc+“,”+r.ID;

        16 emit (OID, index);

        17}

        (3) reduce函數(shù)并行讀取map函數(shù)輸出的鍵值對集合,并按照相同key值進(jìn)行歸并.對統(tǒng)一key值的value集合,按其拼裝規(guī)則進(jìn)行分解和統(tǒng)計,得到一個分類對象的指標(biāo)匯總結(jié)果,仍以分類編碼和所屬統(tǒng)計單元標(biāo)識碼組裝為key值,指標(biāo)統(tǒng)計值之間以“,”間隔組成value值,輸出key-value鍵值對.

        算法2地理國情統(tǒng)計Reduce算法

        Reduce(OID,list(index))

        1{

        2Sumarea=0.00;

        3Sumlength=0.00;

        4Sumcount=0;

        5 for each index∈ list(index) do

        6 if index.ID not repeat

        7 Sumarea= Sumarea+index.area;

        8 Sumlength=Sumlength+index.length;

        9 Sumcount++;

        10 emit (CC,List(Sumarea, Sumlength, Sumcount));

        11}

        (4) 輸出基本指標(biāo)的統(tǒng)計結(jié)果,得到最終統(tǒng)計數(shù)據(jù).

        4 實(shí)驗(yàn)過程與分析

        研究了 “格網(wǎng)索引+MapReduce”策略下的地理國情統(tǒng)計方法,基于規(guī)則格網(wǎng)進(jìn)行數(shù)據(jù)分塊組織,設(shè)計了粗粒度空間過濾和細(xì)粒度空間分析相結(jié)合的雙層數(shù)據(jù)過濾機(jī)制,最終通過分布式統(tǒng)計算法模型實(shí)現(xiàn)統(tǒng)計分析處理的并行化,擬為大批量、準(zhǔn)實(shí)時的地理國情統(tǒng)計分析提供優(yōu)選方案.

        對本研究的“格網(wǎng)索引+MapReduce”策略、無索引的MapReduce框架以及傳統(tǒng)ArcGIS平臺的集中統(tǒng)計方式進(jìn)行性能對比實(shí)驗(yàn).為此搭建了擁有6個處理節(jié)點(diǎn)的分布式集群,軟硬件配置相同,其中1臺為主節(jié)點(diǎn),5臺為子節(jié)點(diǎn),另外選擇一臺與主節(jié)點(diǎn)相同配置的單機(jī)進(jìn)行ArcGIS平臺實(shí)驗(yàn).設(shè)備參數(shù)如下:

        硬件環(huán)境: DELL PowerEdge R730 服務(wù)器,配有14核2.0 GHz CPU處理器、4×16 G DDR4內(nèi)存、2×256 G SSD硬盤、3×300 G SAS硬盤和2 G緩存,并集成4 000 Mb網(wǎng)卡.

        軟件環(huán)境: Suse Linux Enterprise Server 12 SP1(x64)操作系統(tǒng),JDK版本為1.8.0_11,Hadoop版本為2.7.3.客戶端配置為Intel core i7-6700處理器,配有4核3.4 GHz CPU、8 G內(nèi)存、1 TB硬盤,ArcGIS版本為10.3.

        實(shí)驗(yàn)數(shù)據(jù)選擇浙江省地理國情普查地表覆蓋分類數(shù)據(jù)和重要的地理國情要素數(shù)據(jù),要素總量約705.6萬和82.2萬.實(shí)驗(yàn)采用25×25規(guī)則格網(wǎng)對普查數(shù)據(jù)進(jìn)行分塊組織.

        圖3 3種策略的性能對比Fig.3 Time comparison of three strategies

        圖3為“格網(wǎng)索引+MapReduce”策略、MapReduce框架以及ArcGIS 10.3平臺下,對4種不同體量的地表覆蓋分類數(shù)據(jù)集進(jìn)行的基本統(tǒng)計性能對比.從圖3中可以看出,隨著統(tǒng)計范圍的不斷擴(kuò)大,數(shù)據(jù)體量不斷增加,基于“格網(wǎng)索引+MapReduce”策略的統(tǒng)計方式較傳統(tǒng)ArcGIS平臺集中處理方式在性能上有較大的提升,較無索引的MapReduce方法也有較明顯的提升.

        圖4 節(jié)點(diǎn)數(shù)與統(tǒng)計性能關(guān)系Fig.4 Relationship between number of nodes and performance of statistic

        圖4為“格網(wǎng)索引+MapReduce”策略下節(jié)點(diǎn)數(shù)量對統(tǒng)計性能影響的實(shí)驗(yàn)對比圖,通過測試300萬地表覆蓋分類數(shù)據(jù)的并行統(tǒng)計效率,得到當(dāng)節(jié)點(diǎn)數(shù)量較少時,并行統(tǒng)計處理時間較長,節(jié)點(diǎn)數(shù)量較多時,耗時較短,并行統(tǒng)計處理性能較高.

        5 結(jié) 論

        針對地理國情普查數(shù)據(jù)統(tǒng)計分析中集中式存儲與處理方式存在效率低下的問題,提出了“格網(wǎng)索引+MapReduce”策略,利用規(guī)則格網(wǎng)對數(shù)據(jù)進(jìn)行空間劃分和組織,并進(jìn)行分布式存儲,設(shè)計了結(jié)合規(guī)則格網(wǎng)索引與精確屬性分析的雙層過濾機(jī)制,以保證數(shù)據(jù)讀取的高效性和有效性,同時設(shè)計了地理國情基本指標(biāo)統(tǒng)計并行處理算法,并與無索引MapReduce分布式處理以及基于ArcGIS 10.3平臺的集中式處理方法進(jìn)行了對比實(shí)驗(yàn).結(jié)果表明,本文提出的統(tǒng)計算法的效率要高于其他兩種方法.由于本文采用的是冗余存儲方式,一定程度上會增加數(shù)據(jù)的存儲量和讀取數(shù),對并行處理的性能產(chǎn)生一定程度的影響.格網(wǎng)的大小也會影響數(shù)據(jù)存儲的冗余量,出現(xiàn)數(shù)據(jù)傾斜問題,從而影響并行處理效率.后續(xù)工作將對格網(wǎng)劃分方式以及冗余存儲策略等的優(yōu)化進(jìn)行更深入的研究.

        [1] 吳桐,王小華,兀偉. 基于地理國情普查的格網(wǎng)統(tǒng)計分析研究[J].測繪標(biāo)準(zhǔn)化,2016,32(1): 8-11.

        WU T, WANG X H, WU W. Grid statistical research based on national geographical conditions census[J].StandardizationofSurveyingandMapping, 2016, 32(1): 8-11.

        [2] 劉耀林,何力,何青松,等. 地理國情統(tǒng)計分析系統(tǒng)設(shè)計與應(yīng)用[J].地理信息世界, 2015, 22(6): 56-59.

        LIU Y L, HE L, HE Q S,et al. Design and achivement of a statistical analysis system for geographic national conditions surveying and monitoring[J].GeomaticsWorld, 2015, 22(6): 56-59.

        [3] 林富明,李雁楠,劉恒飛. 基于天地圖的地理國情統(tǒng)計分析信息發(fā)布服務(wù)系統(tǒng)設(shè)計[J].測繪與空間地理信息,2014, 37(6): 23-25.

        LIN F M, LI Y N, LIU H F. Design of information publication and service system of national geographical condition statistical and analysis based on Tianditu[J].Geomatics&SpatialInformationTechnology, 2014,37 (6): 23-25.

        [4] 王軍,楊東岳,張梁. 地理國情成果在線發(fā)布系統(tǒng)開發(fā)與應(yīng)用研究[J].測繪與空間地理信息,2014, 37(10): 114-116.

        WANG J, YANG D Y, ZHANG L. Geographic conditions the results published online system development and applied research[J].Geomatics&SpatialInformationTechnology, 2014, 37(10): 114-116.

        [5] 肖提榮,吳玉婷,何照攀. 縣域地理國情信息管理及統(tǒng)計分析監(jiān)測系統(tǒng)的設(shè)計與實(shí)現(xiàn)——以華寧縣為例[J].測繪通報, 2016(4): 121-123.

        XIAO T R, WU Y T, HE Z P. Design and realization of monitoring system for management and statistical analysis of county geographic condition information: A case study of Huaning county[J].BulletinofSurveyingandMapping, 2016(4): 121-123.

        [6] CAO K.CloudComputingandItsApplicationsinGIS[D]. Worcester: Clark University, 2011.

        [7] ASTSATRYAN H, HAYRAPETYAN A, NARISISIAN W, et al. An interoperable web portal for parallel geoprocessing of satellite image vegetation indices[J].EarthScienceInformatics, 2015, 8(2): 453-460.

        [8] LYU Z, HU Y, ZHONG H, et al. Parallel K-means clustering of remote sensing images based on mapreduce[J].LectureNotesinComputerScience, 2010, 6318: 162-170.

        [9] ELDAWY A, MOKBEL M. A demonstration of Spatial Hadoop: An efficient mapreduce framework for spatial data[J].ProceedingsoftheVldbEndowment, 2013, 6(12): 1230-1233.

        [10] ELDAWY A, MOKBEL M F. Spatial Hadoop: A MapReduce Framework for spatial data[C]//201531stIEEEInternationalConferenceonDataEngineering(ICDE). Seoul: IEEE Computer Society, 2015: 1352-1363.

        [11] AJI A.HighPerformanceSpatialQueryProcessingforLargeScaleSpatialDataWarehousing[D]. Atlanta: Emory University, 2014.

        [12] WANG J, LU C, WANG L Z. Concentric layout, a new scientific data layout for matrix data-set in Hadoop file system[J].InternationalJournalofParallelEmergent&DistributedSystems, 2013, 28(5): 407-433.

        [13] DEAN J, GHEMAWAT S. MapReduce: Simplified data processing on large clusters[J].CommunicationsoftheACM, 2008, 51(1): 107-113.

        [14] 余勁松弟,吳升. 面向大數(shù)據(jù)的地理格網(wǎng)分析操作模型比較[J].地球信息科學(xué)學(xué)報, 2013, 15(6): 862-870.

        YU J S D, WU S. Research progress of array analytics towards big data[J].JournalofGeo-InformationScience, 2013, 15(6): 862-870.

        [15] PATEL J M, DEWITT D J. Partition based spatial-merge join[J].ACMSigmodRecord, 2001, 25(2): 259-270.

        [16] DITTRICH J P, SEEGER B. Data redundancy and duplicate detection in spatial join processing[J].IEEEComputerSociety, 2000: 535-546.

        LIN Yaping1,2,DU Zhenhong1,2,ZHANG Feng1,2,LIU Renyi1,2

        (1.ZhejiangProvincialKeyLabofGIS,ZhejiangUniversity,Hangzhou310028,China;2.DepartmentofGeographicInformationScience,ZhejiangUniversity,Hangzhou310027,China)

        Researchontheanalysisandstatisticofgeographicalconditionsbasedonthestrategyof“GridIndex+MapReduce”.Journal of Zhejiang University (Science Edition), 2017,44(6): 660-665

        The statistic of geographical conditions is the primary premise for the deep excavation and application of geographical data. However, the traditional centralized data storage and processing method based on a single computer are time-consuming, inefficient and even unsupported. This paper creates a strategy called “Grid Index + MapReduce” to solve these problems. Firstly, we design a blocking file organization and distributed storage mode of the census data of geographical situation based on the regular square grid, and then make a double layer filtering method which combines the grid index and the accurate analysis. Lastly, we build a parallel processing algorithm of statistic of the geography conditions based on MapReduce. The test results of performance comparison of the strategy of “Grid Index + MapReduce”, the indexless MapReduce and ArcGIS software show that the method of “Grid Index + MapReduce” is much more efficient than the ArcGIS software, and also has obvious efficiency advantages for the indexless MapReduce method. The study tries to provide an optimal scheme for the high-performance, multi-type and high-volume statistic and analysis method for the data of geographical condition survey.

        the statistic and analysis of geographical conditions; the data of geographical condition survey; grid index; MapReduce

        2016-12-08.

        國家自然科學(xué)基金資助項目(41471313,41671391);國家科技基礎(chǔ)性工作專項(2012FY112300);國家海洋公益性行業(yè)科研專項(201505003);浙江省科技攻關(guān)計劃項目(2015C33021).

        林雅萍(1992—),ORCID: http://orcid.org/0000-0002-9324-7293,女,碩士,主要從事地理國情與云計算相關(guān)研究.

        *通信作者,ORCID: http://orcid.org/0000-0003-1475-8480,E-mail:zfcarnation@zju.edu.cn.

        10.3785/j.issn.1008-9497.2017.06.004

        P 208

        A

        1008-9497(2017)06-660-06

        国产精品午睡沙发系列| 一个色综合中文字幕人妻激情视频| 狼狼综合久久久久综合网| 亚洲精品97久久中文字幕无码| 亚洲欧美在线观看一区二区| 美女露屁股无内裤视频| 国产精品亚洲精品国产| 国产肉体xxxx裸体137大胆| 欧美在线三级艳情网站| 极品粉嫩小仙女高潮喷水视频| 精华国产一区二区三区| 国产精品一卡二卡三卡| 久久香蕉国产精品一区二区三| 欧洲一级无码AV毛片免费| 少妇被爽到高潮喷水免费福利 | 日韩av在线手机免费观看| 92午夜少妇极品福利无码电影| 国产精品免费久久久久影院仙踪林 | 日韩精品一区二区三区在线观看 | 亚洲国产综合精品一区| 国产在线无码不卡影视影院| а√天堂资源8在线官网在线 | 精品无码一区二区三区的天堂| av香港经典三级级 在线| 亚洲色图视频在线观看网站 | 亚洲一级无码AV毛片久久| 亚洲一区二区三区精品视频| 成人国产精品一区二区网站公司| 国产羞羞视频在线观看| 男女干逼视频免费网站| 国偷自拍av一区二区三区| 日韩欧群交p片内射中文| 日韩女人毛片在线播放| 国产免费网站在线观看不卡| 狠狠人妻久久久久久综合蜜桃| 日韩无码无播放器视频| 中文少妇一区二区三区| 日韩免费视频| 99久久99久久精品国产片果冻| 中文字幕高清无码不卡在线| 成人麻豆视频免费观看|