亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向海量地質(zhì)文檔的表格信息快速抽取方法研究

        2017-09-18 02:44:54朱月琴李朝奎肖克炎范建福李秋平
        中國(guó)礦業(yè) 2017年9期
        關(guān)鍵詞:信息

        李 楊,朱月琴,李朝奎,肖克炎,范建福,李秋平

        (1.湖南科技大學(xué)地理空間信息技術(shù)國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室,湖南 湘潭 411201;2.國(guó)土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037;3.中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;4.中國(guó)地質(zhì)科學(xué)院礦產(chǎn)資源研究所,北京 100037;5.西北大學(xué)城市與環(huán)境學(xué)院,陜西 西安 710127)

        面向海量地質(zhì)文檔的表格信息快速抽取方法研究

        李 楊1,朱月琴2,3,李朝奎1,肖克炎4,范建福4,李秋平5

        (1.湖南科技大學(xué)地理空間信息技術(shù)國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室,湖南 湘潭 411201;2.國(guó)土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037;3.中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;4.中國(guó)地質(zhì)科學(xué)院礦產(chǎn)資源研究所,北京 100037;5.西北大學(xué)城市與環(huán)境學(xué)院,陜西 西安 710127)

        以Hadoop分布式系統(tǒng)架構(gòu)中最核心的HDFS和MapReduce為基礎(chǔ),提出了一種面向海量地質(zhì)文檔的表格信息快速抽取的方法。為了提高地質(zhì)文檔表格信息抽取速度,首先利用關(guān)鍵詞查找文檔在HDFS中存儲(chǔ)的根目錄,其次利用Hadoop分布式集群中Map函數(shù)和Reduce函數(shù)實(shí)現(xiàn)單元格信息的抽取和信息還原顯示,最后對(duì)重慶市礦產(chǎn)資源潛力評(píng)價(jià)成果數(shù)據(jù)中WORD文檔進(jìn)行表格快速抽取實(shí)驗(yàn)。實(shí)驗(yàn)證明,本文提出的地質(zhì)文檔表格信息快速抽取方法可以大幅縮減傳統(tǒng)單機(jī)串行地質(zhì)文檔表格信息抽取所需的時(shí)間。

        地質(zhì)文檔;表格信息;快速抽取

        在文檔中,以表格和文本相結(jié)合的方式進(jìn)行信息展示,是當(dāng)前生活和工作中一種較為簡(jiǎn)明、規(guī)范的文檔表現(xiàn)形式[1],使閱讀者能夠快速抓取文檔中的主要信息,很好的提高了工作效率。而當(dāng)面對(duì)海量文檔的時(shí)候,如何實(shí)現(xiàn)快速的表格文檔自動(dòng)化處理[2]一直是國(guó)內(nèi)外專(zhuān)家學(xué)者關(guān)注和研究的問(wèn)題。在全國(guó)礦產(chǎn)潛力評(píng)價(jià)成果數(shù)據(jù)由大量MapGIS格式的圖件和數(shù)以百萬(wàn)計(jì)的地質(zhì)文檔組成,幾乎所有的文檔都是以表格和文本結(jié)合的形式呈現(xiàn)的,所以做到對(duì)這樣海量的地質(zhì)文檔表格信息的快速抽取對(duì)今后礦產(chǎn)潛力評(píng)價(jià)具有深遠(yuǎn)的意義。

        對(duì)于海量的地質(zhì)文檔,主要是對(duì)兩個(gè)方面進(jìn)行處理:文檔中表格的分類(lèi);表格信息的提取。本文針對(duì)海量地質(zhì)文檔提出一種基于Hadoop云平臺(tái)的文檔中表格信息快速抽取的方法,在原有的單機(jī)串行表格信息提取的基礎(chǔ)上實(shí)現(xiàn)在Hadoop上的MapReduce的并行編程,達(dá)到海量文檔的表格信息快速抽取的目的。

        本文的研究成果致力于對(duì)全國(guó)礦產(chǎn)預(yù)測(cè)成果中的文檔成果進(jìn)行表格信息的快速抽取,并對(duì)其進(jìn)行分類(lèi)、整理、匯總等工作,為后期通過(guò)已知礦產(chǎn)預(yù)測(cè)未知礦產(chǎn)做好前期資料準(zhǔn)備工作。

        1 表格信息快速提取研究現(xiàn)狀分析

        1.1表格信息提取

        表格作為文檔的一部分,在文檔內(nèi)容表現(xiàn)上起著至關(guān)重要的作用,是對(duì)文本內(nèi)容的重要補(bǔ)充[3]。在日常生活和工作中得到了極其廣泛的應(yīng)用,例如金融系統(tǒng)的各種票據(jù)、申請(qǐng)表、郵政匯款單、公司銷(xiāo)售報(bào)表等[4]。隨著信息化的發(fā)展,將紙質(zhì)文檔電子化保存下來(lái),通過(guò)版面分析、理解、OCR等技術(shù)提取表格中的信息[5],經(jīng)過(guò)進(jìn)一步加工整理存入數(shù)據(jù)庫(kù),方便以后對(duì)這些信息的查詢(xún)、修改和統(tǒng)計(jì)等工作。Chen等[6]在識(shí)別表格文檔類(lèi)型和提取數(shù)據(jù)域信息中用到了水平線(xiàn)和垂直線(xiàn)檢測(cè)的方法。Fan等[7]一種不需要事先提取數(shù)據(jù)域的方法提取字符數(shù)據(jù)。隨著時(shí)間推移圖像質(zhì)量退化等因素使得這類(lèi)方法無(wú)法正確獲取表格數(shù)據(jù)域信息。還有一些研究表格識(shí)別的,可以進(jìn)行多分類(lèi),從文檔數(shù)據(jù)庫(kù)中找到某個(gè)匹配的文檔類(lèi)型作為輸入文檔的類(lèi)別,這類(lèi)方法將文檔的整體布局作為分類(lèi)的參考依據(jù)。Lin等[8]利用鄰接數(shù)據(jù)域之間的關(guān)系用于文檔識(shí)別。Tang[9]在中根據(jù)表格由水平直線(xiàn)片段和垂直直線(xiàn)片段構(gòu)成、獲取表格信息的區(qū)域以表格線(xiàn)為參考提出了表格文檔的獨(dú)特性的概念。

        1.2面向信息提取的并行算法研究現(xiàn)狀

        隨著計(jì)算機(jī)軟硬件技術(shù)的高速發(fā)展,并行計(jì)算的門(mén)檻被不斷拉低。多核處理器、計(jì)算機(jī)集群等設(shè)備為并行計(jì)算提供了良好的硬件基礎(chǔ);同時(shí),MPI、CUDA、OpenCL、OpenMP、MapReduce等并行編程模型庫(kù)的廣泛應(yīng)用提高了并行編程的可擴(kuò)展性。在此基礎(chǔ)上,陳磊等[10]采用并行計(jì)算方法對(duì)視頻、音頻等監(jiān)控設(shè)備的多元信息進(jìn)行提取;柳家福等[11]利用GPU并行計(jì)算的優(yōu)勢(shì)提出了基于圖形處理單元的高光譜巖礦信息快速提取方法;劉軍志等[12]對(duì)分布式水文模型并行計(jì)算的研究現(xiàn)狀進(jìn)行了總結(jié)分析,并對(duì)其發(fā)展進(jìn)行了討論。

        上述研究之所以要選用并行計(jì)算的方法,無(wú)非是因?yàn)槠湫枰幚淼臄?shù)據(jù)量大,傳統(tǒng)的串行方法無(wú)法滿(mǎn)足其快速處理的需要。同樣的,當(dāng)?shù)刭|(zhì)文檔達(dá)到海量時(shí),采用并行計(jì)算的方法對(duì)其表格信息進(jìn)行抽取,也能極大地縮短所需的時(shí)間。因此,本文研究?jī)?nèi)容采用Hadoop分布式集群的HDFS存儲(chǔ)海量地質(zhì)文檔文件,MapReduce編程負(fù)責(zé)海量地質(zhì)文檔中表格信息的提取工作。

        2 面向海量地質(zhì)文檔的表格信息快速抽取框架及關(guān)鍵技術(shù)

        2.1面向海量地質(zhì)文檔的表格信息快速抽取框架

        針對(duì)海量地質(zhì)文檔的表格信息快速抽取模型如圖1所示。表格的來(lái)源主要由4個(gè)方面組成:WORD文檔、PDF文檔、JPG等圖片以及WEB。

        對(duì)于WORD、PDF等文檔類(lèi)型的文件來(lái)說(shuō),首先獲取文檔讀取范圍,判斷讀取范圍內(nèi)有無(wú)表格,若存在表格,則進(jìn)行表格識(shí)別、表格定位、表格結(jié)構(gòu)識(shí)別等工作,最后通過(guò)遍歷單元格實(shí)現(xiàn)表格信息抽取工作。

        對(duì)于JPG等圖片文件,由于圖片文件大多都是通過(guò)紙質(zhì)表格掃描成圖片格式的,其信息質(zhì)量低影響信息抽取,是亟待解決的問(wèn)題。首先,對(duì)圖片文件進(jìn)行灰度變換、圖像平滑、邊緣檢測(cè)等操作,完成圖像預(yù)處理去除干擾圖像識(shí)別的噪音[13]。然后,進(jìn)行表格特征識(shí)別、表格定位、表格結(jié)構(gòu)識(shí)別等工作,完成表格信息抽取。

        對(duì)于WEB表格,采用聚焦網(wǎng)絡(luò)爬蟲(chóng)中的基于內(nèi)容評(píng)價(jià)的爬行策略進(jìn)行WEB網(wǎng)頁(yè)的查找工作,然后對(duì)所得到的WEB表格判斷真?zhèn)危蕹秊楸砀?,?duì)真表格進(jìn)行表格結(jié)構(gòu)識(shí)別,并做表頭和數(shù)據(jù)部分的拆分操作,最終完成表格信息抽取(圖1)。

        2.2關(guān)鍵技術(shù)及算法設(shè)計(jì)

        2.2.1 不同來(lái)源的表格特征識(shí)別

        根據(jù)上述不同的文件來(lái)源,本節(jié)分別針對(duì)上述文件的表格特征識(shí)別技術(shù)進(jìn)行詳細(xì)說(shuō)明。

        2.2.1.1 WORD表格特征的識(shí)別

        在WORD文檔中進(jìn)行表格特征的識(shí)別較為困難的就是對(duì)復(fù)雜表頭的表格進(jìn)行處理(如下圖所示),表頭結(jié)構(gòu)上存在包含關(guān)系。此類(lèi)表頭的上層對(duì)下層是一對(duì)多的關(guān)系,一般可以采用樹(shù)形結(jié)構(gòu)或圖形結(jié)構(gòu)來(lái)表示(圖2)。

        圖2 復(fù)雜表格表頭樣式圖

        對(duì)于WORD文檔中的表格來(lái)說(shuō),完成了表頭的釋義,即可對(duì)表格內(nèi)容進(jìn)行逐單元格的識(shí)別與表征。

        2.2.1.2 WEB表格的特征識(shí)別

        Html對(duì)表格有專(zhuān)門(mén)的標(biāo)簽定義,表格的主標(biāo)簽為,行標(biāo)簽為,列標(biāo)簽為,屬性說(shuō)明標(biāo)簽跨行(COLSPAN)、跨列(ROWSPAN)等[2]。但對(duì)于WEB表格的信息抽取較難處理的是偽表格的識(shí)別,例如導(dǎo)航欄、站點(diǎn)廣告等是為了界面美觀、易讀,而不是為了表示真正的數(shù)據(jù),這類(lèi)表格稱(chēng)為偽表格[11]。

        識(shí)別真?zhèn)伪砀?,通常需要?gòu)造相應(yīng)的分類(lèi)算法,一般是根據(jù)表格的特點(diǎn)選取一定的特征量建立模型,目前性能較好的特征模型主要有DOM模型、集合特征模型等,然后利用機(jī)器學(xué)習(xí)模型完成表格真?zhèn)蔚呐卸?,從而剔除偽表格?/p>

        2.2.1.3 PDF表格的特征識(shí)別

        PDF對(duì)表格沒(méi)有做特殊的定義,所以相對(duì)于WEB表格特征的提取,PDF的表格提取具有較大的難度。表格的基本信息有框線(xiàn)和文字兩部分組成[13],因此對(duì)于PDF表格信息提取主要從框線(xiàn)和文字兩個(gè)方面入手:基于框線(xiàn)的表格還原:此方法的難點(diǎn)在于框線(xiàn)信息的還原處理,當(dāng)頁(yè)面存在多個(gè)表格或有干擾線(xiàn)時(shí),框線(xiàn)的合理分解具有較大難度;基于文字的柵格化處理:此方法依據(jù)文字位置來(lái)分析表格的特征。其基本原理是表格的行列之間存在明顯的界限,對(duì)表格中的文字位置進(jìn)行柵格化處理,還原出表格的原始框架特征。但對(duì)于具有跨行跨列的復(fù)雜表格來(lái)說(shuō),提取的準(zhǔn)確率不高是其明顯的缺陷。

        2.2.1.4 基于JPG等圖像的表格特征提取

        對(duì)于JPG等圖像類(lèi)型的表格識(shí)別,關(guān)鍵在于圖像的預(yù)處理與線(xiàn)條的識(shí)別。由于圖像采集的原始文件的新舊差異以及采集過(guò)程中的環(huán)境因素影響,造成圖像信息質(zhì)量較低不利于表格的識(shí)別,需要通過(guò)灰度變換、圖像平滑、邊緣檢測(cè)、二值化、傾斜矯正等算法去除圖像中與表格無(wú)關(guān)的噪音。

        2.2.2 面向海量地質(zhì)文檔的表格信息快速抽取

        傳統(tǒng)的單機(jī)串行運(yùn)行環(huán)境難以滿(mǎn)足海量地質(zhì)文檔的表格信息快速抽取的需要,如何在現(xiàn)有技術(shù)的基礎(chǔ)上實(shí)現(xiàn)對(duì)面向海量地質(zhì)文檔的表格信息快速抽取,是地質(zhì)大數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié)。

        Google公司在2004年提出了并發(fā)處理海量數(shù)據(jù)的MapReduce并行編程模型[14]。近年來(lái),很多公司和科研機(jī)構(gòu)都研發(fā)了基于MapReduce設(shè)計(jì)規(guī)范的海量數(shù)據(jù)并行處理系統(tǒng)[15],其中,Apache基金會(huì)開(kāi)發(fā)的Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu)是MapReduce的一種開(kāi)源實(shí)現(xiàn),也是當(dāng)前并行處理海量數(shù)據(jù)的標(biāo)準(zhǔn)式(1)。和傳統(tǒng)的并行編程模型相比,它有效降低了并行編程的難度,提高了編程的效率[14]。

        (1)

        MapReduce合并了兩個(gè)經(jīng)典函數(shù):映射[14](Mapping)和化簡(jiǎn)[14](Reducing)。

        映射(Mapping)對(duì)集合里的每一個(gè)目標(biāo)應(yīng)用同一個(gè)操作。在主程序main函數(shù)中根據(jù)關(guān)鍵詞(文件名的一部分或文件名后綴)查找文件存放路徑,然后獲取文檔讀取內(nèi)容確定表格位置,將表格每一行作為一個(gè)鍵值對(duì)[17](key-value),Map階段即是對(duì)鍵值對(duì)(iKey-iValue)進(jìn)行逐單元格迭代拆分并記錄成鍵值對(duì)(jKey-jValue),如式(1)前半段所示。此階段由多個(gè)Mapper對(duì)同一表格的不同行進(jìn)行相同的信息抽取操作,偽代碼如下。

        public class Map extends Mapper {

        public void map(Object key,Text value,Context context) throws IOException,InterruptedException {

        //過(guò)濾表頭行

        String line=value.toString();

        If(line.contains(“”)==true){

        retune;

        }

        //根據(jù)單元格號(hào)記錄其內(nèi)容

        }

        }

        合并(Reducing)遍歷集合中的元素并返回一個(gè)綜合結(jié)果[19]。如公式(1)后半段所示,將Map階段返回的鍵值對(duì)(jKey-jValue)整合成鍵值對(duì)(mKey-mValue),偽代碼如下:

        public class Reduce extends Reducer {

        Text result = new Text ();

        public void reduce(Text key,Iterable values,Context context) throws IOException,InterruptedException {

        //將各單元格還原至表樣式并顯示

        }

        }

        3 面向海量地質(zhì)文檔的表格信息快速抽取實(shí)驗(yàn)

        3.1實(shí)驗(yàn)環(huán)境

        本文實(shí)驗(yàn)環(huán)境是在Apache基金會(huì)開(kāi)發(fā)的Hadoop分布式系統(tǒng)架構(gòu)為基礎(chǔ),采用開(kāi)源的MapReduce并行編程模型進(jìn)行開(kāi)發(fā)。搭建了Hadoop分布式集群(Hadoop版本2.7.2),其中1個(gè)主控制節(jié)點(diǎn)(命名為hdmaster),另外3臺(tái)工作節(jié)點(diǎn)(命名為hadoop002-hadoop004),Zookeeper3個(gè)(分別命名為zk01-zk03)。實(shí)驗(yàn)集群配置見(jiàn)表1。

        表1 Hadoop集群配置表

        3.2實(shí)驗(yàn)結(jié)果

        本實(shí)驗(yàn)對(duì)重慶市礦產(chǎn)資源潛力評(píng)價(jià)成果數(shù)據(jù)中的硫鐵礦文檔表格信息作為研究對(duì)象,選取了成礦要素圖編圖說(shuō)明書(shū)作為標(biāo)題關(guān)鍵字進(jìn)行地質(zhì)文檔篩選,表格信息中“礦物組合”這一項(xiàng)進(jìn)行信息快速抽取與整合工作。實(shí)驗(yàn)結(jié)果篩選出標(biāo)題為“*成礦要素圖編圖說(shuō)明書(shū)”的地質(zhì)文檔16個(gè),對(duì)文檔中的表格(原文檔表格樣式如表2所示)信息進(jìn)行快速抽取與信息整合,并對(duì)表頭進(jìn)行規(guī)范化設(shè)置后其結(jié)果示意圖如表3所示。

        3.3對(duì)比分析

        首先,對(duì)地質(zhì)文檔進(jìn)行傳統(tǒng)單機(jī)串行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示。

        為驗(yàn)證海量地質(zhì)文檔表格快速抽取的實(shí)際效率,本文選取了重慶市礦產(chǎn)資源潛力評(píng)價(jià)成果數(shù)據(jù)中的WORD文檔文件數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行表格信息抽取工作。該計(jì)算實(shí)例中包括25個(gè)礦種,5 813個(gè)WORD文檔,通過(guò)改變不同數(shù)量的文檔,依次對(duì)該計(jì)算實(shí)例進(jìn)行計(jì)算實(shí)驗(yàn),計(jì)算結(jié)果見(jiàn)表4。

        本實(shí)驗(yàn)結(jié)果為對(duì)不同數(shù)量的地質(zhì)文檔分別進(jìn)行10次實(shí)驗(yàn),剔除首次運(yùn)行時(shí)間,并對(duì)其他9次結(jié)果去除特殊值后求其平均值所得。為了更明顯看出結(jié)果的對(duì)比性,分別做如圖4所示的基于Hadoop的MapReduce地質(zhì)文檔表格信息抽取時(shí)間、圖5所示的傳統(tǒng)單機(jī)串行文檔表格信息抽取與MapReduce表格信息抽取結(jié)果對(duì)比圖。

        圖3 傳統(tǒng)單機(jī)串行文檔表格信息抽取

        圖4 基于Hadoop的MapReduce地質(zhì)文檔表格信息抽取時(shí)間

        傳統(tǒng)單機(jī)串行地質(zhì)文檔表格抽取結(jié)果與基于Hadoop的MapReduce地質(zhì)文檔表格抽取結(jié)果對(duì)比如圖5所示,當(dāng)文檔數(shù)量較少時(shí),由于MapReduce運(yùn)行過(guò)程中需要Map和Reduce之間通信等原因,傳統(tǒng)單機(jī)串行地質(zhì)文檔表格抽取所需時(shí)間占有一定的優(yōu)勢(shì);隨著地質(zhì)文檔數(shù)量增加,傳統(tǒng)單機(jī)串行地質(zhì)文檔表格抽取壓力不斷增大,而基于Hadoop的MapReduce地質(zhì)文檔表格抽取具有較大優(yōu)勢(shì),可很大的縮短表格信息抽取所需的時(shí)間。

        表2 原文檔中表格樣式示意圖

        表3 地質(zhì)文檔表格信息抽取結(jié)果示意圖

        表4 海量地質(zhì)文檔表格信息快速提取計(jì)算結(jié)果

        圖5 傳統(tǒng)單機(jī)串行文檔表格信息抽取與MapReduce表格信息抽取結(jié)果對(duì)比圖

        4 結(jié) 論

        為了提高地質(zhì)文檔表格信息抽取速度,本文以Hadoop分布式系統(tǒng)架構(gòu)中最核心的HDFS和MapReduce為基礎(chǔ),提出了一種面向海量地質(zhì)文檔的表格信息快速抽取的方法。該方法首先利用關(guān)鍵詞查找文檔在HDFS中存儲(chǔ)的根目錄,其次利用Hadoop分布式集群中Map函數(shù)和Reduce函數(shù)實(shí)現(xiàn)單元格信息的抽取和表格還原顯示。為驗(yàn)證該方法對(duì)文檔表格信息抽取的速度,本文就該方法對(duì)重慶市礦產(chǎn)資源潛力評(píng)價(jià)成果數(shù)據(jù)中的文檔成果進(jìn)行了不同個(gè)數(shù)虛擬機(jī)和不同數(shù)據(jù)量的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,當(dāng)文檔個(gè)數(shù)達(dá)到一定數(shù)量時(shí),該方法的表格信息抽取速度遠(yuǎn)大于傳統(tǒng)的單機(jī)串行表格信息抽取速度,達(dá)到了地質(zhì)文檔表格信息快速抽取的目的。

        [1] 秦振海,譚守標(biāo),徐超.基于WEB的表格信息抽取研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(2):217-220.

        [2] 劉穎.基于WEB結(jié)構(gòu)的表格信息抽取研究[D].合肥:合肥工業(yè)大學(xué),2012.

        [3] 趙洪,肖洪,薛德軍,等.WEB表格信息抽取研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2008(3):24-31.

        [4] 劉兵.表格文檔圖像分析方法研究[D].上海:上海交通大學(xué),2013.

        [5] 曾廣樸,陶維安.基于信息量的WEB表格信息抽取方法[J].西南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2010,35(4):159-163.

        [6] Chen,J.L.,Lee,H.J.An efficient algorithm for form structure extraction using strip projection[J].Pattern Recognition 1998,31(9):1353-1368.

        [7] Fan,K.C.,Lu,J.M.,Wang,L.S.,et al.Extraction of characters from form documents by feature point clustering[J].Pattern Recognition,1995,16(9):963-970.

        [8] Lin.J.Y.,Lee,C.W.,Chen,Z.Identification of business forms using relationships between adjacent frames[J].Machine Vision and Applications.1996.9(1):56-64.

        [9] Tang Y.Y.,Lee.S.W.,Suen,C.Y.Automatic document processing:a survey[J].Pattern Recognition 1996,29(12):1931-1952.

        [10] 陳磊.基于監(jiān)控信號(hào)的多信息提取識(shí)別的并行計(jì)算方法[D].南京:南京理工大學(xué),2015.

        [11] 柳家福,吳澤彬,劉天石,等.基于GPU的高光譜遙感巖礦信息快速提取方法[J].中國(guó)科技論文,2014,9(10):1137-1143.

        [12] 劉軍志,朱阿興,秦承志,等.分布式水文模型的并行計(jì)算研究進(jìn)展[J].地理科學(xué)進(jìn)展,2013,32(4):538-547.

        [13] 閆丹鳳.一種面向PDF文件的表格數(shù)據(jù)抽取方法的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2014.

        [14] 徐飛,張素芹,姚紅革.面向結(jié)構(gòu)的WEB表格數(shù)據(jù)抽取系統(tǒng)[J].西安工業(yè)大學(xué)學(xué)報(bào),2009,29(6):574-578.

        [15] 李建江,崔健,王聃,等.MapReduce并行編程模型研究綜述[J].電子學(xué)報(bào),2011,11(11):2635-2642.

        [16] 李偉衛(wèi),趙航,張陽(yáng),等.基于MapReduce的海量數(shù)據(jù)挖掘技術(shù)研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(20):112-117.

        [17] 和亮,馮登國(guó),王蕊,等.基于MapReduce的大規(guī)模在線(xiàn)社交網(wǎng)絡(luò)蠕蟲(chóng)仿真[J].軟件學(xué)報(bào),2013,24(13):1666-1682.

        [18] 梅華威,米增強(qiáng),吳廣磊.基于MapReduce模型的間歇性能源海量數(shù)據(jù)處理技術(shù)[J].電力系統(tǒng)自動(dòng)化,2014,38(15):76-80.

        [19] 潘巍,李戰(zhàn)懷,伍賽,等.基于消息傳遞機(jī)制的MapReduce圖算法研究[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1768-1784.

        Studyontherapidextractionoftableinformationformassgeologicaldocuments

        LI Yang1,ZHU Yueqin2,3,LI Chaokui1,XIAO Keyan4,F(xiàn)AN Jianfu4,LI Qiuping5

        (1.National-Local Joint Engineering Laboratory of Geospatial Information Technology,Hunan University of Science and Technology,Xiangtan411201,China;2.Key Laboratory of Geological Information Technology of Ministry of Land and Resources,Beijing100037,China;3.Development and Research Center,China Geological Survey,Beijing100037,China;4.Institute of Mineral Resources,Chinese Academy of Geological Sciences,Beijing100037,China;5.College of Urban and Environmental Science,Northwest University,Xi’an710127,China)

        Based on the most core HDFS and MapReduce in Hadoop distributed system architecture,a rapid extraction method of table information for massive geological documents is proposed.In order to improve the extraction speed of geological information document form,first of all,using the key WORDs to find documents stored in the HDFS root directory,then,using the Hadoop distributed cluster Map function and a Reduce function reduction cell information extraction and information,according to the mineral resources potential evaluation result data in Chongqing in WORD document form rapid extraction experiments.It is proved that the method of rapid extraction of geological document table information in this paper can greatly reduce the time needed to extract the information of the traditional single-machine serial geological document form.

        geological document;table information;rapid extraction

        2017-07-07責(zé)任編輯:趙奎濤

        國(guó)土資源部公益性行業(yè)科研專(zhuān)項(xiàng)項(xiàng)目資助(編號(hào):201511079)

        李楊(1993-),男,碩士研究生,主要從事地質(zhì)大數(shù)據(jù)技術(shù)研究工作,E-mail:Liyang_Click@outlook.com。

        朱月琴(1975-),女,博士,高級(jí)工程師,主要從事地質(zhì)大數(shù)據(jù)、地圖綜合與可視化研究工作,E-mail:yueqinzhu@163.com。

        P208

        :A

        :1004-4051(2017)09-0098-06

        猜你喜歡
        信息
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會(huì)信息
        信息超市
        展會(huì)信息
        展會(huì)信息
        展會(huì)信息
        展會(huì)信息
        展會(huì)信息
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        中文字幕隔壁人妻欲求不满| 久久亚洲日本免费高清一区 | 国产精品自在线免费| 国产一级r片内射免费视频| 国产精品久久久黄色片| 无码一区二区三区中文字幕| 国产熟女高潮视频| 国产精品女同久久免费观看| 情av一区二区三区在线观看| 成年性生交大片免费看| 小sao货水好多真紧h视频| 久久亚洲AV无码一区二区综合| 亚洲av少妇一区二区在线观看| 无码人妻h动漫中文字幕| 永久免费观看的毛片手机视频| 日本老年人精品久久中文字幕| 少妇高潮精品在线观看| 国产精品无码aⅴ嫩草| 91av精品视频| 国产极品嫩模大尺度在线播放| 国产av一区二区三区性入口| 无码国产精品一区二区免费模式 | 无码综合天天久久综合网| 日本一区二区三区激情视频| 街拍丝袜美腿美女一区| 天堂а在线中文在线新版| 午夜家庭影院| 亚洲国产精品午夜一区| 日本不卡高字幕在线2019| 一本一道av无码中文字幕| 日韩亚洲欧美精品| 国产三级精品三级在线专区2| 色妞色视频一区二区三区四区| 岛国成人在线| 日本一区人妻蜜桃臀中文字幕| 999国产精品999久久久久久| 午夜精品一区二区三区在线观看| 国产传媒剧情久久久av| 男人天堂这里只有精品| 国产亚洲av综合人人澡精品| 国产亚洲日本人在线观看|