亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        地質(zhì)大數(shù)據(jù)分析與應(yīng)用模式研究

        2016-01-27 05:25:09李朝奎嚴(yán)雯英肖克炎趙亞楠
        地質(zhì)學(xué)刊 2015年3期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        李朝奎, 嚴(yán)雯英, 肖克炎, 趙亞楠

        (1.湖南科技大學(xué)地理空間信息技術(shù)國家地方聯(lián)合工程實(shí)驗(yàn)室,湖南湘潭411201; 2.中國地質(zhì)科學(xué)院礦產(chǎn)資源研究所,北京100037)

        地質(zhì)大數(shù)據(jù)分析與應(yīng)用模式研究

        李朝奎1, 嚴(yán)雯英1, 肖克炎2, 趙亞楠1

        (1.湖南科技大學(xué)地理空間信息技術(shù)國家地方聯(lián)合工程實(shí)驗(yàn)室,湖南湘潭411201; 2.中國地質(zhì)科學(xué)院礦產(chǎn)資源研究所,北京100037)

        摘要:大數(shù)據(jù)時代下地質(zhì)數(shù)據(jù)的獲取方式多種多樣,數(shù)據(jù)量十分龐大,數(shù)據(jù)格式復(fù)雜多樣。從地質(zhì)大數(shù)據(jù)的存儲管理、數(shù)據(jù)挖掘技術(shù)、可視化技術(shù)等方面闡述了其分析應(yīng)用的關(guān)鍵點(diǎn)。介紹了大數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù)的分析思維,強(qiáng)調(diào)注重?cái)?shù)據(jù)本身的重要性。大數(shù)據(jù)的分析與應(yīng)用方法處在不斷創(chuàng)新中,同時也面臨巨大挑戰(zhàn),如何保證地質(zhì)大數(shù)據(jù)的質(zhì)量、如何高效地搭建云平臺等都是需要解決的難題。指出了地質(zhì)大數(shù)據(jù)的開發(fā)對礦產(chǎn)資源預(yù)測、城鎮(zhèn)選址等具有十分重要的意義。

        關(guān)鍵詞:地質(zhì)大數(shù)據(jù);存儲管理;數(shù)據(jù)挖掘;可視化;云平臺

        doi:10.3969/j.issn.1674-3636.2015.03.352

        中圖分類號:P628+.2

        文獻(xiàn)標(biāo)識碼:A

        文章編號:1674-3636(2015)03-0352-06

        收稿日期:2015-06-12;修回日期:2015-06-21;編輯:侯鵬飛

        基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目“集群環(huán)境下大范圍三維復(fù)雜場景的并行繪制機(jī)理及算法實(shí)現(xiàn) ”(41271390)、國土資源部公益性行業(yè)科研專項(xiàng)“地質(zhì)大數(shù)據(jù)技術(shù)研究與應(yīng)用試點(diǎn)”(201511079-04)、中國地質(zhì)調(diào)查局地質(zhì)礦產(chǎn)調(diào)查評價專項(xiàng)“全國重要礦種成礦區(qū)劃部署研究”(12120114051501)、湖南科技大學(xué)創(chuàng)新基金基礎(chǔ)研究項(xiàng)目“地質(zhì)空間數(shù)據(jù)挖掘方法及其應(yīng)用基礎(chǔ)研究”(S140038)聯(lián)合資助

        作者簡介:李朝奎(1967—),男,教授,博士,地理信息工程專業(yè),主要從事三維地理信息理論方法及技術(shù)應(yīng)用研究工作,E-mail:chklhn@163.com

        0引言

        我國地質(zhì)行業(yè)自20世紀(jì)60年代以來,開展了礦產(chǎn)資源勘查、地球科學(xué)研究、海洋地質(zhì)勘察等工作。隨著科技的進(jìn)步,地質(zhì)調(diào)查工作的方式趨向數(shù)字化、信息化、智能化。GPS、RS大大提高了地質(zhì)數(shù)據(jù)的獲取能力, GIS、數(shù)字地質(zhì)調(diào)查系統(tǒng)空間數(shù)據(jù)庫的建庫技術(shù)等改善了地質(zhì)數(shù)據(jù)的應(yīng)用水平(孫磊等,2010)。近年來,在空載熱輻射與反射成像技術(shù)高光譜反射技術(shù)、新型激光3D制圖技術(shù)(Zebedee系統(tǒng))等的推動下,地質(zhì)數(shù)據(jù)的數(shù)量迅速增加,形式也多種多樣,傳統(tǒng)的一些技術(shù)方法越來越不能滿足不斷豐富的服務(wù)內(nèi)容,地質(zhì)行業(yè)已到了“地質(zhì)大數(shù)據(jù)”時代。

        作為不同地史時期下地質(zhì)作用信息的載體,地質(zhì)數(shù)據(jù)主要用于研究地質(zhì)歷史進(jìn)程的恢復(fù)以及對未來地質(zhì)演化的推測。為了從地質(zhì)數(shù)據(jù)中獲得更為全面的有用信息,以便深刻地了解和認(rèn)識地質(zhì)體、地質(zhì)現(xiàn)象和地質(zhì)過程,更好地利用和保護(hù)地質(zhì)資源,地質(zhì)工作越來越多地求助于數(shù)學(xué)方法和地質(zhì)信息技術(shù)。各種物化探異常的正、反演理論方法(趙鵬大,2012;陰江寧等,2013)和各種地球動力學(xué)理論方法(李四光,1973;於崇文等,1993)的提出和完善,都是這方面的重要成果,對地質(zhì)學(xué)定量化和地礦勘查信息化進(jìn)程起到了重要的推動作用。地質(zhì)行業(yè)應(yīng)該借鑒大數(shù)據(jù)的思維,解決地質(zhì)大數(shù)據(jù)的問題。

        1地質(zhì)大數(shù)據(jù)分析思路

        自2008年以來,Nature、Science、麥肯錫、達(dá)沃斯論壇等相繼發(fā)表了專門的大數(shù)據(jù)研究報告,美國政府也于2012年3月發(fā)表了《大數(shù)據(jù)研究和發(fā)展倡議》,作為信息科學(xué)領(lǐng)域又一重大舉措(Executive Office of the President,2012)。研究證明,有效地管理與使用大數(shù)據(jù)能給企業(yè)提供更多增強(qiáng)生產(chǎn)能力和競爭能力的機(jī)會,并能帶來巨大的潛在商業(yè)價值(Manyika et al,2011)。2012年10月,中國計(jì)算機(jī)學(xué)會和中國通信學(xué)會各自成立了大數(shù)據(jù)專家委員會,從行業(yè)學(xué)會的層面組織和推動大數(shù)據(jù)的相關(guān)產(chǎn)學(xué)研用活動。從研究內(nèi)容看,尚處于應(yīng)用探討與展望階段。

        1.1 從數(shù)據(jù)角度思考

        過去信息相對貧乏,任意一個數(shù)據(jù)點(diǎn)的測量情況都會對結(jié)果至關(guān)重要,對地質(zhì)數(shù)據(jù)進(jìn)行分析前必須盡量保證每個數(shù)據(jù)點(diǎn)的精確性,才不會導(dǎo)致結(jié)果的偏差。如今,高精密的儀器能夠保證數(shù)據(jù)的大趨勢正確,也大大增強(qiáng)了數(shù)據(jù)處理能力,數(shù)據(jù)分析不再通過隨機(jī)采樣的方式進(jìn)行,而是使用全部數(shù)據(jù)。

        全國礦產(chǎn)資源潛力評價數(shù)據(jù)集成管理應(yīng)用平臺(DipMopa)系統(tǒng)采用將傳統(tǒng)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)和列式數(shù)據(jù)庫相結(jié)合的方式,對多源地學(xué)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(何翠云,2013)(表1),并結(jié)合有關(guān)應(yīng)用軟件實(shí)現(xiàn)對全國礦產(chǎn)資源潛力評價數(shù)據(jù)的高效管理。大數(shù)據(jù)解決方案架構(gòu)下的數(shù)據(jù)庫HBase可以很好地按列存儲數(shù)據(jù)。HBase是一個分布式、面向列的開源數(shù)據(jù)庫,它不同于一般的關(guān)系數(shù)據(jù)庫,適合于非結(jié)構(gòu)化數(shù)據(jù)存儲。

        表1 全國礦產(chǎn)資源潛力評價數(shù)據(jù)庫分類

        2007年,吉姆·格雷(Jim Gray)在他最后一次演講中描繪了數(shù)據(jù)密集型科學(xué)研究的“第四范式”(The Fourth Paradigm)(劉光鼎,2002),把數(shù)據(jù)密集型科學(xué)從計(jì)算科學(xué)中單獨(dú)分出來,這意味著從數(shù)據(jù)中直接查找或挖掘所需要的信息、知識和智慧,甚至無需直接接觸需研究的對象?!暗谒姆妒健辈粌H是科研方式的轉(zhuǎn)變,也是人們思維方式的大變化。

        地質(zhì)大數(shù)據(jù)本身所包含的規(guī)律客觀存在,人們一直將理論應(yīng)用到實(shí)踐中來分析和理解這些規(guī)律。在大數(shù)據(jù)數(shù)時代,應(yīng)著重關(guān)注數(shù)據(jù)本身,在很多情況下,與致力于避免錯誤相比,對錯誤的包含會帶來更多的好處。

        1.2 數(shù)據(jù)非理性效果

        目前大數(shù)據(jù)在商業(yè)方面運(yùn)用較為成熟,Google 公司通過大規(guī)模集群和MapReduce 軟件,每月處理的數(shù)據(jù)量超過400 PB;百度每天大約要處理幾十PB 數(shù)據(jù);Facebook 注冊用戶超過10億,每月上傳的照片超過10億張,每天生成300 TB 以上的日志數(shù)據(jù);淘寶網(wǎng)會員超過3.7億,在線商品超過 8.8億,每天交易數(shù)千萬筆,產(chǎn)生約20 TB數(shù)據(jù)(李國杰等, 2012)。

        隨著全球工業(yè)化和城市化的推進(jìn),自然資源開發(fā)引起了一系列地質(zhì)環(huán)境變化,全球水土污染不斷加重,突發(fā)性的地質(zhì)災(zāi)害頻發(fā),引發(fā)了區(qū)域性地質(zhì)環(huán)境的重大變化。資源、環(huán)境、生態(tài)問題相互交織,這些問題產(chǎn)生的原因來自于多方面,單純通過數(shù)學(xué)計(jì)算和現(xiàn)有的理論很難全面掌握問題的根源(雷志強(qiáng),2011)。大數(shù)據(jù)由于考慮了數(shù)據(jù)的全面性與相關(guān)性,在研究中往往會得到事先難以預(yù)測的因素。

        地質(zhì)大數(shù)據(jù)存在著多源異構(gòu)、綜合利用難度大等問題,決定了其數(shù)據(jù)分析算法有別于普通情況,不再追求高精確、復(fù)雜的計(jì)算,往往簡單的算法比基于小數(shù)據(jù)的復(fù)雜算法更加有效。同時,數(shù)據(jù)分析將不再熱衷于尋找因果關(guān)系,利用基礎(chǔ)算法對大數(shù)據(jù)進(jìn)行相關(guān)關(guān)系分析,突破傳統(tǒng)思維模式,進(jìn)行技術(shù)創(chuàng)新,才能有效地挖掘出地質(zhì)大數(shù)據(jù)中隱藏的信息,獲得其地質(zhì)應(yīng)用價值?,F(xiàn)階段基于大數(shù)據(jù)的數(shù)據(jù)分析模式主要還是基于統(tǒng)計(jì)方法的關(guān)聯(lián)性分析,缺乏邏輯推導(dǎo)過程(Agrawal et al,1996;Cheung et al,1996)。對于理論邏輯層次清晰的地質(zhì)行業(yè),大數(shù)據(jù)的統(tǒng)計(jì)學(xué)方法不足以支撐地質(zhì)行業(yè)的知識發(fā)現(xiàn),需要在數(shù)據(jù)分析過程中插入中間環(huán)節(jié),完善推導(dǎo)過程,協(xié)助新理論、新方法的研究(繆謹(jǐn)勵,2014)。

        1.3 大數(shù)據(jù)面臨的問題

        大數(shù)據(jù)的相關(guān)技術(shù)正在不斷影響和改變地質(zhì)行業(yè),從數(shù)據(jù)的采集到存儲管理再到應(yīng)用服務(wù),傳統(tǒng)思維習(xí)慣也將逐漸變化。地質(zhì)大數(shù)據(jù)中所蘊(yùn)藏的信息,等待著大數(shù)據(jù)技術(shù)來“開采”。但是大數(shù)據(jù)技術(shù)目前還不完善,許多問題等待解決。例如,礦產(chǎn)資源預(yù)測的關(guān)鍵在于有效地獲取礦產(chǎn)資源信息、正確認(rèn)識礦床模型和成礦條件、正確刻畫礦產(chǎn)資源的時空分布規(guī)律,運(yùn)用大數(shù)據(jù)技術(shù),對于勘查難度大、未發(fā)現(xiàn)礦產(chǎn)資源多的地區(qū)能夠進(jìn)行信息綜合和建模,有效降低成本,輔助勘探?jīng)Q策,但是不能保證結(jié)果的正確性,在地質(zhì)研究過程中,不論是地質(zhì)災(zāi)害預(yù)測,或是礦產(chǎn)資源勘測都講究對結(jié)果進(jìn)行驗(yàn)證,以提高模型的準(zhǔn)確性。因此,大數(shù)據(jù)不是萬能的:(1)歷史數(shù)據(jù)不能準(zhǔn)確預(yù)測未來;(2)預(yù)測模式中存在不確定因素;(3)各種模式操作過程中存在偏頗以及不符合實(shí)際的預(yù)測。

        地質(zhì)大數(shù)據(jù)提供了海量數(shù)據(jù)源,但是這些數(shù)據(jù)包含的數(shù)據(jù)價值密度相對較低,可能造成挖掘結(jié)果的謬誤。要以辯證的觀點(diǎn)看待大數(shù)據(jù)帶來的創(chuàng)新技術(shù),不能完全棄用以往的方法經(jīng)驗(yàn),應(yīng)該根據(jù)實(shí)際問題,將新技術(shù)與過去的方法相結(jié)合,相輔相成,才能有效保證結(jié)果的正確性。

        2地質(zhì)大數(shù)據(jù)應(yīng)用關(guān)鍵技術(shù)

        2.1 存儲管理技術(shù)

        地質(zhì)大數(shù)據(jù)種類繁多,關(guān)系復(fù)雜,有結(jié)構(gòu)化數(shù)據(jù)如關(guān)系數(shù)據(jù)庫的統(tǒng)計(jì)數(shù)據(jù)、表格表單數(shù)據(jù)等,也有非結(jié)構(gòu)化數(shù)據(jù)如矢量數(shù)據(jù)、文本數(shù)據(jù)、影像數(shù)據(jù)、圖片等。

        基于傳統(tǒng)的關(guān)系數(shù)據(jù)庫查詢方法已經(jīng)不能滿足要求,對地質(zhì)大數(shù)據(jù)進(jìn)行統(tǒng)一組織和存儲,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的集成,是地質(zhì)大數(shù)據(jù)信息化的基礎(chǔ)。

        地質(zhì)數(shù)據(jù)種類繁多,通過分析與抽象,主要可以分為圖件、文檔、表格3種實(shí)體性數(shù)據(jù)和報告,2種概念型數(shù)據(jù)(表2)。

        表2 地質(zhì)數(shù)據(jù)分類

        地質(zhì)大數(shù)據(jù)由于數(shù)據(jù)量龐大,數(shù)據(jù)類型復(fù)雜多樣,進(jìn)行數(shù)據(jù)粒度分析會涉及到多種粒度數(shù)據(jù)的混合處理,需要根據(jù)相關(guān)業(yè)務(wù)要求,利用粗粒度與細(xì)粒度間的內(nèi)部聯(lián)系,有機(jī)統(tǒng)一起來進(jìn)行管理,根據(jù)粒度進(jìn)行數(shù)據(jù)庫層次化部署。在已有數(shù)據(jù)庫的基礎(chǔ)上,制定相應(yīng)的數(shù)據(jù)更新機(jī)制,以確保能夠存儲同一數(shù)據(jù)不同時態(tài)的數(shù)據(jù),為支持?jǐn)?shù)據(jù)時態(tài)對比、歷史數(shù)據(jù)演變等提供必要的信息支撐。

        地質(zhì)大數(shù)據(jù)查詢檢索技術(shù)主要有4種方式:(1) 基于文件名查詢;(2) 基于范圍和分辨率查詢;(3) 基于范圍和格網(wǎng)數(shù)查詢;(4) 基于內(nèi)容查詢。其主要構(gòu)架在地質(zhì)大數(shù)據(jù)云存儲系統(tǒng)設(shè)計(jì)的基礎(chǔ)上,能夠快速定位并獲取所需的數(shù)據(jù)。

        目前,數(shù)據(jù)庫領(lǐng)域中最常用的數(shù)據(jù)模型是關(guān)系模型,基于此模型的數(shù)據(jù)庫管理系統(tǒng)(DBMS)產(chǎn)品較多,有Oracle、SQL Server、DB2等,在大數(shù)據(jù)解決方案架構(gòu)下,以Google的GFS(Google File System)和Hadoop的HDFS(Hadoop Distributed File System)為代表,HDFS是GFS的開源實(shí)現(xiàn),它們均采用分布式存儲方式存儲數(shù)據(jù),用冗余存儲的模式保證數(shù)據(jù)可靠性,不同于一般的關(guān)系數(shù)據(jù)庫,是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。

        在地學(xué)大數(shù)據(jù)技術(shù)研究實(shí)驗(yàn)平臺GeoBDA實(shí)驗(yàn)中,作者通過對比實(shí)驗(yàn)得出大數(shù)據(jù)平臺的對比:Hadoop架構(gòu)中沒有提供完善的檢索解決方案,如果要在數(shù)據(jù)挖掘方面滿足特定的需求,需要投入較大的開發(fā)力量,這與Hadoop作為Apache項(xiàng)目的發(fā)展歷程有關(guān)(繆謹(jǐn)勵,2014)。Oracle架構(gòu)中,Intermedia支持直接搜索,Oracle各種組件功能強(qiáng)大,產(chǎn)品化、成熟度高,不過價格比較高。

        2.2 數(shù)據(jù)挖掘技術(shù)

        數(shù)據(jù)庫知識發(fā)現(xiàn) (KDD) 是從數(shù)據(jù)集中識別出有效、新穎、潛在有用的以及最終可理解的模式的非平凡過程(圖1),數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)過程中應(yīng)用數(shù)據(jù)分析和發(fā)現(xiàn)算法的一個步驟,在可接受的計(jì)算效率的局限性之內(nèi),在數(shù)據(jù)上產(chǎn)生一種特殊的列舉模式(或模型)(李德仁等,2002)。

        圖1 知識發(fā)現(xiàn)流程示意圖Fig.1 Schematic diagram showing the process of knowledge discovery

        從數(shù)量上來說,可能需要處理數(shù)量級達(dá)到TB 級乃至PB級的數(shù)據(jù),另外還有高維數(shù)據(jù)、各種噪聲數(shù)據(jù)以及動態(tài)數(shù)據(jù)等,選擇合適的算法及并行策略來完成任務(wù)是關(guān)鍵。另外,算法的設(shè)計(jì)、參數(shù)的調(diào)節(jié)都會直接影響到最終的結(jié)果,數(shù)據(jù)挖掘過程中可能會存在許多不明確性,進(jìn)行數(shù)據(jù)挖掘的目的就是要將這些不明確性帶來的影響降到最低。這些不明確性包括對數(shù)據(jù)挖掘任務(wù)描述的不明確性、進(jìn)行數(shù)據(jù)采集和預(yù)處理時會出現(xiàn)的不明確性、數(shù)據(jù)挖掘方法選擇和最終結(jié)果的不明確以性及對如何評價數(shù)據(jù)挖掘結(jié)果的不明確性等。數(shù)據(jù)挖掘算法將直接影響到所發(fā)現(xiàn)知識的結(jié)果。

        多個發(fā)達(dá)國家早已將SOA(Service Oriented Architecture,基于面向服務(wù)的體系結(jié)構(gòu))、并行計(jì)算、虛擬化等技術(shù)融入到地質(zhì)調(diào)查信息化建設(shè)中,建立了在線編圖等采用“一站式”工作模式服務(wù)的應(yīng)用系統(tǒng)(表3)。雖然我國目前在這方面的技術(shù)相對落后,但是許多科研團(tuán)隊(duì)對多元、異構(gòu)的地學(xué)數(shù)據(jù)集成與共享也已經(jīng)進(jìn)行了深入研究與探討。

        提供地理空間信息的查詢訪問有助于信息的共享和獲取。對全球8萬余次地震發(fā)生的分布圖(圖2)進(jìn)行簡單的數(shù)據(jù)挖掘,可以發(fā)現(xiàn)地震活躍帶和板塊構(gòu)造中各板塊的邊緣比較吻合,從圖中可以看到通過空間數(shù)據(jù)挖掘的計(jì)算結(jié)果和經(jīng)驗(yàn)判斷基本相符(繆謹(jǐn)勵,2014)。

        表3 部分國家的地質(zhì)空間數(shù)據(jù)挖掘技術(shù)系統(tǒng)

        圖2 大數(shù)據(jù)研究實(shí)驗(yàn)平臺實(shí)驗(yàn)效果(據(jù)繆謹(jǐn)勵,2014)Fig.2 Experimental results of the experimental big data platform(after Miao, 2014)

        2.3 地質(zhì)大數(shù)據(jù)可視化技術(shù)

        數(shù)據(jù)可視化是進(jìn)行大數(shù)據(jù)分析的一個很重要的手段,可視化的目標(biāo)是通過可視的方法提供新的洞察力以影響現(xiàn)有的科學(xué)方法(McCormick et al,1987)??梢暬季S是個人通過探索數(shù)據(jù)的內(nèi)在關(guān)系來揭示新問題,形成新觀點(diǎn),進(jìn)而產(chǎn)生新的綜合,找到新的答案并加以確認(rèn),而可視化交流是向公眾表達(dá)已經(jīng)形成的結(jié)論和觀點(diǎn)。

        大數(shù)據(jù)有利于簡化模型設(shè)計(jì),豐富的數(shù)據(jù)為直接基于數(shù)據(jù)的建模提供了可能性,甚至有可能實(shí)現(xiàn)基于每個時空實(shí)體構(gòu)建局部的實(shí)時、動態(tài)模型。地質(zhì)體、地質(zhì)現(xiàn)象及地質(zhì)過程的可視化是為了更加直觀和真實(shí)的表達(dá)。對于專業(yè)人員,這有利于地質(zhì)現(xiàn)象分析、科學(xué)計(jì)算、評價決策、工程設(shè)計(jì)等操作;對于普通人員,有利于理解晦澀難懂的專業(yè)知識(陳建國等,2012)。由于地質(zhì)大數(shù)據(jù)的特殊性,其可視化的關(guān)鍵在于:(1) 海量三維數(shù)據(jù)體的存儲和快速調(diào)度;(2) 三維地質(zhì)體數(shù)字化的快速建模技術(shù);(3) 三維數(shù)字地質(zhì)體的快速自由矢量剪切技術(shù);(4) 三維數(shù)字地質(zhì)體的局部快速動態(tài)更新技術(shù);(5) 三維數(shù)字地質(zhì)體的多樣化空間分析技術(shù)(吳沖龍,2011)。

        目前,已有一些比較完善的三維地質(zhì)建模軟件能夠?qū)崿F(xiàn)多種數(shù)據(jù)三維綜合建模、顯示和分析等功能,如國外的 GOCAD、MVS、MicroStation、Surpac 等,國內(nèi)的如QuantyView(GeoView)、GeoMo3D、Titan 3DM等。但這些建模方式仍然是靜態(tài)交互的,在大數(shù)據(jù)時代下的可視化技術(shù)將朝著自動化和交互性方向邁進(jìn)。

        3地質(zhì)大數(shù)據(jù)面臨的挑戰(zhàn)

        3.1 數(shù)據(jù)質(zhì)量問題

        高質(zhì)量的數(shù)據(jù)是大數(shù)據(jù)發(fā)揮效能的前提和基礎(chǔ),對大數(shù)據(jù)進(jìn)行有效分析的前提是必須保證數(shù)據(jù)的質(zhì)量。隨著整體數(shù)據(jù)量增加,其中含有誤差的噪聲數(shù)據(jù)量也隨之增加,如何制定地質(zhì)大數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)要從無數(shù)次的經(jīng)驗(yàn)總結(jié)而來。數(shù)據(jù)質(zhì)量問題貫穿始終,數(shù)據(jù)的來源、處理及使用,都應(yīng)該隨時把握數(shù)據(jù)質(zhì)量。在數(shù)據(jù)獲取階段,要保證數(shù)據(jù)定義的一致性、元數(shù)據(jù)定義的統(tǒng)一性;在處理階段,噪聲數(shù)據(jù)的去除、目標(biāo)數(shù)據(jù)的最大化保留是實(shí)現(xiàn)高水平數(shù)據(jù)質(zhì)量的基本保障;在存儲階段,應(yīng)該根據(jù)地質(zhì)大數(shù)據(jù)的特殊組成與結(jié)構(gòu),合理地設(shè)計(jì)數(shù)據(jù)存儲和使用規(guī)則,以方便對數(shù)據(jù)進(jìn)行快速讀取。

        我國對于地質(zhì)大數(shù)據(jù)的研究水平還不高,對數(shù)據(jù)質(zhì)量的重要性意識還比較淡薄,大數(shù)據(jù)方案的建設(shè)及應(yīng)用在我國還不夠完善成熟,對于地質(zhì)大數(shù)據(jù)存儲分析技術(shù)、數(shù)據(jù)管理方案等各項(xiàng)配套設(shè)施和制度還不完善,保證大數(shù)據(jù)的質(zhì)量應(yīng)該受到越來越多的關(guān)注。

        3.2 云平臺搭建

        地質(zhì)行業(yè)的專業(yè)性較強(qiáng),在數(shù)據(jù)量相對較少的情況下,數(shù)據(jù)的收集、存儲管理、算法研究等由專業(yè)人員進(jìn)行即可,但在大數(shù)據(jù)時代,則需要多方面的協(xié)作,除了需要地質(zhì)專業(yè)研究人員,還應(yīng)配備高端的專業(yè)數(shù)據(jù)庫設(shè)計(jì)和開發(fā)人員、程序員、數(shù)學(xué)和統(tǒng)計(jì)學(xué)家,相互協(xié)作才能完成。在數(shù)據(jù)挖掘過程中,數(shù)據(jù)挖掘算法、系統(tǒng)設(shè)計(jì)工程、資源分配等是重點(diǎn),但這多適合于專業(yè)技術(shù)人員,阻礙了數(shù)據(jù)挖掘的廣泛應(yīng)用。地質(zhì)大數(shù)據(jù)應(yīng)用總體框架如圖3所示。云計(jì)算作為一種新興的計(jì)算模式,它隱藏了計(jì)算資源以及計(jì)算的執(zhí)行過程,用戶不用考慮內(nèi)部計(jì)算架構(gòu),就能通過瀏覽器或者應(yīng)用程序界面提交計(jì)算任務(wù)或者服務(wù)請求,這大大增加了地質(zhì)數(shù)據(jù)的使用效率,使地質(zhì)數(shù)據(jù)攜帶的信息在相關(guān)應(yīng)用領(lǐng)域創(chuàng)造更多價值。

        圖3 地質(zhì)大數(shù)據(jù)應(yīng)用總體框架示意圖Fig.3 Sketch of overall framework for the application of geological big data

        建設(shè)云計(jì)算平臺是一個涉及軟件資源、硬件資源管理、優(yōu)化、分配等復(fù)雜的系統(tǒng)化工程。為了搭建地質(zhì)云計(jì)算平臺,至少需要解決如下關(guān)鍵問題:(1) 明確地質(zhì)大數(shù)據(jù)的應(yīng)用目的;(2) 在已有軟硬件資源的基礎(chǔ)上,基于虛擬化技術(shù)研究并搭建云存儲模式,實(shí)現(xiàn)地質(zhì)大數(shù)據(jù)的合理組織;(3) 搭建服務(wù)虛擬化的地質(zhì)云計(jì)算平臺,給出服務(wù)管理、搜索調(diào)用機(jī)制;(4) 通過不同粒度的數(shù)據(jù)服務(wù)和計(jì)算服務(wù)來實(shí)現(xiàn)對地質(zhì)大數(shù)據(jù)的訪問,并發(fā)布這些服務(wù)。

        目前,ESRI、GIS Cloud等已經(jīng)開始研究將GIS遷移到云計(jì)算環(huán)境中,初步形成了提供GIS數(shù)據(jù)和服務(wù)的云GIS平臺。

        4結(jié)論

        我國幅員遼闊,地質(zhì)環(huán)境復(fù)雜,地質(zhì)數(shù)據(jù)量巨大。有效地利用這些數(shù)據(jù)成為越來越重要的問題。隨著大數(shù)據(jù)時代的來臨,應(yīng)積極尋求解決問題的方法,使其適應(yīng)信息化社會和知識經(jīng)濟(jì)時代的要求,發(fā)揮地質(zhì)大數(shù)據(jù)潛在知識的價值,提升新時期地質(zhì)行業(yè)的創(chuàng)新服務(wù)能力。作為當(dāng)今最受矚目的對象,大數(shù)據(jù)的出現(xiàn)并不是一蹴而就的。數(shù)據(jù)量由GB增長到TB、ZB……是人類需求不斷增加的結(jié)果。在這些蘊(yùn)藏著規(guī)律的海量數(shù)據(jù)中,價值無法估量。

        地質(zhì)大數(shù)據(jù)對于城市規(guī)劃、建設(shè)、安全等方面有著十分重要的意義,對于城市環(huán)境和防災(zāi)減災(zāi)工作十分重要,利用地質(zhì)基礎(chǔ)數(shù)據(jù)能夠進(jìn)行選址適宜分析、地下空間分析等,動態(tài)監(jiān)測數(shù)據(jù)提供了自然變化和人為工程對地質(zhì)環(huán)境影響的監(jiān)測結(jié)果,模擬分析數(shù)據(jù)可以客觀模擬災(zāi)害發(fā)生時的情景,預(yù)警案例數(shù)據(jù)則可以為防災(zāi)減災(zāi)預(yù)警工作提供數(shù)據(jù)支撐(王少勇, 2014)。

        在大數(shù)據(jù)時代,從海量地質(zhì)數(shù)據(jù)的存儲管理到地質(zhì)知識發(fā)現(xiàn),并通過智能化處理平臺服務(wù)于用戶,滿足用戶日益增長的需求,對于地質(zhì)大數(shù)據(jù)的管理應(yīng)用將發(fā)生深刻變化。地質(zhì)數(shù)據(jù)的數(shù)字化是基礎(chǔ),最終是為了實(shí)現(xiàn)信息化,創(chuàng)新開展知識管理和知識服務(wù),發(fā)揮地質(zhì)大數(shù)據(jù)潛在的知識價值,提升新時期地質(zhì)大數(shù)據(jù)管理水平與創(chuàng)新服務(wù)能力,這也是適應(yīng)當(dāng)今信息化社會和數(shù)字化時代的必然要求。

        參考文獻(xiàn):

        陳建國,肖敦輝,梁玉輝,等.2012.重磁三維可視化反演系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].地質(zhì)學(xué)刊,36(3):250-255.

        何翠云.2013.廣西礦產(chǎn)資源潛力評價數(shù)據(jù)特征[J].地質(zhì)學(xué)刊,37(3):451-455.

        李四光.1973.地質(zhì)力學(xué)概論[M].北京:科學(xué)出版社.

        李德仁,王樹良.2002.論空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的理論與方法[J].武漢大學(xué)學(xué)報:信息科學(xué)版,27(3):221-233.

        劉光鼎.2002.回顧與展望:21世紀(jì)的固體地球物理[J].地球物理學(xué)進(jìn)展,17(2):191-197.

        雷志強(qiáng).2011.加強(qiáng)地質(zhì)災(zāi)害防治,構(gòu)建生態(tài)城市環(huán)境[J].地質(zhì)學(xué)刊,35(1):104-108.

        李國杰,程學(xué)旗.2012.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域:大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,27(6):647-657.

        繆謹(jǐn)勵.2014.地學(xué)大數(shù)據(jù)技術(shù)研究實(shí)驗(yàn)平臺GeoBDA[J].地理信息世界,21(6):48-52.

        孫磊,張彥杰,李豐丹,等.2010.數(shù)字地質(zhì)調(diào)查系統(tǒng)空間數(shù)據(jù)庫建庫技術(shù)方法應(yīng)用:以1∶5萬瑤里幅地質(zhì)圖空間數(shù)據(jù)庫制作為例[J].地質(zhì)學(xué)刊,34(3):260-270.

        吳沖龍.2011.地質(zhì)數(shù)據(jù)三維可視化的屬性、分類和關(guān)鍵技術(shù)[J].地質(zhì)通報,30(5):642-649.

        王少勇.2014-12-22.迎接地質(zhì)大數(shù)據(jù)時代[N].中國國土資源報,(1).

        於崇文,岑況,鮑征宇,等.1993.熱液成礦動力學(xué)[M].湖北武漢:中國地質(zhì)大學(xué)出版社.

        陰江寧,肖克炎,汪新慶,等.2013.中國稀土礦產(chǎn)資源定量分析與預(yù)測[J].地質(zhì)學(xué)刊,37(3):378-381.

        趙鵬大.2012.數(shù)字地質(zhì)與礦產(chǎn)資源評價[J].地質(zhì)學(xué)刊,36(3):225-228.

        AGRAWAL R, SHARFER J.1996.Prarallel mining of association rules[J].IEEE Trans on Knowledge and Data Engineering, 8(6):962-969.

        CHEUNG D W , NG V T,FU A W, et al.1996.Efficient mining of association rules in distributed database[J].IEEE Trans on Knowledge and Data Engineering, 8(6):911-922.

        Executive Office of the President.2012-03-29.Big data across the federal government[EB/OL].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf.

        MCCORMICK B H, DEFANTI T A, BROWN M D.1987.Visualization in scientific computing[J]. Computer Graphics,12(6):1103-1109.

        MANYIKA J,CHUI M,BROWN B, et al.2011.Big Data:the Next Frontier for Innovation, Competition, and Productivity[R].Washington,DC,USA: McKinsey Global Institute.

        Analysis and application mode of geological big data

        LI Chao-kui1, YAN Wen-ying1, XIAO Ke-yan2, ZHAO Ya-nan1

        (1. National-Local Joint Engineering Laboratory of Geo-Spatial Information Technology, Hunan University of Science and Technology, Xiangtan 411201, Hunan, China; 2. Institute of Mineral Resources,Chinese Academy of Geological Sciences, Beijing 100037, China)

        Abstract:In the era of big data, there are many ways to obtain geological data. The amount of data is very large, and the formats are complex and diverse. This paper illustrates the key points of analysis and application from the aspects of the storage and management of geological data, data mining technology and visualization technology. We also introduce the different analysis thinking of big data, and emphasize the importance of focusing on the data. In the technology innovation, there are also challenges, such as how to ensure the accuracy of geological big data, and how to build a cloud platform. The development of geological big data is of great significance for the prediction of mineral resources and selection of urban location.

        Keywords:geological big data; storage management; data mining; visualization; cloud platform

        猜你喜歡
        數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        日本午夜理论一区二区在线观看| 美女胸又www又黄的网站| 99精品久久久中文字幕| 亚洲激情一区二区三区视频| 精品一区二区三区在线视频| 精品国产一区二区三区香蕉| www插插插无码视频网站| 人妻熟女中文字幕在线视频| 无码人妻丰满熟妇区免费| 亚洲精品中文字幕不卡| 国产乱人对白| 夜夜揉揉日日人人| 久天啪天天久久99久孕妇| 中文字幕在线乱码亚洲| 青青青爽在线视频观看| 日本黄页网站免费大全| 蜜桃av观看亚洲一区二区| 虎白m粉嫩小在线播放| 午夜色大片在线观看| 日韩我不卡| 亚洲无人区乱码中文字幕 | 欧洲乱码伦视频免费| 洗澡被公强奷30分钟视频| 精品人妻少妇一区二区中文字幕| 91国产自拍视频在线| av手机在线观看不卡| 激情综合色综合啪啪五月丁香| 亚洲综合无码一区二区| 国产精品麻豆A在线播放| 国产熟人精品一区二区| 五月综合缴情婷婷六月| 日本一区二区啪啪视频| 暴露的熟女好爽好爽好爽| 国产精品一区二区三区自拍| 国产精品无码av天天爽| 亚洲av日韩片在线观看| av中文字幕在线直播| 成年女人a毛片免费视频| 久久这里只精品国产99热| 亚洲一区视频中文字幕| 在线视频国产91自拍|