摘要:MapReduce作為數(shù)據(jù)處理的概念框架對(duì)計(jì)算、存儲(chǔ)、應(yīng)用等分布式資源進(jìn)行大規(guī)??蓴U(kuò)展的整合,結(jié)合互聯(lián)網(wǎng)技術(shù)為煤礦企業(yè)用戶提供計(jì)算和存儲(chǔ)服務(wù)并建立安全生產(chǎn)大數(shù)據(jù)分析系統(tǒng),這必將成為提升煤礦安全生產(chǎn)的信息手段之一。文中實(shí)例是基于HadoopMapReduce大數(shù)據(jù)系統(tǒng)對(duì)礦井瓦斯涌出量進(jìn)行了預(yù)測仿真分析,能為礦井瓦斯治理和安全生產(chǎn)提供了可靠的依據(jù)。
關(guān)鍵詞:Hadoop;MapReduce;云計(jì)算;煤礦;瓦斯涌出量
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1003 6970.2016.05.025
本文著錄格式:劉玉海.MapReduce大數(shù)據(jù)分析在煤礦的應(yīng)用研究[J].軟件,2016,37(5):101-104
0.引言
MapReduce作為一個(gè)通用且可擴(kuò)展的并且封裝了并行處理、容錯(cuò)和數(shù)據(jù)本地化等技術(shù)難點(diǎn)及細(xì)節(jié)為一體的模塊,能有效的分析處理大數(shù)據(jù)。讓使用者易于實(shí)現(xiàn)并行和分布式系統(tǒng)的開發(fā)和應(yīng)用。MapReduce編程模型結(jié)合用戶的自定義Map和Reduce函數(shù),與大數(shù)據(jù)存儲(chǔ)系統(tǒng)HDFS的結(jié)合構(gòu)成了Hadoop的核心框架,在由大量計(jì)算機(jī)組成的集群中實(shí)現(xiàn)了對(duì)大數(shù)據(jù)的大規(guī)模并行化分布式高速運(yùn)算和存儲(chǔ)。煤礦企業(yè)生產(chǎn)安全事關(guān)重大,將煤礦相關(guān)的大數(shù)據(jù)整合在一起使用分布式高速運(yùn)算和存儲(chǔ)協(xié)同工作,為實(shí)現(xiàn)煤礦危險(xiǎn)預(yù)測能起到至關(guān)重要的作用,也是煤礦的合理化生產(chǎn)的措施之一。
1.Hadoop的Map和Reduce
Hadoop分布式開源軟件是一個(gè)在大型集群硬件設(shè)備上運(yùn)行應(yīng)用程序的軟件框架,具有可靠、高效、可伸縮的數(shù)據(jù)處理特點(diǎn),其基本原理就是把大的數(shù)據(jù)集合分發(fā)到Hadoop集群上的每一個(gè)數(shù)據(jù)結(jié)點(diǎn)上,每個(gè)數(shù)據(jù)結(jié)點(diǎn)會(huì)周期性的返回自己完成的工作狀態(tài)報(bào)告,MapReduce高度優(yōu)化了用多臺(tái)計(jì)算機(jī)解決分布式問題,增加了數(shù)據(jù)的可靠性。
MapReduce技術(shù)框架包含三個(gè)層面的內(nèi)容:①分布式文件系統(tǒng)②并行編程模型③并行執(zhí)行引擎。這個(gè)處理大數(shù)據(jù)集的概念框架是由Map和Reduce兩個(gè)函數(shù)構(gòu)成的,Map函數(shù)專用于獲取大數(shù)據(jù)輸入并將其分成小片段,以一種獨(dú)立的方式使這些片段得到并行處理,亦即傳遞到一組映射函數(shù)Map,然后交由其他進(jìn)程進(jìn)行操作。Reduce函數(shù)整理收集了各個(gè)Map回應(yīng)并顯示其輸出結(jié)果,也就是將Map作為一組輸入數(shù)據(jù)產(chǎn)生鍵值的集合交給一組還原函數(shù)Reduce執(zhí)行映射表的集合并顯示最終的輸出。同一程序Hadoop可運(yùn)行各種語言編寫的MapReduce程序。