張 新
(紹興職業(yè)技術(shù)學(xué)院,浙江 紹興 312000)
智慧礦山建設(shè)已全面進入了物聯(lián)網(wǎng)新時代,隨著兩化融合建設(shè)的加快推進,管理信息化和智能終端、設(shè)備得以普及應(yīng)用,礦山企業(yè)的兩化建設(shè)取得了長足進步,正朝著礦山環(huán)境數(shù)字化、傳輸網(wǎng)絡(luò)化、監(jiān)控實時化、裝備智能化、管理科學(xué)化的智慧礦山方向發(fā)展[1-2]。
當(dāng)前,礦山各業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)呈指數(shù)級增長,但數(shù)據(jù)相對分離和條塊化,信息孤島現(xiàn)象還十分嚴重,大數(shù)據(jù)管理理念雖然已開始樹立,但面對海量數(shù)據(jù)還是難以有效處理[3-4]。近年來,國家高度重視大數(shù)據(jù)技術(shù)應(yīng)用研究,先后發(fā)布了《工業(yè)大數(shù)據(jù)白皮書(2017 版)》和《促進大數(shù)據(jù)發(fā)展行動綱要》等指導(dǎo)性文件,拉開了工業(yè)大數(shù)據(jù)應(yīng)用新時代的大幕。礦山作為工業(yè)領(lǐng)域的重要組成部分,開展大數(shù)據(jù)技術(shù)的應(yīng)用研究十分必要和緊迫。本文從智慧礦山大數(shù)據(jù)的應(yīng)用理念出發(fā),分析智慧礦山大數(shù)據(jù)的研究現(xiàn)狀,總結(jié)了礦山大數(shù)據(jù)的概念、特點和應(yīng)用,簡述了大數(shù)據(jù)技術(shù)與方法,針對智慧礦山的需求提出了大數(shù)據(jù)應(yīng)用平臺的基本方案,對關(guān)鍵技術(shù)和具體應(yīng)用進行分析。
隨著智慧礦山建設(shè)的推進,礦山大數(shù)據(jù)技術(shù)發(fā)展迅速,其呈現(xiàn)出行業(yè)化的固有特點[5-6]。為更好地服務(wù)于礦山企業(yè),從大數(shù)據(jù)視角出發(fā),采用大數(shù)據(jù)技術(shù)對礦山企業(yè)各環(huán)節(jié)產(chǎn)生的海量數(shù)據(jù)進行分析,挖掘隱藏在其中的規(guī)律,以提高礦山企業(yè)的生產(chǎn)效率。礦山大數(shù)據(jù)具有大數(shù)據(jù)的基本特點:海量數(shù)據(jù)、多樣性、快速性、價值性和真實性等,還具有時序性、可見性、強關(guān)聯(lián)性和閉環(huán)性等特點[6]。
a.海量數(shù)據(jù)。智慧礦山各業(yè)務(wù)系統(tǒng)積累了大量的原始數(shù)據(jù),且在日常管理和生產(chǎn)過程中,每時每刻都在生成數(shù)據(jù)。礦山設(shè)備的高頻數(shù)據(jù)、地質(zhì)地貌數(shù)據(jù)、視頻監(jiān)控數(shù)據(jù)、管理系統(tǒng)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等持續(xù)產(chǎn)生,數(shù)據(jù)量將達到 PB 級甚至 EB 級[7]。
b.多樣性。礦山大數(shù)據(jù)具有多源異構(gòu)且復(fù)雜多樣的特點,智慧礦山的數(shù)據(jù)采集于礦山眾多的信息化和自動化系統(tǒng),來源豐富,性質(zhì)各異,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[8-10]。以機電設(shè)備實時監(jiān)測數(shù)據(jù)為例,由于設(shè)備性能和功能的不同,所采集的數(shù)據(jù)長短、類型、格式可能有較大差異;各類實時視頻監(jiān)控設(shè)備采集的是視頻、音頻、語音、圖片等數(shù)據(jù),這些數(shù)據(jù)有多種制式,由于對象不同,加之時空相關(guān),會導(dǎo)致較大差別[11]。
c.快速性??焖傩泽w現(xiàn)在對數(shù)據(jù)處理的及時性和數(shù)據(jù)快速增長上,智慧礦山采用了大量的智能化機電一體化設(shè)備,這些設(shè)備在工作過程中產(chǎn)生了大量實時數(shù)據(jù)。礦山采用大量實時監(jiān)控系統(tǒng)來保障安全生產(chǎn)活動,這些實時采集的數(shù)據(jù)必須及時處理并反饋,否則將影響設(shè)備運行,甚至引發(fā)事故。
d.價值性。價值性表現(xiàn)在某些數(shù)據(jù)的高價值和海量數(shù)據(jù)的低價值密度,智慧礦山的數(shù)據(jù)來源各異,生產(chǎn)過程中實時采集的不少數(shù)據(jù)具有高價值的特點,如設(shè)備性能指標數(shù)據(jù),其直接反映設(shè)備的工作狀態(tài);但是多源數(shù)據(jù)融合匯成的海量數(shù)據(jù),總體上價值密度是極低的。
e.真實性。大數(shù)據(jù)希望捕獲的數(shù)據(jù)是真實可靠的,但是礦山環(huán)境一般都比較惡劣,因此通過多種途徑獲得的數(shù)據(jù)往往會受到各種因素的影響而顯得混亂。
f.時序性。智慧礦山大數(shù)據(jù)包含大量與時空緊密相關(guān)的智能化設(shè)備數(shù)據(jù),實時采集的數(shù)據(jù)含有時間戳數(shù)據(jù),強調(diào)時序性,如與安全相關(guān)的實時監(jiān)測數(shù)據(jù)。
g.可見性??梢娦员憩F(xiàn)在通過建模和分析挖掘出隱匿在數(shù)據(jù)之中的變化趨勢。機電設(shè)備的狀態(tài)變化一般難以被量化,但往往是由不可見因素積累到一定程度所產(chǎn)生的,因此通過大數(shù)據(jù)挖掘分析可以獲得隱匿的重要因素和信息。
h.強關(guān)聯(lián)性。智慧礦山產(chǎn)生的大量數(shù)據(jù)都具有時空相關(guān)性和機理相關(guān)性,同時期的數(shù)據(jù)有強關(guān)聯(lián)性,如開采設(shè)備運行狀態(tài)與環(huán)境、人員、工作計劃等均有關(guān)聯(lián)。
i.閉環(huán)性。智慧礦山各業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)存在閉環(huán)與關(guān)聯(lián)。
大數(shù)據(jù)技術(shù)是一類新興的綜合性技術(shù),其通過對來源和種類繁雜的海量數(shù)據(jù)的捕捉、分析和挖掘,獲得有利于業(yè)務(wù)效率提高的高價值信息的技術(shù)架構(gòu)生態(tài)[12-13]。礦山大數(shù)據(jù)技術(shù)服務(wù)于礦山大數(shù)據(jù)應(yīng)用過程的各個環(huán)節(jié)之中,包括數(shù)據(jù)采集與接入、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)處理(分析與挖掘)、數(shù)據(jù)可視化等[14]。
a.數(shù)據(jù)采集與接入。數(shù)據(jù)是大數(shù)據(jù)系統(tǒng)的應(yīng)用基礎(chǔ)和前提,礦山大數(shù)據(jù)來源于各類型礦山企業(yè)的信息化和自動化系統(tǒng)。通過對礦山生產(chǎn)和管理過程中產(chǎn)生的各類原始數(shù)據(jù)準確、實時的采集,利用各種數(shù)據(jù)接口接入數(shù)據(jù)存儲管理平臺;針對不同類型業(yè)務(wù)過程中產(chǎn)生的多源異構(gòu)數(shù)據(jù),采用相應(yīng)的數(shù)據(jù)采集方法和工具。礦山大數(shù)據(jù)系統(tǒng)采用離線或?qū)崟r的方法從不同應(yīng)用和數(shù)據(jù)源采集、傳輸、分發(fā)數(shù)據(jù),礦山大數(shù)據(jù)的接入需要基于規(guī)范化的傳輸協(xié)議和數(shù)據(jù)格式,利用豐富的數(shù)據(jù)接口,支持多種業(yè)務(wù)需求和數(shù)據(jù)類型。
b.數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是大數(shù)據(jù)分析之前提高數(shù)據(jù)質(zhì)量的一個重要環(huán)節(jié),智慧礦山涉及管理、生產(chǎn)、市場等環(huán)節(jié),礦山企業(yè)的數(shù)據(jù)源鏈路很長,各環(huán)節(jié)的業(yè)務(wù)需求千差萬別;礦山產(chǎn)生的多源異構(gòu)數(shù)據(jù)具有來源眾多的特征,存在缺失、錯誤、不一致的可能,含有大量不符合規(guī)范的“臟數(shù)據(jù)”,另外數(shù)據(jù)的格式也不完全統(tǒng)一,影響了數(shù)據(jù)的有效分析。數(shù)據(jù)在來源、格式、質(zhì)量等方面存在較大差異,需對采集的數(shù)據(jù)進行整理、清洗和轉(zhuǎn)換。數(shù)據(jù)清洗是通過檢測“臟數(shù)據(jù)”,利用數(shù)據(jù)篩選、數(shù)據(jù)修復(fù)等方法來提高數(shù)據(jù)的質(zhì)量。數(shù)據(jù)轉(zhuǎn)換可實現(xiàn)統(tǒng)一的目標數(shù)據(jù)格式,達到對不同數(shù)據(jù)指標進行轉(zhuǎn)換計算的目的。根據(jù)預(yù)處理原則,對礦山大數(shù)據(jù)進行語義關(guān)聯(lián)分析、數(shù)據(jù)庫表關(guān)聯(lián)分析及標簽體系分析等;采用 ETL技術(shù)對采集的礦山數(shù)據(jù)進行抽取、清洗、轉(zhuǎn)換及數(shù)據(jù)加載,為礦山大數(shù)據(jù)的價值挖掘提供高質(zhì)量數(shù)據(jù)。
c.數(shù)據(jù)存儲。數(shù)據(jù)存儲是數(shù)據(jù)處理的基礎(chǔ),隨著數(shù)據(jù)規(guī)模的擴大,特別是大數(shù)據(jù)的出現(xiàn),對數(shù)據(jù)存儲的要求發(fā)生了根本性變化。數(shù)據(jù)存儲一般可采用2種技術(shù)架構(gòu):一是基于集群和大規(guī)模并行數(shù)據(jù)庫技術(shù)的存儲架構(gòu),支持 SQL 和OLTP查詢,可對結(jié)構(gòu)化海量數(shù)據(jù)實現(xiàn)存儲和管理,如Oracle系統(tǒng);二是基于分布式文件系統(tǒng)實現(xiàn)半結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的存儲管理,如采用基于HDFS的Redis、HBase存儲系統(tǒng)。礦山大數(shù)據(jù)多源異構(gòu)復(fù)雜,存在海量的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),故分布式存儲將成為主要的存儲方式;當(dāng)前主要采用基于Hadoop集群技術(shù)的分布式存儲架構(gòu),充分發(fā)揮低價格服務(wù)器組成集群的高可靠、高擴展性特點,能夠顯著提升系統(tǒng)的容量和讀寫性能。
d.數(shù)據(jù)處理(分析與挖掘)。礦山大數(shù)據(jù)應(yīng)用的關(guān)鍵環(huán)節(jié)就是對大數(shù)據(jù)進行分析與挖掘。智慧礦山的海量數(shù)據(jù)經(jīng)采集與數(shù)據(jù)集成,再對數(shù)據(jù)的信息和知識進行提取,通過數(shù)據(jù)挖掘、機器學(xué)習(xí)和統(tǒng)計分析等技術(shù)對高質(zhì)量的規(guī)格化多源異構(gòu)數(shù)據(jù)進行分析和處理,獲取高價值的信息和知。目前,數(shù)據(jù)分析與挖掘主要采用了關(guān)聯(lián)分析、分類分析和聚類分析等多種常規(guī)的大數(shù)據(jù)分析方法。針對不同的業(yè)務(wù)需求,礦山大數(shù)據(jù)應(yīng)用場景區(qū)別較大,應(yīng)用場景的不同對大數(shù)據(jù)處理的需求也不同。礦山大數(shù)據(jù)處理技術(shù)可采用實時處理、離線處理、實時檢索和交互查詢等方法。實時處理是針對礦山實時數(shù)據(jù)源開展的一種快速處理技術(shù),如機電設(shè)備狀態(tài)數(shù)據(jù)監(jiān)測,它對分析處理的實時性要求高,處理的數(shù)據(jù)流量大,對系統(tǒng)處理能力要求高。離線處理一般是對靜態(tài)海量數(shù)據(jù)的批處理,如礦山積累的大量原始數(shù)據(jù),實時性要求不高,但數(shù)據(jù)量巨大,一般需要較大的工作量和更多計算資源和存儲資源的支持。實時檢索是指對寫入的數(shù)據(jù)進行實時動態(tài)查詢,如礦工定位信息的采集與查詢,對查詢響應(yīng)時間提出了較高要求,一般都需要具備高并發(fā)查詢能力。交互查詢是另一種實時查詢方式,采用交互式的數(shù)據(jù)分析和查詢,響應(yīng)時間要求高,并且對查詢語言支持要求高。
e.數(shù)據(jù)可視化。數(shù)據(jù)可視化就是將大數(shù)據(jù)分析結(jié)果展示出來,方便用戶直觀高效地獲得高價值信息;借助圖表、2D及3D視圖等方式反映出數(shù)據(jù)各維度指標的變化趨勢,可獲知智慧礦山中的動態(tài)變化量并進行多維度、多層次和多模式的態(tài)勢預(yù)估,呈現(xiàn)各數(shù)據(jù)項之間的相關(guān)性[15]。
礦山大數(shù)據(jù)平臺是集礦山數(shù)據(jù)融合和數(shù)據(jù)采集與接入、預(yù)處理、存儲、計算與分析、可視化應(yīng)用于一體的綜合應(yīng)用系統(tǒng),形成統(tǒng)一的IPO數(shù)據(jù)處理模式,承載著大數(shù)據(jù)生命周期的全過程;通過對礦山大數(shù)據(jù)的深度挖掘,為智慧礦山建設(shè)獲取高價值信息提供可靠支撐[16]?;?Hadoop 分布式處理架構(gòu)的大數(shù)據(jù)平臺已得到了普遍應(yīng)用,系統(tǒng)架構(gòu)較為成熟,根據(jù)礦山大數(shù)據(jù)特點和需求,礦山大數(shù)據(jù)應(yīng)用平臺總體上采用分層次自下而上的系統(tǒng)設(shè)計方式,六層次模型為:基礎(chǔ)數(shù)據(jù)資源層、數(shù)據(jù)采集與接入層、數(shù)據(jù)融合與預(yù)處理層、數(shù)據(jù)存儲優(yōu)化層、數(shù)據(jù)處理與分析層、數(shù)據(jù)可視化應(yīng)用層(見圖 1)。
圖1 智慧礦山大數(shù)據(jù)平臺層次模型
智慧礦山大數(shù)據(jù)平臺可為礦山大數(shù)據(jù)融合分析提供基礎(chǔ)數(shù)據(jù)存儲與處理能力。
智慧礦山大數(shù)據(jù)平臺是采用大數(shù)據(jù)分布式集群技術(shù)架構(gòu),以 Hadoop技術(shù)生態(tài)為基礎(chǔ)的數(shù)據(jù)計算平臺體系,通過一系列數(shù)據(jù)處理、分析和應(yīng)用,實現(xiàn)對礦山海量數(shù)據(jù)的全面分析、挖掘和提煉。礦山大數(shù)據(jù)平臺的應(yīng)用涉及眾多技術(shù),從數(shù)據(jù)的采集、存儲、處理與分析到最后的可視化展示,其中最關(guān)鍵的技術(shù)是大數(shù)據(jù)計算與分析技術(shù)[17]。
2.2.1 大數(shù)據(jù)平臺計算技術(shù)
礦山大數(shù)據(jù)平臺是海量數(shù)據(jù)存儲與計算平臺,基于HDFS分布式存儲架構(gòu),在YARN的統(tǒng)一協(xié)調(diào)控制下,礦山海量數(shù)據(jù)存儲于面向列的高性能分布式數(shù)據(jù)庫Hbase;采用 Hive 對抽取的礦山業(yè)務(wù)數(shù)據(jù)進行計算,通過Impala提高大數(shù)據(jù)平臺的計算效率,實現(xiàn)對多種業(yè)務(wù)數(shù)據(jù)的高效計算?;诜植际郊杭夹g(shù)搭建平臺進行部署與計算,保障礦山大數(shù)據(jù)平臺具有良好的計算能力,并具有較好的伸縮性和擴展性[17]。
礦山大數(shù)據(jù)平臺面向礦山多種形態(tài)的業(yè)務(wù)場景,不同的業(yè)務(wù)場景需要不同的數(shù)據(jù)計算方式。大數(shù)據(jù)平臺計算框架主要有針對靜態(tài)數(shù)據(jù)的批處理框架、針對流式數(shù)據(jù)的流處理框架、針對交互式計算的處理框架和混合處理框架 Lambda等[18-19]。隨著礦山數(shù)據(jù)的爆發(fā)式增長,高效快速處理數(shù)據(jù)已成為礦山面臨的迫切問題,如礦山各管理系統(tǒng)和監(jiān)測系統(tǒng)等,積累了海量原始數(shù)據(jù),可采用基于MapReduce編程模型的批計算方法,該方法主要針對大數(shù)據(jù)的線下批處理,計算效率不高,導(dǎo)致處理復(fù)雜計算的大數(shù)據(jù)問題時的時延過大。Spark是一種高效的基于分布式內(nèi)存的批處理計算框架,兼容HDFS分布式存儲訪問接口,通過DAG提供了一種靈活的計算流圖,充分利用內(nèi)存來存放中間計算過程和結(jié)果數(shù)據(jù),大幅提高了迭代計算程序的計算能力;由于Spark計算能力的提高,其亦適用于交互式計算環(huán)境。礦山生產(chǎn)中存在大量實時性要求較高的應(yīng)用場景,大量數(shù)據(jù)實時采集并要求實時處理和反饋,具有較高的時效性,如礦山機電設(shè)備狀態(tài)監(jiān)測系統(tǒng)、采礦環(huán)境參數(shù)監(jiān)測系統(tǒng)等,要求大數(shù)據(jù)平臺具有良好的實時流計算能力?;贖DFS的流式處理框架主要有Spark Streaming、Storm和Flink等。Spark Streaming是構(gòu)建在Spark基礎(chǔ)上的流式大數(shù)據(jù)處理框架,對Spark核心API進行了擴展,本質(zhì)上是微批處理,采用分割實時數(shù)據(jù)流的方式,通過把切割的數(shù)據(jù)發(fā)送到Spark Engine中進行處理來實現(xiàn),具有吞吐量大、容錯能力強等特點。Storm是十分成熟的流計算技術(shù),簡稱為實時版 Hadoop,是針對MapReduce 高延時提出的一種實時處理解決方案。Flink是以數(shù)據(jù)并行和流水線方式處理的流計算技術(shù),F(xiàn)link 在流水線運行時,同時可以執(zhí)行批處理和流處理程序;另外,F(xiàn)link 在執(zhí)行時,其本身也支持迭代算法。
2.2.2 大數(shù)據(jù)分析技術(shù)
智慧礦山大數(shù)據(jù)平臺的核心是對海量數(shù)據(jù)的分析與挖掘,其最大特點是脫離復(fù)雜的物理機理,擺脫物理特性帶來的復(fù)雜性。礦山環(huán)境十分復(fù)雜,各種物理機理難以全面掌握,因此利用大數(shù)據(jù)分析技術(shù)對礦山的歷史數(shù)據(jù)和實時數(shù)據(jù)進行挖掘與分析,可獲得宏觀、多維度的時空關(guān)聯(lián)特性[3,6]。
智慧礦山大數(shù)據(jù)平臺具有較強的知識發(fā)現(xiàn)和自我學(xué)習(xí)功能,具備融合礦山各類基礎(chǔ)數(shù)據(jù)、監(jiān)控監(jiān)測數(shù)據(jù)、安全管理數(shù)據(jù)等多場景業(yè)務(wù)數(shù)據(jù),利用專家知識庫、風(fēng)險預(yù)警模型庫等,開展對礦山海量數(shù)據(jù)的挖掘與知識發(fā)現(xiàn),結(jié)合物理機理的數(shù)值計算和模擬仿真等進一步提高礦山大數(shù)據(jù)的分析能力。目前礦山大數(shù)據(jù)分析方法主要有關(guān)聯(lián)規(guī)則分析、分類分析和聚類分析等;這些分析模型及其組合被應(yīng)用在礦山多類應(yīng)用場景中,如設(shè)備故障檢測和診斷、礦山災(zāi)害預(yù)警與防治、工藝參數(shù)優(yōu)化、行業(yè)運行監(jiān)測與預(yù)測等[18]。數(shù)據(jù)關(guān)聯(lián)規(guī)則分析是通過從看似相對獨立的數(shù)據(jù)之間尋找其關(guān)聯(lián)性,以獲得某種規(guī)律和發(fā)展趨勢,通常包括Apriori和FP-Growth兩種算法[19]。Apriori算法是應(yīng)用較廣的關(guān)聯(lián)規(guī)則算法,其通過遍歷數(shù)據(jù)庫的方法來確定頻繁項集,依據(jù)設(shè)定的支持度閾值進行修剪并根據(jù)支持度計算可信度,可以確定事物之間的關(guān)聯(lián)關(guān)系。FP-Growth算法是對Apriori算法的改進,采用頻繁模式樹(FP-tree)來存儲頻繁項集,不需要產(chǎn)生候選集,通過減少掃描數(shù)據(jù)庫次數(shù),從而提高計算效率。分類分析方法一般包括決策樹算法、深度學(xué)習(xí)算法、人工神經(jīng)網(wǎng)絡(luò)算法和支持向量機(SVM)算法、基于規(guī)則的分類法、貝葉斯算法等。決策樹算法通過在決策樹的每個節(jié)點選取測試屬性,依據(jù)測試屬性將數(shù)據(jù)集進行劃分構(gòu)造決策樹,利用數(shù)據(jù)集的分析歸納進行學(xué)習(xí),十分適合Key-Value類型的數(shù)據(jù)分析,較為常用的算法有SLIQ、C4.5和SPRINT等。人工神經(jīng)網(wǎng)絡(luò)通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型來調(diào)整參數(shù),以使模型的表征能力最優(yōu),其特點是自主學(xué)習(xí)、容錯性高,比較適合對非線性、模糊數(shù)據(jù)的處理,較典型的模型是前饋式神經(jīng)網(wǎng)絡(luò)模型;另外,反向傳播(BP)神經(jīng)網(wǎng)絡(luò)算法通過對網(wǎng)絡(luò)的權(quán)值和偏差反復(fù)調(diào)整訓(xùn)練,使其達到或接近期望向量,但由于網(wǎng)絡(luò)初始權(quán)重和閾值具有隨機性,故存在BP神經(jīng)網(wǎng)絡(luò)收斂過慢、陷入局部最優(yōu)解的問題。深度學(xué)習(xí)是從人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來,基于樣本數(shù)據(jù)通過多層次深度網(wǎng)絡(luò)機器學(xué)習(xí),是機器學(xué)習(xí)的一個研究方向,適合圖像、語音、文本分類識別,具有對不同類型數(shù)據(jù)的處理能力。聚類分析算法主要包括基于層次、基于劃分、基于模型和基于密度的四大聚類方法。層次聚類算法采用逐層將數(shù)據(jù)分組的方法生成一個層級式的樹狀圖結(jié)構(gòu)聚類結(jié)果,可以分為聚合層次聚類和分解層次聚類:聚合層次聚類將每個個體視為一類,采用自底向上的方式逐層合并這些類;分解層次聚類將所有個體視為一類,采用自頂向下的方式逐層分割這些類,常用的算法有K-means算法等[18-19]?;诿芏染垲愃惴ㄊ窃谝粋€樣本區(qū)域中,將一定稠密程度的數(shù)據(jù)塊劃定為一個簇,具有處理任意形狀的聚類能力;通過有效排除低密度數(shù)據(jù)區(qū),找到稠密樣本點,經(jīng)典的算法有DBSCAN聚類算法。
智慧礦山建設(shè)正朝著物聯(lián)網(wǎng)應(yīng)用方向發(fā)展,大數(shù)據(jù)應(yīng)用在智慧礦山中的重要性日益凸顯,其能高效提升礦山的科學(xué)化管理水平、提高生產(chǎn)效率、降低生產(chǎn)成本,實現(xiàn)礦山開采與管理的安全、綠色、高效和智能化發(fā)展[16]。我國的礦山企業(yè)和科技工作者紛紛投入到了大數(shù)據(jù)技術(shù)應(yīng)用研究之中,如:神東煤炭集團公司的設(shè)備管理信息化采用了大數(shù)據(jù)技術(shù),提升了管理水平;榆林神華郭家灣煤礦開展了智能礦山建設(shè)項目;崔亞仲等通過智能礦山大數(shù)據(jù)關(guān)鍵技術(shù)與發(fā)展研究,分析了智能礦山大數(shù)據(jù)技術(shù)發(fā)展存在的主要問題和驅(qū)動因素,提出了智能礦山大數(shù)據(jù)應(yīng)用的關(guān)鍵技術(shù),包括數(shù)據(jù)獲取、數(shù)據(jù)集成與融合、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)解析等[6];李福興等研究了面向煤炭開采的大數(shù)據(jù)處理平臺構(gòu)建關(guān)鍵技術(shù),從煤炭大數(shù)據(jù)基本知識出發(fā),分析了煤炭大數(shù)據(jù)特征、大數(shù)據(jù)平臺架構(gòu)、關(guān)鍵技術(shù),為煤炭大數(shù)據(jù)應(yīng)用提供了寶貴的建設(shè)思路。
礦山大數(shù)據(jù)應(yīng)用是智慧礦山建設(shè)的必然要求,智慧礦山大數(shù)據(jù)技術(shù)的開發(fā)和應(yīng)用尚處在初步階段,但其應(yīng)用價值已充分體現(xiàn)。隨著礦山企業(yè)和科技人員對大數(shù)據(jù)應(yīng)用的高度重視,大數(shù)據(jù)應(yīng)用研究將大力推進礦山現(xiàn)代化建設(shè)的步伐。礦山大數(shù)據(jù)除具備大數(shù)據(jù)的基本特征外還具有其行業(yè)特點,其應(yīng)用場景復(fù)雜、數(shù)據(jù)多源異構(gòu)、處理要求高。針對礦山的復(fù)雜性,大數(shù)據(jù)分析需結(jié)合物理機理來提高大數(shù)據(jù)分析的準確性,在構(gòu)建礦山大數(shù)據(jù)平臺的基礎(chǔ)上,大數(shù)據(jù)處理與分析技術(shù)是礦山大數(shù)據(jù)應(yīng)用的關(guān)鍵和核心。