葉發(fā)旺,蔡煜琦,李瀚波,邱駿挺,王建剛
(1.核工業(yè)北京地質(zhì)研究院,遙感信息與圖像分析技術(shù)國家級(jí)重點(diǎn)實(shí)驗(yàn)室,北京100029;2.核工業(yè)北京地質(zhì)研究院,中核集團(tuán)鈾資源勘查與評(píng)價(jià)技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京100029)
大數(shù)據(jù)正以一種顛覆性的技術(shù)革命影響著世界各個(gè)領(lǐng)域的各行各業(yè)。鈾資源作為國家戰(zhàn)略資源,無論是在地質(zhì)礦產(chǎn)領(lǐng)域還是軍事裝備領(lǐng)域都具有特殊性。以鈾資源勘查為主的核地質(zhì)領(lǐng)域正積極以大數(shù)據(jù)應(yīng)用為契機(jī),開展新一輪的技術(shù)創(chuàng)新,逐步形成大數(shù)據(jù)理念下的鈾資源勘查新技術(shù)方法,以獲得更快、更準(zhǔn)、更具高價(jià)值的鈾資源勘查效果。筆者從鈾資源勘查領(lǐng)域的特點(diǎn)出發(fā),對(duì)鈾資源勘查大數(shù)據(jù)技術(shù)創(chuàng)新研究與應(yīng)用的框架思路進(jìn)行了探討。
目前國內(nèi)外學(xué)者對(duì)大數(shù)據(jù)的定義及特征還沒有統(tǒng)一的認(rèn)識(shí),各行各業(yè)也只是跟隨使用。麥肯錫咨詢公司將大數(shù)據(jù)定義為一種規(guī)模大到在獲取、存儲(chǔ)、管理、處理方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合”[1];美國權(quán)威研究機(jī)構(gòu)Gartner和百度百科將大數(shù)據(jù)定義為 “是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)”[2];維基百科對(duì)大數(shù)據(jù)的定義是 “所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時(shí)間內(nèi)截取、管理和處理,并整理成為人類所能解讀的信息”[3];《大數(shù)據(jù)傻瓜書》對(duì)大數(shù)據(jù)概念是 “大數(shù)據(jù)并不是一項(xiàng)單獨(dú)的技術(shù),而是新、舊技術(shù)的一種組合”[4]。從上述國際上幾種比較權(quán)威的觀點(diǎn)可以看出,大數(shù)據(jù)的定義中包含了多個(gè)層次的內(nèi)涵,即大數(shù)據(jù)首先是巨量數(shù)據(jù),其次是當(dāng)前沒有或還需要研究的新技術(shù),再次是決策。所以,應(yīng)該從數(shù)據(jù)、技術(shù)、應(yīng)用三個(gè)層面來全面理解大數(shù)據(jù)的內(nèi)涵。
1.1.1 數(shù)據(jù)層面
是指大數(shù)據(jù)具有明顯的5V特征 (目前說法不一, 但大多傾向于 4V 或 5V 特征)[2,5-6],即大數(shù)據(jù)主要 “大”在體量 (Volume)、多樣(Variety)、 速度(Velocity)、 真實(shí)(Veracity)、 價(jià)值(Value)5個(gè)方面。與以往的海量數(shù)據(jù)相比,大數(shù)據(jù)不僅強(qiáng)調(diào)數(shù)據(jù)規(guī)模巨大,而且數(shù)據(jù)內(nèi)涵與屬性更廣、類型更多、數(shù)據(jù)采集速度快速、網(wǎng)絡(luò)化、時(shí)效性高;數(shù)據(jù)更加真實(shí)客觀而少被人們主觀污染;單個(gè)數(shù)據(jù)價(jià)值小,但發(fā)現(xiàn)規(guī)律和決策后獲得價(jià)值巨大。從上述數(shù)據(jù)層面的特征來看,大數(shù)據(jù)本質(zhì)上還是數(shù)據(jù),是海量數(shù)據(jù)的發(fā)展,是各種類型傳感器和計(jì)算機(jī)、網(wǎng)絡(luò)、云技術(shù)、分布式計(jì)算與存儲(chǔ)技術(shù)的廣泛應(yīng)用和運(yùn)算能力極速進(jìn)步而產(chǎn)生的概念發(fā)展和取代。
1.1.2 技術(shù)層面
是指從數(shù)據(jù)采集、存貯、管理、處理、挖掘到形成結(jié)果的整個(gè)過程中涉及的各種技術(shù)方法統(tǒng)稱大數(shù)據(jù)技術(shù),是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。缺了數(shù)據(jù),技術(shù)發(fā)揮失去了基礎(chǔ);沒有技術(shù),數(shù)據(jù)則難以上升為認(rèn)知與規(guī)律,實(shí)現(xiàn)不了更高的價(jià)值。因此,大數(shù)據(jù)技術(shù)是數(shù)據(jù)與技術(shù)的有機(jī)結(jié)合。大數(shù)據(jù)時(shí)代,數(shù)據(jù)將與云計(jì)算深度結(jié)合,實(shí)現(xiàn)巨量數(shù)據(jù)分布式存貯、分布式數(shù)據(jù)挖掘和智能化處理。當(dāng)前,與大數(shù)據(jù)密切相關(guān)的技術(shù)主要包括:大規(guī)模并行處理、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)等[2]。從戰(zhàn)略角度上說,大數(shù)據(jù)的價(jià)值不在于龐大的數(shù)據(jù)信息本身,而在于對(duì)數(shù)據(jù)進(jìn)行專業(yè)化處理,完成數(shù)據(jù) “提純”,從而實(shí)現(xiàn)數(shù)據(jù) “增值”。所以,數(shù)據(jù)挖掘技術(shù)是大數(shù)據(jù)技術(shù)的關(guān)鍵之關(guān)鍵,是與云計(jì)算密不可分的分布式的數(shù)據(jù)挖掘技術(shù),必須采用分布式架構(gòu)和依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫和云存儲(chǔ)、虛擬化技術(shù)等。
1.1.3 應(yīng)用層面
是指大數(shù)據(jù)應(yīng)用,是大數(shù)據(jù)技術(shù)在各行各業(yè)的應(yīng)用過程。其本質(zhì)是對(duì)分布式存儲(chǔ)的多源巨量數(shù)據(jù)通過高性能運(yùn)算環(huán)境,采用一定的數(shù)據(jù)分析及挖掘方法,獲取有價(jià)值的信息,尤其是預(yù)測(cè)信息,最終體現(xiàn)大數(shù)據(jù)價(jià)值。大數(shù)據(jù)應(yīng)用涉及數(shù)據(jù)采集—數(shù)據(jù)存貯-數(shù)據(jù)清洗與讀取—數(shù)據(jù)挖掘-高性能計(jì)算-發(fā)現(xiàn)規(guī)律-決策等過程,具體表現(xiàn)為:先用軟件處理各種原始數(shù)據(jù),并將得到的信息或知識(shí)存儲(chǔ)在計(jì)算機(jī)中;然后基于數(shù)據(jù)編寫程序,利用各種高性能計(jì)算機(jī)對(duì)海量信息進(jìn)行處理和機(jī)智能化(機(jī)器學(xué)習(xí)、人工智能)數(shù)據(jù)挖掘,尋找隱藏在數(shù)據(jù)中的關(guān)聯(lián),從而發(fā)現(xiàn)未知規(guī)律,獲取有價(jià)值的情報(bào)信息,從而進(jìn)行決策。大數(shù)據(jù)應(yīng)用需要人們以創(chuàng)新方式使用海量數(shù)據(jù),并采用人工智能技術(shù)來處理自然文本和進(jìn)行知識(shí)表述。根據(jù)應(yīng)用的不同層次,大數(shù)據(jù)應(yīng)用有互聯(lián)網(wǎng)的大數(shù)據(jù)、政府的大數(shù)據(jù)、企業(yè)的大數(shù)據(jù)和個(gè)人的大數(shù)據(jù)四個(gè)應(yīng)用級(jí)別[7],從而實(shí)現(xiàn)大數(shù)據(jù)已經(jīng)展現(xiàn)和即將實(shí)現(xiàn)的美好前景與藍(lán)圖。
總之,大數(shù)據(jù)是一場(chǎng)信息技術(shù)革命的新階段,是發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值、提升新能力的新一代信息技術(shù)革命。它不是單純的數(shù)據(jù)概念,而是巨量數(shù)據(jù)與一系新技術(shù)的結(jié)合,是當(dāng)今世界實(shí)現(xiàn)從數(shù)據(jù)—有用信息—預(yù)測(cè)的全新思路,是當(dāng)前關(guān)于數(shù)據(jù)如何采集、存貯、管理、如何數(shù)據(jù)挖掘,實(shí)現(xiàn)更高效預(yù)測(cè)、獲得更高價(jià)值的一整套技術(shù)方案。因此,大數(shù)據(jù)是涵蓋大數(shù)據(jù)特征、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用等技術(shù)內(nèi)涵的全新理念 (將來有可能形成大數(shù)據(jù)理論)。所以,認(rèn)識(shí)大數(shù)據(jù)不能簡單地等同于開放數(shù)據(jù),等同于共享數(shù)據(jù);也不能簡單地將大數(shù)據(jù)等同于海量數(shù)據(jù),因?yàn)榇髷?shù)據(jù)不僅數(shù)量上比海量數(shù)據(jù)更大、更復(fù)雜,而且還包含數(shù)據(jù)量不斷增長的狀態(tài)、以及從數(shù)據(jù)中挖掘出有價(jià)值信息的各種技術(shù)。
大數(shù)據(jù)理念無不對(duì)各行各業(yè)的技術(shù)創(chuàng)新產(chǎn)生重大而深遠(yuǎn)的影響,指導(dǎo)各行各業(yè)突破新算法、新技術(shù),形成新學(xué)科,從而挖掘巨大的新價(jià)值,為實(shí)現(xiàn)國家、企業(yè)更高的經(jīng)濟(jì)效益、社會(huì)效益、軍事效益提供了新機(jī)遇。2015年國務(wù)院印發(fā)的 《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》提出各行各業(yè)要探索大數(shù)據(jù)應(yīng)用新的模式,圍繞有數(shù)據(jù)、用數(shù)據(jù)、管數(shù)據(jù),開展先行先試,更好地服務(wù)國家大數(shù)據(jù)發(fā)展戰(zhàn)略[8]。鈾資源勘查作為國家安全和經(jīng)濟(jì)發(fā)展過程中有著特殊地位的地質(zhì)礦產(chǎn)勘查領(lǐng)域,需要在大數(shù)據(jù)理念指導(dǎo)下,開展鈾資源勘查技術(shù)創(chuàng)新,逐步形成大數(shù)據(jù)理念下的鈾資源勘查新技術(shù)方法體系,從而實(shí)現(xiàn)更快更好的鈾資源勘查效果和找礦突破,為國家安全戰(zhàn)略和經(jīng)濟(jì)發(fā)展提供重要支持。
鈾資源勘查大數(shù)據(jù)是地質(zhì)大數(shù)據(jù)的重要組成部分,是大數(shù)據(jù)理念與技術(shù)方法在鈾資源勘查領(lǐng)域的具體實(shí)踐與應(yīng)用,是 “經(jīng)過新技術(shù)處理和數(shù)據(jù)挖掘,可在鈾成礦規(guī)律和找礦預(yù)測(cè)獲得更強(qiáng)發(fā)現(xiàn)力和決策力的巨量鈾礦地質(zhì)信息資產(chǎn)”。它既具有國內(nèi)外一般大數(shù)據(jù)的特點(diǎn),又具有鈾資源勘查的特色。
鈾資源勘查大數(shù)據(jù)中的數(shù)據(jù)是通過各種鈾礦勘查技術(shù)手段獲取的直接或間接反映鈾成礦信息或鈾成礦過程的各種數(shù)據(jù)。它具有一般大數(shù)據(jù)的4V特征:1)規(guī)模性:鈾資源勘查涉及不同比例尺、不同精度的時(shí)空數(shù)據(jù),總量巨大。從前述提及的 “無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理”[3]這一點(diǎn)來說,恐怕是不言而喻的。當(dāng)前,全國鈾成礦單元有4個(gè)成礦域,11個(gè)成礦省,49個(gè)成礦區(qū)帶,共有近300多個(gè)鈾礦床,上萬個(gè)鈾礦異常點(diǎn)[9]。從鈾資源勘查大數(shù)據(jù)之一的遙感數(shù)據(jù)來看,其數(shù)據(jù)量就很大。一景空間分辨率4 m的國產(chǎn)高分二號(hào)多光譜數(shù)據(jù)達(dá)400 Mb、一景空間分辨率為1 m的國產(chǎn)高分全色波段數(shù)據(jù)達(dá)1.5 Gb;一個(gè)覆蓋20 km×1.5 km面積的空間分辨率為2.5 m、波段數(shù)為64的航空高光譜數(shù)據(jù)量達(dá)3 Gb。2)多樣性:鈾資源勘查數(shù)據(jù)包括地質(zhì)觀測(cè)數(shù)據(jù)、地球信息探測(cè)數(shù)據(jù)、實(shí)驗(yàn)測(cè)試數(shù)據(jù)等多種類數(shù)據(jù)。具體類型上有:遙感探測(cè)數(shù)據(jù)、地球物理測(cè)量數(shù)據(jù)、地球化學(xué)測(cè)量數(shù)據(jù)、地質(zhì)礦產(chǎn)調(diào)查數(shù)據(jù)、實(shí)驗(yàn)測(cè)試數(shù)據(jù)、地質(zhì)鉆探數(shù)據(jù)、地質(zhì)綜合編圖數(shù)據(jù)等。數(shù)據(jù)空間分布上涉及地球地表至地下深部的各個(gè)圈層;數(shù)據(jù)結(jié)構(gòu)上,鈾資源勘查大數(shù)據(jù)包括各種格式的矢量和柵格圖件、文檔、照片、視頻數(shù)據(jù)等、以及關(guān)系數(shù)據(jù)庫、空間數(shù)據(jù)庫和對(duì)象關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),其中既有大量結(jié)構(gòu)化數(shù)據(jù),也有許多半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),如野外露頭描述數(shù)據(jù)、鉆孔巖心描述數(shù)據(jù)和各種地質(zhì)調(diào)查、勘查報(bào)告,以及大量地質(zhì)圖件、素描和照片等。3)價(jià)值性:鈾資源勘查各種數(shù)據(jù)雖然小而碎、有的單個(gè)信息價(jià)值低,但通過數(shù)據(jù)分析和數(shù)據(jù)挖掘,可以發(fā)現(xiàn)重要找礦信息,獲得高價(jià)值。例如通過對(duì)航空高光譜遙感數(shù)據(jù)識(shí)別出來的大量礦物填圖信息與礦化信息的綜合分析和數(shù)據(jù)挖掘,可以發(fā)現(xiàn)鈾、金、銅等重要找礦新線索,從而獲得高的經(jīng)濟(jì)價(jià)值。4)高速性:鈾資源勘查領(lǐng)域的數(shù)據(jù)采集通過遙感探測(cè)、地質(zhì)調(diào)查、物化探測(cè)量、鉆探施工、化學(xué)分析、人工記錄等多種技術(shù)手段和科學(xué)探測(cè)、實(shí)驗(yàn)測(cè)試方法進(jìn)行,具有數(shù)據(jù)采集快速的特點(diǎn)。最突出的是利用衛(wèi)星、航空等探測(cè)技術(shù)手段,快速獲取高空間、高光譜分辨率的遙感信息、高精度的航空放射性等地球物理信息等。當(dāng)然,鈾資源勘查大數(shù)據(jù)中,野外實(shí)測(cè)的 “實(shí)體” 數(shù)據(jù)(都是原始數(shù)據(jù),不是 “加工”之后的數(shù)據(jù))的比重遠(yuǎn)比網(wǎng)絡(luò)世界中通過各種各樣模型計(jì)算出來或自動(dòng)記錄的數(shù)據(jù)比重更大。這一定程度上與商業(yè)上的大數(shù)據(jù)的高速性有一定的差異,這是由于地質(zhì)工作注重野外實(shí)踐、注重第一手資料采集、以及專業(yè)規(guī)范管理等特點(diǎn)決定的。
除具有上述一般大數(shù)據(jù)的4V特征外,鈾資源勘查大數(shù)據(jù)還具有數(shù)據(jù)密集型的地質(zhì)時(shí)空大數(shù)據(jù)特點(diǎn)[10]。具體表現(xiàn)在:1)鈾資源勘查地質(zhì)大數(shù)據(jù)的時(shí)空屬性。鈾礦地質(zhì)學(xué)研究的對(duì)象與采集的數(shù)據(jù)具有空間屬性,同時(shí)更具有特定的時(shí)間性,因?yàn)殁櫟V地質(zhì)數(shù)據(jù)都與地質(zhì)年代相關(guān)聯(lián),不同地質(zhì)時(shí)代和不同地區(qū)的巖石、地層、礦床等具有不同的分布特征和規(guī)律;2)鈾資源勘查地質(zhì)大數(shù)據(jù)的多源、異構(gòu)、時(shí)空性、相關(guān)性、隨機(jī)性、模糊性和非線性等特征。由于鈾礦地質(zhì)對(duì)象影響因素眾多,空間特征復(fù)雜,鈾資源勘查大數(shù)據(jù)存在著 “參數(shù)信息不完全、結(jié)構(gòu)信息不完全、關(guān)系信息不完全和演化信息不完全”[11]的狀況,顯示出數(shù)據(jù)隨時(shí)空變遷而數(shù)據(jù)特征各異、多類、多維、多量、多尺度、多時(shí)態(tài)等特征;3)鈾資源勘查地質(zhì)大數(shù)據(jù)還有因果性與非因果性的特點(diǎn)。此外,從鈾資源勘查大數(shù)據(jù)的技術(shù)特點(diǎn)來看,在數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)等技術(shù)方法上也與社會(huì)生活和商業(yè)活動(dòng)大數(shù)據(jù)存在顯著差異;在應(yīng)用實(shí)踐方面,鈾資源勘查大數(shù)據(jù)主要是為鈾礦地質(zhì)領(lǐng)域的鈾資源勘查、鈾成礦規(guī)律研究、鈾礦勘查管理與決策、以及其他相關(guān)應(yīng)用服務(wù)。
如前所說,大數(shù)據(jù)是一場(chǎng)信息技術(shù)革命的新階段。它的出現(xiàn)并存在,代表一個(gè)信息時(shí)代、一種思維方式和技術(shù)模型。這種新思維方式和新技術(shù)模型所處理的數(shù)據(jù)集合 “不是隨機(jī)樣本,而是全體數(shù)據(jù)”,所容許的數(shù)據(jù)品質(zhì) “不是精確性,而是混雜性”,所揭示的數(shù)據(jù)內(nèi)涵 “不一定是因果關(guān)系,而可能是相關(guān)關(guān)系”。這三個(gè)特點(diǎn)是長期困擾鈾礦地質(zhì)進(jìn)行成礦預(yù)測(cè)、評(píng)價(jià)、管理、決策等的難題和難點(diǎn)。大數(shù)據(jù)理論、方法和技術(shù)的引進(jìn),對(duì)于突破采樣隨機(jī)性和樣品空間狹小、大量良莠難分的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)無法利用,以及可靠的作用機(jī)理、因果關(guān)系和動(dòng)力學(xué)模型缺乏,僅憑少量觀測(cè)數(shù)據(jù)和固有模式進(jìn)行判斷、 預(yù)測(cè)等限制, 無疑有極大的好處[10]。所以,大數(shù)據(jù)理念無疑對(duì)地質(zhì)礦產(chǎn)領(lǐng)域的技術(shù)創(chuàng)新提供了更加全面的 “樣本”和方法指導(dǎo),將在促進(jìn)鈾礦地質(zhì)技術(shù)進(jìn)步和找礦突破方面產(chǎn)生重要而深遠(yuǎn)的影響。
當(dāng)前,鈾資源勘查領(lǐng)域?qū)r(shí)空數(shù)據(jù)的存貯、管理、分析,主要是基于Mapgis、Arcgis等GIS平臺(tái)進(jìn)行的。這些GIS平臺(tái)多依賴于技術(shù)提供商,無法滿足大數(shù)據(jù)條件下的鈾資源勘查應(yīng)用,需要研究開源大數(shù)據(jù)框架。同時(shí),如前所述,大數(shù)據(jù)技術(shù)是一整套技術(shù)體系,沒有一種體系架構(gòu)能完美解決所有大數(shù)據(jù)問題,需要根據(jù)實(shí)際的應(yīng)用進(jìn)行研究和開發(fā)。因此,在構(gòu)建大數(shù)據(jù)應(yīng)用環(huán)境時(shí),應(yīng)采用開放式體系結(jié)構(gòu)的混合平臺(tái)。據(jù)此,為了充分發(fā)揮鈾資源勘查地質(zhì)大數(shù)據(jù)的作用,使其適應(yīng)分布式計(jì)算和高性能計(jì)算為主的大數(shù)據(jù)環(huán)境,從鈾資源勘查大數(shù)據(jù)的特點(diǎn)出發(fā),結(jié)合一般大數(shù)據(jù)技術(shù)的優(yōu)勢(shì),鈾資源勘查大數(shù)據(jù)技術(shù)研究可采取如下框架思路(圖1):一是借鑒并采用一般大數(shù)據(jù)技術(shù)[10],二是研發(fā)和改進(jìn)適用鈾礦地質(zhì)的專業(yè)大數(shù)據(jù)技術(shù)。下面重點(diǎn)介紹借鑒并采用一般大數(shù)據(jù)技術(shù)來創(chuàng)新研究鈾資源勘查大數(shù)據(jù)技術(shù)的思路。
借鑒并采用的一般大數(shù)據(jù)技術(shù)主要有:大數(shù)據(jù)的存儲(chǔ)管理體系架構(gòu)和分析處理體系架構(gòu),大規(guī)模并行處理、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)等。
2.1.1 Hadoop大數(shù)據(jù)處理軟件框架
Hadoop是當(dāng)前大數(shù)據(jù)應(yīng)用最廣泛的開源分布式文件存儲(chǔ)系統(tǒng)及并行處理框架[12]其最核心模塊包括Hadoop核心模塊、HDFS與MapReduce[13]。 HDFS (Hadoop Distributed File System)是一種高可用、易擴(kuò)展、高性能且容錯(cuò)性強(qiáng)的分布式文件存儲(chǔ)系統(tǒng),其設(shè)計(jì)本質(zhì)上是為了大量的數(shù)據(jù)能夠橫跨成百上千臺(tái)機(jī)器,但是你看到的是一個(gè)文件系統(tǒng)而不是很多文件,從而為分布式計(jì)算存儲(chǔ)提供了底層支持。采用JAVA語言開發(fā),可以部署在多種普通的廉價(jià)機(jī)器上,以集群處理數(shù)量積達(dá)到大型主機(jī)處理性能。Hbase是基于HDFS的分布式列簇存儲(chǔ)數(shù)據(jù)庫,適用于處理半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)。Hadoop軟件架構(gòu)為大數(shù)據(jù)處理提供了強(qiáng)大的基礎(chǔ)平臺(tái)和工具。通過這個(gè)平臺(tái)和工具,從數(shù)據(jù)采集→數(shù)據(jù)預(yù)處理→數(shù)據(jù)存貯管理→數(shù)據(jù)分析/挖掘→結(jié)果展現(xiàn)的整個(gè)大數(shù)據(jù)處理流程的每個(gè)環(huán)節(jié)都有相應(yīng)的工具支持(圖 2)[14]。
圖1 鈾資源勘查大數(shù)據(jù)技術(shù)研究框架思路(據(jù)文獻(xiàn)[10]修改)Fig.1 The study framework idea of Big Data technology for uranium resource exploration (Modified after[10])
圖2 大數(shù)據(jù)平臺(tái)處理流程(引自文獻(xiàn)[14])Fig.2 Process flowchart of Big Data platform (After [14])
2.1.2 基于一般大數(shù)據(jù)技術(shù)的技術(shù)改造
Hadoop為鈾資源勘查大數(shù)據(jù)技術(shù)研究提供了強(qiáng)大的一般大數(shù)據(jù)技術(shù)支持。以Hadoop一般大數(shù)據(jù)技術(shù)為基礎(chǔ),可以對(duì)鈾礦地質(zhì)領(lǐng)域數(shù)據(jù)采集方法、數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)存貯管理方法、數(shù)據(jù)挖掘方法,數(shù)據(jù)可視化方法進(jìn)行改造。改造過程主要是從任務(wù)分解、數(shù)據(jù)分解、以及數(shù)據(jù)流分解角度,改造各種技術(shù),以適當(dāng)大數(shù)據(jù)環(huán)境,形成鈾資源勘查大數(shù)據(jù)技術(shù)。
1)鈾資源勘查數(shù)據(jù)采集方法。包括數(shù)據(jù)收集、遙感探測(cè)、物探測(cè)量、化探測(cè)量、水文調(diào)查、地質(zhì)調(diào)查、鉆孔勘探、以及其他測(cè)量。對(duì)這些方法,可以在增加批處理功能、自動(dòng)采集、實(shí)時(shí)增加等功能。
2)鈾資源勘查數(shù)據(jù)預(yù)處理方法。主要有數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)解析、數(shù)據(jù)離散等。對(duì)這些方法改造,可以增加數(shù)據(jù)自動(dòng)檢查、批處理、自動(dòng)數(shù)據(jù)解析處理、自動(dòng)數(shù)據(jù)離散化處理等。
3)鈾資源勘查數(shù)據(jù)存貯管理。為了保證大數(shù)據(jù)量、不同結(jié)構(gòu)數(shù)據(jù)的存貯和大數(shù)據(jù)讀取、寫入的快速性,數(shù)據(jù)存貯管理需要在大數(shù)據(jù)技術(shù)軟件框架下,利用不同數(shù)據(jù)模型進(jìn)行數(shù)據(jù)存貯管理,以滿足不同應(yīng)用需求。在鈾礦勘查領(lǐng)域,大數(shù)據(jù)類型多樣、數(shù)據(jù)量巨大,不僅涉及結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),而且涉及非結(jié)構(gòu)化數(shù)據(jù),而且非結(jié)構(gòu)化數(shù)據(jù)中還涉及文字、圖件、視頻、模型等。雖然結(jié)構(gòu)化數(shù)據(jù)可依靠關(guān)系型數(shù)據(jù)庫來存貯,但當(dāng)數(shù)據(jù)結(jié)構(gòu)變化太復(fù)雜時(shí),TB級(jí)數(shù)據(jù)處理速度緩慢;對(duì)于非結(jié)構(gòu)化數(shù)據(jù),雖然文件系統(tǒng)是主流的存儲(chǔ)選擇,但是在存取、索引及元數(shù)據(jù)管理上不是最優(yōu)。NoSQL非關(guān)系型數(shù)據(jù)庫,既能支持靈活的結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),又能在大數(shù)據(jù)體量下有更好的可擴(kuò)展性。同時(shí)文件系統(tǒng)也得到了發(fā)展,與對(duì)象存儲(chǔ)相映生輝,能更好地支持管理與分析。正因?yàn)镹oSQL的技術(shù)優(yōu)勢(shì),才成為了大數(shù)據(jù)條件下數(shù)據(jù)存貯管理的主要技術(shù)之一。當(dāng)前,NoSQL種類很多,但最主要有Hbase、MongoDB、Cassandra等三種[13]。Hbase正是Hadoop大數(shù)據(jù)框架中用于數(shù)據(jù)存貯管理的數(shù)據(jù)庫技術(shù),因此,將Hadoop大數(shù)據(jù)技術(shù)和其他NoSQL非關(guān)系型數(shù)據(jù)庫的緊密結(jié)合,可以更好地滿足鈾礦勘查領(lǐng)域巨量、多樣等數(shù)據(jù)存貯與快速讀寫需要。
4)鈾資源勘查數(shù)據(jù)挖掘技術(shù)。鈾資源勘查大數(shù)據(jù)挖掘技術(shù)是鈾資源勘查大數(shù)據(jù)技術(shù)研究中最重要方面。其內(nèi)涵是:在鈾礦地質(zhì)時(shí)空數(shù)據(jù)庫和數(shù)據(jù)倉庫的基礎(chǔ)上,利用統(tǒng)計(jì)學(xué)、模式識(shí)別、人工智能、集合論、模糊數(shù)學(xué)、云理論、機(jī)器學(xué)習(xí)、可視化等相關(guān)技術(shù)和方法,以及各種相關(guān)信息技術(shù)手段,從海量多類多層次的時(shí)空數(shù)據(jù)、屬性數(shù)據(jù)中提取未知的、有用的和可理解的可靠知識(shí),從而揭示出蘊(yùn)含在鈾礦地質(zhì)科學(xué)大數(shù)據(jù)背后的相關(guān)關(guān)系和演化趨勢(shì),實(shí)現(xiàn)新知識(shí)的自動(dòng)或半自動(dòng)獲取,為鈾資源勘查預(yù)測(cè)、發(fā)現(xiàn)和評(píng)價(jià)提供依據(jù)。當(dāng)前,對(duì)可用于地質(zhì)科學(xué)大數(shù)據(jù)挖掘的常用方法主要有基于概率論的數(shù)據(jù)挖掘方法,基于擴(kuò)展集合論的數(shù)據(jù)挖掘方法,基于仿生學(xué)的數(shù)據(jù)挖掘方法,文本數(shù)據(jù)的挖掘方法,以及可視化法等[10]。其中,基于概率論的數(shù)據(jù)挖掘方法是最常用的方法,如回歸分析法、因子分析法、判別分析法、聚類分析法、證據(jù)權(quán)重法、趨勢(shì)分析法、時(shí)間序列法,以及克立格分析法等。而諸如模糊數(shù)學(xué)、粗糙集理論和云模型等基于擴(kuò)展集合論的數(shù)據(jù)挖掘方法,人工神經(jīng)網(wǎng)絡(luò)法、蟻群算法和演化算法等基于仿生學(xué)的數(shù)據(jù)挖掘方法對(duì)復(fù)雜地質(zhì)信息的挖掘很有前景和價(jià)值,是需要研究的重要的數(shù)據(jù)挖掘新方法。同時(shí),文本數(shù)據(jù)挖掘方法是以非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本數(shù)據(jù)為對(duì)象的挖掘方法,當(dāng)前研究還不多,也是地質(zhì)大數(shù)據(jù)挖掘中非常關(guān)鍵的技術(shù)方法。在 Hadoop框架下的 MapReduce、Pig、 Hive、 Mahout、 Graphx等技術(shù)支持下,對(duì)上述地質(zhì)科學(xué)大數(shù)據(jù)中的各種數(shù)據(jù)挖掘方法進(jìn)行改造,可以創(chuàng)新形成鈾資源勘查大數(shù)據(jù)挖掘技術(shù)。
5)鈾資源勘查數(shù)據(jù)可視化。在鈾資源勘查過程中,常常需要對(duì)地質(zhì)現(xiàn)象和地質(zhì)過程進(jìn)行分析和地質(zhì)礦產(chǎn)資源預(yù)測(cè)評(píng)價(jià)。在分析和評(píng)價(jià)過程中,對(duì)于大量的不確定因素,要依靠研究人員本身的知識(shí)和經(jīng)驗(yàn)進(jìn)行定性理解、定量估算和關(guān)系描述。從數(shù)學(xué)邏輯角度看,這是一種半結(jié)構(gòu)化或不良結(jié)構(gòu)化甚至非結(jié)構(gòu)化問題,而數(shù)據(jù)可視化正是描述、表達(dá)和理解各種半結(jié)構(gòu)化甚至非結(jié)構(gòu)化問題的關(guān)系和模型的最佳方法和手段[10]。因此,數(shù)據(jù)可視化是鈾資源勘查大數(shù)據(jù)技術(shù)研究中的重要研究內(nèi)容。當(dāng)前,地質(zhì)領(lǐng)域,地質(zhì)時(shí)空數(shù)據(jù)可視化從應(yīng)用角度可分為表達(dá)三維可視化、分析三維可視化、過程三維可視化、設(shè)計(jì)三維可視化和決策三維可視化等五類[15]。鈾資源勘查大數(shù)據(jù)可視化技術(shù),除對(duì)表達(dá)三維可視化、分析三維可視化進(jìn)行改造外,要更加重視大數(shù)據(jù)條件下的過程三維可視化、設(shè)計(jì)三維可視化和決策三維可視化技術(shù)進(jìn)行研究,為鈾資源勘查大數(shù)據(jù)挖掘提供更多技術(shù)支持。
針對(duì)鈾資源勘查大數(shù)據(jù)特點(diǎn)及研究框架思路,鈾資源勘查大數(shù)據(jù)技術(shù)研究的關(guān)鍵問題主要有:
在鈾礦地質(zhì)勘查過程中,獲取數(shù)據(jù)的手段多樣、條件各異。因此,總是存在一些數(shù)據(jù)質(zhì)量參差不齊的情況。如果這些質(zhì)量參差不齊的數(shù)據(jù)統(tǒng)統(tǒng)進(jìn)入數(shù)據(jù)庫或數(shù)據(jù)存貯管理系統(tǒng),將對(duì)有用信息造成嚴(yán)重的干擾,從而影響后期數(shù)據(jù)挖掘的效率和精準(zhǔn)度,進(jìn)而影響鈾成礦預(yù)測(cè)、鈾成礦規(guī)律等數(shù)據(jù)挖掘結(jié)果的可靠性和價(jià)值。因此,數(shù)據(jù)清洗技術(shù)是鈾礦勘查大數(shù)據(jù)技術(shù)研究中最首要關(guān)鍵技術(shù)。這一技術(shù)主要是對(duì)各種鈾礦勘查數(shù)據(jù)進(jìn)行清洗,包括消除重復(fù)數(shù)據(jù)、消除噪聲、遺漏數(shù)據(jù)處理、數(shù)據(jù)類型轉(zhuǎn)換、連續(xù)數(shù)據(jù)的離散化、空值的替代、數(shù)據(jù)子集的隨機(jī)抽取等,從而把數(shù)據(jù)處理成適合于數(shù)據(jù)挖掘的形式,并在數(shù)據(jù)選擇的基礎(chǔ)上對(duì)挖掘數(shù)據(jù)作進(jìn)一步的約簡處理,以減少內(nèi)存資源和處理時(shí)間,使挖掘更有效。
為了研究鈾成礦作用、成礦機(jī)理和成礦預(yù)測(cè),需要對(duì)研究區(qū)地上和地下等具有不同時(shí)空特點(diǎn)和屬性特點(diǎn)數(shù)據(jù)的一體化采集、存儲(chǔ)、管理和處理,以便從系統(tǒng)的角度,進(jìn)行各種分析;同時(shí),由于地質(zhì)體、地質(zhì)結(jié)構(gòu)和地質(zhì)過程的極端復(fù)雜性、不可見性和數(shù)據(jù)采集的抽樣方式,導(dǎo)致出現(xiàn)前述的 “結(jié)構(gòu)信息不全、關(guān)系信息不全、參數(shù)信息不全、演化信息不全”的狀況,從而需要對(duì)地質(zhì)數(shù)據(jù)進(jìn)行三維、動(dòng)態(tài)的可視化建模,以便形象、直觀地感知地質(zhì)對(duì)象并提高認(rèn)知能力和水平。所以,研究和開發(fā)能夠有效支持結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)一體化、靜態(tài)數(shù)據(jù)與動(dòng)態(tài)數(shù)據(jù)一體化的鈾礦地質(zhì)多屬性、多態(tài)數(shù)據(jù)一體化存貯管理技術(shù),就顯得十分的必要和重要。因?yàn)?,這一存貯管理技術(shù)為實(shí)現(xiàn)地質(zhì)數(shù)據(jù)的三維動(dòng)態(tài)可視化提供重要支持。
為了實(shí)現(xiàn)鈾礦地質(zhì)大數(shù)據(jù)的高效管理、調(diào)度和應(yīng)用,還需要發(fā)展完善的高效時(shí)空索引技術(shù)。但在目前的時(shí)空數(shù)據(jù)庫中,通常缺失并行時(shí)空索引的一體化與時(shí)空索引結(jié)構(gòu)并行化,嚴(yán)重阻礙了大數(shù)據(jù)時(shí)代時(shí)空數(shù)據(jù)庫中分布式并行緩存機(jī)制、并行預(yù)調(diào)度與調(diào)度機(jī)制、四維時(shí)空數(shù)據(jù)快速檢索調(diào)度、大規(guī)模時(shí)空分析等一系列瓶頸問題的有效解決。因此,在鈾礦勘查大數(shù)據(jù)技術(shù)研究中,探索研究和開發(fā)時(shí)空索引分布式和并行化一體的時(shí)空并行分布檢索技術(shù),就顯得十分關(guān)鍵和重要。從技術(shù)上看,國內(nèi)外提出的分布式并行時(shí)空索引(DPSI)多層次理論架構(gòu)和基于間隔關(guān)系算子的并行時(shí)空索引(IPSI)方法,突破了高維度下樹形索引層次結(jié)構(gòu)的局限性,實(shí)現(xiàn)了主從模式下的分布式并行時(shí)空索引(MSDPSI),以及對(duì)等模式下的分布式并行時(shí)空索引(PPDPSI)。這些成果顯著提升了分布式并行計(jì)算環(huán)境下的數(shù)據(jù)并行時(shí)空索引性能,能夠?yàn)殁櫟V地質(zhì)大數(shù)據(jù)時(shí)空并行分布索引技術(shù)的研究提供重要技術(shù)支持。
鈾成礦預(yù)測(cè)是研究鈾資源勘查大數(shù)據(jù)技術(shù)的最重要目標(biāo)。因此,基于鈾資源勘查大數(shù)據(jù)的成礦預(yù)測(cè)技術(shù)是重要的關(guān)鍵技術(shù)。國內(nèi)有不少學(xué)者提出了大數(shù)據(jù)下礦產(chǎn)資源預(yù)測(cè)思路[16-17]。當(dāng)前的鈾礦預(yù)測(cè)方法,無論是定性或定量方法,大多是根據(jù)典型礦床的勘探資料,從成礦規(guī)律研究揭示的因果關(guān)系理論出發(fā),抽提出若干個(gè)特征性的 “找礦標(biāo)志”,形成一種 “成因模型”或 “成礦模式”,然后用這種 “模型”進(jìn)行礦床預(yù)測(cè)。這種方法一開始是行之有效的。但是,隨著淺表的、易于發(fā)現(xiàn)的礦床陸續(xù)被找到后,這些 “成因模型”的局限性也逐步顯露出來[10]。利用這種 “成因模型”在已知礦床范圍及外圍進(jìn)行就礦找礦是有效的,但在廣闊的未知區(qū)找礦,這種方法有時(shí)顯得無從下手。在這種情況下,追求 “相關(guān)關(guān)系”而不是追求 “因果關(guān)系”的礦床統(tǒng)計(jì)預(yù)測(cè)方法[17]、 多重分析預(yù)測(cè)方法[18]又被不少研究者所重視。不同物質(zhì)之間存在著各種各樣的相關(guān)關(guān)系,因果關(guān)系只是相關(guān)關(guān)系中的一種,不是只有因果關(guān)系才重要[19],有時(shí)除因果關(guān)系之外的其他相關(guān)關(guān)系也很重要;通過其他相關(guān)關(guān)系的研究和發(fā)現(xiàn)也能產(chǎn)生價(jià)值。面對(duì)找礦的新領(lǐng)域、新類型和新深度,可用于建模的相關(guān)知識(shí)更加有限,為了發(fā)現(xiàn)新的知識(shí),認(rèn)識(shí)新的成礦規(guī)律,我們需要使用的是全部的原始記錄數(shù)據(jù),而不是人為抽取的少量特征數(shù)據(jù)。所以,大數(shù)據(jù)應(yīng)用中,因果分析和相關(guān)分析都十分重要[19]。鈾成礦預(yù)測(cè)不僅要對(duì) “成因模型”或 “成礦模式”等因果關(guān)系加強(qiáng)創(chuàng)新研究,更要充分吸收模糊數(shù)學(xué)、粗糙集理論、云模型、人工神經(jīng)網(wǎng)絡(luò)法、蟻群算法等數(shù)據(jù)挖掘新方法,從鈾資源勘查取得的原始記錄數(shù)據(jù)出發(fā),創(chuàng)新研究基于相關(guān)分析的鈾資源勘查找礦預(yù)測(cè)新技術(shù)。這是鈾礦勘查領(lǐng)域大數(shù)據(jù)技術(shù)研究的關(guān)鍵之關(guān)鍵。
大數(shù)據(jù)的一個(gè)重要特點(diǎn)是非結(jié)構(gòu)化數(shù)據(jù)越來越重要。在鈾礦勘查領(lǐng)域,以往的鈾成礦規(guī)律分析和成礦預(yù)測(cè)也主要是利用結(jié)構(gòu)化數(shù)據(jù)。對(duì)描述性的非結(jié)構(gòu)化數(shù)據(jù),通常只從中提取少量的 “特征參數(shù)”,并由此建立各種認(rèn)知模式進(jìn)行判斷和預(yù)測(cè),非結(jié)構(gòu)化數(shù)據(jù)的利用很不充分。在大數(shù)據(jù)理念下,如何利用以非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)新知識(shí),提取新規(guī)律,為提高鈾資源勘查效果是鈾資源勘查大數(shù)據(jù)技術(shù)研究中非常重要的問題。因此,鈾礦勘查文本數(shù)據(jù)挖掘技術(shù)研究,對(duì)鈾資源勘查大數(shù)據(jù)研究非常重要且關(guān)鍵。
鈾礦地質(zhì)數(shù)據(jù)可視化技術(shù)是鈾資源勘查大數(shù)據(jù)應(yīng)用中的重要關(guān)鍵技術(shù)之一。從應(yīng)用角度出發(fā),鈾資源勘查數(shù)據(jù)可視化可分為表達(dá)三維可視化、分析三維可視化、過程三維可視化、設(shè)計(jì)三維可視化和決策三維可視化五類[15]。表達(dá)可視化是以圖形或圖像形式在屏幕或其他介質(zhì)上顯示出來,大多數(shù)可視化屬于這種類型;分析可視化是在可視化環(huán)境中進(jìn)行的各種地質(zhì)空間決策分析,是空間決策支持認(rèn)知過程可視化的核心,主要是借助GIS功能開展的,也是鈾礦地質(zhì)勘查中研究較多的可視化;過程可視化是指在體三維環(huán)境中,開展各種地質(zhì)過程的可視化動(dòng)態(tài)模擬,以及地質(zhì)作用的可視化虛擬仿真,是使三維靜態(tài)地質(zhì)模型轉(zhuǎn)變?yōu)樗木S動(dòng)態(tài)地質(zhì)模型的關(guān)鍵步驟[15],鈾礦地質(zhì)研究中,可視化虛擬仿真,就是要實(shí)現(xiàn)鈾成礦過程或作用的三維至四維的仿真模擬,這方面研究還很少或剛開始,加強(qiáng)這方面研究,對(duì)鈾成礦理論創(chuàng)新具有重要的技術(shù)支持作用;設(shè)計(jì)可視化是在體三維可視化環(huán)境中進(jìn)行各種地質(zhì)工程設(shè)計(jì);決策可視化是在體三維乃至四維可視化環(huán)境中,進(jìn)行礦產(chǎn)資源潛力或成礦地質(zhì)條件評(píng)價(jià)、礦產(chǎn)資源勘查、開發(fā)等多方案比較、選優(yōu)與制定,是鈾資源三維定型、定深、定量預(yù)測(cè)的關(guān)鍵技術(shù)??傊?,只有實(shí)現(xiàn)了上述各種可視化,才能夠進(jìn)行更好地進(jìn)行鈾資源勘查大數(shù)據(jù)挖掘。因此,需要努力創(chuàng)新研究與攻關(guān)。
鈾資源勘查地質(zhì)云(鈾礦地質(zhì)云)平臺(tái)構(gòu)建,是鈾資源勘查大數(shù)據(jù)技術(shù)應(yīng)用的目標(biāo)之一,也是鈾資源勘查領(lǐng)域進(jìn)行大數(shù)據(jù)應(yīng)用的重要支持平臺(tái)。它是充分利用地質(zhì)、礦產(chǎn)、地球物理、地球化學(xué)、遙感、水文、環(huán)境、災(zāi)害、地形、地貌等各種地質(zhì)調(diào)查數(shù)據(jù),在研發(fā)的各種大數(shù)據(jù)技術(shù)支持下,通過數(shù)據(jù)采集、數(shù)據(jù)傳輸、信息提取、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)等手段,構(gòu)建的基于鈾礦地質(zhì)大數(shù)據(jù)的云平臺(tái)。利用這個(gè)平臺(tái),實(shí)現(xiàn)從鈾礦地質(zhì)數(shù)據(jù)到信息、信息到知識(shí)、知識(shí)到智慧的數(shù)據(jù)開發(fā)與信息轉(zhuǎn)換,服務(wù)于鈾資源預(yù)測(cè)評(píng)價(jià)、鈾礦地質(zhì)基礎(chǔ)研究、鈾礦勘查項(xiàng)目管理、鈾礦勘查決策、以及其他需要的應(yīng)用。鈾資源勘查地質(zhì)云平臺(tái)的構(gòu)建,使得鈾礦地質(zhì)專業(yè)人才不需太關(guān)注內(nèi)部計(jì)算架構(gòu)就能通過瀏覽器或者應(yīng)用程序界面,提交計(jì)算任務(wù)或者服務(wù)請(qǐng)求,從而大大增加鈾礦地質(zhì)數(shù)據(jù)的使用效率,使鈾礦地質(zhì)數(shù)據(jù)攜帶的信息在相關(guān)應(yīng)用領(lǐng)域創(chuàng)造更多價(jià)值。
在地質(zhì)領(lǐng)域,大數(shù)據(jù)應(yīng)用已開展了一些研究,如中國地質(zhì)調(diào)查局已開展了 “地質(zhì)云”建設(shè)[20-23],并在 “地質(zhì)云”平臺(tái)的框架下,初步形成了地質(zhì)調(diào)查信息服務(wù)集群體系,以充分利用大數(shù)據(jù)技術(shù)服務(wù)國家地質(zhì)公益事業(yè)。同時(shí),中國地質(zhì)調(diào)查局已經(jīng)開始從大數(shù)據(jù)的角度對(duì)典型礦床、重要礦種的潛力評(píng)價(jià)開展試點(diǎn)示范[24-25]。在核地質(zhì)系統(tǒng),現(xiàn)已有一些項(xiàng)目開始涉及大數(shù)據(jù)技術(shù)研究,一些學(xué)者也在思考了大數(shù)據(jù)時(shí)代下的鈾礦勘查數(shù)字化發(fā)展[26]。然而,由于鈾資源對(duì)國家安全和能源的戰(zhàn)略地位、以及資料保密等原因,鈾資源勘查領(lǐng)域各種數(shù)據(jù)的存儲(chǔ)、共享、復(fù)用等還停留在較低水平,鈾資源勘查大數(shù)據(jù)應(yīng)用研究也才剛剛開始。
大數(shù)據(jù)應(yīng)用是一個(gè)長期的系統(tǒng)工程,不是一蹴而就的,而是逐步實(shí)現(xiàn)的。因此,應(yīng)本著 “立足現(xiàn)實(shí),著眼未來”和 “從長遠(yuǎn)和全局著眼,從當(dāng)前和局部入手”的基本原則進(jìn)行大數(shù)據(jù)技術(shù)研究和應(yīng)用。針對(duì)鈾資源勘查領(lǐng)域的特殊性,鈾資源勘查大數(shù)據(jù)技術(shù)研究與應(yīng)用可分步分階段來實(shí)施。
第一階段 (2016—2020),全面理解和分析大數(shù)據(jù)內(nèi)涵,建立完整的鈾資源勘查大數(shù)據(jù)應(yīng)用技術(shù)體系與技術(shù)發(fā)展路線圖,初步突破鈾資源勘查大數(shù)據(jù)存貯管理技術(shù)、用于成礦預(yù)測(cè)的數(shù)據(jù)挖掘新技術(shù)等關(guān)鍵技術(shù),取得鈾資源勘查大數(shù)據(jù)技術(shù)的階段重要進(jìn)展;第二階段 (2021—2025),構(gòu)建局域網(wǎng)環(huán)境下的鈾資源勘查大數(shù)據(jù)應(yīng)用平臺(tái) (鈾礦地質(zhì)云),突破完全適合于大數(shù)據(jù)環(huán)境下的分布式計(jì)算、分布式數(shù)據(jù)挖掘、數(shù)據(jù)可視化等關(guān)鍵技術(shù),實(shí)現(xiàn)鈾資源勘查大數(shù)據(jù)應(yīng)用示范;第三階段(2026—2030)系統(tǒng)完善鈾資源勘查大數(shù)據(jù)應(yīng)用平臺(tái),進(jìn)一步突破智能找礦預(yù)測(cè)、智能資源評(píng)價(jià)、三維-四維可視化等關(guān)鍵技術(shù),全面實(shí)施鈾資源勘查大數(shù)據(jù)戰(zhàn)略,并積極向其他領(lǐng)域拓展,促進(jìn)核地質(zhì)行業(yè)走向真正的大數(shù)據(jù)時(shí)代。
大數(shù)據(jù)研究和應(yīng)用是一個(gè)系統(tǒng)工程,不同行業(yè)不同學(xué)者對(duì)大數(shù)據(jù)的理解和認(rèn)識(shí)不一[27],從而影響大數(shù)據(jù)應(yīng)用實(shí)施的決策。對(duì)鈾資源勘查領(lǐng)域來說,大數(shù)據(jù)應(yīng)用不只是部分科研人員需要思考的問題,也是管理者、決策者需要考慮的問題。通過加強(qiáng)技術(shù)研討,使核地質(zhì)行業(yè)對(duì)大數(shù)據(jù)及大數(shù)據(jù)應(yīng)用實(shí)施的理解有一個(gè)比較清晰、相對(duì)統(tǒng)一的認(rèn)識(shí),從而加強(qiáng)頂層設(shè)計(jì)和項(xiàng)目規(guī)劃,項(xiàng)目落實(shí),使鈾資源勘查大數(shù)據(jù)應(yīng)用研究能夠有計(jì)劃、有步驟的實(shí)施。同時(shí),在頂層設(shè)計(jì)的基礎(chǔ)上,需要圍繞鈾資源勘查及相關(guān)應(yīng)用急需,有針對(duì)性地開展重點(diǎn)研究,取得關(guān)鍵點(diǎn)上的技術(shù)突破。
大數(shù)據(jù)技術(shù)體系中包括許多新技術(shù)新方法,尤其是在信息挖掘和找礦預(yù)測(cè)方面更是如此。大數(shù)據(jù)使精細(xì)刻畫成為了可能,使“智能學(xué)習(xí)”變成了可能[28],要加強(qiáng)大數(shù)據(jù)與人工智能的結(jié)合[29-30],使鈾資源勘查大數(shù)據(jù)技術(shù)研究實(shí)現(xiàn)從一般的大數(shù)據(jù)應(yīng)用,升級(jí)為高度智能化和自主化的系統(tǒng),創(chuàng)建真正能自主決策、自主行動(dòng)的智能系統(tǒng)。
在預(yù)研、核能開發(fā)、集團(tuán)自主研發(fā)費(fèi)、地勘費(fèi)等不同渠道項(xiàng)目中,增加鈾資源勘查大數(shù)據(jù)技術(shù)研究經(jīng)費(fèi),從不同項(xiàng)目渠道的特點(diǎn)出發(fā),對(duì)鈾資源勘查大數(shù)據(jù)技術(shù)體系中的不同關(guān)鍵技術(shù)、軟件、硬件進(jìn)行研究和開發(fā),形成鈾資源勘查大數(shù)據(jù)技術(shù)研究相對(duì)穩(wěn)定的經(jīng)費(fèi)投入,促進(jìn)核地質(zhì)系統(tǒng)鈾資源勘查大數(shù)據(jù)技術(shù)的穩(wěn)步創(chuàng)新發(fā)展和技術(shù)突破,并早日進(jìn)入大數(shù)據(jù)應(yīng)用時(shí)代。
每個(gè)行業(yè)的大數(shù)據(jù)應(yīng)用都是一個(gè)系統(tǒng)工程,涉及多個(gè)學(xué)科和多種技術(shù),尤其是計(jì)算機(jī)、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等技術(shù)。相對(duì)來說,這些技術(shù)是核地質(zhì)領(lǐng)域人才的弱項(xiàng)。因此,需要加強(qiáng)這方面人才的引進(jìn)和青年骨干人才有針對(duì)性的持續(xù)培養(yǎng),為真正實(shí)施鈾資源勘查大數(shù)據(jù)應(yīng)用提供人才基礎(chǔ)。
相對(duì)核地質(zhì)領(lǐng)域,其他領(lǐng)域的大數(shù)據(jù)應(yīng)用研究開始相對(duì)更早些,國際上也比國內(nèi)要早些。因此,需要加強(qiáng)國內(nèi)外的交流、行業(yè)間交流,學(xué)習(xí)別人的經(jīng)驗(yàn)及技術(shù),為更好地實(shí)施鈾資源勘查大數(shù)據(jù)服務(wù)。
1)認(rèn)識(shí)大數(shù)據(jù)的內(nèi)涵,應(yīng)該從數(shù)據(jù)、技術(shù)、應(yīng)用三個(gè)層面來全面理解。它不是單純的數(shù)據(jù)概念,而是巨量數(shù)據(jù)與一系列新技術(shù)的結(jié)合,是當(dāng)今世界實(shí)現(xiàn)數(shù)據(jù)—有用信息—預(yù)測(cè)的全新思路。因此,大數(shù)據(jù)是涵蓋大數(shù)據(jù)特征、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用等技術(shù)內(nèi)涵的全新理念。
2)鈾資源勘查大數(shù)據(jù)不僅具有一般大數(shù)據(jù)的4V特征,還具有數(shù)據(jù)密集型的地質(zhì)時(shí)空大數(shù)據(jù)特點(diǎn)。主要表現(xiàn)在鈾資源勘查地質(zhì)大數(shù)據(jù)的時(shí)空屬性、鈾資源勘查地質(zhì)大數(shù)據(jù)的多元(源)、異構(gòu)、時(shí)空性、相關(guān)性、隨機(jī)性、模糊性和非線性、以及鈾資源勘查地質(zhì)大數(shù)據(jù)的因果性與非因果性特點(diǎn)等。
3)鈾資源勘查大數(shù)據(jù)技術(shù)研究可采取的框架思路包括:一是借鑒并采用一般大數(shù)據(jù)技術(shù),二是研發(fā)和改進(jìn)適用于鈾礦地質(zhì)的專業(yè)大數(shù)據(jù)技術(shù)。鈾資源勘查大數(shù)據(jù)技術(shù)研究的關(guān)鍵問題主要有:鈾礦地質(zhì)大數(shù)據(jù)清洗技術(shù)、鈾礦地質(zhì)多屬性多態(tài)數(shù)據(jù)一體化存貯管理技術(shù)、鈾礦地質(zhì)大數(shù)據(jù)時(shí)空并行分布檢索技術(shù)、基于鈾資源勘查大數(shù)據(jù)的成礦預(yù)測(cè)技術(shù)、鈾礦勘查文本數(shù)據(jù)挖掘技術(shù)、基于大數(shù)據(jù)技術(shù)的鈾成礦過程實(shí)時(shí)仿真模擬技術(shù)、以及鈾資源勘查地質(zhì)云平臺(tái)構(gòu)建等。
4)大數(shù)據(jù)應(yīng)用是一個(gè)長期的系統(tǒng)工程,不是一蹴而就的,而是逐步實(shí)現(xiàn)的。針對(duì)鈾資源勘查領(lǐng)域的特殊性,鈾資源勘查大數(shù)據(jù)技術(shù)研究與應(yīng)用應(yīng)分步分階段來實(shí)施。同時(shí),為了加快核地質(zhì)系統(tǒng)大數(shù)據(jù)技術(shù)研究,應(yīng)加強(qiáng)頂層設(shè)計(jì)、經(jīng)費(fèi)投入、人才培養(yǎng)、以及技術(shù)交流等。