梁琴琴,何東林,王振飛,武 枝,王宗江,趙麗娜
(山東正元冶達科技發(fā)展有限公司,山東 濟南 250101)
礦山地質(zhì)信息是地質(zhì)勘查工作的第一手資料,對地質(zhì)勘查工作的開展和后續(xù)礦山開采都有著重要的作用,為了更好實現(xiàn)對礦山地質(zhì)信息的管理,并且向地質(zhì)人員更加清晰地展現(xiàn)地質(zhì)信息,研發(fā)了三維數(shù)字化礦山地質(zhì)信息整合系統(tǒng)。
三維數(shù)字化礦山地質(zhì)信息整合系統(tǒng)具有地質(zhì)信息收集、保管、整合等功能,該系統(tǒng)的出現(xiàn)極大地節(jié)省了礦山地質(zhì)信息整合時間以及整合難度,代替了傳統(tǒng)的紙質(zhì)地質(zhì)信息整合方法,三維數(shù)字化礦山地質(zhì)信息整合系統(tǒng)設計開發(fā)是地質(zhì)信息管理工作邁向現(xiàn)代化的必經(jīng)之路,也促進了礦山地質(zhì)信息管理工作在信息化建設的發(fā)展。雖然現(xiàn)有的三維數(shù)字化礦山地質(zhì)信息整合系統(tǒng)可以精準、快速地整合礦山地質(zhì)信息,但是傳統(tǒng)系統(tǒng)缺乏網(wǎng)絡化、系統(tǒng)化運作模式,在對礦山地質(zhì)信息整合過程中容易出現(xiàn)數(shù)據(jù)丟失,并且信息丟失量較大,傳統(tǒng)系統(tǒng)已經(jīng)無法滿足三維數(shù)字化礦山地質(zhì)信息整合需求,為此提出三維數(shù)字化礦山地質(zhì)信息整合系統(tǒng)設計及應用研究。
此次設計的三維數(shù)字化礦山地質(zhì)信息整合系統(tǒng)的核心硬件為地質(zhì)信息網(wǎng)絡爬蟲,該硬件設備的主要任務是獲取礦山地質(zhì)信息網(wǎng)絡中的所有礦山地質(zhì)信息資源,并通過超鏈接的方式使礦山地質(zhì)信息網(wǎng)頁與系統(tǒng)相對應,并且能呈現(xiàn)出高效、快速、準確的應用效果。
地質(zhì)信息網(wǎng)絡爬蟲主要有InfoSpace、Dogpile、Vivisimo三種,InfoSpace地質(zhì)信息網(wǎng)絡爬蟲是將多個單一獨立的網(wǎng)絡爬蟲的進行整合,利用計算機索引程序掃描礦山地質(zhì)信息網(wǎng)絡信息資源中的所有文字數(shù)據(jù),并且能夠明確找到礦山地質(zhì)信息網(wǎng)絡信息資源的位置;Dogpile地質(zhì)信息網(wǎng)絡爬蟲是一個單一獨立的搜索引擎,該搜索引擎的特點是能夠?qū)D片礦山地質(zhì)信息資源進行爬?。欢鳹ivisimo地質(zhì)信息網(wǎng)絡爬蟲是一個分布式網(wǎng)絡爬蟲,其主要是對音頻礦山地質(zhì)信息資源的爬取。
根據(jù)系統(tǒng)設計需求,此次選取InfoSpace地質(zhì)信息網(wǎng)絡爬蟲,該地質(zhì)信息網(wǎng)絡爬蟲具有云端全功能AI芯片,能夠在100W以上的功耗下提供200萬億次/s的運算速度,并且內(nèi)存寬帶達到了126GB/s,它的應用可以有效提高系統(tǒng)的響應性能,其爬取功能的實現(xiàn)主要依靠Sphinx程序,具體爬取過程如下圖所示。
圖1 地質(zhì)信息網(wǎng)絡爬蟲爬取信息流程圖
此外InfoSpace地質(zhì)信息網(wǎng)絡爬蟲還有三種網(wǎng)絡礦山地質(zhì)信息資源爬取途徑,其中包括API接口爬取數(shù)據(jù)、GUI接口下載數(shù)據(jù)、編寫爬蟲程序下載數(shù)據(jù)。
(1)API接口爬取數(shù)據(jù):API是一種應用程序編程接口,該接口是通過預選定義的函數(shù)為應用程序提供例程能力。通過該接口可以快速的獲取到所需要的網(wǎng)絡礦山地質(zhì)信息資源資源,不需要學習地質(zhì)信息網(wǎng)絡爬蟲具體爬取過程,用API接口直接下載網(wǎng)絡中關于礦山地質(zhì)信息數(shù)據(jù),可以有效保證爬取到的數(shù)據(jù)格式的完整性、數(shù)據(jù)結(jié)構(gòu)的良好性。
(2)GUI接口下載數(shù)據(jù):GUI接口爬取路徑是對于網(wǎng)絡中圖形格式的礦山地質(zhì)信息數(shù)據(jù)資源爬取而言的。GUI是一種圖形接口,該接口具有強大的圖形獲取功能,地質(zhì)信息網(wǎng)絡爬蟲通過該接口完成圖形礦山地質(zhì)資源的抓取,將獲取到的信息資源以最直觀的圖形方式呈現(xiàn)出來,并且該途徑不需要網(wǎng)絡爬蟲記憶大量的爬取命令,地質(zhì)信息網(wǎng)絡爬蟲只需要執(zhí)行少量的選擇命令、執(zhí)行命令完成檢索任務,該途徑占用的網(wǎng)絡資源較少,且具有較高的可靠性。
(3)編寫爬蟲程序下載數(shù)據(jù):編寫爬蟲程序爬取路徑相對于前兩種路徑,具有高效、高質(zhì)量等爬取優(yōu)點,使網(wǎng)絡爬蟲可以在礦山地質(zhì)信息網(wǎng)絡的公開數(shù)據(jù)獲取中支持正則表達式操作。該路徑具有強大的腳本語言系統(tǒng)作為爬蟲爬取信息支持,可以精準的獲取到與爬取主題相關的礦山地質(zhì)信息資源,操作簡單高效、接口穩(wěn)定性良好。
在系統(tǒng)軟件方面設計了礦山地質(zhì)信息檢索模塊和整合模塊,在礦山地質(zhì)信息檢索模塊中設計了數(shù)據(jù)通路作為三維數(shù)字化礦山地質(zhì)信息整合過程中的空間數(shù)據(jù)檢索路徑,在整合時利用數(shù)據(jù)通路及物聯(lián)網(wǎng)技術,將相應規(guī)則類型中的所有數(shù)據(jù)信息自動傳輸?shù)较到y(tǒng)終端。為促進整合對礦山地質(zhì)信息數(shù)據(jù)的二次開發(fā)和利用,并實現(xiàn)更加深入的挖掘,在數(shù)據(jù)通路與數(shù)據(jù)管理進行連接,并將所有礦山地質(zhì)信息通過直接或間接地方式傳輸?shù)綌?shù)據(jù)庫當中,實現(xiàn)對海量可利用礦山地質(zhì)信息資源的管理。
結(jié)合人工智能技術,采用分層模塊化的方式,將礦山地質(zhì)信息數(shù)據(jù)源代理模塊與實際的礦山地質(zhì)信息數(shù)據(jù)進行交互,形成礦山地質(zhì)信息數(shù)據(jù)源代理與礦山地質(zhì)信息數(shù)據(jù)源之間一對一的對應關系。由于實際礦山地質(zhì)信息數(shù)據(jù)存在一定的異構(gòu)性特征,因此,在自主整合過程中,查詢命令會出現(xiàn)差異。針對這一問題,對不同類別的礦山地質(zhì)信息需要設計出對應的數(shù)據(jù)源代理模塊。下圖為礦山地質(zhì)信息數(shù)據(jù)源代理模塊的具體運行過程示意圖。
圖2 礦山地質(zhì)信息數(shù)據(jù)源代理模塊的運行過程示意圖
根據(jù)每個礦山地質(zhì)信息數(shù)據(jù)源代理模塊的具體運行過程可以看出,礦山地質(zhì)信息代理模塊主要存在于數(shù)據(jù)源模塊與訪問協(xié)議層之間,是礦山地質(zhì)信息數(shù)據(jù)源的源頭。利用數(shù)據(jù)源代理模塊對礦山地質(zhì)信息數(shù)據(jù)進行查詢,并對數(shù)據(jù)源進行注冊。
通過對可擴展標記語言的格式進行查詢,并利用異構(gòu)數(shù)據(jù)或者不同訪問接口數(shù)據(jù)進行接口轉(zhuǎn)換軟件將相應的查詢指令轉(zhuǎn)換為本地可以識別的查詢命令,再將轉(zhuǎn)化后的命令提交到數(shù)據(jù)源當中完成對礦山地質(zhì)信息數(shù)據(jù)的查詢。再將獲取到的查詢結(jié)果通過異構(gòu)數(shù)據(jù)或者不同訪問接口數(shù)據(jù)進行接口轉(zhuǎn)換軟件轉(zhuǎn)化為原始數(shù)據(jù)格式,并按照訪問協(xié)議將其進行保存處理,再傳輸給礦山地質(zhì)信息整合模塊當中。
針對數(shù)據(jù)源的注冊操作,主要是為了將采集到的礦山地質(zhì)信息數(shù)據(jù)源信息通過注冊使其為相應的部件形式,在礦山地質(zhì)信息整合過程中進行主動注冊,數(shù)據(jù)源通過自主的加入或退出,以發(fā)送對應可擴展標記語言的格式,實現(xiàn)對三維數(shù)字化礦山地質(zhì)信息數(shù)據(jù)包的整合。在進行對數(shù)據(jù)源的注冊時,發(fā)布的數(shù)據(jù)源內(nèi)主要包含礦山地質(zhì)信息內(nèi)容、格式、來源等相關信息。
針對數(shù)據(jù)源代理中礦山地質(zhì)信息數(shù)據(jù)的廣泛、異構(gòu)特點,在三維數(shù)字化礦山地質(zhì)信息整合過程中還需要建立相應的元數(shù)據(jù)標準、統(tǒng)一數(shù)據(jù)對象模型,以及礦山地質(zhì)信息數(shù)據(jù)存儲等利用元數(shù)據(jù)進行分析,得到礦山地質(zhì)信息數(shù)據(jù)源的具體數(shù)據(jù)結(jié)構(gòu),并根據(jù)時間將礦山地質(zhì)信息數(shù)據(jù)源劃分為歷史數(shù)據(jù)與近期數(shù)據(jù)兩部分。同時,在劃分前還需要對礦山地質(zhì)信息數(shù)據(jù)進行匯總,進一步減少對數(shù)據(jù)的遍歷時間,采用按照維度整合的方式或提取數(shù)據(jù)的方式對三維數(shù)字化礦山地質(zhì)信息進行整合。
實驗以某三維數(shù)字化礦山地質(zhì)信息數(shù)據(jù)包為實驗對象,該數(shù)據(jù)包大小為1000MB,利用此次設計系統(tǒng)與傳統(tǒng)系統(tǒng)對該數(shù)據(jù)包中礦山地質(zhì)信息數(shù)據(jù)進行整合。實驗中共部署了三臺服務器,其中一臺服務器分配到系統(tǒng)Python集群,2臺服務器分配到系統(tǒng)Storm集群,下表為服務器部署情況。
表1 實驗服務器配置表
實驗將數(shù)據(jù)包中礦山地質(zhì)信息數(shù)據(jù)平均分成五份,利用兩個系統(tǒng)對信息進行整合,記錄在數(shù)據(jù)整合過程中原始數(shù)據(jù)丟失量,將其作為實驗結(jié)果,對兩種系統(tǒng)進行對比分析,實驗結(jié)果如下表所示。
表2 兩種系統(tǒng)數(shù)據(jù)丟失量對比(MB)
從上表可以看出,此次設計系統(tǒng)在對地質(zhì)信息整合過程中丟失的數(shù)據(jù)量較少,少于傳統(tǒng)系統(tǒng),證明了此次設計的三維數(shù)字化礦山信息整合系統(tǒng)優(yōu)于傳統(tǒng)系統(tǒng)。
本文結(jié)合數(shù)據(jù)檢索引擎技術和信息整合技術,研發(fā)設計了一套新的三維數(shù)字化礦山地質(zhì)信息整合系統(tǒng),在軟件方面和硬件方面都進行了創(chuàng)新和優(yōu)化,極大地降低了系統(tǒng)運行過程中礦山地質(zhì)信息丟失量,保證了礦山地質(zhì)信息安全。此次研究為三維數(shù)字化礦山地質(zhì)信息整合系統(tǒng)設計與開發(fā)提供了良好的理論依據(jù),提高了礦山地質(zhì)信息整合工作的數(shù)字化和信息化水平,對促進礦山地質(zhì)行業(yè)的發(fā)展具有良好的現(xiàn)實意義。