李 斌,孫 巖,羅 群
(1.韓山師范學院 地理科學與旅游學院·潮菜學院,廣東 潮州 521041;2.北京聯(lián)合大學 特殊教育學院,北京 100075;3.中國石油大學(北京)非常規(guī)油氣科學技術研究院,北京 100049)
繼互聯(lián)網、云計算等發(fā)展之后,大數據技術再次在各行各業(yè)掀起了信息技術應用的重大變革[1-2].大數據是通過對大量數據的深入挖掘,分析問題、解決問題并做出正確決策的一種研究方法[3-4].2012年,美國發(fā)布了“大數據研發(fā)計劃”,將數據定義為“未來社會的新石油”,“大數據”(big data)一詞成為國際社會技術探討的熱點[5].我國于2015年印發(fā)了《促進大數據發(fā)展行動綱要》,國土資源部、農業(yè)部、環(huán)保部、北京市等紛紛研討并印發(fā)了大數據發(fā)展的實施意見[1,6].
中國地質調查局特別重視地質大數據的建設與研究[7-8].因為地質資料大數據,是國家投入巨大的財力、物力獲得的科技成果,是國家建設、發(fā)展的基礎資源,若能科學管理各類地質大數據,并深入挖掘、研究其科學價值,為全社會提供信息共享服務,具有重要意義.中國地質調查局于2017年11月發(fā)布了“地質云1.0”服務,實現了75個國家核心地質數據庫的網絡共享,提出了智能地質調查新模式;2018年國家地質大數據共享服務平臺“地質云”2.0正式上線服務,構建了基礎地質、區(qū)域地質、礦產地質等12類信息數據庫,集中管理了10萬個鉆孔地質數據[8].服務平臺的實現為地質類行業(yè)提供了大數據構建的初步模式,并引領地質調查向現代化方向發(fā)展.但該系統(tǒng)構建主要針對地質大數據的優(yōu)化科學管理和信息聯(lián)通共享的建設與服務模式,其深層次的數據挖掘與智能處理還處于起步階段[9-10],目前國內外還未有地質大數據深層次服務典型案例的研究與相關報道.
筆者長期從事煤田地質勘探工作,發(fā)現逐年增加的煤田地質資料在數據管理和應用方面存在諸多問題.如,地質數據孤島問題依然突出,大部分煤田勘探數據仍然以分散式封閉管理為主,數據格式主要以文本和電子表格或單機數據庫的形式保存,數據歸檔以文件夾結構模式保存,數據開放性、共享程度不足,地質信息的查詢、檢索、傳閱等效率較低,遠遠不能滿足科研、生產的迫切需求.特別是在煤田地質勘探報告的編制過程中,需要應用礦區(qū)內所有煤田勘探歷史資料,其收集、分析、統(tǒng)計、計算等重復工作量巨大,常發(fā)生數據的準確性和可靠性問題,有時糾正、修改一條煤層或煤質數據,需要反復檢索所有的報告文字和相關圖件,以保持報告前后內容的一致性.尤其是開采規(guī)模較大的煤礦,每隔3~5年就要進行一次儲量核實,向國土部資源中心、省或自治區(qū)國土資源廳備案,提交新的儲量核實報告,就要重復整理、統(tǒng)計礦區(qū)內所有煤田地質鉆孔數據,重新評估礦區(qū)煤炭資源儲量.查找、厘清歷史地質鉆孔資料是一項困難極大而繁雜的工作,耗費大量的人力、物力,令地質工作者苦不堪言.如何減輕繁瑣的重復性勞動,是所有地質工作者迫切關心的問題[11-13],若能通過數據挖掘與深度開發(fā)應用,實現煤田地質勘查數據自動化整理,輔助編寫地質報告,最終實現人工智能地質報告的編制,是一種工作方法的革新,對地質工作者是一次徹底的勞動解放,必將產生巨大的效益[14].
本文通過對煤田勘探大數據的深入分析,以實例介紹使用關系型數據庫技術,將煤田勘探中煤層、煤質等結構化數據進行科學管理與自動化整理;使用ASP網頁數據庫技術,對煤層、煤質等數據進行自動分析、計算、統(tǒng)計,并用網頁的方式動態(tài)表格展示煤層、煤質統(tǒng)計數據,實現計算機技術輔助編寫地質報告.
煤田勘探后,需要提交的最終成果主要有煤田勘探地質報告、相應的附圖及附表.煤田勘探地質報告是在勘探項目施工結束后,應用附圖、附表以及區(qū)域地質資料、歷年地質報告等多來源大數據基礎上,充分挖掘、處理、分析后得到的綜合性研究成果.
經過多年煤田勘探發(fā)展,目前煤碳系統(tǒng)的勘探地質報告基本上已經形成了統(tǒng)一固定格式.一般其章節(jié)固定為:緒論(概況、周邊礦井與小窯、以往地質工作、礦山設計開采與利用情況)、核實區(qū)地質(區(qū)域地區(qū)和礦區(qū)地質,內容主要為地層、構造、巖漿巖)、煤層與煤質(含煤地層、可采煤層、不可采煤層、煤層對比、煤質物理性質、煤質化學性質、煤質工藝性能、煤質可選性、煤質煤類、煤的工業(yè)用途)、煤層氣及其他礦產、其他地質條件、資源儲量計算和結論七大部分.其中前五章節(jié)內容豐富、信息量巨大,是煤田勘探成果的基礎資料;后兩章節(jié)為煤田地質勘探的總結性成果,是前四章的信息濃縮和總結.其中緒論、核實區(qū)地質和資源儲量計算三章內容主要為定性描述,應用的資料多為非結構性文件和圖件,如歷年勘探文字報告以及地質地形圖、地層綜合柱狀圖、煤巖層對比圖、地質剖面圖、資源估算圖、采掘工程平面圖、鉆孔綜合柱狀圖等;而煤層煤質、煤層氣及其他礦產和其他地質條件三章主要內容為勘探基礎數據的統(tǒng)計分析,其應用的參考資料主要為煤田地質勘探過程中整理的附表資料以及應用附表數據繪制的插圖,如:鉆孔綜合成果表、煤質化驗測試成果表、儲量計算表、巖石力學實驗表以及煤層、煤質等值線圖、煤層對比圖以及儲量計算圖等.
其中附表資料是煤田勘探報告中最直接的證據,具有歷史悠久、數據量巨大、更新速度快、數據關聯(lián)性高,且數據繁雜,極易出現數據錯誤等特點.但該部分數據常以結構化電子表格形式或數據庫方式存儲管理,規(guī)律性明顯,是最容易實現計算機自動化處理的部分.應用計算機技術分析附表資料,自動尋找海量地質數據中隱含的地質規(guī)律以及各種地質信息間的邏輯關系,以規(guī)范化的格式自動整理相關煤田地質數據,輔助編寫地質報告,將會從根本上提高工作效率,解放生產力,是未來煤田地質勘探技術研究的重要方向.
大數據時代煤田地質勘探具有海量數據增加、數據高度共享的特點,實現數據的快速統(tǒng)計、分析,精確快速挖掘信息價值,將分析結果及時溝通、討論尤為重要.以計算機網絡為平臺,通過網絡數據庫的方式可以解決煤田地質勘探基礎數據的科學管理問題,實現數據高度共享以及數據的無阻化傳輸,智能化統(tǒng)計分析煤田地質數據,為地質人員跨越時空協(xié)同式工作創(chuàng)造條件.
本文的思路為,以網絡終端將煤田地質勘探基礎數據(附表資料)按照統(tǒng)一的標準格式上傳至數據庫服務器,在服務器端自動實現數據的管理、統(tǒng)計、計算、整理,并形成一系列主題數據表格及文字描述,用戶在客戶端通過網頁瀏覽的方式直接獲取分析后的階段性成果(圖1).
圖1 煤田地質勘查數據自動整理的實現思路
首先,制定數據標準化格式模板,并整理煤田勘探地質數據,形成電子表格格式文件.主要任務為野外勘探任務結束后,整理勘探區(qū)所有地質鉆孔的物理數據以及實驗室分析化驗數據,形成固定格式的附表.如測量成果表、煤層綜合成果表、煤質化驗成果表、巖石力學成果表、儲量計算成果表、水文地質成果表、工程地質成果表等.
工作人員在任意一臺電腦終端將Excel格式的附表通過網頁方式提交到數據庫服務器,服務器自動檢查數據格式,若數據格式錯誤,ASP程序自動修改數據格式或報錯,需要修改后提交;若數據格式無誤,ASP程序則將附表按指定條件要求導入到指定數據庫.如,將鉆孔綜合成果表(Excel格式)導入到鉆孔巖層數據表(數據庫表)和鉆孔煤層數據表(數據庫表)中,將煤質化驗成果表(Excel格式)導入到鉆孔煤質數據表(數據庫表)中,并在下一個網頁中用表格顯示每個數據表內容.
在網頁瀏覽器中點擊下一步,ASP程序自動調用數據庫存儲過程,計算機語言自動計算復雜數據,如煤層結構中夾矸厚度、采用厚度和自然厚度等,并優(yōu)化數據存儲結構,完善數據標準體系,為數據統(tǒng)計提供科學的數據格式.ASP程序再按照單個鉆孔統(tǒng)計測量、煤層、煤質、水文地質、工程地質中各種數據的平均值,如單孔煤層厚度均值,單孔煤層煤質中灰分、揮發(fā)分、硫分均值等,最后針對所有鉆孔單個煤層分別統(tǒng)計各種需求信息,如煤層厚度最小值、最大值、平均值、統(tǒng)計個數,煤層間距的最小值、最大值、平均值、統(tǒng)計個數,煤質中工業(yè)分析、元素組成、發(fā)熱量等所有數據的最小值、最大值、平均值、統(tǒng)計個數,以及測量、水文地質、工程地質、煤層儲量計算等各種數據的統(tǒng)計值.
ASP程序統(tǒng)計完后,自動跳轉下一頁,在網頁上分別以表格和文字方式展示統(tǒng)計后各種結果和相關信息(圖2).
圖2 煤田地質勘查數據自動整理的實現流程
煤田地質勘探地質數據入庫后,計算機程序自動分析其數據特征,并在數據庫服務器端用主、外鍵標識關鍵字段,設定約束條件,建立數據庫索引,建立各種數據庫之間的關系,理清地質數據之間的內在聯(lián)系,以便于數據之間復雜查詢、統(tǒng)計、分析.如鉆孔基礎信息表、鉆孔巖層數據表、鉆孔煤層數據表、鉆孔測量數據表、鉆孔煤質數據表、鉆孔工程地質表、鉆孔水文地質表之間通過共有字段“鉆孔編號”的主、外鍵建立邏輯關系;而煤層信息表、鉆孔煤層數據表和鉆孔煤質數據表通過共有字段“煤層編號”主、外鍵,建立了數據庫之間的內在邏輯聯(lián)系(圖3).
圖3 煤層煤質數據庫關系圖
2.4.1 計算煤層結構中的自然厚度
在煤層綜合成果表中,最重要的一項數據是“煤層結構”,是通過鉆孔地質編錄和地球物理測井綜合分析得到的結果,是煤礦開采最直接的證據.煤層結構均按照特定的格式表述,以便把煤層中的矸石區(qū)分出來.如五虎山煤礦10號鉆孔中9煤的結構為“0.61(0.20)0.55(0.50)0.77(0.05)0.20(0.05)0.17(0.03)0.47(0.20)1.18”,其中括號內為矸石厚度,括號外為純煤厚度,所有數據相加為自然厚度,擴號外數據相加為采用厚度,括號內數據相加則為矸石厚度.如麥垛山2分區(qū)補充勘探需要分析180個鉆孔,每個鉆孔有28層煤層,煤層均為復雜組合結構,人工計算其自然厚度或采用厚度將要花費大量的時間,而且極容易出錯.通過以下SQL語句,可一次性計算完所有鉆孔煤層結構中自然厚度、采用厚度等,且數據準確可靠.其編程思路為:按照數據表中編號順序取出一條記錄中綜合結構內容中的字符串,判斷該字符串中是否存在“(”:若不包含“(”,則將該字符串轉化為數值,賦值給某一個變量(用于記錄自然厚度記錄),直接替換該記錄中自然厚度字段的數值;若包含“(”,則將字符串中“(”之前的數值取出,賦值于該變量(用于記錄自然厚度值),再取出字符串中括號內的數值,與之前定義并賦值過的變量相加后再賦值于該變量;然后再判斷“)”后的字符內是否包含“(”,若不包含“(”,則將“)”后的字符串取出并轉化為數值類型,并與之前賦值的變量相加后再賦值于該變量,若包含“(”,則重復取值、計算、再賦值,直至到達字符串的結尾,用相加后的變量替換該記錄中自然厚度字段的記錄數值.一條記錄操作完成后,循環(huán)取出下一條記錄,直至記錄結束,其過程如以下程序所示.煤層的采用厚度與矸石厚度也可通過類似的程序語言思路來實現.
2.4.2 統(tǒng)計煤層間距
煤層間距也是煤田勘探中的重要數據,是煤層能否開采的決定性因素.人工計算礦區(qū)每口井煤層間距工作量巨大,效率低下.通過以下程序快速實現計算33個鉆孔590條煤層記錄內所有鉆孔的9煤層與10煤層的煤層間距.
該程序的思路為:將可采煤層數據庫中所有記錄按照頂深排序,并在數據庫字段中增加一個唯一的標識字段“ID”字段,按照“ID”值的大小順序取出相鄰的兩條記錄數據,用下一條數據的底深減去上一條記錄的底深再減去上一條記錄的自然厚度即為兩個煤層之間的間距.將所有鉆孔中每2個煤層間距計算出結果后并賦值給相鄰兩條記錄中的下一條記錄的煤層間距字段記錄;再統(tǒng)計所有鉆孔間所有9煤與10煤間距離的數值,如最大值、最小值、平均值等.
2.4.3 統(tǒng)計極值與均值
在煤田地質勘探中,需要統(tǒng)計各種地質數據的最大值、最小值、平均值、鉆孔統(tǒng)計數等,分析其空間分布規(guī)律.特別是煤質分析中,統(tǒng)計項目較多,如原煤和洗煤中灰分、揮發(fā)分、硫分、碳含量、氫含量、氧含量、發(fā)熱量等,各類數據統(tǒng)計工作量巨大.以下程序為所有鉆孔中各煤層中原煤灰分統(tǒng)計SQL語句.
select煤層號,min(灰分)as灰分最小值,max(灰分)as灰分最大值,avg(灰分)as灰分平均值,count(*)as灰分總數into原煤灰分統(tǒng)計表from可采煤質數據庫where煤層號is not null and灰分is not null and洗選情況=‘原’group by煤層號;
2.4.4 統(tǒng)計數據的表格化、個性化展示及文字報告的形成
在煤田地質勘探報告中,一般會用較大的篇幅用于對勘探數據統(tǒng)計成果的展示和描述.如煤層、煤質統(tǒng)計數據的表格化表示和文字描述,過去通常以人工方式繪制表格,填寫表格數據,書寫各種統(tǒng)計數字,消耗大量的時間和精力,容易因人為錄入出現錯誤,且數據中錯誤不易發(fā)現.
以ASP語言編寫如下程序,自動形成統(tǒng)計表格和文字描述,可以通過網絡化實時共享統(tǒng)計成果.編程思路為:在統(tǒng)計各類屬性數據的最小值、最大值、平均值后,按照煤層順序存儲在可采煤層鉆孔統(tǒng)計表中,再將可采煤層統(tǒng)計表中所有記錄按照煤層埋深的最小值排序后取出,并按照固定的格式輸出到表格中.一般統(tǒng)計屬性數據至少有5條,即煤層編號、最小值、最大值、平均值、統(tǒng)計個數,而屬性數據間每3個為1組:即最小值、最大值、平均值,所以編程時,設定可采煤層鉆孔統(tǒng)計表中最少有5個字段,每3個字段為一次循環(huán),循環(huán)步長值為3,從左向右依次取出字段名稱,再循環(huán)嵌套取出每條記錄中字段的數值或內容,其核心程序如下所示.
<%
set conn=server.CreateObject(“adodb.connection”)
DBPath=Server.MapPath(“五虎山煤礦.mdb”)
sql=“select煤層,min(鉆孔煤層自然厚度)as最小鉆孔煤層自然厚度,max(鉆孔煤層自然厚度)as最大鉆孔煤層自然厚度,round(avg(鉆孔煤層自然厚度),2)as平均鉆孔煤層自然厚度,min(鉆孔煤層埋深)as最小鉆孔煤層埋深,max(鉆孔煤層埋深)as最大鉆孔煤層埋深,round(avg(鉆孔煤層埋深),2)as平均鉆孔煤層埋深,min(鉆孔煤層底板標高)as最小標高,max(鉆孔煤層底板標高)as最大標高,round(avg(鉆孔煤層底板標高),2)as平均標高,round(min(鉆孔煤層間距),2)as最小鉆孔煤層間距,round(max(鉆孔煤層間距),2)as最大鉆孔煤層間距,round(avg(鉆孔煤層間距),2)as平均鉆孔煤層間距,count(煤層)as統(tǒng)計個數into可采煤層統(tǒng)計from可采煤層鉆孔統(tǒng)計group by煤層”
2.4.5 成果展示
通過網頁數據庫方式,在用戶客戶端網頁選擇相應的附表文件,如煤層綜合成果表、煤質化驗成果表、巖石力學成果表(圖4)點擊上傳按鈕,將附表文件(Excel形式)上傳至數據庫服務器中,上傳后系統(tǒng)將excel表格文件傳輸到數據庫服務器系統(tǒng),形成數據庫文件,存儲于數據表中.在下一個網頁選擇需要展示統(tǒng)計的附表,網頁中點擊“統(tǒng)計”按鈕(圖5),ASP文件自動調用數據庫系統(tǒng)中的存儲過程,統(tǒng)計各類信息,形成各種統(tǒng)計數據表,在網頁中顯示統(tǒng)計后的數據表及相關文字內容,如煤層特征統(tǒng)計網頁顯示(圖6)和原煤煤質工業(yè)分析網頁顯示(圖7),其他地質數據統(tǒng)計成果也可用類似的方法順利實現,并可通過互聯(lián)網實時共享.
圖4 附表上傳網頁界面
圖5 附表統(tǒng)計網頁界面
圖6 煤層特征統(tǒng)計結果顯示網頁界面
圖7 原煤煤質工業(yè)分析顯示網頁界面
(1)通過大數據分析,提出了大數據時代智能化煤田地質勘查報告的實現思路和主要工作流程,為輔助煤田地質勘探報告編寫提供了創(chuàng)新性的工作思路,可以推廣使用.
(2)分析了煤田地質勘探報告中數據計算、統(tǒng)計的核心技術,并用計算機語言得以實現,解決了地質人員長期困惑的繁瑣問題,并在實踐中應用和驗證,提高了工作效率,是一種技術方法的提高.
(3)通過網頁數據庫的方式,展示了煤田地質勘查數據自動整理的實現模式.該模式解決了地質報告編寫中有關數據統(tǒng)計的表格填寫和文字描述的復雜問題,解放了地質人員的繁雜勞動,提高了數據的準確性,并實現了數據統(tǒng)計結果的及時共享功能.
(4)本文實現煤田地質勘探對結構化數據的自動整理,但對于非結構化地質數據,如各種等值線圖件自動繪制、資源儲量的自動計算等問題還需要進一步深入研究,掌握空間數據特征,用計算機實現所有地質信息的描述和展示,將全面實現人工智能地質報告的編制,推動煤田地質勘探、開采工作跨越式發(fā)展.