郭林 沈東義 毛火明 袁秋霞
關(guān)鍵詞:大數(shù)據(jù);測井;數(shù)據(jù)挖掘;Apache Spark;并行計算
中圖分類號:TP311 文獻標(biāo)識碼:A
文章編號:1009-3044(2023)03-0054-03
1 引言
隨著互聯(lián)網(wǎng)和云計算技術(shù)的發(fā)展,大數(shù)據(jù)的理念和技術(shù)的應(yīng)用已經(jīng)在工作和生活中發(fā)揮了越來越重要的作用。海量數(shù)據(jù)的出現(xiàn),催生了新的科研模式,為更綜合且更復(fù)雜的系統(tǒng)問題提供了更多的解決方案,即面對海量數(shù)據(jù),科研人員可以從數(shù)據(jù)中直接查找或挖掘所需要的信息、知識,更加快捷地得出所需的結(jié)論[1] 。
石油行業(yè)大數(shù)據(jù)的開發(fā)應(yīng)用還處于起步階段,但很多石油公司在信息化建設(shè)中,已針對多年積累的數(shù)據(jù)建立了數(shù)據(jù)模型,并研發(fā)了對應(yīng)的大數(shù)據(jù)分析軟件,例如油井?dāng)?shù)據(jù)的實時采集、實時生產(chǎn)監(jiān)控分析系統(tǒng)等,都是大數(shù)據(jù)在石油行業(yè)的基本體現(xiàn)[2]。對此,渤海石油研究院近幾年在測井巖性分析、儲層預(yù)測、壓力預(yù)測等多方面也進行了大數(shù)據(jù)的分析與研究。本文重點介紹在測井巖性分析方面的研究,對于未進行鉆井取心的新井,某些層段復(fù)雜巖性不易判斷時,通過從一個工區(qū)甚至更大范圍內(nèi)自動找到類比的參考井,以大數(shù)據(jù)分析手段確定目標(biāo)井的巖性,進而類比參考井已有資料進一步判斷目標(biāo)井含油氣性和產(chǎn)能。
2 測井解釋的大數(shù)據(jù)適應(yīng)性分析
測井解釋能否適用大數(shù)據(jù)分析方法,要從測井解釋的原理和數(shù)據(jù)特點出發(fā),根據(jù)目前行業(yè)對大數(shù)據(jù)的認(rèn)識,大數(shù)據(jù)指是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。大數(shù)據(jù)的意義在于利用相關(guān)數(shù)據(jù)進行分析和統(tǒng)計得出預(yù)期結(jié)果甚至是傳統(tǒng)方法無法得出的結(jié)論,可以幫助我們降低成本、提高效率、開發(fā)新產(chǎn)品、做出更明智的業(yè)務(wù)決策等[3]。因此,結(jié)合實際,測井?dāng)?shù)據(jù)符合大數(shù)據(jù)的以下“5個V”的特點:
(1) 數(shù)據(jù)規(guī)模大(Volume) :油田幾千口井乃至上萬口井的數(shù)據(jù),上千米的井深且每隔0.1米一個采樣間隔,同時對應(yīng)著多條常規(guī)測井曲線,從數(shù)據(jù)量上完全可以達到大數(shù)據(jù)的分析要求并得出正確的結(jié)論;
(2) 數(shù)據(jù)多樣性(Variety) :測井解釋的過程中,除了常規(guī)測井曲線外,還需同時綜合參考DST測試、核磁共振測井、陣列聲波測井、成像測井、生產(chǎn)動態(tài)、巖礦分析等資料;
(3) 數(shù)據(jù)處理時效性(Velocity) :測井解釋的數(shù)據(jù)可以進行及時處理,滿足一定的響應(yīng)性能要求;
(4) 結(jié)果準(zhǔn)確性(Veracity) :油田多年來積累的測井?dāng)?shù)據(jù)和經(jīng)過驗證的解釋結(jié)果,足以保證數(shù)據(jù)處理的準(zhǔn)確性;
(5) 深度價值(Value) :通過全局的大數(shù)據(jù)分析,有利于進一步挖掘潛力儲層。
3 大數(shù)據(jù)計算技術(shù)與系統(tǒng)的選取
大數(shù)據(jù)并行化計算系統(tǒng)是整個大數(shù)據(jù)技術(shù)中的計算核心層,近幾年出現(xiàn)了多種不同的典型大數(shù)據(jù)計算模式,并涌現(xiàn)了一批適應(yīng)這些計算模式的大數(shù)據(jù)計算系統(tǒng)。其中,Hadoop是目前最流行的分布式數(shù)據(jù)和計算框架,其MapReduce是一種典型的大數(shù)據(jù)批處理計算模式,它簡單易用的兩階段Map和Reduce的數(shù)據(jù)處理過程,使其成為主流并行計算模式。但在本文中,我們選取了Apache Spark,Spark為了克服MapRe?duce缺乏對迭代計算模式支持的缺陷,對MapReduce進行了很多改進。目前,在迭代計算方面,Spark是最廣為使用的一個基于分布式內(nèi)存的彈性數(shù)據(jù)集模型的高效迭代計算系統(tǒng)[4]。
4 基于曲線相似度的大數(shù)據(jù)技術(shù)在巖性分析中的應(yīng)用
渤海油田近幾年除了建成數(shù)據(jù)處理中心用于數(shù)據(jù)的存儲、管理和共享之外,還建立了勘探開發(fā)項目知識庫和勘探成果數(shù)據(jù)庫,進行勘探開發(fā)生產(chǎn)活動的參數(shù)采集、數(shù)據(jù)積累與管理。基礎(chǔ)數(shù)據(jù)庫中已經(jīng)存儲了數(shù)千口井的測井曲線相關(guān)數(shù)據(jù),具備大數(shù)據(jù)分析的數(shù)據(jù)基礎(chǔ)。
4.1 基本原理與流程
科研工作中,不同井的測井曲線形狀存在某種相似性,測井曲線與地層特征間也具有一定的對應(yīng)關(guān)系。因此,通過利用測井曲線數(shù)據(jù)進行相關(guān)分析,根據(jù)給定某一口井深度段的測井曲線組合的形狀,在數(shù)據(jù)庫中快速檢索具有類似曲線組合形狀的井,并根據(jù)測井大數(shù)據(jù)分析算法,精準(zhǔn)擬合出測井曲線與地層特征之間的對應(yīng)關(guān)系,同時根據(jù)命中概率進行巖性的識別。具體包括以下幾步:
(1) 搜索具有“相似形態(tài)”的測井曲線(深度段),并按相似度進行排序;
(2) 搜索具有某一測井曲線特征的老井,使用新的技術(shù)方法重新認(rèn)識老井;
(3) 搜索、統(tǒng)計測井曲線特征與地層特征的對應(yīng)關(guān)系和分布情況,論證科研人員的分析結(jié)果,并為科研人員的研究工作提供輔助支持。
數(shù)據(jù)挖掘的具體過程中利用分類與預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則、偏差檢測等方法,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,用以解決實際問題。基本過程包括:定義挖掘目標(biāo)、數(shù)據(jù)取樣、數(shù)據(jù)預(yù)處理、挖掘建模和模型評價,基本過程如下圖1所示。
4.2 底層Apache Spark 并行計算平臺搭建
在具體的數(shù)據(jù)分析與計算過程中,我們首先要搭建計算平臺,Apache Spark 并行計算平臺的邏輯結(jié)構(gòu),具體如下圖2所示。
主要工作任務(wù)包括:在一個主管理節(jié)點(虛擬機)和多個工作節(jié)點(虛擬機)中,安裝和調(diào)試ApacheSpark運行環(huán)境;配置運行參數(shù),包括網(wǎng)絡(luò)參數(shù)、CPU資源分配策略、內(nèi)存資源分配策略等。
4.3 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)收集環(huán)節(jié)中,需要準(zhǔn)備原始數(shù)據(jù),包括測井曲線數(shù)據(jù)和地層巖性數(shù)據(jù)。之后,對數(shù)據(jù)進行規(guī)范化處理,使測井曲線命名一致,并對測井曲線和地層巖性數(shù)據(jù)進行清洗。最后,建立測井曲線的數(shù)據(jù)緩存,將規(guī)范化的測井曲線數(shù)據(jù)在各個工作節(jié)點(虛擬機)上建立分布、多層結(jié)構(gòu)的數(shù)據(jù)緩存,用于加快分析計算的速度。
數(shù)據(jù)準(zhǔn)備工作完成后,再加入?yún)^(qū)域位置信息,形成區(qū)域位置—測井曲線—地層巖性結(jié)構(gòu)的關(guān)系數(shù)據(jù),最后根據(jù)區(qū)域位置、深度段和測井曲線,分析對應(yīng)區(qū)域位置和深度段的地層巖性的可能性。
4.4 模型建立
首先,對某一口井的測井曲線濾波,平滑測井曲線。通過滑動對比樣本窗口(某一深度段的一組測井曲線),計算測井曲線形狀的相似度,找出最相似的測井曲線的深度段,其原理簡單描述如下:
(1) 將需要預(yù)測的目標(biāo)井所選測井曲線的組合形成一個m*n的矩陣(所選的測井曲線數(shù)*所選深度段的采樣點數(shù))。
(2) 目標(biāo)井的m*n數(shù)據(jù)集與數(shù)千口現(xiàn)有井的數(shù)據(jù)集從采樣點初始索引開始的m*n數(shù)據(jù)集比較,并平滑移動逐點計算。
(3) 將數(shù)據(jù)進行歸一化處理,并采用均方根算法,計算每條測井曲線間的差異,即相對差異。
(4) 結(jié)合其他算法多維度判斷相似度,例如根據(jù)箱形圖(Boxplot) 法,排除異常值,最終確定曲線某一深度段的最大值、最小值、平均值等特征值,并進行歸一化處理,然后將多條曲線的特征值進行組合后進行綜合判斷。
(5) 將搜索結(jié)果按相似度由高到低進行排序,找出最相似的測井曲線的深度段,形成測井曲線與測井曲線之間的相似度模型。
其次,在搜索結(jié)果的已知巖性數(shù)據(jù)基礎(chǔ)上,通過數(shù)據(jù)挖掘,歸納測井曲線與地層巖性間的關(guān)系特征,推導(dǎo)目標(biāo)深度段的巖性類別,并按概率由高到低進行排序。建立測井曲線樣本與地層巖性間的分布關(guān)系,使用大量的測試數(shù)據(jù)集,驗證和調(diào)整模型。
4.5 速度優(yōu)化
由于參與計算的井超過七千口,數(shù)據(jù)量巨大,且在計算過程中需要滑動樣本點進行逐個計算,由于計算節(jié)點有限,如果僅依賴CPU,每進行一次地層識別將耗費至少十幾分鐘的時間,這在科研過程中是無法接受的。為了保證數(shù)據(jù)的計算速度,代碼編寫中采用OpenCL并行計算技術(shù)結(jié)合GPU進行性能優(yōu)化。OpenCL并行計算技術(shù)是一個通用多CPU、GPU和其他芯片異構(gòu)計算的標(biāo)準(zhǔn),充分利用GPU強大的并行計算能力以及與CPU的協(xié)同工作,更高效地利用硬件高效地完成大規(guī)模的尤其是并行度高的計算[5],通過GPU的加速,使得單次的處理時間縮短到了10秒以內(nèi),優(yōu)化效果顯著。
5 應(yīng)用案例
以某C油田某J井?dāng)?shù)據(jù)為例,通過選取需要預(yù)測的深度段測井曲線數(shù)據(jù),并選擇需要匹配的曲線,如:GR、ZDEN、CNCF一定范圍內(nèi)的數(shù)值組合,系統(tǒng)通過對所有井的測井?dāng)?shù)據(jù)進行全量的數(shù)據(jù)匹配分析計算,匹配得到有效的測井曲線組合與地層巖性的對應(yīng)關(guān)系,在19 個相似的地層中,有18 個地層都是玄武巖,從而初步判定該深度段巖性大概率與玄武巖具有對應(yīng)關(guān)系。分析過程圖如圖3所示。
實際應(yīng)用中除了概率問題,還需考慮置信度的問題,例如匹配到的井只有3口,而其中兩口巖性相同,這時由于數(shù)據(jù)量太少,無法作為最終判斷依據(jù),因此,必須將數(shù)據(jù)的總量和數(shù)據(jù)準(zhǔn)確度達到足夠的高度,才能保證應(yīng)用的準(zhǔn)確性。地層巖性分析結(jié)果效果如圖4。
6 結(jié)論
在大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)成為重要的生產(chǎn)因素,石油和天然氣勘探在數(shù)字化和大數(shù)據(jù)集成上,將會有越來越多的需求,構(gòu)建專業(yè)化的測井大數(shù)據(jù)分析平臺,實現(xiàn)從一口井的單打獨斗,到區(qū)域的多井聯(lián)動,幫助科研人員進行決策,有利于測井?dāng)?shù)據(jù)向地質(zhì)分析、區(qū)域評價和工程應(yīng)用等方向拓展。而本文所探討的基于大數(shù)據(jù)曲線形態(tài)識別的巖性判斷方法,就是針對該需求所做的研究,通過更前沿的大數(shù)據(jù)技術(shù)提高工作效率,是信息化建設(shè)在渤海油田的發(fā)展方向和工作重點。未來隨著數(shù)據(jù)建設(shè)逐步完善,還可利用深度學(xué)習(xí)等人工智能算法進一步優(yōu)化應(yīng)用效果,并進行流體性質(zhì)自動解釋等功能的研究。