亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于形態(tài)相似度識別的大數(shù)據(jù)分析方法在測井巖性識別中的研究

2023-05-30 06:26:59郭林沈東義毛火明袁秋霞

電腦知識與技術(shù) 2023年3期

關(guān)鍵詞：并行計算測井數(shù)據(jù)挖掘

郭林　沈東義　毛火明　袁秋霞

關(guān)鍵詞：大數(shù)據(jù)；測井；數(shù)據(jù)挖掘；Apache Spark；并行計算

中圖分類號：TP311 文獻標(biāo)識碼：A

文章編號：1009-3044（2023）03-0054-03

1 引言

隨著互聯(lián)網(wǎng)和云計算技術(shù)的發(fā)展，大數(shù)據(jù)的理念和技術(shù)的應(yīng)用已經(jīng)在工作和生活中發(fā)揮了越來越重要的作用。海量數(shù)據(jù)的出現(xiàn)，催生了新的科研模式，為更綜合且更復(fù)雜的系統(tǒng)問題提供了更多的解決方案，即面對海量數(shù)據(jù)，科研人員可以從數(shù)據(jù)中直接查找或挖掘所需要的信息、知識，更加快捷地得出所需的結(jié)論[1] 。

石油行業(yè)大數(shù)據(jù)的開發(fā)應(yīng)用還處于起步階段，但很多石油公司在信息化建設(shè)中，已針對多年積累的數(shù)據(jù)建立了數(shù)據(jù)模型，并研發(fā)了對應(yīng)的大數(shù)據(jù)分析軟件，例如油井?dāng)?shù)據(jù)的實時采集、實時生產(chǎn)監(jiān)控分析系統(tǒng)等，都是大數(shù)據(jù)在石油行業(yè)的基本體現(xiàn)[2]。對此，渤海石油研究院近幾年在測井巖性分析、儲層預(yù)測、壓力預(yù)測等多方面也進行了大數(shù)據(jù)的分析與研究。本文重點介紹在測井巖性分析方面的研究，對于未進行鉆井取心的新井，某些層段復(fù)雜巖性不易判斷時，通過從一個工區(qū)甚至更大范圍內(nèi)自動找到類比的參考井，以大數(shù)據(jù)分析手段確定目標(biāo)井的巖性，進而類比參考井已有資料進一步判斷目標(biāo)井含油氣性和產(chǎn)能。

2 測井解釋的大數(shù)據(jù)適應(yīng)性分析

測井解釋能否適用大數(shù)據(jù)分析方法，要從測井解釋的原理和數(shù)據(jù)特點出發(fā)，根據(jù)目前行業(yè)對大數(shù)據(jù)的認(rèn)識，大數(shù)據(jù)指是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合，具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。大數(shù)據(jù)的意義在于利用相關(guān)數(shù)據(jù)進行分析和統(tǒng)計得出預(yù)期結(jié)果甚至是傳統(tǒng)方法無法得出的結(jié)論，可以幫助我們降低成本、提高效率、開發(fā)新產(chǎn)品、做出更明智的業(yè)務(wù)決策等[3]。因此，結(jié)合實際，測井?dāng)?shù)據(jù)符合大數(shù)據(jù)的以下“5個V”的特點：

（1）數(shù)據(jù)規(guī)模大（Volume）：油田幾千口井乃至上萬口井的數(shù)據(jù)，上千米的井深且每隔0.1米一個采樣間隔，同時對應(yīng)著多條常規(guī)測井曲線，從數(shù)據(jù)量上完全可以達到大數(shù)據(jù)的分析要求并得出正確的結(jié)論；

（2）數(shù)據(jù)多樣性（Variety）：測井解釋的過程中，除了常規(guī)測井曲線外，還需同時綜合參考DST測試、核磁共振測井、陣列聲波測井、成像測井、生產(chǎn)動態(tài)、巖礦分析等資料；

（3）數(shù)據(jù)處理時效性（Velocity）：測井解釋的數(shù)據(jù)可以進行及時處理，滿足一定的響應(yīng)性能要求；

（4）結(jié)果準(zhǔn)確性（Veracity）：油田多年來積累的測井?dāng)?shù)據(jù)和經(jīng)過驗證的解釋結(jié)果，足以保證數(shù)據(jù)處理的準(zhǔn)確性；

（5）深度價值（Value）：通過全局的大數(shù)據(jù)分析，有利于進一步挖掘潛力儲層。

3 大數(shù)據(jù)計算技術(shù)與系統(tǒng)的選取

大數(shù)據(jù)并行化計算系統(tǒng)是整個大數(shù)據(jù)技術(shù)中的計算核心層，近幾年出現(xiàn)了多種不同的典型大數(shù)據(jù)計算模式，并涌現(xiàn)了一批適應(yīng)這些計算模式的大數(shù)據(jù)計算系統(tǒng)。其中，Hadoop是目前最流行的分布式數(shù)據(jù)和計算框架，其MapReduce是一種典型的大數(shù)據(jù)批處理計算模式，它簡單易用的兩階段Map和Reduce的數(shù)據(jù)處理過程，使其成為主流并行計算模式。但在本文中，我們選取了Apache Spark，Spark為了克服MapRe?duce缺乏對迭代計算模式支持的缺陷，對MapReduce進行了很多改進。目前，在迭代計算方面，Spark是最廣為使用的一個基于分布式內(nèi)存的彈性數(shù)據(jù)集模型的高效迭代計算系統(tǒng)[4]。

4 基于曲線相似度的大數(shù)據(jù)技術(shù)在巖性分析中的應(yīng)用

渤海油田近幾年除了建成數(shù)據(jù)處理中心用于數(shù)據(jù)的存儲、管理和共享之外，還建立了勘探開發(fā)項目知識庫和勘探成果數(shù)據(jù)庫，進行勘探開發(fā)生產(chǎn)活動的參數(shù)采集、數(shù)據(jù)積累與管理。基礎(chǔ)數(shù)據(jù)庫中已經(jīng)存儲了數(shù)千口井的測井曲線相關(guān)數(shù)據(jù)，具備大數(shù)據(jù)分析的數(shù)據(jù)基礎(chǔ)。

4.1 基本原理與流程

科研工作中，不同井的測井曲線形狀存在某種相似性，測井曲線與地層特征間也具有一定的對應(yīng)關(guān)系。因此，通過利用測井曲線數(shù)據(jù)進行相關(guān)分析，根據(jù)給定某一口井深度段的測井曲線組合的形狀，在數(shù)據(jù)庫中快速檢索具有類似曲線組合形狀的井，并根據(jù)測井大數(shù)據(jù)分析算法，精準(zhǔn)擬合出測井曲線與地層特征之間的對應(yīng)關(guān)系，同時根據(jù)命中概率進行巖性的識別。具體包括以下幾步：

（1）搜索具有“相似形態(tài)”的測井曲線（深度段），并按相似度進行排序；

（2）搜索具有某一測井曲線特征的老井，使用新的技術(shù)方法重新認(rèn)識老井；

（3）搜索、統(tǒng)計測井曲線特征與地層特征的對應(yīng)關(guān)系和分布情況，論證科研人員的分析結(jié)果，并為科研人員的研究工作提供輔助支持。

數(shù)據(jù)挖掘的具體過程中利用分類與預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則、偏差檢測等方法，發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系，用以解決實際問題。基本過程包括：定義挖掘目標(biāo)、數(shù)據(jù)取樣、數(shù)據(jù)預(yù)處理、挖掘建模和模型評價，基本過程如下圖1所示。

4.2 底層Apache Spark 并行計算平臺搭建

在具體的數(shù)據(jù)分析與計算過程中，我們首先要搭建計算平臺，Apache Spark 并行計算平臺的邏輯結(jié)構(gòu)，具體如下圖2所示。

主要工作任務(wù)包括：在一個主管理節(jié)點（虛擬機）和多個工作節(jié)點（虛擬機）中，安裝和調(diào)試ApacheSpark運行環(huán)境；配置運行參數(shù)，包括網(wǎng)絡(luò)參數(shù)、CPU資源分配策略、內(nèi)存資源分配策略等。

4.3 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)收集環(huán)節(jié)中，需要準(zhǔn)備原始數(shù)據(jù)，包括測井曲線數(shù)據(jù)和地層巖性數(shù)據(jù)。之后，對數(shù)據(jù)進行規(guī)范化處理，使測井曲線命名一致，并對測井曲線和地層巖性數(shù)據(jù)進行清洗。最后，建立測井曲線的數(shù)據(jù)緩存，將規(guī)范化的測井曲線數(shù)據(jù)在各個工作節(jié)點（虛擬機）上建立分布、多層結(jié)構(gòu)的數(shù)據(jù)緩存，用于加快分析計算的速度。

數(shù)據(jù)準(zhǔn)備工作完成后，再加入?yún)^(qū)域位置信息，形成區(qū)域位置—測井曲線—地層巖性結(jié)構(gòu)的關(guān)系數(shù)據(jù)，最后根據(jù)區(qū)域位置、深度段和測井曲線，分析對應(yīng)區(qū)域位置和深度段的地層巖性的可能性。

4.4 模型建立

首先，對某一口井的測井曲線濾波，平滑測井曲線。通過滑動對比樣本窗口（某一深度段的一組測井曲線），計算測井曲線形狀的相似度，找出最相似的測井曲線的深度段，其原理簡單描述如下：

（1）將需要預(yù)測的目標(biāo)井所選測井曲線的組合形成一個m*n的矩陣（所選的測井曲線數(shù)*所選深度段的采樣點數(shù)）。

（2）目標(biāo)井的m*n數(shù)據(jù)集與數(shù)千口現(xiàn)有井的數(shù)據(jù)集從采樣點初始索引開始的m*n數(shù)據(jù)集比較，并平滑移動逐點計算。

（3）將數(shù)據(jù)進行歸一化處理，并采用均方根算法，計算每條測井曲線間的差異，即相對差異。

（4）結(jié)合其他算法多維度判斷相似度，例如根據(jù)箱形圖（Boxplot）法，排除異常值，最終確定曲線某一深度段的最大值、最小值、平均值等特征值，并進行歸一化處理，然后將多條曲線的特征值進行組合后進行綜合判斷。

（5）將搜索結(jié)果按相似度由高到低進行排序，找出最相似的測井曲線的深度段，形成測井曲線與測井曲線之間的相似度模型。

其次，在搜索結(jié)果的已知巖性數(shù)據(jù)基礎(chǔ)上，通過數(shù)據(jù)挖掘，歸納測井曲線與地層巖性間的關(guān)系特征，推導(dǎo)目標(biāo)深度段的巖性類別，并按概率由高到低進行排序。建立測井曲線樣本與地層巖性間的分布關(guān)系，使用大量的測試數(shù)據(jù)集，驗證和調(diào)整模型。

4.5 速度優(yōu)化

由于參與計算的井超過七千口，數(shù)據(jù)量巨大，且在計算過程中需要滑動樣本點進行逐個計算，由于計算節(jié)點有限，如果僅依賴CPU，每進行一次地層識別將耗費至少十幾分鐘的時間，這在科研過程中是無法接受的。為了保證數(shù)據(jù)的計算速度，代碼編寫中采用OpenCL并行計算技術(shù)結(jié)合GPU進行性能優(yōu)化。OpenCL并行計算技術(shù)是一個通用多CPU、GPU和其他芯片異構(gòu)計算的標(biāo)準(zhǔn)，充分利用GPU強大的并行計算能力以及與CPU的協(xié)同工作，更高效地利用硬件高效地完成大規(guī)模的尤其是并行度高的計算[5]，通過GPU的加速，使得單次的處理時間縮短到了10秒以內(nèi)，優(yōu)化效果顯著。

5 應(yīng)用案例

以某C油田某J井?dāng)?shù)據(jù)為例，通過選取需要預(yù)測的深度段測井曲線數(shù)據(jù)，并選擇需要匹配的曲線，如：GR、ZDEN、CNCF一定范圍內(nèi)的數(shù)值組合，系統(tǒng)通過對所有井的測井?dāng)?shù)據(jù)進行全量的數(shù)據(jù)匹配分析計算，匹配得到有效的測井曲線組合與地層巖性的對應(yīng)關(guān)系，在19 個相似的地層中，有18 個地層都是玄武巖，從而初步判定該深度段巖性大概率與玄武巖具有對應(yīng)關(guān)系。分析過程圖如圖3所示。

實際應(yīng)用中除了概率問題，還需考慮置信度的問題，例如匹配到的井只有3口，而其中兩口巖性相同，這時由于數(shù)據(jù)量太少，無法作為最終判斷依據(jù)，因此，必須將數(shù)據(jù)的總量和數(shù)據(jù)準(zhǔn)確度達到足夠的高度，才能保證應(yīng)用的準(zhǔn)確性。地層巖性分析結(jié)果效果如圖4。

6 結(jié)論

在大數(shù)據(jù)時代，數(shù)據(jù)已經(jīng)成為重要的生產(chǎn)因素，石油和天然氣勘探在數(shù)字化和大數(shù)據(jù)集成上，將會有越來越多的需求，構(gòu)建專業(yè)化的測井大數(shù)據(jù)分析平臺，實現(xiàn)從一口井的單打獨斗，到區(qū)域的多井聯(lián)動，幫助科研人員進行決策，有利于測井?dāng)?shù)據(jù)向地質(zhì)分析、區(qū)域評價和工程應(yīng)用等方向拓展。而本文所探討的基于大數(shù)據(jù)曲線形態(tài)識別的巖性判斷方法，就是針對該需求所做的研究，通過更前沿的大數(shù)據(jù)技術(shù)提高工作效率，是信息化建設(shè)在渤海油田的發(fā)展方向和工作重點。未來隨著數(shù)據(jù)建設(shè)逐步完善，還可利用深度學(xué)習(xí)等人工智能算法進一步優(yōu)化應(yīng)用效果，并進行流體性質(zhì)自動解釋等功能的研究。