吳運馳 馬慶 宋波 張永峰
關鍵詞: 大數(shù)據(jù)分析;油田數(shù)據(jù);數(shù)據(jù)清洗;數(shù)據(jù)質(zhì)量;貝葉斯反演
中圖分類號:G642 文獻標識碼:A
文章編號:1009-3044(2023)03-0086-03
1 引言
隨著數(shù)據(jù)存儲設備飛速進步,以及分布式計算技術突破性的進展,原本只出現(xiàn)學術領域中的大數(shù)據(jù)、深度學習和人工智能等技術出現(xiàn)在大眾日常生活的各個角落。大慶油田在信息化領域深耕多年,善于利用新技術、新方法提高油田管理水平。將大數(shù)據(jù)技術與油田數(shù)據(jù)相結(jié)合,指導生產(chǎn),降本增效,可以進一步促進大慶油田向智能化、智慧化油田方向轉(zhuǎn)型。大數(shù)據(jù)技術的核心是數(shù)據(jù),數(shù)據(jù)質(zhì)量直接決定了大數(shù)據(jù)分析的效果。
2 油田數(shù)據(jù)情況
大慶油田在信息化建設上已經(jīng)布局多年,基礎設施建設較為完善,建立了涵蓋所有數(shù)據(jù)的統(tǒng)建系統(tǒng),實現(xiàn)每日的生產(chǎn)數(shù)據(jù)實時上傳,存儲的數(shù)據(jù)量極大,但這海量的油田數(shù)據(jù),卻不能直接用于大數(shù)據(jù)分析,因為當前數(shù)據(jù)存在以下問題:
1) 低價值數(shù)據(jù)。隨著石油不斷產(chǎn)出,地下油層環(huán)境會不斷變化,多年前的油水井產(chǎn)油產(chǎn)液數(shù)據(jù)、地質(zhì)數(shù)據(jù)對于現(xiàn)在的產(chǎn)油產(chǎn)液量分析參考價值較低。
2) 數(shù)據(jù)存儲位置分散。在油田公司推行統(tǒng)建系統(tǒng)之前,部分二級單位已經(jīng)進行了信息化建設,建立了自己的數(shù)據(jù)庫系統(tǒng)和軟件系統(tǒng),并已投入日常使用。在推行統(tǒng)建系統(tǒng)后,存在二級單位繼續(xù)使用原有數(shù)據(jù)庫的情況,許多數(shù)據(jù)分別存儲在二級單位自建的數(shù)據(jù)庫和統(tǒng)建系統(tǒng)中,數(shù)據(jù)獲取難度較大。
3) 存在缺失值、異常值。隨著大慶油田信息化進程的不斷推進,統(tǒng)建系統(tǒng)中數(shù)據(jù)的完整性、及時性和準確性有了極大提升。但油田信息化早期錄入的數(shù)據(jù),由于當時操作環(huán)境的限制,存在部分數(shù)據(jù)缺失、數(shù)值異常等問題。
要從這些海量、復雜的數(shù)據(jù)中提取出有價值的數(shù)據(jù),提高大數(shù)據(jù)分析的準確性,關鍵在于高質(zhì)量的數(shù)據(jù)清洗。
3 常規(guī)數(shù)據(jù)清洗方法
針對這些數(shù)據(jù)量大、格式不一、包含重復值和缺失值的數(shù)據(jù),常規(guī)的數(shù)據(jù)清洗方法通常包括:
1) 定期更新。通過連接目標數(shù)據(jù)庫,設置定時任務,不斷獲取最新數(shù)據(jù),為之后的數(shù)據(jù)清洗、分析、預測提供良好的數(shù)據(jù)支持。
2) 統(tǒng)一格式。將日期、數(shù)值、全半角、大小寫等顯示格式進行統(tǒng)一化處理,將原有列名修改為對應的中文名,去除數(shù)據(jù)中的空格。
3) 清理無效數(shù)據(jù)。由重復錄入導致的重復數(shù)據(jù),明顯超出有意義的范圍的數(shù)據(jù),經(jīng)過對比驗證后,直接去除。
4) 缺失值填充。通過同類數(shù)據(jù)的均值、中位數(shù)或眾數(shù)進行填充,關聯(lián)性弱的缺失數(shù)據(jù)也可假定為0,或從數(shù)據(jù)來源的相關材料中提取補充。
通過常規(guī)數(shù)據(jù)清洗方法處理的油田數(shù)據(jù),在使用大數(shù)據(jù)方法分析預測后,預測結(jié)果缺少明顯的規(guī)律,效果較差。通過對處理后的數(shù)據(jù)進行比對后發(fā)現(xiàn),由于油田統(tǒng)建系統(tǒng)中包含的業(yè)務類型復雜,并包含大量空數(shù)據(jù),常規(guī)的數(shù)據(jù)清洗方法無法進行有效處理,導致最終結(jié)果不佳。
4 采油工程領域的數(shù)據(jù)清洗方法
對于常規(guī)數(shù)據(jù)清洗方法在油田數(shù)據(jù)的處理過程中遇到的難點,通過對數(shù)據(jù)范圍,數(shù)據(jù)格式及缺失數(shù)據(jù)的深入研究,設計出一套針對性的處理方案,解決采油工程領域的數(shù)據(jù)清洗問題,并在壓裂措施數(shù)據(jù)的處理上進行應用。
4.1 確定數(shù)據(jù)范圍
大慶油田的統(tǒng)建系統(tǒng)中,包含了油田相關的所有數(shù)據(jù)類型,上千張數(shù)據(jù)表,部分數(shù)據(jù)項之間沒有任何業(yè)務關聯(lián),不同數(shù)據(jù)表中的相同名稱的數(shù)據(jù)項還會起到干擾作用,需要結(jié)合待分析業(yè)務的業(yè)務方式,選擇與之相對應的數(shù)據(jù)表。
在壓裂措施效果數(shù)據(jù)的選擇上,通過與實際壓裂業(yè)務相結(jié)合,選取了地質(zhì)參數(shù)、井史數(shù)據(jù)、層位信息、生產(chǎn)數(shù)據(jù)、增產(chǎn)措施參數(shù)等20余張數(shù)據(jù)表,114項數(shù)據(jù)字段。
4.2 數(shù)據(jù)表合并
壓裂措施效果通常以單井數(shù)據(jù)前后變化進行分析,所有相關數(shù)據(jù)需要通過井號串聯(lián)在一起,而地層數(shù)據(jù)、井數(shù)據(jù)、生產(chǎn)數(shù)據(jù)的維度不同,需要增加和減少維度實現(xiàn)井號與相關數(shù)據(jù)項的一一對應。
1) 壓裂數(shù)據(jù)處理
使用“井號/壓裂日期/施工井段頂深/施工井段底深”產(chǎn)生聯(lián)合索引并分組聚合,對數(shù)值型數(shù)據(jù)求和處理;
聯(lián)合索引增加壓裂類型、壓裂液名稱、支撐劑名稱、壓裂液類型、廠名信息,重新分組聚合,對string類型數(shù)據(jù)進行合并處理;將處理后的數(shù)值型數(shù)據(jù)和字符型數(shù)據(jù)進行合并操作。
2) 地層數(shù)據(jù)選取與處理
通過井號將層位數(shù)據(jù)和射孔數(shù)據(jù)合并,計算合并結(jié)果中“| 砂巖頂深”-“井段頂深”|,差值絕對值結(jié)果小于等于0.2,采用層位表對應數(shù)據(jù),差值大于0.2,則使用射孔表中的對應數(shù)據(jù)。
3) 壓裂與地層數(shù)據(jù)合成處理
將之前處理好的壓裂數(shù)據(jù)與地層數(shù)據(jù)通過井號進行合并;
用“井號”“/ 施工井段頂深”“/ 施工井段底深”生成新數(shù)據(jù)字段“index”;
將“index”和“有效厚度”兩列數(shù)據(jù)按照“index”進行分組加和操作,合成新的有效厚度;
將滲透率、孔隙度、含油飽和度與有效厚度的乘積,分別與“index”進行分組加和,得到的結(jié)果與新生成的有效厚度相除,合成新的滲透率、孔隙度與含油飽和度;
將上述步驟生成的新表與壓裂數(shù)據(jù)通過“index”進行合并,去除存在空值的行數(shù)據(jù)即完成壓裂地層數(shù)據(jù)合并。
4) 壓裂地層數(shù)據(jù)與井史數(shù)據(jù)合并
通過壓裂地層表中的井號對井史生產(chǎn)數(shù)據(jù)進行篩選;根據(jù)壓裂地層表中的“壓裂日期”信息,對已經(jīng)按照井號篩選出來的井史數(shù)據(jù)進行再次篩選,計算出7天、180天、360天的各種產(chǎn)量數(shù)據(jù);將計算出的產(chǎn)量數(shù)據(jù)與壓裂地層表合并,得到最終的壓裂數(shù)據(jù)總表。
4.3 相關性分析
由于數(shù)據(jù)表中存在大量缺失數(shù)據(jù),對缺失數(shù)據(jù)的處理方法尤為重要,與業(yè)務關聯(lián)性高的數(shù)據(jù)要重點處理,關聯(lián)性不強的數(shù)據(jù)根據(jù)后續(xù)分析結(jié)果再決定是否補全。
判斷數(shù)據(jù)項的重要性,必須明確待分析的對象,及分析結(jié)果的評價標準。壓裂效果是否良好,注重的是壓后產(chǎn)量情況,通過皮爾遜系數(shù)和協(xié)方差進行相關性分析,將壓后產(chǎn)量數(shù)據(jù)作為目標值,將其他數(shù)據(jù)與產(chǎn)量數(shù)據(jù)的相關性進行排序,通過排序結(jié)果劃分字段的重要程度。
4.4 缺失值處理
結(jié)合相關性分析結(jié)果與缺失值處理策略,制定了三種缺失值填充方法:均值填充、業(yè)務資料填充、貝葉斯反演填充。
4.4.1 均值填充
孔隙度、滲透率、含油飽和度、有效厚度等地層數(shù)據(jù),在相同區(qū)塊,相同層位數(shù)據(jù)基本一致。使用區(qū)塊、層位數(shù)據(jù)進行篩選,將相同區(qū)塊、層位的缺失數(shù)據(jù)以已有數(shù)據(jù)的均值進行填充。
4.4.2 業(yè)務資料填充
壓裂措施數(shù)據(jù)中壓裂液名稱、壓裂液用量、壓裂類型等缺失數(shù)據(jù),可以通過壓裂井的設計、施工總結(jié)等文檔材料進行填充。
4.4.3 貝葉斯反演填充
反演是指由結(jié)果出發(fā)去確定參數(shù),解決參數(shù)無法直接獲取的難題,一個優(yōu)秀的反演模型,可以通過產(chǎn)量數(shù)據(jù)推算出地層數(shù)據(jù)及措施數(shù)據(jù)。貝葉斯反演的優(yōu)勢:
1) 充分利用先驗知識,可以用多維概率密度函數(shù)的形式(例如高斯分布)來描述模型參數(shù)的先驗知識。
2) 在先驗信息的背景上,根據(jù)觀測數(shù)據(jù),縮小模型參數(shù)的分布范圍,獲得反演問題的解的后驗概率密度分布。
3) 后驗概率分布揭示了模型參數(shù)值的最可能分布。
貝葉斯定理:
P(m):模型參數(shù)的先驗概率分布;
P(d):地質(zhì)條件的先驗概率分布,可視作常數(shù);
P(d | m):給定模型參數(shù)條件下的似然概率;
σ(m | d):組合先驗信息和似然概率得到的模型參數(shù)后驗概率;
反演結(jié)果是否在合理的范圍內(nèi),通過模型的均值、方差和后驗概率分布來評價和預測反演結(jié)果,徹底脫離對人工判定的依賴。
貝葉斯反演方法的主要流程如下:
1) 根據(jù)地質(zhì)參數(shù)、措施參數(shù)和生產(chǎn)數(shù)據(jù)的相關性,確定出反演模型的先驗概率分布;
2) 將參數(shù)的先驗概率分布作為約束條件,建立初始模型;
3) 使用模型進行正演模擬,并計算模擬結(jié)果與觀測數(shù)據(jù)的能量值及似然函數(shù);
4) 如果模型結(jié)果符合要求,則保存模型,然后修改模型參數(shù)建立新模型;
重復步驟3、4得到更多的模型樣本。
對所有反演出的模型樣本進行統(tǒng)計計算,得到模型的均值、方差和后驗概率分布;
最終得到的均值模型與原始模型的相關性高,在數(shù)據(jù)有噪聲的情況下仍能給出準確的結(jié)果。
通過上述針對采油工程領域數(shù)據(jù)的清理方法,將原本位置散亂、缺失值多、格式各異的油田數(shù)據(jù)整理為種類多、相關性強、數(shù)據(jù)量大的優(yōu)質(zhì)數(shù)據(jù),對壓裂措施效果進行分析預測時,較未處理的數(shù)據(jù),分析結(jié)果準確性有顯著提升。
5 結(jié)論
高質(zhì)量的數(shù)據(jù)清洗是利用大數(shù)據(jù)技術輔助決策者做出正確策略的重要前提。目前國內(nèi)外現(xiàn)有的數(shù)據(jù)清洗方法往往是應對常見數(shù)據(jù)的通用方法,在對海量多源異構(gòu)的油田數(shù)據(jù)的處理上,效果不佳。結(jié)合采油工程領域的專業(yè)知識,通過數(shù)據(jù)范圍選取、數(shù)據(jù)格式整理及缺失數(shù)據(jù)填充,形成了一套針對采油工程領域的數(shù)據(jù)清洗方法。
結(jié)果表明,本文方案對油田數(shù)據(jù)進行處理后,對比普通數(shù)據(jù)清洗方法,在大數(shù)據(jù)分析預測中具有明顯優(yōu)勢。