亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        采油工程領域的數(shù)據(jù)清洗方法研究

        2023-05-30 16:03:33吳運馳馬慶宋波張永峰
        電腦知識與技術 2023年3期
        關鍵詞:數(shù)據(jù)質(zhì)量

        吳運馳 馬慶 宋波 張永峰

        關鍵詞: 大數(shù)據(jù)分析;油田數(shù)據(jù);數(shù)據(jù)清洗;數(shù)據(jù)質(zhì)量;貝葉斯反演

        中圖分類號:G642 文獻標識碼:A

        文章編號:1009-3044(2023)03-0086-03

        1 引言

        隨著數(shù)據(jù)存儲設備飛速進步,以及分布式計算技術突破性的進展,原本只出現(xiàn)學術領域中的大數(shù)據(jù)、深度學習和人工智能等技術出現(xiàn)在大眾日常生活的各個角落。大慶油田在信息化領域深耕多年,善于利用新技術、新方法提高油田管理水平。將大數(shù)據(jù)技術與油田數(shù)據(jù)相結(jié)合,指導生產(chǎn),降本增效,可以進一步促進大慶油田向智能化、智慧化油田方向轉(zhuǎn)型。大數(shù)據(jù)技術的核心是數(shù)據(jù),數(shù)據(jù)質(zhì)量直接決定了大數(shù)據(jù)分析的效果。

        2 油田數(shù)據(jù)情況

        大慶油田在信息化建設上已經(jīng)布局多年,基礎設施建設較為完善,建立了涵蓋所有數(shù)據(jù)的統(tǒng)建系統(tǒng),實現(xiàn)每日的生產(chǎn)數(shù)據(jù)實時上傳,存儲的數(shù)據(jù)量極大,但這海量的油田數(shù)據(jù),卻不能直接用于大數(shù)據(jù)分析,因為當前數(shù)據(jù)存在以下問題:

        1) 低價值數(shù)據(jù)。隨著石油不斷產(chǎn)出,地下油層環(huán)境會不斷變化,多年前的油水井產(chǎn)油產(chǎn)液數(shù)據(jù)、地質(zhì)數(shù)據(jù)對于現(xiàn)在的產(chǎn)油產(chǎn)液量分析參考價值較低。

        2) 數(shù)據(jù)存儲位置分散。在油田公司推行統(tǒng)建系統(tǒng)之前,部分二級單位已經(jīng)進行了信息化建設,建立了自己的數(shù)據(jù)庫系統(tǒng)和軟件系統(tǒng),并已投入日常使用。在推行統(tǒng)建系統(tǒng)后,存在二級單位繼續(xù)使用原有數(shù)據(jù)庫的情況,許多數(shù)據(jù)分別存儲在二級單位自建的數(shù)據(jù)庫和統(tǒng)建系統(tǒng)中,數(shù)據(jù)獲取難度較大。

        3) 存在缺失值、異常值。隨著大慶油田信息化進程的不斷推進,統(tǒng)建系統(tǒng)中數(shù)據(jù)的完整性、及時性和準確性有了極大提升。但油田信息化早期錄入的數(shù)據(jù),由于當時操作環(huán)境的限制,存在部分數(shù)據(jù)缺失、數(shù)值異常等問題。

        要從這些海量、復雜的數(shù)據(jù)中提取出有價值的數(shù)據(jù),提高大數(shù)據(jù)分析的準確性,關鍵在于高質(zhì)量的數(shù)據(jù)清洗。

        3 常規(guī)數(shù)據(jù)清洗方法

        針對這些數(shù)據(jù)量大、格式不一、包含重復值和缺失值的數(shù)據(jù),常規(guī)的數(shù)據(jù)清洗方法通常包括:

        1) 定期更新。通過連接目標數(shù)據(jù)庫,設置定時任務,不斷獲取最新數(shù)據(jù),為之后的數(shù)據(jù)清洗、分析、預測提供良好的數(shù)據(jù)支持。

        2) 統(tǒng)一格式。將日期、數(shù)值、全半角、大小寫等顯示格式進行統(tǒng)一化處理,將原有列名修改為對應的中文名,去除數(shù)據(jù)中的空格。

        3) 清理無效數(shù)據(jù)。由重復錄入導致的重復數(shù)據(jù),明顯超出有意義的范圍的數(shù)據(jù),經(jīng)過對比驗證后,直接去除。

        4) 缺失值填充。通過同類數(shù)據(jù)的均值、中位數(shù)或眾數(shù)進行填充,關聯(lián)性弱的缺失數(shù)據(jù)也可假定為0,或從數(shù)據(jù)來源的相關材料中提取補充。

        通過常規(guī)數(shù)據(jù)清洗方法處理的油田數(shù)據(jù),在使用大數(shù)據(jù)方法分析預測后,預測結(jié)果缺少明顯的規(guī)律,效果較差。通過對處理后的數(shù)據(jù)進行比對后發(fā)現(xiàn),由于油田統(tǒng)建系統(tǒng)中包含的業(yè)務類型復雜,并包含大量空數(shù)據(jù),常規(guī)的數(shù)據(jù)清洗方法無法進行有效處理,導致最終結(jié)果不佳。

        4 采油工程領域的數(shù)據(jù)清洗方法

        對于常規(guī)數(shù)據(jù)清洗方法在油田數(shù)據(jù)的處理過程中遇到的難點,通過對數(shù)據(jù)范圍,數(shù)據(jù)格式及缺失數(shù)據(jù)的深入研究,設計出一套針對性的處理方案,解決采油工程領域的數(shù)據(jù)清洗問題,并在壓裂措施數(shù)據(jù)的處理上進行應用。

        4.1 確定數(shù)據(jù)范圍

        大慶油田的統(tǒng)建系統(tǒng)中,包含了油田相關的所有數(shù)據(jù)類型,上千張數(shù)據(jù)表,部分數(shù)據(jù)項之間沒有任何業(yè)務關聯(lián),不同數(shù)據(jù)表中的相同名稱的數(shù)據(jù)項還會起到干擾作用,需要結(jié)合待分析業(yè)務的業(yè)務方式,選擇與之相對應的數(shù)據(jù)表。

        在壓裂措施效果數(shù)據(jù)的選擇上,通過與實際壓裂業(yè)務相結(jié)合,選取了地質(zhì)參數(shù)、井史數(shù)據(jù)、層位信息、生產(chǎn)數(shù)據(jù)、增產(chǎn)措施參數(shù)等20余張數(shù)據(jù)表,114項數(shù)據(jù)字段。

        4.2 數(shù)據(jù)表合并

        壓裂措施效果通常以單井數(shù)據(jù)前后變化進行分析,所有相關數(shù)據(jù)需要通過井號串聯(lián)在一起,而地層數(shù)據(jù)、井數(shù)據(jù)、生產(chǎn)數(shù)據(jù)的維度不同,需要增加和減少維度實現(xiàn)井號與相關數(shù)據(jù)項的一一對應。

        1) 壓裂數(shù)據(jù)處理

        使用“井號/壓裂日期/施工井段頂深/施工井段底深”產(chǎn)生聯(lián)合索引并分組聚合,對數(shù)值型數(shù)據(jù)求和處理;

        聯(lián)合索引增加壓裂類型、壓裂液名稱、支撐劑名稱、壓裂液類型、廠名信息,重新分組聚合,對string類型數(shù)據(jù)進行合并處理;將處理后的數(shù)值型數(shù)據(jù)和字符型數(shù)據(jù)進行合并操作。

        2) 地層數(shù)據(jù)選取與處理

        通過井號將層位數(shù)據(jù)和射孔數(shù)據(jù)合并,計算合并結(jié)果中“| 砂巖頂深”-“井段頂深”|,差值絕對值結(jié)果小于等于0.2,采用層位表對應數(shù)據(jù),差值大于0.2,則使用射孔表中的對應數(shù)據(jù)。

        3) 壓裂與地層數(shù)據(jù)合成處理

        將之前處理好的壓裂數(shù)據(jù)與地層數(shù)據(jù)通過井號進行合并;

        用“井號”“/ 施工井段頂深”“/ 施工井段底深”生成新數(shù)據(jù)字段“index”;

        將“index”和“有效厚度”兩列數(shù)據(jù)按照“index”進行分組加和操作,合成新的有效厚度;

        將滲透率、孔隙度、含油飽和度與有效厚度的乘積,分別與“index”進行分組加和,得到的結(jié)果與新生成的有效厚度相除,合成新的滲透率、孔隙度與含油飽和度;

        將上述步驟生成的新表與壓裂數(shù)據(jù)通過“index”進行合并,去除存在空值的行數(shù)據(jù)即完成壓裂地層數(shù)據(jù)合并。

        4) 壓裂地層數(shù)據(jù)與井史數(shù)據(jù)合并

        通過壓裂地層表中的井號對井史生產(chǎn)數(shù)據(jù)進行篩選;根據(jù)壓裂地層表中的“壓裂日期”信息,對已經(jīng)按照井號篩選出來的井史數(shù)據(jù)進行再次篩選,計算出7天、180天、360天的各種產(chǎn)量數(shù)據(jù);將計算出的產(chǎn)量數(shù)據(jù)與壓裂地層表合并,得到最終的壓裂數(shù)據(jù)總表。

        4.3 相關性分析

        由于數(shù)據(jù)表中存在大量缺失數(shù)據(jù),對缺失數(shù)據(jù)的處理方法尤為重要,與業(yè)務關聯(lián)性高的數(shù)據(jù)要重點處理,關聯(lián)性不強的數(shù)據(jù)根據(jù)后續(xù)分析結(jié)果再決定是否補全。

        判斷數(shù)據(jù)項的重要性,必須明確待分析的對象,及分析結(jié)果的評價標準。壓裂效果是否良好,注重的是壓后產(chǎn)量情況,通過皮爾遜系數(shù)和協(xié)方差進行相關性分析,將壓后產(chǎn)量數(shù)據(jù)作為目標值,將其他數(shù)據(jù)與產(chǎn)量數(shù)據(jù)的相關性進行排序,通過排序結(jié)果劃分字段的重要程度。

        4.4 缺失值處理

        結(jié)合相關性分析結(jié)果與缺失值處理策略,制定了三種缺失值填充方法:均值填充、業(yè)務資料填充、貝葉斯反演填充。

        4.4.1 均值填充

        孔隙度、滲透率、含油飽和度、有效厚度等地層數(shù)據(jù),在相同區(qū)塊,相同層位數(shù)據(jù)基本一致。使用區(qū)塊、層位數(shù)據(jù)進行篩選,將相同區(qū)塊、層位的缺失數(shù)據(jù)以已有數(shù)據(jù)的均值進行填充。

        4.4.2 業(yè)務資料填充

        壓裂措施數(shù)據(jù)中壓裂液名稱、壓裂液用量、壓裂類型等缺失數(shù)據(jù),可以通過壓裂井的設計、施工總結(jié)等文檔材料進行填充。

        4.4.3 貝葉斯反演填充

        反演是指由結(jié)果出發(fā)去確定參數(shù),解決參數(shù)無法直接獲取的難題,一個優(yōu)秀的反演模型,可以通過產(chǎn)量數(shù)據(jù)推算出地層數(shù)據(jù)及措施數(shù)據(jù)。貝葉斯反演的優(yōu)勢:

        1) 充分利用先驗知識,可以用多維概率密度函數(shù)的形式(例如高斯分布)來描述模型參數(shù)的先驗知識。

        2) 在先驗信息的背景上,根據(jù)觀測數(shù)據(jù),縮小模型參數(shù)的分布范圍,獲得反演問題的解的后驗概率密度分布。

        3) 后驗概率分布揭示了模型參數(shù)值的最可能分布。

        貝葉斯定理:

        P(m):模型參數(shù)的先驗概率分布;

        P(d):地質(zhì)條件的先驗概率分布,可視作常數(shù);

        P(d | m):給定模型參數(shù)條件下的似然概率;

        σ(m | d):組合先驗信息和似然概率得到的模型參數(shù)后驗概率;

        反演結(jié)果是否在合理的范圍內(nèi),通過模型的均值、方差和后驗概率分布來評價和預測反演結(jié)果,徹底脫離對人工判定的依賴。

        貝葉斯反演方法的主要流程如下:

        1) 根據(jù)地質(zhì)參數(shù)、措施參數(shù)和生產(chǎn)數(shù)據(jù)的相關性,確定出反演模型的先驗概率分布;

        2) 將參數(shù)的先驗概率分布作為約束條件,建立初始模型;

        3) 使用模型進行正演模擬,并計算模擬結(jié)果與觀測數(shù)據(jù)的能量值及似然函數(shù);

        4) 如果模型結(jié)果符合要求,則保存模型,然后修改模型參數(shù)建立新模型;

        重復步驟3、4得到更多的模型樣本。

        對所有反演出的模型樣本進行統(tǒng)計計算,得到模型的均值、方差和后驗概率分布;

        最終得到的均值模型與原始模型的相關性高,在數(shù)據(jù)有噪聲的情況下仍能給出準確的結(jié)果。

        通過上述針對采油工程領域數(shù)據(jù)的清理方法,將原本位置散亂、缺失值多、格式各異的油田數(shù)據(jù)整理為種類多、相關性強、數(shù)據(jù)量大的優(yōu)質(zhì)數(shù)據(jù),對壓裂措施效果進行分析預測時,較未處理的數(shù)據(jù),分析結(jié)果準確性有顯著提升。

        5 結(jié)論

        高質(zhì)量的數(shù)據(jù)清洗是利用大數(shù)據(jù)技術輔助決策者做出正確策略的重要前提。目前國內(nèi)外現(xiàn)有的數(shù)據(jù)清洗方法往往是應對常見數(shù)據(jù)的通用方法,在對海量多源異構(gòu)的油田數(shù)據(jù)的處理上,效果不佳。結(jié)合采油工程領域的專業(yè)知識,通過數(shù)據(jù)范圍選取、數(shù)據(jù)格式整理及缺失數(shù)據(jù)填充,形成了一套針對采油工程領域的數(shù)據(jù)清洗方法。

        結(jié)果表明,本文方案對油田數(shù)據(jù)進行處理后,對比普通數(shù)據(jù)清洗方法,在大數(shù)據(jù)分析預測中具有明顯優(yōu)勢。

        猜你喜歡
        數(shù)據(jù)質(zhì)量
        電子商務平臺數(shù)據(jù)質(zhì)量控制系統(tǒng)及仿真模型分析
        基于大數(shù)據(jù)背景下提高供電局數(shù)據(jù)質(zhì)量對策分析
        強化統(tǒng)計執(zhí)法提高數(shù)據(jù)質(zhì)量
        淺析統(tǒng)計數(shù)據(jù)質(zhì)量
        中國市場(2016年40期)2016-11-28 04:58:19
        金融統(tǒng)計數(shù)據(jù)質(zhì)量管理的國際借鑒與中國實踐
        時代金融(2016年27期)2016-11-25 19:02:25
        淺談統(tǒng)計數(shù)據(jù)質(zhì)量控制
        提高政府統(tǒng)計數(shù)據(jù)質(zhì)量,增強政府公信力
        企業(yè)統(tǒng)計工作之我見
        統(tǒng)計學在質(zhì)量管理中的應用研究
        商(2016年13期)2016-05-20 09:28:35
        關于突發(fā)環(huán)境事件應急監(jiān)測的問題分析及措施
        人妻1024手机看片你懂的| 国产精品久久久久久久久KTV | 2021年国产精品每日更新| 国产高清一区二区三区视频| 极品粉嫩小仙女高潮喷水操av| 国产精品成人3p一区二区三区| 亚洲男人天堂| 亚洲一区不卡在线导航| 国产精品亚洲一区二区三区在线| 国产精品无码一区二区三区电影| 欧美巨大xxxx做受l| 美女裸体无遮挡免费视频国产| 天涯成人国产亚洲精品一区av| 久久精品国产精品亚洲| 中文字幕亚洲乱码熟女在线萌芽| 久久午夜无码鲁丝片直播午夜精品 | 91亚洲无码在线观看| 又爽又猛又大又湿的视频| 蜜桃视频免费进入观看| 日日摸日日碰夜夜爽无码| 国产v综合v亚洲欧美大天堂 | 日本区一区二区三视频| 骚片av蜜桃精品一区| 老熟妇Av| 美女丝袜诱惑在线播放蜜桃| 久久天天躁夜夜躁狠狠| 色婷婷欧美在线播放内射| 久久精品国产亚洲片| 亚洲一区二区三区中文字幕网| 欧洲熟妇色 欧美| 免费国产黄线在线播放| 成人影院羞羞的视频免费观看 | 中文字幕精品久久久久人妻红杏ⅰ | 日韩美腿丝袜三区四区| 性色av免费网站| 无码国产精品一区二区免| 久久国产精品免费久久久| 免费无码又爽又高潮视频| 无码国产精品一区二区免费16| 日本道免费一区日韩精品| 欧美牲交a欧美牲交|