亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術(shù)應(yīng)用下基于決策樹模型的油水井生產(chǎn)異常狀況管理

        2022-09-23 09:25:46李婧璇
        中國管理信息化 2022年14期
        關(guān)鍵詞:分類生產(chǎn)模型

        李婧璇

        (中國石油大港油田信息中心,天津 300280)

        0 引言

        隨著信息化的發(fā)展,石油勘探開發(fā)中逐漸大規(guī)模應(yīng)用計算機(jī)網(wǎng)絡(luò)、智能控制和數(shù)據(jù)挖掘等新興技術(shù)來實現(xiàn)高效管理。然而,當(dāng)前數(shù)字化系統(tǒng)存在信息共享性差、數(shù)據(jù)綜合應(yīng)用率低、報警準(zhǔn)確率低等問題。對此,不少石油企業(yè)以數(shù)字油田為基礎(chǔ)逐漸向智能油田建設(shè)方向發(fā)展。其智能決策控制中心通過分析大數(shù)據(jù),實時進(jìn)行資源合理調(diào)配、異常狀況判斷和生產(chǎn)風(fēng)險預(yù)警,從而實現(xiàn)油田資產(chǎn)的智能化開發(fā)和管理。油水井生產(chǎn)異常狀況診斷和管理系統(tǒng)是智能油田建設(shè)的一項具體應(yīng)用,主要針對注采井組進(jìn)行動態(tài)分析。注采井組是以注水井為中心,聯(lián)系周圍的油井和水井共同構(gòu)成的油田開發(fā)基本單元。該系統(tǒng)可以實現(xiàn)井組實時診斷檢測、提出相應(yīng)管理措施、跟蹤進(jìn)度等功能。

        數(shù)據(jù)挖掘指的是從已有數(shù)據(jù)庫大體量、有損壞且具體含義模糊的實際數(shù)據(jù)中進(jìn)行抽取、轉(zhuǎn)換、分析以及模塊化處理,發(fā)現(xiàn)其中具有潛在價值的可歸納信息的過程。數(shù)據(jù)挖掘過程中需要保證數(shù)據(jù)統(tǒng)計的有效性及準(zhǔn)確性。決策樹作為一種預(yù)測模型,代表的是對象屬性與對象值之間的映射關(guān)系。決策樹模型算法簡單,仿真結(jié)果準(zhǔn)確率高,易于理解和使用,常用于生產(chǎn)故障預(yù)測和目標(biāo)追蹤檢測等。本研究以數(shù)據(jù)挖掘技術(shù)中的決策樹模型來構(gòu)建系統(tǒng)的核心診斷算法?;诰M生產(chǎn)中的實時數(shù)據(jù),工作人員可以通過決策樹模型對生產(chǎn)異常狀況作出判斷和管理,還可以對歷史數(shù)據(jù)進(jìn)行分析,設(shè)置保護(hù)設(shè)定值,對各類生產(chǎn)異常相關(guān)的指標(biāo)進(jìn)行預(yù)警監(jiān)測。模型性能優(yōu)異,分類精確度高,能夠保障生產(chǎn)穩(wěn)定安全,為油水井生產(chǎn)異常狀況管理提供參考。

        1 油水井生產(chǎn)異常狀況診斷模型的構(gòu)建

        1.1 CART 決策樹

        油水井生產(chǎn)異常狀況診斷模型屬于分類模型,決策樹算法挖掘出的分類規(guī)則準(zhǔn)確性高且易于理解,算法運算速度快。因此,本文選擇使用分類回歸樹(Classification and Regression Tree,CART)決策樹對油水井生產(chǎn)數(shù)據(jù)進(jìn)行分析,初步建立生產(chǎn)異常狀況診斷模型。CART 決策樹由根節(jié)點、中間節(jié)點和葉節(jié)點構(gòu)成,通過計算基尼系數(shù)增益來確定分割點,采用二元分割法對數(shù)據(jù)進(jìn)行分類,最終形成分類二叉樹。相較于其他決策樹,CART 決策樹在分析大規(guī)模樣本時不用進(jìn)行大量的排序運算和對數(shù)運算,運算效率更高。

        隨機(jī)變量x 對應(yīng)i 種狀態(tài)下的概率為p,p,…,p,使用基尼指數(shù)(Gini index)來選擇最佳的節(jié)點劃分特征?;嶂笖?shù)代表屬性分類的不確定性,值越小,代表不確定性越低。兩點分布的隨機(jī)變量x 的基尼指數(shù)為:

        式(1)中,Gini 代表基尼指數(shù),p代表樣本屬于i 類別的概率,1-p代表樣本錯誤分類的概率。

        對于訓(xùn)練數(shù)據(jù)集A,假設(shè)有j 個類別,而C代表第j 類樣本的子集,|A|為A 的大小,|C|為C的大小,則集合A 的基尼指數(shù)為:

        假設(shè)數(shù)據(jù)集A 被特征L 劃分,若L 是離散型,則由L 的某個可能值l 將A 劃分為A、A:

        若L 為連續(xù)型,則可以得到Gini(A,L):

        A、A表示數(shù)據(jù)集A 被特征屬性L 的最佳分割點分割后的兩部分,|A|、|A|分別表示A、A中樣本的個數(shù)。Gini(A,L)取值越大,樣本數(shù)據(jù)集被標(biāo)簽劃分的不確定性就越高,因此,對于CART 決策樹,可以選擇Gini(A,L)的最小值作為最佳分割點。

        1.2 基于提升方法優(yōu)化的CART 決策樹

        本文引入提升算法提升決策樹分類精度,在初步構(gòu)建完成CART 決策樹后改變樣本權(quán)重,構(gòu)建新的訓(xùn)練集得到一系列弱分類二叉樹{T,T,T,…,T},將其進(jìn)行加性組合,最終得到一個更加穩(wěn)定高效的強(qiáng)分類二叉樹F。

        第n 個弱分類器的誤差率E為:

        式(5)中,W表示第n 個弱分類器、第m 個樣本的權(quán)重;T(m)表示數(shù)據(jù)集A 的第m 個樣本經(jīng)弱分類器T分類后得到的值;y表示樣本真實值;I 為指示函數(shù),取值為0 或1;N 為樣本集A 的樣本個數(shù)。當(dāng)預(yù)測值T(m)=真實值y時為0,當(dāng)預(yù)測值T(m)≠真實值y時為1。

        分類器加性組合系數(shù)α為:

        權(quán)重W為:

        規(guī)范因子Z為:

        最終的強(qiáng)分類器函數(shù)表達(dá)式為:

        F對數(shù)據(jù)集的誤分類次數(shù)達(dá)到最低值時,新的弱分類器即停止構(gòu)建。

        1.3 原始數(shù)據(jù)來源及預(yù)處理

        本文所使用的原始數(shù)據(jù)來源于某油田注采井組施工現(xiàn)場各底層傳感器采集的生產(chǎn)動態(tài)資料,具體包括產(chǎn)能資料、壓力資料、水淹狀況資料、原油和水的物性資料以及井下作業(yè)資料等。

        將原始數(shù)據(jù)按照生產(chǎn)時間保存日志文件,通過編程進(jìn)行解析。對解析后得到的數(shù)據(jù)中重復(fù)、缺失和有明顯錯誤的數(shù)據(jù)分別采取合并、臨近數(shù)值補全和直接舍棄的措施進(jìn)行初步處理。從不同時間段隨機(jī)抽取2020—2021 年生產(chǎn)正常時的數(shù)據(jù)4 500 組,等概率抽取2020—2021 年生產(chǎn)異常時的數(shù)據(jù)3 500 組共同組成數(shù)據(jù)集A。將數(shù)據(jù)集中的正常數(shù)據(jù)和異常數(shù)據(jù)進(jìn)行隨機(jī)混合,將其中的5 000 組數(shù)據(jù)作為訓(xùn)練集,剩下的3 000 組數(shù)據(jù)作為測試集。利用CART 決策樹模型對訓(xùn)練集進(jìn)行訓(xùn)練。

        2 模型實驗結(jié)果

        油水井生產(chǎn)異常狀況可以細(xì)化為決策樹深度為9的二叉樹,且在輸入因素中,電網(wǎng)波動、電潛泵控制柜故障、地層壓力、含水變化、原油相對密度黏度和施工單位規(guī)模這6 個因素集中在決策樹中的前3 層,表明這些因素對油水井生產(chǎn)影響較大。為了進(jìn)一步清晰地展示油水井生產(chǎn)異常狀況的具體分類預(yù)測情況,本文根據(jù)決策樹細(xì)化了生產(chǎn)異常因素分類規(guī)則及其樣本分布,部分樣本數(shù)量較多的分類情況如表1 所示。

        表1 部分油水井生產(chǎn)異常狀況的分類規(guī)則及樣本分布情況

        學(xué)習(xí)率是機(jī)器學(xué)習(xí)中重要的超參數(shù),合適的學(xué)習(xí)率能夠使模型在一定時間內(nèi)收斂到局部最小值,達(dá)到最優(yōu)性能。根據(jù)實驗結(jié)果,本文繪制了強(qiáng)分類器分類精確度與學(xué)習(xí)率關(guān)系曲線以及受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC 曲線),具體如圖1 所示。

        圖1 強(qiáng)分類器ROC 曲線及精確度與學(xué)習(xí)率關(guān)系曲線

        理論上,學(xué)習(xí)率的取值也會影響強(qiáng)分類器分類精度,但在實際測試中,學(xué)習(xí)率變化對分類精度的影響較小。圖1 中可以看出在學(xué)習(xí)率為[0,0.1]時,分類器處于欠擬合狀態(tài);學(xué)習(xí)率大于0.1 后,分類精度逐漸增高后降低;當(dāng)學(xué)習(xí)率取0.8 時精度最大,為87%,此時ROC 曲線如圖1 所示。ROC 曲線中越靠近圖1 左上角,模型預(yù)測結(jié)果越準(zhǔn)確,曲線下面積(Area Under Curve,AUC)約為0.90,表明該模型性能優(yōu)異。

        3 結(jié)語

        對油水井生產(chǎn)異常狀況進(jìn)行診斷和管理能夠有效穩(wěn)定原油產(chǎn)量,保障生產(chǎn)工人的生命財產(chǎn)安全。模型仿真形成的決策樹可以對生產(chǎn)異常狀況輸入因素進(jìn)行分類,直觀顯示出影響油水井生產(chǎn)的不同因素及其比重。模型學(xué)習(xí)率變化對分類精度的影響較小,ROC 曲線下面積基本大于0.90,表明模型性能優(yōu)異,可為油水井生產(chǎn)異常狀況管理提供參考。但是,模型僅對生產(chǎn)異常狀況進(jìn)行了初步分類,對于油水井生產(chǎn)異常情況的管理依然需要人工操作,還需針對異常管理進(jìn)行智能化改進(jìn)。

        猜你喜歡
        分類生產(chǎn)模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        用舊的生產(chǎn)新的!
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        “三夏”生產(chǎn) 如火如荼
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        S-76D在華首架機(jī)實現(xiàn)生產(chǎn)交付
        教你一招:數(shù)的分類
        中文字幕久久人妻av| 人人妻人人爽人人做夜欢视频九色 | 亚洲 精品 综合 精品 自拍| 国产99久久无码精品| 国产成人夜色在线视频观看| 亚洲av无一区二区三区久久蜜桃| 中文无码精品a∨在线观看不卡| 久久AⅤ无码精品为人妻系列| 亚洲女同一区二区久久| 男女av免费视频网站| 精品国产一二三产品区别在哪| 国产成人久久精品二区三区牛 | 最近中文字幕国语免费| 大学生被内谢粉嫩无套| 国产美女被遭强高潮露开双腿| 中文字幕亚洲精品专区| 人妻饥渴偷公乱中文字幕| 国产午夜无码视频免费网站| 亚洲一区二区三区在线观看蜜桃| 日本a级一级淫片免费观看| 无码成人一区二区| 国产亚洲欧美日韩综合综合二区| 蜜桃精品国产一区二区三区| 国内永久福利在线视频图片| 丰满老熟妇好大bbbbb| 99精品视频69v精品视频免费| 日韩在线不卡一区三区av| 亚洲精品乱码久久久久久中文字幕 | 国模精品一区二区三区| 欧美性群另类交| 久草91这里只有精品| 91久久精品色伊人6882| 亚洲欧洲日本综合aⅴ在线| 久久青草亚洲AV无码麻豆| 久久久人妻一区二区三区蜜桃d| 国产伦人人人人人人性| 欧美va免费精品高清在线| 亚洲一区二区日韩在线| 亚洲性色av一区二区三区| 久久精品国产亚洲精品| 人妻精品一区二区免费|