亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于融合特征選擇算法的鉆速預(yù)測模型研究

        2022-07-18 08:03:08周長春朱海燕李之軍魯柳利
        鉆探工程 2022年4期
        關(guān)鍵詞:鉆速機(jī)械鉆速特征選擇

        周長春,姜 杰,李 謙,朱海燕,李之軍,魯柳利

        (1.成都理工大學(xué)環(huán)境與土木工程學(xué)院,四川 成都 610059;2.成都理工大學(xué)機(jī)電工程學(xué)院,四川 成都 610059;3.成都理工大學(xué)能源學(xué)院,四川 成都 610059;4.成都工業(yè)學(xué)院大數(shù)據(jù)與人工智能學(xué)院,四川 成都 611730)

        0 引言

        我國能源生產(chǎn)重點(diǎn)方向正在向超深層發(fā)展,隨著鉆井的深度增加,鉆頭進(jìn)入更加復(fù)雜的地層,會(huì)使施工難度加大、鉆井速度減慢、成本升高。在國內(nèi)外的研究中,機(jī)械鉆速一直是作為鉆井作業(yè)整體水平的直觀反映,準(zhǔn)確預(yù)測機(jī)械鉆速可以有效計(jì)算鉆井成本和鉆井時(shí)間,從而優(yōu)化鉆井參數(shù)、合理安排鉆機(jī)工作人員,并為鉆井設(shè)計(jì)人員提供依據(jù)[1]。

        傳統(tǒng)的鉆速預(yù)測研究中,一些研究人員考慮巖性、豎井直徑和轉(zhuǎn)速等作為主要因素,通過對(duì)多元化回歸的分析,獲得鉆速方程[2]。還有一些研究人員制作模擬和動(dòng)態(tài)模型,通過試驗(yàn)?zāi)M鉆探時(shí)的沖擊強(qiáng)度來調(diào)整及預(yù)測鉆速[1]。隨著大數(shù)據(jù)及計(jì)算機(jī)技術(shù)的發(fā)展及其被應(yīng)用到油氣行業(yè),采用機(jī)器學(xué)習(xí)技術(shù)對(duì)機(jī)械鉆速進(jìn)行預(yù)測已成為智能鉆井行業(yè)研究的有 效 方 法 和 重 要 手 段[3]。如Amer 等[4]將 鉆 壓、轉(zhuǎn)速、排量、扭矩、泵量、泥漿密度和立管壓力作為輸入?yún)?shù)輸入到基于人工神經(jīng)網(wǎng)絡(luò)的鉆速預(yù)測模型。趙穎等[5]以南海YL8-3-1 井為例,使用井眼深度、鉆壓、大鉤位置、扭矩、出入口鉆井液密度和溫度等基于極限學(xué)習(xí)機(jī)建立了海上鉆井機(jī)械鉆速預(yù)測模型。對(duì)于特征選擇方法的研究方面:李莉等[6]在特征選擇階段采用核主成分分析剔除源項(xiàng)目中的冗余數(shù)據(jù)的方法進(jìn)行建模,結(jié)果表明所選擇特征會(huì)使得建模精度有一定的提高。周翔等[7]提出了大數(shù)據(jù)環(huán)境下的投票特征選擇算法可以有效解決特征選擇問題??滴暮赖龋?]提出了一種雙層特征選擇法進(jìn)行特征選擇,其結(jié)果是所選特征使得預(yù)測模型有較好的擬合效果。此外,針對(duì)機(jī)械鉆速預(yù)測研究,Dupriest 等[9]強(qiáng)調(diào)了特征選擇在建模過程中的重要性。Shi 等[10]通過對(duì)鉆頭鉆進(jìn)機(jī)制進(jìn)行研究確定了包括表面測量、鉆頭特性、水力學(xué)變量和地層特性等10 個(gè)參數(shù)作為人工神經(jīng)網(wǎng)絡(luò)模型輸入進(jìn)行了研究。

        綜上,很多研究通過優(yōu)化智能算法來提升模型精度,亦有很多研究者對(duì)大數(shù)據(jù)中特征選擇方法進(jìn)行了研究,然而專門針對(duì)機(jī)械鉆速預(yù)測來完成特征選擇部分的智能方法研究卻相對(duì)較少。在進(jìn)行鉆速預(yù)測研究時(shí),海量的鉆井參數(shù)會(huì)耗費(fèi)大量的計(jì)算資源和時(shí)間,且不易得到理想的模型精度,故亟需針對(duì)機(jī)械鉆速特征選擇進(jìn)行專門研究。因此,本文提出一種融合特征選擇法進(jìn)行參數(shù)優(yōu)選,再選用梯度提升樹(Gradient Boosting Decision Tree,GBDT)算法進(jìn)行鉆速預(yù)測,并針對(duì)參數(shù)優(yōu)選結(jié)果與預(yù)測精度設(shè)計(jì)對(duì)比試驗(yàn)進(jìn)行驗(yàn)證。

        1 基于融合特征選擇鉆速預(yù)測模型總體架構(gòu)設(shè)計(jì)

        本文先對(duì)采集到的數(shù)據(jù)進(jìn)行整合預(yù)處理,然后基于設(shè)計(jì)的融合特征選擇算法進(jìn)行特征優(yōu)選,最后針對(duì)特征優(yōu)選結(jié)果建立GBDT 鉆速預(yù)測模型并設(shè)計(jì)對(duì)比試驗(yàn)進(jìn)行驗(yàn)證,如圖1 所示。

        圖1 融合特征選擇算法鉆速預(yù)測模型研究Fig.1 Research on ROP prediction model with fusion feature selection algorithm

        2 數(shù)據(jù)預(yù)處理

        2.1 數(shù)據(jù)采集

        令鉆井參數(shù)數(shù)量為n,井深為D,不同的鉆井參數(shù)采集時(shí)最大密度為d,則整合后的數(shù)據(jù)矩陣為一個(gè)D/d行×n列矩陣[11]。在本文所使用的南海某井眼鉆井?dāng)?shù)據(jù)共5 大類43 種不同的參數(shù)共3967 條,表1 所示為參數(shù)縮寫信息和參數(shù)分類信息。

        表1 參數(shù)信息Table 1 Parameter information

        2.2 數(shù)據(jù)清洗

        數(shù)據(jù)清洗就是指利用數(shù)據(jù)分析將采集到的“臟數(shù)據(jù)”轉(zhuǎn)化為符合要求的數(shù)據(jù)[12-13]。對(duì)于鉆井“臟數(shù)據(jù)”的清洗過程包括異常值的檢測、刪除以及缺失數(shù)據(jù)的插值補(bǔ)全。觀察采集到的3697 條原始數(shù)據(jù),發(fā)現(xiàn)前面的967 條數(shù)據(jù)中有大量參數(shù)未采集到,因此判定為無效數(shù)據(jù),采用刪除策略后剩余3000 條數(shù)據(jù)。由于所采集數(shù)據(jù)缺失部分為離散值,因此采用k 近鄰填補(bǔ)法(KNN),即計(jì)算歐幾里得空間中每個(gè)樣本點(diǎn)與被填補(bǔ)點(diǎn)的距離,選出k 個(gè)距離最近的樣本點(diǎn)的類別,采用投票法決定填補(bǔ)值,距離計(jì)算采用歐式距離,計(jì)算式如式(1)所示[14]。

        式中:d——?dú)W式距離;N——N維空間;xi1——第1個(gè)點(diǎn)的第i維坐標(biāo);xi2——第2 個(gè)點(diǎn)的i維坐標(biāo)。

        2.3 數(shù)據(jù)標(biāo)準(zhǔn)化處理

        補(bǔ)齊數(shù)據(jù)之后,由于參數(shù)數(shù)據(jù)間較大的量綱差距會(huì)給后續(xù)的機(jī)器學(xué)習(xí)建模的模型性能造成隱患,因此需要對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化處理來縮小量綱差距,其計(jì)算式如式(2)所示[15]。

        式中:xnew——完成標(biāo)準(zhǔn)化的數(shù)據(jù);xold——標(biāo)準(zhǔn)化前的原始數(shù)據(jù);μ——平均值;σxlist——原始數(shù)據(jù)同一變量所有數(shù)據(jù)標(biāo)準(zhǔn)差。

        以鉆壓和鉆井液出口溫度為例,標(biāo)準(zhǔn)化處理之后效果展示如圖2 所示。

        圖2 標(biāo)準(zhǔn)化處理前后對(duì)比Fig.2 Comparison before and after standardization

        3 融合特征選擇算法設(shè)計(jì)

        3.1 相關(guān)性分析

        相關(guān)性分析的主要目的在于判定輸入與輸出變量之間的相關(guān)性以指導(dǎo)建模時(shí)下一步該采取何種操作,本文采用皮爾遜相關(guān)系數(shù)計(jì)算方法對(duì)所選變量進(jìn)行相關(guān)性分析,篩選出高相關(guān)性參數(shù)組作為特征選擇工作的第一步,計(jì)算方法如式(3)所示[16]。

        式中:ρa(bǔ)b——a、b變量之間的相關(guān)性;cov(a,b)——變量a、b的協(xié)方差矩陣;σa、σb——變量a,b各自的標(biāo)準(zhǔn)差;ai、bi——變量a、b數(shù)據(jù)集中第i個(gè)變量值;aˉ、bˉ——變 量a、b平 均 值;n——變 量a、b的 數(shù) 據(jù) 集大小。

        ρa(bǔ)b的取值在區(qū)間[-1,1]上,取值為正時(shí),表示兩個(gè)參數(shù)之間呈現(xiàn)正的相關(guān)性,反之則表示兩個(gè)參數(shù)呈負(fù)相關(guān)性,ρa(bǔ)b的絕對(duì)值越靠近1,說明a、b之間的相關(guān)性越高,越靠近0,則說明兩個(gè)變量之間的相關(guān)性越低,計(jì)算表1 中鉆速ROP 參數(shù)與除鉆速之外的所有其他參數(shù)之間的相關(guān)性,計(jì)算結(jié)果如圖3、圖4 所示。

        圖3 低、中相關(guān)性參數(shù)組Fig.3 Low and medium correlation parameter groups

        圖4 高相關(guān)性參數(shù)組Fig.4 High correlation parameter group

        對(duì)計(jì)算結(jié)果進(jìn)行統(tǒng)計(jì),可按照皮爾遜相關(guān)性系數(shù)將除鉆速之外的其他參數(shù)與鉆速的相關(guān)性分為高相關(guān)性、中相關(guān)性和低相關(guān)性3 類[16]。

        (1)高相關(guān)性參數(shù):總共有24 種,占所有參數(shù)的55.81%,該類參數(shù)與鉆速的相關(guān)性系數(shù)計(jì)算結(jié)果的絕對(duì)值均位于[0.6,0.81]區(qū)間內(nèi)。

        (2)中相關(guān)性參數(shù):總共有15 種,占所有參數(shù)的34.88%,該類參數(shù)與鉆速的相關(guān)性系數(shù)計(jì)算結(jié)果的絕對(duì)值均位于[0.1,0.6]區(qū)間內(nèi)。

        (3)低相關(guān)性參數(shù):總共有3 種,占所有參數(shù)的9.31%,該類參數(shù)與鉆速的相關(guān)性系數(shù)計(jì)算結(jié)果的絕對(duì)值均小于0.1。

        從相關(guān)性系數(shù)計(jì)算結(jié)果可以看到傳統(tǒng)經(jīng)驗(yàn)中如巖性等參數(shù)的相關(guān)性系數(shù)取值較低,這是因?yàn)槠栠d相關(guān)性分析對(duì)線性相關(guān)的參數(shù)更為敏感,更容易選出線性關(guān)系更明顯的特征,因此傳統(tǒng)鉆速研究中非線性相關(guān)的參數(shù)相關(guān)性系數(shù)值會(huì)相對(duì)較低。

        3.2 方差過濾

        在機(jī)器學(xué)習(xí)建模過程中,引入的參數(shù)相關(guān)性越高,建立高精度機(jī)器學(xué)習(xí)預(yù)測模型所需要的參數(shù)數(shù)量越少[17]。因此,使用方差過濾法選擇少量的包含更多信息量的參數(shù),以提升模型的效率和精度。其原理是對(duì)于離散型特征,對(duì)方差進(jìn)行計(jì)算,然后按計(jì)算結(jié)果保留貢獻(xiàn)較大的特征。其操作步驟是先對(duì)離散型特征參數(shù)進(jìn)行方差計(jì)算,觀察計(jì)算結(jié)果發(fā)現(xiàn),特征方差以巖性(TYP)為界呈明顯的兩級(jí)分布,因此以TYP 方差2.6157 為閾值,選擇方差大于和等于閾值的特征,方差計(jì)算結(jié)果如表2 所示。

        表2 離散型參數(shù)方差Table 2 Discrete parameter variance

        3.3 互信息法

        離散型特征選擇結(jié)束之后,用互信息法從30 個(gè)連續(xù)型參數(shù)中選出特征量相對(duì)較少且互信息估量較高的參數(shù)組,互信息定義如式(4)所示,其估計(jì)量取值區(qū)間位于[0,1],其值越大,表明變量與標(biāo)簽之間的相關(guān)性越大[18]。

        式 中:p(x,y)——X與Y的 聯(lián) 合 概 率 分 布;p(x)、p(y)——邊緣概率分布。

        操作步驟是先對(duì)30 個(gè)連續(xù)型特征進(jìn)行離散化處理,然后計(jì)算出每一個(gè)參數(shù)的互信息估計(jì)量并排序,計(jì)算結(jié)果如表3 所示,最后利用前向搜索策略結(jié)合模型后驗(yàn)法,即依次向模型輸入特征,每輸入一個(gè)特征對(duì)模型進(jìn)行一次評(píng)價(jià),當(dāng)模型性能提升時(shí)則選擇當(dāng)前特征,當(dāng)模型性能下降則過濾掉特征。前向搜索過程如圖5 所示,圖中折線上三角點(diǎn)對(duì)應(yīng)參數(shù)為互信息法結(jié)合前向搜索策略選擇特征參數(shù),其余點(diǎn)對(duì)應(yīng)參數(shù)為被過濾參數(shù)。

        表3 互信息量估計(jì)量Table 3 Mutual information estimator

        圖5 基于前向搜索的互信息特征篩選Fig.5 Mutual information feature screening based on forward search

        3.4 融合特征選擇算法步驟及評(píng)價(jià)

        融合皮爾遜相關(guān)性分析法、方差過濾法和互信息法進(jìn)行特征選擇,其操作步驟如圖6 所示。

        圖6 特征選擇過程示意Fig.6 Schematic diagram of the feature selection process

        操作可分為4 步:

        (1)對(duì)經(jīng)清洗之后的數(shù)據(jù)進(jìn)行皮爾遜相關(guān)性計(jì)算,按照皮爾遜相關(guān)性原理將所有特征參數(shù)劃分為高相關(guān)性參數(shù)組、中相關(guān)性參數(shù)組和低相關(guān)性參數(shù)組,然后選擇與鉆速具有高相關(guān)性的高相關(guān)性參數(shù)組作為特征選擇的融合算法的第一步選擇;

        (2)將所有特征參數(shù)中的離散類型參數(shù)按照方差過濾法原理進(jìn)行方差過濾,然后選擇方差值高的特征參數(shù)作為特征選擇的融合算法的第二步選擇;

        (3)將所有特征參數(shù)中連續(xù)類型參數(shù)按照互信息法計(jì)算原理進(jìn)行互信息估計(jì)量計(jì)算并按互信息估量值的大小進(jìn)行排序,然后使用前向搜索策略結(jié)合模型驗(yàn)證來進(jìn)一步進(jìn)行特征篩選。

        (4)將通過相關(guān)性過濾結(jié)果的參數(shù)組分別與方差過濾結(jié)果參數(shù)組和互信息過濾參數(shù)組結(jié)果分別取交集,最后將2 個(gè)交集參數(shù)組取并集作為特征選擇的融合算法的最終選擇結(jié)果,它們與鉆速的相關(guān)性系數(shù)、方差及互信息量如表4 所示。

        表4 融合特征選擇算法特征選擇結(jié)果Table 4 Feature selection results with fusion feature selection algorithm

        在設(shè)計(jì)的融合特征選擇算法中,利用皮爾遜相關(guān)性系數(shù)方法和方差過濾方法能夠有效去除數(shù)據(jù)中的無關(guān)特征,使得模型的輸入?yún)?shù)間會(huì)存在較大耦合。因此進(jìn)行的第三步操作:將互信息法與前向搜索策略結(jié)合能夠有效剔除部分相互耦合的特征。

        4 基于融合特征選擇結(jié)果的GBDT 鉆速預(yù)測模型

        4.1 GBDT 算法模型介紹

        GBDT 算法屬于集成學(xué)習(xí)算法的一種,它融合了裝袋法(Bagging)與提升法(Boosting)的思想,由Firedman 在2001 年提出,既可用來解決分類問題,也可用來解決回歸問題[19]。GBDT 算法由多個(gè)基學(xué)習(xí)器f(x)、殘差構(gòu)成的損失函數(shù)L(x,y)以及加法集成策略H(x)構(gòu)成,其原理如圖7 所示,為方便展示,圖中用虛線框表示多個(gè)基學(xué)習(xí)器及其預(yù)測結(jié)果。

        圖7 GBDT 算法原理示意Fig.7 Schematic diagram of GBDT algorithm principle

        GBDT 算法的基學(xué)習(xí)器由決策樹組成,單棵決策樹的結(jié)構(gòu)越復(fù)雜,GBDT 算法的整體復(fù)雜度也會(huì)更高,使得計(jì)算緩慢且易過擬合。

        選擇平方誤差(squared_error)作為GBDT 算法的損失函數(shù),因?yàn)榇撕瘮?shù)一階導(dǎo)數(shù)連續(xù),易于被優(yōu)化,是一個(gè)魯棒的損失函數(shù),式(6)為其計(jì)算表達(dá)式:

        式中:L[yi,f(xi)]——損失函數(shù);yi、f(xi)——分別為每個(gè)樣本(xi,yi)的真實(shí)值和擬合值。

        在此基礎(chǔ)上,將損失值的負(fù)梯度作為殘差估計(jì)值,利用梯度提升技術(shù)對(duì)殘差進(jìn)行擬合:

        式中:Rik——?dú)埐罟烙?jì)值;k——第k(k=1,2,……K)次迭代。

        GBDT 算法對(duì)基學(xué)習(xí)器進(jìn)行集成時(shí)遵循的原則是依據(jù)上一個(gè)基學(xué)習(xí)器fk-1(x)的結(jié)果,計(jì)算損失函數(shù)L(yi,f(xi)),并使用損失函數(shù)自適應(yīng)的影響下一個(gè)基學(xué)習(xí)器fk(x)的構(gòu)建,集成模型的輸出結(jié)果。其操作步驟是先確定每個(gè)葉節(jié)點(diǎn)區(qū)域?qū)?yīng)損失函數(shù)最小化的最佳擬合值εik,然后更新學(xué)習(xí)器fk(x),最終構(gòu)建GBDT 模型如式(8)所示[19]。

        式中:η——學(xué)習(xí)率;Cik(i=1,2,……I)——得到的第k棵樹的葉節(jié)點(diǎn)區(qū)域;εik——每個(gè)葉子點(diǎn)區(qū)域確定使對(duì)應(yīng)損失函數(shù)最小化的最佳擬合值;H(x)——GBDT 模型最終擬合結(jié)果。

        4.2 模型設(shè)計(jì)

        導(dǎo)入經(jīng)融合特征選擇算法所確定的特征參數(shù)進(jìn)行機(jī)器學(xué)習(xí)建模,采用10 折交叉驗(yàn)證法降低模型過擬合風(fēng)險(xiǎn),使用決定系數(shù)(R2)、均方根誤差(RMSE)和相對(duì)誤差(MAPE)等指標(biāo)對(duì)模型進(jìn)行評(píng)估,部分?jǐn)?shù)據(jù)展示如表5 所示。

        表5 模型輸入部分?jǐn)?shù)據(jù)Table 5 Some model input data

        4.2.1 10 折交叉驗(yàn)證

        將數(shù)據(jù)集等比例劃分成10 份,以其中的一份作為測試數(shù)據(jù),其余9 份作為訓(xùn)練數(shù)據(jù),每次試驗(yàn)選取不同的測試集,剩下的作為訓(xùn)練集,重復(fù)進(jìn)行10 次試驗(yàn),最后把10 次測試集得分平均作為最終得分,其原理如圖8 所示[20]。

        圖8 10 折交叉驗(yàn)證原理示意Fig.8 Schematic diagram of the 10-fold cross-validation principle

        4.2.2 模型評(píng)估

        4.2.2.1 決定系數(shù)(R2)

        決定系數(shù)是指回歸直線對(duì)觀測值的擬合程度,R2越接近1,表明擬合程度越好[20]。其計(jì)算式為:

        式 中:yi——真 實(shí) 值;——真 實(shí) 平 均 值;?——預(yù)測值。

        4.2.2.2 均方根誤差(RMSE)和相對(duì)誤差(MAPE)

        均方根誤差是預(yù)測值與真實(shí)值偏差的平方和的均值的平方根,其計(jì)算式如式(10)所示;相對(duì)誤差是指誤差與真實(shí)值的百分比,其計(jì)算式如式(11)所示,它能夠表示預(yù)測值的可信程度[20]。二者均能表示預(yù)測值與真實(shí)值的偏離程度,其取值越接近于0,表示模型的性能越好,預(yù)測精度越高。

        10 次試驗(yàn)的評(píng)分如表6 所示,R2最高能達(dá)到0.88 的預(yù)測精度,平均達(dá)到0.85 的精度。從誤差的角度來看,平均均方根誤差為4.57,平均相對(duì)誤差為16%,表明模型預(yù)測精度較好,預(yù)測偏差較小,能夠在一定程度上對(duì)機(jī)械鉆速進(jìn)行準(zhǔn)確預(yù)測。

        表6 GBDT 模型下10 折交叉驗(yàn)證試驗(yàn)R2Table 6 10-fold cross-validation test R2 under GBDT model

        為了展示預(yù)測結(jié)果與真實(shí)值的擬合關(guān)系,提取出10 次測試集的預(yù)測值繪制回歸直線擬合關(guān)系圖,如圖9 所示。此時(shí)R2為0.85,RMSE和MAPE分別為4.57 和16%,可以觀察到所有的數(shù)據(jù)都分布在擬合線的周圍,表明模型有不錯(cuò)的預(yù)測精度。

        圖9 GBDT 預(yù)測真實(shí)值擬合關(guān)系Fig.9 Fitting relationship between GBDT predictions and true values

        取10 折交叉驗(yàn)證時(shí)劃分為10 部分?jǐn)?shù)據(jù)中的第1 部分和第2 部分測試集的預(yù)測值和真實(shí)值對(duì)比,繪制GBDT 模型預(yù)測值和真實(shí)值的關(guān)系圖(圖10),可以看到鉆速預(yù)測值與真實(shí)值吻合,同樣表明模型的擬合效果較好。

        圖10 鉆速預(yù)測值與真實(shí)值對(duì)比Fig.10 Comparison between the predicted ROP and the actual ROP

        4.3 對(duì)比試驗(yàn)

        為驗(yàn)證融合特征選擇算法在預(yù)測性能上的優(yōu)勢(shì)以及GBDT 模型相較于傳統(tǒng)機(jī)器學(xué)習(xí)算法模型的優(yōu)勢(shì),建立全特征GBDT 模型,并與特征選擇結(jié)果的常用機(jī)器學(xué)習(xí)算法模型進(jìn)行對(duì)比試驗(yàn)。

        4.3.1 全特征模型

        選擇所有特征,使用10 折交叉驗(yàn)證法,建立GBDT 模型,通過比較模型在測試集上的各評(píng)估指標(biāo),發(fā)現(xiàn)使用全部特征作為模型輸入時(shí),模型在測試集上的泛化能力R2得分為0.83,RMSE和MAPE得分分別為4.81 和19%,融合特征選擇結(jié)果建模與之相比,R2提升了2%,而RMSE和MAPE分別降低了0.24 和3%,如表7 所示。圖11 為每個(gè)測試集的3個(gè)模型評(píng)估指標(biāo)得分,可見經(jīng)過特征選擇得分均優(yōu)于由全部特征所建立的模型,表明融合特征選擇算法能為提高模型精度做出貢獻(xiàn)。

        表7 模型評(píng)估指標(biāo)Table 7 Model evaluation metrics

        圖11 全特征模型與特征選擇模型測試集得分對(duì)比Fig.11 Comparison of test set scores between the full feature model and the feature selection model

        4.3.2 傳統(tǒng)機(jī)器學(xué)習(xí)模型

        選擇適用于高維特征計(jì)算的支持向量回歸、人工神經(jīng)網(wǎng)絡(luò)中具有代表性的BP 神經(jīng)網(wǎng)絡(luò)回歸、適用于處理線性關(guān)系的線性回歸以及樹模型的基礎(chǔ)決策樹回歸算法結(jié)合10 折交叉驗(yàn)證進(jìn)行對(duì)比試驗(yàn),各模型平均得分如表8 所示,與GBDT 模型相比,GBDT 模型的R2分別比支持向量回歸、BP 神經(jīng)網(wǎng)絡(luò)回歸、線性回歸和決策樹回歸高22%、18%、16%和7%,RMSE分別低了2.44、2.01、1.92 和0.85,MAPE分別低了17%、14%、13%和1%。

        表8 不同機(jī)器學(xué)習(xí)算法模型評(píng)估平均得分Table 8 Average evaluation scores of different machine learning algorithm models

        10 個(gè)測試集各模型評(píng)估指標(biāo)對(duì)比如圖12 所示。試驗(yàn)結(jié)果表明,與常用機(jī)器學(xué)習(xí)算法相比,GBDT算法模型的R2均高于常用算法模型且RMSE和MAPE均低于常用算法模型,說明在此井眼中,GBDT 模型對(duì)機(jī)械鉆速的擬合效果更好,在測試集上具有更好的泛化性能。

        圖12 GBDT 模型與常見機(jī)器學(xué)習(xí)算法模型測試集對(duì)比Fig.12 Comparison of the test sets between the GBDT model and the common machine learning algorithm model

        5 結(jié)論

        準(zhǔn)確的機(jī)械鉆速預(yù)測是提高鉆進(jìn)效率、降低鉆井成本的重要手段。本文以南海某井眼鉆井?dāng)?shù)據(jù)為例,融合相關(guān)性分析、方差過濾、互信息法并結(jié)合前向搜索策略進(jìn)行特征選擇,然后建立GBDT 模型對(duì)機(jī)械鉆速進(jìn)行預(yù)測,主要結(jié)論如下:

        (1)針對(duì)鉆速預(yù)測機(jī)器學(xué)習(xí)建模之前特征的選擇,本文提出的融合特征選擇算法能夠準(zhǔn)確地從大量特征參數(shù)中選擇出對(duì)模型貢獻(xiàn)最大的參數(shù),從而降低特征空間的維度,與使用全部特征所建立的模型相比,經(jīng)過融合特征選擇算法選擇的特征參數(shù)所建立的模型的精度優(yōu)于使用全部特征所建模型的精度,表明融合特征選擇算法能夠?yàn)闄C(jī)械鉆速準(zhǔn)確預(yù)測選擇出合適的參數(shù),且該算法能夠?yàn)橹悄茔@井機(jī)械鉆速預(yù)測提供科學(xué)依據(jù)。

        (2)本文所建立的梯度提升回歸樹模型在測試集上能夠達(dá)到85%的精度,即表明模型有較好的泛化性能,能夠較好地?cái)M合機(jī)械鉆速,與常用的機(jī)器學(xué)習(xí)算法相比,GBDT 算法模型的決定系數(shù)R2均高于常用算法模型,且均方根誤差RMSE和相對(duì)誤差MAPE均低于常用算法模型,表明GBDT 模型預(yù)測性能比傳統(tǒng)機(jī)器學(xué)習(xí)模型更具優(yōu)勢(shì),也說明GBDT模型在未知數(shù)據(jù)上具有更好的泛化能力。

        (3)本文所融合的多種特征選擇方法能夠有效剔除數(shù)據(jù)中的無關(guān)特征,但并不能解決參數(shù)間的耦合問題,因此本文在融合的方法中結(jié)合了前向搜索策略,能夠在一定程度上減少參數(shù)間的耦合。不足之處在于該算法側(cè)重于對(duì)具有物理意義的參數(shù)進(jìn)行選擇,因此并沒有針對(duì)最終的特征選擇結(jié)果進(jìn)行特征信息研究,將來的研究中可對(duì)此進(jìn)一步優(yōu)化。

        猜你喜歡
        鉆速機(jī)械鉆速特征選擇
        基于機(jī)械鉆速的地層孔隙壓力隨鉆監(jiān)測方法
        螺桿鉆具提速技術(shù)研究
        石油研究(2020年1期)2020-05-22 12:51:40
        AWOBA-NW井施工分析
        淺析提高中深井鉆速的方法
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        營11區(qū)塊井眼清潔技術(shù)
        控壓鉆井技術(shù)在元壩16井的應(yīng)用
        影響鉆井過程中機(jī)械鉆速的原因分析
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        91精品国产综合久久久密臀九色 | 伊人久久大香线蕉亚洲五月天| 国产成人+亚洲欧洲+综合| 国内精品久久久久久久亚洲| 亚洲天堂av路线一免费观看| 99re66在线观看精品免费| 日韩激情无码免费毛片 | 欧美成人精品a∨在线观看| 人妻少妇精品视频一区二区三区| 久久狠色噜噜狠狠狠狠97| 亚洲福利网站在线一区不卡| 精品国产亚洲亚洲国产| 国产女人高潮视频在线观看| 含羞草亚洲AV无码久久精品| 精品女同av一区二区三区| 中出人妻希奇杰卡西av| 亚洲av无码av男人的天堂| 日韩秘 无码一区二区三区| 麻豆av在线免费观看精品| av网站在线观看入口| 无码人妻一区二区三区在线视频| 国产91 对白在线播放九色| 中文字幕人妻在线少妇完整版| 精品精品国产高清a毛片| 精品成人乱色一区二区| 国产亚洲女人久久久久久| 午夜视频一区二区三区播放| 中文字幕乱码熟妇五十中出 | 最新国产成人在线网站| 精品中文字幕精品中文字幕| 中文字幕日韩人妻在线视频| 日日干夜夜操高清视频| 久久精品国产亚洲av热九九热| 美妇炮灰被狂躁爽到高潮h| 亚洲av成人无码精品电影在线| 巨爆乳中文字幕爆乳区| 久久人妻精品免费二区| 亚洲精品无码永久在线观看| 亚洲日本va午夜在线影院| 国产高清亚洲精品视频| 亚洲视频一区二区三区视频|