亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于融合特征選擇算法的鉆速預(yù)測模型研究

2022-07-18 08:03:08周長春朱海燕李之軍魯柳利

鉆探工程 2022年4期

周長春，姜杰，李謙，朱海燕，李之軍，魯柳利

（1.成都理工大學(xué)環(huán)境與土木工程學(xué)院，四川成都 610059；2.成都理工大學(xué)機(jī)電工程學(xué)院，四川成都 610059；3.成都理工大學(xué)能源學(xué)院，四川成都 610059；4.成都工業(yè)學(xué)院大數(shù)據(jù)與人工智能學(xué)院，四川成都 611730）

0 引言

我國能源生產(chǎn)重點(diǎn)方向正在向超深層發(fā)展，隨著鉆井的深度增加，鉆頭進(jìn)入更加復(fù)雜的地層，會(huì)使施工難度加大、鉆井速度減慢、成本升高。在國內(nèi)外的研究中，機(jī)械鉆速一直是作為鉆井作業(yè)整體水平的直觀反映，準(zhǔn)確預(yù)測機(jī)械鉆速可以有效計(jì)算鉆井成本和鉆井時(shí)間，從而優(yōu)化鉆井參數(shù)、合理安排鉆機(jī)工作人員，并為鉆井設(shè)計(jì)人員提供依據(jù)［1］。

傳統(tǒng)的鉆速預(yù)測研究中，一些研究人員考慮巖性、豎井直徑和轉(zhuǎn)速等作為主要因素，通過對(duì)多元化回歸的分析，獲得鉆速方程［2］。還有一些研究人員制作模擬和動(dòng)態(tài)模型，通過試驗(yàn)?zāi)M鉆探時(shí)的沖擊強(qiáng)度來調(diào)整及預(yù)測鉆速［1］。隨著大數(shù)據(jù)及計(jì)算機(jī)技術(shù)的發(fā)展及其被應(yīng)用到油氣行業(yè)，采用機(jī)器學(xué)習(xí)技術(shù)對(duì)機(jī)械鉆速進(jìn)行預(yù)測已成為智能鉆井行業(yè)研究的有效方法和重要手段［3］。如Amer 等［4］將鉆壓、轉(zhuǎn)速、排量、扭矩、泵量、泥漿密度和立管壓力作為輸入?yún)?shù)輸入到基于人工神經(jīng)網(wǎng)絡(luò)的鉆速預(yù)測模型。趙穎等［5］以南海YL8-3-1 井為例，使用井眼深度、鉆壓、大鉤位置、扭矩、出入口鉆井液密度和溫度等基于極限學(xué)習(xí)機(jī)建立了海上鉆井機(jī)械鉆速預(yù)測模型。對(duì)于特征選擇方法的研究方面：李莉等［6］在特征選擇階段采用核主成分分析剔除源項(xiàng)目中的冗余數(shù)據(jù)的方法進(jìn)行建模，結(jié)果表明所選擇特征會(huì)使得建模精度有一定的提高。周翔等［7］提出了大數(shù)據(jù)環(huán)境下的投票特征選擇算法可以有效解決特征選擇問題?？滴暮赖龋?］提出了一種雙層特征選擇法進(jìn)行特征選擇，其結(jié)果是所選特征使得預(yù)測模型有較好的擬合效果。此外，針對(duì)機(jī)械鉆速預(yù)測研究，Dupriest 等［9］強(qiáng)調(diào)了特征選擇在建模過程中的重要性。Shi 等［10］通過對(duì)鉆頭鉆進(jìn)機(jī)制進(jìn)行研究確定了包括表面測量、鉆頭特性、水力學(xué)變量和地層特性等10 個(gè)參數(shù)作為人工神經(jīng)網(wǎng)絡(luò)模型輸入進(jìn)行了研究。

綜上，很多研究通過優(yōu)化智能算法來提升模型精度，亦有很多研究者對(duì)大數(shù)據(jù)中特征選擇方法進(jìn)行了研究，然而專門針對(duì)機(jī)械鉆速預(yù)測來完成特征選擇部分的智能方法研究卻相對(duì)較少。在進(jìn)行鉆速預(yù)測研究時(shí)，海量的鉆井參數(shù)會(huì)耗費(fèi)大量的計(jì)算資源和時(shí)間，且不易得到理想的模型精度，故亟需針對(duì)機(jī)械鉆速特征選擇進(jìn)行專門研究。因此，本文提出一種融合特征選擇法進(jìn)行參數(shù)優(yōu)選，再選用梯度提升樹（Gradient Boosting Decision Tree，GBDT）算法進(jìn)行鉆速預(yù)測，并針對(duì)參數(shù)優(yōu)選結(jié)果與預(yù)測精度設(shè)計(jì)對(duì)比試驗(yàn)進(jìn)行驗(yàn)證。

1 基于融合特征選擇鉆速預(yù)測模型總體架構(gòu)設(shè)計(jì)

本文先對(duì)采集到的數(shù)據(jù)進(jìn)行整合預(yù)處理，然后基于設(shè)計(jì)的融合特征選擇算法進(jìn)行特征優(yōu)選，最后針對(duì)特征優(yōu)選結(jié)果建立GBDT 鉆速預(yù)測模型并設(shè)計(jì)對(duì)比試驗(yàn)進(jìn)行驗(yàn)證，如圖1 所示。

圖1 融合特征選擇算法鉆速預(yù)測模型研究Fig.1 Research on ROP prediction model with fusion feature selection algorithm

2 數(shù)據(jù)預(yù)處理

2.1 數(shù)據(jù)采集

令鉆井參數(shù)數(shù)量為n，井深為D，不同的鉆井參數(shù)采集時(shí)最大密度為d，則整合后的數(shù)據(jù)矩陣為一個(gè)D/d行×n列矩陣［11］。在本文所使用的南海某井眼鉆井?dāng)?shù)據(jù)共5 大類43 種不同的參數(shù)共3967 條，表1 所示為參數(shù)縮寫信息和參數(shù)分類信息。

表1 參數(shù)信息Table 1 Parameter information

2.2 數(shù)據(jù)清洗

數(shù)據(jù)清洗就是指利用數(shù)據(jù)分析將采集到的“臟數(shù)據(jù)”轉(zhuǎn)化為符合要求的數(shù)據(jù)［12-13］。對(duì)于鉆井“臟數(shù)據(jù)”的清洗過程包括異常值的檢測、刪除以及缺失數(shù)據(jù)的插值補(bǔ)全。觀察采集到的3697 條原始數(shù)據(jù)，發(fā)現(xiàn)前面的967 條數(shù)據(jù)中有大量參數(shù)未采集到，因此判定為無效數(shù)據(jù)，采用刪除策略后剩余3000 條數(shù)據(jù)。由于所采集數(shù)據(jù)缺失部分為離散值，因此采用k 近鄰填補(bǔ)法（KNN），即計(jì)算歐幾里得空間中每個(gè)樣本點(diǎn)與被填補(bǔ)點(diǎn)的距離，選出k 個(gè)距離最近的樣本點(diǎn)的類別，采用投票法決定填補(bǔ)值，距離計(jì)算采用歐式距離，計(jì)算式如式（1）所示［14］。

式中：d——?dú)W式距離；N——N維空間；xi1——第1個(gè)點(diǎn)的第i維坐標(biāo)；xi2——第2 個(gè)點(diǎn)的i維坐標(biāo)。

2.3 數(shù)據(jù)標(biāo)準(zhǔn)化處理

補(bǔ)齊數(shù)據(jù)之后，由于參數(shù)數(shù)據(jù)間較大的量綱差距會(huì)給后續(xù)的機(jī)器學(xué)習(xí)建模的模型性能造成隱患，因此需要對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化處理來縮小量綱差距，其計(jì)算式如式（2）所示［15］。

式中：xnew——完成標(biāo)準(zhǔn)化的數(shù)據(jù)；xold——標(biāo)準(zhǔn)化前的原始數(shù)據(jù)；μ——平均值；σxlist——原始數(shù)據(jù)同一變量所有數(shù)據(jù)標(biāo)準(zhǔn)差。

以鉆壓和鉆井液出口溫度為例，標(biāo)準(zhǔn)化處理之后效果展示如圖2 所示。

圖2 標(biāo)準(zhǔn)化處理前后對(duì)比Fig.2 Comparison before and after standardization

3 融合特征選擇算法設(shè)計(jì)

3.1 相關(guān)性分析

相關(guān)性分析的主要目的在于判定輸入與輸出變量之間的相關(guān)性以指導(dǎo)建模時(shí)下一步該采取何種操作，本文采用皮爾遜相關(guān)系數(shù)計(jì)算方法對(duì)所選變量進(jìn)行相關(guān)性分析，篩選出高相關(guān)性參數(shù)組作為特征選擇工作的第一步，計(jì)算方法如式（3）所示［16］。

式中：ρa(bǔ)b——a、b變量之間的相關(guān)性；cov(a，b)——變量a、b的協(xié)方差矩陣；σa、σb——變量a，b各自的標(biāo)準(zhǔn)差；ai、bi——變量a、b數(shù)據(jù)集中第i個(gè)變量值；aˉ、bˉ——變量a、b平均值；n——變量a、b的數(shù) 據(jù) 集大小。

ρa(bǔ)b的取值在區(qū)間［-1，1］上，取值為正時(shí)，表示兩個(gè)參數(shù)之間呈現(xiàn)正的相關(guān)性，反之則表示兩個(gè)參數(shù)呈負(fù)相關(guān)性，ρa(bǔ)b的絕對(duì)值越靠近1，說明a、b之間的相關(guān)性越高，越靠近0，則說明兩個(gè)變量之間的相關(guān)性越低，計(jì)算表1 中鉆速ROP 參數(shù)與除鉆速之外的所有其他參數(shù)之間的相關(guān)性，計(jì)算結(jié)果如圖3、圖4 所示。

圖3 低、中相關(guān)性參數(shù)組Fig.3 Low and medium correlation parameter groups

圖4 高相關(guān)性參數(shù)組Fig.4 High correlation parameter group

對(duì)計(jì)算結(jié)果進(jìn)行統(tǒng)計(jì)，可按照皮爾遜相關(guān)性系數(shù)將除鉆速之外的其他參數(shù)與鉆速的相關(guān)性分為高相關(guān)性、中相關(guān)性和低相關(guān)性3 類［16］。

（1）高相關(guān)性參數(shù)：總共有24 種，占所有參數(shù)的55.81%，該類參數(shù)與鉆速的相關(guān)性系數(shù)計(jì)算結(jié)果的絕對(duì)值均位于［0.6，0.81］區(qū)間內(nèi)。

（2）中相關(guān)性參數(shù)：總共有15 種，占所有參數(shù)的34.88%，該類參數(shù)與鉆速的相關(guān)性系數(shù)計(jì)算結(jié)果的絕對(duì)值均位于［0.1，0.6］區(qū)間內(nèi)。

（3）低相關(guān)性參數(shù)：總共有3 種，占所有參數(shù)的9.31%，該類參數(shù)與鉆速的相關(guān)性系數(shù)計(jì)算結(jié)果的絕對(duì)值均小于0.1。

從相關(guān)性系數(shù)計(jì)算結(jié)果可以看到傳統(tǒng)經(jīng)驗(yàn)中如巖性等參數(shù)的相關(guān)性系數(shù)取值較低，這是因?yàn)槠栠d相關(guān)性分析對(duì)線性相關(guān)的參數(shù)更為敏感，更容易選出線性關(guān)系更明顯的特征，因此傳統(tǒng)鉆速研究中非線性相關(guān)的參數(shù)相關(guān)性系數(shù)值會(huì)相對(duì)較低。

3.2 方差過濾

在機(jī)器學(xué)習(xí)建模過程中，引入的參數(shù)相關(guān)性越高，建立高精度機(jī)器學(xué)習(xí)預(yù)測模型所需要的參數(shù)數(shù)量越少［17］。因此，使用方差過濾法選擇少量的包含更多信息量的參數(shù)，以提升模型的效率和精度。其原理是對(duì)于離散型特征，對(duì)方差進(jìn)行計(jì)算，然后按計(jì)算結(jié)果保留貢獻(xiàn)較大的特征。其操作步驟是先對(duì)離散型特征參數(shù)進(jìn)行方差計(jì)算，觀察計(jì)算結(jié)果發(fā)現(xiàn)，特征方差以巖性（TYP）為界呈明顯的兩級(jí)分布，因此以TYP 方差2.6157 為閾值，選擇方差大于和等于閾值的特征，方差計(jì)算結(jié)果如表2 所示。

表2 離散型參數(shù)方差Table 2 Discrete parameter variance

3.3 互信息法

離散型特征選擇結(jié)束之后，用互信息法從30 個(gè)連續(xù)型參數(shù)中選出特征量相對(duì)較少且互信息估量較高的參數(shù)組，互信息定義如式（4）所示，其估計(jì)量取值區(qū)間位于［0，1］，其值越大，表明變量與標(biāo)簽之間的相關(guān)性越大［18］。

式中：p(x，y)——X與Y的聯(lián) 合概率分布；p(x)、p(y)——邊緣概率分布。

操作步驟是先對(duì)30 個(gè)連續(xù)型特征進(jìn)行離散化處理，然后計(jì)算出每一個(gè)參數(shù)的互信息估計(jì)量并排序，計(jì)算結(jié)果如表3 所示，最后利用前向搜索策略結(jié)合模型后驗(yàn)法，即依次向模型輸入特征，每輸入一個(gè)特征對(duì)模型進(jìn)行一次評(píng)價(jià)，當(dāng)模型性能提升時(shí)則選擇當(dāng)前特征，當(dāng)模型性能下降則過濾掉特征。前向搜索過程如圖5 所示，圖中折線上三角點(diǎn)對(duì)應(yīng)參數(shù)為互信息法結(jié)合前向搜索策略選擇特征參數(shù)，其余點(diǎn)對(duì)應(yīng)參數(shù)為被過濾參數(shù)。

表3 互信息量估計(jì)量Table 3 Mutual information estimator

圖5 基于前向搜索的互信息特征篩選Fig.5 Mutual information feature screening based on forward search

3.4 融合特征選擇算法步驟及評(píng)價(jià)

融合皮爾遜相關(guān)性分析法、方差過濾法和互信息法進(jìn)行特征選擇，其操作步驟如圖6 所示。

圖6 特征選擇過程示意Fig.6 Schematic diagram of the feature selection process

操作可分為4 步：

（1）對(duì)經(jīng)清洗之后的數(shù)據(jù)進(jìn)行皮爾遜相關(guān)性計(jì)算，按照皮爾遜相關(guān)性原理將所有特征參數(shù)劃分為高相關(guān)性參數(shù)組、中相關(guān)性參數(shù)組和低相關(guān)性參數(shù)組，然后選擇與鉆速具有高相關(guān)性的高相關(guān)性參數(shù)組作為特征選擇的融合算法的第一步選擇；

（2）將所有特征參數(shù)中的離散類型參數(shù)按照方差過濾法原理進(jìn)行方差過濾，然后選擇方差值高的特征參數(shù)作為特征選擇的融合算法的第二步選擇；

（3）將所有特征參數(shù)中連續(xù)類型參數(shù)按照互信息法計(jì)算原理進(jìn)行互信息估計(jì)量計(jì)算并按互信息估量值的大小進(jìn)行排序，然后使用前向搜索策略結(jié)合模型驗(yàn)證來進(jìn)一步進(jìn)行特征篩選。

（4）將通過相關(guān)性過濾結(jié)果的參數(shù)組分別與方差過濾結(jié)果參數(shù)組和互信息過濾參數(shù)組結(jié)果分別取交集，最后將2 個(gè)交集參數(shù)組取并集作為特征選擇的融合算法的最終選擇結(jié)果，它們與鉆速的相關(guān)性系數(shù)、方差及互信息量如表4 所示。

表4 融合特征選擇算法特征選擇結(jié)果Table 4 Feature selection results with fusion feature selection algorithm

在設(shè)計(jì)的融合特征選擇算法中，利用皮爾遜相關(guān)性系數(shù)方法和方差過濾方法能夠有效去除數(shù)據(jù)中的無關(guān)特征，使得模型的輸入?yún)?shù)間會(huì)存在較大耦合。因此進(jìn)行的第三步操作：將互信息法與前向搜索策略結(jié)合能夠有效剔除部分相互耦合的特征。

4 基于融合特征選擇結(jié)果的GBDT 鉆速預(yù)測模型

4.1 GBDT 算法模型介紹

GBDT 算法屬于集成學(xué)習(xí)算法的一種，它融合了裝袋法（Bagging）與提升法（Boosting）的思想，由Firedman 在2001 年提出，既可用來解決分類問題，也可用來解決回歸問題［19］。GBDT 算法由多個(gè)基學(xué)習(xí)器f(x)、殘差構(gòu)成的損失函數(shù)L(x，y)以及加法集成策略H(x)構(gòu)成，其原理如圖7 所示，為方便展示，圖中用虛線框表示多個(gè)基學(xué)習(xí)器及其預(yù)測結(jié)果。

圖7 GBDT 算法原理示意Fig.7 Schematic diagram of GBDT algorithm principle

GBDT 算法的基學(xué)習(xí)器由決策樹組成，單棵決策樹的結(jié)構(gòu)越復(fù)雜，GBDT 算法的整體復(fù)雜度也會(huì)更高，使得計(jì)算緩慢且易過擬合。

選擇平方誤差（squared_error）作為GBDT 算法的損失函數(shù)，因?yàn)榇撕瘮?shù)一階導(dǎo)數(shù)連續(xù)，易于被優(yōu)化，是一個(gè)魯棒的損失函數(shù)，式（6）為其計(jì)算表達(dá)式：

式中：L[yi，f(xi)]——損失函數(shù)；yi、f(xi)——分別為每個(gè)樣本（xi，yi)的真實(shí)值和擬合值。

在此基礎(chǔ)上，將損失值的負(fù)梯度作為殘差估計(jì)值，利用梯度提升技術(shù)對(duì)殘差進(jìn)行擬合：

式中：Rik——?dú)埐罟烙?jì)值；k——第k（k=1，2，……K）次迭代。

GBDT 算法對(duì)基學(xué)習(xí)器進(jìn)行集成時(shí)遵循的原則是依據(jù)上一個(gè)基學(xué)習(xí)器fk-1(x)的結(jié)果，計(jì)算損失函數(shù)L(yi，f(xi))，并使用損失函數(shù)自適應(yīng)的影響下一個(gè)基學(xué)習(xí)器fk(x)的構(gòu)建，集成模型的輸出結(jié)果。其操作步驟是先確定每個(gè)葉節(jié)點(diǎn)區(qū)域?qū)?yīng)損失函數(shù)最小化的最佳擬合值εik，然后更新學(xué)習(xí)器fk(x)，最終構(gòu)建GBDT 模型如式（8）所示［19］。

式中：η——學(xué)習(xí)率；Cik（i=1，2，……I）——得到的第k棵樹的葉節(jié)點(diǎn)區(qū)域；εik——每個(gè)葉子點(diǎn)區(qū)域確定使對(duì)應(yīng)損失函數(shù)最小化的最佳擬合值；H(x)——GBDT 模型最終擬合結(jié)果。

4.2 模型設(shè)計(jì)

導(dǎo)入經(jīng)融合特征選擇算法所確定的特征參數(shù)進(jìn)行機(jī)器學(xué)習(xí)建模，采用10 折交叉驗(yàn)證法降低模型過擬合風(fēng)險(xiǎn)，使用決定系數(shù)（R2）、均方根誤差（RMSE）和相對(duì)誤差（MAPE）等指標(biāo)對(duì)模型進(jìn)行評(píng)估，部分?jǐn)?shù)據(jù)展示如表5 所示。

表5 模型輸入部分?jǐn)?shù)據(jù)Table 5 Some model input data

4.2.1 10 折交叉驗(yàn)證

將數(shù)據(jù)集等比例劃分成10 份，以其中的一份作為測試數(shù)據(jù)，其余9 份作為訓(xùn)練數(shù)據(jù)，每次試驗(yàn)選取不同的測試集，剩下的作為訓(xùn)練集，重復(fù)進(jìn)行10 次試驗(yàn)，最后把10 次測試集得分平均作為最終得分，其原理如圖8 所示［20］。

圖8 10 折交叉驗(yàn)證原理示意Fig.8 Schematic diagram of the 10-fold cross-validation principle

4.2.2 模型評(píng)估

4.2.2.1 決定系數(shù)（R2）

決定系數(shù)是指回歸直線對(duì)觀測值的擬合程度，R2越接近1，表明擬合程度越好［20］。其計(jì)算式為：

式中：yi——真實(shí) 值；——真實(shí) 平均值；?——預(yù)測值。

4.2.2.2 均方根誤差（RMSE）和相對(duì)誤差（MAPE）

均方根誤差是預(yù)測值與真實(shí)值偏差的平方和的均值的平方根，其計(jì)算式如式（10）所示；相對(duì)誤差是指誤差與真實(shí)值的百分比，其計(jì)算式如式（11）所示，它能夠表示預(yù)測值的可信程度［20］。二者均能表示預(yù)測值與真實(shí)值的偏離程度，其取值越接近于0，表示模型的性能越好，預(yù)測精度越高。

10 次試驗(yàn)的評(píng)分如表6 所示，R2最高能達(dá)到0.88 的預(yù)測精度，平均達(dá)到0.85 的精度。從誤差的角度來看，平均均方根誤差為4.57，平均相對(duì)誤差為16%，表明模型預(yù)測精度較好，預(yù)測偏差較小，能夠在一定程度上對(duì)機(jī)械鉆速進(jìn)行準(zhǔn)確預(yù)測。

表6 GBDT 模型下10 折交叉驗(yàn)證試驗(yàn)R2Table 6 10-fold cross-validation test R2 under GBDT model

為了展示預(yù)測結(jié)果與真實(shí)值的擬合關(guān)系，提取出10 次測試集的預(yù)測值繪制回歸直線擬合關(guān)系圖，如圖9 所示。此時(shí)R2為0.85，RMSE和MAPE分別為4.57 和16%，可以觀察到所有的數(shù)據(jù)都分布在擬合線的周圍，表明模型有不錯(cuò)的預(yù)測精度。

圖9 GBDT 預(yù)測真實(shí)值擬合關(guān)系Fig.9 Fitting relationship between GBDT predictions and true values

取10 折交叉驗(yàn)證時(shí)劃分為10 部分?jǐn)?shù)據(jù)中的第1 部分和第2 部分測試集的預(yù)測值和真實(shí)值對(duì)比，繪制GBDT 模型預(yù)測值和真實(shí)值的關(guān)系圖（圖10），可以看到鉆速預(yù)測值與真實(shí)值吻合，同樣表明模型的擬合效果較好。

圖10 鉆速預(yù)測值與真實(shí)值對(duì)比Fig.10 Comparison between the predicted ROP and the actual ROP

4.3 對(duì)比試驗(yàn)

為驗(yàn)證融合特征選擇算法在預(yù)測性能上的優(yōu)勢(shì)以及GBDT 模型相較于傳統(tǒng)機(jī)器學(xué)習(xí)算法模型的優(yōu)勢(shì)，建立全特征GBDT 模型，并與特征選擇結(jié)果的常用機(jī)器學(xué)習(xí)算法模型進(jìn)行對(duì)比試驗(yàn)。

4.3.1 全特征模型

選擇所有特征，使用10 折交叉驗(yàn)證法，建立GBDT 模型，通過比較模型在測試集上的各評(píng)估指標(biāo)，發(fā)現(xiàn)使用全部特征作為模型輸入時(shí)，模型在測試集上的泛化能力R2得分為0.83，RMSE和MAPE得分分別為4.81 和19%，融合特征選擇結(jié)果建模與之相比，R2提升了2%，而RMSE和MAPE分別降低了0.24 和3%，如表7 所示。圖11 為每個(gè)測試集的3個(gè)模型評(píng)估指標(biāo)得分，可見經(jīng)過特征選擇得分均優(yōu)于由全部特征所建立的模型，表明融合特征選擇算法能為提高模型精度做出貢獻(xiàn)。

表7 模型評(píng)估指標(biāo)Table 7 Model evaluation metrics

圖11 全特征模型與特征選擇模型測試集得分對(duì)比Fig.11 Comparison of test set scores between the full feature model and the feature selection model

4.3.2 傳統(tǒng)機(jī)器學(xué)習(xí)模型

選擇適用于高維特征計(jì)算的支持向量回歸、人工神經(jīng)網(wǎng)絡(luò)中具有代表性的BP 神經(jīng)網(wǎng)絡(luò)回歸、適用于處理線性關(guān)系的線性回歸以及樹模型的基礎(chǔ)決策樹回歸算法結(jié)合10 折交叉驗(yàn)證進(jìn)行對(duì)比試驗(yàn)，各模型平均得分如表8 所示，與GBDT 模型相比，GBDT 模型的R2分別比支持向量回歸、BP 神經(jīng)網(wǎng)絡(luò)回歸、線性回歸和決策樹回歸高22%、18%、16%和7%，RMSE分別低了2.44、2.01、1.92 和0.85，MAPE分別低了17%、14%、13%和1%。

表8 不同機(jī)器學(xué)習(xí)算法模型評(píng)估平均得分Table 8 Average evaluation scores of different machine learning algorithm models

10 個(gè)測試集各模型評(píng)估指標(biāo)對(duì)比如圖12 所示。試驗(yàn)結(jié)果表明，與常用機(jī)器學(xué)習(xí)算法相比，GBDT算法模型的R2均高于常用算法模型且RMSE和MAPE均低于常用算法模型，說明在此井眼中，GBDT 模型對(duì)機(jī)械鉆速的擬合效果更好，在測試集上具有更好的泛化性能。

圖12 GBDT 模型與常見機(jī)器學(xué)習(xí)算法模型測試集對(duì)比Fig.12 Comparison of the test sets between the GBDT model and the common machine learning algorithm model

5 結(jié)論

準(zhǔn)確的機(jī)械鉆速預(yù)測是提高鉆進(jìn)效率、降低鉆井成本的重要手段。本文以南海某井眼鉆井?dāng)?shù)據(jù)為例，融合相關(guān)性分析、方差過濾、互信息法并結(jié)合前向搜索策略進(jìn)行特征選擇，然后建立GBDT 模型對(duì)機(jī)械鉆速進(jìn)行預(yù)測，主要結(jié)論如下：

（1）針對(duì)鉆速預(yù)測機(jī)器學(xué)習(xí)建模之前特征的選擇，本文提出的融合特征選擇算法能夠準(zhǔn)確地從大量特征參數(shù)中選擇出對(duì)模型貢獻(xiàn)最大的參數(shù)，從而降低特征空間的維度，與使用全部特征所建立的模型相比，經(jīng)過融合特征選擇算法選擇的特征參數(shù)所建立的模型的精度優(yōu)于使用全部特征所建模型的精度，表明融合特征選擇算法能夠?yàn)闄C(jī)械鉆速準(zhǔn)確預(yù)測選擇出合適的參數(shù)，且該算法能夠?yàn)橹悄茔@井機(jī)械鉆速預(yù)測提供科學(xué)依據(jù)。

（2）本文所建立的梯度提升回歸樹模型在測試集上能夠達(dá)到85%的精度，即表明模型有較好的泛化性能，能夠較好地?cái)M合機(jī)械鉆速，與常用的機(jī)器學(xué)習(xí)算法相比，GBDT 算法模型的決定系數(shù)R2均高于常用算法模型，且均方根誤差RMSE和相對(duì)誤差MAPE均低于常用算法模型，表明GBDT 模型預(yù)測性能比傳統(tǒng)機(jī)器學(xué)習(xí)模型更具優(yōu)勢(shì)，也說明GBDT模型在未知數(shù)據(jù)上具有更好的泛化能力。

（3）本文所融合的多種特征選擇方法能夠有效剔除數(shù)據(jù)中的無關(guān)特征，但并不能解決參數(shù)間的耦合問題，因此本文在融合的方法中結(jié)合了前向搜索策略，能夠在一定程度上減少參數(shù)間的耦合。不足之處在于該算法側(cè)重于對(duì)具有物理意義的參數(shù)進(jìn)行選擇，因此并沒有針對(duì)最終的特征選擇結(jié)果進(jìn)行特征信息研究，將來的研究中可對(duì)此進(jìn)一步優(yōu)化。