張維罡(東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
石油行業(yè)是一個(gè)涉及了多個(gè)學(xué)科的綜合性工業(yè)領(lǐng)域,而在石油鉆井領(lǐng)域中,減少成本,提高效率是所有人長(zhǎng)期研究的課題。在如今信息化的時(shí)代,如何將傳統(tǒng)的石油鉆井項(xiàng)目與機(jī)器學(xué)習(xí)等創(chuàng)新型技術(shù)結(jié)合,建立數(shù)字化油田,是石油工作者目前工作的重點(diǎn)之一。本項(xiàng)目計(jì)劃通過(guò)對(duì)鉆井過(guò)程中的數(shù)據(jù)進(jìn)行分析,使得機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等創(chuàng)新型項(xiàng)目在鉆井領(lǐng)域獲得初步應(yīng)用,對(duì)鉆井速度進(jìn)行優(yōu)化。
數(shù)據(jù)選擇模塊是對(duì)鉆井過(guò)程中獲得的參數(shù)進(jìn)行篩選,該模塊主要內(nèi)容包括以下兩點(diǎn):第一是對(duì)比不同井的鉆井?dāng)?shù)據(jù),選擇出數(shù)據(jù)量最大,參數(shù)最多,時(shí)間最長(zhǎng)的一組鉆井?dāng)?shù)據(jù)。第二是對(duì)鉆井的參數(shù)進(jìn)行對(duì)比,刪除在整個(gè)鉆井期間都維持不變的靜態(tài)參數(shù),并且把鉆速為空的時(shí)間段刪除。最終,數(shù)據(jù)選用2021年美國(guó)開(kāi)源鉆井?dāng)?shù)據(jù),井號(hào)為16a_32,數(shù)據(jù)是2020年10月25日到11月4日每隔10秒收集一次的鉆井?dāng)?shù)據(jù),有32個(gè)參數(shù),大約56萬(wàn)條數(shù)據(jù)。
數(shù)據(jù)清洗模塊的目的為解決數(shù)據(jù)的質(zhì)量問(wèn)題。例如比如數(shù)據(jù)部分缺失、特征無(wú)效等。該模塊主要工作為以下兩點(diǎn):第一,刪除無(wú)關(guān)的數(shù)據(jù),即剔除掉那些對(duì)于模型的實(shí)驗(yàn)結(jié)果無(wú)關(guān)的數(shù)據(jù),例如鉆頭直徑這樣的數(shù)據(jù);第二,刪除特征值全為空或?yàn)?的數(shù)據(jù)。在鉆井過(guò)程中,可能存在記錄時(shí)出現(xiàn)錯(cuò)誤導(dǎo)致沒(méi)有記錄的情況,這些參數(shù)就會(huì)為空,可以認(rèn)為其是無(wú)效參數(shù),可以在數(shù)據(jù)中刪除。通過(guò)數(shù)據(jù)選擇模塊,可以保證實(shí)驗(yàn)時(shí)的鉆井?dāng)?shù)據(jù)的數(shù)據(jù)質(zhì)量,為接下來(lái)的實(shí)驗(yàn)做鋪墊。
離群點(diǎn)指的是那些間隔較遠(yuǎn)、明顯偏離其他數(shù)據(jù)點(diǎn)的樣本點(diǎn)。其作用為檢測(cè)并處理數(shù)據(jù)中存在的離群點(diǎn)。在數(shù)據(jù)分布上,普通樣本平時(shí)聚集在一小塊區(qū)域,而離群點(diǎn)的分布則比較稀疏,并且與其他樣本點(diǎn)相距比較遠(yuǎn)。所以需要對(duì)離群點(diǎn)進(jìn)行檢測(cè)與刪除的工作。
于是得出結(jié)論,即該模塊中主要進(jìn)行三部分工作:(1)通過(guò)運(yùn)用單元的3&離群點(diǎn)算法與MAD離群點(diǎn)算法進(jìn)行模型運(yùn)算,通過(guò)rmse的得分進(jìn)行對(duì)比,從單元離群點(diǎn)算法中選擇出實(shí)驗(yàn)效果較好的算法。(2)通過(guò)運(yùn)用多元離群點(diǎn)檢測(cè)算法,例如:Isoliation Forest、Local outlier Factory、Elliptyc envelop等 算 法進(jìn)行比較與選取,選出多元離群點(diǎn)檢測(cè)算法中實(shí)驗(yàn)效果較好的一個(gè)算法。(3)將多元離群點(diǎn)檢測(cè)算法中實(shí)驗(yàn)效果較好的那一個(gè)與單元離群點(diǎn)檢測(cè)算法中實(shí)驗(yàn)效果較好的那一個(gè)進(jìn)行融合,變成既能照顧到單元離群點(diǎn)檢測(cè)算法,又能照顧到多元離群點(diǎn)檢測(cè)算法的數(shù)據(jù),將其刪除。這樣一來(lái),就可以得到更加適用與石油鉆井領(lǐng)域的離群點(diǎn)去除算法。
對(duì)數(shù)據(jù)進(jìn)行歸一化與標(biāo)準(zhǔn)化的原因是運(yùn)用機(jī)器學(xué)習(xí)解決石油領(lǐng)域或其他領(lǐng)域的實(shí)際問(wèn)題時(shí),數(shù)據(jù)中有可能出現(xiàn)由于特征之間相互有不同的衡量標(biāo)準(zhǔn),導(dǎo)致即使使用同一類(lèi)型的度量,各個(gè)特征之間的差異性也會(huì)非常大。例如特征A與特征B都是關(guān)于路程的特征,特征A一般使用千米單位進(jìn)行測(cè)量,而特征B一般運(yùn)用米來(lái)進(jìn)行度量。這種情況下,如果不引入數(shù)據(jù)的標(biāo)準(zhǔn)化的方法,則會(huì)使得特征A的影響要遠(yuǎn)遠(yuǎn)比特征B的影響要大。因此,為了對(duì)這種情況進(jìn)行排除,需要將數(shù)據(jù)進(jìn)行歸一化或標(biāo)準(zhǔn)化。通過(guò)離群點(diǎn)去除算法將離群點(diǎn)去除后,需要進(jìn)行數(shù)據(jù)集的歸一化與標(biāo)準(zhǔn)化處理,以及對(duì)數(shù)據(jù)的清洗。首先,運(yùn)用sklearn中的算法將數(shù)據(jù)集分割成media和valid兩個(gè)數(shù)據(jù)集,testsize設(shè)置為0.2,然后將midia再次通過(guò)sklearn中的數(shù)據(jù)集分割算法,testsize再次設(shè)置為0.2,最后得到訓(xùn)練集,測(cè)試集以及驗(yàn)證集。
針對(duì)一般的優(yōu)化問(wèn)題,首先要對(duì)相關(guān)輸入與輸出的關(guān)系建立映射,為了達(dá)到最優(yōu)化的目的,應(yīng)基于這種映射來(lái)找到全局最優(yōu)解。要想將這種方法應(yīng)用到實(shí)際的項(xiàng)目中去,應(yīng)該做到以下兩點(diǎn):第一是建立目標(biāo)特征與其他特征建立對(duì)應(yīng)關(guān)系,在本項(xiàng)目中對(duì)應(yīng)的是將鉆速與其他特征例如鉆壓,大勾高度等參數(shù)建立映射關(guān)系;第二則是在模型訓(xùn)練后尋找函數(shù)本身的最優(yōu)點(diǎn)。
在本項(xiàng)目中,重點(diǎn)與難點(diǎn)是進(jìn)行數(shù)據(jù)的分析,即對(duì)于石油鉆井的各項(xiàng)參數(shù)的可視化,圖表分析。通過(guò)對(duì)石油鉆井?dāng)?shù)據(jù)的分析,我們才能進(jìn)一步得出結(jié)論。所以,該模塊分為以下兩個(gè)部分:(1)通過(guò)對(duì)數(shù)據(jù)的分析,合理的使用數(shù)據(jù)預(yù)處理的各個(gè)模型,使得模型擬合效果達(dá)到不錯(cuò)的效果,并在這個(gè)過(guò)程中,通過(guò)查看各個(gè) 參數(shù)對(duì)rop鉆速的影響,來(lái)對(duì)這些參數(shù)的重要性有一個(gè)大概的了解。(2)通過(guò)使用lightgmb算法,對(duì)訓(xùn)練集中的鉆速進(jìn)行擬合,通過(guò)調(diào)整模型參數(shù),以及刪除離群點(diǎn)等操作,使得該模型的rmse評(píng)分達(dá)到最優(yōu),通過(guò)其算法的特點(diǎn),找出最能影響鉆速的10個(gè)參數(shù)與數(shù)據(jù)分析時(shí)所找的參數(shù)進(jìn)行分析對(duì)比。最終找出最能影響鉆速的參數(shù)。(3)使用全連接神經(jīng)網(wǎng)絡(luò)對(duì)同樣的數(shù)據(jù)集進(jìn)行擬合,觀察擬合效果。(4)根據(jù)(1)(2)(3)中模型預(yù)測(cè)效果的對(duì)比以及相關(guān)分析,選擇合適的模型,確定最終模型的結(jié)構(gòu)。(5)根據(jù)訓(xùn)練好的模型結(jié)構(gòu),尋找模型局部較優(yōu)點(diǎn)。
運(yùn)用上述去除離群點(diǎn)的方法去除離群點(diǎn)之后,對(duì)Lightgbm模型進(jìn)行訓(xùn)練,得到相應(yīng)的rmse的值。通過(guò)實(shí)驗(yàn)結(jié)果可以推出:Lightgbm模型訓(xùn)練時(shí)間段,訓(xùn)練效果好,比較適合用于鉆速預(yù)測(cè)的工作。在Lightgbm模型中,數(shù)據(jù)各個(gè)特征對(duì)于目標(biāo)特征的重要程度可以進(jìn)行從小到大的排序,而且通過(guò)生成回歸樹(shù)進(jìn)行分割的次數(shù)也能被記錄下來(lái)。雖然通過(guò)調(diào)整模型中的各個(gè)參數(shù)來(lái)對(duì)模型本身進(jìn)行優(yōu)化,但是各個(gè)特征之間的關(guān)系,即對(duì)目標(biāo)特征的重要程度不會(huì)發(fā)生相應(yīng)的變化。通過(guò)對(duì)結(jié)果數(shù)據(jù)進(jìn)行分析可以看出鉆時(shí)對(duì)最終預(yù)測(cè)結(jié)果的影響最大,遠(yuǎn)高于其他特征,這與在數(shù)據(jù)分析時(shí)所畫(huà)的圖相同,說(shuō)明該參數(shù)對(duì)于鉆速的影響確實(shí)非常大。對(duì)鉆速影響第二大的是大勾高度,在歷史擬合的實(shí)驗(yàn)中,該特征往往被忽略,而該實(shí)驗(yàn)則可以對(duì)傳統(tǒng)歷史擬合作出一定程度的補(bǔ)充。另外,還有很多參數(shù)也能對(duì)模型的結(jié)果產(chǎn)生影響,例如活動(dòng)池體積、鉆壓等。在歷史擬合的實(shí)驗(yàn)中,這些參數(shù)都是鉆井過(guò)程中會(huì)直接影響鉆進(jìn)速度的因素,理應(yīng)對(duì)鉆進(jìn)速度的預(yù)測(cè)有較大的影響。而那些靜態(tài)變量,例如測(cè)量井深、垂直井深等,在一開(kāi)始的數(shù)據(jù)分析中就發(fā)現(xiàn)對(duì)實(shí)驗(yàn)結(jié)果影響不大,這也是合情合理的。
在該實(shí)驗(yàn)中,我們運(yùn)用 pytorch對(duì)模型進(jìn)行建模,進(jìn)行數(shù)據(jù)訓(xùn)練時(shí),采用4層網(wǎng)絡(luò)架構(gòu),包括輸入層,dropout層,隱藏層以及輸出層。通過(guò)數(shù)據(jù)預(yù)處理將靜態(tài)變量刪除后,剩下的數(shù)據(jù)中一共包含有25個(gè)特征參數(shù),因此輸入層包含25個(gè)輸入節(jié)點(diǎn);在選取激活函數(shù)時(shí),使用Relu函數(shù),在輸出層不使用激活函數(shù),將最后一層隱層的輸出經(jīng)過(guò)加權(quán)后直接作為輸出的預(yù)測(cè)結(jié)果。在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,通過(guò)選取合適的batch與epoch來(lái)控制模型的訓(xùn)練過(guò)程。通過(guò)設(shè)置dropout為0.2來(lái)保證數(shù)據(jù)的隨機(jī)性。通過(guò)pytorch中的優(yōu)化器進(jìn)行設(shè)置使得學(xué)習(xí)率為0.000 1,優(yōu)化器選用adam。在實(shí)驗(yàn)中,迭代次數(shù)為第930次迭代時(shí)目標(biāo)特征的擬合程度達(dá)到最優(yōu),共耗時(shí)為892秒。通過(guò)實(shí)驗(yàn)數(shù)據(jù)的分析可以看出神經(jīng)網(wǎng)絡(luò)對(duì)于相同的數(shù)據(jù)同樣展現(xiàn)出了良好的擬合能力,并且沒(méi)有異常情況出現(xiàn),如欠擬合或過(guò)擬合等。通過(guò)與Lightgmb模型進(jìn)行對(duì)比,發(fā)現(xiàn)該模型訓(xùn)練出的效果比lightgmb模型的效果要好。但是訓(xùn)練的時(shí)長(zhǎng)是lightgmb模型的很多倍。經(jīng)過(guò)上述模型訓(xùn)練以及分析過(guò)程可以看出,即使運(yùn)用最簡(jiǎn)單的深度學(xué)習(xí)框架,也和如今流行的機(jī)器學(xué)習(xí)算法的訓(xùn)練效果差不多。而普通的算法模型的訓(xùn)練效果就要比深度學(xué)習(xí)的訓(xùn)練效果差上不少。
本項(xiàng)目分別在不同的模型中對(duì)鉆速進(jìn)行了預(yù)測(cè),運(yùn)用的模型有Lightgbm模型、全連接神經(jīng)網(wǎng)絡(luò)模型以及普通算法模型。根據(jù)模型得出的rmse分?jǐn)?shù)以及測(cè)試集上的表現(xiàn)可以推出以下結(jié)論:(1)普通的算法模型的rmse得分較差,Lightgbm模型的rmse得分基本與全連接神經(jīng)網(wǎng)絡(luò)模型相同,比其他算法模型效果都要好。(2)全鏈接神經(jīng)網(wǎng)絡(luò)模型得出結(jié)果的時(shí)間最長(zhǎng),Lightgbm模型得出結(jié)果的時(shí)間是最短的。這說(shuō)明在實(shí)踐過(guò)程中運(yùn)用lightgbm模型的效果能達(dá)到最優(yōu)。
本項(xiàng)目主要完成了以下三部分工作內(nèi)容:(1)通過(guò)對(duì)鉆井過(guò)程中存在的問(wèn)題與機(jī)器學(xué)習(xí)算法結(jié)合起來(lái)進(jìn)行研究,使得機(jī)器學(xué)習(xí)算法能與實(shí)際問(wèn)題結(jié)合,并提供優(yōu)化思路。為后續(xù)研究提供理論基礎(chǔ)。(2)鉆井?dāng)?shù)據(jù)處理方案的設(shè)計(jì)。本文通過(guò)對(duì)鉆井?dāng)?shù)據(jù)特征進(jìn)行研究,將不必要的特征刪除,并且結(jié)合系統(tǒng)論的思想,實(shí)現(xiàn)了對(duì)于鉆井?dāng)?shù)據(jù)的處理,其中,數(shù)據(jù)清洗最為重要,是機(jī)器學(xué)習(xí)項(xiàng)目中的基石。通過(guò)分析數(shù)據(jù),可以得出到底運(yùn)用哪個(gè)鉆井參數(shù)的結(jié)論。(3)本文通過(guò)機(jī)器學(xué)習(xí)的常用優(yōu)化策略,實(shí)現(xiàn)對(duì)鉆速的優(yōu)化,通過(guò)常用的回歸模型來(lái)對(duì)對(duì)應(yīng)鉆速的各個(gè)參數(shù)實(shí)現(xiàn)優(yōu)化與處理。