王學(xué)軍,李 莎 ,楊利霞
(1.承德石油高等專(zhuān)科學(xué)校 計(jì)算機(jī)與信息工程系, 河北 承德 067000;2.中國(guó)石油天然氣管道通信電力工程總公司, 河北 廊坊 065000;3.遼河油田公司信息工程公司, 遼寧 盤(pán)錦 124000)
隨著IT、通訊和信息技術(shù)的發(fā)展,大數(shù)據(jù)和云計(jì)算在各行業(yè)和領(lǐng)域的應(yīng)用都在飛速發(fā)展,針對(duì)行業(yè)在生產(chǎn)過(guò)程中采集、分析、積累的數(shù)據(jù)量越來(lái)越多,形成了超大量的數(shù)據(jù)群。這些數(shù)據(jù)在反應(yīng)行業(yè)生產(chǎn)過(guò)程的同時(shí),也體現(xiàn)了其內(nèi)在的聯(lián)系,就是這些數(shù)據(jù)以及存在的千絲萬(wàn)縷的聯(lián)系,才真實(shí)地反應(yīng)了行業(yè)生產(chǎn)的各種狀況,同時(shí)也為其生產(chǎn)過(guò)程的監(jiān)控、管理提供了很好的基礎(chǔ)性信息。比如,在石油工程的斜井抽油生產(chǎn)過(guò)程中,其井深、井斜、扶正器等方面的參數(shù)相互制約,對(duì)于該生產(chǎn)過(guò)程非常重要,這些制約的關(guān)系都將通過(guò)石油生產(chǎn)的相關(guān)數(shù)據(jù)反映出來(lái)。在大數(shù)據(jù)平臺(tái)下的數(shù)據(jù)挖掘技術(shù)和算法是一種分析相互制約數(shù)據(jù)的有效手段,通過(guò)數(shù)據(jù)分析和挖掘技術(shù),探索出在石油生產(chǎn)過(guò)程中能反應(yīng)生產(chǎn)過(guò)程的相互關(guān)聯(lián)數(shù)據(jù)之間的關(guān)系,這些關(guān)系將為提高生產(chǎn)效率、加強(qiáng)管理、改善生產(chǎn)決策提供數(shù)據(jù)基礎(chǔ)和方法依據(jù)[1-3]。
所謂大數(shù)據(jù)都能用“3V”(即量、類(lèi)、時(shí)三個(gè)特征)來(lái)表示。量(Volume)就是數(shù)據(jù)容量大;類(lèi)(Variety)就是數(shù)據(jù)種類(lèi)多;時(shí)(Velocity)就是處理速度快,時(shí)效性要求高。這些特征非常準(zhǔn)確地反映了目前石油工程、醫(yī)療衛(wèi)生等行業(yè)中相關(guān)數(shù)據(jù)的特性。
基于行業(yè)大數(shù)據(jù)下的數(shù)據(jù)挖掘技術(shù)是指從某行業(yè)生產(chǎn)過(guò)程中積累的超大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)之間反映生產(chǎn)過(guò)程的內(nèi)在規(guī)律、挖掘?qū)ιa(chǎn)管理有用信息和知識(shí)的技術(shù)和過(guò)程。通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)行業(yè)中的相關(guān)數(shù)據(jù)進(jìn)行分析,可以得到那些行業(yè)生產(chǎn)過(guò)程本身存在、但又不能靠管理者輕易發(fā)現(xiàn)的的結(jié)論。這些結(jié)論通常以可視化的方式呈現(xiàn),很容易被管理者和決策實(shí)施者理解,目前數(shù)據(jù)挖掘技術(shù)在石油工程、醫(yī)療衛(wèi)生等行業(yè)發(fā)揮了重要作用。
針對(duì)行業(yè)的數(shù)據(jù)挖掘首先從行業(yè)需求分析入手,根據(jù)工程單位在生產(chǎn)、管理、決策中需要解決的實(shí)際問(wèn)題,才能確定數(shù)據(jù)分析處理的具體流程,一般包括如下過(guò)程:生產(chǎn)分析、數(shù)據(jù)解釋、數(shù)據(jù)儲(chǔ)備、選用模型、分析挖掘和得出結(jié)論,如圖1所示。
石油數(shù)據(jù)分析過(guò)程影響因素比較多,要受到具體行業(yè)、具體生產(chǎn)過(guò)程等方面的影響,因此對(duì)應(yīng)的數(shù)據(jù)挖掘技術(shù)也不是單一的,而往往是綜合的、互相補(bǔ)充、相互促進(jìn)的,其特色如下:
1)數(shù)據(jù)挖掘技術(shù)在行業(yè)數(shù)據(jù)處理的適用性。每一種數(shù)據(jù)挖掘方法都具有各自的適用情況,可以根據(jù)數(shù)據(jù)的特點(diǎn)進(jìn)行分析,進(jìn)而選擇相應(yīng)的數(shù)據(jù)挖掘方法進(jìn)行處理。
例如,對(duì)于井眼軌跡來(lái)說(shuō),本身井眼軌跡就是一條曲線,只不過(guò)是一條復(fù)雜的空間曲線,但是如果將該曲線進(jìn)行劃分,那也可以變成局部的簡(jiǎn)單曲線,因此可以使用回歸技術(shù)對(duì)其進(jìn)行模擬。
2)數(shù)據(jù)挖掘技術(shù)在行業(yè)數(shù)據(jù)處理的綜合使用性。由于行業(yè)數(shù)據(jù)非常復(fù)雜,變化非常多,因此每個(gè)數(shù)據(jù)處理過(guò)程都不是單一的,而是需要多個(gè)數(shù)據(jù)挖掘技術(shù)綜合起來(lái)才能處理的。
例如,在斜井抽油的井眼軌跡描述中,對(duì)于變化比較規(guī)律的直線軌跡,可以使用一元回歸函數(shù)進(jìn)行模擬,而對(duì)于復(fù)雜的曲線軌跡,需要使用二元回歸方法,同時(shí)還要使用分段處理的方法進(jìn)行。在處理過(guò)程中,需要使用奇異點(diǎn)排除法,即將奇異點(diǎn)進(jìn)行分類(lèi)排除,然后逐一分析,最終確定奇異點(diǎn)的類(lèi)型并進(jìn)行相應(yīng)處理。
在基于行業(yè)數(shù)據(jù)處理步驟中,模型的選用和建立是起到承上啟下的重要作用,首先要針對(duì)行業(yè)的具體數(shù)據(jù)進(jìn)行分析,才能選用適合的模型,同時(shí)選用的模型還要考慮到后面的數(shù)據(jù)分析和挖掘,應(yīng)該和預(yù)期的結(jié)果相匹配。
石油生產(chǎn)過(guò)程是一個(gè)包括多個(gè)生產(chǎn)環(huán)節(jié)的過(guò)程,這些環(huán)節(jié)之間存在著必然聯(lián)系,同時(shí)這些關(guān)系之間還存在相互制約的關(guān)系,正是這些必然、制約的關(guān)系影響了數(shù)學(xué)模型的選取。數(shù)學(xué)模型的選取對(duì)于計(jì)算數(shù)據(jù)、應(yīng)用軟件的開(kāi)發(fā)都非常關(guān)鍵。選取恰當(dāng)?shù)哪P?,將為生產(chǎn)企業(yè)節(jié)省人力、物力,并提高經(jīng)濟(jì)效益。通過(guò)對(duì)石油工程具體生產(chǎn)的了解、數(shù)據(jù)特性的分析,結(jié)合具體生產(chǎn)過(guò)程,選取了適合于斜井抽油生產(chǎn)過(guò)程的三種模型,即適合于空間受力分析的三維三元模型、適合于模擬油藏儲(chǔ)量的黑油模型、以及適合于油氣滲流力學(xué)的數(shù)學(xué)模型,這些模型將為數(shù)據(jù)挖掘的應(yīng)用奠定基礎(chǔ)[4,5]。
模型的選取原則是受生產(chǎn)過(guò)程、數(shù)據(jù)描述和處理過(guò)程等因素影響的,比如針對(duì)采油過(guò)程中的井眼軌跡來(lái)說(shuō),斜井抽油是一個(gè)立體模型,需要三維模型,直井的描述需要二維模型,但是實(shí)際生產(chǎn)決定了整體是三維的立體斜井空間,但是有很大部分是平面結(jié)構(gòu),需要二維空間即可,同時(shí)三維模型的基本思想是針對(duì)“直井”的二維模型的基礎(chǔ)上發(fā)展得來(lái)的其基本研究思路是一致的,因此可以構(gòu)建“二維+三維模型”來(lái)描述斜井抽油的實(shí)際生產(chǎn)過(guò)程。
1)斜井井眼軌跡描述的數(shù)據(jù)分析
根據(jù)斜井抽油生產(chǎn)實(shí)際情況,井眼軌跡的描述是需要連續(xù)性的曲線,尤其是在斜井抽油中,井眼軌跡直接影響了如何設(shè)置抽油機(jī)井的各項(xiàng)參數(shù),首先必須知道井眼軌跡的基本形狀。因此,出現(xiàn)了必須將離散型的數(shù)據(jù)轉(zhuǎn)變成連續(xù)性曲線的需要。
2)斜井井眼軌跡描述需要解決的問(wèn)題
由于石油生產(chǎn)是要在自然條件下進(jìn)行的,同時(shí)很多工作是在地下完成的,并且要受到地理、氣候、地層等多方面情況影響的,因此通過(guò)生產(chǎn)數(shù)據(jù)得出的井眼軌跡(即通過(guò)離散數(shù)據(jù)得出的連續(xù)曲線)不是規(guī)則曲線(單調(diào)或者基本規(guī)則的圖形)構(gòu)成的,這樣解決該問(wèn)題的難點(diǎn)及解決辦法如下:
① 曲線形狀的確定
通過(guò)離散數(shù)據(jù)得到的曲線不一定是規(guī)則的,很難判斷其形狀及變化規(guī)律。解決辦法:將曲線進(jìn)行分段描述,不同段的曲線采取不同的計(jì)算方法達(dá)到準(zhǔn)確描述的目的。在每一段曲線(性質(zhì)相同或相近數(shù)據(jù)組合的數(shù)據(jù)組)內(nèi),曲線的變化應(yīng)該是相對(duì)規(guī)則的,并且性質(zhì)也比較好判斷。可采用數(shù)據(jù)挖掘中的回歸算法來(lái)描述曲線的基本形狀,達(dá)到模擬井眼軌跡基本狀況的目的。
② 曲線接點(diǎn)處形狀的確定
由于斜井抽油離散數(shù)值的不連續(xù)性,往往在不同性質(zhì)曲線的接點(diǎn)處,很難實(shí)現(xiàn)對(duì)曲線的連接。解決方法:通過(guò)對(duì)大量實(shí)例分析得出的經(jīng)驗(yàn)結(jié)果,可使用奇異點(diǎn)分析、分階段回歸、二次函數(shù)等方法進(jìn)行完善,在曲線節(jié)點(diǎn)處近似模擬曲線的形狀,將一段一段的不連續(xù)的曲線最終構(gòu)成一個(gè)連續(xù)的曲線,即完整井眼軌跡的描述。
3)針對(duì)優(yōu)化模型的算法優(yōu)化(一元線性回歸算法的優(yōu)化)
通過(guò)斜井抽油的生產(chǎn)過(guò)程分析,針對(duì)優(yōu)化的二維+三維模型的描述,可以準(zhǔn)確描述影響井眼軌跡的因素包括測(cè)深、井斜角、方位角、垂深、平移等參數(shù),通過(guò)對(duì)這些參數(shù)的具體分析,以研究“平移”參數(shù)為例,發(fā)現(xiàn)測(cè)深、垂深等參數(shù)的變化比較大(對(duì)于一口井來(lái)說(shuō)都在數(shù)十米),而對(duì)于井斜角的變化不是很大(有些井斜角只有幾度或者不到1度),因此,本文采用了分階段處理參數(shù)的方法,即采用變化規(guī)律相同或相近的參數(shù),兩次使用一元線性回歸的方法。比如可針對(duì)垂深、測(cè)深變化數(shù)據(jù)比較大,且變化規(guī)律相同或相近的參數(shù),使用一元線性回歸描述井眼軌跡的大致圖形(即井眼軌跡的大致走向);然后在利用變化不是很大的井斜角等不可缺少的描述井眼軌跡的參數(shù)進(jìn)行局部的擾動(dòng)值的分析和描述。這樣即解決了由于參數(shù)差別過(guò)大造成的有些參數(shù)無(wú)法發(fā)揮作用,同時(shí)也解決了斜井抽油變化復(fù)雜的實(shí)際生產(chǎn)狀況問(wèn)題,應(yīng)用效果良好。
4)結(jié)論分析
通過(guò)斜井抽油具體情況分析可以看出,在針對(duì)斜井的井眼軌跡描述過(guò)程中,將性質(zhì)相同的階段簡(jiǎn)化為二維模型,利用線性回歸算法進(jìn)行基本井眼軌跡的描述。對(duì)于情況復(fù)雜的區(qū)域或連接點(diǎn)位置,采用再次回歸(或二次曲線)方式進(jìn)行模擬,很好地解決了利用數(shù)據(jù)挖掘回歸計(jì)算模擬描述經(jīng)驗(yàn)軌跡的問(wèn)題。
通過(guò)上述優(yōu)化和計(jì)算,可確定描述井眼軌跡的主要參數(shù)和影響因素,為井眼軌跡的描述提供了數(shù)據(jù)依據(jù)。
針對(duì)大數(shù)據(jù)平臺(tái)下的數(shù)據(jù)挖掘算法為基礎(chǔ),在超大量數(shù)據(jù)中采用優(yōu)化模型及優(yōu)化算法能夠很好地解決油田生產(chǎn)中的數(shù)據(jù)分析方面的問(wèn)題,很好地實(shí)現(xiàn)了體現(xiàn)大數(shù)據(jù)支持下的數(shù)據(jù)挖掘技術(shù)和油田生產(chǎn)之間的結(jié)合。但是由于斜井抽油生產(chǎn)過(guò)程很復(fù)雜,這樣的 優(yōu)化和結(jié)合并不是容易研究分析和發(fā)現(xiàn)的,需要我們對(duì)超大量數(shù)據(jù)的挖掘和分析,還需要充分結(jié)合油田生產(chǎn)的實(shí)際,這顯然需要一個(gè)長(zhǎng)期而且艱巨的過(guò)程,需要我們不斷努力探索和追求。