高書香
(承德石油高等專科學校 石油工程系,河北 承德 067000)
隨著油氣田工程中斜井數(shù)量的增加,將產生超大量油井方面的工程數(shù)據(jù),對這些數(shù)據(jù)的研究和處理,將影響工程決策和實施過程[1]。而處理這些數(shù)據(jù)時行之有效的方法就是進行數(shù)據(jù)挖掘;它能夠從超大量、有噪聲、模糊的、隨機的、不完整的實際生產數(shù)據(jù)中發(fā)現(xiàn)隱含的、事先未知的、卻是潛在有用的知識和信息。數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)的一個主要步驟;知識發(fā)現(xiàn)可以分為5部分,即數(shù)據(jù)選擇、數(shù)據(jù)預處理、數(shù)據(jù)轉換、數(shù)據(jù)挖掘、結論及驗證[2]。
油田的生產運營應該是以最大經濟效益為目標,而不是以油井的系統(tǒng)效率、采油量、作業(yè)費用等指標的最大值為目標。在有桿泵系統(tǒng)的生產管理中,確定各種管理措施的優(yōu)選方法也應該以經濟效益為指標。因此通過數(shù)據(jù)挖掘來回答諸如“哪個管理方案是最優(yōu)的”等類似問題,這是傳統(tǒng)評價方法無法具備的。在數(shù)據(jù)挖掘設計中,建議選擇單井生產成本作為目標值或是響應值。
影響單井生產成本的因素很多,在工藝分析的基礎上認為,作業(yè)費用、設備費用、單井油氣產量等是主要影響因素。但是,作為一個生產系統(tǒng),油井的上述3 個主要因素分別受到地層參數(shù)、設備參數(shù)、流體參數(shù)、生產參數(shù)等眾多因素的影響。為了能充分進行數(shù)據(jù)挖掘,必須首先保證數(shù)據(jù)的全面性。針對生產過程的每個環(huán)節(jié),設計各數(shù)據(jù)庫的字段時,應該保證數(shù)據(jù)之間的完整性,不能因為影響因子小,而將該數(shù)據(jù)丟棄[3]。
簡單說,有桿泵生產系統(tǒng)中的所有數(shù)據(jù)都可能會影響其生產成本。例如,導致桿管偏磨的因素很多[4],那么因桿管偏磨導致單井生產成本增加的因素就有很多。為了便于對超大量的數(shù)據(jù)進行采集與歸類,借鑒文獻[4]的分類方法,將主要數(shù)據(jù)分成油層基礎數(shù)據(jù)、井眼軌跡數(shù)據(jù)、井下流體數(shù)據(jù)、井下工具數(shù)據(jù)、井下作業(yè)數(shù)據(jù)、地面設備數(shù)據(jù)、日常生產數(shù)據(jù)等7 大類數(shù)據(jù);每一大類數(shù)據(jù)又可以細分成多種數(shù)據(jù);具體分類見表1。
表1 有桿泵系統(tǒng)數(shù)據(jù)分類表
對固定的油井而言,油層基礎數(shù)據(jù)是定值,不必采集。但對數(shù)據(jù)挖掘技術而言,數(shù)據(jù)信息量越大,則其獲取知識的準確度越高。另外,將油層基礎數(shù)據(jù)納入到超大量的數(shù)據(jù)信息中,既可以實現(xiàn)同一油藏的不同油井數(shù)據(jù)的共用,還可實現(xiàn)不同油田之間的油井數(shù)據(jù)共用。因此,有必要將油層基礎數(shù)據(jù)納入到數(shù)據(jù)庫系統(tǒng)中。
在數(shù)據(jù)庫設計中易出現(xiàn)空白數(shù)據(jù)、錯誤數(shù)據(jù)、重復數(shù)據(jù)等不規(guī)范現(xiàn)象和問題,需要經過統(tǒng)一的過濾和修正。因此數(shù)據(jù)預處理的主要目的是清洗錯誤的、有沖突的、重復的數(shù)據(jù),避免數(shù)據(jù)的冗余或不統(tǒng)一,以利于數(shù)據(jù)搜索。
數(shù)據(jù)選擇是為了目標而搜索和選擇相關數(shù)據(jù),其目的是辨別出待分析數(shù)據(jù)的集合,縮小處理范圍,提高數(shù)據(jù)挖掘質量。例如,生產層巖性的數(shù)據(jù)值可按巖石深度分別賦予不同深度上的對應值;桿柱材質的數(shù)據(jù)值可按材質類型分別賦予不同的數(shù)值;等等。
為了確保數(shù)據(jù)挖掘系統(tǒng)在信息和文字識別中能夠正確地分析和錄入數(shù)據(jù),應必須找出數(shù)據(jù)庫中的空白數(shù)據(jù)、錯誤數(shù)據(jù)、重復數(shù)據(jù)等以便修改和完善。另外還要找出所有不完整的數(shù)據(jù),例如高含蠟量的油井數(shù)據(jù)中有清防蠟時間,但卻沒有加藥量和藥劑類型;措施后的油井數(shù)據(jù)中有措施名稱和新?lián)Q管柱數(shù)據(jù),但卻沒有措施后地面設備數(shù)據(jù)。上述情況下都會導致系統(tǒng)信息的不確定性,降低數(shù)據(jù)挖掘結果的可靠性。因此必須加以過濾或修改。
不同油田、不同油井、不同時間內記錄的數(shù)據(jù)很可能存在單位上的不同;即使使用的是同一單位,其計量標準可能也會不同。例如,油井的油套壓數(shù)據(jù)在記錄時,有的是用MPa 作單位,有的卻是用atm 作單位;油井的動液面數(shù)據(jù)有的是以方補心為標準計量,有的數(shù)據(jù)卻是以井口位置為標準計量;等等。為使數(shù)據(jù)能夠進行縱向、橫向的比較,需要把計量標準、數(shù)據(jù)單位等進行全面統(tǒng)一。將統(tǒng)一后的結果進行整理,以便查閱和使用。
石油生產中有很多一事多名的現(xiàn)象。例如,油層套管和生產套管在很多情況下混用;油層壓力、地層壓力、油藏壓力在很多表述中是同一個壓力;流壓、井底流動壓力、流動壓力在很多情況下是同一處的壓力,有時卻是折算出的不同點的壓力;等等。在數(shù)據(jù)庫的建立過程中,會出現(xiàn)大量的類似數(shù)據(jù),需要設定統(tǒng)一的使用規(guī)范和名稱,以保證數(shù)據(jù)的完整有效。需要將統(tǒng)一后的結果進行整理和文檔化,以便查閱和使用。
在石油生產中,即便是同一家廠商的產品,在不同時間、不同生產單位的支出也是不同的。為了獲得較為客觀的數(shù)據(jù)挖掘結果,對所有產品、設備及作業(yè)費用等設定一個具體數(shù)據(jù);而這些數(shù)據(jù)也是數(shù)據(jù)庫中的一部分。這樣既避免了因設備費用差別而引起的方案優(yōu)選問題,還可以利用數(shù)據(jù)挖掘獲得企業(yè)在不同設備上的支出費用分析。
通過數(shù)據(jù)的預處理過程,數(shù)據(jù)庫中的數(shù)據(jù)成為統(tǒng)一標準的、無噪聲的數(shù)據(jù)。此后即可采用數(shù)據(jù)挖掘系統(tǒng)中的挖掘算法對相關問題進行知識和信息發(fā)掘。
[1]王學軍,田乃林,高書香.斜井抽油相關數(shù)據(jù)的處理方法[J].油氣田地面工程,2011(6):3 -4.
[2]唐笑林.數(shù)據(jù)挖掘技術的研究與應用[J].華東理工大學學報(自然科學版),2008(4):290 -295.
[3]王學軍,田乃林.斜井有桿泵抽油參數(shù)系統(tǒng)中的數(shù)據(jù)庫設計[J].油氣田地面工程,2011(3):81 -82.
[4]高書香,王學軍.抽油機井桿管偏磨因素分析[J].油氣田地面工程,2010(10):52 -53.