王學(xué)軍,劉學(xué)軍,王 龍,李 莎,趙永峰
(1.南京工業(yè)大學(xué)電子與信息工程學(xué)院,江蘇南京 210009;2.承德石油高等??茖W(xué)校,河北承德 067000;3.中國(guó)石油天然氣管道通信電力工程總公司,河北廊坊 065000)
對(duì)于斜井抽油生產(chǎn)過(guò)程來(lái)說(shuō),影響其工作的因素有很多,包括井眼軌跡、抽油機(jī)的桿柱組合、井底流壓、扶正器的位置等多個(gè)因素,對(duì)于抽油桿來(lái)說(shuō),其工作狀態(tài)與效率,將直接影響整個(gè)抽油過(guò)程,在對(duì)抽油桿的設(shè)計(jì)中,為防止由于受力、井斜、井深等多方面的影響,可以使用扶正器將抽油桿進(jìn)行固定,達(dá)到防止“失穩(wěn)”的效果,本文就是通過(guò)數(shù)據(jù)挖掘的聚類算法對(duì)扶正器設(shè)計(jì)的研究應(yīng)用。
聚類的劃分算法是指,對(duì)于給定對(duì)象的數(shù)據(jù)庫(kù),利用目標(biāo)函數(shù)最小化的方法,通過(guò)迭代把數(shù)據(jù)分成n個(gè)組,每個(gè)組成為一個(gè)簇,這樣的過(guò)程稱為劃分。
劃分方法必須要滿足兩個(gè)條件:
1)每個(gè)分組至少包含一個(gè)對(duì)象;
2)每個(gè)對(duì)象必須屬于某一個(gè)分組。
1)算法定義
k-均值算法是比較流行的聚類算法,其含義是指利用簇內(nèi)點(diǎn)的均值或加權(quán)平均值(質(zhì)心)作為簇的代表點(diǎn)。
2)算法實(shí)現(xiàn)的核心思想
通過(guò)迭代把數(shù)據(jù)對(duì)象劃分到不同的簇中,以求目標(biāo)函數(shù)最小化,從而實(shí)現(xiàn)通過(guò)迭代所生成的簇盡可能地緊湊和獨(dú)立。
3)算法實(shí)現(xiàn)過(guò)程
首先,隨機(jī)選取k個(gè)數(shù)據(jù)作為初始的k個(gè)簇的質(zhì)心;
其次,將其余對(duì)象根據(jù)其與各個(gè)簇質(zhì)心的距離分配到最近的簇中;
再次,求新形成的簇的質(zhì)心;
最后,上述三個(gè)步驟重復(fù)執(zhí)行,直到目標(biāo)函數(shù)最小化為止。
4)算法流程圖(見(jiàn)圖1)
對(duì)于目前石油工業(yè)比較流行的斜井抽油,扶正器的設(shè)計(jì)(包括個(gè)數(shù)、位置等方面)也將影響生產(chǎn)過(guò)程及效率。影響扶正器設(shè)計(jì)的因素很多,包括抽油機(jī)的桿柱組合、抽油桿的使用頻率、斜井所在的地理位置等。斜井抽油生產(chǎn)過(guò)程中扶正器設(shè)計(jì)的目標(biāo)就是利用較少的扶正器防止抽油桿失去穩(wěn)定性,達(dá)到正常生產(chǎn)的目的。本文通過(guò)數(shù)據(jù)挖掘的K均值算法對(duì)井深、井斜角等數(shù)據(jù)的分析,將數(shù)據(jù)劃分成不同的簇,達(dá)到實(shí)現(xiàn)設(shè)計(jì)扶正器位置的目標(biāo)。
以某油井(測(cè)深不超過(guò)400 m的井段)為例,根據(jù)測(cè)量得到下面的數(shù)據(jù)表(如表1所示)。
表1 實(shí)驗(yàn)數(shù)據(jù)表
續(xù)表
根據(jù)該井段的數(shù)據(jù)分析來(lái)看,在這個(gè)測(cè)深不超過(guò)400 m的井段,井眼軌跡的變化不是很大,因此可根據(jù)扶正器安裝個(gè)數(shù)的計(jì)算公式aL3-2FL2+λEI=0得到,通過(guò)計(jì)算可知在該井段大約需要安裝4個(gè)扶正器。
根據(jù)數(shù)據(jù)挖掘聚類算法中的k-均值算法,對(duì)于實(shí)驗(yàn)數(shù)據(jù)為14個(gè)數(shù)據(jù)(即n=14),需要?jiǎng)澐值拇貍€(gè)數(shù)為4(即k=4),也就是將14個(gè)數(shù)據(jù)劃分到4個(gè)簇中,從而確定其均值(即扶正器需要安裝的位置)。
第一步:隨機(jī)選取4個(gè)對(duì)象為簇的質(zhì)心,根據(jù)該斜井段數(shù)據(jù)變化比較規(guī)律的特性,可將扶正器均勻分布到該井段,因此,可選取4號(hào)點(diǎn)(測(cè)深56)、8號(hào)點(diǎn)(測(cè)深170)、10號(hào)點(diǎn)(測(cè)深227)、13號(hào)點(diǎn)(測(cè)深340)這四個(gè)點(diǎn)為簇的質(zhì)心。
第二布:利用如下的曼哈坦距離公式,計(jì)算其余的10個(gè)點(diǎn)到4個(gè)質(zhì)心的距離。
以8號(hào)點(diǎn)(測(cè)深170)為例,將8號(hào)點(diǎn)的數(shù)據(jù)作為初始的平均數(shù)據(jù),計(jì)算結(jié)果(見(jiàn)表2)。
表2 利用曼哈坦距離公式的計(jì)算結(jié)果
根據(jù)計(jì)算結(jié)果,按照距離最近的原則,將觀測(cè)點(diǎn)分配到相應(yīng)的簇中,得到了4個(gè)簇的劃分結(jié)果為:(1,2,3,4,5)、(6,7,8,9)、(10)、(11、12、13、14),這樣的結(jié)果和我們預(yù)想的結(jié)果不同,不是均勻分布的結(jié)果。
第三步:將得到的4個(gè)簇重新計(jì)算均值,結(jié)果見(jiàn)表3:
表3 4個(gè)簇重新計(jì)算均值的結(jié)果
第四步:以新的均值(質(zhì)心)作為依據(jù),按照第二步重新劃分簇,對(duì)其數(shù)值改變后,按照距離最近的原則,重新進(jìn)行簇的劃分,結(jié)果為:(1,2,3,4)、(5,6,7,8,9)、(10)、(11、12、13、14),結(jié)果發(fā)生了變化。
第五步:對(duì)新的簇進(jìn)行均值的計(jì)算(即求質(zhì)心的過(guò)程),結(jié)果見(jiàn)表4:
表4 質(zhì)心的位置數(shù)據(jù)
將該結(jié)果與第一次均值比較,發(fā)現(xiàn),前面兩個(gè)簇的均值發(fā)生了變化。
第七步:利用新的均值(即質(zhì)心)進(jìn)行最小距離求解,結(jié)果沒(méi)有發(fā)生任何變化,說(shuō)明計(jì)算過(guò)程結(jié)束。
通過(guò)分析,在該口井的不超過(guò)400 m深的井段,將安放4個(gè)扶正器,分別在測(cè)深為30.5 m、141.2 m、227 m、319.75 m處安放扶正器,效果最佳。
通過(guò)研究可以發(fā)現(xiàn),在以石油工程斜井抽油生產(chǎn)為代表的工程實(shí)踐中將產(chǎn)生很多的工程數(shù)據(jù),這些數(shù)據(jù)之間存在很多的聯(lián)系,通過(guò)對(duì)數(shù)據(jù)的研究,可得到很多的有用信息,這些信息將對(duì)工程生產(chǎn)實(shí)踐起到重要的支撐作用,這些應(yīng)用也將對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域起到拓展作用,同時(shí)也為相關(guān)領(lǐng)域的工程數(shù)據(jù)處理和預(yù)測(cè)提供了思路。
[1]王學(xué)軍,田乃林,高書香.斜井抽油相關(guān)數(shù)據(jù)的處理方法[J].油氣田地面工程,2011,30(6):3-4.
[2]檀朝東,張嗣偉.鋼絲繩桿泵抽油系統(tǒng)優(yōu)化設(shè)計(jì)方法及現(xiàn)場(chǎng)應(yīng)用[J].石油學(xué)報(bào),2005,26(6):104-108.
[3]覃成錦.斜井抽油桿扶正器安放間距三維計(jì)算[J].石油機(jī)械,1997,25(5):47-48.
承德石油高等??茖W(xué)校學(xué)報(bào)2013年2期