王彪 韓國慶 路鑫 譚帥 朱志勇 梁星原
中國石油大學(xué)(北京)石油工程教育部重點實驗室
電參數(shù)能夠反映電潛泵的實時工作狀態(tài),且容易實現(xiàn)監(jiān)測和收集,因此在油田開發(fā)生產(chǎn)過程中,通過電參數(shù)對電潛泵的工作狀況進行監(jiān)測和分析的研究較多,常見的有電流卡片方法等。這些方法依賴人工經(jīng)驗,存在人為因素和主觀誤差。使用機器學(xué)習算法可以實現(xiàn)電參數(shù)的自動分析,提高效率并降低主觀誤差。陳治國等[1]提出了基于模式識別的電流卡片特征值的提取方法,給出了人工判斷的量化指標;余繼華等[2]引入了機器學(xué)習,采用神經(jīng)網(wǎng)絡(luò)方法識別電流工況,甘露等[3]使用BP算法對神經(jīng)網(wǎng)絡(luò)進行了進一步擴充;韓國慶等[4]補充了更多工況類別,進一步擴充了神經(jīng)網(wǎng)絡(luò)的適用性;Gupta等[5]使用主成分分析方法討論了電潛泵工況偏離正常狀態(tài)時的可視化構(gòu)建和評判方法;王國輝等[6]基于主成分分析法討論了電潛泵大數(shù)據(jù)綜合分析預(yù)警系統(tǒng)的構(gòu)建,提出通過對大數(shù)據(jù)降維實現(xiàn)油井狀態(tài)描述和監(jiān)控預(yù)警的方法;隋先富等[7]基于主成分分析法,對電潛泵的多維參數(shù)進行降維,通過多維參數(shù)監(jiān)測了電潛泵的工作狀態(tài)改變。前人的研究側(cè)重于通過某一種方法對電潛泵井的生產(chǎn)狀態(tài)進行描述,認識不斷加深,但缺乏從特征提取及處理然后進行分類識別并綜合評價的機器學(xué)習完整流程,在不同環(huán)節(jié)中依然保留有人為因素。本研究在前人研究基礎(chǔ)上,構(gòu)建了機器學(xué)習的完整流程,通過特征工程對波動的電流數(shù)據(jù)提取大量的特征信息,然后通過降維算法實現(xiàn)特征描述和可視化,再通過分類算法實現(xiàn)工況診斷并給出具體結(jié)論,最后進行分析與評價。使用實際生產(chǎn)時的電流數(shù)據(jù)實例,通過以上4個部分的流程的綜合,實現(xiàn)了對電潛泵工況的快速準確且直觀的描述。
電流卡片診斷是API于1982年提出的一種電潛泵故障分類方法,其分類的依據(jù)是在不同的工況下運行的電潛泵具有不同的電流波動特征[3],例如波動的時間長短、波動的頻次大小、電流的峰值與額定值之間的關(guān)系等。傳統(tǒng)方法受限于技術(shù)條件,通過形態(tài)來進行模糊識別,具有較強的主觀因素,在泵工況識別過程中會導(dǎo)致人為誤差[8]。
為了減少誤差,學(xué)界進行了多方面的研究,各種傳感器和數(shù)據(jù)記錄設(shè)備的發(fā)展,也大大方便了電流參數(shù)的量化。傳統(tǒng)的電流卡片記錄分鐘級的電流平均數(shù)據(jù),常見的有6 min一個點[9]。隨著傳感設(shè)備和數(shù)據(jù)記錄設(shè)備的性能提升,當前油田生產(chǎn)中得到的電流數(shù)據(jù)可以達到20 s一個點甚至更密。數(shù)據(jù)記錄密度的提升使得電流記錄可以體現(xiàn)出有關(guān)電泵工作狀況的更多信息。此時通過傳統(tǒng)的對電泵工作狀況改變導(dǎo)致電流波動的機理分析就顯得不夠精細和迅速。
數(shù)據(jù)密度的提升帶來了更多的電流特征。對于分析而言,這些特征的保留使得挖掘更多的信息成為可能。而采用傳統(tǒng)的方法識別,會忽視掉這些特征的細節(jié),這種信息丟失給工況的識別帶來了誤差。經(jīng)過稀釋的數(shù)據(jù)可能會淹沒一些關(guān)鍵的波動信息,使得一些原本正常的波動變成沒有規(guī)律的波動,導(dǎo)致局部的信息丟失和整體的信息變異,其中信息丟失是指局部位置的波動峰值或波動周期的消失,信息變異是指整體的波動形態(tài)的改變。此外由于稀釋算法導(dǎo)致的信息損失,可能使得一些原本存在差異的電流波動圖形變得接近,失去其獨特性,從而導(dǎo)致不同工況的電流數(shù)據(jù)被診斷為同一種工況,影響判斷的準確性。
為了詳細說明局部的信息丟失與整體的信息變異,選取一口氣體影響工況井的20 s一個點的高密度實際電流數(shù)據(jù),從中取30 min數(shù)據(jù)作為研究對象,放大并與一種稀釋算法和一種間歇采樣方法獲得的6 min一個點的稀釋數(shù)據(jù)進行特征對比。由圖1可看出,高密度實時電流數(shù)據(jù)反映了某種規(guī)律的電流波動,可能與負載的工作情況有關(guān)。然而通過傳統(tǒng)的均值方法或間歇采樣得到的低密度電流數(shù)據(jù)中產(chǎn)生了相比于原始數(shù)據(jù)的信息丟失,可能導(dǎo)致生產(chǎn)中的某些關(guān)鍵信息的損失。
圖1 電潛泵氣體影響工況的高密度實時電流數(shù)據(jù)與稀釋的電流數(shù)據(jù)特征對比Fig.1 Feature comparison of high-density real-time current data and diluted current data of ESP under the working condition of gas influence
解決此類信息損失的方法是盡可能保留傳感器設(shè)備傳輸?shù)脑济芏鹊臄?shù)據(jù)并進行計算和分析,使用合理的方法去除其中包含的噪聲,同時減少對原始數(shù)據(jù)的傷害,而非使用其他方法將數(shù)據(jù)直接稀釋后計算。對于大量數(shù)據(jù)的處理與分析可以通過使用機器學(xué)習方法完成,以實現(xiàn)又快又好的評判效果。
基于電潛泵電流數(shù)據(jù)的工況識別需要進行包括數(shù)據(jù)預(yù)處理、特征提取、特征降維、分類模型的訓(xùn)練及預(yù)測等流程,方法如圖2所示。
圖2 基于電潛泵電流數(shù)據(jù)的工況識別流程圖Fig.2 Flow chart of working condition recognition with ESP current data
為了減少數(shù)據(jù)稀釋帶來的信息損失,需要盡量保留原始的數(shù)據(jù)密度進行運算。然而更大的數(shù)據(jù)量導(dǎo)致了計算的困難,也給問題的分析帶來了挑戰(zhàn),因此需要實施特征工程從原始的波動信息中提取出關(guān)鍵的有效信息。
特征工程是指將原始數(shù)據(jù)轉(zhuǎn)化為更好地表達問題本質(zhì)特征的過程,將這些特征運用到預(yù)測模型中,能提高對不可見數(shù)據(jù)的模型預(yù)測精度。特征工程的目標是找到分解和聚合原始數(shù)據(jù),以更好地表達問題本質(zhì)的方法,即發(fā)現(xiàn)對因變量y有明顯影響作用的自變量特征x。因此,特征工程是數(shù)據(jù)挖掘模型開發(fā)的基礎(chǔ)。
歸一化過程是對原始數(shù)據(jù)進行線性變化,使結(jié)果落到[0,1]區(qū)間,以便消除不同數(shù)據(jù)量級之間的差別,減少分析誤差,轉(zhuǎn)換函數(shù)為
在電潛泵電流分析及工況診斷中,對電流的歸一化數(shù)據(jù)進行波形分析,得到時域特征和波形特征作為模型的輸入,具體方法如下。
2.1.1 時域特征
(1)特征值1:方差,當前電流值和電流均值之間的偏離程度的度量,定義為
(2)特征值2:均方根值,當一組數(shù)據(jù)中存在較多0值,即占空比較高時,直接計算其均值不能反映電流強度有效值,均方根值則可以很好地表征電流強度有效值[10],定義為
(3)特征值3:方根幅值,對振幅的變化非常敏感的物理量[11],定義為
式中,Ivar為電流方差,A;Ii為當前電流,A;I為電流均值,A;Irms為電流均方根,A;Ir為電流方根幅值,A。
2.1.2 波形特征
(1)特征值4:峰值因數(shù),表示電源系統(tǒng)能夠提供峰值電流能力的指標要求[12],定義為
(2)特征值5:偏度因子,數(shù)據(jù)分布偏斜方向和程度的度量,是數(shù)據(jù)分布非對稱程度的數(shù)字特征[13],負偏度代表統(tǒng)計數(shù)據(jù)為右偏分布,正偏度代表統(tǒng)計數(shù)據(jù)為左偏分布,定義為
式中,Cf為峰值因數(shù);Imax為電流最大值,A;Sk為偏度因子。
(3)特征值6:波形因子,用于量化表征波形偏離正弦波形的程度[14],定義為
其中
(4)特征值7:脈沖因子,用于描述信號沖擊的指標[15],定義為
(5)特征值8:裕度因子,用來檢測信號中有無沖擊的指標,常用于監(jiān)測機械設(shè)備的磨損狀況[16],定義為
(6)特征值9:峭度,是反映隨機變量分布特性的數(shù)值統(tǒng)計量,可以在頻域內(nèi)表示一系列瞬態(tài)的存在及其位置,消除非平穩(wěn)信號[17]。定義為
(7)特征值10:峭度因子,表示波形平緩程度,用于描述對振動信號沖擊特性的反映[18],定義為
式中,Sf為波形因子;Iarv為整流平均值,A;Ii(t)為隨時間變化的電流值,A;Cif為脈沖因子;Cmf為裕度因子;Ck為峭度;Ckf為峭度因子。
通過以上方法對波動的電流數(shù)據(jù)實施特征工程,即可將波動電流中包含的特征信息盡可能地挖掘出來,以便實施后續(xù)的機器學(xué)習步驟。特征工程是升維過程,從一維連續(xù)時間內(nèi)的波動中提取出多維特征信息,然后針對這些特征信息展開分析,以數(shù)學(xué)模型來表達,在特征工程實現(xiàn)過程中提取出的多變量大數(shù)據(jù)集為研究和應(yīng)用提供了豐富信息。
在特征工程實現(xiàn)了數(shù)據(jù)特征的挖掘之后,需要根據(jù)挖掘得到的特征值進行處理與分析,處理的過程主要使用聚類算法實現(xiàn)數(shù)據(jù)降維,以降低計算復(fù)雜度。如果采用單獨對每個特征值進行分析的低維度分析方法,則分析往往是孤立的,不能實現(xiàn)數(shù)據(jù)中信息的綜合利用,盲目減少分析的特征值會損失很多有用的信息,從而給分析帶來誤差。因此需要找到一種合理的方法,在減少需要分析的特征值的同時,盡量減少特征值中所包含信息的損失,以實現(xiàn)對所收集數(shù)據(jù)的全面分析。常用的數(shù)據(jù)降維方法有很多,本文采用主成分分析法(PCA)去除數(shù)據(jù)中的噪聲,降低算法的計算開銷,使得結(jié)果更容易可視化并為人所理解[19]。使用主成分分析進行降維是通過線性變化將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的標識,提取數(shù)據(jù)的主要特征分量。使用主成分分析方法降維可以獲得各主成分的變異系數(shù),將這些變異系數(shù)按照主成分繪制為柱狀圖,即為PCA的碎石圖,反映降維后的各主成分所保留的原始信息的百分比。根據(jù)可接受的保留信息的比率,通過碎石圖的累積值可以幫助確定所需達到的維度。
降維的維度確定后,就可以將原本多維空間中的點投射到降維形成的主成分空間中,觀察參數(shù)的聚集情況。通過對原本數(shù)據(jù)的所屬工況打上顏色標簽,可以直觀地觀察各工況在主成分空間中是否存在特殊的聚集關(guān)系,實現(xiàn)聚類結(jié)果的可視化。通過對該聚集關(guān)系的描述,就可以進行機器學(xué)習的下一步流程,建立實現(xiàn)分類任務(wù)的機器學(xué)習模型。
在完成參數(shù)的降維、聚類與可視化后,使用分類算法對本研究中的數(shù)據(jù)聚集情況進行具體的劃分。邏輯回歸是當前業(yè)界比較常用的機器學(xué)習方法,用于估計某種事物的可能性[20]。它與多元線性回歸同屬一族,即廣義線性模型。多元線性回歸是直接將特征值和其對應(yīng)的概率相乘得到一個結(jié)果,邏輯回歸是在這個結(jié)果上加一個邏輯函數(shù),來實現(xiàn)對于事物屬于某一類別的可能性估計。邏輯回歸的主要思想是在模型訓(xùn)練中,首先得到極大似然函數(shù),然后使用梯度下降法求解函數(shù)中參數(shù)的近似值。
使用邏輯回歸模型根據(jù)一個特征值進行二分類問題求解時,由坐標(x,y)確定的每個點代表一個樣本,其中y值的0和1代表兩種樣本標簽,x代表樣本特征。在分類模型訓(xùn)練過程中,通過采用不同函數(shù)對訓(xùn)練樣本進行擬合,回歸出一個能夠描述大多樣本特征的函數(shù),該函數(shù)就是最終確定的分類模型。對于本任務(wù)的多分類回歸問題,使用邏輯回歸模型可以將一個n分類任務(wù)拆分為n個二分類任務(wù)。某個分類任務(wù)歸屬于某種類型,則該類型i對應(yīng)的第i個混淆特征即為1,其余混淆特征為0,通過對每個混淆特征進行二分類,從而實現(xiàn)多分類。
在多分類任務(wù)完成后,對機器學(xué)習算法得到的結(jié)果評估是機器學(xué)習算法完成后的必要流程。對于多分類任務(wù)的評估指標包括準確率(Accuracy)、精確率 (Precision)、召回率 (Recall)、和F1分數(shù) (F1-Score)方法等。根據(jù)所要處理的問題不同,各種評估指標具有不同的適用性。
準確率是指對于給定的測試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比[21]。但當分類任務(wù)中不同類型的樣本數(shù)量差異比較大時,或者分類任務(wù)目標不同,準確率未必能夠真實地反映分類器的分類效果。為了彌補準確率方面的不足,引入了精確率、召回率和F1分數(shù)的概念。以二分類任務(wù)為例,定義4種分類狀況:真正類(True Positive)、假正類 (False Positive)、假負類 (False Negative)、真負類(True Negative)。
通過以上4種概念定義精確率和召回率。精確
率表示分類器預(yù)測為正的樣本中有多少個是真實的正樣本,召回率表示樣本中的正例有多少被正確預(yù)測了,兩者分別評判了分類器的漏報或誤報率。精確率和召回率之間是互相影響的,對于一個案例而言,最好的情況是做到兩者都高,但一般情況下精確率高、召回率就低,召回率高、精確率就低。
對于電潛泵的故障診斷而言,既希望召回率高,即減少漏報,避免額外的經(jīng)濟損失,又希望精確率高,即減少誤報,避免額外的工作量和人力物力投入。因此,精確率和召回率之間還需要一定的平衡。此時就可以使用F1分數(shù)來對兩者進行均衡,精確率和召回率越高,則F1分數(shù)越高,分類任務(wù)越好。
從A油田電潛泵井數(shù)據(jù)庫中提取了正常工況、泵抽空、過載停泵、頻繁短周期運行4種工況的井共計56口,使用前文所述特征工程的方法從56口井的實時電流數(shù)據(jù)中分別提取10個特征值。各樣本井的特征值與工況的對應(yīng)關(guān)系部分示例見表1。
表1 樣本的特征值與工況對應(yīng)關(guān)系的部分示例Table 1 A partial example of the correspondence between eigenvalues and working conditions of samples
利用基于皮爾遜相關(guān)系數(shù)的相關(guān)性分析法對這10個特征值和實際工況進行相關(guān)性描述,線性正相關(guān)性越強,則相關(guān)度越接近1,線性負相關(guān)性強,則相關(guān)度越接近?1。從圖3各特征值之間的相關(guān)關(guān)系,以及各特征值與最終工況的相關(guān)關(guān)系量化可以直觀看出,部分特征值之間存在較強的線性相關(guān)性,這說明部分特征值表現(xiàn)的特征是重復(fù)的,可以進行適當?shù)慕稻S操作以提取出主要的特征描述方法,降低機器學(xué)習的計算量和計算復(fù)雜度。且從與工況的關(guān)系也可以看出,工況與各個特征值之間均存在較強相關(guān)性,這也說明,僅使用單個特征值難以描述對結(jié)果的影響。
圖3 各特征值和工況彼此之間的相關(guān)系數(shù)Fig.3 Correlation coefficients of eigenvalues and the working conditions with each other
基于相關(guān)性熱力圖得到的分析結(jié)果,其中存在的線性相關(guān)性較強的變量需要進行降維以降低計算量并實現(xiàn)可視化。對這些特征值去除工況結(jié)論進行無監(jiān)督的PCA降維聚類,圖4的PCA碎石圖展示了降維的主成分數(shù)量保留原始信息的程度,以各主成分解釋的方差比進行量化。
圖4 使用PCA降維的碎石圖和累積分布圖Fig.4 Scree plot and cumulative distribution diagram obtained from dimensionality reduction with PCA
從圖4可以看出,PC1對電流特征值所包含信息的保留程度達到64.55%,PC2對電流特征值所包含信息的保留程度達到19.18%,PC1和PC2共同達到的信息保留程度達到83.73%。兩個主成分就可以保留80%以上的特征值信息,因此從可視化效果以及計算難度上考慮,可以認為使用兩個主成分即可實現(xiàn)對電流特征值的總體描述。
使用降維后的特征值進行二維無監(jiān)督聚類,觀察數(shù)據(jù)的聚類情況,以便確定使用電流特征值的二維聚類判別電泵工況的實現(xiàn)可行性。二維無監(jiān)督聚類效果如圖5所示。
圖5 對電參數(shù)特征值進行二維無監(jiān)督聚類的結(jié)果Fig.5 The results of 2-dimensional unsupervised clustering for the eigenvalues of current data
從圖5可以看出,上述56口井在主成分分析圖中似乎有3到4處較好的聚類。為了確定這種聚類方式是否與各個工況相關(guān),用原本各個電流情況對應(yīng)的工況作標簽來對各聚類點進行顏色和形狀的標記,結(jié)果如圖6所示。
圖6 PCA聚類中各點所代表的工況情況Fig.6 The working conditions represented by points in the clustering diagram with PCA
從圖6可以看出,電潛泵的電參數(shù)特征值進行二維無監(jiān)督聚類的位置分布情況確實與不同工況有關(guān),因此認為此次聚類效果較好,實現(xiàn)了各個工況的特征分離。從PCA降維的碎石圖上看,6個維度的主成分能夠描述電流的幾乎99.98%的信息。因此根據(jù)PCA算法,形成特征值與主成分的系數(shù)矩陣熱力圖,如圖7所示。
圖7 各特征值與各主成分之間的相關(guān)系數(shù)Fig.7 Correlation coefficients of each eigenvalue with each principal component
圖7中6個主成分與10個特征值的關(guān)系的描述為:每一行對應(yīng)一個主成分,每一列對應(yīng)一個特征值。以第1行為例,表明第1主成分可使用該行中每格的權(quán)重數(shù)值與其對應(yīng)的特征值乘積的累加和表示如下
式中,f1~f10分別表示特征值1至特征值10。
其他主成分的表示方式與第1主成分的表示方式類似。
對主成分與特征值之間關(guān)系描述的主要作用是,當新輸入一口井的數(shù)據(jù)并提取特征值后,按照熱力圖中每個點的系數(shù),即可求取各個主成分值,以便進行后續(xù)的機器學(xué)習算法。
從圖6的工況分布情況來看,PCA聚類在描述各個電泵工況時具有較好的能力,對于新加入的一口井的數(shù)據(jù)而言,如果提取特征值并降維后分布位置在上述聚簇內(nèi)部,那么該井所處工況屬于該聚簇表示的工況的可能性較大,但如果新加入的一口井處于某兩種工況形成的聚簇之間時,對于工況的判別就難以直接描述。此時需要對數(shù)據(jù)進行機器學(xué)習完成分類任務(wù),以進行工況的準確識別和判斷,最終實現(xiàn)機器學(xué)習的數(shù)據(jù)處理、訓(xùn)練與預(yù)測的閉環(huán)。
使用邏輯回歸方法對4種工況類型的56口樣本井的數(shù)據(jù)進行學(xué)習和預(yù)測,測試集占比設(shè)置為30%,計算得到準確率0.84,精確率、召回率和F1分數(shù)見表2。
表2 使用邏輯回歸的機器學(xué)習的結(jié)果評價Table 2 Results evaluation of ML using LR algorithm
如表2所示,模型最終實現(xiàn)的效果中,4種工況類型的56口井的各評價指標評價結(jié)果均達到80%以上,且平均F1分數(shù)達到了85%,說明使用電流特征值降維的二維主成分建立的邏輯回歸模型在這4種工況類型的56口電泵井的評價中實現(xiàn)了較好的分類效果。
(1)與傳統(tǒng)的電流特征識別方法相比,基于機器學(xué)習的電潛泵電流分析及工況診斷實現(xiàn)了對電流數(shù)據(jù)的特征提取,將電流波動的形狀描述問題轉(zhuǎn)化為基于數(shù)據(jù)的數(shù)學(xué)特征量化描述問題,提升了評價的客觀性,減少了人為誤差。
(2)通過特征工程提取的特征值本身復(fù)雜多樣,且各個特征值之間可能具有較強的線性相關(guān)性,需要對這些數(shù)據(jù)剔除線性相關(guān)變量,保留線性無關(guān)變量,以便減少機器學(xué)習的輸入數(shù)據(jù),降低機器學(xué)習的模型復(fù)雜度。采用PCA方法降維,一方面保留了特征提取中獲得的主要特征,另一方面減少了機器學(xué)習的輸入數(shù)據(jù)維度,降低了計算復(fù)雜度,同時還能通過聚類效果的可視化確定數(shù)據(jù)特征提取是否滿足泵工況描述的要求。使用二維主成分表征的電潛泵工況信息保留程度達到83.73%,降維聚類表現(xiàn)出了良好的工況區(qū)分性,為使用邏輯回歸方法實施分類任務(wù)奠定了基礎(chǔ)。
(3)使用降維后的電參數(shù)特征數(shù)據(jù),建立邏輯回歸模型,完成了對電潛泵工況的診斷。對4種工況類型的56口電潛泵井的診斷準確度、精確度、召回率均達到了80%以上,F(xiàn)1分數(shù)達到了平均85%的水平,達到了期望的分類識別效果,實現(xiàn)了有效的電潛泵工況診斷。