郎憲明 李平 曹江濤 蘆思宇 李儼 任泓
摘 要:針對管道運行狀態(tài)數(shù)據(jù)的非平衡性會造成管道泄漏診斷準確率下降的問題,提出了一種基于非平衡數(shù)據(jù)的管道泄漏檢測與定位方法.首先,將管道各工況非平衡數(shù)據(jù)采用基于K均值聚類的欠采樣方法處理,使其達到數(shù)據(jù)平衡.然后,將Fischer-Burmeister函數(shù)引入到雙支持向量機學習過程中,以避免目標函數(shù)求解時矩陣的求逆計算,并將平衡數(shù)據(jù)作為改進雙支持向量機算法的輸入,識別管道泄漏.采用相關分析法實現(xiàn)泄漏點定位.根據(jù)Flowmaster搭建的管道模型,運用該方法識別管道泄漏.仿真實驗表明,與經典雙支持向量機和拉格朗日雙支持向量機相比,該方法能更快速識別管道泄漏孔徑及定位.
關鍵詞:非平衡數(shù)據(jù);K均值聚類;雙支持向量機;泄漏檢測;泄漏點定位
中圖分類號:TP277 文獻標志碼:A
Abstract:As the data imbalance of pipeline working conditions decreases the accuracy of the pipeline leakage diagnosis, a method of pipeline leak detection and location based on imbalance data was proposed. First, the imbalance data of different working conditions were processed by K-means clustering algorithm and under-sampling to achieve the balance data. Then, the Fischer-Burmeister function was introduced into the learning process of the twin support vector machine (TWSVM), in order to avoid the matrix inversion calculation, and the balance data were input into the improved TWSVM to distinguish the pipeline leakage. Leak location was obtained by the cross-correlation function method. Moreover, a flow model of pipeline was put forward based on the Flowmaster software, and the proposed method was used to identify pipeline leakage. The experimental results show that the proposed method is more effective than the classical TWSVM and the Lagrange TWSVM to identify the pipeline leakage aperture and location.
Key words:imbalance data; K-means; twin support vector machine; leak detection; leakage location
管道運輸以安全可靠,經濟實用的特點在油氣運輸中被廣泛應用[1-2].由于輸送介質具有易燃易爆的特性,一旦管道發(fā)生泄漏,可能引發(fā)人員傷亡和環(huán)境污染等重大事故,所以需要對管道運行狀態(tài)進行在線監(jiān)控,及時發(fā)現(xiàn)泄漏并做相應處理.
管道運行過程的監(jiān)控數(shù)據(jù)具有明顯的分布不均衡的特征,即正常運行狀態(tài)的樣本數(shù)量遠遠多于泄漏樣本及其他工況樣本的數(shù)量.采用經典支持向量機方法建立管道泄漏檢測模型時,多數(shù)方法是以平衡數(shù)據(jù)作為學習樣本.文獻[3]通過獲取管道同溝敷設光纖振動信號的特征向量,建立管道泄漏、人工挖掘和人走動3種情況的平衡數(shù)據(jù)樣本,用于支持向量機(SVM)的學習和測試,從而判斷管道沿線是否有異常事件發(fā)生;文獻[4]通過建立管道機理模型,根據(jù)泄漏點的不同位置,以管道的入口流量值和出口壓力值作為特征向量,建立平衡的學習和測試樣本數(shù)據(jù),采用基于SVM的方法識別管道泄漏和泄漏點定位,利用粒子群優(yōu)化算法(PSO)對SVM的懲罰參數(shù)和核參數(shù)進行優(yōu)化;文獻[5]提出采用局域均值分解(LMD)方法對天然氣管道泄漏信號進行分解,根據(jù)各乘積函數(shù)(PF)的峭度值選擇主PF分量,對主PF分量進行包絡譜分析并計算熵值,以不同泄漏孔徑信號的歸一化熵值作為特征向量,建立平衡數(shù)據(jù)樣本,采用SVM來識別管道泄漏孔徑;文獻[6]將泄漏音波信號的時域特征信息作為特征向量,建立平衡的學習和測試樣本數(shù)據(jù),通過最小二乘支持向量機來識別管道泄漏孔徑.以上的研究均未考慮實際管道運行工況中,管道監(jiān)測數(shù)據(jù)的非平衡性特征.目前,解決非平衡分類問題方法可以分為兩大類[7-8]:一類是改變訓練集樣本分布,降低非平衡程度;另一類是依據(jù)算法適應非平衡分類.
雙支持向量機(TWSVM)是在支持向量機基礎上提出的一種機器學習算法[9-11].TWSVM與SVM根本的區(qū)別是TWSVM解決兩個規(guī)模相對更小的二次規(guī)劃問題,而SVM解決一個規(guī)模較大的二次規(guī)劃問題,所以TWSVM能將訓練時間縮減到原來SVM的1/4.本文提出采用Fischer-Burmeister函數(shù)將雙支持向量機的二次規(guī)劃問題變成無約束的最小化問題,以提高計算速度.TWSVM在處理多分類問題時,和SVM處理方式一樣,構造一系列二分類器,如“一對一”,“一對多”和“有向無環(huán)圖”等[9].
針對管道監(jiān)測數(shù)據(jù)非平衡性特征和泄漏檢測對于準確性和實時性的要求,本文采用Flowmaster軟件建立管道模型,根據(jù)管道首末兩端采集的壓力原始信號,建立不同工況下的非平衡數(shù)據(jù)樣本,采用K均值聚類算法對非平衡數(shù)據(jù)進行欠采樣處理,然后利用改進的雙支持向量機算法對管道泄漏進行識別,并采用相關分析法進行泄漏點定位.
1 基于K均值聚類的欠采樣方法
將非平衡數(shù)據(jù)進行預處理,將樣本中每行取均值,然后對樣本中的數(shù)據(jù)乘以一個系數(shù),并加上相應均值.數(shù)據(jù)樣本預處理如式(1)所示.
K均值聚類算法[12-14]是比較常用的樣本聚類算法之一.它的基本思想是:首先從樣本N個數(shù)據(jù)中隨機選取K個數(shù)據(jù)作為初始聚類中心,然后計算其余每個數(shù)據(jù)點到這些聚類中心的距離,并將與中心距離最近的數(shù)據(jù)劃分為該類.再重新計算聚類中所有對象的平均值作為新的聚類中心,不斷重復以上步驟,直到聚類中心值不再變化.通常依據(jù)將N個樣本最小化類內距離的準則來分到K個聚類中,其定義如式(2)所示:
為了使非平衡數(shù)據(jù)采用K均值聚類算法后達到數(shù)據(jù)平衡,首先求解各種工況數(shù)據(jù)的不平衡比率,以管道泄漏數(shù)據(jù)樣本為基礎,將正常工況及調閥工況按此方式進行欠采樣,其定義如式(3)所示.此時,在不同工況下,樣本數(shù)據(jù)能達到數(shù)據(jù)平衡.
3 實驗與分析
所有實驗均在Intel Pentium Processor (2.90 GHz)及6 GB RAM的PC機上使用MATLAB R2014a 和 Flowmaster V7軟件實現(xiàn).
3.1 建立非平衡數(shù)據(jù)樣本
采用Flowmaster軟件[18-19]對管道的泄漏孔徑及閥門的動作進行仿真計算,圖1為建立的管道泄漏模型.系統(tǒng)建模時,按照真實的管道環(huán)境,采用彈性管道,管道長為L=2 030 m,管道內徑為d=50 mm,管道內壁粗糙度為ε=0.025 mm,管道首末兩端恒壓油箱的液位分別為200 m和0 m,負壓波波速wv=1 000 m/s,介質為潤滑油,外界溫度為20 ℃.在距管道首端壓力信號測量點10 m的位置上設置一個球閥,通過控制器對它輸入控制信號來控制閥門的開度.在距離管道首端壓力信號測量點1 420 m位置上通過一段細小管道連接大氣來模擬小泄漏情況.管道模型仿真的時間為40 s,采樣間隔為0.01 s.
控制閥門在2 s內快速打開,管道系統(tǒng)在20 s時出現(xiàn)泄漏,分別測得無泄漏、閥門打開和3種不同泄漏孔徑時管道首末端壓力信號.泄漏發(fā)生時,不同泄漏孔徑的壓力信號對比如圖2和圖3所示.
從圖2和圖3中可知,控制閥門打開時,管道首末端壓力信號出現(xiàn)迅速跳變,并較快恢復穩(wěn)定,大約在13 s時,壓力恢復平穩(wěn).在20 s時,1 420 m處發(fā)生泄漏,泄漏孔徑分別選取5 mm、3 mm和1 mm.泄漏發(fā)生時,壓力波形的拐點隨泄漏孔徑的減小而變得越不明顯.
Flowmaster建立的管道系統(tǒng)不包含外界噪聲,為了模擬真實工況,在管道的首末端壓力數(shù)據(jù)中添加零均值白噪聲.根據(jù)管道模型采集的首末兩端壓力信號,經db4小波函數(shù)消噪后,重構的壓力信號按文獻[20]的時域特征和波形特征提取信號的特征.每個樣本的信號采樣點數(shù)為1 000,以此建立非平衡數(shù)據(jù)樣本,其中正常工況600組樣本;調閥工況200組樣本;5 mm泄漏孔徑20組樣本;3 mm泄漏孔徑20組樣本;1 mm泄漏孔徑20組樣本.每一種工況樣本選1組壓力信號,其特征值如表1所示(1.信號平均值,2.方差,3.能量,4.平均幅值,5.均方根,6.方根幅值,7.有效值,8.峰值系數(shù),9.形狀參數(shù),10.偏度參數(shù),11.脈沖因子,12.峪度因子,13.峭度,14.峭度因子).
從表1中可知,雖然時域特征值和波形特征值不同程度地反映了壓力信號變化特征,但是存在不相關特征值和冗余特征值,因此會增加數(shù)據(jù)計算量,影響泄漏檢測的實時性,所以通過核主元分析去除特征向量中冗余的信息,進行數(shù)據(jù)降維.
核主元分析算法中,選擇徑向基核函數(shù),核函數(shù)參數(shù)為sigma=5.當選擇第1個主元、第2個主元、第3個主元、第4個主元時,其方差貢獻率已達到85%,能提供原特征參數(shù)的絕大部分信息,故選擇前4個主元作為綜合特征值,其中每種工況中一組特征值樣本的核主元分析結果如表2所示.
從表2中可知,正常工況、調閥工況及不同泄漏孔徑的綜合特征值較易區(qū)分.但是在計算時,同一工況的不同樣本綜合特征值是變化的,不利于將此特征值輸入到雙支持向量機進行泄漏檢測,所以對非平衡數(shù)據(jù)樣本中的綜合特征值分別按式(1)進行預處理,其中ε=0.000 1.
3.2 采用K均值聚類的欠采樣方法處理非平衡數(shù)據(jù)
600組正常工況特征數(shù)據(jù)和200組調閥工況特征數(shù)據(jù)分別按式(2)計算,令K=4.600組正常工況特征數(shù)據(jù)和200組調閥工況特征數(shù)據(jù)分布及欠采樣后的數(shù)據(jù)分布分別如圖4、圖5所示.
從圖4、圖5中可知,為了使600組正常工況特征數(shù)據(jù)和200組調閥工況特征數(shù)據(jù)的選擇更具有一般性,欠采樣時,每種工況平均隨機選擇20組數(shù)據(jù)樣本,使正常工況、調閥工況和管道泄漏的樣本數(shù)量相等.
3.3 管道泄漏識別
將正常工況、調閥工況、不同泄漏孔徑的特征數(shù)據(jù)樣本,輸入到改進的雙支持向量機中,識別不同工況及泄漏孔徑的大小.實驗中,利用數(shù)據(jù)處理后的正常工況20組數(shù)據(jù)、調閥工況20組數(shù)據(jù)和采集的不同泄漏孔徑信號各20組數(shù)據(jù),每種工況隨機抽取10組數(shù)據(jù),輸入到改進的雙支持向量機中進行學習,其余數(shù)據(jù)進行測試,其中每種工況的5組樣本數(shù)據(jù)如表3所示.
求解式(7)和式(8)時,分別采用MATLAB中quadprog函數(shù),文獻[15]中的方法和本文的改進方法,雙支持向量機的參數(shù)都設置為c1=c2=0.1,其中最速下降法的參數(shù)μ=0.01,σ=0.01,誤差要求epsilon=1×10-5,迭代次數(shù)為20次;文獻[15]中式(55)的參數(shù)β=0.2,誤差要求也為epsilon=1×10-5.本文采用“One-versus-Rest”算法實現(xiàn)多分類,雙支持向量機學習后的管道泄漏識別效果如圖6所示,其中類別1、類別2、類別3、類別4和類別5分別表示為正常工況、調閥工況、5 mm泄漏孔徑、3 mm泄漏孔徑和1 mm泄漏孔徑.
從圖6中可知,經過學習后的TWSVM可以準確實現(xiàn)工況識別和泄漏孔徑識別,其測試準確率為100%.因為三種方法求解TWSVM的目標函數(shù)都相同,所以工況識別率應一樣.但測試時,計算時間不同,三種方法的計算時間如表4所示.
從表4中可以看出,在識別率都為100%的基礎上,改進的雙支持向量機算法相比采用MATLAB中quadprog 函數(shù)算法和文獻[15]的算法具有更快的求解速度.因為MATLAB中的quadprog函數(shù)需要計算有上、下界約束的不等式優(yōu)化,從而增加了程序運行時間;而文獻[15]中的算法,相比quadprog函數(shù)算法在目標函數(shù)求解時,將有上、下界約束的目標函數(shù)轉化為一個無上界約束的目標函數(shù),且算法每次迭代只需較小維數(shù)的矩陣求逆運算,從而計算量減??;而改進的雙支持向量機算法是將有下界約束的目標函數(shù)轉化為無約束的目標函數(shù)進行求解,相比文獻[15]中的算法,每一次迭代不需要矩陣求逆計算,從而減小了計算量,提高了求解速度.
為了驗證K均值聚類欠采樣結合改進TWSVM方法識別不同泄漏孔徑的有效性,通過采用文獻[21]中反向k近鄰欠采樣結合SVM的方法用于識別不同泄漏孔徑,其中反向k近鄰算法中k=20,SVM算法中懲罰參數(shù)c=20,核參數(shù)g=0.01.兩種方法的識別泄漏工況效果如圖7所示.
從圖7中可知,通過K均值聚類欠采樣與反向k近鄰欠采樣的方法都能平衡訓練集,且都能提取有效樣本,并經過學習后的改進TWSVM和SVM都可以準確實現(xiàn)泄漏孔徑識別,其測試準確率為100%.兩種方法識別泄漏工況的計算時間如表5所示.
從表5中可以看出,在識別率都為100%的基礎上,K均值聚類欠采樣結合改進TWSVM算法相比反向k近鄰欠采樣結合SVM算法識別泄漏工況在程序運行時間上減少了0.814 385 s,說明采用K均值聚類欠采樣結合改進TWSVM的方法能更快地識別泄漏孔徑.
3.4 泄漏定位
管道在5 mm泄漏孔徑條件下,對管道首末兩端泄漏信號采用db4小波函數(shù)進行消噪,其重構信號波形如圖8和圖9所示.
從圖8和圖9可以看出原始壓力波形信號的拐點不易區(qū)分,但經小波消噪后的重構信號拐點能明顯區(qū)分,小波消噪能直接去除信號中高頻噪聲,能夠精確反映拐點時刻,實現(xiàn)精確定位.
將重構后的壓力信號進行互相關分析[22],在5 mm泄漏孔徑條件下,管道首末兩端負壓波信號的相關分析如圖10所示.
從圖10中可以看出,泄漏發(fā)生時,首末端負壓波信號的互相關函數(shù)有一個峰值,根據(jù)峰值的位置確定對應的時延估計.泄漏點定位按式(17)計算,不同泄漏孔徑的定位計算結果如表6所示.
從表6的泄漏定位結果可以看出,雖然小波分析能分解壓力原始信號,去除高頻噪聲干擾,并且能突顯較大泄漏孔徑下首末端壓力信號的拐點,但隨著泄漏孔徑減小,壓力波動幅值變得不明顯,造成負壓波信號的拐點不易區(qū)分,從而降低了泄漏點的定位精度.
4 結 論
針對管道泄漏檢測過程中,管道運行狀態(tài)數(shù)據(jù)非平衡的特點,提出了基于非平衡數(shù)據(jù)的管道泄漏檢測及定位方法.實驗結果表明,采用K均值聚類欠采樣方法可以有效處理非平衡數(shù)據(jù),并且改進的雙支持向量機算法在保證管道泄漏正確識別率的基礎上,降低了算法的運行時間.管道首末兩端原始壓力信號通過小波消噪并提取信號的拐點,經相關分析計算,可以獲取時延估計,結合管道長度和負壓波波速進行泄漏點定位.
由于在真實管道運行環(huán)境中,管道首末兩端壓力信號會受到周圍環(huán)境及泵站等影響,此時壓力信號中,信號的中頻和低頻都可能包含噪聲,如何在實際管道運行環(huán)境下,對壓力信號進行消噪并有效提取信號特征將是下一步研究的重點.
參考文獻
[1] MURVAY P, SILEA I. A survey on gas leak detection and localization techniques[J]. Journal of Loss Prevention in the Process Industries, 2012, 25(6): 966-973.
[2] DATTA S, SARKAR S. A review on different pipeline fault detection methods[J]. Journal of Loss Prevention in the Process Industries, 2016, 41: 97-106.
[3] QU Z, FENG H, ZENG Z, et al. A SVM-based pipeline leakage detection and pre-warning system[J]. Measurement, 2010, 43(4): 513-519.
[4] NI L, JIANG J, PAN Y. Leak location of pipelines based on transient model and PSO-SVM[J]. Journal of Loss Prevention in the Process Industries, 2013, 26(6): 1085-1093.
[5] SUN J, XIAO Q, WEN J, et al. Natural gas pipeline small leakage feature extraction and recognition based on LMD envelope spectrum entropy and SVM[J]. Measurement, 2014, 55(9):434-443.
[6] JIN H, ZHANG L, LIANG W, et al. Integrated leakage detection and localization model for gas pipelines based on the acoustic wave method[J]. Journal of Loss Prevention in the Process Industries, 2014, 27: 74-88.
[7] MALDONADO S, WEBER R, FAMILI F. Feature selection for high-dimensional class-imbalanced data sets using Support Vector Machines[J]. Information Sciences, 2014, 286: 228-246.
[8] GUO H X, LI Y J, SHANG J, et al. Learning from class-imbalanced data: Review of methods and applications[J]. Expert Systems with Applications, 2017, 73: 220-239.
[9] NASIRI J A, MOGHADAM CHARKARI N, JALILI S. Least squares twin multi-class classification support vector machine[J]. Pattern Recognition, 2015, 48(3): 984-992.
[10]CHEN W J, SHAO Y H, LI C N, et al. MLTSVM: A novel twin support vector machine to multi-label learning[J]. Pattern Recognition, 2016, 52: 61-74.
[11]TOMAR D, AGARWAL S. Twin support vector machine: A review from 2007 to 2014[J]. Egyptian Informatics Journal, 2015, 16: 55-69.
[12]REBOLLO-MONEDERO D, SOLé M, NIN J, et al. A modification of the k-means method for quasi-unsupervised learning[J]. Knowledge-Based Systems, 2013, 37: 176-185.
[13]CAPó M, PéREZ A, LOZANO J A. An efficient approximation to the K-means clustering for massive data[J]. Knowledge-Based Systems, 2017, 117: 56-69.
[14]陳宏義, 李存斌, 施立剛.基于聚類分析的短期負荷智能預測方法研究[J].湖南大學學報(自然科學版)2014,41(5):94-98.
CHEN H Y, LI C B, SHI L G. A new forecasting approach for short-term load intelligence based on cluster method[J]. Journal of Hunan University(Natural Sciences), 2014, 41(5):94-98. (In Chinese)
[15]SHAO Y H, CHEN W J, ZHANG J J, et al. An efficient weighted Lagrangian twin support vector machine for imbalanced data classification[J]. Pattern Recognition, 2014, 47(9): 3158-3167.
[16]張襄松.幾類優(yōu)化問題的算法及應用研究[D].西安:西安電子科技大學數(shù)學與統(tǒng)計學院, 2011:75-84.
ZHANG X S. Study on the algorithms for some optimization problems and applications[D]. Xi'an:School of Mathematics and Statistics, Xidian University, 2011:75-84. (In Chinese)
[17]CHEN J, PAN S. A descent method for a reformulation of the second-order cone complementarity problem[J]. Journal of Computational and Applied Mathematics, 2008, 213(2): 547-558.
[18]JEONG U, KIM Y H, KIM J, et al. Experimental evaluation of permanent magnet probe flowmeter measuring high temperature liquid sodium flow in the ITSL[J]. Nuclear Engineering and Design, 2013, 265: 566-575.
[19]DUTTA N, ROUAUD C, MASERA M, et al. Powertrain cooling concept selection process for hybrid electric vehicles[J]. Innovations in Fuel Economy and Sustainable Road Transport, 2011: 61-72.
[20]焦敬品,李勇強,吳斌,等. 基于BP神經網(wǎng)絡的管道泄漏聲信號識別方法研究術[J]. 儀器儀表學報, 2016, 37(11): 2588-2596.
JIAO J P, LI Y Q, WU B, et al. Research on acoustic signal recognition method for pipeline leakage with BP neural network[J].Chinese Journal of Scientific Instrument, 2016, 37(11): 2588-2596. (In Chinese)
[21]沈曄,李敏丹,夏順仁. 計算機輔助乳腺癌診斷中的非平衡學習技術[J]. 浙江大學學報(工學版), 2013, 47(1): 1-7.
SHEN Y, LI M D, XIA S R. Learning algorithm with non-balanced data for computer-aided diagnosis of breast cancer[J]. Journal of Zhejiang University(Engineering Science), 2013, 47(1): 1-7. (In Chinese)
[22]SUN L, CHANG N. Integrated-signal-based leak location method for liquid pipelines[J]. Journal of Loss Prevention in the Process Industries, 2014, 32: 311-318.