劉 燊 劉嘯奔 李 睿 李 博 陳朋超 張 宏
(1.中國石油大學(xué)(北京)油氣管道輸送安全國家工程實(shí)驗(yàn)室/石油工程教育部重點(diǎn)實(shí)驗(yàn)室/城市油氣輸配技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室 2.國家管網(wǎng)集團(tuán)北方管道有限責(zé)任公司 3.國家管網(wǎng)沈陽管道檢測(cè)中心)
管道地質(zhì)條件變化引起的管道附加載荷波動(dòng)是影響管道運(yùn)行安全的重要因素[1-5]。在附加載荷作用下管道會(huì)產(chǎn)生一定的變形,對(duì)于凍土區(qū)管道,彎曲變形的主要成因是凍脹融沉等自然災(zāi)害的影響產(chǎn)生的地表變形。
基于慣性檢測(cè)單元(IMU)的內(nèi)檢測(cè)技術(shù)可以在檢測(cè)過程中記錄檢測(cè)器在三個(gè)軸向上的姿態(tài)數(shù)據(jù)和加速度信息,從而計(jì)算得到管段的彎曲應(yīng)變及位移[6]。與現(xiàn)有的位移檢測(cè)技術(shù)相比,該技術(shù)可以在幾十公里長的管道全線逐點(diǎn)檢測(cè),對(duì)管道彎曲應(yīng)變的檢測(cè)更加全面和精確[7-8]。根據(jù)GB 32167—2015《油氣輸送管道完整性管理規(guī)范》附錄Ⅰ要求,IMU檢測(cè)結(jié)果應(yīng)滿足單次檢測(cè)識(shí)別的彎曲變形曲率大于1/400D(應(yīng)變值超過0.125%)的管道彎曲特征,從這些特征中篩選出彎曲變形危險(xiǎn)段是保證管線安全運(yùn)行的重要舉措之一。
通過分析IMU應(yīng)變檢測(cè)數(shù)據(jù),現(xiàn)已形成初步的彎曲變形危險(xiǎn)段識(shí)別方法。趙曉明等[9]結(jié)合幾何/漏磁檢測(cè)數(shù)據(jù)定位管體缺陷,利用人工識(shí)別的方法,逐段識(shí)別找到IMU數(shù)據(jù)中構(gòu)成潛在威脅的高風(fēng)險(xiǎn)點(diǎn)。人工識(shí)別方法在分析處理海量IMU應(yīng)變檢測(cè)數(shù)據(jù)時(shí)需耗費(fèi)大量時(shí)間,處理效率低,同時(shí)還存在處理標(biāo)準(zhǔn)不一致的問題,對(duì)于模棱兩可的管段類型,不同的人判斷得出的結(jié)果可能各異,所以需要借助機(jī)器進(jìn)行識(shí)別,但現(xiàn)在缺乏高效智能的機(jī)器識(shí)別方法。
因此本文以漠大一線的IMU應(yīng)變檢測(cè)數(shù)據(jù)為基礎(chǔ),提出了基于機(jī)器學(xué)習(xí)的彎曲變形危險(xiǎn)管段智能識(shí)別方法。該方法利用1階低通數(shù)字濾波降低應(yīng)變檢測(cè)數(shù)據(jù)中的干擾噪聲,保證應(yīng)變值的準(zhǔn)確性[10];根據(jù)彎頭段、凹陷段和彎曲變形段的特征差異,結(jié)合幾何與漏磁檢測(cè)數(shù)據(jù)提取IMU應(yīng)變檢測(cè)數(shù)據(jù)中不同管段類型的數(shù)據(jù)特征,利用PCA主成分分析法完成特征降維;基于CART決策樹及隨機(jī)森林原理建立分類模型,進(jìn)而實(shí)現(xiàn)對(duì)彎曲變形管段的智能識(shí)別。
IMU內(nèi)檢測(cè)器在檢測(cè)管線過程中,其搭載的慣性檢測(cè)單元易受到管道內(nèi)、外部環(huán)境和第三方破壞等因素的影響而產(chǎn)生噪聲干擾信號(hào),主要包括管道螺旋焊縫對(duì)IMU檢測(cè)裝置的干擾,以及管道內(nèi)部的油垢、雜質(zhì)沉積形成的阻塞等,使內(nèi)檢測(cè)器在運(yùn)行過程中出現(xiàn)顛簸式的運(yùn)動(dòng)狀態(tài)[11],在IMU應(yīng)變檢測(cè)數(shù)據(jù)中表現(xiàn)為上下波動(dòng)的高頻鋸齒狀噪聲干擾信號(hào),噪聲信號(hào)會(huì)使應(yīng)變值偏大或偏小。
本文以選取的漠大管道線為例,從漠河至大慶一線中提取了3 431份訓(xùn)練數(shù)據(jù)集,其中,彎頭段962份,凹陷段975份,彎曲變形段1 494份;提取了1 754份測(cè)試數(shù)據(jù)集,包括彎頭段337份,凹陷段442份,彎曲變形段975份。兩種數(shù)據(jù)集共5 185份樣本數(shù)據(jù)。在整條管線的應(yīng)變檢測(cè)數(shù)據(jù)中,應(yīng)變值為零值附近的正常管段占主要部分。管道變形特征值分布如圖1所示。由圖1可知,管道變形主要包括彎頭、凹陷和環(huán)焊縫等幾何特征,以及由管道外部載荷引起的彎曲變形。不同管段類型的特征差異為利用機(jī)器學(xué)習(xí)方法對(duì)IMU應(yīng)變檢測(cè)數(shù)據(jù)識(shí)別分類創(chuàng)造了條件。
圖1 管線變形特征比例圖
管線中的幾何特征會(huì)妨礙對(duì)彎曲應(yīng)變段的識(shí)別,凹陷段和彎頭段數(shù)量眾多且應(yīng)變值較大,在識(shí)別彎曲變形段時(shí)應(yīng)主要排除彎頭和凹陷的干擾。彎頭的IMU應(yīng)變曲線如圖2a所示。彎頭按照固定規(guī)格制成,總長一般不會(huì)超過12 m,彎頭段的應(yīng)變曲線特征為12 m范圍內(nèi)發(fā)生應(yīng)變或突變,呈紡錐形尖刺狀,通常在應(yīng)變絕對(duì)值最大處大于0.5%[12],不同檢測(cè)年份的彎頭彎曲應(yīng)變值不會(huì)出現(xiàn)較大的偏差。凹陷的IMU應(yīng)變曲線如圖2b所示。凹陷段的情況較為復(fù)雜,通過漏磁檢測(cè)與幾何檢測(cè)可以發(fā)現(xiàn),在整條管線上存在大小不一的凹陷,部分凹陷段在應(yīng)變曲線上的數(shù)據(jù)特征不明顯,甚至與正常管道之間沒有明顯差異。凹陷段的應(yīng)變曲線特征為在較短范圍內(nèi)應(yīng)變發(fā)生突變,呈半菱形狀,且凹陷的彎曲應(yīng)變值相比彎頭較小。
圖2 兩種幾何特征IMU應(yīng)變曲線
彎曲變形風(fēng)險(xiǎn)段的應(yīng)變呈正弦曲線波動(dòng),管道彎曲長度一般超過12 m[13],彎曲變形最大處的應(yīng)變絕對(duì)值大于0.125%,可以將彎曲變形段的應(yīng)變曲線特征總結(jié)為“W”形和“V”形,以及多個(gè)“W”形變形段和“V”形段的串聯(lián),如圖3所示。為了方便截取彎曲變形段的數(shù)據(jù)特征,簡化計(jì)算過程,“W”形的彎曲變形段包含或者可看作是“V”形彎曲變形段。
圖3 兩種彎曲應(yīng)變的IMU應(yīng)變曲線
數(shù)據(jù)噪聲對(duì)識(shí)別彎曲變形段的影響主要有兩點(diǎn):一是原本彎曲應(yīng)變較小的管段,在鋸齒狀噪聲的干擾下會(huì)使得彎曲應(yīng)變值超過識(shí)別閾值,從而可能會(huì)誤認(rèn)為其是應(yīng)變較大的異常管段;二是數(shù)據(jù)噪聲會(huì)影響管線彎頭、凹陷、彎曲變形段的數(shù)據(jù)特征,影響機(jī)器學(xué)習(xí)模型的識(shí)別準(zhǔn)確率。因此利用科學(xué)合理的方法有針對(duì)性地降低IMU檢測(cè)中的數(shù)據(jù)噪聲干擾非常有必要。
本文選用1階數(shù)字低通濾波去除IMU應(yīng)變干擾噪聲。其原理是低頻的彎曲應(yīng)變信號(hào)能夠正常通過,而超過臨界值的噪聲信號(hào)會(huì)被阻攔或減弱,從而實(shí)現(xiàn)IMU應(yīng)變檢測(cè)數(shù)據(jù)的平滑降噪。1階數(shù)字低通濾波公式如下:
Yn=qXn+(1-q)Yn-1
(1)
q=2πΔtfc
(2)
式中:q為濾波系數(shù),其實(shí)際取值取決于濾波時(shí)間常數(shù)和采樣周期;Xn為第n次采樣時(shí)的濾波器輸入應(yīng)變,即數(shù)據(jù)的原始應(yīng)變值;Yn為第n次采樣時(shí)的濾波器輸出應(yīng)變,即降噪后的應(yīng)變值;Δt為采樣間隔時(shí)間;fc為截止頻率,即區(qū)分應(yīng)變信號(hào)與噪聲信號(hào)的臨界值。
設(shè)置截止頻率為0.1 Hz,采樣頻率為1.0 Hz,對(duì)某段IMU應(yīng)變檢測(cè)數(shù)據(jù)降噪后的應(yīng)變曲線如圖4所示。由圖4可見,降噪后應(yīng)變數(shù)據(jù)的鋸齒狀干擾噪聲有所減緩。
圖4 1階低通濾波降噪效果圖
基于IMU應(yīng)變檢測(cè)數(shù)據(jù)的管段識(shí)別,實(shí)際上是對(duì)不同管段類型數(shù)據(jù)特征的識(shí)別。根據(jù)IMU應(yīng)變檢測(cè)數(shù)據(jù)的物理意義,并結(jié)合數(shù)理統(tǒng)計(jì)規(guī)則,參考信號(hào)分析的相關(guān)方法,從每份樣本數(shù)據(jù)中提取11個(gè)特征值,分別為長度、幅值、峰峰值、最小值、均值、標(biāo)準(zhǔn)差、偏度、峭度、峰值因子、脈沖因子及裕度因子。
長度表示一份樣本數(shù)據(jù)中應(yīng)變值的個(gè)數(shù),長度的計(jì)算公式為:
nL=length(x1,……,xn)
(3)
幅值也叫做最大值,表示一份樣本數(shù)據(jù)中最大的數(shù),幅值的計(jì)算公式為:
xmax=max{|x1|,|x2|,……,|xn|)
(4)
峰峰值表示一份樣本數(shù)據(jù)中最大值與最小值之差,峰峰值的計(jì)算公式為:
xmax-min=max{x1,……,xn)-min{x1,……,xn)
(5)
最小值表示一份樣本數(shù)據(jù)中最小的數(shù),最小值的計(jì)算公式為:
xmin=min{|x1|,|x2|,……,|xn|)
(6)
均值又稱作平均數(shù),表示一份樣本數(shù)據(jù)中所有值之和除以樣本中的個(gè)數(shù),均值的計(jì)算公式為:
(7)
標(biāo)準(zhǔn)差表示樣本數(shù)據(jù)的離散程度,用以衡量樣本數(shù)據(jù)值偏離算數(shù)平均值的程度,計(jì)算公式如下:
(8)
偏度表示樣本數(shù)據(jù)的偏離程度,也就是樣本數(shù)據(jù)的對(duì)稱程度,偏度的計(jì)算公式為:
(9)
式中:μ為均值,σ為標(biāo)準(zhǔn)差,n為樣本個(gè)數(shù)。
峭度表示樣本數(shù)據(jù)中大幅值出現(xiàn)的概率,峭度的計(jì)算公式為:
(10)
式中:σ2為方差。
峰值因子表示峰值在樣本數(shù)據(jù)中的極端程度,其計(jì)算公式為:
min{x1,……,xn))
(11)
脈沖因子是樣本數(shù)據(jù)峰值與樣本數(shù)據(jù)絕對(duì)值的平均值的比值,計(jì)算公式如下:
min{x1,……,xn))
(12)
裕度因子表示樣本數(shù)據(jù)峰值與樣本數(shù)據(jù)方根幅值的比值,計(jì)算公式如下:
(13)
特征提取在表征原始數(shù)據(jù)特征的前提下實(shí)現(xiàn)了對(duì)樣本數(shù)據(jù)的簡化[14],但只有部分特征值在區(qū)分不同管段類型時(shí)起關(guān)鍵作用,因此需對(duì)特征值主成分進(jìn)行分析。對(duì)主成分分析(Principal Component Analysis,PCA)可以對(duì)已有的數(shù)據(jù)特征進(jìn)行降維處理,從而提高機(jī)器學(xué)習(xí)模型的計(jì)算效率。PCA通過借助一個(gè)正交變換,將分量相關(guān)的原隨機(jī)變量轉(zhuǎn)換成分量不相關(guān)的新變量,在新平面中使不同類別的樣本點(diǎn)盡量得散開,從而達(dá)到用幾個(gè)綜合變量代替已有特征值的目的,降低特征數(shù)據(jù)的信息量,簡化特征數(shù)據(jù)處理的復(fù)雜程度[15]。對(duì)上述11個(gè)特征值進(jìn)行主成分分析,結(jié)果如表1所示。由表1可知:第一主成分的貢獻(xiàn)率為63.099%;第二主成分的貢獻(xiàn)率為22.064%;計(jì)算得到前5個(gè)主成分T1~T5的累計(jì)貢獻(xiàn)率達(dá)到了98.539%,因此取前5個(gè)主成分作為樣本數(shù)據(jù)的主要特征分量,降維后形成3 431行5列的特征矩陣作為訓(xùn)練數(shù)據(jù)集[16],之后對(duì)測(cè)試數(shù)據(jù)集也做同樣處理。
表1 前5種主成分的貢獻(xiàn)率 %
決策樹由根節(jié)點(diǎn)、子節(jié)點(diǎn)和葉節(jié)點(diǎn)三個(gè)部分組成,如圖5所示。決策樹通過將樣本數(shù)據(jù)分配到某個(gè)葉節(jié)點(diǎn)從而確定樣本所屬的分類,它的一個(gè)分支就是一個(gè)決策過程,每個(gè)決策的節(jié)點(diǎn)涉及到數(shù)據(jù)樣本的一種特征。使用基尼指數(shù)(CART)作為特征選擇的準(zhǔn)則,建立CART決策樹,從根節(jié)點(diǎn)出發(fā)計(jì)算基尼指數(shù),自上而下進(jìn)行決策,在每個(gè)子節(jié)點(diǎn)都會(huì)進(jìn)行一個(gè)判斷,最后到達(dá)一個(gè)葉節(jié)點(diǎn),遞歸產(chǎn)生決策樹。建立決策樹后,將測(cè)試樣本輸入,經(jīng)過決策樹的分類,最后得到的葉節(jié)點(diǎn)就是測(cè)試子集的類別[17]。
圖5 決策樹示意圖
隨機(jī)森林(Random Forest,RF)是在決策樹的基礎(chǔ)上構(gòu)建的一種更為高級(jí)的算法,根據(jù)集成學(xué)習(xí)的思想解決單一決策樹模型固有的缺陷,如圖6所示。隨機(jī)森林采用了基于Bagging方法的抽樣技術(shù),即通過一種有放回重復(fù)抽樣的采樣方法,隨機(jī)抽取數(shù)據(jù)特征組成多個(gè)決策樹,建立一個(gè)森林[18],根據(jù)多個(gè)決策樹模型的分類結(jié)果,用投票表決多數(shù)的方式?jīng)Q定最后結(jié)果。隨機(jī)森林的顯著優(yōu)勢(shì)是能夠處理高維度的數(shù)據(jù)即不需要對(duì)特征進(jìn)行降維處理。篩選出的11個(gè)特征值可以直接用于訓(xùn)練隨機(jī)森林模型,在RF模型訓(xùn)練過程中隨機(jī)選取樣本和特征屬性,從而提高模型算法的不確定性和多樣性[19],因此隨機(jī)森林分類的過程近乎是一個(gè)黑箱操作。
圖6 隨機(jī)森林示意圖
在得到帶標(biāo)簽的特征向量矩陣后,本研究基于Python中的sklearn機(jī)器學(xué)習(xí)庫對(duì)CART決策樹和隨機(jī)森林模型進(jìn)行參數(shù)優(yōu)選,建立理論條件下的最優(yōu)模型。影響CART決策樹性能的超參數(shù)有最大深度與最大葉節(jié)點(diǎn)數(shù),設(shè)置決策樹的最大深度為5~9之間,設(shè)置決策樹的最大葉節(jié)點(diǎn)分別為10、20、30、40和50個(gè),在不同參數(shù)下進(jìn)行10次10折交叉驗(yàn)證后取平均值,則決策樹分類精度對(duì)比如圖7所示。隨著最大深度的增加,CART決策樹模型的識(shí)別準(zhǔn)確率整體呈波浪式變化。將最大葉節(jié)點(diǎn)數(shù)設(shè)置為10時(shí),即使增加最大深度也不會(huì)影響模型的性能,這是因?yàn)樽畲笕~節(jié)點(diǎn)數(shù)過少,限制了決策樹模型的增長。當(dāng)最大深度設(shè)置為7,最大葉節(jié)點(diǎn)數(shù)設(shè)置為30或40時(shí),CART決策樹有著較好的性能,識(shí)別準(zhǔn)確率在87.8%左右。
圖7 不同參數(shù)下的決策樹分類精度對(duì)比
結(jié)合隨機(jī)森林的原理,影響隨機(jī)森林模型分類性能的超參數(shù)有兩個(gè):決策樹數(shù)量和隨機(jī)選取的特征數(shù)量[20]。設(shè)置決策樹數(shù)量為10~100個(gè)之間,每次間隔10個(gè)進(jìn)行取值,隨機(jī)選取的特征數(shù)量分別取1、3、5、7、9個(gè),交叉驗(yàn)證后選擇最優(yōu)參數(shù),則隨機(jī)森林分類精度對(duì)比如圖8所示。決策樹的數(shù)量為10個(gè)時(shí),隨機(jī)森林模型的識(shí)別準(zhǔn)確率整體偏低,隨機(jī)選取的特征數(shù)從1個(gè)增加至3個(gè)時(shí),隨機(jī)森林的識(shí)別準(zhǔn)確率有所增長,平均增幅在1%左右,之后隨著隨機(jī)選取特征數(shù)量的增加,模型的性能趨于穩(wěn)定。從圖8可以看出,當(dāng)隨機(jī)選取的特征數(shù)超過3個(gè),決策樹的數(shù)量超過20個(gè)時(shí),隨機(jī)森林的識(shí)別準(zhǔn)確率超過了91%。因此,為保證識(shí)別準(zhǔn)確率,可以設(shè)置隨機(jī)森林的特征值數(shù)量為7個(gè),決策樹數(shù)量為100個(gè)。
圖8 不同參數(shù)下的隨機(jī)森林分類精度對(duì)比
運(yùn)用隨機(jī)森林模型可得出各特征值在分類時(shí)所占的權(quán)重[20],如圖9所示。
圖9 隨機(jī)森林要素指標(biāo)權(quán)重
由圖9可以看出,對(duì)分類效果最重要的指標(biāo)是長度(0.251 9),其后依次是標(biāo)準(zhǔn)差(0.186 6)、平均值(0.135 8)、幅值(0.129 6)及峰峰值(0.106 9)。研究結(jié)果表明,由于IMU應(yīng)變檢測(cè)數(shù)據(jù)中各管段類型的邊界不明確,如何界定不同管段類型的長度影響范圍對(duì)模型的分類性能有重要的影響。在以后的研究中,需要優(yōu)化處理IMU應(yīng)變檢測(cè)數(shù)據(jù)中不同管段類型的截取長度,從而達(dá)到更好的分類效果。
本研究將3 431份樣本數(shù)據(jù)設(shè)置為訓(xùn)練數(shù)據(jù)集,在模型訓(xùn)練中使用10次10折交叉驗(yàn)證后取平均值,求得模型的識(shí)別準(zhǔn)確率,如表2所示。對(duì)訓(xùn)練數(shù)據(jù)集交叉驗(yàn)證后可以發(fā)現(xiàn),兩種模型對(duì)凹陷段的識(shí)別準(zhǔn)確率都偏低,對(duì)彎頭段和彎曲變形段的識(shí)別準(zhǔn)確率均高于90%。凹陷段的特征不明顯、凹陷段樣本數(shù)據(jù)中截取到其他管段特征是導(dǎo)致出現(xiàn)這種情況的潛在因素。
表2 10次10折交叉驗(yàn)證 %
將1 754份測(cè)試數(shù)據(jù)集代入模型中訓(xùn)練得出分類結(jié)果,求出混淆矩陣得到(見圖10)CART決策樹和隨機(jī)森林模型的分類性能,混淆矩陣的行表示預(yù)測(cè)值,列表示真實(shí)值。
混淆矩陣進(jìn)一步分析得到兩種算法的分類精度[21]。圖10中,0代表凹陷段,1代表彎頭段,2代表彎曲應(yīng)變段。決策樹模型中測(cè)試集337份凹陷樣本數(shù)據(jù)中有137份被識(shí)別為彎曲應(yīng)變段,975份彎曲應(yīng)變樣本數(shù)據(jù)中有612份樣本數(shù)據(jù)被識(shí)別為凹陷段。分析結(jié)果表明:決策樹模型沒有很好地區(qū)分凹陷段與彎曲變形段之間的特征差異,因?yàn)榘枷荻闻c彎曲變形段存在相似,一般情況下很難辨別。可以看出隨機(jī)森林模型的性能較好,但是在區(qū)分凹陷段和彎曲變形段也存在少數(shù)誤識(shí)別的情況。
圖10 兩種模型的混淆矩陣
混淆矩陣中統(tǒng)計(jì)的是樣本的個(gè)數(shù),根據(jù)混淆矩陣可以衍生出許多評(píng)價(jià)指標(biāo),在分類監(jiān)督學(xué)習(xí)模型中,常用的分類模型評(píng)價(jià)指標(biāo)有:①Accuracy準(zhǔn)確率,即正確預(yù)測(cè)的正反例數(shù)除以總數(shù);②Precision精確率,即正確預(yù)測(cè)的正例數(shù)除以預(yù)測(cè)正例總數(shù);③Recall是召回率,即正確預(yù)測(cè)的正例數(shù)除以實(shí)際正例總數(shù);④F1值是精確率和召回率的調(diào)和值,更接近于兩個(gè)數(shù)較小的那個(gè),所以精確率和召回率接近時(shí)F1值最大,F(xiàn)1值較大時(shí)說明模型比較有效[22]。表3給出了兩種模型的指標(biāo)對(duì)比情況。
表3 兩種分類模型在不同管段類型測(cè)試集的評(píng)價(jià)指標(biāo)對(duì)比 %
由表3可知:在測(cè)試數(shù)據(jù)集中,CART決策樹模型的性能遠(yuǎn)低于隨機(jī)森林模型,CART決策樹的識(shí)別準(zhǔn)確率只有55.25%;隨機(jī)森林的識(shí)別準(zhǔn)確率為93.39%,CART決策樹在訓(xùn)練數(shù)據(jù)集上的平均識(shí)別準(zhǔn)確率有87.94%,在測(cè)試數(shù)據(jù)集上準(zhǔn)確率驟降到52.25%。這說明CART決策樹出現(xiàn)了過擬合,導(dǎo)致決策樹過擬合的主要原因可能是樣本數(shù)據(jù)量較少,以及不同管段之間的特征參數(shù)差異不明顯、IMU應(yīng)變檢測(cè)數(shù)據(jù)中仍存在干擾噪聲、不同管段類型的樣本數(shù)量不一致等。
(1)相比人工逐段識(shí)別應(yīng)變較大的異常管段,采用機(jī)器學(xué)習(xí)方法對(duì)彎曲應(yīng)變數(shù)據(jù)進(jìn)行深入挖掘有重要作用?;诤A康腎MU應(yīng)變檢測(cè)數(shù)據(jù)建立樣本特征數(shù)據(jù)庫,利用機(jī)器學(xué)習(xí)方法能夠高效地找到管線中的融沉段,是管道安全狀態(tài)定量識(shí)別的一個(gè)新方向。
(2)長度是區(qū)分不同管段類型的重要參數(shù),然而截取的樣本數(shù)據(jù)長度易受主觀因素影響,在數(shù)據(jù)預(yù)處理時(shí)可以將樣本數(shù)據(jù)的長度作為變量,以模型識(shí)別準(zhǔn)確率為優(yōu)化目標(biāo),從而起到提高模型識(shí)別分類的效果。
(3)本文基于IMU彎曲應(yīng)變數(shù)據(jù),利用機(jī)器學(xué)習(xí)方法要實(shí)現(xiàn)對(duì)管線中異常管段的智能識(shí)別。通過對(duì)比,隨機(jī)森林的分類效果優(yōu)于CART決策樹,隨機(jī)森林在訓(xùn)練集和測(cè)試集的識(shí)別準(zhǔn)確率都超過了90%,說明訓(xùn)練得到的隨機(jī)森林模型與數(shù)據(jù)擬合較好,穩(wěn)定性和準(zhǔn)確率更高。
盡管已經(jīng)初步構(gòu)建完整的異常管段智能識(shí)別方法,但是IMU彎曲應(yīng)變的數(shù)據(jù)挖掘工作目前仍處于起步階段。根據(jù)工業(yè)需求,建議從以下兩個(gè)方面進(jìn)行完善:
(1)現(xiàn)有方法識(shí)別準(zhǔn)確率能達(dá)到90%,在真正應(yīng)用于工程實(shí)際時(shí)還要加以優(yōu)化,可以嘗試更為新型的高效機(jī)器學(xué)習(xí)方法。
(2)IMU檢測(cè)器在經(jīng)過管道環(huán)焊縫時(shí),由于錯(cuò)邊等會(huì)發(fā)生跳動(dòng),使得環(huán)焊縫處的彎曲應(yīng)變檢測(cè)值超過閾值,因此在對(duì)不同管段的分類識(shí)別中可考慮加入對(duì)環(huán)焊縫異常段的識(shí)別。