周權(quán) 宮彥雙 吳超 安超 劉杰
目前,傳統(tǒng)的油氣管道失效識別技術(shù)依然采用人工檢測分析的方法為主,耗時較長且智能化程度低。提出了一種基于殘差網(wǎng)絡(luò)與遷移學習的管道失效圖像識別算法,通過深度卷積網(wǎng)絡(luò)建立了管道失效識別模型,然后利用大型ImageNet 數(shù)據(jù)集中訓練好的Resnet152模型參數(shù),在包含1萬余張的管道失效圖像數(shù)據(jù)集上進行微調(diào)與模型優(yōu)化,最終實現(xiàn)對細菌腐蝕、土壤腐蝕、環(huán)境敏感開裂等15種失效類型的準確識別。實驗結(jié)果表明,算法的準確率達到95%以上,并具有較強的泛化能力,能夠?qū)崿F(xiàn)對油氣管道失效類型的快速準確識別。所提算法可以為油氣管道失效的統(tǒng)計與分析提供簡單快捷的方法,提高信息化管理水平。
油氣管道失效; 圖像識別; 殘差網(wǎng)絡(luò); 遷移學習
TP391.413 A
[定稿日期]2021-12-27
[基金項目]四川省科技計劃項目(項目編號:2020YFG0303、2020YFH0111);成都市科技項目(項目編號:2019-YF05-02657-SN)
[作者簡介]周權(quán)(1999—),男,在讀碩士,研究方向為機器學習、計算機視覺。
1 油氣管道失效識別
隨著天然氣及石油工業(yè)快速發(fā)展,我國的油氣管道運輸建設(shè)已相對完整,在2020年期間,新建成油氣管道里程高達5 081 km,管道總里程累計達到14.4萬km[1]。相比于油氣管道的飛速建設(shè),管道的日常維護卻相對薄弱,相關(guān)部門對其投入的人力物力不足。管道的管理和檢測體系不完善,給管道的安全運行造成一定的威脅。
目前,我國每年新增被石油污染的土壤約為10萬t,部分重油田污染區(qū)的土壤原油含量遠遠超過國家標準臨界值。另外,水資源石油污染現(xiàn)狀也不容樂觀,如2006年發(fā)生的長達一個多月的渤海石油污染事件和2009年陜西發(fā)生的地下輸油管道泄漏事件等,給我國海洋環(huán)境和地下水資源造成了嚴重污染[2]。
開展油氣管道失效的識別與統(tǒng)計,可以明確不同類型風險權(quán)重,對提高風險概率計算精度和提高風險評價工作科學性具有重要作用,有助于采取有針對性的維修維護方法,進而提升管理對象本質(zhì)安全,防范失效泄漏的發(fā)生。由于油氣田管線的失效問題涉及材料本身、服役環(huán)境、工藝流程等多個方面,給失效識別工作帶來較大的困難。目前,管道一線巡檢人員在缺乏專業(yè)知識的情況下,難以在現(xiàn)場對失效類型進行準確判斷,失效類型往往不能被有效識別。專業(yè)實驗室識別在時間和費用上較高,不適用于油氣田管道失效多發(fā)的現(xiàn)狀。因此急需建立一種能夠為現(xiàn)場工作人員所掌握的,較為便捷的失效類型識別方法,低成本快速有效識別一些失效類型。
隨著人工智能的快速發(fā)展,計算機視覺技術(shù)已經(jīng)廣泛應(yīng)用于日常生活的各個領(lǐng)域,出現(xiàn)了一系列高效準確的圖像識別算法,如基于卷積神經(jīng)網(wǎng)絡(luò)的水稻病害圖像識別、垃圾圖像分類、手寫數(shù)字識別等[3-4]。因此,本文提出了一種基于深度學習的油氣管道失效類型識別算法,使用殘差結(jié)構(gòu)搭建了圖像分類神經(jīng)網(wǎng)絡(luò),并采用遷移學習的方法,對油氣管道圖像數(shù)據(jù)集進行識別和分類。最終的模型能夠?qū)崿F(xiàn)對油氣管道典型失效類型的快速準確識別,有助于完善油氣管道腐蝕管理檢測系統(tǒng),提高信息化管理水平,為油氣管道工程管理提供簡單快捷的方法和科學的指導(dǎo)意見。
2 生成數(shù)據(jù)集
根據(jù)所采集到的數(shù)據(jù),制作了相應(yīng)的腐蝕分類圖表,一共分了15個類型,如表1所示。
由于原始采集到的數(shù)據(jù)集較小,約為1 000張圖片,遠遠不夠?qū)嶒炓?,所以先對?shù)據(jù)集進行增強處理以得到更多的數(shù)據(jù),處理方法有放大縮小、旋轉(zhuǎn)、改變明亮度、平移、添加噪聲等。部分圖片處理后的效果如圖1所示,各類型的原始數(shù)據(jù)量與增強后的數(shù)據(jù)量如表2所示。
增強后一共得到了約10 000張圖片,共15個類型,每個類型約700張,最后按照7∶2∶1的比例劃分訓練集、驗證集和測試集,訓練集數(shù)量約為7 000張,驗證集約為2 000張,測試集約為1 000張,滿足后續(xù)模型訓練要求。
3 算法設(shè)計
3.1 遷移學習
對比傳統(tǒng)機器學習,遷移學習在微調(diào)之前,模型的初始性能更高;在訓練過程中,模型提升的速率更快;在訓練結(jié)束后,得到的模型收斂效果更好,解決了小數(shù)據(jù)樣本在訓練時容易出現(xiàn)的過擬合問題,提高了小數(shù)據(jù)樣本分類問題的準確性和效率性。
本實驗將先凍結(jié)前面卷積層參數(shù),只訓練最后新建立的全連接層,保存下該次訓練的最優(yōu)模型;然后在前面保存的最優(yōu)模型基礎(chǔ)上,解凍前面的所有的卷積層,進行第二次全局訓練。
3.2 Resnet152
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)當堆疊到一定網(wǎng)絡(luò)深度時,會出現(xiàn)梯度爆炸和退化問題。2015年提出的Resnet網(wǎng)絡(luò)解決了以上問題,它提出殘差結(jié)構(gòu),建立了輸入與輸出之間的有效連接,使神經(jīng)網(wǎng)絡(luò)在深度拓寬的同時還能保持其特征表達的能力,成功解決了退化問題,可以搭建超深的網(wǎng)絡(luò)結(jié)構(gòu),超過了1 000層[5]。殘差塊的基本結(jié)構(gòu)如圖2所示。
Resnet中提出了2種映射:
(1)恒等映射(Identity Mapping),指的是圖2中數(shù)字2所標示的部分。
(2)殘差映射(Residual Mapping),指的是圖2中減去恒等映射剩下的部分。
殘差塊的最后的輸出如式(1)所示。
y=F(x)+x(1)
其中殘差指的就是F(x)部分。
在圖2的殘差塊中有2層結(jié)構(gòu),第一層結(jié)構(gòu)的表達式如式(2)所示。
F=W2σ(W1x)(2)
其中σ代表非線性激活函數(shù)ReLU函數(shù)。
然后通過一個恒等映射和第二個ReLU函數(shù),得到輸出y ,第二層表達式如式(3)所示。
y=F(x,{Wi})+x(3)
Resnet152的網(wǎng)絡(luò)結(jié)構(gòu)多達152層,可以更加充分提取提取圖像特征,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。從第 1 組卷積塊起到第 5 組均為殘差模塊,將大小為 224×224 的圖像數(shù)據(jù)輸送后,經(jīng)殘差網(wǎng)絡(luò)提取特征進行學習訓練。經(jīng)過訓練后,將圖像輸入平均池化層取平均,最終由全連接層的 LogSoftmax 函數(shù)進行圖像類別的劃分。
4 實驗流程
運行環(huán)境為Windows10 64bit系統(tǒng),CPU為AMD Ryzen 9 5900HX,GPU為NVIDIA Geforce RTX 3070。實驗基于Facebook開源的Pytorch框架運行,采用Python3語言編寫。
具體流程:
(1)數(shù)據(jù)預(yù)處理:加載訓練集和驗證集,通過torch中的transforms函數(shù),對每個epoch數(shù)據(jù)圖像進行處理。
(2)模型初始化:加載在ImageNet上預(yù)訓練的Resnet152模型參數(shù),凍住前面所有的卷積層參數(shù)。
(3)修改全連接層:重新定義最后的全連接層參數(shù),將其改為15分類問題,采用LogSoftmax。
(4)設(shè)置優(yōu)化器和損失函數(shù):采用NLLLoss損失函數(shù)和Adam優(yōu)化器,學習率為 0.000 1。
(5)全連接層訓練:總共訓練25個epoch,畫出模型的性能曲線,保存驗證集準確率最高的模型。
(6)全局訓練:先加載(5)中保存的模型,解凍前面的卷積層,使所有參數(shù)可以參與訓練,學習率為0.000 1,訓練30個epoch,最后保存驗證集準確率最高的那次模型作為最優(yōu)實驗?zāi)P汀?/p>
(7)模型測試:加載測試集數(shù)據(jù)與最優(yōu)模型,對測試集進行驗證。
5 實驗結(jié)果與分析
對2次訓練和一次測試過程進行性能分析,以迭代過程中損失函數(shù)值和預(yù)測精度為性能評估標準,分析模型的收斂性能及預(yù)測準確率。
5.1 全連接層訓練
圖4為模型準確率曲線,圖5為模型的損失函數(shù)曲線。從圖4可以看出,隨著迭代次數(shù)的增加,準確率一直處于上升狀態(tài)。當?shù)螖?shù)到達第20次時,驗證集準確率超過95%,訓練集準確率接近90%,曲線趨于穩(wěn)定,基本達到收斂狀態(tài)。
從圖5可以看出,訓練過程中,訓練集和驗證集的損失函數(shù)值一直呈平穩(wěn)下降趨勢,并沒有出現(xiàn)過擬合情況。
實驗結(jié)果可知,全連接層訓練的驗證集最高準確率出現(xiàn)在第23個epoch時,其數(shù)值為0.964 3,保存下該次訓練的模型。
5.2 全局訓練
加載全連接層訓練保存的模型,解凍前面的卷積層,訓練所有網(wǎng)絡(luò)參數(shù),圖6、圖7分別為訓練過程中模型準確率曲線與損失函數(shù)值曲線。
從圖6可知,模型的準確率在小范圍內(nèi)發(fā)生波動,總體呈上升趨勢,epoch為29時,準確率達到98%。從圖7可知,訓練集和驗證集的損失函數(shù)值整體處于下降狀態(tài),并未出現(xiàn)過擬合現(xiàn)象。
全局訓練的驗證集最高準確率出現(xiàn)在第29個epoch時,其數(shù)值為0.980 3,保存下該模型,作為訓練的最優(yōu)模型。
5.3 模型測試
測試集數(shù)量為1 000張左右,加載前面訓練保存的最優(yōu)模型,在測試集上進行實驗。圖8是部分圖片預(yù)測結(jié)果,圖9是所有圖片預(yù)測結(jié)果的混淆矩陣。
從圖8的預(yù)測結(jié)果和圖9的混淆矩陣可以看出,模型識別的準確率較高。從混淆矩陣可以看到,1 000余張測試圖片,僅有35張圖片預(yù)測錯誤,預(yù)測準確率達到了95%以上。
6 結(jié)論
本文將深度學習應(yīng)用于油氣管道失效類型的識別中,建立了一種基于遷移學習和殘差網(wǎng)絡(luò)的管道失效分類模型。實驗結(jié)果表明,Resnet152模型能夠做到在較少的Epoch次數(shù)中獲得高準確度。實驗過程包括兩次訓練,在第一次全連接層訓練中,僅經(jīng)過20次Epoch,其識別準確率能達到95%;在第二次全局訓練中,經(jīng)過30次Epoch,模型達到98%的準確率,并且最后的測試集準確率達到了95%以上。因此,該模型具有泛化能力較強、準確率較高、魯棒性較好等特點,可以為油氣管道失效類型的識別提供科學參考意見,提高信息化管理水平,有利于減少因管道失效泄露導(dǎo)致的環(huán)境污染。
參考文獻
[1] 關(guān)鵬.論我國石油管道建設(shè)的特點和發(fā)展趨勢[J].中國石油和化工標準與質(zhì)量,2019,39(18):103-104.
[2] 郭峰.石油污染治理技術(shù)綜述[J].化工管理,2021(19):51-53.
[3] 邱靖,劉繼榮,曹志勇,等.基于卷積神經(jīng)網(wǎng)絡(luò)的水稻病害圖像識別研究[J].云南農(nóng)業(yè)大學學報(自然科學),2019,34(5):884-888.
[4] 李優(yōu),穆林平.基于遷移學習的垃圾圖像分類模型研究[J].電腦與信息技術(shù),2021,29(4):17-21.
[5] 郭玥秀,楊偉,劉琦,等.殘差網(wǎng)絡(luò)研究綜述[J].計算機應(yīng)用研究,2020,37(5):1292-1297.