劉艷霞, 丁小燕, 方建軍
(1.北京聯(lián)合大學(xué) 城市軌道交通與物流學(xué)院,北京100101; 2.河北省科學(xué)院地理科學(xué)研究所 地理信息開發(fā)應(yīng)用研究中心,河北 石家莊 050000)
風(fēng)力發(fā)電對治理大氣霧霾、調(diào)整能源結(jié)構(gòu)和轉(zhuǎn)變經(jīng)濟發(fā)展模式意義重大。風(fēng)機葉片是風(fēng)力發(fā)電機組的關(guān)鍵部件之一,因長期暴露在室外惡劣環(huán)境中,難免出現(xiàn)不同程度的損傷。
目前常用的無損檢測方法X射線、超聲波、聲發(fā)射、光纖傳感器、紅外熱成像檢測技術(shù)等[1~3],適用于風(fēng)機葉片出廠前質(zhì)量檢測,并不適合安裝位置高且處于服役過程中的風(fēng)機發(fā)電葉片。文獻[4]用圖像自動識別方法檢測X射線焊縫缺陷,提高了檢測效率。
隨著深度學(xué)習(xí)的迅速發(fā)展,涌現(xiàn)出很多性能優(yōu)異的圖像檢測和分類模型,如Faster RCNN(faster region-convolutional neural network)[5]、R-FCN(region-based fully convolutional networks)[6]、SSD(single shot mutibox detector)[7]和YOLO(you only look once)[8]。這類方法用于風(fēng)機裂縫自動檢測可有效提高工作效率,但樣本標(biāo)注量大、機器配置要求高,訓(xùn)練時間長。遷移學(xué)習(xí)用在海量數(shù)據(jù)集上訓(xùn)練好的模型對小樣本進行特征提取,再利用提取的特征微調(diào)針對具體任務(wù)設(shè)計的全連接網(wǎng)絡(luò)參數(shù)。這大大降低了深度網(wǎng)絡(luò)訓(xùn)練的難度,可以解決小樣本分類問題。
文獻[9,10]對遷移學(xué)習(xí)的歷史、分類和挑戰(zhàn)進行了詳細闡述。文獻[11]提出基于inception v3模型,利用遷移學(xué)習(xí)對德國交通標(biāo)志識別基準(zhǔn)(GTSRB) 進行識別,提高了交通標(biāo)志識別的精度。文獻[12] 提出一種基于遷移學(xué)習(xí)的全連接神經(jīng)網(wǎng)絡(luò)小樣本舌象分類方法,準(zhǔn)確率達90 %,且訓(xùn)練時間明顯縮短。文獻[13]基于SSD和YOLOv2模型進行遷移學(xué)習(xí),實現(xiàn)了牽引變電所視頻圖像中高壓開關(guān)柜的儀表、分合指示燈狀態(tài)、隔離開關(guān)分合狀態(tài)的自動識別。文獻[14] 提出一種基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)電纜隧道銹蝕識別算法,解決了訓(xùn)練樣本不足、訓(xùn)練時間冗長的問題。文獻[15]提出一種將顯著性檢測和遷移學(xué)習(xí)相結(jié)合的方法,提高了花卉分類準(zhǔn)確率。上述研究中除遷移模型外的全連接層設(shè)計基本采用反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò),需要迭代訓(xùn)練。
本文提出設(shè)計一種基于極限學(xué)習(xí)機(extreme learning machine,ELM)的全連接層,在保障風(fēng)機葉片裂縫檢測精度的同時可進一步提高訓(xùn)練速度。
利用深度學(xué)習(xí)進行風(fēng)機葉片檢測,需要大量帶類別標(biāo)簽的風(fēng)機葉片裂縫圖片作為訓(xùn)練集、驗證集和測試集。但到目前為止全球還沒有公開的、帶類別標(biāo)簽的風(fēng)機葉片圖像數(shù)據(jù)集。
考慮到風(fēng)機葉片裂縫形態(tài)和土地、墻體裂縫有很大相似之處。設(shè)計爬蟲程序從網(wǎng)上抓取大量裂縫和非裂縫圖片,構(gòu)建帶標(biāo)簽的20 000張預(yù)訓(xùn)練數(shù)據(jù)集,用于深度模型預(yù)訓(xùn)練,對風(fēng)機葉片裂縫預(yù)測問題先形成一個大概的印象。
經(jīng)過預(yù)訓(xùn)練的網(wǎng)絡(luò)還需要高質(zhì)量的風(fēng)機葉片數(shù)據(jù)集進行參數(shù)優(yōu)化。該數(shù)據(jù)集獲取困難,樣本量小,而且裂縫圖片數(shù)量遠小于無裂縫圖片數(shù)量,類別之間存在較大差異會影響分類器性能。本文通過翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、裁剪、放射變換、高斯噪聲、顏色擾動等數(shù)據(jù)增強技術(shù),擴展數(shù)據(jù)集圖片達2 000張。
首先將在ImageNet上訓(xùn)練好的Inception v3模型參數(shù)遷移到風(fēng)機葉片分類任務(wù)中,提取風(fēng)機葉片圖像特征,得到2 048維的特征向量。然后把特征圖輸入全連接網(wǎng)絡(luò),訓(xùn)練網(wǎng)絡(luò)參數(shù)對這些特征向量進行二分類(有裂縫圖片和無裂縫圖片)。全連接網(wǎng)絡(luò)設(shè)計分別采用BP神經(jīng)網(wǎng)絡(luò)和超限學(xué)習(xí)機實現(xiàn)。
典型的三層BP網(wǎng)絡(luò)就可以實現(xiàn)較高的逼近精度,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1(a)所示。其中,wij表示輸入層第j個神經(jīng)元與隱含層第i個神經(jīng)元間的輸入權(quán)值,βij表示隱含層第i個神經(jīng)元和輸出層神經(jīng)元間的輸出權(quán)值,bi表示隱含層第i個神經(jīng)元的閾值。隱含層使用ReLU激活函數(shù),輸出層使用Softmax函數(shù)。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目的就是根據(jù)訓(xùn)練樣本集,找到使交叉熵?fù)p失L最小的輸入權(quán)值wij、輸出權(quán)值βij和偏置bi。
式中yj為神經(jīng)網(wǎng)絡(luò)的輸出,tj為樣本數(shù)據(jù)的標(biāo)簽。正向傳播過程的網(wǎng)絡(luò)輸出為
ELM算法無需對隨機初始化的wi和bi進行調(diào)整,也沒有輸出層偏置,僅通過正則化原則計算輸出權(quán)值βi,即可逼近任意連續(xù)系統(tǒng),幾乎不需要學(xué)習(xí)。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1(b)所示。
圖1 二種網(wǎng)絡(luò)結(jié)構(gòu)
假設(shè)隱含層有L個神經(jīng)元,訓(xùn)練集包含N個不同樣本(xi,yi),若采用非線性激勵函數(shù)g(x),可以零誤差逼近來自同一連續(xù)系統(tǒng)的N個輸入樣本,使
式中wi=(wi1,wi2,…win),xj=(x1j,x2j…xnj)T,則式(3)可改寫為
Y=Hβ
(4)
令ELM網(wǎng)絡(luò)的輸出等于樣本標(biāo)簽T,則
T=Y=Hβ
(5)
多數(shù)情況下,隱含層神經(jīng)元的個數(shù)L遠小于訓(xùn)練樣本的個數(shù)N,因此式(5)的解為
根據(jù)最小范數(shù)解準(zhǔn)則,式(6)存在極小范數(shù)最小二乘解
(7)
式中H+為輸出矩陣H的廣義逆。
包含inception v3和全連接層的遷移學(xué)習(xí)整體網(wǎng)絡(luò)架構(gòu)如圖2所示。左側(cè)為在ImageNet數(shù)據(jù)集上訓(xùn)練好的深度卷積Inception v3模型卷積和池化部分,具有提取圖像特征的能力。保持其結(jié)構(gòu)和參數(shù)不變用于提取風(fēng)機葉片的圖像特征(瓶頸層輸出即為提取的圖像特征)。右側(cè)為自己設(shè)計的全連接網(wǎng)絡(luò),本文分別采用如圖1所示的BP神經(jīng)網(wǎng)絡(luò)和ELM超限學(xué)習(xí)機。
圖2 遷移學(xué)習(xí)整體網(wǎng)絡(luò)架構(gòu)
用Inception v3模型提取的風(fēng)機葉片圖像特征微調(diào)全連接網(wǎng)絡(luò),進行小樣本風(fēng)機葉片分類(有裂縫或無裂縫兩類),分類流程如圖3所示。
圖3 風(fēng)機葉片分類流程
為驗證如圖1所示的全連接網(wǎng)絡(luò)分類效果,本文利用Python和開源深度學(xué)習(xí)框架TensorFlow搭建網(wǎng)絡(luò)。首先用20 000張的大型預(yù)訓(xùn)練數(shù)據(jù)集進行迭代訓(xùn)練。隨著迭代次數(shù)增加,基于BP神經(jīng)網(wǎng)絡(luò)的全連接網(wǎng)絡(luò)模型精度如圖4(a)所示,迭代超過1 000次后基本平衡,預(yù)測準(zhǔn)確率達68.6 %。
圖4 基于BP神經(jīng)網(wǎng)絡(luò)全連接層預(yù)訓(xùn)練和調(diào)優(yōu)結(jié)果
再用2 000張的實際風(fēng)機葉片數(shù)據(jù)集對基于BP神經(jīng)網(wǎng)絡(luò)的全連接網(wǎng)絡(luò)進行調(diào)優(yōu)調(diào)。隨機抽取數(shù)據(jù)集的90 %作為訓(xùn)練集,剩余的10 %為測試集。隨著迭代次數(shù)增加,基于BP神經(jīng)網(wǎng)絡(luò)的全連接網(wǎng)絡(luò)預(yù)測精度如圖4(b)所示。由于是在預(yù)訓(xùn)練參數(shù)的基礎(chǔ)上繼續(xù)調(diào)優(yōu),隨著迭代次數(shù)增加,準(zhǔn)確率進入平衡狀態(tài)較快,迭代500次后預(yù)測準(zhǔn)確率基本穩(wěn)定在90 %左右。
基于ELM超限學(xué)習(xí)機的全連接網(wǎng)絡(luò)可以利用最小二乘直接確定參數(shù),不需要迭代,所以無法和圖4進行對比。表1給出了這兩種算法經(jīng)過實際風(fēng)機葉片數(shù)據(jù)集調(diào)優(yōu)之后各項指標(biāo)的對比結(jié)果。
表1 兩種全連接層性能對比
表1中的時間是針對2K數(shù)據(jù)集,在處理器Intel(R) CPU E3-1050M v6 @3.00GHz、內(nèi)存8GB、GPU 4GB的筆記本上訓(xùn)練用時?;贓LM超限學(xué)習(xí)機的全連接網(wǎng)絡(luò)因為不需要迭代訓(xùn)練,用時僅為0.165 s;基于BP神經(jīng)網(wǎng)絡(luò)的全連接網(wǎng)絡(luò)在學(xué)習(xí)率為0.01,每批次樣本量為10,迭代訓(xùn)練2 000次的情況下用時146.29 s,是基于ELM超限學(xué)習(xí)機的近千倍。表1中其他指標(biāo)相差不大,由此可見,針對本文的應(yīng)用場景,采用ELM超限學(xué)習(xí)機構(gòu)建遷移學(xué)習(xí)中的全連接層是可行的,而且速度更快。
為進一步驗證提出方案在速度和識別準(zhǔn)確率上的優(yōu)勢,本文引入經(jīng)典的目標(biāo)檢測識別算法Faster R-CNN和Yolo v3,與本文提出的方案進行對比。首先把20 000張的大型預(yù)訓(xùn)練數(shù)據(jù)集作為訓(xùn)練集進行迭代訓(xùn)練,2 000張的實際風(fēng)機葉片數(shù)據(jù)集作為測試集。隨著迭代次數(shù)增加,模型精度變化曲線如圖5(a)所示。由圖5(a)可以看出Faster R-CNN和Yolo v3的收斂速度都低于遷移學(xué)習(xí),迭代到2 000次時還沒有完全收斂,準(zhǔn)確率也低于遷移學(xué)習(xí)方法,要提高模型精度需要花費更長的訓(xùn)練時間。
圖5 遷移學(xué)習(xí)效果
然后再用2 000張的實際風(fēng)機葉片數(shù)據(jù)集分別輸入上述算法模型進行調(diào)優(yōu)。隨機抽取數(shù)據(jù)集的90 %作為訓(xùn)練集,剩余的10 %為測試集,隨著迭代次數(shù)增加,模型精度變化曲線如圖5(b)所示。Faster R-CNN和Yolo v3的收斂速度和網(wǎng)絡(luò)精度都低于遷移學(xué)習(xí),這主要是因為其需要調(diào)整網(wǎng)絡(luò)各層的所有參數(shù),很難在較少的迭代次數(shù)內(nèi)學(xué)習(xí)到更好的參數(shù),而遷移學(xué)習(xí)方法所用的模型基本上是已經(jīng)訓(xùn)練好的,只有全連接部分需要調(diào)整,可以在短時間內(nèi)達到較高的網(wǎng)絡(luò)精度。若遷移學(xué)習(xí)的全連接部分采用ELM超限學(xué)習(xí)機設(shè)計,訓(xùn)練速度還可以大大提高,這在4.1節(jié)已經(jīng)說明。由于ELM超限學(xué)習(xí)幾乎不需迭代訓(xùn)練,沒有在圖5中表示。
遷移學(xué)習(xí)方法不僅比優(yōu)秀的深度學(xué)習(xí)檢測模型Faster R-CNN和Yolo v3收斂速度更快,而且在小樣本任務(wù)中網(wǎng)絡(luò)訓(xùn)練可達到更高的精度。另外遷移學(xué)習(xí)中的全連接層網(wǎng)絡(luò)結(jié)構(gòu)相對簡單,采用ELM超限學(xué)習(xí)機設(shè)計全連接層比基于BP神經(jīng)的全連接層在保證精度的情況下可以縮短上千倍的訓(xùn)練時間,非常適合于對實時性要求較高的應(yīng)用場景。這為遷移學(xué)習(xí)的應(yīng)用提供了一種新思路。