王文朋,毛文濤,2,何建樑,竇 智,2
(1.河南師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453007;2.河南省高校計(jì)算智能與數(shù)據(jù)挖掘工程技術(shù)中心,河南 新鄉(xiāng) 453007)
基于深度遷移學(xué)習(xí)的煙霧識別方法
王文朋1,毛文濤1,2*,何建樑1,竇 智1,2
(1.河南師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453007;2.河南省高校計(jì)算智能與數(shù)據(jù)挖掘工程技術(shù)中心,河南 新鄉(xiāng) 453007)
針對傳統(tǒng)的基于傳感器和圖像特征的煙霧識別方法易被外部環(huán)境干擾且識別場景單一,從而造成煙霧識別精度較低,而基于深度學(xué)習(xí)的識別方法對數(shù)據(jù)量要求較高,對于煙霧數(shù)據(jù)缺失或數(shù)據(jù)來源受限的情況模型識別能力較弱的問題,提出一種基于深度遷移學(xué)習(xí)的煙霧識別方法。將ImageNet數(shù)據(jù)集作為源數(shù)據(jù),利用VGG-16模型進(jìn)行基于同構(gòu)數(shù)據(jù)下的特征遷移。首先,將所有的圖像數(shù)據(jù)進(jìn)行預(yù)處理,對每張圖像作隨機(jī)變換(隨機(jī)旋轉(zhuǎn)、剪切、翻轉(zhuǎn)等); 其次,引入VGG-16網(wǎng)絡(luò),將其卷積層特征進(jìn)行遷移,并連接預(yù)先使用煙霧數(shù)據(jù)在VGG-16網(wǎng)絡(luò)中訓(xùn)練過的全連接層;進(jìn)而構(gòu)建出基于遷移學(xué)習(xí)的深度網(wǎng)絡(luò),從而訓(xùn)練得到煙霧識別模型。利用公開數(shù)據(jù)集以及真實(shí)場景煙霧圖像進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,和現(xiàn)有主流煙霧圖像識別方法相比,所提方法有較高的煙霧識別率,實(shí)驗(yàn)精度達(dá)96%以上。
深度學(xué)習(xí);遷移學(xué)習(xí);煙霧識別;微量數(shù)據(jù)集
隨著城市經(jīng)濟(jì)的快速發(fā)展,火災(zāi)對于人類的生命、財(cái)產(chǎn)以及企業(yè)正常運(yùn)轉(zhuǎn)造成了極大的威脅。火災(zāi)具有突發(fā)性、危害大等特點(diǎn)[1],對火災(zāi)進(jìn)行檢測和早期預(yù)警具有明確的現(xiàn)實(shí)需求,而如何在火災(zāi)發(fā)生早期進(jìn)行煙霧識別具有重大的理論和實(shí)際意義。
傳統(tǒng)的煙霧識別方法多采用物理信號進(jìn)行監(jiān)測。例如: Yamada等[2]提出基于逐層自組裝電解質(zhì)薄膜的煙霧傳感器進(jìn)行煙霧感知識別;Keller等[3]提出利用光聲傳感器進(jìn)行火焰煙霧監(jiān)測;Cheon等[4]提出利用溫度傳感器和煙霧傳感器進(jìn)行火焰煙霧識別。但是,該類方法對環(huán)境的依賴性強(qiáng),如果周圍環(huán)境發(fā)生改變,識別精度會急劇下降甚至失效; 同時,該類方法識別距離有限,需要安裝大量的傳感器,對人力和物力都是極大的考驗(yàn)。
近年來,圖像處理和模式識別技術(shù)的發(fā)展與成熟,為煙霧識別提供了新的解決途徑,基于圖像的識別方法受到了廣泛重視: Yu等[5]提出基于光流的視頻煙霧識別方法,該方法通過背景估計(jì)方法確定視頻中的運(yùn)動像素和區(qū)域,使用Lucas-Kanade方法提取光流特征,最后使用反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練和預(yù)測;Wang[6]提出基于機(jī)器視覺的煙霧識別,該方法首先采用模糊邏輯進(jìn)行圖像質(zhì)量增強(qiáng),然后使用高斯混合模型提取候選煙霧區(qū),進(jìn)而提取煙霧的動態(tài)和靜態(tài)特征,最后使用支持向量機(jī)(Support Vector Machine, SVM)進(jìn)行模型訓(xùn)練和預(yù)測。該類方法相對于傳統(tǒng)的基于物理信號的煙霧識別方法,降低了人力物力需求,同時提升了識別精度和穩(wěn)定性;但是該類方法需要人工提取圖像特征,同時大多針對某一特定場景下的煙霧識別,訓(xùn)練模型多針對當(dāng)前固定場景,一旦場景改變,火焰煙霧狀態(tài)隨之改變,則模型識別效果下降,故不具有通用性。
基于深度學(xué)習(xí)的煙霧識別能夠較好地克服上述不足。深度學(xué)習(xí)注重模型的深度和自動特征提取,逐層地由高到低進(jìn)行特征學(xué)習(xí),具有較高的特征提取和選擇能力,已在自然語言處理、知識圖譜、醫(yī)學(xué)和圖像等領(lǐng)域得到了廣泛應(yīng)用。然而深度學(xué)習(xí)是以海量數(shù)據(jù)為基礎(chǔ)條件的,同時要求訓(xùn)練集和測試集符合相同的數(shù)據(jù)分布。在煙霧識別領(lǐng)域,實(shí)際可用數(shù)據(jù)量通常是較小的,這主要是因?yàn)榇蠖鄶?shù)煙霧數(shù)據(jù)是基于固定場景拍攝的煙霧視頻,每幀之間煙霧狀態(tài)差別較小,造成重復(fù)數(shù)據(jù)較多。如何從已有的相關(guān)領(lǐng)域數(shù)據(jù)中遷移知識到煙霧識別領(lǐng)域是目前急需解決的一個問題。在眾多的解決方法中,遷移學(xué)習(xí)是利用已有的知識對不同但相關(guān)領(lǐng)域問題進(jìn)行求解的一種新的機(jī)器學(xué)習(xí)方法[7]。遷移學(xué)習(xí)主要可以分為三大類:1)基于實(shí)例的遷移學(xué)習(xí);2)同構(gòu)空間下基于特征的遷移學(xué)習(xí);3)異構(gòu)空間下的遷移學(xué)習(xí)。因此,通過遷移學(xué)習(xí),可以將海量數(shù)據(jù)集中的相關(guān)實(shí)例或者特征遷移到微量數(shù)據(jù)集中,從而提高模型的泛化能力。
本文提出一種基于深度遷移學(xué)習(xí)的煙霧識別方法進(jìn)行同構(gòu)空間下的特征遷移。這種遷移方法不需要源數(shù)據(jù)與目標(biāo)數(shù)據(jù)具有相同的數(shù)據(jù)分布,遷移的是特征提取的能力。相對于煙霧數(shù)據(jù)集,ImageNet[8]數(shù)據(jù)集在數(shù)據(jù)量和種類上非常豐富,ImageNet的圖像分類數(shù)據(jù)集ILSVRC2011中訓(xùn)練集包含1 229 413張圖片,驗(yàn)證集中包含50 000張圖片,測試集包含100 000張圖片。盡管ImageNet中沒有大量的煙霧圖像,但是,由于煙霧圖片的識別歸根結(jié)底是利用邊緣、紋理、顏色等特征,因此,特征遷移模型更多的是關(guān)注特征學(xué)習(xí)能力。用ImageNet作為源數(shù)據(jù)可以提取到豐富多樣的圖像空間特征信息,即邊緣特征、紋理特征和局部細(xì)節(jié)特征等,進(jìn)而遷移到煙霧識別問題上。本文從ImageNet上訓(xùn)練好的模型著手,進(jìn)行特征遷移。具體思路是,將VGG-16網(wǎng)絡(luò)[9]在ImageNet中學(xué)習(xí)到的特征層遷移到具有較少數(shù)據(jù)的煙霧識別問題上,被遷移的特征層中涵蓋了復(fù)雜多樣的特征提取能力(邊緣特征、紋理特征和局部抽象特征等)。Simonyan等[9]于2014年提出VGG(Visual Geometry Group)網(wǎng)絡(luò),并于2014年在ImageNet大規(guī)模數(shù)據(jù)挑戰(zhàn)賽的定位和分類兩個問題上分別取得了第一名和第二名。VGG-16是一個具有16層的卷積神經(jīng)網(wǎng)絡(luò),其中卷積層有13層,每個卷積濾波器的大小為3×3。本文將VGG-16網(wǎng)絡(luò)中的全連接層以上的隱特征層進(jìn)行遷移,同時加入預(yù)先在VGG-16網(wǎng)絡(luò)使用煙霧數(shù)據(jù)訓(xùn)練過的全連接層(Fully Connected Layers, FC),進(jìn)而構(gòu)建一個新的深度遷移學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練預(yù)測,訓(xùn)練過程中會凍結(jié)由VGG遷移過來的卷積層和池化層參數(shù),對全連接層進(jìn)行微調(diào)。本文實(shí)驗(yàn)采用真實(shí)場景數(shù)據(jù),通過構(gòu)建深度遷移學(xué)習(xí)網(wǎng)絡(luò),可大幅提高識別精度。
相對于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),VGG-16在深度上作了提升。圖1表示VGG-16網(wǎng)絡(luò)(pool/2代表2維下采樣,)。網(wǎng)絡(luò)的輸入采用224×224的RGB彩色圖像。網(wǎng)絡(luò)中共有13個卷積層,5個下采樣層以及3個全連接層。所有的卷積濾波器的大小為3×3,卷積步長為1。使用Max-pooling進(jìn)行下采樣。網(wǎng)絡(luò)中共有3個全連接層,對應(yīng)的神經(jīng)元節(jié)點(diǎn)個數(shù)為4 096、4 096、1 000,最后一個全連接層神經(jīng)元節(jié)點(diǎn)對應(yīng)ImageNet中標(biāo)簽的數(shù)量。網(wǎng)絡(luò)中共有16層含有參數(shù),參數(shù)個數(shù)為1 380 000 000。
圖1 VGG-16網(wǎng)絡(luò)Fig. 1 VGG-16 convolutional neural network
VGG-16網(wǎng)絡(luò)的特點(diǎn)在于使用尺寸較小卷積濾波器(大小為3×3),這樣有助于更加細(xì)致地提取局部特征,減少了參數(shù)個數(shù),同時提升了決策函數(shù)的區(qū)分性[9]。VGG-16使用多個卷積層進(jìn)行堆疊,并且卷積濾波器的個數(shù)。卷積層中每個神經(jīng)元的計(jì)算公式如式(1)所示。其中:k表示卷積核權(quán)重,x為輸入樣本,l代表層數(shù),Mj代表上一層中可選輸入特征圖集合[10],bl代表每層的偏置項(xiàng)。卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值更新過程與反向傳播神經(jīng)網(wǎng)絡(luò)類似,對于每個卷積層l,本文假設(shè)其后都會連接一個下采樣層l+1。根據(jù)反向傳播神經(jīng)網(wǎng)絡(luò)[11-12]可知,反向傳播的誤差可以看作是每個神經(jīng)元的基的靈敏度。式(2)卷積層中每個特征圖的計(jì)算公式,up(·)代表上采樣,° 代表逐項(xiàng)相乘。式(4)、(5)分別計(jì)算基的靈敏度和卷積權(quán)值的梯度:
(1)
(2)
up(x)≡x?1n×n
(3)
(4)
(5)
式(4)中u和v為輸出卷積映射的位置坐標(biāo)。式(6)表示下采樣的過程,down(·)表示下采樣函數(shù)。下采樣層權(quán)值更新與卷積層類似,都需要利用式(4)先計(jì)算基的敏感度,再通過式(7)、(8)得到最后的權(quán)值梯度:
(6)
(7)
(8)
近年來,遷移學(xué)習(xí)[13]逐漸引起廣泛的關(guān)注和研究。如圖2所示,傳統(tǒng)的機(jī)器學(xué)習(xí)方法要求訓(xùn)練集與測試集必須在相同的特征空間,同時必須有相同的數(shù)據(jù)分布。然而現(xiàn)實(shí)生活中,多數(shù)領(lǐng)域的數(shù)據(jù)是有限的,特征是異構(gòu)的,遷移學(xué)習(xí)很好地解決了如何從已有的源領(lǐng)域遷移知識到目標(biāo)領(lǐng)域,甚至可以解決異類數(shù)據(jù)之間的知識遷移問題。
圖2 傳統(tǒng)機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)對比Fig. 2 Comparison between traditional machine learning and transfer learning
遷移學(xué)習(xí)主要分為三大類:1)同構(gòu)空間下基于實(shí)例的遷移;2)同構(gòu)空間下基于特征的遷移;3)異構(gòu)空間下的遷移學(xué)習(xí)。Dai等[17]提出同構(gòu)空間下基于實(shí)例遷移的Tradaboost算法。Yang等[18]提出異類遷移學(xué)習(xí),將不同特征空間下的數(shù)據(jù)進(jìn)行知識遷移,從而提高了分類效果。目前遷移學(xué)習(xí)在多個領(lǐng)域內(nèi)都有發(fā)展。Xie等[19]利用遷移學(xué)習(xí)從衛(wèi)星拍攝的大量圖像中遷移知識,應(yīng)用到社會經(jīng)濟(jì)指標(biāo)分析中;Sonoyama等[20]將遷移學(xué)習(xí)應(yīng)用到內(nèi)窺鏡圖像分類問題上,通過從陳舊機(jī)器拍攝的內(nèi)窺鏡圖像中遷移知識,從而提高新設(shè)備拍攝內(nèi)窺鏡圖像的識別率。
基于實(shí)例的遷移學(xué)習(xí)大多發(fā)生在源數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集有較大相似度的情況下,主要是將源數(shù)據(jù)集中有助于目標(biāo)數(shù)據(jù)集分類的數(shù)據(jù)盡可能地篩選出來,加入到目標(biāo)數(shù)據(jù)集進(jìn)行模型訓(xùn)練,從而提高模型的泛化能力。基于同構(gòu)空間下的特征遷移學(xué)習(xí),能夠很好地克服領(lǐng)域間數(shù)據(jù)差別較大的情況,在特征層面上尋找一些公共特征,例如紋理特征、邊緣特征、高層抽象特征等,然后遷移這種特征提取能力到目標(biāo)數(shù)據(jù)集,進(jìn)而提高在目標(biāo)數(shù)據(jù)集上的模型泛化能力。
煙霧識別對于早期預(yù)警火災(zāi)具有重大的意義。傳統(tǒng)的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方法對數(shù)據(jù)量要求較高,無法直接應(yīng)用于煙霧識別,例如文獻(xiàn)[14-16]基于固定場景的煙霧識別中延誤數(shù)據(jù)較為單一,當(dāng)煙霧場景等環(huán)境改變時模型泛化能力較弱。鑒于此,本文使用基于同構(gòu)空間下的特征遷移,將在同為圖像數(shù)據(jù)的ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的VGG-16模型中的特征提取層(卷積和池化層)遷移到目標(biāo)數(shù)據(jù)集的分類任務(wù)中,其中遷移的是模型的特征提取能力(例如邊緣特征提取能力、紋理特征提取能力、形狀等高層抽象特征提取能力),從而提高煙霧識別模型的泛化能力。
盡管ImageNet數(shù)據(jù)與目標(biāo)煙霧識別數(shù)據(jù)具有一定的差異性,但是在特征層面上存在一些不變的普適性特征,例如邊緣、紋理、形狀等高層抽象特征,這些特征無論是對于ImageNet數(shù)據(jù)集,還是目標(biāo)煙霧數(shù)據(jù)集均是存在的共性特征,因此可以進(jìn)行基于同構(gòu)空間下的特征遷移。
圖3表示本文的流程,可分為4個階段。首先對數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理階段主要將所有的圖像數(shù)據(jù)按照對應(yīng)的類別進(jìn)行調(diào)整大小(統(tǒng)一成三通道,大小為3×150×150)、隨機(jī)變換(隨機(jī)旋轉(zhuǎn)、剪切、翻轉(zhuǎn)等)和歸一化;其次,構(gòu)建基于深度遷移學(xué)習(xí)的網(wǎng)絡(luò)。在這個過程中首先在煙霧數(shù)據(jù)集上利用VGG-16網(wǎng)絡(luò)預(yù)訓(xùn)練一個全連接網(wǎng)絡(luò),具體做法是將煙霧數(shù)據(jù)集作為輸入,獲取在ImageNet上已訓(xùn)練好的VGG-16網(wǎng)絡(luò)中的卷積部分輸出,從而利用這個輸出訓(xùn)練一個全連接網(wǎng)絡(luò);然后,將已在ImageNet上訓(xùn)練好的VGG網(wǎng)絡(luò)中卷積部分保留參數(shù)遷移過來,與之前預(yù)訓(xùn)練的全連接網(wǎng)絡(luò)進(jìn)行對接,從而得到基于深度遷移學(xué)習(xí)模型,并進(jìn)行模型訓(xùn)練和微調(diào)參數(shù);最后,進(jìn)行模型預(yù)測。
圖3 實(shí)驗(yàn)流程Fig. 3 Experiment flow chart
本文將使用基于VGG-16網(wǎng)絡(luò)的遷移學(xué)習(xí)模型來進(jìn)行煙霧識別。圖4是模型的架構(gòu),其中,左側(cè)是本文所使用的煙霧識別模型,主要由兩部分構(gòu)成:1)卷積層和下采樣層,該部分是由VGG-16網(wǎng)絡(luò)遷移過來的,同時加載了對應(yīng)的VGG-16網(wǎng)絡(luò)已經(jīng)訓(xùn)練好的參數(shù);2)全連接層,該部分的全連接層來自預(yù)先訓(xùn)練好的全連接層。
圖4 基于VGG-16網(wǎng)絡(luò)的遷移學(xué)習(xí)模型Fig. 4 Transfer learning model based on VGG-16
為了便于描述,圖4中缺省了輸入層和輸出層。本文所用模型共包含13個卷積層、5個下采樣層,以及3個全連接層。第1~2層中卷積濾波器(大小為3×3)個數(shù)為64;第3~4層中的卷積濾波器(大小為3×3)個數(shù)為128;第5~7層中的卷積濾波器(大小為3×3)個數(shù)為256;第8~13層中的卷積濾波器(大小為3×3)個數(shù)為512;第14~16層為全連接層,對應(yīng)的神經(jīng)元個數(shù)分別為:256、128、5。
本文采用的實(shí)驗(yàn)數(shù)據(jù)集來自于火焰煙霧公開數(shù)據(jù)集(http://signal.ee.bilkent.edu.tr/VisiFire/)和網(wǎng)絡(luò)采集。實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練集和測試集,每個集合均含有5個類別,分別是火焰、煙霧、生活場景、樓道、隧道。表1給出了具體的實(shí)驗(yàn)數(shù)據(jù)情況。圖5是實(shí)驗(yàn)數(shù)據(jù)實(shí)例展示圖,其中每個類別中的圖像數(shù)據(jù)均來自不同場景,有利于模型的訓(xùn)練和泛化。綜合表1和圖5,可以看出本文所使用的數(shù)據(jù)集隸屬于小數(shù)據(jù)集,所以本文采用ImageNet大型數(shù)據(jù)集作為源數(shù)據(jù)集進(jìn)行遷移學(xué)習(xí)。ImageNet分類數(shù)據(jù)集共含有1 000個類別的圖像數(shù)據(jù),數(shù)據(jù)量之大和種類之豐富為基于深度遷移學(xué)習(xí)的模型構(gòu)造提供了強(qiáng)大支撐。
表1 實(shí)驗(yàn)數(shù)據(jù)Tab. 1 Expermental data
圖5 實(shí)驗(yàn)數(shù)據(jù)實(shí)例Fig. 5 Experimental data examples
本文的對比實(shí)驗(yàn)有5個,分別是基于SIFT(Scale-Invariant Feature Transform)特征的支持向量機(jī)煙霧識別方法、基于深度神經(jīng)網(wǎng)絡(luò)的煙霧識別方法、基于卷積神經(jīng)網(wǎng)絡(luò)的煙霧識別方法、基于TrAdaboost的煙霧識別方法和基于Cifar-10數(shù)據(jù)集的遷移方法,為方便描述本文依次稱之為SVM(Support Vector Machine)、DNN(Deep Neural Network)、CNN(Convolutional Neural Network)、TrAdaboost和TLBC(Transfer Learning Based on Cifar)。
SVM方法首先使用SIFT提取圖像的特征描述符,在將其轉(zhuǎn)化為特征向量,最后放入支持向量機(jī)進(jìn)行訓(xùn)練和預(yù)測,該方法的主要參數(shù)采用徑向基核函數(shù),正則項(xiàng)C設(shè)置為1 000。DNN方法將圖像預(yù)處理歸一化后放入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練預(yù)測,該方法采用一個4層的神經(jīng)網(wǎng)絡(luò)(不包含輸入層,神經(jīng)元個數(shù)分別為2 048、768、512、5)進(jìn)行訓(xùn)練預(yù)測。
CNN方法中包含3個卷積層(卷積濾波器大小為5×5和3×3兩種),2個下采樣層以及兩個全連接層,其中卷積層與下采樣層交替連接,最后與全連接層連接進(jìn)行模型訓(xùn)練。
TrAdaboost方法中分為目標(biāo)數(shù)據(jù)集和源數(shù)據(jù)集,源數(shù)據(jù)集主要包括霧霾(723張圖像數(shù)據(jù))、煙火混合(929張圖像)兩大類圖像,目標(biāo)數(shù)據(jù)集與表1一致,然后通過TrAdaboost方法進(jìn)行訓(xùn)練、預(yù)測,調(diào)整每個樣本的權(quán)重,TrAdaboost中使用的訓(xùn)練模型為邏輯回歸模型。
TLBC方法首先在Cifar-10數(shù)據(jù)集上采用VGG-16模型進(jìn)行訓(xùn)練,然后將訓(xùn)練好的模型中的特征隱層(卷積和池化層)遷移到煙霧識別數(shù)據(jù)上,再增加相應(yīng)的全連接層進(jìn)行微調(diào)。DNN和CNN方法中模型迭代次數(shù)均為100,學(xué)習(xí)率為0.01。
本文所提深度遷移學(xué)習(xí)模型簡稱為DMTL(Deep model based on Transfer learning)。為了增加數(shù)據(jù)的多樣性,同時防止模型過擬合,首先對數(shù)據(jù)作預(yù)處理。將所有的圖像數(shù)據(jù)縮放到統(tǒng)一的大小(3×150×150),同時將所有的數(shù)據(jù)作隨機(jī)變換(隨機(jī)旋轉(zhuǎn)、剪切、翻轉(zhuǎn)等),并進(jìn)行歸一化;然后對已在ImageNet上訓(xùn)練好的VGG-16網(wǎng)絡(luò)中的全連接層以上部分(主要為卷積層和下采樣層)保留參數(shù)進(jìn)行遷移;再次,使用煙霧數(shù)據(jù)集作為輸入,獲取在ImageNet上已訓(xùn)練好的VGG-16網(wǎng)絡(luò)中的卷積部分輸出,從而利用這個輸出預(yù)訓(xùn)練一個全連接網(wǎng)絡(luò)。如圖4所示,將遷移過來的卷積層與預(yù)訓(xùn)練好的全連接層進(jìn)行對接,開始模型訓(xùn)練,在訓(xùn)練過程中會凍結(jié)VGG-16遷移過來的卷積層的參數(shù),只對全連接層參數(shù)進(jìn)行微調(diào)。這樣可以防止過擬合,同時提高訓(xùn)練效率。DMTL的詳細(xì)模型配置如圖4所示,模型的學(xué)習(xí)率為0.000 1,迭代次數(shù)為100。實(shí)驗(yàn)中DNN、CNN以及本文模型均在GPU(Graphics Processing Unit)上進(jìn)行訓(xùn)練預(yù)測,實(shí)驗(yàn)所用的GPU為Tesla K40(共三塊),實(shí)驗(yàn)環(huán)境是基于Linux的Keras。
圖6是使用本文所提的基于深度遷移學(xué)習(xí)的煙霧識別模型所提取出來的特征圖,其中分別顯示了使用VGG-16網(wǎng)絡(luò)在Cifar-10和ImageNet兩個數(shù)據(jù)集下進(jìn)行遷移的中間隱層特征圖。如圖6所示,為了方便展示,從目標(biāo)數(shù)據(jù)集的5個類別中分別抽出一張圖像顯示出網(wǎng)絡(luò)第二層的輸出特征圖。圖6(a)~(e)是在Cifar-10數(shù)據(jù)集下訓(xùn)練好的VGG-16網(wǎng)絡(luò)進(jìn)行遷移后對應(yīng)樣本的隱層特征圖,圖6(f)~(j)是在ImageNet數(shù)據(jù)集下訓(xùn)練好的VGG-16網(wǎng)絡(luò)進(jìn)行遷移后對應(yīng)樣本的隱層特征圖。可以明顯地看出,兩種方法均能提取到一些高層抽象特征(紋理、邊緣、形狀、高層抽象特征),但是與基于Cifar-10數(shù)據(jù)集的遷移方法相比,結(jié)合圖6,可以明顯地觀察到,基于ImageNet數(shù)據(jù)集的特征遷移方法要比前者優(yōu)秀,無論從特征的局部細(xì)節(jié)展示還是邊緣、紋理等高層抽象特征,后者均能很詳細(xì)地在卷積過濾器中體現(xiàn)出來,這主要是因?yàn)镮mageNet的大量數(shù)據(jù)使得訓(xùn)練出來VGG-16網(wǎng)絡(luò)能夠更詳盡、精準(zhǔn)地學(xué)習(xí)到樣本的抽象特征,總的來說,將已在ImageNet數(shù)據(jù)集上訓(xùn)練好的VGG-16模型遷移到煙霧識別問題上很好地提取圖像的抽象特征,進(jìn)而提高模型的泛化能力。
圖6 TLBC與DMTL模型隱層特征對比Fig. 6 Hidden feature maps based on Cifar-10 and ImageNet
表2為各方法在煙霧圖像數(shù)據(jù)集的對比實(shí)驗(yàn)結(jié)果。
表2 幾種方法在煙霧圖像數(shù)據(jù)集的性能對比Tab. 2 Performance comparison of several methods on smoke image data sets
從表2中可以看出: SVM在訓(xùn)練時間和測試時間上有較大優(yōu)勢,但是訓(xùn)練和測試精度非常低,這是由于傳統(tǒng)的圖像特征提取方法極大地依賴于先驗(yàn)知識;另一方面,這種傳統(tǒng)的機(jī)器學(xué)習(xí)方法對數(shù)據(jù)依賴性較高,需要有大量的數(shù)據(jù)來訓(xùn)練模型。DNN、CNN方法相對于SVM方法在訓(xùn)練集精度和測試集精度上有明顯提升,這主要是由于深度模型自動提取特征的方法優(yōu)于傳統(tǒng)的人工特征提取方法,但是深度模型對數(shù)據(jù)本身的依賴性極大,本文實(shí)驗(yàn)中的數(shù)據(jù)集屬于小數(shù)據(jù),因此DNN、CNN方法的訓(xùn)練、測試精度遠(yuǎn)遠(yuǎn)低于本文方法。TrAdaboost方法在訓(xùn)練精度和測試精度上相較于SVM、DNN和CNN方法又有一定的提升,這主要是因?yàn)楹笳邔?shù)據(jù)的要求較高,需要大量的數(shù)據(jù)進(jìn)行學(xué)習(xí),才能保證模型的泛化能力,然而TrAdaboost能夠從源數(shù)據(jù)集的實(shí)例中根據(jù)一定的權(quán)重規(guī)則來逐步地提高相關(guān)樣本的訓(xùn)練權(quán)重,弱化非相關(guān)樣本的權(quán)重,從而在目標(biāo)訓(xùn)練集上進(jìn)行模型訓(xùn)練,提高模型的泛化能力。TLBC方法在訓(xùn)練時間測試時間上和本文方法相差不大,訓(xùn)練和測試精度相對于DNN和CNN,有較大的提升(在測試集上精度提高了超過20%),相對于TrAdaboost提高了近5個百分點(diǎn),這主要是因?yàn)楹芏嗲闆r下源數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集的數(shù)據(jù)分布差異過大,造成可以進(jìn)行實(shí)例遷移的樣本極為稀少,有時可能造成負(fù)遷移等問題,然而同構(gòu)空間下的特征遷移能夠找到源數(shù)據(jù)和目標(biāo)數(shù)據(jù)在特征層面上的共同特征來進(jìn)行遷移。相對于其他四種對比方法,本文方法從VGG-16模型中遷移知識,應(yīng)用到本文的微量煙霧識別數(shù)據(jù)集,在訓(xùn)練集精度和測試集精度上占絕對優(yōu)勢,訓(xùn)練集精度達(dá)到 99.6%,測試集精度達(dá)到96.1%。本文方法的訓(xùn)練時間為3 500 s,在模型訓(xùn)練時間上略長于其他對比方法,但是這可以通過線下訓(xùn)練模型來解決??偠灾?,通過表2中的TLBC和本文所使用的DMTL與其他對比實(shí)驗(yàn)的結(jié)果可知,基于同構(gòu)空間下的特征遷移能夠很好地解決煙霧微量數(shù)據(jù)集的識別問題。
圖7為DNN、CNN、TLBC和本文方法DMTL在訓(xùn)練集和測試集上的精度變化對比。其中,圖7(a)為4種方法在訓(xùn)練集上的精度變化,可以看到,DNN和CNN方法在前30次迭代中精度迅速上升之后逐漸趨于穩(wěn)定,DNN穩(wěn)定在70%~80%,CNN穩(wěn)定在83%~85%,TLBC方法穩(wěn)定在92%~96%,DMTL方法從迭代開始94%逐漸上升到99%;圖7(b)是4種方法在測試集上的精度變化,其中DNN和CNN方法在前20次迭代中精度迅速上升,之后基本趨于穩(wěn)定,DNN方法精度穩(wěn)定在45%~60%,CNN方法穩(wěn)定在56%~62%,TLBC穩(wěn)定在82%左右, DMTL方法在迭代過程中基本穩(wěn)定在96%。
圖7表明DNN、CNN方法在微量煙霧數(shù)據(jù)集上的學(xué)習(xí)能力明顯弱于本文方法,這主要是由于前者對數(shù)據(jù)有極大的依賴性,需要大量的數(shù)據(jù)來進(jìn)行特征學(xué)習(xí)。然而本文采用微量火焰煙霧數(shù)據(jù)集,使用DNN、CNN方法使得模型容易陷入過擬合,從而導(dǎo)致模型的泛化能力降低,導(dǎo)致測試集的精度較低。本文采用基于深度遷移學(xué)習(xí)的煙霧識別方法DMTL,從已在ImageNet數(shù)據(jù)集訓(xùn)練好的VGG-16網(wǎng)絡(luò)中遷移知識,應(yīng)用到數(shù)據(jù)量較小的火焰煙霧數(shù)據(jù)集上,使得模型的學(xué)習(xí)能力和預(yù)測能力相對于前兩種方法有大幅提升,測試集精度比DNN、CNN提升了36個百分點(diǎn)左右。綜上所述,本文所提的基于遷移學(xué)習(xí)的煙霧識別方法有較強(qiáng)的學(xué)習(xí)和泛化能力。
圖7 訓(xùn)練集和測試集精度變化對比Fig. 7 Accuracy comparison of training set and test set
煙霧識別的核心問題在于提取有效的煙霧特征。然而對于僅有小數(shù)據(jù)的煙霧識別問題,如何從其他領(lǐng)域進(jìn)行知識遷移則顯得尤為重要。本文成功地將遷移學(xué)習(xí)引入煙霧識別問題中,從已在ImageNet數(shù)據(jù)集訓(xùn)練好的VGG-16網(wǎng)絡(luò)中遷移特征用于煙霧識別,在訓(xùn)練集精度和測試集精度上有較大幅度的提升。本文方法對煙霧識別和其他微量數(shù)據(jù)領(lǐng)域具有明確的理論和實(shí)踐意義。同時,針對時序數(shù)據(jù)的相關(guān)性,在下一階段工作中,擬引入長短期記憶模型針對時間序列的煙霧視頻識別深度遷移模型進(jìn)行研究。
References)
[1] YIM H,OH S,KIM W.A study on the verification scheme for electrical circuit analysis of fire hazard analysis in nuclear power plant[J]. Journal of the Korean Society of Safety, 2015, 30(3):114-122.
[2] YAMADA M, SHIRATORI S. Smoke sensor using mass controlled layer-by-layer self-assembly of polyelectrolytes films[J]. Sensors and Actuators B: Chemical, 2000, 64(1/2):124-127.
[3] KELLER A, RüEGG M, FORSTER M, et al. Open photoacoustic sensor as smoke detector[J]. Sensors and Actuators B: Chemical, 2005, 104(1):1-7.
[4] CHEON J, LEE J, LEE I, et al. A single-chip CMOS smoke and temperature sensor for an intelligent fire detector[J]. IEEE Sensors Journal, 2009, 9(8):914-921.
[5] YU C, ZHANG Y, FANG J, et al. Video smoke recognition based on optical flow[C]// Proceedings of the 2010 2nd International Conference on Advanced Computer Control. Piscataway, NJ: IEEE, 2010:16-21.
[6] WANG Y. Smoke recognition based on machine vision[C]// Proceedings of the 2016 International Symposium on Computer, Consumer and Control. Washington, DC: IEEE Computer Society, 2016:668-671.
[7] 莊福振,羅平,何清,等.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報, 2015, 26(1):26-39.(ZHUANG F Z, LUO P, HE Q, et al. Survey on transfer learning research[J]. Journal of Software, 2015, 26(1):26-39.)
[8] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3):211-252.
[9] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL].[2016- 11- 20]. http://www.robots.ox.ac.uk:5000/~vgg/publications/2015/Simonyan15/simonyan15.pdf.
[10] LI J, CHENG J H, SHI J Y, et al. Brief Introduction of Back Propagation (BP) Neural Network Algorithm and Its Improvement[M]// Advances in Computer Science and Information Engineering. Berlin: Springer, 2012:553-558.
[11] CUN Y L, JACKEL L D, BOSER B, et al. Handwritten digit recognition: applications of neural network chips and automatic learning[J]. IEEE Communications Magazine, 1989, 27(11):41-46.
[12] BOUVRIE J. Notes on convolutional neural networks[EB/OL].[2016- 11- 20]. http://cogprints.org/5869/1/cnn_tutorial.pdf.
[13] PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10):1345-1359.
[14] 饒?jiān)F?柴紅玲.林火視頻監(jiān)控中煙識別方法概述[J]. 林業(yè)調(diào)查規(guī)劃, 2009,34(1): 59-62.(RAO Y P, CHAI H L. A general introduction to a method for smoke recognition in vision monitoring of forest fire[J]. Forest Inventory and Planning, 2009, 34(1):59-62.)
[15] SAHINER B, CHAN H P, PETRICK N, et al. Classification of mass and normal breast tissue: a convolution neural network classifier with spatial domain and texture images[J]. IEEE Transactions on Medical Imaging, 1996, 15(5):598-610.
[16] HUANG Y, TIAN S, SUN X, et al. Forest fire smoke recognition based on gray bit plane technology[J]. International Journal of Signal Processing, Image Processing and Pattern Recognition, 2013, 6(6): 309-320.
[17] DAI W, YANG Q, XUE G R, et al. Boosting for transfer learning[C]// Proceedings of the 24th International Conference on Machine Learning. New York: ACM, 2007:193-200.
[18] YANG Q, CHEN Y, XUE G R, et al. Heterogeneous transfer learning for image clustering via the social Web[C]// Proceedings of the 47th Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Stroudsburg, PA: Association for Computational Linguistics, 2009:1-9.
[19] XIE M, JEAN N, BURKE M, et al. Transfer learning from deep features for remote sensing and poverty mapping[C]// Proceedings of the 30th AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2016: 3929-3935.
[20] SONOYAMA S, TAMAKI T, HIRAKAWA T, et al. Transfer learning for endoscopic image classification[EB/OL].[2016- 11- 20]. http://www.researchgate.net/profile/Tetsushi_Koide/publication/306474619_Transfer_Learning_for_Endoscopic_Image_Classification/links/587af87308ae4445c0630cc7.pdf.
This work is partially supported by the National Natural Science Foundation of China (U1204609), the Program for Science & Technology Innovation Talents in University of Henan Province (15HASTIT022), the Funding Scheme of University Young Core Instructors in Henan Province (2014GGJS-046), the Foundation of Henan Normal University for Excellent Young Teachers (14YQ007), the Key Scientific Research Project in University of Henan Province (15A520078), the Key Scientific and Technological Project of Henan Province (172102210333).
WANGWenpeng, born in 1989, M. S. candidate. His research interests include machine learning, pattern recognition.
MAOWentao, born in 1980, Ph. D., associate professor. His research interests include machine learning, weak signal detection.
HEJianliang, born in 1993, M. S. candidate. His research interests include machine learning, time series prediction.
DOUZhi, born in 1977, Ph. D., associate professor. His research interests include image processing, pattern recognition.
Smokerecognitionbasedondeeptransferlearning
WANG Wenpeng1, MAO Wentao1,2*, HE Jianliang1, DOU Zhi1,2
(1.CollegeofComputerandInformationEngineering,HenanNormalUniversity,XinxiangHenan453007,China;2.EngineeringTechnologyResearchCenterforComputingIntelligenceandDataMiningofHenanProvince,XinxiangHenan453007,China)
For smoke recognition problem, the traditional recognition methods based on sensor and image feature are easily affected by the external environment, which would lead to low recognition precision if the flame scene and type change. The recognition method based on deep learning requires a large amount of data, so the model recognition ability is weak when the smoke data is missing or the data source is restricted. To overcome these drawbacks, a new smoke recognition method based on deep transfer learning was proposed. The main idea was to conduct smoke feature transfer by means of VGG-16 (Visual Geometry Group) model with setting ImageNet dataset as source data. Firstly, all image data were pre-processed, including random rotation, cut and overturn, etc. Secondly, VGG-16 network was introduced to transfer the features in the convolutional layers, and to connect the fully connected layers network pre-trained by smoke data. Finally, the smoke recognition model was achieved. Experiments were conducted on open datasets and real-world smoke images. The experimental results show that the accuracy of the proposed method is higher than those of current smoke image recognition methods, and the accuracy is more than 96%.
deep learning; transfer learning; smoke recognition; small dataset
2017- 05- 16;
2017- 06- 07。
國家自然科學(xué)基金資助項(xiàng)目(U1204609);河南省高??萍紕?chuàng)新人才支持計(jì)劃(15HASTIT022);河南省高校青年骨干教師資助計(jì)劃(2014GGJS-046);河南師范大學(xué)優(yōu)秀青年科學(xué)基金資助項(xiàng)目(14YQ007);河南省高等學(xué)校重點(diǎn)科研項(xiàng)目計(jì)劃(15A520078); 河南省科技攻關(guān)項(xiàng)目(172102210333)。
王文朋(1989—),男,河南新鄉(xiāng)人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、模式識別; 毛文濤(1980—),男,河南新鄉(xiāng)人,副教授, 博士,CCF會員,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、弱信號檢測; 何建樑(1993—),男,河南信陽人,碩士研究生, 主要研究方向:機(jī)器學(xué)習(xí)、時間序列預(yù)測; 竇智(1977—),男,河南新鄉(xiāng)人,副教授,博士,主要研究方向:圖像處理、模式識別。
1001- 9081(2017)11- 3176- 06
10.11772/j.issn.1001- 9081.2017.11.3176
(*通信作者電子郵箱maowt@htu.edu.cn)
TP391.41
A