王玉維,楊波,馬衛(wèi)東
(1.北京市地鐵運營有限公司安保部;2.北京聲迅電子股份有限公司)
在地鐵安檢工作中,X射線安檢常用于識別乘客隨身物品是否帶有禁帶品,是地鐵安檢環(huán)節(jié)中極其重要的一部分。近年來,深度學習作為人工智能的一個分支,由于在圖象識別領域擁有較快的檢測速度、較高的檢測準確率,被廣泛的應用于各類需要目標檢測的領域。X光圖片中禁帶品的標記識別過去常常由人工完成,在保證精度的前提下,如何提高X光圖片禁帶品的識別速度便成為了一個重要的課題。
區(qū)域卷積神經(jīng)網(wǎng)絡是當前目標檢測領域的主流框架之一。本文根據(jù)Pascal VOC數(shù)據(jù)集格式建立訓練數(shù)據(jù)集和測試數(shù)據(jù)集,并使用了VGG16作為基礎特征提取網(wǎng)絡進行禁帶品識別模型訓練,研究采用基于區(qū)域卷積神經(jīng)網(wǎng)絡框架的識別模型來輔助X光圖片禁帶品識別。
區(qū)域卷積神經(jīng)網(wǎng)絡由基礎特征提取網(wǎng)絡,區(qū)域推薦網(wǎng)絡(RPN)和區(qū)域卷積神經(jīng)網(wǎng)絡三部分組成。其中,基礎特征網(wǎng)絡首先對輸入圖片進行特征提取,然后RPN網(wǎng)絡進行區(qū)域推薦,給出一系列候選框,最后由區(qū)域卷積神經(jīng)網(wǎng)絡在RPN網(wǎng)絡提取的推薦框中進行物品類別的判斷和物品概率的判斷。區(qū)域卷積神經(jīng)網(wǎng)絡原理流程框架如下圖所示:
圖1 區(qū)域卷積神經(jīng)網(wǎng)絡原理流程框架
區(qū)域卷積神經(jīng)網(wǎng)絡運用同一個VGG16網(wǎng)絡對輸入圖片進行特征提取,然后RPN網(wǎng)絡和CNN網(wǎng)絡在共享卷積層的前提下,分別完成推薦框生成和分類功能,最終實現(xiàn)了端到端的目標檢測。算法實現(xiàn)步驟為:
1)對輸入圖像進行卷積操作得到卷積特征圖;
2)在卷積特征圖上使用滑動窗口進行卷積,在最后的卷積層上獲得候選區(qū)域推薦框;
3)使用非最大值抑制算法,將步驟二獲得的候選推薦框降低到300個;
4)在提取的特征向量后分別計算邊框回歸評分和分類評分。
基于機器學習的禁帶品識別模型極其依賴訓練樣本大小,訓練數(shù)據(jù)量越大往往訓練效果越好。禁帶品識別模型訓練數(shù)據(jù)集采用Pascal VOC數(shù)據(jù)集格式,分為三個部分JPEGImages、Annotations和ImageSets。JPEGImages保存所有的訓練圖片和測試圖片,Annotations存放xml格式的標簽文件,單個xml文件對應JPEGImages中的同文件名的圖片,ImageSets文件夾將訓練集和測試集的圖片文件名分別保存在train.txt文件和test.txt文件夾中。
本次實驗的數(shù)據(jù)集通過收集軌道交通真實樣本,將采集到的槍支器械、易燃易爆、管制刀具等禁帶品得到的,禁帶品的坐標標注由人工完成保存在txt文件中。由于物品標注后的坐標信息保存在txt文件內(nèi),因此,本文實驗首先將原txt文件轉(zhuǎn)為Pascal VOC數(shù)據(jù)集中Annotations文件夾中的xml文件。在去掉了部分標注有誤、格式有誤的錯誤數(shù)據(jù)之后,按照九比一的比例劃分成了訓練集和測試集,劃分結(jié)果保存在ImageSets文件夾下train.txt和test.txt文件內(nèi)。JPEGImages中的樣本圖片如圖2所示。為了增強識別模型的健壯性,本研究還對樣本圖像進行了旋轉(zhuǎn)變換操作,增加了樣本數(shù)量。
圖2 JPEGImages中的樣本圖片
3.2.1 訓練方式選擇
區(qū)域卷積神經(jīng)網(wǎng)絡擁有兩種訓練方式:Alternating training(alt-opt)和Approximate joint training(end2end)。Alternating training訓練方式分為兩個階段,stage1和stage2。第一階段首先獨立的對RPN網(wǎng)絡進行訓練,獲得RPN模型M1,然后使用初步訓練后的RPN網(wǎng)絡模型M1對區(qū)域卷積神經(jīng)網(wǎng)絡網(wǎng)絡進行初始化,獲得區(qū)域卷積神經(jīng)網(wǎng)絡模型M2,同時使用RPN網(wǎng)絡模型M1輸出的推薦結(jié)果P1作為區(qū)域卷積神經(jīng)網(wǎng)絡的輸入值來訓練區(qū)域卷積神經(jīng)網(wǎng)絡模型M2。這部分是區(qū)域卷積神經(jīng)網(wǎng)絡訓練過程的第一階段,最終獲得了一個區(qū)域卷積神經(jīng)網(wǎng)絡模型M2。第二階段在共享卷積層權(quán)值的前提下,利用區(qū)域卷積神經(jīng)網(wǎng)絡模型M2來訓練獲得RPN網(wǎng)絡模型M3,然后使用RPN網(wǎng)絡模型M3生成推薦結(jié)果P2。使用RPN網(wǎng)絡模型M3初始化區(qū)域卷積神經(jīng)網(wǎng)絡網(wǎng)絡得到模型M4,并使用P2來訓練調(diào)整區(qū)域卷積神經(jīng)網(wǎng)絡模型M4的參數(shù),最后將M3的RPN層添加到區(qū)域卷積神經(jīng)網(wǎng)絡模型M4中,組成一個區(qū)域卷積神經(jīng)網(wǎng)絡模型。這一部分是區(qū)域卷積神經(jīng)網(wǎng)絡訓練過程的第二階段,第二階段訓練完成后便得到一個調(diào)整過一次參數(shù)的區(qū)域卷積神經(jīng)網(wǎng)絡模型網(wǎng)絡。根據(jù)預先設定的兩個階段的迭代次數(shù),不斷迭代這個訓練過程最后能獲得一個參數(shù)調(diào)整非常充分的禁帶品識別模型。Approximate joint training訓練方式則將RPN和區(qū)域卷積神經(jīng)網(wǎng)絡融入到同一個網(wǎng)絡中,同時進行迭代訓練。本文在訓練禁帶品識別模型時,采用的是Alternating training訓練方式。
3.2.2 訓練參數(shù)選擇
本文實驗選擇VGG16作為基礎特征提取網(wǎng)絡,VGG16提供了初始學習率和批尺寸等輔助禁帶品識別模型訓練的參數(shù)。Base lr影響VGG16網(wǎng)絡中所有層的學習率,它表明的是網(wǎng)絡的初始學習率。本文實驗中,采用的學習率改變策略為每迭代30000次,便根據(jù)gamma參數(shù)(gamma值取0.9)和當前迭代次數(shù)iter來降低學習率。本次實驗學習率改變公式如下所示:
batch size(批處理尺寸)是機器學習中的重要參數(shù),它定義了訓練過程中一次讀入多少批量的圖片。增大batch size可以提高數(shù)據(jù)處理速度,提高內(nèi)存的利用率,但是也會導致訓練時間增加,泛化能力差,容易陷入局部最優(yōu),模型收斂速度降低。
在區(qū)域卷積神經(jīng)網(wǎng)絡框架中,常常將AP值(Average Precision)作為模型的評價指標。AP值的計算需要使用召回率和精確率兩個值。正樣本mTP指模型正確的將物體識別出來并標注正確,負樣本mFN指模型將物品識別出來但標注為了其他的物品。將召回率作為橫坐標,精確度作為縱坐標可得到一個precision/recall曲線圖。AP值用來概括該曲線圖的形狀。首先,設定一組包含十一個點的閾值,當召回率大于某個閾值時,可以獲得一個對應的最大精確度,這樣我們能獲得一組精確度,AP為這組精確度的平均值。
召回率和精確度的計算方式為:
本文實驗采用的操作系統(tǒng)為Ubuntu14.04平臺,編程環(huán)境基于Python,GPU為NVIDIA TITAN Xp,在深度學習框架Caffe下進行實驗。擁有數(shù)據(jù)標注的X光圖片總共有39000張,隨機選擇其中的90%作為訓練數(shù)據(jù)集,剩余的10%作為測試數(shù)據(jù)集,其中訓練數(shù)據(jù)集用于禁帶品識別模型的參數(shù)調(diào)整,測試集用于檢測訓練完畢的禁帶品識別模型的好壞。設定的迭代次數(shù)為第一二階段區(qū)域卷積神經(jīng)網(wǎng)絡迭代次數(shù)為80000次,第一二階段RPN網(wǎng)絡迭代次數(shù)40000次。訓練完成的禁帶品識別模型都可以做到200ms一張圖片的識別速度。試驗結(jié)果表明:基于機器學習的區(qū)域卷積神經(jīng)網(wǎng)絡框架可以滿足地鐵安檢工作的實時性要求。
表1對比分析了batch size分別取值為32,64,128時的X光禁帶品識別模型的表現(xiàn)??梢钥闯?,batch size為64時,能達到最終收斂精度上的最優(yōu)。
表1 不同批處理尺寸對mAP的影響
表2對比分析了采用了不同的初始學習率時禁帶品識別模型的性能表現(xiàn)。可以看出當初始學習率為0.0012時,禁帶品識別模型能擁有更好的識別效果。
表2 不同初始學習率對mAP的影響
為了提高人工檢測的效率,本文提出一種基于區(qū)域卷積神經(jīng)網(wǎng)絡的禁帶品智能識別技術,并對兩種不同的基礎特征提取網(wǎng)絡對禁帶品識別精度影響進行了對比實驗。通過實驗驗證了該方法在保證了較高的檢測準確率的情況下能擁有很快的檢測速度。該技術能輔助地鐵X射線安檢工作,提高安檢工作效率。下一步可圍繞對漏識別和誤識別的圖片數(shù)據(jù)集的整理,這些數(shù)據(jù)可用于微調(diào)現(xiàn)有的禁帶品智能識別模型的參數(shù),以進一步提高禁帶品識別的準確率。