姚志英,王成林,姚瀅瀅
(北京物資學(xué)院 物流學(xué)院,北京 101149)
物流分揀過程中,傳輸帶上物品的準(zhǔn)確檢測(cè)已成為影響物流效率的關(guān)鍵因素之一。為了提高檢測(cè)準(zhǔn)確度各種傳感技術(shù)已被廣泛應(yīng)用于物品檢測(cè),其中基于視頻內(nèi)容的物品檢測(cè)已成為其中一個(gè)重要分支。張 和王金祥利用背景差分法以公共場(chǎng)所監(jiān)控視頻為研究對(duì)象進(jìn)行公共區(qū)域遺留物品的檢測(cè)。吉祥凌和吳軍等以安檢圖片為研究對(duì)象,通過應(yīng)用深度學(xué)習(xí)技術(shù)分別對(duì)圖象中淺層特征和深層特征進(jìn)行研究,研究安檢圖片中的管制物品。唐瑜和易鴻通過提取圖象特征,應(yīng)用神經(jīng)網(wǎng)絡(luò)分類方法檢測(cè)圖片中出現(xiàn)的物品。方正和胡偉鋒等通過背景差分法和核相關(guān)濾波器跟蹤算法的多目標(biāo)跟蹤系統(tǒng),用于檢測(cè)視頻中移動(dòng)的物體。亓駿唯基于區(qū)域信息應(yīng)用mean-shift算法對(duì)視頻中遺留物品進(jìn)行檢測(cè)。Shiuh-Ku Weng和Chung-Ming Kuo等應(yīng)用自適應(yīng)卡爾曼濾波器進(jìn)行視頻中的運(yùn)動(dòng)目標(biāo)跟蹤。Strughan Kumar和Jigyendra Sen Yadav研究了一種有效的背景消減方法用于靜止和運(yùn)動(dòng)圖像中物品目標(biāo)的檢測(cè)。Qishou Lu和Chonghua Liu等將柵格化的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于視頻中單個(gè)運(yùn)動(dòng)物品檢測(cè)??v觀已有的文獻(xiàn)資料發(fā)現(xiàn)目前基于視頻內(nèi)容的物品檢測(cè),大部分集中于單目標(biāo)物品的檢測(cè),對(duì)于多目標(biāo)物品檢測(cè)的研究相對(duì)較少,應(yīng)用于物流分揀過程中物品檢測(cè)的研究更少。事實(shí)上視頻監(jiān)控技術(shù)很早就被應(yīng)用到物流分揀的場(chǎng)景監(jiān)控中,如能以場(chǎng)景監(jiān)控視頻為研究對(duì)象及早識(shí)別出視頻中物品,可實(shí)現(xiàn)對(duì)物品分揀的提前預(yù)判,提高分揀系統(tǒng)的效率。
本文將以物流分揀傳輸過程中監(jiān)控圖像為研究對(duì)象,應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像內(nèi)容的處理,實(shí)現(xiàn)對(duì)一張圖像中所有物品的檢測(cè),為提高分揀系統(tǒng)的效率奠定基礎(chǔ)。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一部分,2006年Hintton通過研究深度信念網(wǎng)絡(luò)揭開了深度學(xué)習(xí)研究的序幕;到目前為止仍有大量的學(xué)者致力于深度學(xué)習(xí)模型結(jié)構(gòu)、模型訓(xùn)練、學(xué)習(xí)方法以及相關(guān)應(yīng)用的研究。事實(shí)上深度學(xué)習(xí)的本質(zhì)就是通過組合低層次的特征,形成更加抽象的高層次的特征,以實(shí)現(xiàn)機(jī)器學(xué)習(xí)的最佳特征提取。目前已有的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)模型、深度信念網(wǎng)絡(luò)模型、深度玻爾茲曼機(jī)網(wǎng)絡(luò)模型和堆疊自動(dòng)編碼器模型等。本文將結(jié)合實(shí)際應(yīng)用重點(diǎn)研究深度卷積神經(jīng)網(wǎng)絡(luò)。
卷積神經(jīng)網(wǎng)絡(luò)是基于生物視覺系統(tǒng)的機(jī)理而構(gòu)建的一種神經(jīng)網(wǎng)絡(luò)計(jì)算模型,一直被應(yīng)用于視頻圖像處理和模式識(shí)別領(lǐng)域。多年來通過以LeCun等為代表的科學(xué)家們的努力,在深度學(xué)習(xí)技術(shù)的發(fā)展和推動(dòng)下,深度卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)基本穩(wěn)定,一般情況下一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,各個(gè)組成單位的功能具體如下所述。
圖1 深度卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)
2.2.1 卷積層。卷積層的核心就是將輸入的二維圖像內(nèi)容與卷積核進(jìn)行卷積運(yùn)算;若將輸入的二維圖像內(nèi)容用矩陣A[ajj]IⅹJ表示,卷積核為K[kxy]XⅹY,其中I為圖像的寬度,J為圖像的高度,X為卷積核矩陣行數(shù),Y為卷積核矩陣列數(shù),則圖像進(jìn)行卷積運(yùn)算的結(jié)果S可用式(1)表示。
通過卷積層運(yùn)算后輸入圖像的尺寸寬度W和高度H分別可用式(2)和式(3)表示,其中P(Padding)為根據(jù)輸入圖像大小和卷積核的大小確定進(jìn)行卷積運(yùn)算前輸入圖像需要補(bǔ)零的情況,D(Stride)為卷積核每次移動(dòng)的步長。卷積運(yùn)算不僅縮小了輸入圖像的物理尺寸,降低了運(yùn)算的空間復(fù)雜度,而且更重要的是通過卷運(yùn)算可保證圖像中特征不變。
在進(jìn)行卷積層設(shè)計(jì)時(shí),卷積核的選擇、步長(Stride)和Padding的設(shè)計(jì)是其關(guān)鍵,也是影響卷積運(yùn)算效率和效果的主要因素。
2.2.2 池化層。池化層(Pooling)是在卷積運(yùn)算的基礎(chǔ)上,采取一定的池化策略,在保證圖像特征提取的同時(shí),降低處理內(nèi)容的維度。目前的池化策略主要有最大池化(Max Pooling)、均值池化(Mean Pooling)和隨機(jī)池化(Stochastic Pooling)。最大池化就是對(duì)鄰域內(nèi)特征點(diǎn)取最大值,最大池化有利于圖像紋理的提??;均值池化就是對(duì)鄰域內(nèi)的特征點(diǎn)求平均值,均值池化有利于圖像背景的保留;隨機(jī)池通過對(duì)鄰域內(nèi)的像素點(diǎn)按照數(shù)值大小進(jìn)行概率計(jì)算,然后按照概率進(jìn)行采樣取值。
池化層設(shè)計(jì)需要選擇池化濾波器和池化策略。設(shè)池化層的輸入為In(Inm,n)MⅹN,池化濾波器的F(fa,b)AⅹB,步長為D1,且1<=D1<=min(A,B),則經(jīng)過池化層后輸出圖像寬W1和高H1可分別用式(4)和式(5)表示。由于在池化層步長D1一般取大于1,因此池化層可實(shí)現(xiàn)降低圖像的維度。
2.2.3 激活函數(shù)層。激活函數(shù)層主要的功能就是增加非線性因素,彌補(bǔ)線性模型的不足;激活層最主要的因素就是激活函數(shù)的選擇,目前常用的激活函數(shù)有tanh函數(shù)、sigmoid函數(shù)和ReLU函數(shù)三種,其中tanh函數(shù)對(duì)于特征相差比較明顯的情況效果較好;sigmoid函數(shù)對(duì)特征相差不大需要進(jìn)行更細(xì)微的分類判斷的情況效果較好;ReLU函數(shù)是一種新的激活函數(shù),可以很好地解決梯度耗散的問題。在實(shí)際應(yīng)用中可根據(jù)具體情況選擇不同的激活函數(shù)。
全連接網(wǎng)絡(luò)是整個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)中分類器,就是將通過卷積層、池化層和激活函數(shù)層所得到分布式的特征映射到分類器的樣本標(biāo)記空間。在全連接網(wǎng)絡(luò)空間最為關(guān)鍵的是網(wǎng)絡(luò)輸入和網(wǎng)絡(luò)輸出,通過網(wǎng)絡(luò)的輸入和輸出來確定全連接網(wǎng)絡(luò)的結(jié)構(gòu),一般情況下全連接網(wǎng)絡(luò)的輸入就是對(duì)卷積神經(jīng)網(wǎng)絡(luò)輸出層進(jìn)行平坦化后的結(jié)構(gòu),也就是全連接網(wǎng)絡(luò)的輸入節(jié)點(diǎn)數(shù)與平坦化后數(shù)量一致,輸出節(jié)點(diǎn)即為分類類數(shù)。
在物流分揀過程中,物品檢測(cè)是影響分揀速度的一個(gè)關(guān)鍵因素,目前基于視頻的物品檢測(cè)大部分集中在應(yīng)用傳統(tǒng)的算法對(duì)視頻內(nèi)容進(jìn)行分析,識(shí)別出其中的物品;基于視頻分析的物品檢測(cè)的不足之處主要體現(xiàn)在以下兩點(diǎn):一是不能準(zhǔn)確識(shí)別定位同一幀圖像內(nèi)所有的物品;二是環(huán)境魯棒性較差,即在不同環(huán)境中其識(shí)別定位的效果相差較大。而深度學(xué)習(xí)是以生物神經(jīng)系統(tǒng)的視覺功能原理為基礎(chǔ),設(shè)計(jì)的一種仿生神經(jīng)系統(tǒng),已被證實(shí)在視覺識(shí)別定位等方面有著較為成功的應(yīng)用,同時(shí)有較好的環(huán)境適應(yīng)性。為此本文把深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于物流分揀過程中物品檢測(cè),即以分揀系統(tǒng)中監(jiān)控視頻為研究對(duì)象,應(yīng)用視覺注意機(jī)制選擇其中包含分揀傳輸帶內(nèi)容的圖像部分作為深度卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過深度卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)算,自動(dòng)檢測(cè)定位圖像中所有的物品。
參考許多成功的深度卷積神經(jīng)網(wǎng)絡(luò)在視頻圖像處理中應(yīng)用的情況,結(jié)合本文研究情況,設(shè)計(jì)如圖2所示的物品檢測(cè)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
圖2 物品檢測(cè)深度卷積神經(jīng)網(wǎng)絡(luò)
應(yīng)用生物注意力原理,分析物流分揀場(chǎng)景監(jiān)控視頻,抽取出包含分揀傳送部分的圖像內(nèi)容并對(duì)其進(jìn)行了歸一化處理,將其物理尺寸統(tǒng)一為96ⅹ96,然后做為神經(jīng)網(wǎng)絡(luò)的輸入;由于所截取的圖像為RGB圖像,故物品檢測(cè)深度卷積神經(jīng)網(wǎng)絡(luò)的輸入為96X96X3。具體神經(jīng)網(wǎng)絡(luò)各層的參數(shù)信息見表1。
通過從實(shí)際物流分揀傳輸系統(tǒng)采集和網(wǎng)絡(luò)搜索圖像,共采集了300幅圖像作為本文的研究樣本,并對(duì)所采集的圖像進(jìn)行歸一化處理,將圖像處理為96X96X3(部分圖例如圖3所示),并對(duì)圖像進(jìn)行標(biāo)注處理,標(biāo)注圖像中所包含的傳送物品數(shù)量隨機(jī)選擇其中180幅圖像和標(biāo)注結(jié)果作為訓(xùn)練樣本集,剩下的120幅圖像中隨機(jī)選擇60幅圖像作為訓(xùn)練過程中的驗(yàn)證樣本,剩下的60幅圖像作為網(wǎng)絡(luò)訓(xùn)練成熟后檢驗(yàn)網(wǎng)絡(luò)性能的測(cè)試樣本。
表1 物品檢測(cè)深度卷積神經(jīng)網(wǎng)絡(luò)參數(shù)
將圖像樣本的R、G、B通道的內(nèi)容分別作為深度卷積神經(jīng)網(wǎng)絡(luò)的輸入,采用帶動(dòng)量優(yōu)化器的隨機(jī)梯度下降和批量正則化的方式進(jìn)行網(wǎng)絡(luò)訓(xùn)練,初始學(xué)習(xí)率為0.01,最大訓(xùn)練迭代次數(shù)為4,驗(yàn)證頻率為20;通過應(yīng)用訓(xùn)練樣本和驗(yàn)證樣本對(duì)所設(shè)計(jì)的物品檢查深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在訓(xùn)練過程中跟蹤神經(jīng)網(wǎng)絡(luò)每一層的輸出情況,并將其可視化顯示如圖4所示,由圖可知所設(shè)計(jì)的物品檢測(cè)深度卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中可以很好地進(jìn)行圖像中物品特征的提取。
所設(shè)計(jì)的深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中訓(xùn)練精度、驗(yàn)證精度、訓(xùn)練損失和驗(yàn)證損失情況如圖5所示,由圖可知在訓(xùn)練過程所設(shè)計(jì)的深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練成熟時(shí)的驗(yàn)證精度可達(dá)100%,其損失函數(shù)值幾乎接近于零。同時(shí)采集訓(xùn)練過程中包括批量精度、批量損失、驗(yàn)證精度和驗(yàn)證損失的特征參數(shù)就數(shù)據(jù),可視化呈現(xiàn)如圖6所示。右圖可知在訓(xùn)練過程中批量精度和驗(yàn)證精度整體呈上升趨勢(shì),在網(wǎng)絡(luò)模型訓(xùn)練成熟時(shí)其精度分別到達(dá)100%,而批量損失和驗(yàn)證損失呈現(xiàn)下降趨勢(shì),在網(wǎng)絡(luò)模型訓(xùn)練成熟時(shí)幾乎為零??偵峡芍O(shè)計(jì)的物品檢測(cè)深度卷積神經(jīng)網(wǎng)絡(luò)具有較好的特性。
通過測(cè)試樣本對(duì)訓(xùn)練成熟的物品檢查深度神經(jīng)網(wǎng)絡(luò)進(jìn)行性能檢驗(yàn),發(fā)現(xiàn)60測(cè)試樣本僅有1個(gè)樣本的物品檢測(cè)結(jié)果有誤,精確度高達(dá)98.33%,證實(shí)所設(shè)計(jì)的深度卷積神經(jīng)網(wǎng)絡(luò)可以很好地實(shí)現(xiàn)物流分揀過程中物品檢測(cè)。
圖3 物品檢測(cè)案例圖
圖4 神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中各層輸出結(jié)果
本文以物流分揀生產(chǎn)過程中物品檢測(cè)為目標(biāo),基于深度學(xué)習(xí)研究了一種物品檢測(cè)深度卷積神經(jīng)網(wǎng)絡(luò)。首先研究了深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及及其在圖像處理中提取特征和降低維度的作用;接著以分揀傳輸過程中視頻監(jiān)控的圖像為研究對(duì)象,設(shè)計(jì)了物品檢測(cè)深度卷積神經(jīng)網(wǎng)絡(luò);從構(gòu)建的樣本庫中選擇60%的圖像和標(biāo)注結(jié)果作為訓(xùn)練樣本,20%的圖像和標(biāo)注結(jié)果作為驗(yàn)證樣本,剩下的20%的圖像和標(biāo)注結(jié)果作為測(cè)試樣本,進(jìn)行深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練、驗(yàn)證和測(cè)試。
通過采集和分析物品檢測(cè)深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程和驗(yàn)證過程的數(shù)據(jù),研究表明所設(shè)計(jì)的深度卷積神經(jīng)網(wǎng)絡(luò)具有很好的特性;通過測(cè)試樣本對(duì)訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行驗(yàn)證,表明物品檢測(cè)深度卷積神經(jīng)網(wǎng)絡(luò)可以很好實(shí)現(xiàn)物流分揀過程中物品檢測(cè)。
圖5 物品檢查深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與驗(yàn)證情況
圖6 訓(xùn)練過程特征參數(shù)曲線