汪振耀,張禮華,鄭儉
(江蘇科技大學(xué)長(zhǎng)山校區(qū) 機(jī)械工程學(xué)院,江蘇 鎮(zhèn)江 212100)
近年來(lái),我國(guó)人口老齡化問(wèn)題嚴(yán)重,越來(lái)越多的老人得不到充分的陪護(hù)和照顧,急需設(shè)計(jì)一款更加智能的陪護(hù)機(jī)器人,而陪護(hù)機(jī)器人的設(shè)計(jì)自然離不開(kāi)目標(biāo)檢測(cè)算法,可以有效識(shí)別復(fù)雜家庭環(huán)境下物體的目標(biāo)檢測(cè)算法便成為本文的研究對(duì)象。文獻(xiàn)[1]針對(duì)目標(biāo)檢測(cè)中小目標(biāo)誤檢、漏檢等問(wèn)題,提出一種基于改進(jìn)的YOLO-S 模型。文獻(xiàn)[2]研究了基于RGB 圖像的物體檢測(cè)算法,解決了未知場(chǎng)景中被部分遮擋或完全遮擋目標(biāo)物體的檢測(cè)問(wèn)題。文獻(xiàn)[3]提出一種改進(jìn)的YOLOv4網(wǎng)絡(luò),提升了對(duì)小目標(biāo)物體檢測(cè)的精度。
現(xiàn)有的研究大多是針對(duì)工業(yè)機(jī)器人領(lǐng)域的物體檢測(cè)及抓取,然而,工業(yè)領(lǐng)域基本是在簡(jiǎn)單、整齊的環(huán)境下進(jìn)行單一的檢測(cè)識(shí)別工作。針對(duì)家庭領(lǐng)域的研究較少,在復(fù)雜的生活環(huán)境下,物品的種類繁多,它們形狀各異,大小不一,容易被遮擋,檢測(cè)的難度較高;檢測(cè)過(guò)程中部分小目標(biāo)物體因在攝像頭中的尺寸過(guò)小,容易出現(xiàn)錯(cuò)檢、漏檢的情況。
基于以上背景,本文提出一種基于深度學(xué)習(xí)的陪護(hù)機(jī)器人目標(biāo)檢測(cè)方法,其主要內(nèi)容如下:
1)該方法將改進(jìn)的生成對(duì)抗網(wǎng)絡(luò)(WGAN)與改進(jìn)YOLOv5s 網(wǎng)絡(luò)結(jié)合,首先,對(duì)WGAN 網(wǎng)絡(luò)進(jìn)行改進(jìn),在原生成器模塊損失函數(shù)上增加衰減因子和校正模塊損失項(xiàng),平衡模型的復(fù)雜程度和泛化能力;將激活函數(shù)改為FReLU 激活函數(shù),減少了網(wǎng)絡(luò)的參數(shù)量,增強(qiáng)了WGAN 生成對(duì)抗網(wǎng)絡(luò)的生成能力,為后續(xù)YOLOv5s 網(wǎng)絡(luò)訓(xùn)練準(zhǔn)備了足夠的數(shù)據(jù)集,提升網(wǎng)絡(luò)的魯棒性。
2)對(duì)YOLOv5s 網(wǎng)絡(luò)進(jìn)行改進(jìn),其中輸入端采用Gridmask 數(shù)據(jù)增強(qiáng)方式;Backbone 部分將C3 模塊改為C2f模塊,并在C2f模塊中加入SE 注意力機(jī)制模塊,減少了網(wǎng)絡(luò)參數(shù)量的同時(shí)增加了網(wǎng)絡(luò)的特征提取能力;特征提取部分融合長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM),可以獲得更多的上下文信息,提高網(wǎng)絡(luò)的檢測(cè)精度;最后對(duì)損失函數(shù)進(jìn)行優(yōu)化,加快模型的收斂速度,使得網(wǎng)絡(luò)訓(xùn)練更快地得到最優(yōu)的預(yù)測(cè)參數(shù)模型。
1.1.1 GAN網(wǎng)絡(luò)以及WGAN 網(wǎng)絡(luò)
生成對(duì)抗網(wǎng)絡(luò)(GAN)[4]是一種半監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),由生成器模塊和判別器模塊組成,網(wǎng)絡(luò)模型如圖1 所示。具體地,輸入噪聲向量z,經(jīng)過(guò)生成器模塊(G),通過(guò)生成網(wǎng)絡(luò)的卷積網(wǎng)絡(luò)提取噪聲向量的特征,再由反卷積網(wǎng)絡(luò)生成一批假數(shù)據(jù)G(z),與從數(shù)據(jù)集中提取的真實(shí)圖(X)一起進(jìn)入判別器網(wǎng)(D),判別器會(huì)將真實(shí)數(shù)據(jù)和假數(shù)據(jù)區(qū)分開(kāi)來(lái),只要判別結(jié)果是數(shù)據(jù)不全為真,便會(huì)給生成器模塊(G)一個(gè)懲罰,使得生成器模塊向著生成真數(shù)據(jù)的方向發(fā)展,直到能夠騙過(guò)判別器網(wǎng)絡(luò)。
圖1 GAN 網(wǎng)絡(luò)結(jié)構(gòu)圖
GAN 網(wǎng)絡(luò)在訓(xùn)練過(guò)程中容易出現(xiàn)梯度爆炸,網(wǎng)絡(luò)崩潰的情況,WGAN 網(wǎng)絡(luò)在原始GAN 網(wǎng)絡(luò)的基礎(chǔ)上做了一些改進(jìn),使用推土距離Wasserstein distance 代替了JS 散度,解決了當(dāng)兩個(gè)數(shù)據(jù)不重合時(shí),JS 散度不變的問(wèn)題,使得生成器(G)向著生成真實(shí)圖像的方向發(fā)展,生成更加逼真的圖像,其中生成器的優(yōu)化函數(shù)和判別器的優(yōu)化函數(shù)分別為式(1)和式(2):
1.1.2 FReLU 激活函數(shù)
如圖2 所示,可以看出FReLU(Funnel ReLU,漏斗式ReLU)與ReLU 的區(qū)別,F(xiàn)ReLU 將ReLU 擴(kuò)展成2D 激活函數(shù),F(xiàn)ReLU 通過(guò)在激活函數(shù)中使用2D 漏斗式條件可以將ReLU 擴(kuò)展到具有像素級(jí)建模能力的可視參數(shù)激活函數(shù),F(xiàn)ReLU 有兩個(gè)核心組件:漏斗式條件+像素級(jí)別建模能力,F(xiàn)ReLU 也是采樣相同的max()作為簡(jiǎn)單的非線性函數(shù)[5]。對(duì)于條件部分,如式(3)、式(4)所示:
圖2 FReLU 與ReLU 對(duì)比圖
式中:T(xc,i,j)就是定義的漏斗條件;表示在第c個(gè)通道上,以2D 位置(i,j)為中心的窗口,也就是圖2b)的灰色框口表示此窗口在同一通道中共享的參數(shù)[5]。
YOLOv5s 網(wǎng)絡(luò)主要包括輸入端、主干、頸部、輸出端四部分[6]。
數(shù)據(jù)集通過(guò)輸入端進(jìn)入網(wǎng)絡(luò),并通過(guò)將數(shù)據(jù)集中的每4 張圖片隨機(jī)裁剪、縮放拼接在一起形成一張新的圖片,豐富數(shù)據(jù)集的種類、數(shù)量;Anchor 方面,YOLOv5s 使用自適應(yīng)瞄框,在處理數(shù)據(jù)集的過(guò)程中,根據(jù)不同的數(shù)據(jù)集的特征可以計(jì)算出與之對(duì)應(yīng)的瞄框;主干網(wǎng)絡(luò)使用Focus 模塊實(shí)現(xiàn)快速下采樣,還使用了C3 模塊,增強(qiáng)算法的學(xué)習(xí)能力;Neck 部分使用FPN 和PAN 結(jié)合的結(jié)構(gòu),從不同的主干層對(duì)不同的檢測(cè)層進(jìn)行參數(shù)聚合,大大加強(qiáng)了網(wǎng)絡(luò)的特征融合能力;輸出端使用CIOU_Loss 作為損失函數(shù),其考慮到檢測(cè)過(guò)程中被遮擋的物體,在很大程度上提升了檢測(cè)的速度和精度;檢測(cè)層使用Sigmoid激活函數(shù),增強(qiáng)網(wǎng)絡(luò)的非線性建模能力,使網(wǎng)絡(luò)更加穩(wěn)定。
1.2.1 SE 注意力機(jī)制模塊
SE 壓縮激勵(lì)模塊可以提升網(wǎng)絡(luò)的特征提取能力,第一步進(jìn)行的是壓縮操作,如圖3 所示。將輸入的寬為W、高為H、通道數(shù)為C的特征圖進(jìn)行全局平均池化操作,然后輸入一個(gè)寬、高都為1,通道數(shù)為C的向量;接下來(lái)經(jīng)過(guò)激勵(lì)操作,輸入上一步壓縮操作的結(jié)果,經(jīng)過(guò)第一個(gè)全連接層,降低網(wǎng)絡(luò)的參數(shù)量,接著通過(guò)激活函數(shù)層,再次經(jīng)過(guò)一個(gè)全連接層和一個(gè)激活函數(shù)層,輸出一 個(gè)1 × 1 ×C的向量;最后 是scale 操作,在得到1 ×1 ×C向量之后,可以得到每個(gè)通道的值以及它們的權(quán)重,再將它們相乘,就是通道權(quán)重相乘,計(jì)算公式如下:
圖3 SE 注意力機(jī)制模塊
1.2.2 C3 模塊和C2f模塊
C3[7]是YOLOv5s 網(wǎng)絡(luò)的重要組成部分,主要由Conv層、Bottleneck 層和Concat 層組成,采用了ResNet 的基本思想,對(duì)輸入的特征圖進(jìn)行卷積操作,使用add 進(jìn)行特征融合,通過(guò)增加步長(zhǎng)來(lái)增強(qiáng)網(wǎng)絡(luò)的感受野,增加網(wǎng)絡(luò)對(duì)特征的敏感度。而C2f模塊在C3模塊的基礎(chǔ)上減少了一個(gè)Conv層,增加了1 個(gè)Split 層和n-1 個(gè)Bottleneck層,減少了網(wǎng)絡(luò)的參數(shù)量,同時(shí)增加了網(wǎng)絡(luò)的特征提取能力。
本研究在C2f 模塊之后加入了SE 注意力機(jī)制模塊。稱為C2fSE 模塊。
1.2.3 骰子系數(shù)
骰子系數(shù)(Dice Coefficient,DC)是一種常用與度量?jī)蓚€(gè)集合相似程度的指標(biāo),骰子系數(shù)定義為它們的交集的大小與它們的并集的大小之比。數(shù)學(xué)表達(dá)式如下:
當(dāng)骰子系數(shù)越接近1時(shí),損失函數(shù)值趨于0,此時(shí)模型的檢測(cè)性能好,骰子系數(shù)損失公式如下:
式中:|A|表示集合A的元素個(gè)數(shù);|B|表示集合B的元素個(gè)數(shù);|A∩B|表示集合A和集合B交集的元素個(gè)數(shù)。
循環(huán)神經(jīng)網(wǎng)絡(luò)[8](Recurrent Neural Network,RNN)是一種用來(lái)處理序列數(shù)據(jù)的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在網(wǎng)絡(luò)訓(xùn)練的過(guò)程中容易產(chǎn)生梯度衰減和梯度爆炸的問(wèn)題。為了克服這些問(wèn)題,這里引入RNN 的一種變體長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM)。
LSTM 通過(guò)引入特殊的“門”結(jié)構(gòu)來(lái)控制信息的流動(dòng)和保持長(zhǎng)期記憶,門單元控制著數(shù)據(jù)的輸入或輸出,決定著信息的更新迭代。如圖4 所示,一個(gè)LSTM 網(wǎng)絡(luò)包含輸入門、遺忘門、輸出門以及候選記憶單元。這樣的網(wǎng)絡(luò)十分適合序列數(shù)據(jù)處理問(wèn)題。
圖4 LSTM 網(wǎng)絡(luò)結(jié)構(gòu)圖
陪護(hù)機(jī)器人在復(fù)雜的生活環(huán)境中工作,常常因?yàn)槟繕?biāo)物體的尺寸過(guò)小導(dǎo)致錯(cuò)檢或漏檢的情況,造成檢測(cè)精度過(guò)低的問(wèn)題,對(duì)此本文提出一種基于深度學(xué)習(xí)的陪護(hù)機(jī)器人目標(biāo)檢測(cè)方法,利用改進(jìn)的WGAN 生成對(duì)抗網(wǎng)絡(luò)生成圖像擴(kuò)展數(shù)據(jù)集,為后續(xù)的YOLOv5s 訓(xùn)練奠定基礎(chǔ),提升了網(wǎng)絡(luò)的泛化性。改進(jìn)YOLOv5s 網(wǎng)絡(luò)的結(jié)構(gòu)并與LSTM 網(wǎng)絡(luò)相融合,提升網(wǎng)絡(luò)的特征提取能力,以完成高精度的檢測(cè)任務(wù)。
借鑒WGAN 損失函數(shù),在原生成器模塊損失函數(shù)上增加衰減因子和校正模塊損失項(xiàng),平衡模型的復(fù)雜程度和泛化能力,函數(shù)表達(dá)式如公式(8)所示:
式中:Ex表示數(shù)學(xué)期望;PC和Pr分別表示取生成樣本和真實(shí)樣本;λ和μ分別表示損失項(xiàng)系數(shù)和校正模塊損失項(xiàng)系數(shù)。
校正模塊損失函數(shù)如式(9)所示:
針對(duì)原始WGAN 網(wǎng)絡(luò)容易產(chǎn)生梯度消失的問(wèn)題,提出了用FReLU 替代網(wǎng)絡(luò)中的ReLU、Leaky ReLU、Tanh 等激活函數(shù),解決了原始WGAN 網(wǎng)絡(luò)中激活函數(shù)在空間上敏感度低的問(wèn)題,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。
圖5 改進(jìn)的WGAN 網(wǎng)絡(luò)結(jié)構(gòu)圖
YOLOv5s 網(wǎng)絡(luò)輸入端采用Gridmask 數(shù)據(jù)增強(qiáng)技術(shù),通過(guò)對(duì)圖像的部分區(qū)域進(jìn)行規(guī)則化的遮擋處理,增加網(wǎng)絡(luò)對(duì)遮擋、變形、背景干擾的魯棒性,提升檢測(cè)模型對(duì)于復(fù)雜場(chǎng)景和遮擋情況下的識(shí)別能力。
Backbone 部分采用C2f 模塊替代C3 模塊,并在C2f模塊中加入SE 注意力機(jī)制模塊,減少網(wǎng)絡(luò)參數(shù)量的同時(shí),提升網(wǎng)絡(luò)的特征提取能力;將LSTM 網(wǎng)絡(luò)與YOLOv5s 網(wǎng)絡(luò)相結(jié)合,YOLOv5s 網(wǎng)絡(luò)經(jīng)過(guò)特征提取層提取特征后,將提取到的特征圖作為L(zhǎng)STM 網(wǎng)絡(luò)的輸入,這樣,LSTM 可以在每個(gè)時(shí)間步驟上接收到特征圖,并根據(jù)之前的特征和當(dāng)前時(shí)間步驟的特征來(lái)學(xué)習(xí)特征之間的時(shí)序關(guān)系;通過(guò)在LSTM 中引入歷史序列數(shù)據(jù),例如前幾幀的特征圖,可以提供更多的上下文信息,從而提高目標(biāo)檢測(cè)的準(zhǔn)確性。改進(jìn)以后的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 本文模型網(wǎng)絡(luò)結(jié)構(gòu)圖
YOLOv5s 網(wǎng)絡(luò)損失函數(shù)采用位置損失、置信度損失以及類別損失的加權(quán)和作為總的損失函數(shù),這里本文將骰子系數(shù)損失加入總的損失函數(shù),此時(shí)總的損失函數(shù)公式如下:
式中:Lossbox為邊界框損失函數(shù);Losscls為類別損失函數(shù);Lossobj為置信度損失;LossDC為骰子系數(shù)損失;hgt、wgt分別表示真值框高寬;h、w分別表示預(yù)測(cè)框高寬;平衡比例的參數(shù)計(jì)算公式記為α;描述預(yù)測(cè)框和真值框長(zhǎng)寬比一致性的參數(shù)記為v;a、b、c、d分別為它們的權(quán)重系數(shù)。
3.1.1 實(shí)驗(yàn)數(shù)據(jù)
目前,在家庭陪護(hù)方面還沒(méi)有合適的公共數(shù)據(jù)集,因此將構(gòu)建自己的公共生活目標(biāo)數(shù)據(jù)集。首先采集陪護(hù)機(jī)器人需要識(shí)別一些物體的圖像,分別采集了生活中常見(jiàn)的8 種對(duì)象來(lái)構(gòu)建數(shù)據(jù)集,8 類物品的英文標(biāo)簽分別為cup(水杯)、orange(橙子)、box(藥盒)、bowl(碗)、medicine bottle(藥瓶)、banana(香蕉)、towel(毛巾)、apple(蘋(píng)果),滿足日常的陪護(hù)需要。
3.1.2 參數(shù)設(shè)置
本實(shí)驗(yàn)主要為了驗(yàn)證WGAN 網(wǎng)絡(luò)的圖像生成效果,實(shí)驗(yàn)在GPU 環(huán)境下運(yùn)行,并在Pycharm 中搭建pytorch 環(huán)境。參數(shù)設(shè)置如表1 所示。
表1 參數(shù)配置
3.1.3 實(shí)驗(yàn)結(jié)果
本文需要的數(shù)據(jù)集種類不單一,本實(shí)驗(yàn)選用其中的香蕉(banana)數(shù)據(jù)集,運(yùn)用改進(jìn)后的WGAN 網(wǎng)絡(luò)進(jìn)行訓(xùn)練,生成香蕉圖像。從圖7 可以看出,隨著迭代次數(shù)的增加,從一開(kāi)始的噪聲向量逐漸訓(xùn)練,最終形成了清晰的香蕉圖像,實(shí)驗(yàn)表明,改進(jìn)后的WGAN 網(wǎng)絡(luò)可以起到擴(kuò)充數(shù)據(jù)集,提高數(shù)據(jù)集豐富性、泛化性的作用。
圖7 WGAN 生成圖
除了訓(xùn)練生成的圖像以外,還可以通過(guò)觀察訓(xùn)練過(guò)程中的損失函數(shù)曲線去監(jiān)控網(wǎng)絡(luò)的訓(xùn)練過(guò)程。如圖8所示,可以看出當(dāng)?shù)螖?shù)到達(dá)300 左右,損失幅度逐漸變小,生成器的損失函數(shù)在-0.5~-0.2 之間徘徊,鑒別器損失函數(shù)在-0.7~-0.3 之間上下浮動(dòng),生成的圖像質(zhì)量也在逐步提高,隨著訓(xùn)練的進(jìn)行,損失函數(shù)曲線逐漸趨于穩(wěn)定,鑒別器已經(jīng)分辯不出圖像的真假,模型逐漸收斂。
圖8 WGAN 網(wǎng)絡(luò)損失函數(shù)圖
通過(guò)改進(jìn)WGAN 網(wǎng)絡(luò)生成圖像,對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,豐富訓(xùn)練數(shù)據(jù)集的多樣性,為后續(xù)的YOLOv5s 網(wǎng)絡(luò)訓(xùn)練奠定了基礎(chǔ)。
3.2.1 數(shù)據(jù)集的構(gòu)建
將收集的物體圖像以及WGAN 生成對(duì)抗網(wǎng)絡(luò)生成的圖像,運(yùn)用軟件labelimg 對(duì)圖片進(jìn)行依次打標(biāo)簽,如圖9 所示,然后將標(biāo)記過(guò)的圖片保存在同一個(gè)文件夾,每一張圖片對(duì)應(yīng)一個(gè)與它同名的xml文獻(xiàn)件,需要將生成好的xml文獻(xiàn)件轉(zhuǎn)化為與之相對(duì)應(yīng)的txt文獻(xiàn)件,標(biāo)注完成后,每一張圖片都對(duì)應(yīng)著一個(gè)與該圖片名稱相同的txt文件,最后進(jìn)行圖片和標(biāo)簽的整理工作,成功創(chuàng)建本文生活物品的數(shù)據(jù)集。
圖9 Labelimg 標(biāo)注
3.2.2 實(shí)驗(yàn)配置及評(píng)估指標(biāo)
本實(shí)驗(yàn)主要是為了驗(yàn)證改進(jìn)后的YOLOv5s 網(wǎng)絡(luò)對(duì)目標(biāo)檢測(cè)的效果,實(shí)驗(yàn)環(huán)境見(jiàn)表2。
表2 環(huán)境配置
本文采用精度(P)、召回率(R)、多個(gè)類別平均精度的平均值(mAP)幾項(xiàng)性能指標(biāo)評(píng)判算法的性能[9],如公式(11)所示:
式中:TP 表示被正確檢測(cè)出的目標(biāo)數(shù);FP 表示檢測(cè)錯(cuò)誤的目標(biāo)數(shù);FN 表示未被檢測(cè)出來(lái)的目標(biāo)數(shù);n表示共需要分類的類別數(shù);AP 表示某個(gè)目標(biāo)類的平均精度。一般情況下,P-R曲線與x、y軸所包圍的面積即為AP值,所有類別AP 值的平均值即為mAP值,mAP 值越大,表示算法的檢測(cè)效果越好,檢測(cè)的準(zhǔn)確率更高。
設(shè)置訓(xùn)練次數(shù)為400,訓(xùn)練的Loss曲線如圖10所示,當(dāng)?shù)螖?shù)達(dá)到320時(shí),YOLOv5s 模型與本文模型開(kāi)始收斂。
圖10 Loss 曲線圖
3.2.3 數(shù)據(jù)增強(qiáng)對(duì)比實(shí)驗(yàn)
為了驗(yàn)證改進(jìn)WGAN 網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)在YOLOv5s 網(wǎng)絡(luò)上的效果,進(jìn)行了數(shù)據(jù)增強(qiáng)對(duì)比實(shí)驗(yàn)。圖11 顯示了數(shù)據(jù)增強(qiáng)前后YOLOv5s 網(wǎng)絡(luò)的檢測(cè)精度,可以看出,使用改進(jìn)WGAN 網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)后,mAP 提高了14%,證明了使用WGAN 網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)可以提高YOLOv5s 網(wǎng)絡(luò)的檢測(cè)效果。
圖11 P-R 曲線對(duì)比圖
3.2.4 消融實(shí)驗(yàn)
為了驗(yàn)證本文所提出的改進(jìn)算法對(duì)生活物品的檢測(cè)性能是否有效,設(shè)計(jì)了一組消融實(shí)驗(yàn),通過(guò)組合上述所提及改換Gridmask、修改C2fSE 模塊、融合LSTM 網(wǎng)絡(luò)、優(yōu)化損失函數(shù)來(lái)驗(yàn)證不同模型的性能好壞。具體實(shí)驗(yàn)性能見(jiàn)表3。
表3 消融實(shí)驗(yàn)數(shù)據(jù)
從表3 中可以看出,僅改變數(shù)據(jù)增強(qiáng)方式時(shí),檢測(cè)的精度和召回率有所下降,mAP 有所提升;僅修改C2f模塊并加入SE 注意力機(jī)制模塊時(shí),檢測(cè)精度和召回率有所下降,mAP 有所提升;僅加入LSTM 長(zhǎng)短時(shí)記憶模塊時(shí),檢測(cè)精度以及mAP 有所提升,召回率有所下降;僅優(yōu)化損失函數(shù)時(shí),檢測(cè)精度以及mAP 有所提升,召回率有所下降;當(dāng)所有的模塊一起整合后,與YOLOv5s 原始模型相比,檢測(cè)精度、召回率、mAP 分別提高了6.8%、4.6%、8.3%,提升效果比較明顯。綜上所述,本文所提改進(jìn)算法對(duì)于網(wǎng)絡(luò)檢測(cè)效果有明顯的提升,能夠適用于陪護(hù)機(jī)器人日常的檢測(cè)抓取工作。
3.2.5 檢測(cè)效果對(duì)比
為了更直觀地體現(xiàn)本文算法的優(yōu)越性,從驗(yàn)證集中隨機(jī)選擇兩張圖片分別用原始YOLOv5s 模型和本文算法進(jìn)行檢測(cè),結(jié)果如圖12 所示,可以看出對(duì)于無(wú)遮擋的大目標(biāo)物體,原始YOLOv5s 和本文算法均可以檢測(cè)出,但本文算法的置信度更高一點(diǎn);對(duì)于有遮擋的小目標(biāo),原YOLOv5s 模型的漏檢率較高,并且置信度較低,而本文算法無(wú)漏檢、錯(cuò)檢,且置信度都在0.95 以上。綜上所述,本文改進(jìn)模型對(duì)于陪護(hù)機(jī)器人的小目標(biāo)檢測(cè),以及有遮擋的目標(biāo)檢測(cè)都有較好的檢測(cè)效果。
圖12 測(cè)試結(jié)果對(duì)比
3.2.6 目標(biāo)檢測(cè)算法對(duì)比
為進(jìn)一步驗(yàn)證本文算法的有效性,將本文算法與現(xiàn)階段主流算法在同一驗(yàn)證集上進(jìn)行實(shí)驗(yàn),結(jié)果如表4所示。
表4 不同檢測(cè)算法結(jié)果對(duì)比 %
從表4 中數(shù)據(jù)可以看出,本文改進(jìn)后的算法在P、R和mAP 上都高于其他檢測(cè)算法,表明本文構(gòu)建的改進(jìn)后的算法要優(yōu)于其他算法,驗(yàn)證了本文算法的有效性。
本文從陪護(hù)機(jī)器人目標(biāo)檢測(cè)問(wèn)題出發(fā),提出了一種基于深度學(xué)習(xí)的陪護(hù)機(jī)器人目標(biāo)檢測(cè)方法,成功解決了陪護(hù)機(jī)器人檢測(cè)過(guò)程中的錯(cuò)檢、漏檢、檢測(cè)精度低的問(wèn)題。首先,構(gòu)建了生活物品數(shù)據(jù)集,滿足了日常的陪護(hù)需求;其次,利用改進(jìn)WGAN 網(wǎng)絡(luò)生成高質(zhì)量的圖片,豐富數(shù)據(jù)集多樣性,提升網(wǎng)絡(luò)的泛化性,為后續(xù)YOLOv5s 訓(xùn)練奠定基礎(chǔ);然后,對(duì)原YOLOv5s 的網(wǎng)絡(luò)架構(gòu)進(jìn)行改進(jìn)以及損失函數(shù)進(jìn)行優(yōu)化,提升網(wǎng)絡(luò)的特征提取能力,并將LSTM 融入到Y(jié)OLOv5s 模型中,可以獲得更多的上下文信息,從而提高目標(biāo)檢測(cè)的準(zhǔn)確性;最后,將骰子系數(shù)加入總的損失函數(shù),以加快模型的收斂。
實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法在自制驗(yàn)證集上的檢測(cè)精度、召回率、mAP 分別提高了6.8%、4.6%、8.3%,在家庭常見(jiàn)小目標(biāo)物體和部分遮擋物體檢測(cè)精度、漏檢等方面都有所提升,適用于家用陪護(hù)機(jī)器人的目標(biāo)檢測(cè)工作。
注:本文通訊作者為張禮華。