亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向未知環(huán)境的理鞋機(jī)器人系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2022-07-16 06:11:40唐曉龍黃惠

深圳大學(xué)學(xué)報(bào)(理工版) 2022年4期

唐曉龍，黃惠

深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院，廣東深圳 518060

隨著生活水平的提升，人類對(duì)家居環(huán)境的品質(zhì)要求越來(lái)越高.家居環(huán)境給人們帶來(lái)的便捷與舒適成為生活中必不可少的要素，但仍有些問(wèn)題未得到解決，其中之一就是鞋子擺放雜亂.近年來(lái)人們不斷嘗試通過(guò)部署機(jī)器人來(lái)解決日常生活中遇到的問(wèn)題，服務(wù)型機(jī)器人逐漸進(jìn)入大眾視野.然而時(shí)至今日，關(guān)于機(jī)器人自主整理鞋子的研究仍不多.為完成自主整理任務(wù)，首先需要機(jī)器人具有感知能力，這也是計(jì)算機(jī)視覺(jué)和機(jī)器人學(xué)科的長(zhǎng)期目標(biāo).隨著傳感器設(shè)備的發(fā)展，機(jī)器人通過(guò)裝備的RGB 相機(jī)和深度相機(jī)來(lái)捕捉豐富的環(huán)境信息，并從這些原始圖像中提取高級(jí)語(yǔ)義信息實(shí)現(xiàn)基于視覺(jué)的感知，被抓取的信息通常包括目標(biāo)對(duì)象的位置和方向.機(jī)器人整理鞋子的任務(wù)是讓機(jī)器人識(shí)別定位鞋子及鞋子朝向，然后找到一個(gè)合適的抓取位姿，再執(zhí)行路徑規(guī)劃，完成相應(yīng)的物理抓取.本研究基于深度學(xué)習(xí)方法，利用實(shí)例分割網(wǎng)絡(luò)訓(xùn)練鞋子檢測(cè)模型得到圖片中鞋子的掩碼信息.根據(jù)設(shè)計(jì)的鞋子朝向識(shí)別算法和深度相機(jī)中的點(diǎn)云信息估計(jì)機(jī)器人的抓取位姿，鞋子的朝向識(shí)別保證了鞋子能正向擺放.通過(guò)預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural net?work，CNN）提取鞋子特征，建立鞋子的特征數(shù)據(jù)庫(kù)，并利用余弦相似度設(shè)計(jì)鞋子的匹配算法完成同一雙鞋子的匹配.最后將其部署到真實(shí)的機(jī)器人上，完成真機(jī)的鞋子整理任務(wù).

1 目標(biāo)檢測(cè)和位姿估計(jì)相關(guān)工作

1.1 目標(biāo)檢測(cè)

傳統(tǒng)的目標(biāo)檢測(cè)算法一般分為3部分：①采用滑動(dòng)窗口方法或圖像分割技術(shù)生成大量的候選區(qū)域；②對(duì)候選區(qū)域進(jìn)行圖像特征提?。ㄈ鏗OG［1］，SIFT［2］和HAAR［3］等），提取結(jié)果輸入到分類器（如ADABOOST［4］和RANDOM FOREST［5］等）中，輸出候選區(qū)域的類別；③合并候選區(qū)域，實(shí)現(xiàn)物體的檢測(cè).傳統(tǒng)的目標(biāo)檢測(cè)算法主要依賴于模板匹配，利用人工設(shè)計(jì)的描述符［2，6-7］解決單一目標(biāo)檢測(cè)問(wèn)題.但此類算法存在兩個(gè)缺陷：一是基于滑動(dòng)窗口的區(qū)域選擇策略針對(duì)性不強(qiáng)，復(fù)雜度和冗余都比較高；另一個(gè)是手工設(shè)計(jì)的特征有局限性，不能用于多目標(biāo)檢測(cè)，令檢測(cè)結(jié)果與實(shí)際需求相差較大.

隨著深度學(xué)習(xí)的不斷進(jìn)步，深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域的使用越來(lái)越廣泛，也為目標(biāo)檢測(cè)提供了新的研究方向.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法可分為基于回歸的目標(biāo)檢測(cè)算法（即單階段目標(biāo)檢測(cè)算法）和基于區(qū)域建議的目標(biāo)檢測(cè)算法（即兩階段目標(biāo)檢測(cè)算法）.單階段目標(biāo)檢測(cè)算法不需要區(qū)域建議階段，而是直接提取特征，只通過(guò)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)得到物體的類別概率和位置坐標(biāo)值，將檢測(cè)簡(jiǎn)化成回歸問(wèn)題.基于回歸的目標(biāo)檢測(cè)算法摒棄了候選區(qū)域的思想，不使用區(qū)域候選網(wǎng)絡(luò)（region proposal network，RPN），直接在一個(gè)網(wǎng)絡(luò)中進(jìn)行回歸和分類，如YOLO［9］和SSD［10］.此類算法因網(wǎng)絡(luò)的減少避免了一些重復(fù)計(jì)算，速度得到了提升.

基于區(qū)域建議的目標(biāo)檢測(cè)算法實(shí)現(xiàn)分為兩個(gè)階段：①輸入圖像做處理生成候選區(qū)域；②對(duì)候選區(qū)域進(jìn)行分類和位置回歸并最終完成檢測(cè).GIRSHICK 等提出區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（region CNN，R-CNN）［11］和fast R-CNN［12］目標(biāo) 檢測(cè) 網(wǎng) 絡(luò) 模型.REN 等［13］提出的faster R-CNN 網(wǎng)絡(luò)模型，將特征提取、預(yù)測(cè)、包圍盒回歸和分類整合在一個(gè)網(wǎng)絡(luò)中，極大提升了檢測(cè)速度.HE等［14］提出的mask R-CNN網(wǎng)絡(luò)模型，則是在特征提取方面采用faster R-CNN網(wǎng)絡(luò)模型的架構(gòu)，再額外添加掩碼預(yù)測(cè)分支，使實(shí)例分割在準(zhǔn)確率及靈活性上都取得很大進(jìn)步.

1.2 位姿估計(jì)

隨著機(jī)器人自主能力的發(fā)展，智能機(jī)器人的應(yīng)用越來(lái)越多樣化［15］.抓取是機(jī)器人的基礎(chǔ)操作任務(wù)之一，抓取位姿檢測(cè)是指識(shí)別給定圖像中物體的抓握點(diǎn)或抓握姿態(tài)［16］，抓取所需基本信息則是抓取器在相機(jī)坐標(biāo)系中的6維（抓取器的3維空間位置和3維旋轉(zhuǎn)角度）抓取位姿.在基于視覺(jué)的機(jī)器人抓取中，根據(jù)抓取方式的不同將抓取位姿分為2維平面抓取和3維空間抓取.

針對(duì)抓取問(wèn)題，SAXENA等［16］提出不需要構(gòu)建物體三維模型，直接根據(jù)圖像預(yù)測(cè)抓取點(diǎn)的三維位置的算法，但算法定義的抓取點(diǎn)只含抓取的位置信息，無(wú)角度信息.JIANG等［17］利用圖像中的定向矩形表示抓取位置和角度，但算法耗時(shí)較長(zhǎng).LENZ等［18］提出具有兩個(gè)深度網(wǎng)絡(luò)的兩步級(jí)聯(lián)系統(tǒng)，可實(shí)現(xiàn)對(duì)大量候選抓取位姿快速且可靠的評(píng)估，有效減少了不太可能的抓取位姿.REDMON 等［19］提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確、實(shí)時(shí)的機(jī)器人抓取檢測(cè)方法，通過(guò)對(duì)可抓取的邊界框執(zhí)行單階段回歸，實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象的抓取檢測(cè).本研究通過(guò)結(jié)合鞋子方向和鞋口檢測(cè)，實(shí)現(xiàn)快速且高效地檢測(cè)抓取位姿.

2 鞋類檢測(cè)和方向識(shí)別

2.1 訓(xùn)練數(shù)據(jù)采集

本研究使用的鞋類圖像數(shù)據(jù)源自兩部分：①網(wǎng)絡(luò)爬取和從鞋類數(shù)據(jù)集中抽取；②采用Kinect2深度相機(jī)采集的真實(shí)環(huán)境下的鞋和鞋架圖像包括原始圖像數(shù)據(jù)200張，以及通過(guò)數(shù)據(jù)增強(qiáng)制作包含原始圖像的1 000 張鞋類圖像，這1 000 張圖像中900張為訓(xùn)練集（400 張?jiān)醋跃W(wǎng)絡(luò)，500 張?jiān)醋哉鎸?shí)環(huán)境），100張為測(cè)試集（網(wǎng)絡(luò)圖像和真實(shí)環(huán)境的圖像各50張）.

采用Labelme 軟件對(duì)圖像進(jìn)行標(biāo)注，使用不規(guī)則多邊形標(biāo)記鞋、鞋口和鞋架的基本輪廓，結(jié)果如圖1.

圖1 采用Labelme軟件對(duì)鞋和鞋架圖像進(jìn)行數(shù)據(jù)標(biāo)注（a）原圖；（b）標(biāo)注結(jié)果Fig.1 Use Labelme to annotate shoes and shoes rack images.(a)Original images,(b)annotate images.

為提高模型泛化能力，對(duì)原始圖像分別采用隨機(jī)旋轉(zhuǎn)一定角度、水平翻轉(zhuǎn)、添加高斯噪聲和顏色抖動(dòng)的方式進(jìn)行數(shù)據(jù)增強(qiáng)，如圖2.

圖2 數(shù)據(jù)增強(qiáng) （a）原圖；（b）旋轉(zhuǎn)；（c）翻轉(zhuǎn)；（d）顏色抖動(dòng)；（e）噪聲Fig.2 Data augmentation.(a)Original image,(b)rotating,(c)flip,(d)color dithering,(e)noise.

2.2 鞋子和鞋架檢測(cè)

圖像分割目的是將物體識(shí)別問(wèn)題轉(zhuǎn)化為圖像分類問(wèn)題.現(xiàn)階段的圖像分割方法思路有兩種：一種是使用不同尺寸的滑動(dòng)窗口遍歷整張圖像，全面分析圖像內(nèi)容，缺點(diǎn)是冗余度高且速度慢；另一種是先將原始圖像分割成不重合的小塊，再通過(guò)CNN獲得特征圖，特征圖的每個(gè)元素對(duì)應(yīng)原始圖像的一個(gè)小塊，最后利用該元素預(yù)測(cè)那些中心點(diǎn)在小塊內(nèi)的目標(biāo)，該方法運(yùn)算量少但準(zhǔn)確率會(huì)下降.實(shí)例分割網(wǎng)絡(luò)mask R-CNN［15］是當(dāng)前工程界首選的檢測(cè)算法之一，它借鑒特征金字塔網(wǎng)絡(luò)（feature pyramid networks，F(xiàn)PN）［20］的思想，輸出3個(gè)不同尺度的特征圖，實(shí)現(xiàn)了多尺度的目標(biāo)檢測(cè)，具有結(jié)構(gòu)清晰、實(shí)時(shí)性好和準(zhǔn)確率高的特點(diǎn).

本研究將機(jī)器人相機(jī)視角下在同一張圖片中捕捉到的鞋和鞋架信息存儲(chǔ)為RGB 圖像，再采用mask R-CNN 網(wǎng)絡(luò)模型檢測(cè)圖像中需整理的鞋子和擬放置的鞋架.

檢測(cè)模塊包含鞋子檢測(cè)和鞋架檢測(cè)兩部分.先利用mask R-CNN 網(wǎng)絡(luò)模型在數(shù)據(jù)增強(qiáng)后的鞋子和鞋架數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò)識(shí)別模型，再將場(chǎng)景圖片輸入到訓(xùn)練好的實(shí)例分割網(wǎng)絡(luò)模型中進(jìn)行物體檢測(cè)，如圖3.Mask R-CNN網(wǎng)絡(luò)模型不但能準(zhǔn)確識(shí)別出圖像中被檢測(cè)物體的類別，還可用不同顏色的掩碼和矩形框標(biāo)記出被檢測(cè)物體的區(qū)域、輪廓和位置.

圖3 Mask R-CNN檢測(cè)過(guò)程Fig.3 Mask R-CNN detection process.

2.3 鞋子方向識(shí)別

考慮到鞋是長(zhǎng)條形的，本研究采用最小外接矩形（minimum enclosing rectangle，MER）方法替代直邊界矩形框方法，獲得更貼合鞋子的形狀特點(diǎn)的檢測(cè)框，同時(shí)還可獲得鞋子的傾斜角度.圖4給出了一個(gè)矩形檢測(cè)框識(shí)別結(jié)果的示例.其中，白色區(qū)域是圖像中部分像素點(diǎn)的集合.最小外接矩形是指給出一個(gè)凸多邊形的頂點(diǎn)，求出外接該多邊形且面積最小的矩形.通過(guò)計(jì)算可獲得矩形框中心點(diǎn)像素的坐標(biāo)(x，y)和相對(duì)水平線的旋轉(zhuǎn)角度θ.

圖4 矩形檢測(cè)框識(shí)別結(jié)果（a）原圖；（b）直邊界矩形；（c）最小外接矩形Fig.4 Rectangular detection frame.(a)Original image,(b)straight bounding rectangle,(c)minimum enclosing rectangle.

圖5（b）是采用mask R-CNN 進(jìn)行檢測(cè)識(shí)別后的鞋子圖像，不同的顏色區(qū)域表示實(shí)例分割之后的掩碼區(qū)域.從實(shí)例分割的結(jié)果中可提取出鞋子部分像素的掩碼點(diǎn)集信息，進(jìn)而計(jì)算出鞋子的最小外接矩形框，如圖5（c）.其中，shoe 和mouth 分別表示目標(biāo)分類為鞋子或鞋口；數(shù)值代表對(duì)該檢測(cè)分類的確定程度，其值分布在[0，1]內(nèi)，0代表十分不可信，1代表十分可信.

圖5 鞋子檢測(cè)結(jié)果（a）原圖；（b）直邊界矩形；（c）最小外接矩形Fig.5 Shoes detection.(a)Original image,(b)straight bounding rectangle,(c)minimum enclosing rectangle.

采用MER 方法雖然得到了比較貼合鞋子形狀特點(diǎn)，且與鞋子方向信息關(guān)聯(lián)的旋轉(zhuǎn)θ角度的矩形框，但仍未解決鞋子朝向識(shí)別的問(wèn)題.為此，本研究在標(biāo)記鞋子訓(xùn)練數(shù)據(jù)的同時(shí)，對(duì)每只鞋子的鞋口進(jìn)行標(biāo)記.已訓(xùn)練的網(wǎng)絡(luò)模型檢測(cè)出鞋子和鞋口的掩碼信息后，利用最小外接矩形框可分別計(jì)得鞋子和鞋口的最小外接矩形框的中心點(diǎn)（p1和p2）的坐標(biāo)和旋轉(zhuǎn)角度，如圖6.大多數(shù)情況下，p2指向p1的方向即為鞋子朝向.但對(duì)于含有多只鞋子的圖片，僅采用mask R-CNN 進(jìn)行檢測(cè)并不能準(zhǔn)確判斷鞋口和鞋子的對(duì)應(yīng)關(guān)系，因此還要利用OpenCV 計(jì)算p2是否處于某一只鞋子的最小外接矩形區(qū)域內(nèi)，以此來(lái)判斷鞋口和鞋子的對(duì)應(yīng)關(guān)系.

圖6 鞋子朝向識(shí)別（a）檢測(cè)結(jié)果；（b）朝向識(shí)別結(jié)果Fig.6 Shoes orientation recognition.(a)Detection result,(b)orientation recognition result.

3 位姿估計(jì)

位姿估計(jì)主要分為抓取位姿估計(jì)和目標(biāo)位姿（放置位姿）估計(jì).前者定義抓取鞋子的6維抓取姿態(tài)，后者定義抓取后的6 維放置姿態(tài).鞋子的3 維空間位置使用深度相機(jī)的點(diǎn)云信息獲取.通過(guò)鞋子朝向識(shí)別算法識(shí)別出鞋子朝向并幫助確定抓取的旋轉(zhuǎn)角度.同樣，利用深度相機(jī)的點(diǎn)云信息獲取鞋架放置點(diǎn)的3維空間位置.通過(guò)識(shí)別鞋架上木板的旋轉(zhuǎn)角確定抓手的旋轉(zhuǎn)角.

鞋子整理問(wèn)題可以定義為2維平面內(nèi)的抓取問(wèn)題，適用場(chǎng)景通常是將物體水平放置在平面上，抓取器只能從豎直方向上抓取物體.2維平面內(nèi)的抓取位姿估計(jì)需獲取物體的位置信息，結(jié)合抓手的旋轉(zhuǎn)角度，形成一個(gè)可靠的抓取位姿，如圖7.

圖7 二維場(chǎng)景下的位姿估計(jì)Fig.7 Pose estimation in 2D scene.

定義鞋口的右邊緣位置是機(jī)器人的抓取位置，如圖8所示較短藍(lán)色箭頭終點(diǎn)的位置.根據(jù)識(shí)別的鞋子朝向結(jié)果確定抓手的旋轉(zhuǎn)角度，從而得到可靠的抓取位姿.

圖8 鞋子抓取位姿確定Fig.8 Grasp pose of the shoes.

擺放鞋子的目標(biāo)位姿包括鞋架上放置點(diǎn)的3維空間位置和抓手放置時(shí)的旋轉(zhuǎn)角度.3維空間位置由模型鞋架檢測(cè)結(jié)果和深度相機(jī)Kinect2 的點(diǎn)云信息相結(jié)合獲取.旋轉(zhuǎn)角度則根據(jù)鞋架的擺放方向確定抓手的放置旋轉(zhuǎn)角度，如圖9.

圖9 鞋子放置位姿Fig.9 Place pose on the shoe rack.

同樣利用MER 方法計(jì)算出鞋架的中心位置以及矩形框的寬度和長(zhǎng)度，由此確定鞋架板的邊緣位置，將其定義為第1 個(gè)擺放位置.機(jī)器人每擺放1只鞋子，其擺放位置是根據(jù)上一個(gè)擺放位置在鞋架板上沿著藍(lán)色箭頭方向，移動(dòng)一段根據(jù)鞋子大致寬度而設(shè)的距離，并且移動(dòng)的總距離不能超過(guò)鞋架板的長(zhǎng)度，如圖10.

圖10 精確的放置位置（a）鞋架中心；（b）首個(gè)放置點(diǎn)；（c）其余放置點(diǎn)Fig.10 Precise placement.(a)Rack center,(b)first placement,(c)other placement.

4 鞋子匹配算法

根據(jù)鞋子整理任務(wù)中把同一雙鞋子整理到一起的需求，本研究設(shè)計(jì)了鞋子匹配算法.利用目標(biāo)檢測(cè)結(jié)果對(duì)場(chǎng)景圖片中的鞋子做裁剪旋轉(zhuǎn)并保存成統(tǒng)一的格式，再使用預(yù)訓(xùn)練的VGG16 卷積神經(jīng)網(wǎng)絡(luò)對(duì)鞋子進(jìn)行特征提取并建立鞋子的特征數(shù)據(jù)庫(kù)，最后通過(guò)計(jì)算鞋子特征向量之間的余弦相似度辨別兩只鞋子的匹配度，完成鞋子的匹配.

4.1 匹配圖像預(yù)處理

在鞋子匹配前，需獲取同一圖像中每只鞋子的圖像.在多鞋子圖像中識(shí)別單只鞋子的方法主要有兩種.方法1保留鞋子的原始位置，根據(jù)掩碼檢測(cè)結(jié)果只保留單只鞋子的像素部分，其余部分用黑色背景填充，如圖11（a）.利用此種方法獲取的單只鞋子圖像進(jìn)行匹配，鞋子的擺放位置和朝向會(huì)對(duì)匹配結(jié)果產(chǎn)生較大影響.方法2先獲取鞋子朝向的角度，將鞋子統(tǒng)一旋轉(zhuǎn)成豎直向上方向，再根據(jù)矩形框?qū)π訄D像進(jìn)行裁剪.最終圖像中所有鞋子朝向一致，且單只鞋子的圖像只保留了鞋子部分的像素，減少了干擾匹配相似度計(jì)算的無(wú)用信息，提高了匹配的準(zhǔn)確率.本研究使用mask R-CNN 分割網(wǎng)絡(luò)和鞋子朝向識(shí)別算法識(shí)別出鞋子的朝向和比較貼合鞋子形狀特點(diǎn)的矩形框，同時(shí)根據(jù)鞋子的朝向獲得相應(yīng)的旋轉(zhuǎn)角度，將原圖中的鞋子進(jìn)行裁剪和旋轉(zhuǎn)，全部處理成豎直向上形式，如圖11（b）.

圖11 多鞋子圖像中單只鞋子的分離識(shí)別結(jié)果（a）保留單只鞋子原始位置分離方式；（b）統(tǒng)一單只鞋子方向的分離方式Fig.11 The separation recognition result of single shoe in multi-shoes image.(a)Keep the original position of single shoe method,(b)unify the orientation of single shoe method.

4.2 匹配方法和流程

首先利用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)模型提取圖像中每只鞋子的特征，建立包含所有鞋子特征的數(shù)據(jù)庫(kù)，然后利用網(wǎng)絡(luò)提取的特征計(jì)算單只鞋子圖像之間的余弦相似度，最終實(shí)現(xiàn)鞋子匹配.一雙鞋子的匹配流程如圖12.

圖12 鞋子的匹配流程Fig.12 Shoes matching process.

余弦相似度是通過(guò)計(jì)算兩個(gè)向量之間的夾角的余弦值來(lái)評(píng)估他們的相似程度，夾角越小，余弦值越接近1，兩向量的方向越一致，表明向量之間越相似.給定兩個(gè)n維屬性的向量A和B，θ為兩向量之間的夾角，則它們的余弦相似度為

其中，Ai和Bi分別為A和B的第i個(gè)分量.cosθ=-1表示兩向量方向相反；cosθ=1表示兩向量方向相同；cosθ= 0表示兩向量互相獨(dú)立.cosθ越接近1，表明兩只鞋子提取出的特征越相似，是一對(duì)的可能性越高.

5 真機(jī)實(shí)驗(yàn)和結(jié)果分析

5.1 檢測(cè)結(jié)果分析

本研究中的模型訓(xùn)練使用2張8 GByte的Quadro M5000 顯卡，圖形處理器（graphics processing unit，GPU）每次處理2張圖片，學(xué)習(xí)率為0.001，迭代次數(shù)為300 epochs.使用1 000 張標(biāo)注圖像作為訓(xùn)練集，其中100 張作為測(cè)試集.訓(xùn)練模型的損失函數(shù)、邊界框的損失函數(shù)和掩碼的損失函數(shù)皆隨著迭代次數(shù)的增加逐漸收斂.

為量化實(shí)驗(yàn)結(jié)果，采用平均精度（mean average precision，mAP）來(lái)評(píng)定訓(xùn)練模型對(duì)多標(biāo)簽圖像中所有類別進(jìn)行檢測(cè)的效果.表1 給出了迭代次數(shù)τ為分別為50、150和300 epochs時(shí)，采用Mask R-CNN模型對(duì)100 張測(cè)試圖片進(jìn)行分類檢測(cè)后的mAP 值、對(duì)12 張總共包含78 只鞋子的圖片進(jìn)行朝向識(shí)別的準(zhǔn)確率Ao和模型訓(xùn)練耗時(shí)t.表1表明，隨著迭代次數(shù)的增加，mask R-CNN 模型對(duì)鞋子的識(shí)別效果和鞋子朝向識(shí)別的準(zhǔn)確率隨之提升，但相對(duì)地訓(xùn)練耗時(shí)會(huì)增加.

表1 Mask R-CNN模型訓(xùn)練迭代次數(shù)對(duì)識(shí)別性能的影響Table 1 Comparison of model detection and orientation recognition performance

圖13 對(duì)比了訓(xùn)練模型τ分別為50、150 和300 epochs時(shí)進(jìn)行目標(biāo)檢測(cè)的結(jié)果.從圖13可見(jiàn)，隨著迭代次數(shù)的增加，模型識(shí)別效果越來(lái)越準(zhǔn)確，掩碼邊緣識(shí)別效果隨之提升.

圖13 不同訓(xùn)練次數(shù)對(duì)鞋子實(shí)例分割的結(jié)果（a）原圖；（b）檢測(cè)結(jié)果；（c）Ground truth；（d）掩碼結(jié)果（上排為τ=50 epochs，中排為τ=150 epochs，下排為τ=300 epochs）Fig.13 Comparison of shoes instance segmentation results.(a)Original images,(b)detection images,(c)Ground truth images,(d)mask images.(The images from top to bottom are τ=50，150，300 epochs respectively.)

5.2 匹配結(jié)果分析

采用統(tǒng)一單只鞋子方向的圖像處理方式，對(duì)比只采用余弦相似度和加入VGG16 特征提取兩種方法的匹配準(zhǔn)確率，結(jié)果如表2.由表2 可見(jiàn)，加入VGG16提取特征后進(jìn)行相似度計(jì)算，可明顯提升算法匹配準(zhǔn)確率.

表2 只采用余弦相似度和加入VGG16特征提取兩種方法匹配準(zhǔn)確率對(duì)比Table 2 Comparison of shoe matching methods of using cosine similarity and VGG16 + cosine similarity, respectively.

5.3 真機(jī)實(shí)驗(yàn)

實(shí)例分割網(wǎng)絡(luò)的作用是檢測(cè)圖像中的可抓取物體，因此，本研究利用機(jī)器人操作系統(tǒng)（robot oper?ating system，ROS）中的機(jī)械臂路徑規(guī)劃算法，探尋機(jī)械臂抓取鞋子目標(biāo)的實(shí)際控制途徑.路徑規(guī)劃算法需要提供一個(gè)在機(jī)器人基座坐標(biāo)系下的3維抓取位置，而本研究的檢測(cè)網(wǎng)絡(luò)只能識(shí)別2維圖像上的抓取位置，因此要進(jìn)行相機(jī)標(biāo)定，將2維圖像的抓取位置轉(zhuǎn)換到相機(jī)坐標(biāo)系空間，再進(jìn)行機(jī)械臂的手眼標(biāo)定將相機(jī)坐標(biāo)系轉(zhuǎn)換到機(jī)器人基座坐標(biāo)系空間，最終得到待抓取物體在機(jī)器人基座坐標(biāo)系中的空間位置.圖14 是機(jī)器人在鞋子整理過(guò)程中的部分視頻幀.每一行幀圖片顯示的是完成1只鞋子的整理任務(wù)，第1列幀圖片是機(jī)器人根據(jù)抓取位姿實(shí)現(xiàn)抓取鞋口的右邊緣，第2列幀圖片是根據(jù)識(shí)別的鞋子朝向?qū)⑿訑[正，第3列幀圖片是機(jī)器人根據(jù)放置位姿將鞋子擺放到鞋架上.機(jī)器人每完成一只鞋子的整理任務(wù)后，根據(jù)鞋子匹配算法對(duì)未整理鞋子進(jìn)行匹配和整理，從而完成一雙鞋子的整理任務(wù).如此反復(fù)，最終實(shí)現(xiàn)對(duì)所有鞋子的整理.

圖14 機(jī)器人整理鞋子真機(jī)實(shí)驗(yàn)的部分的視頻幀（左下角為同步的點(diǎn)云）Fig.14 Part of video frames of real robot experiment of shoes arrangement.(The bottom left corner is the synchronized point cloud.)

結(jié) 語(yǔ)

設(shè)計(jì)了一套基于3維視覺(jué)的機(jī)器人自主理鞋系統(tǒng).采用mask R-CNN 網(wǎng)絡(luò)模型在自制數(shù)據(jù)集上訓(xùn)練檢測(cè)模型，實(shí)現(xiàn)鞋子和鞋架檢測(cè)和像素級(jí)別的實(shí)例分割.利用實(shí)例分割得到的掩碼點(diǎn)集合和最小外接矩形框方法設(shè)計(jì)鞋子朝向識(shí)別算法，并由此估計(jì)出鞋子的抓取位姿和放置位姿.利用目標(biāo)檢測(cè)結(jié)果對(duì)場(chǎng)景圖片中的鞋子做裁剪，旋轉(zhuǎn)后保存成統(tǒng)一的格式，再使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)VGG16 對(duì)鞋子特征進(jìn)行提取并建立鞋子的特征數(shù)據(jù)庫(kù)，通過(guò)計(jì)算兩只鞋子特征之間的余弦相似度實(shí)現(xiàn)鞋子匹配.建立了機(jī)器人的視覺(jué)系統(tǒng)，將深度相機(jī)Kinect2 作為機(jī)器人的視覺(jué)感知器，采用相機(jī)標(biāo)定獲取相機(jī)內(nèi)外參數(shù)，通過(guò)手眼標(biāo)定完成相機(jī)坐標(biāo)系和機(jī)器人基坐標(biāo)系的統(tǒng)一，從而獲得相機(jī)在機(jī)器人基坐標(biāo)系下的位姿.基于ROS完成真實(shí)機(jī)械臂的控制程序設(shè)計(jì)工作，利用深度相機(jī)的點(diǎn)云信息完成目標(biāo)定位的功能，實(shí)現(xiàn)真機(jī)測(cè)試.

未來(lái)將繼續(xù)構(gòu)建更大的鞋類數(shù)據(jù)集，提高目標(biāo)檢測(cè)的準(zhǔn)確率和魯棒性，為匹配和定位提供更加穩(wěn)定強(qiáng)健的基礎(chǔ)保障.在鞋子檢測(cè)和匹配中，由于鞋子左右的特征區(qū)分度較低，本研究未能實(shí)現(xiàn)鞋子左右的區(qū)分，所以未來(lái)如何提高鞋子左右特征的區(qū)分度，準(zhǔn)確實(shí)現(xiàn)鞋子左右的檢測(cè)是一個(gè)可持續(xù)探索的研究方向.