張鵬松,樊啟高,于振中
(1.江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無(wú)錫 214122;2.哈工大機(jī)器人(合肥)國(guó)際創(chuàng)新研究院,安徽 合肥 230011)
過(guò)去的十幾年中,用于生物醫(yī)學(xué)的微型機(jī)器人引起了越來(lái)越多學(xué)者的興趣,它已極大地?cái)U(kuò)展了人類在生物醫(yī)學(xué)和微納操作中的應(yīng)用范圍[1]。磁性微型機(jī)器人可用于藥物輸送、生物傳感、微創(chuàng)手術(shù)等[2],目前有一些在液體通道如血管和微流控芯片中微型機(jī)器人運(yùn)動(dòng)控制的研究,通過(guò)使用簡(jiǎn)單的位置閉環(huán)控制器令微型機(jī)器人沿著預(yù)定軌跡行走[3],但是在復(fù)雜而狹窄的通道中實(shí)現(xiàn)微型機(jī)器人的無(wú)人工協(xié)助的自主導(dǎo)航控制仍然是一個(gè)尚未解決的挑戰(zhàn)。
與無(wú)人駕駛汽車類似,微型機(jī)器人的“無(wú)人駕駛”也需要感知、規(guī)劃和控制這三種基本模塊[4]。感知方面,本文通過(guò)語(yǔ)義分割方法來(lái)進(jìn)行顯微鏡視野下的環(huán)境分割建立語(yǔ)義地圖;規(guī)劃方面,在RRT-connect的基礎(chǔ)上改進(jìn)了約束條件和平滑策略;控制方面,基于強(qiáng)化學(xué)習(xí)構(gòu)建了微型機(jī)器人的軌跡跟蹤控制器。
圖像的畸變是影響地圖重建的重要因素之一[5],顯微視覺(jué)成像和普通相機(jī)一樣也會(huì)產(chǎn)生畸變,本文采用了張正友標(biāo)定方法對(duì)畸變進(jìn)行矯正[6],對(duì)于矯正后的圖像進(jìn)行語(yǔ)義分割。
如圖1所示為本文設(shè)計(jì)的基于卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)義分割框架,其中骨干網(wǎng)絡(luò)基于MobileNetV3結(jié)構(gòu)[7],語(yǔ)義分割部分主要分為三個(gè)步驟,1)利用特征融合后的C4特征圖L表示一個(gè)粗略的語(yǔ)義分割,預(yù)測(cè)結(jié)果并定義為M1,…,Mk代表軟物體區(qū)域;2)根據(jù)M1,…,Mk和C5特征圖即X計(jì)算出k組向量f1,…,fk代表物體的區(qū)域表示,其中k表示語(yǔ)義標(biāo)簽具有k種類別;接著將X進(jìn)行卷積操作并計(jì)算與f1,…,fk之間的關(guān)系矩陣再進(jìn)行加權(quán)求和得到物體的上下文表示;3)進(jìn)行8倍的上采樣操作得到語(yǔ)義分割結(jié)果。
圖1 語(yǔ)義分割模型結(jié)構(gòu)
由于顯微鏡視野有限,有時(shí)無(wú)法完整觀測(cè)到整個(gè)微型機(jī)器人的運(yùn)動(dòng)環(huán)境,本文基于SIFT算法提取圖像特征點(diǎn)[8],然后利用RANSAC算法進(jìn)行局部視野圖像的配準(zhǔn)和融合以構(gòu)建全局的語(yǔ)義地圖。
基于語(yǔ)義分割模型的骨干網(wǎng)絡(luò)設(shè)計(jì)了實(shí)例分割分支網(wǎng)絡(luò)。如圖2所示,它主要有兩個(gè)分支,1)分類分支,2)實(shí)例掩模分支。分類分支負(fù)責(zé)預(yù)測(cè)物體的語(yǔ)義類別,每個(gè)網(wǎng)格預(yù)測(cè)類別S×S×C,這部分跟YOLO是類似的[9],Mask分支負(fù)責(zé)預(yù)測(cè)掩模,并通過(guò)掩模計(jì)算目標(biāo)邊框位置。
圖2 實(shí)例分割網(wǎng)絡(luò)
損失函數(shù)的設(shè)計(jì)如下
L=Lcate+αLmask
(1)
式中Lcate為語(yǔ)義類別分類的Focal Loss,Lmask為Mask預(yù)測(cè)的Dice Loss,兩者的加權(quán)系數(shù)α可以動(dòng)態(tài)地人工調(diào)整。
RRT-connect算法是一種雙向探索樹(shù)結(jié)構(gòu)的快速路徑規(guī)劃算法[10],本文基于RRT-connect算法進(jìn)行了兩點(diǎn)改進(jìn),首先利用第一節(jié)中的語(yǔ)義分割圖像來(lái)識(shí)別可行駛區(qū)域與不可行駛區(qū)域,并計(jì)算出其可行駛區(qū)域邊界,然后結(jié)合微型機(jī)器人的尺寸對(duì)邊界擴(kuò)充以實(shí)現(xiàn)對(duì)微型機(jī)器人可行駛區(qū)域的限制,最后通過(guò)RRT-connect算法獲得的路徑進(jìn)行節(jié)點(diǎn)細(xì)化以提取關(guān)鍵點(diǎn),并使用B樣條函數(shù)優(yōu)化由關(guān)鍵點(diǎn)形成的局部路徑進(jìn)而產(chǎn)生具有連續(xù)曲率的平滑路徑。如圖3所示,圖(a)~(d)分別為原始RRT-connect路徑,不可行使區(qū)域擴(kuò)充示意圖,擴(kuò)充后的規(guī)劃路徑和平滑后的路徑。
圖3 改進(jìn)的RRT-connect仿真結(jié)果
針對(duì)亥姆霍茲線圈與麥克斯韋線圈組成磁場(chǎng)驅(qū)動(dòng)系統(tǒng),磁性微型機(jī)器人可由亥姆霍茲線圈或者麥克斯韋線圈以多種組合方式驅(qū)動(dòng)[11]。如圖4所示,本文選擇了徑向充磁的圓柱形微型機(jī)器人,采用三軸亥姆霍茲線圈產(chǎn)生的空間旋轉(zhuǎn)磁場(chǎng)使微型機(jī)器人產(chǎn)生轉(zhuǎn)矩,進(jìn)而使球形或者圓柱形微型機(jī)器人產(chǎn)生運(yùn)動(dòng),微型機(jī)器人的運(yùn)動(dòng)還會(huì)受到流體環(huán)境中的浮力Fb,流體阻力Fp,地球重力G,接觸面摩擦力f以及磁驅(qū)動(dòng)轉(zhuǎn)矩T和平面方向驅(qū)動(dòng)力FT,為了簡(jiǎn)化強(qiáng)化學(xué)習(xí)模型的動(dòng)作空間,本文對(duì)微型機(jī)器人的運(yùn)動(dòng)模型進(jìn)行了等效,用切向轉(zhuǎn)矩等效汽車模型中的油門τ,橫向轉(zhuǎn)矩等效汽車模型的方向δ。
圖4 磁性微型機(jī)器人等效模型
為了構(gòu)建強(qiáng)化學(xué)習(xí)模型,首先定義狀態(tài)空間,微型車輛的狀態(tài)量可以表示為轉(zhuǎn)向角δ,油門τ,前進(jìn)和滑行速度(vx,vy),總速度v和航向角θ,因此狀態(tài)空間S定義為
(2)
連續(xù)動(dòng)作空間定義為Λ
Λ={δ,τ}
(3)
旋轉(zhuǎn)磁場(chǎng)的頻率范圍限制為(0~200)Hz,并歸一化為[0,1]作為油門τ,同時(shí)轉(zhuǎn)向角度范圍[-180°,180°]也被歸一化為[-1,1]。
回報(bào)函數(shù)的設(shè)計(jì)主要包含三種類型,公式如下
(4)
rex,rey=f(x)=e-k2x
(5)
rco=-Sco/S2rm
(6)
式中rco為避開(kāi)非行駛區(qū)域的獎(jiǎng)勵(lì)函數(shù),以微型機(jī)器人的直徑為圓的半徑,圓的面積為S2rm,不可行駛區(qū)域在圓內(nèi)的面積為Sco。因此,總獎(jiǎng)勵(lì)可以累積為
(7)
基于SAC(soft actor-critic)模型設(shè)計(jì)軌跡跟蹤控制算法,如圖5所示,設(shè)計(jì)了三種神經(jīng)網(wǎng)絡(luò),包括策略網(wǎng)絡(luò)(πφ)、價(jià)值網(wǎng)絡(luò)(Vψ)和Q網(wǎng)絡(luò)(Qθ1,Qθ2)。算法流程如下:首先,觀測(cè)當(dāng)前的14維的狀態(tài)s,然后通過(guò)策略網(wǎng)絡(luò)將其轉(zhuǎn)移到具有2維動(dòng)作的完全連接層(FC),從輸出分布中采樣并使用tanh激活函數(shù)將其歸一化為[-1,1]。采樣的動(dòng)作將被進(jìn)一步映射和平滑以與環(huán)境交互。當(dāng)策略網(wǎng)絡(luò)獲得下一個(gè)狀態(tài)st+1和r(st,at)時(shí),這些參數(shù)如(st,at,r(st,at),st+1)被存儲(chǔ)到緩沖區(qū)中,在訓(xùn)練過(guò)程中會(huì)重復(fù)進(jìn)行這樣的交互和存儲(chǔ)過(guò)程。當(dāng)交互次數(shù)大于設(shè)置閾值時(shí),分別使用函數(shù)JQ(θi)和Jπ(φ)更新網(wǎng)絡(luò),這些功能與文獻(xiàn)[12]中定義的功能相同,重復(fù)整個(gè)過(guò)程,直至學(xué)習(xí)到最佳策略。
圖5 軌跡跟蹤控制模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
實(shí)驗(yàn)環(huán)境如圖6所示,計(jì)算機(jī)采用了一塊單卡1080Ti GPU用來(lái)訓(xùn)練模型和預(yù)測(cè),其中神經(jīng)網(wǎng)絡(luò)的模型利用PaddlePaddle實(shí)現(xiàn),電源和驅(qū)動(dòng)板用來(lái)驅(qū)動(dòng)組合線圈生成空間磁場(chǎng),電子顯微鏡采用深圳微視特公司的WST-2KCH型號(hào),最大放大倍數(shù)可達(dá)380倍。
圖6 實(shí)驗(yàn)環(huán)境
顯微視野下的環(huán)境分割仿真測(cè)試如圖7所示,實(shí)驗(yàn)收集了每種環(huán)境60張圖片,其中,40張用來(lái)訓(xùn)練,20張用來(lái)驗(yàn)證,共訓(xùn)練100輪,其中訓(xùn)練到80輪時(shí)驗(yàn)證集的平均交并比mIOU達(dá)到最優(yōu)96.89 %。
圖7 顯微視野下微型機(jī)器人運(yùn)動(dòng)環(huán)境分割
如圖8所示,圖(a)~(c)分別為局部圖像配準(zhǔn)過(guò)程,配準(zhǔn)融合后的全局視野圖和全局語(yǔ)義地圖。
圖8 全局語(yǔ)義地圖構(gòu)建
最后進(jìn)行了真實(shí)環(huán)境中的微型機(jī)器人導(dǎo)航控制實(shí)驗(yàn),實(shí)驗(yàn)主要包含兩部分:1)給定軌跡進(jìn)行軌跡跟蹤控制,這里為了驗(yàn)證SAC模型的軌跡跟蹤控制器效果,引入了Stanley軌跡跟蹤控制方法[13]進(jìn)行對(duì)比實(shí)驗(yàn);2)實(shí)驗(yàn)為迷宮探索實(shí)驗(yàn),給定起點(diǎn)和終點(diǎn),自動(dòng)規(guī)劃一條路徑并進(jìn)行軌跡跟蹤。
如圖9所示,設(shè)定了數(shù)字2021曲線軌跡,驗(yàn)證微型機(jī)器人的曲線軌跡跟蹤能力。
圖9 數(shù)字2021曲線軌跡跟蹤
圖10為數(shù)字2021曲線軌跡跟蹤控制的Stanley算法和本文算法的對(duì)別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文算法相對(duì)于Stanley算法微型機(jī)器人在曲線處運(yùn)動(dòng)的更加平滑,拐角處跟蹤誤差更小。圖11分別展示出了微機(jī)器人軌跡跟蹤過(guò)程中的方向角度誤差和預(yù)設(shè)軌跡橫向垂直距離誤差。
圖11 數(shù)字2021曲線軌跡跟蹤誤差對(duì)比
經(jīng)分析本文提出的SAC算法,方向誤差總體較Stanley算法下降了39.37 %,軌跡垂直誤差下降了38.26 %。具體指標(biāo)統(tǒng)計(jì)如表1所示。
表1 軌跡跟蹤控制算法平均誤差對(duì)比
如圖12所示為微型機(jī)器人在迷宮中的探索實(shí)驗(yàn),圖(a),(b)分別為改進(jìn)RRT-connect算法探索的期望軌跡和Stanley算法軌跡跟蹤控制效果;圖(c),(d)分別為改進(jìn)RRT-connect算法探索的期望軌跡和本文SAC算法軌跡跟蹤控制效果。
圖12 改進(jìn)RRT-connect路徑規(guī)劃與兩種算法的跟蹤控制軌跡
圖13為改進(jìn)RRT-connect期望軌跡的Stanly算法和SAC算法的軌跡跟蹤控制對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文提出的SAC算法相對(duì)于Stanley算法,微型機(jī)器人在拐角處運(yùn)動(dòng)的更加平滑。
圖13 路徑規(guī)劃軌跡跟蹤對(duì)比
圖14分別展示出了路徑探索實(shí)驗(yàn)中微型機(jī)器人軌跡跟蹤過(guò)程的方向角度誤差和軌跡橫向垂直誤差對(duì)比。
圖14 軌跡跟蹤誤差對(duì)比
整理并分析實(shí)驗(yàn)數(shù)據(jù),本文提出的SAC軌跡跟蹤控制方法,最大絕對(duì)角度誤差較Stanley算法下降了67.66 %,最大絕對(duì)軌跡垂直誤差下降了53.53 %,驗(yàn)證了本文算法對(duì)軌跡跟蹤控制的優(yōu)秀性能。具體指標(biāo)統(tǒng)計(jì)如表2所示。
表2 軌跡跟蹤控制算法最大誤差對(duì)比
本文提出了針對(duì)微型機(jī)器人的自主導(dǎo)航系統(tǒng),在局部視野環(huán)境語(yǔ)義分割的基礎(chǔ)上進(jìn)行圖像配準(zhǔn)與融合以實(shí)現(xiàn)全局語(yǔ)義地圖的構(gòu)建,設(shè)計(jì)了目標(biāo)檢測(cè)分支網(wǎng)絡(luò)以檢測(cè)微型機(jī)器人的位置,針對(duì)普通RRT-connect算法沒(méi)有考慮邊界碰撞和路徑平滑的問(wèn)題,改進(jìn)了RRT-connect路徑規(guī)劃算法,保證了路徑的安全性,設(shè)計(jì)了基于SAC模型的強(qiáng)化學(xué)習(xí)控制器以自動(dòng)學(xué)習(xí)角度和縱向油門控制策略,有效地減小了軌跡跟蹤的角度和橫向垂直距離誤差,下一步將會(huì)針對(duì)三維空間中的微型機(jī)器人自主導(dǎo)航控制進(jìn)行研究。