寧國琛 張欣然 廖洪恩
(清華大學醫(yī)學院生物醫(yī)學工程系 北京 100084)
超聲成像機器人是將機器人與超聲成像系統(tǒng)進行結(jié)合的一種醫(yī)療成像機器人。超聲成像診斷由于具有非侵入性、低成本、無輻射、能實時顯示器官運動等優(yōu)點,在臨床的各個領域中得到了廣泛的應用[1]。通常情況下,臨床超聲掃描依靠人工控制超聲探頭運動,如超聲引導下的血管內(nèi)導航[2]和腹主動脈成像[3]。其中操作者的經(jīng)驗和操作方式是影響超聲成像質(zhì)量和效率的重要因素[4]。相比手動超聲成像過程,基于高精度信息引導機器人超聲系統(tǒng)在復雜的臨床場景中具有更好的靈活性,尤其是在長期的超聲掃描過程中具有更好的穩(wěn)定性[5,6]。在醫(yī)療機器人中,超聲自動成像機器人是一種典型的醫(yī)療機器人設備,而更因為超聲成像的廣泛性與快速性,其自動化的成像控制對提高超聲引導診療效率有很大幫助。一般來說,超聲探頭位置的準確性和超聲探頭控制的穩(wěn)定性是影響圖像質(zhì)量的重要因素。在獲得目標位置后,超聲探頭與目標之間合適的接觸力既影響成像質(zhì)量,更重要的是決定了系統(tǒng)的安全性[7]。此外,目標的移動和表面變形也給超聲探頭的精確控制帶來挑戰(zhàn)。
超聲機器人智能化的關(guān)鍵在于超聲探頭在不同場景中實現(xiàn)自動的成像動作。在目前的臨床機器人超聲系統(tǒng)研究中已經(jīng)采用了多種控制模式來實現(xiàn)超聲探頭在不同的場景中的自動化運動,這些方法主要基于路徑規(guī)劃和基于標記的引導控制方法[8,9]。其中基于3維場景重建的路徑規(guī)劃和基于標記的物體姿態(tài)估計是典型的超聲機器人成像控制方法。基于這種模式,以往的機器人超聲系統(tǒng)利用3維相機或其他高精度采集設備采集和重建場景表面,并根據(jù)分析后得到的目標幾何特性規(guī)劃機器人運動路徑[10]。一些研究結(jié)合力傳感器,通過調(diào)整超聲探頭的位置進而調(diào)整接觸力[11,12]。這些控制方法中包含多個高度關(guān)聯(lián)的部分,并且每個部分的各方面特性需要與具體的成像任務高度匹配。此外,Chatelain等人[13]基于視覺特征識別方法,使用機械臂和3自由度的標志物來保持穿刺針在超聲圖像的中心。這些研究分析重建環(huán)境或視覺標記,并自動從3維視覺信息中提取人工定義的特征。然而,基于場景特征提取和基于標記物的方法普遍存在視覺干擾問題。同時,控制方法的精度和效率在很大程度上取決于采用的3維成像設備的精度和速度[14]。采集設備的精度成為制約機器人超聲系統(tǒng)精度的主要因素之一,此外也需要充分考慮目標的接觸力和運動。
為了實現(xiàn)在復雜動態(tài)場景中實現(xiàn)魯棒的、自動的超聲機器人成像過程,本文提出基于深度強化學習的多自由度智能超聲機器人系統(tǒng),通過提出決策控制方法和不同控制任務分部執(zhí)行策略,實現(xiàn)超聲探頭在人體表面持續(xù)的復雜超聲成像動作生成。另外,為了克服成像過程中人體表面的不確定柔性變化對控制帶來的挑戰(zhàn),本文根據(jù)超聲機器人成像任務特點,在超聲機器人運動自主決策的基礎上提出超聲機器人柔性控制方法,最終實現(xiàn)超聲機器人對不同人體表面自動的成像過程。
本文所提智能超聲機器人診斷成像控制方法分為超聲空間運動決策生成和決策執(zhí)行兩個部分,分別實現(xiàn)超聲探頭平移和旋轉(zhuǎn)的運動過程。其中決策生成由強化學習智能體根據(jù)超聲成像模型進行輸出,包括超聲探頭接觸人體表面之前的基于視覺的空間運動決策,以及接觸人體表面后基于觸覺的姿態(tài)調(diào)整決策。其中當前超聲成像環(huán)境中的多源信息為智能體實時決策的信息來源。在決策執(zhí)行部分,為了實現(xiàn)在未知、復雜的柔性人體表面進行安全穩(wěn)定的探頭掃描過程,本文所提探頭動作空間優(yōu)化策略,通過將超聲探頭與被成像目標之間的被期望的接觸力定義為智能體輸出值,實現(xiàn)超聲成像任務與接觸力之間的對應關(guān)系的建立,最終由柔性控制器執(zhí)行,如圖1所示。
圖1 智能超聲機器人成像控制方法與系統(tǒng)框架
本文的工作主要包含:
(1) 提出智能超聲機器人診斷成像控制流程框架,期望實現(xiàn)在動態(tài)、未知、復雜和易被干擾的環(huán)境中實現(xiàn)機器人超聲成像過程;
(2) 提出基于強化學習的超聲機器人運動決策生成方法,根據(jù)多源信息實時生成多自由度超聲探頭復雜運動的決策;
(3) 提出面向未知復雜柔性環(huán)境的超聲探頭柔性控制方法,通過模擬手動控制方式將探頭的空間運動變量變換為接觸力變量,最終完成持續(xù)成像過程。
超聲診斷的初步步驟是獲取被掃描目標的超聲圖像,超聲機器人需要控制超聲探頭在人體表面進行復雜的運動以保持探頭與人體的穩(wěn)定接觸,并實現(xiàn)對超聲圖像的采集。為了使用機器人獲得超聲圖像,目前超聲機器人進行成像過程中的運動路徑生成主要依賴預先或動態(tài)的運動路徑規(guī)劃,而機器人運動路徑的生成又主要依賴對環(huán)境中顯性特征的識別和跟蹤。這些方法非常依賴人工對當前機器人任務的定量化描述,而醫(yī)療任務的特殊性又導致這類流程缺少普適性,進一步導致超聲機器人控制的復雜性和魯棒性大幅度提高。為了實現(xiàn)超聲機器人的自主超聲成像控制,本文采用基于強化學習的動作決策生成方法。強化學習的過程是學習如何將環(huán)境映射到行動上,從而使數(shù)字化獎勵信號最大化的人工智能算法[15]。強化學習智能體并不像大多數(shù)形式的機器學習那樣,被告知要采取哪些行動,而是必須通過嘗試發(fā)現(xiàn)哪些行動能產(chǎn)生最大的回報,因此避免了預先規(guī)劃和人工干預。在大多數(shù)情況下,智能體產(chǎn)生的行動不僅會影響眼前的獎勵,而且還會影響下一時刻的狀態(tài),并通過這種情況影響所有后續(xù)的獎勵。對于本文中的機器人智能超聲成像任務而言,構(gòu)建決策智能體輸出運動決策在動態(tài)且難以量化的成像環(huán)境中具有潛在的應用價值。
標準的強化學習過程是在馬爾科夫決策過程(Markov Decision Process, MDP)的框架下提出的,它可以由S,A,p,R和Sλ來定義[16]。其中S={s1,s2,...,sn}和A={a1,a2,...,an}分別表示狀態(tài)集和動作集,p(st+1|st,at)是行動與狀態(tài)間的隨機動態(tài)變化,R:S×A →R為獎勵函數(shù),λ ∈[0,1]為對當前回報進行加權(quán)的折扣因子。令{Xk ∈S}為訓練過程k ∈{0,1,...,K}的一個序列, 其中K ≤∞為訓練過程長度,動作空間可以取決于當前狀態(tài),用A(xk)表示。MDP分析的目標是推導出一個最優(yōu)策略π*,而該最優(yōu)策略的目的是超聲機器人處于當前場景的任意狀態(tài),智能體執(zhí)行該策略都能獲得最大的預期未來回報
在構(gòu)建了基本智能體的訓練過程之后,需要根據(jù)超聲成像任務對其中的策略和獎勵函數(shù)進行構(gòu)建。由于運動空間的增加會給智能體帶來成倍的訓練量,并且超聲探頭在空中進行空間運動時并不需要復雜的探頭姿態(tài)調(diào)整,因此本文采用空間運動和姿態(tài)運動分別由兩個智能體執(zhí)行的模式以降低訓練成本。在空間運動過程中,當前狀態(tài)為場景視覺信息,其中包含超聲機器人所在場景以及需要被成像的人體表面。因此空間運動智能體部分采用卷積神經(jīng)網(wǎng)絡作為策略模型。本策略模型對圖像進行卷積操作以獲得圖像的降維信息,其由3層卷積神經(jīng)網(wǎng)絡組成,每層都與激活層和最大池化層結(jié)合。參照手動超聲成像中的過程,超聲探頭接觸目標的過程中具有多個相關(guān)的步驟,首先人為操作中需要將位置接近、保持接觸并最終獲得超聲圖像,本文將這些因素納入獎勵函數(shù)設計,并將獎勵函數(shù)設為不同項的加權(quán)總和。首先,超聲探頭需要在空間中向目標移動,稠密的距離獎勵Rdist定義為探頭和目標之間的歐氏距離。在探頭與表面接觸后,獎勵函數(shù)RUS為檢測超聲圖像是否存在,并且增加額外的持續(xù)獎勵Rm以鼓勵持續(xù)的成像過程。最終空間運動過程的獎勵函數(shù)為
其中,ω1,2,3為不同獎勵項之間的權(quán)重,被預先設定。
在實現(xiàn)了超聲探頭與人體的接觸步驟后,在超聲機器人姿態(tài)控制決策任務中的運動空間為連續(xù)的姿態(tài)運動變量,具體為超聲探頭在機器人坐標系下繞x軸和繞y軸的角度變化量以進行姿態(tài)調(diào)整。由于在實際場景中目標的幾何特征是未知的,并且在視覺信息中超聲探頭會對被掃描的表面造成明顯的遮擋和擠壓變形,進而導致難以獲得準確的表面形態(tài),因此本文采用檢測超聲探頭在掃描過程中受到的力矩間接判斷超聲探頭與目標之間的相對位置關(guān)系。該部分的狀態(tài)信息為末端力傳感器采集到的超聲探頭與成像目標之間的3維接觸力和3維力矩信息,目的是保持超聲探頭和掃描表面之間的垂直關(guān)系,以獲得常規(guī)超聲成像診斷中清晰的圖像?;谶@些信息,智能體將根據(jù)參數(shù)化的策略在訓練中最大化獎勵。由于接觸力狀態(tài)為1維數(shù)據(jù),因此建立了一個具有3個隱藏層的多層感知機模型作為策略模型。成像目標的不確定性導致被成像表面姿態(tài)的不確定,將超聲探頭在Rx方向和Ry方向受到的力矩的平方和作為獎勵函數(shù)的主要部分
同樣當超聲探頭受到的力矩足夠小后,增加一個正獎勵值以鼓勵超聲探頭的持續(xù)成像動作。至此已經(jīng)完成了智能超聲機器人成像任務中目標函數(shù)、策略網(wǎng)絡和梯度策略的構(gòu)建。
在智能超聲機器人成像系統(tǒng)中,超聲探頭的適應性恒力跟蹤對成像質(zhì)量和系統(tǒng)安全性至關(guān)重要。然而由于超聲機器人自主成像運動需要同時進行姿態(tài)控制與力控制,并且被成像目標的位置、姿態(tài)、表面剛度等特性均為未知,為高效穩(wěn)定的控制帶來了挑戰(zhàn)。導納控制又稱基于位置的阻抗控制或力反饋阻抗控制[20]。在導納控制的實現(xiàn)中,內(nèi)環(huán)用于實現(xiàn)控制指令中的位置控制,外環(huán)用于建立力與位置的關(guān)系。導納控制器的輸出可表示為
為了實現(xiàn)在未知環(huán)境中超聲機器人保持高效柔性控制,結(jié)合機器人超聲成像決策方法,提出一種基于導納控制器的力-位移運動空間優(yōu)化方法。本方法將傳統(tǒng)導納控制器進行反向推導,通過將決策指令定義為被期望的超聲探頭與目標之間的接觸力,并將該接觸力反向映射到機器人內(nèi)環(huán)運動控制,以實現(xiàn)柔性控制的同時避免對控制器復雜參數(shù)的調(diào)整。本控制策略由以下過程進行推導。
根據(jù)已有的導納控制器,調(diào)節(jié)末端執(zhí)行器的導納特性與動態(tài)控制位置關(guān)系可表示為
其中,M為慣性矩陣,B為阻尼矩陣,K為剛度矩陣,x為 位置向量,xdes為期望位置向量,x˙ 和x¨為位置向量的1階導數(shù)和2階導數(shù),即速度與加速度,F(xiàn)c為3個方向上的期望接觸力。根據(jù)這個變換,導納控制器可將力傳感器采集得到的力信號Fc轉(zhuǎn)化為末端執(zhí)行器的3維位置修正量,即
其中,Y是末端執(zhí)行器雅可比矩陣,D是質(zhì)量矩陣,C是離心力,G是重力項。由此可將力傳感器測量得到的接觸力轉(zhuǎn)化為下級機器人命令,由機械臂內(nèi)環(huán)控制器執(zhí)行。由于本文所提力控策略的思想為通過調(diào)整力輸出進而調(diào)整機械臂整體的柔性特性,因此導納控制器的基本參數(shù)被預先設定為一個標準值,并且在后續(xù)的訓練和測試中不再進行變更。
與空間位移相同,在第2階段的超聲機器人姿態(tài)控制決策中,智能體輸出的指令為超聲探頭在機器人坐標系下的2維力矩矢量,力矩矢量同樣被變換為超聲探頭在機器人坐標系下的角度變量。與超聲探頭的空間運動不同,在姿態(tài)調(diào)整過程中智能體期望感知的力矩盡量小,以實現(xiàn)超聲探頭與目標表面之間的垂直關(guān)系,進一步可以實現(xiàn)對機器人空間姿態(tài)的調(diào)整,超聲成像任務的控制器示意圖如圖2所示。
圖2 面向超聲成像任務的機器人柔性控制策略
最終,控制器輸出的力值為智能體直接輸出的變量,而該變量為智能體在訓練過程中獲得輸出與環(huán)境之間的映射,而不需要通過實時調(diào)整控制器的參數(shù)實現(xiàn)機器人的柔性控制。此過程與實際人工操作超聲探頭的控制過程更類似。
本節(jié)對所提智能超聲機器人系統(tǒng)進行了搭建。本系統(tǒng)包含1個6自由度輕型通用機械臂,1個6自由度力/力矩傳感器,1個紅綠藍(E11攝像, ??低?彩色相機和1個無線超聲探頭。其中機械臂部分采用了協(xié)作式6自由度機器人(優(yōu)傲UR3,UNIVERAL ROBOT)。機器人的最后一個關(guān)節(jié)末端安裝了一個具有6自由度的高精度力/力矩傳感器(FT300 Force/Torque Sensor, Robotiq)以采集超聲探頭與接觸面之間的接觸力與力矩,該力傳感器的力與力矩噪聲分別為1 N和0.005 N·m,在此被認為可以滿足超聲成像過程中的力與力矩檢測需求。
在超聲探頭方面,采用了一臺無線超聲成像設備(A7-1型無線探頭式黑白B超儀,恒騰醫(yī)療),固定在傳感器上作為整個超聲成像機器人的末端執(zhí)行器。機械臂、傳感器以及超聲探頭之間的坐標、重心、質(zhì)量關(guān)系被預先標定,以保證系統(tǒng)控制的準確性。在視覺傳感器方面,由于在提出的場景信息感知方法不需要高精度的視覺采集設備或3維場景重建設備,也不需要進行準確的空間坐標標定,因此使用了普通RGB相機作為場景圖像采集設備,相機所在位置只需要與仿真環(huán)境中虛擬相機一致即可。所提超聲機器人系統(tǒng)如圖1所示。
首先為了對比本文所提方法與傳統(tǒng)基于路徑規(guī)劃控制方法的超聲成像效果,本部分對兩種方式在不同環(huán)境中的超聲成像過程進行了評估。對比實驗環(huán)境的設置為,成像任務中的試驗目標為隨機放置的3個不同形狀的超聲人體模型(以下稱為體模),實驗過程中機器人控制超聲探頭進行成像動作。當機器人在運動終止前獲得目標的穩(wěn)定超聲圖像時,成像任務被認為成功。如果在機器人運動結(jié)束前未獲得超聲圖像,或超聲探頭脫離工作空間或安全力限制,則認為任務失敗。在成功率驗證靜態(tài)實驗中,每個無標記體模被靜態(tài)放置在10個隨機且不同的位置,動態(tài)實驗中的體模被手動向隨機方向移動。
在用于對比的傳統(tǒng)路徑規(guī)劃控制方法中,本文構(gòu)建的對比系統(tǒng)采用了一個高精度立體相機(Ensenso-N35立體相機,德國IDS公司)對體模的3維表面進行重建,并對重建場景中的目標進行識別和分割。進一步通過標定立體相機坐標系與機械臂坐標系獲得3維表面的空間位置并生成規(guī)劃路徑,最終用于控制機械臂運動。在本文的控制方法中,機械臂在智能體的運動指令控制下進行運動,兩種方法面對的成像對象和環(huán)境相同。在靜態(tài)體模成像過程中,3個外形不同的柔軟體模被隨機放置在不同的位置,兩種方法分別對每個體模進行20次成像實驗。此外,本文還對成像環(huán)境分別增加了人為干擾和體模運動,以對比兩種方法對動態(tài)環(huán)境的魯棒性,結(jié)果如表1所示。
表1 強化學習方法與路徑規(guī)劃方法對不同柔性體模的成像成功率對比
結(jié)果顯示,本文所提采用智能體生成運動指令的方法的成像成功率在相對穩(wěn)定的環(huán)境中相比路徑規(guī)劃方法的成像成功率相近,但是有干擾的情況下對比基于路徑規(guī)劃的方法具有更好的成像過程,其主要原因是被重建的場景中超聲探頭對目標遮擋或干擾導致的遮擋而使路徑規(guī)劃產(chǎn)生誤差。其中一例成像過程中的場景以及超聲探頭與體模接觸結(jié)果如圖3所示。
圖3 超聲機器人成像過程中智能體控制和路徑規(guī)劃輸入場景與超聲探頭接觸情況對比
一例超聲機器人在智能體的控制下對移動的未知目標執(zhí)行成像動作的過程如圖4所示。在該過程中(從圖4(a)為開始,圖4(c)為結(jié)束),智能體根據(jù)當前信息做出超聲探頭的成像動作決策并控制超聲探頭的運動,以實現(xiàn)對目標的成像。當超聲探頭與目標接觸并獲得超聲圖像后,探頭保持穩(wěn)定。當目標被手動向未知方向移動時,智能體繼續(xù)做出運動決策并驅(qū)動超聲機器人保持超聲成像過程。期間超聲機器人被手動打斷之后,智能體做出的動作決策驅(qū)動超聲機器人返回目標并繼續(xù)成像動作。該過程說明了所提方法在不需要預先人為路徑規(guī)劃、顯性特征引導和人為干預的情況下,做出與超聲成像任務相關(guān)的運動決策,最終實現(xiàn)超聲自主成像過程。
圖4 超聲機器人在智能體輸出的指令的控制下對動態(tài)目標做出成像動作
其中機器人的運動速度為3 cm/s,在3組靜態(tài)目標成像實驗中,自主超聲成像過程的平均耗時為18.2 s,與手動成像過程相近(<20 s)。為了評估在自主運動控制下的機器人運動效率,將超聲探頭的實際運動路徑和超聲探頭與目標之間的相對距離之間比值定義為效率評估指數(shù)。其中超聲探頭的實際運動路徑是終止前每一步的位移量的累計值。在60次真實超聲機器人空間運動有效重復試驗中,目標被放置在不同的位置,實驗得到的平均效率結(jié)果為95.2±3.1%,該結(jié)果說明在超聲探頭接觸表面前的空間自由度運動中,由智能體輸出動作生成的路徑是高效的。
在超聲探頭成功與被成像表面接觸之后,超聲探頭的空間姿態(tài)根據(jù)末端執(zhí)行器與接觸目標之間輸出的力矩由機器人進行調(diào)整,以實現(xiàn)探頭跟隨人體曲面的掃描過程。與空間動作決策指令不同,該部分的輸入信息僅為力傳感器采集到的力與力矩信息。在訓練過程中,超聲探頭的姿態(tài)在每一次訓練開始時隨機初始化,并且其空間運動指令中只加入了z方向的被期望接觸力以使超聲探頭與目標的表面進行接觸以減少訓練的時間消耗。為了進一步降低真實系統(tǒng)中不可預見的機器人系統(tǒng)錯誤,例如到達機器人的運動奇異點,訓練過程中機器人只通過調(diào)整輸出力矩來學習接觸力和超聲探頭姿態(tài)之間的關(guān)系。在真實機器人上訓練10 h后,訓練得到的強化學習模型直接用于完整的超聲成像任務,沒有再做額外調(diào)整。另外,由于智能體的動作輸出是離散的,過高的決策頻率會導致整體系統(tǒng)發(fā)生震蕩。因此,智能體的決策輸出頻率設置為3 Hz,機器人的控制頻率為120 Hz。超聲圖像的記錄速度為16幀/s。
在這部分實驗中,機器人超聲系統(tǒng)對一個剛度、表面結(jié)構(gòu)、空間位置等所有特性都未知的柔性復雜體模進行了兩個不同方向的持續(xù)掃描動作,探頭在掃描過程中,機器人需要進行6自由度的調(diào)整以完成對曲面的掃描過程。為了對獲取的超聲圖像進行定量評價以驗證提出的控制方法的穩(wěn)定性和有效性,如圖5所示,在掃描過程中,超聲探頭需要以盡量垂直的角度保持與目標表面之間的姿態(tài),其中包括控制運動方向的空間自由度指令執(zhí)行和用于控制角度的姿態(tài)自由度指令執(zhí)行。另外超聲探頭還需要克服柔性表面在接觸過程中產(chǎn)生的形變等不確定問題,保持探頭與表面穩(wěn)定而合適的接觸,進而獲得超聲圖像。
圖5 不確定復雜柔性曲面上兩例超聲機器人成像過程
在超聲探頭的受力評估中,超聲探頭的力矩代表了超聲探頭與體模表面之間的摩擦力,也同時包含了探頭與體模表面接觸點的夾角導致的壓力。由于體模上涂有足夠的耦合劑而具有非常小的摩擦力,因此認為超聲探頭的力矩主要是由探頭與表面之間存在夾角而產(chǎn)生的壓力導致的。兩個不同的超聲掃描過程中探頭的平均受力分析如表2所示。
表2 自主機器人超聲成像過程中超聲探頭受到不同方向的接觸力
結(jié)果顯示在兩次不同的掃描中,超聲探頭在Rx方向和Ry方向的力矩平均值分別為0.035±0.006,0.138±0.0235和-0.059±0.003, 0.084±0.0175。該力矩值表明在掃描過程中探頭與表面之間的夾角保持較小值,且沒有發(fā)生過大的波動。而接觸力較小的標準差表示超聲探頭在接觸表面的過程中在運動自由度和旋轉(zhuǎn)自由度上都保持穩(wěn)定。
在定量化的對比中,本文將超聲圖像序列中的皮膚面積和超聲整體圖像面積的比值定義為評價指標。在機器人超聲成像過程中,機器人獲得超聲圖像中皮膚面積的平均值為3.12 cm2,手動的以相似的軌跡進行采集的超聲圖像的這一數(shù)值為3.44 cm2,與機器人方法在皮膚面積上相差1.14%。此外,機器人采集得到的超聲圖像的皮膚面積的標準差值與超聲圖像中的自手動掃描方法相差0.65%。這兩項指標表明,超聲機器人采集的超聲圖像在有效性和穩(wěn)定性上可以達到人工掃描的水平。另外,該方法獲得的超聲圖像序列中的圖像完整性達到了98.85%,具體結(jié)果如表3所示。
表3 自主超聲機器人掃描和人工掃描圖像中皮膚區(qū)域面積結(jié)果對比
為了進一步驗證所提出的系統(tǒng)和控制方法在對人體進行超聲成像任務中的可行性,使用真實系統(tǒng)進行了志愿者超聲成像實驗。在人體超聲成像過程中,呼吸引起的基線漂移是影響系統(tǒng)控制精度以及成像質(zhì)量的主要因素。對此,志愿者呼吸過程中的腹部區(qū)域被設定為測試區(qū)域。實驗過程中志愿者躺在系統(tǒng)的工作空間內(nèi)的隨機位置以保證成像過程可以進行。超聲探頭和其他環(huán)境的參數(shù)設置與體模實驗中的參數(shù)相同。為了更明顯地評價探頭在人體成像過程中的柔性控制效果以及呼吸對超聲探頭運動造成的影響,實驗過程中志愿者進行深呼吸以使腹部表面發(fā)生明顯變化,實驗過程中如果超聲探頭受到的接觸力超過設定的安全值,則終止實驗過程,機器人恢復到安全位置。實驗的場景圖以及機械臂在z方向上的空間運動曲線如圖6所示。
圖6 自主機器人超聲成像系統(tǒng)對真實人體進行超聲掃描場景
實驗過程中志愿者的身體沒有出現(xiàn)較大的x和y方向位移,因此記錄了超聲探頭在z方向的位置和力的變化。由結(jié)果可知,超聲探頭在z方向的不規(guī)則運動是由呼吸運動引起的。在超聲成像過程中,z方向接觸力的平均值和標準差值分別為10.9 N和4.8 N。標準差值較大說明呼吸運動對接觸力的影響。由于志愿者吸氣和呼氣引起的腹部運動,接觸力的值暫時降低或增加,但仍保持了超聲圖像的穩(wěn)定輸出。整體實驗結(jié)果表明提出的機器人超聲系統(tǒng)可以在志愿者正常呼吸或輕微移動時進行穩(wěn)定的超聲成像動作。為了定量評價超聲探頭在z方向的移動精度,將軟體模型固定在升降平臺上并上下移動,超聲探頭在z方向的平均接觸力為12.1 N。
此外,將志愿者的腰椎部分設置為自主機器人超聲成像測試的目標。將術(shù)前的腰椎圖像進行人工分割,作為超聲圖像中目標匹配的模板,以替代體模的模板。實驗中,由于志愿者的后背被覆蓋且成像區(qū)域與訓練過程中使用的體模相似,因此對志愿者的成像區(qū)域進行成像的強化學習模型與之前體模實驗中訓練得到的模型相同,未經(jīng)進一步訓練。實驗結(jié)果和場景如圖6所示,在志愿者實驗結(jié)果中,志愿者的腰椎在超聲圖像中的適當位置,其中主要結(jié)構(gòu)標志點與模板吻合,并能從超聲圖像中清晰地識別出來,這證明超聲探頭已經(jīng)移動到正確的位置,并與皮膚接觸力可以實現(xiàn)清晰且安全的超聲成像。同樣本文也在志愿者不同部位進行了持續(xù)的超聲成像驗證,結(jié)果顯示本文的超聲機器人可以通過多自由度的姿態(tài)調(diào)整實現(xiàn)在不同部位上人體的掃描,并持續(xù)獲得超聲圖像。
本文針對復雜臨床環(huán)境中超聲機器人智能化和自動化成像過程,以及傳統(tǒng)路徑規(guī)劃運動控制方法面臨的規(guī)劃路徑易被干擾等問題,提出了基于近端策略優(yōu)化的強化學習多自由度超聲機器人系統(tǒng)。該系統(tǒng)在于構(gòu)建一個人工智能體,在不需要人為預先定義路徑或進行干預的情況下輸出超聲機器人復雜的成像動作。通過結(jié)合強化學習原理,針對性地構(gòu)建了空間自由度和姿態(tài)自由度分別運動調(diào)整的運動控制策略。并進一步針對復雜人體柔性表面難以掃描問題,提出了基于導納控制器的力-位移的柔性控制方法,在實驗驗證中,通過進行超聲成像可行性實驗,以及運動效率實驗驗證了所提方法的可行性與決策生成效率。在志愿者實驗中,所提方法可以有效解決呼吸導致的基線漂移問題,以及完成了對志愿者不同身體部位的持續(xù)機器人超聲成像過程。本文所提智能超聲機器人控制方法和系統(tǒng)為臨床智能診斷提供了新型的解決方案。
然而本文仍然存在一些局限性。在本文中機器人的柔性參數(shù)等由人為設定為一個預定值,這些參數(shù)通常決定了系統(tǒng)的剛度特性。雖然本文的方法可以在避免參數(shù)調(diào)整的情況下有效實現(xiàn)柔性控制,但是在一些突發(fā)情況等安全問題下這些參數(shù)仍需要進行閉環(huán)的調(diào)整,這也是本文后續(xù)將要進行的研究。此外除了場景圖像以及力信息以外,超聲圖像同樣是指導機器人進行運動的關(guān)鍵信息,因此在未來的工作中我們將把超聲圖像本身納入對機器人的運動控制指導當中。