陶建華,楊明浩,王志良,班曉娟,解 侖,汪云海,曾 瓊, 王 飛, 王紅遷, 劉 斌,韓志帥, 潘 航, 陳文拯
1(模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院 自動(dòng)化研究所),北京 100190)
2(北京科技大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,北京 100083)
3(山東大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 青島 266237)
4(陸軍軍醫(yī)大學(xué) 重慶西南醫(yī)院 信息科,重慶 400038)
醫(yī)療衛(wèi)生信息化建設(shè)進(jìn)程使得外科手術(shù)向微創(chuàng)及精準(zhǔn)化發(fā)展,同時(shí),對(duì)手術(shù)的安全性和舒適性提出了更高的要求.下一代手術(shù)室功能不但要滿足手術(shù)需求,還要體現(xiàn)現(xiàn)代化醫(yī)院的設(shè)施水平、醫(yī)療水平和管理水平,同時(shí)還需要將潔凈化、數(shù)字化和人性化融為一體.現(xiàn)代化手術(shù)室建設(shè)涉及室內(nèi)環(huán)境整合及控制、手術(shù)視音頻信號(hào)采集分配管理、手術(shù)及相關(guān)設(shè)備控制、醫(yī)療影像診斷資料的采集傳輸存儲(chǔ)、醫(yī)院信息系統(tǒng)集成及遠(yuǎn)程交互等多方面的內(nèi)容,是涵蓋醫(yī)院多科室聯(lián)合的綜合系統(tǒng)工程[1],歷史上的國(guó)內(nèi)外手術(shù)室的發(fā)展歷程可大概分為4 個(gè)階段.第1 階段:傳統(tǒng)手術(shù)室,一般是僅能對(duì)病人實(shí)施局部麻醉的小手術(shù),不需要太多的儀器設(shè)備的接入,信息基本都是人工采集記錄.第2 階段:現(xiàn)代手術(shù)室,一般都可實(shí)現(xiàn)對(duì)病人的復(fù)蘇照顧,部分信息化設(shè)備已經(jīng)逐步加以應(yīng)用,可做的手術(shù)越來(lái)越多且相對(duì)復(fù)雜.第3 階段:數(shù)字化手術(shù)室,起源于20 世紀(jì)90 年代,一般就是在目前潔凈手術(shù)室的基礎(chǔ)上,綜合應(yīng)用各種信息化設(shè)備和軟件技術(shù),實(shí)現(xiàn)通過(guò)設(shè)備來(lái)采集數(shù)據(jù)、監(jiān)控病人狀態(tài),部分遠(yuǎn)程示教,實(shí)現(xiàn)部分信息的共享[2].第4 階段:智能數(shù)字化手術(shù)室,實(shí)現(xiàn)手術(shù)室內(nèi)部的非接觸式手術(shù)識(shí)別,遠(yuǎn)程示教、手術(shù)全過(guò)程信息的管理,達(dá)到手術(shù)醫(yī)生可不離開(kāi)手術(shù)臺(tái)即可精準(zhǔn)、實(shí)時(shí)地獲取病人的一切相關(guān)信息,醫(yī)生可通過(guò)信息實(shí)時(shí)、動(dòng)態(tài)地掌握每一個(gè)手術(shù)詳細(xì)的細(xì)節(jié),病人家屬也可相對(duì)更加詳細(xì)地獲得手術(shù)進(jìn)度,下一步實(shí)現(xiàn)人與機(jī)器更加緊密的結(jié)合,共同完成手術(shù)[3].
在上述建設(shè)條件中,無(wú)菌和非接觸環(huán)境是構(gòu)建醫(yī)療手術(shù)室的基本要求,這樣的要求使得計(jì)算機(jī)操作室和手術(shù)室通常在大多數(shù)情況下距離很近,但會(huì)在物理上隔離開(kāi).在手術(shù)中,主治醫(yī)生通常需要查看病灶圖像,如患者手術(shù)前圖像細(xì)節(jié),如血管、神經(jīng)、周圍臨近器官的空間位置等.結(jié)構(gòu)越復(fù)雜的手術(shù),主治醫(yī)生會(huì)在查看病灶上花的時(shí)間越多,以乳腺癌腫瘤手術(shù)切除為例,目前每臺(tái)手術(shù)在上述環(huán)節(jié)總體需要耗時(shí)20 分鐘~1 小時(shí)不等,患者手術(shù)時(shí)間延長(zhǎng)會(huì)導(dǎo)致術(shù)中失血增多,臟器暴露時(shí)間長(zhǎng)會(huì)增加感染,不利于患者的術(shù)后恢復(fù),另外還會(huì)增加手術(shù)后并發(fā)癥的風(fēng)險(xiǎn)[4].傳統(tǒng)手術(shù)中,主治手術(shù)醫(yī)師通常是通過(guò)授意護(hù)士或者手術(shù)助理到計(jì)算機(jī)操作室操作病灶圖像.因?yàn)槭中g(shù)室和計(jì)算機(jī)操作室間的距離,以及手術(shù)室主治醫(yī)生和助理間不熟悉程度可能存在的意圖理解錯(cuò)誤風(fēng)險(xiǎn),容易導(dǎo)致患者手術(shù)時(shí)間延長(zhǎng)、失血增多、臟器暴露時(shí)間長(zhǎng)等風(fēng)險(xiǎn),因此,盡量減少定位到病灶圖像的時(shí)間對(duì)于醫(yī)生和病人都很重要.
近年來(lái),隨著人工智能技術(shù)的發(fā)展,如語(yǔ)音識(shí)別技術(shù)[5,6]、姿態(tài)跟蹤與理解[7-9]、手勢(shì)理解[10-13]、多模態(tài)信息融合技術(shù)等[14-19],這些技術(shù)與方法使得用戶可以通過(guò)非接觸式的方式與計(jì)算機(jī)交互,為建立新型無(wú)菌條件的非接觸式自然交互手術(shù)室提供了方法與技術(shù)上的可能.然而,在手術(shù)室環(huán)境中利用上述技術(shù)仍然存在許多挑戰(zhàn):(1)手術(shù)室環(huán)境要求醫(yī)生的穿戴盡量簡(jiǎn)潔;(2)手術(shù)臺(tái)面以及護(hù)士及助理使得主治醫(yī)生的姿態(tài)處于遮擋環(huán)境,為準(zhǔn)確地進(jìn)行姿態(tài)跟蹤帶來(lái)了挑戰(zhàn);(3)因?yàn)槭中g(shù)環(huán)境血液污染等,為手勢(shì)跟蹤及手勢(shì)的準(zhǔn)確理解帶了困難.盡管最新的人工智能技術(shù)取得了很大進(jìn)展,但要很好地將這些技術(shù)應(yīng)用到新型無(wú)菌條件的非接觸式自然交互手術(shù)室仍然存在諸多困難.有研究認(rèn)為,恰當(dāng)?shù)亩嗤ǖ廊诤系慕换シ绞皆诒磉_(dá)效率和完整性上都要優(yōu)于單一模式[20],因此,如何在上述交互通道上,通過(guò)多通道信息融合的模式建立非接觸交互的智能手術(shù)室,提高手術(shù)環(huán)境下計(jì)算機(jī)對(duì)主治醫(yī)師的交互意圖理解,實(shí)現(xiàn)無(wú)菌狀態(tài)下手術(shù)器械及材料的準(zhǔn)確傳遞與自然、高效率的病灶圖像查閱,在減少傳統(tǒng)手術(shù)室的過(guò)多人環(huán)節(jié)的同時(shí)合理縮短手術(shù)時(shí)間,提高各個(gè)環(huán)節(jié)的效率和質(zhì)量,最大程度地消除無(wú)菌手術(shù)人員和非手術(shù)人員的交流障礙,實(shí)現(xiàn)手術(shù)室內(nèi)部的非接觸式手術(shù)識(shí)別,達(dá)到手術(shù)醫(yī)生可不離開(kāi)手術(shù)臺(tái)即可精準(zhǔn)、實(shí)時(shí)地獲取病人相關(guān)信息,是下一代智能手術(shù)室的重要需求[1-4].針對(duì)上述需求,本文通過(guò)融合遮擋環(huán)境下的深度圖像人體骨架提取、手勢(shì)跟蹤與理解、手術(shù)室環(huán)境遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別,多模態(tài)信息處理與融合技術(shù),構(gòu)建了無(wú)菌條件下的非接觸式多通道自然交互手術(shù)環(huán)境,使得主治醫(yī)生在手術(shù)中可通過(guò)語(yǔ)音命令、手勢(shì)及上述幾種交互方式相結(jié)合快速定位到需要觀察的病灶成像.在接近實(shí)際的實(shí)驗(yàn)環(huán)境中,本文建立的無(wú)菌條件的非接觸式多通道自然交互手術(shù)環(huán)境在保證精度的情況下,可顯著縮短病灶圖像的定位時(shí)間.
本文第2 節(jié)介紹相關(guān)工作.第3 節(jié)介紹無(wú)菌條件下的非接觸式多通道自然交互手術(shù)環(huán)境的技術(shù)總體框架.第4 節(jié)和第5 節(jié)分別介紹面向無(wú)菌自然交互手術(shù)室各單一通道技術(shù)、多通道信息融合相關(guān)理論與方法.第6 節(jié)介紹相關(guān)實(shí)驗(yàn)、結(jié)果及分析.第7 節(jié)給出本文的總結(jié)及展望.
無(wú)菌條件下的非接觸式多通道自然交互手術(shù)環(huán)境主要基于遮擋環(huán)境下的深度圖像人體骨架提取、交互手勢(shì)理解、手術(shù)室環(huán)境遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別,多模態(tài)信息處理與融合技術(shù)等技術(shù)構(gòu)建.本節(jié)介紹相關(guān)技術(shù)工作,并分析目前相關(guān)技術(shù)用于自然交互手術(shù)環(huán)境所存在的挑戰(zhàn).
人體骨架提取算法主要依賴于光學(xué)相機(jī)所采集的圖像或視頻信息,利用圖像或視頻特征算子[21,22]獲取人體二維骨架.然而,此類算法所提取的骨架精度受限于特征算子應(yīng)用假設(shè)的約束,且不可避免具有二維信息場(chǎng)所具備的空間局限性,無(wú)法表達(dá)三維相關(guān)的信息(比如遮擋),因此,難以滿足實(shí)際應(yīng)用需求[23].近年來(lái),隨著三維掃描技術(shù)的日益成熟,愈來(lái)愈多的算法利用三維深度信息提取三維人體骨架,通過(guò)融合激光掃描儀、深度相機(jī)等設(shè)備采集的三維信息,采用幾何處理的辦法提取人體三維骨架.目前,人體骨架提取的研究正逐步由靜態(tài)的簡(jiǎn)單結(jié)構(gòu)化場(chǎng)景向動(dòng)態(tài)的非結(jié)構(gòu)化群體遮擋復(fù)雜場(chǎng)景轉(zhuǎn)化,由二維骨架提取發(fā)展為三維骨架提取.然而,這類方法存在的問(wèn)題在于:激光掃描儀不僅造價(jià)過(guò)高,而且所獲取的點(diǎn)云存在較多噪聲,難以與圖像信息匹配,不適合于復(fù)雜場(chǎng)景;深度相機(jī)由于其硬件的限制,僅能夠獲取一定范圍內(nèi)的深度信息,且無(wú)法精細(xì)化處理遠(yuǎn)距離場(chǎng)景下手勢(shì)等細(xì)粒度應(yīng)用[24,25].
為了從無(wú)標(biāo)記運(yùn)動(dòng)采集數(shù)據(jù)中提取精確的三維人體骨架,深度學(xué)習(xí)理論與技術(shù)的發(fā)展為解決這一問(wèn)題提供了重要思路[26-28].Belagiannis 等人[29]基于手術(shù)室場(chǎng)景中布置的多個(gè)光學(xué)相機(jī)提取人體三維骨架,該方法首先構(gòu)造手術(shù)室場(chǎng)景下的二維人體姿態(tài)庫(kù),利用卷積神經(jīng)網(wǎng)絡(luò),根據(jù)目標(biāo)檢測(cè)所獲取的人體提取相應(yīng)二維骨架,然后基于條件隨機(jī)場(chǎng)(conditional random field)以結(jié)構(gòu)化支持向量機(jī)(structure SVM)及將不同視角獲取的二維姿態(tài)對(duì)應(yīng)到三維人體骨架.然而,該方法依賴于目標(biāo)檢測(cè)算法,其分階段式的三維姿態(tài)估計(jì)(先估計(jì)二維姿態(tài),再轉(zhuǎn)換成三維姿態(tài))易造成不同階段的累積誤差.Kadkhodamohammadi 等人[30]探索了手術(shù)室場(chǎng)景下基于單視角RGB-D 提取人體三維骨架的算法,該方法拓展了傳統(tǒng)骨架提取圖結(jié)構(gòu)(pictorial structure)[31]框架,利用RGB 信息構(gòu)建表面模型以及三維深度約束構(gòu)建形變模型,并提出了差分直方圖作為深度圖像的特征.同年,Kadkhodamohammadi 等人[32]通過(guò)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)提取特征表達(dá)、基于隨機(jī)森林的姿態(tài)及位置先驗(yàn)估計(jì)以及多視角優(yōu)化,更進(jìn)一步地將該算法拓展應(yīng)用至基于多視角RGB-D 的手術(shù)室場(chǎng)景.然而,此類算法受限于深度相機(jī)的數(shù)據(jù)精度以及深度學(xué)習(xí)所需要的標(biāo)記數(shù)據(jù).相比深度相機(jī)采樣尺度限制,二維圖像數(shù)據(jù)具備高精度、高清晰度等特性,能夠從多尺度適應(yīng)手術(shù)室的復(fù)雜環(huán)境.盡管相關(guān)算法取得了一定進(jìn)展,但要準(zhǔn)確地從無(wú)標(biāo)記運(yùn)動(dòng)采集數(shù)據(jù)中提取精確的三維人體骨架,依然是一個(gè)極具挑戰(zhàn)性的問(wèn)題.
手勢(shì)交互首先需要識(shí)別人體手勢(shì),常用的手勢(shì)識(shí)別算法可以是非模板匹配算法,也可以基于模板匹配.模板匹配算法不易混淆手勢(shì),并且在訓(xùn)練數(shù)據(jù)很少的情況下也能夠達(dá)到較高的準(zhǔn)確率.Ruan 等人[33]從動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,簡(jiǎn)稱DTW)算法的約束條件出發(fā)提出了放寬端點(diǎn)對(duì)齊和全局路徑限制的方案,針對(duì)DTW算法,其速度和準(zhǔn)確率都有較大的提升.Chao 等人[34]在傳統(tǒng)DTW 算法的基礎(chǔ)上根據(jù)每個(gè)骨骼節(jié)點(diǎn)對(duì)手勢(shì)貢獻(xiàn)的不同分別推算了加權(quán)距離,提升了識(shí)別準(zhǔn)確率,在復(fù)雜背景和光照方面有很好的魯棒性.Wu 等人基于DTW 和K-means 進(jìn)行人體動(dòng)作匹配和評(píng)估,完成了病人康復(fù)訓(xùn)練系統(tǒng).Pan 等人[35]利用改進(jìn)的DTW 算法實(shí)現(xiàn)了在線人體動(dòng)作識(shí)別,Hiyadi 等人[36]使用自適應(yīng)滑動(dòng)窗口與DTW 結(jié)合的方式,能夠識(shí)別出混合手勢(shì)動(dòng)作中的所有簡(jiǎn)單手勢(shì).由此可見(jiàn),DTW 算法無(wú)需過(guò)多樣本進(jìn)行訓(xùn)練,只需要確定好手勢(shì)模板,便能夠達(dá)到較好的性能,在手勢(shì)識(shí)別結(jié)果的混淆程度上也低于一般的非模板匹配算法,但是它無(wú)法識(shí)別連續(xù)的重復(fù)手勢(shì),這將導(dǎo)致用戶無(wú)法對(duì)同一張圖片進(jìn)行連續(xù)的放大、移動(dòng)等操作.
在非模板匹配算法方面,Zhang 等人[37]通過(guò)支持向量機(jī)(support vector machine,簡(jiǎn)稱SVM)對(duì)Kinect 產(chǎn)生的骨骼數(shù)據(jù)進(jìn)行分類,目前已經(jīng)實(shí)現(xiàn)了22 種姿勢(shì)的識(shí)別.Chen 等人[38]使用SVM 實(shí)現(xiàn)了實(shí)時(shí)識(shí)別人手畫(huà)出的0~9等數(shù)字以及26 個(gè)英文字母,Zhang 等人[39]使用隱馬爾可夫模型(hidden Markov model,簡(jiǎn)稱HMM)[40]實(shí)現(xiàn)了手勢(shì)軌跡的識(shí)別,Song 等人[41]使用高斯混合模型(Gaussian mixture model,簡(jiǎn)稱GMM)和HMM 完成了全身姿勢(shì)的實(shí)時(shí)識(shí)別,Wang 等人[42]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,簡(jiǎn)稱CNN)實(shí)現(xiàn)了大規(guī)模的連續(xù)手勢(shì)識(shí)別,Li 等人[43]使用主成分分析法(principal components analysis,簡(jiǎn)稱PCA)結(jié)合CNN 實(shí)現(xiàn)了對(duì)中國(guó)人表達(dá)數(shù)字的相關(guān)手勢(shì)的識(shí)別,Chavan 等人[44]使用“隨機(jī)森林(random forest,簡(jiǎn)稱RF)”對(duì)印度的手語(yǔ)手勢(shì)進(jìn)行分類,在連續(xù)手勢(shì)中能夠提取表達(dá)手語(yǔ)意義的片段并顯示結(jié)果.這些非模板匹配算法在進(jìn)行手勢(shì)識(shí)別之前都需要進(jìn)行訓(xùn)練,在識(shí)別過(guò)程中容易對(duì)連續(xù)手勢(shì)動(dòng)作產(chǎn)生混淆,若手勢(shì)樣本過(guò)少,將對(duì)非模板匹配相關(guān)算法的性能產(chǎn)生很大影響.
遠(yuǎn)場(chǎng)環(huán)境下錄制的語(yǔ)音會(huì)面臨非平穩(wěn)噪聲和高混響的干擾,從而導(dǎo)致話音質(zhì)量的下降,直接影響到語(yǔ)音識(shí)別的性能.在算法方面,基于麥克風(fēng)陣列的波束形成技術(shù)已得到很多年的發(fā)展,需要解決的核心問(wèn)題是協(xié)方差矩陣的計(jì)算和導(dǎo)向矢量的估計(jì),比較經(jīng)典的方法包括加權(quán)延時(shí)求和法[45]、最小方差失真響應(yīng)法[46]、廣義旁瓣濾波法[47]、多通道維納濾波法[48]等.隨著深度學(xué)習(xí)在語(yǔ)音領(lǐng)域的廣泛應(yīng)用,相繼有一些基于深層神經(jīng)網(wǎng)絡(luò)的多通道語(yǔ)音增強(qiáng)算法[49,50]被提了出來(lái),以實(shí)現(xiàn)對(duì)非平穩(wěn)噪聲和非目標(biāo)方向干擾源的抑制,但上述方法大多受限于硬件結(jié)構(gòu),其性能仍有較大的提升空間;遠(yuǎn)場(chǎng)語(yǔ)音處理中的另一難點(diǎn)是混響抑制,不同房間對(duì)應(yīng)不同的混響函數(shù),仿真生成的混響數(shù)據(jù)和真實(shí)混響數(shù)據(jù)存在較大的差異,使得混響比噪聲更難處理,主流的混響抑制方法包括譜減法[51]、加權(quán)預(yù)測(cè)誤差法[52]、深層神經(jīng)網(wǎng)絡(luò)法[53]等,上述方法雖然能夠抑制混響干擾,但當(dāng)噪聲和混響同時(shí)存在時(shí),算法性能明顯下降.通過(guò)前端和后端聯(lián)合優(yōu)化建模是提高遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別性能的有效途徑[54,55].前端的信號(hào)處理技術(shù)一般只用到當(dāng)前狀態(tài)下的語(yǔ)音的信號(hào)信息,這些信息的利用主要依靠對(duì)聲學(xué)物理規(guī)律的把握,并基于一定的假設(shè),而機(jī)器學(xué)習(xí)的方法能夠利用很多的訓(xùn)練集里學(xué)到的信息來(lái)建模,但是它一般不是基于物理原理的,對(duì)當(dāng)前幀信息的使用比較弱.所以,把這兩種方法比較好地融合在一起是目前很多研究機(jī)構(gòu)發(fā)力的一個(gè)方向.一種典型的方式是把前端的信號(hào)處理與后端的語(yǔ)音識(shí)別引擎進(jìn)行更好的聯(lián)合優(yōu)化[56],前端信號(hào)處理有可能丟失信息且不可在后端恢復(fù),而分別優(yōu)化的策略可能對(duì)于前端來(lái)說(shuō)是最優(yōu)的,但對(duì)于整個(gè)系統(tǒng)未必是最優(yōu)選項(xiàng).因此需要一種有效的建模方法,以使前端可以有效提升信號(hào)質(zhì)量但同時(shí)比較少地丟失信息,而把一些剩余的噪聲留給更強(qiáng)大的后端來(lái)處理,從而提升整體性能[57,58].
多通道信息融合方法按照發(fā)生的時(shí)間順序,可以分為前期融合和后期融合;按照信息融合的層次來(lái)分,融合可以分別發(fā)生在數(shù)據(jù)(特征)層、模型層及決策層;如果按照處理方法來(lái)分,可分為基于規(guī)則的融合,或者基于統(tǒng)計(jì)(機(jī)器學(xué)習(xí)方法)的融合.也有文獻(xiàn)根據(jù)多通道信息的相關(guān)性,把它們的關(guān)系分為信息互補(bǔ)、信息互斥、信息冗余這樣幾個(gè)特點(diǎn),然后根據(jù)其信息特點(diǎn)分別加以融合.
數(shù)據(jù)層、特征層、決策層的融合方法偏重于模型的設(shè)計(jì),同時(shí),在多模態(tài)信息融合的計(jì)算方法中大都通過(guò)采用基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法進(jìn)行模型的構(gòu)建,如貝葉斯決策模型、神經(jīng)網(wǎng)絡(luò)模型、圖模型等等.貝葉斯決策模型的特點(diǎn)在于其能夠根據(jù)不完全情報(bào),對(duì)部分未知的狀態(tài)采用主觀概率估計(jì),然后用貝葉斯公式對(duì)發(fā)生概率進(jìn)行修正,最后利用期望值和修正概率做出最優(yōu)決策[59].在多種通道信號(hào)聯(lián)合分布概率部分已知的情況下,貝葉斯決策模型可以根據(jù)歷史經(jīng)驗(yàn)反演得到某些缺失的信號(hào),從而得到整個(gè)多通道信號(hào)融合整體最優(yōu)評(píng)估.傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型在非線性函數(shù)擬合方面表現(xiàn)出很好的性能,并在單一通道的信息處理上,深度神經(jīng)網(wǎng)絡(luò)模型取得了很好的效果,因此,很多研究者希望綜合不同的神經(jīng)網(wǎng)絡(luò)模型,如LSTM、CNN、RNN 結(jié)構(gòu),構(gòu)建面向多通道信息融合的大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型,力圖在融合階段無(wú)差別地處理多通道信息.圖模型將概率計(jì)算和圖論結(jié)合在一起,提供較好的不確定性計(jì)算工具,其構(gòu)成上的節(jié)點(diǎn)以及節(jié)點(diǎn)之間的連線,使其在計(jì)算變量與周圍相連變量的關(guān)系上具有一定優(yōu)勢(shì).相對(duì)于無(wú)向圖模型,有向圖模型節(jié)點(diǎn)之間的連線不僅記憶了數(shù)據(jù)流向,還記錄有學(xué)習(xí)過(guò)程中的狀態(tài)跳轉(zhuǎn)概率,有向圖模型除了可以用于不確定性計(jì)算外,還可用于面向時(shí)序問(wèn)題的決策推理,如基于動(dòng)態(tài)貝葉斯模型模仿產(chǎn)生人類對(duì)文字的書(shū)寫(xiě)過(guò)程[60]等.除了以上多通道信息融合計(jì)算模型外,還有很多其他模型也用于多通道信息融合,如多層支持向量機(jī)、決策回歸樹(shù)、隨機(jī)森林等方法.
整個(gè)算法框架如圖1 所示,輸入部分主要為包含姿態(tài)、手勢(shì)、語(yǔ)音的3 個(gè)主治醫(yī)師交互通道信息.姿態(tài)模塊用于在遮擋條件下準(zhǔn)確地提取人體的框架,進(jìn)而識(shí)別出醫(yī)生的姿態(tài);手勢(shì)模塊用于獲取醫(yī)生的手部動(dòng)作并識(shí)別出特定的手勢(shì);語(yǔ)音模塊完成基于麥克風(fēng)陣列的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別,并轉(zhuǎn)化成指令.3 個(gè)輸入模塊的信息進(jìn)行多通道的信息融合,實(shí)現(xiàn)醫(yī)生的意圖分類和理解,將分類結(jié)果通過(guò)交互界面反饋給醫(yī)生,下面分別介紹各單一模態(tài)信息處理技術(shù)及信息融合方法.
Fig.1 The framwwork of non contact multi-channel natural interactive surgical environment under eterile condition圖1 無(wú)菌條件非接觸式多通道自然交互手術(shù)環(huán)境整體研究框架
手術(shù)室場(chǎng)景存在較多的環(huán)境干擾(比如非自然燈光、復(fù)雜手術(shù)設(shè)備以及缺乏紋理信息的手術(shù)服),且場(chǎng)景中醫(yī)生、護(hù)士、病人等人員彼此之間存在大量復(fù)雜的遮擋及自遮擋關(guān)系,是動(dòng)態(tài)的非結(jié)構(gòu)化群體復(fù)雜場(chǎng)景.因此,如何在手術(shù)室群體復(fù)雜場(chǎng)景下高精度地提取人體骨架是一個(gè)極具挑戰(zhàn)性的問(wèn)題.另外,手術(shù)室場(chǎng)景具有環(huán)境多樣、遮擋復(fù)雜等特性,除此以外,由于手術(shù)情況下應(yīng)該盡可能地減少“侵入性”設(shè)備的使用,手術(shù)場(chǎng)景下的數(shù)據(jù)采集系統(tǒng)通常都是無(wú)標(biāo)記的運(yùn)動(dòng)采集系統(tǒng)(比如光學(xué)相機(jī)、深度相機(jī)),給手術(shù)場(chǎng)景下提取人體三維骨架提出了更高要求.因此,我們認(rèn)為手術(shù)室場(chǎng)景應(yīng)該充分利用光學(xué)相機(jī)采集的二維圖像信息.然而,由二維圖像估計(jì)三維人體骨架是一個(gè)病態(tài)問(wèn)題,盡管深度學(xué)習(xí)為解決該問(wèn)題提供了有利工具,但卻面臨著三維姿態(tài)訓(xùn)練數(shù)據(jù)缺失的問(wèn)題.為此,我們提出了一種全自動(dòng)的、大規(guī)模人體姿勢(shì)空間采樣并生成人體三維姿勢(shì)訓(xùn)練集合的算法,基于深度學(xué)習(xí)端對(duì)端特性從單張二維圖像中全自動(dòng)地提取三維人體骨架.該算法主要涉及人體三維姿態(tài)數(shù)據(jù)集合成、人體三維姿態(tài)回歸以及人體三維骨架提取這三大步驟.
(1)人體三維姿態(tài)數(shù)據(jù)集合成
針對(duì)三維人體骨架訓(xùn)練數(shù)據(jù)極難標(biāo)注的問(wèn)題,我們?cè)谌S模型集合上大規(guī)模地渲染人體圖片及相應(yīng)骨架標(biāo)簽.我們認(rèn)為,合成數(shù)據(jù)集中的人體姿態(tài)分布應(yīng)當(dāng)與真實(shí)圖像中的人體姿態(tài)分布相一致.為了更為完整地覆蓋整個(gè)人體空間,需要根據(jù)已有動(dòng)作推斷自然連續(xù)的未知?jiǎng)幼?我們發(fā)現(xiàn),自然動(dòng)作往往與聯(lián)合變化的人體部位相關(guān)(比如胳膊的前臂和后臂),可通過(guò)組合人體部位生成新的姿態(tài).因此,我們利用基于運(yùn)動(dòng)捕捉設(shè)備捕獲的姿態(tài)以及二維圖像中恢復(fù)的姿態(tài)為樣本,學(xué)習(xí)了一個(gè)稀疏的、非參數(shù)化的貝葉斯模型[61]以分解人體姿態(tài)表達(dá),通過(guò)組合人體子關(guān)節(jié)結(jié)構(gòu)生成新的姿態(tài),從而生成更為豐富的模型表達(dá).由此獲取的人體三維姿態(tài)利用現(xiàn)有算法(如SCAPE 模型[62])生成三維模型,通過(guò)添加不同的紋理貼圖能夠生成豐富的人體姿態(tài)圖像.經(jīng)過(guò)人體姿態(tài)采樣與紋理遷移后,我們能夠合成不同姿態(tài)、不同紋理的人體模型,通過(guò)改變渲染視角、渲染背景燈,能夠合成與真實(shí)圖片高度一致的二維圖像.多樣化二維圖像與人體三維姿態(tài)的對(duì)應(yīng),為基于深度學(xué)習(xí)的單幅圖像三維人體骨架的提取提供了數(shù)據(jù)基礎(chǔ).
(2)人體三維姿態(tài)回歸域遷移網(wǎng)絡(luò)
為了避免由于真實(shí)圖像與合成圖像的差異所帶來(lái)的過(guò)擬合、最大優(yōu)化訓(xùn)練性能,我們提出一種域遷移網(wǎng)絡(luò)回歸真實(shí)圖像中的人體三維姿態(tài),其核心思想在于將渲染圖像與真實(shí)圖像投影到相同特征空間,從而縮小渲染圖像與真實(shí)圖像集之間的分布差異.如圖2 藍(lán)色虛線部分所示,該域遷移網(wǎng)絡(luò)主要包括3 部分結(jié)構(gòu):特征提取器、姿態(tài)回歸器以及域間分類器.特征提取器主要負(fù)責(zé)提取圖像特征,采用了AlexNet[63]的conv1 到pool5 層作為特征提取網(wǎng)絡(luò)(這里可用其他卷積神經(jīng)網(wǎng)絡(luò)代替).該特征被同時(shí)輸入至姿態(tài)回歸器及域間分類器,其中,姿態(tài)回歸器用于判別三維姿態(tài).域間分類器用于判別高維特征的真實(shí)性,以促使特征提取器提取與真實(shí)圖像一致的特征.
域遷移網(wǎng)絡(luò)采用對(duì)抗網(wǎng)絡(luò)分階段訓(xùn)練思想訓(xùn)練模型,輸入包含具有三維姿態(tài)標(biāo)簽的渲染圖像以及沒(méi)有三維姿態(tài)標(biāo)簽的真實(shí)圖像.訓(xùn)練分為兩個(gè)階段:第1 個(gè)階段(圖2 上半部分所示),我們固定特征提取器,輸出特定的特征用于訓(xùn)練姿態(tài)回歸器和域間分類器.姿態(tài)回歸器用于回歸三維姿態(tài),域間分類器用于判別圖像類別(即真實(shí)圖像還是合成圖像).第2 個(gè)階段(圖2 下半部分所示),我們固定域間分類器,訓(xùn)練特征提取器和姿態(tài)回歸器.這里,要求特征提取器輸出一種新的特征,該特征能夠保持下述約束:(1)可用于姿態(tài)回歸器回歸三維姿態(tài);(2)域間分類器能夠依據(jù)該特征輸出(0.5,0.5)的類別判斷,該約束的目的在于“迷惑”域間分類器,使其無(wú)法判別出圖片類別.訓(xùn)練域遷移網(wǎng)絡(luò)至域間分類器無(wú)法判別圖像類別,則說(shuō)明真實(shí)圖像和合成圖像的特征屬于同一特征空間,縮小了合成圖像與真實(shí)圖像特征之間的差異.該過(guò)程域遷移網(wǎng)絡(luò)整體損失函數(shù)如公式(1)所示,Lreg為回歸損失(即所估計(jì)的三維姿態(tài)與真實(shí)三維姿態(tài)之間的距離),Ldomain為域遷移損失(分兩階段訓(xùn)練,其中,第1 階段固定特征提取器參數(shù),目標(biāo)是獲得不錯(cuò)的姿態(tài)回歸,并能夠區(qū)分渲染圖像與真實(shí)圖像;第2 階段固定域間分類器的參數(shù),目標(biāo)是獲取新特征,混淆域間分類器).
(3)人體三維骨架提取
對(duì)于人體三維骨架提取,我們采取AlexNet[35]網(wǎng)絡(luò)結(jié)構(gòu),利用生成的渲染數(shù)據(jù)及人體三維姿態(tài)坐標(biāo)去訓(xùn)練新的模型.為了使現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)適應(yīng)于人體三維姿態(tài)估計(jì)任務(wù),我們修改了這些網(wǎng)絡(luò)的最后一層,使其能夠直接輸出三維坐標(biāo),并在推斷的三維骨架和真實(shí)三維姿態(tài)中間添加一層歐幾里德?lián)p失函數(shù)(見(jiàn)公式(5)),在訓(xùn)練過(guò)程中對(duì)全連接層進(jìn)行微調(diào)以使得參數(shù)從一個(gè)良好的初始值去適應(yīng)新的面向手術(shù)室的人體三維骨架提取任務(wù).
Fig.2 Occlusion-oriented skeleton extraction domain migration network圖2 面向遮擋添加下骨架提取的域遷移網(wǎng)絡(luò)
為了準(zhǔn)確理解無(wú)菌條件下的醫(yī)生交互的手勢(shì),本文在一般改進(jìn)的DTW 算法的基礎(chǔ)上,采用基于后驗(yàn)處理的優(yōu)化方式,該方式通過(guò)參數(shù)調(diào)控、無(wú)效區(qū)域判定以及靜止手勢(shì)處理對(duì)DTW 的輸出結(jié)果進(jìn)行修正,加快DTW的執(zhí)行速度,將混淆手勢(shì)作為無(wú)效手勢(shì)處理,提升了手勢(shì)識(shí)別率,并能夠?qū)崿F(xiàn)DTW 算法無(wú)法處理的連續(xù)重復(fù)手勢(shì)的識(shí)別,在實(shí)時(shí)性方面亦有較好的表現(xiàn).
(1)手勢(shì)特征提取
Kinect 骨骼系統(tǒng)提供了20 個(gè)關(guān)節(jié)點(diǎn)的三維坐標(biāo)信息,如果將所有關(guān)節(jié)點(diǎn)都作為特征點(diǎn),計(jì)算會(huì)過(guò)于復(fù)雜,關(guān)節(jié)點(diǎn)之間也會(huì)相互干擾.因此,本方法舍去了一些在手勢(shì)序列中作用不明顯的骨骼關(guān)節(jié)點(diǎn),降低了計(jì)算的復(fù)雜度,提高了識(shí)別速度.定義了7 個(gè)常用操作手勢(shì),分別為右手向右滑動(dòng)、右手向左滑動(dòng)、右手向上滑動(dòng)、右手向下滑動(dòng)、雙手向外擴(kuò)張、雙手向內(nèi)收攏、左手向左滑動(dòng).在這7 種手勢(shì)中,最重要的參考節(jié)點(diǎn)為右手關(guān)節(jié)、右肘關(guān)節(jié)、左手關(guān)節(jié)、左肘關(guān)節(jié)、雙肩中心以及脊柱中央這6 個(gè)節(jié)點(diǎn).記第t幀編號(hào)為i的關(guān)節(jié)點(diǎn)的坐標(biāo)為分別表示第t幀編號(hào)為i的關(guān)節(jié)點(diǎn)在以Kinect 為原點(diǎn)的三維坐標(biāo)系下的x,y,z的值.
由于在手勢(shì)操作過(guò)程中變化的點(diǎn)僅為右手關(guān)節(jié)、右肘關(guān)節(jié)、左手關(guān)節(jié)、左肘關(guān)節(jié),因此以這4 個(gè)節(jié)點(diǎn)作為特征向量,雙肩中心及脊柱中央節(jié)點(diǎn)作為參考節(jié)點(diǎn),第t幀的特征向量S可表示為
式(8)中,xsc,t,ysc,t,zsc,t將節(jié)點(diǎn)坐標(biāo)進(jìn)行歸一化,記歸一化后第t幀編號(hào)為i的節(jié)點(diǎn)坐標(biāo)為
則第t幀進(jìn)行中心化和歸一化的特征向量V可表示為
(2)手勢(shì)模板序列的訓(xùn)練
本文采用DTW 進(jìn)行手勢(shì)模板序列的訓(xùn)練.DTW 算法的核心是將測(cè)試序列與模板序列進(jìn)行匹配,因此,手勢(shì)模板的選擇將會(huì)很大程度上影響匹配的結(jié)果.本文用如下方法來(lái)確定手勢(shì)模板序列,每個(gè)模板序列長(zhǎng)度均為20幀.設(shè)樣本序列k=(V1,V2,V3,…,V20),根據(jù)已經(jīng)定義的7 種手勢(shì)動(dòng)作,每種手勢(shì)采集n個(gè)樣本K=(V1,V2,V3,…,Vm,…,Vn).對(duì)于每個(gè)樣本km,依次與其余n–1 個(gè)樣本使用DTW 進(jìn)行匹配.記待測(cè)樣本km與樣本k1,k2,k3,…之間的DTW距離為d1,…,dm,則待測(cè)樣本km的累計(jì)規(guī)整距離為然后對(duì)每個(gè)手勢(shì)類別下的樣本進(jìn)行計(jì)算,便可確定所有類別手勢(shì)的模板序列.
將每一個(gè)樣本均使用式(11)計(jì)算其累計(jì)規(guī)整距離D1,D2,D3,…,Dn,累計(jì)規(guī)整距離越小,說(shuō)明樣本的代表性就越強(qiáng),并以此作為確定所有類別手勢(shì)的模板依據(jù).
針對(duì)手術(shù)室環(huán)境這一特殊的應(yīng)用場(chǎng)景,因?yàn)獒t(yī)生難以通過(guò)手持麥克風(fēng)直接進(jìn)行語(yǔ)音交互,同時(shí),頭戴式麥克風(fēng)目前也不是國(guó)內(nèi)外手術(shù)室的基本配置,因此需要選擇麥克風(fēng)陣列作為拾音設(shè)備,采集不同方位的語(yǔ)音進(jìn)行增強(qiáng)處理,在此基礎(chǔ)上識(shí)別音頻中的內(nèi)容.本文采用這種端到端的建模方法以提高手術(shù)室這種復(fù)雜環(huán)境下語(yǔ)音識(shí)別的性能,從而實(shí)現(xiàn)在手術(shù)室環(huán)境下,醫(yī)生能夠釋放雙手進(jìn)行語(yǔ)音交互.
(1)語(yǔ)音前端處理
語(yǔ)音前端處理模塊的順序是回聲消除、混響消除、波束形成、增益控制,然后在此基礎(chǔ)上進(jìn)行后端處理,接下來(lái)介紹采用這種順序的原因:回聲消除模塊有參考信號(hào)源(比如遠(yuǎn)端喇叭播放的手術(shù)控制指令)可以參考,通過(guò)回聲消除模塊可以剔除遠(yuǎn)端信號(hào)的干擾,遠(yuǎn)端信號(hào)的干擾(比如播放手術(shù)控制指令)會(huì)影響到混響消除和波束形成算法的性能,因此,對(duì)于每一路麥克風(fēng),首先進(jìn)行回聲消除以消除其中一個(gè)干擾源的影響.在此基礎(chǔ)上進(jìn)行混響消除,混響消除放到波束形成之前的原因是混響與房間的特性相關(guān),不同麥克風(fēng)之間的關(guān)系可以反映出這種空間特性,因此,采用多通道混響消除方法;然后對(duì)多通道信號(hào)進(jìn)行波束形成,生成單通道的信號(hào);再對(duì)波束形成后生成的單通道信號(hào)進(jìn)行后置濾波,消除殘留噪聲的干擾.聲音在傳輸過(guò)程中可能會(huì)存在能量的衰減和溢出,通過(guò)增益控制算法對(duì)能量進(jìn)行控制,生成最終經(jīng)前端處理后輸出的語(yǔ)音,用于后端語(yǔ)音識(shí)別或指令詞識(shí)別的處理.語(yǔ)音前端處理流程如圖3 所示.
(2)語(yǔ)音后端建模
面向手術(shù)室環(huán)境的語(yǔ)音識(shí)別系統(tǒng)由聲學(xué)模型訓(xùn)練模塊、語(yǔ)言模型訓(xùn)練模塊和超大空間解碼3 個(gè)相互制約的部分組成;聲學(xué)模型訓(xùn)練模塊通過(guò)深度學(xué)習(xí)方法提升語(yǔ)音識(shí)別器的聲學(xué)模型的泛化能力;語(yǔ)言模型訓(xùn)練模塊通過(guò)融合Grammer 和N-gram 信息的方法在大規(guī)模數(shù)據(jù)集下訓(xùn)練魯棒的語(yǔ)言模型.超大空間解碼子系統(tǒng)針對(duì)戰(zhàn)場(chǎng)環(huán)境的特點(diǎn),通過(guò)高效約簡(jiǎn)的解碼算法,快速、有效地從復(fù)雜搜索空間中確定最優(yōu)路徑,保證語(yǔ)音識(shí)別器的準(zhǔn)確率和運(yùn)行速度.語(yǔ)音識(shí)別系統(tǒng)能夠支持在線對(duì)聲學(xué)模型和語(yǔ)言模型更新,從而提高對(duì)特定環(huán)境的適應(yīng)能力.多通道語(yǔ)音識(shí)別流程如圖3 所示,聯(lián)合通用領(lǐng)域的聲學(xué)模型和面向手術(shù)室環(huán)境的解碼網(wǎng)絡(luò)進(jìn)行語(yǔ)音識(shí)別,通過(guò)并行訓(xùn)練方法訓(xùn)練基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,通過(guò)遷移學(xué)習(xí)機(jī)制,實(shí)現(xiàn)對(duì)領(lǐng)域知識(shí)的更新,快速構(gòu)建面向手術(shù)室環(huán)境的解碼網(wǎng)絡(luò),面向手術(shù)室環(huán)境域的語(yǔ)音識(shí)別解碼方案如圖4 所示.
Fig.3 Far-field speech recognition front-end flow operating圖3 遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別前端處理流程
Fig.4 Speech recognition decoding for processing room environment domain圖4 面向手術(shù)室環(huán)境域的語(yǔ)音識(shí)別解碼
無(wú)菌手術(shù)環(huán)境中,在非接觸式的自然交互情況下,由于語(yǔ)音識(shí)別的錯(cuò)誤、姿態(tài)、手勢(shì)受到遮擋,因此,交互系統(tǒng)難以統(tǒng)一單一模態(tài)信息,精確地判斷醫(yī)生的操作意圖.為了提高交互系統(tǒng)中對(duì)醫(yī)生意圖識(shí)別的準(zhǔn)確率,我們將多模態(tài)信息融合的不同策略引入神經(jīng)網(wǎng)絡(luò)模型.隨著計(jì)算機(jī)技術(shù)和深度學(xué)習(xí)的快速發(fā)展,結(jié)構(gòu)更深的神經(jīng)網(wǎng)絡(luò)模型在語(yǔ)音識(shí)別、人機(jī)對(duì)話、機(jī)器翻譯、語(yǔ)義理解、目標(biāo)識(shí)別、手勢(shì)檢測(cè)與跟蹤、人體檢測(cè)與跟蹤等領(lǐng)域得到廣泛應(yīng)用.如在情感識(shí)別領(lǐng)域,采用相似度評(píng)估,目前采用深度長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型(long short-term memory neural network,簡(jiǎn)稱LSTM)由計(jì)算機(jī)運(yùn)行后得到的最好結(jié)果與專業(yè)人士識(shí)別相差10%左右[64,65];在語(yǔ)音識(shí)別領(lǐng)域,目前針對(duì)方言口音的語(yǔ)音識(shí)別,深度遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,簡(jiǎn)稱RNN)在字識(shí)別準(zhǔn)確度上可以達(dá)到95%[66],接近人類水平;在圖像目標(biāo)識(shí)別領(lǐng)域,超大規(guī)模深度卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,簡(jiǎn)稱CNN)已經(jīng)超過(guò)普通人類辨識(shí)水平[67,68].深度神經(jīng)網(wǎng)絡(luò)模型技術(shù)在單一通道的數(shù)據(jù)處理上已經(jīng)取得很好的成效,但是,如何構(gòu)建面向多通道信息融合的大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型,在融合階段無(wú)差別地處理多通道信息仍然是目前研究的熱點(diǎn)問(wèn)題.
為了更為精準(zhǔn)地實(shí)現(xiàn)交互系統(tǒng)在手術(shù)室環(huán)境中對(duì)醫(yī)生意圖的識(shí)別,將多模態(tài)信息應(yīng)用于深度神經(jīng)網(wǎng)絡(luò),考慮到不同通道圖像、語(yǔ)音、手勢(shì)、生理信息的差異性,因此,在融合結(jié)構(gòu)上,通過(guò)在特征層進(jìn)行融合,具體的融合策略的抽象表示如圖5 所示.
Fig.5 Multi-modal information fusion for operating room environment圖5 面向手術(shù)室環(huán)境的多模態(tài)信息融合
圖像數(shù)據(jù)主要是用于手術(shù)室復(fù)雜場(chǎng)景下人體的骨架提取,采用深度學(xué)習(xí)端對(duì)端特性從單張二維圖像中全自動(dòng)地提取三維人體骨架特征,該特征包含了54 維參數(shù)的人體骨架特征;手勢(shì)數(shù)據(jù)對(duì)應(yīng)為Kinect 獲取的手勢(shì)信息,由于手勢(shì)操作主要是通過(guò)觀察人手的右手關(guān)節(jié)、右肘關(guān)節(jié)、左手關(guān)節(jié)、左肘關(guān)節(jié)而實(shí)現(xiàn),故我們將這4 個(gè)節(jié)點(diǎn)作為特征向量,雙肩中心及脊柱中央節(jié)點(diǎn)作為參考節(jié)點(diǎn),構(gòu)建20 維特征向量作為手勢(shì)特征;將采用麥克風(fēng)陣列進(jìn)行遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別獲取的數(shù)據(jù)作為音頻數(shù)據(jù),通過(guò)構(gòu)建端到端的建模方法在每幀的音頻數(shù)據(jù)中提取64 維的音頻特征.在多通道信息特征提取的過(guò)程中,由于不同通道信息數(shù)據(jù)采集的頻率并不相同,因此需要對(duì)不同通道的數(shù)據(jù)進(jìn)行不同的采樣,并加以特征融合,構(gòu)建融合特征向量,然后采用深度學(xué)習(xí)的方法對(duì)特征向量進(jìn)行分類,以判斷當(dāng)前狀態(tài)下醫(yī)生的意圖.
6.1.1 定量結(jié)果分析
(1)人體三維骨架提取結(jié)果分析
如前文所述,訓(xùn)練數(shù)據(jù)集的好壞直接影響到卷積神經(jīng)網(wǎng)絡(luò)提取人體三維骨架的性能,該算法的核心貢獻(xiàn)在于提出了一個(gè)大規(guī)模人體三維骨架數(shù)據(jù)集.為此,我們用不同的標(biāo)準(zhǔn)化卷積神經(jīng)網(wǎng)絡(luò)模型(Li14[28]、AlexNet 以及VGG[69]),分別在經(jīng)典Human3.6M 數(shù)據(jù)集[70]、我們的數(shù)據(jù)集以及二者混合這3 個(gè)數(shù)據(jù)集上對(duì)人體三維骨架網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并在Human3.6D+測(cè)試集評(píng)估各種方法及數(shù)據(jù)對(duì)應(yīng)的人體三維骨架提取性能.如圖6 中左圖所示結(jié)果,用本文數(shù)據(jù)集訓(xùn)練的模型要優(yōu)于用Human 3.6M 數(shù)據(jù)集訓(xùn)練的模型;Human3.6D+數(shù)據(jù)測(cè)試集合中圖像的變化更為豐富,表明本文所合成的數(shù)據(jù)集能夠更好地訓(xùn)練模型學(xué)習(xí)這些變化.
Fig.6 Quantitative results analysis圖6 定量結(jié)果分析
圖6 的左圖分析了在運(yùn)用不同卷積神經(jīng)網(wǎng)絡(luò)模型的情況下,本文方法與Human3.6M 數(shù)據(jù)集在Human3D+測(cè)試集上生成的人體三維骨架測(cè)試結(jié)果;右圖為域遷移網(wǎng)絡(luò)結(jié)果分析,通過(guò)對(duì)不同方法使用混合數(shù)據(jù)(合成數(shù)據(jù)以及/或者真實(shí)數(shù)據(jù))分析域遷移網(wǎng)絡(luò)性能.可以看到,本文提出的域遷移網(wǎng)絡(luò)不需要真實(shí)圖像的三維人體姿態(tài)標(biāo)簽,因此,在訓(xùn)練過(guò)程中可通過(guò)添加大量真實(shí)圖像抑制過(guò)擬合現(xiàn)象.如圖6 中右圖所示,經(jīng)過(guò)域遷移網(wǎng)絡(luò)訓(xùn)練的合成圖像及三維姿態(tài),其模型在基準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)模型上有著極大的提升,僅次于使用真實(shí)圖像及真實(shí)三維姿態(tài)的結(jié)果,并且,網(wǎng)絡(luò)結(jié)構(gòu)明顯優(yōu)于經(jīng)典域遷移網(wǎng)絡(luò)[71].其原因在于,域遷移網(wǎng)絡(luò)能夠訓(xùn)練出更好的特征提取器,從真實(shí)圖像和合成圖像中提取出更為有意義的特征.
6.1.2 定性結(jié)果分析
利用深度學(xué)習(xí)由二維圖像生成三維人體骨架,核心在于構(gòu)建大規(guī)模二維圖像與相對(duì)應(yīng)的三維人體姿態(tài)標(biāo)注數(shù)據(jù)集.因此,我們構(gòu)建了Human3D+數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包含1 574 幅豐富的人體運(yùn)動(dòng)動(dòng)作二維圖像及三維人體姿態(tài)坐標(biāo),能夠較好地描述真實(shí)圖像的分布.除此以外,我們根據(jù)現(xiàn)有人體三維骨架數(shù)據(jù)庫(kù)中的姿態(tài)數(shù)據(jù),合成了10 556 個(gè)具有獨(dú)特紋理及姿態(tài)的人體模型,經(jīng)過(guò)背景與光照渲染,合成5 099 405 幅訓(xùn)練圖像用于網(wǎng)絡(luò)訓(xùn)練.
對(duì)于單幅二維圖像,可利用本文提出的算法獲取三維人體骨架.圖7 展現(xiàn)了一組從單幅圖像生成三維人體骨架的實(shí)驗(yàn)室結(jié)果,其中第1 列和第3 列為輸入圖像疊加了人體骨架的圖像(圓球?yàn)槿梭w主要關(guān)節(jié)點(diǎn)),第2 列和第4 列為利用現(xiàn)有算法(如SCAPE 模型)匹配并重建的三維模型.
Fig.7 Extraction effect of multi-human skeleton with partly occlusion圖7 遮擋條件下的多人骨架提取效果圖
6.2.1 正確性驗(yàn)證
為了驗(yàn)證本文基于后驗(yàn)處理的DTW 優(yōu)化方法仍具有較高的可行性,首先對(duì)孤立手勢(shì)識(shí)別的正確率進(jìn)行驗(yàn)證.本系統(tǒng)定義了7 種操作手勢(shì),圖8 展示了實(shí)驗(yàn)所用手勢(shì)的示意圖.每幅圖片右上方顯示出對(duì)應(yīng)的手勢(shì)動(dòng)作,“NoGesture”表示手勢(shì)落在無(wú)效區(qū)域內(nèi).
Fig.8 Gesture schematics and invalid areas圖8 手勢(shì)示意圖及其無(wú)效區(qū)域
使用傳統(tǒng)DTW 算法、文獻(xiàn)[42]提出的改進(jìn)DTW 算法和本文基于后驗(yàn)處理的DTW 優(yōu)化方法分別進(jìn)行實(shí)驗(yàn),按照識(shí)別出來(lái)的獨(dú)立手勢(shì)名稱進(jìn)行統(tǒng)計(jì),其混淆矩陣對(duì)比情況見(jiàn)表1.
由混淆矩陣對(duì)比可以看出,傳統(tǒng)DTW 算法在進(jìn)行連續(xù)重復(fù)手勢(shì)處理時(shí),無(wú)法區(qū)分正確手勢(shì)與無(wú)關(guān)手勢(shì),從而導(dǎo)致系統(tǒng)執(zhí)行了非常多的錯(cuò)誤指令,其指令正確率幾乎都低于50%,對(duì)于雙手動(dòng)作的指令正確率更是低至42%.文獻(xiàn)[42]提出的改進(jìn)DTW 方法對(duì)連續(xù)重復(fù)手勢(shì)的處理效果比傳統(tǒng)DTW 略有提升,基于后驗(yàn)處理的DTW優(yōu)化方法對(duì)于連續(xù)重復(fù)手勢(shì)的處理效果則要好得多,指令正確率普遍高于96%.使用G-Mean 指標(biāo)作為識(shí)別結(jié)果好壞的評(píng)價(jià)標(biāo)準(zhǔn),分別用指令正確率IA 和識(shí)別率RR 代替式(24)中的召回率REC,則可以得到“指令正確率”和“識(shí)別率”的G-Mean 值,以此作為綜合指令正確率和綜合識(shí)別率.經(jīng)計(jì)算后,傳統(tǒng)DTW 算法的綜合指令正確率、綜合識(shí)別率分別為51.18%和87.14%,文獻(xiàn)[42]提出的改進(jìn)DTW 方法的綜合指令正確率、綜合識(shí)別率分別為56.75%和89.04%,基于后驗(yàn)處理優(yōu)化的DTW 算法綜合指令正確率、綜合識(shí)別率分別為98.56%和97.12%.實(shí)驗(yàn)結(jié)果表明,本文提出的后驗(yàn)處理優(yōu)化方法能夠有效識(shí)別用戶的連續(xù)重復(fù)手勢(shì),在指令正確率和識(shí)別率上都優(yōu)于傳統(tǒng)DTW 算法.
Table 1 Comparison of confusion matrices for continuous gesture recognition based on two methods表1 兩種方法的連續(xù)手勢(shì)識(shí)別混淆矩陣對(duì)比
6.2.2 實(shí)時(shí)性檢測(cè)
5 名志愿者依次做一組由7 個(gè)手勢(shì)隨機(jī)組合的動(dòng)作,編號(hào)為序列1、序列2、序列3、序列4、序列5.記錄每個(gè)手勢(shì)開(kāi)始和首次識(shí)別成功時(shí)刻對(duì)應(yīng)的幀編號(hào),求其差值便可計(jì)算出識(shí)別每個(gè)手勢(shì)所用的時(shí)間.表2 記錄了5個(gè)序列進(jìn)行測(cè)試時(shí)每個(gè)手勢(shì)從開(kāi)始到成功識(shí)別經(jīng)過(guò)的幀數(shù)及估計(jì)時(shí)間.
Table 2 The timeliness of real-time gesture recognition based on posterior processing DTW optimization method表2 本文基于后驗(yàn)處理的DTW 優(yōu)化方法進(jìn)行實(shí)時(shí)手勢(shì)識(shí)別的時(shí)效性
實(shí)驗(yàn)結(jié)果表明,本文提出的基于后驗(yàn)處理的DTW 優(yōu)化方法可在大約200ms~300ms 的時(shí)間延遲內(nèi)給出識(shí)別結(jié)果并控制系統(tǒng)進(jìn)行相關(guān)操作,能夠滿足識(shí)別實(shí)時(shí)性的要求.
(1)實(shí)驗(yàn)數(shù)據(jù)
本文采用實(shí)測(cè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)結(jié)果評(píng)估,該數(shù)據(jù)集在手術(shù)室環(huán)境下實(shí)際錄制,測(cè)試集中共包括2 000 句樣本,包括100 個(gè)說(shuō)話人,平均信噪比為5dB,平均混響時(shí)間為300ms;訓(xùn)練集采用仿真生成的遠(yuǎn)場(chǎng)數(shù)據(jù)進(jìn)行訓(xùn)練,包括2 000 小時(shí)的訓(xùn)練數(shù)據(jù),信噪比覆蓋0dB、5dB、10dB、15dB,混響時(shí)間涉及100ms、200ms、300ms、400ms 和500ms.麥克風(fēng)陣列設(shè)備采用6+1 的環(huán)形陣列.測(cè)試樣本主要包括醫(yī)院手術(shù)相關(guān)命令詞匯,如“開(kāi)始手術(shù)”“打開(kāi)設(shè)備”“到第8 頁(yè)”“監(jiān)控心電圖”“準(zhǔn)備麻醉”等.
(2)實(shí)驗(yàn)設(shè)置
本文在語(yǔ)音識(shí)別工具Kaldi 的基礎(chǔ)上進(jìn)行開(kāi)發(fā)和實(shí)驗(yàn),實(shí)驗(yàn)共采用兩種特征:mel 頻率倒譜系數(shù)(MFCC)和mel 標(biāo)度濾波器組特征(FBANK).提取特征的窗長(zhǎng)為25ms,幀移為10ms.MFCC 特征為13 維,加上其一階和二階差分統(tǒng)計(jì)量,共39 維.FBANK 特征為40 維,加上其一階和二階差分統(tǒng)計(jì)量,共120 維.特征的均值方差歸一化以說(shuō)話人為單位進(jìn)行.所有GMM-HMM 的輸入為MFCC,所有神經(jīng)網(wǎng)絡(luò)模型的輸入為FBANK.就本文所涉及到的神經(jīng)網(wǎng)絡(luò)模型而言,其損失函數(shù)為交叉熵,優(yōu)化準(zhǔn)則為隨機(jī)梯度下降(SGD).DNN 模型采用反向傳播(BP)算法進(jìn)行訓(xùn)練.BLSTM 模型采用隨時(shí)間反向傳播(BPTT)算法進(jìn)行訓(xùn)練.LSTM 模型采用截?cái)嗟碾S時(shí)間反向傳播(truncatedBPTT)算法進(jìn)行訓(xùn)練.本文實(shí)驗(yàn)所用語(yǔ)言模型為三元文法語(yǔ)言模型,詞表大小為100G;解碼的搜索空間基于加權(quán)有限狀態(tài)轉(zhuǎn)換器(WFST)進(jìn)行構(gòu)建,搜索策略為束搜索(beam-search)算法.
(3)基線方法
基線方法中前端采用加權(quán)延時(shí)求和方法進(jìn)行增強(qiáng)處理,后端分別采用DNN和LSTM-RNN進(jìn)行聲學(xué)模型訓(xùn)練;所有DNN 模型均含有7 個(gè)隱層,每個(gè)隱層含有2 048 個(gè)節(jié)點(diǎn).LSTM-RNN 模型含有5 個(gè)隱層,每個(gè)隱層包含640 個(gè)單元.DNN 模型的初始學(xué)習(xí)速率為0.008,LSTM-RNN 的初始學(xué)習(xí)速率為0.000 01,沖量值均設(shè)為0.9.
(4)實(shí)驗(yàn)結(jié)果對(duì)比
本文前端波束形成采用廣義旁瓣濾波方法,去混響采用加權(quán)預(yù)測(cè)誤差方法,采用深層神經(jīng)網(wǎng)絡(luò)進(jìn)行單通道語(yǔ)音增強(qiáng)處理.本文采用的方法將DNN 和LSTM-RNN 兩種聲學(xué)模型輸出的后驗(yàn)概率進(jìn)行融合,通過(guò)聯(lián)合建模的方式提高語(yǔ)音識(shí)別的性能.實(shí)驗(yàn)結(jié)果見(jiàn)表3.
Table 3 Comparison of speech recognition experiments表3 語(yǔ)音識(shí)別實(shí)驗(yàn)結(jié)果對(duì)比
針對(duì)“本文前端+模型融合”的模型,在不同距離下進(jìn)行了語(yǔ)音識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表4.
Table 4 Comparison of speech recognition under different distances表4 不同距離條件下語(yǔ)音識(shí)別實(shí)驗(yàn)結(jié)果對(duì)比
(5)實(shí)驗(yàn)結(jié)果分析
通過(guò)對(duì)比表3、表4 中的實(shí)驗(yàn)結(jié)果可知,語(yǔ)音前端處理對(duì)于提升語(yǔ)音識(shí)別的性能起著非常關(guān)鍵的作用,本文采用的廣義旁瓣濾波方法通過(guò)自適應(yīng)波束形成可以有效地增強(qiáng)目標(biāo)方向的聲音,同時(shí),通過(guò)加權(quán)預(yù)測(cè)誤差消除了遠(yuǎn)場(chǎng)語(yǔ)音的干擾,在此基礎(chǔ)上,通過(guò)深層神經(jīng)網(wǎng)絡(luò)模型有效地消除了非平穩(wěn)噪聲的干擾,因此,相比于延時(shí)求和這種固定波束形成方法,有效地提升了語(yǔ)音識(shí)別的性能.同時(shí),本文采用的模型融合策略,可以有效提升聲學(xué)模型的建模精度,融合后的模型結(jié)合了DNN 和LSTM-RNN 兩種模型的優(yōu)勢(shì),從而提升了語(yǔ)音識(shí)別在真實(shí)環(huán)境下的魯棒性.
根據(jù)各單一通道技術(shù)與融合的要求,本文設(shè)計(jì)并接近真實(shí)地構(gòu)建了整個(gè)無(wú)菌條件非接觸式多通道自然交互手術(shù)環(huán)境,設(shè)計(jì)時(shí),要充分考慮各單一模態(tài)和融合計(jì)算的需求.系統(tǒng)的各個(gè)組成部件選用標(biāo)準(zhǔn)的硬件和軟件,采用模塊化設(shè)計(jì),使系統(tǒng)可以通過(guò)增加模塊的方式進(jìn)行擴(kuò)容.無(wú)菌條件非接觸式多通道自然交互手術(shù)環(huán)境整體布局的要求如下:(1)節(jié)約手術(shù)室空間,使手術(shù)室更為簡(jiǎn)潔,便于遠(yuǎn)場(chǎng)語(yǔ)音信息采集及姿態(tài)和手勢(shì)獲取;(2)采用四分屏50 吋顯示器可實(shí)現(xiàn)閱片,顯示監(jiān)護(hù)儀、內(nèi)窺鏡等設(shè)備的圖像,方便獲取手術(shù)信息;(3)全景攝像方便手術(shù)室內(nèi)場(chǎng)景實(shí)時(shí)監(jiān)控;(4)嵌入式一體化工作站節(jié)約空間,雙屏設(shè)計(jì),便于操作;(5)雙26 吋內(nèi)窺顯示器,可用于內(nèi)窺鏡手術(shù)場(chǎng)景.圖9 給出了無(wú)菌條件非接觸式多通道自然交互手術(shù)環(huán)境設(shè)計(jì)與真實(shí)場(chǎng)景圖.
Fig.9 Aseptic sonditional contactless multichannel natural interaction durgery environment design (left)and real scene map (right)圖9 無(wú)菌條件非接觸式多通道自然交互手術(shù)環(huán)境設(shè)計(jì)(左)與真實(shí)場(chǎng)景圖(右)
在醫(yī)院手術(shù)環(huán)境的交互過(guò)程中,交互系統(tǒng)對(duì)醫(yī)生的意圖識(shí)別的準(zhǔn)確度和速度十分重要.根據(jù)無(wú)菌條件非接觸式多通道自然交互手術(shù)的設(shè)計(jì)及搭建的真實(shí)場(chǎng),本文設(shè)置了10 種自然的醫(yī)生手勢(shì)動(dòng)作,根據(jù)在不同操作視框的定義,可以實(shí)現(xiàn)呈線性倍數(shù)數(shù)量的指令,完全滿足系統(tǒng)的交互模式.本實(shí)驗(yàn)通過(guò)對(duì)比姿態(tài)、手勢(shì)、語(yǔ)音等單一通道信息和多通道信息融合條件下系統(tǒng)對(duì)醫(yī)生意圖識(shí)別的準(zhǔn)確度和速度,并分析在不同單一通道和多通道融合對(duì)醫(yī)生意圖識(shí)別的影響,發(fā)現(xiàn)在交互過(guò)程中,雖然基于單一通道的手勢(shì)、語(yǔ)音信息能夠使得系統(tǒng)在對(duì)醫(yī)生意圖識(shí)別時(shí)取得較好的準(zhǔn)確度和速度,但是相對(duì)而言,基于多通道信息融合的效果會(huì)更好.實(shí)驗(yàn)結(jié)果見(jiàn)表5 和表6.
Table 5 Accuracy of doctor intention recognition based on single channel information and multi-channel information fusion (%)表5 單一通道信息和多通道信息融合對(duì)醫(yī)生意圖識(shí)別準(zhǔn)確率(%)
從實(shí)驗(yàn)結(jié)果可以看出,單一通道條件下,由于手勢(shì)信息較為復(fù)雜,但手術(shù)室環(huán)境噪聲較小,所以系統(tǒng)在基于手勢(shì)交互的基礎(chǔ)上對(duì)醫(yī)生意圖的識(shí)別率比語(yǔ)音較低,但在某些較為簡(jiǎn)單的手勢(shì)動(dòng)作上,如“確定”“上一張”“下一張”的準(zhǔn)確度并不比語(yǔ)音信息差.而在識(shí)別的時(shí)間方面,較為復(fù)雜的手勢(shì)動(dòng)作同樣不占優(yōu)勢(shì),但是對(duì)簡(jiǎn)單手勢(shì)動(dòng)作而言,它們的識(shí)別速度仍然比語(yǔ)音來(lái)得更快.在此基礎(chǔ)上,將不同通道的信息進(jìn)行融合后,系統(tǒng)無(wú)論是在時(shí)間性能上,還是在意圖理解的準(zhǔn)確度上都會(huì)有比較明顯的提升.并且,相較于通過(guò)授意護(hù)士或者手術(shù)助理到計(jì)算機(jī)操作室操作的方式(以乳腺癌腫瘤手術(shù)為例,護(hù)士或者手術(shù)助理到計(jì)算機(jī)操作室定位到病灶圖像平均約1 分鐘),本文的定位方法平均不超過(guò)2s,可以看到,采用多通道信息融合方式來(lái)識(shí)別醫(yī)生的意圖,可以更快地定位到病灶圖像.
由于在手術(shù)室的操作環(huán)境中,多通道信息的融合處理的結(jié)果主要是為醫(yī)生在手術(shù)時(shí)提供便捷的交互環(huán)境,因此在交互過(guò)程中,醫(yī)生對(duì)多通道信息融合結(jié)果的滿意程度也很重要.因此,我們邀請(qǐng)了4 位醫(yī)生以及32 位助理人員對(duì)多通道信息融合交互系統(tǒng)的結(jié)果進(jìn)行體驗(yàn)和評(píng)測(cè),每人至少進(jìn)行3 輪以上的有效操作,最后在其他評(píng)測(cè)結(jié)束后,要求每個(gè)體驗(yàn)醫(yī)生對(duì)結(jié)果進(jìn)行滿意度投票,總共5 個(gè)選項(xiàng),分別是很滿意、滿意、一般、不太滿意和很不滿意,其統(tǒng)計(jì)分布如圖10 所示.
由圖10 所示評(píng)測(cè)結(jié)果可知,66.67%的測(cè)試人員對(duì)多通道信息融合的結(jié)果體驗(yàn)感覺(jué)滿意或者很滿意,而只有16.67%的醫(yī)生對(duì)體驗(yàn)不太滿意或者很不滿意.從用戶的主觀評(píng)測(cè)角度來(lái)看,醫(yī)生對(duì)多通道信息融合的交互體驗(yàn)比較不錯(cuò),能夠獲得大多數(shù)體驗(yàn)醫(yī)生的認(rèn)可.
Table 6 Speed of doctor intention recognition based on single channel information and multi-channel information fusion表6 單一通道信息和多通道信息融合對(duì)醫(yī)生意圖識(shí)別的速度
Fig.10 Evaluation of doctors for multimodal information fusion experience圖10 醫(yī)生對(duì)多模態(tài)信息融合體驗(yàn)滿意度評(píng)測(cè)
實(shí)驗(yàn)結(jié)果表明,在接近實(shí)際的實(shí)驗(yàn)環(huán)境中,通過(guò)融合遮擋環(huán)境下的深度圖像人體骨架提取、手勢(shì)跟蹤與理解、手術(shù)室環(huán)境遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別,多模態(tài)信息處理與融合技術(shù),無(wú)菌條件下的非接觸式多通道自然交互手術(shù)環(huán)境相對(duì)于傳統(tǒng)的通過(guò)護(hù)士或者手術(shù)助理到計(jì)算機(jī)操作室操作病灶圖像的方式,能夠明顯地節(jié)省時(shí)間,使得主治醫(yī)生在手術(shù)中可通過(guò)語(yǔ)音命令、手勢(shì)及上述交互相結(jié)合的方式快速定位到需要觀察的病灶成像.本文建立的無(wú)菌條件的非接觸式多通道自然交互手術(shù)環(huán)境在保證精度的情況下,為建立下一代未來(lái)高效的手術(shù)室提供了技術(shù)與方法驗(yàn)證,可極大地方便醫(yī)生的手術(shù)過(guò)程,縮短平均手術(shù)時(shí)間.但無(wú)菌條件下的非接觸式多通道自然交互手術(shù)環(huán)境距離把人機(jī)交互技術(shù)魯棒地應(yīng)用到臨床還有一定距離,未來(lái)進(jìn)一步的工作主要包括:(1)進(jìn)一步優(yōu)化語(yǔ)音識(shí)別技術(shù),更加準(zhǔn)確地融合手勢(shì),更加準(zhǔn)確地識(shí)別手術(shù)醫(yī)師的意圖;(2)進(jìn)一步引入三維手術(shù)影像導(dǎo)航技術(shù),與多模態(tài)交互手段相融合,做到面向交互的更逼真的臨床展示.