【作 者】冷一林,許召輝
1 上海大學(xué)通信與信息工程學(xué)院,上海市,200444
2 中航華東光電(上海)有限公司,上海市,201114
21世紀(jì),外科發(fā)展主要方向是細致微創(chuàng),微創(chuàng)外科手術(shù)憑借創(chuàng)傷小、減輕患者痛苦、術(shù)后恢復(fù)快、降低醫(yī)療成本等諸多優(yōu)點逐步取代了開放式手術(shù),在早期的內(nèi)窺鏡手術(shù)領(lǐng)域中得到了廣泛應(yīng)用。醫(yī)生受到二維圖像引導(dǎo)的術(shù)野限制,缺乏對距離的精確估計,一定程度上增加了手術(shù)的不確定性并對病患的生命安全帶來一定風(fēng)險[1-3]。人體體腔為三維結(jié)構(gòu),三維顯示技術(shù)可在微小創(chuàng)口上還原人體內(nèi)的立體視野,真實反映進行手術(shù)的操作空間,可促進鏡下解剖的正確理解和操作,臟器間距離的正確把握,以及鏡下縫合等細致操作的實現(xiàn)[4],從而協(xié)助醫(yī)生精確實施手術(shù)、提高手術(shù)質(zhì)量、減輕患者創(chuàng)口痛苦、縮短術(shù)后康復(fù)時間,拓展內(nèi)鏡外科的適應(yīng)性。微創(chuàng)手術(shù)可視化發(fā)展經(jīng)歷了從二維平面顯示技術(shù)到三維立體顯示技術(shù)的過程。當(dāng)前三維內(nèi)窺鏡手術(shù)采用了多樣成像系統(tǒng)的三維內(nèi)窺鏡和佩戴式三維顯示設(shè)備,改善了二維內(nèi)窺鏡圖像在深度信息上的缺乏,降低了醫(yī)生操作手術(shù)器械的難度,提高了手術(shù)的準(zhǔn)確性[5]。
培訓(xùn)醫(yī)生學(xué)習(xí)三維成像系統(tǒng)下的手術(shù)操作時,顯示器需要針對多人進行顯示角度的調(diào)整,以達到最優(yōu)的視頻教學(xué)效果,利用Adaboost級聯(lián)器和主動形狀模型主動形狀模型(Active Shape Model,ASM)的傳統(tǒng)人臉識別方法[6]在有遮擋的人臉和側(cè)臉識別上表現(xiàn)較差,引入在目標(biāo)識別方面表現(xiàn)優(yōu)異的YOLO(You Only Look Once)v5深度學(xué)習(xí)算法對教學(xué)場景下的多人臉進行聚類并計算人臉密度中心,調(diào)整顯示器的光柵,能夠有效改善因三維顯示器較窄的視角而低效的手術(shù)教學(xué)。
裸眼三維內(nèi)窺鏡顯示系統(tǒng)給術(shù)者提供雙目視角下獲得的微創(chuàng)手術(shù)場景深度信息,在長時間的手術(shù)過程中能有效緩解術(shù)者的姿態(tài)疲勞和視覺疲勞,協(xié)助更精準(zhǔn)地操作手術(shù)器械,減少術(shù)區(qū)周圍組織的損傷,但是受限于裸眼三維顯示觀看視角小的問題,從三維內(nèi)窺鏡顯示系統(tǒng)的后端顯示角度出發(fā),將一種能夠?qū)崟r跟蹤人眼位置,實時調(diào)整顯示輸出的機制加入顯示終端,保證深度信息的有效展示與自然教學(xué)觀看方式的實現(xiàn)。
裸眼三維內(nèi)窺鏡顯示系統(tǒng)硬件主要由攝像采集模塊、人臉檢測模塊、裸眼三維顯示模塊組成。攝像采集模塊采用攝像頭對教學(xué)場景進行實時拍攝錄制,將帶有學(xué)員人臉的視頻流傳入人臉檢測模塊,人臉檢測模塊使用神經(jīng)網(wǎng)絡(luò)對帶有人臉的圖像進行人臉檢測,將人臉密度中心傳送給裸眼三維顯示模塊,最后經(jīng)過計算獲得需要調(diào)整的光柵角度,控制調(diào)整三維顯示。
裸眼三維顯示模塊包含TFT-LCD液晶面板、狹縫式光柵和液晶光柵驅(qū)動,驅(qū)動部分的現(xiàn)場可編程邏輯門陣列(Field Programmable Gate Array,FPGA)3D信號處理板接收串口傳送的像素排列方式進行處理,控制對應(yīng)液晶光柵圖像子像素進行重新排布,動態(tài)改變最佳視點區(qū)域來實現(xiàn)自適應(yīng)三維顯示的效果。
三維顯示部分采用狹縫式光柵自由立體顯示技術(shù)進行三維顯示,該技術(shù)是目前最為成熟的三維立體顯示技術(shù),相較于體三維和全息顯示,其性能更穩(wěn)定,受環(huán)境干擾影響小,目前也是最為普及的裸眼三維顯示技術(shù)。狹縫式光柵自由立體顯示技術(shù)是基于雙目視差原理的三維立體顯示技術(shù)[7],其顯示器主要由平板顯示屏和光柵精密組合而成,左右眼視圖交錯排列在顯示屏上,光柵將兩類左右眼視圖的光線進行分光,使得觀看者位于合適區(qū)域范圍時,其左右眼能接收到對應(yīng)的左右視圖,然后經(jīng)由大腦處理,將圖像融合成能夠進行三維感知的圖像,使得觀看者獲得立體感知。狹縫光柵自由立體顯示原理,如圖1所示。
圖1 狹縫光柵自由立體顯示原理Fig.1 Slit grating autostereoscopic display principle diagram
我們依據(jù)提出的顯示需求結(jié)合狹縫式光柵原理設(shè)計的裸眼三維內(nèi)窺鏡顯示器的主要參數(shù),如表1所示。
表1 三維顯示模塊主要參數(shù)Tab.1 Main parameters of 3D display module
在設(shè)計的裸眼三維內(nèi)窺鏡顯示系統(tǒng)使用過程中,醫(yī)生可通過操控軟件與內(nèi)窺鏡裸眼三維顯示系統(tǒng)進行交互。系統(tǒng)的軟件功能包括顯示通道的管理和人臉實時檢測兩個功能,如圖2所示。
圖2 裸眼三維內(nèi)窺鏡顯示系統(tǒng)軟件功能Fig.2 Glasses-free 3D endoscope display system software function
1.2.1 顯示通道選擇模塊
考慮到教學(xué)場景下從二維顯示到三維顯示的手術(shù)學(xué)習(xí)過程需要一個學(xué)習(xí)的過渡期,模塊引入2D/3D切換選擇,教學(xué)者可以根據(jù)需求,通過光路的選擇功能,選擇當(dāng)前顯示方式是二維或三維顯示,以便教學(xué)的時候前后對照;同時也引入了左視點圖像和右視點圖像的切換顯示,適時可切換來進行具體病灶的查看和手術(shù)教學(xué),提高教學(xué)效率。
1.2.2 人臉實時檢測模塊
普通的光柵式三維顯示器存在最佳視區(qū)較窄、易串?dāng)_的問題,在手術(shù)教學(xué)環(huán)境下,使盡量多的學(xué)習(xí)人群獲得最佳視區(qū)能夠大大提高教學(xué)效果。人臉實時檢測模塊對前置攝像頭采集到的圖像進行實時人臉檢測,精確標(biāo)記圖像中的人臉坐標(biāo)并計算人臉密度中心,F(xiàn)PGA結(jié)合中心坐標(biāo)和最佳視區(qū)進行計算,進行排圖調(diào)整,實時更新最佳視區(qū)的中心角度,讓更多的人獲得最優(yōu)觀看效果。
在手術(shù)教學(xué)過程中,人臉的角度、光照方向、遮擋面積以及背景比較復(fù)雜,谷東興等[2]提出的基于類哈爾特征的AdaBoost目標(biāo)檢測改進算法在人臉檢測率上達到94.33%,檢測速度大于200 幀/s,在簡單環(huán)境下的人臉檢測表現(xiàn)較好,速度也很快,但當(dāng)人臉角度和姿勢復(fù)雜多樣,環(huán)境光照變化時,其檢測精度大大降低,魯棒性較差。
為解決這一問題,本研究在人臉檢測模塊引入基于深度學(xué)習(xí)的YOLOv5s人臉檢測模型。YOLOv5s具有模型小,僅27 MB大小,速度快,能達到每秒140幀。選用該模塊,人臉識別速度將會得到顯著提高。
YOLOv5s在結(jié)構(gòu)上分為輸入層(Input),主干層(Backbone),頸部層(Neck)和檢測層(Head)。
輸入層包括馬賽克(Mosaic)數(shù)據(jù)增強、自適應(yīng)圖片縮放和自適應(yīng)錨定框計算三部分,它們使模型學(xué)會在更小的范圍內(nèi)識別對象,并將推理速度提高了37%。
主干層是網(wǎng)絡(luò)檢測的主干,主要提取圖像的高中低層的特征。該網(wǎng)絡(luò)主要是采用了隔行采樣拼接結(jié)構(gòu)(Focus)和跨階段局部網(wǎng)絡(luò)結(jié)構(gòu)(Cross Stage Partial Network,CSPnet),降低算力消耗,提高速度的同時將梯度的變化集成到特征圖中,實現(xiàn)更豐富的梯度組合和更少的計算量。
頸部層采用了路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)結(jié)構(gòu),該結(jié)構(gòu)生成的特征金字塔使得頂層特征圖也可以獲得底層帶來的豐富位置信息,由此加強了網(wǎng)絡(luò)特征融合的能力,提升了物體的檢測效果。
檢測層對圖像特征進行預(yù)測,依據(jù)目標(biāo)大小進行分類輸出三組特征圖,生成邊界框并預(yù)測類別。在網(wǎng)絡(luò)訓(xùn)練時,三個特征圖解碼的邊界框全部送入打標(biāo)簽函數(shù),進行后一步的標(biāo)簽以及損失函數(shù)的計算,而在網(wǎng)絡(luò)進行測試時,網(wǎng)絡(luò)會選取一個置信度閾值來過濾掉低閾值邊界框,經(jīng)過非極大值抑制(Non-maximum Suppression,NMS)后輸出整個網(wǎng)絡(luò)的預(yù)測結(jié)果。
這里的損失函數(shù)為GIoU(Generalized IoU Loss)損失函數(shù)[8],它把交并比(Intersection over Union,IoU)設(shè)為回歸的,在保持原有反映錨框相交關(guān)系的同時,解決了IoU無法反映兩個框距離遠近的問題,表達式如式(1)所示。
其中IoU(A,B)表示預(yù)測框A與真實框B的交并比,C為A和B的最小包圍框。
1.2.3 中心視圖調(diào)整模塊
調(diào)整視圖需要根據(jù)人臉密度中心的空間位置進行計算對顯示器像素排列方式進行計算,傳輸給裸眼三維顯示模塊的FPGA硬件驅(qū)動部分,實現(xiàn)最佳視角的調(diào)整,減少眩暈,提高手術(shù)教學(xué)效率。立體顯示視圖中光柵調(diào)整示意,如圖3所示。
圖3 立體顯示視圖中光柵調(diào)整示意Fig.3 Schematic diagram of grating adjustment in stereo display view
本模塊根據(jù)谷東興等[2]的工作進行設(shè)計,將人臉實時檢測子模塊獲得的人臉坐標(biāo)進行聚類,獲得了畫面中人臉密度中心的空間位置坐標(biāo)E(x,y,z),D為左右眼視區(qū)的中心間距,f為光柵到屏幕的距離,故可根據(jù)人眼位置z點計算E點水平方向左右眼視區(qū)的中心間距:
設(shè)n為中間變量,表示間距的倍數(shù):
R為光柵透光比例,由上式可知中心點的位置變化為:
若求Xmove為負,則需反向調(diào)整:
根據(jù)式(2)(4)(5),可計算出對應(yīng)像素的移動單位:
故對應(yīng)像素移動ex個單位即可實現(xiàn)視區(qū)的調(diào)整,獲得最優(yōu)的視場顯示角度。
為了驗證我們設(shè)計的系統(tǒng)性能,對本系統(tǒng)的各個模塊進行單獨的功能驗證實驗,分為顯示通道選擇模塊、人臉識別模塊及中心視圖調(diào)整模塊實驗。
本實驗對裸眼三維顯示器進行顯示視圖的切換,分為2D/3D視圖和左右視圖切換。在顯示器下方有“2D/3D”、“L”和“R”按鈕,“2D/3D”按鈕控制2D/3D視圖的切換,“L”和“R”控制左右視圖的切換,兩者顯示效果,如圖4所示。
圖4 2D/3D顯示和左右顯示視Fig.4 2D/3D display and left and right display view
2.2.1 實驗數(shù)據(jù)及實驗平臺
本研究的實驗數(shù)據(jù)是裸眼三維手術(shù)教學(xué)場景下的人臉檢測的數(shù)據(jù),根據(jù)其特性選用了人臉識別領(lǐng)域公認(rèn)的評測方法與標(biāo)準(zhǔn)FDDB[9]對網(wǎng)絡(luò)進行預(yù)訓(xùn)練,為進一步提高網(wǎng)絡(luò)性能,選用了數(shù)據(jù)量豐富的WiderFace[10]數(shù)據(jù)集對網(wǎng)絡(luò)進行訓(xùn)練,同時采集了100幀手術(shù)教學(xué)場景下的人臉圖片對訓(xùn)練結(jié)果進行測試。
FDDB數(shù)據(jù)集共包含2 845張圖片,包含彩色以及灰度圖,其中的人臉總數(shù)達5 171個[9]。WiderFace共有32 203張圖片,人臉個數(shù)共393 703個。兩個數(shù)據(jù)集的人臉都在比例、角度、遮擋方面具有高度可變性[10]。測試集的100幀圖片中有1 409張人臉,人臉角度、比例、遮擋情況復(fù)雜多樣,均滿足手術(shù)教學(xué)應(yīng)用場景,對于模型具有較好的測試效果。
人臉檢測模塊選用Pytorch進行網(wǎng)絡(luò)架構(gòu),使用GeForce GTX Titan XP GPU,i9-9900K CPU進行運算。
2.2.2 訓(xùn)練方法及驗證
網(wǎng)絡(luò)模型訓(xùn)練階段,初始學(xué)習(xí)率設(shè)置為0.000 1并進行自適應(yīng)調(diào)整,權(quán)重的衰減系數(shù)為0.000 5,批處理大小為64,交并比閾值為0.6。當(dāng)損失趨于穩(wěn)定時,自適應(yīng)降低學(xué)習(xí)率,可減少模型過擬合的問題,逼近最小值。經(jīng)過訓(xùn)練,迭代次數(shù)達到350左右時,模型的損失趨于穩(wěn)定狀態(tài),訓(xùn)練集的準(zhǔn)確率為97.88%,檢測速度為135幀/s,滿足了高精度和實時性的要求。算法性能對比,如表2所示。
表2 算法性能對比Tab.2 Algorithm performance comparison
鑒于目前尚未有關(guān)于裸眼三維顯示視角調(diào)整評價的標(biāo)準(zhǔn),這里參考國際電信聯(lián)盟對顯示器的畫面對比度和亮度進行測試所制定的標(biāo)準(zhǔn),通過三維模式下顯示器最大亮度范圍和最高對比度的角度與實際人臉密度中心的對照,可驗證本系統(tǒng)的視角調(diào)整效果。裸眼三維顯示器的亮度與對比度測量圖,如圖5所示。
圖5 亮度及對比度測量圖Fig.5 Brightness and contrast measurement chart
在普通2D和3D顯示狀態(tài)下,顯示器視場角大于30°,靜態(tài)對比度大于460:1,三維顯示亮度大于283 cd/m2。經(jīng)實驗可得,開啟人臉檢測并調(diào)整顯示器光柵時,人臉密度中心位置與顯示器的亮度中心偏差在1.4 cm范圍內(nèi),與對比度最高處位置偏差在1.7 cm范圍內(nèi),實現(xiàn)了系統(tǒng)的視場調(diào)整功能,滿足應(yīng)用需求。
目前裸眼三維顯示技術(shù)因具有特殊的深度信息,正飛速應(yīng)用到臨床手術(shù)中,醫(yī)生從傳統(tǒng)二維的顯示轉(zhuǎn)到三維顯示進行手術(shù),在這一過程中,需要進行一段時間的學(xué)習(xí),為提高手術(shù)教學(xué)場景下的教學(xué)與學(xué)習(xí)的效率,我們提出了一種裸眼三維手術(shù)教學(xué)顯示系統(tǒng),它通過顯示器前置攝像頭和輕量化高性能的YOLOv5s人臉檢測技術(shù)實時計算顯示器前的人臉密度中心,經(jīng)由圖像處理系統(tǒng)中FPGA信號處理板,接收串口傳送過來的排圖命令,控制對應(yīng)液晶光柵圖像子像素進行重新排布,動態(tài)改變最佳視點區(qū)域來實現(xiàn)自適應(yīng)三維顯示的效果,將最佳視點區(qū)域調(diào)整到人數(shù)較多的角度,減少在教學(xué)過程中的圖像串?dāng)_,使盡量多的人獲得最佳視覺體驗,提高教學(xué)效率。