徐珂 陳智勇
摘 要:文章設(shè)計了基于卷積神經(jīng)網(wǎng)絡(luò)的腹腔鏡下軟組織器官表面的無監(jiān)督學(xué)習(xí)深度估計網(wǎng)絡(luò),并根據(jù)視差圖像進行三維重建。實驗結(jié)果表明,提出的深度估計網(wǎng)絡(luò)所計算產(chǎn)生的視差圖像為稠密有效的,根據(jù)視差圖像進行三維重建結(jié)果較好,視差圖像的SSIM的量化值為0.7626±0.0476,PSNR的量化值為16.0916±3.3080。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);無監(jiān)督學(xué)習(xí);深度估計;三維重建
中圖分類號:TP391 文獻標(biāo)志碼:A 文章編號:2095-2945(2018)22-0016-03
Abstract: In this paper, an unsupervised learning depth estimation network based on convolutional neural network (CNN) for soft tissue surface under laparoscope is designed, and 3D reconstruction is carried out according to parallax image. The experimental results show that the disparity images calculated by the proposed depth estimation network are dense and effective, and the results of 3D reconstruction based on the disparity images are better. The quantization value of SSIM of disparity images is 0.7626±0.0476, and the quantized value of parallax images is 16.0916±3.3080.
Keywords: convolutional neural network (CNN); unsupervised learning; depth estimation; 3D reconstruction
1 概述
腹部微創(chuàng)手術(shù)相對于傳統(tǒng)開腹手術(shù)具有出血少,創(chuàng)傷小等特點。2D腹腔鏡不具有深度信息,而雙目立體匹配方法可將產(chǎn)生含深度信息的3D圖像。因而雙目立體匹配深度估計成為微創(chuàng)手術(shù)的重要研究方向。三維重建是以深度估計為基礎(chǔ),腹腔鏡下組織器官表面的三維重建方法可分為兩大類:傳統(tǒng)立體匹配方法和基于神經(jīng)網(wǎng)絡(luò)的立體匹配方法。
傳統(tǒng)立體匹配方法。馬波濤[1]使用灰度差和統(tǒng)計變換的方法計算左右圖像所對應(yīng)的區(qū)域;高艷艷[2]使用Harris、SIFT、SURF對離體軟組織器官進行基于特征的立體匹配等。這類方法下的三維重建的計算時間上較長,且匹配計算得到的深度圖準(zhǔn)確度不高。
基于神經(jīng)網(wǎng)絡(luò)的立體匹配方法。羅等人[4]在通過計算左右兩幅圖像中匹配塊的相似性來進行三維重建;Antal[3]將左右肝臟體膜的像素點的按照通道上的強度值組成3維坐標(biāo)作為輸入,通過監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的方法計算視差圖像;周等人[5]等人采用無監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)方法聯(lián)合訓(xùn)練了一個單目視差深度估計網(wǎng)絡(luò);Garg等人[6]使用Alexnet網(wǎng)絡(luò)結(jié)構(gòu)來估計視差圖像。由于腹腔鏡下腹部組織器官的金標(biāo)準(zhǔn)難以獲取,所以,無監(jiān)督學(xué)習(xí)更適合于腹腔鏡下雙目三維重建。
2 雙目深度估計方法
我們首先使用無標(biāo)簽的已經(jīng)校準(zhǔn)的腹腔鏡下雙目立體圖像數(shù)據(jù)訓(xùn)練了一個基于無監(jiān)督學(xué)習(xí)的雙目稠密深度估計網(wǎng)絡(luò),輸入數(shù)據(jù)到我們已經(jīng)訓(xùn)練好的模型上,產(chǎn)生視差圖像,根據(jù)視差圖像進行三維重建。
2.1 無監(jiān)督雙目深度估計網(wǎng)絡(luò)
我們使用自編碼網(wǎng)絡(luò)來實現(xiàn)我們的模型。自編碼網(wǎng)絡(luò)包含兩部分:編碼器網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò)。我們借鑒了Disp-Net網(wǎng)絡(luò)[7]和V-Net網(wǎng)絡(luò)[8]方法,在解碼器網(wǎng)絡(luò)中,我們設(shè)計了14層卷積層,前4層卷積層的卷積核大小為7、7、5、5,剩下層的卷積核大小全為3,并采用了多尺度[9][10]網(wǎng)絡(luò)結(jié)構(gòu);在編碼器網(wǎng)絡(luò)中,我們使用了7層反卷積、7層卷積級聯(lián)層和視差產(chǎn)生層,并將后四層反卷積網(wǎng)絡(luò)中計算產(chǎn)生的預(yù)測的視差圖進行上采樣和級聯(lián)拼接,并將跳躍連接層引入到解碼器網(wǎng)絡(luò)中。雙目深度估計網(wǎng)絡(luò)如圖1所示。
2.2 雙目深度估計損失函數(shù)
2.3 實驗細(xì)節(jié)
實驗數(shù)據(jù)來自Hamlyn中心的腹腔鏡視頻數(shù)據(jù)集[12]。我們在Nvidia Tesla P100 GPU(16GB)服務(wù)器上使用TensorFlow框架實現(xiàn)了我們的無監(jiān)督雙目深度估計網(wǎng)絡(luò)。我們在網(wǎng)絡(luò)中使用了Relu激活函數(shù)和Adam隨機優(yōu)化器,epoch為50,初始學(xué)習(xí)率設(shè)置為10-4,批大小為16,總計訓(xùn)練時間約6小時,訓(xùn)練圖像的分辨率為256×128。
3 實驗結(jié)果
我們將實驗結(jié)果和已公開的結(jié)果進行了比較,如圖3所示。
因數(shù)據(jù)集沒有金標(biāo)準(zhǔn)數(shù)據(jù),因此,我們將此數(shù)據(jù)集上最佳結(jié)果Siamese[12]作為金標(biāo)準(zhǔn),并使用結(jié)構(gòu)相似性(SSIM)和峰值信噪比(PSNR)來評估結(jié)果。如表2所示,我們統(tǒng)計了測試集中7191張圖像的不同方法的評估結(jié)果。
我們根據(jù)左圖像和左圖像所對應(yīng)的視差圖進行三維重建。三維重建結(jié)果如圖3所示。
4 結(jié)束語
如圖3和表2所示,可以看到我們的方法比basic方法好,通過深度估計網(wǎng)絡(luò)計算產(chǎn)生的視差圖是稠密有效的。從圖3(c)上,我們的方法稠密的重建出腹部組織器官表面的手術(shù)場景圖。在本文中,我們設(shè)計了基于卷積神經(jīng)網(wǎng)絡(luò)的端到端無監(jiān)督深度估計網(wǎng)絡(luò)并應(yīng)用于腹部組織器官的深度估計中,計算產(chǎn)生了稠密的視差圖像,三維重建結(jié)果較好。在今后的研究中,我們將嘗試融合[13]不同場景下的深度估計網(wǎng)絡(luò),使用融合后的網(wǎng)絡(luò)估計腹腔鏡下組織器官表面的視差圖像,以產(chǎn)生更為魯棒的深度估計網(wǎng)絡(luò)和更為準(zhǔn)確的視差圖像。
參考文獻:
[1]馬波濤.基于雙目立體視覺的心臟軟組織三維重構(gòu)技術(shù)研究[D].電子科技大學(xué),2017.
[2]高艷艷.雙目內(nèi)窺鏡三維重建方法的研究[D].天津工業(yè)大學(xué),2017.
[3]Antal B. Automatic 3D point set reconstruction from stereo endoscopic images using deep neural networks[C]. Proceedings of the 6th International Joint Conference on Pervasive and Embedded Computing and Communication Systems, 2016:116-121.
[4]Luo W J, Chwing A G S. Efficient Deep Learning for Stereo Matching[C]. In: IEEE Conference on computer Vision and Pattern Recongnition, 2016:5695-5713.
[5]Zhou T H, Brown M, Snavely N, et al. Unsupervised Learning of Depth and Ego-Motion from Video[C]. In CVPR, arXiv preprint arXiv:1704.07813,2017.
[6]Garg R, Carneiro G, Reid I, et al. Unsupervised CNN for single view depth estimation: geometry to the rescue[C]. In CVPR, 2016:740-756.
[7]Mayer N, Ilg E, Hausser P, et al. A large dataset to train convolution networks for disparity, optical flow, and scene flow estimation[C].In CVPR, 2016:4040-4048.
[8]Milletari F, Navab N, Ahmadi SA. V-Net: Fully convolutional neural networks for volumetric medical image segmentation. arXiv preprint arXiv:1704.07813,2017.
[9]Eigen D, Puhrsch C and Fergus R. Depth map prediction from a single image using a multi-scale deep network[C]. The 28th Conference on Neural Information Processing Systems, 2014:2366-2374.
[10]Godard C, Aodha O M, Brostow G J. Unsupervised monocular depth estimation with left-right consistency[C]. In CVPR, 2017:6602-6611.
[11]Jaderberg M, Simonyan K, Zisserman A, et al. Spatial transformer networks[C]. Neural Information Processing Systems Conference. 2015.
[12]Ye M, Johns E, Handa A, et al. Self-supervised Siamese learning on stereo image pairs for depth estimation in robotic surgery[C]. Hamlyn Symposium on Medical Robotics, 2017:1-2.
[13]Dai W, Yang Q, Xue G R, Yu Y. Boosting for transfer learning[J]. International Conference on Machine Learning, 2007,238(6):193-200.