孫芳芳,張 玲,梁樂(lè)平
(空軍軍醫(yī)大學(xué)第二附屬醫(yī)院,西安 710038)
甲狀腺結(jié)節(jié)是指甲狀腺內(nèi)出現(xiàn)一個(gè)或多個(gè)組織結(jié)構(gòu)異常的團(tuán)塊,是最常見(jiàn)的結(jié)節(jié)性病變之一[1]。超聲成像檢查具有無(wú)創(chuàng)、低成本、無(wú)電離輻射、可實(shí)時(shí)成像等特點(diǎn),被廣泛用于檢測(cè)和診斷甲狀腺疾病,為臨床早期診療方式的選擇提供了很大的幫助。因此,深入了解甲狀腺結(jié)節(jié)的超聲圖像組學(xué)特征,有利于提高此類疾病的診療水平和效果[2]。
由于超聲圖像存在對(duì)比度低、灰度不均勻、斑點(diǎn)噪聲較嚴(yán)重、邊緣模糊等缺陷,并且不同的檢測(cè)設(shè)備和使用習(xí)慣等因素也會(huì)造成誤差,導(dǎo)致超聲診斷結(jié)果需要依賴醫(yī)生經(jīng)驗(yàn)和主觀判斷得出。利用計(jì)算機(jī)輔助診斷可有效降低對(duì)醫(yī)生經(jīng)驗(yàn)的依賴,提高診斷準(zhǔn)確性[3],尤其是隨著人工智能技術(shù)的發(fā)展,深度學(xué)習(xí)輔助診斷發(fā)揮了不可替代的作用[4-6]。深度學(xué)習(xí)通過(guò)多層神經(jīng)網(wǎng)絡(luò),可以從醫(yī)學(xué)圖像數(shù)據(jù)中自動(dòng)學(xué)習(xí)和提取隱含的圖像特征,用于臨床診斷和預(yù)測(cè)。深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)通過(guò)引入卷積層和池化層可以壓縮圖像特征,減少參數(shù)數(shù)量,提高學(xué)習(xí)效率,是醫(yī)學(xué)圖像分析方面使用最廣泛的模型[7-8]。但深度CNN是監(jiān)督學(xué)習(xí)模型,要求標(biāo)記大量訓(xùn)練樣本數(shù)據(jù),而在醫(yī)學(xué)影像領(lǐng)域要獲取大規(guī)模的訓(xùn)練樣本數(shù)據(jù)集比較困難。針對(duì)該問(wèn)題,可以采用遷移學(xué)習(xí)的方法,借助由自然圖像數(shù)據(jù)集預(yù)訓(xùn)練完畢的深層網(wǎng)絡(luò)模型,對(duì)醫(yī)學(xué)圖像數(shù)據(jù)進(jìn)行特征提取[9-10]。
目前,采用深度學(xué)習(xí)方法檢測(cè)和分析甲狀腺結(jié)節(jié)超聲圖像的研究,主要集中在對(duì)結(jié)節(jié)良、惡性的分類與識(shí)別和結(jié)節(jié)部分圖像分割等方面[11]。在此,主要研究對(duì)結(jié)節(jié)區(qū)域進(jìn)行自動(dòng)定位的方法。該方法不僅可為結(jié)節(jié)圖像分割和特征提取提供有效支撐,同時(shí)也是基于圖像診療的前提[12]。
在深度學(xué)習(xí)中,目標(biāo)定位可以被定義為一個(gè)包圍盒回歸任務(wù),其核心思想是通過(guò)神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)將包圍盒映射到其指定目標(biāo)。本研究的包圍盒指在訓(xùn)練圖像中對(duì)甲狀腺結(jié)節(jié)區(qū)域進(jìn)行標(biāo)注的矩形框?;谶w移學(xué)習(xí)的方法,本研究利用Xception、VGG-19和Resnet50三種深度卷積神經(jīng)網(wǎng)絡(luò)模型,提取甲狀腺超聲圖像的隱含特征,然后采用已進(jìn)行包圍盒標(biāo)注的超聲圖像對(duì)自定義網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)超聲圖像甲狀腺結(jié)節(jié)的自動(dòng)定位,有效提高醫(yī)生的工作效率和檢測(cè)精度。
遷移學(xué)習(xí)是將一個(gè)數(shù)據(jù)庫(kù)中學(xué)習(xí)到的模型、參數(shù)運(yùn)用到另一個(gè)場(chǎng)景中,兩個(gè)場(chǎng)景應(yīng)該是相似的領(lǐng)域,并且具有相似的任務(wù)。Keras有幾個(gè)表現(xiàn)很好的CNN模型,這些模型通過(guò)特征提取或者微調(diào)等遷移學(xué)習(xí)方法,對(duì)ImageNet以外的數(shù)據(jù)集有很強(qiáng)的泛化能力。因此,利用在大規(guī)模圖像集上訓(xùn)練完畢的VGG19、Xception和Resnet50預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,采用遷移學(xué)習(xí)的方法提取甲狀腺超聲圖像特征,將預(yù)訓(xùn)練網(wǎng)絡(luò)的輸出層替換為自定義網(wǎng)絡(luò),然后采用監(jiān)督學(xué)習(xí)算法,利用放射科醫(yī)生已進(jìn)行包圍盒信息標(biāo)記的數(shù)據(jù)集對(duì)自定義網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到優(yōu)化的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)對(duì)甲狀腺結(jié)節(jié)的自動(dòng)定位。
VGG19網(wǎng)絡(luò)包含16個(gè)卷積層、5個(gè)最大池化層、3個(gè)全連接層和1個(gè)輸出層,在卷積層中每個(gè)卷積核大小都是3*3。Relu激活函數(shù)的最大特點(diǎn)是采用幾個(gè)連續(xù)的小卷積核代替較大的卷積核,從而增加網(wǎng)絡(luò)深度以確保學(xué)習(xí)更復(fù)雜的模式[13]。Xception網(wǎng)絡(luò)引入了深度可分卷積,即先在每個(gè)特征圖上進(jìn)行空間卷積,再對(duì)每個(gè)特征點(diǎn)用1*1卷積來(lái)學(xué)習(xí)不同通道的特征,該設(shè)計(jì)在不增加網(wǎng)絡(luò)復(fù)雜度的同時(shí),提高了精度[14]。Resnet50網(wǎng)絡(luò)中包含49 個(gè)卷積層和1 個(gè)全連接層,其使用深度殘差網(wǎng)絡(luò),有效地解決了梯度消失和梯度爆炸的問(wèn)題[15]。以上模型主要用于圖像分類,其輸出層為全連接層加上softmax以判斷目標(biāo)類別。本研究的目的是目標(biāo)定位,即完成回歸任務(wù)輸出四個(gè)數(shù)字標(biāo)記包圍盒位置。需采用自定義網(wǎng)絡(luò)對(duì)預(yù)訓(xùn)練模型進(jìn)行修改,因此,網(wǎng)絡(luò)會(huì)嘗試將包圍盒坐標(biāo)“回歸”到圖像上,并根據(jù)對(duì)預(yù)定義的目標(biāo)變量(數(shù)據(jù)集中的坐標(biāo)集)的擬合來(lái)預(yù)測(cè)它們。
本研究基于遷移學(xué)習(xí)的網(wǎng)絡(luò)模型在預(yù)訓(xùn)練模型的基礎(chǔ)上,保留訓(xùn)練好的模型卷積層的參數(shù),只去掉最后的全連接層,并在卷積層之后加入?yún)?shù)優(yōu)化層。具體過(guò)程如下:
首先,Xception、VGG19和Resnet50被加載作為基礎(chǔ)圖層,其輸入圖像尺寸分別為(299,299,3)、(224,224,3)和(224,224,3),讀取方式為RGB模式。其次,在預(yù)訓(xùn)練模型的輸出端添加一個(gè)平坦層,提取包圍盒坐標(biāo)。然后, 添加丟棄率為0.5的dropout層,以降低該模型的計(jì)算量。 最后,添加兩個(gè)全連接層,將輸出維度降低到64和4,以對(duì)應(yīng)于包圍盒坐標(biāo)的四個(gè)點(diǎn)。全連接層采用線性激活函數(shù),網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)圖1。將超聲圖像輸入該網(wǎng)絡(luò)可以對(duì)其進(jìn)行訓(xùn)練,此時(shí)不再訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),而僅訓(xùn)練自定義的輸出網(wǎng)絡(luò)并將卷積層的權(quán)重和內(nèi)核凍結(jié),由于這些卷積層通過(guò)訓(xùn)練已經(jīng)能夠識(shí)別圖像的抽象特征,因此節(jié)省了大量的時(shí)間。
圖1 基于遷移學(xué)習(xí)的甲狀腺結(jié)節(jié)自動(dòng)定位框架
本研究使用文獻(xiàn)[16]中的數(shù)據(jù)集,甲狀腺超聲掃描的RGB圖像大小為315×560和360×560像素。每一例均有原始超聲圖像和記錄各種信息的XML文件,且包含由醫(yī)生標(biāo)注的包圍盒坐標(biāo)信息。在有監(jiān)督訓(xùn)練中,XML信息一并寫入。本研究使用了294張來(lái)自該數(shù)據(jù)集的原始圖像,由于數(shù)據(jù)規(guī)模有限,為提高網(wǎng)絡(luò)模型的泛化能力,防止過(guò)擬合,對(duì)數(shù)據(jù)集進(jìn)行了數(shù)據(jù)增廣。采取表1所示的圖像增廣方式,最終的增廣數(shù)據(jù)集包括3 234張圖像(294張?jiān)紙D像和2 940張?jiān)鰪V圖像)。訓(xùn)練集、測(cè)試集和驗(yàn)證集的比例設(shè)置為60:20:20(分別有1 940,647和647張圖片)。圖2為其中一個(gè)原始圖像的樣本經(jīng)數(shù)據(jù)增廣后的效果對(duì)比。
表1 圖像增廣方式
圖2 預(yù)先標(biāo)記包圍盒信息的超聲圖像和增廣圖像
實(shí)驗(yàn)的損失函數(shù)為均方誤差(mean square error,MSE),采用批量訓(xùn)練方法,batch size設(shè)為20,優(yōu)化方法為Adam。在性能指標(biāo)中設(shè)置交并比(intersection over union, IOU),IOU指算法預(yù)測(cè)的包圍盒和真實(shí)包圍盒交集的面積除以它們并集的面積,取值為[0,1],交并比反映了算法預(yù)測(cè)的包圍盒和真實(shí)包圍盒的接近程度,交并比越大,兩個(gè)包圍盒的重疊程度越高。此外,在實(shí)驗(yàn)中基于圖像尺寸將所有的坐標(biāo)值進(jìn)行歸一化,從而使其范圍被限制在0和1之間。
本研究中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試采用基于TensorFlow的keras框架。由于計(jì)算量很大,本研究使用googlecolab服務(wù)所提供的GPU資源。為客觀地比較三種網(wǎng)絡(luò)性能,實(shí)驗(yàn)過(guò)程中訓(xùn)練和測(cè)試環(huán)境均保證一致性。
訓(xùn)練過(guò)程持續(xù)25個(gè)epoch,在每個(gè)epoch 結(jié)束后,如模型損失得到改善,則保存模型權(quán)重。本研究基于Xception、VGG19和Rsenet50預(yù)訓(xùn)練模型的結(jié)節(jié)定位方法分別被表示為Xception-NLM、VGG19-NLM和Resnet50-NLM方法。Xception-NLM、VGG19-NLM和Resnet50-NLM這三種方法的訓(xùn)練過(guò)程圖,見(jiàn)圖3-圖5。圖中Training和 Validation曲線分別代表訓(xùn)練和驗(yàn)證的MSE損失和IOU性能隨著迭代次數(shù)的變化。
圖3 Xception-NLM訓(xùn)練過(guò)程圖
圖4 VGG19-NLM訓(xùn)練過(guò)程圖
圖5 Resnet50-NLM訓(xùn)練過(guò)程圖
由圖可知,三個(gè)模型的訓(xùn)練和驗(yàn)證MSE損失經(jīng)過(guò) 2 次迭代后,接近收斂到一個(gè)較低水平。三個(gè)模型的IOU在迭代15次之后都趨于收斂到約80%的穩(wěn)定性能,且Resnet50-NLM方法的IOU性能收斂較快。而驗(yàn)證集的IOU性能略優(yōu)于訓(xùn)練集,為過(guò)度擬合的表現(xiàn),是使用drop層的結(jié)果。采用訓(xùn)練好的模型對(duì)測(cè)試集進(jìn)行測(cè)試,結(jié)果見(jiàn)圖6,可以看出Resnet50-NLM方法的MSE損失和IOU性能是最優(yōu)的。
圖6 測(cè)試集MSE損失和IOU性能對(duì)比
表2 模型訓(xùn)練耗時(shí)(計(jì)算一次迭代)
表3 在測(cè)試集上的運(yùn)行平均時(shí)間(647張圖像)
三種方法的模型訓(xùn)練消耗時(shí)間和在測(cè)試集上的平均運(yùn)行時(shí)間見(jiàn)表2和表3。可以看出,Resnet50-NLM方法的訓(xùn)練耗時(shí)最短,在測(cè)試集上的運(yùn)行時(shí)間稍長(zhǎng)。因此,Resnet50-NLM方法的綜合性能優(yōu)于其它兩種方法,是擬合較好的模型。圖7為采用不同方法對(duì)測(cè)試集進(jìn)行結(jié)節(jié)位置預(yù)測(cè)的最好輸出結(jié)果,可以看出,基于本研究所提遷移學(xué)習(xí)的方法可以有效地對(duì)甲狀腺結(jié)節(jié)區(qū)域進(jìn)行自動(dòng)定位。
使用機(jī)器學(xué)習(xí)方法的優(yōu)勢(shì)在于可以識(shí)別由于圖像質(zhì)量、錯(cuò)誤等原因而被放射科醫(yī)生忽略的關(guān)鍵區(qū)域,提高了檢測(cè)效率。本研究建立了一種基于遷移學(xué)習(xí)的甲狀腺超聲圖像結(jié)節(jié)定位方法,利用帶有標(biāo)注信息的超聲圖像對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)對(duì)結(jié)節(jié)的高效率定位。本方法的檢測(cè)效率還有待提高,以達(dá)到臨床應(yīng)用效果。在后續(xù)工作中,需增加數(shù)據(jù)庫(kù)的樣本量,對(duì)模型的超參數(shù)進(jìn)行優(yōu)化,并對(duì)不同預(yù)訓(xùn)練模型的結(jié)果進(jìn)行融合,以提高定位精度。