唐蘊(yùn)芯 ,廖 梅 ,張艷玲* ,張 建,4* ,陳 皓 ,王 煒,4*
(1.南京大學(xué)物理學(xué)院,南京,210093;2.中山大學(xué)附屬第三醫(yī)院超聲科,廣州,510630;3.杭州精康科技,杭州,310000;4.南京大學(xué)腦科學(xué)研究院,南京,210093)
作為最常用的成像模態(tài)之一,超聲(Ultrasound,US)是臨床上不可或缺的掃查與診斷工具,具有無(wú)損傷、無(wú)放射性、低成本等優(yōu)點(diǎn).在當(dāng)前的臨床實(shí)踐中,醫(yī)學(xué)超聲在各個(gè)專業(yè)科室得到了應(yīng)用,如心電圖、乳腺超聲、腹部超聲、經(jīng)直腸超聲、心血管超聲以及產(chǎn)前診斷超聲,尤其廣泛應(yīng)用于婦產(chǎn)科[1].一次高質(zhì)量的超聲成像診斷,不僅要求超聲圖像包含的噪聲和偽影少,還要求機(jī)器操作者和診斷醫(yī)生具有豐富的臨床經(jīng)驗(yàn).近年來(lái),為了減輕醫(yī)生負(fù)擔(dān),獲得更客觀、更準(zhǔn)確和更高時(shí)效性的診斷,人們致力于開(kāi)發(fā)先進(jìn)的自動(dòng)化超聲圖像識(shí)別方法作為醫(yī)生的輔助工具.
深度學(xué)習(xí)(Deep Learning,DL)是機(jī)器學(xué)習(xí)的一個(gè)分支,是一種表征學(xué)習(xí)方法,能直接從原始數(shù)據(jù)自動(dòng)學(xué)習(xí)不同層次的抽象特征,被廣泛應(yīng)用于計(jì)算機(jī)自動(dòng)圖像識(shí)別領(lǐng)域,如分割、分類、目標(biāo)檢測(cè)等等,也包含醫(yī)療影像的自動(dòng)化識(shí)別.醫(yī)療影像包括CT(Computed Tomography)影片、醫(yī)學(xué)超聲圖像、核醫(yī)學(xué)成像、核磁共振成像等,針對(duì)特定疾病的診斷算法層出不窮,常見(jiàn)的有肺結(jié)核[2-3]、肺結(jié)節(jié)[4-5]、乳腺結(jié)節(jié)[6-7]和乳腺癌[8-9]等.目前在圖像自動(dòng)識(shí)別領(lǐng)域中常用的深度學(xué)習(xí)網(wǎng)絡(luò)有兩種,一種是深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),另一種是新興代表ViT(Vision Transformer)[10],但這些深度網(wǎng)絡(luò)的參數(shù)量都非常大,一般以百萬(wàn)(Mega,M)或十億(Giga,G)為單位,這要求用于訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)量要足夠大,否則深度學(xué)習(xí)網(wǎng)絡(luò)會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,影響模型性能.然而,目前在乳腺超聲領(lǐng)域上,公開(kāi)的有標(biāo)簽數(shù)據(jù)集只有BUSI,DatasetB 和BUSIS.其中,BUSI 數(shù)據(jù)集[11]由Al-Dhabyani 團(tuán)隊(duì)從600個(gè)病人中采集,包含133 張無(wú)腫瘤圖像、437 張惡性腫瘤圖像和210 張良性腫瘤圖像,圖像平均像素為500×500;DatasetB 數(shù)據(jù)集[12]來(lái)自西班牙薩巴德?tīng)朠arc Tauli 公司的UDIAT 診斷中心,一共有163 張圖像,其中良性110 張,惡性53 張;BUSIS 數(shù)據(jù)集[13]由哈爾濱醫(yī)科大學(xué)附屬第二醫(yī)院、青島大學(xué)附屬醫(yī)院和河北醫(yī)科大學(xué)第二醫(yī)院使用多種超聲設(shè)備采集,從26~78 歲女性中采集到562 張乳腺超聲圖像.乳腺超聲數(shù)據(jù)集的嚴(yán)重稀缺,給乳腺腫瘤自動(dòng)識(shí)別任務(wù)帶來(lái)巨大的挑戰(zhàn).
為了解決上述問(wèn)題,本文采用自監(jiān)督對(duì)比學(xué)習(xí)[14-15]和遷移學(xué)習(xí)[16-17]兩種技術(shù),將訓(xùn)練分為預(yù)訓(xùn)練和微調(diào)階段.和監(jiān)督學(xué)習(xí)相比,自監(jiān)督學(xué)習(xí)具有無(wú)須標(biāo)注訓(xùn)練樣本的優(yōu)勢(shì),能保證大量訓(xùn)練數(shù)據(jù)的低成本獲取,結(jié)合大容量的深度學(xué)習(xí)模型可以發(fā)揮巨大的潛力.本文在預(yù)訓(xùn)練階段利用自監(jiān)督對(duì)比學(xué)習(xí),從一個(gè)無(wú)標(biāo)簽的乳腺超聲視頻數(shù)據(jù)集中學(xué)習(xí)通用性知識(shí),再將其遷移到下游的乳腺病變良惡性分類任務(wù)中.首先,構(gòu)建一個(gè)無(wú)標(biāo)簽乳腺超聲視頻數(shù)據(jù)集,包含來(lái)自200 位病人的1360 個(gè)乳腺超聲掃描視頻,視頻長(zhǎng)度為8~10 s,從中選出11805 例目標(biāo)樣本圖片,并對(duì)每個(gè)目標(biāo)樣本動(dòng)態(tài)生成相應(yīng)的正樣本和負(fù)樣本.將上述樣本用于對(duì)比學(xué)習(xí)訓(xùn)練一個(gè)三胞胎網(wǎng)絡(luò).在預(yù)訓(xùn)練階段,提出多近鄰采樣及平均化方法來(lái)擴(kuò)充正樣本數(shù)量,并基于Hard Negative Mining 和Hard Positive Mining 構(gòu)建對(duì)比損失函數(shù)Hard Triplet Loss 以挑選困難正負(fù)樣本,加快模型收斂.預(yù)訓(xùn)練完成后,把網(wǎng)絡(luò)參數(shù)遷移到下游的乳腺腫瘤分類任務(wù)中,針對(duì)一個(gè)小的人工標(biāo)注數(shù)據(jù)集進(jìn)行微調(diào).最后報(bào)告模型分類性能,并和基于ImageNet的遷移學(xué)習(xí)模型和其他SOTA(State-of-The-Art)模型進(jìn)行了比較.
本文提出的模型包括兩個(gè)部分,如圖1 所示.虛線上部是一個(gè)三胞胎網(wǎng)絡(luò)(Triplet Network),負(fù)責(zé)利用視頻相鄰幀進(jìn)行預(yù)訓(xùn)練.預(yù)訓(xùn)練過(guò)程中,通過(guò)優(yōu)化卷積網(wǎng)絡(luò),使相似樣本對(duì)應(yīng)的特征在特征空間具有較近的距離,不相似樣本的距離較遠(yuǎn).虛線下部是一分類網(wǎng)絡(luò),其卷積網(wǎng)絡(luò)部分與三胞胎網(wǎng)絡(luò)共享參數(shù),負(fù)責(zé)對(duì)預(yù)訓(xùn)練后的模型進(jìn)行微調(diào).
圖1 三胞胎模型的預(yù)訓(xùn)練(上半部分)與微調(diào)(下半部分)Fig.1 The pretraining (upper part) and finetuning (lower part) of Triplet Network
1.1 自監(jiān)督對(duì)比學(xué)習(xí)模型及遷移學(xué)習(xí)
1.1.1 三胞胎網(wǎng)絡(luò)Triplet Network采用三胞胎網(wǎng)絡(luò)(Triplet Network),其輸入分別是目標(biāo)樣本X、正樣本X+和負(fù)樣本X-,其中,目標(biāo)樣本X是從乳腺超聲視頻中任意截取的一幀,正樣本X+是目標(biāo)樣本X的相鄰幀,負(fù)樣本X-一般來(lái)自不同視頻.目標(biāo)樣本和正負(fù)樣本共同組成一個(gè)訓(xùn)練批次的預(yù)訓(xùn)練樣本集,將其輸入三胞胎網(wǎng)絡(luò),提取圖像的特征,最后輸出1024 維特征向量f(X+),f(X)和f(X-).如圖1 所示,這些特征向量對(duì)應(yīng)1024維特征空間中的特征點(diǎn).
三胞胎網(wǎng)絡(luò)本質(zhì)上是三個(gè)共享參數(shù)的深度卷積網(wǎng)絡(luò).其中,深度卷積網(wǎng)絡(luò)采用密集型網(wǎng)絡(luò)DenseNet[18],包括一個(gè)7×7 的卷積層、一個(gè)3×3 的池化層和四個(gè)Dense Block,相鄰兩個(gè)Dense Block 之間插入Transition Layer,最后是全局平均池化和Softmax 分類器.按神經(jīng)網(wǎng)絡(luò)的層數(shù)可以分為DenseNet121,DenseNet161,DenseNet169和DenseNet201 等.
1.1.2 損失函數(shù)優(yōu)化預(yù)訓(xùn)練的基本思想為在特征空間中減小目標(biāo)樣本點(diǎn)與正樣本點(diǎn)的距離,加大目標(biāo)樣本點(diǎn)與負(fù)樣本點(diǎn)的距離.基于此優(yōu)化目標(biāo),本文采用兩種損失函數(shù)并進(jìn)行了比較.一種是目前常用的InfoNCE Loss,另一種是本文新發(fā)展的Hard Triplet Loss.
InfoNCE Loss 是一種比較常用的解決多分類問(wèn)題的對(duì)比學(xué)習(xí)損失函數(shù)[19-20],由解決二分類問(wèn)題NCE Loss(Noise Contrastive Estimation)損失函數(shù)演變而來(lái)[21].InfoNCE Loss 的計(jì)算如下[19]:
其中,τ是溫度超參數(shù),控制模型對(duì)負(fù)樣本的區(qū)分度;Cosine(·)是余弦相似度,分別計(jì)算目標(biāo)樣本與正負(fù)樣本特征向量的相似性;P,K分別是正、負(fù)樣本的總數(shù);分子表示目標(biāo)樣本和所有正樣本特征向量相似度的總和,分母表示目標(biāo)樣本和所有正負(fù)樣本相似度的總和.目標(biāo)樣本和正樣本的相似度越大,和負(fù)樣本的相似度越小,InfoNCE Loss 就越小,表明預(yù)訓(xùn)練越好.
經(jīng)典的Triplet Loss 定義如下:
其中,M是自定義優(yōu)化閾值,M≥0;D(·)是特征距離,比較M值與正負(fù)樣本之間特征距離大小.當(dāng)D(f(X),f(X-))-D(f(X),f(X+))≥M,正負(fù)樣本的特征距離大于自定義的閾值M,Triplet Loss=0,則模型不需要梯度下降、更新參數(shù);當(dāng)D(f(X),f(X-))-D(f(X),f(X+))<M,正負(fù)樣本的特征距離小于自定義的閾值M,Triplet Loss >0,則Triplet Loss 通過(guò)懲罰進(jìn)一步減小目標(biāo)樣本點(diǎn)和正樣本點(diǎn)的距離,加大目標(biāo)樣本點(diǎn)與負(fù)樣本點(diǎn)的距離.本文采用的特征距離是余弦相似度距離,定義如下:
對(duì)于對(duì)比學(xué)習(xí),每次訓(xùn)練選取的正負(fù)樣本越多,模型的泛化性就越強(qiáng)[19,22],但一次性把大量圖像輸入三胞胎網(wǎng)絡(luò),對(duì)所有圖像計(jì)算對(duì)比損失,進(jìn)行梯度下降、更新參數(shù),對(duì)機(jī)器的存儲(chǔ)和計(jì)算要求很高,模型的收斂速度會(huì)非常慢.因此,本文在式(2)的基礎(chǔ)上發(fā)展了Hard Negative Mining 和Hard Positive Mining.
如圖1 所示,每個(gè)樣本經(jīng)過(guò)深度網(wǎng)絡(luò)被映射到1024 維特征空間上后,困難的正負(fù)樣本被挑選出來(lái)參與訓(xùn)練.具體地,選擇距離目標(biāo)樣本最遠(yuǎn)的P個(gè)正樣本以及距離最近的K個(gè)負(fù)樣本進(jìn)行訓(xùn)練,構(gòu)建新的對(duì)比損失函數(shù)Hard Triplet Loss:
其中,W是預(yù)訓(xùn)練模型權(quán)重,λ是L2正則化系數(shù);,代表困難正樣本均值點(diǎn).
計(jì)算每個(gè)困難負(fù)樣本與Mean+的Triplet Loss,Hard Triplet Loss 是這些困難樣本的Triplet Loss 的平均.本文中M=0.5,P=K=3,λ=0.0005,為了提高預(yù)訓(xùn)練模型的泛化性能,使用帶動(dòng)量的隨機(jī)梯度下降方法,并使用余弦退火方法平緩下降學(xué)習(xí)率,下降周期為200,最小學(xué)習(xí)率eta_min 限制為0.0005.
1.2 參數(shù)遷移后微調(diào)將預(yù)訓(xùn)練得到的深度學(xué)習(xí)網(wǎng)絡(luò)遷移到下游的乳腺超聲腫瘤良惡性分類任務(wù)中.網(wǎng)絡(luò)的微調(diào)過(guò)程具體為:固定前面網(wǎng)絡(luò)層參數(shù)不變,優(yōu)化后面部分層參數(shù),并為模型添加一個(gè)新的全連接層和Softmax 層,最后輸出判斷為良性、惡性的概率.
2.1 預(yù)訓(xùn)練數(shù)據(jù)集與SYU 數(shù)據(jù)集進(jìn)行微調(diào)和測(cè)試的數(shù)據(jù)集包括一個(gè)預(yù)訓(xùn)練數(shù)據(jù)集和一個(gè)來(lái)自中山大學(xué)附屬第三醫(yī)院(中大三院)的SYU 數(shù)據(jù)集.其中,預(yù)訓(xùn)練數(shù)據(jù)集包含目標(biāo)樣本數(shù)據(jù)集、正樣本數(shù)據(jù)集和負(fù)樣本數(shù)據(jù)集.具體如表1 所示.
表1 預(yù)訓(xùn)練數(shù)據(jù)集和SYU 數(shù)據(jù)集的相關(guān)信息Table 1 Statistics of pre-training datasets and SYU datasets
2.1.1 目標(biāo)樣本數(shù)據(jù)集如表1 所示,目標(biāo)樣本數(shù)據(jù)集從200 個(gè)病人的1360 個(gè)乳腺超聲視頻中構(gòu)建.目標(biāo)樣本數(shù)據(jù)集構(gòu)建步驟如下.
(1)首先,從每個(gè)病人的每個(gè)視頻中每隔五幀截取一張圖像,再利用我們之前工作得到的一個(gè)DenseUNet 模型[23]來(lái)判斷截取的圖像有無(wú)腫瘤.
(2)判斷為有腫瘤的圖像暫時(shí)保留,待同一個(gè)視頻里面有腫瘤的圖像全部篩選完畢,對(duì)比所有相鄰的圖像,調(diào)用skimage 庫(kù)的structural_similarity 方法計(jì)算相鄰兩張圖像的相似度.相似度大于0.35 則保存兩張圖像,相似度小于0.35 則拋棄后一時(shí)刻的圖像.不斷重復(fù)步驟(2),直到同一個(gè)視頻里面所有圖像的相似度都大于0.35.
(3)所有視頻得到的圖像共同構(gòu)成一個(gè)目標(biāo)樣本數(shù)據(jù)集,共11805 張,經(jīng)預(yù)處理后統(tǒng)一尺寸為224像素×224像素.圖2 展示了目標(biāo)樣本數(shù)據(jù)集中同一視頻相鄰的三張圖像、來(lái)自相同病人不同視頻的三張圖像以及來(lái)自不同病人不同視頻的五張圖像.
圖2 目標(biāo)樣本數(shù)據(jù)集和SYU 數(shù)據(jù)集的部分乳腺超聲圖像Fig.2 Examples of breast ultrasound images from target sample dataset and SYU dataset
2.1.2 正負(fù)樣本數(shù)據(jù)集如表1 所示,正負(fù)樣本數(shù)據(jù)集根據(jù)目標(biāo)樣本數(shù)據(jù)集動(dòng)態(tài)生成.具體步驟為:以目標(biāo)樣本為錨點(diǎn),從相鄰幀選取正樣本,從不同病人不同視頻隨機(jī)選取負(fù)樣本.不考慮從相同病人的其他視頻選取負(fù)樣本,原因是相同病人不同視頻拍攝的腫瘤相同,拍攝角度和腫瘤呈現(xiàn)的形態(tài)雖然不同,但特征信息相似.
數(shù)據(jù)增強(qiáng)是一種常見(jiàn)的數(shù)據(jù)擴(kuò)增技術(shù),可以對(duì)現(xiàn)有數(shù)據(jù)應(yīng)用一組變換來(lái)生成新樣本,如平移、旋轉(zhuǎn)、變形、縮放、顏色空間變換、裁剪等等,目標(biāo)是生成更多樣本以創(chuàng)建更大的數(shù)據(jù)集.一般地,在對(duì)比學(xué)習(xí)中,大量正樣本可通過(guò)數(shù)據(jù)增強(qiáng)生成,但乳腺超聲圖像對(duì)數(shù)據(jù)增強(qiáng)操作十分敏感,除了小角度旋轉(zhuǎn)和左右翻轉(zhuǎn)操作,其他數(shù)據(jù)增強(qiáng)的手段均會(huì)破壞腫瘤關(guān)鍵的特征信息.為了提高正樣本的數(shù)量,保證正樣本的采樣質(zhì)量,本文提出多近鄰采樣及平均化方法,具體如圖3 所示.
圖3 正負(fù)樣本的采樣過(guò)程Fig.3 Positives and negatives sampling
多近鄰采樣及平均化方法如下.
(1)以目標(biāo)樣本為錨點(diǎn),找到左右相鄰n幀、2n幀等間隔的圖像,對(duì)目標(biāo)樣本和相鄰幀進(jìn)行小角度旋轉(zhuǎn)和左右翻轉(zhuǎn)操作,即圖3 中的AUG1 和AUG2,相鄰幀與AUG1,AUG2 組成第一批次正樣本.
(2)對(duì)第一批次中的相鄰幀做均值化處理.均值化處理能進(jìn)一步突出腫瘤的關(guān)鍵特征,也能去除殘留的噪聲.這些相鄰幀均值化圖像加上其數(shù)據(jù)擴(kuò)增圖像組成第二批次正樣本,如圖3 中相鄰幀均值化+AUG1+AUG2 所示.
(3)對(duì)第二批次均值化圖像進(jìn)行二次均值化,并進(jìn)行數(shù)據(jù)擴(kuò)增,得到第三批次正樣本,如圖3 中相鄰幀二次均值化+AUG1+AUG2 所示.
由此得到的正樣本一共是16 個(gè),如表1 所示,1 個(gè)目標(biāo)樣本、16 個(gè)正樣本和111 個(gè)隨機(jī)采樣的負(fù)樣本組成一個(gè)批次進(jìn)行訓(xùn)練,規(guī)定一個(gè)批次的樣本數(shù)是2 的指數(shù),如64,128 等.預(yù)訓(xùn)練過(guò)程中正負(fù)樣本采樣總量分別是188880 和1310355 個(gè).間隔單位n=5,相鄰幀間隔取5,10,15.
2.1.3 SYU 數(shù)據(jù)集如表1 所示,SYU 數(shù)據(jù)集來(lái)自中大三院[23-24],包括400 張乳腺超聲圖像,其中175 張良性,225 張惡性,經(jīng)預(yù)處理后統(tǒng)一尺寸為224像素×224像素.按照五折交叉驗(yàn)證方法把SYU 數(shù)據(jù)集隨機(jī)分成兩個(gè)獨(dú)立的微調(diào)數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,微調(diào)數(shù)據(jù)集含乳腺超聲圖像320張,測(cè)試數(shù)據(jù)集含乳腺超聲圖像80 張.圖2 展示了SYU 數(shù)據(jù)集的部分乳腺超聲圖像.
2.1.4 ImageNet 數(shù)據(jù)集ImageNet 是一個(gè)用于計(jì)算機(jī)視覺(jué)識(shí)別研究的大型可視化數(shù)據(jù)集,由斯坦福大學(xué)李飛飛教授帶領(lǐng)創(chuàng)建[25],包含14197122張圖像和21841 個(gè)Synset 索引,常用作評(píng)估圖像分類算法性能的基準(zhǔn).基于ImageNet 數(shù)據(jù)集,目前已有一大批有監(jiān)督的預(yù)訓(xùn)練模型,如ResNet,DenseNet,GoogleNet 等,這些模型提高了圖像分類[26-27]、目標(biāo)檢測(cè)[28-29]、圖像分割[30]、圖像描述[31-32]等多種任務(wù)的性能.
2.2 數(shù)據(jù)預(yù)處理采用模糊增強(qiáng)和雙邊濾波兩種數(shù)據(jù)預(yù)處理方法來(lái)降低噪聲,增強(qiáng)信噪比.其中,模糊增強(qiáng)利用大津法(OTSU)[33]生成二值化圖像,增強(qiáng)腫瘤邊緣特征;雙邊濾波采用加權(quán)平均去掉原圖尖銳噪聲,保留腫瘤的邊界.但這兩種數(shù)據(jù)增強(qiáng)均會(huì)丟失或削弱腫瘤的有用信息,因此原始圖像也予以保留.將原始圖像和兩種數(shù)據(jù)增強(qiáng)的圖像在通道維度上堆疊在一起,組成三通道圖片輸入模型.
2.3 模型的訓(xùn)練及評(píng)估訓(xùn)練了四個(gè)分別以DenseNet121,DenseNet161,DenseNet169 和DenseNet201[18]為骨架的三胞胎網(wǎng)絡(luò).在預(yù)訓(xùn) 練階段,輸入圖像的尺寸統(tǒng)一為224 像素×224 像素,數(shù)值歸一化到0~1;網(wǎng)絡(luò)采用帶動(dòng)量的隨機(jī)梯度下降作為權(quán)值更新算法,初始學(xué)習(xí)率均為1×10-3;使用余弦退火方法平緩下降學(xué)習(xí)率,下降周期為200,最小學(xué)習(xí)率eta_min 限制為0.0005.預(yù)訓(xùn)練一共包含200 個(gè)epoch,每個(gè)epoch依次從11805 張圖像中選出目標(biāo)樣本,通過(guò)多近鄰采樣及平均化方法得到每個(gè)目標(biāo)樣本對(duì)應(yīng)的正樣本數(shù)據(jù)集,從不同病人視頻中隨機(jī)挑選負(fù)樣本集,把目標(biāo)樣本、正負(fù)樣本數(shù)據(jù)集組成一個(gè)訓(xùn)練批次,輸入三胞胎網(wǎng)絡(luò)中完成一次迭代訓(xùn)練.實(shí)驗(yàn)規(guī)定一個(gè)epoch 對(duì)預(yù)訓(xùn)練數(shù)據(jù)集里所有圖像完成一次迭代訓(xùn)練.預(yù)訓(xùn)練結(jié)束后,保留對(duì)比損失最小的模型參數(shù),把最優(yōu)參數(shù)遷移到下游乳腺腫瘤良惡性分類任務(wù)中,在三胞胎網(wǎng)絡(luò)后面加入新的全連接層和Softmax 輸出分類結(jié)果.微調(diào)時(shí)凍結(jié)網(wǎng)絡(luò)前面層的參數(shù),解凍Dense Block3 和Dense Block4 的部分參數(shù)[18],在SYU 數(shù)據(jù)集上進(jìn)行五折交叉驗(yàn)證.
采用機(jī)器學(xué)習(xí)領(lǐng)域常用的評(píng)估指標(biāo):受試者操作特征曲線下面積(Area Under Curve,AUC)、靈敏度(Sensitivity)和特異度(Specificity).靈敏度和特異度的計(jì)算如下:
其中,TP表示將陽(yáng)性樣本預(yù)測(cè)為陽(yáng)性,TN表示將陰性樣本預(yù)測(cè)為陰性,F(xiàn)N表示將陽(yáng)性樣本預(yù)測(cè)為陰性,F(xiàn)P表示將陰性樣本預(yù)測(cè)為陽(yáng)性.
3.1 兩種損失函數(shù)結(jié)果對(duì)比對(duì)比預(yù)訓(xùn)練損失函數(shù)分別為InfoNCE Loss 和Hard Triplet Loss 的三胞胎網(wǎng)絡(luò)在下游分類任務(wù)的分類結(jié)果.使用AUC作為模型分類結(jié)果的評(píng)估指標(biāo),在SYU 測(cè)試集腫瘤良惡性分類任務(wù)上進(jìn)行計(jì)算.AUC越高,算法的分類性能越好.如圖4 所示,無(wú)論以哪個(gè)卷積網(wǎng)絡(luò)為框架,以Hard Triplet Loss 作為預(yù)訓(xùn)練損失函數(shù),其分類結(jié)果都比InfoNCE Loss 更好.
圖4 四種預(yù)訓(xùn)練模型在四種DenseNet 框架下的AUC 對(duì)比Fig.4 AUC of four pre-trained models with four DenseNet as backbones
具體的評(píng)價(jià)結(jié)果如表2 所示,表中黑體字表示性能最優(yōu).由表可得,與損失函數(shù)為InfoNCE Loss 的預(yù)訓(xùn)練模型相比,損失函數(shù)為Hard Triplet Loss 的預(yù)訓(xùn)練模型的AUC提升2%~4%,靈敏度和特異度提升2%~6%.可見(jiàn)本文構(gòu)建的Hard Triplet Loss 在視頻相鄰幀對(duì)比學(xué)習(xí)任務(wù)上的表現(xiàn)比InfoNCE Loss 更出色.
表2 四種預(yù)訓(xùn)練模型在四種DenseNet 框架下的實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Experimental results of four pre-trained models with four DenseNets as backbone
3.2 三胞胎網(wǎng)絡(luò)、ImageNet 預(yù)訓(xùn)練模型和隨機(jī)初始化模型的對(duì)比為了評(píng)估三胞胎網(wǎng)絡(luò)的預(yù)訓(xùn)練性能,對(duì)比了三種模型.模型1,基于三胞胎網(wǎng)絡(luò)和視頻流進(jìn)行預(yù)訓(xùn)練,利用表1 所示的微調(diào)數(shù)據(jù)集進(jìn)行微調(diào),再用得到的結(jié)果在測(cè)試集進(jìn)行測(cè)試,計(jì)算各種指標(biāo).模型2,基于四種DenseNet 框架的ImageNet 預(yù)訓(xùn)練模型,微調(diào)和測(cè)試同模型1.模型3,使用隨機(jī)初始化模型,微調(diào)和測(cè)試同模型1.
使用AUC作為模型分類性能的評(píng)估指標(biāo),在SYU 測(cè)試集腫瘤良惡性分類任務(wù)上進(jìn)行計(jì)算,AUC越高,算法的分類性能越好.需要強(qiáng)調(diào)的是,實(shí)驗(yàn)挑選的是四種沒(méi)有經(jīng)過(guò)特殊方法訓(xùn)練的ImageNet 預(yù)訓(xùn)練模型.對(duì)比結(jié)果亦如圖4 所示.由圖可見(jiàn),和ImageNet 預(yù)訓(xùn)練模型及隨機(jī)初始化模型相比,三胞胎模型的分類性能更好,尤其是以Hard Triplet Loss 為對(duì)比損失函數(shù)的三胞胎模型,分類性能大幅領(lǐng)先.ImageNet 預(yù)訓(xùn)練模型分類的性能甚至比隨機(jī)初始化模型還要差,在DenseNet161 框架上,ImageNet 預(yù)訓(xùn)練模型的AUC僅比隨機(jī)初始化模型高0.1%,在其余三種框架上,ImageNet 預(yù)訓(xùn)練后的分類表現(xiàn)均不如隨機(jī)初始化模型.
具體的評(píng)估結(jié)果亦如表2 所示,表中黑體字表示性能最優(yōu).
首先,損失函數(shù)為Hard Triplet Loss 的三胞胎網(wǎng)絡(luò)的AUC比ImageNet 預(yù)訓(xùn)練模型提高4%~9%,靈敏度和特異度提升9%~10%,充分證明三胞胎網(wǎng)絡(luò)在預(yù)訓(xùn)練階段捕捉的腫瘤特征比ImageNet 預(yù)訓(xùn)練模型捕捉的特征更符合乳腺超聲腫瘤分類任務(wù)的要求.再者,和隨機(jī)初始化模型相比,ImageNet 預(yù)訓(xùn)練模型的AUC平均下降2.1%,靈敏度和特異度平均下降4.1%,證明ImageNet 預(yù)訓(xùn)練模型誤導(dǎo)了下游分類任務(wù).這可能因?yàn)镮mageNet 數(shù)據(jù)集是自然圖像,與乳腺超聲圖像特征之間的差距較大,ImageNet 預(yù)訓(xùn)練模型捕捉的特征不能充分反映腫瘤的信息.由表2 還可以看到,損失函數(shù)為Hard Triplet Loss 的三胞胎網(wǎng)絡(luò)在SYU 數(shù)據(jù)集上有優(yōu)異的分類性能.以Hard Triplet Loss 為損失函數(shù)的四種卷積網(wǎng)絡(luò)三胞胎模型,AUC均大于0.93,靈敏度和特異度均超過(guò)0.87,尤其在DenseNet-169 卷積網(wǎng)絡(luò)上,AUC達(dá)0.952,靈敏度和特異度均達(dá)0.89.需要強(qiáng)調(diào)的是,預(yù)訓(xùn)練數(shù)據(jù)集和SYU 數(shù)據(jù)集是兩個(gè)獨(dú)立的數(shù)據(jù)集,在跨數(shù)據(jù)集遷移后,三胞胎網(wǎng)絡(luò)分類的性能表現(xiàn)仍然很突出,證明本文模型的泛化性能強(qiáng),分類性能優(yōu)異.
3.3 與其他基于ImageNet 的SOTA 預(yù)訓(xùn)練模型的對(duì)比為了進(jìn)一步證明三胞胎網(wǎng)絡(luò)的分類性能,挑選最先進(jìn)的三種ImageNet 預(yù)訓(xùn)練模型[34],分別是MoCo-v2,BYOL 和SwAV 來(lái)進(jìn)行對(duì)比實(shí)驗(yàn),它們采用的是和本文不同的骨架網(wǎng)絡(luò).把這些預(yù)訓(xùn)練好的模型遷移到SYU 數(shù)據(jù)集上進(jìn)行微調(diào)和測(cè)試,并和前文DenseNet161-ImageNet 預(yù)訓(xùn)練模型和DenseNet169-三胞胎網(wǎng)絡(luò)(使用Hard Triplet Loss)進(jìn)行對(duì)比.實(shí)驗(yàn)結(jié)果如圖5 所示,余下兩種指標(biāo)詳見(jiàn)表3,表中黑體字表示性能最優(yōu).可見(jiàn)DenseNet169-三胞胎網(wǎng)絡(luò)(Hard Triplet Loss)的三種指標(biāo)均領(lǐng)先于所有ImageNet 預(yù)訓(xùn)練模型,DenseNet161-ImageNet 預(yù)訓(xùn)練模型僅次于三胞胎網(wǎng)絡(luò).MoCo-v2,BYOL 和SwAV 的表現(xiàn)基本一致,AUC在0.752~0.764,靈敏度和特異度均在0.665~0.676.原因可能是MoCo-v2,BYOL 和SwAV 三種模型雖然能較好地學(xué)習(xí)自然圖像域的分布,但其自然圖像與醫(yī)學(xué)圖像內(nèi)秉的分布不同,所以模型不能很好地跨數(shù)據(jù)集泛化.
表3 三胞胎網(wǎng)絡(luò)和其他SOTA 預(yù)訓(xùn)練模型的實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Experimental results of our Triplet Network and other SOTA models
圖5 三胞胎網(wǎng)絡(luò)和其他SOTA 預(yù)訓(xùn)練模型的AUC 對(duì)比Fig.5 AUC of our Triplet Network and other SOTA models
3.4 小數(shù)據(jù)集訓(xùn)練本文的主要思想是使用視頻流數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,從而降低對(duì)標(biāo)注數(shù)據(jù)量的要求,以解決標(biāo)注數(shù)據(jù)缺乏和模型過(guò)擬合等問(wèn)題.為此,需測(cè)試模型對(duì)小樣本需求的下限.
從SYU 數(shù)據(jù)集中隨機(jī)劃分出四個(gè)獨(dú)立小數(shù)據(jù)集,對(duì)每個(gè)小數(shù)據(jù)集進(jìn)行五折交叉驗(yàn)證.四個(gè)小數(shù)據(jù)集的樣本數(shù)分別是:80(64 個(gè)樣本用于訓(xùn)練,16 個(gè)樣本用于測(cè)試,簡(jiǎn)記為64/16),120(96/24),175(140/35)和190(152/38).
在基于對(duì)比學(xué)習(xí)方法對(duì)乳腺超聲腫瘤的自動(dòng)識(shí)別和分類任務(wù)上,之前的一個(gè)SOTA 工作提出了一個(gè)多任務(wù)框架,利用單個(gè)病變的多個(gè)視圖之間的關(guān)系開(kāi)展對(duì)比學(xué)習(xí)[35].我們重現(xiàn)了這一模型,本文命名為Multi-task LR(Lesion Recognition),并采用和我們的模型一樣的預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試.
圖6 給出了五種模型在四個(gè)小數(shù)據(jù)集上的分類性能,包括以DenseNet169 為骨架的兩種損失函數(shù)的三胞胎模型、基于DenseNet169 的Image-Net 預(yù)訓(xùn)練模型、隨機(jī)初始化模型和Multi-task LR.由圖可見(jiàn),在最小的數(shù)據(jù)集1 中,三胞胎網(wǎng)絡(luò)的AUC比DenseNet169-ImageNet 預(yù)訓(xùn)練模型高6%,說(shuō)明三胞胎模型在訓(xùn)練數(shù)據(jù)只有64 個(gè)時(shí),分類性能依然領(lǐng)先.在小數(shù)據(jù)集2 上,損失函數(shù)為Hard Triplet Loss 的DenseNet169-三胞胎網(wǎng)絡(luò)的AUC超過(guò)0.9,在小數(shù)據(jù)集3 和4 上,AUC分別是0.929 和0.936.DenseNet169-ImageNet 預(yù)訓(xùn)練模型和隨機(jī)初始化模型的AUC均低于0.86.
圖6 兩種損失函數(shù)的DenseNet169-三胞胎網(wǎng)絡(luò)、Multi-task LR 模型、DenseNet169-ImageNet 預(yù)訓(xùn)練模型和隨機(jī)初始化模型在四個(gè)小數(shù)據(jù)集上AUC 的對(duì)比Fig.6 AUC of Triplet Network based on DenseNet169 with two loss functions,Multi-task LR model,DenseNet169-ImageNet pre-trained model and stochastic initialization model on four small datasets
臨床上,靈敏度在輔助診斷系統(tǒng)中占有重要地位.如表4 所示,損失函數(shù)為Hard Triplet Loss的DenseNet169-三胞胎模型在小數(shù)據(jù)集2 上的靈敏度是0.835,在小數(shù)據(jù)集3 和4 上均超過(guò)0.86,而DenseNet169-ImageNet 預(yù)訓(xùn)練模型的靈敏度均低于0.77.
表4 兩種損失函數(shù)的DenseNet169-三胞胎網(wǎng)絡(luò)、Multi-task LR 模型、DenseNet169-ImageNet 預(yù)訓(xùn)練模型和隨機(jī)初始化模型在四個(gè)小數(shù)據(jù)集上三種評(píng)價(jià)指標(biāo)的對(duì)比Table 4 Three evaluation indicators of Triplet Network based on DenseNet169 with two loss functions,Multi-task LR model,ImageNet pre-trained model based on DenseNet169 and stochastic initialization model on four small datasets
從圖6 和表4 可見(jiàn),本文提出的模型在所有數(shù)據(jù)集上的各個(gè)評(píng)價(jià)指標(biāo)都高于Multi-task LR 模型,說(shuō)明本文提出的模型框架更優(yōu).
綜上,對(duì)于損失函數(shù)為Hard Triplet Loss 的DenseNet169-三胞胎模型,僅需96 個(gè)標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),就能使模型的分類性能達(dá)到一個(gè)較好的結(jié)果(AUC為0.901,敏感度為0.835),極大降低了基于監(jiān)督學(xué)習(xí)的方法對(duì)標(biāo)注數(shù)據(jù)的依賴,在醫(yī)療影像人工智能輔助診斷領(lǐng)域有重要的價(jià)值.
基于深度學(xué)習(xí)的醫(yī)學(xué)影像輔助診斷系統(tǒng)在相關(guān)領(lǐng)域發(fā)揮著越來(lái)越大的作用,降低其對(duì)標(biāo)注數(shù)據(jù)的依賴有很大的學(xué)術(shù)價(jià)值和應(yīng)用價(jià)值.本文從乳腺超聲視頻流出發(fā),根據(jù)病人、視頻相鄰幀等信息,構(gòu)建包含目標(biāo)樣本和正負(fù)樣本的非標(biāo)注數(shù)據(jù)集,并通過(guò)自監(jiān)督對(duì)比學(xué)習(xí)對(duì)一個(gè)三胞胎網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后把模型遷移到下游小樣本乳腺腫瘤良惡性分類任務(wù)中,以解決醫(yī)療數(shù)據(jù)中標(biāo)注數(shù)據(jù)缺乏的問(wèn)題.本文還提出多近鄰采樣及平均化方法擴(kuò)充正樣本數(shù)量,并利用Hard Negative Mining 和Hard Positive Mining 方法挑選困難正負(fù)樣本以構(gòu)建損失函數(shù),加快模型收斂、提高預(yù)測(cè)精度.
從實(shí)驗(yàn)結(jié)果可見(jiàn),經(jīng)過(guò)預(yù)訓(xùn)練的三胞胎網(wǎng)絡(luò)在SYU 數(shù)據(jù)集上的AUC最高可達(dá)0.952,和基于DenseNet 框架的ImageNet 預(yù)訓(xùn)練模型相比,平均高6.7%,比MoCo-v2,BYOL 和SwAV 三種ImageNet 預(yù)訓(xùn)練模型平均高19.47%,靈敏度和特異度均達(dá)到0.89,說(shuō)明本文模型的分類性能優(yōu)于ImageNet 預(yù)訓(xùn)練模型.此外,與之前的一個(gè)針對(duì)乳腺超聲的多視圖對(duì)比模型相比,本文模型具有更好的分類性能.最后,通過(guò)對(duì)標(biāo)注樣本量需求下限的測(cè)試,發(fā)現(xiàn)僅需96 個(gè)微調(diào)數(shù)據(jù)模型就能出色地完成下游分類任務(wù).
本文模型還可在以下方面繼續(xù)優(yōu)化,包括優(yōu)化網(wǎng)絡(luò)架構(gòu)以提高訓(xùn)練速度,進(jìn)行多中心合作以擴(kuò)充數(shù)據(jù)集,融合多個(gè)模態(tài)如X 射線、磁共振等數(shù)據(jù).另外,腫瘤分類任務(wù)可與其他如異常檢測(cè)、分割和定位等相關(guān)任務(wù)聯(lián)合進(jìn)行多任務(wù)學(xué)習(xí),通過(guò)共享特征表示來(lái)提高模型的性能和泛化能力.還可以和傳統(tǒng)的基于影像組學(xué)的方法融合,輸入不同類型和分級(jí)的腫瘤形狀、紋理等特征來(lái)加快收斂和提高泛化能力.為了將研究成果轉(zhuǎn)化為實(shí)際臨床應(yīng)用,還需對(duì)不同來(lái)源的數(shù)據(jù)集進(jìn)行微調(diào)和測(cè)試,增強(qiáng)其泛化能力和魯棒性,并最終在真實(shí)的醫(yī)療環(huán)境中進(jìn)行驗(yàn)證.最后,增強(qiáng)模型的可解釋性,也是臨床應(yīng)用上需要關(guān)注的方面.
綜上,本文基于深度學(xué)習(xí)和自監(jiān)督對(duì)比學(xué)習(xí)技術(shù),從乳腺超聲視頻流出發(fā),搭建數(shù)據(jù)集、預(yù)訓(xùn)練了一個(gè)三胞胎網(wǎng)絡(luò)模型,并應(yīng)用于下游腫瘤分類任務(wù).測(cè)試結(jié)果優(yōu)于同類SOTA 模型,并在只有少量標(biāo)簽數(shù)據(jù)的情況下,可達(dá)到良好的分類性能,有較好的臨床應(yīng)用前景.