融合多尺度特征及注意力機(jī)制的醫(yī)學(xué)圖像檢索

2021-08-30 04:48:00周林鵬姚劍敏林志賢

液晶與顯示 2021年8期

周林鵬，姚劍敏,2*，嚴(yán) 群,2，林志賢

(1. 福州大學(xué) 物理與信息工程學(xué)院，福建福州 350108；2. 晉江市博感電子科技有限公司,福建晉江362200)

1 引言

醫(yī)學(xué)影像技術(shù)日益成熟，如何有效地利用已有的醫(yī)學(xué)影像數(shù)據(jù)輔助醫(yī)生進(jìn)行分析和診斷是目前相對有挑戰(zhàn)性的任務(wù)。醫(yī)學(xué)圖像數(shù)據(jù)主要包括磁共振成像(MRI)、電子計(jì)算機(jī)斷層掃描圖像(CT)、數(shù)字減影血管造影圖像(DSA)以及正電子發(fā)射斷層掃描圖像(PET)。海量的數(shù)據(jù)、各種各樣的歸類標(biāo)準(zhǔn)給醫(yī)學(xué)影像的有效組織和管理帶來了巨大的挑戰(zhàn)，與之而來的是專業(yè)影像醫(yī)生的極度緊缺。在中國，醫(yī)學(xué)影像的年增長率約為30%，但放射科醫(yī)生的年增長率僅有4.1%。據(jù)統(tǒng)計(jì)，以肺結(jié)節(jié)檢測為例，三甲醫(yī)院平均每天需要接待200例左右的肺結(jié)節(jié)篩查患者，每個(gè)患者在檢查環(huán)節(jié)中會(huì)產(chǎn)生200～300張左右的CT影像，如何利用現(xiàn)有技術(shù)及相關(guān)影像數(shù)據(jù)來輔助醫(yī)生進(jìn)行臨床診斷成為了現(xiàn)在亟待解決的問題[1-3]。

目前，醫(yī)學(xué)影像信息系統(tǒng)(PACS)可以通過各種接口將臨床收集的醫(yī)學(xué)影像以數(shù)字化的形式保存起來，初步解決了影像數(shù)據(jù)的存儲(chǔ)問題[4]。為了利用這些醫(yī)學(xué)數(shù)據(jù)庫來輔助醫(yī)生進(jìn)行病情分析及診斷，需要設(shè)計(jì)有效的醫(yī)學(xué)圖像檢索系統(tǒng)(CBMIR)。通過檢索相似的圖像和病歷，醫(yī)生可以綜合參考多個(gè)維度的信息來給出更加全面精準(zhǔn)的病情定位及診療方案。因此，圍繞CBMIR系統(tǒng)設(shè)計(jì)及優(yōu)化的相關(guān)研究也越來越多。Jiji等提出了一種基于內(nèi)容的皮膚病變圖像檢索方法[5]，Mizotin等提出了一種基于SIFT特征的視覺詞袋的方法，用于腦磁共振圖像的檢索，以診斷阿爾茨海默氏病[6]。Rahman提出了一種基于類別信息作為監(jiān)督信號的生物醫(yī)學(xué)圖像檢索方法[7]。陳等人提出基于多參數(shù)Gabor的消化道超聲圖像的處理方法，強(qiáng)化了超聲圖像邊緣信息的特征提取[8]。近年來，深度學(xué)習(xí)在圖像處理領(lǐng)域取得了巨大的成功，為圖像特征提取提供了新思路。Qayyum等人提出了通過遷移學(xué)習(xí)的方法在自然圖像上預(yù)先訓(xùn)練的CNN模型上使用醫(yī)學(xué)圖像進(jìn)行微調(diào)，并將模型所學(xué)習(xí)的特征和分類結(jié)果用于醫(yī)學(xué)圖像檢索[9]。呂等人提出基于三維卷積的肺結(jié)節(jié)圖像處理方法[10]。熊等人提出基于vgg16及哈希編碼的醫(yī)學(xué)圖像檢索模型DHCNN[11], 彭晏飛等人提出引入注意力機(jī)制進(jìn)行圖像特征提取[12]，周國華等人提出使用多幅不同角度圖像進(jìn)行CT圖像檢索[13]。

醫(yī)學(xué)圖像具有不同于通用數(shù)據(jù)集的固有特征：異質(zhì)性、模糊性、高分辨率、多模態(tài)等[14]，而文獻(xiàn)[6]中的模型無法很好地提取圖像語義特征，文獻(xiàn)[9]中模型只用了網(wǎng)絡(luò)最后幾層特征描述圖像，忽略了底層紋理特征，因此都未取得較滿意的檢索精度。本文提出了一種融合多尺度特征及注意力機(jī)制的醫(yī)學(xué)圖像檢索方法，該方法通過抽取不同尺度的特征進(jìn)行學(xué)習(xí)，有效融合了淺層視覺特征及深層語義特征，并引入注意力機(jī)制來提高網(wǎng)絡(luò)對關(guān)鍵區(qū)域的關(guān)注度，抑制無關(guān)背景區(qū)域?qū)z索結(jié)果的干擾。最后在損失函數(shù)設(shè)計(jì)上，結(jié)合了交叉熵?fù)p失及中心損失的優(yōu)點(diǎn)，有效緩解了檢索過程中誤檢索及漏檢索的現(xiàn)象。

2 系統(tǒng)概述

根據(jù)圖1所示，一個(gè)完整的醫(yī)學(xué)圖像檢索系統(tǒng)一般包括以下3個(gè)流程：首先是數(shù)據(jù)集線下特征抽取并組建特征矩陣庫的階段，其次是線上輸入圖像特征提取階段，最后是將輸入圖像的特征與特征矩陣庫中的特征進(jìn)行相似度計(jì)算，并返回相似度排名靠前的top-k圖像。

圖1 醫(yī)學(xué)圖像檢索系統(tǒng)示意圖Fig.1 Schematic diagram of medical image retrieval system

上述流程中主要包括圖像預(yù)處理、特征提取以及距離度量3個(gè)功能模塊，本節(jié)將就這3個(gè)功能模塊的具體實(shí)現(xiàn)展開介紹，并重點(diǎn)介紹本文在特征提取模塊的設(shè)計(jì)及優(yōu)化上所做的相關(guān)工作。

2.1 圖像預(yù)處理

在進(jìn)行醫(yī)學(xué)圖像檢索時(shí)，通常需要對不同成像設(shè)備采集到的圖像采取不同的預(yù)處理措施，比如常見的CT圖像中，像素值分布較廣，直接歸一化到0～255會(huì)損失較多的信息，因此需要根據(jù)不同組織的Hu值來選擇合適的窗寬窗位做特定區(qū)間的像素延展，使圖像的細(xì)節(jié)信息得以凸顯。對于X-ray圖像，通常會(huì)由于不同采集設(shè)備以及不同放射劑量使數(shù)據(jù)庫中X-ray樣本的亮度、對比度等分布不均勻，需要對圖像數(shù)據(jù)進(jìn)行直方圖平衡預(yù)處理，以減輕外界因素對模型特征學(xué)習(xí)的干擾。

2.2 特征提取

本文的主要工作主要集中在本模塊的設(shè)計(jì)及優(yōu)化上，首先是設(shè)計(jì)了一個(gè)多尺度特征提取網(wǎng)絡(luò)，其次是引入自注意力模塊，最后是結(jié)合多重?fù)p失對模型進(jìn)一步優(yōu)化。本模塊的主體結(jié)構(gòu)如圖2所示。

圖2 特征提取模塊結(jié)構(gòu)圖Fig.2 Structure diagram of feature extraction module

2.2.1 多尺度特征提取網(wǎng)絡(luò)

本文的特征提取模塊選用了經(jīng)典的Resnet[15]結(jié)構(gòu)，我們希望通過一個(gè)深層網(wǎng)絡(luò)來獲取醫(yī)學(xué)圖像中深層次的語義特征。然而由于網(wǎng)絡(luò)層數(shù)變深，同時(shí)也帶來了梯度爆炸或梯度彌散的問題，并且梯度在從深層向淺層傳遞的過程中逐步減弱，使得淺層網(wǎng)絡(luò)無法得到有效的訓(xùn)練。由于梯度的不穩(wěn)定及反傳的低效性，導(dǎo)致網(wǎng)絡(luò)很難收斂。針對這些問題，Resnet網(wǎng)絡(luò)進(jìn)行了相應(yīng)的結(jié)構(gòu)改進(jìn)。

梯度在傳播過程中的不穩(wěn)定性主要由以下幾點(diǎn)導(dǎo)致：首先，在權(quán)重隨機(jī)初始化過程中權(quán)值被賦予較大的值，導(dǎo)致反傳的梯度與權(quán)值相乘大于1，并在后續(xù)傳播過程中逐層放大導(dǎo)致梯度爆炸，Resnet網(wǎng)絡(luò)通過對權(quán)重進(jìn)行高斯初始化可以較好避免梯度爆炸的問題；其次，sigmod激活函數(shù)的特性決定了它對較大或較小的輸入值表現(xiàn)出梯度低敏感性，導(dǎo)致梯度無法有效地經(jīng)過sigmod激活函數(shù)反向傳播。基于此，Resnet網(wǎng)絡(luò)通過對激活函數(shù)的輸入進(jìn)行批歸一化(BatchNorm)操作，將輸入限制在激活函數(shù)的梯度敏感區(qū)間，并引入計(jì)算更為簡單且對梯度反向傳播更高效的relu激活函數(shù)來緩解梯度經(jīng)過激活函數(shù)損耗較多的問題。

盡管采取BatchNorm操作及選用relu激活函數(shù)緩解了梯度經(jīng)過激活函數(shù)時(shí)的損耗，但還是未徹底解決由網(wǎng)絡(luò)加深帶來的淺層網(wǎng)絡(luò)學(xué)習(xí)不充分的問題。為此，Resnet網(wǎng)絡(luò)提出了經(jīng)典的殘差塊結(jié)構(gòu)，即圖2中的Bottleneck結(jié)構(gòu)。在原始順序堆疊的3個(gè)卷積層的基礎(chǔ)上，通過一個(gè)跳躍連接將輸入疊加到輸出上。由于跳躍連接的存在，為靠近輸出端得到的梯度向靠近輸入端的淺層網(wǎng)絡(luò)傳遞提供了可能性，避免了梯度只能經(jīng)過深層網(wǎng)絡(luò)回傳引起的梯度彌散問題。同時(shí)，圖2中的殘差塊為優(yōu)化之后的結(jié)構(gòu)，原始?xì)埐顗K由兩個(gè)3*3卷積組成，新結(jié)構(gòu)通過使用1*1卷積來對特征圖通道進(jìn)行壓縮和擴(kuò)張，保證網(wǎng)絡(luò)精度的同時(shí)又減少了模型的參數(shù)量，加快了網(wǎng)絡(luò)前向推理的速度。

最后，針對本數(shù)據(jù)集特征尺度差異較大的問題，為了使網(wǎng)絡(luò)能充分學(xué)習(xí)到不同尺度的特征，提高特征的有效性，本文在Resnet網(wǎng)絡(luò)的基礎(chǔ)上分別抽取Stage1、Stage3、Stage5輸出的特征圖，對于512×512尺寸的輸入，輸出的特征圖尺寸分別為128×128×64、64×64×512、16×16×2 048，分別對應(yīng)圖像的淺層紋理特征、中間層過渡特征以及深層語義特征，并輸入到后續(xù)的自注意力模塊中對逐層特征進(jìn)行進(jìn)一步通道篩選。

2.2.2 自注意力模塊

對于殘差網(wǎng)絡(luò)輸出的不同尺度的特征圖，本文通過設(shè)計(jì)一個(gè)自注意力模塊來對特征圖中不同通道特征進(jìn)行進(jìn)一步篩選，來提高關(guān)鍵通道的特征表達(dá)能力，進(jìn)一步引導(dǎo)網(wǎng)絡(luò)將注意力聚焦到包含關(guān)鍵信息的區(qū)域。該模塊的設(shè)計(jì)思路來源于非局部均值(NLM)降噪算法。NLM算法最初在2005年由Buades等人提出[16]，并被廣泛用于圖像復(fù)原及視頻降噪領(lǐng)域， NLM的濾波過程可以用下面公式表示：

(1)

C(p)=∑p∈B(p,r)w(p,q)

(2)

(3)

NLM算法的核心思想是為了克服雙線性濾波、中值濾波等濾波算法僅考慮圖像局部信息的局限性，從而提出以圖像塊為單位，在全局范圍內(nèi)根據(jù)不同圖像塊之間的相似度進(jìn)行像素值加權(quán)平均，更好地實(shí)現(xiàn)圖像高斯噪聲的濾除，并且不損失圖像細(xì)節(jié)。雖然本文的目的并不是做圖像降噪，但是NLM算法實(shí)現(xiàn)降噪的思路其實(shí)就是在抑制圖像中的無關(guān)信息，進(jìn)而使有效信息得到充分表達(dá)，基于此，我們可以將這一思想用于高維特征圖的特征通道篩選任務(wù)中，從而達(dá)到抑制無關(guān)通道特征、強(qiáng)化關(guān)鍵通道特征的目的。事實(shí)上，后面的Non Local Neural Network[17]以及Attention GAN[18-19]中的注意力模塊正是借鑒了NLM算法的思想，通過計(jì)算任意兩個(gè)特征通道之間的交互來直接捕捉遠(yuǎn)程依賴，得到更多的全局輔助信息以彌補(bǔ)小卷積核信息獲取不足的缺陷，進(jìn)而對所有特征通道進(jìn)行更加合理權(quán)重分配。自注意力模塊結(jié)構(gòu)圖如圖3所示。

圖3 自注意力模塊結(jié)構(gòu)圖Fig.3 Structure diagram of self-attention-module

下面從自注意力模塊結(jié)構(gòu)圖對其中原理做進(jìn)一步闡述，首先，對于輸入的特征圖，經(jīng)過3條不同的分支f(x)、g(x)及h(x)，通過3組數(shù)量相同的1*1卷積進(jìn)行通道壓縮，并保留通道維度將寬高展平成一維，這里主要是為了減少輸入特征圖的信息冗余，同時(shí)降低后面相似度計(jì)算的復(fù)雜度。其次，對分支f(x)的特征圖進(jìn)行轉(zhuǎn)置操作再和分支g(x)的特征圖進(jìn)行矩陣相乘，然后將結(jié)果經(jīng)過softmax進(jìn)行歸一化，從向量積數(shù)學(xué)表達(dá)式可以看出矩陣的乘積其實(shí)表征了向量間的余弦相似度。實(shí)際上，這里進(jìn)行的就是NLM算法中的不同通道之間特征圖的相似度計(jì)算。最后，將歸一化輸出后的注意力矩陣和分支h(x)得到的特征圖進(jìn)行相乘，這里其實(shí)就是根據(jù)相似度對不同通道進(jìn)行權(quán)重重分配，再次經(jīng)過softmax得到以及1*1卷積對通道擴(kuò)張至輸入特征圖的通道數(shù)，此時(shí)輸出的特征圖中的關(guān)鍵細(xì)節(jié)特征相對于原特征圖得到了更充分的表達(dá)，從而實(shí)現(xiàn)注意力重分配。

在上述模塊中對輸入不同尺度的特征圖進(jìn)行特征壓縮時(shí)，對于通道數(shù)較少的淺層特征，容易因壓縮率過高而損失掉有效信息，而對于通道數(shù)較多的深層特征，則會(huì)因?yàn)閴嚎s率過低導(dǎo)致存在較高的信息冗余并增加后續(xù)的相似度計(jì)算過程的耗時(shí)。因此，本文考慮到不同尺度特征圖的通道維度上信息冗余的差異性，從淺層至深層分別采用4倍、8倍、16倍的壓縮率，有效地平衡各尺度的信息利用率及計(jì)算效率。同時(shí)，借鑒上文殘差塊結(jié)構(gòu)，將輸入特征圖通過跳躍連接直接疊加到自注意力模塊的輸出，進(jìn)一步優(yōu)化梯度反向傳播的效率。

最后，為了優(yōu)化系統(tǒng)在高維特征在檢索時(shí)的時(shí)間開銷及存儲(chǔ)上的空間開銷，本文采用主成分分析法將不同層的高維輸出嵌入到低維空間中，最終輸出能夠高效表征圖像特征的128維特征向量。

2.2.3 損失函數(shù)

考慮到醫(yī)學(xué)圖像背景大多相似度較高，而同一類別的數(shù)據(jù)會(huì)因不同采集對象而呈現(xiàn)較大的視覺差異，從而導(dǎo)致不同類之間的樣本特征因高度相似的背景區(qū)域而相互混雜，同類之間數(shù)據(jù)由于存在較大視覺差異使得在特征空間中距離被拉大，因此，本文在損失函數(shù)設(shè)計(jì)上，采用了交叉熵?fù)p失和中心損失相結(jié)合的思路，來改善上述問題。本文損失函數(shù)公式如下：

L=λ1LCE+λ2LC

(4)

(5)

(6)

對于交叉熵?fù)p失，從計(jì)算公式(5)可以看出，交叉熵?fù)p失反映的是預(yù)測值的概率分布和真實(shí)標(biāo)簽的概率分布之間的差異程度。在網(wǎng)絡(luò)不斷訓(xùn)練迭代的過程中，網(wǎng)絡(luò)能夠?qū)W習(xí)到類別間的區(qū)分特征，使得預(yù)測的概率分布能夠逐步擬合真實(shí)標(biāo)簽的概率分布，然而對于醫(yī)學(xué)影像數(shù)據(jù)檢索模型，僅讓不同類別的數(shù)據(jù)在特征空間實(shí)現(xiàn)類間可分還不夠，我們還希望同類特征分布能夠更緊湊，這樣檢索得到的結(jié)果才能和輸入樣本表現(xiàn)出強(qiáng)相關(guān)性，才能夠?yàn)榕R床診斷提供更多有價(jià)值的參考信息。

進(jìn)一步的，為了解決類內(nèi)特征不緊湊問題，本文引入了中心損失，公式(6)中xi表示網(wǎng)絡(luò)提取到的樣本特征，Cyi表示第yi個(gè)類別的特征中心，中心損失統(tǒng)計(jì)的是每個(gè)批次中的樣本特征與對應(yīng)類別的特征中心的距離，并在訓(xùn)練過程中，將計(jì)算得到的損失值通過梯度反傳來優(yōu)化網(wǎng)絡(luò)參數(shù)，從而縮短同類樣本在特征空間中的距離[20]。

2.3 距離度量

在設(shè)計(jì)好特征提取模塊的基礎(chǔ)上，可以離線抽取數(shù)據(jù)集中的圖像特征，并將所有的特征向量拼接成特征矩陣進(jìn)行存儲(chǔ)，同時(shí)將數(shù)據(jù)庫中的圖片路徑與矩陣中對應(yīng)的特征向量建立索引。在檢索過程中，通過計(jì)算輸入圖像的特征向量與特征矩陣中所有向量間的距離，并按距離從小到大排序來檢索數(shù)據(jù)庫中的相關(guān)樣本。常用的距離評估函數(shù)有以下幾種：

(7)

(8)

切比雪夫距離：

(9)

(10)

上述距離度量函數(shù)中，歐式距離、曼哈頓距離以及切比雪夫側(cè)重描述特征空間中向量間的數(shù)值關(guān)系，余弦距離則表示特征向量中不同維度間相對層面的差異。由于醫(yī)學(xué)圖像固有的異質(zhì)性，同類樣本可能在數(shù)值上存在較大區(qū)別，因此本文采用余弦距離來衡量輸入圖像與數(shù)據(jù)庫中圖像特征間的相似度。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)準(zhǔn)備

3.1.1 數(shù)據(jù)集

本文使用的是斯坦福吳恩達(dá)老師團(tuán)隊(duì)收集的MURA數(shù)據(jù)集，包含來自14 892位不同年齡段患者的40 895張骨骼X光片，分別采集自患者的肩部、肱骨、手肘、前臂、手腕、手掌和手指7個(gè)不同的部位。首先，為了保證模型的檢索性能，需要將數(shù)據(jù)集按最具有區(qū)分度的特征進(jìn)行組織再送入網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)，這里選擇按不同采集部位進(jìn)行數(shù)據(jù)歸類。數(shù)據(jù)集中各類樣本的數(shù)量分布如圖4所示。

圖4 樣本數(shù)量分布圖Fig.4 Distribution diagram of different classes

觀察到數(shù)據(jù)集中前臂、肱骨這兩個(gè)類別數(shù)量不足，而肩部、手腕兩個(gè)類別數(shù)量偏多，本文在預(yù)處理階段針對數(shù)量較少的前臂、肱骨類別做了圖像旋轉(zhuǎn)、剪裁等數(shù)據(jù)增強(qiáng)操作，并適當(dāng)減少數(shù)量較多的肩部、手腕兩個(gè)類別的訓(xùn)練樣本數(shù)來平衡各類樣本數(shù)量。其次，注意到數(shù)據(jù)集中圖片長寬比分布不均，且長邊均為512，短邊長度在80～512區(qū)間呈隨機(jī)分布，短邊長度分布如圖5所示。

圖5 短邊長度區(qū)間分布圖Fig.5 Distribution diagram of short side length interval

為了避免送入特征提取網(wǎng)絡(luò)時(shí)圖像被直接resize而導(dǎo)致特征失真，在預(yù)處理階段將短邊沿圖像兩側(cè)以圖像均值像素填充至與長邊一致，從而保證圖像中包含有效信息區(qū)域的縱橫比不受破壞。圖像預(yù)處理前后的圖片如圖6所示。

圖6 (a)數(shù)據(jù)集原圖;(b)預(yù)處理后圖。Fig.6 (a) Original images of dataset; (b) Preprocessed images.

3.1.2 評估指標(biāo)

一般而言，圖像檢索系統(tǒng)的性能可以分別從查準(zhǔn)率(Precision)、查全率(Recall)、F1度量(F1-score)、平均檢索精度(mAP)以及檢索時(shí)間幾個(gè)指標(biāo)來評估。不同的應(yīng)用場景各個(gè)指標(biāo)的關(guān)注度不同，對查詢準(zhǔn)確率較高的場景，比如在醫(yī)學(xué)圖像檢索中，需要得到最相關(guān)的檢索信息，且不相關(guān)樣本誤檢索會(huì)帶來較大的負(fù)面作用，所以更關(guān)注查準(zhǔn)率。

查準(zhǔn)率和查全率的公式為：

(11)

(12)

其中:TP為檢索結(jié)果中相關(guān)樣本的數(shù)量，F(xiàn)P是檢索結(jié)果中不相關(guān)樣本的數(shù)量，F(xiàn)N是數(shù)據(jù)庫中未檢索到的相關(guān)樣本數(shù)量。

事實(shí)上，查準(zhǔn)率和查全率是相互影響的。一般情況下，當(dāng)查準(zhǔn)率高時(shí)，容易漏檢索，導(dǎo)致查全率低；而查全率高時(shí)，容易檢索到錯(cuò)誤樣本，導(dǎo)致查準(zhǔn)率低。因此，通過計(jì)算查全率和查準(zhǔn)率的加權(quán)調(diào)和平均值F1-score可以綜合考慮這兩個(gè)指標(biāo)。F1-score的計(jì)算公式為：

(13)

在一些圖像檢索比賽中，通常還會(huì)參考檢索結(jié)果中top-k的平均檢索精度(mAP@k)，如2020年的華為DIGIX數(shù)碼設(shè)備檢索比賽中，以top1的檢索精度以及top-k的平均檢索精度加權(quán)得到最終的成績。一般情況下，用戶只會(huì)選擇性瀏覽排名靠前的10～20條檢索結(jié)果，因此， top-k平均檢索精度更能反映用戶在實(shí)際檢索場景中的直觀感受。top-k平均檢索精度的公式為：

(14)

其中s為查詢次數(shù)、Position(j)指搜索到的第j個(gè)相關(guān)樣本在檢索結(jié)果中的位置。

3.1.3 訓(xùn)練

本實(shí)驗(yàn)在開源linux操作系統(tǒng)ubuntu18.04下進(jìn)行，相關(guān)硬件設(shè)備為NVIDIA-1080顯卡、32 G內(nèi)存主機(jī)。并使用通用的深度學(xué)習(xí)框架pytorch進(jìn)行網(wǎng)絡(luò)設(shè)計(jì)，在pycharm編輯器中進(jìn)行代碼調(diào)試。

在訓(xùn)練前，為了更好地衡量模型在查準(zhǔn)率和查全率兩個(gè)指標(biāo)上的評估，本文在測試集構(gòu)造時(shí)統(tǒng)一了各個(gè)類別的數(shù)量。分別從每個(gè)類別中抽取1 100張圖片，其中1 000張作為圖像庫，100張作為待檢索的輸入圖片。這樣可以避免在召回率計(jì)算時(shí)，數(shù)量多的類別召回率表現(xiàn)很低的情況。在此基礎(chǔ)上，對數(shù)據(jù)集中剩余樣本按類別進(jìn)行5∶5的訓(xùn)練集、驗(yàn)證集劃分。

在數(shù)據(jù)加載時(shí)，為了盡可能保留數(shù)據(jù)集原始信息，圖像以每批次4張，尺寸為512×512輸入網(wǎng)絡(luò)。為了進(jìn)一步平衡樣本數(shù)量差異帶來的少數(shù)樣本特征學(xué)習(xí)不充分的問題，采用類別平衡采樣法來保證每次采樣中少數(shù)樣本類別的被采樣概率。其次，為了使模型對實(shí)際檢索場景中輸入圖像的光照、角度、尺寸變換有更強(qiáng)的適應(yīng)能力，對每個(gè)批次的數(shù)據(jù)進(jìn)行在線數(shù)據(jù)增強(qiáng)。相比于離線增強(qiáng)，在線數(shù)據(jù)增強(qiáng)能夠節(jié)省大量的數(shù)據(jù)存儲(chǔ)空間，并且由于每個(gè)批次增強(qiáng)方式的隨機(jī)性，能得到更豐富的輸出，提高模型的魯棒性。

最后，為了加快網(wǎng)絡(luò)收斂，采用初始學(xué)習(xí)率為0.001，權(quán)重衰減因子為1e-4的adam優(yōu)化器對模型參數(shù)沿負(fù)梯度方向更新，并在20，50，90訓(xùn)練輪數(shù)時(shí)對學(xué)習(xí)率進(jìn)行衰減，使網(wǎng)絡(luò)在訓(xùn)練初期保持較高的學(xué)習(xí)率，加快損失值下降的速度，在訓(xùn)練后期通過降低學(xué)習(xí)率來抑制損失振蕩現(xiàn)象，使網(wǎng)絡(luò)逐步收斂。

3.2 對比實(shí)驗(yàn)及結(jié)果分析

3.2.1 定量分析

為了驗(yàn)證本文方法的有效性，分別對比了SIFT-BoVWs、DHCNN、RAN在Mura數(shù)據(jù)集上的各個(gè)指標(biāo)上的表現(xiàn)，其中查準(zhǔn)率及查全率采用相似度0.8為閾值，即只取相似度大于0.8的作為最終檢索結(jié)果，并統(tǒng)計(jì)了各個(gè)模型在Mura數(shù)據(jù)集上每個(gè)類別的mAP@100、mAP@20指標(biāo)，表1是實(shí)驗(yàn)具體數(shù)據(jù)。

表1 對比試驗(yàn)?zāi)Ｐ托阅鼙容^Tab.1 Performance comparison of comparative test models

從對比實(shí)驗(yàn)可以看出，基于視覺詞袋表征圖像特征的SIFT-BoVWs模型在本數(shù)據(jù)集上精度比較低并且檢索時(shí)間較長，主要是因?yàn)槟Ｐ透P(guān)注圖像的紋理及形狀信息，而無法提取并利用圖像的深層語義信息來進(jìn)行圖像檢索，檢索時(shí)間較長主要是圖像SIFT特征提取階段耗時(shí)過多。DHCNN模型則利用了vgg16特征提取網(wǎng)絡(luò)來代替SIFT特征提取并對高維的特征進(jìn)行哈希值編碼，在GPU設(shè)備的加速下，加快了特征提取的速度，并且由于訓(xùn)練過程中學(xué)習(xí)到了每個(gè)類的抽象特征，使得模型精度有了6.2%的mAP@20精度指標(biāo)的提升。RAN模型同樣是采用深度學(xué)習(xí)的方法來提取圖像特征，并在此基礎(chǔ)上引入了自注意力模塊，使得模型精度有了大幅度提升，但是RAN的特征提取網(wǎng)絡(luò)采用了結(jié)構(gòu)較復(fù)雜的Resnet101網(wǎng)絡(luò)，檢索耗時(shí)相比于DHCNN網(wǎng)絡(luò)有所增加。本文設(shè)計(jì)的模型，在特征提取網(wǎng)絡(luò)上參考了相較于前兩者更輕量的resnet50主干網(wǎng)絡(luò)，并在此結(jié)構(gòu)上進(jìn)行了一定改進(jìn)，通過抽取不同層的特征，并利用注意力模塊對其進(jìn)行權(quán)重重分配，最后在訓(xùn)練階段通過交叉熵?fù)p失和中心損失融合進(jìn)一步讓每個(gè)類別的特征在特征空間分布更加合理，最終在Mura數(shù)據(jù)集上mAP@20取得了0.98的檢索精度。

3.2.2 定性分析

為了使檢索效果得到更直觀的體現(xiàn)，對同一張輸入圖片分別用4個(gè)模型進(jìn)行檢索，并得到top10檢索結(jié)果，如圖7所示。

圖7 不同模型的檢索效果圖。(a) SIFT-BoVWs; (b)DHCNN; (c)RAN; (d)本文模型。紅框中為誤檢索圖片。Fig.7 Effect diagram of different models.(a) SIFT-BoVWs;(b)DHCNN;(c)RAN;(d)Ours. The picture in the red box is the wrong picture.

從檢索結(jié)果top10可以直觀地看出，SIFT-BoVWs模型更關(guān)注樣本的顏色、形狀等特征，而對于輸入的肘部測試圖像，由于檢索結(jié)果中第四幅肱骨圖像和輸入圖像在視覺上的相似性導(dǎo)致誤檢索。模型DHCNN和RAN則在誤檢索上有所改善，但仍存在個(gè)別誤檢。綜合來看，本文的模型在top10的檢索精度表現(xiàn)較好，也比較符合實(shí)際場景對模型的檢索精度要求。

3.3 消融實(shí)驗(yàn)及結(jié)果分析

3.3.1 定量分析

本節(jié)對本文第二部分中提到的主要改進(jìn)點(diǎn)進(jìn)行消融實(shí)驗(yàn)分析，并以此對各個(gè)模塊引入的目的及取得的效果做更直觀地?cái)⑹觥?/p>

在實(shí)驗(yàn)過程中嘗試過的且對精度提升有比較大幫助的主要3點(diǎn)：(1)融合多個(gè)尺度特征對樣本進(jìn)行更全面的描述，優(yōu)化模型對于輸入圖像中不同尺度范圍的檢索能力；(2)加入自注意力模塊，強(qiáng)化圖像中關(guān)鍵細(xì)節(jié)特征的表達(dá)能力；(3)結(jié)合多重?fù)p失優(yōu)化，在加大類間距離的同時(shí)，縮短類內(nèi)距離，使樣本特征在特征空間的分布更加合理。

為了更方便地描述上述改進(jìn)點(diǎn)在數(shù)據(jù)集中每個(gè)類別上的提升效果，統(tǒng)計(jì)了實(shí)驗(yàn)中模型在Mura數(shù)據(jù)集7個(gè)類別的mAP@100指標(biāo),表2是消融實(shí)驗(yàn)的具體數(shù)據(jù)。

表2 消融實(shí)驗(yàn)?zāi)Ｐ托阅鼙容^Tab.2 Performance comparison of ablation experimental models

在Resnet50的基礎(chǔ)上，結(jié)合上文提到的優(yōu)化措施，設(shè)計(jì)了6組實(shí)驗(yàn)。通過對模型在各類的檢索精度分析可知，模型在手肘、肩部這兩類的精度較低。而通過觀察這兩類易檢索出錯(cuò)的樣本發(fā)現(xiàn)，模型對于肘關(guān)節(jié)的局部圖像以及包含前臂和肱骨的肘部圖像容易檢索成其他類，而肩膀這類樣本也是如此，由此猜想模型對于尺度變化大的樣本的特征辨別能力還不夠，因此有了引入多尺度特征的嘗試，通過對不同尺度特征的組合嘗試，這兩類的檢索精度得到了平均10個(gè)點(diǎn)的提高。同時(shí)對比了注意力及多重?fù)p失單獨(dú)作用的模型精度提升，在單一尺度的注意力作用下，手肘、前臂、肩膀3個(gè)類的提升并不如多尺度的明顯，而多重?fù)p失的加入則能夠在前臂、手掌這兩個(gè)易混淆的類上有十分明顯的提升。

結(jié)合上述實(shí)驗(yàn)可以發(fā)現(xiàn)，在引入多尺度特征的基礎(chǔ)上，雖然模型的整體精度提高了，但是手腕、前臂這兩類的精度有所下降。對這兩類的特征圖可視化之后發(fā)現(xiàn)，前文引入的淺層紋理會(huì)對手腕的特征造成一定程度的影響，使得模型的注意力被邊緣紋理特征破壞，導(dǎo)致手腕與前臂這兩類混淆的幾率加大?；诖耍胱宰⒁饬C(jī)制，使網(wǎng)絡(luò)能夠關(guān)注到重要的特征并抑制無關(guān)的干擾性特征，實(shí)驗(yàn)表明，引入注意力機(jī)制后，網(wǎng)絡(luò)的注意力能夠關(guān)注到不同類別的關(guān)鍵特征區(qū)域，從而較好地解決了類間易混淆問題。

在引入注意力模塊之后，每個(gè)類別的精度都得到了平衡。為了進(jìn)一步提高模型精度，引入中心損失和交叉熵?fù)p失結(jié)合來優(yōu)化各類樣本在特征空間的分布，減少位于邊界區(qū)域的樣本混淆概率。

3.3.2 定性分析

為了使每個(gè)模塊的改進(jìn)更加直觀，本文隨機(jī)抽取了部分樣本的特征進(jìn)行了可視化處理，并以熱力圖的形式疊加到原圖進(jìn)行展示，圖8是具體效果。

圖8 消融實(shí)驗(yàn)效果圖。(a)原圖;(b)RvesNet50; (c)ResNet50+多層特征;(d)ResNet50+多層特征+注意力。Fig.8 Effect diagram of ablation experiment. (a)Original image; (b) ResNet 50; (c) ResNet 50+ Multiple feature; (d) ResNet 50+ Mutiple feature+Self-attention.

可以看出，相對于ResNet50基礎(chǔ)模型,多尺度特征的引入可以從全局角度對不同尺度特征進(jìn)行更合理的組合。引入自注意力模塊后，網(wǎng)絡(luò)的關(guān)注度進(jìn)一步集中到了關(guān)鍵區(qū)域。

引入多重?fù)p失前后在注意力圖中無明顯變化，這里將樣本特征進(jìn)行降維處理，降維到二維后，在平面圖中進(jìn)行展示，圖9是使用多重?fù)p失前后的每類樣本特征分布圖。

圖9 樣本特征分布圖。(a)原分布圖; (b)優(yōu)化后分布圖。Fig.9 Distribution map of sample features. (a) Original distribution map; (b) Optimized distribution map.

4 結(jié) 論

針對醫(yī)學(xué)圖像的一些固有特征造成現(xiàn)有的一些圖像檢索方案偏低的問題，本文提出了一種融合多尺度特征及注意力機(jī)制的醫(yī)學(xué)圖像檢索系統(tǒng)優(yōu)化思路。在特征提取階段，借鑒了深度殘差網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)，并融合不同層次、不同尺度的特征圖，充分利用了圖像的淺層紋理特征及深層語義特征，較好地緩解了不同尺度目標(biāo)的特征提取問題。同時(shí)，設(shè)計(jì)了一個(gè)改進(jìn)的注意力模塊以適應(yīng)不同尺度的特征圖輸出，并對所有通道特征進(jìn)行權(quán)重重分配，提高了關(guān)鍵通道的特征表達(dá)能力，使圖像中的重要細(xì)節(jié)特征更加突出。最后，在模型訓(xùn)練階段，采用交叉熵?fù)p失和中心損失相結(jié)合的思路，使得各個(gè)類的樣本特征在樣本空間的分布更加合理，進(jìn)一步提高了模型的檢索精度。實(shí)驗(yàn)證明，本文的方案相較于其他醫(yī)學(xué)圖像檢索模型在Mura數(shù)據(jù)集上mAP@20能夠獲得0.98的精度，基本符合實(shí)際場景對模型的檢索精度要求。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放