基于深度學(xué)習(xí)的胎兒顏面部超聲標準切面自動識別

2017-09-08 02:01:45吳凌云陳思平李勝利汪天富雷柏英

中國生物醫(yī)學(xué)工程學(xué)報 2017年3期

余鎮(zhèn) 吳凌云倪東陳思平李勝利汪天富* 雷柏英*

1(深圳大學(xué)生物醫(yī)學(xué)工程學(xué)院，廣東省生物醫(yī)學(xué)信息檢測和超聲成像重點實驗室，廣東深圳 518060)2(深圳婦幼保健院超聲科，南方醫(yī)科大學(xué)附屬醫(yī)院，廣東深圳 518060)

余鎮(zhèn)1吳凌云1倪東1陳思平1李勝利2汪天富1*雷柏英1*

在常規(guī)胎兒超聲診斷過程中，精確識別出胎兒顏面部超聲標準切面(FFSP)至關(guān)重要。傳統(tǒng)方法是由醫(yī)生進行主觀評估，這種人工評判的方式不僅耗費時間精力，而且嚴重依賴操作者經(jīng)驗，所以結(jié)果往往不可靠。因此，臨床超聲診斷亟需一種FFSP自動識別方法。提出使用深度卷積網(wǎng)絡(luò)識別FFSP，同時還分析不同深度的網(wǎng)絡(luò)對于FFSP的識別性能。對于這些網(wǎng)絡(luò)模型，采用不同的訓(xùn)練方式：隨機初始化網(wǎng)絡(luò)參數(shù)和基于ImageNet預(yù)訓(xùn)練基礎(chǔ)網(wǎng)絡(luò)的遷移學(xué)習(xí)。在研究中，數(shù)據(jù)采集的是孕周20～36周胎兒顏面部超聲圖像。訓(xùn)練集包括1 037張標準切面圖像(軸狀切面375張，冠狀切面257張，矢狀切面405張)以及3 812張非標準切面圖像，共計4 849張；測試集包括792張標準切面圖像和1 626張非標準切面圖像，共計2 418張。最后測試集實驗結(jié)果顯示，遷移學(xué)習(xí)的方法使得網(wǎng)絡(luò)識別結(jié)果增加9.29%, 同時當網(wǎng)絡(luò)結(jié)構(gòu)由8層增加至16層時，分類結(jié)果提升3.17%，深度網(wǎng)絡(luò)對于FFSP分類最高正確率為94.5%，相比之前研究方法的最好結(jié)果提升3.66%，表明深度卷積網(wǎng)絡(luò)能夠有效地檢測出FFSP，為臨床自動FFSP檢測方法打下研究基礎(chǔ)。

胎兒顏面部標準切面識別；超聲圖像；深度卷積網(wǎng)絡(luò)；遷移學(xué)習(xí)

引言

在胎兒疾病的常規(guī)檢查中，超聲檢查已經(jīng)成為最受歡迎的影像診斷技術(shù)[1- 7]。胎兒顏面部標準切面(FFSP)的獲取對于超聲精確診斷和測量至關(guān)重要[1,3- 4]。臨床上，胎兒超聲檢查需要操作者具有完備的知識儲備，以及大量的經(jīng)驗實踐。經(jīng)驗豐富的醫(yī)生可以高效地利用超聲進行診斷，而在欠發(fā)達地區(qū)，缺少有經(jīng)驗的專家以及先進的超聲成像設(shè)備。在這種情況下，自動識別胎兒超聲顏面部標準切面的方法可以有效地彌補專家等醫(yī)療資源的不足，同時減少醫(yī)生診斷時間[8]。因此，研究自動識別技術(shù)對臨床診斷意義重大。

臨床上，傳統(tǒng)檢測FFSP的方法是基于醫(yī)生對于獲取的胎兒超聲圖像進行主觀評估。但是，這種人工評估的方法除了比較耗時外，其評估結(jié)果往往具有很大的主觀性，不同的醫(yī)生可能會得到不同的診斷結(jié)果。而利用計算機技術(shù)，也就是圖像分析與機器學(xué)習(xí)的方法，可以自動檢測出醫(yī)生所需的異?；驑藴拭鎴D像，從而方便醫(yī)生診斷流程，同時改善診斷結(jié)果。這種計算機輔助診斷技術(shù)往往需要大量的標注數(shù)據(jù)，然而在臨床應(yīng)用上，數(shù)據(jù)采集與處理過程極具挑戰(zhàn)且相當耗時。與此同時，在超聲圖像中，由于大量偽影和噪聲的存在，使得圖像類間差異小而類內(nèi)差異大。如圖1所示，胎兒顏面部超聲標準切面FFSP與其他非標準切面之間差異并不明顯。所以，精確識別FFSP具有相當大的挑戰(zhàn)。為了解決這些困難，很多研究者提出了不同的方法，其中最常見的是利用低層特征(即SIFT、Haar和HoG特征)作為圖像表述中介來表達圖像。隨后，對這些低層特征進一步編碼來改善識別的結(jié)果，常見的編碼方法有視覺詞袋(bag of visual words, BoVW)、局部特征聚合描述符(vector of locally aggregated descriptors, VLAD)，以及Fisher向量(Fisher vector, FV)[1,4- 5]。然而，這些從連續(xù)二維超聲圖像中提取的手工特征，最后得到的FFSP識別結(jié)果并不能令人滿意。

圖1 胎兒超聲顏面部切面。(a)非標準切面；(b)軸向標準切面；(c)冠狀標準切面；(d)矢狀標準切面Fig.1 Original samples of FFSP. (a) Others (non- FFSP); (b) Axial plane; (c) Coronal plane; (d) Sagittal plane

與此同時，由于大規(guī)模數(shù)據(jù)集(ImageNet)[9]的出現(xiàn)，以及具有極強表達能力的深度卷積網(wǎng)絡(luò)的發(fā)展，深度網(wǎng)絡(luò)在圖像識別領(lǐng)域取得了巨大成功[10-12]。受此啟發(fā)，在本研究中，用深度卷積網(wǎng)絡(luò)模型去檢測FFSP。由于深度網(wǎng)絡(luò)往往需要大量的訓(xùn)練樣本，而臨床采集數(shù)據(jù)又相當困難，往往會導(dǎo)致網(wǎng)絡(luò)訓(xùn)練出現(xiàn)過擬合現(xiàn)象，最后無法得到預(yù)期結(jié)果。對此，本研究采用遷移學(xué)習(xí)策略，結(jié)合數(shù)據(jù)增強技術(shù)，以改善深度網(wǎng)絡(luò)識別FFSP結(jié)果。此外，還研究了不同深度的網(wǎng)絡(luò)結(jié)構(gòu)的FFSP識別性能。據(jù)了解，這是首次使用深度網(wǎng)絡(luò)來自動識別FFSP的方法，對于常規(guī)超聲檢查和產(chǎn)前診斷具有巨大的應(yīng)用前景。

1 方法

本研究的主要目標是從胎兒超聲圖像中精確識別出顏面部標準切面，創(chuàng)新性地提出了利用深度學(xué)習(xí)結(jié)合特殊數(shù)據(jù)預(yù)處理的方法，以及引入遷移學(xué)習(xí)方法來自動識別胎兒顏面部標準切面。下面將會對整個研究所用到的方法進行介紹，包括卷積神經(jīng)網(wǎng)絡(luò)原理、CNN網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)增強方法以及遷移學(xué)習(xí)策略。

1.1 卷積神經(jīng)網(wǎng)絡(luò)

受到生物神經(jīng)系統(tǒng)的啟發(fā)，卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)在物體識別和檢測領(lǐng)域已經(jīng)獲得了巨大成功。不同于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，卷積神經(jīng)網(wǎng)絡(luò)結(jié)合了局部連接和權(quán)值共享策略，因此使得卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)大大減少，從而使構(gòu)建更深層數(shù)的卷積網(wǎng)絡(luò)成為可能。CNN結(jié)合了特征提取和特征分類兩個過程，相比傳統(tǒng)的手工特征表達分類方式，它可以根據(jù)給定的訓(xùn)練樣本自動地學(xué)習(xí)特征。CNN一般由多個帶參數(shù)的學(xué)習(xí)層構(gòu)成，每個學(xué)習(xí)層都能學(xué)習(xí)一定特征，使得整個網(wǎng)絡(luò)可以從輸入圖像中自動提取特征并不斷組合、抽象化迭代，形成具有極強表達能力的高層級特征，并在最后進行分類輸出。

CNN的主要組成成分是卷積層(convolutional layer, Conv)，卷積層包含許多神經(jīng)元，每個神經(jīng)元帶有一組可學(xué)習(xí)的權(quán)值和一個偏置項。這些權(quán)值會在網(wǎng)絡(luò)訓(xùn)練的過程中不斷改變。每個神經(jīng)元對于前一層的局部區(qū)域進行感知，即將該局部區(qū)域作為其輸入。假定xlj是第l層卷積層的第j個神經(jīng)元的輸出，且x(l-1)m(m=1,…，M)是第l-1層的神經(jīng)元輸出，M表示當前神經(jīng)元的局部輸入大小，那么xlj可以表示為

(1)

池化層(pooling layer, pool，本研究采用最大池化，因此在下面表示為max- pool)和全連接層是CNN的另一主要成分。在本研究中，將分類層softmax層作為全連接層的附屬層。一般而言，在卷積層之間會加入池化層，池化層本身不帶參數(shù)，其作用是減少卷積層的輸出尺寸大小，從而大大減少整個網(wǎng)絡(luò)的參數(shù)數(shù)量，同時增強卷積層輸出特征的空間穩(wěn)定性。因此，池化層在一定程度上可以避免網(wǎng)絡(luò)出現(xiàn)過擬合的情況。全連接層(fully- connected layer，F(xiàn)C)類似于卷積層，同樣是由許多神經(jīng)元組成，但這里的神經(jīng)元與前一層輸入之間是全連接的方式，即每個神經(jīng)元與前一層所有輸入進行作用。

Softmax層是CNN網(wǎng)絡(luò)的最后一層結(jié)構(gòu)，其功能是對網(wǎng)絡(luò)提取的特征進行分類。為了評價網(wǎng)絡(luò)預(yù)測輸出與輸入圖像真實標簽之間的一致性，這里用到了損失函數(shù)。具體而言，假定Ii(i=1,…,N)為輸入圖像，Ti∈{0,1,…，K}是其對應(yīng)的真實標簽，則損失函數(shù)可以表示為

(2)

(3)

CNN訓(xùn)練的目的就是獲取合適的權(quán)值參數(shù)，使整個網(wǎng)絡(luò)能夠針對目標數(shù)據(jù)自動學(xué)習(xí)合適的特征表達，從而讓未知樣本得到比較好的預(yù)測結(jié)果。

1.2 CNN結(jié)構(gòu)設(shè)置

本課題主要研究了兩種深度的CNN結(jié)構(gòu)，其中16層的深度網(wǎng)絡(luò)是基于VGGNet改進而來，作為對比，另一深度較淺的8層CNN網(wǎng)絡(luò)是以AlexNet為設(shè)計基礎(chǔ)的。對于這兩個網(wǎng)絡(luò)結(jié)構(gòu)，在下文中分別稱為CNN- 8和CNN- 16。針對CNN- 8，本研究分別采用隨機初始化網(wǎng)絡(luò)參數(shù)和遷移學(xué)習(xí)的方式來進行訓(xùn)練，訓(xùn)練的結(jié)果分別稱為CNN- 8- RI和CNN- 8- TR。對于像CNN- 16這種深度的網(wǎng)絡(luò)，在直接隨機初始參數(shù)的情況下訓(xùn)練會出現(xiàn)收斂速度極慢的情況，在反向傳播更新參數(shù)過程中會出現(xiàn)梯度消失的情況[13- 15]，因此這里直接采用遷移學(xué)習(xí)的方式來初始化設(shè)置網(wǎng)絡(luò)，相應(yīng)結(jié)果表示為CNN- 16- TR。本實驗中CNN的具體結(jié)構(gòu)細節(jié)如表1所示。

表1 CNN模型結(jié)構(gòu)Tab.1 Architecture of our CNN models.

CNN-8結(jié)構(gòu)主要以AlexNet為設(shè)計基礎(chǔ)[11]。該網(wǎng)絡(luò)在ImageNet等數(shù)據(jù)集上都取得了極大的成功，同時在2012 年大規(guī)模視覺識別挑戰(zhàn)競賽(Large Scale Visual Recognition Challenge, ILSVRC2012)中超過了其他各類深度學(xué)習(xí)模型，并取得了第一名的好成績。因此，本研究的CNN- 8模型也由5層卷積層、3層池化層以及3層全連接層構(gòu)成，不同的是，將第一層卷積層卷積核大小由11×11改為8×8[16]，同時減少最后全連接層通道數(shù)，即由原來的4096-4096-1000減少至1024-1024-4。

CNN-16結(jié)構(gòu)與VGGNet[12]類似，相對于其他CNN模型，VGGNet在深度上有了極大的提升，共有16與19層兩個版本。在本研究中，CNN-16所有層的卷積核大小都為3×3，且卷積步長為1。一方面，小尺寸卷積核能夠提取更為豐富的細節(jié)特征；另一方面，相對于5×5、7×7甚至11×11等較大尺寸的卷積核，使用3×3卷積核可以大大減少網(wǎng)絡(luò)參數(shù)，從而防止?jié)撛谶^擬合問題的出現(xiàn)。對于最后的全連接層，同樣將其通道數(shù)從4096- 4096- 1000減少至1024- 1024- 4。

1.3 數(shù)據(jù)增強

CNN網(wǎng)絡(luò)作為一種深度學(xué)習(xí)模型，對于訓(xùn)練數(shù)據(jù)量具有極大的要求。某種程度上，數(shù)據(jù)量的大小直接決定了網(wǎng)絡(luò)的規(guī)模，以及網(wǎng)絡(luò)的可訓(xùn)練性。臨床上，收集大量且具有代表性的醫(yī)學(xué)圖像本身就相當困難，再加上這些數(shù)據(jù)還需要人工進行標注，因此構(gòu)建高質(zhì)量、大規(guī)模的醫(yī)學(xué)圖像數(shù)據(jù)集極具挑戰(zhàn)。在保持圖像本身標簽不變的情況下，對圖像數(shù)據(jù)進行多種變換來增大數(shù)據(jù)集的規(guī)模，是一種可行且有效的數(shù)據(jù)增強方式[11]。通過這種方式，可以擴大數(shù)據(jù)集規(guī)模，從而解決醫(yī)學(xué)圖像數(shù)據(jù)集因為數(shù)據(jù)量不足而無法訓(xùn)練CNN模型的情況。

在本研究中，同樣采用了這種數(shù)據(jù)增強技術(shù)，即從原始FFSP數(shù)據(jù)集中，對每一張US圖像在裁剪掉非數(shù)據(jù)區(qū)后進行采樣，提取新的子圖像。由于數(shù)據(jù)集的分布不均勻，標準切面與非標準切面的數(shù)量存在較大的差異，會導(dǎo)致帶偏差的經(jīng)驗(biased prior)[17]，這樣的數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)會降低其最后分類性能。

為此，對胎兒顏面部超聲非標準切面與標準切面圖像分別提取不同數(shù)量的子圖像，從而保持兩者數(shù)量上的均衡。具體而言，對于初始的FFSP超聲圖像，其大小為768像素×576像素，首先裁掉周圍的黑色區(qū)域(即非數(shù)據(jù)區(qū))，而后調(diào)整其尺寸至256像素×256像素，并從該圖像下裁剪出5張224像素×224像素大小的子圖像(左上、左下、右上、右下以及中心塊)，再水平翻轉(zhuǎn)，從而每張初始圖像最后總共得到10張子圖像，如圖2所示。

圖2 數(shù)據(jù)增強Fig.2 Data augmentation

由于非標準切面的數(shù)量遠遠多于標準切面，因此，對于每張非標準切面，只提取其中間塊子圖像。相應(yīng)地，在測試過程中，原始圖像分類結(jié)果由其子圖像類別分數(shù)綜合決定。

1.4 遷移學(xué)習(xí)

即便CNN網(wǎng)絡(luò)具有極強的特征表達能力，在很多醫(yī)學(xué)圖像上得到了成功應(yīng)用，但訓(xùn)練的數(shù)據(jù)量依舊是最大的限制。因此，過擬合問題是有監(jiān)督深度模型始終無法回避的一個話題。在這種情況下，先從大規(guī)模的數(shù)據(jù)集上預(yù)訓(xùn)練一個CNN網(wǎng)絡(luò)，而后將該網(wǎng)絡(luò)的參數(shù)復(fù)制到目標網(wǎng)絡(luò)中，這是一個有效的網(wǎng)絡(luò)初始化方式，可以大大加快網(wǎng)絡(luò)訓(xùn)練速度，同時避免訓(xùn)練數(shù)據(jù)量過小而出現(xiàn)的過擬合現(xiàn)象。近來，有很多研究證明了該方法的有效性[18-20]。

這種遷移網(wǎng)絡(luò)學(xué)習(xí)層參數(shù)的方法，其有效性在于網(wǎng)絡(luò)提取的特征具有層級特性，不同層的學(xué)習(xí)層提取不同層次的特征信息。在網(wǎng)絡(luò)的淺層部分，提取的特征是低層特征，即該類特征具有一般共性，相對于網(wǎng)絡(luò)后面層所提取的特征而言，抽象度更低，表述的是目標顏色、輪廓等常見的基本特性，而且不同數(shù)據(jù)集得到的低層特征相似度很大。而在網(wǎng)絡(luò)的后面層部分提取的高層特征則具有很大的特異性，即不同的數(shù)據(jù)集得到的高層特征往往差異很大。對此，在不同數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)之間，可以通過遷移網(wǎng)絡(luò)淺層學(xué)習(xí)層參數(shù)來共享低層特征。

目前，最常見的遷移學(xué)習(xí)方法是：首先在其他數(shù)據(jù)集上預(yù)訓(xùn)練一個基礎(chǔ)網(wǎng)絡(luò)，然后將該網(wǎng)絡(luò)的前層參數(shù)復(fù)制到目標網(wǎng)絡(luò)對應(yīng)層，而后目標網(wǎng)絡(luò)余下層則隨機初始化參數(shù)。根據(jù)訓(xùn)練的方式不同，遷移學(xué)習(xí)可以分為兩種：一種是保持這些遷移過來的學(xué)習(xí)層參數(shù)固定，訓(xùn)練過程中只改變后面隨機初始化的學(xué)習(xí)層參數(shù)；另一種則是在訓(xùn)練過程中微調(diào)這些遷移的學(xué)習(xí)層參數(shù)。根據(jù)文獻[20]的研究結(jié)果，由于ImageNet數(shù)據(jù)集與FFSP數(shù)據(jù)集之間的圖像差異巨大，因此遷移層數(shù)較多的情況下，采取前一種固定遷移參數(shù)的訓(xùn)練方式并不適用，因此在本研究中采取微調(diào)的遷移學(xué)習(xí)方式。

在本實驗中，首先在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練AlexNet與VGGNet，分別作為CNN-8與CNN-16模型的基礎(chǔ)網(wǎng)絡(luò)，再分別復(fù)制AlexNet與VGGNet除最后3層全連接層外所有卷積層參數(shù)至CNN-8與CNN-16對應(yīng)學(xué)習(xí)層。在訓(xùn)練過程中，對于遷移參數(shù)層與隨機初始化參數(shù)學(xué)習(xí)層分別設(shè)置不同學(xué)習(xí)率。具體而言，CNN-8與CNN-16所有遷移參數(shù)的學(xué)習(xí)層學(xué)習(xí)率設(shè)置為0.001，并在訓(xùn)練過程中逐漸減小。隨機初始化參數(shù)的學(xué)習(xí)層學(xué)習(xí)率設(shè)置為0.01，在訓(xùn)練過程中逐漸減小。圖3是本實驗中所采用的遷移學(xué)習(xí)方法的整個流程。

圖3 遷移學(xué)習(xí)流程Fig. 3 Flowchart of our fine- tuning strategy

1.5 實驗驗證

本研究協(xié)議經(jīng)本地協(xié)會倫理委員會批準與審核，相關(guān)課題均獲許可通知。

1.5.1 實驗數(shù)據(jù)集及系統(tǒng)設(shè)置

1)訓(xùn)練集：在本實驗中，所有胎兒超聲圖像數(shù)據(jù)均由本項目組成員采集，原始超聲數(shù)據(jù)由深圳婦幼保醫(yī)院的專門超聲醫(yī)生掃描并標注，超聲儀器型號為西門子Acuson Sequoia 512型，胎兒孕周為20～36周。數(shù)據(jù)集圖像由超聲原始格式數(shù)據(jù)分解成單幀位圖，整個訓(xùn)練集包括375張軸狀標準切面(axial plane)、257張冠狀標準切面(coronal plane)、405張矢狀標準切面(sagittal plane)以及3 812張非標準切面(others plane)。如本文第1.3節(jié)所述，本研究采用數(shù)據(jù)增強的方式，分別將軸狀標準切面增至3 750張，冠狀標準切面增至2 570張，矢狀標準切面增至4 050張，非標準切面保持3 812張不變，故數(shù)據(jù)增強后整個FFSP數(shù)據(jù)集共包含14 182張圖像。最后，對整個訓(xùn)練集提取均值，即每幅圖像減去整個訓(xùn)練集圖像均值。

近年來，重慶市各區(qū)縣職業(yè)教育競相發(fā)展、百花齊放。2017年，全市中職學(xué)校達182所，在校生39.8萬人，校均學(xué)生數(shù)2884人。重慶市云陽縣是人口大縣、教育大縣，在職業(yè)教育發(fā)展方面具有一定代表性。通過分析云陽縣的情況，可對全市區(qū)縣職業(yè)教育發(fā)展態(tài)勢進行大致了解和把握。

2)測試集：在本研究中，測試集共包含2 418張圖像(其中軸狀切面axial plane 491張、冠狀切面coronal plane 127張、矢狀切面sagittal plane 174張、非標準切面others plane 1 626張)。在測試過程中，同樣采用數(shù)據(jù)增強的方式，對每張測試圖像裁剪出10張子圖像，再綜合訓(xùn)練好的網(wǎng)絡(luò)對這10張子圖像預(yù)測分數(shù)，得到原圖像的預(yù)測結(jié)果(10- crop testing)[11]。

3)系統(tǒng)執(zhí)行：本研究采用Matlab CNN工具包Matconvnet[21]進行CNN設(shè)計與測試，整個實驗運行硬件環(huán)境為8核2.9 GHz CPU、128 GB內(nèi)存計算機。訓(xùn)練整個CNN- 8網(wǎng)絡(luò)耗時10 h，而訓(xùn)練CNN- 16網(wǎng)絡(luò)耗時4 d。測試階段則速度較快，加載完訓(xùn)練好的網(wǎng)絡(luò)，單張圖像只需要幾秒鐘就能得到預(yù)測結(jié)果。

圖4 t- SNE可視化實驗結(jié)果。(a) 訓(xùn)練集初始數(shù)據(jù)；(b) CNN- 16- TR訓(xùn)練集特征；(c) CNN- 8- TR訓(xùn)練集特征；(d) CNN- 8- RI訓(xùn)練集特征；(e) 測試集初始數(shù)據(jù)；(f) CNN- 16- TR測試集特征；(g) CNN- 8- TR測試集特征；(h) CNN- 8- RI測試集特征Fig. 4 t- SNE visualizations of experimental results. (a) Raw training data; (b) CNN- 16- TR features of training data; (c) CNN- 8- TR features of training data; (d) CNN- 8- RI features of training data; (e) raw testing data; (f) CNN- 16- TR features of testing data; (g) CNN- 8- TR features of testing data; (h) CNN- 8- RI features of testing data

1.5.2 定性與定量方法說明

為了更好地分析比對不同CNN模型分類性能，本研究從定性和定量兩個角度進行結(jié)果討論。首先，通過可視化CNN網(wǎng)絡(luò)提取的高層特征，直觀展示CNN分類結(jié)果；其次，通過分析通用分類參數(shù)指標，具體評價CNN網(wǎng)絡(luò)識別FFSP性能。

定性評價即對數(shù)據(jù)特征進行可視化，數(shù)據(jù)可視化是顯示高維特征向量常用的方法，可以很直觀地表示特征的分布。在本研究中，采用t- SNE方法[22]，分別對訓(xùn)練集初始數(shù)據(jù)、測試集初始數(shù)據(jù)以及由CNN提取的訓(xùn)練集與測試集高層特征進行可視化。對于初始圖像數(shù)據(jù)(像素數(shù)據(jù))，首先將其轉(zhuǎn)換成一維行向量，即每張圖像得到一個行向量，再將所有圖像向量拼接成二維矩陣，最后將這些行向量連同圖像本身標簽一同輸入至t- SNE函數(shù)。對于特征的可視化，則先提取CNN倒數(shù)第二層(即第二層全連接層)輸出，得到的1024維向量即為特征向量，再按照之前可視化圖像像素數(shù)據(jù)的方法，將所有圖像特征及相應(yīng)標簽輸入至t- SNE函數(shù)。

在定量評價過程中，采用國際通用分類評價參數(shù)：準確率(precision)、精確率(accuracy)、召回率(recall)、F1分數(shù)(F1- score)。為了更好地評估本研究方法的優(yōu)勢，除了對CNN模型分類結(jié)果進行定量的分析，同時還加入了與通用人工特征分類方法的對比。目前，這些主流的分類識別技術(shù)主要基于人工特征，同時結(jié)合通用分類器進行分類識別，該類方法的基本思想是先從圖像中提取特征，同時對特征進行編碼，再訓(xùn)練分類器進行分類識別，如基于DSIFT特征的編碼方式識別，包括直方圖編碼BoVW模型、局部特征聚合描述符VLAD編碼以及FV向量編碼。筆者先前的研究工作就是利用這些方法進行FFSP的自動識別[1,4- 5]，對比結(jié)果見本文第2.2節(jié)所述。

2 結(jié)果

2.1 定性分析結(jié)果

2.2 定量分析結(jié)果

表2給出了不同CNN模型以及人工特征結(jié)合分類器方法識別FFSP的結(jié)果。DSIFT人工特征方法與先前的研究工作[4- 5]類似，BoVW模型中聚類中心為1 024，單張圖像采用空間金字塔模型，總共劃分7個區(qū)域(2×2, 3×1)來進行特征提取，最后特征維度為7 168。VLAD模型中聚類中心為64，最后特征維度44 800。FV模型中高斯元素個數(shù)為64，最后特征維度71 680。

表2 CNN識別結(jié)果Tab.2 Recognition results.

從表2可以看出，F(xiàn)V分類結(jié)果在各項參數(shù)上均高于BoVW以及VLAD。同時，在未使用遷移學(xué)習(xí)的情況下，基于DSIFT特征的3類模型結(jié)果均好于深度網(wǎng)絡(luò)CNN- 8- RI。其中，最大原因在于深度網(wǎng)絡(luò)優(yōu)化嚴重依賴于大量訓(xùn)練數(shù)據(jù)，而在本研究中的4類切面總共只有14 182張圖像，數(shù)據(jù)規(guī)模相對較小。然而，利用大規(guī)模自然圖像數(shù)據(jù)預(yù)訓(xùn)練網(wǎng)絡(luò)，再利用目標數(shù)據(jù)(超聲圖像)對網(wǎng)絡(luò)微調(diào)(遷移學(xué)習(xí))，可以有效改善深度網(wǎng)絡(luò)因訓(xùn)練數(shù)據(jù)不足而導(dǎo)致的性能下降問題。在表2中，微調(diào)后的網(wǎng)絡(luò)CNN- 8- TR結(jié)果相對于CNN- 8- RI有顯著改善，其中準確率提升約8%，精確度提升約10%。另外，網(wǎng)絡(luò)結(jié)構(gòu)深度對于分類結(jié)果也有較大影響，更深層網(wǎng)絡(luò)表達能力要更強，在同樣使用遷移學(xué)習(xí)條件下，CNN- 16- TR較CNN- 8- TR在準確率上有約3%的提高，準確度提升約6%。因此，加深CNN模型的深度能夠很好地改善最后的分類效果。

圖5是各個CNN網(wǎng)絡(luò)的分類性能ROC曲線和混淆矩陣(見下頁)。對于4類切面，識別率相對低的是非標準切面，原因在于非標準切面數(shù)據(jù)中含有大量與其他3類切面差異較小的圖像，這對于識別有較大影響?？傮w而言，所有CNN模型識別結(jié)果都表現(xiàn)良好，尤其是在使用微調(diào)策略以后，性能都優(yōu)于人工特征分類結(jié)果。雖然CNN具有極強的分類性能，但在實驗結(jié)果中也觀察到了一些值得注意的細節(jié)：首先，在測試階段，每張圖像綜合其10張子圖像的預(yù)測結(jié)果，這種10- crop testing比直接測試單張圖像的結(jié)果提升了3%左右；其次，采用遷移學(xué)習(xí)策略時，網(wǎng)絡(luò)訓(xùn)練收斂的速度大大加快，比隨機初始化參數(shù)的網(wǎng)絡(luò)收斂時間快50%以上。

圖5 CNN模型分類ROC曲線與混淆矩陣。(a) CNN- 8- RI ROC曲線；(b) CNN- 8- TR ROC曲線； (c) CNN- 16- TR ROC曲線；(d) CNN- 8- RI混淆矩陣；(e)CNN- 8- TR混淆矩陣；(f) CNN- 16- TR混淆矩陣Fig.5 ROC curves and confusion matrixes for our CNN models. (a) ROC curve of CNN- 8- RI；(b) ROC curve of CNN- 8- TR；(c) ROC curve of CNN- 16- TR；(d) Confusion matrix of CNN- 8- RI；(e) Confusion matrix of CNN- 8- TR；(f) Confusion matrix of CNN- 16- TR

3 討論

深度網(wǎng)絡(luò)作為一種表達學(xué)習(xí)方法[23]，通過組合迭代不同層次的特征，最后形成高層抽象特征，這種特征相對于傳統(tǒng)的人工特征(SIFT，HoG)而言，在概念表達方面更具魯棒性或者說更具不變性。而且，深度網(wǎng)絡(luò)可以根據(jù)給定的數(shù)據(jù)，學(xué)習(xí)到對應(yīng)的特征，因此，其泛化能力更強，可以推廣應(yīng)用到不同的圖像領(lǐng)域。近年來，由于計算機的發(fā)展以及數(shù)據(jù)集規(guī)模的擴大，深度學(xué)習(xí)模型在圖像分類檢測領(lǐng)域內(nèi)取得了廣泛應(yīng)用。然而，深度學(xué)習(xí)模型普遍要求足夠多的訓(xùn)練數(shù)據(jù)量，否則網(wǎng)絡(luò)訓(xùn)練會出現(xiàn)過擬合問題。在不同的圖像領(lǐng)域，顯然數(shù)據(jù)采集的難度不盡相同，且自然圖像數(shù)據(jù)集的規(guī)模往往遠大于醫(yī)學(xué)類圖像數(shù)據(jù)。因此，醫(yī)學(xué)圖像領(lǐng)域內(nèi)，深度網(wǎng)絡(luò)應(yīng)用的最大困難在于數(shù)據(jù)集規(guī)模的限制。

利用自然圖像數(shù)據(jù)集訓(xùn)練基礎(chǔ)網(wǎng)絡(luò)，再進行遷移學(xué)習(xí)，是解決當前不同圖像領(lǐng)域應(yīng)用深度網(wǎng)絡(luò)數(shù)據(jù)量不足的有效方式。因此，本研究結(jié)合了遷移學(xué)習(xí)與數(shù)據(jù)增強的方式來綜合提升深度網(wǎng)絡(luò)分類性能。最后的結(jié)果分析也表明，其FFSP分類性能要遠遠好于筆者之前的研究，即采用人工特征結(jié)合分類器分類的方法。

然而，本研究依然存在一些不足之處。首先，測試集數(shù)量有限，只有2 418張測試圖像，雖然在一定程度上可以反映CNN模型的分類性能，但更大量的數(shù)據(jù)才能更具說明性，這也是以后所需改進的方向之一。其次，在測試結(jié)果方面，依然存在提升的空間，不少接近FFSP的非標準切面被識別為標準切面，這跟圖像本身的噪聲以及差異度小有極大的關(guān)系。在未來的研究中，可以通過給訓(xùn)練集圖像隨機添加噪聲來增加網(wǎng)絡(luò)識別的穩(wěn)定性。另外，臨床醫(yī)生在尋找FFSP過程中，會考慮前后幀圖像的上下文信息，因此在網(wǎng)絡(luò)訓(xùn)練過程中加入當前圖像上下文信息，可以消除FFSP與非FFSP類內(nèi)差異小所帶來的干擾。

4 結(jié)論

在本研究中，提出了用深度卷積網(wǎng)絡(luò)的方式來識別胎兒顏面部的超聲圖像，同時分析研究了不同深度結(jié)構(gòu)的CNN模型對于FFSP分類的結(jié)果。為了防止由于訓(xùn)練數(shù)據(jù)集數(shù)量不足而引發(fā)網(wǎng)絡(luò)訓(xùn)練出現(xiàn)過擬合問題，采用了數(shù)據(jù)增強(data augmentation)結(jié)合遷移學(xué)習(xí)的方式來改善網(wǎng)絡(luò)分類結(jié)果。最后的結(jié)果表明，深度網(wǎng)絡(luò)可以有效地識別FFSP標準切面，同時更深層的深度網(wǎng)絡(luò)能夠帶來更好的分類性能。因此，深度網(wǎng)絡(luò)與遷移學(xué)習(xí)的結(jié)合在臨床應(yīng)用方面具有極大的前景，值得進一步探索和研究。

[1] Lei Baiying, Zhuo Liu, Chen Siping, et al. Automatic recognition of fetal standard plane in ultrasound image [C]//International Symposium on Biomedical Imaging. Beijing: IEEE, 2014:85- 88.

[2] Chen Hao, Dou Qi, Ni Dong, et al. Automatic fetal ultrasound standard plane detection using knowledge transferred recurrent neural networks [C] // Medical Image Computing and Computer- Assisted Intervention. Munich:Springer International Publishing, 2015: 507- 514.

[3] Chen Hao, Ni Dong, Qin Jing, et al. Standard plane localization in fetal ultrasound via domain transferred deep neural networks[J]. IEEE J Biomed Health Inf, 2015. 19(5): 1627- 1636.

[4] Lei Baiying, Tan Eeleng, Chen Siping, et al. Automatic recognition of fetal facial standard plane in ultrasound image via fisher vector[J]. PLoS ONE, 2015, 10(5): e0121838.

[5] Lei Baiying, Yao Yuan, Chen Siping, et al. Discriminative learning for automatic staging of placental maturity via multi- layer fisher vector[J]. Scientific Reports, 2015. 5: 12818.

[6] Rahmatullah B, Papageorghiou A, Noble J. Automated selection of standardized planes from ultrasound volume[C] //Machine Learning in Medical Imaging.Toronto: Springer Berlin Heidelberg, 2011: 35-42.

[7] Zhang Ling, Chen Siping, Chin CT, et al. Intelligent scanning: automated standard plane selection and biometric measurement of early gestational sac in routine ultrasound examination[J]. Medical Physics, 2012. 39(8): 5015- 5027.

[8] Ni Dong, Li Tianmei, Yang Xin, et al. Selective search and sequential detection for standard plane localization in ultrasound[C] //Medical Image Computing and Computer- Assisted Intervention. Nagoya: Springer Berlin Heidelberg, 2013: 203- 211.

[9] Deng Jia, Dong Wei, Socher R, et al. Imagenet: A large- scale hierarchical image database[C]//Computer Vision and Pattern Recognition. Anchorage: IEEE, 2009: 248- 255.

[10] Szegedy C, Liu Wei, Jia Yangqing, et al.Going deeper with convolutions[C]//Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1- 9.

[11] Krizhevsky A, Sutskever I, Hinton G. Imagenet classification with deep convolutional neural networks[C]//Neural Information Processing Systems. Lake Tahoe: Nips Foundation, 2012: 1097- 1105.

[12] Simonyan K, Zisserman A. Very deep convolutional networks for large scale image recognition[J]. Computer Science, 2014.

[13] Bengio Y, Simard P, Frasconi P. Learning long- term dependencies with gradient descent is difficult[J]. IEEE Trans Neural Netw, 1994, 5(2): 157- 166.

[14] Hochreiter S. The vanishing gradient problem during learning recurrent neural nets and problem solutions[J]. International Journal of Uncertainty, Fuzziness and Knowledge- Based Systems, 1998. 6(02): 107- 116.

[15] Hinton G, Osindero S, The Y. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527- 1554.

[16] Zeiler M, Fergus R. Visualizing and understanding convolutional networks[C]//Computer Vision-ECCV. Zürich: Springer International Publishing, 2014: 818- 833.

[17] Shin H, Roth H, Gao Mingchen, et al. Deep convolutional neural networks for computer- aided detection: CNN architectures, dataset characteristics and transfer learning[J]. IEEE Trans on Medl Imaging, 2016, 35(5): 1285- 1298.

[18] Donahue J, Jia Yangqing, Vinyals O, et al. Decaf: A deep convolutional activation feature for generic visual recognition[C]//International Conference on Machine Learning. JMLR.org, 2014: 1-647.

[19] Razavian A, Azizpour H, Sullivan J, et al. CNN features off- the- shelf: an astounding baseline for recognition[C]//Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 806- 813.

[20] Yosinski J, Clune J, Bengio Y, et al. How transferable are features in deep neural networks?[C]//Neural Information Processing Systems. Montréal: Nips Foundation, 2014: 3320- 3328.

[21] Vedaldi A, Lenc K. MatConvNet: Convolutional neural networks for matlab[C]//The ACM International Conference. ACM, 2015:689-692.

[22] Maaten L, Hinton G. Visualizing data using t- SNE[J]. J Mach Learn Res, 2008. 9: 2579-2605.

[23] Yann LC, Yoshua B. Geoffrey H. Deep learning[J]. Nature, 2015. 521(7553):436- 444.

Fetal Facial Standard Plane Recognition via Deep Convolutional Neural Networks

Yu Zhen1Wu Lingyun1Ni Dong1Chen Siping1Li Shengli2Wang Tianfu1*Lei Baiying1*

1(Schoolof Biomedical Engineering, Shenzhen University, National- Regional Key Technology Engineering Laboratory for Medical Ultrasound, Guangdong Key Laboratory for Biomedical Measurements and Ultrasound Imaging, Shenzhen 518060, Guangdong, China)2(Department of Ultrasound, Affiliated Shenzhen Maternal and Child Healthcare, Hospital of Nanfang Medical University, Shenzhen 518060, Guangdong, China)

The accurate recognition of fetal facial standard plane (FFSP) (i.e., axial, coronal and sagittal plane) from ultrasound (US) images is quite essential for routine US examination. Since the labor- intensive and subjective measurement is too time- consuming and unreliable, the development of the automatic FFSP recognition method is highly desirable. In this paper, we proposed to recognize FFSP using different depth CNN architectures (e.g., 8- layer and 16- layer). Specifically, we trained these models varied from depth to depth and mainly utilize two training strategy: 1) training the “CNN from scratch” with random initialization; 2) performing transfer learning strategy by fine- tuning ImageNet pre- trained CNN on our FFSP dataset. In our experiments, fetal gestational ages ranged typically from 20 to 36 weeks. Our training dataset contains 4849 images (i.e., 375 axial plane images, 257 coronal plane images, 405 sagittal plane images and 3812 non- FFSP images). Our testing dataset contained 2 418 images (i.e., 491 axial plane images, 127 coronal plane images, 174 sagittal plane images, and 1626 non- FFSP images). The experiment indicated that the strategy of transfer learning combined with CNN improving recognition accuracy by 9.29%. When CNN depth changes from 8 layer to 16 layer, it improves the recognition accuracy by 3.17%. The best recognition accuracy of our CNN model was 94.5%, which was 3.66% higher than our previous study. The effectiveness of deep CNN and transfer learning for FFSP recognition shows promising application for clinical diagnosis.

fetal facial standard plane recognition; ultrasound image; deep convolutional network; transfer learning

10.3969/j.issn.0258- 8021. 2017. 03.002

2016-06-08，錄用日期:2016-09-09

廣東省科技創(chuàng)新重點項目(2014KXM052)

R318

0258- 8021(2017) 03- 0267- 09

*通信作者(Corresponding author)，E- mail: tfwang@szu.edu.cn, leiby@szu.edu.cn

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的胎兒顏面部超聲標準切面自動識別

引言

1 方法

2 結(jié)果

3 討論

4 結(jié)論