張 歡,趙希梅,2
(1.青島大學 計算機科學技術學院,山東 青島 266071;2.山東省數(shù)字醫(yī)學與計算機輔助手術重點實驗室,山東 青島 266000)
自人工神經(jīng)網(wǎng)絡[1]誕生以來,計算機輔助診斷(Computer-Aided Diagnosis,CAD)[2]技術逐漸受到關注。隨著卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[3]的發(fā)展,該技術在醫(yī)學影像特別是肝臟超聲影像方面的應用日益廣泛。肝臟超聲影像可有效檢測出肝臟組織的微小病變,操作安全便捷。目前CAD 輔助肝臟超聲影像技術已成為檢測肝臟病灶的重要手段,肝病檢測中病灶圖像特征的提取方式,也由基于機器學習[4]的人工提取發(fā)展為基于深度學習[5]的卷積自動提取。
目前,國內(nèi)外研究人員采用機器學習或深度學習方法進行肝臟病變研究。在機器學習方面,文獻[6]利用空間灰度獨立矩陣、空間頻率分解和分形結(jié)合兩層BP 神經(jīng)網(wǎng)絡,對正常肝臟以及輕度、中度和重度脂肪肝4 種肝臟超聲影像的平均識別率達到95.33%。文獻[7]提出一種改進SLBP 特征與二維Gabor 變換結(jié)合的方法,采用超限學習機ELM 對肝硬化樣本的識別率達到95.4%。在深度學習方面,文獻[8]提出基于深度視覺特征學習的肝臟病灶識別方法,并采用CaffeNet 訓練框架對原發(fā)性肝癌、肝硬化樣本以及正常肝臟進行識別,其平均識別精度為96.67%。
由上述研究成果可知,與基于機器學習的人工提取方法相比,采用卷積自動提取特征的深度學習[9]方法對肝臟病灶識別效果更優(yōu),因此,基于卷積神經(jīng)網(wǎng)絡的算法作為深度學習的重要算法[10],逐漸成為肝臟影像處理領域的主流算法。然而,卷積神經(jīng)網(wǎng)絡也存在多種缺陷:卷積神經(jīng)網(wǎng)絡缺乏網(wǎng)絡空間不變性,其對旋轉(zhuǎn)、平移等操作輸入特征的讀取能力有限,造成網(wǎng)絡分類效果較差且耗時較多;為提高網(wǎng)絡分類精度并減少耗時,卷積神經(jīng)網(wǎng)絡不斷加深,導致網(wǎng)絡運行效率降低;傳統(tǒng)卷積神經(jīng)網(wǎng)絡大部分采用同構(gòu)內(nèi)核執(zhí)行卷積操作,其模型架構(gòu)的堆疊易造成網(wǎng)絡復雜度過高及分類效率較低。
為提高傳統(tǒng)卷積神經(jīng)網(wǎng)絡的特征讀取能力和分類精度、降低網(wǎng)絡復雜度并提升運行效率,本文提出一種應用于肝硬化樣本識別的SH_ImAlexNet 網(wǎng)絡。在改進AlexNet 網(wǎng)絡中加入空間變換網(wǎng)絡(Spatial Transformer Network,STN)層增強空間不變性,在此基礎上引入異構(gòu)卷積濾波器降低網(wǎng)絡復雜度,并將該網(wǎng)絡與AlexNet、VGG[11]等傳統(tǒng)深度學習網(wǎng)絡的識別率及復雜度進行對比分析。
空間變換網(wǎng)絡由DEEPMIND 等人[12]于2015 年提出,其能將輸入樣本在空間進行對齊,以減少樣本由于空間旋轉(zhuǎn)、平移等幾何變換對分類任務的影響,空間變換網(wǎng)絡結(jié)構(gòu)如圖1 所示。STN 以仿射變換矩陣為基礎,允許神經(jīng)網(wǎng)絡學習輸入樣本或特征圖執(zhí)行空間變換的方式,以增強模型的幾何不變性。
圖1 空間變換網(wǎng)絡結(jié)構(gòu)Fig.1 Structure of spatial transformer network
空間轉(zhuǎn)換模塊是空間變換網(wǎng)絡的核心,其主要包括本地化網(wǎng)絡、參數(shù)采樣網(wǎng)格和圖像采樣3 部分。
1)本地化網(wǎng)絡
本地化網(wǎng)絡的主要任務是確定輸入所需變換的參數(shù)θ。將輸入的特征圖經(jīng)過若干卷積或全連接操作后接入回歸層,回歸輸出變換參數(shù)θ=,θ∈?2×3。
2)參數(shù)采樣網(wǎng)格
參數(shù)采樣網(wǎng)格主要利用本地化網(wǎng)絡的輸出參數(shù)θ對特征圖進行仿射變換。根據(jù)輸入和輸出特征圖的坐標位置得到仿射變換的特征關系Tθ(Gi)與結(jié)果。假設輸入特征圖U每個像素的坐標位置為,經(jīng)過空間轉(zhuǎn)換后輸出特征圖每個像素的坐標位置為,得到特征關系如下:
其中,Aθ為仿射變換矩陣。
3)圖像采樣
圖像采樣是將經(jīng)過本地化網(wǎng)絡和參數(shù)采樣網(wǎng)格得到的特征關系Tθ(Gi)與原始輸入特征圖U融合,并經(jīng)過以下對應關系生成最終結(jié)果V∈?(H×W×C):
其中,k() 為采樣內(nèi)核,?x和?y為輸入?yún)?shù),(n,m) 為特征圖Ucmn在通道C內(nèi)的位置。
綜上所述,特征圖像U經(jīng)過旋轉(zhuǎn)、平移或拉伸等操作后,通過本地化網(wǎng)絡得到仿射變換參數(shù)θ,在參數(shù)采樣網(wǎng)格進行仿射變換,最終在圖像采樣處與原始特征圖融合,得到具有空間不變性的新特征圖像V。除了空間不變性外,空間變換網(wǎng)絡還具有優(yōu)化損失函數(shù)、計算速度快以及耗時少等特性。
隨著卷積神經(jīng)網(wǎng)絡在計算機視覺和圖像識別等領域的廣泛應用,人們對卷積神經(jīng)網(wǎng)絡分類精度的要求越來越高。為提高識別率,采用同構(gòu)濾波器[13]的傳統(tǒng)卷積神經(jīng)網(wǎng)絡深度不斷增加,但導致網(wǎng)絡復雜度逐漸增大。為了在提高網(wǎng)絡分類精度的同時有效降低復雜度并提高網(wǎng)絡運行效率,文獻[13]提出一種采用異構(gòu)內(nèi)核進行卷積運算的深度學習模塊,即異構(gòu)卷積(Heterogeneous Convolution,HetConv)濾波器。
圖2 為異構(gòu)卷積濾波器與同構(gòu)卷積濾波器的結(jié)構(gòu)。由于兩者的主要區(qū)別在內(nèi)核,因此異構(gòu)內(nèi)核是異構(gòu)卷積濾波器的核心。異構(gòu)內(nèi)核通常由3×3 的分組卷積[14]和1×1 的逐點卷積[15]構(gòu)成。如果同構(gòu)卷積濾波器為3×3×C(C為輸入通道數(shù)),則異構(gòu)卷積濾波器會利用比例系數(shù)P保留C/P的3×3 卷積核尺寸,剩余的(C-C/P)個卷積核尺寸則變?yōu)?×1,以此替換同構(gòu)卷積濾波器。
圖2 異構(gòu)卷積濾波器與同構(gòu)卷積濾波器的結(jié)構(gòu)Fig.2 Structures of heterogeneous convolution filter and homogeneous convolution filter
如果一個L層的卷積核輸出通道數(shù)為D,且每個通道均為3×3和1×1的異構(gòu)內(nèi)核,此時若比例系數(shù)P=4,則異構(gòu)卷積濾波器將會從該層的第一個濾波器的首位依次使用3×3 和1×1 的異構(gòu)內(nèi)核,如圖3 所示。
圖3 L 層異構(gòu)卷積濾波器結(jié)構(gòu)Fig.3 Structure of L-layer heterogeneous convolution filter
K×K同構(gòu)卷積濾波器的每秒浮點運算次數(shù)(FLOPS)的計算公式如下:
其中,F(xiàn)o為卷積輸出的特征圖大小,C為輸入通道數(shù),D為輸出通道數(shù)。
若將L層異構(gòu)卷積濾波器的比例系數(shù)P視為一個整體,則K×K(即3×3)的內(nèi)核只有(1/P)個,含有P的K×K內(nèi)核的FLOPS 計算公式如下:
實際上K×K內(nèi)核個數(shù)為(C/P),剩余1×1 內(nèi)核個數(shù)為(C-C/P),剩余1×1內(nèi)核的FLOPS計算公式如下:
L層的異構(gòu)卷積濾波器的FLOPS計算總量如下:
異構(gòu)卷積濾波器與同構(gòu)卷積濾波器相比,其減少計算量Fh為:
由式(7)可知,當P為1 時,異構(gòu)卷積濾波器也是同構(gòu)卷積濾波器。
綜上所述,異構(gòu)卷積濾波器通過將一部分通道的同構(gòu)卷積濾波器尺寸保留為3×3,將另一部分通道的同構(gòu)卷積濾波器尺寸減少為1×1,從而確保覆蓋前者的空間相關信息,并縮小后者的空間范圍,同時得到相同或高于同構(gòu)卷積濾波器的分類精度。此外,異構(gòu)卷積濾波器直接插入卷積神經(jīng)網(wǎng)絡可降低網(wǎng)絡復雜度。
2012 年復雜卷積神經(jīng)網(wǎng)絡AlexNet[16]在ImageNet競賽[17]中奪冠,與LeNet5[18]網(wǎng)絡相比,AlexNet 網(wǎng)絡結(jié)構(gòu)更深,圖像識別效果更出色[19],其結(jié)構(gòu)如圖4 所示。AlexNet 網(wǎng)絡分別通過最大池化(MaxPool)、ReLU 激活函數(shù)、Dropout 函數(shù)以及數(shù)據(jù)增強處理,對淺層神經(jīng)網(wǎng)絡進行優(yōu)化,避免訓練時出現(xiàn)過擬合的現(xiàn)象,最終得到全連接(FC)層。此外,AlexNet 網(wǎng)絡還具有傳統(tǒng)卷積神經(jīng)網(wǎng)絡空間不變性的特點。由于肝硬化樣本紋理信息復雜多樣,且傳統(tǒng)卷積神經(jīng)網(wǎng)絡在經(jīng)過卷積(Conv)-池化訓練后其特征會改變,因此盡管AlexNet網(wǎng)絡能在自然圖像識別上取得較好的識別效果,但仍會受樣本圖像和自身特性影響,出現(xiàn)網(wǎng)絡識別率與運行效率降低的現(xiàn)象。
圖4 AlexNet 網(wǎng)絡結(jié)構(gòu)Fig.4 Structure of AlexNet network
為提高圖像識別率,本文對AlexNet 網(wǎng)絡結(jié)構(gòu)和參數(shù)進行改進以適應肝硬化樣本的尺度,并將改進后的AlexNet網(wǎng)絡記為ImAlexNet網(wǎng)絡,其主要由4個最大池化層以及3個全連接層以及7個卷積層組成,卷積層中6 個含有批標準化(Batch Normalization,BN)層。ImAlexNet網(wǎng)絡結(jié)構(gòu)參數(shù)如表1所示(其中“—”表示該值不存在)。輸入樣本為3×56 像素×56 像素(3 為通道數(shù),以下同),采用64個3×3的卷積核提取特征,然后采用ReLU函數(shù)作為激活函數(shù)進行處理,并經(jīng)過最大池化層得到下一層卷積的輸入為64×14像素×14像素(64為卷積核數(shù),以下同)。對于含有BN 層的卷積層,在卷積提取完特征后,需要經(jīng)過BN 層的歸一化處理,再采用ReLU 激活函數(shù)進行訓練。改進后的AlexNet 網(wǎng)絡采用尺寸為3×3的卷積核。
表1 ImAlexNet 網(wǎng)絡結(jié)構(gòu)參數(shù)Table 1 Structure parameters of ImAlexNet network
由于AlexNet 網(wǎng)絡對自然圖像識別效果良好,因此本文以AlexNet 網(wǎng)絡為基礎,在考慮了肝硬化紋理信息多樣性的情況下,對AlexNet 網(wǎng)絡進行改進(見2.1 節(jié)),所得ImAlexNet 網(wǎng)絡更適合肝硬化樣本訓練。此外,由于卷積神經(jīng)網(wǎng)絡在訓練時不能保證網(wǎng)絡的空間不變性,因此為提高網(wǎng)絡分類精度,本文引入空間變換網(wǎng)絡。該網(wǎng)絡有較強魯棒性,能動態(tài)地對樣本執(zhí)行空間變換,增強卷積神經(jīng)網(wǎng)絡平移、旋轉(zhuǎn)及拉伸后的空間不變性,還能對樣本的目標區(qū)域進行定位和優(yōu)化[20],以增強樣本的分類效果。
此外,為確保提高分類精度和運行效率并降低網(wǎng)絡復雜度,本文在引入空間變換網(wǎng)絡的基礎上融合異構(gòu)卷積濾波器,以增強網(wǎng)絡整體有效性。異構(gòu)卷積濾波器采用比例系數(shù)P調(diào)整異構(gòu)內(nèi)核中3×3 和1×1 的卷積核數(shù)目,利用調(diào)整后的異構(gòu)內(nèi)核替換傳統(tǒng)卷積神經(jīng)網(wǎng)絡的同構(gòu)內(nèi)核。異構(gòu)內(nèi)核的一部分通道在保留同構(gòu)卷積濾波器尺度(3×3)的同時,也保留其空間的相關信息,另一部分通道則通過縮減同構(gòu)卷積濾波器尺度來減少濾波器的空間范圍,使得網(wǎng)絡能在確保網(wǎng)絡分類精度的情況下,提高網(wǎng)絡運行效率并減少FLOPS 計算量與網(wǎng)絡參數(shù)量,從而提高網(wǎng)絡整體有效性。本文融合STN、HetConv和ImAlexNet的優(yōu)勢,提出SH_ImAlexNet 網(wǎng)絡,其結(jié)構(gòu)如圖5 所示。該網(wǎng)絡主要由1 個空間變換網(wǎng)絡層、7 個卷積層(1 個3×3 卷積層、6 個異構(gòu)卷積層)以及3 個全連接層組成。
圖5 SH_ImAlexNet 網(wǎng)絡結(jié)構(gòu)Fig.5 Structure of SH_ImAlexNet network
本文的STN 層主要由本地化的2 個卷積層(包括8個7×7卷積核和10個5×5卷積核)和2個全連接層(神經(jīng)元數(shù)量分別為32 和6)組成。以改進的ImAlexNet 網(wǎng)絡為基礎,在其輸入層與第一個卷積層之間引入STN,利用STN 的仿射變換矩陣結(jié)構(gòu),對輸入樣本進行旋轉(zhuǎn)生成并輸出新的特征圖像,從而增強卷積神經(jīng)網(wǎng)絡對樣本輸入特征的讀取能力[20],提高模型的空間不變性與分類精度。引入STN 后,保留第一個卷積層和池化層的所有參數(shù),將其余各層的卷積核替換為異構(gòu)卷積濾波器,訓練時每進行一次異構(gòu)卷積就執(zhí)行一次池化降維。根據(jù)1.2 節(jié)中異構(gòu)內(nèi)核劃分標準,設置比例系數(shù)P=2,劃分異構(gòu)內(nèi)核中各個3×3 和1×1 卷積核的數(shù)量。由樣本采用3 通道可知,最終得到的3×3 和1×1 卷積核數(shù)量一致,分別占通道總量的1/2。本文提出的SH_ImAlexNet 網(wǎng)絡中各層卷積核的數(shù)量和ImAlexNet 網(wǎng)絡相同(見表1),與原始AlexNet 網(wǎng)絡相比,其可有效降低網(wǎng)絡復雜度,并增強網(wǎng)絡的魯棒性。
本文以3×56 像素×56 像素的肝硬化超聲影像樣本為輸入,通過空間變換網(wǎng)絡生成3×56 像素×56 像素的新特征,以新特征為輸入對所保留的卷積層和池化層進行卷積-池化操作,獲得維度為64×14×14 的輸出特征。將該特征送入異構(gòu)卷積神經(jīng)網(wǎng)絡,經(jīng)過異構(gòu)卷積、BN 層、ReLU 函數(shù)與最大池化的多次交疊運算,最終得到全連接層輸入維度為256×1×1。
在網(wǎng)絡訓練中,先采用交叉熵函數(shù)H(p,q)表示與期待值之間的差異,再利用Adam 優(yōu)化器優(yōu)化網(wǎng)絡結(jié)構(gòu),最后通過Softmax 分類器對所訓練樣本的每類概率進行預測。假設xi為訓練樣本x的第i個樣本,y∈{1,2,…,Y}為訓練樣本的每類概率(本文中y為2),則交叉熵函數(shù)表達式為:
其中,p(xi)為預測的概率值,q(xi)為真實的概率值。
采用Adam 優(yōu)化器進行網(wǎng)絡優(yōu)化的相關計算公式如下:
其中,η為學習率,c為常數(shù),mt為對梯度的一階矩陣估計Mt,nt為對梯度的二階矩陣估計Nt的校正(用于理想圖像的無偏差估計),Δθt對學習率形成有明確范圍的動態(tài)約束。
全連接層Softmax 分類器的相關計算公式如下:
其中,j為訓練樣本的種類個數(shù)。
本文實驗基于pytorch1.2.0 框架在Anaconda3 環(huán)境的Spyder3.4 平臺進行,采用Win10 64 位操作系統(tǒng),Inter?XeomTMW-2133 處理器,64 GB 內(nèi)存。通過R2018b 版本的Matlab 軟件提取樣本,并使用tensorboardX 庫、torchstat 庫和matplotlib 庫對實驗結(jié)果進行可視化處理。
本文實驗所用數(shù)據(jù)集是從青島大學附屬醫(yī)院肝膽科選取的多幅正常肝臟和肝硬化樣本的超聲影像(部分肝臟超聲影像示例見圖6)。由于肝硬化超聲影像的病變部位紋理受樣本尺度影響較明顯,為避免使用尺度較小樣本(如16 像素×16 像素樣本和28 像素×28 像素樣本)造成紋理丟失,以及尺度較大樣本(如128 像素×128 像素樣本和224 像素×224 像素樣本)包含過多膽囊等其他腹部組織的紋理信息導致肝硬化病灶識別準確率降低,本文采用matlab 提取所選超聲影像的感興趣區(qū)域(Regions of Interest,ROI),得到1 200張初始樣本,大小為56像素×56像素,提取后的部分肝臟感興趣區(qū)域圖像樣本如圖7所示。
圖6 肝臟超聲影像示例圖Fig.6 Example diagrams of liver ultrasound images
圖7 部分肝臟感興趣區(qū)域圖像樣本Fig.7 Partial image samples of region of interest of liver
為確保實驗的有效性與真實性,對現(xiàn)有的1 200 張樣本進行歸一化處理,以增強圖像的對比度。同時,對部分樣本分別以5°、10°、15°和20°進行逆時針旋轉(zhuǎn)以增強數(shù)據(jù),得到的實驗樣本共2 480 張。本文將樣本分為S1 和S2 兩組進行組合實驗。S1 組共880 張,將其中320 張正常肝臟樣本和320 張肝硬化樣本作為訓練集,120 張正常肝臟樣本和120 張肝硬化樣本作為測試集。S2 組共1 600 張,將其中300 張正常肝臟樣本和300 張肝硬化樣本作為訓練集,將500 張正常肝臟樣本和500 張肝硬化樣本作為測試集。
本文采用AlexNet 和VGG11 兩種網(wǎng)絡與本文網(wǎng)絡進行對比分析。為使對比網(wǎng)絡符合肝臟樣本尺度(3×56 像素×56 像素)的需要,在不改變原始網(wǎng)絡結(jié)構(gòu)的基礎上優(yōu)化這兩種網(wǎng)絡的參數(shù),優(yōu)化后其步長為1,卷積核大小均為3×3,卷積核個數(shù)分別為64、192、218 和256,全連接層的神經(jīng)元個數(shù)均為512。本文采用S1 和S2 兩組樣本進行組合實驗。實驗參數(shù)設置為:迭代次數(shù)為100,每次迭代輸入樣本的批尺寸為16,學習率初始值設置為0.001,訓練時每迭代7 次調(diào)整1 次學習率,此時gamma 取0.1。
將改進的AlexNet 和VGG11 與STN、HetConv 相融合,分別得到STN_AlexNet、STN_VGG、SH_AlexNet和SH_VGG。將改進的AlexNet、VGG11 和上述4 種網(wǎng)絡,與本文的ImAlexNet、SH_ImAlexNet 以及融合STN的STN_ImAlexNet,從網(wǎng)絡識別率和復雜度兩方面進行對比分析。
網(wǎng)絡識別率定義如下:
其中,ncorrect為正確分類的樣本數(shù)量,ntotal為樣本總數(shù)量。
網(wǎng)絡復雜度分為時間復雜度和空間復雜度。時間復雜度指模型的運算次數(shù),主要體現(xiàn)實際運行時CPU 的運算能力。
單個卷積層的時間復雜度為:
其中,M為每個卷積核輸出的特征圖大小,K為卷積核大小,Cin為輸入通道數(shù),Cout為輸出通道數(shù)。
卷積神經(jīng)網(wǎng)絡整體的時間復雜度為:
其中,l表示網(wǎng)絡深度為D的第l層,Cl-1為上一層的卷積核個數(shù)(即輸出通道數(shù)),Cl為第l個卷積層的卷積核個數(shù)。
空間復雜度主要包括總參數(shù)量和各層輸出的特征圖,其表達式如下:
由式(18)可知,空間復雜度的總參數(shù)量與卷積核大小K、通道數(shù)C以及層數(shù)D有關,而各層輸出的特征圖僅與輸入數(shù)據(jù)的大小M以及通道C有關。
由上述分析結(jié)果可知,時間復雜度和空間復雜度分別決定網(wǎng)絡的訓練耗時和參數(shù)量。如果網(wǎng)絡復雜度過高,則會造成網(wǎng)絡訓練耗時和參數(shù)量過多,使訓練網(wǎng)絡所需數(shù)據(jù)量增加,并在樣本較少時導致網(wǎng)絡出現(xiàn)過擬合現(xiàn)象。
由于ImAlexNet 是構(gòu)成SH_ImAlexNet 的基礎網(wǎng)絡,其復雜度和識別效果對SH_ImAlexNet 有直接影響,因此先對ImAlexNet 與原始網(wǎng)絡(即優(yōu)化后的AlexNet 和VGG)進行分析,實驗結(jié)果如表2 所示。可以看出,在樣本一致且不考慮訓練耗時情況下,ImAlexNet 的識別率略高于原始網(wǎng)絡。若考慮訓練耗時,當樣本一致時,ImAlexNet 的訓練耗時最多為AlexNet 的2 倍、VGG 的1.3 倍,但當樣本不一致時,在S1 組和S2 組樣本中ImAlexNet 的識別率僅較AlexNet 分別提高3.75 個百分點和5.00 個百分點。
表2 ImAlexNet 與原始網(wǎng)絡的識別率對比Table 2 Comparison of recognition rates between ImAlexNet and original networks
由表2 的分析結(jié)果可知,ImAlexNet的識別效果并不理想,因此,為增強圖像的特征表示、優(yōu)化分類效果以及減少訓練耗時,將STN 與表2 中的網(wǎng)絡分別進行融合,實驗結(jié)果如表3 所示??梢钥闯?,在樣本一致時,STN_ImAlexNet 的識別率略高于STN_AlexNet 和STN_VGG,其時間損耗比STN_AlexNet 更少,與STN_VGG 的耗時差距較小。與表2 中AlexNet 和ImAlexNet 相比,STN_AlexNet 的識別率顯著提升,STN_ImAlexNet的識別率也小幅提升。與表2 中VGG相比,STN_VGG 的時耗更多且識別率更低,整體識別效果較差。綜上可知,STN 雖然可以提高網(wǎng)絡分類效果,但對部分網(wǎng)絡存在識別效果不穩(wěn)定的現(xiàn)象,易導致識別率過低。
表3 融合STN 后不同網(wǎng)絡的識別率對比Table 3 Comparison of recognition rates of different networks after fusion of STN
由表2 和表3 的分析結(jié)果可知,ImAlexNet 與STN_ImAlexNet 的識別率不高,網(wǎng)絡整體識別效果較差。為優(yōu)化網(wǎng)絡結(jié)構(gòu),提高其識別率與運行效率,本文提出融合ImAlexNet、STN 和異構(gòu)卷積濾波器(即SH_ImAlexNet),并將其與融合STN 和HetConv 的AlexNet、VGG(即SH_AlexNet 和SH_VGG)進行對比分析,實驗結(jié)果如表4 所示??梢钥闯?,SH_ImAlexNet對S1 和S2 兩組樣本進行訓練后的識別率均顯著高于SH_AlexNet 和SH_VGG。訓練S1 組樣本時SH_ImAlexNet 的耗時最低,而在訓練S2 組樣本時,SH_ImAlexNet的耗時雖少于SH_AlexNet,但仍略高于SH_VGG。
表4 融合STN 和HetConv 后不同網(wǎng)絡的識別率對比Table 4 Comparison of recognition rates of different networks after fusion of STN and HetConv
由上述分析可知,本文提出的SH_ImAlexNet 具有較高的識別率,其訓練S1 組樣本的耗時較ImAlexNet 更少,與STN_ImAlexNet 的耗時差距較小。由網(wǎng)絡識別率和訓練耗時分析結(jié)果可知,SH_ImAlexNet 具有一定的魯棒性。
為驗證SH_ImAlexNet 的有效性,本文將其與其他6 種網(wǎng)絡在復雜度上進行對比,實驗結(jié)果如表5 所示??梢钥闯?,SH_ImAlexNet 的總參數(shù)量更少,從而可知其空間復雜度更低。SH_ImAlexNet 的時間復雜度僅高于SH_AlexNet,然而SH_AlexNet 的總參數(shù)量過多,造成網(wǎng)絡空間復雜度較高,且其對S1 組和S2 組樣本訓練所得識別率和耗時均不如SH_ImAlexNet。綜合考慮網(wǎng)絡識別效果、空間復雜度和時間復雜度可知,SH_ImAlexNet 識別率較高,空間復雜度較低,可有效避免網(wǎng)絡出現(xiàn)過擬合現(xiàn)象,且時間復雜度也較低。由此可見,SH_ImAlexNet 具有一定的有效性和魯棒性。
表5 不同網(wǎng)絡的復雜度對比Table 5 Complexity comparison of different networks
本文在改進AlexNet 網(wǎng)絡的基礎上,提出一種應用于肝硬化樣本識別的SH_ImAlexNet 網(wǎng)絡。在改進AlexNet 網(wǎng)絡中增加空間變換網(wǎng)絡層提高特征提取能力,同時引入異構(gòu)卷積濾波器減少網(wǎng)絡參數(shù)量并提升運行效率。實驗結(jié)果表明,該網(wǎng)絡具有一定的有效性和魯棒性,分類效果較AlexNet、VGG等傳統(tǒng)網(wǎng)絡更優(yōu)。然而其時間復雜度略高且兩組樣本的識別率變化不穩(wěn)定,后續(xù)將結(jié)合剪枝算法和輕量化網(wǎng)絡進行研究,進一步提高網(wǎng)絡有效性和分類效果。