亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于遷移學(xué)習(xí)和支持向量機(jī)的白細(xì)胞分類

2021-08-03 06:15:14張劍飛郭笑顏崔文升

科學(xué)技術(shù)與工程 2021年19期

關(guān)鍵詞：分類模型

張劍飛，郭笑顏，王波，崔文升

(1.齊齊哈爾大學(xué)計(jì)算機(jī)與控制工程學(xué)院，齊齊哈爾 161006；2.大慶師范學(xué)院計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院，大慶 163712)

白細(xì)胞(white blood cell，WBC)是一種無色、球形、有核的血細(xì)胞，通過吞噬病原體來產(chǎn)生抗體，抵御和消滅入侵的病原微生物，對(duì)于機(jī)體的安全免疫發(fā)揮著重要作用[1]。不同群體不同時(shí)段血液中WBC的濃度是不同的，成年人正常情況下血液中WBC濃度為109/L。當(dāng)機(jī)體出現(xiàn)急性細(xì)菌性感染、中毒、大出血和免疫系統(tǒng)衰弱等現(xiàn)象時(shí)，血液中WBC的濃度會(huì)出現(xiàn)異常，因此對(duì)于血液中WBC濃度的檢測(cè)和類別的鑒定有著重要的社會(huì)價(jià)值和臨床意義[2-3]。

人工鏡檢是WBC分類的黃金標(biāo)準(zhǔn)，但該方法效率低，準(zhǔn)確度受檢驗(yàn)人員主觀經(jīng)驗(yàn)和狀態(tài)的影響，所以大量的研究人員致力于WBC自動(dòng)分類研究。20世紀(jì)90年代出現(xiàn)了基于物理和化學(xué)的脈沖信號(hào)計(jì)數(shù)方法，但由于需要昂貴的醫(yī)療器械和專業(yè)的操作人員等苛刻條件導(dǎo)致難以系統(tǒng)的應(yīng)用到WBC分類的研究過程中[4]。張從鵬等[5]利用灰度直方圖波谷閾值分割方法實(shí)現(xiàn)了白細(xì)胞細(xì)胞核和細(xì)胞漿的提取，根據(jù)細(xì)胞的形態(tài)、顏色及紋理特征對(duì)白細(xì)胞進(jìn)行了分類。Nazlibilek等[6]將RGB(red,green,blue)圖像轉(zhuǎn)換為灰度圖像，并使用Otsu算法將灰度圖像轉(zhuǎn)換為二值圖像，將單個(gè)圖像應(yīng)用于基于神經(jīng)網(wǎng)絡(luò)(neural network，NN)的分類器，將WBC分為五類。雖然這些方法經(jīng)過復(fù)雜的步驟都取得了不錯(cuò)的精度，但是通過紋理和幾何特征來分類是不可靠的，因?yàn)橥惣?xì)胞的形狀，大小和紋理信息有很大的差異。

近些年，深度學(xué)習(xí)在醫(yī)學(xué)輔助診斷中的應(yīng)用已經(jīng)成為模式識(shí)別和人工智能領(lǐng)域研究的熱點(diǎn)問題之一，特別是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)在圖像分類識(shí)別領(lǐng)域表現(xiàn)出巨大的優(yōu)勢(shì)。鐘亞等[7]在LeNet-5的基礎(chǔ)上，設(shè)計(jì)一個(gè)六層的CNN對(duì)2萬個(gè)樣本組成的數(shù)據(jù)集進(jìn)行分類，最終實(shí)現(xiàn)95%的敏感性、84%的特異性和89.5%的準(zhǔn)確率。由于方法的CNN網(wǎng)絡(luò)模型簡(jiǎn)單，準(zhǔn)確率不高。Qin等[8]提出使用殘差卷積神經(jīng)網(wǎng)絡(luò)WBC顯微圖像進(jìn)行了集成分類，該方法進(jìn)行了80 000次迭代的集成訓(xùn)練，模型在訓(xùn)練過程中消耗時(shí)長(zhǎng)約為3 611.5 min，最終測(cè)試集平均準(zhǔn)確率接近76.84%。馬力等[9]利用矩陣變化平衡數(shù)據(jù)集，基于遷移學(xué)習(xí)利用改進(jìn)用殘差卷積神經(jīng)網(wǎng)絡(luò)對(duì)白細(xì)胞圖像進(jìn)行分類，最終準(zhǔn)確率達(dá)到92%。在WBC分類識(shí)別上，仍存在分類識(shí)別率低和硬件設(shè)備要求過高等問題。

針對(duì)WBC需要復(fù)雜預(yù)處理和分類識(shí)別準(zhǔn)確率等問題，提出一種基于遷移學(xué)習(xí)的WBC分類方法：首先，對(duì)WBC數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)和歸一化預(yù)處理，然后對(duì)預(yù)選遷移模型進(jìn)行微調(diào)訓(xùn)練，選擇分類效果最好的模型對(duì)數(shù)據(jù)集進(jìn)行特征提取，將提取到的特征分別輸入至NN和支持向量機(jī)(support vector machine，SVM)中進(jìn)行訓(xùn)練，最后對(duì)兩者分類器分類結(jié)果進(jìn)行組合和決策。

1 方法

在深度學(xué)習(xí)中，CNN在圖像分類識(shí)別領(lǐng)域中表現(xiàn)突出，被學(xué)術(shù)界廣泛應(yīng)用于病理圖像的輔助診斷研究[10-11]。大數(shù)據(jù)是深度學(xué)習(xí)的基礎(chǔ)，而在實(shí)際中獲取大量有標(biāo)注的醫(yī)學(xué)數(shù)據(jù)是很困難的。遷移學(xué)習(xí)將舊領(lǐng)域?qū)W習(xí)過的模型應(yīng)用在新領(lǐng)域上，可以解決傳統(tǒng)機(jī)器學(xué)習(xí)中因數(shù)據(jù)不足而泛化能力不足的問題[12]。遷移效果取決于源域和目標(biāo)域之間的相關(guān)性，相關(guān)性越高遷移效果越好，否則可能會(huì)發(fā)生“負(fù)遷移”[13]。對(duì)VGG-16[14]、ResNet-50[15]和Mobile-Net[16]三種預(yù)選遷移模型微調(diào)訓(xùn)練來選擇對(duì)WBC分類效果最好的遷移模型用于特征提取。如圖1所示，本文方法共分為數(shù)據(jù)集預(yù)處理、微調(diào)訓(xùn)練和組合分類3個(gè)部分。

1.1 數(shù)據(jù)集預(yù)處理

1.1.1 數(shù)據(jù)增強(qiáng)

WBC原始數(shù)據(jù)集共347組像素規(guī)格為640×480×3的血涂片樣本，其中包括88組嗜酸性粒細(xì)胞(Eosinophil)、31組淋巴細(xì)胞(Lymphocyte)、21組單核白細(xì)胞(Monocyte)、207組嗜中性粒細(xì)胞(Neutrophil)。原始數(shù)據(jù)數(shù)量過少且各類別數(shù)據(jù)分布不平衡，為了提升模型的泛化能力和分類精度，選擇數(shù)據(jù)增強(qiáng)技術(shù)對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)增操作[17]。具體的數(shù)據(jù)增強(qiáng)技術(shù)包括隨機(jī)左右平移5像素，以閾值為60°進(jìn)行隨機(jī)旋轉(zhuǎn)，將原始數(shù)據(jù)的數(shù)目擴(kuò)增了約40倍。將原有的不平衡數(shù)據(jù)轉(zhuǎn)化為平衡數(shù)據(jù)，有效解決由于樣本太少及其類間不平衡導(dǎo)致分類效果不佳的問題。

1.1.2 圖像規(guī)格調(diào)整

為了對(duì)遷移學(xué)習(xí)模型進(jìn)行微調(diào)訓(xùn)練，需要將原始數(shù)據(jù)圖像規(guī)格調(diào)整為遷移模型能夠輸入的圖像規(guī)格，利用Python中Opencv工具包把圖像規(guī)格調(diào)整為遷移模型的輸入規(guī)格224×224×3。

1.1.3 歸一化

數(shù)據(jù)范圍壓縮作為常見的預(yù)處理方法，能提高模型訓(xùn)練尋優(yōu)的效率和分類識(shí)別的精度，利用歸一化將數(shù)據(jù)范圍壓縮至-1～1[18]，即

(1)

式(1)中：X表示圖像中每個(gè)像素點(diǎn)的像素值。

1.2 微調(diào)訓(xùn)練

由于目標(biāo)域與源域之間存在差異，因此還需要微調(diào)訓(xùn)練來提高遷移模型在目標(biāo)域的性能。微調(diào)訓(xùn)練是遷移學(xué)習(xí)中一項(xiàng)基本操作，對(duì)三種預(yù)選遷移模型(VGG-16、ResNet-50和Mobile-Net)采用兩種微調(diào)訓(xùn)練方案來選取對(duì)于WBC分類效果最好的模型。方案1凍結(jié)遷移模型所有卷積特征提取層，只對(duì)分類層進(jìn)行微調(diào)訓(xùn)練操作；方案2微調(diào)訓(xùn)練遷移模型所有卷積特征提取層和分類層。選取準(zhǔn)確率最高的遷移模型作為下一步微調(diào)訓(xùn)練基礎(chǔ)。然后對(duì)模型全局池化層的類型和不同凍結(jié)位置進(jìn)行討論和分析，選擇表現(xiàn)效果最好的配置。基于前兩步的操作，選擇分類精度最佳的遷移模型對(duì)數(shù)據(jù)集進(jìn)行特征取操作。

對(duì)兩種微調(diào)方案，分類層均把原遷移模型中1 000個(gè)神經(jīng)元設(shè)置為4個(gè)神經(jīng)元。在遷移模型微調(diào)訓(xùn)練時(shí)，使用全局池化層代替原有遷移模型的全連接層。全局池化層包括全局平均池化層和全局最大池化層，將由模型中最后卷積輸出的每張?zhí)卣鲌D的平均值或最大值作為輸出[19]。原遷移模型需要將由卷積提取的特征圖進(jìn)行平鋪操作，會(huì)破壞數(shù)據(jù)的空間特征并且會(huì)引入更多的參數(shù)來擬合數(shù)據(jù)，易發(fā)生過擬合問題，而全局池化層一方面能保留數(shù)據(jù)特征的空間特性，另一方面又能有效降低模型擬合參數(shù)數(shù)量，提升模型泛化能力。

1.3 組合分類

在使用單分類器難以獲得更好的分類識(shí)別效果時(shí)，利用兩組或者多組分類器進(jìn)行組合決策往往能獲得更高的識(shí)別精度[20-21]。利用已微調(diào)訓(xùn)練完畢的遷移模型對(duì)數(shù)據(jù)集進(jìn)行特征提取操作，然后將提取到的特征分別輸入至NN和SVM中進(jìn)行訓(xùn)練，最后通過對(duì)兩者分類器分類結(jié)果進(jìn)行組合和決策，具體的組合規(guī)則為

(2)

式(2)中: predict表示組合分類器的分類結(jié)果；i表示W(wǎng)BC4類中的第i類;BPi表示NN分類器的輸出概率;SVMi表示SVM分類器的輸出概率;argmax表示概率值最大值的索引。

將NN和SVM對(duì)于4類WBC的分類閾值進(jìn)行相加，將最大概率值輸出作為分類結(jié)果。

2 實(shí)驗(yàn)

2.1 數(shù)據(jù)集預(yù)處理

Kaggle(https://www.kaggle.com/paultimothymooney/blood-cells)提供原始347組像素規(guī)格為640×480×3的WBC血涂片樣本。該數(shù)據(jù)集數(shù)據(jù)數(shù)量較少且各類別數(shù)據(jù)分布不均衡。通過數(shù)據(jù)增強(qiáng)將原始數(shù)據(jù)的數(shù)目擴(kuò)增了約40倍，將347組數(shù)據(jù)擴(kuò)增為12 444組。同時(shí)將像素規(guī)格轉(zhuǎn)變?yōu)?24×224×3，訓(xùn)練集和測(cè)試集數(shù)目各占9 957組和2 487組，經(jīng)過數(shù)據(jù)增強(qiáng)后訓(xùn)練集、測(cè)試集的類分布如表1所示。圖2為原始數(shù)據(jù)和增強(qiáng)數(shù)據(jù)的四類細(xì)胞的血涂片樣本例圖。

表1 數(shù)據(jù)集分布

圖2 四類細(xì)胞的血涂片樣本

2.2 微調(diào)訓(xùn)練

2.2.1 遷移模型選擇

對(duì)VGG-16、ResNet-50和Mobile-Net模型進(jìn)行兩種方案(方案1凍結(jié)遷移模型所有卷積特征提取層，只對(duì)分類層進(jìn)行微調(diào)訓(xùn)練操作；方案2微調(diào)訓(xùn)練遷移模型所有卷積特征提取層和分類層)的微調(diào)，超參數(shù)配置如表2所示。

表2 超參數(shù)設(shè)置

不同遷移模型訓(xùn)練集和測(cè)試集在方案1和方案2中分類正確率的變化曲線如圖3所示。

圖3 2個(gè)方案準(zhǔn)確率變化曲線

在方案1中，VGG-16遷移模型的訓(xùn)練集和測(cè)試集具有更好的擬合效果和識(shí)別精度，其他遷移模型效果不佳主要由于遷移模型復(fù)雜度過大只對(duì)源域數(shù)據(jù)具有更強(qiáng)的抽象能力，而在方案2中，VGG-16訓(xùn)練集和測(cè)試集在30次迭代中具有更快的收斂速度和識(shí)別精度，并且具有更強(qiáng)的抗過擬合能力。微調(diào)訓(xùn)練的模型中測(cè)試集分類準(zhǔn)確率如表3所示。

表3 不同遷移模型中測(cè)試集準(zhǔn)確率

因此，方案2中VGG-16模型具有最好的性能，接下來優(yōu)化模型的研究將以VGG-16作為遷移模型展開。

2.2.2 全局池化層選擇

對(duì)上一步微調(diào)之后的VGG-16模型，用全局最大池化層替換原模型中的全局平均池化層并對(duì)方案1和方案2中的VGG-16模型進(jìn)行了重新微調(diào)訓(xùn)練，超參數(shù)配置與表2相同。在30次迭代后，將測(cè)試集輸入至兩種微調(diào)訓(xùn)練完畢的遷移模型中進(jìn)行預(yù)測(cè)，得到的分類準(zhǔn)確率如表4所示。

表4 不同全局池化層測(cè)試集評(píng)估結(jié)果

其中，在方案2中全局平均池化層分類效果高出全局最大池化層大約8%，所以使用全局平均池化層對(duì)于該類數(shù)據(jù)具有更好適用性，接下來將在此結(jié)果的基礎(chǔ)上進(jìn)行深入的研究。

2.2.3 凍結(jié)層選擇

接下來對(duì)VGG-16模型的凍結(jié)位置進(jìn)行了分析和討論。VGG-16模型作為2014年ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)的亞軍在邊緣、紋理等低級(jí)特征具有良好的提取能力，但由于目標(biāo)域與源域之間差異，對(duì)于高級(jí)特的提取能力還需微調(diào)操作加以提升，因此對(duì)VGG-16模型進(jìn)行了如圖4所示的凍結(jié)操作。

I代表模型輸入；C代表卷積層；P代表最大池化層；A代表全局平均池化層；F代表分類層

以卷積對(duì)為基本調(diào)節(jié)單位，其中卷積對(duì)代表兩層或多層連續(xù)的卷積層與池化層的組合。分別將VGG-16模型第4、7、11和15設(shè)為凍結(jié)節(jié)點(diǎn)，將這4次凍結(jié)操作設(shè)為F1、F2、F3和F4。在模型超參數(shù)配置方面與表2相同，將訓(xùn)練集輸入至不同凍結(jié)遷移模型中進(jìn)行微調(diào)操作，訓(xùn)練集和測(cè)試集的準(zhǔn)確率變化曲線如圖5所示。

圖5 不同凍結(jié)層訓(xùn)練集和測(cè)試集準(zhǔn)確率變化曲線

其中，每種凍結(jié)方式都出現(xiàn)了過擬合問題，相比之下F2具有更好的泛化能力和收斂效果。接著對(duì)VGG-16模型在不同凍結(jié)操作中所有微調(diào)訓(xùn)練的測(cè)試集識(shí)別效果進(jìn)行了統(tǒng)計(jì)，如圖6所示。

圖6 測(cè)試集在不同凍結(jié)操作中上的準(zhǔn)確率

其中，F(xiàn)0和F5分別代表上節(jié)VGG-16模型的方案2和方案1。經(jīng)過對(duì)比得出F1、F2和F4與F0相比具有更好的識(shí)別效果并且F2達(dá)到了90.43%的正確識(shí)別率，較F0提升了約7%。

2.3 組合分類

2.3.1 NN分類

利用F2微調(diào)訓(xùn)練所獲得的遷移模型分別對(duì)訓(xùn)練集和測(cè)試集進(jìn)行特征提取操作，然后將特征輸入至網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練、預(yù)測(cè)和評(píng)估。本文用到的NN模型結(jié)構(gòu)包括5層：輸入層、批標(biāo)準(zhǔn)化層、全連接層、棄權(quán)層和輸出層。批標(biāo)準(zhǔn)化層將數(shù)據(jù)按批量進(jìn)行標(biāo)準(zhǔn)化操作，能有效地提升模型收斂速度和識(shí)別精度[22]。使用RELU作為全連接層的激活函數(shù)，在輸出層中以SOFTMAX為激活函數(shù)同時(shí)通過棄權(quán)操作提升模型泛化能力。SOFTMAX函數(shù)能有效地將分類結(jié)果壓縮至0～1并且神經(jīng)元輸出總和為1。

(3)

(4)

式(4)中：w代表模型中權(quán)值的集合；b代表偏置；n代表輸入訓(xùn)練數(shù)據(jù)集的數(shù)目；a表示模型預(yù)測(cè)結(jié)果；求和在所有訓(xùn)練輸入x上進(jìn)行；y代表帶訓(xùn)練數(shù)據(jù)集的標(biāo)簽；C代表損失函數(shù)輸出。

網(wǎng)絡(luò)模型結(jié)構(gòu)如表5所示。在模型訓(xùn)練時(shí)的超參數(shù)配置如表6所示。將訓(xùn)練集和測(cè)試集輸入至NN中進(jìn)行訓(xùn)練，經(jīng)過100次的迭代，訓(xùn)練集和測(cè)試集的準(zhǔn)確率變化曲線如圖7所示。

表5 網(wǎng)絡(luò)模型結(jié)構(gòu)

表6 超參數(shù)設(shè)置

圖7 訓(xùn)練集和測(cè)試集準(zhǔn)確率變化曲線

使用表6中超參數(shù)配置中對(duì)模型訓(xùn)練，在40次迭代后訓(xùn)練集和測(cè)試集曲線趨于收斂，并且測(cè)試集達(dá)到了92.26%分類準(zhǔn)確率，相比于之前的F2結(jié)果提升了約1%，因此搭建NN用于WBC分類較直接微調(diào)訓(xùn)練分類具有更高的準(zhǔn)確率。

2.3.2 NN與SVM組合分類

為了獲得更高的分類精度，采用NN和SVM組合對(duì)微調(diào)訓(xùn)練提取到的特征進(jìn)行預(yù)測(cè)和評(píng)估。將提取到的特征輸入至SVM中進(jìn)行分類，使用Sklearn機(jī)器學(xué)習(xí)工具對(duì)SVM算法進(jìn)行實(shí)現(xiàn)并對(duì)SVM中懲罰系數(shù)C的選擇進(jìn)行了實(shí)驗(yàn)對(duì)比。如圖8為不同C在測(cè)試集的識(shí)別正確率對(duì)比。

圖8 不同C的準(zhǔn)確率

當(dāng)C=1時(shí)，模型具有更好的識(shí)別效果，接下來使用核函數(shù)為徑向基函數(shù)、C=1的SVM模型與2.3.1節(jié)所訓(xùn)練的NN對(duì)測(cè)試集進(jìn)行組合預(yù)測(cè)，對(duì)單一和組合識(shí)別精度對(duì)比結(jié)果如表7所示。

表7 準(zhǔn)確率對(duì)比

單一決策的NN和SVM在WBC的分類準(zhǔn)確率具有明顯的差異，通過將兩者進(jìn)行組合來對(duì)測(cè)試集預(yù)測(cè)，分類精度得到了提升。綜上，通過將NN與SVM進(jìn)行組合對(duì)測(cè)試集的進(jìn)行預(yù)測(cè)，能有效地提升了原有單一模型決策的泛化能力。

3 結(jié)論

基于遷移學(xué)習(xí)的思想，使用NN和SVM融合的方法對(duì)WBC病理圖像分類問題進(jìn)行了深入的研究。本文方法將WBC分類精度進(jìn)行了逐步的提升，分類準(zhǔn)確率由最初微調(diào)訓(xùn)練的83.26%，隨著遷移模型的優(yōu)化提升為90.43%，最后通過NN和SVM組合分類器，再次提升為93.52%。通過實(shí)驗(yàn)得出以下結(jié)論。

(1)遷移學(xué)習(xí)方法提高了特征提取強(qiáng)度和模型泛化能力，避免了自搭建模型和高迭代訓(xùn)練問題。

(2)通過NN和SVM融合提高WBC病理圖像分類精度。

在今后的研究中，將嘗試對(duì)更多種類WBC進(jìn)行分類識(shí)別，提升模型訓(xùn)練效率和識(shí)別準(zhǔn)確度。綜上所述，本文中提出的基于遷移學(xué)習(xí)的NN和SVM融合的白細(xì)胞分類方法，可以在臨床診斷中幫助醫(yī)生提高診斷的效率和準(zhǔn)確性，具有一定的臨床意義。