亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

高度不平衡腸道圖像數(shù)據(jù)集均衡策略

2022-06-21 04:20:06陳逸遠古夢婷

科技創(chuàng)新與應(yīng)用 2022年17期

陳逸遠，古夢婷，李勝

（浙江工業(yè)大學(xué)，浙江杭州 310013）

醫(yī)學(xué)圖像數(shù)據(jù)蘊含了大量的生物特征信息，已經(jīng)成為疾病診療中不可或缺的組成部分且日益重要。醫(yī)學(xué)圖像分類是醫(yī)學(xué)圖像分析中最重要的任務(wù)之一[1]。我國腸道疾病高發(fā)，嚴重危害人們身體健康，有效的腸道圖像分類識別，對輔助醫(yī)生進行腸道疾病的篩查、診斷、治療方案制定等提供科學(xué)方法，對于提高疾病的診斷準(zhǔn)確率、減少漏診、提高醫(yī)生工作效率等方面具有重要的實際意義。然而，醫(yī)學(xué)圖像數(shù)據(jù)經(jīng)常面臨數(shù)據(jù)不平衡和數(shù)據(jù)有限問題[2]。首先，由于疾病的多樣化，發(fā)病概率不同，發(fā)病率低的病變集數(shù)量過少，每個病例中各種類別數(shù)據(jù)集分布不均衡。例如，腸道內(nèi)窺鏡的公開數(shù)據(jù)集Kvasir-Capsule[3]原始數(shù)據(jù)集中正常圖像有34 606張，但是僅有腸道潰瘍854張、出血446張，以及血紅素12張等。其次，由于醫(yī)學(xué)圖像特別是對病例樣本數(shù)據(jù)集的采集、標(biāo)注和整理是一個繁瑣及耗時耗力的過程。且由于病變差異很大，往往需要臨床專家進行標(biāo)注，另醫(yī)院之間的數(shù)據(jù)共享和互通程度較低，獲取用于大規(guī)模學(xué)習(xí)訓(xùn)練醫(yī)學(xué)圖像樣本數(shù)據(jù)集非常困難，因此可用的標(biāo)注數(shù)據(jù)規(guī)模相對較小[4]。

深度學(xué)習(xí)從樣本數(shù)據(jù)中學(xué)習(xí)層次特征的特點，組合底層特征形成更加抽象的高層表示，最終提高分類或者預(yù)測的準(zhǔn)確性，已在語音識別、自然語言處理、圖像分類、人臉識別、目標(biāo)檢測等多領(lǐng)域取得突破性的好成績[5-6]。深度學(xué)習(xí)特別是卷積神經(jīng)網(wǎng)絡(luò)已成為分析醫(yī)學(xué)圖像的首選方法，在醫(yī)學(xué)圖像分類應(yīng)用取得顯著的進步達到前所未有的精準(zhǔn)度[7-8]。數(shù)據(jù)不平衡是醫(yī)學(xué)圖像天然存在的問題，恰恰抑制了卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢，研究表明數(shù)據(jù)不平衡是導(dǎo)致模型準(zhǔn)確性和泛化能力下降的主要原因[9-12]，在數(shù)據(jù)集不平衡情況下，多數(shù)類控制著訓(xùn)練的主要過程得到過分表達，而少數(shù)類的識別情況欠表達，大大降低少數(shù)類的分類準(zhǔn)確性。在醫(yī)學(xué)圖像中，少數(shù)類蘊含的信息往往更值得關(guān)注，醫(yī)學(xué)診斷中誤診和漏診可能會導(dǎo)致嚴重的難以彌補的后果，因此提高分類模型對于少數(shù)類的識別率是至關(guān)重要的。

本文主要的貢獻點羅列如下：

（1）闡述了醫(yī)學(xué)圖像固有的數(shù)據(jù)不平衡問題及其對分類性能影響，研究現(xiàn)有對數(shù)據(jù)不平衡問題提供類間數(shù)據(jù)平衡分布的方法。

（2）討論腸道圖像中遇到的特殊挑戰(zhàn)，設(shè)計了一種更適用于腸道圖像數(shù)據(jù)集的類間數(shù)據(jù)平衡方法。能夠高效地對抗圖像中暗區(qū)過大的問題，以及識別腸道病灶所需的旋轉(zhuǎn)不變性問題。

（3）通過真實腸道圖像疾病數(shù)據(jù)集進行了仿真實驗，驗證了本文所提方法的有效性。

1 類間數(shù)據(jù)平衡方法研究現(xiàn)狀

在過去20多年里，人們對于用機器學(xué)習(xí)技術(shù)解決數(shù)據(jù)類間不平衡問題進行廣泛的研究[9，13-17]。解決數(shù)據(jù)不平衡問題的方法可分為三大類[9-11]。第一類是數(shù)據(jù)層面，對訓(xùn)練數(shù)據(jù)集進行操作并減少其不平衡程度，目標(biāo)是改變數(shù)據(jù)集以使標(biāo)準(zhǔn)訓(xùn)練算法能正常發(fā)揮作用。第二類模型算法層面，對學(xué)習(xí)和決策過程的調(diào)整來強調(diào)少數(shù)類的重要性，這些方法保持訓(xùn)練數(shù)據(jù)集不變并調(diào)整訓(xùn)練或者推理的算法。第三類則是前兩類的混合方法。本文方法主要關(guān)注從數(shù)據(jù)層面實現(xiàn)類間數(shù)據(jù)平衡。

1.1 常用方法

最直接常用的方法是重采樣，重采樣主要分為過采樣和欠采樣兩類方法[15]。在幾乎所有分析的情景中，解決類別不平衡的方法，占主導(dǎo)地位的是過采樣[10]。

過采樣是一種在深度學(xué)習(xí)被廣泛使用并驗證健壯有效的類間數(shù)據(jù)平衡方法[17]，通過復(fù)制、變換等操作對少數(shù)類進行擴充，使得少數(shù)類和多數(shù)類樣本數(shù)量接近。最簡單的是隨機少數(shù)過采樣ROS（random minority oversampling）方法，它簡單復(fù)制從少數(shù)類隨機選擇的樣本。它已經(jīng)被證明簡單重采樣是有效的，雖然可能導(dǎo)致過度擬合[18]。（1）旨在克服過擬合問題的先進一點的算法是SMOTE[18]，在現(xiàn)有少數(shù)樣本與其最近的少數(shù)鄰居之間進行插值來生成人工少數(shù)樣本的方法。SMOTE的幾個增強變種，例如Borderline-SMOTE[19]，Safe-Level-SMOTE[20]，通過考慮多數(shù)類鄰居來改進原始算法。Borderline-SMOTE將過采樣限制在類邊界附近的樣本，而Safe-Level-SMOTE定義安全區(qū)域以防止在重疊或噪聲區(qū)域中過采樣。（2）為了平衡當(dāng)模型和訓(xùn)練數(shù)據(jù)的過擬合導(dǎo)致的無法泛化問題，已開發(fā)各種智能采樣技術(shù)。JAPKOWICZ和JO[21]基于集群的過采樣（Cluster-based oversampling）來解決訓(xùn)練數(shù)據(jù)中存在的小分離問題。少數(shù)群體和多數(shù)群體首先使用K-means算法進行聚類，然后分別對每個聚類應(yīng)用過采樣。這改善了類內(nèi)不平衡和類間不平衡。

欠采樣是另外一種使得在每個類的樣本數(shù)量相同的普遍方法[17]。和過采樣相反，它使用隨機刪除、去冗余等操作對從多數(shù)類的樣本進行精簡，最簡單的形式為隨機欠采樣（RUS）。雖然有點反直覺，有實證在特定場景如只需一定程度上消除不平衡時，欠采樣表現(xiàn)的比過采樣更好[22]。欠采樣比較明顯的不足是它有丟棄了一部分有用信息的風(fēng)險。為了克服這個缺點，一些修改引入了更仔細地選擇要刪除的樣本。例如，KUBAT和MATWIN[23]提出了單邊選擇識別靠近類邊界的冗余樣本。比欠采樣更通用的方法是數(shù)據(jù)清洗，這可能涉及重新標(biāo)記一些樣本[20]。

然而，簡單的重復(fù)和去除對腸道圖像數(shù)據(jù)集來說只能帶來非常有限的性能提升，主要原因是原始病灶數(shù)據(jù)量很小，且此類方法沒有考慮數(shù)據(jù)集平衡時不同類別選擇的概率分布問題，多次簡單的重復(fù)容易使得分類算法關(guān)注到一些非病灶相關(guān)的特點。

1.2 深度學(xué)習(xí)的探索

MASKO和HENSMAN[24]使用深度CNN探索了類不平衡和ROS的影響。實驗證明了類不平衡的對訓(xùn)練CNN模型的影響，并驗證將ROS應(yīng)用于類平衡水平可以有效地解決圖像數(shù)據(jù)中的輕微類不平衡問題。大多數(shù)不平衡的分布都出現(xiàn)了性能損失。當(dāng)非常輕微的不平衡且沒有過度表示，表現(xiàn)與原始平衡分布一樣好。一些包含過度代表類的不平衡分布，則產(chǎn)生了完全偏向多數(shù)群體的無用模型。作者使用通過ROS生成的平衡數(shù)據(jù)訓(xùn)練CNN的結(jié)果對比表明，用ROS平衡訓(xùn)練數(shù)據(jù)可以改善所有不平衡圖像數(shù)據(jù)的分類。

POUYANFAR等[25]使用動態(tài)采樣技術(shù)通過深度CNN對不平衡的圖像數(shù)據(jù)進行分類。基本思想是對少數(shù)類進行過采樣，對多數(shù)類進行欠采樣，從而減少模型已經(jīng)學(xué)習(xí)的內(nèi)容，而更多地顯示它尚未理解的內(nèi)容。該方法能夠自動調(diào)整采樣率，能適合不同程度的不平衡問題。

此類方法被認為能夠提供更為有效的數(shù)據(jù)，因為這類數(shù)據(jù)是通過網(wǎng)絡(luò)理解生成的新數(shù)據(jù)。然而此類方法在腸道圖像數(shù)據(jù)集中難以被利用，主要原因是訓(xùn)練CNN時由于數(shù)據(jù)集類間差距過大難以獲得優(yōu)異的性能，且訓(xùn)練網(wǎng)絡(luò)的過程較為復(fù)雜，面對大規(guī)模數(shù)據(jù)集時可能會帶來過高的計算代價。

1.3 現(xiàn)有經(jīng)典方法

在文獻[26]中，針對高度不平衡的醫(yī)療圖像數(shù)據(jù)集提出了一個高效率的類間平衡方法，該方法能夠有效提高基于深度學(xué)習(xí)的圖像分類框架準(zhǔn)確率，這一方法可以看成是過采樣方式的改進方法。

首先令（xi，yi）是第i幅圖像和它對應(yīng)的標(biāo)簽，其中yi為one-hot向量，即只有一個元素為1，其他元素都為0的向量，用以表示類別信息。隨后，將不同類別的圖像進行混合疊加，生成新的帶標(biāo)簽的圖像，利用了以下公式：

即新的圖像等于第i個圖像乘上權(quán)重λ，加上第j個圖像乘上權(quán)重（1-λ）。生成的新圖像標(biāo)簽也是對應(yīng)兩者標(biāo)簽的疊加，即：

通過這一混合方法，將類間圖像的數(shù)量差異縮小。假設(shè)共有K個類型的圖像，又提出了一個概率：

其中q的初始取值為1或者0，當(dāng)q=1時每一類都有一個不同的權(quán)重，即類內(nèi)圖像數(shù)量越多被選中的概率越高，稱為“instance-based sampling”，就是打破不同類別的界限，圖像一視同仁在整個數(shù)據(jù)集中選。當(dāng)q=0時，每一類被選中的概率一樣，則稱為“class-based sampling”。隨后可以通過改變q的值完成這兩種選擇模式的混合。這一方法的優(yōu)勢是能夠快速地進行類間數(shù)量高度不平衡數(shù)據(jù)集的處理，將類間樣本差距減小，有利于分類網(wǎng)絡(luò)的訓(xùn)練。在一個23分類的高度不平衡腸道圖像數(shù)據(jù)集中，通過仿真結(jié)果可以發(fā)現(xiàn)對常見的分類網(wǎng)絡(luò)，如MobileNet V2，ResNeXt-50等都能提升一定的分類性能。

然而，這個方法的目標(biāo)是醫(yī)療圖像集的廣泛適用性，并沒有針對腸道圖像的特點進行設(shè)計，存在著巨大的改進空間：

（1）單純將圖像疊加起來，有很多特征會丟失，例如腸壁褶皺和病灶邊緣加在一起反而會失去兩者的區(qū)分性。

（2）選取通過隨機的方法進行，可能存在某些數(shù)據(jù)反復(fù)使用，而某些數(shù)據(jù)未被使用的情況，且沒有考慮到數(shù)據(jù)集的特點，例如醫(yī)療圖像中有些病灶不可能同時存在，會“誤導(dǎo)”算法，可能會另算法失去全局特征的判斷能力。

2 本文方法

本文將針對腸道圖像特點，提出一種高度不平衡數(shù)據(jù)集的類間數(shù)據(jù)平衡方法。

腸道圖像存在一些特殊性，主要包括：

（1）存在分析意義較小的暗區(qū)部分。由于腸道的結(jié)構(gòu)特點，受到器官褶皺遮擋或者視野中存在空腔中心區(qū)域時容易形成暗區(qū)。圖像中的暗區(qū)部分通常無法提供足夠高質(zhì)量的信息進行圖像分析，因此這部分通常在輔助系統(tǒng)設(shè)計時不會被采用。

（2）病灶識別方法需要對旋轉(zhuǎn)和病灶在圖像中的位置不敏感。圖像中的病灶方向不一。由于采集腸道圖像時沒有參考方向，因此無法判斷病灶的拍攝角度，這就要求分類方法對圖像的旋轉(zhuǎn)不敏感。此外，與自熱界拍攝的圖像不同，病灶會出現(xiàn)在腸道圖像中的各個位置。

針對以上腸道圖像特殊性，本文提出了一種腸道圖像數(shù)據(jù)集的類間平衡方法。由于腸道圖像數(shù)據(jù)集中大量存在的是正常（健康）的圖像，相比之下病灶圖像的數(shù)量較少。因此，本文的方法是利用正常圖像為底，結(jié)合病灶圖像生成新的病灶圖像。該方法的結(jié)構(gòu)圖如圖1所示，主要包括健康圖像的暗區(qū)識別、有疾病圖像的旋轉(zhuǎn)和平移變化，以及類間混合這三個步驟。首先，通過對健康圖像進行快速暗區(qū)識別，選取暗區(qū)較小的圖像。其次，對原始病灶圖像進行多角度旋轉(zhuǎn)和平移，最后將旋轉(zhuǎn)之后的圖像與選取的健康圖像進行類間混合，實現(xiàn)數(shù)據(jù)集的平衡。

圖1 本文方法系統(tǒng)框圖

2.1 暗區(qū)識別

如圖2（a）所示為一個典型的息肉圖像，可見其中包含了幾乎沒有分析和利用價值的暗區(qū)。若使用常規(guī)的數(shù)據(jù)類間均衡方法直接將此類圖進行線性組合，那么暗區(qū)部分的疊加會極大地影響生成圖像的質(zhì)量。為了解決這一問題，首先利用我們已經(jīng)提出的聚類方法SLICPGDPC[27]對圖像進行超像素分割，使用聚類算法的好處是高效且無需訓(xùn)練，非常適合對數(shù)據(jù)集直接進行處理。超像素分割的結(jié)果如圖2（b）所示。分割后對每一個超像素進行亮度統(tǒng)計，將亮度最低的超像素視為暗區(qū)部分，分析該部分占據(jù)圖像的百分比，當(dāng)這一部分占比大于預(yù)設(shè)的閾值時就將這一圖像舍棄，不進行后續(xù)的類間混合。由于健康圖像占比通常很高，因此閾值設(shè)計時可以根據(jù)剩余圖像的數(shù)量進行調(diào)整，根據(jù)經(jīng)驗，腸道圖像中閾值取值通常在0.2~0.5之間。

圖2 腸道圖像實例

2.2 旋轉(zhuǎn)和平移

由于腸道圖像的病灶觀察時沒有參考方向，因此訓(xùn)練分類網(wǎng)絡(luò)時必須對病灶觀測的角度不敏感。針對這一挑戰(zhàn)，本文將病灶圖像進行0°、90°、180°和270°旋轉(zhuǎn)。常見的腸道圖像數(shù)據(jù)增強方法中也會用到這一方式，通過對病灶的旋轉(zhuǎn)能夠令深度學(xué)習(xí)網(wǎng)絡(luò)降低對病灶旋轉(zhuǎn)的敏感性。此外，本文還設(shè)計了一種隨機平移的策略來模擬病灶可能出現(xiàn)在的不同位置。配合2.1中進行的超像素分割，探測與左側(cè)邊界無接觸且最為接近的超像素位置，并將該超像素左側(cè)圖像區(qū)域按照循環(huán)平移的方式移動到圖像的右側(cè)，如圖3所示。這一平移策略是為了對病灶在圖像中的位置進行改變，同時降低病灶區(qū)域被分離的概率。通過旋轉(zhuǎn)和平移的方式可以得到4張角度不同、且病灶相對位置不同的病灶圖像。

圖3 平移策略示例

2.3 類間混合策略

令通過2.1方法選擇出暗區(qū)部分較少的健康圖像數(shù)據(jù)集中圖像為H，其中第i張圖像為Hi。通過2.2旋轉(zhuǎn)和平移策略獲取的病灶圖像為L，且用Lp，q表示第p類疾病的第q張圖，本文提出線性組合形式的類間混合方法，即新的病灶圖像可以表示為

其中i和q均隨機匹配，確保不重復(fù)出現(xiàn)。系數(shù)α表示原始病灶圖像在新病灶圖像中的權(quán)重。由于我們使用了健康圖像作為所有病灶圖像的基底，不會出現(xiàn)多種病灶圖像組合的情況。此外，每一類都與健康圖像組合，更容易控制每一種類別圖像平衡后的數(shù)量，因此不需要特別設(shè)置類別中圖像選取的概率，簡化了整體的設(shè)計。

3 實驗分析

為了驗證本文提出方法的有效性，基于PyTorch框架進行了實驗程序的設(shè)計。配備了兩塊NVIDIA GeForce RTX 3080 GPU（顯存均為10GB）的塔式工作站被利用來加快模型推理速度。參數(shù)設(shè)置為batchsize=32，epoch=200，每10輪保存一次訓(xùn)練權(quán)重。

在數(shù)據(jù)集方面，本文選取了腸道內(nèi)窺鏡的公開數(shù)據(jù)集Kvasir-Capsule，a video capsule endoscopy dataset[3]中潰瘍和正常的圖像。原始數(shù)據(jù)集中正常圖像有34 606張，而腸道潰瘍圖像僅為854張。經(jīng)過去除冗余和模糊后，我們選取了190張腸道潰瘍圖像，同時隨機挑選了1 000張正常圖像進行分析。對潰瘍的190張圖像，經(jīng)過旋轉(zhuǎn)和平移后，數(shù)據(jù)擴了4倍，變?yōu)?60張。每一張潰瘍圖像與隨機選取的兩張健康圖像進行組合，即得到了1 520張合成的潰瘍病灶圖像。通過這樣的設(shè)置，潰瘍圖像和正常圖像數(shù)量級保持一致。隨后，按照以下劃分方式設(shè)置訓(xùn)練集、驗證集和測試集，見表1。需要注意的是由于本文希望提出一種能夠輔助分類網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集平衡方法，因此潰瘍的測試集選取了38張未被處理和使用過的潰瘍真實圖像。

表1 潰瘍和正常類型的圖像數(shù)據(jù)量單位：張

在分類算法方面，我們使用了經(jīng)典的ResNet，性能指標(biāo)包括準(zhǔn)確率ACC，精度Precision，以及F1值。具體實驗結(jié)果見表2。

表2 算法性能比較

通過對比和消融實驗可見，本文提出的方法由于采用了更具有針對性的設(shè)計，在進行腸道圖像二分類任務(wù)中表現(xiàn)出了較好的性能。健康圖像去除暗區(qū)帶來的性能提升幅度不如疾病圖像旋轉(zhuǎn)和平移帶來的提升。可以理解為針對腸道潰瘍分類任務(wù)，圖像中病灶的旋轉(zhuǎn)和位置影響要大于暗區(qū)帶來的影響。

4 結(jié)束語

本文根據(jù)腸道圖像的特點，設(shè)計了一種具有較強針對性的類間數(shù)據(jù)平衡方法。核心思路包括利用數(shù)量巨大的健康圖像為基底，線性組合病灶圖像。在選取圖像時去除了暗區(qū)部分較大的健康圖像以降低暗區(qū)對分類性能的影響，同時通過病灶圖像的旋轉(zhuǎn)和平移模擬了臨床中腸道病灶的旋轉(zhuǎn)特性和位置不確定的特點。通過這種簡潔的方法，能夠快速地進行高度不平衡的腸道圖像數(shù)據(jù)集平衡。通過腸道潰瘍和健康二分類仿真驗證了本文方法的有效性。