亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高度不平衡腸道圖像數(shù)據(jù)集均衡策略

        2022-06-21 04:20:06陳逸遠古夢婷
        科技創(chuàng)新與應(yīng)用 2022年17期
        關(guān)鍵詞:類間暗區(qū)腸道

        陳逸遠,古夢婷,李 勝

        (浙江工業(yè)大學(xué),浙江 杭州 310013)

        醫(yī)學(xué)圖像數(shù)據(jù)蘊含了大量的生物特征信息,已經(jīng)成為疾病診療中不可或缺的組成部分且日益重要。醫(yī)學(xué)圖像分類是醫(yī)學(xué)圖像分析中最重要的任務(wù)之一[1]。我國腸道疾病高發(fā),嚴重危害人們身體健康,有效的腸道圖像分類識別,對輔助醫(yī)生進行腸道疾病的篩查、診斷、治療方案制定等提供科學(xué)方法,對于提高疾病的診斷準(zhǔn)確率、減少漏診、提高醫(yī)生工作效率等方面具有重要的實際意義。然而,醫(yī)學(xué)圖像數(shù)據(jù)經(jīng)常面臨數(shù)據(jù)不平衡和數(shù)據(jù)有限問題[2]。首先,由于疾病的多樣化,發(fā)病概率不同,發(fā)病率低的病變集數(shù)量過少,每個病例中各種類別數(shù)據(jù)集分布不均衡。例如,腸道內(nèi)窺鏡的公開數(shù)據(jù)集Kvasir-Capsule[3]原始數(shù)據(jù)集中正常圖像有34 606張,但是僅有腸道潰瘍854張、出血446張,以及血紅素12張等。其次,由于醫(yī)學(xué)圖像特別是對病例樣本數(shù)據(jù)集的采集、標(biāo)注和整理是一個繁瑣及耗時耗力的過程。且由于病變差異很大,往往需要臨床專家進行標(biāo)注,另醫(yī)院之間的數(shù)據(jù)共享和互通程度較低,獲取用于大規(guī)模學(xué)習(xí)訓(xùn)練醫(yī)學(xué)圖像樣本數(shù)據(jù)集非常困難,因此可用的標(biāo)注數(shù)據(jù)規(guī)模相對較小[4]。

        深度學(xué)習(xí)從樣本數(shù)據(jù)中學(xué)習(xí)層次特征的特點,組合底層特征形成更加抽象的高層表示,最終提高分類或者預(yù)測的準(zhǔn)確性,已在語音識別、自然語言處理、圖像分類、人臉識別、目標(biāo)檢測等多領(lǐng)域取得突破性的好成績[5-6]。深度學(xué)習(xí)特別是卷積神經(jīng)網(wǎng)絡(luò)已成為分析醫(yī)學(xué)圖像的首選方法,在醫(yī)學(xué)圖像分類應(yīng)用取得顯著的進步達到前所未有的精準(zhǔn)度[7-8]。數(shù)據(jù)不平衡是醫(yī)學(xué)圖像天然存在的問題,恰恰抑制了卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢,研究表明數(shù)據(jù)不平衡是導(dǎo)致模型準(zhǔn)確性和泛化能力下降的主要原因[9-12],在數(shù)據(jù)集不平衡情況下,多數(shù)類控制著訓(xùn)練的主要過程得到過分表達,而少數(shù)類的識別情況欠表達,大大降低少數(shù)類的分類準(zhǔn)確性。在醫(yī)學(xué)圖像中,少數(shù)類蘊含的信息往往更值得關(guān)注,醫(yī)學(xué)診斷中誤診和漏診可能會導(dǎo)致嚴重的難以彌補的后果,因此提高分類模型對于少數(shù)類的識別率是至關(guān)重要的。

        本文主要的貢獻點羅列如下:

        (1)闡述了醫(yī)學(xué)圖像固有的數(shù)據(jù)不平衡問題及其對分類性能影響,研究現(xiàn)有對數(shù)據(jù)不平衡問題提供類間數(shù)據(jù)平衡分布的方法。

        (2)討論腸道圖像中遇到的特殊挑戰(zhàn),設(shè)計了一種更適用于腸道圖像數(shù)據(jù)集的類間數(shù)據(jù)平衡方法。能夠高效地對抗圖像中暗區(qū)過大的問題,以及識別腸道病灶所需的旋轉(zhuǎn)不變性問題。

        (3)通過真實腸道圖像疾病數(shù)據(jù)集進行了仿真實驗,驗證了本文所提方法的有效性。

        1 類間數(shù)據(jù)平衡方法研究現(xiàn)狀

        在過去20多年里,人們對于用機器學(xué)習(xí)技術(shù)解決數(shù)據(jù)類間不平衡問題進行廣泛的研究[9,13-17]。解決數(shù)據(jù)不平衡問題的方法可分為三大類[9-11]。第一類是數(shù)據(jù)層面,對訓(xùn)練數(shù)據(jù)集進行操作并減少其不平衡程度,目標(biāo)是改變數(shù)據(jù)集以使標(biāo)準(zhǔn)訓(xùn)練算法能正常發(fā)揮作用。第二類模型算法層面,對學(xué)習(xí)和決策過程的調(diào)整來強調(diào)少數(shù)類的重要性,這些方法保持訓(xùn)練數(shù)據(jù)集不變并調(diào)整訓(xùn)練或者推理的算法。第三類則是前兩類的混合方法。本文方法主要關(guān)注從數(shù)據(jù)層面實現(xiàn)類間數(shù)據(jù)平衡。

        1.1 常用方法

        最直接常用的方法是重采樣,重采樣主要分為過采樣和欠采樣兩類方法[15]。在幾乎所有分析的情景中,解決類別不平衡的方法,占主導(dǎo)地位的是過采樣[10]。

        過采樣是一種在深度學(xué)習(xí)被廣泛使用并驗證健壯有效的類間數(shù)據(jù)平衡方法[17],通過復(fù)制、變換等操作對少數(shù)類進行擴充,使得少數(shù)類和多數(shù)類樣本數(shù)量接近。最簡單的是隨機少數(shù)過采樣ROS(random minority oversampling)方法,它簡單復(fù)制從少數(shù)類隨機選擇的樣本。它已經(jīng)被證明簡單重采樣是有效的,雖然可能導(dǎo)致過度擬合[18]。(1)旨在克服過擬合問題的先進一點的算法是SMOTE[18],在現(xiàn)有少數(shù)樣本與其最近的少數(shù)鄰居之間進行插值來生成人工少數(shù)樣本的方法。SMOTE的幾個增強變種,例如Borderline-SMOTE[19],Safe-Level-SMOTE[20],通過考慮多數(shù)類鄰居來改進原始算法。Borderline-SMOTE將過采樣限制在類邊界附近的樣本,而Safe-Level-SMOTE定義安全區(qū)域以防止在重疊或噪聲區(qū)域中過采樣。(2)為了平衡當(dāng)模型和訓(xùn)練數(shù)據(jù)的過擬合導(dǎo)致的無法泛化問題,已開發(fā)各種智能采樣技術(shù)。JAPKOWICZ和JO[21]基于集群的過采樣(Cluster-based oversampling)來解決訓(xùn)練數(shù)據(jù)中存在的小分離問題。少數(shù)群體和多數(shù)群體首先使用K-means算法進行聚類,然后分別對每個聚類應(yīng)用過采樣。這改善了類內(nèi)不平衡和類間不平衡。

        欠采樣是另外一種使得在每個類的樣本數(shù)量相同的普遍方法[17]。和過采樣相反,它使用隨機刪除、去冗余等操作對從多數(shù)類的樣本進行精簡,最簡單的形式為隨機欠采樣(RUS)。雖然有點反直覺,有實證在特定場景如只需一定程度上消除不平衡時,欠采樣表現(xiàn)的比過采樣更好[22]。欠采樣比較明顯的不足是它有丟棄了一部分有用信息的風(fēng)險。為了克服這個缺點,一些修改引入了更仔細地選擇要刪除的樣本。例如,KUBAT和MATWIN[23]提出了單邊選擇識別靠近類邊界的冗余樣本。比欠采樣更通用的方法是數(shù)據(jù)清洗,這可能涉及重新標(biāo)記一些樣本[20]。

        然而,簡單的重復(fù)和去除對腸道圖像數(shù)據(jù)集來說只能帶來非常有限的性能提升,主要原因是原始病灶數(shù)據(jù)量很小,且此類方法沒有考慮數(shù)據(jù)集平衡時不同類別選擇的概率分布問題,多次簡單的重復(fù)容易使得分類算法關(guān)注到一些非病灶相關(guān)的特點。

        1.2 深度學(xué)習(xí)的探索

        MASKO和HENSMAN[24]使用深度CNN探索了類不平衡和ROS的影響。實驗證明了類不平衡的對訓(xùn)練CNN模型的影響,并驗證將ROS應(yīng)用于類平衡水平可以有效地解決圖像數(shù)據(jù)中的輕微類不平衡問題。大多數(shù)不平衡的分布都出現(xiàn)了性能損失。當(dāng)非常輕微的不平衡且沒有過度表示,表現(xiàn)與原始平衡分布一樣好。一些包含過度代表類的不平衡分布,則產(chǎn)生了完全偏向多數(shù)群體的無用模型。作者使用通過ROS生成的平衡數(shù)據(jù)訓(xùn)練CNN的結(jié)果對比表明,用ROS平衡訓(xùn)練數(shù)據(jù)可以改善所有不平衡圖像數(shù)據(jù)的分類。

        POUYANFAR等[25]使用動態(tài)采樣技術(shù)通過深度CNN對不平衡的圖像數(shù)據(jù)進行分類。基本思想是對少數(shù)類進行過采樣,對多數(shù)類進行欠采樣,從而減少模型已經(jīng)學(xué)習(xí)的內(nèi)容,而更多地顯示它尚未理解的內(nèi)容。該方法能夠自動調(diào)整采樣率,能適合不同程度的不平衡問題。

        此類方法被認為能夠提供更為有效的數(shù)據(jù),因為這類數(shù)據(jù)是通過網(wǎng)絡(luò)理解生成的新數(shù)據(jù)。然而此類方法在腸道圖像數(shù)據(jù)集中難以被利用,主要原因是訓(xùn)練CNN時由于數(shù)據(jù)集類間差距過大難以獲得優(yōu)異的性能,且訓(xùn)練網(wǎng)絡(luò)的過程較為復(fù)雜,面對大規(guī)模數(shù)據(jù)集時可能會帶來過高的計算代價。

        1.3 現(xiàn)有經(jīng)典方法

        在文獻[26]中,針對高度不平衡的醫(yī)療圖像數(shù)據(jù)集提出了一個高效率的類間平衡方法,該方法能夠有效提高基于深度學(xué)習(xí)的圖像分類框架準(zhǔn)確率,這一方法可以看成是過采樣方式的改進方法。

        首先令(xi,yi)是第i幅圖像和它對應(yīng)的標(biāo)簽,其中yi為one-hot向量,即只有一個元素為1,其他元素都為0的向量,用以表示類別信息。隨后,將不同類別的圖像進行混合疊加,生成新的帶標(biāo)簽的圖像,利用了以下公式:

        即新的圖像等于第i個圖像乘上權(quán)重λ,加上第j個圖像乘上權(quán)重(1-λ)。生成的新圖像標(biāo)簽也是對應(yīng)兩者標(biāo)簽的疊加,即:

        通過這一混合方法,將類間圖像的數(shù)量差異縮小。假設(shè)共有K個類型的圖像,又提出了一個概率:

        其中q的初始取值為1或者0,當(dāng)q=1時每一類都有一個不同的權(quán)重,即類內(nèi)圖像數(shù)量越多被選中的概率越高,稱為“instance-based sampling”,就是打破不同類別的界限,圖像一視同仁在整個數(shù)據(jù)集中選。當(dāng)q=0時,每一類被選中的概率一樣,則稱為“class-based sampling”。隨后可以通過改變q的值完成這兩種選擇模式的混合。這一方法的優(yōu)勢是能夠快速地進行類間數(shù)量高度不平衡數(shù)據(jù)集的處理,將類間樣本差距減小,有利于分類網(wǎng)絡(luò)的訓(xùn)練。在一個23分類的高度不平衡腸道圖像數(shù)據(jù)集中,通過仿真結(jié)果可以發(fā)現(xiàn)對常見的分類網(wǎng)絡(luò),如MobileNet V2,ResNeXt-50等都能提升一定的分類性能。

        然而,這個方法的目標(biāo)是醫(yī)療圖像集的廣泛適用性,并沒有針對腸道圖像的特點進行設(shè)計,存在著巨大的改進空間:

        (1)單純將圖像疊加起來,有很多特征會丟失,例如腸壁褶皺和病灶邊緣加在一起反而會失去兩者的區(qū)分性。

        (2)選取通過隨機的方法進行,可能存在某些數(shù)據(jù)反復(fù)使用,而某些數(shù)據(jù)未被使用的情況,且沒有考慮到數(shù)據(jù)集的特點,例如醫(yī)療圖像中有些病灶不可能同時存在,會“誤導(dǎo)”算法,可能會另算法失去全局特征的判斷能力。

        2 本文方法

        本文將針對腸道圖像特點,提出一種高度不平衡數(shù)據(jù)集的類間數(shù)據(jù)平衡方法。

        腸道圖像存在一些特殊性,主要包括:

        (1)存在分析意義較小的暗區(qū)部分。由于腸道的結(jié)構(gòu)特點,受到器官褶皺遮擋或者視野中存在空腔中心區(qū)域時容易形成暗區(qū)。圖像中的暗區(qū)部分通常無法提供足夠高質(zhì)量的信息進行圖像分析,因此這部分通常在輔助系統(tǒng)設(shè)計時不會被采用。

        (2)病灶識別方法需要對旋轉(zhuǎn)和病灶在圖像中的位置不敏感。圖像中的病灶方向不一。由于采集腸道圖像時沒有參考方向,因此無法判斷病灶的拍攝角度,這就要求分類方法對圖像的旋轉(zhuǎn)不敏感。此外,與自熱界拍攝的圖像不同,病灶會出現(xiàn)在腸道圖像中的各個位置。

        針對以上腸道圖像特殊性,本文提出了一種腸道圖像數(shù)據(jù)集的類間平衡方法。由于腸道圖像數(shù)據(jù)集中大量存在的是正常(健康)的圖像,相比之下病灶圖像的數(shù)量較少。因此,本文的方法是利用正常圖像為底,結(jié)合病灶圖像生成新的病灶圖像。該方法的結(jié)構(gòu)圖如圖1所示,主要包括健康圖像的暗區(qū)識別、有疾病圖像的旋轉(zhuǎn)和平移變化,以及類間混合這三個步驟。首先,通過對健康圖像進行快速暗區(qū)識別,選取暗區(qū)較小的圖像。其次,對原始病灶圖像進行多角度旋轉(zhuǎn)和平移,最后將旋轉(zhuǎn)之后的圖像與選取的健康圖像進行類間混合,實現(xiàn)數(shù)據(jù)集的平衡。

        圖1 本文方法系統(tǒng)框圖

        2.1 暗區(qū)識別

        如圖2(a)所示為一個典型的息肉圖像,可見其中包含了幾乎沒有分析和利用價值的暗區(qū)。若使用常規(guī)的數(shù)據(jù)類間均衡方法直接將此類圖進行線性組合,那么暗區(qū)部分的疊加會極大地影響生成圖像的質(zhì)量。為了解決這一問題,首先利用我們已經(jīng)提出的聚類方法SLICPGDPC[27]對圖像進行超像素分割,使用聚類算法的好處是高效且無需訓(xùn)練,非常適合對數(shù)據(jù)集直接進行處理。超像素分割的結(jié)果如圖2(b)所示。分割后對每一個超像素進行亮度統(tǒng)計,將亮度最低的超像素視為暗區(qū)部分,分析該部分占據(jù)圖像的百分比,當(dāng)這一部分占比大于預(yù)設(shè)的閾值時就將這一圖像舍棄,不進行后續(xù)的類間混合。由于健康圖像占比通常很高,因此閾值設(shè)計時可以根據(jù)剩余圖像的數(shù)量進行調(diào)整,根據(jù)經(jīng)驗,腸道圖像中閾值取值通常在0.2~0.5之間。

        圖2 腸道圖像實例

        2.2 旋轉(zhuǎn)和平移

        由于腸道圖像的病灶觀察時沒有參考方向,因此訓(xùn)練分類網(wǎng)絡(luò)時必須對病灶觀測的角度不敏感。針對這一挑戰(zhàn),本文將病灶圖像進行0°、90°、180°和270°旋轉(zhuǎn)。常見的腸道圖像數(shù)據(jù)增強方法中也會用到這一方式,通過對病灶的旋轉(zhuǎn)能夠令深度學(xué)習(xí)網(wǎng)絡(luò)降低對病灶旋轉(zhuǎn)的敏感性。此外,本文還設(shè)計了一種隨機平移的策略來模擬病灶可能出現(xiàn)在的不同位置。配合2.1中進行的超像素分割,探測與左側(cè)邊界無接觸且最為接近的超像素位置,并將該超像素左側(cè)圖像區(qū)域按照循環(huán)平移的方式移動到圖像的右側(cè),如圖3所示。這一平移策略是為了對病灶在圖像中的位置進行改變,同時降低病灶區(qū)域被分離的概率。通過旋轉(zhuǎn)和平移的方式可以得到4張角度不同、且病灶相對位置不同的病灶圖像。

        圖3 平移策略示例

        2.3 類間混合策略

        令通過2.1方法選擇出暗區(qū)部分較少的健康圖像數(shù)據(jù)集中圖像為H,其中第i張圖像為Hi。通過2.2旋轉(zhuǎn)和平移策略獲取的病灶圖像為L,且用Lp,q表示第p類疾病的第q張圖,本文提出線性組合形式的類間混合方法,即新的病灶圖像可以表示為

        其中i和q均隨機匹配,確保不重復(fù)出現(xiàn)。系數(shù)α表示原始病灶圖像在新病灶圖像中的權(quán)重。由于我們使用了健康圖像作為所有病灶圖像的基底,不會出現(xiàn)多種病灶圖像組合的情況。此外,每一類都與健康圖像組合,更容易控制每一種類別圖像平衡后的數(shù)量,因此不需要特別設(shè)置類別中圖像選取的概率,簡化了整體的設(shè)計。

        3 實驗分析

        為了驗證本文提出方法的有效性,基于PyTorch框架進行了實驗程序的設(shè)計。配備了兩塊NVIDIA GeForce RTX 3080 GPU(顯存均為10GB)的塔式工作站被利用來加快模型推理速度。參數(shù)設(shè)置為batchsize=32,epoch=200,每10輪保存一次訓(xùn)練權(quán)重。

        在數(shù)據(jù)集方面,本文選取了腸道內(nèi)窺鏡的公開數(shù)據(jù)集Kvasir-Capsule,a video capsule endoscopy dataset[3]中潰瘍和正常的圖像。原始數(shù)據(jù)集中正常圖像有34 606張,而腸道潰瘍圖像僅為854張。經(jīng)過去除冗余和模糊后,我們選取了190張腸道潰瘍圖像,同時隨機挑選了1 000張正常圖像進行分析。對潰瘍的190張圖像,經(jīng)過旋轉(zhuǎn)和平移后,數(shù)據(jù)擴了4倍,變?yōu)?60張。每一張潰瘍圖像與隨機選取的兩張健康圖像進行組合,即得到了1 520張合成的潰瘍病灶圖像。通過這樣的設(shè)置,潰瘍圖像和正常圖像數(shù)量級保持一致。隨后,按照以下劃分方式設(shè)置訓(xùn)練集、驗證集和測試集,見表1。需要注意的是由于本文希望提出一種能夠輔助分類網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集平衡方法,因此潰瘍的測試集選取了38張未被處理和使用過的潰瘍真實圖像。

        表1 潰瘍和正常類型的圖像數(shù)據(jù)量 單位:張

        在分類算法方面,我們使用了經(jīng)典的ResNet,性能指標(biāo)包括準(zhǔn)確率ACC,精度Precision,以及F1值。具體實驗結(jié)果見表2。

        表2 算法性能比較

        通過對比和消融實驗可見,本文提出的方法由于采用了更具有針對性的設(shè)計,在進行腸道圖像二分類任務(wù)中表現(xiàn)出了較好的性能。健康圖像去除暗區(qū)帶來的性能提升幅度不如疾病圖像旋轉(zhuǎn)和平移帶來的提升。可以理解為針對腸道潰瘍分類任務(wù),圖像中病灶的旋轉(zhuǎn)和位置影響要大于暗區(qū)帶來的影響。

        4 結(jié)束語

        本文根據(jù)腸道圖像的特點,設(shè)計了一種具有較強針對性的類間數(shù)據(jù)平衡方法。核心思路包括利用數(shù)量巨大的健康圖像為基底,線性組合病灶圖像。在選取圖像時去除了暗區(qū)部分較大的健康圖像以降低暗區(qū)對分類性能的影響,同時通過病灶圖像的旋轉(zhuǎn)和平移模擬了臨床中腸道病灶的旋轉(zhuǎn)特性和位置不確定的特點。通過這種簡潔的方法,能夠快速地進行高度不平衡的腸道圖像數(shù)據(jù)集平衡。通過腸道潰瘍和健康二分類仿真驗證了本文方法的有效性。

        猜你喜歡
        類間暗區(qū)腸道
        腸道臟了翻出來洗洗
        大自然探索(2024年1期)2024-03-19 19:01:03
        70%的能量,號稱“腸道修復(fù)菌之王”的它,還有哪些未知待探索?
        夏季謹防腸道傳染病
        基于OTSU改進的布匹檢測算法研究
        常做9件事腸道不會差
        基于貝葉斯估計的多類間方差目標(biāo)提取*
        基于配準(zhǔn)圖像與水平集算法的宮頸熒光多生暗區(qū)分割方法
        基于類間相對均勻性的紙張表面缺陷檢測
        基于改進最大類間方差法的手勢分割方法研究
        光束分析儀測量高階拉蓋爾高斯光束暗區(qū)半徑研究
        永久免费观看的黄网站在线| 双腿张开被9个男人调教| 天天躁日日躁狠狠躁av| 国产精品久久久久久妇女6080 | 黄 色 人 成 网 站 免 费| 中文字幕无码人妻丝袜| 制服无码在线第一页| 午夜日本理论片最新片| 国产精品亚洲一二三区| 日本亚洲国产精品久久| 亚洲av无码乱码在线观看牲色| 超清精品丝袜国产自在线拍| a国产一区二区免费入口| 亚洲国产成人AV人片久久网站 | 使劲快高潮了国语对白在线| 99视频一区| 色综合999| 日本一区二三区在线中文| 国产女主播一区二区久久| 少妇高潮太爽了在线视频| 国产av永久无码天堂影院| 97超级碰碰人妻中文字幕| 国产自产av一区二区三区性色| 免费毛片一区二区三区女同| 日本韩国亚洲三级在线| 大地资源网在线观看免费官网 | 国产精品18久久久久久首页| 国产91精品清纯白嫩| 国产三级精品和三级男人| 欧美丰满老熟妇aaaa片| 亚洲人成网站18禁止久久影院| 人妻丰满熟妇AV无码区HD| 亚洲欧洲AV综合色无码| 一区二区三区在线观看视频| 美女人妻中出日本人妻| 亚洲一区av在线观看| 中文字幕日韩一区二区三区不卡| 亚洲国产麻豆综合一区| 五月婷婷激情六月开心| 精品日本一区二区三区| 亚洲国产精品无码久久久|