摘? 要:利用機器學習輔助提高醫(yī)生診斷效率是常用的方法。用機器學習方法進行乳腺癌檢測,常由于乳腺癌數(shù)據(jù)的不平衡而出現(xiàn)問題。為了解決這一問題,研究在多層感知機的基礎(chǔ)上嵌入監(jiān)督對比學習進行乳腺癌檢測,該方式通過數(shù)據(jù)增廣,彌補不平衡數(shù)據(jù)的影響,同時利用同一類特征距離拉近,反之拉遠的性質(zhì),增強特征表示效果,提高診斷準確率。實驗結(jié)果證明,與現(xiàn)有的算法相比在準確率等方面優(yōu)于其他算法,這證明了該算法的有效性。
關(guān)鍵詞:監(jiān)督對比學習;乳腺癌檢測;多層感知機;不平衡數(shù)據(jù)
中圖分類號:TP181? ? 文獻標識碼:A? 文章編號:2096-4706(2023)02-0079-05
Breast Cancer Detection Algorithm Based on Supervised Contrastive Learning
LI Xin
(Taiyuan Normal University, Jinzhong? 030619, China)
Abstract: Using Machine learning is a common method to assist doctors with improving the diagnosis efficiency. The use of machine learning methods for breast cancer detection often causes problems due to the imbalance of breast cancer data. In order to solve this problem, supervised contrastive learning is embedded on the basis of multi-layer perceptron for breast cancer detection. This method makes up for the influence of unbalanced data through data augmentation, and makes use of the nature of the distance narrowing of features of the same class, and the nature of the distance stretching on the contrary, to enhance the feature representation effect and improve the diagnostic accuracy. The experimental results show that compared with the existing algorithms, the algorithm is superior to other algorithms in terms of accuracy and other aspects, which proves the effectiveness of the algorithm.
Keywords: supervised contrastive learning; breast cancer detection; multi-layer perceptron; unbalanced data
0? 引? 言
乳腺癌作為三大癌癥之一,雖然近年的新增病例有所穩(wěn)定,但其發(fā)病率及死亡率仍在女性中占據(jù)很高比例[1],所以要居安思危[2],繼續(xù)努力提高該疾病的檢測效率,時刻避免該疾病隱匿。乳腺癌數(shù)據(jù)中患病人數(shù)占比小,這種數(shù)據(jù)的不平衡給傳統(tǒng)的分類方法[2],比如樸素貝葉斯分類器、KNN、多層感知器(MLP)[3]、決策樹法、SVM帶來了挑戰(zhàn),主要原因是傳統(tǒng)分類方法在不平衡數(shù)據(jù)中常伴有噪音影響和結(jié)果偏向于多數(shù)類,導(dǎo)致少數(shù)類準確率不高。因此,本文引入監(jiān)督對比學習,利用其優(yōu)勢數(shù)據(jù)增強,來填補少數(shù)類數(shù)據(jù)數(shù)量不足的影響,同時利用其損失函數(shù)將同一類數(shù)據(jù)特征距離拉近,不同類數(shù)據(jù)特征距離遠離,提高不平衡數(shù)據(jù)樣本分類效果。
監(jiān)督對比學習利用數(shù)據(jù)的監(jiān)督信號[4],能夠為數(shù)據(jù)學習到一個良好的嵌入表示,同時改善了對噪聲標簽敏感。2020年Khosla在NeurIPS上提出了監(jiān)督對比學習方法(Supervised contrastive Learning)[5],使同一類的嵌入表示更加接近,不同類的嵌入表示更加遠離。該方法的優(yōu)勢主要有三方面:
(1)監(jiān)督對比損失函數(shù)(Supcon)將正樣本擴展為同類樣本及其增強樣本,避免了潛在的錯誤否定,以此來正確區(qū)分數(shù)據(jù)類別;
(2)該損失函數(shù)為數(shù)據(jù)集提供了一致的top-1精度提升,抵抗力也有所增強;
(3)該損失函數(shù)比交叉熵損失函數(shù)對超參數(shù)的范圍更不敏感。綜合以上性質(zhì),將監(jiān)督對比學習嵌入在多層感知機中,提出一種基于監(jiān)督對比學習的乳腺癌檢測算法,用來輔助多層感知機進行不平衡乳腺癌數(shù)據(jù)的分類。
實驗結(jié)果表明,本文提出的基于監(jiān)督對比學習的乳腺癌檢測算法在準確率、F1值、精確率、召回率上均比SVM、KNN、樸素貝葉斯等分類算法有所提高,能有效地解決乳腺癌數(shù)據(jù)不平衡分類問題,從而證明該算法可以更好地幫助醫(yī)生進行檢測。
1? 相關(guān)工作
1.1? 乳腺癌檢測方法
乳腺癌檢測工作,是一個典型的數(shù)據(jù)分類問題,因此本文對傳統(tǒng)的分類算法如樸素貝葉斯分類器、KNN、決策樹法、SVM、MLP五種法進行了總結(jié)和分析。
首先分析樸素貝葉斯分類器,樸素貝葉斯分類器優(yōu)勢在于分類穩(wěn)定,但對數(shù)據(jù)缺失不敏感,屬性相關(guān)性大時效果欠佳,除此外還需要知道先驗概率;對于KNN算法,該算法模型優(yōu)勢在于簡單易理解,無須訓(xùn)練集、準確性高、適合多標簽問題,但面臨數(shù)據(jù)多維不平衡時其準確率會受到影響大幅下降,且可解釋性差;然后是決策樹,決策樹是一種基本的分類方法,優(yōu)勢在于能夠處理數(shù)值類和類別類的特征,但是它不是很穩(wěn)定,對于數(shù)據(jù)的噪音非常敏感;其次是SVM,SVM是一種有小樣本學習方法,沒有傳統(tǒng)的歸納演繹過程,抓住關(guān)鍵、刪除所謂冗余部分,高效且簡單,大大簡化了常用的分類問題,而且具有較好的“魯棒”性,但不可避免的問題是該算法針對大規(guī)模的數(shù)據(jù)使無法實施,且難以進行多分類的;最后分析多層感知器(Multi-layer perceptron, MLP)[3],MLP是基礎(chǔ)的人工神經(jīng)網(wǎng)絡(luò),是前向結(jié)構(gòu)、十分簡單,主要優(yōu)勢在于不僅可以對線性不可分數(shù)據(jù)進行識別,而且高效快速的在原始數(shù)據(jù)集中提取學習數(shù)據(jù)中的高級特征,能快速解決復(fù)雜分類問題。
雖然以上傳統(tǒng)方法都能對乳腺癌數(shù)據(jù)進行合理的分類,但乳腺癌數(shù)據(jù)中患病數(shù)目占總數(shù)據(jù)較小,是不平衡的數(shù)據(jù),用傳統(tǒng)的分類方法對乳腺癌數(shù)據(jù)集進行分類準確率偏低?;谝焉蟼鹘y(tǒng)分類模型,選擇一種簡單且高效準確的分類方法——MLP,提出在MLP中嵌入監(jiān)督對比學習,彌補MLP受不平衡數(shù)據(jù)的影響,旨在達到更高的分類效果和準確率。
1.2? 監(jiān)督對比學習
對比學習(Contrastive Learning)[4]是針對無監(jiān)督學習[6]提出的一種的方法,廣泛應(yīng)用于自我監(jiān)督學習中[7],而后發(fā)展為自監(jiān)督學習的對比,最后發(fā)展出帶標簽的有監(jiān)督學習,他們是利用標簽信息來進行對比學習。此外,對比學習也以監(jiān)督的方式使用,成為監(jiān)督對比學習,監(jiān)督對比學習增加了對比學習中對于正樣本選擇的范圍,更有利于分類效果。
監(jiān)督對比學習[8]中的監(jiān)督對比損失函數(shù)(Supcon)[9]是一種新的損失函數(shù),它使對比學習能夠應(yīng)用于監(jiān)督環(huán)境,通過利用標記數(shù)據(jù),鼓勵將來自同一類的規(guī)范化嵌入拉得更近,而將來自不同類的嵌入拉得更遠,該方法增強了正樣本選擇,使正樣本更加多樣化,同時仍然包含語義等相關(guān)信息。主要作用有以下幾點:
(1)首先Supcon可以在下游訓(xùn)練中使用,還通過標簽信息在特征學習中發(fā)揮積極作用,提高分類效果;
(2)Supcon簡單易于實現(xiàn),訓(xùn)練穩(wěn)定,對一些數(shù)據(jù)集和體系結(jié)構(gòu)的精確度達到了一定的提升;
(3)對超參數(shù)變化具有魯棒性。
本文中考慮的監(jiān)督對比損失,將來自同一類別的所有樣本作為正的樣本集與來自同一個數(shù)據(jù)集中剩余樣本的負的樣本集進行對比學習。此外它的功能還有很多,例如在自然語言處理中,監(jiān)督對比學習幫助在輔助任務(wù)上進行預(yù)訓(xùn)練大型語言模型;在圖片的學習中,也有自我監(jiān)督學習的應(yīng)用。Supcon可以通過最大化數(shù)據(jù)與其增廣數(shù)據(jù)的相似性同時最小化與其他數(shù)據(jù)的相似性來學習數(shù)據(jù)的特征表示。將其應(yīng)用在疾病等領(lǐng)域的應(yīng)用是十分可取的、有效的。
2? 模型方法
在本文中,目標是學習到對乳腺癌數(shù)據(jù)分類有效的特征表示。因此,提出了一種基于監(jiān)督對比學習的乳腺癌檢測算法。該算法將監(jiān)督對比學習嵌入在多層感知機中,不僅能獲得更好的嵌入式特征表示,同時也彌補原MLP針對不平衡數(shù)據(jù)的分類問題。如圖1所示,展示了基于監(jiān)督對比學習的多層感知機模型(Supcon-MLP)。在Supcon-MLP模型中,包含數(shù)據(jù)增廣、編碼器、激活層和輸出層。通過加入了一種新的監(jiān)督對比損失(Supcon),最大化數(shù)據(jù)與其增廣數(shù)據(jù)的相似性同時最小化與其他數(shù)據(jù)的相似性來學習數(shù)據(jù)的特征表示。
Supcon-MLP模型主要包含三個步驟:
(1)數(shù)據(jù)增強,對一個樣本的數(shù)據(jù)的特征做隨機的增廣,產(chǎn)生兩個數(shù)據(jù)xi,xj;
(2)這兩個數(shù)據(jù)送到多層感知中機進行編碼,并進行投影操作,最后產(chǎn)生兩個特征向量z,嵌入表示zi,zj;
(3)利用監(jiān)督對比損失函數(shù)Supcon計算損失,利用交叉熵損失進行分類。
接下來具體介紹關(guān)于該模型的三個組成部分。
2.1? 數(shù)據(jù)增強
數(shù)據(jù)量規(guī)模小會導(dǎo)致難以發(fā)現(xiàn)隱藏的內(nèi)容,數(shù)據(jù)規(guī)模越大,質(zhì)量就越高,模型的泛化能力就越高。因此解決此類樣本數(shù)量不均衡、數(shù)據(jù)規(guī)模小的問題,常通過數(shù)據(jù)增強的方式有效提高,使模型擁有較好的泛化能力。
采用簡單的數(shù)據(jù)增強的方式對數(shù)據(jù)進行增強,通過在特征中隨機選取百分之十的特征做掩碼操作[10],實現(xiàn)特征的增強。在增強中,需選取相對能維持正確的類標簽的特征,進行增強操作。如果特征發(fā)生了巨大的變化,將影響類標簽可有效性。
2.2? 基于MLP的模型結(jié)構(gòu)
多層感知器(MLP)是一種簡單、基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)。MLP結(jié)構(gòu)中包含有輸入層、隱藏層、輸出層,含有一層隱藏層是最簡單的多層感知機。此外,在MLP中各層之間是全連接,流程為:輸入層→隱藏層→輸出層,最終完成對輸入的向量轉(zhuǎn)化。具體內(nèi)容有:
(1)輸入層→隱藏層:前一層的輸出會作為當前層的輸入。計算方式為:權(quán)重乘以輸入加偏置的值。設(shè)輸入為x1,只在第一個轉(zhuǎn)換的公式為:
F(x1)=w1x1+b1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
(2)隱藏層→輸出層:就是一個多類別的LR邏輯回歸,設(shè)輸入為x2,只在第二個的轉(zhuǎn)換的公式為:
F(x2)=w2+b2? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
(3)將輸入層、一層隱藏層和輸出層結(jié)合起來的最簡單多層感知機的公式為:
F(x)=g(w2(w1x1+b1)+b2? ? ? ? ? ? ? ? ? ? ? ? (3)
此外在多層感知機中,激活函數(shù)能將線性的數(shù)據(jù)轉(zhuǎn)變?yōu)榉蔷€性的數(shù)據(jù),最終將輸出值控制在(0~1)之間。最常用的激活函數(shù)是Sigmoid函數(shù)和Relu函數(shù),在本文中選擇Relu函數(shù)。Dropout的功能是為了避免過度擬合。
2.3? 損失函數(shù)
損失函數(shù)由監(jiān)督對比損失和交叉熵損失兩部分組成如式(4)所示,兩者相關(guān)聯(lián)系如圖2所示,損失函數(shù)曲線圖如圖3所示。
lossfinal=lossCE+αlossSup? ? ? ? ? ? ? ? ? ? ? ? ? (4)
α表示平衡這兩個損失的超參數(shù)。
監(jiān)督對比損失函數(shù)的優(yōu)勢增加更多的負面因素的例子,提高了區(qū)分信號和噪聲的能力。這一特性對于通過監(jiān)督對比學習的表示學習非常重要,負樣本的數(shù)量的增加,表現(xiàn)的性能也會提高。監(jiān)督對比損失最為關(guān)鍵的方面是擁有執(zhí)行積極信息挖掘的內(nèi)在潛力。來自強勢的正/負的梯度貢獻是很大的,而對于一些簡單的正/負的梯度貢獻是很小的。此外,對于強勢的正數(shù),其影響隨著負數(shù)的增加而增加。方程的該性質(zhì),將它推廣到所有正數(shù)。監(jiān)督對比損失函數(shù)公式為:
(5)
其中,I表示所有的樣本,P(i)是指與i同一類的樣本,A(i)表示的是與i不同類的樣本集,τ表示溫度參數(shù),Zi, Zj, Za為特征表示結(jié)果。
交叉熵用于計算兩個分類概率的分布差異值,特征值通過篩選后進入softmax,對輸出的結(jié)果進行計算處理,使其分類的正負概率值和為1,再通過交叉熵損失函數(shù)計算損失。交叉熵的值越小,模型預(yù)測效果就越好。交叉熵損失函數(shù)公式為:
(6)
3? 實驗結(jié)果及分析
3.1? 數(shù)據(jù)集
驗證提出的方法在乳腺癌檢測分類任務(wù)上的優(yōu)越性,對此不平衡乳腺癌數(shù)據(jù)分類的數(shù)據(jù)集進行了實驗,如圖4所示,為實驗中的部分數(shù)據(jù)。
數(shù)據(jù)集使用的分別是威斯康辛大學威斯康辛診斷乳腺癌數(shù)據(jù)庫(Wisconsin Diagnostic Breast Cancer, WDBC)和在UCI公開數(shù)據(jù)庫中獲取的真實乳腺癌疾病診斷數(shù)據(jù)集(WHG)。如表1所示。
WDBC數(shù)據(jù)集中不平衡比為1.68,WHC數(shù)據(jù)集中不平衡比為1.9。其中WDBC數(shù)據(jù)集中的每個病例數(shù)據(jù)都包含10個特征數(shù)據(jù)和一個類別標簽,類別標簽為良性和惡性。其中WHC數(shù)據(jù)集中每個病例數(shù)據(jù)都包含9個特征數(shù)據(jù)和一個類別標簽,類別標簽為良性和惡性。對于此兩組數(shù)據(jù)集,每組數(shù)據(jù)集使用每個類70%的樣本進行訓(xùn)練,20%用于驗證,其余10%用于測試。
3.2? 實驗設(shè)置
在本文提出的Supcon-MLP模型中,采用Adam優(yōu)化算法對所有模型進行訓(xùn)練,學習率lr設(shè)置為10-2,失活率dropout設(shè)置為0.5,超參數(shù)α為1,dropout設(shè)置為0.5,迭代次數(shù)epoch設(shè)置為500次,這樣的參數(shù)設(shè)置能使模型達到理想性能。此外,所有實驗都是在一臺Intel(R) Core(TM) i5-10200H CPU上進行的,在Pytorch和Python 3.6中實現(xiàn)。
3.3? 評價指標
本實驗采用了四個評價指標,分別為準確率(Accuracy)、F1、精確率(Precision) 和召回率(Recall)[11]。Acc通過計算正確分類的樣本數(shù)占據(jù)全部樣本數(shù)的比值計算,Acc代表了算法分類的準確程度。Acc計算公式為:
(7)
單獨計算每一類的F1值,然后對其進行非加權(quán)平均計算得出最終F1值。F1值是針對不平衡數(shù)據(jù)分類的關(guān)鍵指標,能更好反映出不平衡數(shù)據(jù)分類模型的好壞。F1計算公式為:
(8)
Pre值指的是被預(yù)測為正類的數(shù)據(jù)中所有真正類所占的比重。Pre計算公式為:
(9)
Rec值指的是真正類數(shù)據(jù)中被預(yù)測正確的數(shù)據(jù)所占比例。Rec計算公式為:
(10)
3.4? 實驗對比模型
為了證明提出模型的有效性,在乳腺癌數(shù)據(jù)集上分別使用決策樹法、樸素貝葉斯分類器、SVM、KNN、MLP進行對比分類。
3.5? 實驗結(jié)果
3.5.1? 與其他模型的比較結(jié)果
評估本文所提出的算法在不平衡數(shù)據(jù)分類問題中的有效性,在上述兩個數(shù)據(jù)集上將其與其他五個分類器算法進行了比較,如表2所示,分析得出,與其他分類模型相比,該模型的結(jié)果優(yōu)于其他所有分類模型。例如,與沒有嵌入對比學習的多層感知機相比,在數(shù)據(jù)集WDBC上的Acc值和F1值分別提高了3.2%和9.9%,數(shù)據(jù)的提升證明所提出算法的有效性。
3.5.2? 監(jiān)督對比損失函數(shù)對數(shù)據(jù)的影響
如表3所示,通過改變平衡這監(jiān)督對比損失和交叉熵損失函數(shù)的超參數(shù),用準確率、F1、精確率、召回率四個指標檢驗該模型的分類性能。實驗結(jié)果表明,當α為1時,即監(jiān)督損失函數(shù)和交叉熵損失比值為1時,各項指標都會達到最高,分類性能同步達到最高。
4? 結(jié)? 論
乳腺癌檢測主要針對不平衡數(shù)據(jù),機器學習的方法對不平衡數(shù)據(jù)的檢測常伴隨有少數(shù)類精確率不高和噪聲影響較大的問題。針對此問題,提出了一種基于監(jiān)督對比學習的乳腺癌檢測算法,利用監(jiān)督對比學習的優(yōu)勢,將同一類樣本中的特征數(shù)據(jù)盡可能靠近,非同類樣本的特征數(shù)據(jù)盡量遠離,來區(qū)分不同類別的數(shù)據(jù)。監(jiān)督對比學習的加入能最大限度地挖掘正負樣本信息,多層感知機同時對數(shù)據(jù)特征有著高效的提取和學習,所以能大幅度地提升乳腺癌的檢測。實驗結(jié)果表明,提出的基于監(jiān)督對比學習的乳腺癌檢測算法是十分有效的,在之后的研究中,希望將該算法模型擴展到更多的應(yīng)用領(lǐng)域。
參考文獻:
[1] BRAY F,F(xiàn)ERLAY J,SOERJOMATARAM I,et al.Global Cancer Statistics 2018:Globocan Estimates of incidence and Mortality Worldwide for 36 Cancers in 185 Countries [J].CA Cancer J Clin,2018,68(6):394-424.
[2] HASTIE T,TIBSHIRANI R,F(xiàn)RIEDMAN J.The Elements of Statistical Learning [M].Springer Series in Statistics.Berlin:Springer,2009.
[3] ISA I S,SAAD Z,OMAR S,et al.Suitable MLP Network Activation Functions for Breast Cancer and Thyroid Disease Detection [C]//2010 Second International Conference on Computational Intelligence,Modelling and Simulation.Bali:IEEE,2010:39-44.
[4] CHEN T,KORNBLITH S,NOROUZI M,et al.A Simple Framework for Contrastive Learning of Visual Representations [J/OL].arXiv:2002.05709 [cs.LG].[2022-08-03].https://arxiv.org/abs/2002.05709v2.
[5] TIAN Y L,SUN C,POOLE B,et al.What makes for good views for Contrastive Learning? [J/OL].arXiv:2005.10243 [cs.CV].[2022-08-06].https://arxiv.org/abs/2005.10243.
[6] HE K,F(xiàn)AN H,WU Y,et al.Momentum Contrast for Unsupervised Visual Representation Learning [J].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2020:9726-9735.
[7] HU X M,ZHANG C W,XU Y S,et al.SelfORE:Self-Supervised Relational Feature Learning for Open Relation Extraction [J/OL].arXiv:2004.02438 [cs.CL].[2022-08-09].https://arxiv.org/abs/2004.02438.
[8] KHOSLA P,TETERWAK P,WANG C,et al.Supervised Contrastive Learning [J/OL].arXiv:2004.11362 [cs.LG].[2022-08-07].https://arxiv.org/abs/2004.11362.
[9] YANG S,WANG S D,WANG Y Q,et al.MB-Supcon:Microbiome-based Predictive Models via Supervised Contrastive Learning [J].Journal of Molecular Biology,2022,434(15):167693.
[10] WANG J,YANG C C,YAN L H,et al.Speech Enhancement Algorithm of Binary Mask Estimation Based on a Priori SNR Constraints [C]//2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC).Honolulu:IEEE,2018:937-943.
[11] 王成,劉亞峰,王新成,等.分類器的分類性能評價指標 [J].電子設(shè)計工程,2011,19(8):13-15+21.
作者簡介:栗鑫(1995—),男,漢族,山西長治人,碩士研究生在讀,研究方向:機器學習。
收稿日期:2022-10-23