亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進(jìn)DEA-DA模型在乳腺癌病情診斷領(lǐng)域的應(yīng)用

2024-12-31 00:00:00崔巍張紅木仁

赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版 2024年11期

摘要：世界衛(wèi)生組織統(tǒng)計(jì)數(shù)據(jù)顯示，2023年乳腺癌依然是全球女性最常見的癌癥之一，在亞洲地區(qū)，中國乳腺癌患者占比居高不下。乳腺癌的早期診斷對(duì)提高患者的生存率和治愈率方面至關(guān)重要。本文探討了改進(jìn)的數(shù)據(jù)包絡(luò)分析-判別分析（DEA-DA）模型在乳腺癌病情診斷中的應(yīng)用，并將其與機(jī)器學(xué)習(xí)算法進(jìn)行了對(duì)比分析。該模型在判別精度方面與機(jī)器學(xué)習(xí)方法并無顯著性差距，但該模型因其明確的線性表達(dá)式具備了更強(qiáng)的可解釋性，從而在實(shí)際病情診斷及后期治療方面具有了更強(qiáng)的可操作性。這一研究為眾多現(xiàn)實(shí)判別問題奠定了良好的可解釋性模型基礎(chǔ)。

關(guān)鍵詞：數(shù)據(jù)包絡(luò)分析；判別分析；機(jī)器學(xué)習(xí)算法；早期診斷；模型優(yōu)化

中圖分類號(hào)：R737.9文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1673-260X（2024）11-0028-07

根據(jù)世界衛(wèi)生組織（WHO）和國際癌癥研究機(jī)構(gòu)（IARC）在2022年發(fā)布的數(shù)據(jù)，全球癌癥新發(fā)病例數(shù)逐年增加，2022年約為2 000萬例，預(yù)計(jì)這一趨勢在未來幾十年將繼續(xù)上升，可能到2050年每年新增病例數(shù)將達(dá)3 500萬。癌癥負(fù)擔(dān)的增加主要反映了全球人口老齡化及生活方式因素（如吸煙、飲酒、不良飲食習(xí)慣和肥胖等）帶來的影響。此外，全球癌癥相關(guān)的死亡人數(shù)已接近1 000萬[1]，占全球總死亡人數(shù)的很大比例，癌癥已成為全球范圍內(nèi)嚴(yán)重影響公共衛(wèi)生的因素之一。

乳腺癌是全球女性中最為常見的癌癥之一，占女性新發(fā)癌癥的24%以上，且在某些地區(qū)，乳腺癌的發(fā)病率和死亡率仍在上升。亞洲是全球乳腺癌發(fā)病率最高的地區(qū)，其中中國乳腺癌患者占據(jù)了很大一部分比例[2]。乳腺癌早期診斷至關(guān)重要，因?yàn)樵缙诎l(fā)現(xiàn)可以顯著提高患者的生存率并減少治療的侵入性。在早期階段，腫瘤通常較小，并且尚未擴(kuò)散至淋巴結(jié)或其他器官，因此手術(shù)切除的可能性較大，且療效較好[3]。

在疾病病情診斷方面，傳統(tǒng)的方法主要包括臨床檢查、影像學(xué)檢查、實(shí)驗(yàn)室檢查、組織活檢及病史采集等方法[4]。這些傳統(tǒng)方法各有優(yōu)缺點(diǎn)，通常需要結(jié)合使用以提高診斷的準(zhǔn)確性和有效性。而相較于以上傳統(tǒng)的疾病病情診斷方法，利用機(jī)器學(xué)習(xí)算法與之相結(jié)合可以進(jìn)一步在分析、個(gè)性化醫(yī)療以及綜合診斷方面提高自動(dòng)化水平、準(zhǔn)確性以及敏感性。在乳腺癌診斷中，機(jī)器學(xué)習(xí)技術(shù)已經(jīng)廣泛應(yīng)用于早期病情的篩查、診斷以及預(yù)后預(yù)測等多個(gè)方面，顯著提高了診斷的準(zhǔn)確性和效率。例如乳腺X線攝影和超聲波圖像是乳腺癌篩查中常用的影像技術(shù)。機(jī)器學(xué)習(xí)算法，尤其是深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)，已被廣泛應(yīng)用于自動(dòng)檢測乳腺影像中的腫塊、鈣化點(diǎn)和其他病變區(qū)域[5]。MIT的研究團(tuán)隊(duì)也通過深度學(xué)習(xí)模型來預(yù)測乳腺癌風(fēng)險(xiǎn)[6]。除了影像和組織病理數(shù)據(jù)，乳腺癌診斷中還使用基因數(shù)據(jù)進(jìn)行分析和預(yù)測。通過機(jī)器學(xué)習(xí)對(duì)基因組數(shù)據(jù)的分析，能夠?yàn)榛颊咛峁└鼈€(gè)性化的診斷和治療方案。支持向量機(jī)和隨機(jī)森林等傳統(tǒng)機(jī)器學(xué)習(xí)算法，廣泛應(yīng)用于基因表達(dá)數(shù)據(jù)分析，用于預(yù)測癌癥的預(yù)后、藥物響應(yīng)以及確定最佳治療策略。

此外，機(jī)器學(xué)習(xí)算法能夠結(jié)合多種數(shù)據(jù)源（如病人的臨床信息、治療歷史、腫瘤類型等）進(jìn)行綜合分析，提供準(zhǔn)確的預(yù)后預(yù)測。K-最近鄰算法和邏輯回歸也常用于乳腺癌的存活率預(yù)測。研究表明，通過分析患者的年齡、腫瘤大小、淋巴結(jié)轉(zhuǎn)移情況等臨床數(shù)據(jù)，機(jī)器學(xué)習(xí)模型能夠較準(zhǔn)確地預(yù)測患者的5年生存率。深度學(xué)習(xí)模型已經(jīng)用于預(yù)測術(shù)后復(fù)發(fā)風(fēng)險(xiǎn)和長期生存情況。通過結(jié)合影像、基因表達(dá)數(shù)據(jù)和患者的治療歷史，模型能夠提供比傳統(tǒng)預(yù)后模型更精確的長期預(yù)測[7]。

數(shù)據(jù)包絡(luò)分析（Data Envelopment Analysis， DEA）是一種多變量非參數(shù)統(tǒng)計(jì)分析方法，主要用于評(píng)估一組決策單元（Decision Making Units， DMUs）在利用一定資源（輸入）產(chǎn)生成果（輸出）方面的效率。這種方法最初由Charnes等在1978年提出，并迅速成為評(píng)估效率和生產(chǎn)力的一種重要工具，特別是在那些難以用單一指標(biāo)衡量效率的場合中。由于DEA方法能夠處理多輸入多輸出的問題，并且不需要預(yù)設(shè)生產(chǎn)函數(shù)的形式，所以在銀行金融、醫(yī)療保健、教育和制造業(yè)等領(lǐng)域都有廣泛的應(yīng)用。

近年來DEA方法在醫(yī)療領(lǐng)域得到了廣泛應(yīng)用。首先在醫(yī)院效率評(píng)估領(lǐng)域[8]，DEA方法被用于評(píng)估醫(yī)院的資源使用效率，分析輸入（如人員、設(shè)備、資金）與輸出（如患者滿意度、治療結(jié)果）的關(guān)系，幫助識(shí)別低效率醫(yī)院并提出改進(jìn)建議。而在醫(yī)療服務(wù)質(zhì)量評(píng)估方面，DEA方法被用于評(píng)估醫(yī)療服務(wù)質(zhì)量，分析影響服務(wù)質(zhì)量的因素，以提升治療效果和患者滿意度。此外，在資源有限的情況下，DEA方法能夠優(yōu)化醫(yī)療資源配置[9]，合理分配人力和物力資源，提高整體服務(wù)效率。DEA方法還被應(yīng)用于醫(yī)療政策的制定與評(píng)估[10]，通過比較不同政策下醫(yī)院的效率變化，為政策調(diào)整提供依據(jù)。

在疾病診斷方面，DEA方法的應(yīng)用主要體現(xiàn)在以下幾個(gè)方面：（1）診斷工具效率評(píng)估：DEA可以用于評(píng)估不同診斷工具或方法在疾病診斷中的效率。例如，比較傳統(tǒng)的診斷方法（如影像學(xué)檢查、實(shí)驗(yàn)室檢測）與新興技術(shù)（如機(jī)器學(xué)習(xí)算法）在識(shí)別特定疾病方面的效果，幫助確定哪種方法在資源使用上更為有效。（2）多種診斷指標(biāo)綜合分析：在疾病診斷中，DEA方法可以綜合考慮多種輸入和輸出變量。例如，在癌癥的早期篩查中，可以將患者的基本特征、臨床指標(biāo)以及檢驗(yàn)結(jié)果作為輸入，通過DEA評(píng)估其對(duì)診斷準(zhǔn)確性的影響，從而優(yōu)化篩查流程。（3）決策支持系統(tǒng)：DEA方法可以與其他決策支持工具結(jié)合使用，幫助醫(yī)生在多種可能的診斷結(jié)果中做出最佳選擇。通過分析不同病例的特征與診斷結(jié)果之間的關(guān)系，DEA方法能夠?yàn)榕R床決策提供有力支持。（4）優(yōu)化醫(yī)療資源分配：在公共衛(wèi)生領(lǐng)域，DEA方法可以幫助識(shí)別在特定疾病診斷中資源分配的效率，以確保醫(yī)療資源得到合理利用。這對(duì)于改善公共衛(wèi)生政策和提高醫(yī)療服務(wù)質(zhì)量具有重要意義。

判別分析（Discriminant Analysis， DA）是一種統(tǒng)計(jì)方法，主要用于分類預(yù)測問題，即根據(jù)一組特征變量（輸入變量）來預(yù)測類別標(biāo)簽（輸出變量）。判別分析的核心在于開發(fā)一種算法，該算法能夠基于特征變量將觀測值正確地分配到已知的類別中去。判別分析方法能夠有效地處理多變量問題，其在醫(yī)學(xué)診斷領(lǐng)域有著非常廣泛的應(yīng)用。例如在疾病診斷、患者分類、療效評(píng)估等領(lǐng)域。在乳腺癌疾病的診斷方面，判別分析可以用來區(qū)分良性和惡性腫瘤。通過對(duì)腫瘤標(biāo)志物、細(xì)胞形態(tài)學(xué)特征等數(shù)據(jù)進(jìn)行分析，可以開發(fā)出能夠有效識(shí)別不同類型腫瘤模型。通過這些應(yīng)用，醫(yī)生可以更好地理解疾病的特征，提高診斷準(zhǔn)確性，并為患者提供更個(gè)性化治療方案。

有關(guān)數(shù)據(jù)包絡(luò)分析方法和判別分析方法的學(xué)術(shù)研究起步比較早，自1978年起便開始有學(xué)者提出了相關(guān)的DEA方法評(píng)價(jià)模型[11]，后續(xù)也陸續(xù)取得了一系列的成果，從此判別分析方法逐步引起了學(xué)者們的關(guān)注。到了1999年，學(xué)者Sueyoshi[12]將DEA方法和判別分析方法結(jié)合并提出了兩階段的判別分析方法——DEA-DA，其中第一階段需要找到?jīng)Q策單元的分類指標(biāo)權(quán)重，第二階段實(shí)現(xiàn)對(duì)重疊部分的進(jìn)一步分類。之后Sueyoshi又分別在2001年和2004年提出了非線性的判別分析方法和基于混合整數(shù)規(guī)劃的DEA-DA方法[13，14]。2006年Sueyoshi又提出了適合多組判別的DEA-DA方法[15]，并在該論文中將DEA-DA方法與神經(jīng)網(wǎng)絡(luò)和決策樹進(jìn)行了比對(duì)分析。然而，DEA-DA方法的研究存在如下兩個(gè)缺點(diǎn)：（1）指標(biāo)權(quán)重約束的考慮問題：經(jīng)典的DEA模型中我們具有規(guī)模收益不變的CCR模型，規(guī)模收益可變的BCC模型[16]，規(guī)模收益非遞減ST模型[17]，規(guī)模收益非遞增FG模型[18]，并將這些模型統(tǒng)一為CCW模型[19]。然而，在DEA-DA模型中目前僅有與CCR和BCC模型類似的對(duì)應(yīng)約束模型，未發(fā)現(xiàn)權(quán)重累加約束大于1，小于1的情況，并且在引入無約束及權(quán)重累加小于1的情況還需要考慮平凡解問題。（2）投入產(chǎn)出指標(biāo)的考慮：傳統(tǒng)DEA-DA模型未考慮各個(gè)指標(biāo)權(quán)重正負(fù)性及適度性，模型中不能對(duì)指標(biāo)權(quán)重的正負(fù)進(jìn)行指定，直接計(jì)算出的權(quán)重可能造成與實(shí)際含義相悖的情況。

為此，本文在傳統(tǒng)DEA-DA模型的基礎(chǔ)之上提出了更為通用的改進(jìn)DEA-DA模型。最后我們以569位病人的有關(guān)于乳腺癌患者的相關(guān)腫瘤標(biāo)志物、細(xì)胞形態(tài)學(xué)特征的數(shù)據(jù)進(jìn)行病情診斷結(jié)果分析，并與常見的幾種機(jī)器學(xué)習(xí)算法結(jié)果進(jìn)行了比較分析。

1 改進(jìn)DEA-DA模型

1.1 傳統(tǒng)DEA-DA基本原理

傳統(tǒng)的DEA-DA模型旨在對(duì)多個(gè)決策單元的效率進(jìn)行評(píng)估與分類。DEA的效率測度能力和DA的分類能力，不僅能夠準(zhǔn)確地評(píng)估各個(gè)決策單元的效率，還能進(jìn)一步對(duì)這些單元進(jìn)行有效的分類和預(yù)測。其模型基本原理如下：（1）DEA階段：利用DEA模型評(píng)估各DMU的相對(duì)效率。DEA是一種非參數(shù)方法，適用于多輸入多輸出情境，無需預(yù)設(shè)生產(chǎn)函數(shù)。通過線性規(guī)劃問題獲取每個(gè)DMU的效率評(píng)分，并將DMUs分為“有效”（評(píng)分為1）和“無效”（評(píng)分小于1）兩類，以識(shí)別資源浪費(fèi)或產(chǎn)出不足。（2）DA階段：基于DEA結(jié)果，運(yùn)用DA分析有效和無效DMU的差異。DA旨在找到判別函數(shù)，最大化兩類DMU的分離程度，并識(shí)別影響效率的關(guān)鍵變量。最終判別模型可用于未來DMU的分類預(yù)測，幫助決策者優(yōu)化資源配置并提升效率。

1.2 改進(jìn)DEA-DA模型

結(jié)合傳統(tǒng)DEA-DA方法存在的問題，引進(jìn)兩階段改進(jìn)DEA-DA的投入產(chǎn)出模型。

階段一（分類并識(shí)別重疊部分模型1）：

min∑S+∑S

-∑vixij+∑wryrj+S-S=d，j∈G1-∑vixij+∑wryrj+S-S=d-，j∈G21（∑vi+∑wr+2（-1）=1vi≥0，i=1，2，…，m，wr≥0，r=1，2，…，sd：unresticted，≥0S，S≥0，j∈G1，S，S≥0，j∈G2 模型1

在模型1中yrj為第j個(gè)決策單元的第r個(gè)產(chǎn)出指標(biāo)值，xij為第j個(gè)決策單元的第i個(gè)投入指標(biāo)值，wr和vi分別是第r個(gè)產(chǎn)出指標(biāo)和第i個(gè)投入指標(biāo)的權(quán)重。G1，G2為事先已經(jīng)確定好的組別。η為大于零的某一實(shí)數(shù)，根據(jù)實(shí)際指標(biāo)數(shù)據(jù)特征進(jìn)行靈活取定。β為權(quán)重，考慮兩組樣本數(shù)量可能相差較大且兩組判別重要性不等的情況。例如當(dāng)樣本數(shù)量不均衡時(shí)可取定β=g1/g2，其中g(shù)1，g2分別為兩組樣本的數(shù)量，當(dāng)兩組樣本重要性不同時(shí)也可靈活選取。

模型1的目標(biāo)函數(shù)為兩組判別誤差加權(quán)總和的最小化。第一行約束條件為第一組樣本的判別約束。當(dāng)S≥0時(shí)表示當(dāng)前樣本指標(biāo)評(píng)價(jià)值低于d，需要加上一個(gè)正數(shù)才能滿足約束條件，即誤判的情況。當(dāng)S=0時(shí)，即S≥0指標(biāo)評(píng)價(jià)值高于d，從而判別是正確的。第二行約束條件為第二組樣本的判別約束。當(dāng)Sgt;0時(shí)表示當(dāng)前樣本指標(biāo)評(píng)價(jià)值高于d-η，需要減去一個(gè)正數(shù)才能滿足約束條件，即誤判的情況。當(dāng)S=0時(shí)，即S≥0指標(biāo)評(píng)價(jià)值低于d-η，從而判別是正確的。

模型1中的第三行約束條件中的δ1，δ2，δ3為模型的凸性約束條件。模型參數(shù)可取定四組特殊的取值用以代表四種不同的指標(biāo)權(quán)重約束。分別是δ1=0，δ2=1，δ3=1、δ1=1，δ2=0，δ3=0、δ1=1，δ2=1，δ3=0和δ1=1，δ2=1，δ3=1。當(dāng)δ1=0，δ2=1，δ3=1時(shí)，由于δ1=0，故而第三行約束條件沒有任何作用，即模型變?yōu)闊o權(quán)重約束的模型。當(dāng)δ1=1，δ2=0，δ3=0時(shí)對(duì)應(yīng)約束條件變?yōu)椤苬i+∑wr=1，δ1=1，δ2=1，δ3=0時(shí)，對(duì)應(yīng)約束條件變?yōu)椤苬i+∑wr+γ=1，此時(shí)模型約束條件與∑vi+∑wr≤1等價(jià)；δ1=1，δ2=1，δ3=1時(shí)對(duì)應(yīng)約束條件變?yōu)椤苬i+∑wr-γ=1，此時(shí)模型約束條件與∑vi+∑wr≥1等價(jià)。

通過模型1可將數(shù)據(jù)集G劃分為如下子集：

R1={j∈G|-∑vi*xij+∑wr*yrj≥d*}

R0={j∈G|d*gt;-∑vi*xij+∑wr*yrjgt;d*-η}

R2={j∈G|d*-η≥-∑vi*xij+∑wr*yrj}

C1={j∈R0|j∈G1}

C2={j∈R0|j∈G2}

其中，R0為重疊部分需要進(jìn)一步處理，R1和R2分別為判別成組1和組2的樣本。若R0不為空，C1和C2分別為重疊部分來自組1和來自組2的樣本。引入d*到d*-η之間的指標(biāo)評(píng)價(jià)值c，并通過模型2對(duì)重疊部分進(jìn)行判別。

階段二（處理重疊部分模型2）：

min∑S+∑S

s.t.-∑vi*xij+∑wr*yrj+S-S=c，j∈C1-∑vi*xij+∑wr*yrj+S-S=c，j∈C2d*≥c≥d*-S，S≥0，j∈C1，S，S≥0，j∈C2 模型2

在模型2中vi*，wr*均由模型1計(jì)算得出，β和η的取值與模型1相同。其目標(biāo)函數(shù)為兩組判別加權(quán)誤差總和的最小化。第一行約束條件和第二行約束條件分別使C1中樣本大于指標(biāo)評(píng)價(jià)值c以及C2中樣本小于指標(biāo)評(píng)價(jià)值c的約束。第四行約束為指標(biāo)評(píng)價(jià)值c應(yīng)處于d*到d*-η之間。其余變量和約束條件的解釋與模型1相同。此外，模型2相較于線性DEA-DA模型，舍去了判別到其他類的極端數(shù)據(jù)，僅關(guān)注并處理重疊部分，沿用了階段一的權(quán)重。

利用模型2可將重疊部分劃分如下：

（1）若-∑vi*xij+∑wr*yrj≥c*則j∈C1。

（2）若-∑vi*xij+∑wr*yrjlt;c*則j∈C2。

2 實(shí)證分析

2.1 改進(jìn)DEA-DA模型分析結(jié)果

利用本文所提出的模型對(duì)569位病人的有關(guān)于乳腺癌患者的相關(guān)腫瘤標(biāo)志物、細(xì)胞形態(tài)學(xué)特征的數(shù)據(jù)進(jìn)行病情診斷結(jié)果分析。首先對(duì)數(shù)據(jù)進(jìn)行缺失值、極端值與異常值處理，刪除對(duì)應(yīng)行列的數(shù)據(jù)，同時(shí)刪除與數(shù)據(jù)分析無關(guān)的指標(biāo)變量。最終剩余18個(gè)相關(guān)指標(biāo)變量和1個(gè)目標(biāo)類別變量。所選取的變量指標(biāo)特征、描述和數(shù)據(jù)類型如表1所示。

將處理過的訓(xùn)練集和測試集數(shù)據(jù)輸入改進(jìn)后的DEA-DA模型進(jìn)行處理，得出以下的實(shí)驗(yàn)結(jié)果，改進(jìn)DEA-DA模型的分類報(bào)告如表2所示。

通過該模型的分類報(bào)告結(jié)果可以看出，對(duì)于類別1來說，Precision值為0.94；對(duì)于類別2來說，Precision值為0.8。對(duì)于類別1來說，Recall值為0.87；對(duì)于類別2來說，Recall值為0.9。F1-Score綜合考慮了Precision和Recall兩個(gè)指標(biāo)，對(duì)于類別1來說，F(xiàn)1-Score值為0.9；對(duì)于類別2來說，F(xiàn)1-Score值為0.85。最終該模型準(zhǔn)確率為0.88。

從該模型的混淆矩陣和誤差分布圖結(jié)果可以看出，在真實(shí)標(biāo)簽為1（良性腫瘤）的情況下，有92個(gè)樣本被正確地預(yù)測，而有14個(gè)樣本被錯(cuò)誤地預(yù)測為了2（惡性腫瘤）。在真實(shí)標(biāo)簽為2（惡性腫瘤）的情況下，有6個(gè)樣本被錯(cuò)誤地預(yù)測為了1（良性腫瘤），而有57個(gè)樣本被正確地預(yù)測為了2（惡性腫瘤）。

從圖1看出，橙色的ROC曲線在開始階段迅速上升，并在大部分時(shí)間里保持在藍(lán)色虛線上方，表明模型在識(shí)別正例樣本時(shí)表現(xiàn)較好。曲線下面積AUC為0.89.說明了模型的性能顯著優(yōu)于隨機(jī)猜測（AUC=0.5），并且接近完美分類器（AUC=1.0）。

從以上的數(shù)據(jù)可以看出，模型在類別1上的性能較好，特別是在精確率方面，這表明模型在預(yù)測類別1時(shí)很少有誤報(bào)。類別2的召回率非常高，但精確率相對(duì)較低，這表明模型在預(yù)測類別2時(shí)存在較多的假陽性?？傮w來看，模型的性能良好，特別是在準(zhǔn)確率方面。

2.2 常用機(jī)器學(xué)習(xí)方法實(shí)驗(yàn)結(jié)果

將訓(xùn)練集和測試集數(shù)據(jù)輸入常用的機(jī)器學(xué)習(xí)模型，得出的結(jié)果如圖2所示。

從圖2分析結(jié)果可以看出，四個(gè)機(jī)器學(xué)習(xí)模型在預(yù)測良性和惡性腫瘤時(shí)展現(xiàn)出不同的性能特點(diǎn)。支持向量機(jī)模型表現(xiàn)最優(yōu)，準(zhǔn)確率達(dá)到0.96，在類別1和類別2上均有較高的Precision和Recall，分別為0.98和0.94，表明其在兩類之間的平衡性良好，適合對(duì)精確性要求較高的任務(wù)。神經(jīng)網(wǎng)絡(luò)模型的表現(xiàn)也非常優(yōu)秀，準(zhǔn)確率為0.95，尤其在類別1上具有高Precision和Recall，說明其對(duì)多數(shù)類的預(yù)測能力較強(qiáng)，是一種穩(wěn)健的分類模型。

相比之下，隨機(jī)森林和決策樹模型的總體準(zhǔn)確率分別為0.92和0.88，表現(xiàn)較好。隨機(jī)森林模型在類別1上的Precision和Recall較高，但在類別2上略有下降，表明其對(duì)小類別的區(qū)分能力稍弱。決策樹模型的Recall在類別2上最低，僅為0.75，存在較多漏判，但其在類別1上的Recall較高，適合不對(duì)小類別有特殊要求的情境。

圖3和圖4中給出了機(jī)器學(xué)習(xí)模型誤差分布圖和機(jī)器學(xué)習(xí)模型混淆矩陣。能夠觀察出不同方法的優(yōu)劣勢。

根據(jù)圖5和圖6的分析結(jié)果，四種模型在ROC曲線和AUC值上均表現(xiàn)較好。神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)模型的表現(xiàn)最為突出，AUC均為0.99，表明它們?cè)诜诸惾蝿?wù)中的準(zhǔn)確性和區(qū)分能力非常高，適合精度要求較高的任務(wù)。隨機(jī)森林模型的AUC為0.98，表現(xiàn)也非常優(yōu)異，接近神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)，說明其對(duì)正類和負(fù)類的識(shí)別能力較強(qiáng)。決策樹模型的AUC為0.94，雖然略低于其他模型，但仍表現(xiàn)出不錯(cuò)的分類效果?？傮w來看，神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)在精度和泛化能力上更為出色，隨機(jī)森林次之，決策樹則適合對(duì)模型簡單性要求較高的場景。

從決策邊界圖和分類報(bào)告來看，各模型在區(qū)分兩類數(shù)據(jù)時(shí)的表現(xiàn)有明顯差異。神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)模型的決策邊界相對(duì)平滑，尤其是支持向量機(jī)顯示出非線性的邊界，能更靈活地適應(yīng)復(fù)雜數(shù)據(jù)，結(jié)合其高AUC和分類指標(biāo)表現(xiàn)，這些模型適合復(fù)雜的分類任務(wù)。隨機(jī)森林的邊界較為穩(wěn)健，但靈活性不及支持向量機(jī)。相比之下，決策樹模型的邊界呈現(xiàn)出明顯的方塊形狀，說明其分類規(guī)則較為簡單，這在某些任務(wù)中可能導(dǎo)致誤判或欠擬合。總體而言，神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)表現(xiàn)優(yōu)異，隨機(jī)森林次之，決策樹適合簡單分類任務(wù)。

2.3 模型比較分析

通過對(duì)改進(jìn)DEA-DA模型與各機(jī)器學(xué)習(xí)算法模型分析結(jié)果以及表3模型指標(biāo)的對(duì)比，可以得出以下結(jié)論。

（1）支持向量機(jī)模型在所有模型中表現(xiàn)最優(yōu)，類別1和類別2的Precision、Recall和F1-Score均接近完美，總體準(zhǔn)確率為0.96。其決策邊界較為平滑，并適應(yīng)復(fù)雜的非線性邊界，適用于對(duì)精度要求較高的任務(wù)。

（2）神經(jīng)網(wǎng)絡(luò)模型緊隨支持向量機(jī)，整體準(zhǔn)確率為0.95，類別1和類別2的Precision和Recall均較高。該模型在分類表現(xiàn)上十分穩(wěn)定，能夠在不同類別中保持較好的平衡。

（3）隨機(jī)森林模型表現(xiàn)稍遜于支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)，準(zhǔn)確率為0.92。雖然在類別1上的Recall表現(xiàn)優(yōu)異，但在類別2上略顯不足。隨機(jī)森林的決策邊界較穩(wěn)健但靈活性有限，適合對(duì)解釋性和穩(wěn)健性有要求的場景。

（4）改進(jìn)的DEA-DA模型在類別1上表現(xiàn)較好，但在類別2的Precision上稍有不足，整體準(zhǔn)確率為0.88。雖然其性能不如神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)，但DEA-DA模型的可解釋性較強(qiáng)，適用于需要明確解釋的應(yīng)用場景。

（5）決策樹模型的準(zhǔn)確率為0.88略低于其他模型。其決策邊界呈方塊狀，模型規(guī)則簡單，導(dǎo)致在類別2的Recall上表現(xiàn)較差。該模型適用于對(duì)決策規(guī)則簡明且解釋性要求較高的任務(wù)。

3 結(jié)語

本文通過改進(jìn)DEA-DA模型與多種機(jī)器學(xué)習(xí)算法的比較分析，發(fā)現(xiàn)不同模型在乳腺癌病情診斷中的表現(xiàn)各具優(yōu)勢。支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)模型以其高精度和優(yōu)秀的分類能力，在判別精度方面具備了一定的優(yōu)勢。隨機(jī)森林在保證良好性能的同時(shí)，提供了一定的解釋性，適合應(yīng)用于需要平衡準(zhǔn)確性的場景。改進(jìn)的DEA-DA模型雖然準(zhǔn)確率適中，但在解釋性上具有明顯優(yōu)勢，對(duì)需要明晰決策依據(jù)的應(yīng)用場景更為適合。決策樹模型盡管準(zhǔn)確率最低，但其結(jié)構(gòu)簡明，適合快速分類任務(wù)。綜合來看，不同模型適用于不同的應(yīng)用需求，實(shí)際選擇應(yīng)依據(jù)任務(wù)對(duì)精度、穩(wěn)定性和解釋性的具體要求，本文所提出的模型因其一定的判別精度和可解釋性更適合實(shí)踐應(yīng)用。未來可對(duì)模型大規(guī)?；茝V及臨床實(shí)踐方面展開研究。

參考文獻(xiàn)：

〔1〕Bray F， Laversanne M， Sung H， et al. Global cancer statistics 2022： GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA： a cancer journal for clinicians， 2024， 74（03）： 229-263.

〔2〕梁鋅，楊劍，高婷，等.全球女性乳腺癌發(fā)病趨勢及年齡變化情況分析[J].中華腫瘤雜志，2023，45（04）：313-321.

〔3〕唐鵬，嚴(yán)玉釗，胡瀅，等.早發(fā)現(xiàn)早治療，乳腺癌5年生存率可達(dá)90%以上[J].中華醫(yī)學(xué)信息導(dǎo)報(bào)， 2021，36（08）：9.

〔4〕Wang L. Early diagnosis of breast cancer[J]. Sensors， 2017， 17（07）： 1572.

〔5〕McKinney S M， Sieniek M， Godbole V， et al. International evaluation of an AI system for breast cancer screening[J]. Nature， 2020， 577（7788）： 89-94.

〔6〕Yala A， Lehman C， Schuster T， et al. A deep learning mammography-based model for improved breast cancer risk prediction[J]. Radiology， 2019， 292（01）： 60-66.

〔7〕Litjens G， Kooi T， Bejnordi B E， et al. A survey on deep learning in medical image analysis[J]. Medical image analysis， 2017，（42）： 60-88.

〔8〕Dinc G ， Dinc M S， Andronic M L . The efficiency of the healthcare systems in EU countries–A DEA analysis[J]. Acta Oeconomica， 2020， 70（01）： 19-36.

〔9〕Liu J S， Lu L Y Y， Lu W M， et al. A survey of DEA applications[J]. Omega， 2013， 41（05）： 893-902.

〔10〕Weng S J， Wu T， Blackhurst J， et al. An extended DEA model for hospital performance evaluation and improvement[J]. Health Services and Outcomes Research Methodology， 2009，（09）： 39-53.

〔11〕Charnes A， Cooper W W， Rhodes E. Measuring the efficiency of decision making units[J]. European journal of operational research， 1978， 2（06）： 429-444.

〔12〕Sueyoshi T. DEA-discriminant analysis in the view of goal programming[J]. European journal of operational Research， 1999， 115（03）： 564-582.

〔13〕Sueyoshi T. Extended DEA-discriminant analysis[J]. European Journal of Operational Research， 2001， 131（02）： 324-351.

〔14〕Sueyoshi T. Mixed integer programming approach of extended DEA–discriminant analysis[J]. European journal of operational Research， 2004， 152（01）： 45-55.

〔15〕Sueyoshi T. DEA-Discriminant Analysis： Methodological comparison among eight discriminant analysis approaches[J]. European journal of operational Research， 2006， 169（01）： 247-272.

〔16〕Banker R D， Charnes A， Cooper W W. Some models for estimating technical and scale inefficiencies in data envelopment analysis[J]. Management science， 1984， 30（09）： 1078-1092.

〔17〕Seiford L M， Thrall R M. Recent developments in DEA： the mathematical programming approach to frontier analysis[J]. Journal of econometrics， 1990， 46（1-2）： 7-38.

〔18〕Fre R， Grosskopf S. A nonparametric cost approach to scale efficiency[J]. The Scandinavian Journal of Economics， 1985： 594-604.

〔19〕Charnes A， Cooper W W， Wei Q L， et al. Cone ratio data envelopment analysis and multi-objective programming[J]. International journal of systems science， 1989， 20（07）： 1099-1118.

收稿日期：2024-10-31

基金項(xiàng)目：吉林省自然科學(xué)基金項(xiàng)目（20230101184JC）；國家自然科學(xué)基金項(xiàng)目（72371115）；國家社會(huì)科學(xué)基金項(xiàng)目（23FTJB002）

赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2024年11期

赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版的其它文章: 我校召開本科教育教學(xué)審核評(píng)估線上評(píng)估啟動(dòng)會(huì); 校黨委書記孟和巴特爾帶隊(duì)深入赤峰市部分醫(yī)療衛(wèi)生機(jī)構(gòu)考察調(diào)研; 小學(xué)習(xí)作教學(xué)中項(xiàng)目式學(xué)習(xí)的應(yīng)用策略淺析; 人工智能在初中物理教學(xué)中的應(yīng)用研究; 人教版小學(xué)數(shù)學(xué)教材中“小數(shù)乘法”單元的例題和習(xí)題編排分析; 自制動(dòng)態(tài)教具在高中生物學(xué)課堂教學(xué)中的應(yīng)用