亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進支持向量機分類方法及其在原發(fā)性肝癌篩查中的應(yīng)用

2022-01-19 12:43:16曹國剛李夢雪王孜怡高春芳劉云翔

應(yīng)用科學(xué)學(xué)報 2021年3期

曹國剛，李夢雪，陳穎，曹聰，王孜怡，房萌，高春芳，劉云翔

1.上海應(yīng)用技術(shù)大學(xué)計算機科學(xué)與信息工程學(xué)院，上海201418

2.上海東方肝膽外科醫(yī)院實驗診斷科, 上海200438

原發(fā)性肝癌（primary liver cancer, PLC）的發(fā)病率在全球常見惡性腫瘤中居第5 位，其致死率高居第3 位。臨床上約有2/3 的肝癌患者初診時已屬中晚期，錯過了治療時機[1-3].肝癌的早期發(fā)現(xiàn)、早期診斷、早期治療是患者獲得長期生存的主要途徑。近年來，醫(yī)療數(shù)據(jù)與人工智能的不斷發(fā)展為PLC 早期篩查提供了有力保障。其中，基于圖像的人工智能方法[4]在肝癌識別和預(yù)測的應(yīng)用中比較常見，例如文獻[5] 基于肝臟多模態(tài)圖像，利用支持向量機，識別肝臟腫瘤的良性與惡性，最終分類精度為92.31%。而且，還有學(xué)者利用生物技術(shù)指定腫瘤標(biāo)志物，使用統(tǒng)計學(xué)方法進行肝癌患者和健康人群的識別，其中：文獻[6] 的接收者操作特征曲線下面積（area under receiver operation characteristic（ROC）curve, AUC）值為0.96，敏感性為83.3%，特異性為93.3%；文獻[7] 的AUC 值為0.94。基于臨床數(shù)據(jù)的癌癥篩查方法具有對患者友好、易于取樣、價格便宜、易與算法結(jié)合的特點，盡管它的篩查性能不如醫(yī)療影像和病例檢查，但仍然是癌癥篩查領(lǐng)域備受期待的研究熱點。例如，在臨床檢驗診斷領(lǐng)域，學(xué)者利用了患者的性別、年齡等多項檢測指標(biāo)數(shù)值建立多參數(shù)診斷模型。文獻[8] 診斷肝纖維化的AUC 值均超過0.70，個別達到0.80；文獻[9] 預(yù)測顯著纖維化和肝硬化的AUC 值分別為0.80和0.89；文獻[10] 用于預(yù)測缺鐵性貧血，診斷正確率超過90%。同時，文獻[11-12] 將多參數(shù)模型在診斷肝癌、肝纖維化方面進行了探索，發(fā)現(xiàn)通過合理使用臨床檢驗數(shù)據(jù)可以提升預(yù)測結(jié)果。

基于數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)方法是目前人工智能領(lǐng)域廣泛使用的手段，該方法通過研究現(xiàn)有數(shù)據(jù)的規(guī)律對未知數(shù)據(jù)進行預(yù)測。支持向量機（support vector machine, SVM）是20 世紀90年代中期發(fā)展起來的一種機器學(xué)習(xí)方法，具有深厚的數(shù)學(xué)基礎(chǔ)以及突出的學(xué)習(xí)性能，在很多領(lǐng)域都得到了成功的應(yīng)用，如人臉識別[13]、手寫數(shù)字識別[14]、圖像分割[15]及機器翻譯[16]等。為了進一步提高其性能，需要對其參數(shù)進行優(yōu)化。傳統(tǒng)的優(yōu)化方法有網(wǎng)格法、隨機搜索法、梯度下降法等；另外遺傳算法、粒子群算法等演化計算方法也可用來加速優(yōu)化過程[17]。

本文基于臨床常規(guī)檢驗指標(biāo)數(shù)據(jù)，利用SVM 在解決小樣本、非線性、高維空間模式識別問題中的獨特優(yōu)勢，建立PLC 早期篩查模型，在訓(xùn)練過程中引入交叉驗證以獲得更穩(wěn)定的模型，并以AUC 的值作為模型優(yōu)化測度，采用差異進化算法優(yōu)化SVM 涉及的參數(shù)。同時，結(jié)合實際臨床要求，通過優(yōu)化后模型的性能指標(biāo)曲線構(gòu)建閾值查找表，選擇閾值進行測試驗證及PLC 臨床預(yù)警。

1 基本原理

1.1 支持向量機

SVM[18-19]具有良好的泛化和分類能力，在解決模式識別的問題上成效顯著，已廣泛應(yīng)用于目標(biāo)檢測[20]，醫(yī)療診斷[21]以及工程預(yù)測[22]等領(lǐng)域。它的最終目標(biāo)是尋找一個分類超平面，使得兩類樣本的分類間隔最大。如圖1 所示，圓圈和方塊分別代表一類樣本，經(jīng)過訓(xùn)練后得到最優(yōu)分類超平面H。

圖1 支持向量機原理Figure 1 Principle of support vector machine

假設(shè)給定一個特征空間上的訓(xùn)練數(shù)據(jù)集，T={(x1,y1),(x2,y2),··· ,(xi,yi)}，xi ∈Rn為第i個特征向量，yi ∈{+1,?1}(i=1,2,··· ,k) 為xi的類別標(biāo)簽，(xi,yi) 為樣本點。算法的關(guān)鍵是建立具有最大分類間隔的超平面，相當(dāng)于求解式(1)，即

式中：ω為超平面的法向量，b為超平面的常數(shù)項，xi為訓(xùn)練樣本，yi為樣本點類別，C為懲罰系數(shù)，ξi為誤差項。

然而，在實際應(yīng)用中經(jīng)常會遇到線性不可分的樣例。為了解決維度爆炸的問題，引入核函數(shù)，先在低維空間計算，再將分類效果顯示在高維空間。轉(zhuǎn)化為求式(2) 的最優(yōu)問題，即

核函數(shù)的選擇往往需要依據(jù)相關(guān)領(lǐng)域的先驗知識，常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、Sigmoid 函數(shù)和徑向基函數(shù)（radial basis function, RBF）[13]。本文中使用的核函數(shù)為RBF：

1.2 差異進化算法

懲罰系數(shù)C和核函數(shù)參數(shù)σ不僅決定了SVM 分類結(jié)果的準確性，同時還影響預(yù)測精度和泛化能力。本文采用差異進化（differential evolution, DE）算法[23-25]對上述參數(shù)進行優(yōu)化。DE 算法廣泛用于解決一些非線性、非凸、多峰和不可微分等實數(shù)參數(shù)問題，已成為最具競爭力和最全面的進化計算算法之一，并在不同科學(xué)技術(shù)領(lǐng)域成功解決了眾多實參數(shù)世界的問題[26-27]。

DE 算法需要3 個主要控制參數(shù)：變異因子F，交叉概率Cr和種群規(guī)模NP。優(yōu)化過程包括初始化、變異、交叉以及選擇操作，對初始種群進行相應(yīng)操作得到新一代種群，在原個體和新個體之間進行選擇，從而將適應(yīng)度高的個體保存到下一代。差異進化算法的參數(shù)優(yōu)化流程如圖2 所示。

圖2 差異進化算法流程Figure 2 Process of differential evolution algorithm

差異進化算法主要包括以下幾個步驟：

步驟1初始化隨機產(chǎn)生種群N，計算公式為

式中：N,Nmin,Nmax∈RD×Np；Nmin和Nmax分別是個體的最小和最大值；D為需要優(yōu)化的參數(shù)個數(shù)。

步驟2依次對個體進行適應(yīng)度值評估f(Nc)，其中，Nc指當(dāng)前個體，c為個體序號，c=1,2,··· ,Np。然后選擇適應(yīng)度值最高的個體作為當(dāng)前結(jié)果。

步驟3利用變異和交叉操作改變種群個體以形成新個體，計算公式分別為

式中：Vc,G為變異后個體；G表示當(dāng)前代數(shù)；r1,r2,r3為隨機生成的個體序號，它們不等于當(dāng)前個體序號。再根據(jù)交叉因子確定新個體變量來自變異后個體或原始個體，i為個體中變量的序號，ui,c,G,vi,c,G,ni,c,G分別為交叉后、變異后以及原始個體中的變量。

交叉操作之后判斷個體是否超出規(guī)定范圍，如果超出范圍，則對其重新賦值，計算公式為

步驟4對新一代種群個體進行評估選擇，如果經(jīng)過交叉操作后的個體適應(yīng)度值優(yōu)于原有個體，則原有個體將被替換，計算公式為

式中：Uc,G為交叉操作之后的個體。并且，如果該個體優(yōu)于最佳個體，則替換最佳個體。

步驟5重復(fù)步驟3 和4，直至滿足終止條件。

本文將AUC 作為評價個體適應(yīng)度的準則，其取值越高則說明該個體的適應(yīng)度越強。AUC的取值范圍一般在0.50 和1.00 之間，范圍屬于[0.50, 0.70] 時表示預(yù)測準確性較低，屬于[0.70, 0.90] 時表示預(yù)測準確性中等，屬于[0.90, 1.00] 時表示預(yù)測準確性較高。

1.3 交叉驗證

引入交叉驗證（cross validation, CV）用來驗證SVM 性能，其基本思想是將數(shù)據(jù)集分成訓(xùn)練集和驗證集兩部分。利用訓(xùn)練集建立模型，驗證集驗證模型分類性能，最終得到錯誤率最低的模型。本文使用k-折交叉驗證（k-fold cross-validation），相對于留一法，該交叉驗證具有計算精度高且計算量小的優(yōu)點。

2 差異進化算法改進的支持向量機模型

PLC 早期篩查實驗流程如圖3 所示，首先在保證數(shù)據(jù)有效性以及通用性的基礎(chǔ)上對臨床檢驗數(shù)據(jù)集進行預(yù)處理，然后將其拆分為訓(xùn)練和測試數(shù)據(jù)集，通過改進的SVM 方法訓(xùn)練得到分類模型，再結(jié)合臨床需求獲取其性能指標(biāo)曲線以及閾值查找表得到分類閾值，最后利用閾值對測試數(shù)據(jù)進行預(yù)測。其中，在改進的SVM 方法以RBF 作為核函數(shù)，以AUC 作為參數(shù)優(yōu)化測度，以懲罰系數(shù)和核函數(shù)參數(shù)為DE 的優(yōu)化對象，另外加入交叉驗證防止模型出現(xiàn)過擬合，最后利用混淆矩陣、Kappa 系數(shù)等性能評價指標(biāo)對分類模型進行評估。

圖3 原發(fā)性肝癌早期篩查法流程Figure 3 Process of PLC early screening method

2.1 數(shù)據(jù)集

2.1.1 數(shù)據(jù)集來源

本文實驗采用東方肝膽外科醫(yī)院檢驗科的數(shù)據(jù)，共收集樣本1 069 例。樣本數(shù)據(jù)主要包括個人基本信息、血液常規(guī)、尿液常規(guī)、糞便常規(guī)、肝功能生化標(biāo)志物、腫瘤標(biāo)志物、腎功能生化標(biāo)志物、糖脂代謝、特定蛋白、感染標(biāo)志物等大類。特征數(shù)量為78～140 不等，數(shù)據(jù)分為健康、良性病變和惡性腫瘤（原發(fā)性肝癌）3 類。

2.1.2 數(shù)據(jù)集預(yù)處理

為保證分類方法訓(xùn)練以及預(yù)測的準確性、可靠性以及通用性，將去除數(shù)據(jù)集中明顯不完整的特征以及健康人群中較少檢測的腫瘤標(biāo)志物所對應(yīng)的特征列，并且將數(shù)據(jù)集中不能識別的字段進行相應(yīng)處理，使數(shù)據(jù)符合算法要求。最終用于建模和測試實驗的臨床常規(guī)檢驗指標(biāo)數(shù)據(jù)集共包含1 047 例樣本和30 個特征數(shù)量。

2.1.3 數(shù)據(jù)集分組

把經(jīng)過上述預(yù)處理后的1 047 例樣本分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)，隨機選取600 例為訓(xùn)練數(shù)據(jù)集，其余447 例為測試數(shù)據(jù)集，數(shù)據(jù)在不同數(shù)據(jù)集的分布情況如表1 所示。

表1 訓(xùn)練與預(yù)測數(shù)據(jù)量Table 1 Number of training and prediction data 例

2.2 性能評估指標(biāo)

本文利用混淆矩陣得到以下性能評估指標(biāo)：敏感度（SE），特異度（SP），約登指數(shù)（Youden index, YI），準確度（ACC），ROC 曲線，AUC 以及Kappa 系數(shù)。

2.2.1 混淆矩陣

二分類問題的混淆矩陣如表2 所示，陰性表示健康，陽性表示患病。其中：TN 表示正確預(yù)測出健康人群，F(xiàn)N 表示患者被錯誤預(yù)測為健康人群，F(xiàn)P 表示健康人群被錯誤預(yù)測為患者；TP 表示正確預(yù)測出患者。

表2 二分類問題混淆矩陣Table 2 Confusion matrix of 2-class

基于混淆矩陣進一步求出性能評估指標(biāo)SE，SP，YI 和ACC 的值，具體公式為：

式中：N為樣本總數(shù)。

2.2.2 ROC 曲線和AUC

ROC 曲線綜合反映了敏感度和特異度的相互關(guān)系。如圖4 所示，橫坐標(biāo)為假陰性率（false positive rate，F(xiàn)PR），縱坐標(biāo)為真陽性率（true positive rate, TPR），曲線上的點表示在當(dāng)前分類閾值下對應(yīng)的SE 和（1-SP）的值。即使在兩類樣本的分布產(chǎn)生變化或樣本分布不平衡時，ROC 曲線也基本保持原貌。AUC 即為ROC 曲線下方與坐標(biāo)軸所圍成封閉圖形的面積，它是綜合評價判別算法優(yōu)劣的二維直觀描述。

圖4 ROC 曲線與AUCFigure 4 ROC curve and AUC

2.2.3 Kappa 系數(shù)

上述評價方法只能用于評估二分類問題性能，故引入Kappa 系數(shù)來衡量三分類情況，計算方式基于表3，如式(12)～(14) 所示。它的取值范圍在?1.00～1.00 之間，通常落在0～1.00 之間，當(dāng)值為?1.00 時說明結(jié)果與實際完全不一致。Kappa系數(shù)與一致性級別如表4所示。

表3 三分類問題混淆矩陣Table 3 Confusion matrix of 3-class

表4 Kappa 系數(shù)與一致性級別Table 4 Kappa index and consistency level

2.3 實驗?zāi)Ｐ?/h3>
實驗所建立的兩層模型可用于實現(xiàn)三分類，實現(xiàn)步驟如下：第1 層區(qū)分健康樣本與患病樣本；第2 層區(qū)分患病樣本屬于良性病變還是惡性腫瘤；最后將兩層結(jié)果組合得到三分類的預(yù)測結(jié)果。
兩層模型的建立均基于SVM，利用了DE 來優(yōu)化懲罰系數(shù)C和核函數(shù)參數(shù)σ，并用AUC評價優(yōu)化效果。在參數(shù)優(yōu)化時，C和σ分別表示成指數(shù)形式2m和2n，其中m和n為一個2維的個體，種群規(guī)模Np取100，變異因子F取0.5，交叉概率Cr取0.9，進化終止條件是適應(yīng)度評價次數(shù)不大于10 000 次。在進化過程中始終將m和n限制在[?8,8] 范圍內(nèi)，變異策略選擇DE/rand/bin/1[23]。為防止過擬合，訓(xùn)練過程采用5 折交叉驗證模式[28]，先利用網(wǎng)格法對參數(shù)值的取值范圍進行粗篩以確定參數(shù)的范圍，再使用差異進化算法優(yōu)化參數(shù)。

3 實驗結(jié)果與分析

傳統(tǒng)的機器學(xué)習(xí)算法相對于深度學(xué)習(xí)方法更適用于小樣本數(shù)據(jù)，且可在短時間內(nèi)嘗試多種算法，從而方便改進模型。實驗分別使用邏輯回歸（logistic regression, LR）、決策樹（decision tree, DT）、隨機森林（random forest, RF）、梯度提升決策樹（gradient boosting decision tree, GBDT）以及SVM 建立模型并進行預(yù)測。其中的對比實驗采用隨機搜索的尋參方式。

各模型的ROC 曲線分別如圖5 和6 所示，可以看出：無論是在建模還是在預(yù)測過程中，使用SVM 方法的AUC 值不低于其他幾種算法，表明該方法建模效果更好，且使用DE 算法改進參數(shù)選取方式后模型的性能得到進一步的提高。用以上模型對測試數(shù)據(jù)進行預(yù)測，其結(jié)果如表5 和6 所示?？梢钥闯觯何词褂肈E 算法優(yōu)化SVM 所構(gòu)建的模型，其特異度值處于各

表5 第1 層分類結(jié)果對比Table 5 Classification results of the first hierarchical layer

圖5 第1 層模型ROC 曲線Figure 5 ROC curves of the first hierarchical layer model

3.1 方法對比

圖6 第2 層模型ROC 曲線Figure 6 ROC curves of the second hierarchical layer model

表6 第2 層分類結(jié)果對比Table 6 Classification results of the second hierarchical layer

種算法的中等位置，準確度以及敏感度處于領(lǐng)先位置；而優(yōu)化SVM 后，模型的3 個指標(biāo)值均為最高，顯然優(yōu)化后的模型具有一定的優(yōu)越性。

3.2 結(jié)果與分析

3.2.1 分層結(jié)果

在實際臨床中常有提高敏感度和降低誤診率的需求，因此需要輔助醫(yī)生根據(jù)要求選擇合適的分類閾值?；谟?xùn)練模型畫出2 次二分類對應(yīng)的性能指標(biāo)曲線，如圖7 所示，橫軸代表閾值，縱軸表示性能指標(biāo)對應(yīng)的值，指標(biāo)包括ACC、SE、SP 以及約登指數(shù)。以第1 層建模約登指數(shù)不小于0.98 且第2 層不小于0.92 為例，得到兩層的閾值范圍分別是[?0.74,0.98] 和[?0.74,0.54]。對上述范圍10 等分得到如表7 和8 的閾值查找表。

表7 第1 層分類閾值查找表Table 7 Cut-offlookup table of the first hierarchical layer

圖7 模型性能指標(biāo)曲線Figure 7 Index curves of the model performance

表8 第2 層分類閾值查找表Table 8 Cut-offlookup table of the second hierarchical layer

3.2.2 整體結(jié)果

選取兩層分類閾值查找表中SE、ACC、SP 最高的閾值為例，將其按層次兩兩組合，得到三分類結(jié)果如表9 所示?？梢钥闯?，該方法在預(yù)測集的表現(xiàn)隨著選取閾值的標(biāo)準不同會產(chǎn)生相應(yīng)的變化，同時大部分Kappa 系數(shù)依然能夠保持在幾乎一致水平，說明該方法具有優(yōu)秀的分類性能。而且根據(jù)性能指標(biāo)的要求選取兩層的閾值組合后進行預(yù)測，有助于臨床篩選，并在滿足實際應(yīng)用需求的同時保證預(yù)測的準確性和靈活性，最優(yōu)情況時Kappa 系數(shù)可達到0.90，ACC 可達到0.94。因此，本文提出方法可用于肝癌早期篩查和早期預(yù)測。

表9 三分類預(yù)測結(jié)果Table 9 Predicted results of 3-classification model

4 結(jié) 語

PLC 的早期預(yù)測和預(yù)防是提高患者生存率最有效的途徑。雖然甲胎蛋白等腫瘤標(biāo)志物被廣泛應(yīng)用于肝癌診斷，但其敏感性和特異性等指標(biāo)并不理想，假陰性率高。本文基于DE 改進后的SVM 模型提出了自定義閾值的層次分類方法，最終實現(xiàn)三分類。并且實驗利用臨床檢驗中腫瘤標(biāo)志物之外的常規(guī)數(shù)據(jù)指標(biāo)，根據(jù)臨床對評價指標(biāo)的不同要求定義分類閾值，使模型在保證可靠性的同時具有了靈活性。因為數(shù)據(jù)樣本有限，所以本文通過對比幾種傳統(tǒng)的機器學(xué)習(xí)算法后，采用在小樣本上具有優(yōu)越性能的SVM 方法進行研究。隨著實驗數(shù)據(jù)的積累，后期會考慮使用深度學(xué)習(xí)相關(guān)技術(shù)進行建模、預(yù)測與分析。

(編輯：管玉娟)