亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多視圖多核學(xué)習(xí)的彌漫大B細(xì)胞淋巴瘤預(yù)后分類*

        2022-09-14 09:57:50陽楨寰張巖波余紅梅鄭楚楚趙艷琳李雪玲趙志強(qiáng)羅艷虹
        中國衛(wèi)生統(tǒng)計(jì) 2022年3期
        關(guān)鍵詞:分類特征方法

        陽楨寰 張巖波 邢 蒙 余紅梅 鄭楚楚 趙艷琳 李雪玲 李 瓊 趙志強(qiáng) 周 潔 羅艷虹△

        【提 要】 目的 為更加充分地利用彌漫性大B細(xì)胞淋巴瘤患者的電子病歷數(shù)據(jù),挖掘其內(nèi)部的區(qū)別與聯(lián)系,以提高疾病預(yù)后模型性能,為進(jìn)一步的臨床治療提供參考。方法 現(xiàn)使用多視圖多核的機(jī)器學(xué)習(xí)方法對疾病預(yù)后進(jìn)行建模。對電子病歷中患者的病理信息、影像資料以及診斷治療記錄這三個(gè)方面分別進(jìn)行數(shù)據(jù)收集與整理,將收集到的三類特征經(jīng)預(yù)處理與重采樣,用核函數(shù)分別映射至三個(gè)核空間,最終運(yùn)用多視圖多核學(xué)習(xí)得到合成核進(jìn)行預(yù)后分類。將目標(biāo)模型的分類結(jié)果與邏輯回歸,決策樹等經(jīng)典模型進(jìn)行對比。結(jié)果 通過十折交叉驗(yàn)證,目標(biāo)模型性能(accuracy=0.977,AUC=0.970,precision=0.981)均高于常見模型,且多視圖多核學(xué)習(xí)的模型性能優(yōu)于混淆特征的多核或單核學(xué)習(xí)。結(jié)論 通過多視圖多核學(xué)習(xí)的建模方法,更能夠挖掘出電子病歷數(shù)據(jù)中的有效信息,模型性能優(yōu)越,可為臨床工作者進(jìn)一步的診斷與治療方案選擇提供一定參考。

        彌漫性大B細(xì)胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)是一種常見的侵襲性B細(xì)胞淋巴瘤,約占非霍奇金淋巴瘤的30%~40%。據(jù)相關(guān)統(tǒng)計(jì)表明,DLBCL已成為發(fā)病率逐年增長的惡性腫瘤之一[1]。由于DLBCL具有高度異質(zhì)性,現(xiàn)階段臨床上主要進(jìn)行化療,雖然化療的有效性較高,但化療敏感性會(huì)影響總體效果,遠(yuǎn)期預(yù)后不佳[2]。大部分患者經(jīng)過治療可以達(dá)到完全緩解,但其中仍有小部分患者在治療過程中出現(xiàn)緩解后復(fù)發(fā),這類患者難以獲得長期的無病生存。針對復(fù)發(fā)難治性DLBCL,自體造血干細(xì)胞移植可作為該類患者的挽救治療手段[3]。故若不進(jìn)行準(zhǔn)確的疾病預(yù)后判斷,重復(fù)對復(fù)發(fā)難治型患者進(jìn)行一線治療,不僅會(huì)錯(cuò)過二線挽救治療的時(shí)機(jī),也會(huì)給患者帶來心理負(fù)擔(dān)和經(jīng)濟(jì)壓力。而若對早期可治性患者采用R-CHOP聯(lián)合其他輔助療法,則可以很大程度提高其生存率[4]。因此,對DLBCL的疾病預(yù)后情況進(jìn)行精確的分類預(yù)測有較大的現(xiàn)實(shí)意義。

        由不同途徑或?qū)用娅@得的數(shù)據(jù)被稱為多視角數(shù)據(jù),其表現(xiàn)的是同一對象分布在不同特征空間中的屬性。多視圖學(xué)習(xí)是分析多視角數(shù)據(jù)的機(jī)器學(xué)習(xí)方法,其不僅分析同一視圖數(shù)據(jù)內(nèi)部的關(guān)聯(lián),也能發(fā)現(xiàn)不同視圖數(shù)據(jù)間的差異性與一致性,從而挖掘出多視角數(shù)據(jù)中隱藏的有效信息,使得分類結(jié)果更加準(zhǔn)確。在醫(yī)學(xué)領(lǐng)域內(nèi),數(shù)據(jù)來源各異,之前的研究均不加區(qū)分地直接利用,這樣不僅會(huì)減弱不同類型特征向量之間的區(qū)別,并且使得特征向量失去了原有意義[5]。因此,本研究針對DLBCL患者,分別從不同來源(患者病理信息、影像所見、診斷治療記錄)收集數(shù)據(jù)作為不同的數(shù)據(jù)視圖特征,通過核方法映射至各核空間,再利用多視圖多核學(xué)習(xí)得到合成核進(jìn)行預(yù)后分類,以最終達(dá)到提高預(yù)后分類模型性能的效果。

        方法及原理

        本研究以DLBCL患者經(jīng)過住院治療后是否復(fù)發(fā)作為分類依據(jù),方法可分為五個(gè)部分:數(shù)據(jù)收集、數(shù)據(jù)處理、核方法、多視圖多核學(xué)習(xí)、評價(jià)指標(biāo)。

        1.數(shù)據(jù)收集

        數(shù)據(jù)來源于某醫(yī)院2011-2017年被診斷為DLBCL并通過一線化療方案治療后達(dá)到完全緩解的病例共518例,隨訪至2020年12月底,其中三年內(nèi)復(fù)發(fā)的人數(shù)為96例。根據(jù)《NCCN Guidelines Insights:B-Cell Lymphomas,Version 3.2019》[6]及電子病歷記錄情況,分別收集患者數(shù)據(jù),其中病理信息138維,影像資料所見60維,診斷治療記錄12維,共計(jì)210維特征。

        在特征選擇時(shí)使用特征遞歸消除法[7-8],遞歸特征消除的主要思想是反復(fù)地構(gòu)建模型(本研究使用支持向量機(jī)為分類器,故以支持向量機(jī)為基礎(chǔ)模型篩選特征),得到不同的特征子集,在此基礎(chǔ)上使用交叉驗(yàn)證法得到表現(xiàn)最優(yōu)秀的特征子集。經(jīng)遞歸特征消除篩選后,共25維特征進(jìn)入模型,具體賦值情況如表1。

        2.數(shù)據(jù)處理

        (1)數(shù)據(jù)預(yù)處理

        由于本研究樣本量小,對于數(shù)據(jù)集中少數(shù)的缺失值和異常值,不采用直接丟棄的方法,使用將連續(xù)性變量按中位數(shù)填補(bǔ),將分類變量按多數(shù)類填補(bǔ)。同時(shí)為保證不同的變量值位于相同取值范圍內(nèi),本研究采用最大最小化[9]的方法進(jìn)行歸一化。

        (2)SMOTE采樣

        在DLBCL患者中,30%患者在達(dá)到完全緩解后的三年內(nèi)復(fù)發(fā),造成數(shù)據(jù)的類別不平衡。其中未復(fù)發(fā)人群是復(fù)發(fā)人群人數(shù)的2~3倍,同時(shí)復(fù)發(fā)患者的失訪率較高,本研究數(shù)據(jù)的類別不平衡率在4~5倍之間[10]。近年來大量研究表明,數(shù)據(jù)中類別不平衡問題嚴(yán)重影響著預(yù)測模型的分類準(zhǔn)確率[11],其中對于少數(shù)類樣本的準(zhǔn)確率更低,而對少數(shù)類樣本的準(zhǔn)確預(yù)測往往是研究的目的所在。

        表1 變量賦值情況

        SMOTE(synthetic minority oversampling technique)[12]是目前公認(rèn)的性能較優(yōu)的解決方法,并已被廣泛應(yīng)用于處理計(jì)算機(jī)視覺[13]、醫(yī)學(xué)診斷[14]與欺詐識(shí)別[15]等多領(lǐng)域數(shù)據(jù)的類別不平衡問題。如圖1所示,SMOTE算法的基本思想是對少數(shù)類樣本進(jìn)行分析并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中。

        xnew=x+rand(0,1)×(xn-x)

        圖1 SMOTE采樣示意圖

        本研究中SMOTE采樣通過使用Python(version=3.7)的imblearn(version=0.0)庫中的SMOTE類實(shí)現(xiàn),參數(shù)K_neighbors=5。

        3.核方法

        (1)核方法

        核方法是一類把低維空間的線性不可分問題轉(zhuǎn)化為高維空間的線性可分問題的方法[16-17]。給定有監(jiān)督機(jī)器學(xué)習(xí)問題(x1,y1),(x2,y2),…,(xi,yi)∈X×Y,其中輸入空間X?RN,輸出空間Y?RN(回歸問題)或Y={-1,+1}(二分類問題)??梢酝ㄟ^一個(gè)非線性映射:

        把低維度輸入數(shù)據(jù)映射到一個(gè)新的高維特征空間F={Φ(x)|x∈X},其中F?RN。然后利用新的高維線性可分?jǐn)?shù)據(jù)表示原來的低維線性不可分問題[18]。

        (Φ(x1),y1),(Φ(x2),y2),…,(Φ(xi),yi)∈F×Y

        (2)核函數(shù)

        若?x,z∈X,函數(shù)K(x,z)=<Φ(x),Φ(z)>,則稱K為核函數(shù),即核函數(shù)輸入兩個(gè)向量,它返回的值跟兩個(gè)向量分別作映射然后點(diǎn)積的結(jié)果相同。

        核方法的采用使支持向量機(jī)(support vector machine,SVM)由線性推廣到非線性,其核心在于利用核函數(shù)可以快捷地得到該數(shù)據(jù)集的相關(guān)核矩陣,后者用于替代模型分類決策函數(shù)中的內(nèi)積運(yùn)算。

        常用核函數(shù)如表2所示。

        表2 常用核函數(shù)

        4.多視圖多核學(xué)習(xí)

        多核學(xué)習(xí)[19]是在模型構(gòu)建時(shí)通過組合多個(gè)核函數(shù)進(jìn)行映射的一種方法,用以實(shí)現(xiàn)更好的泛化性,彌補(bǔ)基于單核學(xué)習(xí)方法的不足。由于多核學(xué)習(xí)中的內(nèi)核自然對應(yīng)于不同視圖,因此多核學(xué)習(xí)被廣泛應(yīng)用于處理多視角數(shù)據(jù)[20]。

        圖2 多核學(xué)習(xí)模型的構(gòu)成示意圖

        研究分別使用Python(version=3.7)MLKpy庫中(version=0.6)的Multiview_generator類與EasyMKL類實(shí)現(xiàn)核映射與多核學(xué)習(xí)。其中,核總數(shù)為3,基礎(chǔ)核經(jīng)超參數(shù)搜索確定均為RBF(σ=1,0.1,0.01),多核學(xué)習(xí)分類器選擇SVM(C=10)。

        5.評價(jià)指標(biāo)

        本研究使用10折交叉驗(yàn)證的方法來評價(jià)模型的性能,分別采用準(zhǔn)確率(accuracy)、ROC曲線下區(qū)域面積(AUC)、靈敏度(sensitivity)以及精度(precision)四個(gè)二分類指標(biāo)。其中每個(gè)分類器的結(jié)果可以分為真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)四類,由此可得以下的指標(biāo)計(jì)算公式:

        除了統(tǒng)一評價(jià)標(biāo)準(zhǔn)外,在實(shí)驗(yàn)評價(jià)的所有模型中的超參數(shù)均經(jīng)過循環(huán)網(wǎng)格搜索為最佳參數(shù)。

        結(jié) 果

        為驗(yàn)證本文中的采樣效果,該模型分別使用SMOTE平衡采樣數(shù)據(jù)與原始數(shù)據(jù)訓(xùn)練后的10折交叉驗(yàn)證結(jié)果均值如表3所示。

        表3 采樣前后模型性能比較

        從表3可以看出,通過重采樣,模型的各個(gè)性能指標(biāo)均有提升,其中靈敏度與AUC分別提升了39.9%與31.5%。正是由于原始數(shù)據(jù)中多數(shù)類樣本遠(yuǎn)多于少數(shù)類樣本,少數(shù)類樣本信息量較少,使得模型在訓(xùn)練過程中會(huì)在很大程度上偏向于多數(shù)類的樣本進(jìn)行分類以獲得更高的準(zhǔn)確率,故模型對于少數(shù)類樣本的敏感性不足,導(dǎo)致靈敏度低。通過SMOTE重采樣均衡訓(xùn)練數(shù)據(jù)后,模型對于少數(shù)類樣本的分類性能得到了很大增強(qiáng),提升了靈敏度從而提升了AUC。

        目標(biāo)模型與常見的機(jī)器學(xué)習(xí)算法模型的10折交叉驗(yàn)證結(jié)果均值如表4所示。

        表4 各模型性能指標(biāo)對比

        由表4可知,除目標(biāo)模型的靈敏度略低于神經(jīng)網(wǎng)絡(luò),其余AUC、準(zhǔn)確率、精度等指標(biāo)均為最優(yōu)。不難看出邏輯回歸為常用的線性分類器,在非線性問題上的表現(xiàn)不佳,而其他三種模型均可處理非線性問題。

        為了驗(yàn)證多視圖多核學(xué)習(xí)的效果,分別使用多核SVM與單核SVM的模型對數(shù)據(jù)集串聯(lián)變量進(jìn)行學(xué)習(xí),其十折交叉驗(yàn)證結(jié)果如表5所示。

        表5 多視圖多核學(xué)習(xí)效果

        綜合表5二分類評價(jià)指標(biāo)來看,多視圖多核SVM的表現(xiàn)均為最優(yōu)。通過AUC比較,多核SVM比單核SVM提升了4.5%,多視圖多核SVM比多核SVM提升了3.2%。

        討 論

        神經(jīng)網(wǎng)絡(luò)與決策樹都是通過增加中間層的方法實(shí)現(xiàn)線性到非線性的轉(zhuǎn)換,但由于決策樹過擬合與魯棒性不強(qiáng)問題,單棵決策樹在實(shí)際應(yīng)用往往不如人意。核支持向量機(jī)不僅巧妙運(yùn)用核方法進(jìn)行非線性轉(zhuǎn)換,而且計(jì)算復(fù)雜度也小于多層的神經(jīng)網(wǎng)絡(luò)(如深度學(xué)習(xí)與集成的決策樹等),是處理小型數(shù)據(jù)集非線性問題的良好選擇?,F(xiàn)有的模態(tài)特征融合方法中,一類方法是獨(dú)立地從每種模態(tài)中提取特征,然后簡單地將它們連接到一個(gè)長向量中,即對各個(gè)模態(tài)的特征進(jìn)行串聯(lián),缺點(diǎn)是把所有模態(tài)特征信息賦予同等權(quán)重,沒有考慮從不同模態(tài)提取出的特征的不同特性[21-22]。另一類方法是既可以利用在單個(gè)模態(tài)中訓(xùn)練的分類結(jié)果,也可以利用特殊的組合規(guī)則得到的總和特征。其中多視圖多核學(xué)習(xí)針對不同的特征類型,采用不同的核函數(shù)建立核矩陣以表現(xiàn)局部特性,并將多個(gè)核矩陣進(jìn)行評估與融合以體現(xiàn)全局性,最后對融合的核矩陣進(jìn)行分類。多核學(xué)習(xí)通過提高核函數(shù)的搜索空間容量,實(shí)現(xiàn)不同核矩陣的組合,可以實(shí)現(xiàn)比單核學(xué)習(xí)更良好的泛化性,而由于不同的特征集對應(yīng)不同的特征空間,若單純串聯(lián)各個(gè)不同特征集會(huì)減少模型在數(shù)據(jù)中學(xué)習(xí)到的信息量,使得模型最終的性能降低。因此,采用多視圖多核學(xué)習(xí)可以合理且充分利用不同的特征集,以達(dá)到更好地進(jìn)行數(shù)據(jù)挖掘的效果。

        在當(dāng)前大數(shù)據(jù)時(shí)代,數(shù)據(jù)都有不同的來源或者是從不同的視角獲得,醫(yī)療數(shù)據(jù)同樣如此,如何充分利用以及挖掘出數(shù)據(jù)中盡可能多的有效信息是衛(wèi)生醫(yī)療統(tǒng)計(jì)行業(yè)的重要工作。多視角學(xué)習(xí)是一種新的機(jī)器學(xué)習(xí)方法,其既利用數(shù)據(jù)中聯(lián)系,又關(guān)注數(shù)據(jù)間差別的思想,近年來受到了越來越多學(xué)者的關(guān)注和研究,其有效性也在眾多的實(shí)踐中得到了證明[23-24]。如Wang等對心率衰竭死亡率的預(yù)測AUC達(dá)到89.64%[5],唐楠等在醫(yī)學(xué)文獻(xiàn)蛋白質(zhì)關(guān)系提取的實(shí)驗(yàn)AUC達(dá)到87.83%[25]。在衛(wèi)生醫(yī)療領(lǐng)域,數(shù)據(jù)挖掘工作格外重要,不僅可以通過數(shù)據(jù)統(tǒng)計(jì)描述的方法,了解醫(yī)療工作的整體趨勢,還可以通過機(jī)器學(xué)習(xí)等方法對臨床數(shù)據(jù)進(jìn)行數(shù)據(jù)分析、結(jié)果預(yù)測等,將得到的分析結(jié)果反饋給臨床醫(yī)療工作者作為重要參考。

        多視角學(xué)習(xí)一般遵循兩個(gè)原則[26],即一致性與互補(bǔ)性。一致性原則是指同一對象不同視角的特征是存在內(nèi)在聯(lián)系的,旨在最大化多個(gè)視角間的一致性,即利用同一對象不同視角間的一致性和錯(cuò)誤率獲得更好泛化能力的模型?;パa(bǔ)性是指不同視角數(shù)據(jù)間的差異性使得每個(gè)視角都包含對象某一方面獨(dú)特的信息,通過利用此類相互補(bǔ)充的信息,全面而準(zhǔn)確地描述數(shù)據(jù),產(chǎn)生更好的算法新能[27]。本研究主要使用了多視圖多核學(xué)習(xí)的建模方法。首先對腫瘤醫(yī)院患者的病理信息、影像檢查、診療記錄三個(gè)不同來源的數(shù)據(jù)進(jìn)行收集與多視圖處理,同時(shí)針對患者類別不平衡的問題進(jìn)行了重采樣后,再使用多視圖多核SVM模型對患者的預(yù)后(復(fù)發(fā)難治型與可治療型)進(jìn)行分類學(xué)習(xí)。結(jié)果顯示了多視圖多核學(xué)習(xí)在臨床數(shù)據(jù)分析與數(shù)據(jù)挖掘中的作用,對比單核、多核與其他經(jīng)典模型,本文基于腫瘤患者不同來源數(shù)據(jù)的多視圖多核學(xué)習(xí)有明顯優(yōu)勢,AUC與準(zhǔn)確率分別達(dá)到97.0%與97.7%。從患者病理信息、影像資料、診療記錄三個(gè)不同且互補(bǔ)的數(shù)據(jù)層面,分別通過核方法把三個(gè)特征集映射到三個(gè)相應(yīng)的特征空間中,實(shí)現(xiàn)非線性轉(zhuǎn)換的同時(shí)體現(xiàn)了不同視角之間的差異性,之后又利用三個(gè)核特征空間的非線性組合得到合成核,體現(xiàn)了不同視角間的互補(bǔ)性與一致性,最終在合成核空間中進(jìn)行分類,達(dá)到了預(yù)期的效果。

        本研究的不足在于影像資料來源的特征尚不夠全面,僅使用了患者DLBCL的PET-CT中腫瘤形狀特征,目前尚未對PET-CT的高階特征[28]進(jìn)行提取。故在今后的研究中,本研究團(tuán)隊(duì)重點(diǎn)會(huì)在PET-CT影像資料的收集整理與特征提取以及相關(guān)的多視圖機(jī)器學(xué)習(xí)方法。

        猜你喜歡
        分類特征方法
        分類算一算
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        午夜不卡无码中文字幕影院| 亚洲天堂av社区久久| 美国黄色av一区二区| 亚洲精品国产精品乱码在线观看| аⅴ资源天堂资源库在线| 久久国产精品不只是精品| 免费福利视频二区三区| 91亚洲国产成人精品一区.| 亚洲av成人噜噜无码网站| 欧美极品少妇性运交| 深夜福利国产| 丝袜av乱码字幕三级人妻| 疯狂做受xxxx国产| 亚洲成在人线av| 亚洲国产综合精品久久av| 久久精品国产亚洲av影院毛片| 亚洲成a∨人片在线观看不卡| 亚洲av成本人无码网站| 日本精品一区二区在线看| 久久伊人精品中文字幕有尤物| 国产又色又爽又黄的| 免费可以在线看A∨网站| 在线视频一区二区三区中文字幕| 亚洲国产美女高潮久久久| 久久久久亚洲精品中文字幕| 中文字幕大屁股熟女乱| 国产美女冒白浆视频免费| 日本孕妇潮喷高潮视频| 天躁夜夜躁狼狠躁| 欧洲人体一区二区三区| 亚洲高清国产成人精品久久| 伊人久久大香线蕉综合影院首页| 二区三区视频| 色视频日本一区二区三区| 亚洲精品无码不卡| 把插八插露脸对白内射| 欧美人与物videos另类 | 欧美精品aaa久久久影院| 日本一区二区三区在线视频播放| 国产欧美成人一区二区a片| 日本高清一区二区三区水蜜桃|