亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Cox 模型中幾種變量選擇方法對比研究

        2023-08-25 05:00:18趙鈺琳
        中阿科技論壇(中英文) 2023年8期
        關(guān)鍵詞:懲罰分類特征

        徐 習(xí) 趙鈺琳

        (重慶工商大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,重慶 400067)

        Cox模型,也稱為Cox比例風(fēng)險回歸模型,是一種用于分析生存數(shù)據(jù)的統(tǒng)計模型。它基于半?yún)?shù)模型,不需要對生存時間的概率分布做出假設(shè),只需要假設(shè)風(fēng)險函數(shù)的形式,從而可以對各種不同類型的生存數(shù)據(jù)進(jìn)行建模和分析。在實際應(yīng)用中,通常需要從大量的可能影響生存時間的變量中選擇出對生存時間具有顯著影響的變量,以便更準(zhǔn)確地評估其對生存時間的影響。這就涉及Cox模型中的變量選擇問題。對于變量選擇,常常采用的方法是引入一些懲罰項來約束回歸系數(shù),從而達(dá)到減少變量數(shù)量、提高模型預(yù)測能力的目的。Cox模型中,常用的懲罰項有LASSO、Ridge、Elastic Net、SCAD等[1-3]。

        變量選擇在Cox模型的應(yīng)用中具有重要意義,因為選取正確的變量可以更好地理解和預(yù)測生存時間,避免不必要的分析和浪費。然而,在實際應(yīng)用中,由于變量間的相關(guān)性、數(shù)據(jù)質(zhì)量等問題,變量選擇也存在一些挑戰(zhàn)。因此,選擇適合的變量選擇方法對于構(gòu)建準(zhǔn)確、穩(wěn)定的Cox模型至關(guān)重要[4]。

        本文分別使用SCAD、Adaptive Elastic Net、Adaptive Lasso和ADS懲罰方法對Cox模型進(jìn)行變量選擇,并使用交叉驗證法進(jìn)行參數(shù)調(diào)節(jié),得到了四個模型;比較其變量選擇結(jié)果和預(yù)測準(zhǔn)確性;評估這些懲罰方法在平衡稀疏性、預(yù)測準(zhǔn)確性、對共線性和異常值的魯棒性、計算復(fù)雜度等方面的優(yōu)劣。

        1 變量選擇方法及建模

        1.1 變量選擇方法

        在醫(yī)學(xué)領(lǐng)域的生存分析中,Cox模型是一種常用的模型,用于研究不同因素對患者生存時間的影響。為了提高模型的性能和預(yù)測準(zhǔn)確性,除了傳統(tǒng)的前向逐步回歸和后向逐步回歸,還應(yīng)用了一些新的變量選擇方法,如SCAD、ADS、Adaptive Lasso和Adaptive Elastic Net等。這些方法可以有效地降低模型的方差和偏差,提升模型的預(yù)測精度。

        SCAD是一種基于L1范數(shù)懲罰的變量選擇方法,它通過對L1范數(shù)進(jìn)行平滑截斷來解決Lasso方法在變量選擇中存在的一些缺陷。SCAD方法的基本原理是在L1懲罰項的基礎(chǔ)上增加一個二次懲罰項,以此在保持模型的稀疏性的同時,也能保持模型的預(yù)測準(zhǔn)確性。在Cox模型中,SCAD方法可以用于對回歸系數(shù)進(jìn)行懲罰,達(dá)到變量選擇的目的。相比于其他變量選擇方法,SCAD方法能夠有效地解決變量選擇中的估計偏差和估計精度問題,因此在實際應(yīng)用中廣受歡迎[5-6]。

        ADS(Adaptive Direction Shrinkage)是一種基于L1懲罰的變量選擇方法。ADS方法的基本原理是通過對不同變量的調(diào)整方向和強(qiáng)度進(jìn)行自適應(yīng)調(diào)整,實現(xiàn)最優(yōu)的變量選擇和調(diào)整。在Cox模型中,ADS方法同樣適用,可以用于對回歸系數(shù)進(jìn)行懲罰,以實現(xiàn)變量選擇。相較于其他變量選擇方法,ADS方法具有處理大規(guī)模數(shù)據(jù)集、高效、穩(wěn)定和靈活的優(yōu)點。在實際應(yīng)用中,ADS方法被廣泛應(yīng)用于醫(yī)學(xué)、金融、社會科學(xué)等領(lǐng)域,具有重要的理論和實踐價值[5-7]。

        Adaptive Elastic Net(AEN)是一種基于L1和L2范數(shù)懲罰的變量選擇方法,它結(jié)合了L1和L2懲罰項,能夠在保持模型的稀疏性的同時,也能保持模型的預(yù)測準(zhǔn)確性。AEN方法的基本原理是通過自適應(yīng)調(diào)整L1和L2懲罰項的權(quán)重,在不同的數(shù)據(jù)情況下實現(xiàn)最優(yōu)的變量選擇和調(diào)整,在Cox模型中同樣適用。相較于其他變量選擇方法,Adaptive Elastic Net方法可以同時考慮稀疏性和可解釋性,能夠處理變量間的相關(guān)性和噪聲。該方法的特點是可以平衡不同懲罰因子的影響,具有較好的魯棒性和預(yù)測精度,在實際中具有廣泛的應(yīng)用前景。

        Adaptive Lasso是一種基于L1懲罰的變量選擇方法,其可以自適應(yīng)地調(diào)整不同變量的懲罰系數(shù),從而實現(xiàn)最優(yōu)的變量選擇和調(diào)整。Adaptive Lasso方法的基本原理是對不同變量的懲罰系數(shù)進(jìn)行自適應(yīng)調(diào)整,使得影響較小的變量更容易被選擇,而影響較大的變量更容易被保留。在Cox模型中,Adaptive Lasso方法同樣適用,可以用于對回歸系數(shù)進(jìn)行懲罰,以達(dá)到變量選擇的目的。相比于其他變量選擇方法,Adaptive Lasso方法具有處理變量間相關(guān)性的能力,并且具有自適應(yīng)性和穩(wěn)健性。在實際應(yīng)用中,Adaptive Lasso方法被廣泛應(yīng)用于生物醫(yī)學(xué)、經(jīng)濟(jì)學(xué)和社會科學(xué)等領(lǐng)域,具有重要的理論和實踐價值[8]。

        1.2 構(gòu)建模型

        1.2.1 Cox比例風(fēng)險模型

        Cox比例風(fēng)險模型的基本形式為

        式(1)中,β1,β2,…,βp為自變量的偏回歸系數(shù),或者說是第j個預(yù)測因子的回歸系數(shù),它是需從樣本數(shù)據(jù)作出估計的參數(shù);X=(X1,X2,…,Xp) 是p維協(xié)變量向量;h 0(t)是當(dāng)X向量為0時,h(t,X) 的基準(zhǔn)危險率,它是有待于從樣本數(shù)據(jù)作出估計的量。

        式(1)可以轉(zhuǎn)化為可以看出,比例風(fēng)險假定各危險因素的作用不隨時間的變化而變化,即不隨時間的變化而變化。因此,式(1)又稱為比例風(fēng)險率模型(PH Model)。這一假定是建立Cox回歸模型的前提條件,而且對數(shù)線性假定模型中的協(xié)變量應(yīng)與對數(shù)風(fēng)險比呈線性關(guān)系。其中,若Xj是非暴露組觀察對象的各因素取值,Xi是暴露組觀察對象的各因素取值,RR是相對危險度,即

        似然比函數(shù)的值越大,說明模型的擬合程度和預(yù)測能力越好。在進(jìn)行變量選擇時,可以根據(jù)似然比函數(shù)的大小來評估預(yù)測因素的重要性,選擇對模型性能有較大貢獻(xiàn)的預(yù)測因素。

        1.2.2 Cox-SCAD模型

        Cox-SCAD模型是一種用于生存分析的統(tǒng)計模型,它是基于Cox比例風(fēng)險模型和SCAD正則化方法的結(jié)合。Cox-SCAD模型可以用于處理高維數(shù)據(jù)集,同時能夠選擇重要的預(yù)測因子,減少模型的過擬合,其模型如下:

        其中,pλ是SCAD懲罰函數(shù),λ是懲罰強(qiáng)度,則有

        1.2.3 Cox-ADS模型

        Cox-ADS模型是一種用于生存分析的統(tǒng)計模型,它是基于加速失效時間模型(Accelerated Failure Time Model,AFT)與自適應(yīng)組稀疏正則化(Adaptive Group Sparse Regularization,AGSR)的結(jié)合。ADS-Cox模型可以處理高維數(shù)據(jù)集,同時能夠選擇重要的預(yù)測因子,減少模型的過擬合,其模型如下:

        其中,p為預(yù)測因子的數(shù)量,r為組數(shù),λ是懲罰強(qiáng)度,Q是一個矩陣,mle表示最大似然估計,λωj是 Cox-ADS模型中的權(quán)重。

        1.2.4 Cox-AEN模型

        Cox-AEN模型是一種用于生存分析的統(tǒng)計模型,它是基于Cox比例風(fēng)險模型和自適應(yīng)彈性網(wǎng)絡(luò)(Adaptive Elastic Net)正則化的結(jié)合。自適應(yīng)彈性網(wǎng)絡(luò)可以同時控制Lasso和Ridge懲罰的強(qiáng)度,因此可以更好地平衡模型的穩(wěn)定性和準(zhǔn)確性,其模型如下:

        1.2.5 Cox-ALasso模型

        Cox-ALasso模型是一種用于生存分析的統(tǒng)計模型,它是基于Cox比例風(fēng)險模型與ALasso(Adaptive Lasso)正則化的結(jié)合。與傳統(tǒng)的Lasso模型不同,自適應(yīng)Lasso對于不同的預(yù)測因子可以賦予不同的懲罰系數(shù),因此可以更好地處理高維數(shù)據(jù)集,其模型如下:

        2 參數(shù)調(diào)節(jié)

        參數(shù)調(diào)節(jié)是變量選擇中的關(guān)鍵步驟,可幫助找到最優(yōu)模型參數(shù)以提高準(zhǔn)確性和性能。交叉驗證是一種常用的評估模型性能的方法,將數(shù)據(jù)集分成多個子集進(jìn)行訓(xùn)練和測試。本文采用5折和10折交叉驗證法進(jìn)行參數(shù)調(diào)節(jié),結(jié)果表明使用5折交叉驗證法效果更好,能更準(zhǔn)確評估模型性能,提高泛化能力。

        3 數(shù)值模擬

        本文使用了基于懲罰項的變量選擇方法,包括Cox-SCAD、Cox-ADS、Cox-AEN和Cox-ALasso 模型,對乳腺癌數(shù)據(jù)集進(jìn)行生存分析。這些模型能夠自動選擇與生存時間相關(guān)的變量,降低維度并提高預(yù)測性能。此外,它們還具有Oracle性質(zhì),能夠準(zhǔn)確地識別真實的相關(guān)變量并將不相關(guān)的變量系數(shù)壓縮為零,從而保證了模型的可解釋性和穩(wěn)定性。

        該數(shù)據(jù)集包含569個樣本和30個特征,是一個二分類問題。為了提高模型的訓(xùn)練效果,本文首先對數(shù)據(jù)進(jìn)行了預(yù)處理。具體來說,使用了StandardScaler方法對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,將每個特征的值縮放到均值為0,標(biāo)準(zhǔn)差為1的范圍內(nèi)。隨后將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,其中測試集占總數(shù)據(jù)集的30%,并設(shè)置隨機(jī)種子為42,以保證每次運行結(jié)果的一致性。最終,得到了訓(xùn)練集和測試集的特征矩陣和目標(biāo)向量。

        在訓(xùn)練好的COX模型中,每個變量都會有一個對應(yīng)的系數(shù)。這些系數(shù)可以用來解釋變量對風(fēng)險的影響。如果變量的系數(shù)為正數(shù),表示該變量的增加與風(fēng)險的增加有正相關(guān)關(guān)系;如果系數(shù)為負(fù)數(shù),表示該變量的增加與風(fēng)險的減少有負(fù)相關(guān)關(guān)系;如果系數(shù)接近于零,則說明該變量對風(fēng)險的影響較小或不顯著。訓(xùn)練結(jié)果如表1所示,這些系數(shù)可以用來進(jìn)行特征選取和模型優(yōu)化。

        表1 系數(shù)估計值

        根據(jù)表1的結(jié)果得出以下結(jié)論:

        (1)在本模型中,假設(shè)變量X3和X4與其他變量存在共線性。通過使用四種基于懲罰項的變量選擇方法,發(fā)現(xiàn)這些方法都沒有將X3和X4選入模型。這說明以上四種方法都能夠有效地處理共線性問題,并且能夠自動選擇與生存時間相關(guān)的變量,降低維度并提高預(yù)測性能。

        (2)在COX模型的乳腺癌數(shù)據(jù)集中,使用不同的特征選擇方法得到了不同的特征集合。具體來說,SCAD方法選擇了18個特征,ADS方法選擇了15個特征,Adaptive Elastic Net方法選擇了25個特征,Adaptive Lasso方法選擇了21個特征。這些結(jié)果說明,不同的特征選擇方法會導(dǎo)致不同的特征集合,這可能是由于不同方法對特征的懲罰力度、結(jié)構(gòu)偏好和相關(guān)性處理方式不同所導(dǎo)致的。

        (3)在數(shù)據(jù)集中,使用Adaptive Elastic Net方法選擇的特征最多,而ADS方法選擇的特征最少,這可能是因為Adaptive Elastic Net方法可以保持稀疏性的同時,克服了Lasso方法在高相關(guān)性特征選擇方面的一些問題,而ADS方法則沒有考慮相關(guān)性。

        根據(jù)表2和圖1,對這四種模型進(jìn)行比較,得出以下結(jié)果:

        圖1 四種模型的ROC Curve對比

        表2 四種方法不同指標(biāo)的比較

        (1)分類準(zhǔn)確度(Acc)是一種常用的評估分類模型性能的指標(biāo),它的值介于0和1之間,越接近1表示模型的分類性能越好,而接近0則表示模型的分類性能較差。它提供了一個整體的性能評估指標(biāo),可以直觀地了解模型對于所有類別的分類效果。這四種模型的Acc均較高,都在0.95以上。其中,AEnet方法的分類準(zhǔn)確度最高,為0.97;其次是ALasso方法,為0.972;SCAD方法的分類準(zhǔn)確度為0.964 9,稍低于前兩者;ADS方法的分類準(zhǔn)確度最低,為0.953 2。

        (2)F1值是精確率(Precision)和召回率(Recall)的調(diào)和平均數(shù),它綜合衡量了分類器的準(zhǔn)確性和覆蓋能力。F1值在0到1之間,越接近1則表示分類器性能越好。它在處理類別不平衡問題時尤為重要,因為此時單一指標(biāo)(如準(zhǔn)確率)可能無法全面反映模型性能。F1值提供了一個綜合指標(biāo),幫助評估分類器在精確率和召回率之間的權(quán)衡。表2中,四種模型的F1值均較高,其中ALasso方法的F1值最高,為0.978;其次是SCAD方法,為0.973;AEnet方法的F1值為0.968,略低于前兩者;ADS方法的F1值最低,為0.964。

        (3)ROC曲線是以真正例率(True Positive Rate,TPR)為縱軸,假正例率(False Positive Rate,F(xiàn)PR)為橫軸,繪制的一條曲線。它可以幫助我們理解模型在不同閾值下的分類結(jié)果,以及靈敏度和特異度之間的權(quán)衡。這四種模型的ROC曲線下的面積(AUC)也都較高,均在0.94以上。其中,SCAD方法的AUC最高,為0.956;其次是ALasso方法,為0.953;AEnet方法的AUC為0.948,略低于前兩者;ADS方法的AUC最低,為0.940。

        (4)懲罰系數(shù)(C)值,用于控制模型對錯誤分類的懲罰程度和權(quán)衡損失函數(shù)與正則項的關(guān)系。合適的C值可以平衡模型的復(fù)雜度與容錯能力,降低過擬合和欠擬合風(fēng)險。選擇最優(yōu)C值是一個重要的調(diào)參過程,通常通過交叉驗證等方法來實現(xiàn)。其中,AEN方法的懲罰系數(shù)最小,為0.172 4;其次是ALasso方法,為0.333 3;SCAD方法的懲罰系數(shù)為0.448 3,略高于前兩者;ADS方法的懲罰系數(shù)最大,為0.433 3。

        綜合來看,這四種模型在分類準(zhǔn)確度、F1值和AUC指標(biāo)上表現(xiàn)都較好,但各有優(yōu)劣。ALasso方法在分類準(zhǔn)確度、F1值和AUC指標(biāo)上表現(xiàn)良好,且懲罰系數(shù)較小;SCAD方法在AUC指標(biāo)和F1值上表現(xiàn)較好,但懲罰系數(shù)較大;AEN方法在分類準(zhǔn)確度、F1值和懲罰系數(shù)指標(biāo)上表現(xiàn)最好;ADS方法在分類準(zhǔn)確度和AUC指標(biāo)上表現(xiàn)略低,但懲罰系數(shù)最大。

        4 結(jié)論

        本文通過對Cox比例風(fēng)險模型中的多種變量選擇方法的比較與應(yīng)用研究,得出了以下結(jié)論:這四種方法都能夠有效地處理共線性問題,并且能夠自動選擇與生存時間相關(guān)的變量,降低維度并提高預(yù)測性能。不同的特征選擇方法會導(dǎo)致不同的特征集合,這可能是由于不同方法對特征的懲罰力度、結(jié)構(gòu)偏好和相關(guān)性處理方式不同所導(dǎo)致的。其中,Adaptive Elastic Net方法選擇的特征最多,而ADS方法選擇的特征最少,這可能是因為Adaptive Elastic Net方法可以保持稀疏性的同時,克服了Lasso方法在高相關(guān)性特征選擇方面的一些問題,而ADS方法則沒有考慮相關(guān)性。在分類性能方面,這四種模型在分類準(zhǔn)確度、F1值和AUC指標(biāo)上表現(xiàn)相似,但是在預(yù)測陽性患者的召回率上,Adaptive Elastic Net方法表現(xiàn)最好,這說明在生存分析中,Adaptive Elastic Net方法可能更適合于對陽性患者進(jìn)行篩查和預(yù)測。

        綜上所述,這四種基于懲罰項的變量選擇方法可以有效地處理生存分析中的高維數(shù)據(jù)和共線性問題,提高預(yù)測性能和可解釋性,但它們在選擇特征和分類性能方面存在一定的差異,需要根據(jù)具體問題選擇合適的方法。

        猜你喜歡
        懲罰分類特征
        分類算一算
        神的懲罰
        小讀者(2020年2期)2020-03-12 10:34:06
        如何表達(dá)“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        懲罰
        趣味(語文)(2018年1期)2018-05-25 03:09:58
        教你一招:數(shù)的分類
        抓住特征巧觀察
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        午夜天堂一区人妻| 国产麻豆md传媒视频| 国产主播一区二区三区在线观看| 国产精品久久久久免费a∨不卡| 亚洲伊人av综合福利| 国产黄色av一区二区三区| 欧美性巨大╳╳╳╳╳高跟鞋| 亚洲天堂在线视频播放| 国产又粗又猛又黄色呦呦| 一级老熟女免费黄色片| 强开少妇嫩苞又嫩又紧九色| 国产乱妇乱子在线视频| 日韩中文字幕久久久经典网 | 亚洲av专区一区二区| 国产成人精品日本亚洲专区61| 最近免费中文字幕| 中文亚洲AV片在线观看无码| 最新国产激情视频在线观看| 色先锋av影音先锋在线| 久久久精品久久波多野结衣av| 日本一级淫片免费啪啪| 日本一区二区三区视频免费观看| 国产99久久久国产精品免费看| 天天狠狠综合精品视频一二三区| 视频福利一区二区三区| 久久精品国产亚洲av精东| 男女下面进入的视频| 日韩精品一区二区三区毛片| 国产不卡在线播放一区二区三区| 中文字幕亚洲无线码一区女同| 色欲麻豆国产福利精品| 国产三级黄色的在线观看| 精品亚洲第一区二区三区| 粗大猛烈进出高潮视频| 亚洲阿v天堂网2021| 少妇性l交大片免费1一少| 亚洲av无码码潮喷在线观看| 免费无码成人av在线播| 中文字幕成人精品久久不卡| 色视频网站一区二区三区| 曰批免费视频播放免费直播|