亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高維類不平衡冠心病數(shù)據(jù)的變量選擇

        2022-09-26 04:18:52宗敏潔吳愿交盧秀青
        關(guān)鍵詞:高維維度分類

        宗敏潔 吳愿交 盧秀青

        1.黃河交通學院;2.西南交通大學希望學院;3.機械工業(yè)第六設(shè)計研究院有限公司

        近幾年,隨著大數(shù)據(jù)概念的不斷升溫,學術(shù)界及產(chǎn)業(yè)界對不平衡數(shù)據(jù)處理問題的研究熱情仍未消退,且呈現(xiàn)逐漸升溫的趨勢,醫(yī)療數(shù)據(jù)成為其重要處理對象。醫(yī)療數(shù)據(jù)的特征是高度不平衡性、變量相關(guān)性程度高且維度高。該文首先對數(shù)據(jù)集進行相關(guān)性分析,得出變量間存在嚴重的相關(guān)性,變量之間存在相關(guān)性會對分類結(jié)果產(chǎn)生影響。之后,分別采用LASSO和SPLS方法,對數(shù)據(jù)進行變量選擇,選出8個最優(yōu)變量作為最優(yōu)子集,利用支持向量機分類器,對最優(yōu)子集進行分類處理,提高了分類精度。同時,變量選擇降低了維度冗余與數(shù)據(jù)存儲問題,節(jié)約了時間與成本。研究表明:在高維不平衡數(shù)據(jù)分析中,變量選擇是行之有效的預處理策略。

        1 研究背景

        1.1 問題背景

        自20世紀90年代末以來,不平衡數(shù)據(jù)處理一直是機器學習與數(shù)據(jù)挖掘領(lǐng)域的研究熱點與難點之一。近幾年,隨著大數(shù)據(jù)概念的不斷升溫,學術(shù)界及產(chǎn)業(yè)界對不平衡數(shù)據(jù)處理問題的研究熱情仍未消退且呈現(xiàn)逐漸升溫的趨勢。

        在醫(yī)療診斷中如果把正常人(多數(shù)類)誤診為疾病患者(少數(shù)類)固然會給他帶來精神上的負擔,但如果把一個疾病患者(少數(shù)類)誤診為正常人(多數(shù)類),就可能會錯過最佳治療時期,從而造成嚴重的后果。此時,少數(shù)類樣例被誤分的代價要比多數(shù)類被誤分的代價大[1]。這樣的醫(yī)療不平衡數(shù)據(jù)是普遍存在的,因此,提高不平衡數(shù)據(jù)中少數(shù)類的分類精確度,從而應(yīng)用到實際例子中,比如軟件缺陷預測、網(wǎng)絡(luò)入侵檢測、石油泄漏檢測、信用卡欺詐等領(lǐng)域,以及在代謝組學中確定穩(wěn)健的生物標志物可以幫助提供一種較好的疾病診斷方法。

        冠狀動脈粥樣硬化性心臟病,是冠狀動脈血管發(fā)生動脈粥樣硬化病變而引起血管腔狹窄或阻塞,造成心肌缺血、缺氧或壞死而導致的心臟病[2],常常被稱為“冠心病”。近幾年,隨著我國社會的快速發(fā)展和人們生活水平的提高,冠心病發(fā)病率呈現(xiàn)上升趨勢,該疾病已逐漸成為嚴重影響人們健康生活的主要疾病之一[3]。因此,對于冠心病及其并發(fā)癥數(shù)據(jù)的研究是非常重要的。

        變量選擇是統(tǒng)計分析和推斷中的重要內(nèi)容,在建模過程中往往需要通過變量選擇方法,尋找對響應(yīng)變量最具有解釋性的自變量(協(xié)變量),以此來提高模型解釋性和預測準確性,變量選擇結(jié)果的好壞影響著所建模型的質(zhì)量。變量選擇是為了減少數(shù)據(jù)集中的變量數(shù)量,它可以帶來許多好處,例如更快的模型訓練,降低過度擬合的可接受性,抵消維度冗余的影響,以及減少數(shù)據(jù)分析期間的存儲、內(nèi)存和處理要求。在類不平衡數(shù)據(jù)中特別是高維數(shù)據(jù)中,變量選擇也極其重要。

        1.2 國內(nèi)外研究情況

        在不平衡學習問題中,研究了幾種變量選擇方法。對所提出的標準方法進行分析,以檢驗這些方法是否有利于實現(xiàn)不平衡分類。Xiaojuan Zhang等人建立了一種基于偏最小二乘(PLS)判別分析(DA)結(jié)合可變迭代空間收縮法的石菖蒲與菖蒲鑒別模型。篩選出樟腦、長環(huán)烯和δ-cadinene 3種揮發(fā)物作為石菖蒲和菖蒲的關(guān)鍵鑒別因子。該方案可作為中草藥潛在生物活性成分的質(zhì)量控制和篩選的有效策略[4]。Zhongquan Xin等人建立了基于偏最小二乘(PLS)判別分析(DA)的高效判別模型,通過交叉驗證和置換檢驗對模型的可靠性和預測能力進行了評價。結(jié)果表明,色譜指紋圖譜與化學計量學方法相結(jié)合為RP的質(zhì)量控制提供了一種有效、便捷的方法,有助于揭示復雜分析樣品的化學特征[5]。Robert等人提出了一種線性模型估計的新方法—LASSO,可以應(yīng)用于各種統(tǒng)計模型的變量選擇,對廣義回歸模型和基于樹的模型的擴展進行了簡要描述[6]。

        本論文以不平衡冠心病數(shù)據(jù)為研究目的對象,對不平衡數(shù)據(jù)進行相關(guān)性分析和變量選擇處理,選出最優(yōu)子集,降低維度冗余和數(shù)據(jù)存儲,以此來改善不平衡數(shù)據(jù)的分類效果,提高少數(shù)類的分類準確率。從中探討不平衡數(shù)據(jù)處理在冠心病數(shù)據(jù)分析中的應(yīng)用價值,為冠心病防治工作提供理論依據(jù),使其能采取有效的防治措施,從整體上降低冠狀動脈粥樣硬化性心臟病的發(fā)病率。

        2 數(shù)據(jù)來源

        數(shù)據(jù)集包括21例冠心?。–HD)患者和51例健康志愿者。所有患者均來自中國云南省第一人民醫(yī)院。另外,健康對照組51例健康成人均來自同一城市,無血緣關(guān)系。采用超高效液相色譜-高分辨質(zhì)譜(UPLC-HRMS)聯(lián)用技術(shù)檢測了50種代謝產(chǎn)物。臨床特征包括年齡、收縮壓、舒張壓、空腹血糖等。一般情況下,健康人樣本比冠心病患者的樣本更容易獲得,所以這里的健康人樣本類代表的是多數(shù)類,冠心病患者樣本類代表的是少數(shù)類。本數(shù)據(jù)集無缺失數(shù)據(jù)。

        3 方案設(shè)計

        高維不平衡數(shù)據(jù)的主要特征是:變量維度高、樣本少、數(shù)據(jù)共線性嚴重、數(shù)據(jù)的不平衡度高。本文從算法層面和評價標準兩個不同層面對高維不平衡數(shù)據(jù)進行變量選擇處理。從算法層面上,采用支持向量機算法[7];評價標準使用了預測精度(Accuracy,ACC),ROC曲線及其下的面積AUROC和PRC曲線及其下的面積AUPRC來度量不平衡數(shù)據(jù)的分類性能[8]。

        本論文針對不平衡冠心病及其并發(fā)癥數(shù)據(jù),從兩個層面進行分析,并對數(shù)據(jù)進行變量選擇,以提高分類精度。具體流程如圖1所示。

        圖1 方案設(shè)計流程圖Fig.1 Plan design flowchart

        4 變量選擇對于分類的影響

        以下以冠心病數(shù)據(jù)為例,從算法和評價準則的角度,按照圖1的實驗設(shè)計方案,對高維類不平衡醫(yī)療數(shù)據(jù)進行分析。

        4.1 變量間的相關(guān)性分析

        在高維不平衡數(shù)據(jù)集中,變量之間的相關(guān)性對數(shù)據(jù)的分類效果有所影響,變量之間的相關(guān)系數(shù)越大對于數(shù)據(jù)的分類效果影響越大,尤其對于正類的分類效果產(chǎn)生很大的影響。

        本文所使用的冠心病不平衡數(shù)據(jù)集中各變量之間也存在一定的相關(guān)性。如圖2所示,顏色越深,表明兩變量之間相關(guān)性越強。中間一塊顏色最深,表明變量間存在嚴重的相關(guān)性,變量之間存在相關(guān)性會對分類結(jié)果產(chǎn)生影響,所以需要對數(shù)據(jù)集進行變量選擇。

        圖2 變量間相關(guān)系數(shù)矩陣熱圖Fig.2 Claolic coefficient matrix hot map

        4.2 變量選擇對于分類的影響

        變量選擇的目的就是剔除相關(guān)性較大的變量,醫(yī)療不平數(shù)據(jù)不僅維度高,數(shù)據(jù)間的相關(guān)性也很強,因此醫(yī)療數(shù)據(jù)的研究都離不開用變量選擇方法來提取最優(yōu)變量,以此達到降維的目的。變量選擇的過程在于去掉相關(guān)性不大的變量,把更少的變量應(yīng)用于算法研究,目的是從原始數(shù)據(jù)中選擇使得某種評估標準最優(yōu)的子集。在分類問題中,變量選擇目標是提取使分類器準確度最大化的最優(yōu)子集,僅使用一小部分變量捕獲數(shù)據(jù)集中固有的大多數(shù)信息。stabilityLASSO方法和stabilitySPLS方法都是變量選擇較為常用的方法。

        分別運用stabilityLASSO方法和stabilitySPLS方法對不平衡比為51:21的數(shù)據(jù)集進行變量選擇,根據(jù)被選擇頻次排序選出8個變量(如圖3所示)。對不平衡比為51:10的數(shù)據(jù)集進行變量選擇,根據(jù)被選擇頻次排序選出8個變量(如圖4所示)。

        圖3 不平衡比為51:21的數(shù)據(jù)集,根據(jù)被選擇頻次排序選出8個變量Fig.3 In the data set with an imbalance ratio of 51:21, 8 variables were selected according to the selected frequency

        圖4 不平衡比為51:10的數(shù)據(jù)集,根據(jù)被選擇頻次排序選出8個變量Fig.4 In the data set with an imbalance ratio of 51:10, 8 variables were selected according to the selected frequency

        根據(jù)stabilityLASSO方法和stabilitySPLS方法對不平衡數(shù)據(jù)集進行變量選擇得出的8個變量,使用支持向量機(SVW)對變量選擇后的數(shù)據(jù)集進行分類處理,結(jié)果如表1所示。

        表1 兩種方法變量選擇表Tab.1 Two methods variable selection table

        由表1得出,對數(shù)據(jù)進行變量選擇后在使用支持向量機(SVW)進行分類,AUROC、AUPRC和ACC的值均有所提高。為了能直觀的比較數(shù)據(jù)集變量選擇前后使用支持向量機(SVW)進行分類結(jié)果的變化情況,對變量選擇前后的結(jié)果進行可視化(如圖5所示)。

        圖5 不平衡比為51:10和51:21的數(shù)據(jù)集變量選擇前后在SVW分類器的結(jié)果Fig.5 Unbalance ratios of 51:10 and 51:21 data sets were selected before and after the results of the classifier

        5 結(jié)論

        不平衡數(shù)據(jù)廣泛存在于許多科學領(lǐng)域,如醫(yī)學。變量選擇也是醫(yī)學數(shù)據(jù)研究中很重要的一項問題,因此如何使用變量選擇方法很重要。本文采用LASSO和SPLS方法,對數(shù)據(jù)進行變量選擇,選出8個最優(yōu)變量作為最優(yōu)特征子集,結(jié)合支持向量機算法,提高了分類精度。同時,變量選擇降低了維度災難與數(shù)據(jù)需求問題,節(jié)約了時間與成本。

        本文的實際應(yīng)用意義在于:首先為醫(yī)療不平衡數(shù)據(jù)提供了一種可行的處理手段;其次,一些重要變量,通過變量選擇篩選出來,可以作為冠心病數(shù)據(jù)收集的重要指標進行分析;最后,體現(xiàn)了不平衡數(shù)據(jù)對醫(yī)療數(shù)據(jù)分類的重要性。同時,也為其他領(lǐng)域不平衡數(shù)據(jù)處理理論增加一種可能的實現(xiàn)依據(jù)。

        引用

        [1] 李勇,劉戰(zhàn)東,張海軍.不平衡數(shù)據(jù)的集成分類算法綜述[J].計算機應(yīng)用研究,2014,31(5):1287-1291.

        [2] 徐玲,尹婷婷,俞吉,等.冠心病冠狀動脈粥樣硬化發(fā)生的危險因素多因素Logistic分析[J].臨床和實驗醫(yī)學雜志,2019,18(6):626-629.

        [3] 路航.早發(fā)冠心病的危險因素及冠脈病變特點分析[J].中國療養(yǎng)醫(yī)學,2019,28(4):348-351.

        [4] ZHANG Xiao-juan,YI Lun-zhao,DENG Bai-chuan,et al. Discrimination of Acori Tatarinowii Rhizoma and Acori Calami Rhizoma Based on Quantitative Gas Chromatographic Fingerprints and Chemometric Methods[J].Journal of Separation Science,2015, 38(23):4078-4085.

        [5] XIN Zhong-quan,REN Da-bing-,ZHANG Xiao-juan,et al. Chromatographic Fingerprints Combined with Chemometric Methods Reveal the Chemical Features of Authentic Radix Polygalae[J].Journal of Aoac International, 2017,100(01):30-37.

        [6] Robert Tibshirani.Regression Shrinkage and Selection Via the Lasso [J].Journal of the Royal Statistical Society.Series B (Methodological), 1996,58(01):267-288.

        [7] FU Guang-hui,ZHANG Bing-yang,KOU He-dan,et al.Stable Biomarker Screening and Classification by Subsampling-based Sparse Regularization Coupled with Support Vector Machines in Metabolomics[J].Chemometrics and Intelligent Laboratory Systems, 2017(160):22-31.

        [8] YANG Ri-dong,LI Lin,CHEN Qiu-yuan,et al.Prediction of Disease-free Survival in Patients with Hepatocellular Carcinoma Based on Imbalance Classification[J].Journal of Biomedical Engineering Research,2019,38(1):27-31.

        猜你喜歡
        高維維度分類
        分類算一算
        淺論詩中“史”識的四個維度
        中華詩詞(2019年7期)2019-11-25 01:43:00
        分類討論求坐標
        一種改進的GP-CLIQUE自適應(yīng)高維子空間聚類算法
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于加權(quán)自學習散列的高維數(shù)據(jù)最近鄰查詢算法
        電信科學(2017年6期)2017-07-01 15:44:37
        光的維度
        燈與照明(2016年4期)2016-06-05 09:01:45
        “五個維度”解有機化學推斷題
        一般非齊次非線性擴散方程的等價變換和高維不變子空間
        亚洲成人福利在线观看| 亚洲悠悠色综合中文字幕| 色88久久久久高潮综合影院| 人妻献身系列第54部| 国产精品99精品一区二区三区∴| 伊人久久大香线蕉综合av| 最新中文字幕一区二区| 亚洲国产精品va在线看黑人| 四虎影视亚洲精品| 男子把美女裙子脱了摸她内裤| 熟女一区二区中文字幕| 国产我不卡在线观看免费| 欧美午夜理伦三级在线观看| a级大胆欧美人体大胆666| 免费看一级a女人自慰免费| 国产偷拍自拍在线观看| 亚洲欧洲日产国码av系列天堂| 少妇高清精品毛片在线视频| 亚洲 欧美 激情 小说 另类| 久久久婷婷综合五月天| 手机在线观看亚洲av| 国产精品会所一区二区三区| 天天影视性色香欲综合网| 麻豆国产乱人伦精品一区二区 | 久久国产成人精品国产成人亚洲| 中文字幕亚洲乱码熟女在线 | 亚洲av无码一区二区乱孑伦as| 欧美亚洲国产另类在线观看| 色婷婷精品国产一区二区三区| 国产黄色av一区二区三区| 日本丰满熟妇bbxbbxhd| 对白刺激的老熟女露脸| 日韩不卡一区二区三区色图| 人妻丰满熟妇无码区免费| 一本久道久久综合婷婷五月| 东京道一本热码加勒比小泽| 曰韩少妇内射免费播放| 国产一线二线三线女| 国产又爽又黄又不遮挡视频| 午夜一区二区三区免费观看| 手机看片久久第一人妻|