亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

CVD 預(yù)測(cè)模型精確度優(yōu)化措施探究

2022-05-05 02:26:56尹帥帥石更強(qiáng)孫旭陽(yáng)

上海理工大學(xué)學(xué)報(bào) 2022年2期

尹帥帥，石更強(qiáng)，孫旭陽(yáng)

（上海理工大學(xué) 健康科學(xué)與工程學(xué)院，上海 200093）

根據(jù)最新統(tǒng)計(jì)，全世界每年因心血管疾?。–VD）而死亡的人數(shù)約1 530 萬(wàn)人，占總死亡人數(shù)的1/4，CVD 已成為全世界高發(fā)病率和高死亡率的主要疾病[1-2]。隨著大數(shù)據(jù)技術(shù)的發(fā)展，CVD 相關(guān)診斷數(shù)據(jù)也在持續(xù)增加，為今后疾病診斷和預(yù)防提供了很好的數(shù)據(jù)基礎(chǔ)[3-4]。CVD 是由遺傳、環(huán)境、行為、疲勞等多種因素共同作用導(dǎo)致的[5]，風(fēng)險(xiǎn)預(yù)測(cè)模型可以整合這些因素，利用機(jī)器學(xué)習(xí)（ML）進(jìn)行疾病預(yù)測(cè)[6]。風(fēng)險(xiǎn)預(yù)測(cè)模型的精確度對(duì)于疾病風(fēng)險(xiǎn)分層和中危人群重分類(lèi)具有重大意義，努力提高預(yù)測(cè)模型精確度，可以及時(shí)對(duì)高危人群進(jìn)行追蹤、防控和個(gè)體化干預(yù)，減少疾病帶來(lái)的危險(xiǎn)。

目前國(guó)內(nèi)外關(guān)于風(fēng)險(xiǎn)預(yù)測(cè)模型的研究中，還沒(méi)有對(duì)如何提高CVD 風(fēng)險(xiǎn)預(yù)測(cè)模型精確度進(jìn)行系統(tǒng)性的論述。Bouwmeester 等[2]探究近期文獻(xiàn)中預(yù)測(cè)模型如果按照傳統(tǒng)方法學(xué)建議進(jìn)行建模，是否會(huì)導(dǎo)致較差的預(yù)測(cè)結(jié)果[7-9]。Wessler 等[10]通過(guò)對(duì)模型進(jìn)行總結(jié)和比較，指出現(xiàn)今預(yù)測(cè)模型存在的局限性。預(yù)測(cè)模型的分析不能僅僅局限于對(duì)預(yù)測(cè)結(jié)果的探討，而更應(yīng)該注重構(gòu)建模型的各個(gè)模塊對(duì)結(jié)果產(chǎn)生的影響。Damen 等[11]探討了預(yù)測(cè)模型的危險(xiǎn)因素、預(yù)測(cè)結(jié)果、預(yù)測(cè)性能、外部驗(yàn)證等。Siontis 等[12]收集了大量模型的區(qū)分、校準(zhǔn)、重分類(lèi)等信息，對(duì)特定信息偏差是否會(huì)影響預(yù)測(cè)模型的結(jié)果進(jìn)行評(píng)估。Cooney 等[13]和Cui[14]探討了單因素和多因素對(duì)預(yù)測(cè)結(jié)果的影響。為了更好地改善預(yù)測(cè)模型的精確度，改善青年、中年、老年同一預(yù)測(cè)模型、不同預(yù)測(cè)結(jié)果而帶來(lái)的不同個(gè)體化、精確化干預(yù)措施，本文檢索了大量文獻(xiàn)，對(duì)比了從數(shù)據(jù)選擇到最后模型評(píng)估的整個(gè)內(nèi)容，就如何提高風(fēng)險(xiǎn)預(yù)測(cè)模型精確度進(jìn)行綜合性探討。

1 文獻(xiàn)檢索與探究

1.1 文獻(xiàn)處理

文獻(xiàn)選擇：為了提高研究的價(jià)值和意義，手動(dòng)檢索了國(guó)內(nèi)外在醫(yī)學(xué)領(lǐng)域影響力較高的395 篇文獻(xiàn)，通過(guò)對(duì)每篇文獻(xiàn)的題目和摘要進(jìn)行仔細(xì)審閱，得到95 篇與研究相關(guān)的文章，通過(guò)對(duì)整篇文章閱讀與分析，剔除了非科研論文和建模不完整文獻(xiàn)，保留了余下的62 篇文獻(xiàn)。

入選原則：文獻(xiàn)必須是原創(chuàng)性研究型論文，本研究主要尋求改善預(yù)測(cè)模型精確度的方法，因此，文獻(xiàn)必須包含樣本選擇與處理、特征值選擇、預(yù)測(cè)模型搭建、預(yù)測(cè)性能探究、模型風(fēng)險(xiǎn)評(píng)估等一項(xiàng)或多項(xiàng)改善措施，文獻(xiàn)中必須包含針對(duì)某些人群的預(yù)測(cè)結(jié)果。最后對(duì)保留的62 篇文獻(xiàn)進(jìn)行交叉性和系統(tǒng)性研究，并根據(jù)項(xiàng)目的不同進(jìn)行文獻(xiàn)占比分類(lèi)。整個(gè)流程如圖1 所示。

圖1 文獻(xiàn)入選流程圖Fig.1 Flowchart of literature inclusion

1.2 數(shù)據(jù)處理

制定列表：為了更加方便直觀地展示探究結(jié)果，本文制定了列表式對(duì)比評(píng)分機(jī)制。涉及項(xiàng)目包含預(yù)測(cè)目標(biāo)、模型種類(lèi)、數(shù)據(jù)對(duì)象等[15-16]，極大地提高了數(shù)據(jù)的可利用性。

數(shù)據(jù)挖掘：數(shù)據(jù)挖掘是為了探究各預(yù)測(cè)模型之間的相同或不同之處，從中找到可以改善的方面。

精確度等級(jí)百分率：精確度作為研究的主體，根據(jù)探究目的創(chuàng)新地提出精確度等級(jí)百分率。每個(gè)模塊進(jìn)行分類(lèi)后，得到的文獻(xiàn)數(shù)目各不相同，在進(jìn)行精確度對(duì)比時(shí)，無(wú)法保證單一變量，無(wú)法消除文獻(xiàn)數(shù)目不同對(duì)結(jié)果的影響。因此，將精確度進(jìn)行等級(jí)劃分，將文獻(xiàn)各自精確度按等級(jí)歸類(lèi)，然后將等級(jí)歸類(lèi)后的文獻(xiàn)數(shù)量進(jìn)行百分率化得到聚集區(qū)，最后進(jìn)行數(shù)據(jù)分析與比較，得出所需要的數(shù)據(jù)意義。

精確度等級(jí)百分率的意義在于消除了基數(shù)不同帶來(lái)的對(duì)比影響，將不同數(shù)據(jù)利用最大化，挖掘數(shù)據(jù)潛在價(jià)值，容易得出聚集區(qū)、眾數(shù)、中位數(shù)、平均數(shù)、最大值、最小值、數(shù)值走向和各數(shù)據(jù)的意義，這是對(duì)數(shù)據(jù)挖掘思想的體現(xiàn)，對(duì)本研究至關(guān)重要。

1.3 探究?jī)?nèi)容

一個(gè)完整的預(yù)測(cè)模型一般包括4 大模塊[17]，為了尋求改善預(yù)測(cè)模型精確度的措施，本文對(duì)這4 個(gè)模塊進(jìn)行探究。

a. 樣本大小和時(shí)間間隔。對(duì)各類(lèi)文獻(xiàn)的樣本大小、時(shí)間間隔、精確度進(jìn)行數(shù)據(jù)處理、相關(guān)性分析、描述統(tǒng)計(jì)分析、橫縱向?qū)Ρ?，繪制相應(yīng)的評(píng)分表格和散點(diǎn)圖，經(jīng)數(shù)據(jù)挖掘得出最小樣本量和最小時(shí)間間隔[18]。

b. 數(shù)據(jù)來(lái)源。探究改進(jìn)電子健康記錄（EHRs）的優(yōu)勢(shì)，將不同數(shù)據(jù)來(lái)源進(jìn)行縱向精確度等量對(duì)比，得出最合適的數(shù)據(jù)來(lái)源，并對(duì)各數(shù)據(jù)來(lái)源的優(yōu)缺點(diǎn)和應(yīng)用范圍進(jìn)行分析[19]。

c. 特征。將改進(jìn)特征選擇方法的各算法進(jìn)行比較，得出最優(yōu)的特征選擇方法；比較納入新特征前后的精確度，判斷該特征是否改善了精確度；將不同特征選擇方法進(jìn)行縱向比較，判斷是否選擇更多相關(guān)的特征可以提高預(yù)測(cè)模型精確度。

d. 建模方法。對(duì)回歸分析進(jìn)行簡(jiǎn)單的分類(lèi)、對(duì)比，并對(duì)各自的適用范圍進(jìn)行敘述；對(duì)機(jī)器學(xué)習(xí)的不同算法采用統(tǒng)計(jì)、圖示的方法進(jìn)行橫向比較，得出精確度最高的最優(yōu)算法；并對(duì)以Framingham risk score（FRS）為代表的項(xiàng)目進(jìn)行簡(jiǎn)單敘述[5]。

2 分析和結(jié)果

2.1 樣本大小和時(shí)間間隔

在保證其他條件不變的情況下，樣本大小和時(shí)間間隔決定了模型的擬合程度。研究人員無(wú)法確保所獲得的樣本大小是否影響模型的擬合效果，本文通過(guò)對(duì)各類(lèi)文獻(xiàn)的研究，探究在保證一定精確度下的最小樣本量[18]。時(shí)間間隔同樣影響著擬合效果，尋找一個(gè)在不影響精確度情況下的最小時(shí)間間隔會(huì)更好地減少時(shí)間消耗[20]。

為了獲得最小樣本量和最小時(shí)間間隔，將此模塊入選的文獻(xiàn)n=43，根據(jù)風(fēng)險(xiǎn)預(yù)測(cè)評(píng)估[19]方法的不同分為3 類(lèi)：機(jī)器學(xué)習(xí)項(xiàng)目[21-22]文獻(xiàn)n=18、回歸分析項(xiàng)目[23-24]文獻(xiàn)n=15、以FRS 為代表的風(fēng)險(xiǎn)預(yù)測(cè)項(xiàng)目[25-26]文獻(xiàn)n=10，針對(duì)不同項(xiàng)目采取不同的分析方法。分析樣本總量、時(shí)間間隔、精確度三者之間的相關(guān)性，得到的相關(guān)系數(shù)如表1 所示。然后對(duì)3 類(lèi)項(xiàng)目分別進(jìn)行分析，繪制了各自的散點(diǎn)圖，如圖2～4 所示。刪除影響整體分析的數(shù)據(jù)，建立剩余數(shù)據(jù)的散點(diǎn)圖，如圖2（c）、4（c）所示，并對(duì)散點(diǎn)圖進(jìn)行趨勢(shì)性分析。對(duì)3 類(lèi)項(xiàng)目進(jìn)行描述統(tǒng)計(jì)分析，確定各值的意義，具體數(shù)據(jù)如表2 所示。

表1 相關(guān)系數(shù)表Tab.1 Correlation coefficients table

表1 列出了樣本大小、時(shí)間間隔、精確度三者的相關(guān)系數(shù)。由表1 可見(jiàn)：樣本大小與時(shí)間間隔相關(guān)系數(shù)較小，表明兩者數(shù)據(jù)幾乎平行，存在微弱相關(guān)性，符合通常認(rèn)定；樣本大小和時(shí)間間隔分別與精確度存在一定的因果關(guān)系，所以合適的樣本大小和時(shí)間間隔可以影響精確度。

在機(jī)器學(xué)習(xí)項(xiàng)目的樣本大小和精確度的散點(diǎn)圖2（a）中，點(diǎn)主要分布在精確度為0.8～0.9、樣本大小為0～5 000 的區(qū)間。進(jìn)一步分析點(diǎn)密集的地方，在圖2（c）中，點(diǎn)主要分布在5 000 左右。在表2 中，關(guān)于機(jī)器學(xué)習(xí)項(xiàng)目的樣本大小中，中位數(shù)為4 103，方差為2.55×108，表明這些數(shù)據(jù)整體比較離散，采取中位數(shù)對(duì)這16 個(gè)觀測(cè)數(shù)進(jìn)行統(tǒng)計(jì)具有一定的意義。由圖2（c）的上升趨勢(shì)可以得出，為了保證精確度在0.8～0.9 之間，最合適的最小樣本量在4 000～5 000 之間。在時(shí)間間隔與精確度圖2（b）中，點(diǎn)主要分布在精確度為0.8～1.0、時(shí)間間隔為5～7 a 的區(qū)間，散點(diǎn)圖的線(xiàn)性趨勢(shì)為下降趨勢(shì)，所以初步得出最合適的時(shí)間間隔為5 a。表2 機(jī)器學(xué)習(xí)項(xiàng)目的時(shí)間間隔中，方差為1.183，說(shuō)明數(shù)據(jù)比較聚集，眾數(shù)和中位數(shù)都為5，綜上可得，最合適的最小時(shí)間間隔為5 a。

圖2 機(jī)器學(xué)習(xí)項(xiàng)目各類(lèi)散點(diǎn)圖Fig.2 Scatter diagram of various types of machine learning projects

在回歸分析項(xiàng)目的樣本大小和精確度散點(diǎn)圖3（a）中，去掉樣本的最大值和最小值，點(diǎn)主要分布在精確度為0.75～0.80、樣本大小為0～10 000的區(qū)間。在表2 回歸分析項(xiàng)目的樣本大小中，中位數(shù)為6 894，方差為1.89×109，數(shù)據(jù)較分散，點(diǎn)主要分布在4 000～7 000 之間，結(jié)合散點(diǎn)圖下降趨勢(shì)，得出在保證精確度較高的情況下，最合適的最小樣本量在4 000～7 000 之間。在時(shí)間間隔與精確度圖3（b）中，精確度為0.75～0.85 之間，時(shí)間間隔對(duì)應(yīng)的點(diǎn)較分散，散點(diǎn)圖無(wú)法得出一個(gè)好的結(jié)論。表2回歸分析項(xiàng)目中，時(shí)間間隔平均數(shù)為7.267，中位數(shù)為6，眾數(shù)為5，結(jié)合這些數(shù)據(jù)的意義，點(diǎn)主要分布在5～7 a 之間，且最大精確度分布在這個(gè)區(qū)間。因此，為了提供一個(gè)較大的精確度上限，采取的最合適的最小時(shí)間間隔為5～7 a。

表2 樣本大小和時(shí)間間隔描述統(tǒng)計(jì)表Tab.2 Statistics of sample size and time interval

圖3 回歸分析項(xiàng)目各類(lèi)散點(diǎn)圖Fig.3 Scatter diagram of each type of regression analysis project

在FRS 風(fēng)險(xiǎn)預(yù)測(cè)項(xiàng)目的樣本大小和精確度的散點(diǎn)圖4（a）中，點(diǎn)主要分布在精確度為0.70～0.85、樣本大小為0～50 000 的區(qū)間，但線(xiàn)性趨勢(shì)呈上升趨勢(shì)，意味著樣本越大精確度越高。在圖4（c）中，去掉影響較大的10 萬(wàn)級(jí)數(shù)據(jù)，點(diǎn)主要分布在5 000～10 000 之間，但總體來(lái)說(shuō)精確度相對(duì)較小，為保證精確度在0.80 以上，對(duì)應(yīng)的圖4（b）中，時(shí)間間隔必須為10 a 以上。考慮到圖4（a）后半部分精確度較高，無(wú)法忽略，在樣本大小200 000～250 000、精確度0.80～0.85 之間，這些點(diǎn)對(duì)應(yīng)圖4（b）中時(shí)間間隔為5～7 a 之間的點(diǎn)。趨勢(shì)線(xiàn)呈正相關(guān)，樣本容量越大，時(shí)間間隔越大，則精確度越高。所以為了保證精確度在0.80 以上，若采取較小樣本量在5 000～10 000 之間，最小時(shí)間間隔必須在10 a 以上。若采取大樣本量200 000 以上，最小時(shí)間間隔建議在5～7 a 之間。

圖4 FRS 風(fēng)險(xiǎn)預(yù)測(cè)項(xiàng)目各類(lèi)散點(diǎn)圖Fig.4 Scatter diagram of various types of FRS risk prediction projects

2.2 數(shù)據(jù)來(lái)源

不同的數(shù)據(jù)來(lái)源提供的醫(yī)學(xué)信息準(zhǔn)確性和全面性各不相同，且導(dǎo)致對(duì)未來(lái)的預(yù)測(cè)各不相同[19]，不同的數(shù)據(jù)來(lái)源獲取的困難程度也各不相同[27]。

本文將數(shù)據(jù)來(lái)源模塊檢索的文獻(xiàn)n=50，根據(jù)數(shù)據(jù)獲取途徑的不同分為4 類(lèi)：改進(jìn)電子健康記錄（EHRs）[21,28]，文獻(xiàn)n=10；普通隨訪(fǎng)調(diào)查[26,29]，文獻(xiàn)n=20；醫(yī)院體檢數(shù)據(jù)[30-31]，文獻(xiàn)n=10；UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)UCI[32-33]，文獻(xiàn)n=10。為了保證等量對(duì)比且數(shù)據(jù)具有隨機(jī)性，利用Python 軟件的random 函數(shù)，從普通隨訪(fǎng)調(diào)查的20 個(gè)樣本中隨機(jī)選取10 個(gè)樣本，將每個(gè)序號(hào)與列表中的精確度一一對(duì)應(yīng)，形成等量樣本。為了探究EHRs 是否改善了精確度，將使用EHRs 與未使用的數(shù)據(jù)進(jìn)行對(duì)比，如圖5 所示。將上述4 類(lèi)數(shù)據(jù)來(lái)源進(jìn)行等量對(duì)比，經(jīng)過(guò)列表升序和散點(diǎn)圖繪制，如圖6 所示，得出對(duì)精確度綜合效果最好的數(shù)據(jù)來(lái)源。

圖5 EHRs 使用前后精確度對(duì)比圖Fig.5 Comparison of accuracy before and after the use of EHRS

圖6 數(shù)據(jù)來(lái)源精確度對(duì)比圖Fig.6 Comparison of accuracy from different data sources

圖5 對(duì)比了模型開(kāi)發(fā)過(guò)程中EHRs 使用與否的精確度，從圖中可以看出，使用EHRs 數(shù)據(jù)的模型精確度普遍高于未使用的精確度。在使用EHRs 的散點(diǎn)圖中，80% 的模型精確度高于0.8。因此，EHRs 的使用可以很好地改善模型的精確度，且保持在一個(gè)較高的精確度水平。

圖6 將不同數(shù)據(jù)來(lái)源的精確度進(jìn)行了對(duì)比，可以看到采用UCI 的模型其精確度普遍高于其他數(shù)據(jù)來(lái)源，精確度在0.8 以上的點(diǎn)為100%，在0.9 以上的點(diǎn)為50%；采用EHRs 數(shù)據(jù)和醫(yī)院體檢數(shù)據(jù)的模型，精確度很接近，在0.8 以上的點(diǎn)為80%；采用普通隨訪(fǎng)調(diào)查的數(shù)據(jù)，精確度相對(duì)較低，在0.8 以上的點(diǎn)為50%，但都低于0.85，且下限值較低。EHRs 具有良好的時(shí)序特征，將EHRs應(yīng)用于機(jī)器學(xué)習(xí)，利用EHRs 數(shù)據(jù)的高維性，挖掘數(shù)據(jù)內(nèi)部關(guān)系，可以極大地提高模型精確度[34]。并且，由于EHRs 數(shù)據(jù)的豐富性，可以在一定程度上減少樣本的使用量[4]。醫(yī)院體檢數(shù)據(jù)具有較高的準(zhǔn)確性，但是獲取困難，人工處理量大，增加了模型的開(kāi)發(fā)時(shí)間。普通隨訪(fǎng)調(diào)查雖然數(shù)據(jù)獲取容易，且可以獲得更廣大的樣本量，但是數(shù)據(jù)的準(zhǔn)確度不高，數(shù)據(jù)之間的聯(lián)系較差，人工消耗量較大，針對(duì)性不強(qiáng)。所以建議采用EHRs 數(shù)據(jù)，這樣既可以保證模型具有較高的精確度，而且數(shù)據(jù)獲取容易且全面。

2.3 特征

CVD 由多種危險(xiǎn)因素引起，更好的特征組合可以實(shí)現(xiàn)更加精確的預(yù)測(cè)效果[27]。不同特征選擇方法可以得到不同的特征組合，為了得到最好的特征選擇方法，本文將檢索的文獻(xiàn)n=38 分為3 類(lèi)：改進(jìn)特征選擇方法項(xiàng)目[27,33]n=12、納入新特征項(xiàng)目[35-36]n=10、基礎(chǔ)特征項(xiàng)目[21]n=16?；A(chǔ)特征包括年齡、性別、血壓等目前預(yù)測(cè)模型中經(jīng)常采用的特征[24]；納入新特征指在基礎(chǔ)特征上，添加了一些研究者認(rèn)為可能跟CVD 風(fēng)險(xiǎn)相關(guān)的危險(xiǎn)因素[36]，本文將比較納入新特征前后的精確度，如圖7 所示。改進(jìn)特征選擇方法是利用新的算法從數(shù)據(jù)中挖掘與CVD 有關(guān)的特征[37-38]，通過(guò)列表評(píng)分機(jī)制，如表3 所示，得出最佳特征選擇算法和特征個(gè)數(shù)。為了消除基數(shù)不同產(chǎn)生的影響，采用直方圖和精確度等級(jí)百分率進(jìn)行3 類(lèi)項(xiàng)目對(duì)比，如圖8 所示，得到最有利于精確度的特征選擇方法。

圖7 新特征納入前后對(duì)比圖Fig.7 Comparison chart before and after the inclusion of new features

圖7 將納入新特征前后的精確度進(jìn)行了對(duì)比，納入新特征的趨勢(shì)線(xiàn)始終高于未納入特征的趨勢(shì)線(xiàn)，說(shuō)明在模型中加入新特征可以很好地改善模型的精確度，并且使模型精確度高于0.8 的百分率從10%提高到了50%。

表3 列出了改進(jìn)特征選擇方法的各種算法、精確度以及特征個(gè)數(shù)，由表3 可得，精確度在0.8 以上的占90% 以上，在0.9 以上的占40%以上，這說(shuō)明改進(jìn)特征算法可以很好地提高精確度。在采取的算法中，頻數(shù)最多的是relief 法和DT 法，都為3，relief 法最大精確度為0.991，DT 法最大精確度為0.966，可以看出采用relief 法和DT 法具有很高的精確度上限，被廣泛使用。通過(guò)分析，特征個(gè)數(shù)建議為11～14 個(gè)。

表3 改進(jìn)特征選擇方法列表評(píng)分機(jī)制Tab.3 List scoring mechanism for improved feature selection methods

在圖8 中，直方圖顯示了各區(qū)間的精確度頻數(shù)，改進(jìn)特征選擇方法項(xiàng)目精確度在0.8～1.0 的占91.67%，0.9～1.0 的占41.67%；納入新特征項(xiàng)目精確度在0.8～1.0 的占50%，0.9～1.0 的占比為0；基礎(chǔ)特征項(xiàng)目精確度在0.8～1.0 的占50%，0.9～1.0 的占比為0，說(shuō)明改進(jìn)特征選擇算法相比于其他兩類(lèi)項(xiàng)目具有較高的精確度。精確度等級(jí)百分率主要反映了各項(xiàng)目的未來(lái)潛質(zhì)，基礎(chǔ)特征和納入新特征趨勢(shì)線(xiàn)較高的地方主要集中在0.75～0.85之間，在0.85 以上逐漸下降，而改進(jìn)特征選擇方法在0.9 以上仍為上升趨勢(shì)，具有較好的未來(lái)潛質(zhì)。

圖8 不同特征選擇方法的精確度對(duì)比圖Fig.8 Comparison of accuracy for different feature selection methods

2.4 建模方法

開(kāi)發(fā)模型的目的決定了采用模型的類(lèi)別，模型類(lèi)別的選擇在一定程度上也決定了模型的精確度。

為了獲得精確度更高的建模算法，將n=58 篇文獻(xiàn)根據(jù)建模目的分為3 類(lèi)：回歸分析項(xiàng)目[36,39]n=26、機(jī)器學(xué)習(xí)項(xiàng)目[33,40]n=28、FRS 風(fēng)險(xiǎn)預(yù)測(cè)項(xiàng)目[19,26]n=4?；貧w分析又分為：logistic 邏輯回歸，該類(lèi)別不分析；Cox 比例回歸，n=17。采用精確度等級(jí)百分率的評(píng)分形式，如圖9 所示。機(jī)器學(xué)習(xí)項(xiàng)目又分為集成學(xué)習(xí)、比較多算法、單一算法[27]。集成學(xué)習(xí)因不同文獻(xiàn)之間具有等量類(lèi)別的相同集成方法，所以采用精確度平均值，對(duì)不同集成方法進(jìn)行精確度比較，如圖10 所示。圖中：RFBM 表示隨機(jī)森林Bagging 法；GBBM 表示梯度法；KNNBM表示k近鄰Bagging 法；ABBM 表示AdaBoost 提升法；DTBM 表示決策樹(shù)Bagging法。比較多算法是將每篇文獻(xiàn)中最大精確度對(duì)應(yīng)的算法和在所有文獻(xiàn)中的使用頻數(shù)統(tǒng)計(jì)出來(lái)，如圖11 所示。圖中：XGBOOST 表示XGBoost 提升算法；DBN 表示動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)算法；SVM 表示支持向量機(jī)算法；LR 表示邏輯回歸算法；DL 表示深度學(xué)習(xí)算法；HTC 表示混合算法。單一算法采用精確度等級(jí)百分率進(jìn)行統(tǒng)計(jì)分析；最后采用列表評(píng)分機(jī)制，對(duì)機(jī)器學(xué)習(xí)的各種方法進(jìn)行精確度百分率比較，如表4 所示。

表4 不同算法精確度等級(jí)百分率Tab.4 Percentage of accuracy grade of different algorithms

圖9 Cox 比例回歸精確度等級(jí)直方圖Fig.9 Histogram of accuracy grade for Cox proportional regression

圖10 集成算法分布直方圖Fig.10 Distribution histogram of ensemble algorithm

圖11 比較多算法的最高精確度的頻數(shù)分布圖Fig.11 Frequency distribution chart of maximum accuracy of comparative multiple algorithms

從圖9 可以看出，頻數(shù)主要分布在精確度0.75～0.80 之間，且頻數(shù)百分率在此區(qū)間最大，之后迅速下降，說(shuō)明采用Cox 比例風(fēng)險(xiǎn)模型精確度普遍較低，這是由于Cox 模型的本質(zhì)和建模的目的導(dǎo)致的。

集成學(xué)習(xí)指將Bagging 和Boosting 分類(lèi)器和各種算法組合在一起的不同算法。圖10 展示了不同文獻(xiàn)的不同集成算法的精確度平均值分布，從圖中得到，精確度都超過(guò)了0.85，而采用RFBM 算法精確度高達(dá)0.991，接近于1，所以采用集成算法可以很大程度上改善精確度。

圖11 是比較多算法類(lèi)別的直方圖和折線(xiàn)圖，n=11，將每篇文獻(xiàn)精確度最大的算法統(tǒng)計(jì)出來(lái)繪制了直方圖，其中RF 算法的精確度最高，所以采用RF 算法具有較高的精確度上限。SVM 使用次數(shù)最多，為4 次，占所統(tǒng)計(jì)的36.36%，說(shuō)明SVM 算法不僅使模型精確度提高而且是廣為使用的算法。折線(xiàn)圖顯示了統(tǒng)計(jì)的精確度最高算法在每篇文獻(xiàn)中的使用頻數(shù)，HTC 為1，將其去除，SVM 為10，使用最廣。圖中列出的這些算法在每篇文獻(xiàn)中的使用率達(dá)到了75%，甚至100%，除列出的算法外， DT，KNN 也是常用的算法。所以研究者如果采用比較多算法進(jìn)行建模，建議采用SVM，DBN，LR，DL，RF，DT，KNN 等精確度較高的算法進(jìn)行比較。

表4 進(jìn)行了不同算法之間的比較，集成學(xué)習(xí)類(lèi)別精確度普遍高于其他兩類(lèi)，而精確度在0.9～1.0 的百分率更高達(dá)80%；其他兩類(lèi)算法，精確度在0.8～1.0 相差較小，但單一算法精確度在0.9～1.0 之間的百分率為22.22%，高于比較多算法。因此，從以上分析得出，為了使開(kāi)發(fā)的模型具有較高的精確度，建議采用集成學(xué)習(xí)。

3 結(jié) 論

本研究對(duì)檢索文獻(xiàn)的各個(gè)模塊進(jìn)行了詳細(xì)的審閱和分析，根據(jù)探究目的將文獻(xiàn)進(jìn)行不同歸類(lèi)，各類(lèi)別之間文獻(xiàn)有交叉。由于數(shù)據(jù)的多樣性，對(duì)不同模塊采取不同的數(shù)據(jù)處理方式，為了消除基數(shù)差異影響，本研究創(chuàng)立精確度等級(jí)百分率數(shù)據(jù)評(píng)分機(jī)制，利用精確度平均法消除不同類(lèi)別的復(fù)雜度，采用random 隨機(jī)函數(shù)保證了獲取數(shù)據(jù)的隨機(jī)性。最后得到了不同模塊對(duì)應(yīng)的建議性改善措施。

在模型中加入新的特征，不僅提高了模型的精確度，更重要是改善了疾病閾值問(wèn)題，更加細(xì)化了高危人群治與不治的難題。利用Cox 比例風(fēng)險(xiǎn)模型，驗(yàn)證了新特征與CVD 的相關(guān)性，可以幫助科研人員探求CVD 分子發(fā)病機(jī)制和基因的靶向治療。

改進(jìn)特征選擇項(xiàng)目之所以具有較高的精確度，是因?yàn)椴捎锰卣鬟x擇算法能夠很好地挖掘樣本中的數(shù)據(jù)，可以從幾百個(gè)特征中篩選出與CVD極度相關(guān)的11～14 個(gè)特征，保證了模型與數(shù)據(jù)的相容性和關(guān)聯(lián)性。而基礎(chǔ)特征項(xiàng)目建模前已經(jīng)確定了各標(biāo)簽，用數(shù)據(jù)向標(biāo)簽靠攏，發(fā)揮不了數(shù)據(jù)應(yīng)有的潛力，阻止了數(shù)據(jù)與模型之間的較好聯(lián)系，導(dǎo)致精確度往往偏低。納入新特征項(xiàng)目一般采用Cox 比例風(fēng)險(xiǎn)模型，為了驗(yàn)證新特征與預(yù)測(cè)結(jié)果的關(guān)聯(lián)性，精確度在0.8 左右滿(mǎn)足了預(yù)測(cè)效果。

總的來(lái)說(shuō)，通過(guò)對(duì)文獻(xiàn)各個(gè)模塊進(jìn)行數(shù)據(jù)處理、數(shù)據(jù)挖掘、圖標(biāo)分析，得到了對(duì)模型精確度比較理想的各種改善措施。但是由于時(shí)間和人力限制，檢索的文獻(xiàn)相對(duì)較少，即使針對(duì)某一模塊的文獻(xiàn)數(shù)量充足，但是將其進(jìn)行再分類(lèi)后，各類(lèi)別數(shù)量變得更少。雖然文獻(xiàn)數(shù)量不影響數(shù)據(jù)分析，但在一定程度上會(huì)影響圖形擬合，導(dǎo)致分析結(jié)果與事實(shí)存在一定誤差。綜合來(lái)看，本文得出的各種改善措施，都可以在一定程度上優(yōu)化模型，減少模型運(yùn)行量和時(shí)間消耗，對(duì)未來(lái)研究者開(kāi)發(fā)模型具有重大指導(dǎo)性意義。