崔偉鋒 林萍 劉蕭蕭 郭泉瀅
(1河南省中醫(yī)藥研究院,河南 鄭州 450004;2河南中醫(yī)藥大學(xué))
高血壓發(fā)病率逐年上升,其并發(fā)癥具有較高的致殘、致死率,已成為影響全球疾病負(fù)擔(dān)的首要危險(xiǎn)因素〔1〕。高血壓最常見的并發(fā)癥是心、腦、腎等靶器官的損傷,其中又以心血管疾病最為常見〔2〕。目前關(guān)于原發(fā)性高血壓預(yù)后危險(xiǎn)因素的研究有很多,但缺少中醫(yī)臨床表現(xiàn)、中醫(yī)證型等中醫(yī)證候相關(guān)信息。目前臨床研究中大多以血壓及癥狀等指標(biāo)為效應(yīng)指標(biāo),對(duì)于評(píng)判預(yù)后更有意義的心腦血管終點(diǎn)事件等結(jié)局指標(biāo)缺乏研究〔3,4〕。預(yù)測(cè)模型研究多以線性關(guān)系預(yù)測(cè)模型為主,尚未建立基于復(fù)雜關(guān)系的預(yù)后模型方法。本研究納入血管功能評(píng)價(jià)及中醫(yī)元素探索建立基于人工神經(jīng)網(wǎng)絡(luò)的原發(fā)性高血壓心血管風(fēng)險(xiǎn)預(yù)后模型。本研究結(jié)果能夠?qū)Ω哐獕侯A(yù)后進(jìn)行全面評(píng)估,提供更為準(zhǔn)確的預(yù)后預(yù)判,有助于臨床工作者向患者及家屬提供更為精準(zhǔn)的預(yù)后信息、為臨床原發(fā)性高血壓心血管的防治及決策提供依據(jù),并可探索建立預(yù)后模型構(gòu)建的方法學(xué)。
1.1研究對(duì)象 于2001~2016年在全國(guó)高血壓中醫(yī)診療中心建立高血壓隊(duì)列人群,選取其中原發(fā)性高血壓患者為研究對(duì)象。納入標(biāo)準(zhǔn):①符合原發(fā)性高血壓診斷標(biāo)準(zhǔn);②年齡在18歲以上;③病程在5年以上;④可以接受隨訪。采用調(diào)查表完成基線的采集和隨訪,基線采集包括年齡、性別、病程、有無(wú)早發(fā)心血管病家族史、身高、體重、腰圍、臀圍、吸煙史、飲酒史、情緒、睡眠、飲食習(xí)慣、運(yùn)動(dòng)量、總膽固醇(TC)、三酰甘油(TG)、高密度蛋白膽固醇(HDL-C)、低密度脂蛋白膽固醇(LDL-C);血糖:空腹血糖、餐后2 h血糖、糖化血紅蛋白、空腹血胰島素;電解質(zhì):鉀(K)、鈉(Na);腎功:尿素氮、肌酐、尿酸;血同型半胱氨酸、頸股脈搏波傳導(dǎo)速度(cfPWV)、頸橈脈搏波傳導(dǎo)速度(crPWV)、踝肱脈搏波傳導(dǎo)速度(baPWV)、踝臂壓指數(shù)(ABI)等;血管內(nèi)皮功能檢測(cè):血流介導(dǎo)的血管舒張功能(FMD)、中心動(dòng)脈壓;心功能檢查:左室后壁厚度、室間隔厚度,左室射血分?jǐn)?shù)(EF)、左室舒張末期內(nèi)徑;頭暈、頭痛、心悸、心慌、易怒、耳鳴、口干苦、面紅、失眠、水腫;辯證結(jié)果。隨訪時(shí)間為2015年1月至2016年12月。隨訪主要心血事件發(fā)生情況及時(shí)間。主要心血管事件包括:腦血管死亡、腦梗死、腦出血、心肌梗死。
1.2統(tǒng)計(jì)學(xué)方法 分別采用R語(yǔ)言進(jìn)行統(tǒng)計(jì)分析。計(jì)量資料符合正態(tài)分布的使用均數(shù)±標(biāo)準(zhǔn)差表示,進(jìn)行獨(dú)立樣本t檢驗(yàn);不符合正態(tài)分布則用中位數(shù)(四分位間距)表示,采用秩和檢驗(yàn)進(jìn)行分析。計(jì)數(shù)資料的構(gòu)成比使用頻數(shù)(百分?jǐn)?shù))表示,使用χ2檢驗(yàn)或Fisher確切概率法進(jìn)行分析。使用COX回歸分析對(duì)可能與預(yù)后相關(guān)的因素進(jìn)行篩選。以P<0.05為差異具有統(tǒng)計(jì)學(xué)意義,對(duì)篩選后的變量進(jìn)行共線性診斷,將存在嚴(yán)重共線性的變量進(jìn)行刪減或替換。用R語(yǔ)言將數(shù)據(jù)按照7∶3的比例隨機(jī)分成訓(xùn)練集和測(cè)試集,使用R語(yǔ)言構(gòu)建預(yù)后預(yù)測(cè)模型,決策樹模型使用“party”包,隨機(jī)森林模型使用“random Forest”包,支持向量機(jī)模型使用“e1071”包,人工神經(jīng)網(wǎng)絡(luò)模型使用“nnet”模型。構(gòu)建預(yù)后預(yù)測(cè)模型,基于訓(xùn)練集的數(shù)據(jù)將各個(gè)變量代入算法進(jìn)行建模,然后在測(cè)試集中驗(yàn)證。模型預(yù)測(cè)的效力使用混合矩陣評(píng)估其準(zhǔn)確性。
2.1病例分布情況 共納入了1 000例原發(fā)性高血壓患者,剔除無(wú)法完成隨訪的病例后,共有985例進(jìn)入分析,隨訪時(shí)的平均年齡為(55.82±5.80)歲,平均病程(10.60±4.20)年,有早發(fā)心血管病家族史者431例(43.8%),基線血壓水平在正常范圍內(nèi)的為280例(28.4%),基線血壓水平達(dá)高血壓1級(jí)的有581例(59.9%),2級(jí)者95例(9.6%),3級(jí)者29例(2.9%)。男性有833例(84.6%),吸煙史者有295例(30.0%),有飲酒史者384例(39.0%);在運(yùn)動(dòng)量方面:經(jīng)常運(yùn)動(dòng)427例(43.4%)、有時(shí)運(yùn)動(dòng)311例(31.6%)、很少運(yùn)動(dòng)247例(25.1%);睡眠情況:很好536例(54.4%)、時(shí)好時(shí)壞293例(29.7%)、較差156例(15.8%);情緒:經(jīng)常有不良情緒263例(26.7%)、很少有不良情緒430例(43.7%)、幾乎無(wú)不良情緒292例(29.6%);飲食習(xí)慣:高脂肪飲食186例(18.9%)、一般飲食456例(46.3%)、很清淡飲食343例(34.8%)。985例患者經(jīng)查閱整理病例資料及隨訪資料,至隨訪結(jié)束時(shí),212例(21.5%)腦梗死,8例(0.8%)腦血管病死亡;26例次(2.6%)腦出血,38例次(1.7%)心肌梗死,合計(jì)284例患者發(fā)生終點(diǎn)事件。體重指數(shù)(BMI):未發(fā)生終點(diǎn)事件(26.89±4.31)kg/m2、發(fā)生終點(diǎn)事件(26.39±3.63)kg/m2;糖代謝異常:正常719例(73.0%)、異常266例(27.0%);脂代謝正常584例(59.3%)、異常401例(40.7%);血同型半胱氨酸(Hcy): 未發(fā)生終點(diǎn)事件(15.67±6.97) μmol/L、發(fā)生終點(diǎn)事件(17.18±7.58)μmol/L;平均ABI:未發(fā)生終點(diǎn)事件1.15±0.46、發(fā)生終點(diǎn)事件1.13±0.09;cfPWV:未發(fā)生終點(diǎn)事件(8.88±2.65)m/s、發(fā)生終點(diǎn)事件(8.77±2.60 )m/s;平均動(dòng)脈壓:未發(fā)生終點(diǎn)事件(103.98±9.30)mmHg、發(fā)生終點(diǎn)事件(100.96±12.13)mmHg;頭暈578例(58.6%);頭痛535例(54.3%);氣虛血瘀證164例(16.6%);陰虛陽(yáng)亢證51例(5.2%);肝腎陰虛證207例(21.0%);陰陽(yáng)兩虛證11例(1.1%)。
2.2確定建模變量 以是否發(fā)生心血管風(fēng)險(xiǎn)為因變量,影響心血管風(fēng)險(xiǎn)的因素為自變量構(gòu)建風(fēng)險(xiǎn)比例模型,經(jīng)COX單因素、多因素篩選(多因素分析前共線性診斷后對(duì)同類變量進(jìn)行刪除或合并),從48個(gè)變量中共篩選出13個(gè)變量〔病程、性別、早發(fā)心血管病家族史、BMI、飲食習(xí)慣、Hcy、平均ABI、平均動(dòng)脈壓、FMD、氣虛血瘀證、陰虛陽(yáng)亢證、肝腎陰虛證、陰陽(yáng)兩虛證〕與心血管風(fēng)險(xiǎn)相關(guān)。參考相關(guān)文獻(xiàn)〔5,6〕數(shù)據(jù)并考慮模型的預(yù)測(cè)全面性及預(yù)測(cè)能力。糖耐量異常、脂代謝異常、cfPWV均與心、腦血管疾病的發(fā)生密切相關(guān),影響原發(fā)性高血壓患者的預(yù)后,高血壓首發(fā)癥狀頭暈(14.0%)、頭痛(6.9%)本研究發(fā)生頻率較高。最終確定這些變量進(jìn)入預(yù)后模型的變量。對(duì)以上18個(gè)變量進(jìn)行共線性診斷,發(fā)現(xiàn)這18個(gè)變量的容忍度均>0.1,方差膨脹因子均<10,各變量之間不存在共線性。見表1。
表1 建模變量的共線性診斷
2.3決策樹模型 在模型訓(xùn)練方面,混淆矩陣提示決策樹模型訓(xùn)練集中的總體錯(cuò)誤率為28.7%,說(shuō)明模型對(duì)訓(xùn)練集分類的效果尚可。決策樹模型如圖1所示。
2.4隨機(jī)森林模型 隨機(jī)森林建模變量的重要程度分析得出BMI、Hcy、平均ABI、平均動(dòng)脈壓等變量對(duì)模型的正確率貢獻(xiàn)較大,見圖2。在模型訓(xùn)練方面,混淆矩陣提示隨機(jī)森林模型訓(xùn)練集中的總體錯(cuò)誤率為28.7%,提示隨機(jī)森林模型對(duì)訓(xùn)練集數(shù)據(jù)的分析能力尚可。見表2。
2.5支持向量機(jī) 支持向量機(jī)同樣無(wú)法實(shí)現(xiàn)計(jì)算過(guò)程及模型的可視化,構(gòu)建支持向量機(jī)模型后,觀察模型對(duì)訓(xùn)練集數(shù)據(jù)的解析,其訓(xùn)練集的混淆矩陣提示總體錯(cuò)誤率為24.2%,模型對(duì)訓(xùn)練集分類的效果相對(duì)較好,預(yù)測(cè)正確率可達(dá)75%以上。見表2。
2.6人工BP神經(jīng)網(wǎng)絡(luò) BP神經(jīng)網(wǎng)絡(luò)模型是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,能夠通過(guò)反向傳播來(lái)不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,降低網(wǎng)絡(luò)模型的誤差〔2〕。本研究中BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練集混淆矩陣提示總體錯(cuò)誤率為19.1%,模型對(duì)訓(xùn)練集分類的效果較好,預(yù)測(cè)正確率也在80%以上。見表2。
2.7模型評(píng)估與比較 使用測(cè)試集數(shù)據(jù)對(duì)4個(gè)模型進(jìn)行評(píng)估與對(duì)比,具體方法是將測(cè)試集數(shù)據(jù)分別代入4種模型,驗(yàn)證并評(píng)估模型對(duì)是否發(fā)生終點(diǎn)事件的預(yù)測(cè)能力。結(jié)果提示支持向量機(jī)對(duì)測(cè)試集病例是否發(fā)生復(fù)合終點(diǎn)事件的預(yù)測(cè)更為準(zhǔn)確,其次為隨機(jī)森林和決策樹,而人工BP神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性最低。見表3。
圖1 決策樹模型
圖2 隨機(jī)森林模型中變量的重要度
表2 隨機(jī)森林、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練集混淆矩陣(n)
表3 4種模型測(cè)試集混淆矩陣(n)
機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論等多個(gè)學(xué)科,本質(zhì)上是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,通過(guò)訓(xùn)練、學(xué)習(xí)大量的樣本集得出需要的參數(shù)或模式,不斷調(diào)整和改進(jìn)自身已有的知識(shí)結(jié)構(gòu)和性能,是人工智能的核心部分〔7〕。本研究中所用到的決策樹、隨機(jī)森林、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)算法均屬于機(jī)器學(xué)習(xí)算法,且對(duì)數(shù)據(jù)的分布形式無(wú)特殊要求,適用性較廣,能夠很好地適應(yīng)臨床工作中各種各樣的數(shù)據(jù)形式。
決策樹算法是一種樹狀結(jié)構(gòu),通常分為兩個(gè)階段:決策樹的構(gòu)建和修剪;決策樹的每個(gè)節(jié)點(diǎn)代表一個(gè)屬性,每個(gè)分枝代表它在上一節(jié)點(diǎn)屬性上的可能取值,通過(guò)這種方式構(gòu)建一種分類規(guī)則,每一個(gè)根節(jié)點(diǎn)到葉的路徑都代表了一種分類規(guī)則〔8〕。其優(yōu)勢(shì)是能夠?qū)崿F(xiàn)模型推導(dǎo)過(guò)程的可視化,便于理解和傳播。但其不足之處則是由于建模過(guò)程過(guò)于簡(jiǎn)單,導(dǎo)致其對(duì)異常值的處理能力不足〔9,10〕。
隨機(jī)森林是基于決策樹算法的分類器,能夠利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè),最后通過(guò)綜合多棵決策樹的表決結(jié)果來(lái)進(jìn)行類別判斷〔11〕。其優(yōu)勢(shì)在于能夠自動(dòng)探索對(duì)類別具有較大幫助的變量,進(jìn)而構(gòu)建出類別差異明顯的分類器,對(duì)線性和非線性數(shù)據(jù)均能進(jìn)行分類〔12〕,適用性較廣。其局限性在于難以實(shí)現(xiàn)整個(gè)森林的可視化,且在處理某些噪聲較大的數(shù)據(jù)集時(shí)容易出現(xiàn)過(guò)度擬合的情況,因此在使用該算法過(guò)程中要注重對(duì)變量的篩選。支持向量機(jī)通過(guò)數(shù)據(jù)的結(jié)構(gòu)化,將不同類別的數(shù)據(jù)之間的差異問(wèn)題轉(zhuǎn)化為空間結(jié)構(gòu)上的距離問(wèn)題,通過(guò)尋找數(shù)據(jù)結(jié)構(gòu)上的最大距離,從而對(duì)數(shù)據(jù)進(jìn)行分類,這種維度的轉(zhuǎn)換,可以降低分類的錯(cuò)誤,并良好地適應(yīng)線性和非線性數(shù)據(jù),且小樣本數(shù)據(jù)研究中的結(jié)果也相當(dāng)穩(wěn)健〔13〕。其優(yōu)勢(shì)也就在于善于處理各種維度的數(shù)據(jù),并具有良好的泛化能力,擁有多種核算法。其局限則是在處理復(fù)雜計(jì)算過(guò)程或大數(shù)據(jù)時(shí),需要耗費(fèi)更多的時(shí)間,且經(jīng)典支持向量機(jī)算法只能進(jìn)行二元分類,面對(duì)多元分類問(wèn)題時(shí)需結(jié)合其他算法。人工神經(jīng)網(wǎng)絡(luò)算法是模仿人類大腦神經(jīng)系統(tǒng)信號(hào)傳導(dǎo)結(jié)構(gòu)和相關(guān)功能的一種信息處理系統(tǒng)〔14〕。人工神經(jīng)網(wǎng)絡(luò)一般分為輸入層、若干隱藏層和輸出層,各層包含了大量以某種特定的拓?fù)浣Y(jié)構(gòu)相連的節(jié)點(diǎn) (或神經(jīng)元)。每個(gè)神經(jīng)元的傳遞函數(shù)是特定的,具有學(xué)習(xí)、記憶、概括、歸納等類似人腦的基本特征〔15〕。其優(yōu)點(diǎn)在于與多種學(xué)科緊密聯(lián)系,相互促進(jìn),并具有一定的容錯(cuò)和容差能力。局限性在于學(xué)習(xí)時(shí)間過(guò)長(zhǎng)。本研究基于相同變量,分別構(gòu)建了決策樹、隨機(jī)森林、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)模型,并對(duì)模型的預(yù)測(cè)效能和穩(wěn)定性進(jìn)行了對(duì)比,結(jié)果顯示:基于相同變量條件下,4種模型中支持向量機(jī)的預(yù)測(cè)效能最好,其次為隨機(jī)森林和決策樹,人工神經(jīng)網(wǎng)絡(luò)最差。然而,本研究的結(jié)果僅僅基于本次研究的數(shù)據(jù),用以探索高血壓預(yù)后預(yù)測(cè)模型的最優(yōu)算法,難以外推至其他數(shù)據(jù)。在實(shí)際情況中,每種算法均有其優(yōu)勢(shì)和局限性,應(yīng)根據(jù)實(shí)際需要選擇合適的算法。
本研究雖只是探索階段,仍有許多不足,但在一定程度上彌補(bǔ)了目前原發(fā)性高血壓預(yù)后研究的不足之處,為其預(yù)后模型的構(gòu)建提供了一種新思路,具有臨床參考價(jià)值。通過(guò)加入動(dòng)脈功能指標(biāo)和中醫(yī)證候,并構(gòu)建更好的預(yù)后預(yù)測(cè)模型,能夠幫助臨床醫(yī)師更好地判斷高血壓患者預(yù)后,為患者提供更科學(xué)、更細(xì)致的個(gè)體化治療方案,以期改善原發(fā)性高血壓病的預(yù)后。