李清福,趙宇波,趙景波,蔣澤宇
(1.青島理工大學(xué)信息與控制工程學(xué)院,山東青島 266520;2.山東產(chǎn)業(yè)技術(shù)研究院(青島),山東青島 266101)
研究顯示,肥胖是引起高血壓的主要因素,且在肥胖人群中,高血壓發(fā)病率高于同年齡的正常群體的一倍,年齡越大比例越高[1]。因此,準(zhǔn)確測量肥胖人群的血壓,對及時(shí)發(fā)現(xiàn)和治療高血壓非常必要。目前有3 種比較主流的無創(chuàng)血壓測量方法:臺(tái)式水銀血壓計(jì)測量法,示波器電子血壓計(jì)測量法[2],基于光電容積脈搏波(PPG)測量血壓法。前兩個(gè)方法都是通過對袖帶氣囊的充放氣實(shí)現(xiàn)對血壓的測量,目前市面上使用的袖帶過短,找到適合肥胖人群的袖帶成為一種問題[3]。因肥胖人群胳臂粗大,有可能得到不正確的血壓值。因此為了擺脫袖帶的束縛,基于光電容積脈搏波(PPG)技術(shù)測量血壓的方法應(yīng)運(yùn)而生,其具有成本低廉、容易采集等優(yōu)點(diǎn),成為最近幾年研究的重點(diǎn)[4]。
2017 年,Miao 等[5]利用線性回歸模型結(jié)合PPG 信號(hào)中的14 個(gè)特征參數(shù)進(jìn)行血壓測量,雖然降低了舒張壓的平均誤差,但該方法舍棄了對血壓非線性影響的特征參數(shù),導(dǎo)致總體上對收縮壓測量精度不高。2018 年,Syed等[6]使用昆山蘭大學(xué)采集的包含年齡、性別、身高等生命體征數(shù)據(jù)集,提取原始PPG 信號(hào)及其相應(yīng)的收縮壓和舒張壓,分別建立回歸樹、多元線性回歸、支持向量機(jī)(SVM)模型,發(fā)現(xiàn)加入生命體征信息之后,回歸樹模型可以使血壓測量結(jié)果達(dá)到AAMI 標(biāo)準(zhǔn)。同年,Wang 等[7]建立多參數(shù)的人工神經(jīng)網(wǎng)絡(luò)模型(ANN),將PPG 特征反饋給多層感知器結(jié)構(gòu),該結(jié)構(gòu)有22 個(gè)輸入神經(jīng)元和2個(gè)輸出神經(jīng)元,以同時(shí)估計(jì)SBP 和DBP,雖然獲得了更好的精度,卻耗費(fèi)了時(shí)間成本和內(nèi)存成本。2019 年,吳紹武等[8]通過提取PPG 信號(hào)中(如波谷與波峰的水平距離、縱向距離、斜率等)15 個(gè)特征參數(shù),建立lightBGM模型,且在原有特征參數(shù)的基礎(chǔ)上加入歷史血壓,提高了舒張壓測量精度,但因測試數(shù)據(jù)不一致,使得收縮壓測量精度比線性回歸模型差。2020 年,賀楚芳[9]基于PPG 信號(hào)的形態(tài)學(xué)特征并結(jié)合生命體征信息,建立極端隨機(jī)樹和隨機(jī)森林血壓測量算法,發(fā)現(xiàn)與線性模型的擬合程度相比,非線性模型的性能更好。
近幾年針對PPG 信號(hào)進(jìn)行血壓測量的研究存在兩個(gè)缺陷:(1)很多研究基本上都是用單一機(jī)器學(xué)習(xí)算法模型進(jìn)行訓(xùn)練,而將集成機(jī)器學(xué)習(xí)方法應(yīng)用于血壓測量的相關(guān)研究非常少,導(dǎo)致血壓測量效果不好;(2)很多算法都是對全部人群的血壓測量數(shù)據(jù)進(jìn)行模型訓(xùn)練,沒有把肥胖人群分開。有研究表明,用此算法測量肥胖人群的收縮壓時(shí),其結(jié)果普遍偏低[10]。這就造成一個(gè)問題,由于肥胖人群特殊的情況,血壓測量不準(zhǔn)確可能會(huì)錯(cuò)過高血壓的最佳治療時(shí)間,造成不可忽視的后果。因此,本文在前人研究的基礎(chǔ)上,構(gòu)建基于Stacking 集成機(jī)器學(xué)習(xí)模型,在提取的43 個(gè)特征參數(shù)的基礎(chǔ)上,把BMI 的數(shù)值作為新的特征參數(shù)加入到模型中,分別對非肥胖人群(BMI<25)和肥胖人群(BMI>25)數(shù)據(jù)集進(jìn)行模型訓(xùn)練,并與文獻(xiàn)[5]、文獻(xiàn)[8]、文獻(xiàn)[9]用到的機(jī)器學(xué)習(xí)方法進(jìn)行結(jié)果對比,構(gòu)建對肥胖人群血壓測量有著更高精度的算法模型。本文的主要的創(chuàng)新點(diǎn)如下。
(1)選用多功能參數(shù)儀,設(shè)計(jì)采集實(shí)驗(yàn),采集志愿者的PPG 信號(hào)和真實(shí)血壓值,然后依次進(jìn)行降噪處理、特征參數(shù)提取,建立了區(qū)別于目前大多數(shù)研究使用的MIMIC血壓數(shù)據(jù)集的新數(shù)據(jù)集。
(2)整合K近鄰、極端隨機(jī)樹、lightGBM、線性回歸單一機(jī)器學(xué)習(xí)模型,提出基于Stacking 集成機(jī)器學(xué)習(xí)血壓測量模型,彌補(bǔ)了單一模型的不足。
(3)將人群分類研究,把訓(xùn)練數(shù)據(jù)分成非肥胖人群(BMI<25)和肥胖人群(BMI>25),并把BMI 數(shù)值作為特征輸入,提高了肥胖人群的血壓測量精度。
目前很多研究使用的MIMIC-II 數(shù)據(jù)集雖然包含心血管患者的PPG 信號(hào)波形以及血壓值[11],但是因其信號(hào)失真嚴(yán)重,處理起來難度大,且缺乏患者的身高、體重、年齡等生理信息,故需建立一個(gè)更適合本算法的數(shù)據(jù)庫。
光電容積脈搏波描記法(PPG)以Lambert-Beer 定律作為理論基礎(chǔ),其數(shù)學(xué)表達(dá)式為:
式中:A為吸光度;T為透過血液容積的強(qiáng)度It與入射光強(qiáng)度I0的比值;a為吸收系數(shù);b為吸收層厚度;c為血液的濃度[12]。
基本原理:當(dāng)紅藍(lán)光照射到如手指等皮膚時(shí),骨骼、肌肉等組織對光的吸收基本不發(fā)生改變,而心臟的搏動(dòng)是有節(jié)奏的,血液隨著心臟搏動(dòng)運(yùn)輸各種人體所需的營養(yǎng)物質(zhì)的過程中,動(dòng)脈血管的血液容積不斷發(fā)生改變。利用光電傳感器測量到此種變化,然后經(jīng)信號(hào)轉(zhuǎn)換形成光電容積脈搏波信號(hào)(PPG 信號(hào))。通過相關(guān)算法提取PPG 信號(hào)中的特征參數(shù)并與真實(shí)血壓值進(jìn)行回歸分析,就可以得到血壓值與特征參數(shù)之間的算法模型[13]。
本研究使用某公司研發(fā)的多功能參數(shù)儀采集了某小區(qū)540 位年齡在25~80 歲的健康志愿者的PPG 信號(hào)以及使用魚躍水銀血壓計(jì)采集了真實(shí)血壓。告知每位志愿者在參加測試之前不做劇烈運(yùn)動(dòng),不飲用可樂、咖啡、酒水等影響心血管系統(tǒng)的飲品。志愿者將個(gè)人體征信息填寫完畢之后,處于靜坐姿勢,然后佩戴儀器開始采集PPG 信號(hào)和真實(shí)血壓值。以每天11:00-12:00、14:00-15:00、17:00-18:00 為固定的采集時(shí)間,每次測量時(shí)長為3 min,連續(xù)測量半個(gè)月并做好記錄。然后整理所有實(shí)驗(yàn)數(shù)據(jù)以矩陣的形式存放在Matlab 的mat 文件中,該數(shù)據(jù)集由矩陣的單元格cell陣列組成,每個(gè)單元格cell都是一個(gè)矩陣形式,將其命名為RAWDATA。
在采集過程中,因測試者操作不當(dāng)或身體的抖動(dòng),導(dǎo)致早期PPG 信號(hào)含有毛刺、高頻噪聲和基線漂移等噪聲干擾[14]。為了得到純凈的PPG 信號(hào),需要對RAWDATA 數(shù)據(jù)進(jìn)行預(yù)處理。因II型切比雪夫?yàn)V波器的幅頻特性具有等波紋特性,且沖激響應(yīng)不變[15],因此為了保證PPG 信號(hào)的完整性,使波形形狀不發(fā)生任何變化,選用II 型切比雪夫?yàn)V波器,濾波器參數(shù)截止頻率FC、高通頻率FH、低通頻率FL、頻率響應(yīng)的紋波PR依次設(shè)置為FC= 0.4 Hz、FH= 50 Hz、FL= 0.2 Hz、PR= 5,然后用Matlab 軟件進(jìn)行驗(yàn)證和仿真,選取10 s 采樣樣本,濾波后純凈的PPG信號(hào)如圖1所示。
圖1 濾波后純凈的PPG信號(hào)
PPG 信號(hào)反映了人體心血管健康狀況,其中含有的生理信息與血壓有很大關(guān)聯(lián)[16],因此在建立血壓測量算法模型之前,需要對濾波后的PPG 信號(hào)進(jìn)行特征參數(shù)提取。具體做法參考文獻(xiàn)[17]使用五點(diǎn)平滑、二階導(dǎo)數(shù)最大值以及數(shù)值微分法,對Y 區(qū)域進(jìn)行特征參數(shù)提取,如圖2所示。
圖2 PPG信號(hào)特征提取示意圖(Y區(qū)域)
特征參數(shù)主要包括:PPG 信號(hào)的谷值點(diǎn)(A點(diǎn))、上升沿中心點(diǎn)(B點(diǎn))、峰值點(diǎn)(C點(diǎn))、重搏波節(jié)點(diǎn)(D點(diǎn))的幅度A-amp、B-amp、C-amp、D-amp,收縮時(shí)間T1、峰值點(diǎn)(C點(diǎn))和重搏波節(jié)點(diǎn)(D點(diǎn))的時(shí)間間隔T2,舒張時(shí)間T2+T3、重搏波節(jié)點(diǎn)(D點(diǎn))和PPG 信號(hào)結(jié)束點(diǎn)(E點(diǎn))的時(shí)間間隔T3,整個(gè)心動(dòng)周期T4,A點(diǎn)與C點(diǎn)之間的面積S1等。
除了以上提到的時(shí)域特征外,還有一階導(dǎo)數(shù)極值參數(shù)、二階導(dǎo)數(shù)極值參數(shù)等一共43 個(gè)特征參數(shù)。去掉其中的異常數(shù)據(jù)和空白信息之后,最終保留5 238 條包含年齡、性別、身高、體重、特征參數(shù)、真實(shí)血壓的數(shù)據(jù),保存為CSV 格式,以此作為算法模型的數(shù)據(jù)集。編號(hào)為cstcn40480 志愿者的部分特征參數(shù)如表1 所示。模型搭建、數(shù)據(jù)集人群分類以及實(shí)驗(yàn)結(jié)果將在接下來的章節(jié)中介紹。
表1 志愿者cstcn40480的部分PPG特征參數(shù)
Stacking 集成學(xué)習(xí)利用了組合策略的思想,將多個(gè)算法模型組合到一起形成一個(gè)更強(qiáng)的模型。在回歸問題中,第一層個(gè)體學(xué)習(xí)器(初級(jí)學(xué)習(xí)器)先在訓(xùn)練集中單獨(dú)訓(xùn)練,再在測試集中分別輸出各自的訓(xùn)練結(jié)果,然后將輸出結(jié)果作為第二層個(gè)體學(xué)習(xí)器(次級(jí)學(xué)習(xí)器)的輸入進(jìn)行模型訓(xùn)練,這樣做可以使不同個(gè)體學(xué)習(xí)器的能力得到疊加,輸出一個(gè)測量精度更高的結(jié)果[18]。
文獻(xiàn)[8]將歷史血壓加入到lightGBM 算法模型中,文獻(xiàn)[9]構(gòu)建極端隨機(jī)數(shù)模型并結(jié)合生命體征信息均得到不錯(cuò)的實(shí)驗(yàn)結(jié)果。一致說明某些生命體征信息在傳統(tǒng)機(jī)器學(xué)習(xí)算法測量血壓的過程中可以發(fā)揮很大作用。故本研究采用極端隨機(jī)樹、lightGBM、KNN 算法模型作為初級(jí)學(xué)習(xí)器,同時(shí)加入身體質(zhì)量指數(shù)(BMI)來訓(xùn)練和測試數(shù)據(jù)集。
K近鄰回歸(KNR):是比較經(jīng)典的機(jī)器學(xué)習(xí)算法,由于其訓(xùn)練時(shí)間少,又被稱作懶惰學(xué)習(xí)算法[19]。由于一個(gè)人的正常血壓值隨著時(shí)間不斷發(fā)生變化,故利用K 近鄰進(jìn)行血壓測量屬于回歸任務(wù)。KNN 通過相關(guān)距離計(jì)算,選擇最近的K個(gè)鄰居的平均值,進(jìn)而決策出血壓數(shù)據(jù)的測量值。通常選取曼哈頓距離和歐幾里得距離。
曼哈頓距離對應(yīng)的特征值只有一個(gè),其數(shù)學(xué)表達(dá)式:
K值的選擇對算法的最終決策值影響極大,這直接影響回歸器的性能,因此合理的選擇K值,可以提高訓(xùn)練結(jié)果的精度,降低估計(jì)誤差。
極端隨機(jī)樹(ETR):由隨機(jī)森林模型變化而來,和隨機(jī)森林一樣都以決策樹作為基學(xué)習(xí)器,但又不同于隨機(jī)森林模型[20]。該模型使用全部的血壓數(shù)據(jù)進(jìn)行訓(xùn)練,并且在構(gòu)建每棵決策樹的時(shí)候,隨機(jī)選擇PPG 信號(hào)的k個(gè)特征參數(shù)進(jìn)行分裂,在這個(gè)過程中,不修剪樹枝。極端隨機(jī)樹的擬合能力和測量能力都強(qiáng)于隨機(jī)森林。極端隨機(jī)樹對血壓測量的步驟為:第一步選擇血壓數(shù)據(jù)集的全部數(shù)據(jù)進(jìn)行訓(xùn)練;第二步根據(jù)CART算法,從n個(gè)特征參數(shù)中隨機(jī)選擇k個(gè)生成決策樹;第三步對上面兩個(gè)步驟多次迭代,直至生成所有的決策樹,記為m;第四步重復(fù)步驟一至步驟三,構(gòu)成隨機(jī)森林,通過求森林中多個(gè)決策樹對血壓的測量值的平均而得到D數(shù)據(jù)集最后的血壓測量值。
LightGBM 回歸:基于樹學(xué)習(xí)的梯度提升框架,提出的動(dòng)機(jī)是為了彌補(bǔ)Xgboot 空間消耗大、運(yùn)行時(shí)間長、不友好的chche 優(yōu)化等缺點(diǎn)。其在運(yùn)算速度上較Xgboot 模型快了好幾倍,占用內(nèi)存少,并且處理具有超多數(shù)據(jù)的數(shù)據(jù)集時(shí)準(zhǔn)確度明顯高于其他的算法模型[21]。其對血壓測量的原理為:第一是直方圖算法,首先將和血壓有關(guān)的特征參數(shù)進(jìn)行離散化,形成一個(gè)寬度為k 的直方圖,然后依次遍歷數(shù)據(jù),尋找直方圖上最優(yōu)的數(shù)值;第二是帶深度限制的Leaf-wise 算法,該算法實(shí)現(xiàn)每次從當(dāng)前所有葉子中,找到分裂增益最大的一個(gè)葉子,接著進(jìn)行下一步的分裂,依次循環(huán);第三是GOSS 技術(shù),即梯度單邊采樣技術(shù),該技術(shù)舍棄那些對于血壓測量值沒有幫助的特征參數(shù)保留幫助性大的特征參數(shù);第四為了減少特征參數(shù)過多,導(dǎo)致測量結(jié)果不準(zhǔn)確的問題,互斥特征捆綁技術(shù)可以將相互獨(dú)立的特征進(jìn)行捆綁。
為了防止第一層模型在用非線性變化尋求最優(yōu)空間假設(shè)而產(chǎn)生的過擬合現(xiàn)象,一般選擇比較簡單的機(jī)器學(xué)習(xí)模型作為次級(jí)學(xué)習(xí)器[22],本研究考慮使用文獻(xiàn)[5]中的線性回歸模型。
線性回歸算法(Linear Regression)表征的是因變量(目標(biāo)值)和自變量(特征輸入)之間的線性關(guān)系,假設(shè)有k個(gè)樣本數(shù)據(jù),每個(gè)樣本數(shù)據(jù)僅有1個(gè)特征參數(shù),則線性回歸模型的損失函數(shù)為:
式中:x1,x2,…,xk為特征輸入;y為目標(biāo)值;β0,β1,…,βk為回歸系數(shù),回歸系數(shù)可通過最小二乘法集中擬合求得,最小二乘法就是要找到一組β0,β1,…,βk,使線性回歸模型的殘差平方和方(SSE)達(dá)到最小[23],從而得到使得損失函數(shù)最小化的擬合函數(shù)的模型。
SSE可表示為:
式中:yβ(xi)為線性回歸模型的測量值;yi為真實(shí)值。
因人體血壓值是受多個(gè)特征值共同影響的,則線性回歸模型特征輸入X是一個(gè)k維矢量,此時(shí)的線性回歸模型為y=Xβ,化成矩陣形式為:
本研究構(gòu)建基于Stacking 血壓測量算法模型的框架如圖3 所示。首先按8∶2 的比例劃分?jǐn)?shù)據(jù)集,記訓(xùn)練集為D={(x1,y1),(x2,y2),…,(xn,yn)},其 中x1,x2,…,xn是 與真實(shí)血壓值有關(guān)的特征參數(shù),y1,y2,…,yn是對應(yīng)的每個(gè)志愿者的真實(shí)血壓值。為了防止數(shù)據(jù)量不夠而導(dǎo)致訓(xùn)練結(jié)果產(chǎn)生過擬合現(xiàn)象,將訓(xùn)練集作十折交叉驗(yàn)證處理,即每次拿9份血壓數(shù)據(jù)作為初級(jí)學(xué)習(xí)器l1i(i= 1,2,3)的訓(xùn)練集分別進(jìn)行訓(xùn)練,剩下的一份血壓數(shù)據(jù)作為測試集,交叉驗(yàn)證10次后加權(quán)平均得到k(k=1,2,3)個(gè)回歸模型,此為第一層機(jī)器學(xué)習(xí)模型。然后以l1i個(gè)模型輸出的血壓測量結(jié)果[i= 1,2,3,j=size(10 - fold)]作為特征輸入,真實(shí)血壓值ym(m= 1,2,…,n)作為訓(xùn)練標(biāo)簽組成次級(jí)訓(xùn)練集D′,最后把D′放到次級(jí)學(xué)習(xí)器l2中進(jìn)行模型訓(xùn)練,此為第二層機(jī)器學(xué)習(xí)模型,從而得到最終血壓測量結(jié)果hm(m= 1,2,…,n)。
圖3 基于Stacking血壓測量算法模型的框架圖
每個(gè)志愿者測得脈搏波參數(shù)的量綱不同,故在訓(xùn)練數(shù)據(jù)之前首先根據(jù)式(7)將脈搏波原始數(shù)據(jù)標(biāo)準(zhǔn)化為均值為0,方差為1 的分布,再根據(jù)式(8)將原始數(shù)據(jù)歸一化至[0,1]區(qū)間內(nèi),目的是降低訓(xùn)練權(quán)重,使模型獲得更好的訓(xùn)練效果。
式中:μ為未處理數(shù)據(jù)的均值(mean);σ為未處理數(shù)據(jù)的標(biāo)準(zhǔn)差(std)。
本研究將處理過的5 238條數(shù)據(jù)進(jìn)行數(shù)據(jù)拆分,通過式(9)計(jì)算每一條志愿者數(shù)據(jù)的身體質(zhì)量指數(shù)(BMI)數(shù)值,然后根據(jù)計(jì)算結(jié)果,將數(shù)據(jù)集分成BMI>25和BMI<25的子數(shù)據(jù)集,并將BMI的數(shù)值作為新的特征參數(shù)輸入。
式中:志愿者的體重單位為kg;志愿者的身高單位為m。
最終得到3 293 條非肥胖人群的子數(shù)據(jù)集,1 945 條肥胖人群子數(shù)據(jù)集,分別隨機(jī)選擇每個(gè)子數(shù)據(jù)集的80%作為算法模型的訓(xùn)練集,20%作為測試集。
本研究第一個(gè)實(shí)驗(yàn)是利用單層機(jī)器學(xué)習(xí)模型對BMI>25 和BMI<25 的數(shù)據(jù)集分別進(jìn)行訓(xùn)練,以提取的43 個(gè)特征參數(shù)和BMI 數(shù)值作為模型的輸入,真實(shí)收縮壓和舒張壓值作為訓(xùn)練標(biāo)簽。K近鄰回歸模型使用枚舉方法、lightGBM 回歸模型和極端隨機(jī)樹使用網(wǎng)格搜索方法進(jìn)行超參數(shù)優(yōu)化、線性回歸使用最小二乘法進(jìn)行調(diào)參優(yōu)化。十折交叉驗(yàn)證測試結(jié)果顯示,K近鄰回歸模型最優(yōu)參數(shù):距離的權(quán)重weight=distance、閔可斯基距離為曼哈頓距離即P=2、鄰居個(gè)數(shù)k=13。lightBGM 回歸模型最優(yōu)參數(shù):每個(gè)基學(xué)習(xí)器的最大葉子節(jié)點(diǎn)、學(xué)習(xí)率、基學(xué)習(xí)器的數(shù)量分別為num_leaves=31、learning_rate=0.1、n_estimators=40。極端隨機(jī)樹回歸模型最優(yōu)參數(shù):基學(xué)習(xí)器的數(shù)量、決策樹最大深度、最大特征數(shù)分別為n_estimators=50、max_depth=60、max_features=11。第二個(gè)實(shí)驗(yàn)是利用搭建好的Stacking 集成模型,融合K近鄰、lightGBM、極端隨機(jī)森林、線性回歸的最優(yōu)模型對血壓數(shù)據(jù)集進(jìn)行訓(xùn)練和測量。實(shí)驗(yàn)一和實(shí)驗(yàn)二的結(jié)果如表2所示。
表2 單模型和Stacking模型對不同人群血壓測量結(jié)果對比mmHg
為了與本研究搭建的stacking 集成模型的性能作對比,接下來做了第三個(gè)實(shí)驗(yàn):將任意3 個(gè)單模型作為初級(jí)學(xué)習(xí)器,另外一個(gè)單模型作為次級(jí)學(xué)習(xí)器,通過不同的Stacking 集成模型分別在肥胖人群數(shù)據(jù)集中進(jìn)行訓(xùn)練和測試,實(shí)驗(yàn)結(jié)果如表3所示。
表3 肥胖人群中不同集成模型測試結(jié)果對比mmHg
血壓算法的準(zhǔn)確與否可用平均絕對誤差(MAE)和均方根誤差(RMSE)進(jìn)行評(píng)估,AAMI國際電子血壓計(jì)標(biāo)準(zhǔn)為模型的評(píng)價(jià)指標(biāo)MAE<5 mmHg,RMSE<8 mmHg[24]。其計(jì)算公式分別如式(10)和式(11)所示。其中,ytrue,i為水銀血壓計(jì)測得的真實(shí)血壓值,ypred,i為算法模型的血壓測量值,n為數(shù)據(jù)總數(shù)。
根據(jù)表2和表3的實(shí)驗(yàn)結(jié)果,可以分析得出如下結(jié)果。
表3 渦輪結(jié)果驗(yàn)證表
(1)對于收縮壓SBP 的測量,在肥胖人群(BMI>25)中4 個(gè)單模型估計(jì)的誤差MAE/RMSE 較非肥胖人群(BMI<25)都有所降低;對于舒張壓DBP 的測量,在肥胖人群中LGB 模型估計(jì)的誤差MAE 低于非肥胖人群,ETR 模型估計(jì)的誤差RMSE 低于非肥胖人群。以上結(jié)果顯示,將人群分開且加入BMI 之后,雖然單個(gè)模型某些測量結(jié)果沒有達(dá)到AAMI 標(biāo)準(zhǔn),但整體上來說對于肥胖人群的血壓測量精度更高,符合本研究預(yù)期結(jié)果。
(2)在非肥胖人群中,對比最好單模型ligthGBM 模型,本研究搭建的Stacking 集成模型對SBP 估計(jì)的MAE/RMSE 從5.748/7.309 mmHg 下 降 至5.624/6.842 mmHg,DBP 則 從3.714/4.750 mmHg 下 降 至3.594/6.684 mmHg;在肥胖人群中,對SBP 估計(jì)的MAE/RMSE 較ligthGBM 模型從5.415/7.034 mmHg 下降 至4.979/6.394 mmHg,DBP則從3.636/4.798 mmHg 下降至3.235/4.358 mmHg。此結(jié)果說明Stacking 集成模型對肥胖人群血壓測量精度高于非肥胖人群,且滿足AAMI國際電子血壓計(jì)標(biāo)準(zhǔn)。圖4和圖5顯示了Stacking集成模型對不同人群的收縮壓和舒張壓的測量值與真實(shí)值之間的相關(guān)性。肥胖人群的SBP 和DBP測量血壓與真實(shí)血壓之間的相關(guān)系數(shù)R2分別為0.702和0.791,兩值之間具有高度相關(guān)性,高于非肥胖人群的0.655和0.729,進(jìn)一步說明Stacking集成模型對肥胖人群血壓測量精度更高。
圖4 Stacking模型對非肥胖人群血壓測量的相關(guān)性
圖5 Stacking模型對肥胖人群血壓測量的相關(guān)性
(3)當(dāng)LGB、ETR、KNR、LR 中的任意一個(gè)作為次級(jí)學(xué)習(xí)器時(shí),對肥胖人群血壓的測量精度各不相同。對于收縮壓的測量,Stacking(LR+LGB+KNR+ETR)模型性能最差,甚至不如ETR、LGB、LR 單模型,對于舒張壓 的 測 量,Stacking(LR+ETR+KNR+LGB)模 型 和Stacking(LR+LGB+KNR+ETR)模 型 精 度 不 如ETR、LGB 單模型。無論收縮壓還是舒張壓,Stacking(LGB+ETR+KNR+LR)集成模型測量精度最高,性能最佳。
綜合以上所有實(shí)驗(yàn),Stacking(LGB+ETR+KNR+LR)集成模型性能優(yōu)于4 個(gè)單模型和另外3 個(gè)Stacking 集成模型,且對肥胖人群更有效,收縮壓和舒張壓的測量結(jié)果均符合AAMI 國際電子血壓計(jì)標(biāo)準(zhǔn)(RMSE<8 mmHg,MAE<5 mmHg)。
為了進(jìn)一步評(píng)價(jià)Stacking(LGB+ETR+KNR+LR)集成模型對肥胖人群血壓測量的可行性,對收縮壓和舒張壓的測量值與真實(shí)值進(jìn)行Bland-Altman分析,如圖6所示。
圖6 肥胖人群SBP&DBP的Bland-Altman圖
從圖6 中可以得知,模型對于肥胖人群的血壓(SBP&DBP)測量值與真實(shí)值的差值平均數(shù)(Mean)接近于0,并且其差值絕大部分落在95%一致性界限(即-d± 1.96sd)之內(nèi),說明Stacking 模型對肥胖人群血壓測量與真實(shí)血壓的一致程度高,可靠性好。
本文建立的Stacking 集成機(jī)器學(xué)習(xí)模型,在提取的PPG 信號(hào)特征值的基礎(chǔ)上,把身體質(zhì)量指數(shù)(BMI)作為新的特征參數(shù)加入到模型進(jìn)行訓(xùn)練和測試。經(jīng)過不同人群的多次實(shí)驗(yàn)對比,發(fā)現(xiàn)基于Stacking 集成機(jī)器學(xué)習(xí)模型對于肥胖人群的血壓測量結(jié)果有效改善了原有算法對肥胖人群血壓測量準(zhǔn)確度不高的問題,且其誤差MAE/RMSE均符合AAMI國際電子血壓計(jì)標(biāo)準(zhǔn)。對于非肥胖人群,本研究顯示,基于Stacking 集成機(jī)器學(xué)習(xí)模型效果不顯著,應(yīng)用價(jià)值不大。下一步的工作方向是建立更為廣泛的PPG 信號(hào)數(shù)據(jù)集,進(jìn)一步對模型進(jìn)行優(yōu)化,構(gòu)建一個(gè)適合所有肥胖人群的血壓測量模型。