陳宇斌,崔玉紅,梁啟軍,鄧皓明
(1.南昌航空大學 軟件學院,江西 南昌 330063;2.物聯(lián)網(wǎng)與大數(shù)據(jù)實驗室,江西 南昌 330063;3.江西中醫(yī)藥大學附屬醫(yī)院肺病科,江西 南昌 330006)
基于光電容積(PPG)的脈搏采集設(shè)備成本低廉、外觀小巧、攜帶方便,被廣泛應用于血壓、心率、房顫、呼吸頻率等生理參數(shù)的采集工作中。PPG信號通過對生理參數(shù)的預測,直觀地反映身體狀況,在日常監(jiān)測和輔助醫(yī)生診斷方面大有可為?;赑PG的血壓預測[1-3]、心率預測[4-6]、房顫預測[7-8]、呼吸頻率預測[9-11]的研究越來越多。
PPG主要傳達了與心臟脈動同步的血液體積變化的信息,它可以簡單地使用接觸式指夾或可穿戴式傳感器來測量。此外,它還可以通過提供遠程PPG信號的攝像頭進行遠程估計。無論是接觸式還是遠程PPG信號,已經(jīng)證明PPG信號可以用來估計重要的生理生命體征,如血壓(BP)[12-14]、心率、房顫、呼吸頻率、氧飽和度和血紅蛋白水平,甚至多電極心電圖(ECG)信號,也可以通過PPG信號推斷出來。
由于生物醫(yī)學數(shù)據(jù)集的公開可用性,通過深度學習模型評估各種生理參數(shù)才得以推廣。然而,在收集和歸檔時忽略信號質(zhì)量,所以在進一步部署前需要進行有效的清理。因此,許多技術(shù)被引入到數(shù)據(jù)清理和異常/偽裝檢測中[15-17]。
機器學習需要大量的數(shù)據(jù)來訓練模型,尤其是訓練深度網(wǎng)絡(luò)時。數(shù)據(jù)集是實驗的一部分,豐富的數(shù)據(jù)能增強模型的泛化能力,提高實驗的魯棒性。在進行機器學習時,數(shù)據(jù)集一般會劃分為訓練集和測試集,很多時候還會劃分出驗證集。PPG是借助光電手段檢測血液容積變化的一種無創(chuàng)檢測辦法。每次心跳時,血管的收縮和擴張都會影響光的透射或是光的反射。一定波長的光束照射到指端皮膚表面,光線透過皮膚組織然后反射到光敏傳感器,光照會有一定的衰減。正是由于動脈對光的吸收有變化而其他組織對光的吸收基本不變,把光信號轉(zhuǎn)換成電信號,得到的信號就可以分為直流信號和交流信號。提取其中的交流信號,就能反映血液流動的特點。
相比于心電圖信號,PPG可以進行長時間連續(xù)監(jiān)測,具有成本低,易獲取且在采集過程中受試者不會感覺到身體異樣等特點,所以近年來對于PPG的研究逐漸盛行起來。PPG數(shù)據(jù)集從是否可以被直接獲取的角度分為公開數(shù)據(jù)集和非公開數(shù)據(jù)集。公開數(shù)據(jù)集滿足科研人員對大量實驗數(shù)據(jù)的需求,推動機器學習與醫(yī)學領(lǐng)域的結(jié)合。非公開數(shù)據(jù)集數(shù)據(jù)容量相對較少,一般由實驗室自主尋求實驗合作者,根據(jù)實驗的特性選擇合適受試者進行數(shù)據(jù)采集。
從文獻中了解到PPG數(shù)據(jù)集由公開數(shù)據(jù)集和非公開數(shù)據(jù)集組成,公開數(shù)據(jù)集可以直接下載使用,非公開數(shù)據(jù)集屬于實驗室私有。就目前公開的PPG數(shù)據(jù)集而言,MIMIC是包含參與者數(shù)量最多的數(shù)據(jù)集,其中MIMIC II的數(shù)據(jù)是2001~2008年間貝斯以色列迪康醫(yī)學中心重癥監(jiān)護室中病人的醫(yī)療數(shù)據(jù),其中包括26 870名成人住院者。MIMIC III在MIMIC II基礎(chǔ)上擴充數(shù)據(jù)集容量,它涵蓋2001年6月~2012年10月重癥監(jiān)護室病人數(shù)據(jù),包括53 423名成人患者。MIMIC IV在MIMIC III的基礎(chǔ)上增加了2012年到2018年的重癥監(jiān)護病房的數(shù)據(jù),與前兩個MIMIC不同的是采用模塊化方法進行數(shù)據(jù)組織,突出數(shù)據(jù)的來源并促進不同數(shù)據(jù)源的單獨和組合使用。MIMIC[18]作為一個免費公開的數(shù)據(jù)庫,包含了大量PPG信號和動脈血壓信號。該數(shù)據(jù)集包含12 000條不同長度的記錄。每條記錄包括ABP(有創(chuàng)動脈血壓)、PPG(來自指尖的光體積變化描記圖)和ECG(來自通道II的心電圖)信號。數(shù)據(jù)采樣頻率為125 Hz,以8位精度記錄。
昆士蘭大學生命體征數(shù)據(jù)集(The University of Queensland Vital Signs Dataset)涵蓋了更廣泛的生命體征。大多數(shù)病例包括來自心電圖儀、脈搏血氧儀、二氧化碳圖、無創(chuàng)動脈血壓監(jiān)測儀、氣道流量和壓力監(jiān)測儀的數(shù)據(jù),在少數(shù)情況下,還包括從Y型肺活量計、腦電圖監(jiān)測儀和動脈血壓監(jiān)測儀采集的數(shù)據(jù)。該數(shù)據(jù)集記錄了澳大利亞皇家阿德萊德醫(yī)院接受麻醉的32名手術(shù)患者,持續(xù)時間從13分鐘到5小時不等[19]。部分研究利用了昆士蘭大學生命體征數(shù)據(jù)庫作為實驗的部分數(shù)據(jù)集對血壓進行評估[20-21]。
IEEE信號處理杯(SPC)數(shù)據(jù)集在許多研究中被使用[22-24],該數(shù)據(jù)集記錄了持續(xù)5分鐘的PPG信號,同時記錄了手腕處的三軸加速度信號以及心電信號。數(shù)據(jù)集采集過程中20名受試者進行3種類型的活動。首先,受試者1~12執(zhí)行在跑步機上以以下速度行走或奔跑:1~2 km/h,持續(xù)0.5分鐘,6~8 km/h,持續(xù)1分鐘,12~15 km/h,持續(xù)1分鐘,6~8 km/h,持續(xù)1分鐘,12~15 km/h,持續(xù)1分鐘,1~2 km/h,持續(xù)0.5分鐘。受試者用帶有腕帶的手拉衣服,在額頭上擦汗,然后在跑步機上按下按鈕。第二,由受試者14,15,18和20進行前臂/上臂練習,例如,握手、伸展、推、跑步、跳躍、跳和俯臥撐。最后,由受試者15,16,17,18和19執(zhí)行涉及強烈的手臂運動,例如拳擊。
WESAD是一個多模態(tài)的數(shù)據(jù)集,具有生理和運動的數(shù)據(jù),可用于可穿戴式壓力和影響檢測。該數(shù)據(jù)集是用腕戴式設(shè)備收集PPG、加速度計、皮膚電活動和體溫,胸戴式設(shè)備收集心電圖、加速計、肌電圖、呼吸和體溫。15名受試者參加了數(shù)據(jù)的收集,每人的數(shù)據(jù)采集時間約為100分鐘。數(shù)據(jù)集記錄的目的是檢測和區(qū)分不同的情感狀態(tài)(中性、壓力、娛樂)。因此,與SPC不同,WESAD是在受試者久坐的狀態(tài)下采集的[25]。
健康志愿者構(gòu)建的Vortal包含從18~39歲年輕受試者和70歲以上老年受試者中獲得的ECG,PPG,阻抗呼吸描記(IP)和參考口鼻壓力信號[26]。在仰臥休息時從每個受試者處采集大約10分鐘的數(shù)據(jù)。此外,在步行、跑步和仰臥時從年輕受試者身上采集數(shù)據(jù),然后待狀態(tài)平穩(wěn)時再次采集年輕受試者的數(shù)據(jù)。
CapnoBase包含PPG記錄和二氧化碳圖數(shù)據(jù)[27],均以300 Hz采樣。數(shù)據(jù)集中的病例是從選擇性手術(shù)和常規(guī)麻醉期間收集的大量生理信號中隨機選擇的。該數(shù)據(jù)集包含29名兒科和13名成人患者的42段8分鐘的持續(xù)時間記錄,其中包含自主呼吸和受控呼吸下的高質(zhì)量記錄。本數(shù)據(jù)集將二氧化碳波形圖作為CapnoBase的黃金標準,同時研究助理手動標記了呼吸周期,并且根據(jù)連續(xù)呼吸之間的時間計算了參考呼吸率值。
BIDMC是從MIMIC-II資源中提取的[28],由53名成人重癥監(jiān)護患者的PPG記錄和同步IP呼吸信號組成,記錄時間約為8分鐘,采樣率均為125 Hz。每條記錄的IP波形作為參考呼吸,其中IP信號中的每個呼吸周期由兩名研究助理獨立手動注釋,兩組注釋都用于計算參考呼吸頻率值。
PPGDalia包括8種不同的活動[29],這些活動在日常生活中進行,包括低強度的駕駛、中等強度的步行和高強度手臂運動的桌上足球活動。同時進行周期性的步行或下樓梯和非周期性體育活動進食或桌上足球。此外,為了產(chǎn)生高度可變的心率,選擇需要不同體力的活動開車與上樓梯。該數(shù)據(jù)集有15名參與者,每位參與者接受150分鐘的數(shù)據(jù)監(jiān)測。數(shù)據(jù)分別由胸戴式和腕帶式設(shè)備記錄,其中胸戴式設(shè)備采集心電信號、三軸加速度、呼吸等數(shù)據(jù),腕帶式設(shè)備采集PPG、三軸加速度、皮膚電活動、體溫等數(shù)據(jù)。
除了通過參與者采集數(shù)據(jù)這一方式外,還可以通過算法模擬生理參數(shù),合成數(shù)據(jù)集。在文獻[30]中包含大約15小時的PPG數(shù)據(jù)。來自合成數(shù)據(jù)集的數(shù)據(jù)是根據(jù)理想化PPG使用基線漂移、振幅調(diào)制和頻率調(diào)制來調(diào)制的。
除了公開數(shù)據(jù)集,還有實驗室收集的數(shù)據(jù),通常這部分數(shù)據(jù)是不公開的。這類數(shù)據(jù)的采集設(shè)備可能是實驗室設(shè)計的設(shè)備,也可能是市面上封裝好的設(shè)備。指環(huán)狀可穿戴設(shè)備(CART)已被開發(fā)用于收集和分析來自手指的PPG信號[31]。使用嵌入內(nèi)部的高強度綠色發(fā)光二極管和光電二極管,基于反射法測量。通過CART收集受試者PPG信號可以與研究所用的智能手機直接相連接。
Chan等人詳細描述的獨立數(shù)據(jù)集是在普通門診使用智能手機從1 013名參與者中獲取的3 039個PPG波形數(shù)據(jù)[32]。PPG波形的采樣頻率為30 Hz,測量時間持續(xù)17 s。
表1 公開數(shù)據(jù)集參與者數(shù)量比較
臨床醫(yī)生注釋數(shù)據(jù)集(clinician-annotated)由402個連續(xù)的PPG記錄組成[33],這些記錄來自29個自由生活的受試者。每個連續(xù)PPG記錄平均為8小時。在這29名受試者中,13人在整個記錄過程中都有持續(xù)的房顫,2人有持續(xù)的正常竇性心律,其余14人顯示出隨時間變化的心率,包括除房顫和竇性心律意外的心律失常。NSR數(shù)據(jù)集由341份連續(xù)的PPG記錄組成,這些記錄來自53名健康的自由生活的受試者。這兩個數(shù)據(jù)集都是由三星的穿戴設(shè)備以20 Hz的采樣頻率收集。
使用有監(jiān)督的深度學習方法需要為數(shù)據(jù)提供標簽,大部分實驗在估計血壓時使用動脈血壓(ABP)來標注。而對于心率評估和房顫評估而言,標簽一般由ECG來標注。用于呼吸頻率估計的數(shù)據(jù)集不同,標注信號會跟隨數(shù)據(jù)集發(fā)生改變。BIDMC用胸阻抗標注,CapnoBase用二氧化碳圖標注,Vortal使用阻抗肺圖和口鼻壓力信號標注。
對于深度學習而言,預處理所花費的精力是相對較少的。在數(shù)據(jù)信噪比較高的情況下無需做任何預處理,可以將原始的PPG信號作為深度學習模型的輸入,但PPG信號受到噪聲影響時需要進行預處理。數(shù)據(jù)預處理階段對噪聲過濾的操作方法非常豐富[34]。例如:自適應濾波[35]、基于小波的去噪、獨立分量分析[36]、經(jīng)驗模態(tài)分解、時頻分析、頻譜減法[37]。
光電信號與噪聲信號擬合在一起變成帶有噪聲的信號,在采集PPG信號的過程中因為噪聲信號是低頻的,所以可以根據(jù)小波變換的特性將光電信號和噪聲信號分解開。小波變換是將分解系數(shù)設(shè)置為零來消除低頻率和高頻率分量的,軟閾值小波變換被廣泛應用于小波去噪。
使用小波變換的預處理方式可能會導致信號中信息丟失,從而對模型的分類性能產(chǎn)生極大的影響。一些研究嘗試將PPG轉(zhuǎn)換成二維灰度圖。雖然灰度圖保持了原始數(shù)據(jù)的完整性,但信號中的頻率信息卻沒有得到充分反映。傅里葉變換(FT)將信號從時域轉(zhuǎn)換到頻域,將信號所包含的頻率信息作為一個整體。傳統(tǒng)傅里葉變換(FFT)通過帶通濾波器消除特定頻率。然而,此方法忽略了時域信息。
時頻分析可以克服上述數(shù)據(jù)處理方法的缺點。時間-頻率分析的基本思想是設(shè)計一個時間和頻率的聯(lián)合函數(shù)[38],同時描述信號在不同時間、頻率的能量密度或強度。將時間和頻率結(jié)合起來,有利于對信號進行全面處理。
基于頻譜方法的核心思想是區(qū)分周期性的心率產(chǎn)生信號與運動產(chǎn)生信號,由運動衍生的時間-頻率頻譜來支持。例如,基于同時記錄的加速度信號來獲取相對干凈的信號?;谶@種頻譜分析,最近開發(fā)了幾種方法,如IMAT[39],SpaMa[40],WFPV[41]和MC-SMD[42]。然而,從時頻頻譜中提取心率在目前的方法中是很麻煩的,因為它們是高度參數(shù)化的,并且是為特定場景量身定做的。
將深度學習方法用于信號質(zhì)量的評估已經(jīng)受到廣泛關(guān)注。在相關(guān)文獻中使用粗略清理和精細清理分步方法對數(shù)據(jù)進行預處理。首先,粗略清理利用溫和閾值方法排除具有突出異常的信號,然后,精細清理使用PCA閾值法對數(shù)據(jù)進行進一步清理[43]。
模型輸入有所不同,除了將原始數(shù)據(jù)作為輸入外,還可以將原始數(shù)據(jù)轉(zhuǎn)化為圖片作為輸入?;跁r間序列的深度學習模型由完全卷積塊、shuffle層、注意力LSTM層和全連接層串聯(lián)而成,其中完全卷機塊由3個時間卷積塊組成?;趫D像的深度學習網(wǎng)絡(luò)包括VGG19,Xception,ResNet18和ResNet50。為了分析訓練集大小對分類性能的影響,分別使用10%,50%,100%的原始數(shù)據(jù)作為模型輸入,對基于特征的SVM分類器、基于時間序列的深度學習模型和基于圖像的深度學習模型進行比較。在10%數(shù)據(jù)時SVM率先展現(xiàn)良好的準確率,隨著數(shù)據(jù)量的增加ResNet18展現(xiàn)出最佳的性能[44]。同樣將圖片作為輸入的還有具有卷積層、激活層、dropout、最大池層、全連接層的網(wǎng)絡(luò)架構(gòu)[45]以及由LSTM、Bi-LSTM、卷積層、密度層堆疊的網(wǎng)絡(luò)架構(gòu)[46]。將原始信號轉(zhuǎn)變成圖片提取特征具有不錯的實驗效果。
采集過程中受到噪聲干擾,容易產(chǎn)生不符合范圍的生理信號,對于不同的生理參數(shù)的估計,使用閾值法排除質(zhì)量較差的PPG信號周期。在保持數(shù)據(jù)質(zhì)量的情況下對數(shù)據(jù)進行下采樣來減少模型的計算復雜度。
醫(yī)學信號非常難獲取,并且標簽需要有經(jīng)驗的醫(yī)生標注,所以能夠被研究使用的數(shù)據(jù)較少,而深度學習模型的訓練需要大量數(shù)據(jù),所以可以通過數(shù)據(jù)擴充來增加數(shù)據(jù)數(shù)量[38]。數(shù)據(jù)擴充通過3個基本過程來實現(xiàn),分別為縮放、添加隨機高斯噪聲以及隨機改變振幅。縮放是指將PPG數(shù)據(jù)乘以從正態(tài)分布中獲得的隨機標度器。添加隨機高斯噪聲是指將PPG中的每個數(shù)據(jù)點與從正態(tài)分布中隨機獲得的不同數(shù)值相加。隨機改變振幅是指將PPG的數(shù)據(jù)點與隨機產(chǎn)生的高斯過程回歸曲線相乘。
周期分割能夠豐富數(shù)據(jù)集,一些實驗在存在偽影和失真的情況下提供準確的PPG節(jié)拍分割[47-48]。使用峰值檢測法將單個脈沖分離出來完成周期分割,使用動態(tài)時間扭曲、時間上的零填充和頻率上的插值方法填充獲得相同的特征長度[49]。
即使在技術(shù)進步的今天,心血管疾病仍然是發(fā)病率和死亡率最具威脅性的原因之一,嚴重損害了老齡人口的健康。因此,持續(xù)的監(jiān)測是必不可少的。然而,隨著患者數(shù)量的不斷增加,專業(yè)的醫(yī)生數(shù)量不能滿足患者需求,所以自動化監(jiān)測方法似乎是唯一可行的應對危機方法?;赑PG的生理參數(shù)預測被廣泛使用。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)最初是為捕捉具有可變性的二維數(shù)據(jù)設(shè)計的。后來的研究證明卷積神經(jīng)網(wǎng)絡(luò)在一維數(shù)據(jù)上也表現(xiàn)良好。
CNN從輸入中提取最佳特征集,長短期記憶(LSTM)網(wǎng)絡(luò)捕獲提取功能中的時間相關(guān)性,兩者結(jié)合可以創(chuàng)造更具魯棒性的網(wǎng)絡(luò)結(jié)構(gòu)。CNN與由兩個相同的LSTM模塊串聯(lián)成的LSTM網(wǎng)絡(luò)堆疊在一起形成深度學習模型[50]。運用上述模型對比不同數(shù)據(jù)集預測的性能,在MIMIC-II中隨機抽取的20名受試者中,對收縮壓(SBP)和舒張壓(DBP)值的預測誤差分別為3.70±3.07 mmHg和2.02±1.76 mmHg。在UQVSD上,SBP和DBP的預測誤差分別為3.70±3.07 mmHg和2.02±1.76 mmHg。
用LSTM和GRU單元取代傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)單元,可以更好地解決深度神經(jīng)網(wǎng)絡(luò)訓練過程中出現(xiàn)的梯度消失問題。皮爾遜相關(guān)系數(shù)評估每對特征之間的線性關(guān)系,最大信息系數(shù)評估特征和血壓之間的非線性關(guān)系。經(jīng)過以上兩種相關(guān)性評估,可以將52個輸入特征減少至24個。雙向?qū)佑兄诰W(wǎng)絡(luò)通過按前后順序處理輸入序列來捕捉更多信息。由一個雙向RNN層(Bi-RNN)、n個單向RNN(uni-RNN)層和一個注意層組成的模型預測血壓。為了增強訓練網(wǎng)絡(luò)重要信息的隱藏狀態(tài)的能力,利用注意力機制來進一步提高模型的性能[51]?;赑PG的血壓診斷算法性能比較如表2所示。
表2 基于PPG的血壓診斷算法性能比較
CatBoost是一種以對稱決策樹為基學習器實現(xiàn)的梯度提升決策樹(GBDT)框架。首先使用半經(jīng)典信號分析技術(shù)重構(gòu)算法,這樣可以平衡重建復雜性和準確性,然后將重建信號的光譜特征、PPG和二階導數(shù)的形態(tài)特征作為CatBoost監(jiān)督算法輸入預測血壓。該方法的收縮壓和舒張壓的平均絕對誤差分別為5.37 mmHg和2.96 mmHg[52]。
MLP-Mixer包含兩種類型的層[53],一種是將多層感知機獨立應用于圖像塊,另一種是跨塊應用多層感知機,這是一種完全基于多層感知器的架構(gòu)。MLP-BP-lstm由LSTM、MLP-Mixer、卷積層全連接層構(gòu)成[54],此網(wǎng)絡(luò)能夠預測的舒張壓平均絕對誤差為2.13±3.07,收縮壓平均絕對誤差為3.52±5.1。
相比于心電圖測量設(shè)備,PPG采集設(shè)備具有明顯的優(yōu)勢,它外形小巧,成本低廉,是可穿戴設(shè)備的流行選擇。與傳統(tǒng)的心電圖數(shù)據(jù)相比,基于PPG信號的心率估計更具挑戰(zhàn)性。用戶的身體活動容易引起運動偽影,從而導致PPG信號的質(zhì)量降低。為了提高準確率,研究人員對訓練模型進行改進,以期獲取更加有利于心率預測的模型。
在文獻[55]中提出一個基于多類和非統(tǒng)一多標簽分類的9層深度神經(jīng)網(wǎng)絡(luò)用于估計心率,該網(wǎng)絡(luò)由一個二維卷積層、一個一維卷積層、一個扁平化層、一個連接層、一個全連接層、兩個LSTM層、一個全連接層、一個softmax激活層按順序堆疊而成。后續(xù)提出了一個由16個卷積層堆疊而成的網(wǎng)絡(luò)架構(gòu),使用基于頻譜分析的校準來估計最終的HR。上述方法在IEEE信號處理杯訓練數(shù)據(jù)集上實現(xiàn)了平均1.98 bpm的絕對誤差[56]。
基于PPG的心率診斷算法性能比較如表3所示。
表3 基于PPG的心率診斷算法性能比較
DeepHeart具有基于深度學習的去噪和基于頻譜分析的校準功能。該模型首先從心電圖信號生成干凈的PPG信號,使用受污染的PPG信號及其相應的干凈PPG信號訓練一組去噪卷積神經(jīng)網(wǎng)絡(luò)(DCNN)。然后,受污染的PPG信號被一組DCNN去噪,并執(zhí)行基于頻譜分析的校準以估計最終的HR。DCNN由16個卷積層堆疊而成,在第1層后進行激活操作,第2到第15層卷積操作后進行批量歸一化和激活,第16層卷積操作后輸出[57]。
心房顫動(AF)是中風的主要原因,它會增加心肌梗塞、慢性腎病、癡呆和死亡的風險。臨床上隱匿性AF經(jīng)常在早期時不容易被感知,因此,需要準確檢測無癥狀AF的方法。
在過去的幾年里,基于PPG的房顫檢測已經(jīng)得到了重視。早期嘗試利用手工制作的關(guān)于PPG心跳間期的特征進行檢測。關(guān)于基于PPG的房顫檢測算法的工作主要依賴于明確的規(guī)則和手工制作的特征,這些特征來自PPG波形的間隔序列,目的是捕捉脈搏不規(guī)則性,這也是房顫的標志。判斷心房顫動的方法包括變異系數(shù)[58]、樣本熵系數(shù)[59]、歸一化連續(xù)差異均方根和香農(nóng)熵[60]、龐加萊繪圖模式[61]和使用SVM的自相關(guān)性分析。
最近提出基于PPG的深度神經(jīng)網(wǎng)絡(luò)檢測房顫[62]。許多著名的深度學習模型,如VGGNet[63],GoogLeNet[64]和Microsoft ResNet都在國際分類比賽中取得了優(yōu)異的成績,它們提供了許多解決問題的方法。CNN在提取特征方面展現(xiàn)優(yōu)勢,在參數(shù)相同的情況下,依靠分組卷積展現(xiàn)比其他先進卷積網(wǎng)絡(luò)更好的能力。分組卷積的每個區(qū)塊由3個卷積層組成,首先使用核大小為1的卷積瓶頸層來減少特征圖的數(shù)量,然后使用核大小為9的分組卷積層在每個區(qū)塊中提供更多的表達能力,最后使用內(nèi)核大小為1的卷積層恢復原始特征圖的數(shù)量。該網(wǎng)絡(luò)的16個塊被分組為4個階段,每個階段分別包含3,4,6和3個塊。特征圖在每個階段的第一個塊的分組卷積層處進行下采樣。
基于PPG的房顫診斷算法性能比較如表4所示。
表4 基于PPG的房顫診斷算法性能比較
在文獻[65]中提出的模型涉及多個卷積塊、LSTM層和扁平化層。每個卷積塊中包含一個卷積層和一個最大池化層。從測試數(shù)據(jù)集中發(fā)現(xiàn)使用原始PPG波形作為輸入的深度學習算法比單獨使用PPG衍生的心率數(shù)據(jù)的機器學習算法更優(yōu)。另外,使用密度層和瓶頸層有利于提高計算效率,增強模型緊湊性。
2D-CNN包含四個卷積層和三個密度層。此網(wǎng)絡(luò)的輸入是使用心電信號的連續(xù)RR間隔或PPG的峰值間隔建立的龐加萊圖像,訓練好的權(quán)重用于訓練PPG數(shù)據(jù)集,使用神經(jīng)網(wǎng)絡(luò)的最后三個密集層對模型進行微調(diào)[66]。
呼吸頻率(RR)是呼吸功能障礙的重要診斷標志。異常升高的RR是心臟驟停的良好預測指標,并且與住院患者死亡率高度相關(guān)。因此,監(jiān)測RR對于評估患者在醫(yī)院和家庭或社區(qū)環(huán)境中的健康狀況至關(guān)重要。傳統(tǒng)的呼吸測量是通過使用肺活量計、肺圖或腹部肌電圖進行的。這些測量方式對于在普通病房和家庭環(huán)境中的患者來說是非常麻煩和昂貴的。PPG傳感器集成的可穿戴設(shè)備因其普遍的便利性和簡單性越來越多的被應用于臨床醫(yī)學。當前基于PPG的RR估計方法嚴重依賴手工規(guī)則和針對特定設(shè)置調(diào)整的參數(shù)。
選擇最優(yōu)超參數(shù)對于深度學習模型改進至關(guān)重要,貝葉斯優(yōu)化算法已在各種機器學習模型中的超參數(shù)調(diào)優(yōu)中取得成功,包括ResNet塊的數(shù)量、濾波器大小、卷積層的內(nèi)核大小、卷積層的步長和最大池化層、第一致密層等超參數(shù)的選擇。設(shè)計出由五個ResNet塊、一個最大池化層、一個扁平化層和三個具有減少單元數(shù)量的致密層構(gòu)成的網(wǎng)絡(luò)架構(gòu)識別呼吸頻率。每個ResNet塊包含三個卷積層、一個合并層和一個激活層[67]。采用貝葉斯優(yōu)化算法優(yōu)化卷積層的內(nèi)核大小、濾波器大小和步幅大小,提高預測準確率。
基于PPG的呼吸頻率算法性能比較如表5所示。
表5 基于PPG的呼吸頻率算法性能比較
呼吸頻率提供了大量的診斷依據(jù),從心電圖和PPG中提取有關(guān)呼吸模式的信息可以對睡眠狀況和其他慢性呼吸系統(tǒng)疾病進行更全面的評估。相關(guān)研究按照全卷積編碼器-解碼器的拓撲結(jié)構(gòu)設(shè)計架構(gòu)。編碼器部分使用PPG信號作為輸入,通過下采樣產(chǎn)生特征向量。解碼器部分使用產(chǎn)生的特征向量作為其輸入,并通過上采樣產(chǎn)生輸出,從而預測呼吸信號。編碼器部分被分為8級,一維卷積運算被用來對輸入特征下采樣。為了提高訓練效率,使用分層卷積法下采樣。每個編碼器級別的輸出被提供給擴張的殘差起始塊。擴張的殘差起始塊的使用提供了一個更大的接收場并且沒有顯著增加參數(shù)。此外,在塊內(nèi)使用殘差連接是為了減少梯度消失所帶來的影響,并縮短訓練期間的收斂時間。解碼器部分利用解碼器塊的特征圖與其相應的編碼器對之間的特征連接。在進行卷積和稀釋殘差卷積操作后,解碼器的每一級使用去卷積操作進行上采樣。然后在解碼器的最后一級,進行卷積運算,將特征通道映射到所需數(shù)量的輸出通道[68]。
RRWaveNet由多尺度卷積、深度時空殘差塊和呼吸率估計器三個模塊組成。多尺度卷積模塊采用三個分支并行的多尺度卷積來捕獲不同分辨率下的信號特征。三個卷積層包含不同的濾波器大小,它們獨立學習每個卷積分辨率的適當權(quán)重。每個分支卷積層后面是批量歸一化層、ReLU激活層和最大池化層。來自三個分支的三個相同大小的張量在該模塊的末尾連接,產(chǎn)生一個張量。深度時空殘差塊由八個殘差塊串聯(lián)而成。每個殘差塊包含五層,兩組一維卷積層和一個批量歸一化層,中間有一個激活層。呼吸率估計器放置在最后一個模塊的開頭,全局平均池化層將殘差塊的輸出轉(zhuǎn)換回一維形狀,然后三組激活層和全連接層將張量壓縮到1,最后對呼吸頻率進行評估[69]。
為了預測血壓、心率、房顫、呼吸頻率等生理參數(shù),需要一個足夠容量的數(shù)據(jù)集用于模型訓練。數(shù)據(jù)集的類型和數(shù)量種類多樣化可以提高模型的魯棒性和泛化能力,從而提高在預測過程中生理參數(shù)的準確性。因此,數(shù)據(jù)集是整個訓練過程的基礎(chǔ)。然而,醫(yī)學數(shù)據(jù)集的缺乏影響了實驗研究的進展。深度學習不需要人工手動提取特征,可以自主提取時域、頻域和非線性特征,從而實現(xiàn)端到端的生理參數(shù)預測。但是,預測準確性仍有待提高。
對于數(shù)據(jù)不足的問題,可以使用公開數(shù)據(jù)集來解決。充足的數(shù)據(jù)集可以促進端到端生理參數(shù)預測方向的研究。此外,還可以加強在模型架構(gòu)上的研究,以提高模型的預測準確性。由于PPG采集設(shè)備具有價格低廉、易攜帶等特點,未來基于PPG穿戴設(shè)備會在日常疾病監(jiān)測和輔助醫(yī)療診斷方面廣泛應用。
該文概括了基于PPG信號的生理參數(shù)預測算法的比較。盡管基于PPG的診斷方式已經(jīng)成為主要研究方向,并且有著較高的準確率,但是仍然無法完全滿足臨床需求,這需要更加豐富的數(shù)據(jù)集作為支撐。數(shù)據(jù)集的收集來之不易,希望通過研究者的共同努力增加數(shù)據(jù)多樣性,滿足各種生理特征的研究。近些年來單一算法和多算法融合都取得不錯的成績,希望在未來研究人員能夠開發(fā)更不懼局限性的算法,將基于PPG信號的診斷方式變得更加通用化。