陳澤輝,熊繼平,李金紅,陳經(jīng)緯,程漢權(quán)
(1.浙江師范大學(xué) 物理與電子信息工程學(xué)院,浙江 金華 321004;2.浙江師范大學(xué) 數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,浙江 金華 321004)
根據(jù)《中國心血管健康與疾病報告》可知:近年來,心血管疾病已經(jīng)成為我國致死數(shù)最多的疾病,高于癌癥、消化系統(tǒng)疾病等其他疾病[1]。預(yù)防和診斷心血管疾病的指標(biāo)主要包括心率、血氧飽和度和血壓等與心血管疾病密切相關(guān)的醫(yī)療體征[2]。目前主流市場存在一些家庭式生理監(jiān)測設(shè)備,包括指夾式脈搏血氧儀、智能手環(huán)[3]、袖帶式血壓儀等[4]。但是以上設(shè)備仍然存在著許多不足,同時在使用時存在一定的局限性,不能滿足所有情形下的使用要求。
成像式光電容積描記技術(shù)(iPPG)在近年來快速發(fā)展,該技術(shù)在平臺上可以比較輕松地實現(xiàn),只需要一個攝像頭便可以遠(yuǎn)程非接觸式對生理信號進(jìn)行測量。這種測量方法尤其適用于一般的家庭中進(jìn)行快速便捷的健康檢查,目前該技術(shù)吸引了大量生物醫(yī)學(xué)工程領(lǐng)域的人員目光,成為該領(lǐng)域的新興研究方向之一[5]。
目前國內(nèi)外對非接觸式測量的研究仍處于起步階段,主要的研究是測量心率、血壓和血氧飽和度等。2007年,日本的Takano等基于iPPG技術(shù)使用相機(jī)采集的人體皮膚視頻研究出了一種心率與呼吸頻率采集裝置[6];2017年,馬良提出一種基于雙波長法,遠(yuǎn)程測量血氧飽和度的方法[5];也有研究利用貝葉斯光譜估計法,通過視頻測量得到脈搏等[7]。Chwyl等以貝葉斯估計為基礎(chǔ),提出了一種非接觸式心率檢測方法[8]。
然而,上述文獻(xiàn)中對于有效iPPG信號的選取主要還是依靠傳統(tǒng)的算法以及后期人工識別,這些方法費(fèi)時費(fèi)力,且準(zhǔn)確率不高,難以應(yīng)用于實際的復(fù)雜場景中,因此,本研究設(shè)計了基于深度學(xué)習(xí)的iPPG有效信號識別方法。通過高分辨率相機(jī)在穩(wěn)定光源下對人臉視頻進(jìn)行采集,然后通過設(shè)計人臉識別算法進(jìn)行定位,從選取的感興趣區(qū)域(Region Of Interest,ROI)提取脈搏波信號并進(jìn)行去噪處理,然后用訓(xùn)練好的深度學(xué)習(xí)模型對信號進(jìn)行有效性識別,并將最后識別得到的iPPG信號與標(biāo)準(zhǔn)的PPG信號進(jìn)行了對照。下面就對本文所設(shè)計的采集系統(tǒng)、人臉定位算法以及深度學(xué)習(xí)模型進(jìn)行完整的介紹。
隨著心臟的跳動,動脈血管會產(chǎn)生周期性的擴(kuò)張與收縮,從而產(chǎn)生了一種周期性的搏動,這種搏動就被稱為脈搏[9]。
脈搏能夠反映大量的心血管信息,包括心率、血壓和血氧飽和度等,因此,研究人員可以通過處理脈搏波從而測量得到包含心率、血壓、血氧等人體醫(yī)療體征[10]。
iPPG技術(shù)是從郎伯-比爾(Lamber-Beer)定律和光散射理論發(fā)展而來的[11]。郎伯-比爾定律的描述為:在某物質(zhì)的溶液上,照射波長為λ的單色光時,透射光強(qiáng)和反射光強(qiáng)的關(guān)系如下所示:
其中,C為介質(zhì)系數(shù),當(dāng)光少照射在物體中時,行進(jìn)的距離為L。當(dāng)光照射到皮膚組織后,一部分光被皮膚組織吸收,而其余的光則會被反射回來,當(dāng)血液容積發(fā)生變化時,反射回的光強(qiáng)也會隨之改變,同時這些反射光包含了人體心血管的許多醫(yī)療體征信息。
針對有效信號的識別,本文所提出的研究方法包括人臉視頻采集、iPPG信號處理和有效信號識別3個主要部分。系統(tǒng)的整體流程如圖1所示。
圖1 有效信號識別流程圖
信號有效性識別的主要流程為:
(1)使用高清攝像頭錄制人臉視頻,并將錄制的視頻的每一幀以圖片的形式保存。對幀圖片進(jìn)行人臉識別和定位,通過實驗分析找出效果最好的感興趣區(qū)域,用來后續(xù)提取iPPG信號。
(2)對連續(xù)序列的幀圖片的RGB三通道進(jìn)行分離,得到三通道iPPG信號。
(3)對信號使用小波變換和帶通濾波進(jìn)行去噪處理,選取最符合標(biāo)準(zhǔn)iPPG信號波形的作為后續(xù)實驗使用的波形。
(4)對iPPG信號采用滑窗法分段輸入到訓(xùn)練好的深度學(xué)習(xí)模型中,判斷每一段輸入的iPPG信號是否為有效波形,保留有效波形為之后的擴(kuò)展應(yīng)用做鋪墊。
為更好地采集視頻和進(jìn)行iPPG信號有效性識別,本研究開發(fā)了基于Python的有效iPPG信號識別軟件,該軟件可以實時捕捉攝像頭拍攝到的畫面并顯示在界面上,同時設(shè)計了定時功能,可以自由設(shè)置每次錄制視頻的時長,在視頻錄制結(jié)束后,軟件會先對視頻中的人臉進(jìn)行識別,若人臉識別失敗,則要求參與者重新進(jìn)行錄制;若人臉正確識別,則會將視頻的每一幀圖片保存,并在定位后的人臉上選取感興趣區(qū)域得到iPPG信號用于后續(xù)處理。圖2為自主設(shè)計的有效iPPG信號識別軟件。
圖2 視頻采集軟件
本系統(tǒng)采用的是Dlib人臉識別算法。Dlib是一款基于C++開發(fā)的,同時也可應(yīng)用于Python語言的深度學(xué)習(xí)工具。Dlib用于人臉定位有著較高的準(zhǔn)確性,且方便后續(xù)的擴(kuò)展操作。因此在使用軟件時首先通過加載人臉識別模型來對保存幀圖像實現(xiàn)人臉關(guān)鍵特征點的定位,本實驗使用的模型定位的特征點共有68個,主要包括嘴巴、鼻子、眼睛和眉毛等器官。通過獲取的關(guān)鍵特征點可以確定人臉大小,并實現(xiàn)ROI區(qū)域的定位[12]。
為保證實驗的準(zhǔn)確性,實驗共招募了115名年齡在18~40歲的志愿者(包括74名男性和41名女性)參與本研究。所有參與研究的人員均提前獲得了知情同意,他們都沒有服用藥物,也沒有任何已知的心血管疾病。為確保實驗的可靠性,選擇在上午和下午兩個不同的時間段進(jìn)行實驗。在錄制視頻之前,參與者先休息五分鐘,確保生理狀態(tài)穩(wěn)定,之后在穩(wěn)定光的照射下,參與者被要求坐在攝像機(jī)前約0.5 m的椅子上,錄制多組視頻,每組視頻時長為30 s。錄制時,志愿者被告知盡量保持頭部靜止,且不佩戴會遮擋面部的物體,以減少干擾。實驗使用的攝像頭為阿斯盾AW651高清攝像頭,在1 080P分辨率下,幀率可達(dá)60幀/s,在2K分辨率下,幀率可達(dá)30幀/s。在本研究中,錄制的視頻幀率為60幀,分辨率為1 920×1 080。
有效iPPG信號識別系統(tǒng)的圖像處理算法主要分為兩部分:(1)選取合適的獲取iPPG信號的區(qū)域,即ROI區(qū)域;(2)通過對信號的RGB通道進(jìn)行分類,提取得到所需要的iPPG信號。圖3為分別從不同區(qū)域提取得到的iPPG信號。
圖3 不同ROI區(qū)域的信號曲線
大量研究表明,只有部分面部區(qū)域富含豐富的血管信息,因此需要選取不同的部位分別提取iPPG信號并進(jìn)行對比。圖3是分別從額頭、下巴、臉頰與鼻子三個區(qū)域提取對應(yīng)的iPPG信號,進(jìn)行預(yù)處理得到的時序信號。
從圖3中可以看出,相對于其他區(qū)域,臉頰及鼻子區(qū)域得到的信號更接近于有效PPG波形,造成這個現(xiàn)象的原因:一是鼻子和臉頰區(qū)域毛細(xì)血管分布更多,因此從中提取得到三通道信號可以反映出更多的生理信息;二是該區(qū)域不會因為人的呼吸而產(chǎn)生較大偏移,不會產(chǎn)生較大的干擾。因此本研究選取臉頰及鼻子區(qū)域作為提取iPPG信號的ROI區(qū)域。
選擇合適的ROI區(qū)域后,iPPG信號通過式(2)平均每一幀的ROI區(qū)域的像素值來獲得:
其中t為幀的序列數(shù),W和H為感興趣區(qū)域的寬度和高度。從ROI區(qū)域可以提取得到紅、綠、藍(lán)三個通道的信號,由于血紅蛋白的光學(xué)吸收特性在500 nm~600 nm處達(dá)到峰值,對應(yīng)綠色通道信號[13-14]。此外,在收縮期和舒張期之間,綠色通道信號變化最明顯,因此本方法選擇提取綠色通道信號作為iPPG信號。
由于iPPG信號中存在多種類型的噪聲,如輕微搖頭引起的噪聲、熒光燈產(chǎn)生的工頻噪聲和基線漂移,因此需要對iPPG信號進(jìn)行濾波[15]。本文采用小波變換和帶通濾波對信號進(jìn)行濾波。小波變換的方法在消除噪聲的同時不會破壞所需要的信號。一維信號的離散小波變換如式(3)所示:
其中,x是比例因子,y是平移因子,j和k分別是離散x和y的參數(shù),且j,k∈Z。
一般來說,基線漂移現(xiàn)象發(fā)生在低頻區(qū)[16]。此外,視頻捕獲的幀速率為60幀/s,典型的呼吸頻率在0.14和0.75 Hz之間,對應(yīng)于第六層小波分解。基于以上分析,選擇Sym6母小波對iPPG信號進(jìn)行六層分解,并以第五層作為基線漂移信號,從原始iPPG信號中減去小波信號的第六層低頻分量,從而達(dá)到消除基線漂移現(xiàn)象的目的。經(jīng)驗證,脈搏波的頻率范圍為0.7 Hz~6 Hz[17]。 采用巴特沃斯(Butterworth)帶通濾波器(0.7 Hz~6 Hz)消除非自愿抖動和熒光燈電源頻率引起的噪聲,該方法可以使整個波形更加平滑。此外,巴特沃斯濾波器在通帶內(nèi)的頻率響應(yīng)曲線平坦,沒有波動。iPPG信號中的有用信息可以被最大程度地保留。通過以上預(yù)處理過程得到干凈的iPPG信號。圖4為原始iPPG信號處理的過程。其中圖(a)為原始信號,圖(b)為小波變換后的信號,圖(c)為帶通濾波后的信號。
圖4 iPPG信號處理過程
目前對于iPPG信號識別的研究大多基于傳統(tǒng)的提取峰值點的方法[18]。獲取峰值點的步驟如下:首先,對iPPG信號進(jìn)行歸一化,然后在信號中線附件設(shè)置閾值τ,大于τ的值設(shè)為1,小于τ的值設(shè)為0,這樣便得到了一個新信號。對信號執(zhí)行駐點差分法,從下一個點減去上一個點,然后形成一個新的由1和-1組成的散射信號,通過將與原信號進(jìn)行對應(yīng)便可以判斷信號的有效性,但是此方法對信號的質(zhì)量要求高,在實際情況下提取獲得的iPPG信號關(guān)鍵特征偏移驗證,因此很難做出正確的識別。本研究提出了先用卷積神經(jīng)網(wǎng)絡(luò)提取信號特征,再輸入GRU網(wǎng)絡(luò)進(jìn)行判別的方法。此方法與傳統(tǒng)方法相比大大減少了對因?qū)嶋H場景下外界因素對信號的干擾,提取了信號識別的準(zhǔn)確性。
模型示意框圖如圖5所示。在第一階段中,上支與收縮期估計相關(guān),下支與舒張期估計有關(guān)。每條分支由兩個獨(dú)立的神經(jīng)網(wǎng)絡(luò)組成。通過分配兩條分支,該體系結(jié)構(gòu)可以提取特征并獨(dú)立對信號進(jìn)行有效性識別。
圖5 網(wǎng)絡(luò)模型框圖
由于iPPG信號在舒張期和收縮期有著不同的波形規(guī)律,為了提高所提出模型的性能,將分別提取舒張期和收縮期的特征向量,并輸入到第二階段的模型中。第一階段的兩個神經(jīng)網(wǎng)絡(luò)是深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)。CNN的靈感來自視覺皮層神經(jīng)元之間的連接模式,它們使用卷積運(yùn)算而不是一般的矩陣乘法[19]。因此,與具有相同層數(shù)的標(biāo)準(zhǔn)全連接神經(jīng)網(wǎng)絡(luò)相比,CNN的連接和參數(shù)要少得多,便于訓(xùn)練。在本研究中,CNN網(wǎng)絡(luò)都由四個隱藏的卷積層組成。最后一個卷積層的輸出作為提取的特征向量,神經(jīng)網(wǎng)絡(luò)輸出作為第一階的有效信號識別。每個CNN有四個隱藏的卷積層,如圖6所示。
圖6 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
第二階段的GRU網(wǎng)絡(luò)架構(gòu)由圖7所示,第一層GRU包含了32個單元,而第二層則包含了16個單元。
圖7 GRU網(wǎng)絡(luò)架構(gòu)
由研究可知,iPPG信號是明顯的周期性時序信號,因此在研究時需要考慮特性。LSTM網(wǎng)絡(luò)及GRU網(wǎng)絡(luò)能對相關(guān)時序信息進(jìn)行記憶與刪除,實現(xiàn)動態(tài)地學(xué)習(xí)信號的變化[20]。GRU網(wǎng)絡(luò)由LSTM網(wǎng)絡(luò)改進(jìn)而來,在分析時間序列數(shù)據(jù)中被大量地應(yīng)用。GRU網(wǎng)絡(luò)減少與合并門結(jié)構(gòu)單元,實現(xiàn)了LSTM復(fù)雜內(nèi)部結(jié)構(gòu)的優(yōu)化,在實現(xiàn)更快的網(wǎng)絡(luò)訓(xùn)練速度下,還保證了網(wǎng)絡(luò)的精度[21]。不同于LSTM網(wǎng)絡(luò)的三個門,GRU只包含更新門和重置門,從而減少了需要訓(xùn)練的參數(shù)。更新門決定保留前一時刻狀態(tài)信息保留到當(dāng)前狀態(tài)中的程度,值越大表示前一時刻的狀態(tài)信息保留越多。重置門控制當(dāng)前信息與先前信息結(jié)合的程度,值越小說明忽略的信息越多。
通過對115名志愿者采集得到的共1 656條信息進(jìn)行了有效性分別,最終得到有效iPPG信號820條,無效iPPG信號530條。分別隨機(jī)選取每一類70%的數(shù)據(jù)作為訓(xùn)練集,剩余的30%作為測試集。該數(shù)據(jù)集已經(jīng)開源。然后用構(gòu)建好的一階CNN網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集,當(dāng)一階CNN網(wǎng)絡(luò)訓(xùn)練完成時,將CNN網(wǎng)絡(luò)的輸出結(jié)果和第四層卷積層的輸出作為特征向量制作成新的訓(xùn)練數(shù)據(jù)集,再將新訓(xùn)練數(shù)據(jù)集輸入到二階GRU網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,模型訓(xùn)練完成后,使用之前的測試數(shù)據(jù)集測試訓(xùn)練效果。同時也使用傳統(tǒng)峰值法和只使用CNN網(wǎng)絡(luò)的方法對iPPG信號有效性識別進(jìn)行了測量,測試結(jié)果如表1所示。二階GRU網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)loss曲線如圖8所示,其中橫坐標(biāo)和縱坐標(biāo)分別表示的是訓(xùn)練時的輪數(shù)和對應(yīng)的loss值,由圖8可以看出最終的loss值趨于0.05。
表1 信號有效性識別測試結(jié)果(%)
圖8 損失函數(shù)loss曲線
本文首次提出了基于深度學(xué)習(xí)的有效iPPG信號的識別方法。針對實際應(yīng)用場景下iPPG信號有效性判別困難的問題,自主開發(fā)了通過高速攝像頭錄制并保存人臉幀圖片的軟件。通過多次實驗確定了ROI區(qū)域的選取,選取綠色通道用于提取iPPG信號。針對信號的基線漂移現(xiàn)象,設(shè)計對應(yīng)的小波變換算法進(jìn)行去除;設(shè)計帶通濾波器以最大程度減少噪聲對信號的干擾。最后構(gòu)建基于CNN和GRU網(wǎng)絡(luò)的多階段模型來實現(xiàn)iPPG信號的有效性測量。同時制作并開源了首個iPPG信號有效性識別的數(shù)據(jù)集,在測試實驗中,提出的模型具有良好的準(zhǔn)確性與魯棒性。相較于傳統(tǒng)的識別方法,具有操作便捷、準(zhǔn)確率高、普適性強(qiáng)等優(yōu)點。在后續(xù)的iPPG信號應(yīng)用領(lǐng)域中,具有非常廣闊的應(yīng)用前景。
目前本研究所做實驗因客觀因素的限制,數(shù)據(jù)集包含的范圍較小,選取的志愿者的人種、膚色等比較單一。在未來的實驗中,會擴(kuò)大實驗對象的范圍,從而更進(jìn)一步驗證本文實驗的有效性與普適性。