陳駿霖 張財寶
(廣東工業(yè)大學,廣東 廣州 51006)
有效分離心音和肺音信號在心肺系統(tǒng)的監(jiān)測和診斷中非常重要。分離的心音可用于患者心臟跳動狀態(tài)的實時診斷,如第一和第二心音分割研究和睡眠參數評估[1];分離的肺音可用于患者手術麻醉的呼吸監(jiān)測[2]。但心音和肺音在60 Hz~320 Hz頻帶存在相互干擾,傳統(tǒng)的帶通濾波[3]無法將它們完全分離。
為解決這一問題,國內外學者提出了許多方法,其中基于非負矩陣分解(Non-negative matrix factorization, NMF)模型和基于長短時記憶(long short time memory, LSTM)網絡的心肺音分離方法取得了較好的分離效果。2015年,Shah等人提出基于短時傅里葉變換(short time Fourier transform, STFT)時頻譜和NMF的心肺音分離方法[4]。該方法借助NMF捕捉準周期心肺音頻譜成分,并依據心肺音的頻域分布差異,對這些頻譜成分進行聚類。其分離性能顯著優(yōu)于基于先驗知識的帶通濾波方法。2017年,Canadas等人改進了Shah等人的方法,先對混合信號的STFT時頻譜進行 NMF;然后聯(lián)合頻譜基函數和時域激活向量進行聚類[5]。該方法同時利用了心肺音成分的時、頻分布差異,增強心肺音分離的性能。2019年,朱俊霖等人提出了基于標簽約束NMF的心肺音分離方法,將參考信號以標簽形式加入到混合信號時頻譜的NMF中,增強了心肺音分離效果[6]。但NMF屬于線性矩陣分解模型,無法挖掘心肺音時頻譜的非線性時序信息。同年,雷志彬等人提出了基于STFT和LSTM的心肺音分離網絡,利用心音或肺音時頻譜非線性特征空間中潛在的時序相關性,獲得了當前最優(yōu)的心肺音分離性能[7]。
然而,基于STFT和LSTM的心肺音分離網絡選用的LSTM模型存在結構復雜、參數較多、收斂速度慢、無法挖掘時頻譜時序上下文關系等問題。為此,本文將門控循環(huán)單元(gated recurrent unit, GRU)[8]、雙向 LSTM(bidirectional LSTM, BiLSTM)和雙向GRU(bidirectional GRU, BiGRU)3種循環(huán)神經網絡變體應用于心肺音分離。
心音和肺音幅度譜的估計,一般以估計心音和肺音的時頻掩碼作為中間步驟。常見時頻掩碼有理想二值掩碼(ideal binary mask, IBM)[9]和理想比例掩碼(ideal ratio mask, IRM)[10]等。利用心音或肺音時頻掩碼,結合心肺音混合信號的相位譜,通過逆變換方法即可重構心音或肺音信號的時域波形。常用的時頻掩碼沒有考慮源信號的相位信息。但最近的一些研究表明,在時頻掩碼中加入相位信息有利于提高目標信號的感知質量和可懂度,如理想相位敏感掩碼(ideal phase sensitive mask, IPSM)[11]。
本文將LSTM,GRU,BiLSTM,BiGRU 4種循環(huán)神經網絡應用于心肺音分離,同時分別與2種時頻掩碼組合進行仿真,比較不同模型和不同時頻掩碼的心肺音分離性能。
本文采用的心肺音混合模型為
式中,x(m)為離散時間的心肺音混合信號;m= 1,2,...,M表示時間采樣點;xπ(m)表示源信號,π∈ {c,r},c和r分別表示心音和肺音;η表示高斯白噪聲。
為簡單起見,在心肺音混合模型式(1)中,假設心肺音信號和噪聲信號線性混疊[12]。
電子聽診器作為采集心肺音信號的常用醫(yī)療儀器,采集的信號通常存在高斯白噪聲。去除噪聲的傳統(tǒng)方法有小波變換[13]、經驗模態(tài)分解(empirical mode decomposition, EMD)[14]等。本文只關注無噪環(huán)境下心肺音混合信號的分離,因此心肺音混合信號只含有心音和肺音,可用以下數學模型表示:
本文提出的基于循環(huán)神經網絡的心肺音分離模型如圖1所示。該分離模型的輸入為心肺音混合信號的時頻譜,一般通過短時傅里葉變換時頻分解得到,能夠反映心肺音混合信號特征的時域和頻域變化關系。將心肺音混合信號的時頻譜輸入循環(huán)神經網絡(GRU/BiLSTM/BiGRU),得到心音和肺音時頻掩碼;心音和肺音時頻掩碼與心肺音混合信號的時頻譜進行點乘,得到估計的心音和肺音時頻譜;估計的心音時頻譜和肺音時頻譜分別與標簽的心音時頻譜和肺音時頻譜進行均方誤差再求和,其結果作為心肺音分離模型的代價函數值。
2014年Cho等人提出了GRU[8],其結構如圖2所示。GRU模型使每個循環(huán)單元能夠自適應性地捕獲不同時間尺度的特征信息。GRU與LSTM一樣擁有可調節(jié)單元內部信息流的門控單元,但沒有獨立的記憶單元。
圖2 GRU結構[15]
第t個時刻第j個GRU的當前激活狀態(tài)用第t?1個時刻的先前激活狀態(tài)和候選激活狀態(tài)之間的線性插值來表示:
當前狀態(tài)和計算更新后的狀態(tài)之間進行線性求和的過程類似于LSTM。候選激活狀態(tài)的計算方式
類似于傳統(tǒng)的循環(huán)神經網絡單元。
式中,tr為一組重置門;⊙為逐個元素進行相乘。
BiLSTM在標準RNN的基礎上,通過前向狀態(tài)和后向狀態(tài)來捕獲長期依賴關系,其結構如圖3所示。
圖3 BiLSTM結構[16]
對于每個時刻,BiLSTM不僅考慮先前時刻的信息,還考慮未來時刻的信息。前向LSTM的隱含狀態(tài)通過先前狀態(tài)和輸入來表示:
式中,xt表示信息的輸入;表示先前狀態(tài);表分別表示輸入門、忘記門、輸出門和調制門;表示一種新的記憶細胞向量,其候選項可以添加到前向狀態(tài)中;W和b分別表示權重和偏置。示隱含狀態(tài);
反向LSTM的運算過程與前向相同。
BiGRU由相反傳輸方向的2個隱藏層連接到同一輸出層,以便輸出層從過去和未來的狀態(tài)中獲取特征信息,這樣BiGRU能夠從2個不同的數據方向學習信息,可更準確預測。BiGRU將標準GRU單元分為前向狀態(tài)和反向狀態(tài),其結構如圖4所示。
圖4 BiGRU結構[17]
由圖4可以看出,BiGRU第t個時刻的隱含層狀態(tài)不僅取決于該時刻的輸入xt和前向狀態(tài)(正方向)的隱含層狀態(tài)輸出,而且還取決于后向狀態(tài)(反方向)的隱含層狀態(tài)輸出。
本文采用IBM和IPSM 2種時頻掩碼作為心肺音分離模型的目標掩碼。
IBM是語音分離的主要計算目標,該掩碼假設每個時頻單元只有一個源信號占主導地位。針對每個時頻單元,如果目標(target)時頻譜大于噪聲(noise)時頻譜,則將相應的掩碼值設置為1,否則設置為0。IBM定義為
IPSM 考慮了源信號與輸入混合信號之間的相位差異,相較于其他掩碼,在語音分離領域有更好的分離效果,其定義為
式中,xθ為心肺音混合信號的相位;θπ為源信號π的相位。
基于循環(huán)神經網絡的心肺音分離模型的代價函數為
式中,Ω表示模型所有可訓練的參數;B=T×F×2為心音和肺音信號時頻點的總數;c和r分別為心音和肺音;為模型估計的心音或肺音的時頻掩碼;X為心肺音混合信號的時頻譜;Xπ為標簽心音或肺音的時頻譜。
從公開數據集[18-25]中選出干凈的心音和肺音信號構建仿真數據集。其中,心音信號共102條采自47個被試者;肺音信號共57條采自36個被試者;采集時長為2 s~70 s,采樣率為4 kHz或44.1 kHz。為便于分析,首先將采樣率統(tǒng)一降至2 kHz;然后將心音和肺音信號都切割成長度為10 s的片段(不足10 s的信號補零),共獲得心音信號121段,肺音信號62段;最后按照1:1的心肺音能量比合成聽診信號,并通過分離得到的心音和肺音信號的信噪比(signalto-noise ratio, SNR)來評估心肺音分離性能。
式中,sP為信號能量;nP為噪聲能量。SNR越高,表示心肺音分離性能越好。
由于數據集規(guī)模較小,以三重交叉驗證的平均SNR來度量不同方法的心肺音分離性能。三重交叉驗證的數據構成如下:
1) 先將干凈的心音信號和肺音信號分別劃分為3組,用{H1,H2,H3}和{L1,L2,L3} 表示,不同組的心/肺音數據采自不同的被試者;
2) 第一重交叉驗證將H1和L1合成聽診信號作為驗證集,將{H2∪H3}和{L2∪L3} 合成聽診信號作為訓練集;
3) 同樣,第二重和第三重交叉驗證將對應下標的心音信號和肺音信號合成聽診信號作為驗證集,將其余的心音信號和肺音信號合成聽診信號作為訓練集。
各重交叉驗證的訓練集和驗證集規(guī)模如表1所示。
表1 交叉驗證的訓練集和驗證集規(guī)模
時頻掩碼為IBM時,4種循環(huán)神經網絡的心肺音分離性能比較如表2所示。由表2可以看出,相比于LSTM,GRU和BiLSTM,BiGRU分離的心音信噪比分別提高了1.44 dB,0.58 dB和0.27 dB;分離的肺音信噪比分別提高了1.47 dB,0.47 dB和0.17 dB。表明在時頻掩碼為IBM時,BiGRU具有更優(yōu)的心肺音分離性能。
表2 實驗結果對比
時頻掩碼為IPSM時,4種循環(huán)神經網絡的心肺音分離性能比較如表3所示。由表3可以看出,相比于LSTM,GRU和BiLSTM,BiGRU分離的心音信噪比分別提高了1.73 dB,0.52 dB和0.2 dB;分離的肺音信噪比分別提高了1.53 dB,0.57 dB和0.28 dB。表明在時頻掩碼為IPSM時,BiGRU具有更優(yōu)的心肺音分離性能。
表3 實驗結果對比
對比表2和表3可以看出:選用IPSM作為時頻掩碼的分離性能比IBM更好。IBM假設每一個時頻單元只有一個信號主導,即要么是心音主導,要么是肺音主導,此假設與實際不一定符合。而IPSM沒有受該假設的約束,且考慮了混合心肺音時頻相位與心音和肺音時頻相位的差異信息,表現更優(yōu)的分離性能。綜上所述,基于BiGRU和IPSM的心肺音分離方法取得最優(yōu)的心肺音分離效果。
本文將4種循環(huán)神經網絡和2種時頻掩碼應用于心肺音分離,進行組合仿真并比較心肺音分離性能。實驗結果表明:基于BiGRU和IPSM的心肺音分離方法取得最優(yōu)的心肺音分離效果。