林家榮 鄭凱文 甘兆明 謝仕宇 鄭君銳
學(xué)術(shù)研究
基于知識(shí)蒸餾的心肺音分離模型
林家榮鄭凱文甘兆明謝仕宇鄭君銳
(廣東工業(yè)大學(xué),廣東 廣州 510006)
針對(duì)基于雙向門控循環(huán)單元(BiGRU)的心肺音分離模型存在的參數(shù)量大、算法繁雜、訓(xùn)練成本高、硬件算力要求高等問(wèn)題,提出基于知識(shí)蒸餾的心肺音分離模型。該模型基于BiGRU,教師網(wǎng)絡(luò)、學(xué)生網(wǎng)絡(luò)分別采用3層、1層BiGRU網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,采用“教師—學(xué)生”知識(shí)蒸餾方法可提高學(xué)生網(wǎng)絡(luò)性能,且蒸餾后的“學(xué)生+KD”心肺音分離網(wǎng)絡(luò)相比教師網(wǎng)絡(luò),模型更小、算法更簡(jiǎn)單、訓(xùn)練成本更低,為部署到邊緣設(shè)備以及資源受限的設(shè)備提供了理論依據(jù)。
心肺音分離;雙向門控循環(huán)單元;知識(shí)蒸餾;教師網(wǎng)絡(luò);學(xué)生網(wǎng)絡(luò)
心音和肺音可用于心血管、呼吸系統(tǒng)和睡眠呼吸暫停綜合征等疾病的診斷[1-3]。然而現(xiàn)實(shí)采集的心音和肺音是混合信號(hào),需進(jìn)行分離,以準(zhǔn)確識(shí)別相關(guān)疾病。
心音信號(hào)的頻率范圍一般為10 ~ 320 Hz,肺音信號(hào)的頻率范圍一般為60 ~ 600 Hz,其頻率范圍相互混疊。傳統(tǒng)的帶通濾波器僅適用于分離頻帶相互分離的信號(hào),無(wú)法有效分離心音和肺音;自適應(yīng)濾波法、小波變換法依賴模板和參數(shù),難以在實(shí)際應(yīng)用中推廣。
近幾年,國(guó)內(nèi)外學(xué)者雖然提出了很多心音信號(hào)和肺音信號(hào)的分離方法[1-4],但這些方法都有一定的缺陷,如自適應(yīng)濾波法收斂速度較慢;小波變換法難以選取小波基,不同的小波基分析結(jié)果也不相同等。隨著深度學(xué)習(xí)的發(fā)展,采用深度學(xué)習(xí)網(wǎng)絡(luò)模型分離心肺音的研究也越來(lái)越多,如長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short- term memory, LSTM)、門控循環(huán)單元(gated recurrent unit,GRU)、雙向門控循環(huán)單元(bidirectional gated recurrent unit, BiGRU)等循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的變形,因可以較好地處理序列問(wèn)題[4]而應(yīng)用于心肺音分離。
RNN隨著訓(xùn)練次數(shù)、層數(shù)增加,其參數(shù)呈指數(shù)增長(zhǎng),計(jì)算時(shí)間也相應(yīng)增加,這對(duì)邊緣設(shè)備的硬件要求較高。
為此,本文提出基于知識(shí)蒸餾的心肺音分離模型。該模型的基本框架為BiGRU,將知識(shí)蒸餾應(yīng)用于該模型,使模型更小、算法更簡(jiǎn)單、訓(xùn)練成本更低。
本文研究的心肺音分離模型僅限于單通道心肺音信號(hào),其混合數(shù)學(xué)模型為[5]
式中:
為簡(jiǎn)單起見(jiàn),假設(shè)只考慮安靜無(wú)噪聲環(huán)境下的心肺音混合信號(hào),即僅含心音信號(hào)和肺音信號(hào),公式(1)可簡(jiǎn)化為
基于知識(shí)蒸餾的心肺音分離模型采用了BiGRU網(wǎng)絡(luò)結(jié)構(gòu)。BiGRU主要由輸入層、前向傳遞層、后向傳遞層和輸出層組成[6],結(jié)構(gòu)如圖1所示。
圖1 BiGRU結(jié)構(gòu)
式中:
在心肺音混合信號(hào)中,某個(gè)時(shí)刻的信息與歷史信息、未來(lái)信息均有關(guān)聯(lián)。單向的GRU網(wǎng)絡(luò)只能感知按時(shí)間順序傳遞的信息,無(wú)法反向獲取未來(lái)信息與當(dāng)前信息的關(guān)聯(lián)。BiGRU通過(guò)訓(xùn)練2個(gè)方向相反的單向GRU網(wǎng)絡(luò),既考慮數(shù)據(jù)時(shí)間正序、逆序的關(guān)聯(lián),又可充分提取心肺音混合信號(hào)的深層特征信息。BiGRU在結(jié)構(gòu)上簡(jiǎn)化為2個(gè)門:更新門和重置門,較少的參數(shù)使模型訓(xùn)練更快收斂。
知識(shí)蒸餾是一種網(wǎng)絡(luò)輕量化方法,由多倫多大學(xué)的HINTON提出[7],其核心思想是通過(guò)知識(shí)遷移,教師網(wǎng)絡(luò)采用訓(xùn)練好的大網(wǎng)絡(luò),學(xué)生網(wǎng)絡(luò)采用運(yùn)行速度更快、參數(shù)更小的網(wǎng)絡(luò);將復(fù)雜的教師網(wǎng)絡(luò)輸出的軟標(biāo)簽作為知識(shí)傳遞給學(xué)生網(wǎng)絡(luò),提升學(xué)生網(wǎng)絡(luò)性能。本文心肺音分離網(wǎng)絡(luò)的知識(shí)蒸餾框架如圖2所示,其中Teacher Model表示教師網(wǎng)絡(luò),Student Model表示學(xué)生網(wǎng)絡(luò)。
圖2 知識(shí)蒸餾框架
知識(shí)蒸餾網(wǎng)絡(luò)的損失函數(shù)為蒸餾損失函數(shù)和學(xué)生網(wǎng)絡(luò)在真實(shí)標(biāo)簽監(jiān)督下的損失函數(shù)的加權(quán)和,計(jì)算公式為
(6)
式中:
知識(shí)蒸餾訓(xùn)練框架和學(xué)生網(wǎng)絡(luò)的測(cè)試框架如圖3所示。利用教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)同時(shí)訓(xùn)練,訓(xùn)練出分離效果最好、總損失最小的學(xué)生網(wǎng)絡(luò),并使用測(cè)試數(shù)據(jù)集進(jìn)行測(cè)試。
圖3 知識(shí)蒸餾訓(xùn)練框架和學(xué)生網(wǎng)絡(luò)的測(cè)試框架
目前,主流的基于深度學(xué)習(xí)的心肺音分離模型訓(xùn)練步驟為:首先,利用短時(shí)傅里葉變換(short-time Fourier transform, STFT)將心肺音混合信號(hào)轉(zhuǎn)換成時(shí)頻譜;然后,經(jīng)過(guò)分離網(wǎng)絡(luò)得到心音和肺音的時(shí)頻掩碼;最后,利用逆短時(shí)傅里葉變換乘以時(shí)頻掩碼,得到分離后的心音信號(hào)和肺音信號(hào)[5]。
本文教師網(wǎng)絡(luò)框架如圖4所示,以BiGRU為主體架構(gòu),基本訓(xùn)練步驟與主流的基于深度學(xué)習(xí)的心肺音分離模型一致。
學(xué)生網(wǎng)絡(luò)性能依賴于教師網(wǎng)絡(luò)。因此,在利用知識(shí)蒸餾訓(xùn)練學(xué)生網(wǎng)絡(luò)時(shí),先將教師網(wǎng)絡(luò)訓(xùn)練到最好效果。為盡可能地壓縮學(xué)生網(wǎng)絡(luò)規(guī)模,本文設(shè)計(jì)的學(xué)生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)的基礎(chǔ)上減少2層BiGRU,從而減少網(wǎng)絡(luò)的規(guī)模和參數(shù)數(shù)量,其余部分與圖4相同。
圖4 教師網(wǎng)絡(luò)框架圖
心肺音分離的效果可通過(guò)分離后的心音信號(hào)和肺音信號(hào)的信噪比來(lái)衡量,信噪比越高說(shuō)明分離效果越好[8]。本文取心音信號(hào)和肺音信號(hào)的信噪比之和,并取負(fù)數(shù)作為損失函數(shù),則心肺音分離網(wǎng)絡(luò)的代價(jià)函數(shù)為
式中:
其中,公式(7)為學(xué)生網(wǎng)絡(luò)在真實(shí)標(biāo)簽監(jiān)督下的心肺音信噪比;公式(8)為學(xué)生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)偽標(biāo)簽監(jiān)督下的心肺音信噪比。
基于知識(shí)蒸餾的心肺音分離模型的訓(xùn)練流程為:
1)搭建教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò),教師網(wǎng)絡(luò)復(fù)雜、參數(shù)量較大;學(xué)生網(wǎng)絡(luò)簡(jiǎn)單、參數(shù)量少;
2)在公開(kāi)數(shù)據(jù)集上訓(xùn)練教師網(wǎng)絡(luò),得到一個(gè)效果最好的網(wǎng)絡(luò);
3)將教師網(wǎng)絡(luò)分離后的心音信號(hào)和肺音信號(hào)作為偽標(biāo)簽,讓學(xué)生網(wǎng)絡(luò)在真實(shí)標(biāo)簽和偽標(biāo)簽的監(jiān)督下訓(xùn)練,得到效果最好的學(xué)生網(wǎng)絡(luò)。
實(shí)驗(yàn)采用的心音信號(hào)和肺音信號(hào)分別來(lái)自公開(kāi)數(shù)據(jù)集PhysioNet和Welch Allyn[9-10]。其中,心音信號(hào)102條,肺音信號(hào)95條,信號(hào)時(shí)長(zhǎng)為2~70 s,信號(hào)采樣率為4 kHz或44.1 kHz。為方便計(jì)算,統(tǒng)一對(duì)信號(hào)進(jìn)行降采樣,將信號(hào)頻率降至2 kHz,并按照固定的能力比0 dB和10 dB進(jìn)行混合;以信噪比(signal- to-noise ratio, SNR)作為心肺音分離實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)。
式中:
為驗(yàn)證知識(shí)蒸餾方法對(duì)心肺音分離網(wǎng)絡(luò)的有效性,對(duì)比基于NMF模型的心肺音分離網(wǎng)絡(luò)、基于全連接LSTM的心肺音分離網(wǎng)絡(luò)、教師網(wǎng)絡(luò)、學(xué)生網(wǎng)絡(luò)、學(xué)生+KD網(wǎng)絡(luò)(學(xué)生+KD網(wǎng)絡(luò)為采用知識(shí)蒸餾結(jié)構(gòu)訓(xùn)練的學(xué)生網(wǎng)絡(luò))的分離效果,其信噪比如表1所示。
表1 不同分離網(wǎng)絡(luò)分離出心音的信噪比
由表1可以看出,基于LSTM的分離方法的分離效果比基于NMF的分離方法好;本文采用的BiGRU網(wǎng)絡(luò)(即教師網(wǎng)絡(luò))的分離效果比基于LSTM的分離方法高約0.4 dB,說(shuō)明采用BiGRU網(wǎng)絡(luò)不僅減少了網(wǎng)絡(luò)參數(shù),還提高了分離效果。
學(xué)生網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)比教師網(wǎng)絡(luò)少,SNR與教師網(wǎng)絡(luò)相比下降約2 dB,分離效果仍然優(yōu)于基于NMF的分離方法。
經(jīng)過(guò)知識(shí)蒸餾后,教師網(wǎng)絡(luò)將知識(shí)遷移到學(xué)生網(wǎng)絡(luò),雖然學(xué)生+KD網(wǎng)絡(luò)分離效果比教師網(wǎng)絡(luò)差,卻比普通的學(xué)生網(wǎng)絡(luò)提高了約0.35 dB,說(shuō)明知識(shí)蒸餾方法可以提高學(xué)生網(wǎng)絡(luò)的心肺音分離精度。
本文針對(duì)現(xiàn)有的心肺音分離模型參數(shù)量較大、算法繁雜、訓(xùn)練成本高等問(wèn)題,將知識(shí)蒸餾方法應(yīng)用于心肺音分離,提出基于知識(shí)蒸餾的心肺音分離模型。通過(guò)實(shí)驗(yàn)表明,使用深度學(xué)習(xí)的分離方法比傳統(tǒng)的NMF分離方法效果好,且使用“教師—學(xué)生”知識(shí)蒸餾方法可提高學(xué)生網(wǎng)絡(luò)性能。蒸餾后的“學(xué)生+KD”心肺音分離網(wǎng)絡(luò)相比教師網(wǎng)絡(luò)雖然SNR減小,但整個(gè)模型更小,算法更簡(jiǎn)單、訓(xùn)練成本更低,為部署到邊緣設(shè)備、資源受限設(shè)備提供了可能。
[1] BOHADANA A B, PESLIN R, UFFHOLTZ H, et al. Potential for lung sound monitoring during bronchial provocation testing[J]. Thorax, 1995,50(9):955-961.
[2] HARDIN J C, PATTERSON J L. Monitoring the state of the human airways by analysis of respiratory sound[J]. Acta Astronautica, 1979,6(9):1137-1151.
[3] AHLSTROM C, HULT P, RASK P, et al. Feature extraction for systolic heart murmur classification[J]. Annals of Biomedical Engineering, 2006,34(11):1666-1677.
[4] NERSISSON R, NOEL M M. Heart sound and lung sound separation algorithms: a review[J]. Journal of Medical Engineering & Technology, 2017,41(1):13-21.
[5] SHAH G, KOCH P, PAPADIAS C B. On the blind recovery of cardiac and respiratory sounds[J]. IEEE Journal of Biomedical and Health Informatics, 2015,19(1):151-157.
[6] ZHANG Z, DONG Z, LIN H, et al. An improved bidirectional gated recurrent unit method for accurate state-of-charge estimation[J]. IEEE Access, 2021,9:11252-11263.
[7] HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531, 2015, 2(7).
[8] 陳駿霖,張財(cái)寶.幾種循環(huán)神經(jīng)網(wǎng)絡(luò)和時(shí)頻掩碼在心肺音分離中的應(yīng)用[J].自動(dòng)化與信息工程,2020,41(1):39-44.
[9] PhysioNet. Classification of normal/abnormal heart sound recordings: the physionet computing in cardiology challenge 2016[DB/OL].(2018-08-13)[2019-01-26]. https://physionet.org/ content/challenge-2016/1.0.0/
[10] Welch Allyn. Student clinical learning [DB/OL]. (2019-01-26) [2019-01-26]. https://diagnosis101.welchallyn.com/auscultation/ educational-topics/sounds-pathologies/
Cardiorespiratory Sound Separation Method Based on Knowledge Distillation
LIN JiarongZHENG KaiwenGAN ZhaomingXIE ShiyuZHENG Junrui
(Guangdong University of Technology, Guangzhou 510006, China)
In order to address the problems of the existing cardiorespiratory sound separation model based on bidirectional gated recurrent unit, such as huge parameters, complex algorithms, high training costs and high requirements for hardware computing power, this paper applies the knowledge distillation method to the cardiorespiratory sound separation, and proposes a cardiorespiratory sound separation model based on knowledge distillation. The model is based on BiGRU. The teacher network uses three-layer BiGRU network, and the student network uses one-layer BiGRU network. The experimental results show that the performance of student network can be improved by using the "teacher student" knowledge distillation method. The distilled "student +KD" cardiopulmonary sound separation network is smaller than the whole teacher model, with simpler algorithm and lower training cost, which provides a theoretical basis for deploying to edge devices and resource constrained devices.
cardiorespiratory sound separation; bidirectional gated recurrent unit; knowledge distillation; teacher network; student network
R318; TN912.3; TP183
A
1674-2605(2022)05-0003-05
10.3969/j.issn.1674-2605.2022.05.003
林家榮,鄭凱文,甘兆明,等.基于知識(shí)蒸餾的心肺音分離模型[J].自動(dòng)化與信息工程,2022,43(5):13-16,29.
LIN Jiarong, ZHENG Kaiwen, GAN Zhaoming, et al. Cardiorespiratory sound separation method based on knowledge distillation[J]. Automation & Information Engineering, 2022,43(5):13-16,29.
林家榮,男,1997年生,碩士研究生,主要研究方向:模式識(shí)別、機(jī)器學(xué)習(xí)、生物信號(hào)處理。E-mail:1440645304@qq.com
鄭凱文,男,1994年生,碩士研究生,主要研究方向:模式識(shí)別、機(jī)器學(xué)習(xí)、生物信號(hào)處理。E-mail: kwenzheng@126.com
甘兆明,男,1995年生,碩士研究生,主要研究方向:模式識(shí)別、機(jī)器學(xué)習(xí)、生物信號(hào)處理。E-mail: 1803158832@qq.com
謝仕宇,男,1997年生,碩士研究生,主要研究方向:模式識(shí)別、機(jī)器學(xué)習(xí)、生物信號(hào)處理。E-mail: 398462377@qq.com
鄭君銳,男,1997年生,碩士研究生,主要研究方向:模式識(shí)別、機(jī)器學(xué)習(xí)、生物信號(hào)處理。E-mail: 1016202705@qq.com