孫井鵬 胡晰遠 彭思龍
摘要 鼾聲檢測任務(wù)近年來取得了較大的發(fā)展,出現(xiàn)了許多相應(yīng)的檢測方法,這些方法也有著較為明確的框架與發(fā)展趨勢。因此,本文就鼾聲檢測的研究現(xiàn)狀進行總結(jié),并給出該方向發(fā)展前景的討論,以期讓大家在了解其歷史發(fā)展的基礎(chǔ)上,跟進最新進展,對未來的發(fā)展方向有更加深入的認識。
關(guān)鍵詞 鼾聲檢測;阻塞型睡眠呼吸暫停綜合征;研究綜述
Abstract The snore detection task has made great progress in recent years,and many approaches have been proposed.These methods have a relatively clear framework and development trend.Therefore,this article summarizes the current research situation of snore detection and discusses the development of this field with the hope that everyone could follow the latest situation on the basis of understanding its historical development and have a deeper understanding of the future development of snore detection.
Keywords Snore detection;OSAHS;Review
中圖分類號:R714.253;R765文獻標(biāo)識碼:Adoi:10.3969/j.issn.2095-7130.2020.03.075
1 鼾聲檢測研究背景與意義
阻塞性睡眠呼吸暫停低通氣綜合征(OSAHS)作為最常見的睡眠呼吸疾病之一,嚴(yán)重影響著人類的睡眠質(zhì)量[1-2]及健康狀況,世界上約有5%的人患有OSAHS,如果得不到及時治療,OSAHS將會誘發(fā)高血壓、冠心病、糖尿病、心力衰竭,甚至猝死等癥狀。目前臨床上診斷OSAHS的“金標(biāo)準(zhǔn)”是睡眠多導(dǎo)監(jiān)測(PSG),其是通過記錄患者一夜睡眠期間的若干生理信號(如腦電信號、心電信號、肌電信號、眼電信號、血氧飽和度和鼾聲等),然后通過睡眠技師人工分析得到關(guān)于OSAHS的報告。這一過程需要耗費大量的醫(yī)護人力和醫(yī)療設(shè)備資源,導(dǎo)致很多OSAHS患者不能得到及時治療。鼾聲作為OSAHS早期特征,也是最典型的癥狀之一,近年來引起了研究人員的廣泛關(guān)注。一方面,鼾聲與OSAHA有著緊密的聯(lián)系:OSAHS表現(xiàn)為睡眠中塌陷的上氣道反復(fù)出現(xiàn)閉合引起呼吸暫停或通氣不足,并伴有打鼾、血氧飽和度下降以及呼吸結(jié)構(gòu)紊亂等癥狀。在此過程中,隨著塌陷程度的增加,上氣道內(nèi)的壓力也隨之增加,導(dǎo)致氣流速度加快并引起上氣道內(nèi)某些組織的振動從而產(chǎn)生了鼾聲。鑒于此,如果上氣道的狀態(tài)(如振動位置、塌陷程度)不同,那么根據(jù)鼾聲產(chǎn)生的過程,不同狀態(tài)下產(chǎn)生的鼾聲也應(yīng)該不同,即鼾聲能夠反映上氣道的狀態(tài)。另一方面,鼾聲數(shù)據(jù)的采集較之PSG也更加方便。有研究表明,鼾聲中包含著OSAHS的信息,因此,近年來有大量的基于鼾聲的OSAHS研究。但是,這些研究大部分都集中在鼾聲信號的分析上,而在鼾聲信號的檢測方面則比較少。大多數(shù)鼾聲分析的研究,其鼾聲數(shù)據(jù)都是基于人工截取標(biāo)注的,手動標(biāo)注數(shù)據(jù)需要耗費大量的時間與人力,不僅精度低(鼾聲的起止位置不精確)而且效率低,從鼾聲領(lǐng)域的研究來看,也不便于該領(lǐng)域的快速發(fā)展,因此鼾聲檢測任務(wù)是鼾聲分析領(lǐng)域至關(guān)重要并亟待解決的問題。
2 鼾聲檢測研究現(xiàn)狀
在鼾聲檢測的研究中,相關(guān)方法可以分為兩大類:1)多階段法;2)單階段法。兩者的區(qū)別在于:前者需要經(jīng)過多個階段的分析處理才能實現(xiàn)鼾聲的檢測,而后者是一種一步到位的檢測方法。
2.1 多階段法
多階段的方法把鼾聲檢測任務(wù)分為多個過程,該類方法大概可歸納為以下3個階段:1)有聲段檢測;2)特征提取;3)鼾聲檢測。
2.1.1 有聲段檢測 通過觀察音頻信號的時域波形我們能夠發(fā)現(xiàn),有聲音的部分與背景部分存在明顯不同,如波形分布不同、幅度變化特點不同。基于此文獻[3-4]提出一種基于局部窗口的聲音檢測方法,該種檢測方法通過統(tǒng)計落入該窗口中的觀測值的個數(shù)來分析是否到達聲音事件的端點??紤]到背景聲音的方差較之有聲段的方差更為穩(wěn)定,文獻[5]提出一種更為簡便的基于方差變化的有聲段檢測方法,但是該方法在背景變化較大的情況下穩(wěn)定性較差。更為常用且更加穩(wěn)定的方法是基于短時能量閾值的方法[6-13],有聲段的中間部分能量通常會大于背景聲,不過其端點部分很可能由于能量較小而被背景聲音淹沒,為了解決這個問題,通常將單位時間內(nèi)通過零點的次數(shù)(過零率)與短時能量結(jié)合[6,12-13],因為過零率與能量無關(guān),通常背景聲的過零率小于有聲段,二者結(jié)合會取得更準(zhǔn)確的結(jié)果。除時域外,文獻[14]通過雙閾值的方法對音頻的功率譜進行篩選達到有聲段檢測的目的。
2.1.2 特征提取 早期在特征提取階段研究人員使用的都是較為簡單的特征如能量[4],基頻[12],自相關(guān)系數(shù)[13]以及時域或譜域的特征[5]。這些特征較為簡單,并沒有考慮到鼾聲與其他聲音的區(qū)別,所以檢測效果不好[3-4,6]。根據(jù)鼾聲的子帶能量分布特征,將鼾聲的頻譜分為若干子頻帶,計算每個頻帶的能量以表征聲音事件的能量分布特征,這種做法較之簡單的使用頻率特征有稍微的改善,但是,值得注意的是其使用的子帶能量分布特征并不能很好地表征人耳聽覺特性,也沒有明顯的聲學(xué)意義。為了模仿人耳處理聲音的過程,文獻[11]通過對聲音事件進行聲音圖像建模(AIM)以期模仿聲音從外耳到大腦的聽覺通路,AIM主要包含5個步驟,分別為:類耳蝸處理(Pre-cochlear Processing)、底膜運動處理(Basilar MemBrane Motion)、神經(jīng)激活模式(Neural Activity Pattern)、脈沖識別(Strobe Identification)和穩(wěn)態(tài)聽覺成像(Stabilized Auditory Image),雖然該方法有一定的仿生學(xué)意義,但是過程復(fù)雜,在鼾聲檢測領(lǐng)域并沒有得到廣泛的應(yīng)用。實際上目前在表征人耳聽覺方面使用較多并在語音識別中表現(xiàn)出明顯優(yōu)勢的聲學(xué)特征是梅爾頻率倒譜系數(shù)(MFCC),近年來許多鼾聲檢測的方法也將MFCC作為主要聲學(xué)特征之一[7-10,14-15],其是通過將音頻的頻譜通過一組能夠反映人耳聽覺特性的非線性分布的梅爾頻率濾波器組得到的。它的第一個系數(shù)反應(yīng)音頻的能量大小,為了使特征獨立于能量的變化可以將第一個系數(shù)刪除。另外,為了反應(yīng)音頻的動態(tài)特性,通常將MFCC的一階與二階差分與其結(jié)合在一起使用。
2.1.3 鼾聲檢測 自進入21世紀(jì)以來,鼾聲檢測方向的研究較之以前出現(xiàn)了小幅增長,涌現(xiàn)了一批檢測算法,這些算法可分為有監(jiān)督和無監(jiān)督兩類。有監(jiān)督算法中[5-17],早期,文獻[15]將鼾聲分為起始、中間與結(jié)束3個狀態(tài),試圖通過對鼾聲事件使用隱馬爾科夫模型進行建模的方式實現(xiàn)檢測的目的,但是由于鼾聲的多樣性,該類建模方法并沒能取得較好的應(yīng)用。更多的研究使用的是基于分類的方法,K-近鄰(KNN)算法[9]、支持向量機(SVM)[17]、高斯混合模型(GMM)[7]、線性回歸[6]、邏輯斯蒂回歸[11]等分類算法均有應(yīng)用,除了單獨的分類器之外,文獻[8]使用集合多個分類器的集成學(xué)習(xí)分類器Adaboost應(yīng)用在鼾聲檢測的任務(wù)中。無監(jiān)督算法主要是以聚類算法為主[3-4],分別通過Fuzzy c-means與k-means 2種聚類算法來實現(xiàn)鼾聲檢測。然而基于上述聚類算法和分類算法的鼾聲檢測算法,一定程度上實現(xiàn)了相關(guān)功能,但是效果不盡如人意,究其原因主要是因為鼾聲信號的高度非線性與多樣性,且大多數(shù)鼾聲信噪比較低,這也給檢測任務(wù)帶來了一定的難度,而近年來隨著大數(shù)據(jù)的興起與高性能計算的普及,神經(jīng)網(wǎng)絡(luò)強大的數(shù)據(jù)表示能力得以展現(xiàn),在解決非線性表示問題上,在計算機視覺、自然語言處理、語音識別等領(lǐng)域表現(xiàn)出了卓越的性能,并獲得廣泛關(guān)注。文獻[10]構(gòu)建了人工神經(jīng)網(wǎng)絡(luò)模型(ANN)用于鼾聲檢測,取得了不錯的效果,但是由于他們使用的只是層數(shù)較少的普通的神經(jīng)網(wǎng)絡(luò)模型,在表示時間序列上優(yōu)勢并不明顯,為了克服這個問題,文獻[14]利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)較好地表達了鼾聲的時間序列特征,取得了較高的準(zhǔn)確率。
2.2 單階段法 目前大部分的研究基本上都是多階段的方法,但這種做法通常會面臨以下問題。首先,在有聲段檢測階段,無論是基于時域還是頻域特征,均是基于閾值的,而這些閾值是超參數(shù)很難選擇。一般的解決方式是采用自適應(yīng)的方法選擇閾值,如根據(jù)整個訓(xùn)練集的數(shù)據(jù)分布選擇閾值,也只是杯水車薪,其泛化能力較差。其次,在特征提取階段,我們注意到,研究人員試圖從鼾聲的產(chǎn)生端、人耳的接收端來模擬人耳對鼾聲的感知特性,共振峰、梅爾頻率倒譜系數(shù)這些都只是基于我們的先驗知識而人工設(shè)計的特征,至于該特征是否真的能像預(yù)期的一樣反映人類的聽覺系統(tǒng)特性,還需要進一步探索,而且目前使用較多的特征也比較單一。最后,目前大部分的鼾聲檢測算法,其實是在選定類型下的鼾聲分類算法,這些研究只考慮了睡眠期間的除鼾聲之外的部分其他聲音(如咳嗽、說話、呼吸等),但在實際情況下,睡眠期間還會發(fā)生許多其他類型的聲音(如敲門聲、動物叫聲、汽車聲等),因此這些方法均不能很好地適用于實際情況。因此,我們需要一種更加魯棒,獨立于人工特征,更適用于實際情況的鼾聲檢測算法。有文獻[18]在這方面做了初步的嘗試,提出了一種基于深度學(xué)習(xí)的端到端的鼾聲檢測模型,該模型以一維卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),以原始錄音數(shù)據(jù)為輸入,直接輸出鼾聲檢測結(jié)果,但是由于該模型使用的是卷積網(wǎng)絡(luò),在表達時間序列信息上有所不足,其性能還有待進一步改善。
3 發(fā)展前景
縱觀近20多年鼾聲檢測領(lǐng)域的發(fā)展可以看到,以往基于傳統(tǒng)機器學(xué)習(xí)的方法正在慢慢被深度學(xué)習(xí)所替代,多階段算法的主導(dǎo)地位也出現(xiàn)了向單階段方法過渡的跡象,相信隨著近年來海量數(shù)據(jù)的出現(xiàn),計算力的大幅度提升,單階段檢測方法將成為未來的趨勢。如何做到快速、準(zhǔn)確地檢測到睡眠期間的鼾聲,將是未來睡眠相關(guān)研究領(lǐng)域內(nèi)一個必須要深度探討的問題。
參考文獻
[1]Macarthur K E,Ryan C M,Bradley T D,et al.Differential Effect of Snoring and Obstructive Sleep Apnea on Sleep Structure and Sleepiness[M]//C77.PREDICTORS OF SLEEP DISORDERED BREATHING AND RESPONSE TO TREATMENT.American Thoracic Society,2018:A5899-A5899.
[2]胡雪君,康健,王瑋,等.持續(xù)正壓通氣對阻塞性睡眠呼吸暫?;颊咚哔|(zhì)量改善作用[J].中國醫(yī)科大學(xué)學(xué)報,2001,30(3):44-46.
[3]Azarbarzin A,Moussavi Z M K.Automatic and unsupervised snore sound extraction from respiratory sound signals[J].IEEE Transactions on Biomedical Engineering,2010,58(5):1156-1162.
[4]Azarbarzin A,Moussavi Z.Unsupervised classification of respiratory sound signal into snore/no-snore classes[C]//2010 Annual International Conference of the IEEE Engineering in Medicine and Biology.IEEE,2010:3666-3669.
[5]Jané R,Solà-Soler J,F(xiàn)iz J A,et al.Automatic detection of snoring signals:validation with simple snorers and OSAS patients[C]//Proceedings of the 22nd Annual International Conference of the IEEE Engineering in Medicine and Biology Society(Cat.No.00CH37143).IEEE,2000,4:3129-3131.
[6]Cavusoglu M,Kamasak M,Erogul O,et al.An efficient method for snore/nonsnore classification of sleep sounds[J].Physiological measurement,2007,28(8):841.
[7]Dafna E,Tarasiuk A,Zigel Y.Automatic detection of snoring events using Gaussian mixture models[C]//Seventh International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications.2011.
[8]Dafna E,Tarasiuk A,Zigel Y.Automatic detection of whole night snoring events using non-contact microphone[J].PloS one,2013,8(12):e84139.
[9]Qian K,Xu Z,Xu H,et al.Automatic detection,segmentation and classification of snore related signals from overnight audio recording[J].IET Signal Processing,2015,9(1):21-29.
[10]Swarnkar V R,Abeyratne U R,Sharan R V.Automatic picking of snore events from overnight breath sound recordings[C]//2017 39th Annual International Conference of the IEEE Engineering in Medicine and Biology Society(EMBC).IEEE,2017:2822-2825.
[11]Nonaka R,Emoto T,Abeyratne U R,et al.Automatic snore sound extraction from sleep sound recordings via auditory image modeling[J].Biomedical Signal Processing and Control,2016,27:7-14.
[12]Abeyratne U R,Wakwella A S,Hukins C.Pitch jump probability measures for the analysis of snoring sounds in apnea[J].Physiological measurement,2005,26(5):779.
[13]Karunajeewa A S,Abeyratne U R,Hukins C.Silence-breathing-snore classification from snore-related sounds[J].Physiological Measurement,2008,29(2):227.
[14]Arsenali B,van Dijk J,Ouweltjes O,et al.Recurrent Neural Network for Classification of Snoring and Non-Snoring Sound Events[C]//2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society(EMBC).IEEE,2018:328-331.
[15]Duckitt W D,Tuomi S K,Niesler T R.Automatic detection,segmentation and assessment of snoring from ambient acoustic data[J].Physiological measurement,2006,27(10):1047.
[16]Perez-Macias J M,Tenhunen M,Vrri A,et al.Detection of snores using source separation on an Emfit signal[J].IEEE journal of biomedical and health informatics,2017,22(4):1157-1167.
[17]Christoph Janott,Christian Rohrmeier,Maximilian Schmitt,et al.Snoring-an acoustic definition[C]//2019 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society(EMBC).IEEE,2019:3653-3657.
[18]Sun J,Hu X,Zhao Y,et al.SnoreNet:Detecting Snore Events from Raw Sound Recordings[C]//2019 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society(EMBC).IEEE,2019:4977-4981.