侯麗敏,施曉宇,童 超,劉煥成
(上海大學(xué)通信與信息工程學(xué)院,上海 200444)
睡眠呼吸暫停低通氣綜合征(Sleep Apnea Hypopnea Syndrome,SAHS)是一種患病率高,具有潛在危險的疾病[1]。在我國估計患病率達(dá)3.5%,約有五千萬的SAHS患者[2]。隨著醫(yī)療輔助診斷和居家醫(yī)療的發(fā)展,便捷的鼾癥檢測儀成為國內(nèi)外的研究熱點[3]。與醫(yī)院臨床診斷使用的多導(dǎo)睡眠監(jiān)測儀(Polysomnography,PSG)不同的是,便攜式鼾癥自動診斷系統(tǒng)僅通過采集含有豐富病理信息的鼾聲信號來分析患者的鼾聲聲學(xué)特性,從而實現(xiàn)對SAHS的輔助診斷[4-5]。
鼾聲是SAHS最為明顯的癥狀,易于采集[6]?;l是鼾聲聲學(xué)特性研究中基本且重要的特征之一,已被大量應(yīng)用在鼾聲的檢測和輔助診斷中[7]。文獻(xiàn)[8]用基頻以及基頻的相關(guān)特征對整夜鼾聲的錄音自動檢測鼾聲和非鼾聲。文獻(xiàn)[9]用鼾聲響度、基頻和頻譜等多個特征,基于貝葉斯分類器構(gòu)建的核密度模型區(qū)分SAHS患者和單純打鼾者。文獻(xiàn)[10]中研究者計算鼾聲的基頻密度等特征參數(shù),用多元回歸法判斷SAHS病癥的嚴(yán)重程度。
大部分研究中用的是歐美人鼾聲的錄音,作為不同的人種,中國漢族人與西方人的身體外形存在較大差異,本文針對漢族人的鼾聲錄音做了詳細(xì)的分析研究。用改進的線性預(yù)測殘差倒譜法提取鼾聲的基頻,對93名受試者的鼾聲做了分析。實驗結(jié)果表明,鼾聲基頻分布特性與SAHS的嚴(yán)重程度存在著密切的關(guān)聯(lián)。SAHS嚴(yán)重程度不同,鼾聲的分布不同,基頻軌跡的抖動大小也不同。本研究對互聯(lián)網(wǎng)時代的居家醫(yī)療和篩查有廣泛的應(yīng)用價值。
打鼾者的上氣道中某個部位或多個部位比正常人狹窄。在清醒狀態(tài)下上氣道肌肉收縮使氣道通暢。但是在夜間睡眠狀態(tài)時,神經(jīng)興奮性下降,肌肉松弛,上氣道坍塌,阻礙氣流的通過。當(dāng)氣流累積到一定程度就會沖開阻塞部位,引起局部振動,從而導(dǎo)致鼾聲的產(chǎn)生。圖1為鼾聲產(chǎn)生機理示意圖。鼾聲來源于阻塞位置振動的準(zhǔn)周期信號和呼吸氣流引起的噪聲信號疊加,共鳴系統(tǒng)指上氣道或部分上氣道,因為阻塞部位可能將上氣道分隔成兩部分。
圖1 鼾聲的產(chǎn)生機理圖Fig.1 Mechanism diagram of snore production
每個受試者整夜打鼾中既有正常鼾聲又有發(fā)生睡眠呼吸暫停之后引發(fā)的SAHS鼾聲,這里簡稱為簡單鼾聲(simple snores,SIMP)和SAHS鼾聲,波形如圖2所示。圖2(a)中鼾聲節(jié)奏均勻,每個完整鼾聲片段幅值相當(dāng),持續(xù)時間約3 s,這樣的鼾聲盡管聲量較大,但沒有出現(xiàn)呼吸暫停,也不會伴有血氧下降,是非SAHS的,圖2(b)是圖2(a)中紅色虛線框出的單個簡單鼾聲片段,稱為簡單鼾聲;而圖2(c)的鼾聲分布大部分無規(guī)則,幅值有大有小,持續(xù)時間有長有短。其中有一段持續(xù)時間大于10 s的呼吸暫停,用天藍(lán)色虛線標(biāo)注開始時間和結(jié)束時間,圖2(c)中紅色虛線代表SAHS鼾聲,圖2(d)是圖2(c)的局部時域波形圖,其中綠色線標(biāo)注出吸氣段,黑色線標(biāo)注出呼氣段,兩者之間是過渡段。
無論SIMP鼾聲還是SAHS鼾聲,一個完整的打鼾事件包含三個部分:吸氣段、呼氣段和他們之間的過渡段。在吸氣段,氣流努力沖破阻塞部分,造成阻塞部位的振動,振動頻率則為鼾聲的基頻。這段時間的鼾聲信號大部分具有準(zhǔn)周期性,與濁音類似,幅度高。在過渡段,進行體內(nèi)的氣流交換, 此時的聲音信號微弱,類似于靜音段。在呼氣段,氣道一般相對通暢,此時氣流噪聲起主要作用,聲音波形的幅度小,只有少數(shù)具有準(zhǔn)周期性。因此,本文研究分析以吸氣段為主的鼾聲的聲學(xué)特性。
圖2 鼾聲時域波形圖Fig.2 The time domain waveforms of snoring sounds
錄音環(huán)境為上海市第六人民醫(yī)院耳鼻喉科睡眠實驗室。錄音設(shè)備:Dell Inspiration 570,聲卡型號:Creative Audigy 4 Value,麥克風(fēng):Sony ECMC10,采樣頻率:8 kHz,采樣精度:16 bit。PSG型號為偉康A(chǔ)lice4。鼾聲錄音與PSG診斷同步進行[5]。
研究對象:由上海市第六人民醫(yī)院耳鼻喉科提供的接收PSG診斷的受試者。每人的PSG報告給出了呼吸暫停低通氣指數(shù)(Apnea Hypopnea Index,AHI)等相關(guān)診斷結(jié)果。AHI的含義為平均每小時呼吸暫停低通氣的次數(shù),單位:次/h。AHI值對應(yīng)著SAHS嚴(yán)重程度,共分為四種不同的級別:AHI<5為單純打鼾者(Non-SAHS,N),5≤AHI≤15為輕度SAHS患者(Mild-SAHS,L),15<AHI≤30為中度SAHS患者(Moderate-SAHS,M),AHI>30為重度SAHS患者(Severe-SAHS,S)。
本文訓(xùn)練數(shù)據(jù)集包含單純打鼾N型10人,輕度L型23人,中度M型24人,重度S型36人,共計93人,受試者的信息如表1所示。對照著PSG人工切出簡單鼾聲和SAHS鼾聲,共計3 995個片段,如表1中最后兩列。其中,簡單鼾聲共2 168個片段,SAHS鼾聲共1 847個片段。
表1 訓(xùn)練數(shù)據(jù)信息Table 1 General information of training data
為了消除上氣道共鳴系統(tǒng)的影響,更好地提取聲源信號,采用兩次線性預(yù)測法,用逆濾波得到信號的殘差,即聲源信號[11]。然后對預(yù)測誤差信號進行倒譜計算和峰值檢測,從倒譜域中尋找最大值,最大值對應(yīng)的位置即為基音周期。具體的計算基頻過程如圖3所示。鼾聲信號s(n)經(jīng)預(yù)處理(分幀、端點檢測)、線性預(yù)測編碼(Linear Prediction Coding,LPC)逆濾波后得到初始?xì)埐钚盘杄1(n),經(jīng)過截止頻率為1 kHz的低通濾波器后再經(jīng)LPC逆濾波后得到聲源信號e2(n),進行快速傅里葉變換(Fast Fourier Transform,FFT),得到頻譜信號Y(ω),對其幅值取對數(shù)后再進行傅里葉逆變換得到倒譜信號c(n),最后進行峰值檢測即可得到基頻值F0。這種兩次線性預(yù)測倒譜法,簡稱DLPCE(Double Linear Prediction And Cepstrum,DLPCE)法。
圖3 DLPCE計算基頻流程圖Fig.3 Flowchart of pitch calculation by DLPCE
為了說明DLPCE法對鼾聲基頻計算的準(zhǔn)確性以及確定合適的幀長,選取20個準(zhǔn)周期性明顯的鼾聲片段,分別用傳統(tǒng)的倒譜法(Cepstrim Method,CEP)、線性預(yù)測倒譜法(Linear Prediction and Cepstrum,LPCE)以及DLPCE法計算鼾聲的基頻。
計算鼾聲基頻時,有兩種錯誤類型:一是受聲道響應(yīng)的影響,峰值檢測出的最大值在倒譜原點附近,導(dǎo)致得出的基頻值大于實際值,此類錯誤稱為甲類錯誤。第二種是受倒譜二次諧波的影響,估算結(jié)果為實際基音周期的二倍,導(dǎo)致基頻值是實際基頻值的一半,即半倍頻。此類錯誤稱為乙類錯誤。
鼾聲的變化速率不及語音快,短時分析幀長需重新設(shè)置。設(shè)置幀長分別為40、60、80、100 ms和120 ms,幀移設(shè)為幀長的30%,分別統(tǒng)計三種算法不同幀長計算出基頻軌跡中錯誤的幀數(shù)占所有鼾聲片段幀數(shù)的比例,統(tǒng)計結(jié)果如圖4所示。
圖4 估計基頻的錯誤比例Fig.4 Error proportion of pitch estimation
由圖4可見:DLPCE法的甲類錯誤小于CEP法和LPCE法。這是由于使用DLPCE法計算基頻時,兩次LPC處理明顯消弱了上氣道的影響;三種算法的乙類錯誤相當(dāng)。因此,利用DLPCE法計算鼾聲的基頻要優(yōu)于傳統(tǒng)的LPCE法和CEP法。
幀長的選取對錯誤率的影響很大,如圖4所示。當(dāng)幀長選取過短時,會由于幀內(nèi)周期信號太少導(dǎo)致基頻判斷不準(zhǔn)確,當(dāng)幀長選取過長時,又會由于幀內(nèi)周期信號過多而導(dǎo)致倒譜二次諧波影響加重,使乙類錯誤大幅增加。選取幀長為80 ms更適合于鼾聲基頻的分析。以下的分析幀長選取為80 ms。
要研究鼾聲的基頻,首先要對鼾聲的時域波形有清楚的認(rèn)識。從鼾聲的時域波形是否有準(zhǔn)周期的角度,本文將其分為三類。時域波形有一個或一個以上較明顯的準(zhǔn)周期為Ⅰ型,時域波形中一部分有準(zhǔn)周期、一部分無準(zhǔn)周期為Ⅱ型,時域波形無明顯準(zhǔn)周期為Ⅲ型。下面分別針對這三類鼾聲進行分析。Ⅰ型鼾聲為時域波形有一個或多個較明顯的準(zhǔn)周期的鼾聲,如圖5(a)所示,其計算所得的基頻軌跡如圖5(b)所示。Ⅱ型鼾聲為時域波形一部分有準(zhǔn)周期、一部分無準(zhǔn)周期的鼾聲,如圖5(c)所示,基頻軌跡如圖5(d)所示。后部分的鼾聲的時域波形雜亂,沒有明顯的重復(fù)性。Ⅲ型鼾聲為時域波形無明顯的準(zhǔn)周期的鼾聲,如圖5(e)所示,基頻軌跡如圖5(f)所示。該類型鼾聲的時域波形有較多的快變信息,時域波形沒有明顯的重復(fù)性,只有隨機性較強的紊亂波形。
圖5 三種類型的鼾聲的波形和基頻軌跡Fig.5 Waveforms and pitch contours of three types of snores
用1.3中的兩次LPCE法估算三類鼾聲片段的基頻和基頻軌跡。Ⅰ型鼾聲計算出的基頻軌跡較為準(zhǔn)確,甲類和乙類錯誤甚少,如圖5(b)所示。而對于Ⅱ型和Ⅲ型鼾聲,計算其無準(zhǔn)周期的部分時,由于信號本身無周期,導(dǎo)致計算出的基頻軌跡抖動幅度大且頻繁,如圖5(d)和圖5(f)所示。
根據(jù)估計的鼾聲基頻軌跡的特點,將基頻軌跡中連續(xù)4幀基頻值相差不超過10 Hz的情況判為存在準(zhǔn)周期。若存在準(zhǔn)周期的幀數(shù)占鼾聲片段總幀數(shù)的占比超過70%,則判為Ⅰ型鼾聲,若存在準(zhǔn)周期且占比未超過70%,則判為Ⅱ型鼾聲,若不存在準(zhǔn)周期,則判為Ⅲ型鼾聲。統(tǒng)計出不同嚴(yán)重程度患者的SIMP和SAHS鼾聲中三種類型鼾聲的分布情況,如圖6所示。圖6(a)~6(d)表示不同嚴(yán)重程度鼾癥中SIMP鼾聲包含三種類型鼾聲的比例。圖6(e)~6(h),表示不同嚴(yán)重程度鼾癥中SAHS鼾聲包含三種類型鼾聲的比例。
統(tǒng)計結(jié)果表明:單純打鼾和輕度SAHS患者的鼾聲以I型為主,圖6(a)、6(b)中I型占80%左右,圖6(e)、6(f)中占70%左右,Ⅱ型、Ⅲ型鼾聲占比很少。而中度和重度SAHS患者的鼾聲中Ⅱ型、Ⅲ型鼾聲占比明顯增多,M-SIMP和S-SIMP鼾聲中占比增大到30%左右,M-SAHS和S-SAHS鼾聲中占比增大到45%左右,如圖6(c)、6(d)和圖6(g)、6(h)所示。Ⅲ型鼾聲在SAHS鼾聲中的占比比在SIMP鼾聲中的占比也增加明顯,如圖6(e)、6(f)和圖6(g)、6(h)所示,在M-SAHS和S-SAHS鼾聲中占比增大到25%左右。
圖6 三類鼾聲在不同SAHS嚴(yán)重程度患者中的占比Fig.6 The proportions of the three types of snores in patients with different severities of SAHS
這些分布表明:SIMP鼾聲的準(zhǔn)周期性相對于SAHS鼾聲更明顯;隨著SAHS病癥的加重,無論SIMP鼾聲還是SAHS鼾聲,更多鼾聲的準(zhǔn)周期性消失,而噪聲信號增多。
記基頻差分值dPi為鼾聲的基頻軌跡中,前一幀基頻值Pi減后一幀基頻值Pi+1的絕對值,即:
由于SAHS病理特性較為復(fù)雜,僅靠鼾聲的基頻特征無法對病癥的嚴(yán)重程度有效區(qū)分,因此本文在提取基頻的差分值dP作為特征的同時,提取Mel頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)特征作為實驗的特征,記為dPMFCC。
本文選取與表1不重疊的另外120位受試者的整夜錄音作為測試數(shù)據(jù)。測試組受試者的信息見表2。
表2 測試數(shù)據(jù)信息及測試結(jié)果Table 2 General information of test data and the test results
實驗采用高斯混合模型(Gaussian Mixture Model,GMM)對表1中8類不同嚴(yán)重程度的SIMP和SAHS鼾聲的特征分別建模。對測試者的整晚錄音自動檢測出鼾聲片段,用鼾聲特有的節(jié)律做進一步約束,得到候選的呼吸事件,再通過高斯模型分析判斷是否為呼吸事件。按照式(2)估算出每個人的AHIdPMFCC值(次/h)[5]。
本文方法獲得的AHIdPMFCC值與PSG 診斷結(jié)果AHIPSG值對比效果如圖7所示,圖中中心綠色實線表示同一性,綠色虛線表示95% 的置信區(qū)間。根據(jù)診斷一致性定義:若AHIPSG與AHIdPMFCC兩者均大于40,則為一致;若AHIPSG<40,兩者的差即AHIPSG-AHIdPMFCC<10,為一致;若兩者的差>10,為欠估;若兩者的差<-10,為過估[9]。本文方法與黃金標(biāo)準(zhǔn)PSG的一致性為90.8%(109/120),欠估率為4.2%,過估率為5%。說明本文方法與臨床標(biāo)準(zhǔn)有較好的一致性。
為說明基頻特征對提升SAHS病癥診斷嚴(yán)重程度的有效性,本文利用dPMFCC與單純使用MFCC特征進行對比實驗,實驗結(jié)果見表2中的MFCC正確率與dPMFCC正確率兩欄,正確率的得出是由估計正確的人數(shù)與該嚴(yán)重程度人數(shù)相除取得的。可以發(fā)現(xiàn),基頻特征的引入有效提升了輕度患者的診斷效果,正確率從60%上升為76%。結(jié)果表明,利用dPMFCC作為特征判斷鼾癥嚴(yán)重程度的準(zhǔn)確率為85.8%(103/120),優(yōu)于將MFCC作為特征的80%(96/120)的準(zhǔn)確率。
圖7 AHIPSG與AHIdPMFCC對比圖Fig.7 Comparative chart of AHIPSG and AHIdPMFCC
本文按照時域波形的準(zhǔn)周期性把鼾聲劃分為三類,與文獻(xiàn)[12]中結(jié)果是一致的。文獻(xiàn)發(fā)現(xiàn)軟腭產(chǎn)生的鼾聲是由一些重復(fù)出現(xiàn)且有相似波形的脈沖信號組成的,而舌根產(chǎn)生的鼾聲比較密集、雜亂,沒有明顯的重復(fù)性。因此,上氣道阻塞的部位不同,引起的鼾聲信號時域波形也不同。文獻(xiàn)[13]發(fā)現(xiàn)單純打鼾者鼾聲頻域曲線表現(xiàn)出明顯的基頻-諧波結(jié)構(gòu),而SAHS患者鼾聲的時域曲線表現(xiàn)為多個振幅、間隔不規(guī)則的復(fù)合波,頻域曲線中無明顯的基頻-諧波結(jié)構(gòu)。文獻(xiàn)[14]用Praat語音分析軟件對鼾聲的基頻值做了估計,單純打鼾者有明顯的基頻,而阻塞性睡眠呼吸暫停低通氣綜合征(Obstructive Sleep Apnea Hypopnea Syndrome,OSAHS)組的鼾聲的基頻分布離散,部分OSAHS鼾聲基頻不能測出。本文觀察的鼾聲時域波形和基頻與文獻(xiàn)[13-14]是一致的。
文獻(xiàn)[15]采用中心削波自相關(guān)法計算鼾聲基頻,計算出鼾聲的基音周期的范圍為8~40 ms(25~125 Hz)。文獻(xiàn)[16]采用倒譜法計算得到的基頻范圍為10~35 ms(28~100 Hz),由于鼾聲的時變節(jié)奏沒有語音快,對鼾聲短時分析幀長都大于語音信號的幀長,本文也如此。本文的基頻值分布范圍為27~286 Hz,大于這兩篇文獻(xiàn)的結(jié)果。這可能與人種有關(guān),亞洲人體型小于歐洲人,上氣道結(jié)構(gòu)也會正比于體型?;l值與體積或重量成反比。
來自日本的研究文獻(xiàn)[17]對74名患者進行測試,運用上呼吸道測壓的方法測得鼾聲產(chǎn)生的振動部位有:軟腭振動、扁桃體/舌根振動、軟腭和扁桃體/舌根混合振動、咽喉振動,用FFT分析儀計算出軟腭類型鼾聲的基頻為(102.8±34.9)Hz,扁桃體/舌根類型鼾聲的基頻為(331.7±144.8)Hz,軟腭和扁桃體/舌根混合類型鼾聲的基頻為(115.7±58.9)Hz,咽喉類型鼾聲的基頻為250 Hz左右。本文對107名受試者的五千多個鼾聲片段做了基頻計算,基頻分布的范圍27~286 Hz,與文獻(xiàn)[18]的結(jié)果是一致的。
文獻(xiàn)[18]用睡眠鼻內(nèi)窺鏡檢測法對54名成年打鼾者的鼾聲發(fā)聲部位進行監(jiān)測,觀察到打鼾時咽部振動的主要形式有:①軟腭或懸雍垂撲動,②扁桃體振動,③會厭軟骨振動,④舌根振動。其中單純舌根振動占8%,單純會厭振動占2%,扁桃體、會厭、舌根共同振動產(chǎn)生的鼾聲占20%,而軟腭或軟腭與其他部位共同振動占70%。圖6中鼾聲的基頻分布與文獻(xiàn)[18]的結(jié)果一致,說明中度和重度SAHS患者的鼾聲基頻包含的軟腭或軟腭與其它部位共同發(fā)生阻塞的占70%左右(Ⅰ、Ⅱ型),舌根及扁桃體、會厭、舌根共同發(fā)生阻塞占30%左右(Ⅲ型)。
本文使用的dPMFCC特征聯(lián)合聲源特征中的基頻特征和上氣道特征中的MFCC特征對鼾癥嚴(yán)重程度實現(xiàn)有效分類。對單純打鼾型和重度鼾癥判斷的準(zhǔn)確率為100%,而對輕度和中度鼾癥判斷的正確率不夠理想,可能是這兩類患者的鼾癥的阻塞部位和上氣道狀態(tài)不夠穩(wěn)定,導(dǎo)致SIMP和SAHS鼾聲的基頻和MFCC特征的差異性不夠凸顯,從而引起較多的誤判。
本文對鼾聲的基頻分布做了較為詳細(xì)的統(tǒng)計分析。鼾聲基頻值主要取決于上氣道發(fā)生阻塞的部位和程度,鼾聲基頻值的分布為27~286 Hz。鼾聲基頻抖動及相關(guān)特性可以一定程度上反映出SAHS病癥嚴(yán)重程度。本文將基頻特征與MFCC特征結(jié)合對打鼾者的SAHS嚴(yán)重程度進行估計,正確率為85.5%。鼾聲基頻抖動及相關(guān)特性可作為鑒別SAHS病癥嚴(yán)重程度的參數(shù)之一。本文的研究成果推動了利用鼾聲進行SAHS診斷的居家健康醫(yī)療的應(yīng)用。
致謝感謝上海交通大學(xué)附屬上海第六人民醫(yī)院耳鼻喉科的支持。