亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的不同病理的鼾聲分類

2021-09-23 01:42:30侯麗敏劉煥成張新鵬

復(fù)旦學(xué)報(bào)(自然科學(xué)版) 2021年3期

侯麗敏,劉煥成，張新鵬

(上海大學(xué) 通信與信息工程學(xué)院，上海 200444)

睡眠呼吸暫停是一種常見的睡眠障礙疾病，國際睡眠醫(yī)學(xué)會(huì)在睡眠呼吸暫停定義和相關(guān)評(píng)定規(guī)則的修訂版中指出最常見的兩類是阻塞性和中樞性呼吸暫停[1].阻塞性呼吸暫停(Obstructive Sleep Apnea,OSA)是睡眠期間人的上呼吸道被部分或完全阻塞，這種阻塞會(huì)導(dǎo)致人的胸肌更加努力地工作，以打開阻塞的氣道并將空氣吸入肺部.中樞性呼吸暫停(Central Sleep Apnea,CSA)是一個(gè)神經(jīng)系統(tǒng)問題，大腦中樞暫時(shí)無法向負(fù)責(zé)控制呼吸的肌肉發(fā)出信號(hào)，從而導(dǎo)致呼吸運(yùn)動(dòng)停止[2].臨床PSG(Polysomnogram)多路信號(hào)并行采集完全可以診斷出這兩種不同的呼吸事件，它是以在睡眠期呼吸氣流中斷的同時(shí)是否存在呼吸努力來區(qū)分的.整夜的PSG監(jiān)測(cè)中，如果OSA事件占多數(shù)，則診斷為阻塞性為主的患者.反過來，如果CSA事件占多數(shù)，則診斷為中樞性為主的患者.睡眠障礙疾病中阻塞性患者占絕大多數(shù)，中樞性患者的占比不到20%[3].然而，CSA呼吸事件通常與嚴(yán)重疾病有關(guān)，尤其是控制呼吸的下腦干有關(guān)的疾病[2-3].對(duì)于大腦發(fā)育不全的新生兒，CSA會(huì)產(chǎn)生長(zhǎng)達(dá)20 s的呼吸暫停[4].研究者指出：CSA事件的發(fā)生與年齡正相關(guān)，在741名隨機(jī)抽取的受試者中，老年人中的12%在監(jiān)測(cè)中出現(xiàn)了中樞性呼吸事件，每小時(shí)至少出現(xiàn)2次以上；受試?yán)夏耆酥械?%在監(jiān)測(cè)中出現(xiàn)了更多的中樞性呼吸事件，多達(dá)20次/h[5].因此，篩查不同病理的鼾聲將有助于進(jìn)行早期診斷和及時(shí)的相應(yīng)治療干預(yù).

目前對(duì)OSA鼾聲的信號(hào)處理和分類的研究較多，多涉及對(duì)鼾聲信號(hào)的聲學(xué)參數(shù)進(jìn)行分析和分類、對(duì)上氣道阻塞部位的確定[6]、對(duì)OSA患者患病嚴(yán)重程度的篩查等[7-8].而涉及CSA鼾聲的研究相對(duì)較少.Hummel等[9]用錄制的鼾聲，首次提出了對(duì)睡眠呼吸暫停進(jìn)行分類的方法，他們從25位患者的鼾聲數(shù)據(jù)中切割只包含CSA事件的片段40個(gè)和切割只包含OSA事件的片段45個(gè)，每個(gè)片段中包含多個(gè)子鼾聲、呼吸暫停和正常呼吸聲，持續(xù)大約2.5～8.0 min，然后提取過零率、頻譜質(zhì)心、打鼾比等多個(gè)特征，用支持向量機(jī)(Support Vector Machine,SVM)分類器對(duì)85個(gè)音頻片段進(jìn)行分類，取得了良好的結(jié)果.Hummel等的研究初步說明了不同生理過程導(dǎo)致的OSA和CSA鼾聲有著不同的聲學(xué)性質(zhì).然而，他們的實(shí)驗(yàn)數(shù)據(jù)和參與的患者較少，有待更多的數(shù)據(jù)來驗(yàn)證此結(jié)論.

本文采集了更多患者的鼾聲錄音，共有90名患者.根據(jù)OSA與CSA產(chǎn)生機(jī)制的差異性，提出了利用同態(tài)信號(hào)處理的方法分離出鼾聲的完整上氣道沖激響應(yīng)(Upper Airway Impulse Response,UAIR)，即聯(lián)合了幅度和相位頻譜來得到的UAIR為完整的UAIR.兩類鼾聲的UAIR初步顯示出不同的表現(xiàn)，本文據(jù)此提出了完整上氣道沖激響應(yīng)繁衍特征，包括UAIR的振動(dòng)頻數(shù)(Vibration Frequency,VF)、振動(dòng)強(qiáng)度(Vibration Intensity,VI)、折疊因子(Folding Factor,FF)、上升速度(Rise Velocity,RV)和下降速度(Drop Velocity,DV)5個(gè)特征.對(duì)90名患者的OSA和CSA兩類鼾聲數(shù)據(jù)做了分析和統(tǒng)計(jì)，給出每個(gè)特征下的兩類鼾聲的盒圖分布圖.本文進(jìn)一步設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的深度特征加工和分類器1D CNN(1 Dimension CNN)，以UAIR等5組聲學(xué)特征分別作為系統(tǒng)輸入的1維特征，對(duì)系統(tǒng)分類性能做了評(píng)估.使用UAIR特征的網(wǎng)絡(luò)CSA鼾聲正確率為72%，OSA鼾聲正確率為86%的最佳分類結(jié)果，且高于其他的經(jīng)典特征.實(shí)驗(yàn)結(jié)果表明1D CNN是一種較為有效的特征深度加工處理器.

1 數(shù)據(jù)和CNN結(jié)構(gòu)的設(shè)計(jì)

本文采集了患者的鼾聲錄音，標(biāo)注了OSA鼾聲和CSA鼾聲數(shù)據(jù)，根據(jù)它們產(chǎn)生的機(jī)制提取聲學(xué)特征，設(shè)計(jì)了適合本文分類的1D CNN網(wǎng)絡(luò)架構(gòu)，從而實(shí)現(xiàn)對(duì)兩類不同病理的鼾聲的分類，也即識(shí)別.

1.1 實(shí)驗(yàn)數(shù)據(jù)

本文中的實(shí)驗(yàn)數(shù)據(jù)均來自上海市第六人民醫(yī)院耳鼻喉科睡眠監(jiān)測(cè)病房錄制的患者鼾聲信號(hào).患者在其鼾聲信號(hào)被錄音的同時(shí)也進(jìn)行PSG監(jiān)測(cè)[10].本文采集了阻塞性呼吸暫停低通氣綜合征(Obstructive Sleep Apnea Hypopnea Syndrome,OSAHS)、中樞性呼吸暫停低通氣綜合征(Central Sleep Apnea Syndrome,CSAS)和混合性呼吸暫停綜合征(Mixed Sleep Apnea Syndrome,MSAS)患者的整夜錄音，3種類型患者共有90人.OSAHS患者是指PSG診斷為阻塞性的患者，這些患者整夜呼吸事件中OSA鼾聲占多數(shù)；CSAS患者是指中樞性的患者，這些患者整夜呼吸事件中CSA鼾聲占多數(shù)；MSAS患者是指混合性的患者，這些患者整夜呼吸事件中MSA鼾聲占多數(shù)[1].其中混合性呼吸暫停的呼吸事件是指中樞性和阻塞性共存，在一個(gè)呼吸事件過程中先出現(xiàn)中樞性呼吸暫停，緊接著轉(zhuǎn)換為阻塞性呼吸暫停.90人當(dāng)中3名患者為輕度型，其余均為中度和重度型[10].音頻錄音的采樣頻率包含8 kHz和16 kHz兩種.實(shí)驗(yàn)中將16 kHz的音頻做了下采樣處理，轉(zhuǎn)換為8 kHz.

將整夜錄音與PSG數(shù)據(jù)對(duì)齊，對(duì)照PSG中標(biāo)記的OSA呼吸事件和CSA呼吸事件，做了人工切割并標(biāo)注出OSA鼾聲和CSA鼾聲，得到的鼾聲數(shù)據(jù)如表1所示.90人中包含1名CSAS患者，73名OSAHS患者和16名MSAS患者.表1中的信息包含了患者年齡的均值和標(biāo)準(zhǔn)差，男女人數(shù)，患者呼吸紊亂指數(shù)(Apnea Hypopnea Index,AHI)的均值和標(biāo)準(zhǔn)差，以及切割的CSA鼾聲和OSA鼾聲片段的數(shù)量.

表1 實(shí)驗(yàn)數(shù)據(jù)集Tab.1 Experiments data sets

1.2 聲學(xué)特征

圖1 鼾聲完整上氣道沖激響應(yīng)計(jì)算的流程圖Fig.1 Flowchart for calculating the upper airway impulse response of snore sound

對(duì)OSA鼾聲和CSA鼾聲按照?qǐng)D1進(jìn)行計(jì)算得到相應(yīng)的UAIR結(jié)果如圖2所示.圖2(a)和(d)分別是CSA鼾聲和OSA鼾聲的時(shí)域波形，圖2(b)和(e)分別是CSA鼾聲和OSA鼾聲中某一幀的復(fù)倒譜，圖2(c)和(f)是用復(fù)倒譜計(jì)算出的CSA和OSA的UAIR.比較圖2(b)和(e)，兩者的復(fù)倒譜規(guī)律類似，但OSA的復(fù)倒譜幅值更大一些；比較圖2(c)和(f)，CSA鼾聲的UAIR波形光滑一些，OSA鼾聲的UAIR在上升和下降階段毛刺較多，反映出其快速波動(dòng)更多；OSA鼾聲波形上升的幅度也更大，兩者的差異性明顯.由于復(fù)倒譜表現(xiàn)出良好的集中性，如圖2(b)和(e)所示，大值集中在中心部位，其余的值很小，因此這里低倒頻窗的寬度取9個(gè)樣本.圖2中t表示時(shí)間，由于錄音的音頻信號(hào)是歸一化處理的，所以這些幅度沒有單位.

圖2 鼾聲上氣道沖激響應(yīng)的計(jì)算結(jié)果Fig.2 Results of UAIR for snore

為了進(jìn)一步說明完整UAIR體現(xiàn)出CSA和OSA的不同，本文提出了UAIR的量化特征，包括UAIR的VF、VI、FF、RV和DV共5個(gè)特征.VF特征表示UAIR的極值點(diǎn)大于某個(gè)閾值的數(shù)量.VI特征表示UAIR的最大幅值與其后第1個(gè)小于零的極小值之間的距離.FF特征表示大于某閾值持續(xù)時(shí)間內(nèi)的UAIR的幅值差分的絕對(duì)值之和.RV特征表示UAIR最大幅值與上升時(shí)間的比值.UAIR的最大幅值點(diǎn)的時(shí)刻到其后的第1個(gè)過零點(diǎn)時(shí)刻的持續(xù)時(shí)間的比值為DV特征.對(duì)90名患者的OSA鼾聲和CSA鼾聲的數(shù)據(jù)做了計(jì)算，統(tǒng)計(jì)每個(gè)特征下的兩類鼾聲的盒圖分布，如圖3(見第370頁)所示.OSA鼾聲和CSA鼾聲的分布區(qū)域有較大的差異性，說明UAIR能反映兩類鼾聲的不同特點(diǎn).

當(dāng)然圖3給出的CSA鼾聲和OSA鼾聲定量特征的統(tǒng)計(jì)分布存在著一些重疊區(qū)域，單純利用這組特征還不能準(zhǔn)確識(shí)別鼾聲.

圖3 從完整上氣道沖激響應(yīng)提取5個(gè)量化特征的盒圖分布Fig.3 Boxplot of five features from UAIR

1.3 基于CNN的鼾聲識(shí)別系統(tǒng)

CNN在語音識(shí)別中已有廣泛的使用[11-12].卷積層和池化層是交替出現(xiàn)的，用來對(duì)特征進(jìn)行加工和處理.先前的許多研究將音頻信號(hào)作傅里葉變換得到幅度譜，在幅度譜的基礎(chǔ)上得到進(jìn)一步的特征，例如對(duì)數(shù)Mel、Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)等特征，使用2D CNN架構(gòu)做語音識(shí)別和說話人確認(rèn)[13-14].近來有研究者提出1D CNN架構(gòu)，直接輸入1維的原始波形來學(xué)習(xí)，從而完全避免了任何特征提取步驟.1D CNN在音頻事件分類[15]和說話人識(shí)別中有良好的分類效果[16]，它們均以音頻的1維時(shí)序信號(hào)作為1D CNN的輸入特征.

本文設(shè)計(jì)了一個(gè)基于1D CNN的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)CSA鼾聲和OSA鼾聲進(jìn)行分類，充分利用1D CNN直接從1維信號(hào)中學(xué)習(xí)和加工的特點(diǎn)，用完整上氣道響應(yīng)的1維時(shí)序波形和原始音頻波形等1維特征分別作為該網(wǎng)絡(luò)的輸入.多個(gè)卷積和池化交錯(cuò)用于捕獲信號(hào)的深度特征，與3個(gè)全連接層的分類任務(wù)結(jié)合共同實(shí)現(xiàn)分類的任務(wù).這種方法也可以處理任何長(zhǎng)度的音頻信號(hào).本文以1幀的長(zhǎng)度作為輸入向量的長(zhǎng)度.網(wǎng)絡(luò)結(jié)構(gòu)由輸入層、卷積層和全連接層組成.卷積層包括卷積、批量標(biāo)準(zhǔn)化(Batch Normalization,BN)、激活函數(shù)和池化層，激活函數(shù)使用的是修正線性單元(Rectified Linear Unit,ReLU)，池化層使用的是平均池化.隨后3層的全連接每層的特征數(shù)量有所下降，以較少的特征充分體現(xiàn)兩類的差異性并防止過擬合.假設(shè)該結(jié)構(gòu)1D CNN的輸入是1維特征X，即X為(1×N)的數(shù)據(jù)，網(wǎng)絡(luò)參數(shù)為Θ，M表示隱藏層的總數(shù).則預(yù)測(cè)值

T=F(X|Θ)=fM(…f2(f1(X|Θ1)|Θ2)…|ΘM).

(1)

第m個(gè)卷積層和全連接層的計(jì)算如式(2)所示：

fm(Xm|Θm)=A(W?Xm+b)，Θm=[W,b].fm(Xm|Θm)=A(WXm+b)，Θm=[W,b].

(2)

其中：?表示卷積操作；W表示1維的卷積核或加權(quán)系數(shù)；Xm為輸入的特征；b為偏置；A( )為激活函數(shù).

圖4 對(duì)CSA鼾聲和OSA鼾聲分類的1D CNN結(jié)構(gòu)圖Fig.4 The architecture of 1D CNN for CSA snore and OSA snore classication

圖4是以1維數(shù)據(jù)流作為輸入特征的3層卷積加3層全連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖，它由輸入層、3個(gè)卷積層、3個(gè)全連接層和輸出層組成.圖4中的輸入特征是幀特征UAIR，長(zhǎng)度為256，卷積層濾波器的數(shù)量和尺寸等設(shè)置在圖中給出，池化采用的是平均池化，步長(zhǎng)均設(shè)為1.第1個(gè)全連接層將特征拉平為1 024個(gè)參數(shù)，最后一個(gè)全連接層參數(shù)為512個(gè).使用softmax作為輸出層的激活函數(shù)，每個(gè)輸出神經(jīng)元指示每個(gè)類別的輸入樣本的隸屬度.在訓(xùn)練過程中，根據(jù)反向傳播的分類誤差調(diào)整網(wǎng)絡(luò)的參數(shù)，并以最小化損失函數(shù)優(yōu)化網(wǎng)絡(luò)的參數(shù).

對(duì)各個(gè)卷積層的濾波器核尺寸和池化均選用固定的尺寸，池化均采用平均池化.第1層卷積的信道數(shù)量較小，后續(xù)逐層擴(kuò)大卷積處理的信道數(shù)量.由于用于訓(xùn)練的數(shù)據(jù)量是有限的，因此在沒有明顯的過度擬合的情況下網(wǎng)絡(luò)使用更深的架構(gòu)是不可行的.

2 結(jié)果和分析

為了進(jìn)行4折交叉驗(yàn)證，根據(jù)表1將患者的數(shù)據(jù)以按大約0.75∶0.25的比例劃分為訓(xùn)練集和測(cè)試集，共4組，同時(shí)保證訓(xùn)練集的患者與測(cè)試集的患者相互獨(dú)立.在訓(xùn)練階段，1D CNN的輸入特征為每幀提取的聲學(xué)特征，輸出幀正確率(Frame Accuracy,FAC)λFAC作為訓(xùn)練的結(jié)果.統(tǒng)計(jì)兩類鼾聲各自分類正確的幀數(shù)，分別除以各自幀的總數(shù)，分別得到CSA鼾聲和OSA鼾聲的幀正確率(每輪的小批量數(shù)據(jù)batch取512，訓(xùn)練在100～200輪左右)：

(3)

在測(cè)試階段，測(cè)試集的評(píng)判準(zhǔn)則是鼾聲片段正確率(ePisode Accuracy,PAC)λPAC判別方法，該方法的判別是以每個(gè)鼾聲片段中多數(shù)幀的歸屬結(jié)果為此片段的最終結(jié)果.這種評(píng)判符合實(shí)際情況下對(duì)鼾聲的評(píng)估，單幀的歸屬孤立起來看沒有實(shí)際意義.因此統(tǒng)計(jì)兩類測(cè)試鼾聲片段各自分類正確的數(shù)量，分別除以各自測(cè)試片段的總數(shù)，得到CSA鼾聲和OSA鼾聲片段的分類正確率，如式(4)所示.最后將CSA鼾聲測(cè)試的正確率和OSA鼾聲測(cè)試的正確率加起來平均，得到平均正確率.

(4)

對(duì)圖4的結(jié)構(gòu)做了不同的調(diào)整檢驗(yàn)：當(dāng)只用1層卷積和池化再做全連接時(shí)，訓(xùn)練的結(jié)果停留在80%左右，無法達(dá)到天花板；當(dāng)用3層卷積和池化再做1層全連接時(shí)，訓(xùn)練的結(jié)果在85%左右，也無法達(dá)到天花板，說明網(wǎng)絡(luò)架構(gòu)太小，不能全面揭示分類任務(wù)的本質(zhì).只有采用3層卷積和3層全連接時(shí)，訓(xùn)練集的結(jié)果可以達(dá)到或接近天花板.當(dāng)卷積層加深到5層時(shí)，結(jié)果與3層的相近.其損失函數(shù)也是一直下降最后平緩下來.對(duì)卷積核的尺寸也做了優(yōu)化調(diào)整，尺寸太小或太大結(jié)果不佳，目前使用的(1×5)優(yōu)于(1×3)和(1×7).池化也分別用最大池化和平均池化做了對(duì)比，平均池化時(shí)網(wǎng)絡(luò)效果更佳.

2.1 數(shù)據(jù)擴(kuò)增

切割的CSA鼾聲與OSA鼾聲的數(shù)據(jù)不平衡可能對(duì)分類的結(jié)果產(chǎn)生不良影響，因此需要對(duì)CSA鼾聲數(shù)據(jù)進(jìn)行擴(kuò)增(Data augmentation).數(shù)據(jù)擴(kuò)增常用的方法包括時(shí)間拉伸(Time stretching)、改變信噪比(Signal Noise Rate,SNR)、靜音修剪(Silence trimming)、時(shí)移(Time shift)和加背景噪聲(Background noise)等[17-18].

本文用時(shí)間拉伸、改變信噪比和時(shí)移的方法對(duì)訓(xùn)練集數(shù)據(jù)做了擴(kuò)增.時(shí)間拉伸和改變信噪比的方法保證了CSA鼾聲片段和OSA鼾聲片段的數(shù)量接近，時(shí)移保證了CSA鼾聲的幀和OSA鼾聲的幀的數(shù)量接近.時(shí)間拉伸的速率分別為0.9和1.1，加白噪聲的信噪比分別為10 dB和20 dB，時(shí)移對(duì)CSA鼾聲片段的幀移為30樣本點(diǎn)，OSA鼾聲片段的幀移為128樣本點(diǎn).對(duì)UAIR特征在原始數(shù)據(jù)得到的結(jié)果與在不同數(shù)據(jù)強(qiáng)化下得到的結(jié)果進(jìn)行對(duì)比，結(jié)果如圖5所示.圖中橫坐標(biāo)的原始表示用原始數(shù)據(jù)，組合1表示原始數(shù)據(jù)+時(shí)間拉伸，組合2表示原始數(shù)據(jù)+噪聲，組合3表示原始數(shù)據(jù)+時(shí)移，組合4表示原始數(shù)據(jù)+時(shí)間拉伸+噪聲+時(shí)移.用第1折的數(shù)據(jù)做實(shí)驗(yàn).

圖5 數(shù)據(jù)不平衡與數(shù)據(jù)擴(kuò)增之后的實(shí)驗(yàn)結(jié)果對(duì)比Fig.5 Comparison experimental results of data imbalance and after data augmentation

原始數(shù)據(jù)與不同數(shù)據(jù)擴(kuò)增方法的結(jié)果對(duì)比表明數(shù)據(jù)擴(kuò)增均能提高測(cè)試集CSA鼾聲的片段正確率.用原始不平衡的數(shù)據(jù)，CSA鼾聲的λPAC僅有43%，不同的數(shù)據(jù)擴(kuò)增方法提高了CSA鼾聲的片段正確率，其中原始數(shù)據(jù)+時(shí)移數(shù)據(jù)的表現(xiàn)更好，與原始數(shù)據(jù)相比，對(duì)CSA鼾聲的λPAC提升了24.93%，其他方法次之.原因可能是時(shí)間拉伸或者添加不同的信噪比都擴(kuò)增了CSA鼾聲片段的數(shù)量，但是增加的數(shù)據(jù)在一定程度上造成鼾聲頻譜有某種變化，而時(shí)移法對(duì)原始音頻數(shù)據(jù)沒做任何變形處理，鼾聲的頻譜沒有任何本質(zhì)的改變.對(duì)OSA鼾聲的識(shí)別幾乎不受數(shù)據(jù)擴(kuò)增的影響，其片段正確率都保持在90%以上.

2.2 實(shí)驗(yàn)結(jié)果

訓(xùn)練和測(cè)試的結(jié)果如表2所示.訓(xùn)練的幀正確率λFAC是以上升平緩階段之后的10輪結(jié)果的均值；測(cè)試的片段正確率λPAC以訓(xùn)練對(duì)應(yīng)的10輪結(jié)果的均值.4折交叉驗(yàn)證之后再做均值和方差.得到表2中的訓(xùn)練集λFAC和測(cè)試集λPAC.表2的最后1列是對(duì)測(cè)試集結(jié)果的平均正確率，將CSA鼾聲測(cè)試的正確率和OSA鼾聲測(cè)試的正確率均值加起來的平均值.

表2的結(jié)果顯示訓(xùn)練集的結(jié)果均接近天花板，說明本文設(shè)計(jì)的1D CNN結(jié)構(gòu)是合理有效的，其中3個(gè)卷積層對(duì)輸入的特征深度加工，經(jīng)3個(gè)全連接層的分類，能夠較好地訓(xùn)練出CSA和OSA兩類鼾聲的深度參數(shù)或模型.測(cè)試集的結(jié)果表明5組特征對(duì)CSA鼾聲分類的正確率在55%～72%，其中UAIR特征取得的分類正確率最高，為72.27%，而對(duì)數(shù)Mel特征取得的分類正確率最低，為55.19%.測(cè)試集的5組特征對(duì)OSA鼾聲分類效果較好，正確率分布在86%～94%之間.本文提出的UAIR特征在1D CNN系統(tǒng)上取得了良好的效果，說明UAIR特征經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)的加工能夠較有效地提取出CSA鼾聲和OSA鼾聲的區(qū)分特征.

表2 實(shí)驗(yàn)結(jié)果Tab.2 Experiments results

2.3 分析

本文設(shè)計(jì)的1D CNN系統(tǒng)對(duì)CSA鼾聲的識(shí)別效果仍不夠理想，其中UAIR特征做出的正確率均值達(dá)到72.2%，方差6.3%，其他特征在CSA鼾聲識(shí)別上，均值更低，方差更大.方差大說明了這些特征的穩(wěn)定性變差，如表2所示.原因可能有以下幾個(gè)方面.如表1的數(shù)據(jù)顯示，CSA的鼾聲片段遠(yuǎn)少于OSA鼾聲的片段，盡管對(duì)數(shù)據(jù)數(shù)量的不平衡做了擴(kuò)增，數(shù)據(jù)內(nèi)部仍有其他方面的不平衡，本文數(shù)據(jù)集的90人僅1人是中樞性患者，89人為阻塞性和混合性患者.對(duì)這阻塞性和混合性的89人來看，他們的CSA呼吸事件大部分夾雜在OSA呼吸事件或MSA呼吸事件之間，患者已有過阻塞性的呼吸事件，身體器官尤其是腦部已處于缺氧狀態(tài)，過量的二氧化碳導(dǎo)致中樞運(yùn)動(dòng)控制系統(tǒng)的間歇，這時(shí)發(fā)生了中樞性呼吸事件，但上氣道的狹窄仍有可能存在，使得CSA鼾聲發(fā)生時(shí)可能同時(shí)含有上氣道狹窄的信息.再者，訓(xùn)練集與測(cè)試集的患者是獨(dú)立的，訓(xùn)練正確率高，測(cè)試正確率偏低，反映出CSA鼾聲可能與患者的個(gè)體關(guān)聯(lián)性較強(qiáng).本文設(shè)計(jì)的1D CNN對(duì)CSA鼾聲的本質(zhì)體現(xiàn)不夠充分，有些依賴患者的數(shù)據(jù).今后在這點(diǎn)上還要繼續(xù)深入研究.另外，ID CNN的輸入是一幀向量，對(duì)時(shí)序上的關(guān)聯(lián)性體現(xiàn)不夠密切，擴(kuò)大輸入的幀向量，或用2D CNN架構(gòu)，進(jìn)一步挖掘多方向上的特征幫助區(qū)分CSA鼾聲與OSA鼾聲.

從綜合角度來看，測(cè)試集的5組特征的識(shí)別結(jié)果中，UAIR特征效果最佳，取得了識(shí)別出七成的CSA鼾聲，識(shí)別出八成多OSA鼾聲的良好結(jié)果；原始音頻時(shí)域波形RAWA次之，且UAIR和RAWA的平均正確率達(dá)到了79%以上.再次證明1D CNN架構(gòu)適合1維的時(shí)序數(shù)據(jù)流作為輸入特征，UAIR和RAWA均為音頻時(shí)序波形.本文從RAWA計(jì)算出其復(fù)倒譜，經(jīng)低倒頻窗只取了復(fù)倒譜集中的9個(gè)值計(jì)算出UAIR，可見UAIR更能突顯出CSA鼾聲與OSA鼾聲產(chǎn)生過程的不同.復(fù)倒譜CCEP的平均正確率為78.47%.UAIR、RAWA和CCEP特征的共同特點(diǎn)是：CCEP和UAIR聯(lián)合了頻譜的幅度和相位信息，信息量更大一些，RAWA也是完整的時(shí)域波形，對(duì)識(shí)別出兩類不同病理的鼾聲是非常有用的.RCEP和對(duì)數(shù)Mel特征的識(shí)別效果比較差，盡管它們?cè)贠SA鼾聲的識(shí)別上正確率更高一些，卻犧牲了CSA鼾聲的識(shí)別，只有近一半的CSA鼾聲被正確識(shí)別出來.RECP和對(duì)數(shù)Mel特征只包含了頻譜的幅度譜，丟棄了相位譜.因此保留信息全面的一些特征如UAIR、CCEP和RAWA，兩類不同病理的鼾聲中有著良好的區(qū)分性.

3 結(jié) 語

本文提出了一種用于中樞性和阻塞性鼾聲分類的1D CNN網(wǎng)絡(luò).網(wǎng)絡(luò)的體系結(jié)構(gòu)由3個(gè)卷積層和3個(gè)全連接層組成，充分利用了1D CNN可以直接從音頻波形或幀向量中學(xué)習(xí)濾波器的特性，得到對(duì)兩類鼾聲的區(qū)分性較強(qiáng)的特征加工，在7 000多個(gè)音頻樣本的數(shù)據(jù)集上對(duì)提出的方法進(jìn)行了評(píng)估.實(shí)驗(yàn)結(jié)果表明，這種直接處理音頻波形的神經(jīng)體系結(jié)構(gòu)對(duì)兩種不同病理的鼾聲具有良好的特征加工和分類效果.此外，網(wǎng)絡(luò)對(duì)本文中5組特征的訓(xùn)練也顯示出很好地普適性.本文通過對(duì)不同病理的鼾聲產(chǎn)生機(jī)制的分析，提出了完整上氣道沖激響應(yīng)(UAIR)特征，1D CNN架構(gòu)能較精確地提取一些重要的區(qū)分特征，取得了良好的效果.與多組特征比較，UAIR特征表現(xiàn)最佳.在今后的工作中，我們將會(huì)探討其他更復(fù)雜的深度學(xué)習(xí)方法，例如殘差網(wǎng)絡(luò)、增加注意力機(jī)制等，試圖捕獲更多的差異特征，進(jìn)一步提高CSA鼾聲和OSA鼾聲的區(qū)分能力.

致謝：感謝上海交通大學(xué)附屬上海第六人民醫(yī)院耳鼻喉科在實(shí)驗(yàn)數(shù)據(jù)采集中的幫助和支持.