亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合MPEG-7 和聲門特征的病理嗓音識(shí)別方法研究*

        2022-10-20 01:09:30朱欣程伍遠(yuǎn)博趙登煌張曉俊陶智
        電子器件 2022年3期
        關(guān)鍵詞:特征融合信號(hào)

        朱欣程,伍遠(yuǎn)博,趙登煌,張曉俊,陶智

        (蘇州大學(xué)光電科學(xué)與工程學(xué)院,江蘇 蘇州 215006)

        嗓音疾病直接影響人們的健康和社會(huì)交流。由于受工作壓力、環(huán)境影響或長(zhǎng)期吸煙等因素的影響,我國(guó)有約9%的人患有不同程度的嗓音疾病,其中從事著需要長(zhǎng)期用嗓職業(yè)的人群,諸如教師、播音員等,嗓音疾病患病率更高,而聲帶疾病在所有嗓音疾病中占據(jù)很大的比例[1-2]。嗓音疾病的預(yù)防和早期發(fā)現(xiàn)可為患者的治療和康復(fù)提供有益的幫助。目前喉部嗓音疾病診斷方法大都采用諸如肌電圖描記,動(dòng)態(tài)鏡檢查、喉鏡檢查等,這些均為侵入式的檢測(cè)方法,患者會(huì)感受一定程度的不適。因此如何采用聲學(xué)分析的方法設(shè)計(jì)出一種具有無(wú)創(chuàng)性,客觀性和便攜性等諸多特點(diǎn)的病理嗓音智能識(shí)別系統(tǒng),成為當(dāng)前一個(gè)研究熱點(diǎn)[3]。

        病理嗓音識(shí)別系統(tǒng)通常由特征提取和模式識(shí)別兩部分組成。因此如何有效提高識(shí)別系統(tǒng)性能的關(guān)鍵在于特征參數(shù)和分類器的選取。根據(jù)特征所代表的嗓音信號(hào)的聲學(xué)特征的差異,可分為擾動(dòng)特征,非線性特征、以及倒譜特征等。擾動(dòng)特征描述了由嗓音疾病引起的聲帶的不規(guī)則振動(dòng)所產(chǎn)生的非周期性噪聲(例如基頻微擾百分比、振幅微擾和相對(duì)平均擾動(dòng))[4]。研究發(fā)現(xiàn)語(yǔ)音產(chǎn)生過(guò)程中,當(dāng)氣流通過(guò)聲帶腔體時(shí)會(huì)產(chǎn)生渦流,并且渦流區(qū)域也會(huì)對(duì)語(yǔ)音信號(hào)有調(diào)制作用,從而會(huì)存在非線性現(xiàn)象[5]。然而,非線性特征和擾動(dòng)特征的計(jì)算有賴于窗口長(zhǎng)度的適當(dāng)選擇和對(duì)基頻的準(zhǔn)確估計(jì)[6]。在譜分析特征領(lǐng)域,線性預(yù)測(cè)倒譜系數(shù)(Linear Predictive Cepstral Coefficient,LPCC)、梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)等倒譜特征不依賴于基頻的準(zhǔn)確估計(jì),但是它們更傾向于表征聲道系統(tǒng),而不能夠描述直接由嗓音疾病引起的聲帶振動(dòng)機(jī)制的變化。除了上述特征以外,MPEG-7 特征[7]和聲門特征[8]在語(yǔ)音特征提取方面具有廣泛的應(yīng)用前景。Wu 等[9]通過(guò)MPEG-7 特征結(jié)合隨機(jī)森林分類器的病理嗓音二分類識(shí)別率達(dá)到了99.12%。聲門波形從信號(hào)角度直接反映了正常聲帶振動(dòng)與病理聲帶振動(dòng)的差異。近年來(lái),特征融合因其可以獲得不同特征之間的最具有差異性的信息的特點(diǎn),在病理實(shí)驗(yàn)識(shí)別中廣泛應(yīng)用[10-11]。

        本文提出了一種融合MPEG-7 和聲門特征的非侵入式病理嗓音檢測(cè)方法,通過(guò)聲門逆濾波方法獲取語(yǔ)音信號(hào)的聲門特征,再融合MPEG-7 特征,以細(xì)致地表征病理性聲音與健康聲音之間的差異,最終以TMS320VC5509A 為核心來(lái)設(shè)計(jì)該病理嗓音識(shí)別系統(tǒng)。

        1 病理嗓音特征提取方法

        1.1 聲門逆濾波算法

        大多數(shù)嗓音疾病都會(huì)破壞聲帶的組織結(jié)構(gòu),這將直接影響聲帶的靈活性、對(duì)稱性和其他物理性質(zhì),從而導(dǎo)致聲門波產(chǎn)生變化,需要采用聲門逆濾波的算法來(lái)實(shí)驗(yàn)嗓音聲門波信號(hào)的提取。Fant[12]基于發(fā)聲原理,提出了一種聲源濾波理論:發(fā)聲系統(tǒng)由聲門激勵(lì)模型、聲道濾波器模型和口唇輻射模型組成。其中聲門波信號(hào)提供的體積速度譜用G(z)表示;聲道氣道的傳遞函數(shù)表示為V(z),該傳遞函數(shù)賦予在幅度譜中表現(xiàn)為共振峰的共振影響;口唇輻射效應(yīng)是將嘴唇處的體積速度轉(zhuǎn)換為聲壓的微分器,由L(z)表示。語(yǔ)音信號(hào)S(z)通過(guò)聲道濾波器模型和口唇輻射模型組成的濾波器進(jìn)行逆濾波處理,由此可以得到聲門波G(z)。假定語(yǔ)音信號(hào)S(z)和濾波器之間是線性無(wú)關(guān)的。在Z域中,數(shù)學(xué)表達(dá)式為[13]:

        聲門激勵(lì)模型G(z)、聲道濾波器模型V(z)、口唇輻射模型L(z)同時(shí)組成語(yǔ)音信號(hào)S(z)的頻譜傾斜。LPC 線性預(yù)測(cè)在基于聲門激勵(lì)源G(z)的頻譜傾斜效應(yīng)消除的情況下可以較為精準(zhǔn)地估計(jì)聲道。聲門逆濾波的具體過(guò)程如圖1 所示。

        圖1 聲門逆濾波過(guò)程

        聲門源信號(hào)是由肺部氣流引起的聲帶振動(dòng)直接產(chǎn)生的,即聲門波形從信號(hào)角度直接反映了正常聲帶振動(dòng)與病理聲帶振動(dòng)的差異。圖2 顯示了原始正常和病理的語(yǔ)音信號(hào)波形和用聲門逆濾波方法得到的正常嗓音和病理嗓音的聲門波波形,上兩張圖是正常聲音和病理聲音的原始語(yǔ)音信號(hào),下兩張圖是正常嗓音和病理嗓音的對(duì)應(yīng)聲門波形。對(duì)于相應(yīng)的聲門波形,不僅兩個(gè)語(yǔ)音樣本的諧波成分不同,而且正常嗓音的歸一化值遠(yuǎn)高于病理嗓音的歸一化值。

        圖2 正常及病理語(yǔ)音信號(hào)波形和聲門波形

        1.2 病理嗓音聲學(xué)特征參數(shù)提取方法

        1.2.1 MFCC 特征參數(shù)

        在人耳聽(tīng)覺(jué)感知實(shí)驗(yàn)中發(fā)現(xiàn),人類的聽(tīng)覺(jué)系統(tǒng)是一個(gè)特殊的非線性系統(tǒng),人耳就像一個(gè)濾波器組,對(duì)不同頻率的聲音具有不同的靈敏度。梅爾頻率倒譜系數(shù)(MFCC)是精確符合人耳聽(tīng)覺(jué)感知特性的特征參數(shù)。其基本原理是把線性頻譜映射到基于人耳聽(tīng)覺(jué)感知特性的梅爾非線性頻譜中,然后再映射到倒譜上。在語(yǔ)音信號(hào)中,低頻信號(hào)部分包含大多數(shù)信息,高頻信號(hào)部分易受到噪聲的干擾。MFCC 系數(shù)加強(qiáng)語(yǔ)音的低頻信息,因此具有一定的魯棒性。MFCC 特征提取具體流程如圖3 所示。

        圖3 MFCC 特征提取流程圖

        1.2.2 LPCC 特征參數(shù)

        線性預(yù)測(cè)倒譜系數(shù)(LPCC)是目前倒譜類特征提取應(yīng)用最廣泛的方法之一。首先將預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行線性預(yù)測(cè)編碼(Linear Prediction Coding,LPC),隨后進(jìn)行倒譜運(yùn)算后便可以得到LPCC。LPC 通過(guò)某個(gè)采樣時(shí)間之前某個(gè)時(shí)刻采樣值的線性組合進(jìn)行估計(jì)和預(yù)測(cè)。首先利用傳統(tǒng)的全極點(diǎn)模型計(jì)算LPC,再利用快速傅里葉變換(Fast Fourier Transform,FFT)運(yùn)算,對(duì)結(jié)果進(jìn)行對(duì)數(shù)運(yùn)算,最后通過(guò)傅里葉逆變換便可得到LPCC。LPCC 特征提取具體流程如圖4 所示。

        圖4 LPCC 特征提取流程圖

        1.2.3 MPEG-7 特征參數(shù)

        多媒體內(nèi)容描述接口(MPEG-7)音頻特征參數(shù)[14]來(lái)自基于ISO/IEC15938 的國(guó)際多媒體內(nèi)容描述標(biāo)準(zhǔn),該標(biāo)準(zhǔn)由視頻和音頻部分組成。由于MPEG-7 音頻特征在聲學(xué)研究中的高度差異性,它們已被用于各種聲學(xué)研究中。MPEG-7 特征是低級(jí)特征,有兩種類型:標(biāo)量和矢量。整個(gè)MPEG-7 特征集的維數(shù)為45,矢量類型特征包括音頻頻譜包絡(luò)(3維特征),音頻頻譜平坦度(22 維特征),音頻頻譜基礎(chǔ)(2 維特征)和音頻頻譜投影(2 維特征)。其他是標(biāo)量類型的特征包括音頻波形(2 維特征),音頻功率,音頻頻譜質(zhì)心,音頻頻譜,音頻協(xié)調(diào)性(2 維特征),音頻基頻(2 維特征),對(duì)數(shù)起音時(shí)間,時(shí)間質(zhì)心,頻譜質(zhì)心,諧波頻譜質(zhì)心,諧波頻譜偏差,諧波頻譜擴(kuò)展和諧波頻譜變化。

        1.2.4 聲門特征參數(shù)

        當(dāng)氣流通過(guò)聲帶時(shí),聲帶會(huì)產(chǎn)生振動(dòng)。氣流因?yàn)槁晭У恼駝?dòng)而變成空氣脈沖??諝饷}沖形成的壓力信號(hào)是準(zhǔn)周期的,稱為聲門波。聲門脈沖是聲門波的一個(gè)周期。其聲門波波形的計(jì)算公式如下:

        式中:函數(shù)?(t)表示直到聲門激發(fā)時(shí)刻的聲門脈沖時(shí)間導(dǎo)數(shù),tqc表示聲帶碰撞的瞬間,T表示聲門脈沖周期,tr表示最大興奮瞬間之后的時(shí)間間隔,稱為返回階段。

        根據(jù)文獻(xiàn)[15]中提出的聲門流模型,?(t)可以通過(guò)下面的公式計(jì)算出來(lái):

        式中:Ad指的是聲門脈沖時(shí)間導(dǎo)數(shù)的振幅。

        用聲門逆濾波方法,從聲源提取出來(lái)的聲門特征可以分為兩組:時(shí)域特征和頻域特征。時(shí)域特征可以是通過(guò)使用不同的相位和瞬間來(lái)描述。此外,聲門源信號(hào)在不同相位的幅度還用于計(jì)算基于振幅的聲門源特征。與時(shí)域特征不同,頻域特征反映了頻譜傾斜本質(zhì),是從聲門頻譜計(jì)算出來(lái)的。本文具體所采用的聲門特征描述及公式[16]如表1 所示。

        表1 中,tmax為聲門信號(hào)幅值最大對(duì)應(yīng)的時(shí)刻,tc為聲門關(guān)閉時(shí)刻;to1和to2分別為聲門主要、次要打開(kāi)時(shí)刻;tqc和tqo定義為聲門波曲線的振幅越過(guò)曲線的50%和峰峰值幅度水平的時(shí)間數(shù)值。Aac為聲門波峰峰值脈沖幅度,Admax為聲門脈沖時(shí)間導(dǎo)數(shù)幅度最大值,Admin為聲門脈沖時(shí)間導(dǎo)數(shù)幅度最小值,f0為基音頻率。HW代表第W次諧波的幅值,H1表示基音頻率的幅值。b為聲門波頻譜衰減參數(shù),bmax為DC 函數(shù)衰減參數(shù)。

        表1 聲門特征參數(shù)集

        2 病理嗓音檢測(cè)系統(tǒng)設(shè)計(jì)

        病理嗓音識(shí)別系統(tǒng)主要包括音頻采集模塊、電源模塊、DSP 處理模塊、邏輯控制模塊、外部?jī)?chǔ)存模塊和JTAG 操作模塊。系統(tǒng)框圖如圖5 所示。DSP芯片采用的是TMS320VC5509A。語(yǔ)音信號(hào)通過(guò)音頻采集模塊TLV320AIC23 進(jìn)行AD 轉(zhuǎn)換和濾波處理,再將濾波后的數(shù)字信號(hào)通過(guò) DSP 芯片TMS320VC5509A 進(jìn)行預(yù)處理、特征提取和識(shí)別。

        圖5 病理嗓音識(shí)別系統(tǒng)

        該系統(tǒng)的軟件主要依靠可視化編程的CCS 3.3環(huán)境。DSP 系統(tǒng)運(yùn)行主程序和信號(hào)的數(shù)據(jù)處理、采樣、傳輸控制、訓(xùn)練、識(shí)別等部分。采樣、傳輸控制、信號(hào)分析處理等采用編程方法來(lái)完成。識(shí)別系統(tǒng)流程如圖6 所示。語(yǔ)音信號(hào)通過(guò)聲門逆濾波處理后提取其聲門特征;針對(duì)病理嗓音識(shí)別,本系統(tǒng)提取病理嗓音識(shí)別常用的MFCC、LPCC 和MPEG-7 特征參數(shù)。將聲門特征與這三種特征參數(shù)進(jìn)行特征融合后進(jìn)行機(jī)器學(xué)習(xí),得出識(shí)別結(jié)果。

        圖6 病理嗓音識(shí)別流程圖

        3 實(shí)驗(yàn)及結(jié)果分析

        實(shí)驗(yàn)采用MEEI 數(shù)據(jù)庫(kù)[18],該數(shù)據(jù)庫(kù)包含了1 384例病理嗓音/ɑ:/(選擇元音/ɑ:/作為測(cè)試集,一方面因?yàn)?ɑ:/音較少地受到口腔的影響,二是因?yàn)?ɑ:/音會(huì)更多地受到聽(tīng)覺(jué)反饋的影響),并給出了專家診斷結(jié)果。從該數(shù)據(jù)庫(kù)中選取53 個(gè)正常嗓音和149 個(gè)病理嗓音作為數(shù)據(jù)子集,選用這個(gè)子集是考慮了各種病理嗓音的種類以及正常和病理嗓音庫(kù)的性別和年齡分布情況。具體統(tǒng)計(jì)表如表2所示。

        表2 嗓音情況統(tǒng)計(jì)表

        實(shí)驗(yàn)采用十折交叉驗(yàn)證的方法,采用當(dāng)今主流的機(jī)器學(xué)習(xí)算法:支持向量機(jī)(SVM)、貝葉斯網(wǎng)絡(luò)(Bayes Net)、BP 神經(jīng)網(wǎng)絡(luò)(BP)、局部加權(quán)線性回歸(LWL)、簡(jiǎn)單邏輯回歸(SL)5 種分類器進(jìn)行識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3 所示。

        表3 聲門融合特征識(shí)別率統(tǒng)計(jì)表 單位:%

        在貝葉斯網(wǎng)絡(luò)(Bayes Net)、BP 神經(jīng)網(wǎng)絡(luò)(BP)、簡(jiǎn)單邏輯回歸(SL)、支持向量機(jī)(SVM)、局部加權(quán)線性回歸(LWL)5 種機(jī)器學(xué)習(xí)分類器識(shí)別下,MFCC、LPCC 及MPEG-7 融合聲門特征的識(shí)別率優(yōu)于傳統(tǒng)的MFCC、LPCC 及MPEG-7 特征的識(shí)別率。其中MFCC 融合聲門特征的平均識(shí)別率比MFCC 特征平均識(shí)別率高2.87%,LPCC 融合聲門特征的平均識(shí)別率比LPCC 特征平均識(shí)別率高1.78%,MPEG-7 融合聲門特征的平均識(shí)別率比MPEG-7 特征平均識(shí)別率高0.6%。MPEG-7 融合聲門特征結(jié)合SVM 分類器更是達(dá)到了100%的識(shí)別率。

        為了探究聲門特征區(qū)分正常聲音和病理聲音的能力,對(duì)MFCC、LPCC、MPEG-7 融合聲門特征的正常和病理嗓音的盒圖進(jìn)行對(duì)比,結(jié)果如圖7 所示。從圖7 可以看出,正常和病理聲音的特征總體分布,三者融合聲門特征的盒圖中正常聲音和病理聲音之間幾乎沒(méi)有數(shù)據(jù)重疊,這也意味著融合聲門特征可以更好地區(qū)分正常聲音和病理聲音。

        圖7 正常與病理嗓音融合特征的盒圖對(duì)比圖

        圖8 顯示了聲門特征融合MPEG-7 特征的前三個(gè)區(qū)別特征(glottal-MPEG-7 1,2,3)的三維散點(diǎn)圖。從圖中可以看出,雖然正常(圓圈)和病理(十字)樣本有輕微的重疊,但這兩類樣本總體分布的高度分化表明,聲門特征融合MPEG-7 特征能夠有效地將正常聲音與病理聲音分離開(kāi)來(lái)。

        圖8 三維散點(diǎn)圖(glottal-MPEG-7 1,2,3)

        表4 為MFCC 特征、MFCC 融合聲門特征、LPCC 特征、LPCC 融合聲門、MPEG-7 特征、MPEG-7融合聲門特征在SVM 分類器下的正確率、卡帕統(tǒng)計(jì)量、平均絕對(duì)誤差和相對(duì)絕對(duì)誤差指標(biāo)??梢钥闯鲈赟VM 分類器下,本文所提出特征的正確率和卡帕統(tǒng)計(jì)量最高,平均絕對(duì)誤差和相對(duì)絕對(duì)誤差最低,客觀表明本文方法精確度最高,誤差最小,算法性能最佳。

        表4 識(shí)別結(jié)果指標(biāo)對(duì)比表

        4 總結(jié)

        為了提高病理嗓音系統(tǒng)檢測(cè)的性能,本文采用聲門特征與MPEG-7 特征融合的方法,并且以DSP 芯片TMS320VC5509A 為核心設(shè)計(jì)了高精度的非侵入式病理嗓音識(shí)別系統(tǒng)。根據(jù)實(shí)驗(yàn)結(jié)果,病理嗓音在5 種主流機(jī)器學(xué)習(xí)方法下的平均識(shí)別率為96.6%。其中結(jié)合SVM 分類器可達(dá)到100%的識(shí)別率,并且卡帕統(tǒng)計(jì)量最高,平均絕對(duì)誤差和相對(duì)絕對(duì)誤差最低。充分表明聲門與MPEG-7 的融合特征能更好地刻畫病理性聲音與健康聲音之間的豐富細(xì)節(jié)內(nèi)容和差異度。

        在今后的實(shí)驗(yàn)中,可通過(guò)優(yōu)化SVM 中的核函數(shù)等方法,以進(jìn)一步提高病理嗓音的識(shí)別率。此外,考慮到單一數(shù)據(jù)庫(kù)的局限性,未來(lái)將采用更多的病理嗓音數(shù)據(jù)庫(kù)進(jìn)行二分類及細(xì)分類的研究。

        猜你喜歡
        特征融合信號(hào)
        村企黨建聯(lián)建融合共贏
        融合菜
        信號(hào)
        鴨綠江(2021年35期)2021-04-19 12:24:18
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        完形填空二則
        《融合》
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:42
        抓住特征巧觀察
        亚洲AV永久无码精品表情包| 亚洲日本在线电影| 久青草影院在线观看国产| 午夜色大片在线观看| 欧美一级欧美一级在线播放| 久久91综合国产91久久精品| 久久一二三四区中文字幕| 中文字幕第一页人妻丝袜| 公和我做好爽添厨房中文字幕| 曰本无码人妻丰满熟妇5g影院| 人妻无码中文专区久久AV| 大尺度极品粉嫩嫩模免费| 97人人模人人爽人人喊网| 色欲aⅴ亚洲情无码av蜜桃| 国产真实伦视频在线视频| 亚洲熟女熟妇另类中文| 色综合久久中文娱乐网| 色妞色综合久久夜夜| 无码AⅤ最新av无码专区| 小池里奈第一部av在线观看| 亚洲av综合av成人小说| 肉体裸交丰满丰满少妇在线观看| 日韩少妇人妻一区二区| 日本一区二区视频高清| gv天堂gv无码男同在线观看| 国产亚洲一本大道中文在线| 俺来也三区四区高清视频在线观看| 一区二区午夜视频在线观看| 国内精品久久久久国产盗摄| 红杏亚洲影院一区二区三区| 蜜臀av一区二区三区人妻在线| 国产女主播一区二区久久| 又爽又黄又无遮挡的视频| 国产a级午夜毛片| 国产色婷亚洲99精品av网站| 人妻少妇精品视频一区二区三| 久久久久亚洲av无码麻豆| 日韩AV无码一区二区三区不卡毛片| 免费看黄在线永久观看| 国产精品理论片在线观看| 国产乱人伦偷精品视频|