亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結合語音融合特征和隨機森林的構音障礙識別

        2018-06-14 06:16:24張雪英段淑斐閆密密
        西安電子科技大學學報 2018年3期
        關鍵詞:構音韻律識別率

        李 東, 張雪英, 段淑斐, 閆密密

        (太原理工大學 信息工程學院,山西 太原 030024)

        構音障礙是指由于中樞神經系統(tǒng)受損導致的發(fā)音運動不協(xié)調,從而產生語音混亂的現(xiàn)象[1].神經肌肉的器質性病變會造成發(fā)音器官的肌肉無力、肌張力異?;蜻\動不協(xié)調,從而導致發(fā)聲、韻律以及共鳴等方面的異常.構音障礙的嚴重程度決定于神經肌肉受損的程度.腦癱是構音障礙的一種典型病例,于發(fā)育早期形成,病變部位在腦部,除肢體運動障礙之外,大部分患者存在呼吸道和聲道的中樞性神經運動異常[2].據世界衛(wèi)生組織的數(shù)據統(tǒng)計,在腦癱患者中,有88%左右存在構音障礙問題.語音信號處理是檢測構音障礙的有效方式之一,通過提取語音中的特征參數(shù)并進行模式分類,可以有效地將正常人和構音障礙人進行區(qū)分,結合相關的病理學知識,可進一步對病情嚴重程度進行判斷[3].因此,進行基于聲學特征的病理語音識別研究具有十分重要的社會意義.在目前的病理語音研究中,使用最為廣泛的數(shù)據庫是麻省眼耳醫(yī)院(Massachusetts Eye and Ear Infirmary ,MEEI)開發(fā)的病理嗓音數(shù)據庫.此數(shù)據庫收集了正常人以及各種由神經、器官病變或外傷導致的發(fā)音障礙患者的語音數(shù)據.此外,還有由阿姆斯特丹大學開發(fā)的NKI-CCRT數(shù)據庫,記錄了頭頸部癌癥患者的語音數(shù)據,語言為荷蘭語;由多倫多大學開發(fā)的TORGO數(shù)據庫[4]記錄了腦癱或肌萎縮性脊髓側索硬化癥患者的語音數(shù)據,語言為英語.相比之下,漢語普通話的病理語音數(shù)據庫十分缺乏,很大程度上阻礙了相關研究的進展.

        目前,進行病理語音識別的主要方法是: 先從語音中提取所需特征,再運用機器學習的方法進行識別和分類[5].文獻[6]選用了MEEI病理嗓音數(shù)據庫,并提取梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)作為特征參數(shù),分別采取F檢驗和費雪判別比的方法進行降維,選取高斯混合模型(Gaussian Mixture Model, GMM)作為識別系統(tǒng),對比了兩種特征選擇方法的優(yōu)劣.在四川大學與四川大學華西口腔醫(yī)院的合作研究中,提取了MFCC作為特征,運用隱馬爾科夫模型(Hidden Markov Model,HMM)對腭裂語音輔音省略情況進行識別,達到了86.9%的識別正確率[7].文獻[8]對于MEEI數(shù)據庫中的語音數(shù)據提取了MFCC特征,使用高斯混合模型建立模型,在語音模型的相似性度量中,對KL距離和巴氏距離進行了改進,使用支持向量機(Support Vector Machine, SVM)進行識別,分別取得了96.5%和95.5%的識別正確率.文獻[9]使用高斯混合模型作為統(tǒng)計模型,從語音中提取出小波域能量譜系數(shù)的統(tǒng)計學特征后進行識別,對病理語音的識別率達到97.45%.文獻[10]基于聲音強度提取出一種新特征,即修改語音輪廓(Modified Voice Contour,MVC),并運用支持向量機進行識別,在使用作者自行采集數(shù)據庫作為實驗數(shù)據時,達到了100%的識別率.雖然目前已經有較多對于由不同疾病導致的構音障礙的研究,但是大多數(shù)都采用了經典的MFCC和共振峰等單一特征,缺少將多種類型的特征融合后進行識別的方法.此外,識別的模型也大多局限于支持向量機、隱馬爾科夫模型和高斯混合模型等.

        韻律特征在表現(xiàn)語音的流暢程度、聲調和節(jié)奏等方面性能較好[11],能在很大程度上彌補MFCC在進行語音識別時性能上的不足.隨機森林(Random Forest,RF)作為一種集成學習算法,在處理大量數(shù)據和高維特征時具有良好的性能,訓練速度快、模型泛化能力強[12].因此,筆者提出了一種結合MFCC與韻律特征的融合特征(Fusion Feature of Prosody and MFCC, FFPM),并采用隨機森林算法,將兩者應用于腦癱導致的構音障礙識別中.

        文中首先針對不同性別的被試,分別采用單一特征與融合特征進行對比研究,驗證融合特征對于單一特征的優(yōu)化作用.在此基礎之上,去除性別差異,在整體數(shù)據上再次實驗,測試不同分類器下單一特征與融合特征的分類精度,從而匹配出最優(yōu)特征與分類器組合.

        1 基于MFCC和韻律特征的FFPM特征提取

        1.1 韻律特征

        韻律特征,又名超音段特征,體現(xiàn)了語音信號強度和語調的變化.韻律作為語音識別研究中常用的特征,已經取得了一些理想的識別結果.構音障礙說話人在表達較長語句時,其聲音強度和流暢度與正常說話人差別明顯.常用的韻律特征主要有:

        (1) 語速(speed).即時長和發(fā)音音節(jié)數(shù)的比值.

        (2) 過零率(zero crossing rate).一幀語音中語音信號波形穿過零電平的次數(shù)稱為過零率.定義語音信號x(m)的過零率為

        (1)

        (3) 能量(energy).設第n幀語音信號的短時能量用En表示,則

        (2)

        (4) 共振峰(formant).當元音激勵進入聲道時會引起共振特性,產生一組共振頻率,即共振峰.它反映了聲道諧振特征.

        (5) 基頻(pitch).即發(fā)濁音時聲帶振動的頻率,人在發(fā)音過程中,由于聲門瞬時閉合,聲道被強烈激勵,表現(xiàn)在語音波形上就是此瞬間幅度劇增,產生突變.相鄰兩個聲門閉合之間的時間長度的倒數(shù)就是該處的基音頻率.

        1.2 梅爾頻率倒譜系數(shù)

        梅爾頻率是一種根據人耳聽覺特性構造的一種語音特征參數(shù).由于人耳所聽到的聲高與頻率并不是線性對應關系,而是更接近于對數(shù)關系,因此梅爾頻率尺度更能準確地對應人耳的聽覺特性.它與頻率的關系可表示為

        Fmel=2 595 lg(1+fHz/700) .(3)

        提取MFCC時,步驟如下:

        (1) 進行預加重.首先使信號通過一個高通濾波器:H(Z)=1-μz-1,其中μ取0.97.

        (2) 進行分幀和加窗.幀長設定為256,幀移為128.每一幀都乘以Hamming窗,窗函數(shù)為

        w(n)=0.54-0.46 cos[2πn/(N-1)] , 0≤n≤N.(4)

        (3) 進行快速傅里葉變換,得到各幀的頻譜.設輸入信號為x(n),則語音信號的離散傅里葉變換(Discrete Fourier Transform,DFT)為

        (5)

        得到頻譜后再對頻譜取模平方得到功率譜.

        (4) 將功率譜通過一組梅爾尺度的三角濾波器組,濾波器階數(shù)為24.再將結果取對數(shù),即

        (6)

        (5) 經離散余弦變換后,可得到MFCC系數(shù)為

        (7)

        1.3 FFPM特征的構成

        文中提取了語音的語速、過零率、能量、基頻以及第1、第2和第3共振峰(F1,F(xiàn)2,F(xiàn)3)作為韻律特征,然后計算其統(tǒng)計函數(shù),并融合了MFCC的統(tǒng)計函數(shù),組成最終的融合特征,即FFPM特征.特征集合表示為

        Fu={s,z,E,P,F(xiàn)1,F(xiàn)2,F(xiàn)3,M1,M2,…,Mk} ,(8)

        其中,s為語速;z為過零率;E表示由能量的統(tǒng)計參數(shù)構成的向量,即

        (9)

        其各量依次為最大值、最小值、均值以及一階差分的最大值、最小值和均值;P表示由基頻的統(tǒng)計參數(shù)構成的向量,即

        (10)

        其各量依次為最大值、最小值、均值以及一階差分的最大值、最小值和均值;F1、F2和F3表示由第1、第2和第3共振峰的統(tǒng)計參數(shù)構成的向量,即

        其各量依次為最大值、最小值、均值、方差以及一階差分的最大值、最小值、均值和方差;Mk表示第k階MFCC的統(tǒng)計參數(shù)構成的向量,即

        (14)

        其各量依次為偏度、峰度、均值、方差和中值;式(14)中,偏度計算公式為

        S(Mk)=E(Mk-μ)σ3.(15)

        峰度計算公式為K(Mk)=E(Mk-μ)σ4-3 .(16)

        在文中,k值取12,最終構成98維的FFPM融合特征.

        2 隨機森林分類器

        隨機森林是一種集成學習方法,其基本思想是每次從訓練樣本中隨機選取部分特征來構建獨立的決策樹,然后重復這個過程,且保證每次都是等概率地抽取特征,直到構建了足夠多且相互獨立的樹,分類結果由這些樹通過特定的規(guī)則共同決定[8].隨機森林以K棵決策樹{h(X,θk),k=1,2,…,K}作為基分類器進行集成學習,其中{θk,k=1,2,…,K}是一個隨機變量序列, 其構成方式遵循以下思想:

        (1) Bagging: 從原始樣本集X有放回地隨機抽取K個與原始樣本集同樣大小的訓練樣本集{Tk,k=1,2,…,K},并且由每個訓練樣本集Tk構造一棵決策樹.

        圖1 第k棵決策樹生成過程

        (2) 特征子空間:對決策樹的每個節(jié)點進行分裂時,從全部屬性中等概率抽取一個子集,再從此子集中選取一個最優(yōu)屬性來分裂節(jié)點.

        在構建每棵決策樹時,抽取訓練樣本集和屬性子集的過程各自獨立,且總體相同,所以{θk,k=1,2,…,K}為獨立同分布的隨機變量序列.第k棵決策樹的訓練過程如圖1所示.

        把以同樣的方式訓練得到的k棵決策樹組合起來,就可以得到一個隨機森林.當輸入待分類的樣本時,由每個決策樹的輸出結果進行投票(取眾數(shù)),就會得到隨機森林的最終分類結果.相比于單個決策樹,隨機森林具有更強的分類能力,且有效地避免了過擬合.此外,隨機森林作為分類器時,不需要對特征進行降維,且在處理大量數(shù)據時也比支持向量機識別率更高,速度更快.文中,不限制隨機森林的決策樹深度,樹的數(shù)量選擇為100.

        3 TORGO數(shù)據庫

        3.1 數(shù)據庫概況

        選用由加拿大多倫多大學計算機科學與語音病理學系聯(lián)合Holland-Bloorview Kids Rehab hospital共同開發(fā)的TORGO腦癱病人數(shù)據庫[9],此數(shù)據庫包含了總時長為 23 h 左右的英文語音數(shù)據,同時含有與聲音數(shù)據同步的發(fā)音動作數(shù)據.構音障礙患者類型為腦癱或肌萎縮性脊髓側索硬化癥(Amyotrophic Lateral Sclerosis,ALS).數(shù)據庫基本構成情況如表1所示.

        表1 TORGO數(shù)據庫概況

        3.2 數(shù)據庫篩選

        從數(shù)據庫中選擇了短語和限制句作為語料來源,兩者的構成情況如表2所示.

        其中,對于不需要探究詞界的語音聲學研究來說,短語是非常有用的,它可體現(xiàn)出說話人對單個詞匯的發(fā)音能力.選用限制句是為了評判說話人利用詞匯、語法和進行語義處理時的能力,構音障礙人在這方面的能力與正常人存在較大差距.

        表2 短語及限制句來源

        表3 篩選后數(shù)據構成情況

        文中選擇來自全部15位被試的限制句和短語語音數(shù)據.在原有數(shù)據中,有一小部分數(shù)據存在被試發(fā)音錯誤,錄制設備發(fā)出噪音和治療師發(fā)出聲音的問題,此類情況在構音障礙患者的音頻數(shù)據中尤為突出.為避免因音頻數(shù)據的質量影響實驗,在進行實驗之前對原始數(shù)據庫進行了篩選,以求將客觀因素影響減到最?。瑫r使用了改進的相位補償語音增強算法[14]對篩選后的語音數(shù)據進行了處理,目的是最大限度地減少噪聲干擾.表3中顯示了篩選后的數(shù)據構成情況.

        4 實 驗

        進行了單一類型特征以及FFPM特征在不同分類器下的識別率對比實驗,共有9種組合形式,分類器選取了支持向量機,C4.5決策樹和隨機森林.其中,支持向量機使用線性核函數(shù),C4.5決策樹置信因子設置為0.25,每個葉的最小實例數(shù)量設置為2.然后,從篩選后的數(shù)據中,選取66%作為訓練集,34%作為測試集,并采用10折交叉驗證法來檢驗特征和識別網絡的性能.

        4.1 基于性別的融合特征性能測試

        為測試所提FFPM融合特征針對不同性別的識別性能,設計了2組試驗,分別測試在使用限制句和短語作為語料時,單一特征和FFPM特征的識別率.

        從圖2可以得出,在語料為限制句時,無論是對于男性還是女性,提出的FFPM識別準確率都比單獨使用MFCC和韻律特征時更高; 無論使用何種分類器,F(xiàn)FPM的識別正確率都高于另外兩個單一特征;在僅使用韻律特征時,對女性聲音的識別率明顯低于男性,韻律特征在表現(xiàn)女性語音特征時性能不佳.在女性聲音的識別上,F(xiàn)FPM相比于單一的韻律特征和MFCC特征都有顯著提升,使用隨機森林分類器后識別率達到99.62%.說明相較于單一特征,融合特征在識別性能上確實有優(yōu)化作用.此項實驗為后續(xù)分類器選擇的實驗奠定了基礎.

        圖2 限制句特征識別率男女對比圖3 短語特征識別率男女對比

        從圖3可以看出,與限制句的識別率相比,短語的識別率整體偏低.這個現(xiàn)象反映出,相比于句子,構音障礙患者能夠較為正確地對短語進行發(fā)聲,因此在進行識別時,其語音特征與正常說話人之間差異較小,一定程度上會影響分類結果.同樣,韻律特征在進行女性語音的識別時表現(xiàn)不佳,但FFPM將女性聲音的識別率提升到了98.31%.上述兩個實驗中,對于男性聲音的平均識別率達到99.21%,對女性聲音的平均識別率達到98.97%.

        4.2 綜合對比測試

        設計了兩組對比實驗,去除性別因素,只針對兩種語料類型分開實驗,目的為測試不同分類器下單一特征與融合特征的分類精度,從而匹配出最優(yōu)特征與分類器組合.

        從圖4可以看出,在語料為限制句時,韻律特征和隨機森林的組合達到了96.49%的識別率,比MFCC和隨機森林的組合高出了3.57%,但是考慮到在4.1節(jié)的實驗中,韻律特征在女性聲音的識別中表現(xiàn)不佳,若增加實驗中女性被試的人數(shù),識別率必定會明顯下降;使用FFPM特征和隨機森林算法的組合所達到的識別準確率最高,比MFCC和C4.5的組合高出12.16%,比韻律特征和支持向量機的組合高出11.71%.從分類器的角度出發(fā)進行對比,隨機森林比另外兩個分類器的識別率高出約6%,優(yōu)勢較為顯著.

        圖4 限制句特征識別率對比圖5 短語特征識別率對比

        從圖5可以看出,短語的特征識別率類似于限制句,但是整體略低.其中,支持向量機作為識別網絡、MFCC作為特征時識別率都相對較低,相比之下,當FFPM和隨機森林組合時,識別率達到了97.95%,體現(xiàn)了將頻譜特征和時域特征結合后的性能優(yōu)勢,以及隨機森林分類器對高維特征向量的良好識別率.上述兩個實驗的平均識別率達到98.00%.

        綜上所述,文中提出的包含韻律特征和MFCC的FFPM與隨機森林算法組合的方式所表現(xiàn)出的性能最優(yōu).由此可以說明,F(xiàn)FPM特征可以更好地詮釋患者與正常人之間的差異,同時選用隨機森林算法進行分類識別,可以取得理想的效果.

        5 結 束 語

        基于語音數(shù)據和機器學習進行的構音障礙評估和診斷日益重要,但傳統(tǒng)的單一聲學特征往往并不能很好地表現(xiàn)患者與正常人之間的差異,同時,傳統(tǒng)的支持向量機在處理大數(shù)據量時表現(xiàn)不佳,并且運算速度慢;決策樹極易發(fā)生過擬合的現(xiàn)象.鑒于此類情況,文中對語音數(shù)據提取了包括MFCC和韻律特征在內的FFPM特征;并引入隨機森林作為分類器,實現(xiàn)了對樣本的集成學習.在實驗中,首先通過針對不同性別的被試,分別采用單一特征與融合特征進行對比研究,驗證了融合特征對于單一特征的優(yōu)化作用.在此基礎之上,去除性別差異,在整體數(shù)據上再次實驗,測試不同分類器下單一特征與融合特征的分類精度,從而發(fā)現(xiàn)了FFPM和隨機森林為性能最優(yōu)的組合.同時經過實驗發(fā)現(xiàn),相比于句子,構音障礙患者對短語的發(fā)音能力更強,發(fā)音較為準確.在今后的研究中,將考慮尋找更好的特征融合方式,以期實現(xiàn)更高的識別率.除此之外,建立普通話說話人的數(shù)據庫,用現(xiàn)有方法進行訓練和識別,也是未來的研究方向.

        [1] DOYLE P, LEEPER H, KOTLER A L, et al. Dysarthric Speech: a Comparison of Computerized Speech Recognition and Listener Intelligibility[J]. Journal of Rehabilitation Research and Development, 1997, 34(3): 309-316.

        [2] 劉偉, 陳剛, 遲廣明. 腦癱治療的現(xiàn)狀[J]. 中國康復理論與實踐, 2007, 13(12): 1118-1120.

        LIU Wei , CHEN Gang , CHI Guangming. Current Treatment of Cerebral Palsy [J]. Chinese Journal of Rehabilitation Theory and Practice, 2007, 13(12): 1118-1120.

        [3] BAGHAI-RAVARY L, BEET S W. Automatic Speech Signal Analysis for Clinical Diagnosis and Assessment of Speech Disorders[M]. Springerbriefs in Electrical and Computer Engineering. Berlin: Springer, 2013.

        [4] RUDZICZ F, NAMASIVAYAM A K, WOLFF T. The TORGO Database of Acoustic and Articulatory Speech from Speakers with Dysarthria [J]. Language Resources and Evaluation, 2012, 46(4): 523-541.

        [5] GUPTA R, CHASPARI T, KIM J, et al. Pathological Speech Processing: State-of-the-art, Current Challenges, and Future Directions[C]//Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2016: 6470-6474.

        [6] GODINO-LLORENTE J I, GOMEZ-VILDA P, BLANCO-VELASCO M. Dimensionality Reduction of a Pathological Voice Quality Assessment System Based on Gaussian Mixture Models and Short-term Cepstral Parameters[J]. IEEE Transactions on Biomedical Engineering, 2006, 53(10): 1943-1953.

        [7] 袁亞南, 何凌, 龔曉峰, 等. 基于MFCC和HMM的腭裂語音輔音省略識別算法[J]. 計算機工程與設計, 2014, 35(2): 615-619.

        YUAN Ya’nan, HE Ling, GONG Xiaofeng, et al. Recognition Algorithm of Consonants Omission for People with Cleft Palate Based on MFCC and HMM [J]. Computer Engineering and Design, 2014, 35(2): 615-619.

        [8] AMARA F, FEZARI M, BOUROUBA H. An Improved GMM-SVM System Based on Distance Metric for Voice Pathology Detection[J]. Applied Mathematics and Information Sciences, 2016, 10(3): 1061-1070.

        [9] 常靜雅, 張曉俊, 顧玲玲, 等. 小波域能量譜和非線性降維的病理嗓音識別[J]. 計算機工程與應用, 2017, 53(2): 166-171.

        CHANG Jingya, ZHANG Xiaojun, GU Lingling, et al. Wavelet Domain Energy Spectrum and Nonlinear Dimensionality Reduction in Pathological Voice Recognition[J]. Computer Engineering and Applications, 2017, 53(2): 166-171.

        [10] ALI Z, ALSULAIMAN M, ELAMVAZUTHI I, et al. Voice Pathology Detection Based on the Modified Voice Contour and SVM[J]. Biologically Inspired Cognitive Architectures, 2016, 15: 10-18.

        [11] 姚慧, 孫穎, 張雪英. 情感語音的非線性動力學特征[J]. 西安電子科技大學學報, 2016, 43(5): 167-172.

        YAO Hui, SUN Ying, ZHANG Xueying. Research on Nonlinear Dynamics Features of Emotional Speech[J]. Journal of Xidian University, 2016, 43(5): 167-172.

        [12] BREIMAN L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.

        [13] WRENCH A. The MOCHA-TIMIT Articulatory Database [DB/OL]. [2017-05-06]. http://www. cstr. ed. ac. uk/artic/mocha. html.

        [14] 王棟,賈海蓉. 改進相位譜補償?shù)恼Z音增強算法[J]. 西安電子科技大學學報, 2017, 44(3): 83-88.

        WANG Dong, JIA Hairong. Speech Enhancement Using Improved Phase Spectrum Compensation[J]. Journal of Xidian University, 2017, 44(3): 83-88.

        猜你喜歡
        構音韻律識別率
        吐字不清警惕構音障礙
        健康博覽(2024年6期)2024-06-17 08:41:52
        “小腦斧”“大西幾”……孩子說話不清楚怎么辦
        基于類圖像處理與向量化的大數(shù)據腳本攻擊智能檢測
        計算機工程(2020年3期)2020-03-19 12:24:50
        春天的韻律
        中華詩詞(2019年1期)2019-08-23 08:24:12
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關系
        提升高速公路MTC二次抓拍車牌識別率方案研究
        韻律之美——小黃村
        壓舌板在兒童構音訓練中的應用效果評價
        高速公路機電日常維護中車牌識別率分析系統(tǒng)的應用
        維吾爾語話題的韻律表現(xiàn)
        成人免费视频自偷自拍| 亚洲一本到无码av中文字幕| 亚洲中文字幕无码专区| 黑人巨大精品欧美在线观看| 日韩字幕无线乱码免费| 精品亚洲一区二区三区四| 精品水蜜桃久久久久久久| 成人毛片18女人毛片免费| 在线日本高清日本免费| 风韵丰满熟妇啪啪区99杏| 国产无遮挡又黄又爽免费网站| 亚洲h视频| 国产99久久精品一区| 亚洲午夜精品一区二区麻豆av| 韩日午夜在线资源一区二区| 亚洲精品视频久久 | 亚洲女同恋中文一区二区| 国产精品视频亚洲二区| 国产精品久久国产三级国不卡顿| 日本高清中文字幕一区二区三区| 蜜桃一区二区三区在线视频| 亚洲av无码乱码精品国产| 亚洲啪啪综合av一区| 美女视频很黄很a免费国产| 久久99精品综合国产女同| 日日天干夜夜狠狠爱| 亚洲综合性色一区| 天天天天躁天天爱天天碰2018| 91福利视频免费| 91桃色在线播放国产| 九九影院理论片私人影院| 精品久久亚洲中文无码| 人妻无码一区二区| 亚洲美女主播一区二区| 一本久久a久久免费综合| 日本熟妇色xxxxx欧美老妇| 亚洲中文字幕巨乳人妻| 熟妇人妻精品一区二区视频| 亚洲精品一品区二品区三品区| 亚洲精品视频久久| 伊人狼人激情综合影院|