亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PAD模型的級(jí)聯(lián)分類情感語(yǔ)音識(shí)別

        2018-09-21 11:39:18張雪英
        關(guān)鍵詞:分類數(shù)據(jù)庫(kù)特征

        張雪英,張 婷,孫 穎,張 衛(wèi)

        (太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600)

        語(yǔ)音作為人類日常交流的主要方式,其中所攜帶的情感信息越來越受到研究者的重視。情感語(yǔ)音識(shí)別在人機(jī)交互、模式識(shí)別和人工智能等領(lǐng)域具有廣泛應(yīng)用前景,開展情感語(yǔ)音識(shí)別研究對(duì)于人類社會(huì)的進(jìn)步與發(fā)展具有重要意義[1]。在語(yǔ)音情感識(shí)別研究中,提高識(shí)別率主要有兩個(gè)研究方向[2]。一是改進(jìn)情感語(yǔ)音特征的提取方式或者選取方式;在情感語(yǔ)音識(shí)別中,常用的聲學(xué)特征一般包括有聲學(xué)參數(shù)的統(tǒng)計(jì)特征、時(shí)序特征等[3]。二是改進(jìn)分類方法或者選取更適合的分類方法;在情感識(shí)別方法的研究上,多種模式識(shí)別的分類方法均可用于情感識(shí)別[4]:如人工神經(jīng)網(wǎng)絡(luò)ANN(artificial neural network)[5]、隱馬爾科夫模型HMM(hidden markov models)、高斯混合模型GMM(gaussian mixture models)、支持向量機(jī)SVM(support vector machines)等。相較于其他模式識(shí)別算法,SVM是在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上建立起來的,而且可以克服小樣本數(shù)據(jù)和非線性問題,具有良好的情感分類能力。近年來,SVM 被廣泛應(yīng)用于語(yǔ)音情感識(shí)別中,是一種有效的語(yǔ)音情感識(shí)別分類器[6]。

        本文在TYUT2.0情感語(yǔ)音數(shù)據(jù)庫(kù)的基礎(chǔ)上,提出了聲學(xué)特征與情感語(yǔ)音PAD數(shù)據(jù)相結(jié)合的級(jí)聯(lián)分類方法。首先根據(jù)前期PAD標(biāo)注實(shí)驗(yàn)的數(shù)據(jù)結(jié)果[7],將4類情感中混淆度高的情感按照愉悅度值高低劃分為2類,其次在此基礎(chǔ)上使用SVM識(shí)別網(wǎng)絡(luò)分別識(shí)別高低愉悅度的情感,然后在已區(qū)分高低愉悅度的基礎(chǔ)上再次使用SVM識(shí)別網(wǎng)絡(luò),最終實(shí)現(xiàn)對(duì)4種情感的分類,情感分類識(shí)別率較傳統(tǒng)僅使用聲學(xué)特征的分類識(shí)別率提高了15.4%.

        1 情感語(yǔ)音數(shù)據(jù)庫(kù)及三維情感模型

        1.1 情感語(yǔ)音數(shù)據(jù)庫(kù)

        本文采用的太原理工大學(xué)數(shù)字音視頻技術(shù)研究中心前期建立的TYUT2.0情感語(yǔ)音數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)首先采用截取廣播劇的方式,包含“高興、憤怒、悲傷、驚奇”4種情感類別共237句的摘引型離散情感語(yǔ)音數(shù)據(jù)庫(kù)。后期在原有的離散情感語(yǔ)音數(shù)據(jù)庫(kù)的基礎(chǔ)上,根據(jù)PAD三維情感模型,通過心理學(xué)實(shí)驗(yàn)的方法對(duì)情感語(yǔ)音進(jìn)行標(biāo)注,建立了維度情感語(yǔ)音數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)中每句語(yǔ)音都有對(duì)應(yīng)的PAD值,為后續(xù)的識(shí)別實(shí)驗(yàn)奠定了數(shù)據(jù)基礎(chǔ)[7]。

        1.2 PAD三維情感模型

        情感可以用連續(xù)變化的維度表示,情感維度理論通常將不同的情感映射到一個(gè)多維空間中的一個(gè)點(diǎn),該點(diǎn)的空間坐標(biāo)對(duì)應(yīng)標(biāo)識(shí)某一種情感。其中PAD三維情感模型被廣泛認(rèn)可[8]。該模型由UCLA大學(xué)的MEHRABIAN開發(fā),采用語(yǔ)義差異評(píng)價(jià)方法將情感分為三個(gè)維度,它們分別是:反應(yīng)說話者情感狀態(tài)的正負(fù)特征的愉悅度P(Pleasure-displeasure);反應(yīng)說話者神經(jīng)生理的激活程度是主動(dòng)的還是被動(dòng)的激活度A(Arousal-nonarousal);反應(yīng)說話者對(duì)情境和他人的控制欲望強(qiáng)弱的優(yōu)勢(shì)度D(Dominance-submissiveness)。三維情感模型是對(duì)情感空間的理論描述,建立了情感空間中不同情緒范疇的定位和關(guān)系,使不同的情感可以映射到三維空間中。根據(jù)文獻(xiàn)[7]標(biāo)注實(shí)驗(yàn)得出的PAD數(shù)據(jù),將悲傷、憤怒、高興、驚奇4種情感分布在三維情感空間,如圖1所示。

        圖1 4種情感狀態(tài)在PAD三維情感空間上的分布Fig.1 Distribution of four emotional states in PAD three-dimensional emotional space

        2 情感語(yǔ)音特征

        采用何種有效的語(yǔ)音特征參數(shù)用于情感識(shí)別對(duì)于語(yǔ)音情感識(shí)別研究至關(guān)重要,情感語(yǔ)音特征參數(shù)的優(yōu)劣直接決定情感最終識(shí)別結(jié)果的好壞。目前用于情感語(yǔ)音識(shí)別的聲學(xué)特征大致可歸納為韻律學(xué)特征、基于譜的相關(guān)特征和音質(zhì)特征這3種類型[9]。韻律學(xué)特征在情感語(yǔ)音識(shí)別領(lǐng)域已經(jīng)得到研究者的廣泛認(rèn)可[10]。文獻(xiàn)[11]研究了Mel頻率倒譜系數(shù)(mel-frequency cepstrum coefficient,MFCC)和基頻、能量、發(fā)音持續(xù)時(shí)間與三維情感空間之間的關(guān)系,結(jié)果表明MFCC參數(shù)與三維情感空間的相關(guān)性最高。所以本文主要提取情感語(yǔ)音的韻律特征和MFCC特征用于情感語(yǔ)音識(shí)別。

        2.1 韻律特征

        韻律特征可以分為3個(gè)主要方面:音高、強(qiáng)度以及時(shí)間特性。通過測(cè)量相應(yīng)提取輪廓的統(tǒng)計(jì)值來獲得特征。 其中平均值、中值、最小值、最大值和方差是最常用的統(tǒng)計(jì)值。本文從語(yǔ)音信號(hào)中提取了38維韻律特征。對(duì)應(yīng)的韻律特征及統(tǒng)計(jì)參數(shù)如表1所示。

        表1 韻律特征及統(tǒng)計(jì)參數(shù)Table 1 Prosodic features and statistical parameters

        2.2 MFCC特征

        MFCC特征是基于人耳聽覺特性提出來的,符合人類的聽覺特性,不僅能很好地度量語(yǔ)音頻譜的能量包絡(luò),同時(shí)倒譜運(yùn)算具有良好的解卷性能,因此MFCC特征廣泛地應(yīng)用于情感語(yǔ)音識(shí)別、說話人識(shí)別、音頻和音樂分類方面?;谝陨咸匦裕疚奶崛×薓FCC前12階的偏度、峰度、均值、方差、中值共60維特征用于識(shí)別實(shí)驗(yàn)。

        3 識(shí)別實(shí)驗(yàn)

        在本節(jié)的識(shí)別實(shí)驗(yàn)中,首先通過3組對(duì)比實(shí)驗(yàn),分別比較了僅使用韻律特征的分類識(shí)別率、僅使用MFCC特征的分類識(shí)別率及將2種特征組合的分類識(shí)別率。數(shù)據(jù)庫(kù)使用TYUT2.0情感語(yǔ)音數(shù)據(jù)庫(kù),對(duì)“悲傷”、“憤怒”、“高興”、“驚奇”4種情感語(yǔ)音進(jìn)行分類識(shí)別。利用支持向量機(jī)SVM[12]識(shí)別情感語(yǔ)音采用十折交叉驗(yàn)證(10-fold cross validation)的測(cè)試方法。所有語(yǔ)句被平均分為10份,識(shí)別實(shí)驗(yàn)也相應(yīng)地進(jìn)行10次,輪流將其中9份作為訓(xùn)練集,1份作為測(cè)試集。取10次實(shí)驗(yàn)結(jié)果的正確率的平均值作為識(shí)別結(jié)果。采用交叉驗(yàn)證測(cè)試方法能夠有效地降低隨機(jī)因素的影響 ,提高識(shí)別結(jié)果的可信度。

        3.1 韻律特征分類

        單獨(dú)運(yùn)用韻律特征對(duì)情感語(yǔ)音進(jìn)行分類識(shí)別,混淆矩陣如表2所示。

        表2 單獨(dú)使用韻律特征的情感識(shí)別混淆矩陣Table 2 Emotion recognition confusion matrix using prosodic features alone %

        整體平均識(shí)別率是58.6%,其中“憤怒”的識(shí)別率最低,僅達(dá)到51.8%.此外,單獨(dú)運(yùn)用韻律特征時(shí),“憤怒—高興”的混淆率、“憤怒—驚奇”的混淆率較高。實(shí)驗(yàn)數(shù)據(jù)顯示,“悲傷”的識(shí)別率最佳達(dá)到64.5%;這是由于在TYUT2.0數(shù)據(jù)庫(kù)中,“悲傷”情感語(yǔ)音的發(fā)音較為緩慢,并且停頓時(shí)間較長(zhǎng),因此語(yǔ)速特征能夠較好的識(shí)別“悲傷”情感。

        3.2 MFCC特征分類

        單獨(dú)運(yùn)用MFCC特征對(duì)情感語(yǔ)音進(jìn)行分類識(shí)別,混淆矩陣如表3所示。

        整體平均識(shí)別率是62.3%.通過實(shí)驗(yàn)可以看到單獨(dú)運(yùn)用MFCC特征,“憤怒”和“驚奇”的識(shí)別率得到了明顯提高,“憤怒”識(shí)別率提高了10.3%,“驚奇”識(shí)別率提高了10%.由此提出假設(shè),MFCC特征中是否包含著一些韻律特征所不包含的特征信息,如果將這2種特征組合是否能提高分類識(shí)別率。

        表3 單獨(dú)使用MFCC特征的情感識(shí)別混淆矩陣Table 3 Emotion recognition confusion matrix using MFCC features alone %

        3.3 MFCC和韻律特征組合特征集分類

        將MFCC和韻律特征組合進(jìn)行分類識(shí)別,混淆矩陣如表4所示。整體平均識(shí)別率達(dá)到67.5%.相較于單獨(dú)運(yùn)用韻律特征和MFCC特征,識(shí)別率有一定程度的提高。

        表4 運(yùn)用韻律特征和MFCC特征組合的情感識(shí)別混淆矩陣Table 4 Using prosodic feature and MFCC feature combinationof emotion recognition confusion matrix %

        由以上3組實(shí)驗(yàn)可以看出由韻律特征和MFCC特征組合的分類識(shí)別率相比之下最好,分析原因是兩種特征的組合減弱了由于單一特征無(wú)法全面描述情感信息而導(dǎo)致的識(shí)別率低的缺點(diǎn),在情感識(shí)別應(yīng)用中具有互補(bǔ)性,因此可以在一定程度上提升分類識(shí)別結(jié)果。韻律特征和MFCC特征的組合特征是后續(xù)級(jí)聯(lián)分類實(shí)驗(yàn)的特征基礎(chǔ)。

        3.4 級(jí)聯(lián)分類

        之前的分類識(shí)別方法僅僅是將聲學(xué)特征簡(jiǎn)單地組合在一起,并沒有考慮到哪種類型特征能更好的對(duì)情感進(jìn)行分類識(shí)別,文獻(xiàn)[7]中標(biāo)注實(shí)驗(yàn)得出的4類情感語(yǔ)音的PAD數(shù)據(jù)如表5所示,可以看出在P(愉悅度)上分?jǐn)?shù)呈現(xiàn)明顯的高低差異,且在此維度上能夠很好的區(qū)分“憤怒—高興”和“憤怒—驚奇”這兩組混淆率較高的情感。據(jù)此將“悲傷”和“憤怒”2

        表5 4種情感的PAD值Table 5 PAD value of four types emotion

        種情感標(biāo)記成“低”,“高興”和“驚奇”2種情感標(biāo)記成“高”。

        圖2是級(jí)聯(lián)分類流程圖,將分類過程分為2個(gè)步驟。在第一階段中將“悲傷”、“憤怒”、“高興”、“驚奇”4種情感按照表5的高低分?jǐn)?shù)標(biāo)注分為兩類:一類為“悲傷”、“憤怒”,這2種情感具有較低的愉悅度;另一類為“高興”、“驚奇”,這兩種情感具有較高的愉悅度。將聲學(xué)特征組合與愉悅度情感維度的高低分類相結(jié)合,利用SVM分類器Ⅰ來區(qū)分高愉悅度情感和低愉悅度情感,如表6混淆矩陣所示,分類識(shí)別率達(dá)到了97.5%.

        圖2 級(jí)聯(lián)分類流程圖Fig.2 Cascading classification flowchart

        第二階段是在第一階段的基礎(chǔ)上,對(duì)于已經(jīng)分類的高低不同的愉悅度的情感語(yǔ)音進(jìn)一步分類識(shí)別。同樣運(yùn)用SVM分類器Ⅱ來區(qū)分高愉悅度情感中的“高興”、“驚奇”,而SVM分類器Ⅲ來區(qū)分低愉悅度情感中的“悲傷”、“憤怒”。每一步的分類器都使用一個(gè)二進(jìn)制SVM分類。表7和表8分別顯示了第二步的分類識(shí)別結(jié)果。

        表6 高低愉悅度情感分類識(shí)別結(jié)果混淆矩陣Table 6 High and low pleasure emotion classification recognition result confusion matrix %

        表7 低愉悅度情感分類識(shí)別結(jié)果混淆矩陣Table 7 Low pleasure emotion classification recognition result confusion matrix %

        表8 高愉悅度情感分類識(shí)別結(jié)果混淆矩陣Table 8 High pleasure emotion classification recognition result confusion matrix %

        通過將圖2兩個(gè)步驟組合起來,得到總體分類識(shí)別率的混淆矩陣如表9所示,平均分類識(shí)別率達(dá)到82.9%.可以看出本文提出的級(jí)聯(lián)分類方法無(wú)論在4種情感的識(shí)別率還是平均識(shí)別率都有很大程度的提高,尤其是在情感“高興”、“憤怒”中的表現(xiàn)尤為突出,級(jí)聯(lián)分類識(shí)別率相較于運(yùn)用韻律特征和MFCC特征組合的分類識(shí)別率得到了明顯提高,識(shí)別率提高了15.4%.

        表9 級(jí)聯(lián)分類識(shí)別結(jié)果混淆矩陣Table 9 Cascading classification recognition results confusion matrix %

        圖3 識(shí)別結(jié)果對(duì)比圖Fig.3 Recognition result contrast diagram

        圖3直觀地展示了僅用傳統(tǒng)的聲學(xué)特征和本文提出的將聲學(xué)特征與情感語(yǔ)音PAD數(shù)據(jù)相結(jié)合的級(jí)聯(lián)分類方法識(shí)別率對(duì)比結(jié)果。由圖3可以明顯看出,通過將聲學(xué)特征與情感語(yǔ)音PAD數(shù)據(jù)相結(jié)合的級(jí)聯(lián)分類方法,各類情感的識(shí)別率均有提高,尤其對(duì)于“高興”情感來說,識(shí)別率提高了26.3%.

        4 結(jié)論

        針對(duì)運(yùn)用聲學(xué)特征(韻律特征和MFCC特征)對(duì)情感語(yǔ)音的分類識(shí)別性能不理想的問題,提出了將聲學(xué)特征與情感語(yǔ)音PAD數(shù)據(jù)相結(jié)合的級(jí)聯(lián)分類方法。從三維空間情感模型出發(fā),將聲學(xué)特征和PAD三維情感模型中對(duì)情感區(qū)分度最強(qiáng)的愉悅度相結(jié)合,通過SVM分類識(shí)別網(wǎng)絡(luò),在每一步的識(shí)別中逐漸減少樣本數(shù)目,使得后一個(gè)分類器總比前一個(gè)分類器有更精確的分類。整體識(shí)別率提高了15.4%;尤其對(duì)于“高興”情感來說,識(shí)別率提高了26.3%,可達(dá)94.7%;其他情感的識(shí)別率也大幅提高。以上分析結(jié)果表明,本文提出的級(jí)聯(lián)分類的方法與傳統(tǒng)的情感語(yǔ)音識(shí)別方法相比有明顯的優(yōu)勢(shì),為語(yǔ)音情感識(shí)別提供了一種可靠可行的方法。但通過實(shí)驗(yàn)結(jié)果可以看出,最終結(jié)果中的一些情感的混淆率仍然很大。因此在今后的研究工作中,需要進(jìn)一步探究語(yǔ)音的情感特征與PAD三個(gè)維度的相關(guān)性,提取相關(guān)性高的情感特征,更有針對(duì)性地減少混淆率,從而有效提高情感識(shí)別率。

        猜你喜歡
        分類數(shù)據(jù)庫(kù)特征
        分類算一算
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        久久婷婷国产综合精品| 97碰碰碰人妻视频无码| 久久夜色精品国产三级| 精品亚洲国产成人av色哟哟| 国产成+人欧美+综合在线观看| 亚洲中文无码成人影院在线播放| 久久久久久人妻一区精品| 蜜桃精品视频一二三区| 国产太嫩了在线观看| 比比资源先锋影音网| 久久久久波多野结衣高潮| 麻豆国产高清精品国在线| 男女在线免费视频网站| 国模91九色精品二三四| 国产无遮挡又爽又刺激的视频老师 | 国产在线观看www污污污| 国产亚洲第一精品| 国产精品一区二区蜜臀av| www夜片内射视频在观看视频| 日本边添边摸边做边爱的网站| 精品国产亚洲一区二区三区演员表 | 欧美成人a在线网站| 中文字幕色婷婷在线视频| 狠狠色噜噜狠狠狠狠97首创麻豆| 50岁熟妇的呻吟声对白| 亚洲福利天堂网福利在线观看| 国产一区二区三区中出| 亚洲av国产av综合av卡| 无码人妻一区二区三区免费n鬼沢 人禽无码视频在线观看 | 亚洲国产av一区二区三区精品| 风韵多水的老熟妇| 亚洲AV无码国产成人久久强迫| 91热久久免费频精品99| 亚洲成a人v欧美综合天堂| 亚洲综合av在线在线播放| 激情综合网缴情五月天| 亚洲毛片在线免费视频| 4hu四虎永久在线观看| 精品少妇爆乳无码aⅴ区| 日本a级片一区二区三区| 青青草国产精品一区二区|