亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN的時頻域語音情感識別的分析與對比

        2021-11-16 05:06:00段俊毅趙建峰
        關(guān)鍵詞:深度利用特征

        段俊毅, 趙建峰

        (1.中國鐵塔內(nèi)蒙古分公司,內(nèi)蒙古 呼和浩特 010021; 2.北京航空航天大學(xué) 杭州創(chuàng)新研究院,浙江 杭州 310000)

        情感是一種特殊、強(qiáng)烈的心理活動,可通過多種行為、動作向外表現(xiàn),如面部表情、語言、肢體動作等[1]。語音情感識別是情感識別研究的一個基本問題。語音信號包含的信息主要有語言信息和副語言信息,語言信息指話語的語境或意義,副語言信息指語音中的情感等隱含信息[2]。為了辨析個體的真實情感狀態(tài),可從語音信號中提取合適的副語言特征,進(jìn)行語音情感識別。

        利用深度網(wǎng)絡(luò),從語音信號中提取深度情感特征,可形成語音情感特征的層次化表征。通過深度網(wǎng)絡(luò),對信號進(jìn)行特征學(xué)習(xí)及抽象建模,極大變革了語音信號處理領(lǐng)域,從而提升中國鐵塔10096客戶服務(wù)質(zhì)量。這些學(xué)習(xí)到的深度特征一般由多種線性和非線性變換組成,形成原始數(shù)據(jù)的層次化抽象,在實驗中的表現(xiàn)明顯優(yōu)于手工特征。

        傳統(tǒng)語音情感特征是典型的低級特征,將其輸入到深度網(wǎng)絡(luò)提取高級情感特征,不僅可識別語音情感,也可簡化深度網(wǎng)絡(luò)的設(shè)計和訓(xùn)練。本文提出利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)從MFCCs和LFCCs中提取情感特征,實現(xiàn)對情感信息的高級抽象建模。同時設(shè)計了一維CNN從語音片段中提取特征,并進(jìn)行語音情感識別。實驗表明,從手工特征中學(xué)習(xí)深度特征的方法不僅可以獲得更高的識別精度,還可通過簡化網(wǎng)絡(luò)構(gòu)建而減少網(wǎng)絡(luò)參數(shù)。

        1 相關(guān)研究

        在傳統(tǒng)語音情感識別領(lǐng)域,Milton等[3]在提取MFCCs特征后,使用三階段支持向量機(jī)分類器實現(xiàn)了情感分類。Waghmare等[4]利用MFCCs對馬拉松語音數(shù)據(jù)集的語音情感進(jìn)行了分析和識別。Demircan等[5]從EmoDB數(shù)據(jù)集的語音片段中提取MFCCs后,使用,k-NN算法對語音情感進(jìn)行分類。Nalini等[6]利用殘差相位和MFCCs特征,結(jié)合自聯(lián)想神經(jīng)網(wǎng)絡(luò)(AANN),開發(fā)了一種語音情感識別系統(tǒng)。Chen等[7]利用隱馬爾可夫模型(HMM)和支持向量機(jī)(SVM)對LFCCs、MFCCs等語音特征進(jìn)行分類。Nalini等[8]將MFCC和殘余相位(RP)特征分別用于AANN、SVM、RBFNN的音樂情感識別。

        DBNs深度網(wǎng)絡(luò)提出后[9],Stuhlsatz等[10]引入了由多個RBMs疊加的DNNs進(jìn)行語音情感識別,效果顯著改善。Schmidt等[11]采用了基于回歸的深度置信網(wǎng)絡(luò)音樂情感。Duc Le等[12]提出的基于隱馬爾可夫模型和深度置信網(wǎng)絡(luò)的混合分類器,在FAU Aibo上取得了較好結(jié)果。Han等[13]提出利用深度神經(jīng)網(wǎng)絡(luò)從原始數(shù)據(jù)中提取高級特征,實現(xiàn)了情感識別。Huang等[14]引入了CNN來學(xué)習(xí)語音情感特征,然后輸入線性SVM進(jìn)行語音情感識別。Zheng等[15]構(gòu)建的CNN實現(xiàn)了標(biāo)注語音數(shù)據(jù)的情感識別。

        相對于這些研究,本文試圖將傳統(tǒng)語音情感識別研究和深度網(wǎng)絡(luò)結(jié)合,即從傳統(tǒng)語言情感特征MFCCs和LFCCs中提取層次化特征用于語音情感識別。

        2 實驗

        語音情感識別是根據(jù)語音情感特征的不同對語音信號進(jìn)行分類的一個過程。本文通過訓(xùn)練設(shè)計好的深度網(wǎng)絡(luò)學(xué)習(xí)語音數(shù)據(jù)中的情感特征,來完成特征提取及模型構(gòu)建。

        2.1 數(shù)據(jù)預(yù)處理

        設(shè)計了一維CNN從原始語音信號中提取情感特征,二維CNN從低級手工特征中學(xué)習(xí)高級情感特征。

        2.1.1 數(shù)據(jù)集介紹 利用EmoDB和SAVEE兩個典型的語音情感數(shù)據(jù)集,評估實驗?zāi)P偷淖R別精度和泛化能力。

        (1) EmoDB數(shù)據(jù)集。柏林語音情感數(shù)據(jù)集(Berlin database of emotional speech,Berlin EmoDB)于2005年發(fā)布,提供有標(biāo)簽的語音片段和一些分析結(jié)果。數(shù)據(jù)集中的535個句子來自日常交流,可以用各種情感表達(dá)。這些語句分別由10名專業(yè)演員分別以憤怒、無聊、厭惡、恐懼、快樂、中性和悲傷等7種情感表達(dá),且進(jìn)行了情感的可識別性及自然度評估[16]。

        (2) SAVEE數(shù)據(jù)集。視聽情感表達(dá)數(shù)據(jù)集(surrey audio-visual expressed emotion database,SAVEE)于2011年發(fā)布,提供視聽數(shù)據(jù)和分析數(shù)據(jù)。該數(shù)據(jù)集中的480個英語語句,由4位英國男演員以憤怒、厭惡、恐懼、快樂、悲傷、驚奇和中性等7種情感表達(dá)。數(shù)據(jù)集在視覺媒體實驗室中記錄、處理和標(biāo)記,并由10名測試者進(jìn)行了評估[17]。

        2.1.2 MFCCs和LFCCs 本文實驗數(shù)據(jù)為: 原始語音片段; 語音片段的MFCCs; 語音片段的LFCCs。為減少輸入數(shù)據(jù)量并確保語音片段具有相同的采樣率,實驗時所有語音片段的采樣率都被轉(zhuǎn)換為16 kHz。然后對語音片段進(jìn)行了零均值歸一化和零值填充等預(yù)處理:零均值歸一化用于將音頻剪輯和頻譜的總音量更改固定量以達(dá)到目標(biāo)水平; 然后將音頻片段長度剪輯為8 s,長度小于8 s的片段用零值填充。采用圖1所示的流程,從處理完的語音信號中提取MFCCs和LFCCs。

        圖1 MFCCs和LFCCs的生成過程Fig.1 The generation process of MFCCs and LFCCs

        (1) 梅爾頻率倒譜系數(shù)(MFCCs)。梅爾頻率倒譜系數(shù)是一種低級特征,可構(gòu)成梅爾頻譜(Mel-frequency cepstrum,MFC)。通過對幀序列應(yīng)用離散傅里葉變換(DFT)提取聲譜特征(見圖1(a)),之后便可將功率譜轉(zhuǎn)換為梅爾頻譜。

        (2) 線性倒譜系數(shù)(LFCCs)。LFCC與MFCC的生成過程相似,只是濾波器組的間距不同(見圖1(b))。在進(jìn)行DFT變換后,利用線性濾波器對功率系數(shù)進(jìn)行濾波可得到LFCC,而利用梅爾濾波器對功率系數(shù)進(jìn)行濾波可得到MFCC。

        雖然倒譜系數(shù)的一階和二階導(dǎo)數(shù)的能量特征和delta特征可提供更多的信息,但增加的數(shù)據(jù)量會消耗更多的網(wǎng)絡(luò)訓(xùn)練時間。因此本文各提取19個MFCCs和LFCCs用于實驗。

        2.2 1D和2D CNNs

        卷積運算通過模擬視覺系統(tǒng)的行為,以獲取更多的高級特征[18]。卷積神經(jīng)網(wǎng)絡(luò)(CNNs)利用空間-局部連接和共享權(quán)值等特性[19],實現(xiàn)傳統(tǒng)算法中特征提取器的功能。與其他深度網(wǎng)絡(luò)相比,CNNs輸入的預(yù)處理相對較少,在圖像處理、目標(biāo)分類、目標(biāo)檢測等領(lǐng)域得到了廣泛應(yīng)用。

        2.2.1 CNN架構(gòu)設(shè)計 實驗中使用的語音片段為一維數(shù)據(jù),MFCCs和LFCCs為二維數(shù)據(jù)。因此,本文使用一維和二維卷積層、池化層等分別構(gòu)造了一維CNN和二維CNN,用于一維聲學(xué)數(shù)據(jù)和二維手工特征的處理。

        設(shè)計的一維和二維CNN具有相似的架構(gòu)(圖2和圖3),并采用相同的方法來選擇網(wǎng)絡(luò)超參數(shù)。其中一維CNN有6個一維卷積層、6個一維最大池化層和2個全連接層; 二維CNN有3個二維卷積層,2個二維最大池化層和2個全連接層。這兩個網(wǎng)絡(luò)都采用Softmax分類器對學(xué)習(xí)到的特征進(jìn)行分類。從圖2和圖3中可以看出,二維CNN的架構(gòu)比一維CNN的架構(gòu)更簡單,層數(shù)更少,則網(wǎng)絡(luò)參數(shù)更少??梢姸SCNN的訓(xùn)練更容易,消耗的時間更少。

        圖2 一維卷積神經(jīng)網(wǎng)絡(luò)Fig.2 One-dimensional convolutional neural network

        圖3 二維卷積神經(jīng)網(wǎng)絡(luò)Fig.3 Two-dimensional convolutional neural network

        在深度網(wǎng)絡(luò)的迭代訓(xùn)練過程中,防止過擬合和超參優(yōu)化是獲得較優(yōu)模型的基礎(chǔ)。為了克服過擬合,本文使用了權(quán)重衰減、中途退出、提前停止等[20-22]正則化方法。在網(wǎng)絡(luò)訓(xùn)練過程中,深度網(wǎng)絡(luò)超參數(shù)的選擇對試驗結(jié)果有較大的影響。相對于網(wǎng)格搜索和隨機(jī)搜索等網(wǎng)絡(luò)超參選擇方法,貝葉斯優(yōu)化在實驗中的效果更好[23]。為了優(yōu)化目標(biāo)網(wǎng)絡(luò)在獨立數(shù)據(jù)集的性能,本文采用了貝葉斯優(yōu)化方法。

        2.2.2 實驗結(jié)果 對選定數(shù)據(jù)集進(jìn)行多組實驗,每組實驗分為三部分。第一部分的輸入為原始波形文件,第二部分的輸入為MFCCs,第三部分的輸入為LFCCs。第一部分實驗中,利用一維CNN從原始語音片段中學(xué)習(xí)深度情感特征; 接著利用二維CNN從MFCCs和LFCCs中學(xué)習(xí)層次化情感特征。

        為了評估CNN的泛化程度,本文使用了包括中性情感在內(nèi)的所有情感類別的語音片段進(jìn)行實驗。每一部分實驗中的實驗數(shù)據(jù)隨機(jī)分為兩組,一組是訓(xùn)練集,占整個數(shù)據(jù)集的80%; 另一組是測試集,由剩下的20%數(shù)據(jù)組成。所有實驗是在GTX 970 GPU(4 GB顯存)上完成。

        (1) EmoDB數(shù)據(jù)集實驗結(jié)果。EmoDB數(shù)據(jù)集中的535個語音片段,以及用這些數(shù)據(jù)計算出的MFCCs和LFCCs分別用于實驗的三個部分。實驗的混淆矩陣見表1至表3。

        由表1至表3可知,這三部分實驗的情感識別準(zhǔn)確率均超過90%。其中利用MFCCs和LFCCs進(jìn)行情感識別的準(zhǔn)確率均大于利用語音片段進(jìn)行情感識別的準(zhǔn)確率,利用LFCCs進(jìn)行情感識別的準(zhǔn)確率最高。

        音頻片段的深層架構(gòu)訓(xùn)練時長為10 min 45 s,MFCC的深層架構(gòu)訓(xùn)練時長為5 min 21 s,LFCC的深層架構(gòu)訓(xùn)練時長為11 min 6 s。

        表1 EmoDB數(shù)據(jù)集中語音片段實驗的混淆矩陣Tab.1 Confusion matrix for audio clips of Berlin EmoDB

        表2 EmoDB數(shù)據(jù)集中MFCCs實驗的混淆矩陣Tab.2 Confusion matrix for MFCCs of Berlin EmoDB

        表3 EmoDB數(shù)據(jù)集中LFCCs實驗的混淆矩陣Tab.3 Confusion matrix for LFCCs of Berlin EmoDB

        (2) 基于SAVEE數(shù)據(jù)集的實驗結(jié)果。與EmoDB數(shù)據(jù)集相比,SAVEE數(shù)據(jù)集為驚奇情感。實驗數(shù)據(jù)與EmoDB數(shù)據(jù)集一樣,混淆矩陣見表4至表6。同樣,利用MFCCs和LFCCs進(jìn)行情感識別的準(zhǔn)確率都高于利用語音片段進(jìn)行情感識別的準(zhǔn)確率。

        2.2.3 結(jié)果比較 將表1至表6中的識別率進(jìn)行比較,結(jié)果見表7。從表7可以看出,利用MFCCs和LFCCs 進(jìn)行情感識別的精度都高于利用原始語音片段進(jìn)行情感識別的精度。而利用MFCCs和LFCCs進(jìn)行情感識別的識別率比較接近。在EmoDB數(shù)據(jù)集上進(jìn)行的實驗,利用LFCCs進(jìn)行情感識別的準(zhǔn)確率要高于利用MFCCs進(jìn)行情感識別的準(zhǔn)確率。而在SAVEE數(shù)據(jù)集上進(jìn)行的實驗,利用MFCCs和LFCCs取得的實驗結(jié)果正相反。

        表4 SAVEE數(shù)據(jù)集中語音片段實驗的混淆矩陣Tab.4 Confusion matrix for audio clips of SAVEE dataset

        表5 SAVEE數(shù)據(jù)集中MFCCs實驗的混淆矩陣Tab.5 Confusion matrix for MFCCs of SAVEE dataset

        表6 SAVEE數(shù)據(jù)集中LFCCs實驗的混淆矩陣Tab.6 Confusion matrix for LFCCs of SAVEE dataset

        表7 不同輸入的識別精度比較Tab.7 Comparison of recognition accuracy between different inputs %

        將本文的實驗結(jié)果與其他算法的實驗結(jié)果比較可知二維CNN具有較大的優(yōu)勢(表8)。本文提出的二維CNN在MFCCs與LFCCs的實驗結(jié)果均好于一維CNN在語音片段的實驗結(jié)果,即二維CNN可學(xué)習(xí)區(qū)分度較大的層次化語音情感特征,可有效識別語音情感,為語音情感的判別和檢測提供有力的技術(shù)支撐。

        表8 二維CNN在EmoDB數(shù)據(jù)集和SAVEE數(shù)據(jù)集與其他算法的識別精度比較

        3 結(jié)論

        通過設(shè)計兩個深度CNN分別從原始語音片段、MFCCs和LFCCs中學(xué)習(xí)高級特征并進(jìn)行情感識別。實驗結(jié)果表明,該方法對情感信息進(jìn)行高級抽象建模后,可有效識別語音情感。從以上實驗結(jié)果可知:

        (1) 一維和二維CNN可從原始語音片段和低級特征中學(xué)習(xí)到區(qū)分度較大的情感特征,在選定數(shù)據(jù)集上的識別精度超過了傳統(tǒng)識別精度;

        (2) 從手工特征中學(xué)習(xí)高級情感特征的方法,不僅可達(dá)到較高的情感識別率,還可簡化深度網(wǎng)絡(luò)構(gòu)建以減少網(wǎng)絡(luò)參數(shù),進(jìn)而減少訓(xùn)練時間。

        因此,將二維CNN運用于個體的情感狀態(tài)檢測,可有效鑒別語音情感。將其應(yīng)用于客服異常情感的實時鑒別,并對其服務(wù)態(tài)度進(jìn)行評估,可有效提升客服服務(wù)質(zhì)量。后續(xù)引入10096人機(jī)交互系統(tǒng)中,使企業(yè)業(yè)務(wù)運營更精準(zhǔn)地服務(wù)客戶成為可能。

        但在揭示卷積神經(jīng)網(wǎng)絡(luò)或其他深度網(wǎng)絡(luò)提取層次化特征的機(jī)制、二維CNN從MFCCs和LFCCs中學(xué)習(xí)到的高級特征可獲得很高的識別精度及這兩種深度特征的相似程度判別研究、設(shè)計一種可替代CNN從MFCCs或LFCCs中學(xué)習(xí)層次化特征的算法等方面仍有待進(jìn)一步探討和研究。

        猜你喜歡
        深度利用特征
        利用min{a,b}的積分表示解決一類絕對值不等式
        深度理解一元一次方程
        利用一半進(jìn)行移多補(bǔ)少
        如何表達(dá)“特征”
        不忠誠的四個特征
        深度觀察
        深度觀察
        利用數(shù)的分解來思考
        Roommate is necessary when far away from home
        深度觀察
        成人偷拍自拍视频在线观看| 在线观看av国产自拍| 久久精品国产亚洲片| 亚洲性啪啪无码AV天堂| 成人午夜视频在线观看高清| 日本精品一区二区三区在线观看| 中文无码伦av中文字幕| 天堂网在线最新版www中文网| 国产精品久久久久久久y| 亚洲性日韩一区二区三区| 亚洲国产一二三精品无码 | 日本亚洲精品一区二区三| 亚洲av无码一区二区乱孑伦as| 日本欧美国产精品| 精品亚亚洲成av人片在线观看| 亚洲精品国产精品乱码视色| 777亚洲精品乱码久久久久久| 欧美日韩亚洲国产千人斩| 最近中文字幕一区二区三区| 国产av自拍视频在线观看| 国产丝袜在线精品丝袜| 久久频这里精品99香蕉| 国产午夜激情视频在线看| 成 人色 网 站 欧美大片在线观看 | 国产莉萝无码av在线播放| 成人欧美在线视频| 色婷婷一区二区三区四| 成人日韩熟女高清视频一区| 中文字幕无码不卡一区二区三区| 日韩精品永久免费播放平台| 亚洲中文字幕精品久久a| 无码va在线观看| 日韩成人免费一级毛片| 在线亚洲精品一区二区三区| 大肉大捧一进一出好爽视频动漫| 97久久天天综合色天天综合色hd | 日韩男女av中文字幕| 日本三级吃奶头添泬| 超碰97人人做人人爱少妇| 久久久久无码中文字幕| 一区二区三区激情免费视频|