亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的語(yǔ)音情感識(shí)別方法研究*

2023-01-10 04:42:12趙鑫

山西電子技術(shù) 2022年6期

趙鑫

(山西鐵道職業(yè)技術(shù)學(xué)院，山西太原030013)

0 引言

語(yǔ)言作為人類(lèi)溝通交流的工具，其聲學(xué)信息和語(yǔ)言特性中都蘊(yùn)含著大量的可挖掘情感信息。語(yǔ)音情感識(shí)別在諸多領(lǐng)域，特別是在心理疏導(dǎo)、抑郁癥、孤獨(dú)癥等疾病的治療，安全，教育等領(lǐng)域中都起到了極大的作用[1]。如何提高對(duì)語(yǔ)音情感的有效識(shí)別，使人機(jī)交互能更好的為人類(lèi)服務(wù)，也成為語(yǔ)音識(shí)別領(lǐng)域新的研究方向。

隨著語(yǔ)音情感識(shí)別研究的逐漸深入，語(yǔ)音情感識(shí)別也從傳統(tǒng)的機(jī)器學(xué)習(xí)向深度神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)變。近年來(lái)，已有一些學(xué)者利用人工智能、機(jī)器學(xué)習(xí)的方法，在語(yǔ)音情感的處理與分析領(lǐng)域做了一定研究。其中王宇鵬等人提出可以通過(guò)卷積循環(huán)神經(jīng)網(wǎng)絡(luò)提取語(yǔ)譜圖特征后與聲學(xué)特征進(jìn)行拼接識(shí)別，其識(shí)別率優(yōu)于單一特征[2]。陶建華等人用權(quán)重衰減型神經(jīng)網(wǎng)絡(luò)和分類(lèi)回歸樹(shù)的兩個(gè)模型，證明了情感韻律與特征之間存在有密切聯(lián)系[3]。高瑩瑩等人從情感的多視角出發(fā)，從不同的方面對(duì)語(yǔ)音中情感產(chǎn)生的過(guò)程和衍化進(jìn)行刻畫(huà)[4]。盡管通過(guò)深度學(xué)習(xí)來(lái)學(xué)習(xí)數(shù)據(jù)的高層抽象信息，已成功應(yīng)用于語(yǔ)音識(shí)別和圖像處理，但在語(yǔ)音情感識(shí)別方面還存在很大的研究空間。

1 方法介紹

本文提出一種極限學(xué)習(xí)機(jī)多層網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別方法，該方法通過(guò)對(duì)語(yǔ)音信號(hào)自編碼獲取高層情感特征，避免繁瑣的手動(dòng)提取特征的過(guò)程。訓(xùn)練過(guò)程中，利用語(yǔ)音情感隱含特征向量構(gòu)建特征空間，提取、選擇多個(gè)不同情緒的語(yǔ)音情感特征向量，用極限學(xué)習(xí)機(jī)深度自編碼網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)音情感特征，以此對(duì)語(yǔ)音情感起一定的分類(lèi)識(shí)別作用，如圖1所示。

圖1 語(yǔ)音情感識(shí)別過(guò)程圖

1.1 語(yǔ)音情感特征提取

現(xiàn)有研究表明，日常生活中，人與人之間的交流不僅傳遞信息，還會(huì)通過(guò)語(yǔ)氣和語(yǔ)調(diào)的變化表達(dá)自己的情感。語(yǔ)音的頻率特征和音質(zhì)特征都會(huì)發(fā)生一定的變化，其中所隱含的情感特征也不同。其中，頻率特征首要考慮基頻、均方根短時(shí)能量和過(guò)零率三個(gè)衡量指標(biāo)。音質(zhì)特征涉及諧波信噪比、對(duì)數(shù)頻率功率系數(shù)(Log Frequency Power Coefficients，簡(jiǎn)稱(chēng)LFPC)、Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient，簡(jiǎn)稱(chēng)MFCC)等。根據(jù)已有研究顯示，將對(duì)數(shù)頻率功率系數(shù)作為特征參數(shù)對(duì)5種基礎(chǔ)情感的識(shí)別率更高。因此，在本文方法模型的參數(shù)選擇上，設(shè)置并提取以1～12維LFPC系數(shù)、基頻等共16種短時(shí)特征為參數(shù)。同時(shí)，通過(guò)提取對(duì)長(zhǎng)語(yǔ)音進(jìn)行裁剪，提取其短時(shí)特征及其一階倒數(shù)完成情感特征統(tǒng)計(jì)量的構(gòu)建，其中包括最大值、最小值、均值等10種，共計(jì)320個(gè)語(yǔ)音情感特征量，并從中優(yōu)先選擇前10個(gè)最有價(jià)值的特征，如表1所示。

表1 語(yǔ)音情感特征量等級(jí)排列前10

1.2 極限學(xué)習(xí)機(jī)自編碼語(yǔ)音情感識(shí)別

本文提出采用多層特征提取的極限學(xué)習(xí)機(jī)深度自編碼算法，如圖2所示。與傳統(tǒng)貪心學(xué)習(xí)框架不同，本文的自編碼網(wǎng)絡(luò)訓(xùn)練分為兩個(gè)階段，前一階段采用基于多層極限學(xué)習(xí)機(jī)的自編碼來(lái)提取輸入數(shù)據(jù)的高層稀疏特征，第二階段則使用原始極限學(xué)習(xí)完成最終的分類(lèi)識(shí)別。

圖2 分層極限學(xué)習(xí)機(jī)算法框架

首先，先將提取的語(yǔ)音特征作為輸入數(shù)據(jù)轉(zhuǎn)換到ELM特征空間中，通過(guò)多層極限學(xué)習(xí)機(jī)自編碼網(wǎng)絡(luò)學(xué)習(xí)獲得高層稀疏特征。每個(gè)隱含層輸出的數(shù)學(xué)表達(dá)式為：

Hi=g(Hi-1·β)

(1)

其中，Hi是第i層的輸出(i∈[1,K])；g(·)表示隱含層激勵(lì)函數(shù)；β代表輸出權(quán)重。在數(shù)據(jù)特征進(jìn)行分層極限學(xué)習(xí)機(jī)訓(xùn)練之后，最后一層輸出的特征將作為原始ELM回歸分析的輸入。同時(shí)，為了加速學(xué)習(xí)速度，輸入之前要將第K層的輸出數(shù)據(jù)隨機(jī)打亂。

2 實(shí)驗(yàn)結(jié)果分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)采用的語(yǔ)音數(shù)據(jù)選自中國(guó)科學(xué)院自動(dòng)化研究中文語(yǔ)音情感數(shù)據(jù)庫(kù)，采用5折交叉驗(yàn)證方法，選取5類(lèi)基本情感進(jìn)行識(shí)別，共選取5000條語(yǔ)句，每種情感包含1000個(gè)短句，對(duì)于每種情感按3∶2隨機(jī)選取600條進(jìn)行訓(xùn)練，400條進(jìn)行測(cè)試。

2.2 極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)參數(shù)設(shè)置

在特征學(xué)習(xí)階段，需要指定自編碼的層數(shù)和隱含層的激勵(lì)函數(shù)。在實(shí)驗(yàn)過(guò)程中我們發(fā)現(xiàn)，提取的特征信息一開(kāi)始具有明顯的區(qū)分度，分類(lèi)準(zhǔn)確率會(huì)隨著層數(shù)的增多而提高。但隨著層數(shù)的進(jìn)一步增加，抽象特征信息使得分類(lèi)性能下降，分類(lèi)準(zhǔn)確率也會(huì)隨之下降，根據(jù)實(shí)驗(yàn)測(cè)試，我們將特征學(xué)習(xí)的層數(shù)設(shè)置為4，如圖3所示。

圖3 特征學(xué)習(xí)中層數(shù)對(duì)識(shí)別準(zhǔn)確率的影響

實(shí)驗(yàn)過(guò)程中，我們將不同類(lèi)型的核函數(shù)分別運(yùn)用到極限學(xué)習(xí)機(jī)深度網(wǎng)絡(luò)框架中，如圖4所示，不同類(lèi)型的核函數(shù)運(yùn)用到H-ELM中分類(lèi)效果不同，結(jié)果顯示非線性核函數(shù)比線性核函數(shù)能夠取得較好的分類(lèi)準(zhǔn)確率。最后選用高斯函數(shù)作為自動(dòng)編碼的核函數(shù)，保證整個(gè)框架能夠得到最好的結(jié)果。

圖4 不同類(lèi)型的核函數(shù)對(duì)識(shí)別準(zhǔn)確率的影響

在有監(jiān)督的特征分類(lèi)階段，與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法相比，分層學(xué)習(xí)機(jī)訓(xùn)練過(guò)程中只需指定兩個(gè)參數(shù)：用于計(jì)算最小均方誤差的參數(shù)C和隱含層神經(jīng)元的個(gè)數(shù)K。由圖5可知，隨著隱含層節(jié)點(diǎn)個(gè)數(shù)K的增加，合適的C會(huì)使得準(zhǔn)確率曲線更加平滑并且測(cè)試準(zhǔn)確率呈現(xiàn)上升趨勢(shì)，當(dāng)K值大于60時(shí)，曲線趨于水平。我們?cè)O(shè)置節(jié)點(diǎn)個(gè)數(shù)為90，最小均方誤差參數(shù)C為108。

圖5 參數(shù)C和K的取值和學(xué)習(xí)性能之間的關(guān)系

2.3 對(duì)不同語(yǔ)音情感特征的識(shí)別

通過(guò)對(duì)數(shù)據(jù)庫(kù)中選取的5種基本情緒狀態(tài)的情感語(yǔ)料信息的測(cè)試實(shí)驗(yàn)，分別計(jì)算出對(duì)5種不同情感的識(shí)別性能，如表2所示。

表2 對(duì)不同語(yǔ)音情感的識(shí)別率

2.4 不同方法實(shí)驗(yàn)分析

為更好的對(duì)本文算法識(shí)別準(zhǔn)確率進(jìn)行驗(yàn)證，我們使用相同的數(shù)據(jù)集將本文方法的實(shí)驗(yàn)結(jié)果和其他專(zhuān)家研究方法進(jìn)行測(cè)試比較，如圖6所示。

圖6

3 結(jié)論

如何構(gòu)建更有效的語(yǔ)音情感識(shí)別算法模型一直是語(yǔ)音情感識(shí)別領(lǐng)域的研究熱點(diǎn)。本文針對(duì)現(xiàn)有語(yǔ)音情感識(shí)別算法中的不足，提出一種將語(yǔ)音情感特征提取和深度自編碼網(wǎng)絡(luò)相結(jié)合的語(yǔ)音情感識(shí)別方法。先對(duì)語(yǔ)音中蘊(yùn)含的情感進(jìn)行特征提取與分析，同時(shí)使用深度極限學(xué)習(xí)機(jī)自編碼網(wǎng)絡(luò)對(duì)語(yǔ)音中潛在情感進(jìn)行特征學(xué)習(xí)，提高了對(duì)語(yǔ)音情感的識(shí)別率，為更好的實(shí)現(xiàn)人機(jī)交互提供幫助。