亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的可變長度語音片段情感識別

2021-11-12 17:18:49王振

散文百家 2021年3期

王振

河南林業(yè)職業(yè)學(xué)院

語音作為人類之間交流的主要傳播媒體，已經(jīng)引起研究者的廣泛關(guān)注。在日益普遍的人機(jī)交互系統(tǒng)中，情感識別起著重要的作用。語音包含豐富的情緒信息，如何從語音信號中提取這些信息，對于自動(dòng)語音情感識別具有重要意義。

聲學(xué)特征作為語音情感識別的重要組成部分，對其提取引起了很多研究興趣。這些研究都致力于設(shè)計(jì)一些手勢特征，對于情感識別來說這些特征是最有特色的。最近，機(jī)器學(xué)習(xí)社區(qū)直接從原始未處理數(shù)據(jù)中推導(dǎo)出輸入信號，背后的原因是網(wǎng)絡(luò)可以對原始輸入信號的中間表示自動(dòng)學(xué)習(xí)，因此可以提高性能。因此，我們通過專門設(shè)計(jì)的可直接從輸入語音頻譜圖中導(dǎo)出情緒類別的可變長度深度神經(jīng)網(wǎng)絡(luò)構(gòu)建情緒識別系統(tǒng)。

頻譜圖是信號的時(shí)頻分解。在我們的工作中，卷積神經(jīng)網(wǎng)絡(luò)首先被構(gòu)造為空間譜圖模式，它有效地學(xué)習(xí)代表情緒信息，然后使用遞歸神經(jīng)網(wǎng)絡(luò)來模擬句子上的時(shí)間結(jié)構(gòu)，它由譜圖表示，最后由全連接層導(dǎo)出情緒類別。

這類似于以前的Satt的工作。然而，與將語音輸入分成較小的固定長度的段相比，我們這里的神經(jīng)網(wǎng)絡(luò)能夠處理可變長度語音段，這是它的優(yōu)點(diǎn)，它可以解決在語音分割過程中引起的精度損失。

一、相關(guān)工作

近年來，深度學(xué)習(xí)方法已經(jīng)應(yīng)用到語音處理領(lǐng)域，用于特征提取與分類/回歸。在語音識別中，直接使用語音波形的自動(dòng)語音識別特征的是Hinton和Jaitly。他們通過直接在語音時(shí)間信號上訓(xùn)練受限玻爾茲曼機(jī)器來學(xué)習(xí)中間表示，沒有以端到端的方式對系統(tǒng)進(jìn)行訓(xùn)練。Bhargava和Rose使用疊加的瓶頸深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練窗口化語音波形，在相同體系結(jié)構(gòu)上獲得的結(jié)果比相應(yīng)的MFCC略差。

在語音情感識別領(lǐng)域，已經(jīng)使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行了一些特征學(xué)習(xí)的研究。喬治等人提出了一個(gè)卷積循環(huán)神經(jīng)網(wǎng)絡(luò)，其對原始信號進(jìn)行操作，在語音數(shù)據(jù)中執(zhí)行端到端的情緒預(yù)測任務(wù)。Satt等人將CNN和LSTM結(jié)合，分類線性間隔頻譜圖中的情緒。然而，這些方法都是將語音輸入分為較小的固定長度的部分，這會在訓(xùn)練和預(yù)測階段損失準(zhǔn)確性，我們使用可變長度的神經(jīng)網(wǎng)絡(luò)的方法來解決這個(gè)問題。

二、可變長度深度神經(jīng)網(wǎng)絡(luò)的情感識別

1.定長方法的問題。

每個(gè)長于3秒的句子被Satt等人分割成長度相等的短子句，在提取光譜圖后，將不夠3秒的部分用零填充到3秒。在整個(gè)提議的系統(tǒng)中，這些較短的子句都用于訓(xùn)練和測試階段，每個(gè)子句被分配相應(yīng)的整個(gè)句子的情感標(biāo)簽。在測試短語期間，整個(gè)句子的情感類別的預(yù)測通過平均各個(gè)子句的后驗(yàn)概率來實(shí)現(xiàn)。雖然這種方法可以減少構(gòu)建神經(jīng)網(wǎng)絡(luò)的難度（確保輸入長度相等），但會引入一些錯(cuò)誤。實(shí)際上，為每個(gè)子句分配相應(yīng)整句的情感標(biāo)簽并不是一個(gè)好的處理方法。觀察表明，只有一部分語音在非中性情緒句子中包含明顯的非中性情緒信息。

2.可變長度深度神經(jīng)網(wǎng)絡(luò)。

以上問題表明，使用整句作為輸入比分成幾段更合理。但是句子的長度一般是不同的，所以我們的研究旨在設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)來處理可變長度的輸入序列。

眾所周知，卷積神經(jīng)網(wǎng)絡(luò)可以被認(rèn)為是一種使用同一神經(jīng)元的許多相同拷貝的神經(jīng)網(wǎng)絡(luò)。這可以使網(wǎng)絡(luò)擁有大量的神經(jīng)元并表達(dá)計(jì)算量大的模型，同時(shí)保持實(shí)際參數(shù)的數(shù)量描述神經(jīng)元行為的值需要被學(xué)習(xí)得相當(dāng)小。

遞歸神經(jīng)網(wǎng)絡(luò)是流行的模型，在許多序列建模任務(wù)中顯示出很大的希望。它們對序列的每個(gè)元素執(zhí)行相同的任務(wù)，輸出依賴于以前的計(jì)算。為了計(jì)算效率，輸入序列通常是固定長度的?？勺冮L度序列通常被填充到相同的長度，但是我們可以忽略無效填充時(shí)間步的輸出，以便可以正確處理可變長度的序列。

三、提出的方法

可變長度深度神經(jīng)網(wǎng)絡(luò)的輸入是全句子的譜圖，輸出是句子情感類別的分類結(jié)果。為了比較，我們使用與Satt使用的相似的頻譜圖提取設(shè)置神經(jīng)網(wǎng)絡(luò)。

1.頻譜圖的提取。

每個(gè)句子都標(biāo)有一種情感，采用一系列重疊的漢明窗口，幀步長為10毫秒，幀長度為40毫秒。對于每一幀，我們計(jì)算一個(gè)長度為1600的DFT（對于10Hz的網(wǎng)格分辨率）。我們使用0-4KHz的頻率范圍，忽略其余部分。在短時(shí)間譜聚合之后，我們得到一個(gè)大小為N×M的矩陣，其中N對于不同的句子是可變的，代表所選擇的時(shí)間網(wǎng)格分辨率，并且M=400等于所選擇的頻率網(wǎng)格分辨率。然后將DFT數(shù)據(jù)轉(zhuǎn)換為對數(shù)功率譜，然后使用訓(xùn)練數(shù)據(jù)集的平均值和標(biāo)準(zhǔn)差對z歸一化進(jìn)行歸一化。

2.深度神經(jīng)網(wǎng)絡(luò)。

在我們的工作中，輸入序列在訓(xùn)練階段在同一批次中被填充到相同長度且為零，但不同批次之間的長度不同。預(yù)測階段不使用填充，所以我們的神經(jīng)網(wǎng)絡(luò)需要具備避免填充值對輸出干擾的能力。令S=[x1，x2，...，xV，...，xT]為輸入序列，其中S1=[x1，x2，...，xV]為有效部分，S2=[xV+1，xV+2，...，xT]是填充部分。

首先，對于卷積神經(jīng)網(wǎng)絡(luò)，我們可以使用掩碼來保留來自S1的輸出并忽略來自S2的輸出，其可以表示如下：

Sconv=Conv（S）·Mask（S）（1）

其中Conv（S）是S的卷積層的輸出，Mask（S）是一個(gè)掩蔽矩陣，Sconv=[y1，y2，...，yV，...，yT]是與S相同長度的輸出序列，其中[y1，y2，...，yV]是掩碼矩陣有效部分的值，[yV+1，...，yT]是填充部分的零值。有效輸出可以通過Conv（S）和Mask（S）之間的元素乘法實(shí)現(xiàn)。此外，卷積層通常與匯集層交織在一起。我們需要注意有效部分和填充部分之間的邊界值，這會引入無效信息。例如，假設(shè)Sconv是最大池化層的輸入。如果池化內(nèi)核大小為2，并且輸入路徑包含yV和yV+1，則當(dāng)yV<0且yV+1=0時(shí)，輸出將為yV+1。但預(yù)期值應(yīng)為yV，因?yàn)閥V+1是填充值。在我們的實(shí)驗(yàn)中，這個(gè)問題會導(dǎo)致神經(jīng)網(wǎng)絡(luò)不會收斂的問題。因此，在我們的設(shè)計(jì)中輸入到最大池層之前，yV將被屏蔽為零。這樣，填充或不填充，相同的輸入將在卷積層和合并層之后產(chǎn)生相同的輸出，它確保了訓(xùn)練階段和預(yù)測階段的一致性，因?yàn)樵陬A(yù)測階段沒有填充。

其次，對于遞歸神經(jīng)網(wǎng)絡(luò)，因?yàn)檎Z音情感識別是一個(gè)序列分類問題，所以我們只需要最后一個(gè)有效時(shí)間步中的輸出。假設(shè)S是遞歸神經(jīng)網(wǎng)絡(luò)的輸入，預(yù)期結(jié)果應(yīng)該是t=V時(shí)的輸出。此外，在雙向遞歸神經(jīng)網(wǎng)絡(luò)中，反向遞歸神經(jīng)網(wǎng)絡(luò)的輸出應(yīng)該在t=0處。最終輸出是正向和反向遞歸神經(jīng)網(wǎng)絡(luò)輸出的串聯(lián)。

四、結(jié)論

在本文中，我們提出了一個(gè)可變長度的神經(jīng)網(wǎng)絡(luò)，在頻譜圖上運(yùn)行，從可變長度的語音片段中執(zhí)行情感分類任務(wù)。通過將全句輸入到模型中，我們的方法可以有效地緩解傳統(tǒng)定長方法將句子拆分為更小的固定長度段時(shí)所引入的中性情緒和其他情緒之間的混淆。與以前的固定長度神經(jīng)網(wǎng)絡(luò)相比，加權(quán)精度（WA）和不加權(quán)精度（UA）達(dá)到了普通基準(zhǔn)數(shù)據(jù)集IEMOCAP的最新技術(shù)水平。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的可變長度語音片段情感識別

一、相關(guān)工作

二、可變長度深度神經(jīng)網(wǎng)絡(luò)的情感識別

1.定長方法的問題。

2.可變長度深度神經(jīng)網(wǎng)絡(luò)。