亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

利用深度學(xué)習(xí)進(jìn)行可變長(zhǎng)度語(yǔ)音片段的情感識(shí)別

2021-11-12 08:56:01魏金太

散文百家 2021年5期

魏金太王振

河南林業(yè)職業(yè)學(xué)院

情感識(shí)別在許多應(yīng)用中起著重要的作用，特別是在當(dāng)今日益普遍的人機(jī)交互系統(tǒng)中。作為人類(lèi)之間的主要傳播媒體之一，語(yǔ)音已經(jīng)引起了研究者的廣泛關(guān)注。言語(yǔ)包含豐富的情緒信息，如何從語(yǔ)音信號(hào)中提取這些信息對(duì)于自動(dòng)語(yǔ)音情感識(shí)別具有重要意義。作為語(yǔ)音情感識(shí)別的重要組成部分，提取最相關(guān)的聲學(xué)特征引起了很多研究興趣。這些研究大部分都致力于設(shè)計(jì)一些手勢(shì)特征，這些特征對(duì)于情感識(shí)別來(lái)說(shuō)是最有特色的。

最近，機(jī)器學(xué)習(xí)社區(qū)的一個(gè)趨勢(shì)是直接從原始未處理數(shù)據(jù)中推導(dǎo)出輸入信號(hào)的表示。這個(gè)想法背后的原因是網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)原始輸入信號(hào)的中間表示，它更適合手頭的任務(wù)，因此可以提高性能。受此啟發(fā)，我們?cè)噲D通過(guò)專(zhuān)門(mén)設(shè)計(jì)的可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)構(gòu)建情緒識(shí)別系統(tǒng)，該神經(jīng)網(wǎng)絡(luò)可直接從輸入語(yǔ)音的頻譜圖中導(dǎo)出情緒類(lèi)別。

頻譜圖是信號(hào)的時(shí)頻分解，指示其頻率隨時(shí)間變化的內(nèi)容。在我們的工作中，卷積神經(jīng)網(wǎng)絡(luò)（CNN）首先被構(gòu)造為有效地學(xué)習(xí)代表情緒信息的空間譜圖模式；然后使用遞歸神經(jīng)網(wǎng)絡(luò)（RNN）來(lái)模擬由譜圖表示的句子上的時(shí)間結(jié)構(gòu)；最后的情緒類(lèi)別是由全連接層導(dǎo)出的。這項(xiàng)工作的想法類(lèi)似于以前的Satt 的工作。

然而，我們的神經(jīng)網(wǎng)絡(luò)具有能夠處理可變長(zhǎng)度語(yǔ)音段的優(yōu)點(diǎn)。與將語(yǔ)音輸入分成較小的和固定長(zhǎng)度的段相比，我們的方法可以解決在語(yǔ)音分割過(guò)程中引入的精度損失。在IEMOCAP 數(shù)據(jù)集中，使用5 折交叉驗(yàn)證，我們可以實(shí)現(xiàn)71.45%的加權(quán)準(zhǔn)確性（WA），相對(duì)于固定的2.95%絕對(duì)（3.85%相對(duì)）改善長(zhǎng)度方法。相同數(shù)據(jù)集的未加權(quán)準(zhǔn)確度（UA）為64.22%，這也優(yōu)于固定長(zhǎng)度方法，絕對(duì)偏差為4.82%（相對(duì)于8.11%）。

論文組織如下：第1 節(jié)總結(jié)了以前的相關(guān)工作，第2節(jié)給出了變長(zhǎng)方法和定長(zhǎng)方法的比較，第3 節(jié)介紹了譜圖提取和變長(zhǎng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),第4 節(jié)總結(jié)本文。

一、相關(guān)背景工作

近年來(lái)，深度學(xué)習(xí)方法和工具已經(jīng)引入到語(yǔ)音處理領(lǐng)域，用于特征提取、分類(lèi)/回歸。研究人員已經(jīng)表明，用深度網(wǎng)絡(luò)中不同層次的原始信號(hào)統(tǒng)計(jì)學(xué)習(xí)替代手工制作的低層（幀級(jí)）特征可以顯著提高分類(lèi)和回歸解決方案的準(zhǔn)確性。在語(yǔ)音識(shí)別中，首次研究表明直接使用語(yǔ)音波形的自動(dòng)語(yǔ)音識(shí)別（ASR）的更好特征是Jaitly 和Hinton，他們提出，雖然他們沒(méi)有以端到端的方式對(duì)系統(tǒng)進(jìn)行訓(xùn)練，通過(guò)直接在語(yǔ)音時(shí)間信號(hào)上訓(xùn)練受限玻爾茲曼機(jī)器來(lái)學(xué)習(xí)中間表示。Sainath 等人通過(guò)使用卷積，LSTM-DNN 匹配基于log-Mel 濾波器能量的大詞匯量語(yǔ)音識(shí)別（LVCSR）系統(tǒng)的性能。Bhargava 和Rose 使用疊加的瓶頸深度神經(jīng)網(wǎng)絡(luò)（DNNs）對(duì)窗口化語(yǔ)音波形進(jìn)行訓(xùn)練，并且在相同體系結(jié)構(gòu)上獲得的結(jié)果只比相應(yīng)的MFCC 略差。直接使用梅爾譜聲譜圖進(jìn)行說(shuō)話人識(shí)別也被證明是成功的。此外，基于線性間隔頻譜圖描述了最近公布的現(xiàn)有技術(shù)的魯棒語(yǔ)音識(shí)別系統(tǒng)。

在語(yǔ)音情感識(shí)別領(lǐng)域，已經(jīng)進(jìn)行了一些使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)的研究。最近，喬治等人提出了一個(gè)卷積循環(huán)神經(jīng)網(wǎng)絡(luò)，對(duì)原始信號(hào)進(jìn)行操作，從語(yǔ)音數(shù)據(jù)中執(zhí)行端到端的自發(fā)情緒預(yù)測(cè)任務(wù)。Satt 等人還將CNN 和LSTM 相結(jié)合，對(duì)線性間隔頻譜圖中的情緒進(jìn)行分類(lèi)，超過(guò)了通用基準(zhǔn)數(shù)據(jù)集IEMOACP 的最新精度。然而，所有這些方法都將語(yǔ)音輸入分為較小和固定長(zhǎng)度的部分，這在訓(xùn)練和預(yù)測(cè)階段導(dǎo)致準(zhǔn)確性的損失。我們的方法提出使用可變長(zhǎng)度的神經(jīng)網(wǎng)絡(luò)來(lái)解決這個(gè)問(wèn)題。

二、可變長(zhǎng)度語(yǔ)音片段的情感識(shí)別

1.定長(zhǎng)方法的問(wèn)題。

Satt 等人首先將每個(gè)長(zhǎng)于3 秒的句子分割成長(zhǎng)度相等的較短的子句。在提取光譜圖后，不超過(guò)3 秒的部分用零填充到3 秒。每個(gè)子句被分配相應(yīng)的整個(gè)句子的情感標(biāo)簽，這些較短的子句在整個(gè)提議的系統(tǒng)中都用于訓(xùn)練和測(cè)試階段。雖然這種方法可以減少構(gòu)建神經(jīng)網(wǎng)絡(luò)的難度（確保輸入長(zhǎng)度相等），但會(huì)引入一些錯(cuò)誤。觀察表明，只有一部分語(yǔ)音在非中性情緒句子中包含明顯的非中性情緒信息。將這些子句用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)可能會(huì)導(dǎo)致網(wǎng)絡(luò)在識(shí)別中性情緒和非中性情緒時(shí)產(chǎn)生混淆。但是，當(dāng)我們聽(tīng)完整個(gè)句子時(shí)，神經(jīng)語(yǔ)音段可以增強(qiáng)情感語(yǔ)段的感覺(jué)。

2.可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)。

以上問(wèn)題表明，使用整句作為輸入比分成幾段更合理。但是句子的長(zhǎng)度一般是不同的，所以我們的研究旨在設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)處理可變長(zhǎng)度的輸入序列。

眾所周知，卷積神經(jīng)網(wǎng)絡(luò)（CNN）可以被認(rèn)為是一種使用同一神經(jīng)元的許多相同拷貝的神經(jīng)網(wǎng)絡(luò)。這可以使網(wǎng)絡(luò)擁有大量的神經(jīng)元并表達(dá)計(jì)算量大的模型，同時(shí)保持實(shí)際參數(shù)的數(shù)量描述神經(jīng)元行為的值需要被學(xué)習(xí)得相當(dāng)小。常用的手段，特別是在計(jì)算機(jī)視覺(jué)中，用于處理相同尺寸的輸入，這可以方便地連接其他神經(jīng)網(wǎng)絡(luò)，例如全連接層。

遞歸神經(jīng)網(wǎng)絡(luò)（RNN）是流行的模型，在許多序列建模任務(wù)中顯示出很大的希望。它們對(duì)序列的每個(gè)元素執(zhí)行相同的任務(wù)，輸出依賴(lài)于以前的計(jì)算。為了計(jì)算效率，輸入序列通常是固定長(zhǎng)度的?？勺冮L(zhǎng)度序列通常被填充到相同的長(zhǎng)度，但是我們可以忽略無(wú)效填充時(shí)間步的輸出，以便可以正確處理可變長(zhǎng)度的序列。

三、提出的方法

可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)的輸入是全句子的譜圖，輸出是句子情感類(lèi)別的分類(lèi)結(jié)果。

1.頻譜圖提取。

IEMOCAP 數(shù)據(jù)集中的語(yǔ)音信號(hào)以16KHz 采樣，并組織為單個(gè)句子，持續(xù)時(shí)間從不到一秒到約20 秒。每個(gè)句子都標(biāo)有一種情感，采用一系列重疊的漢明窗口，幀步長(zhǎng)（窗口移位）為10 毫秒，幀長(zhǎng)度（窗口尺寸）為40 毫秒。對(duì)于每一幀，我們計(jì)算一個(gè)長(zhǎng)度為1600 的DFT（對(duì)于10Hz 的網(wǎng)格分辨率）。我們使用0-4KHz 的頻率范圍，忽略其余部分。

2.深度神經(jīng)網(wǎng)絡(luò)。

在我們的工作中，輸入序列在訓(xùn)練階段在同一批次中被填充到相同長(zhǎng)度且為零，但不同批次之間的長(zhǎng)度不同。預(yù)測(cè)階段不使用填充，所以我們的神經(jīng)網(wǎng)絡(luò)需要具備避免填充值對(duì)輸出干擾的能力。

首先，對(duì)于卷積神經(jīng)網(wǎng)絡(luò)，我們可以使用掩碼來(lái)保留來(lái)自S1 的輸出并忽略來(lái)自S2 的輸出。其可以表示如下：

Sconv=Conv（S）?Mask（S）（1）

其中Conv（S）是S 的卷積層的輸出，Mask（S）是一個(gè)掩蔽矩陣，Sconv=[y1，y2，...，yV，...，yT]是與S相同長(zhǎng)度的輸出序列，其中[y1，y2，...，yV]是掩碼矩陣有效部分的值，[yV+1，...，yT]是填充部分的零值。有效輸出可以通過(guò)Conv（S）和Mask（S）之間的元素乘法實(shí)現(xiàn)。

其次，對(duì)于遞歸神經(jīng)網(wǎng)絡(luò)，因?yàn)檎Z(yǔ)音情感識(shí)別是一個(gè)序列分類(lèi)問(wèn)題，所以我們只需要最后一個(gè)有效時(shí)間步中的輸出。假設(shè)S 是遞歸神經(jīng)網(wǎng)絡(luò)的輸入，預(yù)期結(jié)果應(yīng)該是t=V 時(shí)的輸出。

四、結(jié)論

在本文中，我們提出了一個(gè)可變長(zhǎng)度的神經(jīng)網(wǎng)絡(luò)，在頻譜圖上運(yùn)行，從可變長(zhǎng)度的語(yǔ)音片段中執(zhí)行情感分類(lèi)任務(wù)。未來(lái)，我們將繼續(xù)探索如何使用其他深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)處理可變長(zhǎng)度的語(yǔ)音情感識(shí)別。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

利用深度學(xué)習(xí)進(jìn)行可變長(zhǎng)度語(yǔ)音片段的情感識(shí)別

一、相關(guān)背景工作

二、可變長(zhǎng)度語(yǔ)音片段的情感識(shí)別

1.定長(zhǎng)方法的問(wèn)題。

2.可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)。