魏金太 王 振
河南林業(yè)職業(yè)學(xué)院
情感識(shí)別在許多應(yīng)用中起著重要的作用,特別是在當(dāng)今日益普遍的人機(jī)交互系統(tǒng)中。作為人類(lèi)之間的主要傳播媒體之一,語(yǔ)音已經(jīng)引起了研究者的廣泛關(guān)注。言語(yǔ)包含豐富的情緒信息,如何從語(yǔ)音信號(hào)中提取這些信息對(duì)于自動(dòng)語(yǔ)音情感識(shí)別具有重要意義。作為語(yǔ)音情感識(shí)別的重要組成部分,提取最相關(guān)的聲學(xué)特征引起了很多研究興趣。這些研究大部分都致力于設(shè)計(jì)一些手勢(shì)特征,這些特征對(duì)于情感識(shí)別來(lái)說(shuō)是最有特色的。
最近,機(jī)器學(xué)習(xí)社區(qū)的一個(gè)趨勢(shì)是直接從原始未處理數(shù)據(jù)中推導(dǎo)出輸入信號(hào)的表示。這個(gè)想法背后的原因是網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)原始輸入信號(hào)的中間表示,它更適合手頭的任務(wù),因此可以提高性能。受此啟發(fā),我們?cè)噲D通過(guò)專(zhuān)門(mén)設(shè)計(jì)的可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)構(gòu)建情緒識(shí)別系統(tǒng),該神經(jīng)網(wǎng)絡(luò)可直接從輸入語(yǔ)音的頻譜圖中導(dǎo)出情緒類(lèi)別。
頻譜圖是信號(hào)的時(shí)頻分解,指示其頻率隨時(shí)間變化的內(nèi)容。在我們的工作中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)首先被構(gòu)造為有效地學(xué)習(xí)代表情緒信息的空間譜圖模式;然后使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)模擬由譜圖表示的句子上的時(shí)間結(jié)構(gòu);最后的情緒類(lèi)別是由全連接層導(dǎo)出的。這項(xiàng)工作的想法類(lèi)似于以前的Satt 的工作。
然而,我們的神經(jīng)網(wǎng)絡(luò)具有能夠處理可變長(zhǎng)度語(yǔ)音段的優(yōu)點(diǎn)。與將語(yǔ)音輸入分成較小的和固定長(zhǎng)度的段相比,我們的方法可以解決在語(yǔ)音分割過(guò)程中引入的精度損失。在IEMOCAP 數(shù)據(jù)集中,使用5 折交叉驗(yàn)證,我們可以實(shí)現(xiàn)71.45%的加權(quán)準(zhǔn)確性(WA),相對(duì)于固定的2.95%絕對(duì)(3.85%相對(duì))改善長(zhǎng)度方法。相同數(shù)據(jù)集的未加權(quán)準(zhǔn)確度(UA)為64.22%,這也優(yōu)于固定長(zhǎng)度方法,絕對(duì)偏差為4.82%(相對(duì)于8.11%)。
論文組織如下:第1 節(jié)總結(jié)了以前的相關(guān)工作,第2節(jié)給出了變長(zhǎng)方法和定長(zhǎng)方法的比較,第3 節(jié)介紹了譜圖提取和變長(zhǎng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),第4 節(jié)總結(jié)本文。
近年來(lái),深度學(xué)習(xí)方法和工具已經(jīng)引入到語(yǔ)音處理領(lǐng)域,用于特征提取、分類(lèi)/回歸。研究人員已經(jīng)表明,用深度網(wǎng)絡(luò)中不同層次的原始信號(hào)統(tǒng)計(jì)學(xué)習(xí)替代手工制作的低層(幀級(jí))特征可以顯著提高分類(lèi)和回歸解決方案的準(zhǔn)確性。在語(yǔ)音識(shí)別中,首次研究表明直接使用語(yǔ)音波形的自動(dòng)語(yǔ)音識(shí)別(ASR)的更好特征是Jaitly 和Hinton,他們提出,雖然他們沒(méi)有以端到端的方式對(duì)系統(tǒng)進(jìn)行訓(xùn)練,通過(guò)直接在語(yǔ)音時(shí)間信號(hào)上訓(xùn)練受限玻爾茲曼機(jī)器來(lái)學(xué)習(xí)中間表示。Sainath 等人通過(guò)使用卷積,LSTM-DNN 匹配基于log-Mel 濾波器能量的大詞匯量語(yǔ)音識(shí)別(LVCSR)系統(tǒng)的性能。Bhargava 和Rose 使用疊加的瓶頸深度神經(jīng)網(wǎng)絡(luò)(DNNs)對(duì)窗口化語(yǔ)音波形進(jìn)行訓(xùn)練,并且在相同體系結(jié)構(gòu)上獲得的結(jié)果只比相應(yīng)的MFCC 略差。直接使用梅爾譜聲譜圖進(jìn)行說(shuō)話人識(shí)別也被證明是成功的。此外,基于線性間隔頻譜圖描述了最近公布的現(xiàn)有技術(shù)的魯棒語(yǔ)音識(shí)別系統(tǒng)。
在語(yǔ)音情感識(shí)別領(lǐng)域,已經(jīng)進(jìn)行了一些使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)的研究。最近,喬治等人提出了一個(gè)卷積循環(huán)神經(jīng)網(wǎng)絡(luò),對(duì)原始信號(hào)進(jìn)行操作,從語(yǔ)音數(shù)據(jù)中執(zhí)行端到端的自發(fā)情緒預(yù)測(cè)任務(wù)。Satt 等人還將CNN 和LSTM 相結(jié)合,對(duì)線性間隔頻譜圖中的情緒進(jìn)行分類(lèi),超過(guò)了通用基準(zhǔn)數(shù)據(jù)集IEMOACP 的最新精度。然而,所有這些方法都將語(yǔ)音輸入分為較小和固定長(zhǎng)度的部分,這在訓(xùn)練和預(yù)測(cè)階段導(dǎo)致準(zhǔn)確性的損失。我們的方法提出使用可變長(zhǎng)度的神經(jīng)網(wǎng)絡(luò)來(lái)解決這個(gè)問(wèn)題。
Satt 等人首先將每個(gè)長(zhǎng)于3 秒的句子分割成長(zhǎng)度相等的較短的子句。在提取光譜圖后,不超過(guò)3 秒的部分用零填充到3 秒。每個(gè)子句被分配相應(yīng)的整個(gè)句子的情感標(biāo)簽,這些較短的子句在整個(gè)提議的系統(tǒng)中都用于訓(xùn)練和測(cè)試階段。雖然這種方法可以減少構(gòu)建神經(jīng)網(wǎng)絡(luò)的難度(確保輸入長(zhǎng)度相等),但會(huì)引入一些錯(cuò)誤。觀察表明,只有一部分語(yǔ)音在非中性情緒句子中包含明顯的非中性情緒信息。將這些子句用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)可能會(huì)導(dǎo)致網(wǎng)絡(luò)在識(shí)別中性情緒和非中性情緒時(shí)產(chǎn)生混淆。但是,當(dāng)我們聽(tīng)完整個(gè)句子時(shí),神經(jīng)語(yǔ)音段可以增強(qiáng)情感語(yǔ)段的感覺(jué)。
以上問(wèn)題表明,使用整句作為輸入比分成幾段更合理。但是句子的長(zhǎng)度一般是不同的,所以我們的研究旨在設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)處理可變長(zhǎng)度的輸入序列。
眾所周知,卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以被認(rèn)為是一種使用同一神經(jīng)元的許多相同拷貝的神經(jīng)網(wǎng)絡(luò)。這可以使網(wǎng)絡(luò)擁有大量的神經(jīng)元并表達(dá)計(jì)算量大的模型,同時(shí)保持實(shí)際參數(shù)的數(shù)量描述神經(jīng)元行為的值需要被學(xué)習(xí)得相當(dāng)小。常用的手段,特別是在計(jì)算機(jī)視覺(jué)中,用于處理相同尺寸的輸入,這可以方便地連接其他神經(jīng)網(wǎng)絡(luò),例如全連接層。
遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是流行的模型,在許多序列建模任務(wù)中顯示出很大的希望。它們對(duì)序列的每個(gè)元素執(zhí)行相同的任務(wù),輸出依賴(lài)于以前的計(jì)算。為了計(jì)算效率,輸入序列通常是固定長(zhǎng)度的??勺冮L(zhǎng)度序列通常被填充到相同的長(zhǎng)度,但是我們可以忽略無(wú)效填充時(shí)間步的輸出,以便可以正確處理可變長(zhǎng)度的序列。
可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)的輸入是全句子的譜圖,輸出是句子情感類(lèi)別的分類(lèi)結(jié)果。
IEMOCAP 數(shù)據(jù)集中的語(yǔ)音信號(hào)以16KHz 采樣,并組織為單個(gè)句子,持續(xù)時(shí)間從不到一秒到約20 秒。每個(gè)句子都標(biāo)有一種情感,采用一系列重疊的漢明窗口,幀步長(zhǎng)(窗口移位)為10 毫秒,幀長(zhǎng)度(窗口尺寸)為40 毫秒。對(duì)于每一幀,我們計(jì)算一個(gè)長(zhǎng)度為1600 的DFT(對(duì)于10Hz 的網(wǎng)格分辨率)。我們使用0-4KHz 的頻率范圍,忽略其余部分。
在我們的工作中,輸入序列在訓(xùn)練階段在同一批次中被填充到相同長(zhǎng)度且為零,但不同批次之間的長(zhǎng)度不同。預(yù)測(cè)階段不使用填充,所以我們的神經(jīng)網(wǎng)絡(luò)需要具備避免填充值對(duì)輸出干擾的能力。
首先,對(duì)于卷積神經(jīng)網(wǎng)絡(luò),我們可以使用掩碼來(lái)保留來(lái)自S1 的輸出并忽略來(lái)自S2 的輸出。其可以表示如下:
Sconv=Conv(S)?Mask(S)(1)
其中Conv(S)是S 的卷積層的輸出,Mask(S)是一個(gè)掩蔽矩陣,Sconv=[y1,y2,...,yV,...,yT]是與S相同長(zhǎng)度的輸出序列,其中[y1,y2,...,yV]是掩碼矩陣有效部分的值,[yV+1,...,yT]是填充部分的零值。有效輸出可以通過(guò)Conv(S)和Mask(S)之間的元素乘法實(shí)現(xiàn)。
其次,對(duì)于遞歸神經(jīng)網(wǎng)絡(luò),因?yàn)檎Z(yǔ)音情感識(shí)別是一個(gè)序列分類(lèi)問(wèn)題,所以我們只需要最后一個(gè)有效時(shí)間步中的輸出。假設(shè)S 是遞歸神經(jīng)網(wǎng)絡(luò)的輸入,預(yù)期結(jié)果應(yīng)該是t=V 時(shí)的輸出。
在本文中,我們提出了一個(gè)可變長(zhǎng)度的神經(jīng)網(wǎng)絡(luò),在頻譜圖上運(yùn)行,從可變長(zhǎng)度的語(yǔ)音片段中執(zhí)行情感分類(lèi)任務(wù)。未來(lái),我們將繼續(xù)探索如何使用其他深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)處理可變長(zhǎng)度的語(yǔ)音情感識(shí)別。