亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的可變長度語音片段情感識(shí)別

        2021-11-12 17:18:49
        散文百家 2021年3期
        關(guān)鍵詞:頻譜語音卷積

        王 振

        河南林業(yè)職業(yè)學(xué)院

        語音作為人類之間交流的主要傳播媒體,已經(jīng)引起研究者的廣泛關(guān)注。在日益普遍的人機(jī)交互系統(tǒng)中,情感識(shí)別起著重要的作用。語音包含豐富的情緒信息,如何從語音信號(hào)中提取這些信息,對(duì)于自動(dòng)語音情感識(shí)別具有重要意義。

        聲學(xué)特征作為語音情感識(shí)別的重要組成部分,對(duì)其提取引起了很多研究興趣。這些研究都致力于設(shè)計(jì)一些手勢特征,對(duì)于情感識(shí)別來說這些特征是最有特色的。最近,機(jī)器學(xué)習(xí)社區(qū)直接從原始未處理數(shù)據(jù)中推導(dǎo)出輸入信號(hào),背后的原因是網(wǎng)絡(luò)可以對(duì)原始輸入信號(hào)的中間表示自動(dòng)學(xué)習(xí),因此可以提高性能。因此,我們通過專門設(shè)計(jì)的可直接從輸入語音頻譜圖中導(dǎo)出情緒類別的可變長度深度神經(jīng)網(wǎng)絡(luò)構(gòu)建情緒識(shí)別系統(tǒng)。

        頻譜圖是信號(hào)的時(shí)頻分解。在我們的工作中,卷積神經(jīng)網(wǎng)絡(luò)首先被構(gòu)造為空間譜圖模式,它有效地學(xué)習(xí)代表情緒信息,然后使用遞歸神經(jīng)網(wǎng)絡(luò)來模擬句子上的時(shí)間結(jié)構(gòu),它由譜圖表示,最后由全連接層導(dǎo)出情緒類別。

        這類似于以前的Satt的工作。然而,與將語音輸入分成較小的固定長度的段相比,我們這里的神經(jīng)網(wǎng)絡(luò)能夠處理可變長度語音段,這是它的優(yōu)點(diǎn),它可以解決在語音分割過程中引起的精度損失。

        一、相關(guān)工作

        近年來,深度學(xué)習(xí)方法已經(jīng)應(yīng)用到語音處理領(lǐng)域,用于特征提取與分類/回歸。在語音識(shí)別中,直接使用語音波形的自動(dòng)語音識(shí)別特征的是Hinton和Jaitly。他們通過直接在語音時(shí)間信號(hào)上訓(xùn)練受限玻爾茲曼機(jī)器來學(xué)習(xí)中間表示,沒有以端到端的方式對(duì)系統(tǒng)進(jìn)行訓(xùn)練。Bhargava和Rose使用疊加的瓶頸深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練窗口化語音波形,在相同體系結(jié)構(gòu)上獲得的結(jié)果比相應(yīng)的MFCC略差。

        在語音情感識(shí)別領(lǐng)域,已經(jīng)使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行了一些特征學(xué)習(xí)的研究。喬治等人提出了一個(gè)卷積循環(huán)神經(jīng)網(wǎng)絡(luò),其對(duì)原始信號(hào)進(jìn)行操作,在語音數(shù)據(jù)中執(zhí)行端到端的情緒預(yù)測任務(wù)。Satt等人將CNN和LSTM結(jié)合,分類線性間隔頻譜圖中的情緒。然而,這些方法都是將語音輸入分為較小的固定長度的部分,這會(huì)在訓(xùn)練和預(yù)測階段損失準(zhǔn)確性,我們使用可變長度的神經(jīng)網(wǎng)絡(luò)的方法來解決這個(gè)問題。

        二、可變長度深度神經(jīng)網(wǎng)絡(luò)的情感識(shí)別

        1.定長方法的問題。

        每個(gè)長于3秒的句子被Satt等人分割成長度相等的短子句,在提取光譜圖后,將不夠3秒的部分用零填充到3秒。在整個(gè)提議的系統(tǒng)中,這些較短的子句都用于訓(xùn)練和測試階段,每個(gè)子句被分配相應(yīng)的整個(gè)句子的情感標(biāo)簽。在測試短語期間,整個(gè)句子的情感類別的預(yù)測通過平均各個(gè)子句的后驗(yàn)概率來實(shí)現(xiàn)。雖然這種方法可以減少構(gòu)建神經(jīng)網(wǎng)絡(luò)的難度(確保輸入長度相等),但會(huì)引入一些錯(cuò)誤。實(shí)際上,為每個(gè)子句分配相應(yīng)整句的情感標(biāo)簽并不是一個(gè)好的處理方法。觀察表明,只有一部分語音在非中性情緒句子中包含明顯的非中性情緒信息。

        2.可變長度深度神經(jīng)網(wǎng)絡(luò)。

        以上問題表明,使用整句作為輸入比分成幾段更合理。但是句子的長度一般是不同的,所以我們的研究旨在設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)來處理可變長度的輸入序列。

        眾所周知,卷積神經(jīng)網(wǎng)絡(luò)可以被認(rèn)為是一種使用同一神經(jīng)元的許多相同拷貝的神經(jīng)網(wǎng)絡(luò)。這可以使網(wǎng)絡(luò)擁有大量的神經(jīng)元并表達(dá)計(jì)算量大的模型,同時(shí)保持實(shí)際參數(shù)的數(shù)量描述神經(jīng)元行為的值需要被學(xué)習(xí)得相當(dāng)小。

        遞歸神經(jīng)網(wǎng)絡(luò)是流行的模型,在許多序列建模任務(wù)中顯示出很大的希望。它們對(duì)序列的每個(gè)元素執(zhí)行相同的任務(wù),輸出依賴于以前的計(jì)算。為了計(jì)算效率,輸入序列通常是固定長度的??勺冮L度序列通常被填充到相同的長度,但是我們可以忽略無效填充時(shí)間步的輸出,以便可以正確處理可變長度的序列。

        三、提出的方法

        可變長度深度神經(jīng)網(wǎng)絡(luò)的輸入是全句子的譜圖,輸出是句子情感類別的分類結(jié)果。為了比較,我們使用與Satt使用的相似的頻譜圖提取設(shè)置神經(jīng)網(wǎng)絡(luò)。

        1.頻譜圖的提取。

        每個(gè)句子都標(biāo)有一種情感,采用一系列重疊的漢明窗口,幀步長為10毫秒,幀長度為40毫秒。對(duì)于每一幀,我們計(jì)算一個(gè)長度為1600的DFT(對(duì)于10Hz的網(wǎng)格分辨率)。我們使用0-4KHz的頻率范圍,忽略其余部分。在短時(shí)間譜聚合之后,我們得到一個(gè)大小為N×M的矩陣,其中N對(duì)于不同的句子是可變的,代表所選擇的時(shí)間網(wǎng)格分辨率,并且M=400等于所選擇的頻率網(wǎng)格分辨率。然后將DFT數(shù)據(jù)轉(zhuǎn)換為對(duì)數(shù)功率譜,然后使用訓(xùn)練數(shù)據(jù)集的平均值和標(biāo)準(zhǔn)差對(duì)z歸一化進(jìn)行歸一化。

        2.深度神經(jīng)網(wǎng)絡(luò)。

        在我們的工作中,輸入序列在訓(xùn)練階段在同一批次中被填充到相同長度且為零,但不同批次之間的長度不同。預(yù)測階段不使用填充,所以我們的神經(jīng)網(wǎng)絡(luò)需要具備避免填充值對(duì)輸出干擾的能力。令S=[x1,x2,...,xV,...,xT]為輸入序列,其中S1=[x1,x2,...,xV]為有效部分,S2=[xV+1,xV+2,...,xT]是填充部分。

        首先,對(duì)于卷積神經(jīng)網(wǎng)絡(luò),我們可以使用掩碼來保留來自S1的輸出并忽略來自S2的輸出,其可以表示如下:

        Sconv=Conv(S)·Mask(S)(1)

        其中Conv(S)是S的卷積層的輸出,Mask(S)是一個(gè)掩蔽矩陣,Sconv=[y1,y2,...,yV,...,yT]是與S相同長度的輸出序列,其中[y1,y2,...,yV]是掩碼矩陣有效部分的值,[yV+1,...,yT]是填充部分的零值。有效輸出可以通過Conv(S)和Mask(S)之間的元素乘法實(shí)現(xiàn)。此外,卷積層通常與匯集層交織在一起。我們需要注意有效部分和填充部分之間的邊界值,這會(huì)引入無效信息。例如,假設(shè)Sconv是最大池化層的輸入。如果池化內(nèi)核大小為2,并且輸入路徑包含yV和yV+1,則當(dāng)yV<0且yV+1=0時(shí),輸出將為yV+1。但預(yù)期值應(yīng)為yV,因?yàn)閥V+1是填充值。在我們的實(shí)驗(yàn)中,這個(gè)問題會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)不會(huì)收斂的問題。因此,在我們的設(shè)計(jì)中輸入到最大池層之前,yV將被屏蔽為零。這樣,填充或不填充,相同的輸入將在卷積層和合并層之后產(chǎn)生相同的輸出,它確保了訓(xùn)練階段和預(yù)測階段的一致性,因?yàn)樵陬A(yù)測階段沒有填充。

        其次,對(duì)于遞歸神經(jīng)網(wǎng)絡(luò),因?yàn)檎Z音情感識(shí)別是一個(gè)序列分類問題,所以我們只需要最后一個(gè)有效時(shí)間步中的輸出。假設(shè)S是遞歸神經(jīng)網(wǎng)絡(luò)的輸入,預(yù)期結(jié)果應(yīng)該是t=V時(shí)的輸出。此外,在雙向遞歸神經(jīng)網(wǎng)絡(luò)中,反向遞歸神經(jīng)網(wǎng)絡(luò)的輸出應(yīng)該在t=0處。最終輸出是正向和反向遞歸神經(jīng)網(wǎng)絡(luò)輸出的串聯(lián)。

        四、結(jié)論

        在本文中,我們提出了一個(gè)可變長度的神經(jīng)網(wǎng)絡(luò),在頻譜圖上運(yùn)行,從可變長度的語音片段中執(zhí)行情感分類任務(wù)。通過將全句輸入到模型中,我們的方法可以有效地緩解傳統(tǒng)定長方法將句子拆分為更小的固定長度段時(shí)所引入的中性情緒和其他情緒之間的混淆。與以前的固定長度神經(jīng)網(wǎng)絡(luò)相比,加權(quán)精度(WA)和不加權(quán)精度(UA)達(dá)到了普通基準(zhǔn)數(shù)據(jù)集IEMOCAP的最新技術(shù)水平。

        猜你喜歡
        頻譜語音卷積
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        一種用于深空探測的Chirp變換頻譜分析儀設(shè)計(jì)與實(shí)現(xiàn)
        魔力語音
        基于MATLAB的語音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        一種基于稀疏度估計(jì)的自適應(yīng)壓縮頻譜感知算法
        對(duì)方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        認(rèn)知無線電頻譜感知技術(shù)綜述
        91亚洲无码在线观看| 久久久亚洲av波多野结衣| 99热爱久久99热爱九九热爱| 亚洲av无码成人精品区在线观看| 亚洲精品亚洲人成在线播放| 在线久草视频免费播放 | 婷婷四虎东京热无码群交双飞视频 | 国产精品一区二区久久久av| 成人做爰69片免费看网站野花| 日韩精品人妻系列无码专区免费| 欧美日韩综合在线视频免费看| 蜜桃视频在线在线观看| 无码人妻丰满熟妇区bbbbxxxx| 亚洲精品人成无码中文毛片| 国产成人亚洲综合小说区| 午夜精品男人天堂av| 国产精品 亚洲 无码 在线| 天天操夜夜操| 久久精品日本美女视频| 免费av日韩一区二区| 东京热人妻无码一区二区av| 国产日韩欧美网站| 久久最黄性生活又爽又黄特级片| 职场出轨的人妻中文字幕| 国产无遮挡无码视频免费软件 | 国产精品黄网站免费观看| 青青草视频国产在线观看| 中国亚洲一区二区视频| 免费观看激色视频网站| 免费国产99久久久香蕉| 色婷婷精品大在线视频| 日韩日韩日韩日韩日韩| 久久ri精品高清一区二区三区| 亚洲国产精品一区二区第一| 中文字幕一区二区人妻秘书 | 中国孕妇变态孕交xxxx| 曰本极品少妇videossexhd| 久久无码中文字幕东京热| 丰满少妇被猛进去高潮| 男人激烈吮乳吃奶视频免费 | 精品亚洲天堂一区二区三区|