亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用深度學(xué)習(xí)進(jìn)行可變長(zhǎng)度語(yǔ)音片段的情感識(shí)別

        2021-11-12 08:56:01魏金太
        散文百家 2021年5期
        關(guān)鍵詞:頻譜語(yǔ)音卷積

        魏金太 王 振

        河南林業(yè)職業(yè)學(xué)院

        情感識(shí)別在許多應(yīng)用中起著重要的作用,特別是在當(dāng)今日益普遍的人機(jī)交互系統(tǒng)中。作為人類(lèi)之間的主要傳播媒體之一,語(yǔ)音已經(jīng)引起了研究者的廣泛關(guān)注。言語(yǔ)包含豐富的情緒信息,如何從語(yǔ)音信號(hào)中提取這些信息對(duì)于自動(dòng)語(yǔ)音情感識(shí)別具有重要意義。作為語(yǔ)音情感識(shí)別的重要組成部分,提取最相關(guān)的聲學(xué)特征引起了很多研究興趣。這些研究大部分都致力于設(shè)計(jì)一些手勢(shì)特征,這些特征對(duì)于情感識(shí)別來(lái)說(shuō)是最有特色的。

        最近,機(jī)器學(xué)習(xí)社區(qū)的一個(gè)趨勢(shì)是直接從原始未處理數(shù)據(jù)中推導(dǎo)出輸入信號(hào)的表示。這個(gè)想法背后的原因是網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)原始輸入信號(hào)的中間表示,它更適合手頭的任務(wù),因此可以提高性能。受此啟發(fā),我們?cè)噲D通過(guò)專(zhuān)門(mén)設(shè)計(jì)的可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)構(gòu)建情緒識(shí)別系統(tǒng),該神經(jīng)網(wǎng)絡(luò)可直接從輸入語(yǔ)音的頻譜圖中導(dǎo)出情緒類(lèi)別。

        頻譜圖是信號(hào)的時(shí)頻分解,指示其頻率隨時(shí)間變化的內(nèi)容。在我們的工作中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)首先被構(gòu)造為有效地學(xué)習(xí)代表情緒信息的空間譜圖模式;然后使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)模擬由譜圖表示的句子上的時(shí)間結(jié)構(gòu);最后的情緒類(lèi)別是由全連接層導(dǎo)出的。這項(xiàng)工作的想法類(lèi)似于以前的Satt 的工作。

        然而,我們的神經(jīng)網(wǎng)絡(luò)具有能夠處理可變長(zhǎng)度語(yǔ)音段的優(yōu)點(diǎn)。與將語(yǔ)音輸入分成較小的和固定長(zhǎng)度的段相比,我們的方法可以解決在語(yǔ)音分割過(guò)程中引入的精度損失。在IEMOCAP 數(shù)據(jù)集中,使用5 折交叉驗(yàn)證,我們可以實(shí)現(xiàn)71.45%的加權(quán)準(zhǔn)確性(WA),相對(duì)于固定的2.95%絕對(duì)(3.85%相對(duì))改善長(zhǎng)度方法。相同數(shù)據(jù)集的未加權(quán)準(zhǔn)確度(UA)為64.22%,這也優(yōu)于固定長(zhǎng)度方法,絕對(duì)偏差為4.82%(相對(duì)于8.11%)。

        論文組織如下:第1 節(jié)總結(jié)了以前的相關(guān)工作,第2節(jié)給出了變長(zhǎng)方法和定長(zhǎng)方法的比較,第3 節(jié)介紹了譜圖提取和變長(zhǎng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),第4 節(jié)總結(jié)本文。

        一、相關(guān)背景工作

        近年來(lái),深度學(xué)習(xí)方法和工具已經(jīng)引入到語(yǔ)音處理領(lǐng)域,用于特征提取、分類(lèi)/回歸。研究人員已經(jīng)表明,用深度網(wǎng)絡(luò)中不同層次的原始信號(hào)統(tǒng)計(jì)學(xué)習(xí)替代手工制作的低層(幀級(jí))特征可以顯著提高分類(lèi)和回歸解決方案的準(zhǔn)確性。在語(yǔ)音識(shí)別中,首次研究表明直接使用語(yǔ)音波形的自動(dòng)語(yǔ)音識(shí)別(ASR)的更好特征是Jaitly 和Hinton,他們提出,雖然他們沒(méi)有以端到端的方式對(duì)系統(tǒng)進(jìn)行訓(xùn)練,通過(guò)直接在語(yǔ)音時(shí)間信號(hào)上訓(xùn)練受限玻爾茲曼機(jī)器來(lái)學(xué)習(xí)中間表示。Sainath 等人通過(guò)使用卷積,LSTM-DNN 匹配基于log-Mel 濾波器能量的大詞匯量語(yǔ)音識(shí)別(LVCSR)系統(tǒng)的性能。Bhargava 和Rose 使用疊加的瓶頸深度神經(jīng)網(wǎng)絡(luò)(DNNs)對(duì)窗口化語(yǔ)音波形進(jìn)行訓(xùn)練,并且在相同體系結(jié)構(gòu)上獲得的結(jié)果只比相應(yīng)的MFCC 略差。直接使用梅爾譜聲譜圖進(jìn)行說(shuō)話人識(shí)別也被證明是成功的。此外,基于線性間隔頻譜圖描述了最近公布的現(xiàn)有技術(shù)的魯棒語(yǔ)音識(shí)別系統(tǒng)。

        在語(yǔ)音情感識(shí)別領(lǐng)域,已經(jīng)進(jìn)行了一些使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)的研究。最近,喬治等人提出了一個(gè)卷積循環(huán)神經(jīng)網(wǎng)絡(luò),對(duì)原始信號(hào)進(jìn)行操作,從語(yǔ)音數(shù)據(jù)中執(zhí)行端到端的自發(fā)情緒預(yù)測(cè)任務(wù)。Satt 等人還將CNN 和LSTM 相結(jié)合,對(duì)線性間隔頻譜圖中的情緒進(jìn)行分類(lèi),超過(guò)了通用基準(zhǔn)數(shù)據(jù)集IEMOACP 的最新精度。然而,所有這些方法都將語(yǔ)音輸入分為較小和固定長(zhǎng)度的部分,這在訓(xùn)練和預(yù)測(cè)階段導(dǎo)致準(zhǔn)確性的損失。我們的方法提出使用可變長(zhǎng)度的神經(jīng)網(wǎng)絡(luò)來(lái)解決這個(gè)問(wèn)題。

        二、可變長(zhǎng)度語(yǔ)音片段的情感識(shí)別

        1.定長(zhǎng)方法的問(wèn)題。

        Satt 等人首先將每個(gè)長(zhǎng)于3 秒的句子分割成長(zhǎng)度相等的較短的子句。在提取光譜圖后,不超過(guò)3 秒的部分用零填充到3 秒。每個(gè)子句被分配相應(yīng)的整個(gè)句子的情感標(biāo)簽,這些較短的子句在整個(gè)提議的系統(tǒng)中都用于訓(xùn)練和測(cè)試階段。雖然這種方法可以減少構(gòu)建神經(jīng)網(wǎng)絡(luò)的難度(確保輸入長(zhǎng)度相等),但會(huì)引入一些錯(cuò)誤。觀察表明,只有一部分語(yǔ)音在非中性情緒句子中包含明顯的非中性情緒信息。將這些子句用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)可能會(huì)導(dǎo)致網(wǎng)絡(luò)在識(shí)別中性情緒和非中性情緒時(shí)產(chǎn)生混淆。但是,當(dāng)我們聽(tīng)完整個(gè)句子時(shí),神經(jīng)語(yǔ)音段可以增強(qiáng)情感語(yǔ)段的感覺(jué)。

        2.可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)。

        以上問(wèn)題表明,使用整句作為輸入比分成幾段更合理。但是句子的長(zhǎng)度一般是不同的,所以我們的研究旨在設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)處理可變長(zhǎng)度的輸入序列。

        眾所周知,卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以被認(rèn)為是一種使用同一神經(jīng)元的許多相同拷貝的神經(jīng)網(wǎng)絡(luò)。這可以使網(wǎng)絡(luò)擁有大量的神經(jīng)元并表達(dá)計(jì)算量大的模型,同時(shí)保持實(shí)際參數(shù)的數(shù)量描述神經(jīng)元行為的值需要被學(xué)習(xí)得相當(dāng)小。常用的手段,特別是在計(jì)算機(jī)視覺(jué)中,用于處理相同尺寸的輸入,這可以方便地連接其他神經(jīng)網(wǎng)絡(luò),例如全連接層。

        遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是流行的模型,在許多序列建模任務(wù)中顯示出很大的希望。它們對(duì)序列的每個(gè)元素執(zhí)行相同的任務(wù),輸出依賴(lài)于以前的計(jì)算。為了計(jì)算效率,輸入序列通常是固定長(zhǎng)度的??勺冮L(zhǎng)度序列通常被填充到相同的長(zhǎng)度,但是我們可以忽略無(wú)效填充時(shí)間步的輸出,以便可以正確處理可變長(zhǎng)度的序列。

        三、提出的方法

        可變長(zhǎng)度深度神經(jīng)網(wǎng)絡(luò)的輸入是全句子的譜圖,輸出是句子情感類(lèi)別的分類(lèi)結(jié)果。

        1.頻譜圖提取。

        IEMOCAP 數(shù)據(jù)集中的語(yǔ)音信號(hào)以16KHz 采樣,并組織為單個(gè)句子,持續(xù)時(shí)間從不到一秒到約20 秒。每個(gè)句子都標(biāo)有一種情感,采用一系列重疊的漢明窗口,幀步長(zhǎng)(窗口移位)為10 毫秒,幀長(zhǎng)度(窗口尺寸)為40 毫秒。對(duì)于每一幀,我們計(jì)算一個(gè)長(zhǎng)度為1600 的DFT(對(duì)于10Hz 的網(wǎng)格分辨率)。我們使用0-4KHz 的頻率范圍,忽略其余部分。

        2.深度神經(jīng)網(wǎng)絡(luò)。

        在我們的工作中,輸入序列在訓(xùn)練階段在同一批次中被填充到相同長(zhǎng)度且為零,但不同批次之間的長(zhǎng)度不同。預(yù)測(cè)階段不使用填充,所以我們的神經(jīng)網(wǎng)絡(luò)需要具備避免填充值對(duì)輸出干擾的能力。

        首先,對(duì)于卷積神經(jīng)網(wǎng)絡(luò),我們可以使用掩碼來(lái)保留來(lái)自S1 的輸出并忽略來(lái)自S2 的輸出。其可以表示如下:

        Sconv=Conv(S)?Mask(S)(1)

        其中Conv(S)是S 的卷積層的輸出,Mask(S)是一個(gè)掩蔽矩陣,Sconv=[y1,y2,...,yV,...,yT]是與S相同長(zhǎng)度的輸出序列,其中[y1,y2,...,yV]是掩碼矩陣有效部分的值,[yV+1,...,yT]是填充部分的零值。有效輸出可以通過(guò)Conv(S)和Mask(S)之間的元素乘法實(shí)現(xiàn)。

        其次,對(duì)于遞歸神經(jīng)網(wǎng)絡(luò),因?yàn)檎Z(yǔ)音情感識(shí)別是一個(gè)序列分類(lèi)問(wèn)題,所以我們只需要最后一個(gè)有效時(shí)間步中的輸出。假設(shè)S 是遞歸神經(jīng)網(wǎng)絡(luò)的輸入,預(yù)期結(jié)果應(yīng)該是t=V 時(shí)的輸出。

        四、結(jié)論

        在本文中,我們提出了一個(gè)可變長(zhǎng)度的神經(jīng)網(wǎng)絡(luò),在頻譜圖上運(yùn)行,從可變長(zhǎng)度的語(yǔ)音片段中執(zhí)行情感分類(lèi)任務(wù)。未來(lái),我們將繼續(xù)探索如何使用其他深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)處理可變長(zhǎng)度的語(yǔ)音情感識(shí)別。

        猜你喜歡
        頻譜語(yǔ)音卷積
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        一種用于深空探測(cè)的Chirp變換頻譜分析儀設(shè)計(jì)與實(shí)現(xiàn)
        魔力語(yǔ)音
        基于MATLAB的語(yǔ)音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        一種基于稀疏度估計(jì)的自適應(yīng)壓縮頻譜感知算法
        對(duì)方正在輸入……
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        認(rèn)知無(wú)線電頻譜感知技術(shù)綜述
        欧洲亚洲视频免费| 成人a在线观看| 亚洲av无码乱码在线观看富二代| 亚洲处破女av一区二区| 国产精品片211在线观看| 美女把尿囗扒开让男人添| 97视频在线播放| 巨茎中出肉欲人妻在线视频| 美妇炮灰被狂躁爽到高潮h| 元码人妻精品一区二区三区9| 久久香蕉免费国产天天看| 久久一本日韩精品中文字幕屁孩| 狠狠亚洲超碰狼人久久老人| 激情综合欧美| 成片免费观看视频大全| 美女被黑人巨大入侵的的视频| 99国产精品无码专区| 久久久久久久久888| 久久99国产综合精品| 国产午夜精品av一区二区三| 麻豆精品国产精华液好用吗| 国产女同舌吻1区2区| 日韩av二区三区一区| 亚洲成av人片在www| 婷婷色国产精品视频二区| 蜜桃传媒免费观看视频| 中文字幕一区二区人妻痴汉电车| 97夜夜澡人人双人人人喊| 亚洲av第一区国产精品| 亚洲愉拍自拍视频一区| 伊人亚洲综合网色AV另类| 亚洲男人第一av网站| 亚洲av福利院在线观看| 蜜桃视频中文字幕一区二区三区 | 熟妇高潮一区二区三区| 日本一区二区三区视频免费观看| 福利视频自拍偷拍视频| 国产亚洲成年网址在线观看| 国产一女三男3p免费视频| 一区二区三区精品少妇| 国产精品久久夜伦鲁鲁|