亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于注意力機(jī)制的語(yǔ)音情感識(shí)別算法研究

        2022-08-26 08:25:28
        江西科學(xué) 2022年4期
        關(guān)鍵詞:池化全局殘差

        甘 宏

        (廣州南方學(xué)院,510925,廣州)

        1 問(wèn)題提出

        隨著計(jì)算機(jī)行業(yè)的不斷發(fā)展,人工智能走進(jìn)人們的生活,通過(guò)語(yǔ)音實(shí)現(xiàn)人機(jī)交互正逐漸成為主流的人機(jī)交互方式,語(yǔ)音情感識(shí)別能夠讓機(jī)器感知人類(lèi)的情緒,聽(tīng)懂人的情感,在心理健康狀態(tài)監(jiān)控,教育輔助,個(gè)性化內(nèi)容推薦,客服質(zhì)量監(jiān)控方面都具有廣泛應(yīng)用前景,但目前語(yǔ)音情感識(shí)別系統(tǒng)的識(shí)別率較低不足以大規(guī)模商用,提高情感識(shí)別準(zhǔn)確度是一個(gè)亟待解決的難題。在人工智能研究中,情感的識(shí)別和表達(dá)是不可或缺的一個(gè)環(huán)節(jié),人工智能想要達(dá)到真正的智能,應(yīng)當(dāng)具有同人類(lèi)一樣的情感感知和表達(dá)能力,因此語(yǔ)音情感識(shí)別研究格外重要。語(yǔ)音情感識(shí)別目前已經(jīng)應(yīng)用到一些領(lǐng)域,提供服務(wù)。例如,在醫(yī)療領(lǐng)域,進(jìn)行兒童抑郁癥檢測(cè)以及臨終關(guān)懷;在交通安全領(lǐng)域,進(jìn)行駕駛?cè)饲榫w檢測(cè),提供警告以保證駕駛安全;在客服系統(tǒng)中,通過(guò)情感識(shí)別模塊識(shí)別客服工作中的情緒表達(dá),輔助客服培訓(xùn)及日常工作監(jiān)測(cè)等。

        語(yǔ)音情感識(shí)別起源于20世紀(jì)80年代,Bezooijen和Tolkmitt最早提出采用聲學(xué)特征進(jìn)行語(yǔ)音情感識(shí)別研究[1-2]。此后,語(yǔ)音情感數(shù)據(jù)庫(kù)逐步被建立,例如EMO-DB[3]和FAU-Aibo。提取出的聲學(xué)特征被送入機(jī)器學(xué)習(xí)分類(lèi)器進(jìn)行情感分類(lèi),如GMM[4]、HMM[5]、SVM[6]、MLP[7]。

        但是應(yīng)用特征集進(jìn)行語(yǔ)音情感識(shí)別很難找到表達(dá)語(yǔ)音情感的完備特征集和,今年學(xué)術(shù)界更傾向于采用深度學(xué)習(xí)技術(shù)進(jìn)行語(yǔ)音情感識(shí)別。如采用MFCC或者語(yǔ)譜圖作為特征,基于CNN和LSTM的深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行情感分類(lèi)[8-9]。深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)可以模仿人類(lèi)感知的過(guò)程,識(shí)別效果普遍優(yōu)于傳統(tǒng)特征工程,目前已經(jīng)成為語(yǔ)音情感識(shí)別領(lǐng)域的主流方法。

        除了傳統(tǒng)的深度學(xué)習(xí)模型,注意力機(jī)制近年被廣泛應(yīng)用于人工智能各種細(xì)分領(lǐng)域,成為神經(jīng)網(wǎng)絡(luò)模型中不可或缺的一部分。注意力最早在機(jī)器翻譯領(lǐng)域提出[10],其參照人類(lèi)生物學(xué)知識(shí)進(jìn)行算法創(chuàng)新,允許模型動(dòng)態(tài)地關(guān)注有助于解決指定任務(wù)的輸入的某些部分。

        本文將通道注意力引入到語(yǔ)音情感識(shí)別網(wǎng)絡(luò)中,實(shí)現(xiàn)對(duì)情感信息含量高的通道進(jìn)行關(guān)注,提升網(wǎng)絡(luò)情感識(shí)別能力。

        2 語(yǔ)音情感識(shí)別基礎(chǔ)

        2.1 語(yǔ)音情感離散模型

        在語(yǔ)音情感離散模型中,情感被劃分為兩兩獨(dú)立的類(lèi)別,如1963年Tomkins將情感劃分為憤怒、害怕、苦惱、開(kāi)心、厭惡、驚奇、關(guān)愛(ài)、羞愧8種;1980年P(guān)lutchik劃分為害怕、憤怒、悲哀、開(kāi)心、厭惡、驚奇、容忍、期待8種。目前,廣泛采用的有四分類(lèi)法以及六分類(lèi)法,詳見(jiàn)表1。本文采用生氣、高興、悲傷、中性情感四分類(lèi)法。

        表1 離散情感劃分方法

        2.2 語(yǔ)音情感數(shù)據(jù)庫(kù)

        本文采用英文情感數(shù)據(jù)庫(kù)IEMOCAP,該數(shù)據(jù)庫(kù)在語(yǔ)音情感識(shí)別領(lǐng)域最為常用。

        IEMOCAP數(shù)據(jù)庫(kù)中包含5男5女的對(duì)話(huà)音頻、說(shuō)話(huà)內(nèi)容、對(duì)話(huà)視頻以及運(yùn)動(dòng)捕捉的記錄,本文采用單模態(tài)識(shí)別方法,僅使用數(shù)據(jù)庫(kù)中的音頻數(shù)據(jù)。數(shù)據(jù)庫(kù)一共包含5段對(duì)話(huà),每段對(duì)話(huà)由1男1女完成,分2種表達(dá)方式,分別是自發(fā)類(lèi)和表演類(lèi),其中自發(fā)類(lèi)表達(dá)方式更貼近現(xiàn)實(shí)中的自然發(fā)話(huà),本文實(shí)驗(yàn)僅采用自發(fā)類(lèi)情感數(shù)據(jù)。

        數(shù)據(jù)庫(kù)中每段對(duì)話(huà)根據(jù)情感異同進(jìn)一步被分為語(yǔ)句,對(duì)每條語(yǔ)句同時(shí)進(jìn)行離散維度和連續(xù)維度的打標(biāo)。對(duì)于離散維度,3個(gè)人同時(shí)標(biāo)注為生氣、高興、悲傷、中性、沮喪、興奮、害怕、驚喜、厭惡、其他中的一種,少數(shù)服從多數(shù);對(duì)于連續(xù)維度,2個(gè)以上標(biāo)注者在愉悅度、激活度、優(yōu)勢(shì)度3個(gè)維度進(jìn)行打標(biāo),最終結(jié)果取平均。本文進(jìn)行情感分類(lèi)任務(wù),采用離散標(biāo)簽。

        該數(shù)據(jù)庫(kù)語(yǔ)音總長(zhǎng)度為12 h,音頻采樣率為16 kHz,存儲(chǔ)為wav格式。本文采用情感四分類(lèi)法,即應(yīng)用數(shù)據(jù)庫(kù)中生氣、高興、悲傷、中性4種情感,其中高興情感為原數(shù)據(jù)庫(kù)中高興和驚喜2種情感合并而成。

        3 實(shí)驗(yàn)方法

        不同情感通過(guò)CNN進(jìn)行特征提取后,不同通道關(guān)注的不同的語(yǔ)音情感信息,不同通道所關(guān)注的信息對(duì)最終的情感識(shí)別作用大小不一,本文引入通道注意力對(duì)語(yǔ)音情感的通道維度進(jìn)行關(guān)注,原始語(yǔ)音情感識(shí)別模型如圖1,通道注意力模型圖如圖2。

        圖1 原始語(yǔ)音情感識(shí)別模型

        圖2 通道注意力模型

        具體實(shí)現(xiàn)方式為:將CNN特征提取網(wǎng)絡(luò)輸出的三維數(shù)據(jù),在頻率和時(shí)間2個(gè)維度進(jìn)行全局池化,池化為通道維度的一維數(shù)據(jù);之后通過(guò)2層全連接對(duì)通道進(jìn)行先降維再升維的操作;通過(guò)Sigmoid函數(shù)計(jì)算通道注意力分?jǐn)?shù),與CNN原始輸出特征進(jìn)行相乘實(shí)現(xiàn)特征在通道維度的注意力關(guān)注。

        本文對(duì)于計(jì)算注意力分?jǐn)?shù)中全局池化階段,分別嘗試平均池化和最大池化2種方式,分析2種池化方式對(duì)最終情感識(shí)別的影響。此外,為增加整體模型的表現(xiàn)力,本文還在通道注意力的基礎(chǔ)上引入殘差,實(shí)現(xiàn)在對(duì)通道進(jìn)行關(guān)注的同時(shí)保留原有的特征分布,引入殘差的通道注意力模型如圖3。

        圖3 引入殘差的通道注意力模型

        4 實(shí)驗(yàn)結(jié)果

        4.1 實(shí)驗(yàn)設(shè)置

        本文采用語(yǔ)譜圖作為網(wǎng)絡(luò)的輸入,提取語(yǔ)譜圖時(shí)幀長(zhǎng)設(shè)置15 ms,幀移設(shè)置為7 ms,mel譜維度設(shè)置為128。IEMOCAP數(shù)據(jù)庫(kù)中共包含5段音頻,本文以段為單位,進(jìn)行5折交叉驗(yàn)證實(shí)驗(yàn)。

        此外,因IEMOCAP數(shù)據(jù)庫(kù)中音頻不等長(zhǎng),本文在數(shù)據(jù)處理部分將數(shù)據(jù)時(shí)長(zhǎng)統(tǒng)一為7.5 s,短于7.5 s的音頻進(jìn)行補(bǔ)零操作,長(zhǎng)于7.5 s的音頻截短至7.5 s。

        4.2 評(píng)價(jià)指標(biāo)

        本文采用混淆矩陣來(lái)評(píng)價(jià)分類(lèi)性能,混淆矩陣示例見(jiàn)表2。

        表2 混淆矩陣示例

        混淆矩陣包括不加權(quán)召回率(Unweighted Accuraterecall,UA)與加權(quán)精度(Weighted Accuracy,WA)2個(gè)具體的評(píng)價(jià)指標(biāo),具體計(jì)算方式。

        (1)

        (2)

        4.3 實(shí)驗(yàn)結(jié)果

        根據(jù)表2中的方法,首先本文在計(jì)算通道注意力時(shí),全局池化分別嘗試采用平均池化和最大池化,并與未添加通道注意力時(shí)的模型進(jìn)行評(píng)價(jià)指標(biāo)的對(duì)比,結(jié)果如表3。

        表3 通道注意力交叉驗(yàn)證結(jié)果

        引入通道注意力之后,不論采用全局平均池化還是全局最大池化,相較未引入通道注意力時(shí)的模型都有明顯的性能提升,其中采用全局平均池化的通道注意力效果最為明顯,UA實(shí)現(xiàn)了2.58%的提升,WA實(shí)現(xiàn)了1.48%的提升。

        為增強(qiáng)網(wǎng)絡(luò)的表現(xiàn)能力,保留原始特征分布,本文在通道注意力的基礎(chǔ)上引入殘差結(jié)構(gòu),并調(diào)整殘差比重,實(shí)驗(yàn)結(jié)果如表4。

        引入殘差結(jié)構(gòu)后的通道注意力模型比未引入殘差結(jié)構(gòu)的通道注意力模型情感識(shí)別準(zhǔn)確率最高,其中采用全局平均池化且殘差比重為1的通道注意力模型,相較未引入殘差結(jié)構(gòu)時(shí),UA實(shí)現(xiàn)了0.17%的提高,WA實(shí)現(xiàn)了0.30%的提高。

        5 結(jié)論

        本文將通道注意力引入到語(yǔ)音情感識(shí)別深度學(xué)習(xí)網(wǎng)絡(luò)之中,在網(wǎng)絡(luò)學(xué)習(xí)的過(guò)程中實(shí)現(xiàn)對(duì)不同通道的關(guān)注。在計(jì)算通道注意力分?jǐn)?shù)時(shí)嘗試全局平均池化和全局最大池化2種方式,并引入殘差結(jié)構(gòu),對(duì)不同種通道注意力方式進(jìn)行探討。最終試驗(yàn)結(jié)果顯示,引入通道注意力后的語(yǔ)音情感識(shí)別準(zhǔn)確率得到明顯提升,這表明CNN輸出的不同通道包含的情感信息不同,引入注意力之后可以關(guān)注對(duì)最終情感識(shí)別作用較大的通道,從而提高整體模型的識(shí)別能力。

        猜你喜歡
        池化全局殘差
        基于緊湊型雙線(xiàn)性網(wǎng)絡(luò)的野生茵識(shí)別方法研究
        基于Sobel算子的池化算法設(shè)計(jì)
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        基于雙向GRU與殘差擬合的車(chē)輛跟馳建模
        量子Navier-Stokes方程弱解的全局存在性
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        99热成人精品国产免国语的| 亚洲国产精品无码久久| 樱桃视频影视在线观看免费| 日韩AVAV天堂AV在线| 91久久精品人妻一区二区| 日韩精品视频免费在线观看网站| av免费不卡国产观看| 成人无码一区二区三区网站| 国产91在线精品福利| 国产一区二区不卡av| 亚洲国产av无码精品| 99久久久无码国产精品试看| 色综合久久精品中文字幕| 女同在线视频一区二区| 蜜桃视频一区二区在线观看| 久久久久久久人妻无码中文字幕爆| 思思久久96热在精品不卡| 国产精品视频一区二区久久| 久久99精品久久久久婷婷| 无码粉嫩虎白一线天在线观看 | 国产精品无码一区二区在线看 | 国产精品女丝袜白丝袜 | 亚洲精品中字在线观看| 久久97久久97精品免视看| 久久99国产乱子伦精品免费| 国产伪娘人妖在线观看| 国产免费在线观看不卡| 精品少妇人妻av无码专区| 久久半精品国产99精品国产| 国产精品久久国产精麻豆| 摸丰满大乳奶水www免费| 99久久国产综合精品麻豆| 国产美女被遭强高潮露开双腿| 日本a级黄片免费观看| 国产精品人妻一码二码| 国产亚洲欧美日韩综合一区在线观看| 日韩av一区二区三区在线观看 | 中文人妻av久久人妻水蜜桃| 日本一区午夜艳熟免费| 日韩女优一区二区视频| 99视频在线国产|