亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策邊界優(yōu)化域自適應(yīng)的跨庫語音情感識別

        2023-02-24 05:00:52傅洪亮陶華偉
        計算機應(yīng)用 2023年2期
        關(guān)鍵詞:源域范數(shù)語音

        汪 洋,傅洪亮,陶華偉*,楊 靜,謝 躍,趙 力

        (1.糧食信息處理與控制教育部重點實驗室(河南工業(yè)大學),鄭州 450001;2.南京工程學院 信息與通信工程學院,南京 211167;3.東南大學 信息科學與工程學院,南京 210096)

        0 引言

        情感是人類智能的重要組成部分,賦予計算機從人類的語音信號中識別情感狀態(tài)的能力,是當前人工智能、模式識別、認知科學等領(lǐng)域的研究熱點[1]。目前大多數(shù)語音情感識別方法都是在單一語音庫上進行,然而在許多實際應(yīng)用中,測試語音數(shù)據(jù)的語種、發(fā)音風格、錄制環(huán)境等,往往與訓練語音數(shù)據(jù)存在極大的差異,導致訓練過的模型在測試數(shù)據(jù)上識別性能下降[2],這是典型的跨庫語音情感識別問題。因此,開發(fā)更具魯棒性的、能更好適應(yīng)測試數(shù)據(jù)變化的語音情感識別系統(tǒng)至關(guān)重要。

        近年來,研究者們從特征處理以及特征分布對齊角度,提出了許多跨庫語音情感識別算法,Zhang 等[3]提出一種遷移稀疏判別子空間學習(Transfer Sparse Discriminant Subspace Learning,TSDSL)方法,引入判別性學習和范數(shù)懲罰,學習不同語音庫間的域不變特征,并利用最近鄰圖以減小域間差異;Luo 等[4]介紹了一種基于非負矩陣分解(Nonnegative Matrix Factorization,NMF)的跨庫語音情感識別方法,使用最大均值差異(Maximum Mean Discrepancy,MMD)同時最小化兩個語料庫的邊際分布和條件分布差異;Zhang等[5]提出了一種聯(lián)合分布自適應(yīng)回歸(Joint Distribution Adaptive Regression,JDAR)方法,聯(lián)合考慮訓練和測試語音數(shù)據(jù)之間的邊際和條件概率分布來學習回歸矩陣,降低不同庫之間的特征分布偏差。隨著深度學習的發(fā)展,相關(guān)方法被提出,用于學習源域和目標域間的可鑒別特征:Deng 等[6]提出了半監(jiān)督自編碼器進行共性情感特征學習,提升跨庫語音情感識別性能;Gideon 等[7]使用對抗域自適應(yīng)的方法,讓模型在不同數(shù)據(jù)集中學到的表征相近,提高模型的泛化能力;Lee[8]提出一個基于三聯(lián)體網(wǎng)絡(luò)的新框架來學習跨多個語料庫的更廣義的特征;Abdelwahab 等[9]使用對抗性多任務(wù)訓練來提取訓練域和測試域之間的共同表示;Liu 等[10]基于深度卷積神經(jīng)網(wǎng)絡(luò)的特征提取模型和MMD 算法提取更具魯棒性的語音特征,以獲得更好的跨語料庫識別性能。上述方法雖取得了一定的效果,但仍存在部分問題。在傳統(tǒng)降維方法中,對于情感變化緩慢的語音信號,易丟失情感信息,而深度域自適應(yīng)方法則會導致無標簽的目標域語音庫樣本可鑒別性降低,致使模型決策邊界數(shù)據(jù)密度大,降低識別性能。

        通過對以上問題的分析,本文提出了一種基于決策邊界優(yōu)化域自適應(yīng)(Decision Boundary Optimized Domain Adaptation,DBODA)的跨庫語音情感識別方法。首先,在特征處理階段,使用一維卷積神經(jīng)網(wǎng)絡(luò)(One-Dimensional Convolutional Neural Network,1D-CNN)作為特征處理網(wǎng)絡(luò),在保留特征原有情感信息的同時,深入挖掘相鄰情感特征之間的潛在相關(guān)性,提升特征表征能力;其次,提出一種基于最大化核范數(shù)及均值差異(Maximum Nuclear-norm and Mean Discrepancy,MNMD)的域自適應(yīng)算法,在減小域間差異的同時,可以有效緩解深度域自適應(yīng)方法面臨的決策邊界數(shù)據(jù)密度較大的問題,增強無標簽數(shù)據(jù)的可鑒別性,繼而提升跨庫語音情感識別性能。

        1 基于決策邊界優(yōu)化域自適應(yīng)的跨庫語音情感識別

        1.1 跨庫語音情感識別模型

        基于決策邊界優(yōu)化域自適應(yīng)(DBODA)的跨庫語音情感識別模型整體框架如圖1 所示。使用卷積神經(jīng)網(wǎng)絡(luò)進行特征處理,經(jīng)過softmax 層獲得樣本屬于各個類別的概率,利用源域分類損失反向傳播訓練模型。為了讓模型從源域遷移到目標域,減小域間差異,將經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)處理的源域特征和目標域特征送入MNMD 模塊,執(zhí)行特征分布對齊操作,最后利用源域分類損失和特征分布對齊損失聯(lián)合回傳,對模型進行優(yōu)化,在1.2 節(jié)和1.3 節(jié)對特征處理和最大化核范數(shù)及均值差異進行詳細介紹。

        圖1 基于決策邊界優(yōu)化域自適應(yīng)的跨庫語音情感識別框架Fig.1 Cross-corpus speech emotion recognition framework based on decision boundary optimized domain adaptation

        1.2 特征處理

        現(xiàn)有研究[11-12]顯示,相較于傳統(tǒng)降維方法或深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),卷積神經(jīng)網(wǎng)絡(luò)在保留特征原有情感信息的同時能有效提升特征表征能力,因此本文采用一維卷積神經(jīng)網(wǎng)絡(luò)對語音特征進行處理,網(wǎng)絡(luò)模型如圖2所示。

        圖2 一維卷積神經(jīng)網(wǎng)絡(luò)框架Fig.2 Framework of 1D-CNN

        使用4 個一維卷積層構(gòu)成前端特征處理網(wǎng)絡(luò),由于降采樣層的使用會存在特征信息丟失的風險,因此僅在每個一維卷積層之后加入BatchNorm 層,將源域語音庫和目標域語音庫的特征分布歸一化,防止網(wǎng)絡(luò)過擬合的同時能提升特征表征的泛化性,使用ReLU(Rectified Linear Unit)激活函數(shù),在簡單的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置下進一步提升特征處理速度。與傳統(tǒng)降維方法或DNN 相比,卷積神經(jīng)網(wǎng)絡(luò)對全局特征進行處理,且單個卷積層上的多卷積核提取了多個局部表示,深入挖掘相鄰特征間的關(guān)聯(lián)性,更好地保留了情感信息。網(wǎng)絡(luò)中各層的參數(shù)如表1 所示(n為卷積核數(shù),k為卷積核尺寸,s為步長,b為批次,f為特征維度);經(jīng)全連接層將特征維度映射為情感類別后,應(yīng)用softmax 層將五類情感的預(yù)測輸出為[0,1]的概率,將源域的分類結(jié)果與標簽做交叉熵,得到源域的分類損失為:

        表1 一維卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)Tab.1 Model parameters of 1D-CNN

        其中:B表示訓練過程中的批次大小;yic取值為1 或0,當樣本屬于第c類情感類型則yic取1,否則取0;表示樣本屬于第c類情感類型的預(yù)測概率。

        1.3 最大化核范數(shù)及均值差異

        經(jīng)過有效的特征處理,跨庫語音情感識別仍面臨一個核心問題,即減小源域語音庫和目標域語音庫間的特征分布差異,在相關(guān)研究[4-5,10,13]中,MMD 方法已被廣泛用于域間差異度量,將源域和目標域特征映射到樣本空間上的連續(xù)函數(shù),求兩個特征分布映射后的函數(shù)值均值,作差得到兩個分布對應(yīng)函數(shù)的均值差異,可表達為如下形式:

        其中:H 為再生核希爾伯特空間,Φ為映射函數(shù),Ds代表源域的特征分布,Dt代表目標域的特征分布。

        然而最新研究[14]表明在利用MMD 進行域級特征分布對齊時,會使得特征一般化,丟失類間特性,大量的目標域樣本在經(jīng)過特征分布對齊后,聚集在模型的決策邊界上,導致目標域特征的可鑒別性下降。為了提升目標域特征的鑒別性,受批核范數(shù)最大化[15]工作的啟發(fā),本文提出了最大化核范數(shù)及均值差異(MNMD),改進后的損失函數(shù)可以表示為:

        其中:F表示特征處理網(wǎng)絡(luò);xs和xt分別表示源域和目標域樣本特征;‖·‖*代表求解核范數(shù)。

        將兩個域的特征映射函數(shù)Φ相減,得到的特征分布差異回傳,促進模型從源域遷移至目標域。在此過程中,對于有標簽的源域語音庫,最小化其分類損失,以優(yōu)化特征處理網(wǎng)絡(luò)。在無標簽的目標域語音庫上,最大化情感預(yù)測概率矩陣的核范數(shù),優(yōu)化模型決策邊界。目標域情感預(yù)測概率矩陣P∈RB×C可以表示為如下形式:

        其中:Pi,j為將樣本i預(yù)測為情感類型j的概率;B為批次大小,C為情感類別數(shù),B和C也分別代表了預(yù)測概率矩陣P的行數(shù)和列數(shù)。

        MNMD 通過最大化P的核范數(shù),約束其Frobenius 范數(shù)[16],以使得其香農(nóng)熵減小,消除預(yù)測不確定性,提升目標域樣本可鑒別性,其約束關(guān)系如下:

        其中:‖P‖*、‖P‖F(xiàn)、H(P)分別表示情感預(yù)測概率矩陣的核范數(shù)、Frobenius 范數(shù)和香農(nóng)熵。最大化核范數(shù)時,可以降低香農(nóng)熵,使得情感預(yù)測概率Pi,j趨近于0 或1 時,則預(yù)測的不確定性下降,模型決策邊界得到優(yōu)化。

        此外,MNMD 能夠在提升目標域情感特征鑒別性的同時保證預(yù)測的多樣性,情感預(yù)測概率矩陣的秩可以近似為其預(yù)測類別數(shù),其核范數(shù)為矩陣秩的凸包絡(luò)[15],則最大化其核范數(shù)可以有效保證情感預(yù)測的多樣性,避免了熵最小化導致的模型優(yōu)化偏移。因此MNMD 很好地緩解了模型從源域語音庫遷移到目標域語音庫過程中,低鑒別性的目標域樣本高密度堆積于決策邊界上的問題。

        2 實驗設(shè)置及結(jié)果分析

        2.1 語音情感庫及語音特征提取

        2.1.1 語音情感庫

        為了評估所提模型的性能,選用Berlin 語音情感庫[17]、eNTERFACE 語音情感庫[18]和CASIA 漢語語音情感庫[19]進行了大量的實驗。Berlin 庫是由柏林工業(yè)大學錄制的德語情感語音庫,也是語音情感識別中使用最為廣泛的語音庫之一,由10 位演員對10 個語句進行7 種情感的模擬得到,經(jīng)過聽辨測試后保留了535 條最為有效的語音;eNTERFACE 庫是一個視聽情感數(shù)據(jù)集,包含6 種情感,由來自14 個國家的42位受試者用英語進行錄制,共有1 287 條語音;CASIA 漢語情感語料庫由中國科學院自動化所錄制,共包括4 個專業(yè)發(fā)音人,1 200 條公開語音,6 種情感。

        2.1.2 語音特征提取

        參考文獻[3,5]的實驗設(shè)置,選取IS10 情感挑戰(zhàn)賽的規(guī)定特征集[20]作為模型輸入,其中共有1 582 維特征,包含34個基本的低級描述符(Low-Level Descriptors,LLDs),即梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)、線譜對(Line Spectrum Pair,LSP)和34 個相應(yīng)的delta 系數(shù),基于這些低級描述符,應(yīng)用21 個統(tǒng)計函數(shù)得到1 428 維特征,此外,對4 個基于音高的低級描述符與其相應(yīng)的delta 系數(shù),應(yīng)用19 個統(tǒng)計函數(shù),得到152 維特征,將音高的開始與持續(xù)時間作為最后2 個特征,構(gòu)成1 582 維語音特征。為了保持和其他研究者的一致性以及實驗的可復(fù)現(xiàn)性,本文使用openSMILE 開源工具[21]對原始語音進行特征提取。

        2.2 實驗設(shè)置及評價指標選取

        實驗根據(jù)3 個語音情感庫設(shè)計了6 組跨庫語音情感識別任務(wù),每組跨庫語音情感識別任務(wù)選取訓練語音庫和測試語音庫的共同情感進行評估,具體任務(wù)設(shè)置如表2 所示。

        表2 跨庫語音情感識別任務(wù)設(shè)置Tab.2 Cross-corpus speech emotion recognition task setting

        在6 個任務(wù)中,將e2B、B2e、C2e、e2C、C2B、B2C 的學習率和batchsize 分別設(shè)置為{0.001,0.01,0.01,0.01,0.01,0.001}與{16,16,16,16,16,16},迭代輪次設(shè)置為2 000。采用非加權(quán)平均召回率(Unweighted Average Recall,UAR)作為評價指標,對不同模型的識別效果進行評估。

        2.3 實驗結(jié)果及分析

        2.3.1 香農(nóng)熵驗證實驗

        為了驗證模型是否降低了預(yù)測概率矩陣的香農(nóng)熵,有效提升預(yù)測樣本鑒別性,將MMD 和MNMD 在6 組跨庫識別任務(wù)中迭代訓練1 000 輪的熵值變化繪制如圖3。

        圖3 MMD和MNMD在迭代訓練中的香農(nóng)熵變化比較Fig.3 Comparison of Shannon entropy change of MMD and MNMD during iterative training

        圖中陰影部分和曲線分別表示熵值變化的95%置信區(qū)間與其擬合曲線。從圖中可以看出,在6 組跨庫識別任務(wù)中,相較于MMD,MNMD 都有效降低了預(yù)測概率矩陣的香農(nóng)熵,特別是在e2B、C2e 和B2C 任務(wù)中,極大地提升了目標域樣本的鑒別性,降低了預(yù)測的不確定度,證實了最大化核范數(shù)能有效緩解決策邊界目標域樣本密度高的問題。

        2.3.2 消融實驗

        為了進一步驗證模型的合理性,清晰地觀察所提域自適應(yīng)方法的效果和對MMD 改進后的提升,實驗設(shè)置了消融模型進行對比,分別為:

        1)O-CNN(Only CNN):不使用任何域自適應(yīng)手段,直接將源域訓練后的模型應(yīng)用于目標域。

        2)CNN+MMD:使用1D-CNN 和原始的MMD 分別進行特征提取和源域目標域的特征分布對齊。

        3)CNN+MNMD:即所提模型DBODA。

        將各個模型在實驗中迭代訓練得到的準確率(UAR)繪制成箱形圖,如圖4 所示。

        通過圖4 中對各消融實驗?zāi)P驮诓煌蝿?wù)中的識別率分析可以看出,在全部的6 個跨庫語音情感識別任務(wù)中,相較于原始的深度學習方法,使用MMD 減小域間差異,都獲得了一定的性能提升;同時,所提MNMD 經(jīng)過對MMD 的改進在各任務(wù)上都獲得了最優(yōu)的識別結(jié)果,在e2B 任務(wù)中獲得了最大的識別率均值提升,并在e2B、B2e 和C2B 任務(wù)中顯著提升了模型識別的穩(wěn)定性。將消融實驗中各模型的準確率列于表3,可以看出,所提模型的識別性能在6 個跨庫識別任務(wù)中均獲得了最優(yōu)表現(xiàn),平均識別率相較于其他消融實驗?zāi)P头謩e領(lǐng)先5.42 和4.29 個百分點,消融實驗結(jié)果證實了DBODA的合理性。為進一步說明所提MNMD 在對MMD 進行優(yōu)化后,能夠有效降低決策邊界上的數(shù)據(jù)密度,在e2B 和B2e 任務(wù)中,將CNN+MMD 模型和DBODA 模型訓練后的特征使用t-SNE 繪制為特征分布圖如圖5,可以看出DBODA 模型處理后的特征獲得了更好的特征分布對齊效果,類間數(shù)據(jù)密度低,實現(xiàn)了對決策邊界的優(yōu)化。

        表3 消融實驗中各模型的UAR 單位:%Tab.3 UAR of each model in ablation experiment unit:%

        圖4 不同任務(wù)中各模型的箱形圖Fig.4 Box plots of each model in different tasks

        圖5 e2B和B2e任務(wù)中的特征分布Fig.5 Distribution of features in tasks e2B and B2e

        2.3.3 與其他算法對比

        為了驗證所提模型在跨庫語音情感識別領(lǐng)域的先進性,將它與基線及最新算法進行性能對比,這幾種算法分別為:

        1)支持向量機(Support Vector Machine,SVM)。選擇線性核函數(shù),C值設(shè)置為0.1。

        2)遷移稀疏判別子空間學習(TSDSL)[3]。引入鑒別性學習和?1,2范數(shù)正則化,學習鑒別性特征并構(gòu)造了最近鄰圖作為距離度量手段,以提升源域和目標域的相似度。

        3)聯(lián)合分布自適應(yīng)回歸(JDAR)[5]。通過聯(lián)合考慮訓練語音與測試語音間的邊際概率分布和條件概率分布來學習回歸矩陣,緩解特征分布偏差。

        4)域?qū)股窠?jīng)網(wǎng)絡(luò)(Domain Adversarial Neural Network,DANN)[9]。特征提取器采用了四層隱層DNN 結(jié)構(gòu),情感分類器和域鑒別器均使用兩層隱層DNN結(jié)構(gòu)。

        5)深度域自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)(Deep Domain?Adaptive Convolutional Neural Network,DDACNN)[10]。模型采用經(jīng)典LeNet架構(gòu),嘗試在不同全連接層使用MMD以對齊特征分布,最終在第一層全連接層納入MMD獲得了最優(yōu)識別結(jié)果。

        6)深度自編碼器子域自適應(yīng)(Depth Autoencoder Subdomain Adaptation,DASA)[22]。使用自編碼器進行特征處理,在編碼和解碼階段均使用五層隱層DNN 結(jié)構(gòu),并結(jié)合子域自適應(yīng)實現(xiàn)細粒度的特征分布對齊。

        將與傳統(tǒng)算法及特征降維算法的識別精度(UAR)對比列于表4,與深度域自適應(yīng)算法的識別精度(UAR)對比列于表5。

        表4 與傳統(tǒng)算法及特征降維算法的UAR對比 單位:%Tab.4 UAR comparison with traditional and feature reduction algorithms unit:%

        表5 與深度域自適應(yīng)算法的UAR對比 單位:%Tab.5 UAR comparison with deep domain adaption algorithms unit:%

        可以看出,在全部的6 個任務(wù)中,相較于傳統(tǒng)算法及特征降維算法,所提模型在e2B、B2e、C2e、e2C 和B2C 任務(wù)上的識別率分別領(lǐng)先了4.25~20.99、3.19~8.86、3.42~10.98、4.79~9.89、4.44~5.64 個百分點,平均識別率領(lǐng)先3.8~11.01 個百分點,展現(xiàn)出了卷積神經(jīng)網(wǎng)絡(luò)良好的特征處理能力。相較于深度域自適應(yīng)算法,所提模型在e2B、B2e、C2e、e2C 和B2C 任務(wù)上的識別率分別領(lǐng)先了0.32~3.06、1.22~6.82、4.58~7.5、0.69~5.39、0.15~4.94 個百分點,平均識別率領(lǐng)先1.68~5.48個百分點,體現(xiàn)了所提算法經(jīng)過對原有域自適應(yīng)算法改進后,跨庫語音情感識別模型的泛化性得到了提升。但在C2B任務(wù)中識別率低于最先進算法,從圖3(b)中也可看出,使用MMD進行域?qū)R,也能在該任務(wù)上有效降低香農(nóng)熵,實現(xiàn)與MNMD相近的效果,說明MNMD 的普適性需進一步優(yōu)化??傮w而言,所提決策邊界優(yōu)化域自適應(yīng)模型在對齊源域和目標域特征分布的同時,緩解了使用MMD進行域?qū)R帶來的鑒別性喪失問題,提升了目標域樣本的鑒別性,優(yōu)化了模型決策邊界,提升了模型識別性能。

        3 結(jié)語

        為了解決跨庫語音情感識別問題,本文提出一種新的基于決策邊界優(yōu)化域自適應(yīng)(DBODA)模型,旨在將源域語音庫學習到的知識轉(zhuǎn)移到目標域語音庫,新的域自適應(yīng)方法MNMD 在進行源域與目標域特征分布對齊的同時,考慮了目標域樣本的鑒別性和預(yù)測多樣性,在3 個基準數(shù)據(jù)集上進行的實驗驗證了模型的性能提升。在后續(xù)的研究中,將針對域自適應(yīng)導致目標域樣本鑒別性下降的問題,進一步改進域自適應(yīng)算法,增強泛化性,將模型應(yīng)用于更多的語音情感庫中。

        猜你喜歡
        源域范數(shù)語音
        多源域適應(yīng)方法綜述
        基于參數(shù)字典的多源域自適應(yīng)學習算法
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        基于加權(quán)核范數(shù)與范數(shù)的魯棒主成分分析
        矩陣酉不變范數(shù)H?lder不等式及其應(yīng)用
        可遷移測度準則下的協(xié)變量偏移修正多源集成方法
        一類具有準齊次核的Hilbert型奇異重積分算子的范數(shù)及應(yīng)用
        亚洲综合色区无码专区| 女同中文字幕在线观看| 国产激情一区二区三区不卡av| 久久不见久久见www日本网| 亚洲伊人色欲综合网| 六月丁香久久| 天堂av在线一区二区| 亚洲乱码中文字幕综合久久| 特黄做受又硬又粗又大视频小说| 国产成人www免费人成看片| 国产精品久久这里只有精品| 亚洲综合中文日韩字幕| 少妇夜夜春夜夜爽试看视频 | 免费人成视频网站在在线| 无人高清电视剧在线观看| 国产亚洲精品自在久久蜜tv| 日本成人在线不卡一区二区三区| 亚洲av免费看一区二区三区| 亚洲国产天堂久久综合网| 人妻体内射精一区二区三四| 国产午夜成人久久无码一区二区| 久久中文字幕日韩无码视频| 最全精品自拍视频在线| 人妻少妇被粗大爽.9797pw| 无套内谢的新婚少妇国语播放| 日韩久久av电影| 一区二区三区四区黄色av网站 | 天堂а√在线中文在线新版| 亚洲欧美日韩一区二区在线观看| 精品不卡视频在线网址| 青青草在线免费视频播放| 女人被狂c躁到高潮视频| 又粗又大又黄又爽的免费视频 | 久久精品一区二区三区蜜桃| 欧洲美女黑人粗性暴交| 亚洲 成人 无码 在线观看| 国产一区二区三区探花| 无码人妻久久一区二区三区蜜桃| 宝贝把腿张开我要添你下边动态图| baoyu网址国产最新| 国产免费精品一品二区三|