趙小蕾 許喜斌
1(中山大學(xué)新華學(xué)院信息科學(xué)學(xué)院 廣東 廣州 510520)2(廣東工程職業(yè)技術(shù)學(xué)院 廣東 廣州 510520)
語音情感識別(Speech Emotion Recognition,SER)是模式識別領(lǐng)域的研究熱點,是新型人機交互系統(tǒng)及人工智能發(fā)展不可或缺的重要技術(shù)[1]。SER技術(shù)主要分為語音信號采集、特征提取和情感識別三個階段[2],其中關(guān)鍵的模塊是特征提取和情感識別模塊。針對特征提取技術(shù)研究者們多年來進(jìn)行了細(xì)致的分析和研究,情感特征主要包括韻律特征、頻域特征和音質(zhì)特征[3],這些特征在傳統(tǒng)語音情感識別中起到關(guān)鍵作用,輔以一定的特征選擇算法針對特定數(shù)據(jù)集可以取得優(yōu)異識別性能。值得一提的是,學(xué)者們嘗試將時頻兩域的情感特征進(jìn)行結(jié)合,提出了語譜圖特征提取方法,并應(yīng)用于語音識別[4]和語音情感識別相關(guān)領(lǐng)域[5]。在識別模型研究方面,從淺層學(xué)習(xí)的支持向量機(SVM)[6]、隱馬爾可夫模型(HMM)[7]、高斯混合模型(GMM)[8],到深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9]、深度置信網(wǎng)絡(luò)(DBN)[11]和遞歸神經(jīng)網(wǎng)絡(luò)等(RNN)[10]。與傳統(tǒng)的機器學(xué)習(xí)模型相比,深度學(xué)習(xí)能夠提取高層的特征,近年來在計算機視覺領(lǐng)域具有出色的表現(xiàn),其中卷積神經(jīng)網(wǎng)絡(luò)在語音識別、圖像識別等領(lǐng)域取得了前所未有的成功[11]。許多研究者們也逐步將深度學(xué)習(xí)引入到SER任務(wù)中。黃晨晨等[11]利用深度信念網(wǎng)絡(luò)自動提取語音情感特征,合并連續(xù)多幀語音情感特征構(gòu)造一個高維的特征,最后輸入到支持向量機(SVM)進(jìn)行分類。Mao等[12]基于CNN網(wǎng)絡(luò)提取顯著特征,從而提升復(fù)雜場景下的SER情感識別性能,實驗證明該方法具有較高的魯棒性和穩(wěn)定性。Huang等[13]訓(xùn)練了一個改進(jìn)的CNN模型,能夠提取顯著語音情感特征,進(jìn)而提高情感識別率。Lee等[14]提取了高層特征并使用RNN進(jìn)行預(yù)測,在IEMOCAP數(shù)據(jù)庫上取得62%的識別準(zhǔn)確率。Niu等[15]提出了數(shù)據(jù)預(yù)處理算法,通過改變頻譜圖的大小獲得更多的數(shù)據(jù),并輸入到深度神經(jīng)網(wǎng)絡(luò)模型AlexNet中,在IEMOCAP數(shù)據(jù)集上獲得了48.8%平均準(zhǔn)確率。Fayek等[16]研究了適用于SER任務(wù)的前饋神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)及其變體,并在副語言語音識別中驗證了深度學(xué)習(xí)結(jié)構(gòu)的有效性。文獻(xiàn)[17]提出了一種利用卷積神經(jīng)網(wǎng)絡(luò)識別語譜圖特征的語音情感識別方法,首先提取灰度語譜圖特征,隨后利用Gabor小波和分塊PCA進(jìn)行特征再提取和降維,最后送入CNNs進(jìn)行識別分類,取得了不錯的效果。
雖然深度學(xué)習(xí)在SER中取得了一定的成績,但以往的傳統(tǒng)語音情感識別(淺層學(xué)習(xí))也并非沒有任何價值,淺層學(xué)習(xí)模型訓(xùn)練速度快,參數(shù)少,所提取的特征具有針對性,而深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,需要大量的訓(xùn)練數(shù)據(jù),調(diào)參復(fù)雜。文獻(xiàn)[18]指出深度學(xué)習(xí)不需要人工參與進(jìn)而缺乏先驗知識的引導(dǎo),故提出使用淺層學(xué)習(xí)引導(dǎo)深度學(xué)習(xí)的方法,說明淺層學(xué)習(xí)仍有特定意義。
對于語音情感識別問題雖然是大數(shù)據(jù)的時代,但獲取的有效數(shù)據(jù)卻有限,而淺層學(xué)習(xí)在小樣本數(shù)據(jù)集上具有優(yōu)勢,能否突破數(shù)據(jù)集的數(shù)量限制,充分發(fā)揮二者的優(yōu)勢,形成優(yōu)勢互補,是值得研究的課題。因此,本文提出了融合深度學(xué)習(xí)和淺層學(xué)習(xí)且適用于小樣本語音的語音情感識別的模型。構(gòu)建了兩種識別模型:傳統(tǒng)語音識別——淺層學(xué)習(xí)和深度學(xué)習(xí)框架——PCANET模型[19],最后通過有效決策層融合兩類模型。研究目標(biāo)是充分利用淺層學(xué)習(xí)和深度學(xué)習(xí)的優(yōu)勢以避免不足,提高識別率和魯棒性。傳統(tǒng)聲學(xué)特征具有針對性但主觀性較強,深度學(xué)習(xí)網(wǎng)絡(luò)可以自動提取特征,但會受樣本數(shù)量和參數(shù)影響,通過有效的決策融合方法,可以綜合利用二者的優(yōu)勢,得到穩(wěn)定的高識別率。
本文方法框架流程如圖1所示,主要分為三個模塊:淺層學(xué)習(xí)特征提取模塊、深度學(xué)習(xí)特征提取模塊、分類決策融合模塊。淺層學(xué)習(xí)特征提取模塊,使用人工特征提取方法,并通過特征選擇,選取有效的特征;深度學(xué)習(xí)特征提取模塊,鑒于PCANET在圖像處理上具有絕對優(yōu)勢,故獲取具有豐富情感信息的灰度語譜圖作為輸入,最后經(jīng)過有效的決策融合取得最終結(jié)果。
圖1 本文方法框架流程
PCANET網(wǎng)絡(luò)輸入為灰度語譜圖,故深度學(xué)習(xí)特征提取模塊涉及兩部分:灰度語譜圖生成算法以及PCANET網(wǎng)絡(luò)計算過程。
語譜圖的生成流程如圖2所示。
圖2 語譜圖獲取流程
具體步驟描述如下:
步驟1對語音情感信號加窗分幀。假設(shè)第i個語音情感信號用si表示,則加窗分幀后用si(m,n)表示,m為分幀的個數(shù),n為幀長,加窗采用漢明窗,本文實驗采用的窗長為1 024。
步驟2加窗并進(jìn)行傅里葉變換。計算傅里葉系數(shù)Xi(m,n):
(1)
式中:N代表序列長度;k代表序數(shù)。
步驟3采用對數(shù)能量方法生成灰度語譜圖。設(shè)在點(a,b)上的灰度值為gi(a,b):
gi(a,b)=log10|Xi(m,n)|
(2)
步驟4采用最大最小歸一化方法對語譜圖進(jìn)行歸一化。得到歸一化灰度語譜圖Gi(a,b):
(3)
式中:gmax(a,b)、gmin(a,b)分別為語譜圖Gi(a,b)灰度級中的最大值和最小值。
步驟5將語譜圖量化成0~255的灰度級圖像Gi′(a,b)。
步驟2第一階段PCA處理。假設(shè)第一階段PCA濾波參數(shù)為L1,用來表示PCA中對特征值排序后的前L1個特征值。隨后取L1個最大的特征值對應(yīng)的特征向量組成L1個PCA卷積核。用PCA對樣本集X進(jìn)行計算:
(4)
s.t.VTV=IL1
式中:IL1為L1×L2的單位矩陣。
對應(yīng)的PCA濾波器如下:
(5)
式中:matk1k2為將向量從Rk1k2空間投影到Rk1×k2空間的函數(shù);ql(XXT)表示計算XXT的第l個主成分特征向量。
通過訓(xùn)練將樣本變換到新的空間:
(6)
步驟3第二階段PCA處理。在步驟2得到的卷積圖像上再次進(jìn)行相似的操作。此次取L2個最大的特征值對應(yīng)的特征向量,得到L2個PCA卷積核。得到的特征變換為:
(7)
步驟4輸出層處理。為了使特征表達(dá)能力更強,使用赫維賽德階躍函數(shù)O(x)對特征值進(jìn)行二值化[20],最終獲得的二值化及加權(quán)處理后的結(jié)果如下:
(8)
將輸出S分為B塊,每個塊分別進(jìn)行直方圖統(tǒng)計,得到的最終特征:
(9)
式中:fi表示第i個語譜圖經(jīng)過PCANET網(wǎng)絡(luò)得到的特征表示;Bh表示分塊直方圖統(tǒng)計。
為了實現(xiàn)淺層學(xué)習(xí)和深度學(xué)習(xí)模型的優(yōu)勢互補,采用了決策層融合方法。SVM分類器在小樣本語音情感識別中具有廣泛的應(yīng)用,PCANET模型原采用SVM,可取得較佳效果[15],投票機制是決策層融合常用有效方法,且SVM采用投票機制。綜上分析本文基于投票決策提出了有效的差異性投票機制,差異性投票機制體現(xiàn)在兩個方面:兩類特征的識別精度差異性,各自分類器類別之間的差異性。綜合兩個SVM分類器統(tǒng)計總票數(shù),判定得票最高的類別為最終決策的類別。本文設(shè)采用深度學(xué)習(xí)特征的SVM分類器為D-SVM,采用淺層學(xué)習(xí)的分類器為S-SVM。
步驟2計算每個模型類別間的差異性信息。對于識別N個類別的“一對一”SVM分類,有N(N-1)/2個子分類器,各子分類器根據(jù)到各個類別的距離進(jìn)行兩兩投票。為了保證票數(shù)的有效性,舍棄距離小于一定閾值的無效投票,描述如下:(1)計算閾值t(取樣本所有子分類器的平均距離值);(2)舍去兩兩子分類器距離小于t的投票。
步驟3計算N個類別的最終投票分別為V1,V2,…,VN,其中Vi=Dd×vdi+Ds×vsi,vdi為深度學(xué)習(xí)第i個類別的有效投票數(shù),vsi為淺層學(xué)習(xí)第i個類別的有效投票數(shù)。最終結(jié)果為result=max(V1,V2,…,VN)。
在兩個數(shù)據(jù)庫上進(jìn)行驗證,其具體信息如下:
數(shù)據(jù)庫1:柏林?jǐn)?shù)據(jù)庫(EMO-DB)。由柏林工業(yè)大學(xué)錄制的德語情感語音庫包含535個語音數(shù)據(jù),采樣率為16 kHz,16 bit量化,由10個不同的人(5男5女)錄制而成,包含7種不同的情感,分別為中性、害怕、厭惡、喜悅、厭煩、悲傷和生氣。
數(shù)據(jù)庫2:課題組自行錄制的語音情感語音數(shù)據(jù)庫SPSED[21]。包含6種情感:高興、傷心、驚奇、生氣、害怕和厭惡。由5男6女錄制,每人錄制每種情感的15個語料(本文選用5男5女)。
實驗方案:采用5折交叉驗證方法,將情感語料分成5份,4份用于訓(xùn)練,剩下的一份作為測試,經(jīng)過5次輪換訓(xùn)練及測試,取平均值作為最終的識別結(jié)果。
將語譜圖作為PCANET網(wǎng)絡(luò)的輸入。給出語譜圖示例圖(部分),圖像經(jīng)過降采樣最終大小為384×301,如圖3和圖4所示,可以看出不同情感的語譜圖信息具有顯著的差異性。
圖4 EMO-DB情感語音庫灰度語譜圖(部分)
針對淺層學(xué)習(xí)(人工統(tǒng)計)特征識別方法,為了觀察特征降維后特征大小對識別率的影響,在兩個數(shù)據(jù)庫上進(jìn)行實驗,求得各情感類別識別率平均值,最初提取的特征為能量相關(guān)、基音頻率相關(guān)及共振峰系數(shù)等101維特征,并采用序列浮動前向選擇(SFFS)方法進(jìn)行特征選擇,實際降維到61維。
對PCANET網(wǎng)絡(luò)的各參數(shù)設(shè)置,通過實驗給出對比,并確定最終的參數(shù)值。為了觀察PCANET網(wǎng)絡(luò)中塊大小的選取對識別率的影響,在兩個數(shù)據(jù)庫上,塊大小分別取3×3、5×5、7×7、9×9、11×11(單位:像素,通常選用奇數(shù)),測試本文方法的平均識別率,固定其他參數(shù)L1=L2=8,重疊率為50%,直方圖塊大小為兩階段分別取2,其結(jié)果如圖5所示。可以看出,塊大小(實際為選取的窗口大小)為5×5時可以獲得最佳效果。
圖5 塊大小參數(shù)對識別率的影響
為了觀察濾波器選取參數(shù)對識別率的影響,測試了不同取值下的識別率,如圖6所示。固定其他參數(shù)塊大小選取5×5,直方圖塊大小選取2,重疊率為50%??梢钥闯觯瑑呻A段都選擇8時效果為最佳。實驗也測試了直方圖塊大小和重疊率的影響,選擇2為最佳,重疊率在30%以上已經(jīng)可以取得較好效果,為了保險起見本文選擇50%。
圖6 濾波器個數(shù)選擇對識別率的影響
為了驗證融合淺層學(xué)習(xí)和深度學(xué)習(xí)的有效性,測試僅使用淺層學(xué)習(xí)識別方法(傳統(tǒng)方法中的人工統(tǒng)計特征,記為方法1)、深度學(xué)習(xí)識別方法(記為方法2)、本文方法,實驗結(jié)果如表1所示??梢钥闯觯趦蓚€數(shù)據(jù)庫上方法2識別率明顯高于方法1,說明采用語譜圖+PCANET提取特征+SVM方法較傳統(tǒng)人工統(tǒng)計特征+SVM方法更佳。而本文方法較方法2取得了更高的識別率,在SPSED上較融合之前的方法2提高了2.54個百分點,較方法1提高了6.1個百分點;在柏林?jǐn)?shù)據(jù)庫上,本文方法較方法2提高了2.93個百分點,較傳統(tǒng)方法提高了3.86個百分點。實驗結(jié)果表明,本文方法是有效的,這是因為其充分利用了兩種識別模型的優(yōu)勢,豐富了情感信息的獲取途徑。
表1 融合方法有效性驗證實驗 %
為了進(jìn)一步驗證本文決策層融合方法的有效性,分別與下述方法進(jìn)行比較實驗:特征層融合方法(方法1),該方法采用特征級聯(lián),然后使用SVM分類器識別,以及常用的決策融合方法:線性加權(quán)融合方法(方法2,權(quán)重取0.5)、證據(jù)理論融合方法(方法3)、貝葉斯融合方法(方法4)。為了驗證融合淺層學(xué)習(xí)和深度學(xué)習(xí)方法的有效性,與較有代表性的語音情感識別方法進(jìn)行了對比,如文獻(xiàn)[11]和文獻(xiàn)[13]。對比實驗結(jié)果如表2所示??梢钥闯觯疚姆椒ㄈ〉昧俗罴呀Y(jié)果。方法1是特征級聯(lián)融合方法,方法2-方法4的特征決策融合方法均比方法1略高些,說明采用決策融合方法更為合理。本文方法與文獻(xiàn)[11]和文獻(xiàn)[13]相比也取得了明顯的優(yōu)勢,驗證了本文方法在小樣本數(shù)據(jù)集上可以取得較好的效果。
表2 與其他方法的對比實驗 %
本文分析了淺層學(xué)習(xí)和深度學(xué)習(xí)模型的優(yōu)缺點,為了實現(xiàn)兩種模型的優(yōu)勢互補提出了淺層學(xué)習(xí)和深度學(xué)習(xí)模型決策層融合方法,并應(yīng)用于小樣本語音情感識別中。淺層學(xué)習(xí)采用傳統(tǒng)的人工統(tǒng)計特征,提取具有針對性的有效特征,深度學(xué)習(xí)階段獲取了情感語音的語譜圖信息,并將語譜圖按照圖像處理方式,使用PCANET提取特征,將兩類特征分別輸入到SVM識別模型中,隨后使用提出的有效差異性投票機制的決策融合方法進(jìn)行融合。在兩個數(shù)據(jù)庫上進(jìn)行驗證實驗,對比了特征層、決策層常用融合策略以及具有代表性的語音情感識別方法,本文方法取得了相對較高的識別率。下一步工作是研究利用淺層學(xué)習(xí)的先驗知識引導(dǎo)深度學(xué)習(xí)端到端的識別策略。