趙 鑫
(山西鐵道職業(yè)技術(shù)學(xué)院,山西 太原030013)
語(yǔ)言作為人類(lèi)溝通交流的工具,其聲學(xué)信息和語(yǔ)言特性中都蘊(yùn)含著大量的可挖掘情感信息。語(yǔ)音情感識(shí)別在諸多領(lǐng)域,特別是在心理疏導(dǎo)、抑郁癥、孤獨(dú)癥等疾病的治療,安全,教育等領(lǐng)域中都起到了極大的作用[1]。如何提高對(duì)語(yǔ)音情感的有效識(shí)別,使人機(jī)交互能更好的為人類(lèi)服務(wù),也成為語(yǔ)音識(shí)別領(lǐng)域新的研究方向。
隨著語(yǔ)音情感識(shí)別研究的逐漸深入,語(yǔ)音情感識(shí)別也從傳統(tǒng)的機(jī)器學(xué)習(xí)向深度神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)變。近年來(lái),已有一些學(xué)者利用人工智能、機(jī)器學(xué)習(xí)的方法,在語(yǔ)音情感的處理與分析領(lǐng)域做了一定研究。其中王宇鵬等人提出可以通過(guò)卷積循環(huán)神經(jīng)網(wǎng)絡(luò)提取語(yǔ)譜圖特征后與聲學(xué)特征進(jìn)行拼接識(shí)別,其識(shí)別率優(yōu)于單一特征[2]。陶建華等人用權(quán)重衰減型神經(jīng)網(wǎng)絡(luò)和分類(lèi)回歸樹(shù)的兩個(gè)模型,證明了情感韻律與特征之間存在有密切聯(lián)系[3]。高瑩瑩等人從情感的多視角出發(fā),從不同的方面對(duì)語(yǔ)音中情感產(chǎn)生的過(guò)程和衍化進(jìn)行刻畫(huà)[4]。盡管通過(guò)深度學(xué)習(xí)來(lái)學(xué)習(xí)數(shù)據(jù)的高層抽象信息,已成功應(yīng)用于語(yǔ)音識(shí)別和圖像處理,但在語(yǔ)音情感識(shí)別方面還存在很大的研究空間。
本文提出一種極限學(xué)習(xí)機(jī)多層網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別方法,該方法通過(guò)對(duì)語(yǔ)音信號(hào)自編碼獲取高層情感特征,避免繁瑣的手動(dòng)提取特征的過(guò)程。訓(xùn)練過(guò)程中,利用語(yǔ)音情感隱含特征向量構(gòu)建特征空間,提取、選擇多個(gè)不同情緒的語(yǔ)音情感特征向量,用極限學(xué)習(xí)機(jī)深度自編碼網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)音情感特征,以此對(duì)語(yǔ)音情感起一定的分類(lèi)識(shí)別作用,如圖1所示。
圖1 語(yǔ)音情感識(shí)別過(guò)程圖
現(xiàn)有研究表明,日常生活中,人與人之間的交流不僅傳遞信息,還會(huì)通過(guò)語(yǔ)氣和語(yǔ)調(diào)的變化表達(dá)自己的情感。語(yǔ)音的頻率特征和音質(zhì)特征都會(huì)發(fā)生一定的變化,其中所隱含的情感特征也不同。其中,頻率特征首要考慮基頻、均方根短時(shí)能量和過(guò)零率三個(gè)衡量指標(biāo)。音質(zhì)特征涉及諧波信噪比、對(duì)數(shù)頻率功率系數(shù)(Log Frequency Power Coefficients,簡(jiǎn)稱(chēng)LFPC)、Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,簡(jiǎn)稱(chēng)MFCC)等。根據(jù)已有研究顯示,將對(duì)數(shù)頻率功率系數(shù)作為特征參數(shù)對(duì)5種基礎(chǔ)情感的識(shí)別率更高。因此,在本文方法模型的參數(shù)選擇上,設(shè)置并提取以1~12維LFPC系數(shù)、基頻等共16種短時(shí)特征為參數(shù)。同時(shí),通過(guò)提取對(duì)長(zhǎng)語(yǔ)音進(jìn)行裁剪,提取其短時(shí)特征及其一階倒數(shù)完成情感特征統(tǒng)計(jì)量的構(gòu)建,其中包括最大值、最小值、均值等10種,共計(jì)320個(gè)語(yǔ)音情感特征量,并從中優(yōu)先選擇前10個(gè)最有價(jià)值的特征,如表1所示。
表1 語(yǔ)音情感特征量等級(jí)排列前10
本文提出采用多層特征提取的極限學(xué)習(xí)機(jī)深度自編碼算法,如圖2所示。與傳統(tǒng)貪心學(xué)習(xí)框架不同,本文的自編碼網(wǎng)絡(luò)訓(xùn)練分為兩個(gè)階段,前一階段采用基于多層極限學(xué)習(xí)機(jī)的自編碼來(lái)提取輸入數(shù)據(jù)的高層稀疏特征,第二階段則使用原始極限學(xué)習(xí)完成最終的分類(lèi)識(shí)別。
圖2 分層極限學(xué)習(xí)機(jī)算法框架
首先,先將提取的語(yǔ)音特征作為輸入數(shù)據(jù)轉(zhuǎn)換到ELM特征空間中,通過(guò)多層極限學(xué)習(xí)機(jī)自編碼網(wǎng)絡(luò)學(xué)習(xí)獲得高層稀疏特征。每個(gè)隱含層輸出的數(shù)學(xué)表達(dá)式為:
Hi=g(Hi-1·β)
(1)
其中,Hi是第i層的輸出(i∈[1,K]);g(·)表示隱含層激勵(lì)函數(shù);β代表輸出權(quán)重。在數(shù)據(jù)特征進(jìn)行分層極限學(xué)習(xí)機(jī)訓(xùn)練之后,最后一層輸出的特征將作為原始ELM回歸分析的輸入。同時(shí),為了加速學(xué)習(xí)速度,輸入之前要將第K層的輸出數(shù)據(jù)隨機(jī)打亂。
本實(shí)驗(yàn)采用的語(yǔ)音數(shù)據(jù)選自中國(guó)科學(xué)院自動(dòng)化研究中文語(yǔ)音情感數(shù)據(jù)庫(kù),采用5折交叉驗(yàn)證方法,選取5類(lèi)基本情感進(jìn)行識(shí)別,共選取5000條語(yǔ)句,每種情感包含1000個(gè)短句,對(duì)于每種情感按3∶2隨機(jī)選取600條進(jìn)行訓(xùn)練,400條進(jìn)行測(cè)試。
在特征學(xué)習(xí)階段,需要指定自編碼的層數(shù)和隱含層的激勵(lì)函數(shù)。在實(shí)驗(yàn)過(guò)程中我們發(fā)現(xiàn),提取的特征信息一開(kāi)始具有明顯的區(qū)分度,分類(lèi)準(zhǔn)確率會(huì)隨著層數(shù)的增多而提高。但隨著層數(shù)的進(jìn)一步增加,抽象特征信息使得分類(lèi)性能下降,分類(lèi)準(zhǔn)確率也會(huì)隨之下降,根據(jù)實(shí)驗(yàn)測(cè)試,我們將特征學(xué)習(xí)的層數(shù)設(shè)置為4,如圖3所示。
圖3 特征學(xué)習(xí)中層數(shù)對(duì)識(shí)別準(zhǔn)確率的影響
實(shí)驗(yàn)過(guò)程中,我們將不同類(lèi)型的核函數(shù)分別運(yùn)用到極限學(xué)習(xí)機(jī)深度網(wǎng)絡(luò)框架中,如圖4所示,不同類(lèi)型的核函數(shù)運(yùn)用到H-ELM中分類(lèi)效果不同,結(jié)果顯示非線性核函數(shù)比線性核函數(shù)能夠取得較好的分類(lèi)準(zhǔn)確率。最后選用高斯函數(shù)作為自動(dòng)編碼的核函數(shù),保證整個(gè)框架能夠得到最好的結(jié)果。
圖4 不同類(lèi)型的核函數(shù)對(duì)識(shí)別準(zhǔn)確率的影響
在有監(jiān)督的特征分類(lèi)階段,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法相比,分層學(xué)習(xí)機(jī)訓(xùn)練過(guò)程中只需指定兩個(gè)參數(shù):用于計(jì)算最小均方誤差的參數(shù)C和隱含層神經(jīng)元的個(gè)數(shù)K。由圖5可知,隨著隱含層節(jié)點(diǎn)個(gè)數(shù)K的增加,合適的C會(huì)使得準(zhǔn)確率曲線更加平滑并且測(cè)試準(zhǔn)確率呈現(xiàn)上升趨勢(shì),當(dāng)K值大于60時(shí),曲線趨于水平。我們?cè)O(shè)置節(jié)點(diǎn)個(gè)數(shù)為90,最小均方誤差參數(shù)C為108。
圖5 參數(shù)C和K的取值和學(xué)習(xí)性能之間的關(guān)系
通過(guò)對(duì)數(shù)據(jù)庫(kù)中選取的5種基本情緒狀態(tài)的情感語(yǔ)料信息的測(cè)試實(shí)驗(yàn),分別計(jì)算出對(duì)5種不同情感的識(shí)別性能,如表2所示。
表2 對(duì)不同語(yǔ)音情感的識(shí)別率
為更好的對(duì)本文算法識(shí)別準(zhǔn)確率進(jìn)行驗(yàn)證,我們使用相同的數(shù)據(jù)集將本文方法的實(shí)驗(yàn)結(jié)果和其他專(zhuān)家研究方法進(jìn)行測(cè)試比較,如圖6所示。
圖6
如何構(gòu)建更有效的語(yǔ)音情感識(shí)別算法模型一直是語(yǔ)音情感識(shí)別領(lǐng)域的研究熱點(diǎn)。本文針對(duì)現(xiàn)有語(yǔ)音情感識(shí)別算法中的不足,提出一種將語(yǔ)音情感特征提取和深度自編碼網(wǎng)絡(luò)相結(jié)合的語(yǔ)音情感識(shí)別方法。先對(duì)語(yǔ)音中蘊(yùn)含的情感進(jìn)行特征提取與分析,同時(shí)使用深度極限學(xué)習(xí)機(jī)自編碼網(wǎng)絡(luò)對(duì)語(yǔ)音中潛在情感進(jìn)行特征學(xué)習(xí),提高了對(duì)語(yǔ)音情感的識(shí)別率,為更好的實(shí)現(xiàn)人機(jī)交互提供幫助。