姜芃旭 傅洪亮
摘要:為了提高語音情感識別的準確性,提出了一種基于神經(jīng)網(wǎng)絡(luò)的語音情感識別模型,利用OpenSMLIE進行特征提取,輸送進模型后進行特征變換,最后利用SoftMax進行情感分類,與傳統(tǒng)的SVM,KNN分類器相比,識別率分別提升2.5%和3.3%。具有更好的識別效果。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);情感識別;特征提??;情感分類
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)18-0173-02
Speech Emotion Recognition Classification Based on Neural Network
JIANG Peng-xu,F(xiàn)U Hong-liang
(College of Information Science and Engineering, Henan University of Technology, Zhengzhou 450001, China)
Abstract: In order to improve the accuracy of speech emotion recognition, a speech emotion recognition model based on neural network was proposed. Feature extraction was performed using OpenSMLIE, and then transformed into the model for feature transformation. Finally, sentiment classification was performed using SoftMax, and traditional SVM and KNN classification. Compared with the device, the recognition rate increased by 2.5% and 3.3% respectively. Has a good recognition effect.
Key words: neural network; emotion recognition;Feature Extraction; Emotion Classification
人之所以能從對方的語言中捕捉出其情感的變化,是因為話語中有能反映出人特定情感信息的特征。語音情感識別研究的開展距今已有30余年的歷史,情感不再僅僅是指人的喜怒哀樂,美國心理學家Ekman把人類的基本情緒歸為6種,分別是憤怒,驚訝,恐懼,快樂,嫉妒和悲傷。這6種基本情緒可以相互結(jié)合派生出各式各樣復合情緒,例如焦慮,緊張等。這一觀點當時也得到了許多人的同意。再后來又加上了一種中性的情感,所以人類的基本情感目前可以分為這七大類[1]。近些年來隨著人工智能領(lǐng)域的飛速發(fā)展,深度學習在語音識別方面的應用越來越廣泛[2],對情感分類計算的愿望也越來越迫切,與情感相關(guān)的比賽和會議自21世紀以來相繼被創(chuàng)立,其中比較著名的有:The INTERSPEECH 2009 Emotion Challenge,The INTERSPEECH 2010 Paralinguistic Challenge,The INTERSPEECH 2011 Speaker State Challenge,The INTERSPEECH 2012 Speaker Trait Challenge,The INTERSPEECH 2013 ComParE等。
一般來說語音情感識別的過程分為以下幾個方面:建立情感描述模型,搭建語音數(shù)據(jù)庫,語音情感特征提取,特征選擇以及選擇識別算法。本文通過深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)來對語音情感進行分類識別,首先利用OpenSMLIE[3]軟件對CASIA公開庫進行特征提取,輸送進DNN模型后對特征進行加工變換,最后利用SoftMax[4]把特征分為6類,實驗表明DNN網(wǎng)絡(luò)模型相較于其他分類模型具有更好的分類效果。
1 情感識別的分類流程
圖1給出了語音情感識別分類的流程框圖,包括特征提取,DNN模型,情感分類。
流程首先利用OpenSMILE軟件對CASIA公開庫進行特征提取,提取方法采用了2009情感挑戰(zhàn)所使用的標準化的特征集[5],然后將特征輸送進DNN模型中,最后利用SoftMax分類器對特征進行分類識別。
2 深度神經(jīng)網(wǎng)絡(luò)
深度學習目前為止已經(jīng)經(jīng)歷了三次浪潮,第一次的控制論,然后是聯(lián)結(jié)主義,但是直到2006年深度學習和深度網(wǎng)絡(luò)被提出,神經(jīng)網(wǎng)絡(luò)才開始煥發(fā)新一輪的生命[6]。
人工神經(jīng)網(wǎng)絡(luò)初次被提出是在20世紀40年代,被稱為threshold logic,它能實現(xiàn)一些簡單的邏輯運算,早親的人工神經(jīng)網(wǎng)絡(luò)的提出是為了模擬大腦的工作原理,它能從信息的角度對人的大腦進行抽象,從而達到模擬人腦的認知和學習的目的。
深度神經(jīng)網(wǎng)絡(luò)[7](DNN)是一個擁有一個或者一個以上隱層的傳統(tǒng)多層感知機[8](MLP)。圖2為一個4層的DNN,它擁有1個輸入層,1個輸出層還有2個隱層,其中隱層的每一個神經(jīng)元都與輸入層的每一個神經(jīng)元相連接,每一個輸出層的神經(jīng)元都與上一層的隱層的每一個神經(jīng)元相連接,是一個全連接的神經(jīng)網(wǎng)絡(luò),即第n-1層的任意一個節(jié)點,都與第n層的所有節(jié)點相連接。
每個神經(jīng)元都等于上層的所有神經(jīng)元乘以對應的權(quán)重再加上對應的偏值,如圖3所示。
每一個神經(jīng)元的計算公式如下:
最后輸出層利用SoftMax進行分類,對應為每個標簽的輸出概率,公式為:
3 實驗結(jié)果與分析
本實驗所使用的情感語料庫為CASIA庫,該庫由中國科學院自動化研究所所錄制,由兩男兩女在信噪比為35db的純凈環(huán)境下錄音,包括6種情緒,1200句不同發(fā)音。本文對CASIA公開庫中的1200條語音進行特征提取,將數(shù)據(jù)集按一定的比例分為訓練集和測試集進行訓練與測試,為了保證泛化性加入了Dropout函數(shù)。在Python軟件上進行實驗,其中SVM選用線性核,C值在0-1的范圍內(nèi)選取,在C=0.1時準確率最高。KNN中K值在0-30的范圍內(nèi)選取,當K取28時準確率最高。實驗結(jié)果如表1所示。
從上表中可以看到,DNN的識別率為84.1%,較其他分類模型相比,在語音情感識別分類上有著更好的分類效果。
4 結(jié)論
本文在多類分類模型上對語音情感識別的分類效果進行了對比,驗證了DNN網(wǎng)絡(luò)模型在語音情感識別的可行性,并且在識別效果上優(yōu)于KNN分類器以及SVM分類器,對神經(jīng)網(wǎng)絡(luò)在語音情感識別上的發(fā)展做出了貢獻。
參考文獻:
[1] 韓文靜, 李海峰, 阮華斌,等. 語音情感識別研究進展綜述[J]. 軟件學報, 2014, 25(1):37-50.
[2] Mencattini A, Martinelli E, Ringeval F, et al. Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models[J]. IEEE Transactions on Affective Computing, 2016, PP(99):1-1.
[3] Eyben F. Opensmile: the munich versatile and fast open-source audio feature extractor[C]//ACM International Conference on Multimedia. ACM, 2010:1459-1462.
[4] Eyben F. Opensmile: the munich versatile and fast open-source audio feature extractor[C]//ACM International Conference on Multimedia. ACM, 2010:1459-1462.
[5] Schuller B, Steidl S, Batliner A. The Interspeech 2009 Emotion Challenge[C]//INTERSPEECH 2009, Conference of the International Speech Communication Association. DBLP, 2009:312-315.
[6] 段玉三. 人工神經(jīng)網(wǎng)絡(luò)文獻綜述[J]. 科技風, 2011(5):185-185.
[7] 謝承泮. 神經(jīng)網(wǎng)絡(luò)發(fā)展綜述[J]. 科技情報開發(fā)與經(jīng)濟, 2006, 16(12):148-150.
[8] Pinkus A. Approximation theory of the MLP model in neural networks[C]// ACTA NUMERICA. 2008:143-195.