任國鳳 張雪英 李東 閆建政
摘 要: 針對包含發(fā)音動作參數(shù)和情感語音的雙模態(tài)漢語普通話數(shù)據(jù)庫非常匱乏的問題,設計包含中性、高興、憤怒及悲傷4種情感的普通話語音庫。該語音庫由10名被試錄制的1 440段音頻及發(fā)音動作數(shù)據(jù)組成,文本長度有雙音節(jié)詞和句子兩種類型。為了確保該數(shù)據(jù)庫的有效性,邀請普通話較好、聽力正常的10名評價者組成評價小組,對數(shù)據(jù)庫內(nèi)所有音頻文件進行評價。根據(jù)評價小組評價結果結合發(fā)音動作數(shù)據(jù)的穩(wěn)定性進行篩選,得到語音質(zhì)量較好、發(fā)音動作參數(shù)穩(wěn)定的雙模態(tài)情感語音數(shù)據(jù)庫。該數(shù)據(jù)庫可用于開展情感語音的發(fā)音動作研究,進而單獨或聯(lián)合作為情感語音識別算法的樣本數(shù)據(jù),對情感語音識別率的提高具有積極的作用。
關鍵詞: 數(shù)據(jù)庫; 情感語音; 發(fā)音動作參數(shù); 漢語普通話; 信號處理; 普通話語音庫
中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2018)14?0182?05
Design and evaluation of Mandarin bi?modal emotion speech database
REN Guofeng1,2, ZHANG Xueying1, LI Dong1, YAN Jianzheng1
(1. School of Information Engineering, Taiyuan University of Technology, Taiyuan 030600, China;
2. Department of Electronics, Xinzhou Teachers University, Xinzhou 034000, China)
Abstract: In allusion to the problem of lack of bi?modal Chinese Mandarin database containing pronunciation action parameters and emotional speech, a Mandarin speech corpus that includes four emotions of neutrality, happiness, anger and sadness is designed. The speech corpus is composed of 1 440 segments of audio and pronunciation action data recorded by 10 subjects, and the textual length includes bi?syllable word and sentence. To ensure the validity of the database, 10 evaluators with good Mandarin and normal hearing are invited to constitute the evaluation group, so as to evaluate all the audio files in the database. According to the evaluation results of the evaluation group and in combination with the stability of pronunciation action data, the audio files are screened to obtain the bi?modal emotion speech database with good audio quality and stable pronunciation action parameters. The database can be used to conduct the pronunciation action research of emotional speech, and solely or jointly taken as the sample data of the emotional speech recognition algorithm, which has a positive function for improvement of the emotional speech recognition rate.
Keywords: database; emotional speech; pronunciation action parameter; Chinese Mandarin; signal processing; Mandarin speech corpus
0 引 言
情感語音由于包含了豐富的情感信息,在人們?nèi)粘=涣髦衅鹬浅V匾淖饔?,因而對其開展研究有助于進一步了解人們交流時的心理狀態(tài)[1?2]。同時,伴隨著人機交互智能技術的快速發(fā)展,情感識別能力作為度量人機交互智能化水平的重要依據(jù),受到眾多研究者的青睞。而情感語音識別的研究離不開優(yōu)質(zhì)的情感語音數(shù)據(jù)庫的支撐。由于情感認知的復雜性、數(shù)據(jù)采集的困難性、錄制標準的不統(tǒng)一性、情感分類目的和方法的差異性等,導致目前大多數(shù)研究機構都是按照各自的科研需求建立相應的情感語音數(shù)據(jù)庫,而無法構建相對統(tǒng)一的情感語音庫[3?4]。目前,情感語音領域內(nèi)存在的情感語音庫類型較多,按照激發(fā)情感的類別可分為表演型、引導型和自然型[5]。情感的智能交互要求機器具有接近人類的語音情感識別和表達能力。為了實現(xiàn)該目標,建立一個真實自然并且擁有完整情感標注信息的優(yōu)質(zhì)情感語音數(shù)據(jù)庫是十分重要的。
然而,人機交互智能的迅猛發(fā)展對情感語音的識別能力提出了更高的要求,單一的靠語音作為樣本數(shù)據(jù)已不能滿足情感識別的需要。所以越來越多的人將表情、腦電及口腔運動數(shù)據(jù)采集來進行情感識別[6],通過增加數(shù)據(jù)的維度以提高識別率。在此方面,美國南加州大學的情感語音小組利用超聲波[7]、核磁共振[8]及EMA數(shù)據(jù)采集儀等與語音同步采集了舌、唇、咽喉等不易準確觀察的發(fā)音器官的運動[9],并對其分析發(fā)現(xiàn),不同情感下舌部的運動狀態(tài)明顯不同[10]。同時,Kim對英語發(fā)音中的情感與唇部運動比較發(fā)現(xiàn),唇孔徑的大小也可以作為特征來觀察情感變化[11]。我國的中科院先進技術研究院和中國科技大學也對EMA數(shù)據(jù)進行了提取和分析,但他們的研究集中于可視語音合成及聾啞人康復訓練等。近幾年,天津大學及清華大學的團隊開始了情感語音與EMA數(shù)據(jù)的結合研究,但是依然沒有成熟有效的EMA數(shù)據(jù)與語音同步結合的漢語普通話雙模態(tài)情感語音數(shù)據(jù)庫[12]?;诖?,本文旨在設計包含中性、高興、悲傷和憤怒四種情感的普通話情感語音雙模態(tài)數(shù)據(jù)庫。
1 雙模態(tài)情感語音數(shù)據(jù)庫的整體設計
1.1 文本素材及被試選擇
由于受到發(fā)音器官的隱蔽性及語音錄制環(huán)境的限制,要想獲取完全自然的情感語音及相應的發(fā)音器官運動信息是幾乎不可能的。一般情況下,人們都選擇在特定的環(huán)境下由外界引導而完成錄制。本文所設計的數(shù)據(jù)庫采用場景冥想式方法進行設計,由被試根據(jù)文本提示假想特定的語境醞釀相應情感并表達出來[13]。
1.1.1 文本素材的選擇
為了情感的表現(xiàn)不失公允,本文中所選擇的文本語料均為中性語義,不帶有明顯的情感傾向。具體的文本內(nèi)容如表1所示。
1.1.2 被試的選擇
本文中被試選擇遵循以下原則:
1) 年齡在20~40歲之間;
2) 漢語普通話等級在二級乙等以上;
3) 未接受過牙齒矯正及修復等口腔手術;
4) 未接受過正式的語言表演訓練。
因而,本數(shù)據(jù)庫共選擇5名男性、5名女性作為被試。所有被試均為籍貫為中國北方的在校研究生,且普通話等級為二級乙等以上。
1.2 采集方案的設計
1.2.1 實驗環(huán)境
本文設計的數(shù)據(jù)庫需要同步獲得語義清晰的語音和誤差很小的各發(fā)音器官動作數(shù)據(jù)。錄制過程中以德國Carstens公司生產(chǎn)的三維電磁發(fā)音儀:AG501為主要采集儀器,同步采集語音和發(fā)音動作數(shù)據(jù)。為確保AG501工作穩(wěn)定且不受外界電磁場干擾,所有錄制均在室溫25 ℃左右且遠離金屬材質(zhì)的環(huán)境中。錄制過程中,使用外置麥克風采集語音、AG501配套傳感器采集發(fā)音動作數(shù)據(jù)、投影儀遠距離投影以避免被試在錄音過程中頭部運動太頻繁。完整的硬件連接方法如圖1所示。
1.2.2 AG501
AG501是由德國Carstens公司生產(chǎn)的一款三維電磁發(fā)音動作采集儀。該儀器擁有24路采樣率為48 kHz的發(fā)音動作數(shù)據(jù)采集通道、一路采樣率為1 250 Hz的音頻信號采集通道[14]。發(fā)音動作由黏貼在發(fā)音器官各部位的傳感器采集,音頻數(shù)據(jù)由專用麥克風采集。發(fā)音動作數(shù)據(jù)和音頻數(shù)據(jù)可以實現(xiàn)自動同步。具體的儀器圖如圖2所示。
由于被試間的個體差異及在錄制過程中被試的頭部不可避免地會發(fā)生旋轉(zhuǎn)等動作,僅依靠磁場下的笛卡爾坐標系的三維坐標值判斷發(fā)音器官運動是不準確的,因此在錄制過程中需要對頭部進行校準。本研究中,為了更好地進行頭部校準,傳感器的黏貼工作分兩步完成。
1.2.3 錄制流程
搭建好錄制系統(tǒng)后,具體的錄制流程如下:
1) 錄制前的準備工作。打開AG501電源讓其預熱15 min以上。在此期間,對被試進行簡單培訓。同被試簽訂知情同意書,并幫助被試熟悉錄制流程及文本語料。同時,確保被試未佩戴任何金屬類飾物。
2) 頭部校準。將傳感器黏貼在左右乳凸、鼻梁和圖3所示的咬合面矯正板上。讓被試坐在指定位置上,口中含著咬合面矯正板并將矯正板的凸起部位卡在上切牙內(nèi)側。由AG501采集各傳感器運動數(shù)據(jù)并生成頭部旋轉(zhuǎn)矩陣,進而按該旋轉(zhuǎn)矩陣對原始數(shù)據(jù)進行頭部旋轉(zhuǎn)使得圖3中所示凸起為坐標原點、OL和OR在y軸上并以原點對稱、OC在x軸上,三個參考點的z坐標均為零。
3) 黏貼剩余傳感器。在完成頭部校準后,其余的傳感器將分別被黏貼到上下唇、左右嘴角和舌尖、舌中和舌根。具體的黏貼位置如圖4所示。為了得到理想的動作數(shù)據(jù),舌尖的傳感器黏貼于距生理舌尖1 cm處,舌根位置的傳感器在被試能承受的范圍內(nèi)盡量往舌根部黏貼,而舌中位置傳感器位于舌尖和舌根位置傳感器的中間點上,它距兩個傳感器的距離不得小于1 cm。
4) 錄制語音。被試按照投影屏幕提示文本信息,依次表達中性、高興、憤怒和悲傷4種情感,每種情感重復表達3次。這樣,雙音節(jié)詞一共錄制600條(10名被試×5條文本×4種情感×3次重復),句子一共錄制 840條(10名被試×7條文本×4種情感×3次重復)。
2 雙模態(tài)情感語音庫的預處理
本設計中用到的發(fā)音動作采集儀:AG501可得到采樣頻率為1 250 Hz的語音信號。為濾除外界噪聲,選擇截止頻率為1 300 Hz巴特沃斯低通濾波器進行濾波。同時,對語音信號和發(fā)音動作數(shù)據(jù)文件進行統(tǒng)一命名并編號,該文件名具體格式為“編號?語料類型?情感類型?重復次數(shù)?被試”。其中,編號取值范圍為1~1 440,語料類型為j(表征句子)和s(表征雙音節(jié)詞),情感類型為a(表征憤怒)、h(表征開心)、n(表征中性)和s(表征傷心),重復次數(shù)取值范圍為1~3,被試取值分別為f1~f5及m1~m5。
3 雙模態(tài)情感語音庫的評價及篩選
3.1 語音信號的評價
人的情感表達具有很高的主觀性,表演者所表達的情感強度和別人所感受到的情感強度很難完全一致。同時,參與本語料庫錄制的被試均未接受過語言表演訓練,缺乏情感表演的經(jīng)驗。為了研究者能從他們的語料中得到比較客觀的情感數(shù)據(jù),需要有一個統(tǒng)一的評價方法對其進行評價。本文中選擇普通話標準、聽力很好的5位男性和5位女性成立語料評價小組,每一位評價組成員需從被評語音的清晰度和情感表現(xiàn)度兩方面獨立打分。打分過程按照李斯特量表法進行[15],具體評分規(guī)則如表2所示。
其中,語音清晰度評價時不區(qū)分被試希望表達的情感類型,而情感表現(xiàn)度的主觀評價需將文件事先按照被試希望表達情感類型進行分類,再由評價小組成員對同一情感類型下的語料逐一進行聽測。同時,中性語料無需進行情感表現(xiàn)度聽測。
通過評價小組成員對語音材料的獨立評價,得到10名評價者的評分結果。令[Ui]表示語料的平均語音清晰度,[Di]表示語料的平均情感表現(xiàn)度。其中[i]表示語音材料的編號,N表示評價小組成員總人數(shù),這里N=10,j表示成員編號。則有:
[Ui=1Nj=1Nui,j, i=1~1 140; j=1~10] (1)
[Di=1Nj=1Ndi,j, i=1~1 140; j=1~10] (2)
其中,中性情感語料的情感表現(xiàn)度得分取5分。
根據(jù)得到的統(tǒng)計數(shù)據(jù)可對語音數(shù)據(jù)做統(tǒng)計評價以篩選出表現(xiàn)較好的語料用于情感語音識別等研究中。具體篩選閾值為語音清晰度得分不小于4.5分,且情感表現(xiàn)度得分不小于4.0分的語料被認定為有效語料。
3.2 發(fā)音動作數(shù)據(jù)的評價
RMSE(均方根誤差)是用來表征數(shù)據(jù)離散程度的一個重要指標,它揭示了數(shù)據(jù)的穩(wěn)定程度。因而,在本數(shù)據(jù)庫評價過程中,選擇該參數(shù)作為發(fā)音動作數(shù)據(jù)的評價參數(shù)。根據(jù)任一語料采集到的某一傳感器的發(fā)音動作數(shù)據(jù),可直接計算該參數(shù)。計算方法如下:
[RMSE=i=1nd2in] (3)
式中:[n]為某一語料發(fā)音動作數(shù)據(jù)點的數(shù)量;[di]為任一數(shù)據(jù)點與均值點間的歐氏距離。
因此,式(3)可進一步寫為:
[RMSE=i=1n(xi-x)2+(yi-y)2+(zi-z)2n] (4)
一般情況下,RMSE值越小發(fā)音動作數(shù)據(jù)越穩(wěn)定。本設計中,RMSE值小于10 mm的動作數(shù)據(jù)被判定為穩(wěn)定數(shù)據(jù)。在數(shù)據(jù)篩選過程中,篩選掉大于10 mm的數(shù)據(jù)。
根據(jù)語音數(shù)據(jù)和發(fā)音動作數(shù)據(jù)的雙重評價及篩選,本數(shù)據(jù)庫最終保留有403個雙音節(jié)詞及510條句子。具體情況如表3所示。
4 結 語
一個情感豐富、數(shù)據(jù)多樣的情感數(shù)據(jù)庫,對研究者進行情感語音識別研究,并作為情感語音合成的訓練測試平臺是非常重要的。本文中設計的結合發(fā)音動作參數(shù)及語音兩類數(shù)據(jù)的情感語音數(shù)據(jù)庫,包含了雙音節(jié)詞和句子兩種類型文本,共計913多條語料。在一定程度上可為生理語音研究及情感語音的發(fā)音動作研究等提供服務。進而,該數(shù)據(jù)庫著重于幫助研究者針對漢語普通話的情感語音識別研究提供數(shù)據(jù)支撐。同時,本數(shù)據(jù)庫也可以單獨作為發(fā)音器官的運動研究或者普通發(fā)音人的情感研究,甚至可擴展到普通話的情感語音合成研究領域中。
當然,該數(shù)據(jù)庫也存在一定的不足之處。首先,文本內(nèi)容還可以進一步豐富,從而提高數(shù)據(jù)庫的普適性;其次,傳感器數(shù)量不多,難以增加眼瞼等面部運動信號的采集以豐富情感數(shù)據(jù)。
參考文獻
[1] 韓文靜,李海峰,阮華斌,等.語音情感識別研究進展綜述[J].軟件學報,2014,25(1):37?50.
HAN Wenjing, LI Haifeng, RUAN Huabin, et al. Review on speech emotion recognition [J]. Journal of software, 2014, 25(1): 37?50.
[2] 張雪英,孫穎,張衛(wèi),等.語音情感識別的關鍵技術[J].太原理工大學學報,2015,46(6):629?636.
ZHANG Xueying, SUN Ying, ZHANG Wei, et al. Key technologies in speech emotion recognition [J]. Journal of Taiyuan University of Technology, 2015, 46(6): 629?636.
[3] 趙國朕,宋金晶,葛燕,等.基于生理大數(shù)據(jù)的情緒識別研究進展[J].計算機研究與發(fā)展,2016,53(1):80?92.
ZHAO Guozhen, SONG Jinjing, GE Yan, et al. Advances in emotion recognition based on physiological big data [J]. Journal of computer research and development, 2016, 53(1): 80?92.
[4] 韓文靜,李海峰.情感語音數(shù)據(jù)庫綜述[J].智能計算機與應用,2013,3(1):5?7.
HAN Wenjing, LI Haifeng. A brief review on emotional speech databases [J]. Intelligent computer and applications, 2013, 3(1): 5?7.
[5] 陳浩,師雪姣,肖智議,等.高表現(xiàn)力情感語料庫的設計[J].計算機與數(shù)字工程,2014,42(8):1383?1385.
CHEN Hao, SHI Xuejiao, XIAO Zhiyi, et al. High performance emotional corpus [J]. Computer & digital engineering, 2014, 42(8): 1383?1385.
[6] AN J, BERRY J J, JOHNSON M T. The electromagnetic articulography Mandarin accented English corpus of acoustic and 3D articulatory kinematic data [C]// Proceedings of IEEE International Conference on Acoustic, Speech and Signal Processing. Florence: IEEE, 2014: 7719?7723.
[7] NARAYANAN S, NAYAK K, LEE S, et al. An approach to real?time magnetic resonance imaging for speech production [J]. Journal of the Acoustical Society of America, 2004, 115(4): 1771?1776.
[8] MATSUO K, PALMER J B. Kinematics linkage of the tongue, jaw, and hyroid during eating and speech [J]. Archives of oral biology, 2010, 55(4): 325?331.
[9] LEE S, YILDRIM S, KAZEMZADEH A, et al. An articulatory study of emotional speech production [C]// Proceedings of 9th European Conference on Speech Communication and Technology. Lisbon: [s.n.], 2005: 497?500.
[10] NEUFELD C, VAN L P. Tongue kinematics in palate relative coordinate spaces for electro?magnetic articulography [J]. Journal of the Acoustical Society of America, 2014, 135(1): 352?361.
[11] KIM J, TOUTIOS A, LEE S, et al. A kinematic study of critical and non?critical articulators in emotional speech production [J]. Journal of the Acoustical Society of America, 2015, 137(3): 1411?1429.
[12] WEI J, LIU J, FANG Q, et al. A novel method for constructing 3D geometric articulatory models [J]. Journal of signal processing systems, 2016, 82(2): 295?302.
[13] 吳丹,林學訚.人臉表情視頻數(shù)據(jù)庫的設計與實現(xiàn)[J].計算機工程與應用,2004(5):177?180.
WU Dan, LIN Xueyin. The design and realization of a video database for facial expression analysis [J]. Computer engineering and applications, 2004(5): 177?180.
[14] YUNUSOVA Y, GREEN J R, MEFFERD A. Accuracy assessment for AG500, electromagnetic articulograph [J]. Journal of speech language & hearing research, 2009, 52(2): 547?555.
[15] 王寶軍,薛雨麗,于適寧,等.多模情感數(shù)據(jù)庫的設計與評價[J].中國科技論文,2016,11(2):214?218.
WANG Baojun, XUE Yuli, YU Shining, et al. The design and evaluation of multimode affective database [J]. China sciencepaper, 2016, 11(2): 214?218.