亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語音情感特征的提取與分析

        2013-09-03 08:53:04楊麗萍
        實驗室研究與探索 2013年7期
        關(guān)鍵詞:基頻共振語音

        王 薇, 楊麗萍, 魏 麗, 劉 艷

        (1.長春大學(xué)計算機科學(xué)技術(shù)學(xué)院,吉林 長春130022;2.吉林財經(jīng)大學(xué)信息經(jīng)濟學(xué)院,吉林長春130122)

        0 引言

        語音是人類用來進行相互交流的重要工具之一,承載了豐富的情感信息,是人們用來表達自己思想活動及情感變化的一種重要媒介。語音信號處理是研究用數(shù)字信號處理技術(shù)對語音信號進行處理的一門學(xué)科,是一門交叉學(xué)科[1]。語音信號的各種分析和處理技術(shù)(時域頻域處理、同態(tài)處理、線性預(yù)測分析、矢量量化、隱馬爾可夫模型技術(shù))、語音信號的各種處理及應(yīng)用(基音提取及共振峰估計、波形編碼、聲碼器、語音合成、語音識別、說話人識別及語音增強)等涉及知識點比較多[2]。其處理目的主要有兩方面,一方面是為了高效地傳輸或儲存語音信號信息而進行的語音信號重要特征參數(shù)的提取;另一方面是要通過對獲取的語音特征參數(shù)進行某些運算處理,以達到某種用途的要求。例如對說話人的心理識別、輔助心理治療、情感語音合成、語音情感識別等。

        語音情感識別(Speech Emotion Recognition,SER)是指計算機自動識別輸入語音的情感狀態(tài)[3],即利用計算機分析特定說話人的情感狀態(tài)及變化,進而確定其內(nèi)心情緒或思想活動,實現(xiàn)人機之間更自然更智能化的交互[4]。語音情感識別與傳統(tǒng)的語音識別不同,傳統(tǒng)的語音識別側(cè)重點是對說話者表達的語音詞匯的正確識別,而忽略語音信號中包含的情感因素;而語音情感識別的側(cè)重點在于說話者情感類別的確定,而忽略語音信號對應(yīng)的正確詞匯選擇。

        近幾年,語音情感識別已成為國內(nèi)外信號處理及人工智能等多個領(lǐng)域的研究熱點,越來越受到研究者的廣泛關(guān)注。早在20世紀90年代,國外先后有一些大學(xué)及研究機構(gòu)開始了語音情感研究,并取得了一定的成果。國內(nèi)對語音情感研究還處于一個起步階段,針對漢語語音情感的研究還需結(jié)合我國漢語語言學(xué)特征、民族特征及情感表達方式,進行進一步深入研究。

        語音情感的正確識別對于航空航天、E-Learning教學(xué)[5]、醫(yī)療、通信服務(wù)等行業(yè)的相關(guān)人員更好地開展工作具有重大的實際意義。同時可以使目前基于邏輯推理系統(tǒng)的計算機感知人類的情感變化,減少人與計算機之間的隔閡,形成一種真正意義上的人機交互系統(tǒng)。

        1 情感語音庫的選擇

        1.1 語音情感分類

        語音情感分類在心理學(xué)或工程研究中都沒有一個統(tǒng)一的分類標(biāo)準(zhǔn)[6]。根據(jù)Scherer的觀點,人類聲音中蘊含的情感信息,受到無意識的心理狀態(tài)變化的影響,以及社會文化導(dǎo)致的有意識的說話習(xí)慣的控制[7]。要進行語音情感分析,首先需要對人類情感類型進行劃分。目前從心理學(xué)的角度研究情感分類,主要有基本情緒論和維度空間論兩種[8]。美國當(dāng)代著名情緒心理學(xué)家普盧契克根據(jù)大量的研究提出了情緒理論。他認為有八種基本情緒(primary-motion):恐懼(fear)、驚訝(surprise)、悲痛(sadness)、厭惡(disgust)、憤怒(anger)、期待 (anticipation)、快樂 (joy)和接受(acceptance);并指出基本情緒可以由兩種或三種混合產(chǎn)生復(fù)合情緒。如,忌妒是由接受、憤怒和恐懼混合而成的情緒,焦慮是由恐懼、悲痛和憤怒組合而成的情緒。

        維度空間論主要分為三維理論和四維理論。德國心理學(xué)家馮特提出的三維理論認為情緒是由三個維度組成的,即愉快-不愉快;激動-平靜;緊張-松弛。每一種具體情緒分布在三個維度兩極之間不同的位置上。他的這種看法為情緒劃分的維度理論奠定了基礎(chǔ)。20世紀50年代,施洛伯格根據(jù)面部表情的研究提出由愉快-不愉快;注意-拒絕和激活水平三個維度建立的三維模式圖,其三維模式圖長軸為快樂維度,短軸為注意維度,垂直于橢圓面的軸則是激活水平的強度維度,三個不同水平的整合可以得到各種情緒。20世紀60年代末,普拉切克提出,情緒具有強度、相似性和兩極性等三個維度,并用一個倒錐體來說明三個維度之間的關(guān)系。頂部是八種最強烈的基本情緒:悲痛、恐懼、驚奇、接受、狂喜、狂怒、警惕、憎恨,每一類情緒中都有一些性質(zhì)相似、強度依次遞減的情緒,如厭惡、厭煩,哀傷、憂郁。美國心理學(xué)家伊扎德提出情緒四維理論,他認為情緒有愉快、緊張、激動、確信等四個維度。

        西南大學(xué)黃希庭認為若拋開情緒所指的具體對象,僅就情緒體驗的性質(zhì)來看,可從以下四方面進行分析:強度、緊張度、快感度、復(fù)雜度。四種基本情緒,也就是原始情緒分為喜、怒、哀、懼。在語音情感分析過程中,若提取的語音情感特征信息反映的情感維數(shù)越多,就越能更好地區(qū)分說話者的內(nèi)心情感。

        1.2 情感語音數(shù)據(jù)庫

        對于情感語音的研究都是基于特定的語音庫,比如英語、俄語、丹麥語等[9]。情感語音數(shù)據(jù)庫是語音情感識別模型的建立和語音情感識別過程的基礎(chǔ)。只有建立了真實、有效、完整的情感語音數(shù)據(jù)庫,才可能得到確實可靠的數(shù)據(jù)基礎(chǔ),以此構(gòu)建語音情感識別模型。

        到目前為止,國內(nèi)外還沒有統(tǒng)一的標(biāo)準(zhǔn)的語音情感數(shù)據(jù)庫可用[10]。大多數(shù)的研究者都是自建符合自己研究要求的情感語音庫。目前,自建情感語音庫主要采用自然錄音法、引導(dǎo)錄音法或音像剪輯法三種。

        (1)自然錄音法。主要是指語音信號采集者在日常生活中對說話人的語音進行采集。由于該方法是在說話人不知情的情況下進行,所以說話人的情感特征相對會更真實有效。但該方法也存在一定的缺點,例如采集環(huán)境不同,背景聲音有可能對說話人的語音信號產(chǎn)生干擾;說話人的語句不能完全和樣本語句匹配;說話人的情感變化及確定是由語音信號采集者單方判斷,與說話人的真實情感有一定的誤差。

        (2)引導(dǎo)錄音法。要事先確定所研究的語音情感分類、錄制語音所采用的腳本語句、情感語音說話人的選擇、情感語音的各種情感引導(dǎo)環(huán)境及方式等。其中情感語音對象的選擇應(yīng)考慮性別、年齡、說話標(biāo)準(zhǔn)程度、情緒是否容易被引導(dǎo)、語言表現(xiàn)能力等因素。

        (3)音像剪輯法。主要是對現(xiàn)有的音像制品根據(jù)研究需要截取部分語句組成情感語音數(shù)據(jù)庫。但由于截取語句來源于不同的音像制品,截取的語音信號大多包含著不同的背景音樂及其他聲音,這使情感語音信號的后期具有較大的工作量。

        本文采用的情感語音數(shù)據(jù)庫來源于北京航空航天大學(xué)電子信息工程學(xué)院毛峽教授課程組所建立的情感語音數(shù)據(jù)庫[11]。

        該情感語音數(shù)據(jù)庫主要采用錄音法、剪輯法兩種方法相結(jié)合建立[12]。數(shù)據(jù)庫中包含樣本語句類別20種,主要采用情感中性的語句作為樣本語句,例如:“今天是星期天”,“他就快來了”,“明天我要搬家了”,“昨天晚上我做了一個夢”等。情感語音數(shù)據(jù)庫共包含悲傷、憤怒、驚奇、恐懼、喜悅、厭惡、平靜七種情感,錄音人選擇男、女各1名用不同情感對樣本語句進行錄音。該語音數(shù)據(jù)庫為雙聲道的wav格式文件,樣本語句采樣頻率為11.025 kHz,量化精度為16 bit,適合于對特定人的基本語音情感分析研究。

        2 語音信號的特征分析

        2.1 語音特征分類

        語音是由人的發(fā)聲器官發(fā)出的一種聲波,它具有音色、音調(diào)、音強和音長四個特征。

        (1)音色。音色又叫“音質(zhì)”。指的是聲音的特色,是一種聲音區(qū)別于另一種聲音的基本特征。音色的差別主要決定于物體振動所形成的聲波波紋的曲線形式不同。具體來說,音色的類型是由振源的特性和共振峰的形狀共同決定的。

        (2)音調(diào)。音調(diào)也叫音高。指的是聲音的高低,主要取決于聲源振動的頻率,同時也與聲音強度有關(guān)。對一定強度的純音,音調(diào)隨頻率的升降而升降;對一定頻率的純音、低頻純音的音調(diào)隨聲強增加而下降,高頻純音的音調(diào)卻隨強度增加而上升。成年男人的聲帶長而厚,所以音調(diào)低;成年女人的聲帶短而薄,所以音調(diào)高。老人語音的音調(diào)低,小孩語音的音調(diào)高。

        (3)音強。音強是指聲音的強弱,它由聲波的振動幅度決定。

        (4)音長。音長是指聲音的長短,它取決于發(fā)音時間的長短。

        2.2 語音信號的特征

        語音信號的特征主要分為韻律特征和音質(zhì)特征。韻律特征是指語音中除音質(zhì)特征外的音高、音長和音強方面的變化。韻律特征又叫“超音質(zhì)特征”或“超音段特征”,指的是語音中除音質(zhì)特征之外的音高、音長和音強方面的變化。語音的韻律和音質(zhì)特征均表現(xiàn)出良好的情感區(qū)分能力[13],如何選取有效的語音特征是情感識別過程中的重要環(huán)節(jié)[14]。

        語音的韻律特征主要有基音頻率、短時能量、短時平均能量、短時自相關(guān)、短時平均幅度差、短時過零率等。

        語音的音質(zhì)特征主要有共振峰、長時平均頻譜、諧波噪聲比、頻譜中心矩、語譜等。

        (1)基音頻率。是聲門脈沖的間隔,是元音語音的特性。從語音的時間波型中可觀察到一些語音信號具有明顯的周期,這些周期對應(yīng)的即為聲帶振動頻率,稱之為基音頻率。

        (2)短時能量。是一個度量語音信號幅度值變化的函數(shù)。函數(shù)表達式為:

        式中:x(m)為某一幀語音波形時域信號;w為窗口函數(shù);N為窗長。加窗可采用矩形窗或漢明窗進行處理,得出語音信號的每一幀。當(dāng)采用矩形窗時,公式(1)可簡化為:

        (3)短時平均能量。也是一幀語音信號能量大小的表征,它避免了短時能量對于高電平非常敏感的問題。短時平均能量的表達式為:

        (4)短時自相關(guān)??捎糜谇蠼庹Z音波形序列的基音周期。其計算公式如下:

        (5)短時平均幅度差(AMDF)。能代替自相關(guān)函數(shù)做語音分析,如果信號是完全的周期信號,則相距為周期整數(shù)倍的采樣點上的幅值是相等的,差值為零[15]。其公式如下:

        (6)短時過零率。主要用來反映信號的頻譜特性。當(dāng)離散時間信號相鄰兩個樣點的正負號相異時,信號的時間波形穿過了零電平的橫軸。定義公式如下:

        (7)共振峰。是指在聲音的頻譜中能量相對集中的一些區(qū)域,共振峰不但是音質(zhì)的決定因素,而且反映了聲道(共振腔)的物理特征。聲音在經(jīng)過共振腔時,受到腔體的濾波作用,使得頻域中不同頻率的能量重新分配,一部分因為共振腔的共振作用得到強化,另一部分則受到衰減,得到強化的那些頻率在時頻分析的語圖上表現(xiàn)為濃重的黑色條紋。由于能量分布不均勻,強的部分猶如山峰一般,故而稱之為共振峰。

        (8)長時平均頻譜。是利用快速傅立葉變換FFT方法算出的每幀的短時頻譜的長時平均值。FFT功率譜中可以直觀反映出基音周期以及各諧波能量、頻率、形態(tài)和它們相互組合關(guān)系,同時能反映出諧波能量較高的尖峰所對應(yīng)的聲道共振峰[16]。

        3 語音情感特征分析

        說話人的情感特征在其語音信號中會有所體現(xiàn),而不同的情感變化會在不同的語音特征值中表現(xiàn)出來,可以是一種典型的語音特征值,也可以是特征值組合,語音特征值對于語音情感識別的貢獻均不相同。

        由于受聲門激勵等影響,對于頻率為800 Hz以上的語音信號其振幅有所下降,一般對于語音信號進行分析時需要進行預(yù)加重處理。在Matlab中主要采用filter([1 -0.937 5],1,x)函數(shù)調(diào)用一維數(shù)字濾波器對語音信號進行高頻增強處理。

        對于預(yù)處理后的語音信號需要進行加窗分幀處理,這里采用Matlab中的Hamming(N)函數(shù)進行漢明窗加窗處理,其中N為窗口長度。

        3.1 能量分析

        語音信號的能量特征主要表現(xiàn)在聲音的大小上。實驗以“啊,你可真?zhèn)ゴ笱健闭Z句為樣本,從情感語音數(shù)據(jù)庫中女性語音文件中選擇悲傷、憤怒、驚奇、恐懼、平靜、喜悅、厭惡七種情感語音數(shù)據(jù),經(jīng)預(yù)處理后進行短時平均能量分析,結(jié)果如圖1所示,對應(yīng)的七種情感短時平均能量的均值變化如圖2所示。可見人在喜悅、厭惡及憤怒時講話聲音較高,聲音振幅較大,其平均能量值較大,而悲傷時聲音較低,聲音振幅較小,平均能量值也相對較低,平靜時平均能量值略高于悲傷平均能量。但對于驚奇,恐懼等情感的區(qū)別不是很明顯。因此短時平均能量可用于悲傷、平靜與喜悅、厭惡情感的判斷因素之一。

        圖1 短時能量圖

        圖2 短時能量平均值對比圖

        3.2 基頻分析

        基頻即為基音頻率,也是反映語音情感信息的重要特征之一?;l分析可以包括基頻范圍、基頻平均值、基頻包絡(luò)等內(nèi)容。由于語音信號中存在著抖動點,所以實驗利用倒譜方法逐幀求出基頻后,進行了中值濾波和線性平滑處理,而且基頻平均值為情感識別的常用特征值之一。實驗結(jié)果表明當(dāng)說話人情感處于悲傷狀態(tài)時,語音基頻均值是最低。平靜狀態(tài)時,基頻均值居中。驚奇、喜悅、憤怒時,基頻均值是較高,而憤怒時,基頻均值為最高。這些均值的變化主要是由于說話人在這些情感狀態(tài)下,多采用重音或聲音上揚方式發(fā)音,基頻在重音處或聲音上揚處易發(fā)生突變。

        3.3 共振峰分析

        不同情感狀態(tài)下,說話人的發(fā)音共振峰位置是不同的,所以將共振峰作為識別語音情感是有必要的。為了很好地反映出說話人語音共振峰特征,可以采用線性預(yù)測倒譜系數(shù)(LPCC)。LPCC的主要優(yōu)點是提取出了語音產(chǎn)生過程的激勵信息,該信息主要反映聲道特性[17]。實驗采用七種不同情感的同一樣本語句進行共振峰分析,喜悅、憤怒的共振峰值有所升高,而悲傷情感狀態(tài)下其共振峰值是呈明顯下降趨勢的。

        4 結(jié)語

        從悲傷、憤怒、驚奇、恐懼、平靜、喜悅、厭惡七種情感語音數(shù)據(jù)出發(fā),提取能夠反映情感語音的能量特征、基頻特征與共振峰特征參數(shù)進行比對分析,實驗結(jié)果表明這三種特征值對于悲傷、平靜情感與喜悅、憤怒、驚奇、恐懼、喜悅、厭惡情感的區(qū)分是較為明顯的,但對于悲傷與平靜情感的區(qū)分、憤怒與驚奇等情感的區(qū)分還需要多個特征參數(shù)不同的貢獻值來確定。同時,不同說話人在不同環(huán)境下用自己語音情感表達情感的方式不同,而且人的情感也是動態(tài)連續(xù)變化的,在同一語音樣本中,會承載著說話人多種情感變化的情感語音特征。讓計算機能真正識別說話人的實時情感變化還需要一個較為漫長的研究過程。

        [1] 胡 航.語音信號處理[M],哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2000.

        [2] 劉衛(wèi)東,孟曉靜,王艷芬.語音信號處理實驗教學(xué)研究探索[J],實驗室研究與探索,2008,27(04):72-74.

        [3] 趙臘生,張 強,魏小鵬.語音情感識別研究進展[J],計算機應(yīng)用研究,2009,26(2):428-432.

        [4] 王海鶴,陸捷榮,詹永照,等.基于增量流形學(xué)習(xí)的語音情感特征降維方法[J],計算機工程,2011,37(12):144-146.

        [5] 張 利,張永皋.基于語音情感分析的E-Learning研究[J],軟件導(dǎo)刊,2011,10(6):148-150.

        [6] 曾光菊.基于粗神經(jīng)網(wǎng)絡(luò)的語音情感識別[J],四川理工學(xué)院學(xué)報(自然科學(xué)版),2011,24(4):472-476.

        [7] 黃程韋,趙 艷.實用語音情感的特征分析與識別的研究[J],電子與信息學(xué)報,2011,33(1):112-116.

        [8] 章國寶,宋清華,費樹岷,等.語音情感識別研究[J],計算機技術(shù)與發(fā)展,2009,19(1):92-96.

        [9] 張立華,楊瑩春.情感語音變化規(guī)律的特征分析[J],清華大學(xué)學(xué)報(自然科學(xué)版),2008,48(S1):652-657.

        [10] 張石清,趙知勁,雷必成,等.結(jié)合音質(zhì)特征和韻律特征的語音情感識別[J],電路與系統(tǒng)學(xué)報,2009,14(4):120-123.

        [11] 毛 峽,陳立江.語音情感信息的提取及建模方法[P],中國專利:CN101261832,2008-4-21.

        [12] Xiao Mao,Lijiang Chen.Speech Emotion Recognition Based on Parametric Filter and Fractal Dimensional[J],IEICE TRANSACTIONSON INFORMATION AND SYSTEMS(SCIE Index,IF:0.396),2010,E93-D(8):2324-2326.

        [13] 韓文靜,李海峰.基于韻律語段的語音情感識別方法研究[J],清華大學(xué)學(xué)報(自然科學(xué)版),2009,49(S1):1363-1368.

        [14] 羅憲華,楊大利,徐明星.面向非特定人的語音情感識別特征研究[J].北京住處科技大學(xué)學(xué)報,2011,26(2):72-76.

        [15] 趙 力.語音信號處理[M].2版.北京:機械工業(yè)出版社,2009.

        [16] 莊 琳.利用長時平均FFT功率譜進行話者識別[J].山西警官高等專科學(xué)校學(xué)報,2011,19(1):80-82.

        [17] 胡 洋,蒲南紅,吳黎慧,等.基于HMM和ANN的語音情感識別研究[J].電子測試,2011(8):33-35.

        猜你喜歡
        基頻共振語音
        語音同一認定中音段長度對基頻分析的影響
        基于時域的基頻感知語音分離方法?
        橋面鋪裝層對中小跨徑橋梁基頻影響分析
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        安然 與時代同頻共振
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        選硬人打硬仗——紫陽縣黨建與脫貧同頻共振
        CTA 中紡院+ 化纖聯(lián)盟 強強聯(lián)合 科技共振
        男人的天堂免费a级毛片无码| 日本中文字幕不卡在线一区二区| 国产黑色丝袜一区在线| 福利网在线| 国产高潮精品一区二区三区av| 亚洲色图偷拍自拍亚洲色图| 91成人国产九色在线观看| 亚洲av无码国产精品色午夜软件| 亚洲精品无码专区| 全球中文成人在线| 精品丝袜人妻久久久久久| 久久国产精品老女人| 亚洲av永久久无久之码精| 国产一区二区白浆在线观看| 日本一区二区视频在线| 中文字幕人乱码中文字幕| 一区二区三区人妻无码| 国产av无码专区亚洲av| 国产精品一区二区久久乐下载 | 蜜桃一区二区免费视频观看| 国产在线观看黄片视频免费| 视频在线国产一区二区| 国内精品久久久人妻中文字幕| 午夜精品久久久久成人| 高清无码一区二区在线观看吞精| 久久久久综合一本久道| 丰满少妇又爽又紧又丰满动态视频| 精品久久中文字幕系列| 性做久久久久久免费观看| 国产成人无码一区二区在线播放 | 豆国产96在线 | 亚洲| 免费1级做爰片1000部视频| 久久国产精品久久精品国产| 亚洲三级香港三级久久| 国产少妇一区二区三区| 亚洲精品久久区二区三区蜜桃臀| 久久综合狠狠综合久久综合88| 一本加勒比hezyo无码人妻| 高清国产日韩欧美| 人妻丰满熟妇av一区二区| av网站不卡的av在线|