亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向語(yǔ)音情感識(shí)別的語(yǔ)譜圖特征提取算法

        2015-03-15 00:54:56陶華偉梁瑞宇張昕然王青云
        關(guān)鍵詞:語(yǔ)譜識(shí)別率分類(lèi)器

        陶華偉 査 誠(chéng) 梁瑞宇,2 張昕然 趙 力 王青云,2

        (1東南大學(xué)水聲信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,南京210096)

        (2南京工程學(xué)院通信工程學(xué)院,南京211167)

        語(yǔ)音作為最主要的交流手段之一,在新型的人機(jī)交互領(lǐng)域中備受關(guān)注.為了使人機(jī)交互系統(tǒng)和機(jī)器人的對(duì)話(huà)系統(tǒng)更加智能和完善,語(yǔ)音的情感分析變得越來(lái)越重要[1-2].此外,在一些長(zhǎng)時(shí)間的、單調(diào)的、高強(qiáng)度的任務(wù)(如航天、航海等)中,相關(guān)人員常會(huì)產(chǎn)生某些負(fù)面情緒[3],有效地識(shí)別這些負(fù)面情緒,有助于提高個(gè)體認(rèn)知和工作效率,防患于未然.面對(duì)犯罪調(diào)查、智能協(xié)助等問(wèn)題[4],語(yǔ)音情感識(shí)別也能夠起到重要作用.因此,語(yǔ)音情感識(shí)別算法研究具有重要的實(shí)用意義.

        針對(duì)語(yǔ)音情感識(shí)別問(wèn)題,學(xué)者們從不同角度進(jìn)行了研究,取得了許多有價(jià)值的成果[5-8].考慮到特征構(gòu)造及特征選擇對(duì)識(shí)別性能影響較大[9-10],學(xué)者們對(duì)情感特征進(jìn)行了細(xì)致的分析和研究,并提出了多種語(yǔ)音情感特征構(gòu)造方式.當(dāng)前語(yǔ)音情感特征主要包括韻律特征、頻域特征、音質(zhì)特征[11-12].語(yǔ)音信號(hào)頻域和時(shí)域中信號(hào)間的相關(guān)性在語(yǔ)音情感識(shí)別中起到了重要作用[13].但針對(duì)語(yǔ)音信號(hào)間相關(guān)性的研究,往往僅集中在頻域或時(shí)域中,將語(yǔ)音信號(hào)時(shí)頻兩域的相關(guān)性相結(jié)合的文獻(xiàn)則較少.語(yǔ)譜圖是一種語(yǔ)音能量時(shí)頻分布的可視化表達(dá)方式,其橫軸代表時(shí)間,縱軸代表頻率,連通了時(shí)頻兩域,將語(yǔ)譜圖的頻率點(diǎn)建模為圖像的像素點(diǎn),便可利用圖像特征探討相鄰頻點(diǎn)間的聯(lián)系,為研究時(shí)頻兩域相關(guān)性提供了一種新的思路.

        基于此,本文提出了一種面向語(yǔ)音情感識(shí)別的語(yǔ)譜圖特征提取算法.首先,提取情感語(yǔ)音的語(yǔ)譜圖;然后,將提取到的語(yǔ)譜圖進(jìn)行歸一化處理,得到語(yǔ)譜圖灰度圖像;再次,利用Gabor小波計(jì)算不同方向、不同尺度語(yǔ)譜圖的Gabor圖譜,并利用局部二值模式抽取語(yǔ)譜圖Gabor圖譜的紋理信息;最后,將不同尺度、不同方向Gabor圖譜抽取到的LBP特征級(jí)聯(lián),組成一種新的語(yǔ)音情感特征.在柏林庫(kù)(EMODB)和FAU AiBo庫(kù)上的實(shí)驗(yàn)結(jié)果表明,基于本文提出的特征能夠較好地識(shí)別不同種類(lèi)情感,此外,與現(xiàn)有聲學(xué)特征融合后還可有效地提升識(shí)別率.

        1 語(yǔ)譜圖圖像特征提取算法

        特征提取算法的具體步驟如下:① 對(duì)語(yǔ)音進(jìn)行加窗分幀,提取語(yǔ)音的語(yǔ)譜圖;②計(jì)算語(yǔ)譜圖線性或?qū)?shù)歸一化幅度值,將語(yǔ)譜圖量化為0~255的灰度圖;③采用不同尺度、不同方向的Gabor小波計(jì)算語(yǔ)譜圖的Gabor圖譜;④ 計(jì)算不同尺度、不同方向Gabor圖譜的局部二值模式;⑤ 將不同尺度、不同方向下求得的局部二值模式特征級(jí)聯(lián),構(gòu)成一種新的語(yǔ)音情感特征.算法流程如圖1所示.

        圖1 特征提取算法流程圖

        1.1 語(yǔ)譜圖灰度圖像表示

        語(yǔ)譜圖的靜音段包含大量的非零數(shù)值,直接計(jì)算語(yǔ)譜圖的LBP特征會(huì)引入誤差.因此,需要對(duì)語(yǔ)譜圖進(jìn)行預(yù)處理,得到歸一化的語(yǔ)譜圖灰度圖像.首先,對(duì)語(yǔ)音進(jìn)行分幀、加窗及離散傅里葉變換處理,即

        式中,s(n)為語(yǔ)音信號(hào);X為s(n)的傅里葉系數(shù);N為窗長(zhǎng);ω(n)為漢明窗函數(shù).由此可得到s(n)的語(yǔ)譜圖

        其次,采用線性和對(duì)數(shù)能量2種不同的方法生成語(yǔ)譜圖 LLinear(a,b)和 LLog(a,b),即

        式中,a∈{1,2,…,A},b∈{1,2,…,B}為語(yǔ)譜圖像素的坐標(biāo),其中A,B分別為語(yǔ)譜圖橫、縱坐標(biāo)的最大值.

        然后,采用最大最小歸一化方法對(duì)語(yǔ)譜圖進(jìn)行歸一化,得到歸一化語(yǔ)音圖譜,即

        式中,L(a,b)為語(yǔ)譜圖;Lmax(a,b),Lmin(a,b)分別為語(yǔ)譜圖灰度級(jí)中的最大值和最小值.

        1.2 語(yǔ)譜圖的Gabor圖譜

        Gabor小波可以凸顯相鄰灰度級(jí)間的變化.本文采用Gabor小波對(duì)語(yǔ)譜圖灰度圖進(jìn)行處理.Gabor小波的核函數(shù)定義如下:

        式中,μ表示Gabor的核方向;v表示核尺度;z表示像素點(diǎn)的空間坐標(biāo);σ表示高斯函數(shù)的半徑;kv

        本文采用五尺度八方向的Gabor小波,其參數(shù)設(shè)置為:v∈{0,1,2,3,4},μ∈{0,1,2,3,4,5,6,7},σ=2π.通過(guò)將生成的Gabor小波與語(yǔ)譜圖灰度圖像進(jìn)行卷積運(yùn)算,可得到40張Gabor圖譜.

        1.3 局部紋理特征

        式中,gc為中心像素點(diǎn)的灰度值;gp為周邊鄰域像素點(diǎn)的值;P為選取周邊鄰域點(diǎn)的總個(gè)數(shù);R為鄰域半徑.假設(shè)gc點(diǎn)的坐標(biāo)為(0,0),則gp的坐標(biāo)為(Rcos(2πp/P),Rsin(2πp/P)).

        對(duì)圖像上所有像素點(diǎn)進(jìn)行LBP編碼,便可得到LBP編碼圖譜.LBP編碼圖譜直方圖的計(jì)算公式為

        式中,T為L(zhǎng)BP編碼后的最大灰度值.

        研究發(fā)現(xiàn),LBP圖譜中只有少部分的灰度級(jí)占主要作用,因此定義了如下的一致模式:

        式中,U表示數(shù)值0/1變換次數(shù).該一致模式可將循環(huán)二值次數(shù)限制為U≤2.經(jīng)過(guò)一致模式處理后,一致模式LBP中包含P(P-1)+3個(gè)不同值.

        本文中,采用一致模式LBP計(jì)算Gabor圖譜的紋理特征,基于第l個(gè)Gabor圖譜求得的LBP直方圖為 ql(l=1,2,…,40).將不同尺度、不同方向Gabor圖譜下的LBP直方圖級(jí)聯(lián),便可得到特征Q={q1,q2,…,q40}.

        2 分類(lèi)識(shí)別

        識(shí)別系統(tǒng)框圖如圖2所示.首先,將訓(xùn)練樣本庫(kù)中的語(yǔ)音進(jìn)行預(yù)處理和特征提取,得到訓(xùn)練樣本特征矩陣Htrain;其次,利用訓(xùn)練樣本對(duì)矩陣Htrain進(jìn)行訓(xùn)練,得到最優(yōu)分類(lèi)器參數(shù);然后,將測(cè)試樣本進(jìn)行預(yù)處理和特征提取,得到測(cè)試樣本矩陣Htest;最后,將測(cè)試樣本矩陣輸入分類(lèi)器中,輸出識(shí)別結(jié)果.

        圖2 語(yǔ)音情感識(shí)別系統(tǒng)

        本文采用K近鄰算法、支持向量機(jī)(SVM)和Softmax分類(lèi)器進(jìn)行語(yǔ)音情感識(shí)別.K近鄰算法中取K=1,距離公式采用χ2統(tǒng)計(jì)距離公式,即

        式中,cm,dm為特征中的元素;C,D為語(yǔ)音的情感特征,且其維數(shù)為M.SVM采用LIBSVM工具箱,核函數(shù)采用徑向基核.Softmax分類(lèi)器中權(quán)重衰減項(xiàng)設(shè)為10-4,迭代次數(shù)設(shè)為200.

        3 仿真實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)庫(kù)及實(shí)驗(yàn)設(shè)計(jì)

        為驗(yàn)證算法的有效性,本文分別在柏林庫(kù)(EMO-DB)和FAU AiBo庫(kù)上進(jìn)行仿真.

        柏林庫(kù)由10個(gè)不同的人(5男5女)錄制而成,包含7種不同的情感,分別為平靜、害怕、厭惡、喜悅、討厭、悲傷、憤怒.算法選取其中494條語(yǔ)句構(gòu)成數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn).

        FAU AiBo庫(kù)由2所學(xué)校51個(gè)年齡在10~13歲的兒童錄制而成,按照2009年情感挑戰(zhàn)賽標(biāo)準(zhǔn)將其分為5種不同情感,分別為A(angry,touchy,reprimanding),E(emphatic),N(neutral),P(motherese,joyful),R(rest).數(shù)據(jù)庫(kù)包含2 部分,其中ohm庫(kù)包含9 959條語(yǔ)句,mont包含8 257條語(yǔ)句.

        所選用的實(shí)驗(yàn)方案包含如下3種:

        1)采用Leave one speaker out(LOSO)方案,即選取柏林庫(kù)中的9個(gè)人作為訓(xùn)練集,剩余的作為測(cè)試集;10個(gè)人輪流作測(cè)試集,將10次識(shí)別結(jié)果求平均,作為最終識(shí)別結(jié)果.

        2)將柏林庫(kù)中編號(hào)為“03”,“08”,“09”,“10”,“11”的5個(gè)人的220條語(yǔ)音作為測(cè)試集,其余5人語(yǔ)音作為訓(xùn)練集.

        3)FAU AiBo庫(kù)采用ohm庫(kù)作為訓(xùn)練集,mont作為測(cè)試集.

        3.2 不同頻譜圖像比較實(shí)驗(yàn)

        下面基于3種實(shí)驗(yàn)方案來(lái)驗(yàn)證對(duì)數(shù)圖譜和線性圖譜對(duì)所提特征提取算法的影響.

        表1為實(shí)驗(yàn)方案1和方案3下所提的特征提取算法的識(shí)別結(jié)果.由表可知,在2個(gè)不同的數(shù)據(jù)庫(kù)上,線性圖譜的識(shí)別率略高于對(duì)數(shù)圖譜.對(duì)比3種不同的分類(lèi)器,在柏林庫(kù)中,Softmax分類(lèi)器可以取得最好的識(shí)別效果,識(shí)別率達(dá)到76.62%;在FAU AiBo庫(kù)上SVM分類(lèi)器可以取得最好的識(shí)別效果,識(shí)別率達(dá)到65.04%.

        表1 方案1和方案3下所提算法的特征識(shí)別率 %

        為進(jìn)一步驗(yàn)證線性和對(duì)數(shù)2種圖譜特征提取算法的識(shí)別性能,依照實(shí)驗(yàn)方案2,采用Softmax分類(lèi)器進(jìn)行識(shí)別,計(jì)算2種圖譜的分類(lèi)混淆矩陣.圖3給出了2種圖譜的混淆矩陣.可以看出,2種圖譜對(duì)喜悅、憤怒情感的識(shí)別率較低,對(duì)厭惡、討厭、平靜、悲傷識(shí)別性能較好.線性、對(duì)數(shù)圖譜對(duì)7種情感識(shí)別率的平均值分別為78.00%和76.43%.

        3種實(shí)驗(yàn)方案結(jié)果表明,就本文算法而言,線性圖譜的識(shí)別性能略?xún)?yōu)于對(duì)數(shù)圖譜.原因在于,語(yǔ)譜圖采用線性運(yùn)算處理后,最大最小值幅值差距比對(duì)數(shù)語(yǔ)譜圖小;當(dāng)進(jìn)行最大最小歸一化運(yùn)算時(shí),線性語(yǔ)譜圖量化間距比對(duì)數(shù)語(yǔ)譜圖小,在量化時(shí)能夠保留較多的細(xì)節(jié)信息.

        3.3 不同特征比較實(shí)驗(yàn)

        圖3 混淆矩陣

        文獻(xiàn)[14]提取了語(yǔ)音的基頻、過(guò)零率、能量、共振峰、持續(xù)時(shí)間、Mel頻率倒譜系數(shù)特征等408維特征,基本包含了現(xiàn)有情感識(shí)別常見(jiàn)的語(yǔ)音特征.表2為按照本文算法提取到的特征與文獻(xiàn)[14]特征的對(duì)比結(jié)果.由表可知,所提特征的識(shí)別率明顯優(yōu)于文獻(xiàn)[14]特征.在柏林庫(kù)上,所提特征的識(shí)別率較文獻(xiàn)[14]特征高出5%以上;在FAU AiBo庫(kù),所提特征的識(shí)別率較文獻(xiàn)[14]特征最少提升3%.產(chǎn)生上述結(jié)果的原因在于:時(shí)長(zhǎng)的變化是語(yǔ)音情感的一個(gè)重要特征,該特征在頻譜上表現(xiàn)為語(yǔ)音段和靜音段比例的變化;在歸一化語(yǔ)譜圖灰度圖像中,靜音段的灰度級(jí)基本相同,LBP編碼值為0,而非靜音段的灰度值差異較大,LBP編碼值發(fā)生了變化,故LBP算法可以表征靜音段和有聲段比例的變化;不同情感語(yǔ)音頻譜分布產(chǎn)生了較大變化,而LBP描述子通過(guò)計(jì)算中心頻點(diǎn)與周邊鄰域的關(guān)系,有效地表征了這一特征.因此,所提算法取得了更好的識(shí)別效果.

        表2 方案1和方案2下不同算法的特征識(shí)別率 %

        3.4 特征融合實(shí)驗(yàn)

        為進(jìn)一步驗(yàn)證所提算法的有效性,基于實(shí)驗(yàn)方案2,將所提特征與文獻(xiàn)[14]的特征融合,進(jìn)行語(yǔ)音情感識(shí)別,識(shí)別結(jié)果見(jiàn)圖4.由圖可知,在3種不同的分類(lèi)器下,將所提特征與文獻(xiàn)[14]的特征進(jìn)行融合后,可以有效地提高識(shí)別率,識(shí)別率至少比文獻(xiàn)[14]的特征提升了5%以上.特別地,在Softmax分類(lèi)器下,融合特征識(shí)別率為80.46%.而采用文獻(xiàn)[14]的特征進(jìn)行識(shí)別,識(shí)別率僅為68.64%.究其原因在于,所提算法與現(xiàn)有的聲學(xué)特征具有較好的融合性,有效地提升了系統(tǒng)識(shí)別性能.

        圖4 不同特征識(shí)別率

        4 結(jié)語(yǔ)

        本文提出了一種面向語(yǔ)音情感識(shí)別的語(yǔ)譜圖特征提取算法.首先,對(duì)圖像進(jìn)行處理,得到語(yǔ)譜圖灰度圖像;然后,采用Gabor小波提取語(yǔ)譜圖灰度圖像的Gabor圖譜,并采用LBP算法提取Gabor圖譜的紋理圖像信息;最后,將不同尺度、不同方向Gabor圖譜提取到的LBP特征進(jìn)行級(jí)聯(lián),作為一種新的語(yǔ)音情感特征進(jìn)行情感識(shí)別.柏林庫(kù)和FAU AiBo庫(kù)上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的有效性.

        本文將語(yǔ)譜圖建模為灰度圖像,并利用LBP特征研究不同頻點(diǎn)間相關(guān)性對(duì)情感識(shí)別的影響,為研究情感識(shí)別提供一個(gè)新的思路.此外,當(dāng)前語(yǔ)音情感識(shí)別主流趨勢(shì)是采用多種不同特征融合進(jìn)行情感識(shí)別,語(yǔ)譜圖圖像特征可以作為一類(lèi)新的特征進(jìn)一步增強(qiáng)情感語(yǔ)音識(shí)別系統(tǒng)的性能.

        References)

        [1] Attabi Y,Dumouchel P.Anchor models for emotion recognition from speech[J].IEEE Transactions on Affective Computing,2013,4(3):280-290.

        [2] Ramakrishnan S,El Emary I M M.Speech emotion recognition approaches in human computer interaction[J].Telecommunication Systems,2013,52(3):1467-1478.

        [3] Lee A K C,Larson E,Maddox R K,et al.Using neuroimaging to understand the cortical mechanisms of auditory selective attention[J].Hearing Research,2014,307:111-120.

        [4] Minker W,Pittermann J,Pittermann A,et al.Challenges in speech-based human-computer interfaces[J].International Journal of Speech Technology,2007,10(2/3):109-119.

        [5] Zhao X M,Zhang S Q,Lei B C.Robust emotion recognition in noisy speech via sparse representation[J].Neural Computing and Applications,2014,24(7/8):1539-1553.

        [6] Huang C W,Chen G M,Yu H,et al.Speech emotion recognition under white noise[J].Archives of Acoustics,2013,38(4):457-463.

        [7] Yan J J,Wang X L,Gu W Y,et al.Speech emotion recognition based on sparse representation[J].Archives of Acoustics,2013,38(4):465-470.

        [8] Wu C H,Liang W B.Emotion recognition of affective speech based on multiple classifiers using acoustic-prosodic information and semantic labels[J].IEEE Transactions on Affective Computing,2011,2(1):10-21.

        [9] Bozkurt E,Erzin E,Erdem C E,et al.Formant position based weighted spectral features for emotion recognition[J].Speech Communication,2011,53(9):1186-1197.

        [10] Altun H,Polat G.Boosting selection of speech related features to improve performance of multi-class SVMs in emotion detection[J].Expert Systems with Applications,2009,36(4):8197-8203.

        [11] Mencattini A,Martinelli E,Costantini G,et al.Speech emotion recognition using amplitude modulation parameters and a combined feature selection procedure[J].Knowledge-Based Systems,2014,63:68-81.

        [12] El Ayadi M,Kamel M S,Karray F.Survey on speech emotion recognition:features,classification schemes,and databases[J].Pattern Recognition,2011,44(3):572-587.

        [13] 韓文靜,李海峰,阮華斌,等.語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J].軟件學(xué)報(bào),2014,25(1):37-50.Han Wenjing,Li Haifeng,Ruan Huabin,et al.Review on speech emotion recognition[J].Journal of Software,2014,25(1):37-50.(in Chinese)

        [14] Xu X Z,Huang C W,Wu C,et al.Graph learning based speaker independent speech emotion recognition[J].Advanced in Electrical and Computer Engineering,2014,14(2):17-22.

        猜你喜歡
        語(yǔ)譜識(shí)別率分類(lèi)器
        基于類(lèi)圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
        HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識(shí)別研究
        基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
        基于時(shí)頻域特征的場(chǎng)景音頻研究
        提升高速公路MTC二次抓拍車(chē)牌識(shí)別率方案研究
        BP-GA光照分類(lèi)器在車(chē)道線識(shí)別中的應(yīng)用
        語(yǔ)譜圖二次傅里葉變換特定人二字漢語(yǔ)詞匯識(shí)別
        加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
        結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
        高速公路機(jī)電日常維護(hù)中車(chē)牌識(shí)別率分析系統(tǒng)的應(yīng)用
        国产在线天堂av| 国产成人精品自拍在线观看| 无码高潮久久一级一级喷水 | 动漫在线无码一区| 亚洲愉拍自拍视频一区| 国产自拍一区二区三区| 97成人精品国语自产拍| 又嫩又硬又黄又爽的视频| 亚洲精品国产成人| 亚洲av片不卡无码久久| 92精品国产自产在线观看48页 | 丰满人妻被黑人猛烈进入| 国产精品久久无码不卡黑寡妇 | 国产成人av综合色| 亚洲一区二区高清在线| 亚洲av狠狠爱一区二区三区| 亚洲av毛片在线网站| 日韩精品视频久久一区二区| 中文天堂国产最新| 无码一区二区三区老色鬼| 欧美日韩区1区2区3区| 成人国产自拍在线播放| 中文字幕一区二区av| 成人免费a级毛片无码片2022| 在线亚洲午夜理论av大片| 亚洲色图综合免费视频| 国产熟女av一区二区三区四季| 国产一区二区三区经典| 国产女同舌吻1区2区| 欧美激情一区二区三区| 亚洲爆乳少妇无码激情| 少妇高潮惨叫久久久久电影| 大红酸枝极品老料颜色| 亚洲97成人在线视频| 午夜熟女插插xx免费视频| 国产在视频线精品视频| 亚洲级αv无码毛片久久精品| aa视频在线观看播放免费| av手机免费在线观看高潮| 色欲综合一区二区三区| 亚洲а∨天堂久久精品2021|