亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        嬰幼兒語(yǔ)音信息處理與識(shí)別研究模型

        2019-06-17 01:15:26左正東萬(wàn)光彩杜佳軒
        關(guān)鍵詞:維數(shù)貝葉斯幅值

        左正東, 萬(wàn)光彩, 杜佳軒

        安徽財(cái)經(jīng)大學(xué)金融學(xué)院,安徽 蚌埠 233000

        幼兒專家的研究成果表明,嬰兒的情緒表達(dá)不僅是與外界交流的主要方式,而且是反映其生理和心理需求、身心健康狀態(tài)及其智力發(fā)育水平的重要信息來(lái)源[1].20世紀(jì)60年代,國(guó)外有研究小組能完成對(duì)病理性的啼哭聲和非病理性的啼哭聲進(jìn)行模式區(qū)別,但是目前對(duì)嬰兒語(yǔ)音信息的研究,還主要關(guān)注的是簡(jiǎn)單的疼痛或者啼哭上,并未結(jié)合嬰兒的具體情感需求,可能更多還是對(duì)啼哭聲的研究[2].目前相關(guān)的文獻(xiàn),并沒(méi)有關(guān)于嬰兒的情緒管理標(biāo)準(zhǔn)的分類(lèi)方法,在情感語(yǔ)音識(shí)別的實(shí)驗(yàn)中,如何將嬰兒的情感進(jìn)行分類(lèi),及相應(yīng)的語(yǔ)音信息中,某種特征參數(shù)的含義在目前的研究中并未給出一個(gè)清楚的劃分.本文將對(duì)嬰兒的情感信息進(jìn)行分類(lèi),同時(shí)對(duì)可用于嬰兒語(yǔ)音識(shí)別的技術(shù)進(jìn)行了研究,最后對(duì)采集到的嬰兒語(yǔ)音信息樣本進(jìn)行了一個(gè)簡(jiǎn)單的語(yǔ)音信息識(shí)別實(shí)驗(yàn).

        1 數(shù)據(jù)來(lái)源及假設(shè)

        數(shù)據(jù)來(lái)源于搜集到的嬰幼兒愉悅時(shí)發(fā)出的聲音,一男一女分別唱同一首歌的音頻,不同程度喜悅狀態(tài)下的嬰幼兒發(fā)出的聲音.為了便于解決問(wèn)題,提出了以下幾條假設(shè):(1)短時(shí)傅立葉變換已經(jīng)完全去除樣本的雜音,不存在可以影響樣本特質(zhì)的外界因素存在;(2)選取的男女樣本差異是準(zhǔn)確的;(3)忽略愉悅語(yǔ)音庫(kù)中部分愉快情緒樣本不足所產(chǎn)生的偏差.

        2 基于梅爾頻率倒譜系數(shù)和貝葉斯判別對(duì)語(yǔ)音信息的判別歸類(lèi)

        2.1 研究思路

        對(duì)于一男一女唱同一首歌的音頻,首先基于性別差異角度對(duì)語(yǔ)音信號(hào)時(shí)域進(jìn)行特征分析,通過(guò)繪制語(yǔ)譜圖、能量圖、相關(guān)函數(shù)圖等,觀察男女聲的差異,可以發(fā)現(xiàn)語(yǔ)音信號(hào)前100幀的性別差異特征較為明顯,以此樣本代替整體,再利用MFCC分別得到男性和女性語(yǔ)音的48 110*24 MFCC特征矩陣.通過(guò)貝葉斯判別法,將語(yǔ)音進(jìn)行性別判別歸類(lèi),再利用該模型對(duì)嬰兒的聲音進(jìn)行鑒別.

        2.2 研究方法

        2.2.1 梅爾倒譜系數(shù)

        在語(yǔ)音識(shí)別(Speech Recognition)和話者識(shí)別(Speaker Recognition)方面,最常用到的語(yǔ)音特征就是梅爾倒譜系數(shù)(Mel-scale Frequency Cepstral Coefficients,簡(jiǎn)稱MFCC).梅爾倒譜系數(shù)是在Mel標(biāo)度頻率域提取出來(lái)的倒譜參數(shù),具有較強(qiáng)的識(shí)別性能和抗噪聲性能,但它的計(jì)算要求是計(jì)算精度高[3].Mel標(biāo)度描述了人耳頻率的非線性特性,它與頻率的關(guān)系可用下式近似表示

        (1)

        其中,f為頻率,單位為Hz.圖1展示了Mel頻率與線性頻率的關(guān)系.

        圖1 Mel頻率與線性頻率的關(guān)系圖
        Fig.1 Diagram of Mel frequency and linear frequency

        語(yǔ)音特征參數(shù)MFCC提取的基本流程(圖2)如下.

        圖2 語(yǔ)音特征參數(shù)MFCC提取過(guò)程
        Fig.2 Speech feature parameters MFCC extraction process

        2.2.2 貝葉斯判別

        兩個(gè)總體協(xié)方差矩陣相等的情形

        設(shè)總體G1、G2的協(xié)方差矩陣相等且為Σ,概率密度函數(shù)為

        (2)

        總體G1、G2的先驗(yàn)概率為p1=P(G1),p2=P(G2)(p1+p2=1),則基于兩正態(tài)總體誤判損失相等的貝葉斯判別(Bayesian Discriminant)準(zhǔn)則為

        (3)

        (4)

        平均誤判率

        貝葉斯判別的有效性可以通過(guò)平均誤判率來(lái)確定.這里僅對(duì)兩個(gè)正態(tài)總體G1、G2,且協(xié)方差矩陣相等的情況下研究平均誤差率的計(jì)算[4].

        設(shè)總體Gi~Np(μj,Σ)(i=1,2),總體G1、G2的先驗(yàn)概率p1=P(G1),p2=P(G2)(p1+p2=1),兩個(gè)總體G1、G2的馬氏平方距離記為

        δ=(μ1-μ2)TΣ-1(μ1-μ2)

        (5)

        則基于誤判損失相等時(shí)的平均誤判率為

        (6)

        其中,d=lnp1~lnp2,Φ(·)為標(biāo)準(zhǔn)正態(tài)分布函數(shù).圖3顯示了嬰兒愉悅時(shí)的語(yǔ)音特點(diǎn),其中我們可以看出其波動(dòng)的時(shí)長(zhǎng)大約2 s,其頻率為40 000 Hz.

        圖3 時(shí)間頻率圖Fig.3 Time frequency graph圖4 MFCC與峰值、維數(shù)與幅值的關(guān)系Fig.4 The relationship between MFCC and peak, dimension and amplitude

        由圖4可知,梅爾頻率倒譜系數(shù)的幅值總體在5到25之間,圖5是維數(shù)與幅值的關(guān)系,我們發(fā)現(xiàn)隨著維數(shù)的增加,幅值從3 500,在逐漸減少.

        通過(guò)比較,我們發(fā)現(xiàn)其語(yǔ)音的幅度與維的關(guān)系為隨著維數(shù)增加,幅度逐漸趨于平穩(wěn),變小,而幅圖6展示是楨數(shù)在10000的計(jì)量單位下的情況,我們發(fā)現(xiàn)楨數(shù)變多時(shí)曲線變得越來(lái)越細(xì)密.

        圖5 嬰兒聲音維數(shù)、幀數(shù)變化時(shí)的峰值變化Fig.5 Peak changes in infant sound dimensions and frame number changes圖6 男性聲音維數(shù)、幀數(shù)變化時(shí)的幅值變化圖Fig.6 Amplitude variation diagram of male sound dimension and frame number change

        由圖6可以發(fā)現(xiàn),男性和女性在聲音頻率、振幅方面一定有很大區(qū)別,其中男音頻振幅較大,對(duì)于女性,我們發(fā)現(xiàn)其語(yǔ)音的幅度較為平穩(wěn),密集,女性的梅爾頻率倒譜系數(shù)的幅值總體較之男生較為細(xì)密整齊,大多集中在18,圖7是維數(shù)與幅值的關(guān)系,我們發(fā)現(xiàn)隨著維數(shù)的增加,幅值在逐漸減少,從40000開(kāi)始.其幅值整體高于男性.

        2.3 模型的建立與分析——基于性別差異角度語(yǔ)言信號(hào)時(shí)域特征分析

        (1)語(yǔ)音信號(hào)的聲譜圖和短時(shí)譜

        用wavread 函數(shù)加載一段語(yǔ)音信號(hào),對(duì)其進(jìn)行加窗處理,由于矩形窗的主瓣寬度小(4*pi/N),具有較高的頻率分辨率,旁瓣峰值大(-13.3 dB),會(huì)導(dǎo)致泄漏現(xiàn)象;漢明窗的主瓣寬8*pi/N,旁瓣峰值低(-42.7dB),可以有效地克服泄漏現(xiàn)象,具有更平滑的低通特性.因此在語(yǔ)音頻譜分析時(shí)常使用漢明窗.實(shí)驗(yàn)結(jié)果如圖8所示.可以發(fā)現(xiàn),男性發(fā)聲能量在0上下震動(dòng).時(shí)間越長(zhǎng)波動(dòng)越大,幅度值呈周期性變化.

        (2)語(yǔ)音信號(hào)的語(yǔ)譜圖(圖9)

        男性愉悅時(shí)發(fā)音頻率不同時(shí)間下,平均起來(lái)超過(guò)15 000 Hz,約處在17 000 Hz左右.

        (3)短時(shí)能量(圖10)

        圖7 男性MFCC相關(guān)圖Fig.7 Correlation diagram of male MFCC圖8 男性短時(shí)譜圖Fig.8 Short time spectra for men

        根據(jù)N的不同,波形不同,窗過(guò)大(N很大),等效于很窄的低通濾波器,不能反映幅度En的變化;窗過(guò)小(N很小),短時(shí)能量隨時(shí)間急劇變化,不能得到平滑的能量函數(shù).由此N選為100~200比較合適.在此情況下,發(fā)現(xiàn)峰值是在相應(yīng)的變大,峰值范圍在6到10之間.

        (4)短時(shí)平均過(guò)零率(圖11)

        過(guò)零率可以反映信號(hào)的頻譜特性.當(dāng)離散時(shí)間信號(hào)相鄰兩個(gè)樣點(diǎn)的正負(fù)號(hào)相異時(shí),我們稱之為“過(guò)零”,即此時(shí)信號(hào)的時(shí)間波形穿過(guò)了零電平的橫軸.統(tǒng)計(jì)單位時(shí)間內(nèi)樣點(diǎn)值改變符號(hào)的次數(shù)具可以得到平均過(guò)零率.

        分析結(jié)果:男性的短時(shí)平均過(guò)零率在隨時(shí)間不斷變大,2.5到3.5(106)達(dá)到最值.

        (5)短時(shí)自相關(guān)函數(shù)(圖12)

        自相關(guān)函數(shù)用于衡量信號(hào)自身時(shí)間波形的相似性.清音和濁音的發(fā)聲機(jī)理不同,因而在波形上也存在著較大的差異.濁音的時(shí)間波形呈現(xiàn)出一定的周期性,波形之間相似性較好;清音的時(shí)間波形呈現(xiàn)出隨機(jī)噪聲的特性,樣點(diǎn)間的相似性較差.因此,我們用短時(shí)自相關(guān)函數(shù)來(lái)測(cè)定語(yǔ)音的相似特性.

        分析結(jié)果:男性的短時(shí)間自相關(guān)函數(shù)為曲線形.先下降后上升.

        (6)短時(shí)平均幅度(圖13)

        由于短時(shí)能量函數(shù)的En對(duì)信號(hào)電平值過(guò)于敏感,需要計(jì)算信號(hào)樣值的平方和,在定點(diǎn)實(shí)現(xiàn)時(shí)很容易產(chǎn)生溢出,因此可定義一個(gè)平均幅度函數(shù)Mn來(lái)衡量語(yǔ)音幅度的變化.

        圖9 男性語(yǔ)譜圖Fig.9 Male language spectrum

        圖10 男性短時(shí)能量圖
        Fig.10 Short time energy graph for men

        圖11 男性短時(shí)平均過(guò)零率圖Fig.11 Men's short time average over 0 rate chart圖12 男性短時(shí)自相關(guān)函數(shù)圖Fig.12 Male Short-time auto-correlation function diagram

        圖13 男性短時(shí)平均幅度圖Fig.13 Figure of short-term average ranges for men圖14 女性維數(shù)、幀數(shù)與幅值關(guān)系圖Fig.14 Diagram of female dimension, frame number and amplitude

        分析結(jié)果:男性的短時(shí)間平均幅度先增大后減小,峰值在2.5到3(106)之間.

        由圖14可以發(fā)現(xiàn),女性梅爾頻率倒譜系數(shù)的幅值在20左右低于男性,圖15是維數(shù)與幅值的關(guān)系,我們發(fā)現(xiàn)隨著維數(shù)的增加,幅值從50 000在逐漸減少,高于男性.

        圖15 女性MFCC相關(guān)圖Fig.15 Correlation Map of female MFCC圖16 女性語(yǔ)譜圖Fig.16 Female Language Spectrum

        女性愉悅時(shí)發(fā)音頻率與男生較為相似,平均起來(lái)超過(guò)15 000 Hz,約處在17 000 Hz左右.由此可見(jiàn)女性的短間能量在N在100到200之間時(shí)總體高于男性,最高接近20.

        女性的短時(shí)平均過(guò)零率在隨時(shí)間不斷變大,與男性一樣在2.5到3.5(106)達(dá)到最值.

        女性的短時(shí)間自相關(guān)函數(shù)為曲線形.先下降后上升.其最低值在80左右,后又上升再下降.

        由此可見(jiàn),女性的短時(shí)間平均幅度同樣先增大后減小,峰值在0.2*106.總體低于男性.

        利用MFCC分別得到男性語(yǔ)音的48 110*24 和女性語(yǔ)音的49 220*24的MFCC特征矩陣.基于MFCC參數(shù)進(jìn)行貝葉斯判別,貝葉斯判別要求總體呈正態(tài)分布,利用Matlab繪制QQ圖,結(jié)果如下,可以看出其呈顯著的正態(tài)分布,因此可以判別.

        圖17 女性短時(shí)能量圖Fig.17 Short time energy graph for women圖18 女性短時(shí)平均過(guò)零率圖Fig.18 Female short time average over 0 rate chart

        圖19 女性短時(shí)自相關(guān)函數(shù)Fig.19 Female short-term self-correlation function圖20 女性語(yǔ)音短時(shí)平均幅度圖Fig.20 Graph of short-term mean ranges for female voice

        表1 男女語(yǔ)音特征的均值向量比較Tab.1 Comparison of mean vectors for phonetic features of men and women

        但是將男性語(yǔ)音與女性語(yǔ)音所有幀數(shù)的特征值均引入的話,會(huì)導(dǎo)致數(shù)據(jù)量過(guò)大,運(yùn)算困難,又通過(guò)前面所做的語(yǔ)譜圖分析可知,男女性在唱“謊言”這首歌時(shí),其性別差異主要來(lái)自前部,因此選取男女音頻的前100幀,作為分類(lèi)的學(xué)習(xí)樣本,將附件中的前100幀作為判別樣本.

        分別計(jì)算女性語(yǔ)音樣本和男性語(yǔ)音樣本的均值向量、協(xié)方差、樣本數(shù)以及二者混合的樣本數(shù).

        計(jì)算混合樣本方差24*24矩陣,然后得到女性語(yǔ)音樣本與男性語(yǔ)音樣本的協(xié)方差Qfemale=5.415 628 859 825 042e+02,Qmale=4.441 004 676 950 699e+02,協(xié)方差不相等,因此進(jìn)行下一步操作,利用判別函數(shù)得出前100幀均有男性特征.

        圖21 原始數(shù)據(jù)檢驗(yàn)圖
        Fig.21 Raw Data Inspection diagram

        誤差分析,利用Matlab計(jì)算回代誤判率為0,因此嬰兒性別為男.

        3 結(jié)語(yǔ)

        本文針對(duì)嬰兒語(yǔ)音的識(shí)別及處理問(wèn)題,通過(guò)Mel尺度倒譜參數(shù)(MFCC)等信號(hào)分析的參數(shù),基于性別差異角度對(duì)語(yǔ)音信號(hào)時(shí)域進(jìn)行特征分析,繪制語(yǔ)譜圖、能量圖、相關(guān)函數(shù)圖等,觀察男女聲的差異,通過(guò)貝葉斯判別法,將語(yǔ)音進(jìn)行性別判別歸類(lèi),再利用該模型對(duì)嬰兒的聲音進(jìn)行鑒別.模型中為使計(jì)算簡(jiǎn)便,使所得結(jié)果更理想化,忽略了一些次要影響因素.模型使用的音頻樣本不夠豐富,也使模型準(zhǔn)確性有所降低.巧妙運(yùn)用多種數(shù)學(xué)軟件(如MATLAB、Excel),取長(zhǎng)補(bǔ)短,使計(jì)算結(jié)果更加準(zhǔn)確、明晰.本文建立的模型與實(shí)際緊密聯(lián)系,充分考慮樂(lè)理等科學(xué)知識(shí),從而使模型更加通用、易懂.

        猜你喜歡
        維數(shù)貝葉斯幅值
        β-變換中一致丟番圖逼近問(wèn)題的維數(shù)理論
        一類(lèi)齊次Moran集的上盒維數(shù)
        基于S變換的交流電網(wǎng)幅值檢測(cè)系統(tǒng)計(jì)算機(jī)仿真研究
        電子制作(2017年7期)2017-06-05 09:36:13
        貝葉斯公式及其應(yīng)用
        關(guān)于齊次Moran集的packing維數(shù)結(jié)果
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        涉及相變問(wèn)題Julia集的Hausdorff維數(shù)
        正序電壓幅值檢測(cè)及諧波抑制的改進(jìn)
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        低壓電力線信道脈沖噪聲的幅值與寬度特征
        免费视频成人片在线观看| 久久精品伊人无码二区| 91免费播放日韩一区二天天综合福利电影| 欧美亚洲综合激情在线| 日韩少妇人妻一区二区| 精品人妻日韩中文字幕| 国产亚洲精品90在线视频| 久久久久久久久毛片精品| 久久精品成人欧美大片| 狠狠色噜噜狠狠狠狠97俺也去| 午夜少妇高潮在线观看视频| 国产美女精品视频线免费播放软件| 国产精品成人一区二区三区| 色yeye在线观看| 国产免费操美女逼视频| 老鸭窝视频在线观看| 无套内射无矿码免费看黄| 青青国产成人久久91| 色婷婷久久综合中文久久一本| 岳丰满多毛的大隂户| 国产95在线 | 欧美| 完整在线视频免费黄片| 青青草成人免费在线视频| 中文人妻熟妇乱又伦精品| 国产又黄又爽视频| 日本精品啪啪一区二区| 无遮挡1000部拍拍拍免费| 亚洲国产精品毛片av不卡在线| 国产一区曰韩二区欧美三区| 国产成人精品自拍在线观看| 亚洲av日韩av激情亚洲| 中文字幕亚洲情99在线 | 午夜亚洲精品视频在线| 免费a级毛片无码免费视频120软件| 日韩www视频| 欧美一区波多野结衣第一页| 亚洲高清在线视频网站| 中文字幕亚洲精品在线| 久久精品无码一区二区三区免费| 亚洲AV秘 无码一区二p区三区 | 国产在线一区二区三区av|