亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于進(jìn)化算法低信噪比環(huán)境的基音頻率檢測(cè)

        2017-06-12 02:37:29張小恒李勇明謝文賓
        現(xiàn)代電子技術(shù) 2017年11期
        關(guān)鍵詞:粒子群算法遺傳算法

        張小恒++李勇明++謝文賓

        摘 要: 構(gòu)造頻域空間的檢測(cè)模型,將基音頻率作為特征值進(jìn)行提取,然后為檢測(cè)模型引入模型參數(shù)即優(yōu)化因子,通過(guò)進(jìn)化算法對(duì)該因子進(jìn)行全局優(yōu)化,從而獲取基音頻率的全局最優(yōu)值,在優(yōu)化精度和時(shí)間代價(jià)上取得了較好的平衡。采用兩種具有代表性的進(jìn)化算法進(jìn)行算法設(shè)計(jì),包括遺傳算法(GA算法)和粒子群算法(PSO算法)。將所提算法與相關(guān)有代表性的算法進(jìn)行比較,結(jié)果表明,所提算法在不同類(lèi)型不同程度的噪聲環(huán)境下,能顯著提升檢測(cè)識(shí)別率,尤其是在極低信噪比下,優(yōu)勢(shì)更為明顯。

        關(guān)鍵詞: 極低信噪比環(huán)境; 基音頻率; 進(jìn)化算法; 遺傳算法; 粒子群算法

        中圖分類(lèi)號(hào): TN912.3?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)11?0046?07

        Evolutionary algorithm based fundamental tone frequency

        detection in low SNR environment

        ZHANG Xiaoheng1, 2, LI Yongming2, XIE Wenbin2

        (1. Chongqing Radio & TV University, Chongqing 400052, China; 2. College of Communication Engineering, Chongqing University, Chongqing 400030, China)

        Abstract: A frequency?domain detection model was constructed. The fundamental tone frequency is extracted as characteristic value. The model parameter (optimization factor) is introduced into the detection model, for which the global optimization is carried out with evolutionary algorithm (EA) to get the global optimum of the fundamental tone frequency, and obtain a better balance in optimization accuracy and time cost. Two representative EAs (genetic algorithm (GA) and particle swarm optimization (PSO) algorithm) are used to perform the algorithm design. The proposed algorithm is compared with the other representative algorithms. The comparison results show that the proposed algorithm can improve the detection recognition rate greatly in the noise environments of different types and different degrees, especially in the very?low SNR environment.

        Keywords: very?low SNR environment; fundamental tone frequency; evolutionary algorithm; genetic algorithm; PSO

        0 引 言

        基音頻率是語(yǔ)音信號(hào)最為重要的參數(shù)之一。準(zhǔn)確有效地檢測(cè)基音頻率對(duì)很多語(yǔ)音技術(shù)起著極為關(guān)鍵的作用,如說(shuō)話(huà)人檢測(cè)、跟蹤、語(yǔ)音分離及識(shí)別等。盡管基音頻率檢測(cè)已經(jīng)研究多年,并取得了一系列成果,但相關(guān)算法大都適用于高信噪比環(huán)境,而實(shí)際應(yīng)用中,大多數(shù)語(yǔ)音都處于復(fù)雜惡劣的噪聲環(huán)境中。因此,針對(duì)低信噪比環(huán)境,特別是-5 dB以下的基音頻率檢測(cè)算法的研究,對(duì)實(shí)現(xiàn)性能優(yōu)良、實(shí)用的語(yǔ)音處理技術(shù),取得實(shí)效應(yīng)用有著重要的現(xiàn)實(shí)意義[1?4]。

        基音頻率檢測(cè)的有效性依賴(lài)于語(yǔ)音信號(hào)諧波結(jié)構(gòu)的完整性,噪聲疊加造成諧波結(jié)構(gòu)被破壞,而隨著信噪比的下降最終難以分辨一個(gè)完整的諧波周期。因此低信噪比下實(shí)現(xiàn)優(yōu)良的檢測(cè)性能具有較大難度[5?9]。

        由于語(yǔ)音信號(hào)參數(shù)隨時(shí)間變化緩慢,相鄰多個(gè)語(yǔ)音幀信號(hào)參數(shù)會(huì)保持一定連續(xù)性,因此典型的基音頻率檢測(cè)算法可以分為兩個(gè)階段[10]:第一個(gè)階段找出基音頻率的多個(gè)可能候選值,或者計(jì)算基音頻率值落在不同頻率區(qū)間的概率。第二階段一般依賴(lài)DP[11]或HMM[12]算法,從多個(gè)候選值選出最終的基音頻率值。這些算法大都利用了相鄰語(yǔ)音幀數(shù)據(jù)之間的相關(guān)性找出最優(yōu)的基音頻率序列值,從而使得整體的后驗(yàn)誤差概率最低。但這類(lèi)利用數(shù)據(jù)間強(qiáng)相關(guān)性的算法本身也會(huì)導(dǎo)致一定錯(cuò)誤。此外,該類(lèi)算法對(duì)相關(guān)性的過(guò)高要求在現(xiàn)實(shí)中常常難以得到較好滿(mǎn)足。

        為了抑制噪聲,目前研究的方法一般分為參數(shù)化方法和非參數(shù)化方法兩類(lèi)[13]:參數(shù)化算法采用統(tǒng)計(jì)方法對(duì)諧波結(jié)構(gòu)進(jìn)行建模,其典型的代表算法有GMM[14]算法;非參數(shù)化算法一般從頻域的諧波結(jié)構(gòu)或者時(shí)域的周期特性入手,通過(guò)對(duì)頻域或時(shí)域峰值的檢測(cè)得到基音頻率,其典型的代表算法有RAPT[15]算法和YIN[16]算法,但這類(lèi)方法在信噪較高時(shí)比較有效,而當(dāng)信噪比較低時(shí)其峰值特性很容易湮沒(méi)在噪聲之中從而使得難以檢測(cè)出基音頻率。

        近年在該領(lǐng)域有一些研究成果出現(xiàn),如HSAC?SAMSF[17]算法對(duì)諧波進(jìn)行自相關(guān)運(yùn)算,然后作對(duì)稱(chēng)性相加求和來(lái)尋找基音周期,該算法充分利用語(yǔ)音的諧波特性,并通過(guò)DCT相關(guān)運(yùn)算及對(duì)稱(chēng)累加運(yùn)算抑制噪聲;TAPS?CA[18]算法對(duì)頻域信號(hào)進(jìn)行相關(guān)運(yùn)算,并利用稀疏矩陣對(duì)其進(jìn)行重建,該算法利用短時(shí)譜的自相關(guān)運(yùn)算抑制噪聲,在高信噪比環(huán)境利用最小均方誤差法求取稀疏矩陣,在低信噪比環(huán)境下利用GMM法對(duì)誤差信號(hào)進(jìn)行建模,從而得到最優(yōu)稀疏矩陣。PEFAC[13]算法是最近提出的性能優(yōu)良的基音頻率檢測(cè)算法,其通過(guò)對(duì)信號(hào)的對(duì)數(shù)譜進(jìn)行壓縮以求取峰值信號(hào),充分利用噪聲統(tǒng)計(jì)特性及幅度譜的壓縮抑制噪聲,具有極低信噪比環(huán)境下較好的抗噪聲干擾能力,且在-20~20 dB信噪比下均性能良好。基于人工神經(jīng)網(wǎng)絡(luò)的基音頻率檢測(cè)算法[10]也利用了PEFAC算法的特征提取優(yōu)勢(shì),并進(jìn)一步采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,但相比PEFAC算法僅在-10 dB信噪比以上得出性能優(yōu)良的結(jié)論。

        總的來(lái)說(shuō)以上算法都是在經(jīng)典的參數(shù)化及非參數(shù)化方法上做了一定程度的改進(jìn),但仍然很難改變無(wú)法精確有效描述復(fù)雜噪聲環(huán)境中語(yǔ)音信號(hào)的缺陷。由于語(yǔ)音信號(hào)具有多次諧波特性,基音頻率這一重要參數(shù)可通過(guò)特征波形的峰值表達(dá)。因此,本文針對(duì)參數(shù)化方法與非參數(shù)化方法的各自不足,充分利用PEFAC對(duì)語(yǔ)音信號(hào)進(jìn)行基音頻率特征提取,構(gòu)造基音頻率特征波形,通過(guò)對(duì)特征波形的峰值求取實(shí)現(xiàn)基音頻率的提取。但是當(dāng)語(yǔ)音信號(hào)被噪聲污染時(shí),信號(hào)的諧波特征被破壞,特征波形的峰值與基音頻率就存在一定的誤差。當(dāng)信噪比惡化時(shí),該誤差就會(huì)明顯增大,嚴(yán)重影響了峰值對(duì)基音頻率的表達(dá)。基于此,本文引入優(yōu)化因子對(duì)特征波形進(jìn)行校正以抵消噪聲帶來(lái)的畸變。該優(yōu)化因子的精確取值能最大程度地抑制噪聲帶來(lái)的畸變影響,從而消除特征波形峰值與基音頻率的誤差。

        本文將優(yōu)化因子最佳取值問(wèn)題轉(zhuǎn)換為最優(yōu)化問(wèn)題,嘗試?yán)眠M(jìn)化算法來(lái)獲取其全局最優(yōu)解。進(jìn)化算法的優(yōu)勢(shì)在于其可解決復(fù)雜的非線(xiàn)性及多維空間尋優(yōu)問(wèn)題,通過(guò)構(gòu)造含有優(yōu)化因子的適應(yīng)度函數(shù),從而能動(dòng)態(tài)尋找出最佳基音頻率值所對(duì)應(yīng)的優(yōu)化因子的值。

        1 基于進(jìn)化算法面向極低信噪比環(huán)境的基音頻

        率檢測(cè)方法(LSNR_PFD_EA)

        本文提出的基音頻率估計(jì)算法,即低信噪比下基于進(jìn)化算法的基音頻率估計(jì)(LSNR_PFD_EA)主要包括特征提取模塊、基于進(jìn)化算法的優(yōu)化因子搜索模塊及基音頻率提取模塊三部分。圖1為該算法主要流程。

        如圖1所示,首先提取語(yǔ)音幀的頻域特征,此頻域特征稱(chēng)為基音特征波形,其峰值用來(lái)表達(dá)基音頻率值,然后設(shè)計(jì)一個(gè)多維變量稱(chēng)為優(yōu)化因子,對(duì)基音頻率特征波形的峰值進(jìn)行有效調(diào)整,使得調(diào)整后的峰值能夠表達(dá)的基音頻率是真實(shí)基音頻率值的最佳逼近。本文的特征提取方式基于PEFAC,包括短時(shí)傅里葉變換,頻域?qū)?shù)化,規(guī)整化,再進(jìn)行頻域卷積得到基音特征波形即圖中的特征值。接著,通過(guò)優(yōu)化因子搜索模塊,利用基音特征波形與優(yōu)化因子共同構(gòu)造適應(yīng)度函數(shù),利用進(jìn)化算法結(jié)合訓(xùn)練語(yǔ)音搜索到最佳優(yōu)化因子。最后,對(duì)測(cè)試集語(yǔ)音提取其特征值,基于搜索得到的最佳優(yōu)化因子對(duì)該特征值進(jìn)行優(yōu)化,優(yōu)化完成后再通過(guò)動(dòng)態(tài)規(guī)劃(DP)得到語(yǔ)音的基音頻率。

        1.1 特征提取模塊

        特征提取模塊主要包括如下步驟:

        (1) 語(yǔ)音幀信號(hào)首先通過(guò)短時(shí)傅里葉變換映射到頻域。代表第幀的功率譜密度,對(duì)數(shù)頻域的功率譜密度采用表示,其中規(guī)整化后的功率譜密度為:

        (1)

        式中:代表長(zhǎng)程平均語(yǔ)音譜;而代表平滑后平均語(yǔ)音譜。

        (2) 規(guī)整化的頻譜通過(guò)如下擴(kuò)展峰值的濾波器增強(qiáng)其諧波特性。其中濾波器定義如下:

        (2)

        其中的選取滿(mǎn)足而設(shè)置為1.8且設(shè)置為10。

        (3) 通過(guò)對(duì)規(guī)整化的功率譜密度進(jìn)行卷積得基音特征波形接下來(lái)的基音檢測(cè)方法一般可先從中選取較大的幾個(gè)峰值對(duì)應(yīng)的頻率值作為候選基音頻率值。

        (4) 然后通過(guò)DP等規(guī)劃算法得到基音頻率值的最佳估計(jì)值。

        當(dāng)信噪比惡化時(shí),特征波形的峰值被嚴(yán)重破壞,使得候選值均極大地偏離真實(shí)值,也就無(wú)法得到準(zhǔn)確的估計(jì)值。為減小候選值與真實(shí)值的誤差,本文提出了優(yōu)化因子策略,即使用優(yōu)化因子計(jì)算優(yōu)化后的基音特征波形從中選取新的峰值對(duì)應(yīng)的候選基音頻率值,使得最終的基音頻率估計(jì)值與真實(shí)值的誤差最小。

        1.2 優(yōu)化因子搜索模塊

        1.2.1 優(yōu)化函數(shù)分析

        圖2表示了優(yōu)化因子在基音頻率檢測(cè)中的作用。其中圖2(a)為不含噪聲的語(yǔ)音幀經(jīng)過(guò)特征提取之后的輸出;圖2(b)為SNR=-10 dB下語(yǔ)音幀經(jīng)過(guò)特征提取之后的輸出;圖2(c)為圖2(b)經(jīng)過(guò)優(yōu)化因子處理后的波形,若選取幅值最大的3個(gè)峰值作為基音頻率候選值,通常最大峰值對(duì)應(yīng)的基音頻率值成為估計(jì)值的概率是最大的,如果后續(xù)不作DP規(guī)劃,則最大峰值對(duì)應(yīng)的基音頻率值就是基音頻率估計(jì)值,如果要作DP規(guī)劃,最終的估計(jì)值要在候選值,三個(gè)值之中選取。從圖中發(fā)現(xiàn),圖2(a)中基音頻率候選值與圖2(b)中基音頻率候選值的誤差很大,特別是最大峰值對(duì)應(yīng)的頻率值誤差極大,這是低信噪比環(huán)境下噪聲干擾的結(jié)果。

        若要提升基音頻率估計(jì)精度,減小估計(jì)誤差,可通過(guò)優(yōu)化因子處理,如圖2(c)所示。通過(guò)將區(qū)間segment的幅度做一定程度的提升,則該區(qū)間峰值對(duì)應(yīng)的頻率就會(huì)成為候選基音頻率,而免遭錯(cuò)誤遺漏。優(yōu)化因子取值的不同可以使波形在不同區(qū)間的幅度進(jìn)行放縮。通過(guò)進(jìn)化算法來(lái)搜索最優(yōu)因子,從而使圖2(a)與圖2(c)的基音頻率候選值誤差最小。圖2是某一類(lèi)語(yǔ)音幀的情況,由于不同語(yǔ)音幀的基音頻率候選值有所不同,而受到噪聲污染后基音特征波形的畸變也明顯有所不同,因此每個(gè)語(yǔ)音幀的理想優(yōu)化因子也不盡相同,事實(shí)上針對(duì)每一幀語(yǔ)音數(shù)據(jù)找出其對(duì)應(yīng)的理想優(yōu)化因子是沒(méi)有意義的,因?yàn)閮?yōu)化因子數(shù)量十分龐大而無(wú)法使用,其次優(yōu)化因子與語(yǔ)音幀的關(guān)聯(lián)性也無(wú)法得到有效建立。但肯定能找出一個(gè)合理的優(yōu)化因子,相對(duì)于每一幀語(yǔ)音數(shù)據(jù)來(lái)說(shuō)雖不一定最優(yōu),但相對(duì)于所有幀語(yǔ)音數(shù)據(jù)來(lái)說(shuō),總體誤差最小?;谝陨戏治觯瑑?yōu)化因子的取值就被轉(zhuǎn)化為一個(gè)求解最佳優(yōu)化因子的最優(yōu)化問(wèn)題。由于優(yōu)化因子是高維向量,加上不同維的取值都有一定精度,優(yōu)化因子的可能取值是海量的,即候選解空間較大。此外,優(yōu)化因子和峰值與基音頻率間誤差的關(guān)系并非線(xiàn)性相關(guān),因此候選解空間將存在多個(gè)局部極值點(diǎn)。鑒于進(jìn)化算法全局尋優(yōu)的特性,本文基于GA[19]和PSO[20]算法分別求解該優(yōu)化問(wèn)題。

        GA和PSO算法都涉及確定適應(yīng)度函數(shù)的問(wèn)題,用于基音頻率檢測(cè)的優(yōu)化因子的適應(yīng)度函數(shù)分為如下兩種情況:

        (1) 不使用DP動(dòng)態(tài)規(guī)劃

        由于不使用DP動(dòng)態(tài)規(guī)劃,優(yōu)化后的基音特征波形最大峰值對(duì)應(yīng)的頻率值為基音頻率估計(jì)值,其與真實(shí)基音頻率值的誤差。

        因此適應(yīng)度函數(shù)即小于5%的概率。

        (2) 使用DP動(dòng)態(tài)規(guī)劃

        表示時(shí)刻語(yǔ)音幀基音特征波形的峰值幅度,表示與之相關(guān)聯(lián)的頻率,則選擇較小峰值的代價(jià)其中為最大峰值幅度;基音頻率候選值的選擇率其中為相鄰語(yǔ)音幀的時(shí)間偏移量,則躍遷到的代價(jià)為其中為在訓(xùn)練語(yǔ)音庫(kù)中的均值;時(shí)刻語(yǔ)音幀基音頻率候選值與基音頻率中值的相對(duì)誤差為,其中可通過(guò)時(shí)刻最大峰值幅度對(duì)應(yīng)的基音頻率候選值及相鄰幀的值估計(jì)得到,若相鄰幀不是濁音幀則跳過(guò)。綜上,時(shí)刻語(yǔ)音幀的第個(gè)基音頻率候選值躍遷到時(shí)刻語(yǔ)音幀的第個(gè)基音頻率候選值的總代價(jià)為三者之和:其中為限制的最大值,而表示各參數(shù)相關(guān)權(quán)重。

        將總代價(jià)最小時(shí)選擇的峰值頻率作為基音頻率估計(jì)值,因此適應(yīng)度函數(shù)為:

        即小于5%的概率。

        1.2.2 優(yōu)化算法?進(jìn)化算法

        (1) GA算法

        本文采用二進(jìn)制遺傳算法,其主要流程如下:

        步驟1: 二進(jìn)制編碼;

        步驟2: 隨機(jī)產(chǎn)生二進(jìn)制種群;

        步驟3:計(jì)算其對(duì)應(yīng)的適應(yīng)度函數(shù)值

        步驟4: 計(jì)算種群適應(yīng)度之和

        步驟5: 計(jì)算每個(gè)的選擇概率

        步驟6: 計(jì)算每個(gè)的累加概率

        步驟7: 競(jìng)爭(zhēng)法進(jìn)行選擇操作;

        步驟8: 對(duì)新一代種群進(jìn)行單點(diǎn)隨機(jī)交叉運(yùn)算;

        步驟9: 單點(diǎn)隨機(jī)變異操作;

        步驟10: 第一代計(jì)算完畢,返回繼續(xù)計(jì)算步驟3,直到達(dá)到滿(mǎn)意的結(jié)果為止。

        (2) PSO算法

        本文采用粒子群算法的主要流程如下:

        步驟1:根據(jù)優(yōu)化因子的維度與取值范圍確定粒子群的參數(shù);

        步驟2:初始化粒子群,其中粒子的信息可用兩個(gè)維向量表示,第個(gè)粒子的位置(即優(yōu)化因子)可表示為:

        ,

        其中與為每一維的取值上下限,速度可表示為其中與均為取值范圍在0~1之間的隨機(jī)數(shù);

        步驟3:計(jì)算每個(gè)粒子的適應(yīng)度;

        步驟4:根據(jù)進(jìn)化方程更新及粒子位置速度:

        步驟5:是否滿(mǎn)足終止條件,否則返回繼續(xù)計(jì)算步驟3,直到達(dá)到滿(mǎn)意的結(jié)果為止。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)條件

        2.1.1 數(shù)據(jù)說(shuō)明

        本文采用TIMIT標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)測(cè)試算法性能。訓(xùn)練集包含20男20女,每人3句話(huà)。噪聲訓(xùn)練集為NOISE?92,包含white,babble,car三種噪聲。純凈語(yǔ)音與噪聲相混合,信噪比SNR分為9個(gè)不同的等級(jí):-20 dB,-15 dB,

        -10 dB,-5 dB,0 dB,5 dB,10 dB,15 dB,20 dB。測(cè)試集包含10男10女,每人3句話(huà)。標(biāo)準(zhǔn)基音頻率使用Praat工具從純凈語(yǔ)音中提取。

        以?xún)煞N標(biāo)準(zhǔn)方式測(cè)試估計(jì)結(jié)果:基音頻率識(shí)別率(DR)。DR是針對(duì)濁音而言,計(jì)算誤差不超過(guò)5%的概率,為濁音幀數(shù),為其中計(jì)算誤差不超過(guò)5%的幀數(shù),計(jì)算式如下:

        2.1.2 參數(shù)設(shè)置

        優(yōu)化因子的維度為10,每一維的取值范圍均在0.5~1.5之間。當(dāng)使用GA算法時(shí),基因總數(shù)為100,搜索下限為0.5,上限為1.5,交叉概率為0.8,變異概率為0.1,迭代次數(shù)為30;當(dāng)使用PSO算法時(shí),種群大小為20,粒子初始速度為0.01,最大速度為1,粒子群維度為10,取值范圍在0.5~1.5,認(rèn)知加速度為2,社會(huì)加速度為2,慣性權(quán)重為1,退化因子為1,迭代次數(shù)為60。

        2.2 兩種進(jìn)化算法的效果對(duì)比

        圖3為不同迭代次數(shù)下,兩種進(jìn)化算法的檢測(cè)效果。兩種算法共同的規(guī)律是隨著信噪比的提高,收斂速度會(huì)加快。隨著迭代次數(shù)的增加,檢測(cè)率變化越來(lái)越緩慢或者根本不發(fā)生變化。這說(shuō)明信噪比越低優(yōu)化的空間越大,因此信噪比越低,特征波形的結(jié)構(gòu)受噪聲影響越大。再對(duì)比GA與PSO算法,GA算法僅在信噪比為-20 dB下的識(shí)別率有較為明顯的變化,其他信噪比下幾乎沒(méi)有變化。從最終的識(shí)別率來(lái)看,相同信噪比下PSO的識(shí)別率要高于GA,因此說(shuō)明PSO算法在搜索最佳優(yōu)化因子上更加有效。因此,后續(xù)實(shí)驗(yàn)中,主要采用基于PSO的基音檢測(cè)算法進(jìn)行效果對(duì)比。為了便于說(shuō)明,基于GA的基音檢測(cè)算法記為L(zhǎng)SNR_PFD_GA,基于PSO的基音檢測(cè)算法記為L(zhǎng)SNR_PFD_PSO。

        2.3 不同類(lèi)型噪聲環(huán)境下的檢測(cè)效果對(duì)比

        圖4為三種類(lèi)型的噪聲環(huán)境下,本文LSNR_PFD_ PSO算法與三種主流算法J&W,YIN,RAPT的識(shí)別效果對(duì)比。

        由圖4可見(jiàn),對(duì)于不同類(lèi)型的噪聲(白噪聲,babble噪聲,car噪聲),本文算法均優(yōu)于其他算法。此外,信噪比越低,本文算法的改進(jìn)效果越明顯。例如,-5 dB以下,本文算法的識(shí)別率提高了10%~20%,而在-20 dB時(shí),其提升程度可以達(dá)到20%~50%。這說(shuō)明本文算法非常適合低信噪比環(huán)境下的基音頻率檢測(cè)。

        2.4 DP對(duì)基音頻率檢測(cè)的影響分析

        圖5為本文算法與PEFAC算法針對(duì)采用DP與否進(jìn)行的效果對(duì)比。比較采用DP與不采用DP計(jì)算的三種噪聲(白噪聲,babble噪聲,car噪聲)在不同信噪比下的平均識(shí)別率,采用DP算法并用PSO優(yōu)化后的識(shí)別率是最好的,不采用DP而使用PSO優(yōu)化的識(shí)別率并不如使用了DP的PEFAC效果好,但比未采用DP和PSO優(yōu)化的效果好很多。這說(shuō)明DP對(duì)基音頻率檢測(cè)算法具有明顯的正面作用,本文算法也不例外。為了最大限度地發(fā)揮本文算法效率,建議采用DP。

        圖4 基音頻率識(shí)別率比較

        2.5 進(jìn)化算法參數(shù)影響分析

        圖6為基于不同參數(shù)設(shè)置,在不同信噪比下(白噪聲,babble噪聲,car噪聲) LSNR_PFD_PSO算法的平均識(shí)別率。圖6(a)為種群規(guī)模設(shè)置不同帶來(lái)的影響。圖6(b)為粒子飛行初始速度設(shè)置不同帶來(lái)的影響。

        由圖6(a)可見(jiàn),隨著種群規(guī)模的增大,識(shí)別率有所增加但不明顯,當(dāng)種群規(guī)模由20增加至200,-5 dB以下識(shí)別率平均提升了2%左右。鑒于種群規(guī)模與計(jì)算復(fù)雜度的關(guān)系,因此需要結(jié)合具體情況,通過(guò)統(tǒng)計(jì)實(shí)驗(yàn)設(shè)定合適的種群規(guī)模。此外,還發(fā)現(xiàn)種群規(guī)模對(duì)識(shí)別率的正面作用在低信噪比下更明顯。由圖6(a)可見(jiàn),在信噪比為-20 dB,200的種群規(guī)模較20的種群規(guī)模提高效果為25%左右。由圖6(b)可見(jiàn),粒子初始速度與識(shí)別率為負(fù)相關(guān)關(guān)系,當(dāng)其較大時(shí),識(shí)別率會(huì)變差。具體來(lái)說(shuō),當(dāng)粒子速度由0.01增至0.05時(shí),-5 dB以下識(shí)別率平均下降3%。這個(gè)結(jié)果的可能原因是初始速度太大將影響搜索的精細(xì)程度,較容易錯(cuò)過(guò)最優(yōu)解。由于初始速度過(guò)小將增加計(jì)算代價(jià),因此也需要結(jié)合具體情況,通過(guò)統(tǒng)計(jì)實(shí)驗(yàn)來(lái)設(shè)定合適的初始速度。

        2.6 相關(guān)算法的時(shí)間代價(jià)對(duì)比

        表1為不同算法基于同一運(yùn)算平臺(tái)的平均時(shí)間代價(jià)。計(jì)算機(jī)平臺(tái)為Intel CPU 2.6 GHz,算法分別為PSO,GA,PEFAC,RAPT,YIN,“算法時(shí)間代價(jià)”是指當(dāng)前算法在裝有Matlab軟件的計(jì)算機(jī)平臺(tái)上處理1 s語(yǔ)音數(shù)據(jù)運(yùn)行的平均時(shí)間代價(jià)。

        由表1可見(jiàn),LSNR_PFD_PSO,LSNR_PFD_GA和PEFAC算法的時(shí)間代價(jià)一致,均為0.175 s。這個(gè)時(shí)間代價(jià)并不包含進(jìn)化算法的訓(xùn)練時(shí)間,這是由于一旦訓(xùn)練完成后,幾種算法的實(shí)時(shí)檢測(cè)過(guò)程所需時(shí)間代價(jià)幾乎無(wú)差別。本文算法與YIN算法的時(shí)間代價(jià)也相當(dāng),比PART算法明顯降低。根據(jù)多次實(shí)測(cè)表明,本文算法工作所需時(shí)間代價(jià)完全滿(mǎn)足實(shí)時(shí)性要求,現(xiàn)實(shí)可行。

        3 結(jié) 論

        極低噪聲環(huán)境下的基音頻率檢測(cè)是一個(gè)非常有用但具有較大難度的科研問(wèn)題,迄今為止,一直沒(méi)有得到很好的解決。針對(duì)目前新提出的抗噪性能較好的基音檢測(cè)算法的不足,本文引入最佳優(yōu)化因子來(lái)消除噪聲帶來(lái)的畸變影響。通過(guò)把最佳優(yōu)化因子取值問(wèn)題轉(zhuǎn)化為最優(yōu)化問(wèn)題,引入進(jìn)化算法加以求解,顯著提升了低信噪比環(huán)境下基音頻率檢測(cè)性能。實(shí)驗(yàn)結(jié)果表明,面對(duì)不同類(lèi)型不同信噪比的噪聲環(huán)境,本文算法均取得了較為顯著的改進(jìn)效果,且信噪比越低,改進(jìn)效果越明顯。針對(duì)下一步工作,本文擬考慮進(jìn)行更大噪聲環(huán)境的實(shí)驗(yàn)及對(duì)進(jìn)化算法的改進(jìn)以提高最佳優(yōu)化因子的搜索效率和基音頻率檢測(cè)的泛化性能。

        參考文獻(xiàn)

        [1] RAMAKRISHNAN A G, ABHIRAM B, PRASANNA S R M. Voice source characterization using pitch synchronous discrete cosine transform for speaker identification [J]. Journal of the acoustical society of America, 2015, 137(6): 469?475.

        [2] WOHLMAYR M, PERNKOPF F. Model?based multiple pitch tracking using factorial HMMs: model adaptation and inference [J]. IEEE transactions on audio, speech and language processing, 2013, 21(8): 1742?1754.

        [3] HAN K, WANG D L. A classification based approach to speech segregation [J]. Journal of the acoustical society America, 2012, 132(5): 3475?3483.

        [4] RAO K S, MAITY S, REDDY V R. Pitch synchronous and glottal closure based speech analysis for language recognition [J]. International journal of speech technology, 2013, 16(4): 413?430.

        [5] SHARMA D, NAYLOR P A. Evaluation of pitch estimation in noisy speech for application in non?intrusive speech quality assessment [C]// Proceedings of 2009 European Signal Processing Conference. Glasgow: IEEE, 2009: 2514?2518.

        [6] SHIMAMURA T, KOBAYASHI H. Weighted autocorrelation for pitch extraction of noisy speech [J]. IEEE transactions on speech and audio processing, 2001, 9(7): 727?730.

        [7] SHAHNAZ C, ZHU W P, AHMAD M O. Robust pitch estimation at very low SNR exploiting time and frequency domain cues [C]// Proceedings of 2005 IEEE International Conference on Acoustics, Speech, Signal Processing. Philadelphia: IEEE, 2005: 389?392.

        [8] SHAHNAZ C, ZHU W P, AHMAD M O. A robust pitch estimation algorithm in noise [C]// Proceedings of 2007 IEEE International Conference on Acoustics, Speech, and Signal Proces?sing. Honolulu: IEEE, 2007: 1073?1076.

        [9] WU M, WANG D L, BROWN G J. A multipitch tracking algorithm for noisy speech [J]. IEEE transactions on speech and audio processing, 2003, 11(3): 229?241.

        [10] HAN Kun, WANG Deliang. Neural network based pitch tracking in very noisy speech [J]. IEEE transactions on audio, speech and language processing, 2014, 22(12): 2158?2168.

        [11] GOSAIN A, SHARMA G. A survey of dynamic program analysis techniques and tools [J]. Advances in intelligent systems and computing, 2014, 327: 113?122.

        [12] JIN Z, WANG D L. HMM?based multipitch tracing for noisy and reverberant speech [J]. IEEE/ACM transactions on audio, speech and language processing, 2011, 19(5): 1091?1102.

        [13] GONZALEZ S, BROOKES M. PEFAC: a pitch estimation algorithm robust to high levels of noise [J]. IEEE/ACM transactions on audio, speech and language processing, 2014, 22(2): 518?530.

        [14] MCLACHLAN G, PEEL D. Finite mixture models [M]. New York: Wiley?Blackwell, 2000.

        [15] TALKIN D. A robust algorithm for pitch tracking (RAPT) [R]. Amsterdam: Elsevier, 1995: 495?518.

        [16] DE CHEVEGNE A, KAWAHARA H. YIN, a fundamental frequency estimator for speech and music [J]. Journal of the acoustical society America, 2002, 111(4): 1917?1930.

        [17] SHAHNAZ C, ZHU W P, AHMAD M O. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time?domain matching scheme [J]. IEEE transactions on audio, speech and language processing, 2012, 20(1): 322?335.

        [18] FENG Huang, TAN Lee. Pitch estimation in noisy speech using accumulated peak spectrum and sparse estimation technique [J]. IEEE transactions on audio, speech and language processing, 2013, 21(1): 99?109.

        [19] HE Yaohua, HUI Chiwai. A binary coding genetic algorithm for multi?purpose process scheduling: a case study [J]. Chemical engineering science, 2010, 65(16): 4816?4828.

        [20] PARSOPOULOS K E, VRAHAT IM N. On the computation of all global minimizers through particle swarm optimization [J]. IEEE transactions on evolutionary computation, 2004, 8(3): 211?224.

        猜你喜歡
        粒子群算法遺傳算法
        遺傳算法對(duì)CMAC與PID并行勵(lì)磁控制的優(yōu)化
        基于自適應(yīng)遺傳算法的CSAMT一維反演
        一種基于遺傳算法的聚類(lèi)分析方法在DNA序列比較中的應(yīng)用
        基于遺傳算法和LS-SVM的財(cái)務(wù)危機(jī)預(yù)測(cè)
        蟻群算法的運(yùn)用及其優(yōu)化分析
        電力市場(chǎng)交易背景下水電站優(yōu)化調(diào)度研究
        基于粒子群算法的產(chǎn)業(yè)技術(shù)創(chuàng)新生態(tài)系統(tǒng)運(yùn)行穩(wěn)定性組合評(píng)價(jià)研究
        協(xié)同進(jìn)化在遺傳算法中的應(yīng)用研究
        無(wú)線(xiàn)傳感器網(wǎng)絡(luò)聯(lián)盟初始結(jié)構(gòu)生成研究
        交通堵塞擾動(dòng)下多車(chē)場(chǎng)車(chē)輛路徑優(yōu)化
        商(2016年5期)2016-03-28 18:10:26
        亚洲另类无码专区首页| 国产女女精品视频久热视频| 麻豆国产原创视频在线播放| 怡红院a∨人人爰人人爽| 国产96在线 | 欧美| 免费大片黄在线观看| 色婷婷精品久久二区二区蜜臀av| 91精品国产综合久久久蜜| 美女视频一区二区三区在线| 免费亚洲一区二区三区av | av天堂午夜精品一区| 人妻少妇乱子伦无码视频专区| 伊人色综合久久天天五月婷| 国产农村乱辈无码| 国产成人精品三级麻豆| 亚洲av无码一区二区乱子仑| 精品一二区| 人妖系列在线免费观看| 国产一区二区三区杨幂| 国产高跟丝袜在线诱惑| 手机在线观看成年人视频| 宅男视频一区二区三区在线观看 | 国产亚洲一区二区三区综合片| 欧美性白人极品1819hd| 激情综合色五月丁香六月欧美 | 中国精学生妹品射精久久| 国产精品久久国产三级国电话系列| 2020久久精品亚洲热综合一本| 午夜一区二区三区av| 成人av一区二区亚洲精| 中文日本强暴人妻另类视频| 蜜桃av噜噜一区二区三区9| 日本一区二区三区人妻| 色多多性虎精品无码av| 免费久久人人爽人人爽av| 欧美最猛黑人xxxx黑人表情| 亚洲AV一二三四区四色婷婷 | 精品国产黑色丝袜高跟鞋| 天堂av一区二区在线观看| 久久精品中文字幕亚洲| 成a人片亚洲日本久久|