亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        TL—CNN—GAP模型下的小樣本聲紋識(shí)別方法研究

        2018-11-26 09:33:32丁冬兵
        電腦知識(shí)與技術(shù) 2018年24期

        丁冬兵

        摘要:為提高小樣本聲紋識(shí)別效率,該文提出了一種TL-CNN-GAP網(wǎng)絡(luò)模型下的小樣本聲紋識(shí)別方法。該方法利用源數(shù)據(jù)集預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network ,CNN),將訓(xùn)練好的卷積層與降采樣層用遷移學(xué)習(xí)(Transfer learning,TL)的方法遷移到小樣本的目標(biāo)集上,最后用全局平均池化層(Global Average Pooling ,GAP)替換重訓(xùn)練CNN中的全連接層(Fully Connected layers,F(xiàn)C)。這樣不僅減少了小樣本聲紋識(shí)別模型的訓(xùn)練時(shí)間,而且相比傳統(tǒng)的聲紋識(shí)別模型的識(shí)別率有著顯著地提高。此外,為了解決在實(shí)際運(yùn)用中聲紋訓(xùn)練樣本不足的問題,該文采用了一種凸透鏡成像的圖像增多的算法,根據(jù)凸透鏡成像原理,通過改變光譜圖的大小,從而獲得更多的訓(xùn)練數(shù)據(jù)。實(shí)驗(yàn)中采取含有 630人的TIMIT語音數(shù)據(jù)庫與實(shí)驗(yàn)室自建的40人語音庫作為小樣本聲紋數(shù)據(jù)集進(jìn)行訓(xùn)練、驗(yàn)證和測試。實(shí)驗(yàn)表明,與原網(wǎng)絡(luò)相比,用GAP替代CNN中的全連接層的方法,使其重訓(xùn)練時(shí)間縮短了32.5%,該模型與傳統(tǒng)的GMM、GMM-UBM和GMM-SVM網(wǎng)絡(luò)模型相比,聲紋識(shí)別率有效地提高了3.3%—9.1%,為小樣本聲紋識(shí)別提供了一種切實(shí)可行的方法。

        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);全局平均池化;小樣本;圖像增多算法;遷移學(xué)習(xí);聲紋識(shí)別

        中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)24-0177-02

        生物特征是每個(gè)人固有的特征,具有唯一性和穩(wěn)定性。對(duì)于人類來說,生物特征是多種多樣的,大致可分為兩類,主要包括生理特征和行為特征。生理特征主要包含指紋、掌紋、人臉、DNA、視網(wǎng)膜、虹膜與血管紋路等。行為特征主要包含聲紋、心跳、步態(tài)、簽名等。本文主要介紹的是對(duì)聲紋識(shí)別技術(shù)[1]的運(yùn)用,聲紋識(shí)別技術(shù)作為僅次于指紋和掌紋的第三大生物識(shí)別技術(shù),在識(shí)別領(lǐng)域有廣泛的研究和應(yīng)用。聲紋識(shí)別技術(shù)在識(shí)別領(lǐng)域的市場份額占有率大約為16%,并且有逐年上升的趨勢。隨著信息處理技術(shù)的發(fā)展與完善,聲紋識(shí)別技術(shù)在司法領(lǐng)域、醫(yī)療領(lǐng)域、軍事安全領(lǐng)域、金融領(lǐng)域等都得到了廣泛的應(yīng)用。例如,在司法領(lǐng)域,警察可以通過聲紋來確定嫌疑人身份;在醫(yī)療領(lǐng)域,醫(yī)生可以通過聲紋來判斷病人是否患有某些疾?。辉谲娛掳踩I(lǐng)域,聲紋可以識(shí)別軍官或士兵的身份;在金融領(lǐng)域,聲紋識(shí)別技術(shù)同樣可以確認(rèn)用戶的身份。綜上所述,正是因?yàn)槁暭y識(shí)別技術(shù)有著簡單、方便、經(jīng)濟(jì)、安全等優(yōu)點(diǎn),所以受到了國內(nèi)外專家的高度重視,并取得了許多研究成果。因此,研究高效率的聲紋識(shí)別技術(shù)有著重要的現(xiàn)實(shí)意義和價(jià)值。

        在聲紋識(shí)別領(lǐng)域,當(dāng)科研人員對(duì)語音進(jìn)行分析預(yù)測時(shí),往往會(huì)面臨缺少樣本數(shù)據(jù)的問題。目前,一個(gè)較為完善的聲紋識(shí)別系統(tǒng),通常是科研人員用數(shù)十萬乃至數(shù)百萬個(gè)網(wǎng)絡(luò)參數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)[2]進(jìn)行訓(xùn)練,才能得到一個(gè)相對(duì)完整的聲紋識(shí)別模型?;诖髽颖灸P拖碌穆暭y識(shí)別,雖然極大提高了聲紋識(shí)別的準(zhǔn)確度,但是這種情況會(huì)花費(fèi)大量的人力物力,從長遠(yuǎn)的經(jīng)濟(jì)效益來看并不劃算。在這種背景下,國內(nèi)外學(xué)者對(duì)于小樣本[3]問題的研究就應(yīng)運(yùn)而生。然而,科研人員在小樣本的條件下,并不能有效地對(duì)聲紋識(shí)別的實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估與分析。對(duì)于這些問題,本文采用了一種基于凸透鏡成像的圖像增多的算法[4],并且將訓(xùn)練好的卷積層與降采樣層遷移過來,用GAP替代CNN中的全連接層,從而構(gòu)成了一個(gè)新的網(wǎng)絡(luò)模型。

        1理論模型

        對(duì)于本文所采用的卷積神經(jīng)網(wǎng)絡(luò)模型下的小樣本聲紋識(shí)別方法,其TL-CNN-GAP模型流程圖如圖1所示。

        1.1原始語音信號(hào)的預(yù)處理

        語音信號(hào)是一種非平穩(wěn)的時(shí)變信號(hào),其攜帶著豐富的特征信息。對(duì)語音信號(hào)的預(yù)處理是聲紋識(shí)別技術(shù)的關(guān)鍵環(huán)節(jié),是一項(xiàng)必不可少的過程,直接關(guān)系到識(shí)別率的好壞。預(yù)處理主要是對(duì)原始語音信號(hào)進(jìn)行分析,通常采用的方法是“短時(shí)平穩(wěn)技術(shù)”。 對(duì)一段原始語音信號(hào)進(jìn)行預(yù)處理,繪制成語譜圖 (即二維圖)。

        1.2遷移學(xué)習(xí)與重訓(xùn)練

        遷移學(xué)習(xí)是一種全新的機(jī)器學(xué)習(xí)方法,它主要是運(yùn)用已存在的知識(shí)解決不同但相關(guān)領(lǐng)域的問題,它能準(zhǔn)確、快速地對(duì)相似問題進(jìn)行求解。本文將預(yù)訓(xùn)練的CNN模型中的卷積層與降采樣層遷移到小樣本目標(biāo)聲紋數(shù)據(jù)集上,用小樣本進(jìn)行重訓(xùn)練,同時(shí)用全局平均池化層(GAP)去替換CNN網(wǎng)絡(luò)的全連接層,這樣就構(gòu)成了一個(gè)新的網(wǎng)絡(luò)模型TL-CNN-GAP。

        傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)最后一層都是全連接層,在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型中,它的作用是對(duì)特征信息進(jìn)行分類。然而,全連接層有一個(gè)非常明顯的缺點(diǎn)就是參數(shù)的數(shù)據(jù)量過大,在整個(gè)CNN模型中,全連接層占用了大部分的參數(shù)。由于參數(shù)量過大,一方面增加了訓(xùn)練以及測試卷積神經(jīng)網(wǎng)絡(luò)模型的計(jì)算量,需要消耗大量時(shí)間,降低了計(jì)算速度;另外一方面參數(shù)量過大容易出現(xiàn)過擬合(例如Alexnet)。

        因此,本文提出采用全局平均池化替代全連接層的方法。與傳統(tǒng)FC相比,GAP有很大的不同,GAP是對(duì)每一個(gè)特征圖的整張圖片都進(jìn)行了全局平均池化,于是每張?zhí)卣鲌D都可以產(chǎn)生一個(gè)輸出。采用全局平均池化的方法,能夠極大地減小網(wǎng)絡(luò)參數(shù),可以有效防止過擬合。此外,它還有一個(gè)重要的特點(diǎn),每張?zhí)卣鲌D相當(dāng)于一個(gè)輸出特征,因此這個(gè)特征就可以表示輸出類的特征。

        2 實(shí)驗(yàn)結(jié)果與分析

        對(duì)于本實(shí)驗(yàn)提出的一種適用于小樣本聲紋識(shí)別的方法,本文先將TIMIT數(shù)據(jù)庫作為預(yù)訓(xùn)練集來訓(xùn)練CNN網(wǎng)絡(luò),預(yù)訓(xùn)練集的樣本容量約31500。遷移模型后再從自建語音庫選取30人的小目標(biāo)聲紋數(shù)據(jù)(人均50張語譜圖)作為訓(xùn)練集(樣本容量為1500)來驗(yàn)證下述第四種方案的有效性。從上述30人中任選10人(人均50張語譜圖,樣本容量為500)作為測試集,按以下四種方案做對(duì)比實(shí)驗(yàn)。

        方案一:用上述小目標(biāo)聲紋數(shù)據(jù)分別去訓(xùn)練和測試常用于語音識(shí)別的GMM、GMM-SVM、GMM-UBM模型。

        方案二:僅用小目標(biāo)聲紋數(shù)據(jù)去訓(xùn)練傳統(tǒng)CNN-GAP網(wǎng)絡(luò)。

        方案三:用大樣本聲紋數(shù)據(jù)TIMIT預(yù)訓(xùn)練傳統(tǒng)CNN網(wǎng)絡(luò);然后將訓(xùn)練好的模型遷移到目標(biāo)集中,用小樣本聲紋數(shù)據(jù)進(jìn)行訓(xùn)練和測試。

        方案四:用大樣本聲紋數(shù)據(jù)預(yù)訓(xùn)練CNN網(wǎng)絡(luò),遷移模型到小目標(biāo)集中,將全連接層替換為全局平均池化層,再用小樣本聲紋數(shù)據(jù)進(jìn)行重訓(xùn)練和測試。

        實(shí)驗(yàn)結(jié)果表明:四種方案在相同的小樣本訓(xùn)練樣本容量下,CNN-GAP網(wǎng)絡(luò)模型由于訓(xùn)練樣本參數(shù)嚴(yán)重不足,導(dǎo)致識(shí)別率較低,而經(jīng)過遷移學(xué)習(xí)后,TL-CNN-GAP模型的識(shí)別率最高。

        3 結(jié)論

        本文提出的一種TL-CNN-GAP模型下的小樣本聲紋識(shí)別方法,用大樣本參數(shù)預(yù)訓(xùn)練CNN網(wǎng)絡(luò)模型,將模型遷移到小目標(biāo)集中。此外,將目標(biāo)集小樣本聲紋信號(hào)所對(duì)應(yīng)的語譜圖通過基于凸透鏡成像的圖像增多算法增加了樣本容量,同時(shí)用全局平均池化層替代了全連接層。與傳統(tǒng)的CNN模型相比,TL-CNN-GAP模型減少了網(wǎng)絡(luò)訓(xùn)練參數(shù),極大地縮短了網(wǎng)絡(luò)訓(xùn)練時(shí)間,提高了聲紋識(shí)別率。

        參考文獻(xiàn):

        [1] 陳聯(lián)武,郭武,戴禮榮.聲紋識(shí)別中合成語音的魯棒性[J].模式識(shí)別與人工智能,2011,24(6):743-747.

        [2] 劉萬軍,梁雪劍,曲海成.不同池化模型的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)性能研究[J].中國圖象圖形學(xué)報(bào),2016,21(9):1178-1190.

        【通聯(lián)編輯:光文玲】

        亚洲成a人片在线观看中| 99国产精品久久久蜜芽| 人妻暴雨中被强制侵犯在线| 日本妇人成熟免费2020| 国产伦人人人人人人性| 国产日产高清欧美一区| 色婷婷色99国产综合精品| 婷婷久久亚洲中文字幕| 亚洲成a∨人片在线观看无码| 亚洲色欲色欲综合网站| 日韩中文字幕不卡网站| 国产成年女人特黄特色毛片免| 中文字日产幕码三区国产| 国产精品特级毛片一区二区三区 | 人妻去按摩店被黑人按中出| 综合图区亚洲另类偷窥| 亚洲女厕偷拍一区二区| 久久久久久久久毛片精品| 亚洲暴爽av天天爽日日碰| 完整在线视频免费黄片| 国产在线一区二区av| 国产丶欧美丶日本不卡视频| 国内少妇自拍区免费视频| 亚洲双色视频在线观看| 亚洲一区二区三区偷拍女| 日本入室强伦姧bd在线观看| 69av视频在线观看| 久久蜜臀av一区三区| 无码国产精成人午夜视频一区二区| 日本爽快片18禁免费看| 久久中文字幕日韩无码视频| 丰满少妇av一区二区三区| 国产欧美日韩中文久久| 少妇白浆高潮无码免费区| 99久久精品国产片| 久久精品国产亚洲av久按摩| 99爱在线精品免费观看| 人妻少妇精品无码专区二| 亚洲黄色大片在线观看| 国产欧美日韩中文久久| 国产mv在线天堂mv免费观看|