亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        說話人識別綜述

        2017-10-20 11:37:28甄倩倩張庭亮
        科技資訊 2017年25期
        關(guān)鍵詞:特征提取

        甄倩倩+張庭亮

        DOI:10.16661/j.cnki.1672-3791.2017.25.241

        摘 要:生物識別,是通過生物信息來識別人身份的技術(shù),說話人識別是一種通過人的聲音來識別人身份的技術(shù)。說話人識別是生物識別領(lǐng)域的重要研究課題之一。本文首先介紹說話人識別的背景和研究意義;其次介紹目前在說話人特征提取方面所采用的方法;再次介紹說話人識別方面所采用的方法研究;最后分析說話人識別的研究困難和未來發(fā)展趨勢。

        關(guān)鍵詞:生物識別 說話人識別 特征提取

        中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2017)09(a)-0241-03

        Abstract: Speaker recognition is one of the important research topics in the field of biometrics, which is a way of recognizing human identity through the voice of the people. Firstly, it introduces the background and significance of speaker recognition. Secondly, it introduces the present research situation of feature extraction and speaker recognition. Finally, it analyzes the research difficulties and future development trend of speaker recognition.

        Key Words: Biological Recognition; Speaker Recognition; Feature Extraction

        生物特征識別技術(shù)是一種采用人的生理或行為進(jìn)行識別身份的技術(shù)。基于生物特征識別技術(shù)的身份認(rèn)證是社會高度信息化和經(jīng)濟(jì)全球化的需求,是政府和商業(yè)領(lǐng)域必不可少的重要技術(shù)[1]。目前常見的生物識別技術(shù)有虹膜識別、指紋識別、掌紋識別、步態(tài)識別、說話人識別等。說話人識別作為生物識別中的一種,目前也引起了學(xué)者的廣泛關(guān)注。說話人識別(Speaker Recognition)又稱話者識別或聲紋識別(Voiceprint Recognition),是由計(jì)算機(jī)利用語音波形中所包含的反映特定說話人生理和行為特征的語音特征參數(shù)來自動(dòng)確定或鑒別說話人身份的技術(shù)[2]。說話人識別的根本依據(jù)是:每個(gè)人都有自己獨(dú)特的聲道和發(fā)音特征,使得自己的話聲是唯一的。對說話人識別的研究源于20世紀(jì)30、40年代,近些年該課題引起了生物識別研究者的廣泛關(guān)注。目前,隨著科學(xué)的發(fā)展,學(xué)者的青睞,已經(jīng)取得了一系列研究成果。在國內(nèi),通過中國知網(wǎng)搜索說話人識別,從2000年至今,相關(guān)文獻(xiàn)2553篇。目前說話人識別可以應(yīng)用在密碼鎖[3]、司法鑒定[4]等中。

        1 說話人識別過程

        通過對前人工作的總結(jié),說話人識別的過程包含語音信息的預(yù)處理、特征提取與現(xiàn)有語音庫進(jìn)行比對最終識別出說話人,具體流程見圖1所示。

        2 說話人識別綜述

        本文從預(yù)處理、特征提取和說話人模型3個(gè)方面對說話人識別算法進(jìn)行分析。

        2.1 預(yù)處理

        說話人語音預(yù)處理是說話人識別系統(tǒng)的重要環(huán)節(jié),預(yù)處理包括預(yù)加重、端點(diǎn)檢測、分幀加窗處理以及對帶有噪聲的說話人語音的語音增強(qiáng)處理[5]。除了常規(guī)的預(yù)處理之外,卷積神經(jīng)網(wǎng)絡(luò)可以應(yīng)用在說話人語音信號的預(yù)處理中,例如中,胡青等[6]采用卷積神經(jīng)網(wǎng)絡(luò)的卷積和降采樣兩種操作對語音信號進(jìn)行預(yù)處理。

        2.2 特征提取

        2.2.1 MFCC(Mel頻率倒譜系數(shù),Mel Frequeucy Cepstrum Coefficient)

        Mel頻率倒譜系數(shù)是說話人特征提取中最長用的系數(shù)。例如,文獻(xiàn)[7-9]在特征提取方面均采用MFCC提取說話人特征。但MFCC容易受噪聲的影響,噪聲環(huán)境下的識別率較低。

        2.2.2 HHT(希爾波特黃變換Hilbert–Huang Transform)倒譜系數(shù)

        文獻(xiàn)[10]中采用HHT倒譜系數(shù)來刻畫動(dòng)態(tài)語音特征,該方法雖然識別精度提高,但是卻以犧牲識別時(shí)間為代價(jià)。

        2.2.3 DNN(深度神經(jīng)網(wǎng)絡(luò),Deep Neural Network)

        文獻(xiàn)[11]中為了提取說話人語音信息,提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的說話人識別方法,該方法能夠解決語音信號這種弱信息極易受噪聲等的影響的問題。通過在RSR2015數(shù)據(jù)庫數(shù)據(jù)上實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該方法在特征提取方面,優(yōu)于MFCC等傳統(tǒng)特征提取方法,系統(tǒng)的錯(cuò)誤率也有所降低。

        2.2.4 融合特征提取

        除了以上所述的單一的特征提取方法,還有一些融合特征提取方法。例如,文獻(xiàn)[12]在特征提取方面針對噪聲環(huán)境中說話人識別性能較差的不足,結(jié)合小波變換的優(yōu)點(diǎn),提出了將小波變換技術(shù)與傳統(tǒng)的特征參數(shù)提取方式相結(jié)合的方法,利用加權(quán)特征組合,能夠達(dá)到抗噪的目的。文獻(xiàn)[13]中為了提高在噪音環(huán)境下說話人識別系統(tǒng)的識別率,通過對MFCC參數(shù)提取過程進(jìn)行改進(jìn),用小波包變換代替快速傅里葉變換和Mel濾波器組,獲得了新參數(shù)new MFCC,然后將信號的頻譜重心與new MFCC結(jié)合成新的特征參數(shù)進(jìn)行提取。文獻(xiàn)[14]中,將MFCC和LPCC進(jìn)行結(jié)合作為說話人識別的特征。文獻(xiàn)[15]中提出了一種基于 Fisher準(zhǔn)則的梅爾頻率倒譜系數(shù)(MFCC)、線性預(yù)測梅爾倒譜系數(shù)(LPMFCC)、Teager能量算子倒譜參數(shù)(TEOCC)相混合的特征參數(shù)提取方法。endprint

        2.3 說話人模型

        2.3.1 GMM(高斯混合模型,Gaussian Mixture Model)

        高斯混合模型是說話人識別中最常使用的一種模型,很多說話人相關(guān)的文獻(xiàn)中都采用該方法以及在此基礎(chǔ)上所衍生出來的自適應(yīng)高斯混合模型以及一些其他的改進(jìn)算法。例如文獻(xiàn)[5,8,9]在設(shè)計(jì)說話人識別系統(tǒng)時(shí),均采用高斯混合模型作為識別模型。文獻(xiàn)[16]中提出了一種基于高斯混合模型的自適應(yīng)說話人識別算法,該算法識別在不降低識別率的情況下,識別速度提高了4倍。文獻(xiàn)[17]提出一種混合數(shù)可變的自適應(yīng)高斯混合模型并將其應(yīng)用于說話人識別,識別率有所提高。文獻(xiàn)[18]中提出了一種基于GMM托肯配比相似度校正得分的說話人識別算法,識別性能有了大幅提高。文獻(xiàn)[19]中在傳統(tǒng)GMM的基礎(chǔ)上,對模型參數(shù)初始化進(jìn)行改動(dòng),采用分類法與K-mean聚類進(jìn)行結(jié)合。

        2.3.2 VQ(矢量量化,Vector Quantization)

        文獻(xiàn)[20-21]均采用VQ作為說話人識別模型。除了VQ單獨(dú)使用外,還有一些文獻(xiàn)中將其與其他的識別模型結(jié)合。例如,文獻(xiàn)[7]將VQ與DTW動(dòng)態(tài)時(shí)間調(diào)整模型結(jié)合。文獻(xiàn)[22]將其與HMM隱馬爾可夫相結(jié)合,進(jìn)行說話人識別。文獻(xiàn)[23]將其與人工神經(jīng)網(wǎng)絡(luò)ANN相結(jié)合。

        2.3.3 DTW(動(dòng)態(tài)時(shí)間調(diào)整模型,Dynamic Time Warping)

        文獻(xiàn)[24]設(shè)計(jì)了一種基于DTW的說話人識別系統(tǒng)。文獻(xiàn)[25]中,宋大杰將改進(jìn)的DTW作為模式匹配的算法。文獻(xiàn)[26]研究了基于動(dòng)態(tài)時(shí)間規(guī)正(DTW)和圖論方法的語音識別和說話人識別的特征子集選擇問題,提出了基于DTW距離的有向圖方法(DTWDAG)。文獻(xiàn)[7]通過動(dòng)態(tài)時(shí)間規(guī)整模型進(jìn)行偽裝程度鑒定,再利用矢量量化模型進(jìn)行說話人識別,從而設(shè)計(jì)了DTW與VQ相結(jié)合的電子偽裝語音說話人識別系統(tǒng)。

        2.3.4 SVM(支持向量機(jī),Support Vector Machine)

        支持向量機(jī)一是在高維空間使用線性函數(shù)假設(shè)空間的學(xué)習(xí)系統(tǒng),它由一個(gè)來自最優(yōu)化理論的學(xué)習(xí)算法訓(xùn)練,該算法實(shí)現(xiàn)了一個(gè)由統(tǒng)計(jì)學(xué)習(xí)理論導(dǎo)出的學(xué)習(xí)偏置[27]。文獻(xiàn)[28]在支持向量機(jī)的基礎(chǔ)上,結(jié)合高斯混合模型,提出基于一類SVM-GMM的短語音說話人識別算法,提高了短語音數(shù)據(jù)條件下系統(tǒng)的識別性能;引入多核映射,提出基于多核SVM-GMM的短語音說話人識別算法。文獻(xiàn)[29]針對傳統(tǒng)支持向量機(jī)算法時(shí)空復(fù)雜度較高的不足,提出了一種基于交叉驗(yàn)證KNN的支持向量預(yù)選取算法。文獻(xiàn)[30]中,翟玉杰提出了一種基于GMM和SVM的說話人識別算法。相對于以往的算法,識別率有了大幅提高,但是通過進(jìn)一步研究發(fā)現(xiàn)其識別率進(jìn)一步提高受到信道因素影響較為嚴(yán)重。為了彌補(bǔ)GMM-SVM說話人識別的這一缺點(diǎn),在GMM-SVM的說話人識別方法的基礎(chǔ)上應(yīng)用了因子分析技術(shù)模型級信道補(bǔ)償算法,識別效率上超過了傳統(tǒng)的GMM-SVM方法,具有更好的信道魯棒性。將GMM與SVM兩者結(jié)合能夠解決GMM在語音數(shù)據(jù)較小時(shí)不能區(qū)分?jǐn)?shù)據(jù)間的差異性及SVM在處理大量數(shù)據(jù)時(shí)識別率下降的問題[31]。

        2.3.5 其他

        文獻(xiàn)[32]針對BP神經(jīng)網(wǎng)絡(luò)收斂速度慢、容易陷入局部極小的缺陷,將遺傳算法全局尋優(yōu)的特點(diǎn)與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,利用遺傳算法對神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值進(jìn)行優(yōu)化,構(gòu)成一個(gè)GABP神經(jīng)網(wǎng)絡(luò),有效地解決了BP神經(jīng)網(wǎng)絡(luò)容易陷入局部最優(yōu)的問題。文獻(xiàn)[33]將深度神經(jīng)網(wǎng)絡(luò)與隱馬爾可夫模型結(jié)合,提出了一種二者融合的自適應(yīng)方法。文獻(xiàn)[34]以及文獻(xiàn)[35]均將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在說話人識別中。

        3 結(jié)論

        說話人識別是語音識別的范疇,但其不關(guān)心說話的內(nèi)容,更關(guān)心的是說話人的身份。經(jīng)過幾十年的發(fā)展,說話人識別技術(shù)相對來說已比較成熟,但識別時(shí)容易受環(huán)境的干擾,造成噪聲環(huán)境中,識別錯(cuò)誤率高等問題,所以目前說話人識別在環(huán)境影響方面還有一些待解決的技術(shù)問題。

        參考文獻(xiàn)

        [1] 鄭方,艾斯卡爾·肉孜,王仁宇,等.生物特征識別技術(shù)綜述[J].信息安全研究,2016,2(1):12-26.

        [2] 蔣曄,唐振民.GMM文本無關(guān)的說話人識別系統(tǒng)研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(11):179-182.

        [3] 張濤濤.語音聲紋密碼驗(yàn)證技術(shù)研究[D].中國科學(xué)技術(shù)大學(xué),2016.

        [4] 楊陽.聲紋識別技術(shù)及其在司法鑒定中的應(yīng)用[D].廈門大學(xué),2007.

        [5] 陳強(qiáng).基于GMM的說話人識別系統(tǒng)研究與實(shí)現(xiàn)[D].武漢理工大學(xué),2010.

        [6] 胡青,劉本永.基于卷積神經(jīng)網(wǎng)絡(luò)的說話人識別算法[J].計(jì)算機(jī)應(yīng)用,2016,36(S1):79-81.

        [7] 李燕萍,陶定元,林樂.基于DTW模型補(bǔ)償?shù)膫窝b語音說話人識別研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(1):93-96.

        [8] 吳慧玲,杜成東,毛鶴.基于GMM的說話人識別算法的研究與應(yīng)用[J].現(xiàn)代計(jì)算機(jī):普及版,2014(14):31-35.

        [9] 劉冰,滕廣超,林嘉宇.基于GMM的說話人識別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].微處理機(jī),2014(3):63-65.

        [10] 杜曉青,于鳳芹.基于HHT倒譜系數(shù)的說話人識別算法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(3):198-202.

        [11] 張濤濤,陳麗萍,蔣兵,等.采用深度神經(jīng)網(wǎng)絡(luò)的說話人特征提取方法[J].小型微型計(jì)算機(jī)系統(tǒng),2017,38(1):142-146.

        [12] 檀蕊蓮,柏鵬,李哲,等.基于小波變換的說話人識別技術(shù)[J].空軍工程大學(xué)學(xué)報(bào):自然科學(xué)版,2013,14(1):85-89.endprint

        [13] 胡峰松,王磊.一種基于小波包分析的說話人識別算法[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(7):1610-1614.

        [14] 于明,袁玉倩,董浩,等.一種基于MFCC和LPCC的文本相關(guān)說話人識別方法[J].計(jì)算機(jī)應(yīng)用,2006,26(4):883-885.

        [15] 謝小娟,曾以成,熊冰峰.說話人識別中基于Fisher比的特征組合方法[J].計(jì)算機(jī)應(yīng)用,2016,36(5):1421-1425.

        [16] 陳覺之,張貴榮,周宇歡.基于GMM模型的自適應(yīng)說話人識別研究[J].計(jì)算機(jī)與現(xiàn)代化,2013(7):91-93.

        [17] 王韻琪.自適應(yīng)高斯混合模型及說話人識別應(yīng)用[D].蘇州大學(xué),2014.

        [18] 楊瑩春,鄧立才.基于GMM托肯配比相似度校正得分的說話人識別[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2017(1):28-32.

        [19] 蔣曄,唐振民.GMM文本無關(guān)的說話人識別系統(tǒng)研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(11):179-182.

        [20] 張玉嬌.基于矢量量化(VQ)的說話人識別的研究[D].南京理工大學(xué),2015.

        [21] 涂佩佩.基于矢量量化的說話人識別的研究[D].安徽大學(xué),2016.

        [22] 趙峰,于洋.基于VQ和HMM的雙層聲紋識別算法[J].桂林電子科技大學(xué)學(xué)報(bào),2017(1):83-84.

        [23] 楊彥.基于矢量量化(VQ)和人工神經(jīng)網(wǎng)絡(luò)(ANN)的說話人識別的研究[D].東南大學(xué),2006.

        [24] 張飛云,張鵬,高建生.噪聲環(huán)境中基于DTW的說話人識別[J].許昌學(xué)院學(xué)報(bào),2011,30(5):68-72.

        [25] 宋大杰.基于DTW的說話人識別及其在DSP上的實(shí)現(xiàn)[D].東華理工大學(xué),2012.

        [26] 劉敬偉,徐美芝,鄭忠國,等.基于DTW的語音識別和說話人識別的特征選擇[J].模式識別與人工智能,2005, 18(1):50-54.

        [27] 雷震春.支持向量機(jī)在說話人識別中的應(yīng)用研究[D].浙江大學(xué),2006.

        [28] 金煥梅.基于支持向量機(jī)的短語音說話人識別[D].吉林大學(xué),2012.

        [29] 陳雪芳,楊繼臣.交叉驗(yàn)證KNN支持向量預(yù)選取算法在說話人識別上的應(yīng)用[J].科學(xué)技術(shù)與工程, 2013,13(20):5839-5842.

        [30] 翟玉杰.基于GMM-SVM說話人識別的信道算法研究[D].吉林大學(xué),2015.

        [31] 趙立輝,毛竹,霍春寶,等.基于GMM-SVM的說話人識別系統(tǒng)研究[J].工礦自動(dòng)化,2014,40(5):49-53.

        [32] 蘭勝坤.遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的說話人識別系統(tǒng)[J].自然科學(xué)版,2013,27(10):91-95.

        [33] 薛少飛.DNN-HMM語音識別聲學(xué)模型的說話人自適應(yīng)[D].中國科學(xué)技術(shù)大學(xué),2015.

        [34] 耿國勝.基于深度學(xué)習(xí)的說話人識別技術(shù)研究[D].大連理工大學(xué),2014.

        [35] HAZRAT ALI.基于深度學(xué)習(xí)模型的說話人識別算法研究[D].北京科技大學(xué),2015.endprint

        猜你喜歡
        特征提取
        特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識別
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于DNN的低資源語音識別特征提取技術(shù)
        Bagging RCSP腦電特征提取算法
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        基于DSP的直線特征提取算法
        基于改進(jìn)WLD的紋理特征提取方法
        淺析零件圖像的特征提取和識別方法
        基于CATIA的橡皮囊成形零件的特征提取
        青娱乐极品视觉盛宴国产视频| 日韩乱码精品中文字幕不卡| 爱爱免费视频一区二区三区| 久久久久亚洲av无码专区首| 在线亚洲午夜理论av大片| 亚洲AV无码资源在线观看 | 国产裸体歌舞一区二区| 精品无码一区二区三区小说| 亚洲av综合av国一区二区三区| 精品卡一卡二卡3卡高清乱码| 国产精品亚韩精品无码a在线| 国产综合久久久久影院| 国产黄色三级三级三级看三级| 激情综合五月| 无码国产午夜福利片在线观看| 国产精品久久久久孕妇| 在线女同免费观看网站| 2018天天躁夜夜躁狠狠躁| a级毛片在线观看| 毛片在线啊啊| 精品一区二区三区亚洲综合| 成人亚洲一区二区三区在线| 亚洲精品永久在线观看| 色婷婷一区二区三区四区| 一区二区在线视频免费蜜桃 | 一本色道久久88—综合亚洲精品| 丁香六月久久婷婷开心| 在线免费观看韩国a视频| 久久夜色精品亚洲天堂| 无码熟妇人妻av在线网站| 乱人伦视频中文字幕| 精品一区二区三区影片| 最新国产激情视频在线观看| 99国产精品自在自在久久| 日本久久久| 日本一道高清在线一区二区| 亚洲 日本 欧美 中文幕| 中国猛少妇色xxxxx| 97人妻无码免费专区| 日韩精品极品免费视频观看| 国产成人aaaaa级毛片|