亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語譜圖和神經(jīng)網(wǎng)絡(luò)的聲紋識別研究

        2020-06-23 10:31:18李蜜
        高師理科學(xué)刊 2020年4期
        關(guān)鍵詞:語譜聲紋識別圖像增強

        李蜜

        基于語譜圖和神經(jīng)網(wǎng)絡(luò)的聲紋識別研究

        李蜜

        (華中師范大學(xué) 物理科學(xué)與技術(shù)學(xué)院,湖北 武漢 430079)

        隨著科技的不斷發(fā)展,人們對信息安全的要求越來越高,如何更簡單、更方便、更加安全地進行身份驗證變得異常重要.在卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基礎(chǔ)上,結(jié)合語譜圖和直方均衡增強算法對聲紋識別特征進行學(xué)習(xí)和訓(xùn)練.模型使用非固定長度語音段,首先將語音段進行濾波、分幀、加窗和離散余弦變換得到語譜圖,再使用直方均衡算法將像素點不均勻分布語譜圖轉(zhuǎn)化成像素點能在整個灰度區(qū)間均勻分布的語譜圖,最后使用CNN對語譜圖進行特征訓(xùn)練和身份認(rèn)證.

        聲紋識別;語譜圖;卷積神經(jīng)網(wǎng)絡(luò);圖像增強

        隨著現(xiàn)代科技的不斷發(fā)展以及移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)的普及,人們越來越致力于尋求高效安全的身份認(rèn)證方法.聲紋識別是生物特征識別的一部分,它是通過提取說話人語音中的特征來驗證說話人身份的一種技術(shù),與人臉識別和指紋識別相比,聲紋識別具有實現(xiàn)簡單、不易模仿、不會遺失等特點.

        通過分析并深入研究了文獻[7-11]的具體模型,包括前期的預(yù)處理過程、說話人特征提取結(jié)構(gòu)模型、分類方法,結(jié)合文獻模型的特點,本文使用CNN神經(jīng)網(wǎng)絡(luò)算法,將說話人語音使用MFCC算法提取個性特征形成語譜圖,并將語譜圖進行統(tǒng)一規(guī)范.之后使用直方均衡化算法對語譜圖進行增強,使語譜圖像素點均勻分配,再使用CNN神經(jīng)網(wǎng)絡(luò)進行特征訓(xùn)練學(xué)習(xí)和自動識別,達到身份認(rèn)證效果.本文使用的開發(fā)平臺為PyCharm,使用的神經(jīng)網(wǎng)絡(luò)框架為Keras.

        1 聲紋識別算法

        1.1 語譜圖提取

        特征參數(shù)提取在語音識別等方面廣泛應(yīng)用,其算法線性預(yù)測編碼系數(shù)(LPC)算法、線性預(yù)測倒譜系數(shù)(LPCC)算法和梅爾倒譜系數(shù)(MFCC)算法[12]等.其中,MFCC算法在梅爾倒譜頻帶上是等距劃分的,頻率尺度值與實際頻率的對數(shù)分布更符合人耳的聽覺特性,但是MFCC算法會進行三角濾波,造成說話人信息丟失.因此,本文直接將語音信號進行分幀之后,進行傅里葉變換,取其對數(shù)形成語譜圖.

        1.2 直方圖均衡圖像增強算法

        直方圖均衡化是通過一個映射函數(shù),將輸入的像素點不均勻的灰度圖像轉(zhuǎn)化為像素點能夠在整個灰度區(qū)間呈現(xiàn)均勻分布,拉伸圖像的灰度動態(tài)范圍[13].通過這種映射關(guān)系的處理,重新計算每一個像素點上的新像素從而實現(xiàn)圖像增強.

        直方圖均衡化算法:

        沒有經(jīng)過直方圖均衡化增強算法處理的語譜圖見圖1,經(jīng)過直方圖均衡化增強算法處理之后的語譜圖見圖2.圖1、圖2為同一個說話人同一段語音,這2幅語譜圖呈肉眼可見區(qū)別.實驗結(jié)果表明,經(jīng)過圖像增強處理后的圖片更能凸顯說話人信息.

        圖2 圖像增強語譜圖

        1.3 卷積神經(jīng)網(wǎng)絡(luò)

        圖3 CNN 模型

        2 實驗部分

        2.1 語音數(shù)據(jù)集

        實驗采用AISHELL中文語音數(shù)據(jù)庫,其中包含400個說話人,共178 h的語音數(shù)據(jù),語音采樣頻率為16 k.語料庫中的語音數(shù)據(jù)按8∶2的比例分為訓(xùn)練集和測試集.在訓(xùn)練集上隨機選取100個語音進行訓(xùn)練,采用不同的迭代次數(shù)和抓取的訓(xùn)練個數(shù)測試模型準(zhǔn)確率.模型使用SoftMax回歸函數(shù)將神經(jīng)網(wǎng)絡(luò)輸出轉(zhuǎn)換成概率分布,再使用交叉熵來計算預(yù)測的概率和實際的概率之差距離來訓(xùn)練模型.

        2.2 實驗分析

        訓(xùn)練集和測試集在不同迭代次數(shù)下的準(zhǔn)確率和損失函數(shù)變化見圖4.由圖4可以看到,訓(xùn)練集和測試集在迭代次數(shù)不同的條件下精確度(ACC)上升和損失函數(shù)(LOSS)下降.在設(shè)置的迭代次數(shù)為30次時,精度上升和損失降低速率均較為快速,且能趨于穩(wěn)定;在設(shè)置的迭代次數(shù)為40次時,精度上升和損失降低速度與30次時基本一致,而在迭代后期出現(xiàn)過擬合情況.因此,本文選擇使用神經(jīng)網(wǎng)絡(luò)對聲紋迭代30次來判斷其精確度.

        圖4 不同迭代次數(shù)下的訓(xùn)練集和測試集準(zhǔn)確率和損失函數(shù)變化曲線

        將本文方法與常用的聲紋識別模型CNN,GMM-UBM,GMM-SVM模型進行對比,在這些模型下的識別率見表1.

        表1 不同模型下的識別率比較

        從實驗結(jié)果可以看出,在CNN結(jié)合圖像增強算法之后識別率高于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)CNN,LSTM模型以及傳統(tǒng)的聲紋識別模型.現(xiàn)階段基于神經(jīng)網(wǎng)絡(luò)的聲紋識別模型都是以大數(shù)據(jù)為基礎(chǔ),在大數(shù)據(jù)的基礎(chǔ)上進行說話人個性特征提取,再用神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和學(xué)習(xí).同樣與傳統(tǒng)聲紋識別模型對比,傳統(tǒng)模型學(xué)習(xí)形式過于單一,不能完全保證將說話人特征全部學(xué)習(xí),影響識別率.本文借鑒使用語譜圖和CNN網(wǎng)絡(luò)聲紋學(xué)習(xí)模型的方法,在語譜圖的基礎(chǔ)上進行圖像增強.該方法的優(yōu)點在于將語譜圖上的說話人信息凹陷,便于網(wǎng)絡(luò)模型從語譜圖提取個性特征進行學(xué)習(xí)和訓(xùn)練,提高識別率.

        3 結(jié)語

        本文采用語譜圖來表示聲紋特征,并利用卷積神經(jīng)網(wǎng)絡(luò)對特征加以訓(xùn)練的方法,實現(xiàn)了對聲紋信息的識別.在經(jīng)過圖像增強之后聲紋識別有著較高的識別率,更好地反應(yīng)了說話人的特征,提高了神經(jīng)網(wǎng)絡(luò)對聲紋的學(xué)習(xí)和識別水平.

        [1] Rabiner L R,Levinson S E,Sondhi M M.On the Application of Vector Quatiz-Ation and Hidden Markov Models to Speaker-Independent,Isolated Word Recognition[J].Bell System Technical Journal,1983,62(4):1075-1105

        [2] Lawrence R,Rabiner.A tutorial on Hidden Markov Models and selected applications in speech recognition[J].Processings of the IEEE,1989,77(2):257-286

        [3] Reynolds D A,Rose R C.Robust text-independent speaker identification using Gaussian mixture speaker models[J].IEEE Transactions on Speech & Audio Processing,1995,3(1):72-83

        [4] 方曉.基于CPSO優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)在說話人識別中的應(yīng)用[C]//中國通信學(xué)會青年工作委員會.Proceedings of International Conference of China Communication and Information Technology(ICCCIT2010).2010:299-303

        [5] 余玲飛,劉強.基于深度循環(huán)網(wǎng)絡(luò)的聲紋識別方法研究及應(yīng)用[J].計算機應(yīng)用研究,2019,36(1):153-158

        [6] 李靚,孫存威,謝凱,等.基于深度學(xué)習(xí)的小樣本聲紋識別方法[J].計算機工程,2019,45(3):262-267,272

        [7] 張旺俏.基于VQ的聲紋識別研究[J].中國科技信息,2007(7):124-125,127

        [8] 魯曉倩,關(guān)勝曉.基于VQ和GMM的實時聲紋識別研究[J].計算機系統(tǒng)應(yīng)用,2014,23(9):6-12

        [9] 陳仁林,郭中華,朱兆偉.基于BP神經(jīng)網(wǎng)絡(luò)的說話人識別技術(shù)的實現(xiàn)[J].智能計算機與應(yīng)用,2012,2(2):47-49

        [10] 吳震東,潘樹誠,章堅武.基于CNN的連續(xù)語音說話人聲紋識別[J].電信科學(xué),2017,33(3):59-66

        [11] 余玲飛,劉強.基于深度循環(huán)網(wǎng)絡(luò)的聲紋識別方法研究及應(yīng)用[J].計算機應(yīng)用研究,2019,36(1):153-158

        [12] 高銘,孫仁誠.基于改進MFCC的說話人特征參數(shù)提取算法[J].青島大學(xué)學(xué)報:自然科學(xué)版,2019,32(1):61-65,73

        [13] 錢小燕.引導(dǎo)濾波的紅外圖像預(yù)處理算法[J].科學(xué)技術(shù)與工程,2015,15(21):32-33

        Research on voiceprint recognition based on spectrogram and neural network

        LI Mi

        (School of Physical Science and Technology,Central China Normal University,Wuhan 430079,China)

        With the continuous development of science and technology,people′ s requirements for information security are getting higher and higher,how to conduct authentication more easily,more conveniently and more securely becomes extremelyimportant.On the basis of convolutional neural network(CNN),the feature of voiceprint recognition is learned and trained by combining spectrogram and square equalization algorithm.The model uses a non-fixed-length speech segment.First,the speech segment is filtered,framed,windowed,and discrete cosine transformed to obtain a spectrogram.Then,a histogram equalization algorithm is used to convert the pixel uneven distribution profile into pixel points.A spectrogram that is uniformly distributed in the grayscale interval.Finally, the CNN is used to perform feature training and identity authentication on the spectrogram.

        voiceprint recognition;language spectrum;convolutional neural network(CNN);image enhancement

        TP312

        A

        10.3969/j.issn.1007-9831.2020.04.008

        1007-9831(2020)04-0039-04

        2019-11-06

        李蜜(1993-),女,湖北天門人,在讀碩士研究生,從事聲紋識別研究.E-mail:limi_1993@outlook.com

        猜你喜歡
        語譜聲紋識別圖像增強
        圖像增強技術(shù)在超跨聲葉柵紋影試驗中的應(yīng)用
        水下視覺SLAM圖像增強研究
        HR-DCGAN方法的帕金森聲紋樣本擴充及識別研究
        虛擬內(nèi)窺鏡圖像增強膝關(guān)節(jié)鏡手術(shù)導(dǎo)航系統(tǒng)
        基于時頻域特征的場景音頻研究
        聲紋識別中的區(qū)分性訓(xùn)練
        基于圖像增強的無人機偵察圖像去霧方法
        淺談一種基于聲紋識別的教室上課點名系統(tǒng)
        語譜圖二次傅里葉變換特定人二字漢語詞匯識別
        基于i—vector聲紋識別上課點名系統(tǒng)的設(shè)計與實現(xiàn)
        国产精品久久无码一区二区三区网| 国产色视频一区二区三区不卡| 日本天堂免费观看| 亚洲精品国产av成拍色拍| 中文字幕巨乱亚洲| 久久精品日韩免费视频| 凌辱人妻中文字幕一区| 女人被狂躁到高潮视频免费网站 | 亚洲动漫成人一区二区| av一区二区三区高清在线看| 精品国产成人av久久| 精品成人av一区二区三区| 国产无套露脸| 超薄肉色丝袜一区二区| 欧美洲精品亚洲精品中文字幕| sm免费人成虐漫画网站| 国产va免费精品观看精品| 97久久超碰国产精品2021| 亚洲av福利天堂在线观看 | 伊人久久大香线蕉综合网站| 人妻无码一区二区在线影院| 中文字幕有码高清| 久久久亚洲免费视频网| 久久精品国产亚洲7777| 久久中文字幕av一区二区不卡| 亚洲av网站首页在线观看| 免费人成视频网站网址| 亚洲欧美激情精品一区二区| 91精品国产免费青青碰在线观看 | 91九色精品日韩内射无| 亚洲国产av无码精品| 色欲aⅴ亚洲情无码av蜜桃| 亚洲无码美韩综合| 久久婷婷综合缴情亚洲狠狠| 免费观看激色视频网站| 精品午夜一区二区三区久久| 精品人妻少妇丰满久久久免| 国产精品女人呻吟在线观看 | 亚洲大尺度动作在线观看一区| 黄色一区二区三区大全观看| 日本japanese丰满多毛|