亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于deep learning的語音識別

        2015-02-21 06:48:57張炯陶智勇
        電子設(shè)計工程 2015年18期
        關(guān)鍵詞:特征提取音頻語音

        張炯,陶智勇

        (武漢郵電科學(xué)研究院 湖北 武漢 430074)

        基于deep learning的語音識別

        張炯,陶智勇

        (武漢郵電科學(xué)研究院 湖北 武漢 430074)

        針對目前智能計算機及大規(guī)模數(shù)據(jù)的發(fā)展,依據(jù)大腦處理語音、圖像數(shù)據(jù)方法的deep learning技術(shù)應(yīng)運而生。傳統(tǒng)的語音識別技術(shù)對特征篩選的人工技能要求高,而且準確率低。deep learning技術(shù)是應(yīng)用于音頻信號識別,模仿大腦的語音信號學(xué)習(xí)、識別的模式。在音頻信號處理的過程中,運用deep learning進行音頻數(shù)據(jù)的特征提取和訓(xùn)練,將大幅度提高音頻信號識別的準確性。

        音頻識別;信號處理;deep learning;智能計算機;特征提取

        眾所周知,人類在識別中英文語音并理解語義之前,都要經(jīng)過對漢字及英文的字形、發(fā)音和語義的學(xué)習(xí)過程。在這個學(xué)習(xí)訓(xùn)練過程中,大腦將所有文字的字形、發(fā)音和語義存儲在大腦的一個特定地方(大多數(shù)學(xué)者稱之為心理詞典)。并且,我們的大腦對于接收的信號,設(shè)置了一個限制,超過限制范圍的信號,大腦就無法接收并使之進入下一個處理環(huán)節(jié)。對于接收到的信號,大腦經(jīng)過識別將其與存在大腦皮層中語義最相近的文字字形或發(fā)音相匹配,找到它的語義[4]。Deep learning方法正是參照大腦處理語音信息的方式,通過一系列的算法和模型利用計算機仿真人腦對語音判斷和識別來進行音頻數(shù)據(jù)處理的過程??梢灶A(yù)見,如果將語音、圖像的數(shù)據(jù)處理進行整合,那么用計算機制作出真正的智能大腦在未來也是同樣可以實現(xiàn)的。本文將介紹如何將deep learning深度學(xué)習(xí)方法運用于音頻識別,并大幅度提高音頻識別的準確性。

        1 語音識別過程

        首先,我們要了解語音識別的關(guān)鍵步驟。語音識別的關(guān)鍵步驟為:對輸入的語音信號進行預(yù)處理、提取特征參數(shù)并處理特征參數(shù),為每一個詞條創(chuàng)建一個參考模板,并保存為模板庫;在識別階段,語音信號經(jīng)過相同通道獲取語音參數(shù),從而獲取測試模板;之后將測試模板與參考模板進行遍歷逐一比較,并在某種判別規(guī)則下,獲得最佳匹配的參考模板作為識別結(jié)果[6]。

        用原理圖表示為:

        圖1 語音識別系統(tǒng)原理圖Fig.1 Diagram of recognition system of speech

        語音識別結(jié)果的好壞,重點在于特征提取及其后的特征訓(xùn)練和參考模式庫的建立。語音識別區(qū)別于圖像等數(shù)據(jù)處理,語音識別的數(shù)據(jù)量大,特征形態(tài)復(fù)雜。傳統(tǒng)的語音識別技術(shù)的特征訓(xùn)練采用混合高斯模型(GMM)[1],通過簡單的單層次建模方法,通過稀疏算法對特征進行提取、整理和分類,進而得出參考模式庫。這種處理方法又稱為淺層網(wǎng)絡(luò)分析方法,并曾一度在數(shù)據(jù)處理領(lǐng)域處于壟斷地位。但由于它是單一的層次結(jié)構(gòu)(內(nèi)含一個單隱層,即訓(xùn)練層),因此這種方法無法反映出所提取的特征的狀態(tài)空間分布,且由于所有特征的特性都在一個網(wǎng)絡(luò)層次上處理,數(shù)據(jù)經(jīng)過輸入層進入訓(xùn)練層和數(shù)據(jù)從訓(xùn)練層進入輸出層的過程中,會存在不可避免的數(shù)據(jù)丟失,因此這種算法對于特征提取的準確性要求很高,進而對于特征提取的人工技能要求很高,通常需要有豐富經(jīng)驗的人員才能盡可能的減少特征提取帶來數(shù)據(jù)處理麻煩,因此其準確率不高[3]。

        2 deep learning

        Deep learning(又稱DL或DNN)是一種機器學(xué)習(xí)方法。機器學(xué)習(xí)處理圖像、語音信號的思路為通過傳感器獲得數(shù)據(jù)-預(yù)處理-特征提取-特征選擇-推理、預(yù)測、識別,其示意圖如圖2所示。

        圖2 機器學(xué)習(xí)過程Fig.2 Process of machine learning

        中間三部分統(tǒng)稱為特征表達,好的特征表達對于最終算法的準確性起著至關(guān)重要的作用。傳統(tǒng)的識別方式在這一部分要耗費大量的人力來進行特征提取工作,而且特征能否提取好,還要看經(jīng)驗和運氣。能否用算法來取代這一部分人工,并且保證特征提取的準確性呢?答案是肯定的,deep learning就是這樣一種工具。

        Deep learning是一種算法,它借助大量的計算機處理器通過并行計算的方式處理大量的數(shù)據(jù),這種算法模仿人腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)處理信息的方法,進行數(shù)據(jù)處理。采用deep learning最直觀也是最著名的例子是2012年6月《紐約時報》披露的Google Brain項目。這個項目是由斯坦福大學(xué)的機器學(xué)習(xí)教授Andrew Ng和在大規(guī)模計算機系統(tǒng)方面的世界頂尖專家Jeff Dean共同主導(dǎo),用16 000個CPU Core的并行計算平臺訓(xùn)練一種稱為 “深度神經(jīng)網(wǎng)絡(luò)”(DNN,Deep Neural Networks)的機器學(xué)習(xí)模型(內(nèi)部共有10億個節(jié)點)。這一網(wǎng)絡(luò)雖然不能跟人類的神經(jīng)網(wǎng)絡(luò)(人腦中有150多億個神經(jīng)元,互相連接的節(jié)點,即突觸數(shù)量更是數(shù)不勝數(shù))相提并論[2]。但是,該成果的發(fā)布,意味著計算機可以像人一樣學(xué)習(xí),我們只需要將大量的數(shù)據(jù)輸入計算機,計算機就會自動進行整理和學(xué)習(xí),并根據(jù)學(xué)習(xí)結(jié)果,對數(shù)據(jù)輸入做出相應(yīng)行動。

        人類大腦的神經(jīng)網(wǎng)絡(luò)處理信息方式是多層次的,即低層次提取一部分基層特征,進行處理后傳給高一層次,高一層次處理后,再傳給更高一層次。這樣就實現(xiàn)了特征表述的一層層抽象化,高層次更能表現(xiàn)語義和意圖,因而更容易進行分類。Deep learning中deep就是這種層次的表現(xiàn)。淺層學(xué)習(xí)模型也稱為shallow learning。

        3 基于deep learning的語音識別

        基于deep learning的語音識別技術(shù)正是參考人腦神經(jīng)的這種多層次結(jié)構(gòu),創(chuàng)建出多層次的訓(xùn)練結(jié)構(gòu)模型,低層次的分析訓(xùn)練結(jié)果作為高一層次的特征輸入,進一步進行特征訓(xùn)練,其結(jié)果再作為下一層次的特征輸入,如此往復(fù),進行多層次的特征訓(xùn)練,提取特征的多維度信息,每一層次的統(tǒng)計學(xué)習(xí)過程,對特征一步一步抽象化,直至頂層的高度抽象化,可以方便做出數(shù)據(jù)分類和判斷。因此這種方式更能反映數(shù)據(jù)的本質(zhì),并且更容易實現(xiàn)并行處理像語音識別這樣的大數(shù)據(jù)分析。

        從上面的描述中,可得知,deep learning處理數(shù)據(jù)的模式是分層進行,那么怎么確定語音信號的特征結(jié)構(gòu)呢?可以依據(jù)圖片的特征結(jié)構(gòu)分解模式,將一段語義分解為若干語句,一個語句分解為若干詞匯,一個詞匯分解為若干字,而一個字又可以分解為音位、頻率、波幅等特征。目前常用的幾種語音特征參數(shù)為LPCC、LPCC+、△LPCC、MFCC、MFCC+、△MFCC[5]。當然,這些特征參數(shù)挖掘還有很大的可擴展性,這里不作詳述。

        Deep learning處理語音的多層次結(jié)構(gòu)中,每層的特征處理采用非監(jiān)督模式,即在每層之間不設(shè)置特征分類機制,只是設(shè)置目標預(yù)期結(jié)果,之后由計算機自己去學(xué)習(xí)[1]。最能表現(xiàn)非監(jiān)督學(xué)習(xí)強大的例子是西洋雙棋游戲,它通過一系列的計算機程序,讓計算機通過非監(jiān)督的學(xué)習(xí)方式一遍遍自己玩游戲,并逐漸發(fā)展到比在這個游戲上玩的最好的人還要好。當然,進行語音識別的最終目的是特征分類,從而在接受待識別語音時,能夠讓計算機基于參考模型庫中的使用頻率、相似情況等表達出最接近人腦的語音識別結(jié)構(gòu)。因此deep learning在語音特征各層非監(jiān)督學(xué)習(xí)的基礎(chǔ)上,在各層之間采用監(jiān)督的學(xué)習(xí)方式,在最頂層設(shè)置分類機制,之后從特征輸出結(jié)果的頂層向下,一層層計算,并根據(jù)計算出的基層特征數(shù)據(jù),調(diào)整各層的權(quán)重系數(shù),從而得出最小數(shù)據(jù)損失和最接近分類要求的特征結(jié)果[2]。

        4 結(jié)束語

        將deep learning用于音頻識別,目前在國際上已經(jīng)獲得了長足的進步。微軟率先將deep learning運用于語音識別,并在首次測試中獲得了相較傳統(tǒng)算法33﹪的準確率提升。由此可見,仿真人腦處理語音信號的基于deep learning的語音識別技術(shù)不僅是可行的,而且得到的結(jié)果是更加準確的。

        [1](法)斯坦尼斯拉斯·迪昂著.腦的閱讀—破解人類閱讀字謎[M].周加仙,等譯.北京:中信出版社,2011.

        [2]劉雅琴,智愛娟.幾種語音識別特征參數(shù)的研究[J].計算機技術(shù)與發(fā)展,2009(12):67-70.LIU Ya-qin,ZHI Ai-juan.Several studies of Speech Feature[J].Computer Technology and Development,2009(12):67-70.

        [3]Frank Seide,Gang Li,Dong Yu.Conversational Speech Transcription Using Context-Dependent Deep Neural Networks[C]//Florence,Italy,2011.

        [4](德)赫爾曼·哈肯.協(xié)同學(xué)—大自然構(gòu)成的奧秘[M].上海:上海譯文出版社,2001.

        [5]胡振,傅昆,張長水.基于深度學(xué)習(xí)的作曲家分類問題[J].計算機研究與發(fā)展,2014(9):15-17.HU Zhen,F(xiàn)U Kun,ZHANG Chang-shui.Based on the classification composer depth study[J].Computer Research and Development,2014(9):15-17.

        [6]Abdel-Hamid,O,Deng L,Yu.D.Exploring convolutional neural network structures and optimization for speech recognition[C]//Interspeech,2013.

        Recognition of speech based on deep learning

        ZHANG Jiong,TAO Zhi-yong
        (Wuhan Research Institute of Posts and Telecommunications,Wuhan 430074,China)

        In view of development of computers and big data,the technology of deep learning on the basis of voice and image processing come into being.Traditional technology of speech sounds demands high quality of personal skills,and it’s accuracy is lower,applying deep learning to the recognition of speech sounds,imitating the speech learning and recognition of the brain.Utilizing deep learning to filter and train the features,during the process of voice analysis,will rise the accuracy of the recognition of speech massively.

        recognition of speech;signal processing;deep learning;intelligent computer;feature extraction

        TN912.3

        :A

        :1674-6236(2015)18-0072-02

        2014-11-17稿件編號:201411117

        張 炯(1987—),女,湖北棗陽人,碩士研究生。研究方向:數(shù)字通信。

        猜你喜歡
        特征提取音頻語音
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認證與推薦標準篇
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        音頻分析儀中低失真音頻信號的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        Bagging RCSP腦電特征提取算法
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        成人黄网站免费永久在线观看| 丰满人妻一区二区三区蜜桃| av手机在线观看不卡| 亚洲av精品一区二区三区 | 毛片a级毛片免费观看| 女同亚洲女同精品| 国产精品久久久一本精品| 日韩精品久久伊人中文字幕| 国产性自爱拍偷在在线播放| 日本无码欧美一区精品久久| 内射后入在线观看一区| 亚洲av日韩aⅴ无码电影| 亚洲麻豆av一区二区| 天堂视频在线观看一二区| 精品水蜜桃久久久久久久| 精品乱码久久久久久中文字幕| 性无码国产一区在线观看| 女同重口味一区二区在线| 欧美怡春院一区二区三区| 又湿又黄裸乳漫画无遮挡网站| 亚洲三级黄色| 国产日韩三级| 国产又色又爽的视频在线观看91| 制服丝袜一区二区三区| 美丽的熟妇中文字幕| 国产亚洲日本人在线观看| 中文字幕在线乱码av| 任我爽精品视频在线播放| 中文字幕国产欧美| 人妻少妇精品一区二区三区| 亚洲一区二区岛国高清| 白浆国产精品一区二区| 亚洲欧美日韩另类精品一区| 少妇高潮潮喷到猛进猛出小说| 中文字幕第1页中文字幕在| 国产精品农村妇女一区二区三区| 亚洲国产精品美女久久| 日日猛噜噜狠狠扒开双腿小说| 免费在线日韩| 视频在线观看国产自拍| 日韩精品真人荷官无码|