亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        DNN神經(jīng)網(wǎng)絡(luò)在語(yǔ)音助手的應(yīng)用分析

        2021-11-03 06:40:58長(zhǎng)江大學(xué)電子信息學(xué)院鄭恭明
        電子世界 2021年19期
        關(guān)鍵詞:深度模型

        長(zhǎng)江大學(xué)電子信息學(xué)院 陳 瑞 鄭恭明

        自2011年起第一款智能語(yǔ)音助手Siri的驚艷亮相,已走過十年歷史,現(xiàn)如今各種形形色色的語(yǔ)音助手已占據(jù)各大主流手機(jī)品牌市場(chǎng)。據(jù)Strategy Analytics的報(bào)告,2018年在全球出售的手機(jī)中,半數(shù)以上已經(jīng)配備了語(yǔ)音助手,預(yù)計(jì)在2023年后,智能手機(jī)的語(yǔ)音助手基本能夠?qū)崿F(xiàn)全覆蓋。

        在傳統(tǒng)的語(yǔ)音識(shí)別技術(shù)中,混合高斯模型和隱馬爾可夫模型(GMM-HMM)曾占據(jù)了近三十年的發(fā)展歷史。GMM-HMM模型本質(zhì)上只是一種淺層學(xué)習(xí)網(wǎng)絡(luò)的建模,其建模能力有限,無(wú)法準(zhǔn)確的識(shí)別語(yǔ)音內(nèi)部復(fù)雜的結(jié)構(gòu),因此它的識(shí)別率較低。隨著深度學(xué)習(xí)的不斷發(fā)展,混合高斯模型已逐漸被深度神經(jīng)網(wǎng)絡(luò)(DNN)所替代。DNN-HMM聲學(xué)模型利用DNN神經(jīng)網(wǎng)絡(luò)極強(qiáng)的表現(xiàn)學(xué)習(xí)能力,配合HMM模型的建模能力,在大多數(shù)的語(yǔ)音識(shí)別任務(wù)上都能勝任GMM-HMM模型。

        通過深度神經(jīng)網(wǎng)絡(luò),機(jī)器可以對(duì)人類發(fā)出的語(yǔ)音指令進(jìn)行思考并分析,進(jìn)一步提升人工智能科技進(jìn)步。本文就深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,對(duì)智能語(yǔ)音助手應(yīng)用進(jìn)行分析。

        1 語(yǔ)音助手技術(shù)

        1.1 語(yǔ)音助手技術(shù)簡(jiǎn)介

        隨著智能手機(jī)的不斷創(chuàng)新,語(yǔ)音助手也隨之發(fā)展的更加智能,與人類的交流也不再像過去那種單一的交流方式?,F(xiàn)如今的語(yǔ)音助手甚至能夠與人類進(jìn)行更深層次的交流,這主要?dú)w因于自動(dòng)語(yǔ)音識(shí)別技術(shù)(ASR)與自然語(yǔ)言處理技術(shù)(NLP)。

        1.2 語(yǔ)音助手的發(fā)展

        語(yǔ)音識(shí)別起源于上世紀(jì)五十年代,當(dāng)時(shí)只能識(shí)別特定的簡(jiǎn)單的單詞,隨著各國(guó)對(duì)語(yǔ)音識(shí)別技術(shù)發(fā)展的重視,識(shí)別能力水平越來(lái)越高。上世紀(jì)六十年代,隨著第三次科技革命的開始,計(jì)算機(jī)技術(shù)的快速發(fā)展也進(jìn)一步推動(dòng)了語(yǔ)音識(shí)別能力的發(fā)展。但當(dāng)時(shí)由于技術(shù)比較先進(jìn),普通大眾尚無(wú)法感受到語(yǔ)音識(shí)別的魅力。隨著現(xiàn)時(shí)代網(wǎng)絡(luò)的普及,語(yǔ)音識(shí)別也逐漸應(yīng)用于各種社交軟件工具中。起初的語(yǔ)音助手識(shí)別的算法只能完成語(yǔ)音指令發(fā)出的任務(wù),且錯(cuò)誤率較高。而隨著與深度神經(jīng)網(wǎng)絡(luò)的結(jié)合后,語(yǔ)音助手能夠完成的不僅僅只是簡(jiǎn)單的任務(wù),甚至可以實(shí)現(xiàn)家居智能化,思考人類發(fā)出的指令并通過算法模仿人類大腦所思考的回答。

        1.3 語(yǔ)音識(shí)別基本原理及工作方式

        自然語(yǔ)言處理技術(shù)(NLP)指的是機(jī)器在讀取語(yǔ)音指令時(shí),能夠“聽懂”人類語(yǔ)言,通過算法進(jìn)行分析、計(jì)算等系列操作,做出相應(yīng)的響應(yīng)并反饋用戶所期望的結(jié)果。語(yǔ)音處理技術(shù)主要包含以下兩個(gè)部分:自然語(yǔ)言理解(NLU)和自然語(yǔ)言生成(NLG)。其中NLU為語(yǔ)音識(shí)別技術(shù)的核心,其主要功能是如何去理解語(yǔ)音指令,以及各種文本分類等;NLG主要側(cè)重于如何將理解后的語(yǔ)音文本組織表達(dá),將其形成完整的句子回答用戶。

        自動(dòng)語(yǔ)音識(shí)別技術(shù)(ASR)是目前多數(shù)語(yǔ)音助手都具備的技術(shù),其本質(zhì)是將人類發(fā)出的語(yǔ)音指令轉(zhuǎn)化為文本形式或者可以理解的指令,從而達(dá)到人與機(jī)器交流的目的。語(yǔ)音識(shí)別技術(shù)主要包含以下幾個(gè)單元:特征提取、模式匹配、以及參考模式庫(kù)。當(dāng)語(yǔ)音輸入時(shí),我們對(duì)此語(yǔ)音預(yù)處理進(jìn)而提取特征。根據(jù)提取的特征與模式庫(kù)的特征進(jìn)行比較,從而找出最優(yōu)的匹配模板。如圖1所示。

        圖1 自動(dòng)語(yǔ)音技術(shù)的工作方式

        2 深度神經(jīng)網(wǎng)絡(luò)(DNN)

        2.1 深度神經(jīng)網(wǎng)絡(luò)技術(shù)簡(jiǎn)介

        深度神經(jīng)網(wǎng)絡(luò)(DNN)是深度學(xué)習(xí)的一種方式,是由大量的神經(jīng)元通過算法合成的一個(gè)自適應(yīng)系統(tǒng),通過對(duì)人類大腦的模仿,使其算法具有人性化并具備人類特有的思考能力。深度神經(jīng)網(wǎng)絡(luò)能夠?yàn)閺?fù)雜的非線性系統(tǒng)提供強(qiáng)大的抽象層次,從而提高模型所具備的能力。

        2.2 深度神經(jīng)網(wǎng)絡(luò)的發(fā)展

        神經(jīng)網(wǎng)絡(luò)起源于上世紀(jì)四十年代,起初的神經(jīng)網(wǎng)絡(luò)在工程方面應(yīng)用十分廣泛。但隨著科技的不斷進(jìn)步,神經(jīng)網(wǎng)絡(luò)在算法方面的弊端不斷顯現(xiàn),直接導(dǎo)致神經(jīng)網(wǎng)絡(luò)的發(fā)展中斷。針對(duì)這一現(xiàn)象,美國(guó)科學(xué)家通過非線性系統(tǒng)的優(yōu)化再一次發(fā)展了神經(jīng)網(wǎng)絡(luò)。2011年,微軟初步將深度神經(jīng)網(wǎng)絡(luò)運(yùn)用在語(yǔ)音識(shí)別上,語(yǔ)音識(shí)別技術(shù)迎來(lái)了突破性的進(jìn)展。此外,深度神經(jīng)網(wǎng)絡(luò)需要通過大量的數(shù)據(jù)進(jìn)行監(jiān)督運(yùn)算,這會(huì)導(dǎo)致訓(xùn)練時(shí)間過長(zhǎng)且極大的消耗資源,這阻礙深度神經(jīng)網(wǎng)絡(luò)的發(fā)展。但是,不足也是動(dòng)力,隨著科技的不斷發(fā)展,深度學(xué)習(xí)將愈加完善。未來(lái)的深度神經(jīng)網(wǎng)絡(luò)不僅僅只是應(yīng)用于語(yǔ)音系統(tǒng)上,它對(duì)機(jī)器人、醫(yī)療、多媒體及室內(nèi)智能家居同樣大有裨益。

        2.3 深度神經(jīng)網(wǎng)絡(luò)的基本原理

        深度神經(jīng)網(wǎng)絡(luò)也叫做多隱含層感知機(jī),可以理解為具有很多隱藏層的神經(jīng)網(wǎng)絡(luò)。DNN內(nèi)部神經(jīng)網(wǎng)絡(luò)主要分為三種類型,一般來(lái)說(shuō)第一層為輸入層,中間層為隱藏層,最后一層為輸出層。相鄰層與層之間節(jié)點(diǎn)都是全連接的,其中輸入層為原始的樣本數(shù)據(jù),輸出層為最終的計(jì)算結(jié)果。整個(gè)網(wǎng)絡(luò)采用無(wú)監(jiān)督的預(yù)訓(xùn)練方式來(lái)生成初始權(quán)重,且在最后一層的隱含層和輸出層之間構(gòu)成Softmax函數(shù),再通過誤差反向傳播的方法調(diào)整整個(gè)網(wǎng)絡(luò)的參數(shù)。其結(jié)構(gòu)如圖2所示。

        圖2 深度神經(jīng)網(wǎng)絡(luò)

        3 DNN在語(yǔ)音助手的應(yīng)用分析

        3.1 應(yīng)用背景

        傳統(tǒng)的語(yǔ)音助手技術(shù)主要以完成指令下達(dá)的任務(wù)為目標(biāo),而現(xiàn)如今深度神經(jīng)網(wǎng)絡(luò)的運(yùn)用,使得智能助手可以模擬人類的神經(jīng)元活動(dòng)機(jī)制,通過算法進(jìn)行思考并做出回答。而語(yǔ)音助手的一大難點(diǎn)就是在外界噪音情況下如何降噪并將純凈的語(yǔ)音信息保留。通過深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大建模能力對(duì)大量數(shù)據(jù)進(jìn)行試驗(yàn),得出結(jié)果發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)對(duì)噪聲的過濾性更強(qiáng),通過底層網(wǎng)絡(luò)將外界影響噪聲過濾,把純凈的噪聲進(jìn)行保留。因此,深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別的語(yǔ)音助手應(yīng)用中,更加自主化及高效。

        3.2 DNN在語(yǔ)音助手中的應(yīng)用

        深度神經(jīng)網(wǎng)絡(luò)通過大量處理好的數(shù)據(jù)對(duì)語(yǔ)音助手進(jìn)行訓(xùn)練,但由于訓(xùn)練的參數(shù)過多且網(wǎng)絡(luò)模型過于復(fù)雜,因此深度神經(jīng)網(wǎng)絡(luò)存在過擬合及局部最優(yōu)的局限性。故選取合適的自動(dòng)的停止訓(xùn)練標(biāo)準(zhǔn),使機(jī)器在合適的訓(xùn)練程度上,降低深度神經(jīng)網(wǎng)絡(luò)的局限性。對(duì)語(yǔ)音助手的模型訓(xùn)練是為了更好的掌握對(duì)所需語(yǔ)音特征值的識(shí)別結(jié)果,不斷循環(huán)訓(xùn)練以更好的加強(qiáng)識(shí)別效果。在此基礎(chǔ)上,需要對(duì)此模型進(jìn)行擴(kuò)大更新,拓寬語(yǔ)音助手識(shí)別的區(qū)域,更好的提升語(yǔ)音助手識(shí)別內(nèi)容的準(zhǔn)確率。

        4 目前語(yǔ)音助手技術(shù)存在的問題

        4.1 語(yǔ)音助手識(shí)別的局限性

        雖然離第一代產(chǎn)品出來(lái)已有十年,但是在語(yǔ)音識(shí)別方面,當(dāng)前研究人員也遇到了技術(shù)發(fā)展的瓶頸。盡管大多數(shù)手機(jī)都安裝了語(yǔ)音助手,也做到了人與語(yǔ)音助手的交流,但是手機(jī)的語(yǔ)音助手終歸是機(jī)器,能做到的也只是完成一些簡(jiǎn)單的交流及任務(wù)。若是一些復(fù)雜任務(wù)及專業(yè)語(yǔ)言,語(yǔ)音助手則很難達(dá)到相應(yīng)的預(yù)期結(jié)果。對(duì)于復(fù)雜模型訓(xùn)練,專業(yè)名詞導(dǎo)入以及降噪處理,語(yǔ)音助手仍有一條很長(zhǎng)的路要走。

        4.2 語(yǔ)音助手提取關(guān)鍵詞的局限性

        當(dāng)前的語(yǔ)音助手所提取的關(guān)鍵詞都是依靠有限的模型進(jìn)行訓(xùn)練所識(shí)別的詞匯,這種提取方式很大程度上受到模型的限制,耗費(fèi)大量時(shí)間且關(guān)鍵詞提取不精確。深度神經(jīng)網(wǎng)絡(luò)可以對(duì)此進(jìn)行優(yōu)化,深度神經(jīng)網(wǎng)絡(luò)不但可以自動(dòng)特征提取,而且可以根據(jù)大數(shù)據(jù)分析提取更為精確的關(guān)鍵詞,從而實(shí)現(xiàn)語(yǔ)音助手更加智能化的一項(xiàng)新挑戰(zhàn)。

        4.3 語(yǔ)音助手在音色及年齡分析的局限性

        深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音助手識(shí)別技術(shù)發(fā)展中帶來(lái)了巨大貢獻(xiàn)的同時(shí),也有較多不足,需要不斷的創(chuàng)新及進(jìn)步。例如在深度神經(jīng)網(wǎng)絡(luò)進(jìn)行大數(shù)據(jù)分析時(shí),它并不能夠?qū)Σ煌詣e同一問題給出不同的結(jié)果,以及不同年齡對(duì)同一問題的理解深度。對(duì)此,語(yǔ)音識(shí)別模型訓(xùn)練需要更加完善更加智能。深度神經(jīng)網(wǎng)絡(luò)的技術(shù)為語(yǔ)音助手技術(shù)更好的發(fā)展提供了方向,在以后的智能識(shí)別中將做出更大的進(jìn)步。

        當(dāng)前的語(yǔ)音助手還處于發(fā)展初期階段,我們需要對(duì)其進(jìn)行更多訓(xùn)練,更多的在設(shè)備上應(yīng)用,這樣才能更好的提升語(yǔ)音助手識(shí)別技術(shù)。在科學(xué)技術(shù)飛速發(fā)展的今天,語(yǔ)音助手需要跟上時(shí)代進(jìn)步的步伐,在人們的日常常生活中提供更優(yōu)質(zhì)的服務(wù)。因此,為了提高人們的日常生活水平,加強(qiáng)深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音助手技術(shù)的模型訓(xùn)練刻不容緩。未來(lái),深度神經(jīng)網(wǎng)絡(luò)技術(shù)的語(yǔ)音助手將不斷完善,語(yǔ)音助手并非只有手機(jī)及音箱單一的出路,在客廳及輔助人工智能駕駛領(lǐng)域,語(yǔ)音助手的優(yōu)點(diǎn)將更加閃耀。

        猜你喜歡
        深度模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        深度觀察
        深度觀察
        深度觀察
        深度觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        久久精品国产亚洲av天| 精品中文字幕日本久久久 | 亚洲中文字幕一区高清在线| 亚洲av中文无码字幕色三| 久久红精品一区二区三区| 国产肉体XXXX裸体784大胆| 午夜免费啪视频| 中美日韩在线一区黄色大片| 成人亚洲欧美久久久久| 国产午夜成人av在线播放| 国产成人美涵人妖视频在线观看| 美女自卫慰黄网站| 欧美成人精品a∨在线观看 | 激情五月天俺也去综合网| 影音先锋每日av色资源站| 蜜臀av一区二区三区免费观看 | 亚洲国产精品婷婷久久| 无码人妻视频一区二区三区99久久| 日本五十路人妻在线一区二区| 极品诱惑一区二区三区| 任你躁国产自任一区二区三区| 国产丝袜长腿在线看片网站| 大地资源在线播放观看mv| 国产内射一级一片内射视频| 久草91这里只有精品| 最新亚洲人成无码网站| 国色天香中文字幕在线视频| 国产一区二区三区不卡在线播放 | 久久久精品欧美一区二区免费| 国产av一区二区三区性入口| 日本一区二区三区专区| 国产精品高潮呻吟av久久无吗 | 中文字幕日本人妻久久久免费 | 亚洲av男人免费久久| 99国产精品视频无码免费| 东北老女人高潮大喊舒服死了| 亚洲精品中字在线观看| 午夜无码片在线观看影院y| 亚洲日韩精品欧美一区二区一| 国色天香社区视频在线| 国产高清自产拍av在线|