亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

DNN神經(jīng)網(wǎng)絡(luò)在語(yǔ)音助手的應(yīng)用分析

2021-11-03 06:40:58長(zhǎng)江大學(xué)電子信息學(xué)院鄭恭明

電子世界 2021年19期

關(guān)鍵詞：深度模型

長(zhǎng)江大學(xué)電子信息學(xué)院陳瑞鄭恭明

自2011年起第一款智能語(yǔ)音助手Siri的驚艷亮相，已走過十年歷史，現(xiàn)如今各種形形色色的語(yǔ)音助手已占據(jù)各大主流手機(jī)品牌市場(chǎng)。據(jù)Strategy Analytics的報(bào)告，2018年在全球出售的手機(jī)中，半數(shù)以上已經(jīng)配備了語(yǔ)音助手，預(yù)計(jì)在2023年后，智能手機(jī)的語(yǔ)音助手基本能夠?qū)崿F(xiàn)全覆蓋。

在傳統(tǒng)的語(yǔ)音識(shí)別技術(shù)中，混合高斯模型和隱馬爾可夫模型（GMM-HMM）曾占據(jù)了近三十年的發(fā)展歷史。GMM-HMM模型本質(zhì)上只是一種淺層學(xué)習(xí)網(wǎng)絡(luò)的建模，其建模能力有限，無(wú)法準(zhǔn)確的識(shí)別語(yǔ)音內(nèi)部復(fù)雜的結(jié)構(gòu)，因此它的識(shí)別率較低。隨著深度學(xué)習(xí)的不斷發(fā)展，混合高斯模型已逐漸被深度神經(jīng)網(wǎng)絡(luò)（DNN）所替代。DNN-HMM聲學(xué)模型利用DNN神經(jīng)網(wǎng)絡(luò)極強(qiáng)的表現(xiàn)學(xué)習(xí)能力，配合HMM模型的建模能力，在大多數(shù)的語(yǔ)音識(shí)別任務(wù)上都能勝任GMM-HMM模型。

通過深度神經(jīng)網(wǎng)絡(luò)，機(jī)器可以對(duì)人類發(fā)出的語(yǔ)音指令進(jìn)行思考并分析，進(jìn)一步提升人工智能科技進(jìn)步。本文就深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，對(duì)智能語(yǔ)音助手應(yīng)用進(jìn)行分析。

1 語(yǔ)音助手技術(shù)

1.1 語(yǔ)音助手技術(shù)簡(jiǎn)介

隨著智能手機(jī)的不斷創(chuàng)新，語(yǔ)音助手也隨之發(fā)展的更加智能，與人類的交流也不再像過去那種單一的交流方式?，F(xiàn)如今的語(yǔ)音助手甚至能夠與人類進(jìn)行更深層次的交流，這主要?dú)w因于自動(dòng)語(yǔ)音識(shí)別技術(shù)（ASR）與自然語(yǔ)言處理技術(shù)（NLP）。

1.2 語(yǔ)音助手的發(fā)展

語(yǔ)音識(shí)別起源于上世紀(jì)五十年代，當(dāng)時(shí)只能識(shí)別特定的簡(jiǎn)單的單詞，隨著各國(guó)對(duì)語(yǔ)音識(shí)別技術(shù)發(fā)展的重視，識(shí)別能力水平越來(lái)越高。上世紀(jì)六十年代，隨著第三次科技革命的開始，計(jì)算機(jī)技術(shù)的快速發(fā)展也進(jìn)一步推動(dòng)了語(yǔ)音識(shí)別能力的發(fā)展。但當(dāng)時(shí)由于技術(shù)比較先進(jìn)，普通大眾尚無(wú)法感受到語(yǔ)音識(shí)別的魅力。隨著現(xiàn)時(shí)代網(wǎng)絡(luò)的普及，語(yǔ)音識(shí)別也逐漸應(yīng)用于各種社交軟件工具中。起初的語(yǔ)音助手識(shí)別的算法只能完成語(yǔ)音指令發(fā)出的任務(wù)，且錯(cuò)誤率較高。而隨著與深度神經(jīng)網(wǎng)絡(luò)的結(jié)合后，語(yǔ)音助手能夠完成的不僅僅只是簡(jiǎn)單的任務(wù)，甚至可以實(shí)現(xiàn)家居智能化，思考人類發(fā)出的指令并通過算法模仿人類大腦所思考的回答。

1.3 語(yǔ)音識(shí)別基本原理及工作方式

自然語(yǔ)言處理技術(shù)（NLP）指的是機(jī)器在讀取語(yǔ)音指令時(shí)，能夠“聽懂”人類語(yǔ)言，通過算法進(jìn)行分析、計(jì)算等系列操作，做出相應(yīng)的響應(yīng)并反饋用戶所期望的結(jié)果。語(yǔ)音處理技術(shù)主要包含以下兩個(gè)部分：自然語(yǔ)言理解（NLU）和自然語(yǔ)言生成（NLG）。其中NLU為語(yǔ)音識(shí)別技術(shù)的核心，其主要功能是如何去理解語(yǔ)音指令，以及各種文本分類等；NLG主要側(cè)重于如何將理解后的語(yǔ)音文本組織表達(dá)，將其形成完整的句子回答用戶。

自動(dòng)語(yǔ)音識(shí)別技術(shù)（ASR）是目前多數(shù)語(yǔ)音助手都具備的技術(shù)，其本質(zhì)是將人類發(fā)出的語(yǔ)音指令轉(zhuǎn)化為文本形式或者可以理解的指令，從而達(dá)到人與機(jī)器交流的目的。語(yǔ)音識(shí)別技術(shù)主要包含以下幾個(gè)單元：特征提取、模式匹配、以及參考模式庫(kù)。當(dāng)語(yǔ)音輸入時(shí)，我們對(duì)此語(yǔ)音預(yù)處理進(jìn)而提取特征。根據(jù)提取的特征與模式庫(kù)的特征進(jìn)行比較，從而找出最優(yōu)的匹配模板。如圖1所示。

圖1 自動(dòng)語(yǔ)音技術(shù)的工作方式

2 深度神經(jīng)網(wǎng)絡(luò)（DNN）

2.1 深度神經(jīng)網(wǎng)絡(luò)技術(shù)簡(jiǎn)介

深度神經(jīng)網(wǎng)絡(luò)（DNN）是深度學(xué)習(xí)的一種方式，是由大量的神經(jīng)元通過算法合成的一個(gè)自適應(yīng)系統(tǒng)，通過對(duì)人類大腦的模仿，使其算法具有人性化并具備人類特有的思考能力。深度神經(jīng)網(wǎng)絡(luò)能夠?yàn)閺?fù)雜的非線性系統(tǒng)提供強(qiáng)大的抽象層次，從而提高模型所具備的能力。

2.2 深度神經(jīng)網(wǎng)絡(luò)的發(fā)展

神經(jīng)網(wǎng)絡(luò)起源于上世紀(jì)四十年代，起初的神經(jīng)網(wǎng)絡(luò)在工程方面應(yīng)用十分廣泛。但隨著科技的不斷進(jìn)步，神經(jīng)網(wǎng)絡(luò)在算法方面的弊端不斷顯現(xiàn)，直接導(dǎo)致神經(jīng)網(wǎng)絡(luò)的發(fā)展中斷。針對(duì)這一現(xiàn)象，美國(guó)科學(xué)家通過非線性系統(tǒng)的優(yōu)化再一次發(fā)展了神經(jīng)網(wǎng)絡(luò)。2011年，微軟初步將深度神經(jīng)網(wǎng)絡(luò)運(yùn)用在語(yǔ)音識(shí)別上，語(yǔ)音識(shí)別技術(shù)迎來(lái)了突破性的進(jìn)展。此外，深度神經(jīng)網(wǎng)絡(luò)需要通過大量的數(shù)據(jù)進(jìn)行監(jiān)督運(yùn)算，這會(huì)導(dǎo)致訓(xùn)練時(shí)間過長(zhǎng)且極大的消耗資源，這阻礙深度神經(jīng)網(wǎng)絡(luò)的發(fā)展。但是，不足也是動(dòng)力，隨著科技的不斷發(fā)展，深度學(xué)習(xí)將愈加完善。未來(lái)的深度神經(jīng)網(wǎng)絡(luò)不僅僅只是應(yīng)用于語(yǔ)音系統(tǒng)上，它對(duì)機(jī)器人、醫(yī)療、多媒體及室內(nèi)智能家居同樣大有裨益。

2.3 深度神經(jīng)網(wǎng)絡(luò)的基本原理

深度神經(jīng)網(wǎng)絡(luò)也叫做多隱含層感知機(jī)，可以理解為具有很多隱藏層的神經(jīng)網(wǎng)絡(luò)。DNN內(nèi)部神經(jīng)網(wǎng)絡(luò)主要分為三種類型，一般來(lái)說(shuō)第一層為輸入層，中間層為隱藏層，最后一層為輸出層。相鄰層與層之間節(jié)點(diǎn)都是全連接的，其中輸入層為原始的樣本數(shù)據(jù)，輸出層為最終的計(jì)算結(jié)果。整個(gè)網(wǎng)絡(luò)采用無(wú)監(jiān)督的預(yù)訓(xùn)練方式來(lái)生成初始權(quán)重，且在最后一層的隱含層和輸出層之間構(gòu)成Softmax函數(shù)，再通過誤差反向傳播的方法調(diào)整整個(gè)網(wǎng)絡(luò)的參數(shù)。其結(jié)構(gòu)如圖2所示。

圖2 深度神經(jīng)網(wǎng)絡(luò)

3 DNN在語(yǔ)音助手的應(yīng)用分析

3.1 應(yīng)用背景

傳統(tǒng)的語(yǔ)音助手技術(shù)主要以完成指令下達(dá)的任務(wù)為目標(biāo)，而現(xiàn)如今深度神經(jīng)網(wǎng)絡(luò)的運(yùn)用，使得智能助手可以模擬人類的神經(jīng)元活動(dòng)機(jī)制，通過算法進(jìn)行思考并做出回答。而語(yǔ)音助手的一大難點(diǎn)就是在外界噪音情況下如何降噪并將純凈的語(yǔ)音信息保留。通過深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大建模能力對(duì)大量數(shù)據(jù)進(jìn)行試驗(yàn)，得出結(jié)果發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)對(duì)噪聲的過濾性更強(qiáng)，通過底層網(wǎng)絡(luò)將外界影響噪聲過濾，把純凈的噪聲進(jìn)行保留。因此，深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別的語(yǔ)音助手應(yīng)用中，更加自主化及高效。

3.2 DNN在語(yǔ)音助手中的應(yīng)用

深度神經(jīng)網(wǎng)絡(luò)通過大量處理好的數(shù)據(jù)對(duì)語(yǔ)音助手進(jìn)行訓(xùn)練，但由于訓(xùn)練的參數(shù)過多且網(wǎng)絡(luò)模型過于復(fù)雜，因此深度神經(jīng)網(wǎng)絡(luò)存在過擬合及局部最優(yōu)的局限性。故選取合適的自動(dòng)的停止訓(xùn)練標(biāo)準(zhǔn)，使機(jī)器在合適的訓(xùn)練程度上，降低深度神經(jīng)網(wǎng)絡(luò)的局限性。對(duì)語(yǔ)音助手的模型訓(xùn)練是為了更好的掌握對(duì)所需語(yǔ)音特征值的識(shí)別結(jié)果，不斷循環(huán)訓(xùn)練以更好的加強(qiáng)識(shí)別效果。在此基礎(chǔ)上，需要對(duì)此模型進(jìn)行擴(kuò)大更新，拓寬語(yǔ)音助手識(shí)別的區(qū)域，更好的提升語(yǔ)音助手識(shí)別內(nèi)容的準(zhǔn)確率。

4 目前語(yǔ)音助手技術(shù)存在的問題

4.1 語(yǔ)音助手識(shí)別的局限性

雖然離第一代產(chǎn)品出來(lái)已有十年，但是在語(yǔ)音識(shí)別方面，當(dāng)前研究人員也遇到了技術(shù)發(fā)展的瓶頸。盡管大多數(shù)手機(jī)都安裝了語(yǔ)音助手，也做到了人與語(yǔ)音助手的交流，但是手機(jī)的語(yǔ)音助手終歸是機(jī)器，能做到的也只是完成一些簡(jiǎn)單的交流及任務(wù)。若是一些復(fù)雜任務(wù)及專業(yè)語(yǔ)言，語(yǔ)音助手則很難達(dá)到相應(yīng)的預(yù)期結(jié)果。對(duì)于復(fù)雜模型訓(xùn)練，專業(yè)名詞導(dǎo)入以及降噪處理，語(yǔ)音助手仍有一條很長(zhǎng)的路要走。

4.2 語(yǔ)音助手提取關(guān)鍵詞的局限性

當(dāng)前的語(yǔ)音助手所提取的關(guān)鍵詞都是依靠有限的模型進(jìn)行訓(xùn)練所識(shí)別的詞匯，這種提取方式很大程度上受到模型的限制，耗費(fèi)大量時(shí)間且關(guān)鍵詞提取不精確。深度神經(jīng)網(wǎng)絡(luò)可以對(duì)此進(jìn)行優(yōu)化，深度神經(jīng)網(wǎng)絡(luò)不但可以自動(dòng)特征提取，而且可以根據(jù)大數(shù)據(jù)分析提取更為精確的關(guān)鍵詞，從而實(shí)現(xiàn)語(yǔ)音助手更加智能化的一項(xiàng)新挑戰(zhàn)。

4.3 語(yǔ)音助手在音色及年齡分析的局限性

深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音助手識(shí)別技術(shù)發(fā)展中帶來(lái)了巨大貢獻(xiàn)的同時(shí)，也有較多不足，需要不斷的創(chuàng)新及進(jìn)步。例如在深度神經(jīng)網(wǎng)絡(luò)進(jìn)行大數(shù)據(jù)分析時(shí)，它并不能夠?qū)Σ煌詣e同一問題給出不同的結(jié)果，以及不同年齡對(duì)同一問題的理解深度。對(duì)此，語(yǔ)音識(shí)別模型訓(xùn)練需要更加完善更加智能。深度神經(jīng)網(wǎng)絡(luò)的技術(shù)為語(yǔ)音助手技術(shù)更好的發(fā)展提供了方向，在以后的智能識(shí)別中將做出更大的進(jìn)步。

當(dāng)前的語(yǔ)音助手還處于發(fā)展初期階段，我們需要對(duì)其進(jìn)行更多訓(xùn)練，更多的在設(shè)備上應(yīng)用，這樣才能更好的提升語(yǔ)音助手識(shí)別技術(shù)。在科學(xué)技術(shù)飛速發(fā)展的今天，語(yǔ)音助手需要跟上時(shí)代進(jìn)步的步伐，在人們的日常常生活中提供更優(yōu)質(zhì)的服務(wù)。因此，為了提高人們的日常生活水平，加強(qiáng)深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音助手技術(shù)的模型訓(xùn)練刻不容緩。未來(lái)，深度神經(jīng)網(wǎng)絡(luò)技術(shù)的語(yǔ)音助手將不斷完善，語(yǔ)音助手并非只有手機(jī)及音箱單一的出路，在客廳及輔助人工智能駕駛領(lǐng)域，語(yǔ)音助手的優(yōu)點(diǎn)將更加閃耀。