長(zhǎng)江大學(xué)電子信息學(xué)院 陳 瑞 鄭恭明
自2011年起第一款智能語(yǔ)音助手Siri的驚艷亮相,已走過十年歷史,現(xiàn)如今各種形形色色的語(yǔ)音助手已占據(jù)各大主流手機(jī)品牌市場(chǎng)。據(jù)Strategy Analytics的報(bào)告,2018年在全球出售的手機(jī)中,半數(shù)以上已經(jīng)配備了語(yǔ)音助手,預(yù)計(jì)在2023年后,智能手機(jī)的語(yǔ)音助手基本能夠?qū)崿F(xiàn)全覆蓋。
在傳統(tǒng)的語(yǔ)音識(shí)別技術(shù)中,混合高斯模型和隱馬爾可夫模型(GMM-HMM)曾占據(jù)了近三十年的發(fā)展歷史。GMM-HMM模型本質(zhì)上只是一種淺層學(xué)習(xí)網(wǎng)絡(luò)的建模,其建模能力有限,無(wú)法準(zhǔn)確的識(shí)別語(yǔ)音內(nèi)部復(fù)雜的結(jié)構(gòu),因此它的識(shí)別率較低。隨著深度學(xué)習(xí)的不斷發(fā)展,混合高斯模型已逐漸被深度神經(jīng)網(wǎng)絡(luò)(DNN)所替代。DNN-HMM聲學(xué)模型利用DNN神經(jīng)網(wǎng)絡(luò)極強(qiáng)的表現(xiàn)學(xué)習(xí)能力,配合HMM模型的建模能力,在大多數(shù)的語(yǔ)音識(shí)別任務(wù)上都能勝任GMM-HMM模型。
通過深度神經(jīng)網(wǎng)絡(luò),機(jī)器可以對(duì)人類發(fā)出的語(yǔ)音指令進(jìn)行思考并分析,進(jìn)一步提升人工智能科技進(jìn)步。本文就深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,對(duì)智能語(yǔ)音助手應(yīng)用進(jìn)行分析。
隨著智能手機(jī)的不斷創(chuàng)新,語(yǔ)音助手也隨之發(fā)展的更加智能,與人類的交流也不再像過去那種單一的交流方式?,F(xiàn)如今的語(yǔ)音助手甚至能夠與人類進(jìn)行更深層次的交流,這主要?dú)w因于自動(dòng)語(yǔ)音識(shí)別技術(shù)(ASR)與自然語(yǔ)言處理技術(shù)(NLP)。
語(yǔ)音識(shí)別起源于上世紀(jì)五十年代,當(dāng)時(shí)只能識(shí)別特定的簡(jiǎn)單的單詞,隨著各國(guó)對(duì)語(yǔ)音識(shí)別技術(shù)發(fā)展的重視,識(shí)別能力水平越來(lái)越高。上世紀(jì)六十年代,隨著第三次科技革命的開始,計(jì)算機(jī)技術(shù)的快速發(fā)展也進(jìn)一步推動(dòng)了語(yǔ)音識(shí)別能力的發(fā)展。但當(dāng)時(shí)由于技術(shù)比較先進(jìn),普通大眾尚無(wú)法感受到語(yǔ)音識(shí)別的魅力。隨著現(xiàn)時(shí)代網(wǎng)絡(luò)的普及,語(yǔ)音識(shí)別也逐漸應(yīng)用于各種社交軟件工具中。起初的語(yǔ)音助手識(shí)別的算法只能完成語(yǔ)音指令發(fā)出的任務(wù),且錯(cuò)誤率較高。而隨著與深度神經(jīng)網(wǎng)絡(luò)的結(jié)合后,語(yǔ)音助手能夠完成的不僅僅只是簡(jiǎn)單的任務(wù),甚至可以實(shí)現(xiàn)家居智能化,思考人類發(fā)出的指令并通過算法模仿人類大腦所思考的回答。
自然語(yǔ)言處理技術(shù)(NLP)指的是機(jī)器在讀取語(yǔ)音指令時(shí),能夠“聽懂”人類語(yǔ)言,通過算法進(jìn)行分析、計(jì)算等系列操作,做出相應(yīng)的響應(yīng)并反饋用戶所期望的結(jié)果。語(yǔ)音處理技術(shù)主要包含以下兩個(gè)部分:自然語(yǔ)言理解(NLU)和自然語(yǔ)言生成(NLG)。其中NLU為語(yǔ)音識(shí)別技術(shù)的核心,其主要功能是如何去理解語(yǔ)音指令,以及各種文本分類等;NLG主要側(cè)重于如何將理解后的語(yǔ)音文本組織表達(dá),將其形成完整的句子回答用戶。
自動(dòng)語(yǔ)音識(shí)別技術(shù)(ASR)是目前多數(shù)語(yǔ)音助手都具備的技術(shù),其本質(zhì)是將人類發(fā)出的語(yǔ)音指令轉(zhuǎn)化為文本形式或者可以理解的指令,從而達(dá)到人與機(jī)器交流的目的。語(yǔ)音識(shí)別技術(shù)主要包含以下幾個(gè)單元:特征提取、模式匹配、以及參考模式庫(kù)。當(dāng)語(yǔ)音輸入時(shí),我們對(duì)此語(yǔ)音預(yù)處理進(jìn)而提取特征。根據(jù)提取的特征與模式庫(kù)的特征進(jìn)行比較,從而找出最優(yōu)的匹配模板。如圖1所示。
圖1 自動(dòng)語(yǔ)音技術(shù)的工作方式
深度神經(jīng)網(wǎng)絡(luò)(DNN)是深度學(xué)習(xí)的一種方式,是由大量的神經(jīng)元通過算法合成的一個(gè)自適應(yīng)系統(tǒng),通過對(duì)人類大腦的模仿,使其算法具有人性化并具備人類特有的思考能力。深度神經(jīng)網(wǎng)絡(luò)能夠?yàn)閺?fù)雜的非線性系統(tǒng)提供強(qiáng)大的抽象層次,從而提高模型所具備的能力。
神經(jīng)網(wǎng)絡(luò)起源于上世紀(jì)四十年代,起初的神經(jīng)網(wǎng)絡(luò)在工程方面應(yīng)用十分廣泛。但隨著科技的不斷進(jìn)步,神經(jīng)網(wǎng)絡(luò)在算法方面的弊端不斷顯現(xiàn),直接導(dǎo)致神經(jīng)網(wǎng)絡(luò)的發(fā)展中斷。針對(duì)這一現(xiàn)象,美國(guó)科學(xué)家通過非線性系統(tǒng)的優(yōu)化再一次發(fā)展了神經(jīng)網(wǎng)絡(luò)。2011年,微軟初步將深度神經(jīng)網(wǎng)絡(luò)運(yùn)用在語(yǔ)音識(shí)別上,語(yǔ)音識(shí)別技術(shù)迎來(lái)了突破性的進(jìn)展。此外,深度神經(jīng)網(wǎng)絡(luò)需要通過大量的數(shù)據(jù)進(jìn)行監(jiān)督運(yùn)算,這會(huì)導(dǎo)致訓(xùn)練時(shí)間過長(zhǎng)且極大的消耗資源,這阻礙深度神經(jīng)網(wǎng)絡(luò)的發(fā)展。但是,不足也是動(dòng)力,隨著科技的不斷發(fā)展,深度學(xué)習(xí)將愈加完善。未來(lái)的深度神經(jīng)網(wǎng)絡(luò)不僅僅只是應(yīng)用于語(yǔ)音系統(tǒng)上,它對(duì)機(jī)器人、醫(yī)療、多媒體及室內(nèi)智能家居同樣大有裨益。
深度神經(jīng)網(wǎng)絡(luò)也叫做多隱含層感知機(jī),可以理解為具有很多隱藏層的神經(jīng)網(wǎng)絡(luò)。DNN內(nèi)部神經(jīng)網(wǎng)絡(luò)主要分為三種類型,一般來(lái)說(shuō)第一層為輸入層,中間層為隱藏層,最后一層為輸出層。相鄰層與層之間節(jié)點(diǎn)都是全連接的,其中輸入層為原始的樣本數(shù)據(jù),輸出層為最終的計(jì)算結(jié)果。整個(gè)網(wǎng)絡(luò)采用無(wú)監(jiān)督的預(yù)訓(xùn)練方式來(lái)生成初始權(quán)重,且在最后一層的隱含層和輸出層之間構(gòu)成Softmax函數(shù),再通過誤差反向傳播的方法調(diào)整整個(gè)網(wǎng)絡(luò)的參數(shù)。其結(jié)構(gòu)如圖2所示。
圖2 深度神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)的語(yǔ)音助手技術(shù)主要以完成指令下達(dá)的任務(wù)為目標(biāo),而現(xiàn)如今深度神經(jīng)網(wǎng)絡(luò)的運(yùn)用,使得智能助手可以模擬人類的神經(jīng)元活動(dòng)機(jī)制,通過算法進(jìn)行思考并做出回答。而語(yǔ)音助手的一大難點(diǎn)就是在外界噪音情況下如何降噪并將純凈的語(yǔ)音信息保留。通過深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大建模能力對(duì)大量數(shù)據(jù)進(jìn)行試驗(yàn),得出結(jié)果發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)對(duì)噪聲的過濾性更強(qiáng),通過底層網(wǎng)絡(luò)將外界影響噪聲過濾,把純凈的噪聲進(jìn)行保留。因此,深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別的語(yǔ)音助手應(yīng)用中,更加自主化及高效。
深度神經(jīng)網(wǎng)絡(luò)通過大量處理好的數(shù)據(jù)對(duì)語(yǔ)音助手進(jìn)行訓(xùn)練,但由于訓(xùn)練的參數(shù)過多且網(wǎng)絡(luò)模型過于復(fù)雜,因此深度神經(jīng)網(wǎng)絡(luò)存在過擬合及局部最優(yōu)的局限性。故選取合適的自動(dòng)的停止訓(xùn)練標(biāo)準(zhǔn),使機(jī)器在合適的訓(xùn)練程度上,降低深度神經(jīng)網(wǎng)絡(luò)的局限性。對(duì)語(yǔ)音助手的模型訓(xùn)練是為了更好的掌握對(duì)所需語(yǔ)音特征值的識(shí)別結(jié)果,不斷循環(huán)訓(xùn)練以更好的加強(qiáng)識(shí)別效果。在此基礎(chǔ)上,需要對(duì)此模型進(jìn)行擴(kuò)大更新,拓寬語(yǔ)音助手識(shí)別的區(qū)域,更好的提升語(yǔ)音助手識(shí)別內(nèi)容的準(zhǔn)確率。
雖然離第一代產(chǎn)品出來(lái)已有十年,但是在語(yǔ)音識(shí)別方面,當(dāng)前研究人員也遇到了技術(shù)發(fā)展的瓶頸。盡管大多數(shù)手機(jī)都安裝了語(yǔ)音助手,也做到了人與語(yǔ)音助手的交流,但是手機(jī)的語(yǔ)音助手終歸是機(jī)器,能做到的也只是完成一些簡(jiǎn)單的交流及任務(wù)。若是一些復(fù)雜任務(wù)及專業(yè)語(yǔ)言,語(yǔ)音助手則很難達(dá)到相應(yīng)的預(yù)期結(jié)果。對(duì)于復(fù)雜模型訓(xùn)練,專業(yè)名詞導(dǎo)入以及降噪處理,語(yǔ)音助手仍有一條很長(zhǎng)的路要走。
當(dāng)前的語(yǔ)音助手所提取的關(guān)鍵詞都是依靠有限的模型進(jìn)行訓(xùn)練所識(shí)別的詞匯,這種提取方式很大程度上受到模型的限制,耗費(fèi)大量時(shí)間且關(guān)鍵詞提取不精確。深度神經(jīng)網(wǎng)絡(luò)可以對(duì)此進(jìn)行優(yōu)化,深度神經(jīng)網(wǎng)絡(luò)不但可以自動(dòng)特征提取,而且可以根據(jù)大數(shù)據(jù)分析提取更為精確的關(guān)鍵詞,從而實(shí)現(xiàn)語(yǔ)音助手更加智能化的一項(xiàng)新挑戰(zhàn)。
深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音助手識(shí)別技術(shù)發(fā)展中帶來(lái)了巨大貢獻(xiàn)的同時(shí),也有較多不足,需要不斷的創(chuàng)新及進(jìn)步。例如在深度神經(jīng)網(wǎng)絡(luò)進(jìn)行大數(shù)據(jù)分析時(shí),它并不能夠?qū)Σ煌詣e同一問題給出不同的結(jié)果,以及不同年齡對(duì)同一問題的理解深度。對(duì)此,語(yǔ)音識(shí)別模型訓(xùn)練需要更加完善更加智能。深度神經(jīng)網(wǎng)絡(luò)的技術(shù)為語(yǔ)音助手技術(shù)更好的發(fā)展提供了方向,在以后的智能識(shí)別中將做出更大的進(jìn)步。
當(dāng)前的語(yǔ)音助手還處于發(fā)展初期階段,我們需要對(duì)其進(jìn)行更多訓(xùn)練,更多的在設(shè)備上應(yīng)用,這樣才能更好的提升語(yǔ)音助手識(shí)別技術(shù)。在科學(xué)技術(shù)飛速發(fā)展的今天,語(yǔ)音助手需要跟上時(shí)代進(jìn)步的步伐,在人們的日常常生活中提供更優(yōu)質(zhì)的服務(wù)。因此,為了提高人們的日常生活水平,加強(qiáng)深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音助手技術(shù)的模型訓(xùn)練刻不容緩。未來(lái),深度神經(jīng)網(wǎng)絡(luò)技術(shù)的語(yǔ)音助手將不斷完善,語(yǔ)音助手并非只有手機(jī)及音箱單一的出路,在客廳及輔助人工智能駕駛領(lǐng)域,語(yǔ)音助手的優(yōu)點(diǎn)將更加閃耀。