亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語(yǔ)音識(shí)別中聲學(xué)模型研究綜述

        2020-04-08 09:52:34李田港
        關(guān)鍵詞:特征文本模型

        葉 碩,褚 鈺,王 祎,李田港

        (武漢郵電科學(xué)研究院,湖北 武漢 430000)

        1 發(fā)展歷程

        隨著社會(huì)快速發(fā)展,計(jì)算機(jī)與人類社會(huì)聯(lián)系越來越密切,面臨的任務(wù)越來越復(fù)雜,運(yùn)用人機(jī)交互的場(chǎng)合也越來越多。人機(jī)交互可以分為語(yǔ)言交互與視覺交互,其中語(yǔ)言作為最直接的信息交互方式,承載了人們?nèi)粘I钪薪^大部分信息交換的任務(wù)。

        智能語(yǔ)音技術(shù)作為構(gòu)建智能化、信息化社會(huì)的重要一環(huán),主要分為三個(gè)方面的內(nèi)容:語(yǔ)音識(shí)別(automatic speech recognition,ASR)、自然語(yǔ)言處理(natural language processing,NLP)、語(yǔ)音合成(speech synthesis,SS)[1]。語(yǔ)音識(shí)別側(cè)重于將人類語(yǔ)言編譯成計(jì)算機(jī)可讀的數(shù)據(jù),自然語(yǔ)言處理側(cè)重讓計(jì)算機(jī)理解語(yǔ)言內(nèi)容,而語(yǔ)音合成則是將計(jì)算機(jī)理解的結(jié)果以語(yǔ)音的方式反饋給人類,為下一步交互或操作做準(zhǔn)備。

        語(yǔ)音識(shí)別技術(shù)始于20世紀(jì)50年代,貝爾實(shí)驗(yàn)室率先研發(fā)出了10個(gè)孤立數(shù)字的識(shí)別系統(tǒng)[2]。20世紀(jì)70年代,蘇聯(lián)科學(xué)家首次提出用動(dòng)態(tài)規(guī)劃方法解決語(yǔ)音信號(hào)不等長(zhǎng)問題,并在此基礎(chǔ)上發(fā)展出了動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)算法[3]。與此同時(shí),語(yǔ)音信號(hào)線性預(yù)測(cè)編碼(linear predictive coding,LPC)[4]的提出有效解決了提取語(yǔ)音信號(hào)何種參數(shù)作為特征的問題。

        20世紀(jì)80年代,以隱馬爾可夫模型(hidden Markov model,HMM)方法[5]為代表的基于統(tǒng)計(jì)模型的方法逐漸在語(yǔ)音識(shí)別研究中占據(jù)主導(dǎo)地位。隨后興起的人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)[6]也為語(yǔ)音識(shí)別提供了一個(gè)新的研究思路。

        2006年,Hinton[7]使用受限波爾茲曼機(jī)(restricted Boltzmann machine,RBM)對(duì)神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)做初始化,深度置信網(wǎng)絡(luò)(deep belief network,DBN)應(yīng)運(yùn)而生。該網(wǎng)絡(luò)通過一種非監(jiān)督貪婪逐層方法,在盡可能保留建模對(duì)象特征信息的基礎(chǔ)上,不斷擬合獲得權(quán)重。該方法由于結(jié)構(gòu)上具備多層非線性變換[8]而具有更強(qiáng)的建模能力,可以用來處理諸如語(yǔ)音的復(fù)雜信號(hào)。此后,深度學(xué)習(xí)與傳統(tǒng)方法相結(jié)合的手段占據(jù)主流,語(yǔ)音識(shí)別進(jìn)入一個(gè)快速發(fā)展的階段。

        2 研究方向及手段

        語(yǔ)音識(shí)別系統(tǒng)由多個(gè)模塊組成,通過建立聲學(xué)模型(acoustic model,AM)和語(yǔ)言模型(language model,LM)完成識(shí)別,如圖1所示,其中聲學(xué)模型和語(yǔ)言模型由數(shù)據(jù)訓(xùn)練得到。

        圖1 語(yǔ)音識(shí)別模型框圖

        作為人機(jī)交互的前端,語(yǔ)音識(shí)別衍生出的方向很多,一段語(yǔ)音中通常包含說話人的三部分內(nèi)容:語(yǔ)言內(nèi)容信息、聲音特征信息、語(yǔ)音情感信息。因此,語(yǔ)音識(shí)別的方向也可以分為:文本識(shí)別,將語(yǔ)音中的內(nèi)容轉(zhuǎn)換成文本,用于人類閱讀或?yàn)橛?jì)算機(jī)進(jìn)一步提取內(nèi)容理解內(nèi)容做準(zhǔn)備;聲紋識(shí)別,該方向研究說話人身份或特定文本,常用于安防等領(lǐng)域;情緒識(shí)別的目標(biāo)則是對(duì)語(yǔ)音中包含的情感進(jìn)行識(shí)別。常用語(yǔ)言模型N-Gram刻畫某一字序列發(fā)生的概率,該統(tǒng)計(jì)語(yǔ)言模型認(rèn)為任意一個(gè)字出現(xiàn)的概率僅與前面有限的N-1個(gè)字出現(xiàn)的概率有關(guān),是一種具有強(qiáng)馬爾可夫獨(dú)立性假設(shè)的模型[9]。理論上N取值越大效果越好,實(shí)際工程發(fā)現(xiàn),N取值增加到一定程度后,反而會(huì)影響識(shí)別性能;而聲學(xué)模型則根據(jù)不同任務(wù)發(fā)展出多種模型,文中接下來將對(duì)語(yǔ)音識(shí)別任務(wù)中的不同聲學(xué)模型進(jìn)行分析總結(jié)。

        2.1 文本識(shí)別

        文本識(shí)別的目的是盡可能實(shí)現(xiàn)長(zhǎng)時(shí)語(yǔ)音的實(shí)時(shí)識(shí)別,其識(shí)別任務(wù)可以根據(jù)語(yǔ)音文本的長(zhǎng)短分為孤詞語(yǔ)音、詞匯語(yǔ)音、連續(xù)語(yǔ)音識(shí)別三個(gè)階段。孤詞語(yǔ)音發(fā)音時(shí)間最短,就漢語(yǔ)而言,一段語(yǔ)音中往往只有一個(gè)字或者一個(gè)詞匯,識(shí)別起來最為容易;詞匯語(yǔ)音則包含多個(gè)詞匯,語(yǔ)音持續(xù)時(shí)間稍長(zhǎng);連續(xù)語(yǔ)音識(shí)別起來最為困難,通常由一整句或多句話組成,每句話彼此之間還可能存在邏輯聯(lián)系,且漢語(yǔ)具有同音不同字的情況,因此為了提高識(shí)別的準(zhǔn)確率,還需要聲學(xué)模型能夠聯(lián)系上下文語(yǔ)境,這給識(shí)別帶來極大難度。早期文本識(shí)別常以HMM作為聲學(xué)模型,該模型對(duì)語(yǔ)音的最小單位——音素進(jìn)行建模,實(shí)現(xiàn)了由孤詞語(yǔ)音到詞匯語(yǔ)音的突破。由于語(yǔ)音識(shí)別任務(wù)中的聲學(xué)特征矢量取值是連續(xù)的,為降低量化誤差對(duì)識(shí)別造成的影響,有學(xué)者[10]使用可對(duì)任意的概率密度函數(shù)進(jìn)行擬合逼近的高斯混合模型(Gaussian mixture models,GMM)與HMM相結(jié)合的手段構(gòu)建聲學(xué)模型,該方式取得了良好效果并在很長(zhǎng)一段時(shí)間里被作為語(yǔ)音識(shí)別任務(wù)的主流。但由于HMM的轉(zhuǎn)移概率只與前一時(shí)刻有關(guān),因此無法充分利用上下文信息,在對(duì)長(zhǎng)時(shí)依賴性語(yǔ)音進(jìn)行建模時(shí)存在缺陷,隨著數(shù)據(jù)量的增加識(shí)別性能會(huì)受到限制,且在增強(qiáng)GMM擬合能力的同時(shí),需要優(yōu)化的參數(shù)也急劇上升,給聲學(xué)模型的訓(xùn)練帶來極大負(fù)擔(dān)。

        連續(xù)語(yǔ)音識(shí)別的進(jìn)一步發(fā)展,得益于深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)的運(yùn)用,深度學(xué)習(xí)是一種訓(xùn)練深層結(jié)構(gòu)模型來表示數(shù)據(jù)之間復(fù)雜關(guān)系的方法[11],不需要對(duì)語(yǔ)音數(shù)據(jù)分布進(jìn)行假設(shè)[1]。有學(xué)者[12]將深度學(xué)習(xí)引入聲學(xué)建模,利用更多的網(wǎng)絡(luò)層數(shù)來提取語(yǔ)音的深層次特征,并通過拼幀的方式獲得更長(zhǎng)時(shí)的結(jié)構(gòu)信息,這在一定程度上提高了可識(shí)別語(yǔ)音的輸入長(zhǎng)度,且其輸入特征多樣,因此利用DNN對(duì)聲學(xué)特征矢量和狀態(tài)關(guān)系進(jìn)行建模的方式,極大提升了文本識(shí)別的準(zhǔn)確率。DNN-HMM的聲學(xué)模型在TIMIT數(shù)據(jù)庫(kù)上獲得了優(yōu)異表現(xiàn)[13],國(guó)內(nèi)有學(xué)者提出了一種深度置信網(wǎng)絡(luò)結(jié)合深度玻爾茲曼機(jī)的改進(jìn)DNN-HMM語(yǔ)音識(shí)別算法,將原先模型的隱藏層改為DBM和DBN的混合形式,有效降低了該模型的錯(cuò)誤識(shí)別率。還有學(xué)者[14-16]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)引入DNN-HMM,利用其局部卷積、權(quán)值共享和池化的特點(diǎn),通過迭代的方式從低級(jí)特征中提取出更復(fù)雜的特征用以增加模型穩(wěn)定性。

        為識(shí)別大詞匯量連續(xù)語(yǔ)音,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[17]以其較強(qiáng)的時(shí)序數(shù)據(jù)樣本處理能力而成為國(guó)內(nèi)外學(xué)者的研究對(duì)象,該模型克服了傳統(tǒng)DNN-HMM難以對(duì)長(zhǎng)時(shí)語(yǔ)音進(jìn)行識(shí)別的問題。RNN與其他神經(jīng)網(wǎng)絡(luò)的不同之處在于,它的每一層信息不僅輸出給下一層,同時(shí)還輸出一個(gè)隱狀態(tài)參與下一次決策,但RNN的聲學(xué)模型訓(xùn)練使用隨機(jī)梯度下降法(stochastic gradient descent,SGD),該方法會(huì)帶來梯度消失問題[18]。有學(xué)者[19]改進(jìn)了RNN為長(zhǎng)短時(shí)記憶(long short-term memory,LSTM)網(wǎng)絡(luò),使用輸入門、輸出門和遺忘門來控制信息流,使得梯度能在相對(duì)更長(zhǎng)的時(shí)間跨度內(nèi)穩(wěn)定地傳播。LSTM網(wǎng)絡(luò)通常由3-5個(gè)LSTM層組成,有學(xué)者[20]在DNN的隱藏層引入LSTM結(jié)構(gòu)單元,獲得了能記憶更長(zhǎng)時(shí)序的能力,LSTM-DNN模型在噪聲環(huán)境中獲得了優(yōu)異表現(xiàn),隨后形成了CNN-LSTM-DNN(CLDNN)[21]的架構(gòu)。

        為提高聲學(xué)模型的性能,避免網(wǎng)絡(luò)退化[22],有學(xué)者進(jìn)一步優(yōu)化LSTM的結(jié)構(gòu),提出Highway LSTM[23](HLSTM),Residual LSTM[24](RLSTM)。HLSTM相比傳統(tǒng)LSTM,額外增加了一個(gè)控制門(carry gate),通過在相鄰LSTM層的神經(jīng)元間建立一個(gè)線性連接,制造出空間上的快速通道,將底層神經(jīng)元中的表達(dá)添加到高層神經(jīng)元中。該方法為構(gòu)筑更深層次的LSTM提供了思路。RLSTM借鑒HLSTM的思路,直接利用輸出門代替carry gate,該種方法不但有效減少了網(wǎng)絡(luò)參數(shù),同時(shí)也避免了梯度流之間的沖突,具有構(gòu)建更深層次LSTM網(wǎng)絡(luò)的能力。

        可以看出,文本識(shí)別任務(wù)的發(fā)展經(jīng)歷了GMM-HMM到DNN-HMM,再到LSTM-DNN的聲學(xué)模型演化,逐步實(shí)現(xiàn)了長(zhǎng)時(shí)連續(xù)語(yǔ)音的識(shí)別,但在實(shí)時(shí)語(yǔ)音識(shí)別任務(wù)中,依賴上下文的LSTM網(wǎng)絡(luò)反而不具備太大優(yōu)勢(shì),在利用較長(zhǎng)時(shí)刻信息提升識(shí)別準(zhǔn)確率的同時(shí)也帶來了時(shí)延。為此,有學(xué)者[23]提出延遲受控BLSTM(latency control-BLSTM,LC-BLSTM)對(duì)LSTM進(jìn)行優(yōu)化,大大提升了識(shí)別速度。

        2.2 聲紋識(shí)別

        聲紋識(shí)別(voiceprint recognition,VPR)也被稱為說話人識(shí)別,其方向可分為兩大類:說話人辨認(rèn)(speaker identification)和說話人驗(yàn)證(speaker verification)。前者的目標(biāo)是從一眾說話人群中找到那個(gè)特定的說話人,后者則是確認(rèn)當(dāng)前說話人是否是目標(biāo)說話人;聲紋識(shí)別也可以分為文本相關(guān)的(text-dependent)和文本無關(guān)的(text-independent)兩種[25]。

        人的聲音不是恒定的,通常會(huì)隨著說話人的情緒、年齡[26]、身體的健康狀況[27]的變化而變化。此外,環(huán)境噪聲也會(huì)對(duì)聲紋識(shí)別造成一定的影響。

        在聲紋識(shí)別領(lǐng)域中,早期學(xué)者通過DTW算法[28]進(jìn)行聲紋識(shí)別,該種方式只是用于特定說話人的特定文本,具有較大局限性。Reynolds等[29]率先提出高斯混合模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM),其結(jié)構(gòu)如圖2所示。該模型使用大量非目標(biāo)用戶語(yǔ)音作為背景數(shù)據(jù),訓(xùn)練出一個(gè)不具備表征具體身份能力的模型,對(duì)語(yǔ)音特征的空間分布給出一個(gè)預(yù)估的概率模型,然后使用目標(biāo)用戶的聲紋數(shù)據(jù),在該模型上使用最大后驗(yàn)概率(maximum posterior probability,MAP)進(jìn)行參數(shù)微調(diào),在不需要大量目標(biāo)說話人數(shù)據(jù)的情況下即可訓(xùn)練出良好的聲學(xué)模型,實(shí)現(xiàn)說話人識(shí)別。該模型極大地推動(dòng)聲紋識(shí)別的發(fā)展,相比于虹膜、指紋等生物特征具有更易獲得的優(yōu)勢(shì),因而廣泛應(yīng)用于社保、金融部分公共場(chǎng)所。

        圖2 GMM-UBM聲學(xué)模型

        但實(shí)際中,除了說話人之間有差異,采集語(yǔ)音的設(shè)備也有差異,這導(dǎo)致了系統(tǒng)性能不穩(wěn)定,而GMM-UBM聲學(xué)模型又無法克服這種信道間的差異,為此,Dehak[30]提出i-vector模型,將說話人和信道的差異作為一個(gè)整體,對(duì)全局差異進(jìn)行建模,該模型將說話人模型投影到低維空間,克服了高斯分量相互獨(dú)立的局限性。但針對(duì)持續(xù)時(shí)間較短的語(yǔ)音,GMM-UBM模型很難在單一特征中尋找到用于區(qū)分特定人的信息,因而識(shí)別率不理想。有研究者[31]通過特征融合的方式,將語(yǔ)音的主成分分析和常用特征聯(lián)系起來,獲得了更優(yōu)良的特征參數(shù)。與文本識(shí)別任務(wù)一樣,CNN憑借其出色的特征提取能力,也被應(yīng)用在聲紋識(shí)別任務(wù)中。在對(duì)如何將輸入卷積神經(jīng)網(wǎng)絡(luò)的一維語(yǔ)音信號(hào)轉(zhuǎn)變成二維信號(hào)的問題上,胡青等[32]提出利用分幀的方法對(duì)原始語(yǔ)音信號(hào)進(jìn)行規(guī)整,將語(yǔ)音分幀再拼接成二維表達(dá),以滿足卷積操作對(duì)輸入信號(hào)的要求;張晴晴等[33]則提出語(yǔ)音信號(hào)的兩個(gè)維度,分別為時(shí)域維度和頻域維度,時(shí)域維度采用多幀串聯(lián)構(gòu)成長(zhǎng)時(shí)特征,頻域維度則采用梅爾域的濾波帶系數(shù)作為參數(shù)。

        隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,國(guó)內(nèi)外學(xué)者也將目光投向基于神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別。有學(xué)者[34]使用DNN網(wǎng)絡(luò),從最后一個(gè)隱藏層提取說話人的特征并構(gòu)筑模型,在識(shí)別精度上相比i-vector模型具有更好的表現(xiàn)。有學(xué)者[35]針對(duì)噪聲環(huán)境,設(shè)計(jì)一個(gè)預(yù)處理步驟來解決噪音問題,通過語(yǔ)音分離手段訓(xùn)練一個(gè)DNN來估計(jì)噪聲語(yǔ)音,然后對(duì)i-vector模型進(jìn)行特征增強(qiáng),進(jìn)一步提高強(qiáng)噪聲環(huán)境下說話人識(shí)別的精度。

        2.3 情緒識(shí)別

        語(yǔ)音情緒識(shí)別方向具有廣闊的應(yīng)用前景,可用于醫(yī)療監(jiān)護(hù)、電子安防等諸多領(lǐng)域,作為語(yǔ)音識(shí)別的一個(gè)難點(diǎn),如何提取語(yǔ)音情感的有效特征,使用何種特征刻畫何種情緒一直是一個(gè)重要的研究方向[36],此外,使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取也越來越受到重視[37]。

        心理學(xué)將情感分為了離散和連續(xù)兩種類型[38-39],最早的情緒識(shí)別是基于統(tǒng)計(jì)特征進(jìn)行的離散情感分類[40-41],使用支持向量機(jī)(support vector machine,SVM)[42]、K最近鄰(K-nearest neighbor,K-NN)、隱馬爾可夫模型(hidden Markov model,HMM)[43]、GMM(Gaussian mixture model)[44]等淺層學(xué)習(xí)方式。

        針對(duì)連續(xù)型情感,Grimm等人[45]最早提出三維情感描述模型,將維度情感識(shí)別問題建模為標(biāo)準(zhǔn)的回歸預(yù)測(cè)問題。由于人類情感的時(shí)間邊界模糊,一段語(yǔ)音中可能包含不止一種情感[46],因此有學(xué)者借鑒循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)時(shí)建模能力,對(duì)連續(xù)型情感語(yǔ)音進(jìn)行識(shí)別,并很快改進(jìn)為L(zhǎng)STM[47]。在語(yǔ)音情緒識(shí)別任務(wù)中,國(guó)內(nèi)太原理工大學(xué)張雪英團(tuán)隊(duì)[48-49]建立了TYUT語(yǔ)音庫(kù),并使用了心理學(xué)標(biāo)注的PAD(愉悅度、激活度、優(yōu)勢(shì)度)三維情緒模型對(duì)情感語(yǔ)音進(jìn)行描述,實(shí)現(xiàn)了基于連續(xù)維度的情感語(yǔ)音識(shí)別。該方法基于猶豫模糊信息的決策級(jí)融合,根據(jù)不同特征的識(shí)別權(quán)重,預(yù)測(cè)了語(yǔ)音在PAD情緒空間模型中的三個(gè)維度值,得出情感語(yǔ)音在連續(xù)維度角度的數(shù)值。

        隨著數(shù)據(jù)量的增長(zhǎng),數(shù)據(jù)集與數(shù)據(jù)集之間的差別也愈發(fā)明顯,不同語(yǔ)種在某些情緒表達(dá)方面受文化、地域等諸多因素的影響,導(dǎo)致適用于某一數(shù)據(jù)集的模型在其他數(shù)據(jù)集上不一定表現(xiàn)優(yōu)良,跨越數(shù)據(jù)集的語(yǔ)音情緒識(shí)別也越發(fā)受到重視。針對(duì)這一問題,國(guó)內(nèi)外學(xué)者提出基于遷移學(xué)習(xí)的語(yǔ)音情緒識(shí)別模型。遷移學(xué)習(xí)可以實(shí)現(xiàn)從一個(gè)或多個(gè)源域中遷移有用的信息到相關(guān)的目標(biāo)域,從而幫助改善目標(biāo)域的分類性能[50-51]。

        3 趨勢(shì)展望

        不難發(fā)現(xiàn),文本識(shí)別和情緒識(shí)別的發(fā)展有相似之處,識(shí)別內(nèi)容都從短時(shí)語(yǔ)音發(fā)展到長(zhǎng)時(shí)語(yǔ)音,聲學(xué)模型也由RNN過渡到具有更長(zhǎng)時(shí)序建模能力的LSTM。但無論何種形式的神經(jīng)網(wǎng)絡(luò),模塊之間的訓(xùn)練獨(dú)立進(jìn)行,比如聲學(xué)模型的訓(xùn)練就是基于監(jiān)督性學(xué)習(xí),目的是最大化訓(xùn)練語(yǔ)音的概率,對(duì)于每一幀訓(xùn)練數(shù)據(jù),需要事先知道其所對(duì)應(yīng)的標(biāo)簽才能進(jìn)行有效的學(xué)習(xí),為此,在預(yù)處理階段需要對(duì)語(yǔ)音幀進(jìn)行強(qiáng)制對(duì)齊。對(duì)于待識(shí)別語(yǔ)音的處理,往往也是先對(duì)波形進(jìn)行加窗分幀,然后再提取特征。這種做法使得以不同目的為導(dǎo)向的損失函數(shù)不能共享信息,訓(xùn)練出的網(wǎng)絡(luò)也很難達(dá)到最優(yōu)。

        端到端的語(yǔ)音識(shí)別(end-to-end speech recognition)將整個(gè)語(yǔ)音識(shí)別過程視為序列分類的整體問題,能夠直接把一個(gè)目標(biāo)序列映射為另一個(gè)結(jié)果序列[52],這種做法使得模型可以更自由地根據(jù)數(shù)據(jù)自動(dòng)調(diào)節(jié)參數(shù),增加模型的契合度。

        端到端的做法分為兩種,一種是端到端訓(xùn)練(end-to-end training),將訓(xùn)練好的聲學(xué)模型與語(yǔ)言模型連接在一起,再以某一目標(biāo)函數(shù)訓(xùn)練其中的聲學(xué)模型部分,計(jì)算系統(tǒng)整體的輸出;另一種是端到端模型(end-to-end models),將聲學(xué)模型、語(yǔ)言模型都集成在一個(gè)神經(jīng)網(wǎng)絡(luò)中,所有參數(shù)在訓(xùn)練過程中一起優(yōu)化[9]。

        目前主流的端到端模型有兩個(gè),分別為連接時(shí)序分類(connectionist temporal classification,CTC)準(zhǔn)則[53]和注意力機(jī)制(attention mechanism,AM)。

        CTC用來衡量輸入數(shù)據(jù)經(jīng)過神經(jīng)網(wǎng)絡(luò)運(yùn)算后和真實(shí)的輸出相差有多少,因此并不會(huì)關(guān)心預(yù)測(cè)輸出序列中每個(gè)結(jié)果在時(shí)間點(diǎn)上是否和輸入的序列正好對(duì)齊,其獨(dú)特的blank空格符的引入,使網(wǎng)絡(luò)對(duì)每一個(gè)音素的持續(xù)時(shí)長(zhǎng)并不敏感,可以對(duì)停頓、遲疑、靜音等因個(gè)人語(yǔ)言習(xí)慣而導(dǎo)致的空白語(yǔ)音進(jìn)行建模,因而克服了每個(gè)人發(fā)音特點(diǎn)不同的問題。有學(xué)者將CTC與LSTM聯(lián)系在一起,提出LSTM-CTC模型[22],獲得了較HMM-LSTM模型更高的識(shí)別精度。

        注意力機(jī)制實(shí)質(zhì)上是一種權(quán)重矩陣,其過程為:計(jì)算每個(gè)特征的權(quán)值,然后對(duì)特征進(jìn)行加權(quán)求和,權(quán)值越大,該特征對(duì)當(dāng)前識(shí)別的重要程度就越大[54]。它模仿人類處理信息方式,將更多注意力集中于某一部分敏感信息而不是全局信息,這不僅提高了識(shí)別準(zhǔn)確率,也避免了因上下文相關(guān)的輸入信息被限制在有限的長(zhǎng)度當(dāng)中而導(dǎo)致的模型泛化能力不足的問題[55]。

        目前基于Attention機(jī)制的端到端語(yǔ)音識(shí)別模型已成為研究熱點(diǎn)。

        4 結(jié)束語(yǔ)

        主要介紹了語(yǔ)音識(shí)別領(lǐng)域中三個(gè)大類方向的發(fā)展現(xiàn)狀與其使用模型,不難發(fā)現(xiàn),端到端的訓(xùn)練方式將是未來的主流。無論是文本識(shí)別、說話人識(shí)別,還是情緒識(shí)別,都是在實(shí)驗(yàn)室環(huán)境或者相對(duì)安靜的環(huán)境中進(jìn)行的,與實(shí)際應(yīng)用有一定差別?,F(xiàn)實(shí)環(huán)境中充滿了噪聲,如何實(shí)現(xiàn)復(fù)雜噪聲環(huán)境下的語(yǔ)音識(shí)別,是一個(gè)熱門話題。而進(jìn)一步,復(fù)雜噪聲環(huán)境往往和聲源距離有關(guān),隨著距離的增加,噪聲種類上升,并且將引入混響等一系列問題,致使信噪比急劇下降,如何提高遠(yuǎn)場(chǎng)環(huán)境下的語(yǔ)音識(shí)別效果,是長(zhǎng)期的熱點(diǎn)。

        雖然當(dāng)前的語(yǔ)音技術(shù)已經(jīng)可以在實(shí)驗(yàn)室環(huán)境較好地識(shí)別一個(gè)人的語(yǔ)音,但面對(duì)說話人不止一個(gè)的雞尾酒會(huì)問題,依然沒有辦法將語(yǔ)音有重疊的說話人準(zhǔn)確分離出來。此外,在情緒識(shí)別領(lǐng)域,盡管已經(jīng)發(fā)掘了較多情緒語(yǔ)音的特征,但這些特征對(duì)該種情緒貢獻(xiàn)多大并未有一個(gè)定量的研究,特征之間的相互聯(lián)系也需要大量工作去發(fā)現(xiàn)證明。隨著神經(jīng)網(wǎng)絡(luò)的快速興起,如何使用神經(jīng)網(wǎng)絡(luò)找到更有效的情緒特征,也是一個(gè)需要深入研究的問題。相信隨著計(jì)算機(jī)技術(shù)的發(fā)展,更快速更準(zhǔn)確的識(shí)別手段將被發(fā)現(xiàn)并應(yīng)用,人機(jī)交互的方式將更加便捷。

        猜你喜歡
        特征文本模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        特级毛片a级毛片免费播放| 婷婷色国产精品视频二区| 色欲网天天无码av| 午夜福利电影| 国产在视频线精品视频二代| 伊人久久大香线蕉av色婷婷| 人妻少妇-嫩草影院| 亚洲精品黑牛一区二区三区| 亚洲区偷拍自拍29p| 亚洲一区二区三区18| 少妇高潮惨叫久久久久电影69| 亚洲乱码av中文一区二区| 日本熟妇hd8ex视频| 日韩av在线手机免费观看| 欧美人与动性xxxxx杂性| 亚洲乱码日产精品bd在线观看| 青草青草久热精品视频国产4| 青青草手机视频免费在线播放 | 高清不卡av在线播放| 免费大片黄国产在线观看| 中文字幕无码家庭乱欲| 国产成人精品视频网站| 亚洲国产系列一区二区| 99久久久国产精品免费蜜臀| 日韩在线不卡免费视频| 东京热东京道日韩av| 欧美日韩午夜群交多人轮换| 久久午夜伦鲁片免费无码| 中文字幕午夜AV福利片| 亚洲国产天堂久久综合网| 超碰97资源站| 婷婷第四色| 国产自拍av在线观看| 免费人妻无码不卡中文字幕系| 亚洲无毛片| 亚洲大胆视频在线观看| 中国女人内谢69xxxxxa片| 厨房玩丰满人妻hd完整版视频| 青青草一级视频在线观看| 日韩av精品视频在线观看| 真人直播 免费视频|