戴禮榮 張仕良
(中國科學(xué)技術(shù)大學(xué)語音與語言信息處理國家工程實驗室,合肥,230027)
近年來深度學(xué)習(xí)[1-2]逐漸成為機器學(xué)習(xí)領(lǐng)域的研究熱點,與此同時,深度學(xué)習(xí)也在語音信號和信息處理研究領(lǐng)域受到重視并取得較成功的應(yīng)用,有可能給語音信號與信息處理研究領(lǐng)域帶來新的發(fā)展變化。
深度學(xué)習(xí)是指利用多層的非線性信號與信息處理技術(shù)進行有監(jiān)督或者無監(jiān)督以特征提取、信號轉(zhuǎn)換和模式分類等為目的的機器學(xué)習(xí)方法[3]。這里的深度是指采用深層的結(jié)構(gòu)[4]模型對信號和信息進行處理。傳統(tǒng)的機器學(xué)習(xí)模型,很多屬于淺層結(jié)構(gòu)模型,例如:隱馬爾科夫模型(Hidden Markov model,HMM)、線性或者非線性動態(tài)系統(tǒng)、條件隨機場(Conditional random fields,CRFs)、支持向量機(Support vector machines,SVMs)、單隱層的神經(jīng)網(wǎng)絡(luò)(Neural network,NN)等。這些淺層結(jié)構(gòu)模型的共同特點是對于原始的輸入信號只經(jīng)過較少層次(如一層)的線性或者非線性處理以達到信號與信息處理的目的。其優(yōu)點在于結(jié)構(gòu)簡單、易于學(xué)習(xí),而且在數(shù)學(xué)上有比較完善的算法。但是對于一些復(fù)雜的信號,采用淺層的結(jié)構(gòu)模型其表達能力具有一定的局限性,如淺層模型輸入和輸出中間是有限的線性或者非線性變換組合,所以并不能充分地學(xué)習(xí)到信號中復(fù)雜的結(jié)構(gòu)信息。而深層結(jié)構(gòu)的模型,由于其多層非線性變換的復(fù)雜性[5],具有更強的表達與建模能力,更適合于處理復(fù)雜類型的信號,如語音信號。
人類語音信號的產(chǎn)生和感知過程就是一個復(fù)雜的過程,而且在生物學(xué)上是具有明顯的多層次或深層次處理結(jié)構(gòu)[6]。所以,對于語音這種復(fù)雜信號,采用淺層結(jié)構(gòu)模型對其處理顯然有很大的局限性,而采用深層的結(jié)構(gòu),利用多層的非線性變換提取語音信號中的結(jié)構(gòu)化信息和高層信息,是更為合理的選擇。因此在近年深度學(xué)習(xí)研究領(lǐng)域取得一定進展的同時,很多的語音信號與信息處理研究領(lǐng)域的專家和學(xué)者對深度學(xué)習(xí)給予了極大的關(guān)注并開展了積極的研究,并在語音信號與信息處理一些主要研究方向取得了可喜的進展,包括:語音識別、語音合成、語音增強、語音轉(zhuǎn)換、語種識別等。
深度學(xué)習(xí)的概念最早起源于人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)的研究[7]。人工神經(jīng)網(wǎng)絡(luò)是機器學(xué)習(xí)與人工智能領(lǐng)域的一種模型[8],它的提出是為了模擬人類神經(jīng)系統(tǒng)對事物的認(rèn)知和學(xué)習(xí)能力。最早的神經(jīng)網(wǎng)絡(luò)是經(jīng)典的感知器[9]。由于感知器是單層網(wǎng)絡(luò)結(jié)構(gòu),處理能力有限,因此,多層感知器(Multilayer perceptron,MLP)被提出來。它是多個單層感知器的疊加,并采用連續(xù)非線性激活函數(shù)。由于多層感知器輸入到輸出之間是多層的非線性變換的組合,所以具有較強的表達能力。在深度學(xué)習(xí)的研究中,通常將具有兩個以上隱層的多層感知器稱為深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)。DNN模型參數(shù)可以通過誤差后向傳播算法(Back propagation,BP)[10]進行訓(xùn)練。由于DNN的各層激勵函數(shù)均為非線性函數(shù),模型訓(xùn)練中的損失函數(shù)是模型參數(shù)的非凸復(fù)雜函數(shù),這導(dǎo)致當(dāng)采用隨機初始化模型參數(shù)時,BP算法很容易陷入局部最優(yōu)解。DNN包含的隱層數(shù)越多這種現(xiàn)象越嚴(yán)重,從而導(dǎo)致DNN難以表現(xiàn)出其強大的表達和建模能力。直到2006年,Hinton等[1]提出一種采用無監(jiān)督的生成型模型——深度置信網(wǎng)絡(luò)(Deep belief network,DBN)來初始化深層神經(jīng)網(wǎng)絡(luò),一定程度上解決了上述的問題,使得其強大的學(xué)習(xí)和表達能力在機器學(xué)習(xí)中得以發(fā)揮。
近年來,深度學(xué)習(xí)理論研究及其在信號與信息處理領(lǐng)域應(yīng)用研究均是非常活躍的研究領(lǐng)域。近期有很多關(guān)于深度學(xué)習(xí)理論及其在信號和信息處理領(lǐng)域的應(yīng)用的專題研討會,如:ICASSP2013年關(guān)于“面向語音識別及其它應(yīng)用的新型深度神經(jīng)網(wǎng)絡(luò)”的專題研討會[11];2010,2011,2012年 NIPS關(guān)于“深度學(xué)習(xí)和無監(jiān)督特征提取”的研討會[12];ICML2011年關(guān)于“語音和視覺信息處理的學(xué)習(xí)構(gòu)架、表 達 和 優(yōu) 化 方 法 ”[13];2012 年 關(guān) 于 “表 達 學(xué)習(xí)”[14]以及2013年關(guān)于“深度學(xué)習(xí)應(yīng)用于音頻,語音及語言信息處理”[15]的研討會。也有一些該領(lǐng)域的專刊,如:英文期刊IEEE Transactions on Audio,Speech,and Language Processing,2012年1月關(guān)于“深度學(xué)習(xí)應(yīng)用于語音和語言信息處理”的??取?/p>
在Hinton等[16]提出的深層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)框架中,使用的是前饋型神經(jīng)網(wǎng)絡(luò)。模型的訓(xùn)練分為兩步:首先使用大量的沒有標(biāo)注的數(shù)據(jù)通過無監(jiān)督學(xué)習(xí)的算法來進行模型參數(shù)的初始化,這一步稱為預(yù)訓(xùn)練(Pre-training);然后使用較少量的標(biāo)注數(shù)據(jù),利用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法(如BP算法)來學(xué)習(xí)模型的參數(shù),這一步稱為模型精細(xì)調(diào)整(Fine-tuning)。其中Pre-training主要是通過逐層訓(xùn)練受限波爾茲曼機(Restricted Boltzmann machine,RBM)得到一個生成模型DBN;Finetuning過程是對DBN添加一個與DNN模型訓(xùn)練目標(biāo)相關(guān)的Softmax輸出層或線性回歸層,然后采用傳統(tǒng)的BP算法對模型參數(shù)進行精細(xì)的調(diào)整。
1.2.1 受限波爾茲曼機
RBM是一種包含可見層和隱含層的雙層圖模型,如圖1所示。
在給定模型參數(shù)θ={wij,bi,aj,i=1,…,M;j=1,…,N},可見層節(jié)點的狀態(tài)v和隱含層節(jié)點的狀態(tài)h時,RBM模型定義了一個能量分布函數(shù)E(v,h;θ)。當(dāng)所有節(jié)點變量服從伯努利分布時,稱為伯努利RBM,定義的能量函數(shù)
圖1 受限制玻爾茲曼機結(jié)構(gòu)圖Fig.1 Block diagram of restricted Boltzmann machine
對于可見層節(jié)點變量服從高斯分布,隱含層節(jié)點服從伯努利分布時,稱為高斯-伯努利RBM,定義的能量函數(shù)
RBM模型定義的聯(lián)合分布
RBM的模型參數(shù)可以通過最大似然準(zhǔn)則進行無監(jiān)督學(xué)習(xí)得到。訓(xùn)練的目標(biāo)函數(shù)為
對于目標(biāo)函數(shù)求偏導(dǎo),可以得到參數(shù)的更新公式為
式中Edata(vihj)是關(guān)于訓(xùn)練集數(shù)據(jù)的可見層和隱含層狀態(tài)的期望值。關(guān)于Emodel(vihj)的直接計算很困難。在文獻[17]中,Hinton給出了通過對比散度算法(Contrastive divergence,CD)近似計算的方法。
1.2.2 DBN-DNN
通過自下而上逐層訓(xùn)練RBM的方式可以堆積得到一個生成模型,即為DBN,如圖2左邊所示。
通常對于處理連續(xù)的信號如語音信號,最底層的RBM 采用的是高斯-伯努利RBM(Gaussian RBM,GRBM),對于二值的信號如二值化的圖像,最低層采用的是伯努利RBM。當(dāng)訓(xùn)練完第1個RBM后,其隱層的輸出可以用于訓(xùn)練第2個RBM;當(dāng)?shù)?個RBM訓(xùn)練完成后,其隱層的輸出可以用于訓(xùn)練第3個RBM,等。通過這種逐層訓(xùn)練的方式最終可以得到深度置信網(wǎng)絡(luò)DBN,如圖2所示。
采用無監(jiān)督的預(yù)訓(xùn)練得到的DBN模型是一個概率生成模型。當(dāng)把DBN應(yīng)用于分類等任務(wù)時需要在DBN的頂層添加一個Softmax輸出層,如圖2右邊圖所示,形成具有初始化網(wǎng)絡(luò)參數(shù)的DNN(連接Softmax輸出層網(wǎng)絡(luò)參數(shù)除外,該層參數(shù)通??呻S機初始化)。Softmax輸出層對應(yīng)DNN輸出目標(biāo)值,例如在語音識別任務(wù)中可是音節(jié)、音素、音素狀態(tài)等類別多選一編碼值。經(jīng)DBN初始化的DNN進一步通過傳統(tǒng)的BP算法對網(wǎng)絡(luò)參數(shù)進行精細(xì)的調(diào)整。通常該訓(xùn)練過程需要利用語音信號的標(biāo)注信息,訓(xùn)練過程所采用的目標(biāo)函數(shù)一般是最大化每個類別的后驗概率,所以該過程又稱為有監(jiān)督的區(qū)分性訓(xùn)練過程(Discriminative training,DT),簡稱為Fine-tuning。
圖2 DBN-DNN訓(xùn)練流程圖Fig.2 Flow chart of DBN-DNN training
本節(jié)介紹深度學(xué)習(xí)在語音識別方向的研究進展,包括 HMM-DNN聲學(xué)模型,大語音數(shù)據(jù)下HMM-DNN聲學(xué)模型訓(xùn)練及HMM-DNN聲學(xué)模型的說話人自適應(yīng)。
傳統(tǒng)的語音識別技術(shù)普遍采用的是HMMGMM(Gaussian mixture model)聲學(xué)模型。如引言所述,HMM-GMM聲學(xué)模型是一種淺層模型。最近,一種基于深度神經(jīng)網(wǎng)絡(luò)的稱為HMM-DNN聲學(xué)模型[16,18-21]被提出并成功應(yīng)用于語音識別,并且在多種語音識別任務(wù)上一致性地取得相比于傳統(tǒng)HMM-GMM聲學(xué)模型較大幅度的性能提升。HMM-DNN模型可簡單看作是用DNN模型代替HMM-GMM模型中的GMM模型。DNN相比于GMM的優(yōu)勢在于:(1)使用DNN估計 HMM 的狀態(tài)的后驗概率分布不需要對語音數(shù)據(jù)分布進行假設(shè);(2)DNN的輸入特征可以是多種特征的融合,包括離散或者連續(xù)的;(3)DNN可以利用相鄰的語音幀所包含的結(jié)構(gòu)信息。在文獻[22]中的研究表明,DNN的性能提升主要是歸功于第3點。基于此,在文獻[23-25]中采用 HMM-GMM-BN框架,即把DNN作為一種特征提取網(wǎng)絡(luò),利用DNN提取一種稱為瓶頸特征(Bottle neck feature,BN)的參數(shù)替代傳統(tǒng)的語音特征參數(shù),用于訓(xùn)練傳統(tǒng)的HMM-GMM。實驗結(jié)果表明基于HMM-GMM-BN框架的語音識別系統(tǒng)可以取得和HMM-DNN可比的性能。
HMM-DNN聲學(xué)模型中DNN網(wǎng)絡(luò)的激活函數(shù)通常都為sigmoid函數(shù)。而在文獻[26-27]中提出采用一種稱為ReLUs(Rectified linear units)激活函數(shù)代替sigmoid激活函數(shù)。兩種激活函數(shù)為
采用ReLUs激活函數(shù)的DNN,由于其復(fù)雜度降低,可以對其采用隨機初始化。實驗結(jié)果表明,使用ReLUs激活函數(shù)的DNN,不但可隨機初始化,而且可以取得更好的語音識別性能。
除HMM-DNN聲學(xué)模型外,深層卷積網(wǎng)絡(luò)(Convolutional neural network,CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)近期也被應(yīng)用于語音識別的聲學(xué)建模。文獻[28-30]研究了CNN用于語音識別的聲學(xué)建模。CNN采用局部濾波和最大池技術(shù),以期提取與語音譜峰頻率位移無關(guān)的語音特征參數(shù),從而提高對不同說話人的穩(wěn)健性。文獻[31]把CNN和ReLUs相結(jié)合用于語音的聲學(xué)建模,相比于CNN獲得了進一步的性能提升。文獻[32]嘗試了將RNN用于語音識別的聲學(xué)建模,在TIMIT語料庫上取得了目前最好的識別性能。但是RNN由于訓(xùn)練過程過于復(fù)雜,對初始化要求比較高,網(wǎng)絡(luò)訓(xùn)練非常耗時,所以到目前為止還沒有在大詞匯量連續(xù)語音識別(Large vocabulary continuous speech recognition,LVCSR)系統(tǒng)中得到成功運用。
盡管基于HMM-DNN的語音識別系統(tǒng)在大詞匯量連續(xù)語音識別任務(wù)中取得了相比于傳統(tǒng)的HMM-GMM系統(tǒng)顯著的性能提升[33-34]。但是DNN的訓(xùn)練是一個相當(dāng)耗時的工作。例如,即使通過GPU(Graphics processing unit)加速,訓(xùn)練一個在1 000h語音數(shù)據(jù)集上的普通的6隱層、隱層節(jié)點數(shù)為2 048的DNN,通常仍需要數(shù)周的時間。造成這種情況的潛在原因是DNN訓(xùn)練中的基本算法,隨機梯度下降算法(Stochastic gradient descent,SGD),收斂相對較慢,而且由于它本質(zhì)上是一個串行的算法,使得很難對SGD進行并行化。因此,如何提高在大語音數(shù)據(jù)下DNN的訓(xùn)練效率,是迫切需要解決的問題。
解決DNN訓(xùn)練效率的第一個可行的方法是通過利用DNN模型參數(shù)的稀疏性簡化模型結(jié)構(gòu)來提高訓(xùn)練效率。文獻[35]中,通過將DNN模型參數(shù)中80%的較小參數(shù)強制為0來減小模型大小,同時幾乎沒有性能損失。這個方法在減小模型大小方面很出色,但是由參數(shù)稀疏性帶來的高度隨機內(nèi)存訪問使得訓(xùn)練時間并沒有明顯減小。沿著這條路線,文獻[36]中,提出將DNN中權(quán)重矩陣分解為兩個低秩矩陣的乘積,從而達到30%~50%的效率提升。
解決DNN訓(xùn)練效率的另外一種方法是試圖通過使用多個CPU或者GPU來并行訓(xùn)練DNN。文獻[37-38]通過將訓(xùn)練數(shù)據(jù)分成許多小塊到不同的機器來計算更新矩陣,實現(xiàn)并行訓(xùn)練。類似地,文獻[39]在每遍迭代中,訓(xùn)練數(shù)據(jù)被分成N個不相交的子集,每個子集用來訓(xùn)練一個sub-MLP,最后這些sub-MLP通過另一個在其他子集上訓(xùn)練的合并網(wǎng)絡(luò)結(jié)合。文獻[40]把這種方式擴展到了上千個CPU核的計算集群,通過一種異步梯度下降(Asynchronous SGD)算法訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)。文獻[41]將異步梯度下降算法應(yīng)用到了多個GPU中。文獻[42]提出了一種管道式的BP算法,通過將DNN中不同層的計算分配到不同的GPU單元來取得并行訓(xùn)練的效果,在使用4塊GPU的情況下,該方法相對使用單個GPU訓(xùn)練取得了大約3.1倍的效率提升。然而,以上這些并行訓(xùn)練的方法都面臨著并行計算單元之間的通信開銷問題,即需要收集梯度數(shù)據(jù),重新分配更新后的模型參數(shù)以及在不同計算單元之間傳遞模型輸出值等。不同計算單元之間過于頻繁的數(shù)據(jù)傳遞,成為該類方法提升訓(xùn)練效率的主要瓶頸,尤其是當(dāng)模型較大而且并行計算單元較多時,這種現(xiàn)象更加明顯。為此,一種新的基于狀態(tài)聚類的多深層神經(jīng)網(wǎng)絡(luò)建模方法[43]被提出以實現(xiàn)DNN并行訓(xùn)練的目的。該方法通過將訓(xùn)練數(shù)據(jù)在狀態(tài)層面進行聚類,得到彼此狀態(tài)集不相交的子集。這種在狀態(tài)層面的訓(xùn)練數(shù)據(jù)劃分,避免了不同計算單元神經(jīng)網(wǎng)絡(luò)之間的數(shù)據(jù)傳遞,使得每個DNN可以完全獨立并行訓(xùn)練。SWB(Switchboard)數(shù)據(jù)集上實驗表明在使用4塊GPU,聚類數(shù)為4類的情況下,這種狀態(tài)聚類的多DNN方法取得了約4倍的訓(xùn)練效率提升。
一般來說,說話人無關(guān)聲學(xué)模型的識別性能比說話人相關(guān)聲學(xué)模型的識別性能要低。因此,隨著HMM-DNN模型在語音識別領(lǐng)域的成功應(yīng)用,基于HMM-DNN聲學(xué)模型的說話人自適應(yīng)技術(shù)正受到越來越多的關(guān)注。但可惜的是,傳統(tǒng)的HMM-GMM自適應(yīng)技術(shù)并不能直接應(yīng)用于HMM-DNN聲學(xué)模型的自適應(yīng),需要尋找新的適合HMM-DNN聲學(xué)模型自適應(yīng)方法。
HMM-DNN聲學(xué)模型自適應(yīng)最直接的方法是利用目標(biāo)說話人的數(shù)據(jù)直接訓(xùn)練更新已收斂的說話人無關(guān)DNN模型參數(shù)[44-45],但由于目標(biāo)說話人數(shù)據(jù)偏少及神經(jīng)網(wǎng)絡(luò)的“災(zāi)難性遺忘”特性[46],該方法非常容易出現(xiàn)過訓(xùn)練。為解決這一問題,研究人員從不改變或少量改變原有DNN模型參數(shù)的角度出發(fā)提出了很多行之有效的方法。文獻[47-48]分別提出了線性輸入網(wǎng)絡(luò)(Linear input network,LIN)和線性隱層網(wǎng)絡(luò)(Linear hidden network,LHN)方法。LIN方法在輸入特征和第一個隱層間增加了一個線性變換層,對于不同說話人分別估計不同的變換參數(shù),以減少不同說話人語音差異對識別性能的影響。LHN方法的思想與LIN方法類似,不同之處在于線性變換層被加在了最后一個隱層和輸出層之間。文獻[49]提出一種重訓(xùn)部分隱層單元(Retrained sub-set hidden units)的方法,在自適應(yīng)時該方法首先選擇隱層中的部分活躍節(jié)點,然后重新訓(xùn)練與這部分活躍節(jié)點相連接的權(quán)重參數(shù),由于需要訓(xùn)練的參數(shù)只是全部參數(shù)的子集,因此可以防止過訓(xùn)練的出現(xiàn)。文獻[50-51]則從另一個角度引入了一種基于正交厄米特多項式的隱層激活函數(shù)自適應(yīng)方法,該方法改變了隱層節(jié)點的激活函數(shù),通過對不同說話人估計不同的多項式系數(shù)來提升識別性能。以上方法主要針對隱層數(shù)較少的HMM-DNN模型進行了相關(guān)實驗,而對于隱層數(shù)較多的HMM-DNN聲學(xué)模型,以上自適應(yīng)方法所帶來的識別性能提升非常有限,甚至沒有提升。因此如何在隱層數(shù)目較多的DNN上進行自適應(yīng)是目前研究的難點。文獻[52]引入Kullback-Leibler距離來規(guī)整權(quán)重使得模型參數(shù)的調(diào)整在一個比較小的范圍內(nèi)進行,不至于偏離原說話人無關(guān)DNN網(wǎng)絡(luò)參數(shù)過多而引起過訓(xùn)練。文獻[53-54]提出一種基于說話人編碼(Speaker code,SC)的自適應(yīng)技術(shù);該方法通過引入所有說話人共享的自適應(yīng)變換網(wǎng)絡(luò)和每個說話人獨特的編碼表示來將說話人相關(guān)的聲學(xué)特征變換成為說話人無關(guān)的特征。訓(xùn)練時采用隨機梯度下降算法SGD,并使用所有訓(xùn)練數(shù)據(jù)訓(xùn)練所有說話人共享的自適應(yīng)變換網(wǎng)絡(luò),而當(dāng)對目標(biāo)說話人進行自適應(yīng)時,只需要利用目標(biāo)說話人部分?jǐn)?shù)據(jù)根據(jù)反向傳播誤差生成該說話人的編碼,而后與測試數(shù)據(jù)一同輸入到網(wǎng)絡(luò)中得到輸出層音素狀態(tài)后驗概率。該方法的優(yōu)點在于自適應(yīng)時所需估計的參數(shù)較少,可以避免過訓(xùn)練,其缺點是增加了較多額外的訓(xùn)練時間,在TIMIT數(shù)據(jù)集上的實驗顯示該方法可以取得10%的PER(Phone error rate)相對錯誤率下降。
基于HMM參數(shù)語音合成方法已成為當(dāng)前一種主流的語音合成方法。該方法的優(yōu)點是合成語音質(zhì)量穩(wěn)定性高,需要的存儲和計算資源較小,可以方便地進行音色等方面的調(diào)整;其缺點是相對于原始語音,音質(zhì)下降明顯。導(dǎo)致音質(zhì)下降的主要原因包括聲碼器性能的限制,聲學(xué)建模不夠精確,生成參數(shù)過平滑[55]。為改善基于HMM參數(shù)語音合成方法的合成語音質(zhì)量,近年有研究人員嘗試將深度學(xué)習(xí)引入語音合成技術(shù)。
Ling等[56-57]提出 HMM-RBM 和 HMM-DBN語音合成方法。該方法根據(jù)譜參數(shù)進行決策樹狀態(tài)聚類,每個狀態(tài)對應(yīng)的譜包絡(luò)數(shù)據(jù)分別訓(xùn)練對應(yīng)的RBM或DBN;合成階段采用RBM或DBN顯層概率密度函數(shù)的模式替代高斯均值。該方法的主要優(yōu)勢有:對相關(guān)性很強的高維譜包絡(luò)直接建模,更好地保留了頻譜細(xì)節(jié);通過RBM/DBN模型強大的建模能力,可以更好地擬合譜包絡(luò)的分布特性,減弱了合成語音的過平滑。主客觀實驗表明該方法合成語音的質(zhì)量優(yōu)于傳統(tǒng)的基于HMM參數(shù)合成方法。Zen等[58]提出一種基于DNN的語音合成方法,該方法在訓(xùn)練階段,利用DNN取代傳統(tǒng)基于HMM參數(shù)合成方法中的決策樹和GMM模型,建立語言學(xué)特征到聲學(xué)特征的映射關(guān)系;在合成階段直接用DNN預(yù)測值替換傳統(tǒng)方法的高斯均值,對應(yīng)的訓(xùn)練數(shù)據(jù)方差替換傳統(tǒng)方法中高斯模型的方差,進行參數(shù)生成。Kang等[56]提出了基于DBN的語音合成方法,該方法針對語音合成的特點提出MD-DBN(Multi-distribution deep belief network)。借助MD-DBN中不同類型的RBM可以同時對頻譜/基頻特征以及清濁信息建模,并估計音節(jié)和聲學(xué)特征的聯(lián)合概率分布。
語音增強作為語音信號處理的一個重要分支,從20世紀(jì)60~70年代就得到了廣泛的關(guān)注。語音增強的一個主要目標(biāo)是從帶噪語音信號中提取盡可能純凈的原始語音信號,提高語音信號的質(zhì)量、清晰度和可懂度。目前非平穩(wěn)噪聲語音增強仍是沒有很好解決的研究問題,可能的原因之一是目前語音增強方法或算法難以對語音譜在時頻域上的結(jié)構(gòu)化信息進行有效建模和利用。
由于深度學(xué)習(xí)中的RBM,DNN等模型擅長對數(shù)據(jù)中的結(jié)構(gòu)化信息進行建模,而且具有從數(shù)據(jù)的低層結(jié)構(gòu)化信息提取更高層的結(jié)構(gòu)化信息的能力。因此,將深度學(xué)習(xí)中的RBM,DNN等模型應(yīng)用于語音增強也是近年語音增強研究熱點之一。文獻[59]提出了一種基于理想二元時頻掩蔽估計的語音增強方法,該方法把語音增強問題轉(zhuǎn)化成用DNN估計理想二元時頻掩蔽估計的分類問題,如圖3所示。該方法對于低信噪比非平穩(wěn)語音增強可得到高可懂度的增強語音,但語音音質(zhì)損失嚴(yán)重。
圖3 基于分類深度神經(jīng)網(wǎng)絡(luò)的語音增強Fig.3 Block diagram of DNN classification based speech separation
文獻[60]提出了一種基于DNN的最小均方誤差回歸擬合語音增強方案,如圖4所示。
圖4 基于回歸深度神經(jīng)網(wǎng)絡(luò)的語音增強Fig.4 Block diagram of DNN-based speech enhancement system
該方法基于對數(shù)功率譜最小均方誤差準(zhǔn)則,通過DNN對帶噪語音和干凈語音間的復(fù)雜關(guān)系進行回歸擬合建模。實驗表明,多幀擴展對提升語音增強質(zhì)量和連續(xù)性有很大幫助,這也在某種程度上說明語音譜的結(jié)構(gòu)化信息對語音增強具有重要的作用。該語音增強方案還說明大語音數(shù)據(jù)訓(xùn)練能保證DNN較充分學(xué)習(xí)到噪聲語音譜和干凈語音譜之間復(fù)雜的非線性關(guān)系。類似的工作包括文獻[61]采用的一種堆疊式去噪自編碼器(Stacked denoise autoencoder)來進行語音增強的方法。
本文就深度學(xué)習(xí)在語音信號與信息處理領(lǐng)域的研究進展情況進行了較為詳細(xì)的介紹。首先介紹了深度學(xué)習(xí)的歷史以及DNN訓(xùn)練的基本原理和算法,然后重點介紹和討論了深度學(xué)習(xí)在語音信號與信息處理領(lǐng)域的語音識別、語音增強和語音合成研究方向的研究進展。相關(guān)研究進展表明,深度學(xué)習(xí)在語音信號與信息處理領(lǐng)域的主要課題方向均取得了較傳統(tǒng)方法一定的優(yōu)勢,已成為語音信號與信息處理領(lǐng)域新的研究熱點。
相比于傳統(tǒng)的HMM-GMM語音識別聲學(xué)模型,基于深度學(xué)習(xí)的HMM-DNN語音識別聲學(xué)模型在大詞匯量連續(xù)語音識別任務(wù)上已取得20%~30%的相對性能提升。深度學(xué)習(xí)在語音識別研究方向的進一步研究熱點可能包括:首先,由于DNN訓(xùn)練過程采用的是基于梯度下降的BP算法,阻礙了訓(xùn)練的并行化。當(dāng)在大語音數(shù)據(jù)上訓(xùn)練DNN模型時,所需時間在實際中有時難以忍受。目前關(guān)于如何加快模型的訓(xùn)練已經(jīng)取得了一定的進展,但是這些技術(shù)并沒有從本質(zhì)上解決網(wǎng)絡(luò)的訓(xùn)練耗時問題。所以在未來的研究中探索更有效的訓(xùn)練方法和算法將是有待進一步關(guān)注的研究問題。其次,探索如何設(shè)計訓(xùn)練算法使DNN模型參數(shù)收斂到識別性能更好的局部最優(yōu)點或甚而全局最優(yōu)點也是一個極其具有挑戰(zhàn)性的研究點。再者,在模型結(jié)構(gòu)上,基于RNN聲學(xué)模型的語音識別技術(shù)仍是值得進一步深入研究的方向,由于RNN能直接對語音信號時序性進行建模,所以,RNN可以完全替代HMM-GMM聲學(xué)模型,是一種對于語音信號與信息處理非常具有潛力的模型。最后,DNN-HMM的自適應(yīng)技術(shù)仍將是活躍的研究點,基于DNNHMM自適應(yīng)技術(shù)的研究尚處于起步階段,目前最有效的基于說話人編碼的自適應(yīng)技術(shù)仍存在諸多的有待完善之處,如說語人編碼并不具有真實地表達說話人聲紋信息的物理意義等。
深度學(xué)習(xí)在語音增強方面的進一步研究點可能包括:進一步提升對不包含在訓(xùn)練集噪聲環(huán)境下的語音增強性能;語音增強DNN模型對噪聲環(huán)境的自適應(yīng)問題;及進一步將深度學(xué)習(xí)應(yīng)用到多聲道語音增強等。目前深度學(xué)習(xí)在語音合成的應(yīng)用研究也只能算是一些初步的嘗試,進一步完善基于深度學(xué)習(xí)的語音合成技術(shù)還需要進一步深入的研究。這方面可能的研究點包括:尋找更適合語音合成的深層網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)生成方法;如何更好地基于深度學(xué)習(xí)進行基頻建模以及韻律建模,并將深度學(xué)習(xí)應(yīng)用到統(tǒng)計拼接語音合成中去;以及在實際應(yīng)用中如何解決采用深度神經(jīng)網(wǎng)絡(luò)完全取代傳統(tǒng)方法所帶來的運算量問題。關(guān)于深度學(xué)習(xí)在語音信號與信息處理領(lǐng)域的其他研究方向還包括:語種識別、說話人識別以及語音轉(zhuǎn)換等。深度學(xué)習(xí)在語種識別和語音轉(zhuǎn)換的研究目前已有了初步的進展,但是在說話人識別方向還未有成功運用的研究報道,因此,這方面的研究也值得關(guān)注。
[1] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural computation,2006,18(7):1527-1554.
[2] Arel I,Rose D C,Karnowski T P.Deep machine learning-A new frontier in artificial intelligence research[J].Computational Intelligence Magazine,IEEE,2010,5(4):13-18.
[3] Deng L.An overview of deep-structured learning for information processing[C]//Proc Asian-Pacific Signal and Information Processing-Annual Summit and Conference(APSIPA-ASC).Xi′an,China:[s.n.],2011.
[4] Bengio Y.Learning deep architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.
[5] Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1771-1800.
[6] Baker J,Deng L,Glass J,et al.Developments and directions in speech recognition and understanding,Part 1[J].Signal Processing Magazine,IEEE,2009,26(3):75-80.
[7] Yu D,Deng L.Deep learning and its applications to signal and information processing[J].Signal Processing Magazine,IEEE,2011,28(1):145-154.
[8] Hopfield J J.Neural networks and physical systems with emergent collective computational abilities[J].Proceedings of the National Academy of Sciences,1982,79(8):2554-2558.
[9] Orbach J.Principles of neurodynamics perceptrons and the theory of brain mechanisms[J].Archives of General Psychiatry,1962,7(3):218.
[10]Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors[J].Cognitive Modeling,2002,1:213.
[11]ICASSP.New types of deep neural network learning for speech recognition and its applications[EB/OL].http://www.icassp2013.com/SpecialSessions.asp,2013.
[12]NIPS.Deep learning and unsupervised feature learning[EB/OL].http://nips.cc/,2010-10-12.
[13]ICML.Learning architectures,representations,and optimization for speech and visual information processing[EB/OL].http://www.icml-2011.org/workshops.php,2011.
[14]ICML.Representation learning[EB/OL].http://icml.cc/2012/workshops/,2012.
[15]ICML.Deep learning for audio,speech,and lan-guage processing[EB/OL].http://icml.cc/2013/?page_id=41,2013.
[16]Mohamed A,Dahl G E,Hinton G.Acoustic modeling using deep belief networks[J].Audio,Speech,and Language Processing,IEEE Transactions on,2012,20(1):14-22.
[17]Hinton G.A practical guide to training restricted Boltzmann machines[J].Momentum,2010,9(1):926.
[18]Mohamed A,Dahl G E,Hinton G E.Deep belief networks for phone recognition[C]//NIPS Workshop on Deep Learning for Speech Recognition and Related Applications.Hyatt Regency Vancouver,Canada:[s.n.],2009:1-9.
[19]Sainath T N,Kingsbury B,Ramabhadran B,et al.Making deep belief networks effective for large vocabulary continuous speech recognition[C]//Automatic Speech Recognition and Understanding(ASRU),2011IEEE Workshop on.USA:IEEE,2011:30-35.
[20]Dahl G E,Yu D,Deng L,et al.Context-dependent pre-trained deep neural networks for large vocabulary speech recognition[J].Audio,Speech,and Language Processing,IEEE Transactions on,2012,20(1):30-42.
[21]Hinton G,Deng L,Yu D,et al.Deep neural networks for acoustic modeling in speech recognition:The shared views of four research groups[J].Signal Processing Magazine,IEEE,2012,29(6):82-97.
[22]Pan J,Liu C,Wang Z,et al.Investigation of deep neural networks(DNN)for large vocabulary continuous speech recognition:Why DNN surpasses GMMS in acoustic modeling[C]//Chinese Spoken Language Processing(ISCSLP),2012 8th International Symposium on.Hong Kong,China:IEEE,2012:301-305.
[23]Yu D,Seltzer M L.Improved bottleneck features using pretrained deep neural networks[C]//Interspeech.Florence,Italy:IEEE,2011:237-240.
[24]Bao Y,Jiang H,Dai L,et al.Incoherent training of deep neural networks to de-correlate bottleneck features for speech recognition[C]//ICASSP.British Columbia:IEEE,2013:6980-6984.
[25]Sainath T N,Kingsbury B,Ramabhadran B.Autoencoder bottleneck features using deep belief networks[C]//ICASSP.Kyoto:IEEE,2012:4153-4156.
[26]Dahl G E,Sainath T N,Hinton G E.Improving deep neural networks for lvcsr using rectified linear units and dropout[C]//ICASSP.British Columbia:IEEE,2013:8609-8613.
[27]Zeiler M D,Ranzato M,Monga R,et al.On rectified linear units for speech processing[C]//ICASSP.British Columbia:IEEE,2013:3517-3521.
[28]Abdel-Hamid O,Mohamed A,Jiang H,et al.Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition[C]//ICASSP.Kyoto:IEEE,2012:4277-4280.
[29]Abdel-Hamid O,Deng L,Yu D.Exploring convolutional neural network structures and optimization techniques for speech recognition[C]//Interspeech.Lyon:IEEE,2013.
[30]Sainath T N,Mohamed A,Kingsbury B,et al.Deep convolutional neural networks for LVCSR[C]//ICASSP.British Columbia:IEEE,2013:8614-8618.
[31]Tóth L.Convolutional deep rectifier neural nets for phone recognition[C]//Interspeech.Lyon:IEEE,2013:1722-1726.
[32]Graves A,Mohamed A,Hinton G.Speech recognition with deep recurrent neural networks[C]//ICASSP.British Columbia:IEEE,2013:6645-6649.
[33]Seide F,Li G,Yu D.Conversational speech transcription using context-dependent deep neural networks[C]//Interspeech.Florence,Italy:IEEE,2011:437-440.
[34]Dahl G E,Yu D,Deng L,et al.Large vocabulary continuous speech recognition with context-dependent DBN-HMMs[C]//ICASSP.Czech:IEEE,2011:4688-4691.
[35]Yu D,Seide F,Li G,et al.Exploiting sparseness in deep neural networks for large vocabulary speech recognition[C]//ICASSP.Kyoto:IEEE,2012:4409-4412.
[36]Sainath T N,Kingsbury B,Sindhwani V,et al.Low-rank matrix factorization for deep neural network training with high-dimensional output targets[C]//ICASSP.British Columbia:IEEE,2013:6655-6659.
[37]Kontár S.Parallel training of neural networks for speech recognition[C]//Proc 12th International Conference on Soft Computing.Zakopane:Brno University of Technology,2006:6-10.
[38]Vesely K,Burget L,Grézl F.Parallel training of neural networks for speech recognition[C]//Text,Speech and Dialogue.Berlin:Springer Berlin Heidelberg,2010:439-446.
[39]Park J,Diehl F,Gales M J F,et al.Efficient generation and use of MLP features for Arabic speech recognition[C]//Interspeech.Brighton:IEEE,2009:236-239.
[40]Le Q V,Ranzato M A,Monga R,et al.Building high-level features using large scale unsupervised learning[C]//ICASSP.British Columbia:IEEE,2013:8595-8598.
[41]Zhang S,Zhang C,You Z,et al.Asynchronous stochastic gradient descent for DNN training[C]//ICASSP.British Columbia:IEEE,2013:6660-6663.
[42]Chen X,Eversole A,Li G,et al.Pipelined backpropagation for context-dependent deep neural networks[C]//Interspeech.Protland:IEEE,2012:429-433.
[43]Zhou P,Liu C,Liu Q,et al.A cluster-based multiple deep neural networks method for large vocabulary continuous speech recognition[C]//ICASSP.British Columbia:IEEE,2013:6650-6654.
[44]Neto J,Almeida L,Hochberg M,et al.Speaker-adaptation for hybrid HMM-ANN continuous speech recognition system[J].IEEE Trans on Speech and Audio Processing,1995,9(2):171-185.
[45]Tüskea Z,Schlütera R,Neya H.deep hierarchical bottleneck mrasta feature for LVCSR[C]//ICASSP.British Columbia:IEEE,2013:6970-6974.
[46]French R M.Catastrophic forgetting in connectionist networks[J].Trends in cognitive sciences,1999,3(4):128-135.
[47]Neto J,Almeida L,Hochberg M,et al.Speaker-adaptation for hybrid HMM-ANN continuous speech recognition system[C]//Eurospeech.[S.l.]:IEEE,1995:2171-2174.
[48]Gemello R,Mana F,Scanzio S,et al.Linear hidden transformations for adaptation of hybrid ANN/HMM models[J].Speech Communication,2007,49(10):827-835.
[49]Stadermann J,Rigoll G.Two-stage speaker adaptation of hybrid tied-posterior acoustic models[C]//ICASSP.Philadelphia:IEEE,2005:977-980.
[50]Siniscalchi S M,Li J,Lee C H.Hermitian based hidden activation functions for adaptation of hybrid hmm/ann models[C]//Interspeech.Protland:IEEE,2012:366-369.
[51]Siniscalchi S M,Li J,Lee C H.Hermitian polynomial for speaker adaptation of connectionist speech recognition systems[J].Audio,Speech,and Language Processing,IEEE Transactions on,2013,21(10):2152-2161.
[52]Yu D,Yao K,Su H,et al.KL-divergence regularized deep neural network adaptation for improved large vocabulary speech recognition[C]//ICASSP.British Columbia:IEEE,2013:7893-7897.
[53]Ossama Abdel-Hamid,Jiang H.Fast speaker adaptation of hybrid NN/HMMmodel for speech recognition based on discriminative learning of speaker code[C]//ICASSP.British Columbia:IEEE,2013:1942-1946.
[54]Ossama Abdel-Hamid,Jiang H.Rapid and effective speaker adaptation of convolutional neural network based models for speech recognition [C]//Interspeech.Lyon:IEEE,2013.
[55]Zen H,Tokuda K,Black A W.Statistical parametric speech synthesis[J].Speech Communication,2009,51(11):1039-1064.
[56]Kang S,Qian X,Meng H.Multi-distribution deep belief network for speech synthesis[C]//ICASSP.Columbia,USA:IEEE,2013:8012-8016.
[57]Ling Z,Deng L,Yu D.Modeling spectral envelopes using restricted Boltzmann machines and deep belief networks for statistical parametric speech synthesis[J].Audio,Speech,and Language Processing,IEEE Transactions on.2013,21(10):2129-2139.
[58]Zen H,Senior A,Schuster M.Statistical parametric speech synthesis using deep neural networks[C]//ICASSP.British Columbia:IEEE,2013:7962-7966.
[59]Wang Y,Wang D.Towards scaling up classificationbased speech separation[J].IEEE Trans Audio,Speech,Lang.Process,2013,(99):1-23.
[60]Xu Y,Du J,Dai L,et al.An experimental study on speech enhancement based on deep neural networks[J].IEEE Signal Processing Letters,2014,21(1):65-68.
[61]Lu X G,Tsao Y,Matsuda S,at el.Speech enhancement based on deep denoising auto-encoder[C]//Proc Interspeech.Lyon:IEEE,2013:436-440.