(長安大學(xué) 陜西 西安 710000)
深度神經(jīng)網(wǎng)絡(luò)(DNNs)廣泛應(yīng)用于特征提取器[1]和語音處理系統(tǒng)中[2]。盡管DNNs常在大型數(shù)據(jù)庫上訓(xùn)練,由于訓(xùn)練和測試數(shù)據(jù)之間不匹配的條件,導(dǎo)致在輸入特性空間中學(xué)習(xí)可變因素的性能顯著的下降[3]。為了減少在訓(xùn)練和測試數(shù)據(jù)中可變因素的不匹配情況,在DNNs中常使用揚(yáng)聲器適應(yīng)?;诰€性變換的自適應(yīng)方法將依賴條件的線性層附加到原始模型。在子空間技術(shù)中,通過改變原模型中DNN的權(quán)重子集來完成適應(yīng),這能避免過度擬合。本文在不改變基礎(chǔ)學(xué)習(xí)模型的前提下提出了HVS技術(shù),對訓(xùn)練和測試的變化進(jìn)行適應(yīng)。在HVS中,估計(jì)不同條件參數(shù)后,重新將自適應(yīng)訓(xùn)練權(quán)重組合到DNN層。除了標(biāo)準(zhǔn)的聲學(xué)特征外,還包括話語信息。此方法被稱為話語(UaT)。UaT使DNNs能夠利用額外的信息來改變話語規(guī)范的模型參數(shù)。通過使用這些特征,可以更有效地捕捉到話語條件。使用這些特性來學(xué)習(xí)HVS(圖1中的M),通過轉(zhuǎn)換隱藏層表示來提供信道和噪聲條件的附加信息。本文方法定義了一種新的子空間,該子空間基于域不變低可變性特征空間來學(xué)習(xí)特征變換。
該方法與CAT(使用適應(yīng)性訓(xùn)練)有相似性,即共享在訓(xùn)練的原權(quán)重,但在HVS中,每個(gè)測試話語的權(quán)重都進(jìn)行了調(diào)整,而在CAT中,權(quán)重參數(shù)是通過將每個(gè)類的權(quán)重組合起來形成的。此外,將我們的方法與其他DNN的適應(yīng)方法進(jìn)行比較,主要在表示附加信息的結(jié)構(gòu)和訓(xùn)練過程中是有差別的。然而,在本文中,引入了一個(gè)參數(shù)基權(quán)矩陣表示話語/條件變化空間。信息作為一種插值矢量,將原有的基礎(chǔ)模型轉(zhuǎn)化為一種適應(yīng)性的模型。
圖1
圖2 訓(xùn)練和測試數(shù)據(jù)的比較
圖1 訓(xùn)練和測試域都使用無監(jiān)督變換映射到潛在空間。度量M是最小化不匹配,并最大化DNN中樣本之間的鑒別能力。用虛線橢球表示域分布。學(xué)習(xí)計(jì)劃是非線性的。
提出的HVS:如圖1所示。由許多隱藏層組成的DNN。任何隱藏的輸出層,由前一個(gè)隱層輸出決定:
hl=H(Wlh-1+bl)
(1)
其中和分別為權(quán)重矩陣和偏置向量。H為激活函數(shù)。HVS適應(yīng)采用了一個(gè)依賴于條件的轉(zhuǎn)換,由現(xiàn)有的權(quán)重 (1)上的第l層上的表示依賴的(UD) 矩陣,如下所示:
hl=H(WlQlhl-1+bl)
(2)
通過引入了大量的UD參數(shù)估計(jì)整個(gè)矩陣,因此通過在訓(xùn)練過程中對進(jìn)行對角線的約束來減少話語表達(dá)。對角元素中的pl表現(xiàn)如下:
pl=H(Mlw+φl)
(3)
w是一個(gè)的特征向量。對于層l,Ml是定義的子空間,φl是殘差。pl是參數(shù)值估計(jì)的使用數(shù)據(jù)。w從DNN訓(xùn)練中提取。此外,添加一個(gè)非線性激活H在(3)。此外,可以提高學(xué)習(xí)pl,使原款模型可伸縮。
實(shí)驗(yàn)裝置:雖然HVS有許多可能的應(yīng)用。但不匹配情況嚴(yán)重影語言識別(LID): 自動(dòng)識別給定語音片段的語言。LID用不同的適應(yīng)技術(shù)來減少由于各種情況變化所引起的訓(xùn)練和測試數(shù)據(jù)之間的不匹配情況。即使有足夠的數(shù)據(jù),當(dāng)測試時(shí),話語持續(xù)時(shí)間也很短。短時(shí)間的話語是最受影響的。實(shí)驗(yàn)主要目的是為了說明與匹配的條件相比,HVS在不匹配的條件下更有效。
結(jié)果與分析:圖2展示了在(2)和(3)所提議的韓語轉(zhuǎn)換前和后的DNN的隱藏層輸出的分布情況。理想情況下,訓(xùn)練(藍(lán)/左)和測試(棕色/右)特征分布應(yīng)該在訓(xùn)練和測試條件匹配的情況下重疊。在比較圖2 a(轉(zhuǎn)換之前)和b(在對韓語進(jìn)行HVS轉(zhuǎn)換后)時(shí),圖2b中的特征分布重疊更大,這意味著適應(yīng)性有助于克服訓(xùn)練和測試話語中特征向量之間的分布不匹配。KL散度是由訓(xùn)練和測試話語中兩個(gè)分布的BLSTM(改進(jìn)的雙向長期短期記憶結(jié)構(gòu))輸出特征向量的分布計(jì)算出來的。KL散度在變換前后的結(jié)果值分別為0.7084和0.2489,說明變換后的空間存在較低的失配。類似地,分析了所有其他語言的KL散度。當(dāng)訓(xùn)練和測試數(shù)據(jù)不匹配時(shí),HVS轉(zhuǎn)換更有效。
表1描述了BLSTM系統(tǒng)的基線性能,以及通過附加的HVS轉(zhuǎn)換可以獲得的增益。可以看到,HVS顯著提高了1 s的持續(xù)時(shí)間(從73.2到79.1),容易受到不匹配條件的影響。與“匹配”的語言相比,細(xì)分在“不匹配”的條件語言(日語、俄語和韓語)中是非常重要的(14.92)。
結(jié)論
本文提出了不匹配適應(yīng)的HVS適應(yīng)方法。HVS方法估計(jì)了一個(gè)語音相關(guān)的參數(shù),并使用新引入的自適應(yīng)訓(xùn)練權(quán)重連接到DNN層。我們已經(jīng)在AP17-OLR 1s持續(xù)任務(wù)上評估了HVS方法,并表明它可以捕獲訓(xùn)練和測試的可變性。實(shí)驗(yàn)結(jié)果表明,HVS的學(xué)習(xí)優(yōu)于標(biāo)準(zhǔn)的BLSTM系統(tǒng),通過使用信道/噪聲條件的額外信息來實(shí)現(xiàn)語音語調(diào)的隱式特征化。
【參考文獻(xiàn)】
[1]Richardson, F., Reynolds, D., and Dehak, N.: ‘A unified deep neural network for speaker and language recognition’, arXiv preprint arXiv:1504.00923, 2015
[2]Fernando, S., Sethu, V., Ambikairajah, E., et al.: ‘Bidirectional modelling for short duration language identification’. Presented at the Interspeech 2017, Sweden, 2017
[3]Fainberg, J., Renals, S., and Bell, P.: ‘Factorised representations for neural network adaptation to diverse acoustic environments’.Presented at the Interspeech 2017,2017