徐海青,吳立剛,浦正國,韓 濤
(安徽繼遠(yuǎn)軟件有限公司,安徽合肥 230000)
基于客服中心的業(yè)務(wù)需求,智能客服的概念被隨之提出,隨著“互聯(lián)網(wǎng)+”、大數(shù)據(jù)、深度學(xué)習(xí)等技術(shù)的發(fā)展,智能錄音技術(shù)與大數(shù)據(jù)、云計(jì)算、人工智能結(jié)合應(yīng)用,可以使用海量的數(shù)據(jù)對錄音識別的聲學(xué)模型、語言模型進(jìn)行不間斷的訓(xùn)練,同時(shí)采用內(nèi)存計(jì)算、流計(jì)算等技術(shù)處理數(shù)據(jù)轉(zhuǎn)寫,將會大大提升智能錄音技術(shù)識別率,提高錄音數(shù)據(jù)的轉(zhuǎn)寫速度。但是目前客服中心的錄音工單都是單通道,其錄音識別的正確率受到很大影響,需要對單通道的錄音分離技術(shù)重點(diǎn)研究。在單通道錄音分離問題中,神經(jīng)網(wǎng)絡(luò)(DNN、RNN)被用來探索目標(biāo)信號與干擾信號之間的非線性關(guān)系以及使用深度集成學(xué)習(xí)和學(xué)習(xí)上下文相關(guān)信息,即多上下文網(wǎng)絡(luò),被發(fā)表在張小雷、王德良的研究工作中,體現(xiàn)深度學(xué)習(xí)方法對于獨(dú)立說話人無關(guān)的單通道語音分離問題的優(yōu)勢[1-5]。
本文假定說話人模型的i-vector距離直接影響說話人聚類的效果,通過實(shí)驗(yàn)也證明了這個(gè)假設(shè),同時(shí)天然地將男性和女性說話人聚成兩類,并進(jìn)一步的分別將男性和女性說話人聚成兩個(gè)子類,從而用來處理同性說話人混合的情況;通過擴(kuò)展說話人相關(guān)的DNN解決說話人無關(guān)問題,進(jìn)而提出了說話人無關(guān)的單通道錄音分離算法。
本文的設(shè)計(jì)基于DNN的錄音分離系統(tǒng)主要是解決單通道的錄音分離問題,為此,本文設(shè)計(jì)的系統(tǒng)存在兩個(gè)階段:前期的模型訓(xùn)練以及錄音分離。系統(tǒng)的過程如圖1所示,在訓(xùn)練階段,主要是利用提取的錄音對數(shù)功率譜特征訓(xùn)練聚類模型(通過說話人i-vector模型[5]距離的大小實(shí)現(xiàn)說話人的聚類)和基于聚類結(jié)果訓(xùn)練不同的DNN分離模型;在分離階段,先是構(gòu)造未知說話人測試集,并將提取的特征送入說話人組合檢測器,然后根據(jù)檢測器的判斷結(jié)果選擇對應(yīng)的分離器處理該混合錄音數(shù)據(jù)。
圖1 未知說話人的錄音分離系統(tǒng)
3.1.1 SSC數(shù)據(jù)庫
本文的測試和訓(xùn)練集合都是采用基于SSC數(shù)據(jù)庫(Coookie and Lee,2006)中的錄音數(shù)據(jù)來構(gòu)造的。
(1)訓(xùn)練集。在訓(xùn)練階段需要訓(xùn)練分離器和檢測器,前者使用200小時(shí)混合錄音,后者使用100小時(shí)的混合錄音數(shù)據(jù),數(shù)據(jù)分布如表1所示。
表1 訓(xùn)練數(shù)據(jù)集
(2)測試集。由于數(shù)據(jù)集中說話人有限,從M1,M2,F(xiàn)1,F(xiàn)2四個(gè)子類中分別挑選了3個(gè)說話人生成測試集,保證了測試集的說話人的不可預(yù)測性,具體如表2所示。
表2 測試數(shù)據(jù)集
(3)DNN訓(xùn)練。設(shè)定初始學(xué)習(xí)率為0.1,在前10次的迭代訓(xùn)練中學(xué)習(xí)率保持不變,再以學(xué)習(xí)率衰減0.1方式進(jìn)行40次迭代訓(xùn)練,訓(xùn)練集是包含128個(gè)樣本的最小批。DNN包含3個(gè)具有2048個(gè)節(jié)點(diǎn)的隱層,使用sigmoid激活函數(shù),輸入層為1700多個(gè)節(jié)點(diǎn),輸出層為514個(gè)節(jié)點(diǎn)。
3.2.1 說話人組合檢測結(jié)果
通過數(shù)據(jù)的測試,為了選擇合適的檢測器,基于包含40句男性和40女性的混合錄音開發(fā)集,測試GMM-UBM、CDNN、RDNN檢測器在相應(yīng)門限值的范圍內(nèi)?? [0.1,0.9],?? [ 0.59,0.69]和??[8,16]的檢測性能,結(jié)果如圖2所示。
由圖中可以發(fā)現(xiàn)基于開發(fā)集的RDNN最優(yōu)檢測率為94.73%,GMMUBM檢測器為79.14%、CDNN檢測器為92.0%,RDNN檢測器的檢測效果最好?;跍y試集,檢測率變化情況類似。RDNN檢測器也是最優(yōu)的高達(dá)94.75%。
3.2.2 錄音分離結(jié)果
在這一部分,通過在STOI指標(biāo)和PESQ指標(biāo)上對比基于DNN的說話人無關(guān)錄音分離系統(tǒng)和經(jīng)典的CASA。
異性說話人混合錄音分離結(jié)果:在表3中,對比了基于DNN的說話人無關(guān)錄音分離系統(tǒng)和CASA系統(tǒng)分離異性說話人時(shí)的PESQ和STOI結(jié)果。雖然RDNN檢測器存在一定的檢測錯(cuò)誤,但是對于這部分錯(cuò)誤檢測的語句使用不匹配的分離器進(jìn)行分離以后,最終的整體結(jié)果在所有的輸入信噪比條件下仍然要比CASA系統(tǒng)要好很多。
表3 PESQ和STOI結(jié)果對比表
本文提出的基于DNN的單通道錄音分離系統(tǒng),能夠?qū)崿F(xiàn)無先驗(yàn)信息的情況下單通道錄音的角色分離。本文在構(gòu)建檢測器時(shí),通過對比高斯混合-通用背景模型、分類深度神經(jīng)網(wǎng)絡(luò)檢測器和多輸出回歸深度神經(jīng)網(wǎng)絡(luò)檢測器三種檢測器的性能,選擇了性能最優(yōu)的RCNN檢測器。并在本文的最后實(shí)驗(yàn)證明了在對比STOI指標(biāo)和PESQ指標(biāo)上基于DNN的分離系統(tǒng)的分離效果優(yōu)于比經(jīng)典CASA系統(tǒng)。