鄭燕琳,楊曉炯,許星宇
(公安部第三研究所 上海 200031)
聲紋識別技術[1]是生物識別技術的一種,能夠識別說話人的身份。在電話語音中,目前單說話人聲紋識別有較高識別準確率,但是在實際應用中,說話人不可避免地會發(fā)生切換,或者由于設備的問題,不能將對話雙方的語音自動分離,從而使得輸入語音含有多個說話人,由于不能有效地將對話雙方的語音自動分離,直接影響到系統(tǒng)的識別性能。本文依據(jù)電話語音特點和系統(tǒng)實際運行效率提出電話語音中基于多說話人的聲紋識別系統(tǒng),有效解決電話語音聲紋識別在多說話人情況下的實際應用。
多說話人聲紋識別復雜性遠大于單一說話人的純凈語音,系統(tǒng)需從多說話人混合語音中提取出單人的純凈語音,用于聲紋識別系統(tǒng)的模型建立和比對識別。本文提出一種改進的語音分離技術——語音二次分離技術,在聲紋識別系統(tǒng)模型建立和比對識別模塊分別應用語音分離技術。同時,本文在系統(tǒng)實際應用中,根據(jù)實際運行效果和運行效率設定一些限定條件,以保證本系統(tǒng)的可行性。識別系統(tǒng)結構如圖1所示。
語音分離[2]是指從一段多人語音里將每個人語音分離出來,輸出結果為多人各自的單人語音。一般來說,語音分離包括兩個步驟:說話人分割和說話人聚類[3~5]。前者是指從多人語音中找到說話人身份發(fā)生變化的時間點;后者是指從多人語音中找出說話人的數(shù)目和每個說話人在什么時候說話,即按照語音段說話人的身份進行歸類。電話語音聲紋系統(tǒng)實際應用中,我們目前只分離包含兩個說話人的電話語音,兩人語音也是目前電話語音實際應用最常遇到的,3人以上語音分離效果比較差,實際使用中很少遇到,予以排除。本系統(tǒng)的多說話人語音分離都指兩個說話人語音分離。語音分離結構如圖2所示。
以往的語音分離算法有基于距離度量的分割聚類算法和基于模型搜索的分割聚類算法。前者是利用一定的距離度量準則來判斷兩段語音是屬于同一個說話人還是屬于不同的說話人,其有一定的應用局限性,對于不同的應用場景或說話人,需要設定不同的閾值;后者是利用得到的說話人模型來對原始多人語音按窗進行搜索,以便找出該話者發(fā)音的時間信息,這種算法用時長,初始模型訓練選擇的語音段不恰當會導致最后分割聚類的結果不好。本系統(tǒng)將兩者有效結合起來,在基于UBM的說話人分割聚類算法[6]基礎上提出二次語音分離技術,速度快,可取得較好效果。二次語音分離流程如圖3所示。
圖1 識別系統(tǒng)結構框圖
圖2 語音分離結構框圖
圖3 二次語音分離流程圖
基于UBM的說話人分割聚類算法包括3個步驟:初始分割采用UBM上的對數(shù)似然比分來作為電話交談語音分割的一種度量準則,并利用BIC來對分割后的語音段進行合并判決,以降低算法的分割錯誤率;聚類階段使用了說話人模型間的分數(shù)差來作為一種將語音段按說話人身份進行歸類的判斷準則;最后重分割降低初始分割時產(chǎn)生的漏檢錯誤。此算法通過重分割雖然能降低分割點錯誤,但分割點錯誤處往往夾雜其他人的大段語音,類純度不高,影響最終比對識別結果。本系統(tǒng)在前者分割聚類后的語音基礎上進行語音二次分離,步驟如下。
(1)對UBM的說話人分割聚類后得到的語音建立模型 A、模型 B。
(2)分別對前者分割聚類后的語音進行分窗處理,使用的窗長為0.4 s,窗移為0.2 s。
(3)分窗后,對每窗語音計算在模型 A、模型 B下的ΔSiAB=L(Xi|SA)-L(Xi|SB),
①如果 ΔSiAB大于 0且 ΔSi+1AB大于 0,則該窗屬于模型A;
②如果 ΔSiAB小于 0且 ΔSi+1AB小于 0,則該窗屬于模型B;
③否則認為i窗語音屬于兩說話人混合區(qū)域,去掉該窗語音。
其中,ΔSiAB是i窗語音對于模型A和模型B的似然比分,ΔSi+1AB是i+1窗語音對于模型A和模型 B的似然比分,L(Xi|SA)和L(Xi|SB)分別為i窗語音在兩模型上的似然得分。
通過在第一次語音分離的基礎上進行二次分離,可進一步提高說話人純度,提高比對識別準確率。
本系統(tǒng)根據(jù)實際運行效果和運行效率設定如下限定條件,以保證系統(tǒng)運行可行性。
·輸入有效語音少于3 s,系統(tǒng)認為輸入語音太短,影響后期識別效果,自動去除,分離后無輸出語音。
·輸入有效語音少于15 s,常常只含單個人說話語音,系統(tǒng)自動認為為一個說話人,分離輸出一條語音。
·輸入語音信噪比小于15 dB,處理為噪聲,去噪過程中去除。
電話語音聲紋識別系統(tǒng)實際應用時,用于建模語音有單說話人和多說話人兩種情況,系統(tǒng)無人監(jiān)守,無法對單人語音和多人語音通過人為方式區(qū)分處理。通過實際應用測試,本系統(tǒng)提出對輸入的語音全部進行語音分離,分離后人工選擇所需語音,系統(tǒng)提供語音人工編輯功能,可依據(jù)實際需要選擇是否人工編輯語音,之后將語音建立模型入庫。多說話人模型建立結構如圖4所示。
筆者認為,模型質(zhì)量對系統(tǒng)聲紋識別準確率影響非常大,建議在建立模型時,為了保證模型的質(zhì)量,對系統(tǒng)語音自動分離后所選建模語音人為干預,手工編輯。
本系統(tǒng)比對識別模塊,對輸入用于比對語音不分單說話人和多說話人,前端都進行語音分離,分離后兩條語音無需處理,分別自動與庫中模型進行比對識別,得到兩個識別結果,匹配分數(shù)靠前者可作為最終結果參考。本系統(tǒng)此過程全程無人為干預,語音自動分離、自動比對識別,滿足實際應用的需要。多說話人比對識別結構如圖5所示。
本系統(tǒng)實際應用中,采用計算機Intel Core2 CPU,2 GB內(nèi)存,語音數(shù)據(jù)為實際獲取包含單說話人和多說話人的電話語音,語音覆蓋男、女聲音和CDMA、PSTN、GSM電話信道,語音包含彩鈴、回鈴音和各種環(huán)境噪音。語音共150條,選自15個說話人語音數(shù)據(jù),每條語音時長2 min左右;3個電話信道各50條語音,各選自5個說話人語音,其中單說話人語音20條,多說話人語音30條。
圖4 多說話人模型建立結構框圖
圖5 多說話人比對識別結構框圖
測試本系統(tǒng)3個性能指標:語音分離準確率、系統(tǒng)比對識別準確率和系統(tǒng)比對效率,模型語音在語音二次分離后未經(jīng)人工編輯直接建模。采用“類純度”、“等錯率”和“比對實時率”3個得分作為本系統(tǒng)測試的評測指標。類純度指的是語音分離后,分離得到某個說話人中確實屬于該說話人的語音幀數(shù)占所有語音幀數(shù)的比例,該值越大,分離效果越好;等錯率指的是錯誤接受率和錯誤拒絕率相等時的錯誤率,該值越小,識別性能越好;比對實時率指的是單位時間內(nèi)能夠比對的有效語音數(shù)據(jù)長度,該值越大,比對速度越快。測試結果見表1、表2和表3。
表1 多說話人語音二次分離類純度
表2 電話語音基于多說話人聲紋識別系統(tǒng)識別等錯率
表3 電話語音基于多說話人聲紋識別系統(tǒng)比對實時率
從表1~3中可以看到,本系統(tǒng)在實際多說話人電話語音應用中,語音分離準確率達到85.8%,比對識別等錯率低于20%,實時速度接近10。分離效果、比對識別效果基本滿足應用要求。
本系統(tǒng)在電話語音單說話人聲紋識別系統(tǒng)的基礎上,研究多說話人聲紋識別的實際應用,提出了在原有語音分離算法上改進的語音二次分離技術,并在系統(tǒng)模型建立和比對識別階段策略性的應用語音二次分離技術,有效解決了電話語音多說話人聲紋識別技術的應用,并在實際應用中取得了較好的效果。
1 Lawrence R.語音識別基本原理.北京:清華大學出版社,1999
2 李從清,孫立新,龍東等.語音分離技術的研究現(xiàn)狀與展望.聲學技術,2008,27(5):779~787
3 張薇,劉加.電話語音的多說話人分割聚類研究.清華大學學報(自然科學版),2008,48(4):575~578
4 何磊.語音識別中的說話人魯棒性和自適應技術研究.清華大學計算機系博士學位論文,2001
5 Jing Deng,Thomas Fang Zheng,Wenhu Wu.UBM based speaker segmentation and clustering for 2-speaker detection.ISCSLP 2006
6 鄧菁.電話信道下多說話人識別研究.清華大學計算機系博士學位論文,2006