張翠玲, 丁 盼
(1.西南政法大學(xué)刑事偵查學(xué)院, 重慶 401120; 2.重慶高校刑事科學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室, 重慶 401120)
法庭說(shuō)話人識(shí)別是指對(duì)案件中的未知語(yǔ)音(也稱檢材語(yǔ)音)和嫌疑人語(yǔ)音(也稱樣本語(yǔ)音)進(jìn)行比較鑒別,來(lái)推斷二者的同源性,進(jìn)而為法庭提供線索和證據(jù)的一門技術(shù)[1]。法庭說(shuō)話人識(shí)別技術(shù)是說(shuō)話人識(shí)別技術(shù)在司法領(lǐng)域中的應(yīng)用。隨著語(yǔ)音自動(dòng)識(shí)別技術(shù)和說(shuō)話人自動(dòng)識(shí)別技術(shù)的飛速發(fā)展,這些自動(dòng)識(shí)別技術(shù)和方法也被借鑒到司法語(yǔ)音領(lǐng)域,但是與一般應(yīng)用場(chǎng)景的說(shuō)話人自動(dòng)識(shí)別技術(shù)不同,法庭說(shuō)話人自動(dòng)識(shí)別由于其應(yīng)用場(chǎng)景的特殊性,在語(yǔ)音數(shù)據(jù)、識(shí)別方法和框架體系上均具有自身的獨(dú)特性。
隨著語(yǔ)音識(shí)別技術(shù)進(jìn)入了深度學(xué)習(xí)時(shí)代,法庭說(shuō)話人識(shí)別技術(shù)也迎來(lái)了技術(shù)革新,即由傳統(tǒng)的、以專家主觀檢驗(yàn)為主的聽(tīng)覺(jué)感知、圖譜比較和聲學(xué)-語(yǔ)音學(xué)方法向更加高效、省力及客觀的自動(dòng)識(shí)別方法轉(zhuǎn)變。由傳統(tǒng)的基于人工專家檢驗(yàn)的聲學(xué)-語(yǔ)音學(xué)識(shí)別發(fā)展為專家監(jiān)督下的法庭說(shuō)話人自動(dòng)識(shí)別是司法語(yǔ)音領(lǐng)域的技術(shù)進(jìn)步和發(fā)展方向。但是,無(wú)論使用傳統(tǒng)的說(shuō)話人識(shí)別方法,還是自動(dòng)說(shuō)話人識(shí)別方法,檢驗(yàn)識(shí)別的程序方法和結(jié)果都應(yīng)滿足法庭對(duì)證據(jù)的科學(xué)性要求[2-3]。近年來(lái),基于似然比框架的法庭語(yǔ)音證據(jù)評(píng)價(jià)體系在國(guó)際上逐漸得到了普遍認(rèn)可和實(shí)施[4-6],因?yàn)橐愿怕试u(píng)價(jià)為基礎(chǔ)的似然比框架方法不僅更符合法庭統(tǒng)計(jì)推理的邏輯規(guī)則,而且可以對(duì)證據(jù)的價(jià)值及其所使用方法系統(tǒng)的準(zhǔn)確性和可靠性進(jìn)行客觀的量化評(píng)估。
國(guó)際上,關(guān)于法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的驗(yàn)證程序與方法已存在部分成果。Morrison和Enzinger基于似然比框架體系制定了統(tǒng)一的系統(tǒng)性能評(píng)價(jià)規(guī)則,并提供了一個(gè)反映現(xiàn)實(shí)案件條件的法庭語(yǔ)音數(shù)據(jù)庫(kù),組織多個(gè)實(shí)驗(yàn)室開(kāi)展了法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的性能驗(yàn)證測(cè)試[7]。參與驗(yàn)證測(cè)試的9個(gè)自動(dòng)識(shí)別系統(tǒng)采用的算法模型主要包括高斯混合通用背景模型GMM-UBM(Gaussian Mixed Model-Universal Background Model)、i-vector PLDA(Identification Vector -Probabilistic Linear Discriminant Analysis)模型和深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)模型。驗(yàn)證結(jié)果表明,基于i-vector PLDA的系統(tǒng)識(shí)別性能優(yōu)于GMM-UBM系統(tǒng),而基于DNN模型的系統(tǒng)識(shí)別性能最佳[8]。最近,來(lái)自十幾個(gè)國(guó)家的司法語(yǔ)音專家就法庭說(shuō)話人識(shí)別的驗(yàn)證方法發(fā)表了共識(shí)聲明,倡導(dǎo)在似然比統(tǒng)一框架內(nèi),基于能夠反映案件現(xiàn)實(shí)條件的語(yǔ)音數(shù)據(jù)庫(kù)開(kāi)展法庭說(shuō)話人識(shí)別的方法系統(tǒng)驗(yàn)證[9]。
在國(guó)內(nèi),基于似然比方法的法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的性能評(píng)價(jià)研究正在不斷推進(jìn)。王華朋等基于似然比框架體系提出了一種基于GMM-UBM模型的法庭自動(dòng)說(shuō)話人識(shí)別系統(tǒng)改進(jìn)方法,通過(guò)以小型參考背景人群模型代替UBM的方法,降低了識(shí)別系統(tǒng)對(duì)嫌疑人語(yǔ)音樣本數(shù)量的需求[10]。除此之外,王華朋和張翠玲使用GFCC(Gammatone Frequency Cepstral Coefficient)特征與主成分分析方法,對(duì)基于似然比框架的法庭說(shuō)話人識(shí)別系統(tǒng)的抗噪特性進(jìn)行了探究[11]。近幾年,張翠玲團(tuán)隊(duì)使用似然比證據(jù)評(píng)價(jià)體系分別對(duì)基于LPCC、MFCC等語(yǔ)音自動(dòng)識(shí)別參數(shù)的說(shuō)話人識(shí)別系統(tǒng)性能進(jìn)行了探索[12-14],并在現(xiàn)實(shí)案件條件下對(duì)法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)進(jìn)行了系列驗(yàn)證測(cè)試[15-16]。這些研究為國(guó)內(nèi)法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的改進(jìn)提升提供了重要參考依據(jù)。
綜合來(lái)看,國(guó)內(nèi)在法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的研究方面已經(jīng)取得了很大進(jìn)步,但是由于案件場(chǎng)景的多樣性和復(fù)雜性,還需要對(duì)更多的場(chǎng)景數(shù)據(jù)和模型系統(tǒng)進(jìn)行驗(yàn)證測(cè)試和比較研究。為了客觀評(píng)價(jià)說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的準(zhǔn)確性和可靠性,同時(shí)滿足自動(dòng)識(shí)別系統(tǒng)模型訓(xùn)練的大量數(shù)據(jù)需求,本研究選用牛津大學(xué)在2017年和2018年發(fā)布的開(kāi)源音視頻數(shù)據(jù)集VoxCeleb1[17]和VoxCeleb2[18]作為自動(dòng)識(shí)別系統(tǒng)的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),利用深度神經(jīng)網(wǎng)絡(luò)方法提取語(yǔ)音特征,并構(gòu)建了基于d-vector PLDA模型的法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng),然后基于似然比證據(jù)評(píng)價(jià)體系對(duì)法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的性能進(jìn)行驗(yàn)證測(cè)試。利用開(kāi)源數(shù)據(jù)集進(jìn)行測(cè)試不僅可以保證數(shù)據(jù)的透明性和多樣性,而且便于不同系統(tǒng)間的橫向比較,有利于推動(dòng)法庭說(shuō)話人自動(dòng)識(shí)別技術(shù)的進(jìn)步與發(fā)展。
首先對(duì)全部音頻進(jìn)行語(yǔ)音活性檢測(cè)(Voice Activity Detection,VAD),逐幀判斷音頻是否屬于人聲,將所有音頻區(qū)分為語(yǔ)音段和非語(yǔ)音段。然后,在語(yǔ)音段上提取23維的FBank(Filter Banks)特征,提取的幀長(zhǎng)為25 ms,幀移為10 ms。
使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)提取說(shuō)話人身份向量時(shí),一般使用FBank作為前端特征。FBank特征的提取步驟與MFCC特征基本一致,需要經(jīng)過(guò)預(yù)加重、分幀、加窗、短時(shí)傅里葉變換(Short-term Fourier Transform,STFT)、Mel濾波、去均值等操作,MFCC特征的獲取則需要在Fbank特征的基礎(chǔ)上進(jìn)行離散余弦變換(Discrete Cosine Transform,DCT)。因此相較于MFCC特征,F(xiàn)Bank特征的獲取計(jì)算量更小,且包含更多信息,特征相關(guān)性更高,更適合在深度神經(jīng)網(wǎng)絡(luò)模型中作為輸入特征使用。
近些年,基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建說(shuō)話人識(shí)別模型已經(jīng)成為主流選擇。隨著技術(shù)的不斷發(fā)展,法庭說(shuō)話人自動(dòng)識(shí)別中使用的特征參數(shù)和模型算法也在不斷更新。從高斯混合通用背景模型(GMM-UBM)[19]到分別對(duì)說(shuō)話人和信道空間建模的聯(lián)合因子分析(JFA)[20],以及使用全局差異空間代替本征空間和信道空間的i-vector向量[21],再到基于深度神經(jīng)網(wǎng)絡(luò)提取能夠表征說(shuō)話人特征的embedding,如j-vector[22]、d-vector[23]和x-vector[24-25]等,法庭說(shuō)話人自動(dòng)識(shí)別技術(shù)已經(jīng)進(jìn)入了深度學(xué)習(xí)時(shí)代。Variani研究了深度神經(jīng)網(wǎng)絡(luò)(DNN)在小型文本相關(guān)的說(shuō)話人驗(yàn)證任務(wù)的應(yīng)用,發(fā)現(xiàn)相較于i-vector向量特征,基于DNN的d-vector說(shuō)話人識(shí)別模型在說(shuō)話人識(shí)別方面表現(xiàn)出了更好的性能[23]。
基于此,本文選用基于深度神經(jīng)網(wǎng)絡(luò)的d-vector說(shuō)話人識(shí)別模型。系統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選用時(shí)延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network,TDNN)[26],一方面因?yàn)槎鄬拥腡DNN具有較強(qiáng)的抽象能力,另一方面在于其能夠使網(wǎng)絡(luò)學(xué)習(xí)到語(yǔ)音信號(hào)的時(shí)序性結(jié)構(gòu)信息。d-vector是一種句子級(jí)別(utterance-level)的深度說(shuō)話人識(shí)別向量,由深度網(wǎng)絡(luò)的特征提取層(隱藏層)輸出幀級(jí)別的說(shuō)話人特征,并以合并平均的方式得到句子級(jí)別表示的向量特征。本文中d-vector的獲取是在深度神經(jīng)網(wǎng)絡(luò)模型中使用標(biāo)準(zhǔn)前饋傳播計(jì)算最后一個(gè)隱藏層的輸出激活值,再將激活值累積起來(lái)后得到。選用全連接層中的最后一個(gè)隱藏層輸出embedding而未使用softmax輸出層,其原因在于輸出層的減少可以有效縮減DNN模型的規(guī)模并縮短運(yùn)行時(shí)間,且最后一個(gè)隱藏層的輸出特征可以更好地概括未知說(shuō)話人的特征。
基于深度神經(jīng)網(wǎng)絡(luò)的d-vector向量提取過(guò)程見(jiàn)圖1。
圖1 基于DNN的d-vector特征提取
系統(tǒng)使用概率線性判別分析(Probabilistic Linear Discriminant Analysis,PLDA)進(jìn)行降維和信道補(bǔ)償。PLDA是概率形式的線性判別分析(Linear Discriminant Analysis,LDA)[27],它既是一種降維方法,也是一種信道補(bǔ)償方法,而且其信道補(bǔ)償能力相較于LDA更優(yōu)。PLDA自適應(yīng)可以補(bǔ)償實(shí)際數(shù)據(jù)與已經(jīng)訓(xùn)練模型中聲學(xué)條件不匹配的問(wèn)題,從而進(jìn)一步提升識(shí)別性能。
在說(shuō)話人識(shí)別中,假設(shè)訓(xùn)練語(yǔ)音數(shù)據(jù)由m個(gè)說(shuō)話人的語(yǔ)音組成,其中每個(gè)說(shuō)話人有n段自己不同的語(yǔ)音。那么,定義第m個(gè)人的第n條語(yǔ)音為Xmn。根據(jù)因子分析,則Xmn的生成模型為下式(1):
Xmn=μ+Fhm+Gwmn+εmn
(1)
式(1)中,μ表示全部訓(xùn)練語(yǔ)音數(shù)據(jù)的均值;F可視為身份空間,包含了各種可表示說(shuō)話人的信息;hm可視為某一具體的說(shuō)話人身份(即說(shuō)話人在身份空間中的位置);G可視為誤差空間,包含了可表征同一說(shuō)話人語(yǔ)音變化的信息;wmn表示的是在誤差空間中的位置;εmn用來(lái)表示隨機(jī)誤差,該項(xiàng)為零均值高斯分布。該模型實(shí)際上主要由兩部分組成,等號(hào)右側(cè)的前兩項(xiàng)可視為信號(hào)部分,該部分僅與說(shuō)話人有關(guān),而與說(shuō)話人具體的某條語(yǔ)音無(wú)關(guān),主要用于描述說(shuō)話人之間的差異。等號(hào)右側(cè)的后兩項(xiàng)可視為噪音部分,用于描述同一說(shuō)話人的不同語(yǔ)音之間的差異。上述兩個(gè)假想變量可以描述一條語(yǔ)音的數(shù)據(jù)結(jié)構(gòu),PLDA模型訓(xùn)練的目標(biāo)就是輸入一堆數(shù)據(jù)Xmn,輸出可以最大程度上表示該數(shù)據(jù)集的參數(shù)θ=[μ,F,G,ε],hm可以看做是Xmn在說(shuō)話人空間中的特征表示,隱藏變量hm和wmn可通過(guò)期望最大化(Expectation-Maximum,EM)算法進(jìn)行求解。EM算法是一種迭代優(yōu)化策略,可以在數(shù)據(jù)不完全的情況下實(shí)現(xiàn)參數(shù)預(yù)測(cè)[28]。EM算法的每次迭代都分為兩個(gè)步驟——期望步(E步)和極大步(M步),期望步依靠觀測(cè)值對(duì)隱含變量的分布情況進(jìn)行計(jì)算,極大步依靠隱含變量的分布來(lái)估計(jì)新的模型參數(shù),通過(guò)E步和M步對(duì)隱含數(shù)據(jù)和模型分布的參數(shù)進(jìn)行不斷迭代更新,最終收斂得到需要的模型參數(shù)。
在識(shí)別打分階段,兩條語(yǔ)音的hm特征相同的似然度越大,這兩條語(yǔ)音就更可能屬于同一個(gè)說(shuō)話人。式(2)為PLDA似然度得分計(jì)算公式,x1和x2分別為兩個(gè)語(yǔ)音的d-vector矢量,Hss代表檢材語(yǔ)音與樣本語(yǔ)音的embeddings來(lái)自同一空間的假設(shè),Hds代表檢材語(yǔ)音與樣本語(yǔ)音的embeddings來(lái)自不同空間的假設(shè),對(duì)數(shù)似然比的得分score可衡量?jī)蓷l語(yǔ)音的相似程度。score值越大,檢材語(yǔ)音與樣本語(yǔ)音來(lái)自同一說(shuō)話人的概率越大。
(2)
通過(guò)PLDA計(jì)算出兩條語(yǔ)音的得分后,將得分值通過(guò)邏輯回歸算法轉(zhuǎn)換為似然比LR,然后對(duì)系統(tǒng)識(shí)別性能進(jìn)行評(píng)估。具體流程見(jiàn)圖2。
圖2 d-vector說(shuō)話人識(shí)別系統(tǒng)的似然比計(jì)算
VoxCeleb1[17]和VoxCeleb2[18]數(shù)據(jù)集中的音頻全部采自YouTube上的視頻,音頻獲取方式為首先提取視頻中的音頻,然后按照說(shuō)話人進(jìn)行切分,數(shù)據(jù)集與文本無(wú)關(guān)。說(shuō)話人性別相對(duì)均衡,發(fā)音人年齡、種族、口音、職業(yè)等較為多元。數(shù)據(jù)集語(yǔ)音的來(lái)源視頻一般包含多個(gè)人聲,且拍攝情況相對(duì)復(fù)雜,涵蓋了發(fā)布會(huì)采訪、室外體育場(chǎng)、安靜工作室的采訪,面向廣大聽(tīng)眾的演講、專業(yè)拍攝的多媒體節(jié)選以及在個(gè)人手持設(shè)備拍攝等場(chǎng)景。數(shù)據(jù)集中的語(yǔ)音帶有一定程度的真實(shí)噪聲,包括環(huán)境噪聲、室內(nèi)噪聲、笑聲、重疊語(yǔ)聲、回聲以及錄音設(shè)備噪音等。
VoxCeleb1數(shù)據(jù)集共包含1 251位名人的 153 516 條語(yǔ)音片段,數(shù)據(jù)集總時(shí)長(zhǎng)為352 h,包含690位男性和561位女性。其中,男性發(fā)音人占總發(fā)音人的55%,語(yǔ)音片段的平均時(shí)長(zhǎng)為8.2 s,最大時(shí)長(zhǎng)為145 s,最短時(shí)長(zhǎng)為4 s,音頻無(wú)靜音段。數(shù)據(jù)集中包含訓(xùn)練集1 211人和測(cè)試集40人,分別對(duì)應(yīng)148 642和4 874個(gè)音頻段,每人平均有116個(gè)音頻段,每人最大音頻段數(shù)量為250條,每人最小音頻段數(shù)量為45條。
相較于VoxCelex1數(shù)據(jù)集,VoxCeleb2數(shù)據(jù)集內(nèi)容更加豐富,其數(shù)據(jù)規(guī)模約為VoxCelex1數(shù)據(jù)集的5倍。該數(shù)據(jù)集中共包含6 112位名人的1 128 246條語(yǔ)音片段,數(shù)據(jù)集總時(shí)長(zhǎng)為2 442 h,男性發(fā)音人有3 761人,占總發(fā)音人的61%。語(yǔ)音片段的平均時(shí)長(zhǎng)為7.8 s,每位發(fā)音人平均有185個(gè)音頻段。數(shù)據(jù)集中包含訓(xùn)練集5 994人和測(cè)試集118人,分別對(duì)應(yīng)1 092 009個(gè)和36 237個(gè)音頻段。兩個(gè)數(shù)據(jù)集中的音頻采樣率為16 kHz,采樣精度為16 bit,聲道類型為單聲道,音頻存儲(chǔ)格式為“PCM.wav”。VoxCeleb1和VoxCeleb2數(shù)據(jù)集的詳細(xì)情況見(jiàn)表1。
表1 VoxCeleb1數(shù)據(jù)集VoxCeleb2數(shù)據(jù)集情況匯總表
綜合來(lái)看,這兩個(gè)數(shù)據(jù)集在環(huán)境特性(錄制場(chǎng)景、背景噪聲等)方面和說(shuō)話人特性(口音、言語(yǔ)風(fēng)格[29]等)方面,基本上反映了司法實(shí)踐中檢材語(yǔ)音和樣本語(yǔ)音的實(shí)際情況。但在信道種類和采樣率方面,二者仍有一定的局限。在實(shí)際案件中,較常見(jiàn)的涉案原始音頻信道設(shè)備有固定電話、手機(jī)、微信、標(biāo)采設(shè)備和錄音筆信道等,語(yǔ)音采樣率一般有8 kHz、16 kHz、22.05 kHz、24 kHz、44.1 kHz等。因此,相較于實(shí)際案件語(yǔ)音的錄制條件,這兩個(gè)數(shù)據(jù)集包含的語(yǔ)音信道條件仍不夠多樣。除此之外,實(shí)際案件中樣本語(yǔ)音常見(jiàn)的“訊問(wèn)”言語(yǔ)風(fēng)格語(yǔ)音并未體現(xiàn)在該數(shù)據(jù)集中,雖然數(shù)據(jù)集中的“自由交談”和“朗讀”言語(yǔ)風(fēng)格語(yǔ)音已能較好地模擬大部分實(shí)際案件語(yǔ)音的言語(yǔ)風(fēng)格,但仍可能對(duì)系統(tǒng)識(shí)別的準(zhǔn)確性帶來(lái)一定影響。
首先使用大規(guī)模語(yǔ)音數(shù)據(jù)進(jìn)行說(shuō)話人識(shí)別背景模型(大模型)訓(xùn)練,然后對(duì)系統(tǒng)性能進(jìn)行驗(yàn)證測(cè)試。測(cè)試中使用的數(shù)據(jù)集有3種,分別為自適應(yīng)訓(xùn)練集、校準(zhǔn)集和測(cè)試集。使用訓(xùn)練集對(duì)PLDA模型做有監(jiān)督的自適應(yīng)訓(xùn)練,該操作可以補(bǔ)償測(cè)試集語(yǔ)音的言語(yǔ)風(fēng)格、方言特征、信道條件和錄制環(huán)境與大模型不匹配的問(wèn)題,且通過(guò)對(duì)自適應(yīng)訓(xùn)練的數(shù)據(jù)進(jìn)行監(jiān)督,可以進(jìn)一步提升PLDA模型打分的穩(wěn)定性和準(zhǔn)確性。校準(zhǔn)集通過(guò)標(biāo)定數(shù)據(jù)(已標(biāo)注說(shuō)話人身份的數(shù)據(jù))對(duì)PLDA模型的打分結(jié)果進(jìn)行校準(zhǔn),進(jìn)而提升系統(tǒng)識(shí)別的準(zhǔn)確性。測(cè)試集用于自動(dòng)說(shuō)話人識(shí)別系統(tǒng)性能的驗(yàn)證評(píng)價(jià)。
大模型的訓(xùn)練數(shù)據(jù)為VoxCeleb2數(shù)據(jù)集中 6 112 人的語(yǔ)音數(shù)據(jù)。系統(tǒng)自適應(yīng)訓(xùn)練集為VoxCeleb1數(shù)據(jù)集中500人的語(yǔ)音數(shù)據(jù),用于對(duì)PLDA模型做有監(jiān)督自適應(yīng)訓(xùn)練。校準(zhǔn)集來(lái)自VoxCeleb1數(shù)據(jù)集中測(cè)試集以外的40人語(yǔ)音數(shù)據(jù),通過(guò)數(shù)據(jù)標(biāo)定進(jìn)行得分誤匹配補(bǔ)償算法模型的訓(xùn)練,對(duì)PLDA分類得分進(jìn)行校準(zhǔn)。系統(tǒng)測(cè)試集選用的是VoxCeleb1數(shù)據(jù)集中自帶的40人測(cè)試集語(yǔ)音數(shù)據(jù),將測(cè)試集包含的所有語(yǔ)音進(jìn)行全交叉檢驗(yàn),得到兩兩比較的似然比值,然后計(jì)算系統(tǒng)驗(yàn)證的評(píng)價(jià)指標(biāo)。
2.3.1 對(duì)數(shù)似然比代價(jià)函數(shù)
對(duì)數(shù)似然比代價(jià)函數(shù)(Log likelihood ratio cost,Cllr)[30]作為系統(tǒng)準(zhǔn)確性評(píng)估參數(shù),是在似然比框架體系下評(píng)價(jià)法庭說(shuō)話人識(shí)別系統(tǒng)性能的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo),其表達(dá)式見(jiàn)公式(3):
(3)
式(3)中,Ns和Nd分別是同一話者和不同話者測(cè)試對(duì)的數(shù)量,LRs和LRd分別是同一話者和不同話者測(cè)試對(duì)比較的似然比。Cllr值是系統(tǒng)的整體表現(xiàn)。Cllr值小于1,說(shuō)明系統(tǒng)是有效的;Cllr值越接近于0,系統(tǒng)的準(zhǔn)確性越高。
2.3.2 等誤率
等誤率是說(shuō)話人識(shí)別領(lǐng)域最常用的評(píng)價(jià)指標(biāo)。在說(shuō)話人識(shí)別中,系統(tǒng)的錯(cuò)誤識(shí)別情況有兩種:一是將不同來(lái)源的語(yǔ)音錯(cuò)判為同源,即錯(cuò)誤接受;二是將相同來(lái)源的語(yǔ)音錯(cuò)判為非同源,即錯(cuò)誤拒絕。系統(tǒng)的錯(cuò)誤接受率和錯(cuò)誤拒絕率相等時(shí)為等誤率(Equal Error Rate,EER)。等誤率EER的值越小,代表系統(tǒng)的性能越好。
2.3.3 Tippett圖
Tippett圖(可靠性函數(shù)圖)是基于似然比框架的法庭說(shuō)話人識(shí)別系統(tǒng)驗(yàn)證的標(biāo)準(zhǔn)圖示[31]。Tippett圖的橫軸是以10為底的對(duì)數(shù)似然比(log10LR),縱軸是同一說(shuō)話人和不同說(shuō)話人比較所占的比例(也可稱為概率累計(jì)分布)。Tippett圖中向右延伸的曲線代表同一說(shuō)話人之間的比較,向左延伸的曲線代表不同說(shuō)話人之間的比較。兩條延伸曲線的交叉點(diǎn)對(duì)應(yīng)的概率代表等誤率(EER)。兩條曲線分得越開(kāi),交叉點(diǎn)越低,識(shí)別的效果越好。
3.1.1 8 kHz采樣率語(yǔ)音數(shù)據(jù)的識(shí)別結(jié)果
由于現(xiàn)實(shí)案件中待檢語(yǔ)音材料來(lái)源于手機(jī)通話錄音的情況較為常見(jiàn),為了檢驗(yàn)自動(dòng)識(shí)別系統(tǒng)在案件條件下的性能表現(xiàn),首先將用于訓(xùn)練系統(tǒng)識(shí)別背景模型和評(píng)測(cè)系統(tǒng)的語(yǔ)音采樣率降為手機(jī)通話錄音常見(jiàn)的8 kHz。然后按照2.2所示的測(cè)試方法,使用6 112人的8 kHz采樣率語(yǔ)音訓(xùn)練說(shuō)話人識(shí)別的背景模型,從選定的VoxCeleb1訓(xùn)練集中抽取300人和500人的語(yǔ)音數(shù)據(jù)進(jìn)行PLDA模型自適應(yīng)訓(xùn)練,選擇測(cè)試集之外的40人語(yǔ)音數(shù)據(jù)作為校準(zhǔn)集,使用VoxCeleb1數(shù)據(jù)集中自帶的40人測(cè)試語(yǔ)音數(shù)據(jù)作為測(cè)試集進(jìn)行測(cè)試評(píng)價(jià)。使用留一法將測(cè)試集中每位說(shuō)話人的語(yǔ)音進(jìn)行交叉比較測(cè)試,該過(guò)程共產(chǎn)生了179 700個(gè)語(yǔ)音比較對(duì),其中同一話者語(yǔ)音比較對(duì)為4 200個(gè),不同話者語(yǔ)音比較對(duì)為175 500個(gè)。
8 kHz采樣率語(yǔ)音數(shù)據(jù)的系統(tǒng)識(shí)別結(jié)果見(jiàn)表2。
表2 8 kHz采樣率語(yǔ)音數(shù)據(jù)的系統(tǒng)識(shí)別結(jié)果
表2的識(shí)別結(jié)果表明,未使用PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)Cllr值經(jīng)校準(zhǔn)后為0.874,等誤率EER的值為0.194。使用300人語(yǔ)音的PLDA自適應(yīng)訓(xùn)練集模型系統(tǒng)的Cllr值未進(jìn)行校準(zhǔn)的情況下為0.632,校準(zhǔn)后達(dá)到了0.273,校準(zhǔn)后的系統(tǒng)相較于未使用PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)性能提升了約69%,系統(tǒng)整體的EER值為0.070,比未進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)降低了約64%。將PLDA自適應(yīng)訓(xùn)練集規(guī)模擴(kuò)大為500人后,經(jīng)校準(zhǔn)的識(shí)別系統(tǒng)的Cllr值為0.269,EER值為0.065,與未使用PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)相比,識(shí)別性能提升了約69.2%,系統(tǒng)的EER值降低了約66%,識(shí)別效果在本組測(cè)試中達(dá)到最佳。此外,經(jīng)過(guò)校準(zhǔn)系統(tǒng)的Cllr值明顯小于未校準(zhǔn)系統(tǒng),這說(shuō)明校準(zhǔn)是一個(gè)非常重要的步驟。只有經(jīng)過(guò)校準(zhǔn)的系統(tǒng),才能更好地反映系統(tǒng)的實(shí)際性能。
2.市場(chǎng)化程度。不管是對(duì)于城鎮(zhèn)發(fā)展還是產(chǎn)業(yè)發(fā)展來(lái)說(shuō),要素資源的合理配置都起到重要作用,而資源如果要實(shí)現(xiàn)合理配置、達(dá)到理論上帕累托最優(yōu)的狀況,就必須推進(jìn)市場(chǎng)化程度的提升。市場(chǎng)化水平的提高不但可以提升經(jīng)濟(jì)活力和發(fā)展效率,促進(jìn)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)、使得勞動(dòng)分工合理、加速勞動(dòng)力的流動(dòng),而且也會(huì)使私有資本更多地參與到基礎(chǔ)設(shè)施和公共服務(wù)領(lǐng)域的投資,對(duì)城市功能的完善起到重要的推動(dòng)作用。
8 kHz采樣率語(yǔ)音數(shù)據(jù)的系統(tǒng)驗(yàn)證Tippett圖見(jiàn)圖3~5。圖中,向右上升的曲線代表同一說(shuō)話人語(yǔ)音的比較結(jié)果,向左上升的曲線代表不同說(shuō)話人語(yǔ)音的比較結(jié)果。
圖3 未進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)識(shí)別結(jié)果(8 kHz采樣率語(yǔ)音數(shù)據(jù))
圖4 300人語(yǔ)音數(shù)據(jù)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別結(jié)果(8 kHz采樣率語(yǔ)音數(shù)據(jù))
圖5 500人語(yǔ)音數(shù)據(jù)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別結(jié)果(8 kHz采樣率語(yǔ)音數(shù)據(jù))
從測(cè)試結(jié)果看,基于8 kHz采樣率語(yǔ)音的d-vector PLDA模型系統(tǒng)的識(shí)別效果良好,但仍有提升的空間,經(jīng)校準(zhǔn)后的說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的識(shí)別性能更優(yōu),且進(jìn)行PLDA自適應(yīng)訓(xùn)練能有效提升系統(tǒng)的識(shí)別性能。
3.1.2 16 kHz采樣率語(yǔ)音數(shù)據(jù)的系統(tǒng)識(shí)別結(jié)果
近年來(lái),便攜錄音設(shè)備的發(fā)展為高質(zhì)量錄音的獲取提供了極大便利。隨著公安部門聲紋數(shù)據(jù)庫(kù)建設(shè)工作的推進(jìn),規(guī)范、統(tǒng)一的標(biāo)準(zhǔn)采集設(shè)備已經(jīng)成為收集語(yǔ)音樣本數(shù)據(jù)的必備工具。一般來(lái)講,標(biāo)準(zhǔn)采集設(shè)備默認(rèn)的語(yǔ)音采樣率為16 kHz。為了模擬涉及該類錄音案件的說(shuō)話人識(shí)別情況,將用于訓(xùn)練系統(tǒng)識(shí)別背景模型和評(píng)測(cè)系統(tǒng)的語(yǔ)音采樣率設(shè)置為16 kHz, 然后按照2.2所述方法對(duì)系統(tǒng)識(shí)別性能進(jìn)行評(píng)測(cè)。表3為基于16 kHz采樣率語(yǔ)音的d-vector PLDA說(shuō)話人模型的系統(tǒng)識(shí)別結(jié)果。
表3 16 kHz采樣率語(yǔ)音數(shù)據(jù)的系統(tǒng)識(shí)別結(jié)果
表3的結(jié)果表明,未進(jìn)行PLDA自適應(yīng)訓(xùn)練步驟的系統(tǒng)經(jīng)校準(zhǔn)后的Cllr值為0.652,EER值為0.096,雖然具有一定識(shí)別效果,但識(shí)別性能仍有待提升。使用300人語(yǔ)音PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)Cllr值在校準(zhǔn)前和校準(zhǔn)后分別為0.543和0.187,EER值為0.042,校準(zhǔn)后的系統(tǒng)性能有大幅提升。該系統(tǒng)與未進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)相比,識(shí)別性能提升了約71%,EER值降低了約56%?;?00人語(yǔ)音PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)校準(zhǔn)前和校準(zhǔn)后的Cllr值分別為0.474和0.180,EER值達(dá)到了0.036,與未使用PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)相比,該系統(tǒng)的識(shí)別性能提升了約72%,EER值降低了62.5%,整體識(shí)別效果為本組最佳。
將本系統(tǒng)與8 kHz采樣率語(yǔ)音條件下的系統(tǒng)識(shí)別性能進(jìn)行比較后可知,在未使用PLDA自適應(yīng)訓(xùn)練集的情況下,基于16 kHz采樣率語(yǔ)音的d-vector PLDA模型系統(tǒng)識(shí)別效果相對(duì)于基于8 kHz采樣率語(yǔ)音的系統(tǒng)提升了約25%,EER值降低了約51%;在使用300人語(yǔ)音PLDA自適應(yīng)訓(xùn)練集的條件下,本系統(tǒng)相較于基于8 kHz采樣率語(yǔ)音的系統(tǒng)識(shí)別性能提升了約32%,EER值降低了約40%;在使用500人語(yǔ)音PLDA自適應(yīng)訓(xùn)練集的條件下,本系統(tǒng)的識(shí)別性能提升了約33%,EER值降低了約45%。整體而言,基于16 kHz采樣率語(yǔ)音的d-vector PLDA模型系統(tǒng)的識(shí)別效果相較于基于8 kHz采樣率語(yǔ)音的系統(tǒng)具有顯著提升。
綜上所述,基于16 kHz采樣率語(yǔ)音的d-vector PLDA模型系統(tǒng)的識(shí)別性能優(yōu)異,系統(tǒng)的識(shí)別性能與語(yǔ)音采樣率的高低具有很強(qiáng)的相關(guān)性。一般來(lái)講,基于高采樣率語(yǔ)音訓(xùn)練測(cè)試的模型系統(tǒng)識(shí)別效果優(yōu)于基于低采樣率語(yǔ)音的模型系統(tǒng),因此在進(jìn)行模型訓(xùn)練時(shí)應(yīng)盡量使用高質(zhì)量語(yǔ)音,從而保證系統(tǒng)的識(shí)別效果。除此之外,校準(zhǔn)可以提升系統(tǒng)的識(shí)別性能,且PLDA自適應(yīng)訓(xùn)練集的使用對(duì)系統(tǒng)識(shí)別效果的提升具有正向作用,該結(jié)論與前述結(jié)果一致。
16 kHz采樣率語(yǔ)音數(shù)據(jù)的系統(tǒng)驗(yàn)證的Tippett圖見(jiàn)圖6~8。
圖6 未進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)識(shí)別結(jié)果(16 kHz采樣率語(yǔ)音數(shù)據(jù))
圖7 300人語(yǔ)音數(shù)據(jù)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別結(jié)果(16 kHz采樣率語(yǔ)音數(shù)據(jù))
圖8 500人語(yǔ)音數(shù)據(jù)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別結(jié)果(16 kHz采樣率語(yǔ)音數(shù)據(jù))
表4的系統(tǒng)識(shí)別結(jié)果表明,不同規(guī)模的PLDA自適應(yīng)訓(xùn)練集對(duì)系統(tǒng)識(shí)別性能影響程度不同。將語(yǔ)音采樣率固定在8 kHz時(shí),分別使用100~500人的語(yǔ)音進(jìn)行PLDA自適應(yīng)訓(xùn)練,校準(zhǔn)后的說(shuō)話人識(shí)別系統(tǒng)Cllr值分別為0.340、0.298、0.273、0.271和0.269,全部處于0.25~0.35的區(qū)間內(nèi),平均值為0.290 2;系統(tǒng)的EER值分別為0.095、0.076、0.070、0.068和0.065,平均值為0.074 8,整體識(shí)別性能良好。基于上述結(jié)果可知,系統(tǒng)的識(shí)別效果隨著PLDA自適應(yīng)訓(xùn)練集規(guī)模的擴(kuò)大而提高,且基于500人語(yǔ)音(本組最大規(guī)模)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別性能最佳,相較于使用100人語(yǔ)音(本組最小規(guī)模)進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng),其識(shí)別性能提升了約20.9%,EER值降低了約31.6%,系統(tǒng)間的識(shí)別性能差距較為明顯。PLDA自適應(yīng)訓(xùn)練集規(guī)模達(dá)到300人時(shí),系統(tǒng)識(shí)別性能已趨于穩(wěn)定,并達(dá)到相對(duì)較好的識(shí)別效果,但較大規(guī)模的PLDA自適應(yīng)訓(xùn)練集對(duì)系統(tǒng)識(shí)別性能的提升效果更為顯著。
表4 基于不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別結(jié)果
將語(yǔ)音采樣率固定為16 kHz時(shí),分別使用 100~500人語(yǔ)音PLDA自適應(yīng)訓(xùn)練集進(jìn)行說(shuō)話人識(shí)別驗(yàn)證,系統(tǒng)的Cllr值經(jīng)校準(zhǔn)后分別為0.233、0.197、0.187、0.184和0.180,平均值為0.196 2;EER值分別為0.056、0.046、0.042、0.036和0.036,平均值為0.043 2。整體而言,系統(tǒng)識(shí)別效果較為理想,且基于500人語(yǔ)音(本組最大規(guī)模)進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)識(shí)別性能達(dá)到最優(yōu),相較于使用100人語(yǔ)音(本組最小規(guī)模)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng),其識(shí)別性能提升了約22.7%,EER值降低了約35.7%。綜合看來(lái),系統(tǒng)的識(shí)別性能與使用的PLDA自適應(yīng)訓(xùn)練集規(guī)模呈正相關(guān),且PLDA自適應(yīng)訓(xùn)練集規(guī)模達(dá)到300人時(shí)系統(tǒng)識(shí)別效果已相對(duì)較優(yōu),與前述結(jié)果一致。
圖9和圖10為不同語(yǔ)音采樣率條件下基于不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別Cllr值和EER值變化折線圖,可更為直觀地展示系統(tǒng)識(shí)別結(jié)果變化趨勢(shì)。
圖9 基于不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別Cllr值折線圖
圖10 基于不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別EER值折線圖
綜上所述,使用較大規(guī)模的PLDA自適應(yīng)訓(xùn)練集對(duì)系統(tǒng)識(shí)別性能的提升效果更加明顯。本測(cè)試中,隨著PLDA自適應(yīng)訓(xùn)練集規(guī)模的增大,系統(tǒng)識(shí)別性能更趨穩(wěn)定,且PLDA自適應(yīng)訓(xùn)練集規(guī)模達(dá)到300人時(shí),系統(tǒng)的識(shí)別效果已相對(duì)較優(yōu),可以達(dá)到實(shí)用需求。使用500人語(yǔ)音進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)識(shí)別性能最佳,但仍有進(jìn)步空間。下一步,可繼續(xù)擴(kuò)大PLDA自適應(yīng)訓(xùn)練集的規(guī)模對(duì)系統(tǒng)識(shí)別性能進(jìn)行評(píng)測(cè)。另外,還需要使用更多不同言語(yǔ)風(fēng)格和質(zhì)量條件的語(yǔ)音進(jìn)行測(cè)試,以進(jìn)一步評(píng)估系統(tǒng)在多種案件現(xiàn)實(shí)條件下的準(zhǔn)確性和可靠性。
本文選用開(kāi)源語(yǔ)音數(shù)據(jù)集VoxCeleb1和VoxCeleb2作為系統(tǒng)評(píng)測(cè)語(yǔ)料,在基于不同采樣率語(yǔ)音數(shù)據(jù)和不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的情況下,使用似然比證據(jù)評(píng)價(jià)體系對(duì)基于d-vector PLDA模型的法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)進(jìn)行了識(shí)別性能的驗(yàn)證與比較研究。研究結(jié)果表明,在典型的8 kHz采樣率的語(yǔ)音訓(xùn)練測(cè)試條件下,系統(tǒng)識(shí)別性能良好。而高采樣率語(yǔ)音訓(xùn)練測(cè)試的模型系統(tǒng)識(shí)別效果優(yōu)于低采樣率語(yǔ)音的模型系統(tǒng),較大規(guī)模的PLDA自適應(yīng)訓(xùn)練集對(duì)系統(tǒng)識(shí)別性能的提升更有幫助,但需要綜合考慮自適應(yīng)訓(xùn)練集的采集成本??傮w而言,基于深度神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的說(shuō)話人自動(dòng)識(shí)別系統(tǒng)識(shí)別性能良好,具有較高的應(yīng)用價(jià)值和潛力。
此外,本系統(tǒng)在該類場(chǎng)景數(shù)據(jù)的識(shí)別性能較為理想,但并不代表該系統(tǒng)在其他實(shí)際案件語(yǔ)音條件下的驗(yàn)證測(cè)試中都能夠達(dá)到同樣效果。司法實(shí)踐中,每個(gè)案件的場(chǎng)景或多或少都有一定差別,如信道設(shè)備、環(huán)境噪聲、言語(yǔ)風(fēng)格等,導(dǎo)致其數(shù)據(jù)質(zhì)量和特點(diǎn)也會(huì)有所差別。因此,必須進(jìn)行系統(tǒng)驗(yàn)證,才能科學(xué)客觀地評(píng)價(jià)法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的準(zhǔn)確性和可靠性。在科學(xué)研究中,應(yīng)該盡可能對(duì)豐富多樣的、能夠反映實(shí)際案件條件的語(yǔ)音數(shù)據(jù)進(jìn)行驗(yàn)證。在司法實(shí)踐中,還要基于被檢案件的具體語(yǔ)音條件進(jìn)行驗(yàn)證。而對(duì)于不同的方法系統(tǒng),開(kāi)展基于現(xiàn)實(shí)案件語(yǔ)音條件下的系統(tǒng)性能驗(yàn)證具有雙重價(jià)值,一方面可以及時(shí)發(fā)現(xiàn)與解決自動(dòng)識(shí)別系統(tǒng)在現(xiàn)實(shí)應(yīng)用中存在的問(wèn)題,改進(jìn)和提升系統(tǒng)的識(shí)別性能;另一方面能夠表明不同典型場(chǎng)景數(shù)據(jù)條件下所使用系統(tǒng)方法的準(zhǔn)確性和可靠性,為司法實(shí)踐提供客觀的量化依據(jù)。