基于似然比框架的法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)構(gòu)建與驗(yàn)證

2022-07-19 08:20:14張翠玲

中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年2期

張翠玲，丁盼

(1.西南政法大學(xué)刑事偵查學(xué)院，重慶 401120； 2.重慶高校刑事科學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室，重慶 401120)

0 引言

法庭說(shuō)話人識(shí)別是指對(duì)案件中的未知語(yǔ)音(也稱檢材語(yǔ)音)和嫌疑人語(yǔ)音(也稱樣本語(yǔ)音)進(jìn)行比較鑒別，來(lái)推斷二者的同源性，進(jìn)而為法庭提供線索和證據(jù)的一門技術(shù)[1]。法庭說(shuō)話人識(shí)別技術(shù)是說(shuō)話人識(shí)別技術(shù)在司法領(lǐng)域中的應(yīng)用。隨著語(yǔ)音自動(dòng)識(shí)別技術(shù)和說(shuō)話人自動(dòng)識(shí)別技術(shù)的飛速發(fā)展，這些自動(dòng)識(shí)別技術(shù)和方法也被借鑒到司法語(yǔ)音領(lǐng)域，但是與一般應(yīng)用場(chǎng)景的說(shuō)話人自動(dòng)識(shí)別技術(shù)不同，法庭說(shuō)話人自動(dòng)識(shí)別由于其應(yīng)用場(chǎng)景的特殊性，在語(yǔ)音數(shù)據(jù)、識(shí)別方法和框架體系上均具有自身的獨(dú)特性。

隨著語(yǔ)音識(shí)別技術(shù)進(jìn)入了深度學(xué)習(xí)時(shí)代，法庭說(shuō)話人識(shí)別技術(shù)也迎來(lái)了技術(shù)革新，即由傳統(tǒng)的、以專家主觀檢驗(yàn)為主的聽(tīng)覺(jué)感知、圖譜比較和聲學(xué)-語(yǔ)音學(xué)方法向更加高效、省力及客觀的自動(dòng)識(shí)別方法轉(zhuǎn)變。由傳統(tǒng)的基于人工專家檢驗(yàn)的聲學(xué)-語(yǔ)音學(xué)識(shí)別發(fā)展為專家監(jiān)督下的法庭說(shuō)話人自動(dòng)識(shí)別是司法語(yǔ)音領(lǐng)域的技術(shù)進(jìn)步和發(fā)展方向。但是，無(wú)論使用傳統(tǒng)的說(shuō)話人識(shí)別方法，還是自動(dòng)說(shuō)話人識(shí)別方法，檢驗(yàn)識(shí)別的程序方法和結(jié)果都應(yīng)滿足法庭對(duì)證據(jù)的科學(xué)性要求[2-3]。近年來(lái)，基于似然比框架的法庭語(yǔ)音證據(jù)評(píng)價(jià)體系在國(guó)際上逐漸得到了普遍認(rèn)可和實(shí)施[4-6]，因?yàn)橐愿怕试u(píng)價(jià)為基礎(chǔ)的似然比框架方法不僅更符合法庭統(tǒng)計(jì)推理的邏輯規(guī)則，而且可以對(duì)證據(jù)的價(jià)值及其所使用方法系統(tǒng)的準(zhǔn)確性和可靠性進(jìn)行客觀的量化評(píng)估。

國(guó)際上，關(guān)于法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的驗(yàn)證程序與方法已存在部分成果。Morrison和Enzinger基于似然比框架體系制定了統(tǒng)一的系統(tǒng)性能評(píng)價(jià)規(guī)則，并提供了一個(gè)反映現(xiàn)實(shí)案件條件的法庭語(yǔ)音數(shù)據(jù)庫(kù)，組織多個(gè)實(shí)驗(yàn)室開(kāi)展了法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的性能驗(yàn)證測(cè)試[7]。參與驗(yàn)證測(cè)試的9個(gè)自動(dòng)識(shí)別系統(tǒng)采用的算法模型主要包括高斯混合通用背景模型GMM-UBM(Gaussian Mixed Model-Universal Background Model)、i-vector PLDA(Identification Vector -Probabilistic Linear Discriminant Analysis)模型和深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)模型。驗(yàn)證結(jié)果表明，基于i-vector PLDA的系統(tǒng)識(shí)別性能優(yōu)于GMM-UBM系統(tǒng)，而基于DNN模型的系統(tǒng)識(shí)別性能最佳[8]。最近，來(lái)自十幾個(gè)國(guó)家的司法語(yǔ)音專家就法庭說(shuō)話人識(shí)別的驗(yàn)證方法發(fā)表了共識(shí)聲明，倡導(dǎo)在似然比統(tǒng)一框架內(nèi)，基于能夠反映案件現(xiàn)實(shí)條件的語(yǔ)音數(shù)據(jù)庫(kù)開(kāi)展法庭說(shuō)話人識(shí)別的方法系統(tǒng)驗(yàn)證[9]。

在國(guó)內(nèi)，基于似然比方法的法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的性能評(píng)價(jià)研究正在不斷推進(jìn)。王華朋等基于似然比框架體系提出了一種基于GMM-UBM模型的法庭自動(dòng)說(shuō)話人識(shí)別系統(tǒng)改進(jìn)方法，通過(guò)以小型參考背景人群模型代替UBM的方法，降低了識(shí)別系統(tǒng)對(duì)嫌疑人語(yǔ)音樣本數(shù)量的需求[10]。除此之外，王華朋和張翠玲使用GFCC(Gammatone Frequency Cepstral Coefficient)特征與主成分分析方法，對(duì)基于似然比框架的法庭說(shuō)話人識(shí)別系統(tǒng)的抗噪特性進(jìn)行了探究[11]。近幾年，張翠玲團(tuán)隊(duì)使用似然比證據(jù)評(píng)價(jià)體系分別對(duì)基于LPCC、MFCC等語(yǔ)音自動(dòng)識(shí)別參數(shù)的說(shuō)話人識(shí)別系統(tǒng)性能進(jìn)行了探索[12-14]，并在現(xiàn)實(shí)案件條件下對(duì)法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)進(jìn)行了系列驗(yàn)證測(cè)試[15-16]。這些研究為國(guó)內(nèi)法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的改進(jìn)提升提供了重要參考依據(jù)。

綜合來(lái)看，國(guó)內(nèi)在法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的研究方面已經(jīng)取得了很大進(jìn)步，但是由于案件場(chǎng)景的多樣性和復(fù)雜性，還需要對(duì)更多的場(chǎng)景數(shù)據(jù)和模型系統(tǒng)進(jìn)行驗(yàn)證測(cè)試和比較研究。為了客觀評(píng)價(jià)說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的準(zhǔn)確性和可靠性，同時(shí)滿足自動(dòng)識(shí)別系統(tǒng)模型訓(xùn)練的大量數(shù)據(jù)需求，本研究選用牛津大學(xué)在2017年和2018年發(fā)布的開(kāi)源音視頻數(shù)據(jù)集VoxCeleb1[17]和VoxCeleb2[18]作為自動(dòng)識(shí)別系統(tǒng)的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)，利用深度神經(jīng)網(wǎng)絡(luò)方法提取語(yǔ)音特征，并構(gòu)建了基于d-vector PLDA模型的法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)，然后基于似然比證據(jù)評(píng)價(jià)體系對(duì)法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的性能進(jìn)行驗(yàn)證測(cè)試。利用開(kāi)源數(shù)據(jù)集進(jìn)行測(cè)試不僅可以保證數(shù)據(jù)的透明性和多樣性，而且便于不同系統(tǒng)間的橫向比較，有利于推動(dòng)法庭說(shuō)話人自動(dòng)識(shí)別技術(shù)的進(jìn)步與發(fā)展。

1 法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的主體框架

1.1 語(yǔ)音特征提取

首先對(duì)全部音頻進(jìn)行語(yǔ)音活性檢測(cè)(Voice Activity Detection，VAD)，逐幀判斷音頻是否屬于人聲，將所有音頻區(qū)分為語(yǔ)音段和非語(yǔ)音段。然后，在語(yǔ)音段上提取23維的FBank(Filter Banks)特征，提取的幀長(zhǎng)為25 ms，幀移為10 ms。

使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network，DNN)提取說(shuō)話人身份向量時(shí)，一般使用FBank作為前端特征。FBank特征的提取步驟與MFCC特征基本一致，需要經(jīng)過(guò)預(yù)加重、分幀、加窗、短時(shí)傅里葉變換(Short-term Fourier Transform，STFT)、Mel濾波、去均值等操作，MFCC特征的獲取則需要在Fbank特征的基礎(chǔ)上進(jìn)行離散余弦變換(Discrete Cosine Transform，DCT)。因此相較于MFCC特征，F(xiàn)Bank特征的獲取計(jì)算量更小，且包含更多信息，特征相關(guān)性更高，更適合在深度神經(jīng)網(wǎng)絡(luò)模型中作為輸入特征使用。

1.2 統(tǒng)計(jì)建模

近些年，基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建說(shuō)話人識(shí)別模型已經(jīng)成為主流選擇。隨著技術(shù)的不斷發(fā)展，法庭說(shuō)話人自動(dòng)識(shí)別中使用的特征參數(shù)和模型算法也在不斷更新。從高斯混合通用背景模型(GMM-UBM)[19]到分別對(duì)說(shuō)話人和信道空間建模的聯(lián)合因子分析(JFA)[20]，以及使用全局差異空間代替本征空間和信道空間的i-vector向量[21]，再到基于深度神經(jīng)網(wǎng)絡(luò)提取能夠表征說(shuō)話人特征的embedding，如j-vector[22]、d-vector[23]和x-vector[24-25]等，法庭說(shuō)話人自動(dòng)識(shí)別技術(shù)已經(jīng)進(jìn)入了深度學(xué)習(xí)時(shí)代。Variani研究了深度神經(jīng)網(wǎng)絡(luò)(DNN)在小型文本相關(guān)的說(shuō)話人驗(yàn)證任務(wù)的應(yīng)用，發(fā)現(xiàn)相較于i-vector向量特征，基于DNN的d-vector說(shuō)話人識(shí)別模型在說(shuō)話人識(shí)別方面表現(xiàn)出了更好的性能[23]。

基于此，本文選用基于深度神經(jīng)網(wǎng)絡(luò)的d-vector說(shuō)話人識(shí)別模型。系統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選用時(shí)延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network，TDNN)[26]，一方面因?yàn)槎鄬拥腡DNN具有較強(qiáng)的抽象能力，另一方面在于其能夠使網(wǎng)絡(luò)學(xué)習(xí)到語(yǔ)音信號(hào)的時(shí)序性結(jié)構(gòu)信息。d-vector是一種句子級(jí)別(utterance-level)的深度說(shuō)話人識(shí)別向量，由深度網(wǎng)絡(luò)的特征提取層(隱藏層)輸出幀級(jí)別的說(shuō)話人特征，并以合并平均的方式得到句子級(jí)別表示的向量特征。本文中d-vector的獲取是在深度神經(jīng)網(wǎng)絡(luò)模型中使用標(biāo)準(zhǔn)前饋傳播計(jì)算最后一個(gè)隱藏層的輸出激活值，再將激活值累積起來(lái)后得到。選用全連接層中的最后一個(gè)隱藏層輸出embedding而未使用softmax輸出層，其原因在于輸出層的減少可以有效縮減DNN模型的規(guī)模并縮短運(yùn)行時(shí)間，且最后一個(gè)隱藏層的輸出特征可以更好地概括未知說(shuō)話人的特征。

基于深度神經(jīng)網(wǎng)絡(luò)的d-vector向量提取過(guò)程見(jiàn)圖1。

圖1 基于DNN的d-vector特征提取

1.3 降維及信道補(bǔ)償

系統(tǒng)使用概率線性判別分析(Probabilistic Linear Discriminant Analysis，PLDA)進(jìn)行降維和信道補(bǔ)償。PLDA是概率形式的線性判別分析(Linear Discriminant Analysis，LDA)[27]，它既是一種降維方法，也是一種信道補(bǔ)償方法，而且其信道補(bǔ)償能力相較于LDA更優(yōu)。PLDA自適應(yīng)可以補(bǔ)償實(shí)際數(shù)據(jù)與已經(jīng)訓(xùn)練模型中聲學(xué)條件不匹配的問(wèn)題，從而進(jìn)一步提升識(shí)別性能。

在說(shuō)話人識(shí)別中，假設(shè)訓(xùn)練語(yǔ)音數(shù)據(jù)由m個(gè)說(shuō)話人的語(yǔ)音組成，其中每個(gè)說(shuō)話人有n段自己不同的語(yǔ)音。那么，定義第m個(gè)人的第n條語(yǔ)音為Xmn。根據(jù)因子分析，則Xmn的生成模型為下式(1)：

Xmn=μ+Fhm+Gwmn+εmn

(1)

式(1)中，μ表示全部訓(xùn)練語(yǔ)音數(shù)據(jù)的均值；F可視為身份空間，包含了各種可表示說(shuō)話人的信息；hm可視為某一具體的說(shuō)話人身份(即說(shuō)話人在身份空間中的位置)；G可視為誤差空間，包含了可表征同一說(shuō)話人語(yǔ)音變化的信息；wmn表示的是在誤差空間中的位置；εmn用來(lái)表示隨機(jī)誤差，該項(xiàng)為零均值高斯分布。該模型實(shí)際上主要由兩部分組成，等號(hào)右側(cè)的前兩項(xiàng)可視為信號(hào)部分，該部分僅與說(shuō)話人有關(guān)，而與說(shuō)話人具體的某條語(yǔ)音無(wú)關(guān)，主要用于描述說(shuō)話人之間的差異。等號(hào)右側(cè)的后兩項(xiàng)可視為噪音部分，用于描述同一說(shuō)話人的不同語(yǔ)音之間的差異。上述兩個(gè)假想變量可以描述一條語(yǔ)音的數(shù)據(jù)結(jié)構(gòu)，PLDA模型訓(xùn)練的目標(biāo)就是輸入一堆數(shù)據(jù)Xmn，輸出可以最大程度上表示該數(shù)據(jù)集的參數(shù)θ=[μ,F,G,ε]，hm可以看做是Xmn在說(shuō)話人空間中的特征表示，隱藏變量hm和wmn可通過(guò)期望最大化(Expectation-Maximum，EM)算法進(jìn)行求解。EM算法是一種迭代優(yōu)化策略，可以在數(shù)據(jù)不完全的情況下實(shí)現(xiàn)參數(shù)預(yù)測(cè)[28]。EM算法的每次迭代都分為兩個(gè)步驟——期望步(E步)和極大步(M步)，期望步依靠觀測(cè)值對(duì)隱含變量的分布情況進(jìn)行計(jì)算，極大步依靠隱含變量的分布來(lái)估計(jì)新的模型參數(shù)，通過(guò)E步和M步對(duì)隱含數(shù)據(jù)和模型分布的參數(shù)進(jìn)行不斷迭代更新，最終收斂得到需要的模型參數(shù)。

1.4 識(shí)別打分和似然比計(jì)算

在識(shí)別打分階段，兩條語(yǔ)音的hm特征相同的似然度越大，這兩條語(yǔ)音就更可能屬于同一個(gè)說(shuō)話人。式(2)為PLDA似然度得分計(jì)算公式，x1和x2分別為兩個(gè)語(yǔ)音的d-vector矢量，Hss代表檢材語(yǔ)音與樣本語(yǔ)音的embeddings來(lái)自同一空間的假設(shè)，Hds代表檢材語(yǔ)音與樣本語(yǔ)音的embeddings來(lái)自不同空間的假設(shè)，對(duì)數(shù)似然比的得分score可衡量?jī)蓷l語(yǔ)音的相似程度。score值越大，檢材語(yǔ)音與樣本語(yǔ)音來(lái)自同一說(shuō)話人的概率越大。

(2)

通過(guò)PLDA計(jì)算出兩條語(yǔ)音的得分后，將得分值通過(guò)邏輯回歸算法轉(zhuǎn)換為似然比LR，然后對(duì)系統(tǒng)識(shí)別性能進(jìn)行評(píng)估。具體流程見(jiàn)圖2。

圖2 d-vector說(shuō)話人識(shí)別系統(tǒng)的似然比計(jì)算

2 驗(yàn)證流程

2.1 語(yǔ)音數(shù)據(jù)集

VoxCeleb1[17]和VoxCeleb2[18]數(shù)據(jù)集中的音頻全部采自YouTube上的視頻，音頻獲取方式為首先提取視頻中的音頻，然后按照說(shuō)話人進(jìn)行切分，數(shù)據(jù)集與文本無(wú)關(guān)。說(shuō)話人性別相對(duì)均衡，發(fā)音人年齡、種族、口音、職業(yè)等較為多元。數(shù)據(jù)集語(yǔ)音的來(lái)源視頻一般包含多個(gè)人聲，且拍攝情況相對(duì)復(fù)雜，涵蓋了發(fā)布會(huì)采訪、室外體育場(chǎng)、安靜工作室的采訪，面向廣大聽(tīng)眾的演講、專業(yè)拍攝的多媒體節(jié)選以及在個(gè)人手持設(shè)備拍攝等場(chǎng)景。數(shù)據(jù)集中的語(yǔ)音帶有一定程度的真實(shí)噪聲，包括環(huán)境噪聲、室內(nèi)噪聲、笑聲、重疊語(yǔ)聲、回聲以及錄音設(shè)備噪音等。

VoxCeleb1數(shù)據(jù)集共包含1 251位名人的 153 516 條語(yǔ)音片段，數(shù)據(jù)集總時(shí)長(zhǎng)為352 h，包含690位男性和561位女性。其中，男性發(fā)音人占總發(fā)音人的55%，語(yǔ)音片段的平均時(shí)長(zhǎng)為8.2 s，最大時(shí)長(zhǎng)為145 s，最短時(shí)長(zhǎng)為4 s，音頻無(wú)靜音段。數(shù)據(jù)集中包含訓(xùn)練集1 211人和測(cè)試集40人，分別對(duì)應(yīng)148 642和4 874個(gè)音頻段，每人平均有116個(gè)音頻段，每人最大音頻段數(shù)量為250條，每人最小音頻段數(shù)量為45條。

相較于VoxCelex1數(shù)據(jù)集，VoxCeleb2數(shù)據(jù)集內(nèi)容更加豐富，其數(shù)據(jù)規(guī)模約為VoxCelex1數(shù)據(jù)集的5倍。該數(shù)據(jù)集中共包含6 112位名人的1 128 246條語(yǔ)音片段，數(shù)據(jù)集總時(shí)長(zhǎng)為2 442 h，男性發(fā)音人有3 761人，占總發(fā)音人的61%。語(yǔ)音片段的平均時(shí)長(zhǎng)為7.8 s，每位發(fā)音人平均有185個(gè)音頻段。數(shù)據(jù)集中包含訓(xùn)練集5 994人和測(cè)試集118人，分別對(duì)應(yīng)1 092 009個(gè)和36 237個(gè)音頻段。兩個(gè)數(shù)據(jù)集中的音頻采樣率為16 kHz，采樣精度為16 bit，聲道類型為單聲道，音頻存儲(chǔ)格式為“PCM.wav”。VoxCeleb1和VoxCeleb2數(shù)據(jù)集的詳細(xì)情況見(jiàn)表1。

表1 VoxCeleb1數(shù)據(jù)集VoxCeleb2數(shù)據(jù)集情況匯總表

綜合來(lái)看，這兩個(gè)數(shù)據(jù)集在環(huán)境特性(錄制場(chǎng)景、背景噪聲等)方面和說(shuō)話人特性(口音、言語(yǔ)風(fēng)格[29]等)方面，基本上反映了司法實(shí)踐中檢材語(yǔ)音和樣本語(yǔ)音的實(shí)際情況。但在信道種類和采樣率方面，二者仍有一定的局限。在實(shí)際案件中，較常見(jiàn)的涉案原始音頻信道設(shè)備有固定電話、手機(jī)、微信、標(biāo)采設(shè)備和錄音筆信道等，語(yǔ)音采樣率一般有8 kHz、16 kHz、22.05 kHz、24 kHz、44.1 kHz等。因此，相較于實(shí)際案件語(yǔ)音的錄制條件，這兩個(gè)數(shù)據(jù)集包含的語(yǔ)音信道條件仍不夠多樣。除此之外，實(shí)際案件中樣本語(yǔ)音常見(jiàn)的“訊問(wèn)”言語(yǔ)風(fēng)格語(yǔ)音并未體現(xiàn)在該數(shù)據(jù)集中，雖然數(shù)據(jù)集中的“自由交談”和“朗讀”言語(yǔ)風(fēng)格語(yǔ)音已能較好地模擬大部分實(shí)際案件語(yǔ)音的言語(yǔ)風(fēng)格，但仍可能對(duì)系統(tǒng)識(shí)別的準(zhǔn)確性帶來(lái)一定影響。

2.2 測(cè)試方法

首先使用大規(guī)模語(yǔ)音數(shù)據(jù)進(jìn)行說(shuō)話人識(shí)別背景模型(大模型)訓(xùn)練，然后對(duì)系統(tǒng)性能進(jìn)行驗(yàn)證測(cè)試。測(cè)試中使用的數(shù)據(jù)集有3種，分別為自適應(yīng)訓(xùn)練集、校準(zhǔn)集和測(cè)試集。使用訓(xùn)練集對(duì)PLDA模型做有監(jiān)督的自適應(yīng)訓(xùn)練，該操作可以補(bǔ)償測(cè)試集語(yǔ)音的言語(yǔ)風(fēng)格、方言特征、信道條件和錄制環(huán)境與大模型不匹配的問(wèn)題，且通過(guò)對(duì)自適應(yīng)訓(xùn)練的數(shù)據(jù)進(jìn)行監(jiān)督，可以進(jìn)一步提升PLDA模型打分的穩(wěn)定性和準(zhǔn)確性。校準(zhǔn)集通過(guò)標(biāo)定數(shù)據(jù)(已標(biāo)注說(shuō)話人身份的數(shù)據(jù))對(duì)PLDA模型的打分結(jié)果進(jìn)行校準(zhǔn)，進(jìn)而提升系統(tǒng)識(shí)別的準(zhǔn)確性。測(cè)試集用于自動(dòng)說(shuō)話人識(shí)別系統(tǒng)性能的驗(yàn)證評(píng)價(jià)。

大模型的訓(xùn)練數(shù)據(jù)為VoxCeleb2數(shù)據(jù)集中 6 112 人的語(yǔ)音數(shù)據(jù)。系統(tǒng)自適應(yīng)訓(xùn)練集為VoxCeleb1數(shù)據(jù)集中500人的語(yǔ)音數(shù)據(jù)，用于對(duì)PLDA模型做有監(jiān)督自適應(yīng)訓(xùn)練。校準(zhǔn)集來(lái)自VoxCeleb1數(shù)據(jù)集中測(cè)試集以外的40人語(yǔ)音數(shù)據(jù)，通過(guò)數(shù)據(jù)標(biāo)定進(jìn)行得分誤匹配補(bǔ)償算法模型的訓(xùn)練，對(duì)PLDA分類得分進(jìn)行校準(zhǔn)。系統(tǒng)測(cè)試集選用的是VoxCeleb1數(shù)據(jù)集中自帶的40人測(cè)試集語(yǔ)音數(shù)據(jù)，將測(cè)試集包含的所有語(yǔ)音進(jìn)行全交叉檢驗(yàn)，得到兩兩比較的似然比值，然后計(jì)算系統(tǒng)驗(yàn)證的評(píng)價(jià)指標(biāo)。

2.3 系統(tǒng)驗(yàn)證性能指標(biāo)

2.3.1 對(duì)數(shù)似然比代價(jià)函數(shù)

對(duì)數(shù)似然比代價(jià)函數(shù)(Log likelihood ratio cost，Cllr)[30]作為系統(tǒng)準(zhǔn)確性評(píng)估參數(shù)，是在似然比框架體系下評(píng)價(jià)法庭說(shuō)話人識(shí)別系統(tǒng)性能的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo)，其表達(dá)式見(jiàn)公式(3)：

(3)

式(3)中，Ns和Nd分別是同一話者和不同話者測(cè)試對(duì)的數(shù)量，LRs和LRd分別是同一話者和不同話者測(cè)試對(duì)比較的似然比。Cllr值是系統(tǒng)的整體表現(xiàn)。Cllr值小于1，說(shuō)明系統(tǒng)是有效的；Cllr值越接近于0，系統(tǒng)的準(zhǔn)確性越高。

2.3.2 等誤率

等誤率是說(shuō)話人識(shí)別領(lǐng)域最常用的評(píng)價(jià)指標(biāo)。在說(shuō)話人識(shí)別中，系統(tǒng)的錯(cuò)誤識(shí)別情況有兩種：一是將不同來(lái)源的語(yǔ)音錯(cuò)判為同源，即錯(cuò)誤接受；二是將相同來(lái)源的語(yǔ)音錯(cuò)判為非同源，即錯(cuò)誤拒絕。系統(tǒng)的錯(cuò)誤接受率和錯(cuò)誤拒絕率相等時(shí)為等誤率(Equal Error Rate，EER)。等誤率EER的值越小，代表系統(tǒng)的性能越好。

2.3.3 Tippett圖

Tippett圖(可靠性函數(shù)圖)是基于似然比框架的法庭說(shuō)話人識(shí)別系統(tǒng)驗(yàn)證的標(biāo)準(zhǔn)圖示[31]。Tippett圖的橫軸是以10為底的對(duì)數(shù)似然比(log10LR)，縱軸是同一說(shuō)話人和不同說(shuō)話人比較所占的比例(也可稱為概率累計(jì)分布)。Tippett圖中向右延伸的曲線代表同一說(shuō)話人之間的比較，向左延伸的曲線代表不同說(shuō)話人之間的比較。兩條延伸曲線的交叉點(diǎn)對(duì)應(yīng)的概率代表等誤率(EER)。兩條曲線分得越開(kāi)，交叉點(diǎn)越低，識(shí)別的效果越好。

3 結(jié)果與討論

3.1 不同采樣率語(yǔ)音數(shù)據(jù)的驗(yàn)證結(jié)果

3.1.1 8 kHz采樣率語(yǔ)音數(shù)據(jù)的識(shí)別結(jié)果

由于現(xiàn)實(shí)案件中待檢語(yǔ)音材料來(lái)源于手機(jī)通話錄音的情況較為常見(jiàn)，為了檢驗(yàn)自動(dòng)識(shí)別系統(tǒng)在案件條件下的性能表現(xiàn)，首先將用于訓(xùn)練系統(tǒng)識(shí)別背景模型和評(píng)測(cè)系統(tǒng)的語(yǔ)音采樣率降為手機(jī)通話錄音常見(jiàn)的8 kHz。然后按照2.2所示的測(cè)試方法，使用6 112人的8 kHz采樣率語(yǔ)音訓(xùn)練說(shuō)話人識(shí)別的背景模型，從選定的VoxCeleb1訓(xùn)練集中抽取300人和500人的語(yǔ)音數(shù)據(jù)進(jìn)行PLDA模型自適應(yīng)訓(xùn)練，選擇測(cè)試集之外的40人語(yǔ)音數(shù)據(jù)作為校準(zhǔn)集，使用VoxCeleb1數(shù)據(jù)集中自帶的40人測(cè)試語(yǔ)音數(shù)據(jù)作為測(cè)試集進(jìn)行測(cè)試評(píng)價(jià)。使用留一法將測(cè)試集中每位說(shuō)話人的語(yǔ)音進(jìn)行交叉比較測(cè)試，該過(guò)程共產(chǎn)生了179 700個(gè)語(yǔ)音比較對(duì)，其中同一話者語(yǔ)音比較對(duì)為4 200個(gè)，不同話者語(yǔ)音比較對(duì)為175 500個(gè)。

8 kHz采樣率語(yǔ)音數(shù)據(jù)的系統(tǒng)識(shí)別結(jié)果見(jiàn)表2。

表2 8 kHz采樣率語(yǔ)音數(shù)據(jù)的系統(tǒng)識(shí)別結(jié)果

表2的識(shí)別結(jié)果表明，未使用PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)Cllr值經(jīng)校準(zhǔn)后為0.874，等誤率EER的值為0.194。使用300人語(yǔ)音的PLDA自適應(yīng)訓(xùn)練集模型系統(tǒng)的Cllr值未進(jìn)行校準(zhǔn)的情況下為0.632，校準(zhǔn)后達(dá)到了0.273，校準(zhǔn)后的系統(tǒng)相較于未使用PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)性能提升了約69%，系統(tǒng)整體的EER值為0.070，比未進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)降低了約64%。將PLDA自適應(yīng)訓(xùn)練集規(guī)模擴(kuò)大為500人后，經(jīng)校準(zhǔn)的識(shí)別系統(tǒng)的Cllr值為0.269，EER值為0.065，與未使用PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)相比，識(shí)別性能提升了約69.2%，系統(tǒng)的EER值降低了約66%，識(shí)別效果在本組測(cè)試中達(dá)到最佳。此外，經(jīng)過(guò)校準(zhǔn)系統(tǒng)的Cllr值明顯小于未校準(zhǔn)系統(tǒng)，這說(shuō)明校準(zhǔn)是一個(gè)非常重要的步驟。只有經(jīng)過(guò)校準(zhǔn)的系統(tǒng)，才能更好地反映系統(tǒng)的實(shí)際性能。

2.市場(chǎng)化程度。不管是對(duì)于城鎮(zhèn)發(fā)展還是產(chǎn)業(yè)發(fā)展來(lái)說(shuō)，要素資源的合理配置都起到重要作用，而資源如果要實(shí)現(xiàn)合理配置、達(dá)到理論上帕累托最優(yōu)的狀況，就必須推進(jìn)市場(chǎng)化程度的提升。市場(chǎng)化水平的提高不但可以提升經(jīng)濟(jì)活力和發(fā)展效率，促進(jìn)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)、使得勞動(dòng)分工合理、加速勞動(dòng)力的流動(dòng)，而且也會(huì)使私有資本更多地參與到基礎(chǔ)設(shè)施和公共服務(wù)領(lǐng)域的投資，對(duì)城市功能的完善起到重要的推動(dòng)作用。

8 kHz采樣率語(yǔ)音數(shù)據(jù)的系統(tǒng)驗(yàn)證Tippett圖見(jiàn)圖3～5。圖中，向右上升的曲線代表同一說(shuō)話人語(yǔ)音的比較結(jié)果，向左上升的曲線代表不同說(shuō)話人語(yǔ)音的比較結(jié)果。

圖3 未進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)識(shí)別結(jié)果(8 kHz采樣率語(yǔ)音數(shù)據(jù))

圖4 300人語(yǔ)音數(shù)據(jù)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別結(jié)果(8 kHz采樣率語(yǔ)音數(shù)據(jù))

圖5 500人語(yǔ)音數(shù)據(jù)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別結(jié)果(8 kHz采樣率語(yǔ)音數(shù)據(jù))

從測(cè)試結(jié)果看，基于8 kHz采樣率語(yǔ)音的d-vector PLDA模型系統(tǒng)的識(shí)別效果良好，但仍有提升的空間，經(jīng)校準(zhǔn)后的說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的識(shí)別性能更優(yōu)，且進(jìn)行PLDA自適應(yīng)訓(xùn)練能有效提升系統(tǒng)的識(shí)別性能。

3.1.2 16 kHz采樣率語(yǔ)音數(shù)據(jù)的系統(tǒng)識(shí)別結(jié)果

近年來(lái)，便攜錄音設(shè)備的發(fā)展為高質(zhì)量錄音的獲取提供了極大便利。隨著公安部門聲紋數(shù)據(jù)庫(kù)建設(shè)工作的推進(jìn)，規(guī)范、統(tǒng)一的標(biāo)準(zhǔn)采集設(shè)備已經(jīng)成為收集語(yǔ)音樣本數(shù)據(jù)的必備工具。一般來(lái)講，標(biāo)準(zhǔn)采集設(shè)備默認(rèn)的語(yǔ)音采樣率為16 kHz。為了模擬涉及該類錄音案件的說(shuō)話人識(shí)別情況，將用于訓(xùn)練系統(tǒng)識(shí)別背景模型和評(píng)測(cè)系統(tǒng)的語(yǔ)音采樣率設(shè)置為16 kHz，然后按照2.2所述方法對(duì)系統(tǒng)識(shí)別性能進(jìn)行評(píng)測(cè)。表3為基于16 kHz采樣率語(yǔ)音的d-vector PLDA說(shuō)話人模型的系統(tǒng)識(shí)別結(jié)果。

表3 16 kHz采樣率語(yǔ)音數(shù)據(jù)的系統(tǒng)識(shí)別結(jié)果

表3的結(jié)果表明，未進(jìn)行PLDA自適應(yīng)訓(xùn)練步驟的系統(tǒng)經(jīng)校準(zhǔn)后的Cllr值為0.652，EER值為0.096，雖然具有一定識(shí)別效果，但識(shí)別性能仍有待提升。使用300人語(yǔ)音PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)Cllr值在校準(zhǔn)前和校準(zhǔn)后分別為0.543和0.187，EER值為0.042，校準(zhǔn)后的系統(tǒng)性能有大幅提升。該系統(tǒng)與未進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)相比，識(shí)別性能提升了約71%，EER值降低了約56%?；?00人語(yǔ)音PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)校準(zhǔn)前和校準(zhǔn)后的Cllr值分別為0.474和0.180，EER值達(dá)到了0.036，與未使用PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)相比，該系統(tǒng)的識(shí)別性能提升了約72%，EER值降低了62.5%，整體識(shí)別效果為本組最佳。

將本系統(tǒng)與8 kHz采樣率語(yǔ)音條件下的系統(tǒng)識(shí)別性能進(jìn)行比較后可知，在未使用PLDA自適應(yīng)訓(xùn)練集的情況下，基于16 kHz采樣率語(yǔ)音的d-vector PLDA模型系統(tǒng)識(shí)別效果相對(duì)于基于8 kHz采樣率語(yǔ)音的系統(tǒng)提升了約25%，EER值降低了約51%；在使用300人語(yǔ)音PLDA自適應(yīng)訓(xùn)練集的條件下，本系統(tǒng)相較于基于8 kHz采樣率語(yǔ)音的系統(tǒng)識(shí)別性能提升了約32%，EER值降低了約40%；在使用500人語(yǔ)音PLDA自適應(yīng)訓(xùn)練集的條件下，本系統(tǒng)的識(shí)別性能提升了約33%，EER值降低了約45%。整體而言，基于16 kHz采樣率語(yǔ)音的d-vector PLDA模型系統(tǒng)的識(shí)別效果相較于基于8 kHz采樣率語(yǔ)音的系統(tǒng)具有顯著提升。

綜上所述，基于16 kHz采樣率語(yǔ)音的d-vector PLDA模型系統(tǒng)的識(shí)別性能優(yōu)異，系統(tǒng)的識(shí)別性能與語(yǔ)音采樣率的高低具有很強(qiáng)的相關(guān)性。一般來(lái)講，基于高采樣率語(yǔ)音訓(xùn)練測(cè)試的模型系統(tǒng)識(shí)別效果優(yōu)于基于低采樣率語(yǔ)音的模型系統(tǒng)，因此在進(jìn)行模型訓(xùn)練時(shí)應(yīng)盡量使用高質(zhì)量語(yǔ)音，從而保證系統(tǒng)的識(shí)別效果。除此之外，校準(zhǔn)可以提升系統(tǒng)的識(shí)別性能，且PLDA自適應(yīng)訓(xùn)練集的使用對(duì)系統(tǒng)識(shí)別效果的提升具有正向作用，該結(jié)論與前述結(jié)果一致。

16 kHz采樣率語(yǔ)音數(shù)據(jù)的系統(tǒng)驗(yàn)證的Tippett圖見(jiàn)圖6～8。

圖6 未進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)識(shí)別結(jié)果(16 kHz采樣率語(yǔ)音數(shù)據(jù))

圖7 300人語(yǔ)音數(shù)據(jù)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別結(jié)果(16 kHz采樣率語(yǔ)音數(shù)據(jù))

圖8 500人語(yǔ)音數(shù)據(jù)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別結(jié)果(16 kHz采樣率語(yǔ)音數(shù)據(jù))

3.2 基于不同規(guī)模訓(xùn)練集的系統(tǒng)驗(yàn)證結(jié)果

表4的系統(tǒng)識(shí)別結(jié)果表明，不同規(guī)模的PLDA自適應(yīng)訓(xùn)練集對(duì)系統(tǒng)識(shí)別性能影響程度不同。將語(yǔ)音采樣率固定在8 kHz時(shí)，分別使用100～500人的語(yǔ)音進(jìn)行PLDA自適應(yīng)訓(xùn)練，校準(zhǔn)后的說(shuō)話人識(shí)別系統(tǒng)Cllr值分別為0.340、0.298、0.273、0.271和0.269，全部處于0.25～0.35的區(qū)間內(nèi)，平均值為0.290 2；系統(tǒng)的EER值分別為0.095、0.076、0.070、0.068和0.065，平均值為0.074 8，整體識(shí)別性能良好。基于上述結(jié)果可知，系統(tǒng)的識(shí)別效果隨著PLDA自適應(yīng)訓(xùn)練集規(guī)模的擴(kuò)大而提高，且基于500人語(yǔ)音(本組最大規(guī)模)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別性能最佳，相較于使用100人語(yǔ)音(本組最小規(guī)模)進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)，其識(shí)別性能提升了約20.9%，EER值降低了約31.6%，系統(tǒng)間的識(shí)別性能差距較為明顯。PLDA自適應(yīng)訓(xùn)練集規(guī)模達(dá)到300人時(shí)，系統(tǒng)識(shí)別性能已趨于穩(wěn)定，并達(dá)到相對(duì)較好的識(shí)別效果，但較大規(guī)模的PLDA自適應(yīng)訓(xùn)練集對(duì)系統(tǒng)識(shí)別性能的提升效果更為顯著。

表4 基于不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別結(jié)果

將語(yǔ)音采樣率固定為16 kHz時(shí)，分別使用 100～500人語(yǔ)音PLDA自適應(yīng)訓(xùn)練集進(jìn)行說(shuō)話人識(shí)別驗(yàn)證，系統(tǒng)的Cllr值經(jīng)校準(zhǔn)后分別為0.233、0.197、0.187、0.184和0.180，平均值為0.196 2；EER值分別為0.056、0.046、0.042、0.036和0.036，平均值為0.043 2。整體而言，系統(tǒng)識(shí)別效果較為理想，且基于500人語(yǔ)音(本組最大規(guī)模)進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)識(shí)別性能達(dá)到最優(yōu)，相較于使用100人語(yǔ)音(本組最小規(guī)模)PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)，其識(shí)別性能提升了約22.7%，EER值降低了約35.7%。綜合看來(lái)，系統(tǒng)的識(shí)別性能與使用的PLDA自適應(yīng)訓(xùn)練集規(guī)模呈正相關(guān)，且PLDA自適應(yīng)訓(xùn)練集規(guī)模達(dá)到300人時(shí)系統(tǒng)識(shí)別效果已相對(duì)較優(yōu)，與前述結(jié)果一致。

圖9和圖10為不同語(yǔ)音采樣率條件下基于不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別Cllr值和EER值變化折線圖，可更為直觀地展示系統(tǒng)識(shí)別結(jié)果變化趨勢(shì)。

圖9 基于不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別Cllr值折線圖

圖10 基于不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的系統(tǒng)識(shí)別EER值折線圖

綜上所述，使用較大規(guī)模的PLDA自適應(yīng)訓(xùn)練集對(duì)系統(tǒng)識(shí)別性能的提升效果更加明顯。本測(cè)試中，隨著PLDA自適應(yīng)訓(xùn)練集規(guī)模的增大，系統(tǒng)識(shí)別性能更趨穩(wěn)定，且PLDA自適應(yīng)訓(xùn)練集規(guī)模達(dá)到300人時(shí)，系統(tǒng)的識(shí)別效果已相對(duì)較優(yōu)，可以達(dá)到實(shí)用需求。使用500人語(yǔ)音進(jìn)行PLDA自適應(yīng)訓(xùn)練的系統(tǒng)識(shí)別性能最佳，但仍有進(jìn)步空間。下一步，可繼續(xù)擴(kuò)大PLDA自適應(yīng)訓(xùn)練集的規(guī)模對(duì)系統(tǒng)識(shí)別性能進(jìn)行評(píng)測(cè)。另外，還需要使用更多不同言語(yǔ)風(fēng)格和質(zhì)量條件的語(yǔ)音進(jìn)行測(cè)試，以進(jìn)一步評(píng)估系統(tǒng)在多種案件現(xiàn)實(shí)條件下的準(zhǔn)確性和可靠性。

4 結(jié)論

本文選用開(kāi)源語(yǔ)音數(shù)據(jù)集VoxCeleb1和VoxCeleb2作為系統(tǒng)評(píng)測(cè)語(yǔ)料，在基于不同采樣率語(yǔ)音數(shù)據(jù)和不同規(guī)模PLDA自適應(yīng)訓(xùn)練集的情況下，使用似然比證據(jù)評(píng)價(jià)體系對(duì)基于d-vector PLDA模型的法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)進(jìn)行了識(shí)別性能的驗(yàn)證與比較研究。研究結(jié)果表明，在典型的8 kHz采樣率的語(yǔ)音訓(xùn)練測(cè)試條件下，系統(tǒng)識(shí)別性能良好。而高采樣率語(yǔ)音訓(xùn)練測(cè)試的模型系統(tǒng)識(shí)別效果優(yōu)于低采樣率語(yǔ)音的模型系統(tǒng)，較大規(guī)模的PLDA自適應(yīng)訓(xùn)練集對(duì)系統(tǒng)識(shí)別性能的提升更有幫助，但需要綜合考慮自適應(yīng)訓(xùn)練集的采集成本?？傮w而言，基于深度神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的說(shuō)話人自動(dòng)識(shí)別系統(tǒng)識(shí)別性能良好，具有較高的應(yīng)用價(jià)值和潛力。

此外，本系統(tǒng)在該類場(chǎng)景數(shù)據(jù)的識(shí)別性能較為理想，但并不代表該系統(tǒng)在其他實(shí)際案件語(yǔ)音條件下的驗(yàn)證測(cè)試中都能夠達(dá)到同樣效果。司法實(shí)踐中，每個(gè)案件的場(chǎng)景或多或少都有一定差別，如信道設(shè)備、環(huán)境噪聲、言語(yǔ)風(fēng)格等，導(dǎo)致其數(shù)據(jù)質(zhì)量和特點(diǎn)也會(huì)有所差別。因此，必須進(jìn)行系統(tǒng)驗(yàn)證，才能科學(xué)客觀地評(píng)價(jià)法庭說(shuō)話人自動(dòng)識(shí)別系統(tǒng)的準(zhǔn)確性和可靠性。在科學(xué)研究中，應(yīng)該盡可能對(duì)豐富多樣的、能夠反映實(shí)際案件條件的語(yǔ)音數(shù)據(jù)進(jìn)行驗(yàn)證。在司法實(shí)踐中，還要基于被檢案件的具體語(yǔ)音條件進(jìn)行驗(yàn)證。而對(duì)于不同的方法系統(tǒng)，開(kāi)展基于現(xiàn)實(shí)案件語(yǔ)音條件下的系統(tǒng)性能驗(yàn)證具有雙重價(jià)值，一方面可以及時(shí)發(fā)現(xiàn)與解決自動(dòng)識(shí)別系統(tǒng)在現(xiàn)實(shí)應(yīng)用中存在的問(wèn)題，改進(jìn)和提升系統(tǒng)的識(shí)別性能；另一方面能夠表明不同典型場(chǎng)景數(shù)據(jù)條件下所使用系統(tǒng)方法的準(zhǔn)確性和可靠性，為司法實(shí)踐提供客觀的量化依據(jù)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放