亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于案件現(xiàn)實(shí)條件的法庭說(shuō)話人識(shí)別系統(tǒng)驗(yàn)證

2019-10-23 06:34:54張翠玲

中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版) 2019年3期

張翠玲

(1.西南政法大學(xué)刑事偵查學(xué)院，重慶 401120； 2.重慶高校刑事科學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室，重慶 401120)

0 引言

法庭說(shuō)話人識(shí)別通過(guò)分析比較案件錄音證據(jù)中未知身份的說(shuō)話人語(yǔ)音(檢材語(yǔ)音)與已知身份的嫌疑人語(yǔ)音(樣本語(yǔ)音)，進(jìn)而推斷二者的同源性。隨著該技術(shù)的不斷發(fā)展，各國(guó)法庭科學(xué)實(shí)驗(yàn)室在特征提取、分析方法、識(shí)別系統(tǒng)以及評(píng)價(jià)體系等方面出現(xiàn)了多態(tài)化局面。近年來(lái)，國(guó)際上對(duì)于法庭科學(xué)的要求不斷提高，在客觀性、透明性、重復(fù)性等要求以外，還專門提出了驗(yàn)證要求：在運(yùn)用任何法庭分析方法或系統(tǒng)之前，都應(yīng)該基于被檢案件實(shí)際條件進(jìn)行系統(tǒng)驗(yàn)證和評(píng)價(jià)。這是保證其司法應(yīng)用的前提和基礎(chǔ)。

美國(guó)前總統(tǒng)奧巴馬的科學(xué)技術(shù)顧問(wèn)委員會(huì)在2016年9月發(fā)布的PCAST報(bào)告[1]中指出：為了確保法庭科學(xué)中特征比較方法的科學(xué)有效性，“必須明確法庭分析方法有效性和可靠性的科學(xué)標(biāo)準(zhǔn)”“必須對(duì)具體的法庭分析方法進(jìn)行評(píng)估，以明確其是否已被科學(xué)地確定為有效可靠”。澳大利亞及新西蘭等國(guó)的法庭科學(xué)專家聯(lián)合發(fā)表聲明對(duì)此予以支持[2]。Lander指出：“如果沒(méi)有真正的實(shí)驗(yàn)證據(jù)證明，法庭特征比較方法能夠在適合其預(yù)期用途的準(zhǔn)確度水平以及與此用途合理相關(guān)的情況下得出結(jié)論，檢驗(yàn)人員得出兩個(gè)樣本可能同源的結(jié)論是毫無(wú)意義的。”[3]英國(guó)也明確規(guī)定：“所有的法庭分析方法和程序都要進(jìn)行驗(yàn)證”，并且發(fā)布了驗(yàn)證細(xì)則[4]。

鑒于國(guó)際上對(duì)“方法驗(yàn)證”的迫切要求和法庭說(shuō)話人識(shí)別司法實(shí)踐的需要，本文首先從國(guó)際上對(duì)于科學(xué)證據(jù)的要求出發(fā)，闡明進(jìn)行法庭說(shuō)話人識(shí)別方法及系統(tǒng)驗(yàn)證的重要性和必要性；其次介紹系統(tǒng)驗(yàn)證的基本原則和程序方法；最后通過(guò)一項(xiàng)多系統(tǒng)驗(yàn)證評(píng)價(jià)的范例，說(shuō)明司法實(shí)踐中應(yīng)該如何進(jìn)行法庭說(shuō)話人識(shí)別系統(tǒng)的驗(yàn)證評(píng)測(cè)。

1 系統(tǒng)驗(yàn)證的基本原則

本文的“系統(tǒng)”為廣義概念，是特征方法的總稱，包括法庭說(shuō)話人識(shí)別的全部過(guò)程，如語(yǔ)音前期處理、參數(shù)特征的提取和測(cè)量，特征的分析比較、統(tǒng)計(jì)建模、失配補(bǔ)償以及識(shí)別評(píng)分等。目前，法庭說(shuō)話人識(shí)別的方法主要有基于人工專家分析評(píng)價(jià)的聽(tīng)覺(jué)-語(yǔ)音學(xué)方法和基于自動(dòng)技術(shù)的半自動(dòng)-自動(dòng)識(shí)別方法。不管基于哪種方法，從語(yǔ)音前期處理開(kāi)始，到識(shí)別結(jié)果輸出為止，任何一種組合都可以稱之為一套“系統(tǒng)”。人工專家也是系統(tǒng)的一部分。

系統(tǒng)驗(yàn)證的基本原則是：基于被檢案件，在反映案件實(shí)際條件下，利用結(jié)果已知的語(yǔ)音數(shù)據(jù)庫(kù)進(jìn)行系統(tǒng)訓(xùn)練和驗(yàn)證測(cè)試。語(yǔ)音具有較大的變異性，不同錄音條件(講話環(huán)境、背景噪聲、設(shè)備信道、存儲(chǔ)格式等)和不同的言語(yǔ)條件(情緒、心理、對(duì)象、場(chǎng)合、疾病等)都會(huì)使語(yǔ)音產(chǎn)生變化，進(jìn)而影響系統(tǒng)的性能。實(shí)驗(yàn)室條件下的驗(yàn)證結(jié)果并不能代表實(shí)際案件條件下的系統(tǒng)性能，案件現(xiàn)實(shí)條件下的系統(tǒng)性能往往比實(shí)驗(yàn)室條件差，有時(shí)甚至差很多，因此，基于實(shí)際案件條件進(jìn)行驗(yàn)證測(cè)試是必須的。此外，由于案件條件各有不同，還應(yīng)該進(jìn)行個(gè)案條件下的驗(yàn)證測(cè)試。

2 系統(tǒng)驗(yàn)證的程序方法

首先，利用訓(xùn)練數(shù)據(jù)進(jìn)行系統(tǒng)訓(xùn)練；然后，利用測(cè)試數(shù)據(jù)進(jìn)行系統(tǒng)測(cè)試；最后，將測(cè)試結(jié)果與真實(shí)情況進(jìn)行比較，并通過(guò)相應(yīng)的性能指標(biāo)來(lái)評(píng)價(jià)系統(tǒng)識(shí)別的準(zhǔn)確性和可靠性。

2.1 訓(xùn)練和測(cè)試數(shù)據(jù)

司法實(shí)踐中很難采集全代表所有案件條件的語(yǔ)音數(shù)據(jù)，但是建立具有代表性、大規(guī)模的基礎(chǔ)語(yǔ)音數(shù)據(jù)庫(kù)還是必要且可行的。首先，建立一個(gè)實(shí)驗(yàn)室條件下的、具有代表性的、反映典型案件言語(yǔ)風(fēng)格的高質(zhì)量基礎(chǔ)語(yǔ)音數(shù)據(jù)庫(kù)[5]。然后，根據(jù)被檢案件的實(shí)際條件進(jìn)行語(yǔ)音信號(hào)的模擬處理。用于系統(tǒng)驗(yàn)證的所有訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)均要模擬實(shí)際案件的檢材條件和樣本條件，以代表相關(guān)人群并反映實(shí)際案件的言語(yǔ)風(fēng)格和錄音條件。至于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的規(guī)模，原則上應(yīng)該越大越好。但是，考慮到現(xiàn)實(shí)的成本和時(shí)效要求，訓(xùn)練數(shù)據(jù)庫(kù)和測(cè)試數(shù)據(jù)庫(kù)的規(guī)模應(yīng)該至少在幾十人以上，才能保證合理的系統(tǒng)性能。當(dāng)然，系統(tǒng)的性能能否滿足要求，還要取決于法庭。

2.2 驗(yàn)證方法

系統(tǒng)驗(yàn)證分為訓(xùn)練、測(cè)試和評(píng)價(jià)3部分。訓(xùn)練部分是根據(jù)每個(gè)系統(tǒng)的實(shí)際情況，采用訓(xùn)練集數(shù)據(jù)進(jìn)行系統(tǒng)訓(xùn)練，具體訓(xùn)練方法不做要求。但是對(duì)于測(cè)試部分，必須使用全部測(cè)試集數(shù)據(jù)進(jìn)行測(cè)試。將測(cè)試集中的每個(gè)檢材條件錄音與每個(gè)樣本條件錄音進(jìn)行全交叉比較，最后對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)分析。

國(guó)際上，法庭說(shuō)話人識(shí)別正在經(jīng)歷新舊范式的轉(zhuǎn)換。新范式以似然比(Likelihood Ratio，LR)框架為核心，基于相關(guān)數(shù)據(jù)、定量測(cè)量和統(tǒng)計(jì)模型計(jì)算似然比，通過(guò)LR值量化評(píng)估語(yǔ)音證據(jù)的價(jià)值[6]。LR框架已經(jīng)成為國(guó)際法庭證據(jù)評(píng)價(jià)的標(biāo)準(zhǔn)框架，本文討論的也是基于LR框架的法庭說(shuō)話人識(shí)別系統(tǒng)。當(dāng)然，對(duì)于主要依靠專家主觀判斷的“專家”系統(tǒng)和以“是或否”的二分性結(jié)果為輸出的自動(dòng)系統(tǒng)也可以進(jìn)行同樣的驗(yàn)證，只不過(guò)評(píng)價(jià)的性能指標(biāo)略有差別而已。然而，需要指出的是，由于訓(xùn)練和測(cè)試的規(guī)模較大，全交叉比較耗時(shí)費(fèi)力，對(duì)“專家”系統(tǒng)來(lái)說(shuō)，進(jìn)行這種驗(yàn)證的現(xiàn)實(shí)性和可操作性都很差，甚至幾乎不可能。

2.3 評(píng)價(jià)指標(biāo)

對(duì)系統(tǒng)進(jìn)行識(shí)別測(cè)試，結(jié)果統(tǒng)一以LR數(shù)值形式輸出。計(jì)算評(píng)價(jià)指標(biāo)，并以數(shù)值和圖示形式展示。系統(tǒng)的準(zhǔn)確性和可靠性評(píng)價(jià)指標(biāo)[7]主要有：對(duì)數(shù)似然比代價(jià)函數(shù)(Log likelihood ratio cost，Cllr)、95%的可靠區(qū)間(Credible Interval，CI)和等誤率(Equal Error Rate，EER)。Cllr的計(jì)算公式[8]如下：

(1)

式中，Ns和Nd分別是同一話者和不同話者測(cè)試對(duì)的數(shù)量，LRs和LRd分別是同一話者和不同話者測(cè)試對(duì)比較的LR值。Cllr值小于1，說(shuō)明系統(tǒng)有效。Cllr值越小，系統(tǒng)的準(zhǔn)確性越好。

95%CI測(cè)量的是來(lái)自同一話者自身比較的多個(gè)LR值和來(lái)自不同話者之間比較的多個(gè)LR值的變化分布情況，以±log10來(lái)標(biāo)度，具體計(jì)算方法見(jiàn)文獻(xiàn)[9]。95%CI值越小，系統(tǒng)的可靠性越好。等誤率則是錯(cuò)誤接受(認(rèn)定)率和錯(cuò)誤拒絕(否定)率相等時(shí)的概率，與判別先驗(yàn)和閾限設(shè)定密切相關(guān)。等誤率越低，系統(tǒng)的準(zhǔn)確性越好。

系統(tǒng)評(píng)價(jià)圖示主要有：Cllr-95%CI圖、Tippett圖(Tippett Plot)、檢測(cè)錯(cuò)誤權(quán)衡圖(Detection Error Tradeoff Plot，DET plot)和期望交叉熵圖(Empirical Cross Entropy plot, ECE plot)[9]。

Cllr-95%CI圖是系統(tǒng)準(zhǔn)確性和可靠性的綜合評(píng)價(jià)。Tippett圖只是準(zhǔn)確性評(píng)價(jià)，但包含信息豐富?？傮w上，同一話者比較曲線與不同話者比較曲線的分開(kāi)程度越大，準(zhǔn)確性越好。DET 圖只顯示錯(cuò)誤接受率和錯(cuò)誤拒絕率之間的關(guān)系，曲線越接近原點(diǎn)，系統(tǒng)的準(zhǔn)確性越好。而沿原點(diǎn)畫對(duì)角線與曲線相交點(diǎn)對(duì)應(yīng)的值，就是等誤率。ECE是總體Cllr的擴(kuò)展，使用指定的先驗(yàn)比和測(cè)試的似然比計(jì)算后驗(yàn)比，其計(jì)算公式[9]如下：

(2)

式中，Pss和Pds分別是同一話者假設(shè)和不同話者假設(shè)的先驗(yàn)概率，LRss和LRds分別是同一話者和不同話者測(cè)試對(duì)比較的LR值，Nss和Nds分別是同一話者和不同話者測(cè)試對(duì)的數(shù)量。ECE圖表明系統(tǒng)校準(zhǔn)的情況，交叉熵的值越小，校準(zhǔn)優(yōu)化前后的兩條曲線越接近，系統(tǒng)的性能越好。關(guān)于這些指標(biāo)和圖示的詳細(xì)解釋見(jiàn)文獻(xiàn)[9]。

3 驗(yàn)證范例

本文以國(guó)際上開(kāi)展的一項(xiàng)法庭說(shuō)話人識(shí)別系統(tǒng)驗(yàn)證項(xiàng)目(forensic_eval_01)[9]為例，說(shuō)明系統(tǒng)驗(yàn)證的具體程序和方法。參與該驗(yàn)證項(xiàng)目的各個(gè)實(shí)驗(yàn)室基于同一個(gè)反映一起實(shí)際案件條件的語(yǔ)音數(shù)據(jù)庫(kù)，對(duì)各自的法庭說(shuō)話人識(shí)別系統(tǒng)進(jìn)行測(cè)試評(píng)價(jià)，結(jié)果發(fā)表在國(guó)際期刊“Speech Communication”專版。目前，已經(jīng)完成驗(yàn)證測(cè)試的法庭說(shuō)話人識(shí)別系統(tǒng)有4個(gè)，均為自動(dòng)識(shí)別系統(tǒng)。關(guān)于該項(xiàng)目的詳細(xì)情況見(jiàn)文獻(xiàn)[9-12]。

3.1 訓(xùn)練和測(cè)試數(shù)據(jù)

實(shí)際案件為一起詐騙案。檢材錄音為座機(jī)電話播打到呼叫中心的自動(dòng)電話錄音，內(nèi)含辦公室背景噪音，檢材錄音采用壓縮格式。對(duì)話內(nèi)容包含姓名、地址、號(hào)碼和字母等信息。未知說(shuō)話人語(yǔ)音時(shí)長(zhǎng)為46 s。樣本語(yǔ)音為警察訊問(wèn)錄音，有較大的室內(nèi)混響和通風(fēng)系統(tǒng)噪音，與檢材不同的壓縮格式。檢材語(yǔ)音和樣本語(yǔ)音均為成年男性澳大利亞英語(yǔ)口音。

訓(xùn)練和測(cè)試錄音選自澳大利亞英語(yǔ)數(shù)據(jù)庫(kù)[13]。首先，采用信號(hào)處理技術(shù)，模擬實(shí)際案件的電話傳輸信道、壓縮格式。然后，再添加相應(yīng)噪聲和混響。最后，形成兩組錄音：一組反映案件中檢材錄音的言語(yǔ)風(fēng)格和錄音條件；另一組反映案件中樣本錄音的言語(yǔ)風(fēng)格和錄音條件。用于系統(tǒng)驗(yàn)證的語(yǔ)音數(shù)據(jù)庫(kù)中共包含166名成年男性的非同期錄音：其中，訓(xùn)練集105人，共423個(gè)錄音(檢材條件191個(gè)，樣本條件232個(gè))；測(cè)試集61人，共223個(gè)錄音(檢材條件61個(gè)，樣本條件162個(gè))。

3.2 驗(yàn)證方法及評(píng)價(jià)指標(biāo)

首先，采用訓(xùn)練數(shù)據(jù)進(jìn)行系統(tǒng)訓(xùn)練(具體訓(xùn)練方法不做要求，使用全部數(shù)據(jù)或部分?jǐn)?shù)據(jù)均可)，然后統(tǒng)一使用測(cè)試集的全部數(shù)據(jù)進(jìn)行測(cè)試。將測(cè)試集中的每個(gè)檢材條件錄音與每個(gè)樣本條件錄音進(jìn)行全交叉比較，共得到111個(gè)同一話者比較對(duì)和9720個(gè)不同話者比較對(duì)。研究人員根據(jù)自己的研究問(wèn)題設(shè)計(jì)方案，然后進(jìn)行相應(yīng)訓(xùn)練和測(cè)試。系統(tǒng)結(jié)果輸出均為L(zhǎng)R值。評(píng)價(jià)指標(biāo)統(tǒng)一采用Cllr、95%CI和EER。圖示統(tǒng)一采用Cllr-95%CI圖、Tippett圖、DET 圖和ECE圖[9]。

3.3 驗(yàn)證系統(tǒng)及測(cè)試內(nèi)容

3.3.1 Batvox 3.1

這是AGNITI公司開(kāi)發(fā)的專業(yè)法庭說(shuō)話人識(shí)別系統(tǒng)。提取的聲學(xué)特征為19個(gè)MFCC及其delta，頻率范圍為300～4 000 Hz。倒譜平均減法(Cepstral Mean Subtraction，CMS)、相對(duì)光譜濾波(Relative Spectral Filtering，RASTA)和特征彎折(Feature Warping，F(xiàn)W)技術(shù)用于特征級(jí)失配補(bǔ)償。系統(tǒng)使用GMM-UBM模型方法計(jì)算得分。通用背景模型(UBM)和說(shuō)話人模型均為高斯混合模型(GMM)，說(shuō)話人模型通過(guò)來(lái)自UBM的最大后驗(yàn)(Maximum A Posteriori，MAP)估計(jì)進(jìn)行自適應(yīng)訓(xùn)練。擾動(dòng)屬性投影(Nuisance Attribute Projection，NAP)作為失配補(bǔ)償技術(shù)應(yīng)用于GMM均值。

用戶可以輸入一組代表案件條件的“參考人群(reference population)”錄音，也可以讓系統(tǒng)從全部參考錄音中自動(dòng)篩選參考數(shù)據(jù)子集。用戶還可以輸入一組代表相關(guān)人群和檢材條件的“偽冒者(imposter)”錄音。系統(tǒng)首先計(jì)算檢材語(yǔ)音與樣本語(yǔ)音模型比較的得分，然后進(jìn)行得分轉(zhuǎn)換，在變換得分值處，同一話者模型概率與不同話者模型概率之比，即為L(zhǎng)R值。

該測(cè)試關(guān)注的問(wèn)題是訓(xùn)練數(shù)據(jù)量大小對(duì)系統(tǒng)性能的影響。從訓(xùn)練數(shù)據(jù)中隨機(jī)選擇25、50、75和100人等4個(gè)不同規(guī)模的數(shù)據(jù)集進(jìn)行系統(tǒng)訓(xùn)練，同步使用相同數(shù)量的“偽冒者”參考數(shù)據(jù)。利用測(cè)試集分別對(duì)這4種情況進(jìn)行訓(xùn)練和識(shí)別。

3.3.2 Batvox 4.1

該系統(tǒng)是Batvox 3.1的升級(jí)版本，也是目前最新版本。新版本將GMM-UBM模型方法更新為i-vector PLDA模型方法。系統(tǒng)通過(guò)i-vector和概率線性判別分析(Probabilistic Linear Discriminant Analysis，PLDA)進(jìn)行得分計(jì)算，更好地解決了信道失配問(wèn)題。

該測(cè)試關(guān)注的問(wèn)題是使用“偽冒者”和系統(tǒng)自動(dòng)篩選參考人群子集是否能夠提高系統(tǒng)的識(shí)別效果。將訓(xùn)練集中105人(每人一個(gè))的錄音全部輸入系統(tǒng)，然后分別對(duì)使用全部105人的參考數(shù)據(jù)、使用自動(dòng)篩選的30人參考數(shù)據(jù)、使用“偽冒者”和不使用“偽冒者”等4種模式進(jìn)行訓(xùn)練和識(shí)別。

3.3.3 MSR toolkit

這是微軟研究院開(kāi)發(fā)的說(shuō)話人識(shí)別開(kāi)源工具包(Microsoft Research Identity Toolbox, 1.0版本)，是Matlab工具和程序的集合。它包括GMM-UBM和i-vector PLDA兩種模型系統(tǒng)。兩個(gè)系統(tǒng)使用的聲學(xué)特征都是14個(gè)MFCC及其delta，提取的頻率范圍為300～3 400 Hz。用戶可以自主選擇工具包進(jìn)行系統(tǒng)設(shè)計(jì)和參數(shù)選擇，如使用語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection，VAD)技術(shù)和各種失配補(bǔ)償技術(shù)等。兩種系統(tǒng)均采用邏輯回歸(Logistic Regression，LR)方法進(jìn)行從得分到LR值的轉(zhuǎn)換校準(zhǔn)。

該測(cè)試關(guān)注的問(wèn)題是3種特征級(jí)失配補(bǔ)償技術(shù)及其分別在VAD前、VAD后使用對(duì)說(shuō)話人識(shí)別的有效性問(wèn)題。這3種技術(shù)分別是倒譜均值減法(Global Cepstral Mean Subtraction, CMS)、倒譜均值減法及方差歸一化(Global Cepstral Mean and Variance Normalization，CMVN)、特征彎折(Local Feature Warping，F(xiàn)W)，將訓(xùn)練集中105人的錄音(每人一個(gè))全部輸入系統(tǒng)，然后在VAD前和VAD后分別應(yīng)用這3種補(bǔ)償技術(shù)進(jìn)行訓(xùn)練和識(shí)別。

3.4 結(jié)果及評(píng)價(jià)

3.4.1 訓(xùn)練樣本選擇對(duì)識(shí)別性能的影響

由于4種系統(tǒng)的評(píng)價(jià)采用的都是相同的訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)庫(kù)和結(jié)果評(píng)價(jià)指標(biāo)，故便于各系統(tǒng)之間的比較?，F(xiàn)將各系統(tǒng)關(guān)注的問(wèn)題及結(jié)果進(jìn)行分析比較：

Batvox是商業(yè)集成系統(tǒng)，用戶可以調(diào)整和選擇的余地很小，因此兩個(gè)版本系統(tǒng)測(cè)試的都是訓(xùn)練選擇對(duì)系統(tǒng)性能的影響。參考人群樣本的選擇，特別是樣本規(guī)模的大小對(duì)說(shuō)話人識(shí)別的影響一直是業(yè)內(nèi)關(guān)注的焦點(diǎn)問(wèn)題。兩個(gè)系統(tǒng)的測(cè)試均表明：使用最大數(shù)目訓(xùn)練樣本的測(cè)試組的識(shí)別效果最好。

對(duì)3.1版本的測(cè)試結(jié)果表明，隨著訓(xùn)練樣本數(shù)量的增大，系統(tǒng)識(shí)別的性能逐步提高，準(zhǔn)確性和可靠性均持續(xù)提高。其中，Cllr值從25人訓(xùn)練集的1.142持續(xù)下降到100人訓(xùn)練集的0.593，95%CI從1.779持續(xù)下降到1.130。25人訓(xùn)練集與50人訓(xùn)練集之間差別最大。而當(dāng)訓(xùn)練集從50人(Cllr=0.740)增加到75人(Cllr=0.696)，再增加到100人時(shí)，Cllr值并沒(méi)有呈線性漸進(jìn)。顯然，25人的樣本量是不夠的，無(wú)法滿足法庭實(shí)踐的要求。但是究竟參考人群的數(shù)目達(dá)到多少可以得到合理的或者比較理想的識(shí)別性能，并且不再需要增加樣本數(shù)，目前還無(wú)法下定論。

對(duì)4.1版本的測(cè)試結(jié)果表明，訓(xùn)練的數(shù)據(jù)量大小對(duì)系統(tǒng)的性能影響很大，而使用“偽冒者”模式可以提高系統(tǒng)的識(shí)別性能。當(dāng)使用全部訓(xùn)練數(shù)據(jù)和等數(shù)量“偽冒者”時(shí)，Cllr值從0.456下降到0.365，95%CI從1.477下降到1.156；僅使用30人的訓(xùn)練子集和等數(shù)量“偽冒者”時(shí)，Cllr值從0.646下降到0.431，95%CI從1.382下降到1.148。不管是否使用“偽冒者”模式，使用全部105人訓(xùn)練數(shù)據(jù)的識(shí)別效果都明顯好于讓系統(tǒng)從中自動(dòng)篩選30人子集的識(shí)別效果：不使用“偽冒者”模式下，Cllr值從0.604下降到0.391；使用“偽冒者”模式下，Cllr值從0.431下降到0.0.365。綜合看，Batvox4.1的系統(tǒng)性能優(yōu)于 Batvox3.1。

3.4.2 VAD及特征失配補(bǔ)償技術(shù)的有效性

VAD技術(shù)主要用于檢測(cè)語(yǔ)音信號(hào)的存在。失配補(bǔ)償技術(shù)則主要用于對(duì)錄音之間由于各種因素造成的聲學(xué)特性不匹配情況進(jìn)行補(bǔ)償，使不同話者之間的差距最大化，使這些因素的影響最小化。二者都是自動(dòng)說(shuō)話人識(shí)別中常用的語(yǔ)音處理技術(shù)。特征級(jí)失配補(bǔ)償主要適用于錄制信道和背景噪聲的補(bǔ)償。

兩種MSR toolkit系統(tǒng)測(cè)試的結(jié)果均表明：在VAD后進(jìn)行特征補(bǔ)償?shù)男Ч毡楹糜谠赩AD前進(jìn)行特征補(bǔ)償，這說(shuō)明去除噪聲和靜音幀后進(jìn)行特征失配補(bǔ)償可以提高系統(tǒng)的識(shí)別性能。此外，在3種特征補(bǔ)償技術(shù)中，效果最好的是特征彎折，最差的是倒譜均值減法。在VAD后分別使用CMS方法、CMVN方法和FW方法進(jìn)行特征失配補(bǔ)償，GMM-UBM系統(tǒng)的Cllr值分別為0.576、0.584、0.619；i-vector PLDA系統(tǒng)的Cllr值分別為0.449、0.478、0.469。綜合看，i-vector PLDA系統(tǒng)的準(zhǔn)確性指標(biāo)普遍好于GMM-UBM系統(tǒng)，可靠性指標(biāo)則恰好相反，但差別不大。

3.4.3 不同模型系統(tǒng)之間的比較

提取各系統(tǒng)中測(cè)試結(jié)果最好(Cllr值最小)的一組數(shù)據(jù)，來(lái)比較不同模型系統(tǒng)的性能。表1列出了4種系統(tǒng)最佳測(cè)試結(jié)果的主要評(píng)價(jià)指標(biāo)Cllr、95%CI、ERR值及其對(duì)應(yīng)的設(shè)置項(xiàng)。

對(duì)比4種系統(tǒng)的數(shù)據(jù)可以看出，識(shí)別性能最好的是Batvox 4.1，最差的是Batvox 3.1，MSR toolkit居中。而在相同設(shè)置條件下，Batvox和MSR的各自兩套系統(tǒng)中， i-vector PLDA系統(tǒng)的各項(xiàng)性能指標(biāo)都明顯優(yōu)于GMM-UBM系統(tǒng)。這說(shuō)明，i-vector PLDA系統(tǒng)的優(yōu)勢(shì)更為明顯。

表1 4種系統(tǒng)最佳測(cè)試組的主要評(píng)價(jià)指標(biāo)和設(shè)置項(xiàng)

3.5 主要結(jié)論

第一，用于系統(tǒng)訓(xùn)練的參考人群規(guī)模越大越好，但是究竟達(dá)到多大規(guī)模后無(wú)需再增，目前還不能下定論。第二，使用“偽冒者”模式進(jìn)行系統(tǒng)訓(xùn)練可以提高系統(tǒng)的識(shí)別效果。第三，利用VAD技術(shù)去除噪聲和靜音幀后，再進(jìn)行特征匹配補(bǔ)償可以提高系統(tǒng)的識(shí)別性能。第四，3種特征級(jí)補(bǔ)償技術(shù)中，特征彎折的效果最好。第五，i-vector PLDA系統(tǒng)的識(shí)別性能總體優(yōu)于GMM-UBM系統(tǒng)。這些結(jié)論不僅可以表明和比較各系統(tǒng)的性能，更重要的是對(duì)后續(xù)研究如何提高系統(tǒng)的性能具有指導(dǎo)意義。

4 結(jié)語(yǔ)

驗(yàn)證目的是為了表明所使用方法或系統(tǒng)的準(zhǔn)確性和可靠性，進(jìn)而為司法實(shí)踐中法庭證據(jù)的檢驗(yàn)評(píng)價(jià)提供技術(shù)支持和量化依據(jù)。因此，就法庭科學(xué)的任何分支而言，進(jìn)行這樣的方法驗(yàn)證都是必要的?；趯?shí)驗(yàn)室條件的方法驗(yàn)證不能真實(shí)反映案件現(xiàn)實(shí)條件下的系統(tǒng)性能，只有基于被檢案件的實(shí)際條件進(jìn)行測(cè)試，才能真正驗(yàn)證系統(tǒng)在現(xiàn)實(shí)條件下的準(zhǔn)確性和可靠性。此外，采用統(tǒng)一的訓(xùn)練和測(cè)試語(yǔ)音數(shù)據(jù)庫(kù)，對(duì)不同方法系統(tǒng)進(jìn)行驗(yàn)證測(cè)試和性能評(píng)價(jià)，不僅有利于系統(tǒng)之間的橫向比較，更有利于司法實(shí)踐中的重要理論和技術(shù)問(wèn)題的解決。這對(duì)于提高法庭說(shuō)話人識(shí)別技術(shù)的準(zhǔn)確性和可靠性，保證其司法應(yīng)用具有重要意義。