亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        信道差異對法庭說話人識別系統(tǒng)的影響研究

        2023-08-07 08:13:42張翠玲宋羽蕾
        中國刑警學(xué)院學(xué)報 2023年3期
        關(guān)鍵詞:檢材信道語音

        張翠玲 宋羽蕾

        (1 西南政法大學(xué)刑事偵查學(xué)院 重慶 401120;2 重慶高校刑事科學(xué)技術(shù)重點實驗室 重慶 401120)

        1 引言

        近年來,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,電信網(wǎng)絡(luò)詐騙和販毒等新型涉網(wǎng)犯罪呈現(xiàn)高發(fā)態(tài)勢,給人民安全和社會穩(wěn)定帶來了極大的威脅。由于語音具有非接觸性、遠程性和易采集等特點,因此在此類刑事案件偵辦過程中,語音證據(jù)的出現(xiàn)率越來越高,這使得對案件語音的分析及其說話人識別成為打擊這類犯罪的重要技術(shù)支撐。此外,國際國內(nèi)一直在不斷強調(diào)法庭證據(jù)的科學(xué)性,因此提高法庭說話人識別的準(zhǔn)確性、客觀性和可重復(fù)性對于其司法實踐具有重要意義。

        法庭說話人識別是指通過對案件中的檢材語音與樣本語音的比較鑒別,來推斷二者的同源性[1]。在刑事案件中,檢材語音一般來源于身份不明的犯罪分子,樣本語音一般來源于身份已知的嫌疑人。司法實踐中,檢材語音往往來自不同的設(shè)備和信道,如電話錄音、微信語音、QQ語音、客服中心錄音以及各種平臺的音視頻語音等;樣本語音則一般為面對面錄音,如錄音筆錄音、麥克風(fēng)錄音、監(jiān)控設(shè)備錄音等。有時,由于串并案件的需要,也會遇到來自相同或不同設(shè)備信道的檢材語音之間的相互比較和識別。信道是信號從發(fā)送端傳輸?shù)浇邮斩说耐ǖ溃盘柾ㄟ^信道傳輸時會出現(xiàn)衰減,而且信道上的干擾和噪聲也會對信號產(chǎn)生影響,導(dǎo)致一定程度的信號失真[2]。不同信道的帶寬和語音編碼方式不同,給語音分析及其說話人識別帶來的影響程度也不盡相同,這些都會不同程度地影響說話人鑒定的準(zhǔn)確性和可靠性。

        按照傳輸媒質(zhì)的不同,信道可分為無線信道和有線信道。相對而言,無線信道比有線信道建設(shè)更便捷,但是無線信道抗干擾能力較差。將數(shù)字技術(shù)引入無線通信領(lǐng)域,可以提高無線通信的服務(wù)質(zhì)量,因為數(shù)字信號具有很好的抗干擾能力和抗信道損耗性能。隨著數(shù)字通信技術(shù)的快速發(fā)展,現(xiàn)在的語音信號通常是以數(shù)字化方式傳輸,它比模擬通信的效率和性能都更有優(yōu)勢。為了有效利用網(wǎng)絡(luò)資源,節(jié)省傳輸時間和存儲空間,通常還要對數(shù)字語音信號進行壓縮編碼,編碼后的語音雖然能滿足語音通話的需要,但是會對原始語音的質(zhì)量和特征參數(shù)造成一定影響,進而影響到法庭說話人的識別性能。

        說話人識別領(lǐng)域?qū)π诺赖难芯渴加?0世紀(jì)90年代,自移動通信和VoIP網(wǎng)絡(luò)語音電話業(yè)務(wù)迅猛發(fā)展以來,信道問題一直是說話人識別領(lǐng)域重點關(guān)注的課題之一。移動通信、微信、客服呼叫中心是現(xiàn)實案件中出現(xiàn)較多的通訊方式,而這幾種信道條件下傳輸?shù)恼Z音都是經(jīng)過語音編碼的。語音編碼方式的不同是造成信道差異的主要原因,因此研究信道問題要關(guān)注不同語音編碼方式對語音信號的影響。國內(nèi)外說話人識別領(lǐng)域?qū)π诺赖难芯恐饕性谌齻€方向,即信道對語音特征參數(shù)的影響、信道對說話人識別系統(tǒng)性能的影響以及降低信道失配對說話人識別負面影響的方法。

        壓縮編碼會使語音的參數(shù)特征發(fā)生一定變化。為了研究電話帶通對不同元音的影響,Künzel將不同發(fā)音人的電話錄音和麥克直接錄音的元音共振峰頻率進行了比較,結(jié)果表明多數(shù)元音的F1受影響較大,F(xiàn)2基本不受影響[3]。張紅兵研究了手機內(nèi)部錄音和麥克直錄語音在聽覺上和共振峰、強度、基頻等聲學(xué)特征上的差異,發(fā)現(xiàn)信道改變使語音的聽覺特征和聲學(xué)特征均有明顯變化[4]。提取語音特征是說話人識別系統(tǒng)統(tǒng)計建模的前提,信道對語音特征參數(shù)的影響勢必會對說話人識別系統(tǒng)性能造成影響。McLaren采用i-vector PLDA(identity-vector, Probabilistic Linear Discriminant Analysis,i-vector PLDA)模型系統(tǒng)分析了常見編碼器對說話人識別性能的影響,發(fā)現(xiàn)相對于干凈語音,經(jīng)過編碼后的語音等誤率顯著提高[5]。張翠玲和Morrison使用一個人工監(jiān)督的共振峰測量系統(tǒng)和五個全自動共振峰測量系統(tǒng),基于60名女性中文語音數(shù)據(jù)庫,測量了三合元音/iau/的共振峰軌跡,并在固定電話-固定電話、移動電話-移動電話以及移動電話-固定電話三種信道傳輸條件下進行了說話人識別測試,結(jié)果表明涉及移動電話的情況下系統(tǒng)識別效果都較差[6]。王波、李弼程使用降采樣后的8KHz的TIMIT語料庫,分析了移動通信和VoIP常用的四種語音編碼對基于高斯混合模型-通用背景模型 (Gaussian Mixture Model-Universal Background Model,GMM-UBM)說話人確認系統(tǒng)的影響,實驗表明編碼速率越低對系統(tǒng)影響越大,尤其是當(dāng)訓(xùn)練語音和測試語音信道不匹配時,系統(tǒng)性能更差[7]。為了解決信道及編碼對說話人識別性能的負面影響,Quatieri和Reynolds提出了兩種利用G.729編解碼器全極點頻譜MFBs中的梅爾倒譜提升說話人識別性能的方法[8],王華朋提出了改進GMM-UBM法庭說話人自動識別系統(tǒng)的、不同信道間的說話人模型補償方法[9]。

        不同信道的特性、信道的影響及其相應(yīng)的補償技術(shù)也是法庭說話人識別領(lǐng)域的重要研究內(nèi)容。目前,國內(nèi)在這方面的研究還不充分。另外,先前的研究多是基于GMM-UBM、i-vector PLDA等模型系統(tǒng)進行的,對于新的、基于機器學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)模型系統(tǒng)的研究還有待加強。為此,本文以三種典型的信道語音為研究對象,利用x-vector PLDA模型的法庭說話人自動識別系統(tǒng),開展信道匹配和不匹配兩種情況下的說話人識別性能測試,并基于似然比框架進行影響程度的量化評估,進而為其司法實踐提供參考和依據(jù)。

        2 三種信道錄音文件的特點

        2.1 電話通話信道

        目前,移動電話已經(jīng)非常普及,很多電話都自帶通話錄音功能。因此,實際案件中的很多檢材語音來自移動電話通話錄音。移動通信系統(tǒng)中,使用最廣泛的語音標(biāo)準(zhǔn)是自適應(yīng)多速率(Adaptive Multi-Rate,AMR)語音編碼方式。AMR是有損壓縮,為了減少傳輸碼率或存儲量,對語音的壓縮比率較高,在保證語音可懂度的前提下,用盡可能少的比特數(shù)來表示語音。AMR語音編碼方式采用基于代數(shù)碼激勵線性預(yù)測編碼技術(shù)[10],支持從4.75Kbps到12.2Kbps的八種速率,可以根據(jù)當(dāng)前的傳輸狀況和無線信道自適應(yīng)選擇最合適的編碼方式,解決信源編碼和信道編碼速率分配的問題。AMR的語音帶寬范圍為300~3400Hz,采樣率為8KHz,以20ms為一幀進行處理。在傳輸過程中,當(dāng)前幀可能損壞或丟失,盡管差錯隱藏機制可以通過幀替換減少對合成語音質(zhì)量的影響[11],但是所丟失的原始語音信號中的語音信息是無法恢復(fù)的,而丟失的信息也會包含對說話人識別有用的特征。因此,AMR編解碼器通過有損壓縮編碼,盡管有利于音頻文件的傳輸和存儲,但是會導(dǎo)致語音質(zhì)量的下降,從而給法庭說話人識別帶來負面影響。

        2.2 呼叫中心通話信道

        呼叫中心可以充分利用現(xiàn)有通信技術(shù)和計算機技術(shù),向用戶提供更優(yōu)質(zhì)的服務(wù),因此備受企業(yè)青睞。目前,國內(nèi)各大企事業(yè)單位都以IP通信技術(shù)和IP語音為基礎(chǔ),搭建自己的呼叫中心系統(tǒng)。G.729語音標(biāo)準(zhǔn)被廣泛用于網(wǎng)絡(luò)語音電話業(yè)務(wù),它是一種基于共軛結(jié)構(gòu)的、代數(shù)碼激勵線性預(yù)測算法的編碼標(biāo)準(zhǔn)[12]。數(shù)據(jù)包在網(wǎng)上傳輸時會有延遲,G.729標(biāo)準(zhǔn)便是為滿足低延時而設(shè)計的。其每一幀的長度為10ms,前瞻為5ms,時延僅為15ms。G.729輸入的PCM語音信號采樣率為8KHz,量化分辨率為8bit,壓縮編碼后速率為8Kbps,壓縮率高達16∶1。盡管人的聽覺系統(tǒng)對于編碼后的語音幾乎察覺不到失真,但是其壓縮過程中語音信號的損失對法庭說話人識別的影響仍然是存在的。

        2.3 微信通話信道

        微信作為國內(nèi)使用率最高的即時通信軟件,用戶數(shù)量已超過12億,而國外的用戶也在不斷增加。司法實踐中,越來越多的案件中涉及微信語音的檢驗。微信語音使用SILK編解碼器進行有損壓縮編碼。SILK是專為VoIP設(shè)計的寬帶變速率語音編碼,其優(yōu)勢之一是可以根據(jù)網(wǎng)絡(luò)帶寬的情況實時調(diào)整控制參數(shù),確保低帶寬條件下也能優(yōu)化語音質(zhì)量[13]。SILK支持8KHz、12KHz、16KHz、24KHz四種采樣率,同時使用臨界采樣。例如,在16KHz采樣率下,被編碼的頻率最高可達8KHz。SILK的比特率不是固定的,它會隨著帶寬的變化自適應(yīng)地調(diào)整比特率,其比特率可在6~40Kbps范圍內(nèi)變化。語音幀長為20ms,以1、2、3、4或5幀作為網(wǎng)絡(luò)傳輸?shù)囊淮斡行лd荷。以較少的語音包傳輸可以減少比特率,但是會增加丟包的概率。利用幀間相關(guān)性進行編碼,在減少比特率的同時會增大誤差傳播,需要連續(xù)幾個語音包才能重建丟失的語音信號,而SILK可以隨時調(diào)整幀間相關(guān)性程度,進而提高丟包時的魯棒性。此外,SILK還使用前向糾錯編碼技術(shù)(Forward Error Correction,F(xiàn)EC)對抗丟包,將關(guān)鍵幀以低比特率重新編碼和傳輸。總之,SILK通過比特率控制、分包率和抗丟包來提高編碼語音質(zhì)量,有研究表明SILK編碼的語音音質(zhì)明顯高于AMR編碼語音[14]。

        3 法庭說話人識別實驗設(shè)計

        3.1 法庭說話人自動識別系統(tǒng)

        本文使用的法庭說話人自動識別系統(tǒng)(FREES lite 1.0)是基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的x-vector PLDA模型系統(tǒng),該系統(tǒng)專為基于似然比框架的法庭說話人識別所開發(fā)的。下面對該系統(tǒng)的框架功能進行簡要介紹,關(guān)于該系統(tǒng)的詳細描述,參見文獻[15-16]。該系統(tǒng)主要具有以下功能和特點。

        3.1.1 語音特征提取

        首先,對語音進行預(yù)加重、分幀、加窗、短時傅里葉變換、Mel濾波和去均值處理。然后,提取每個語音段的FBank(Filter Banks)作為前端語音特征,提取的維數(shù)為23維,幀長設(shè)置為25ms,幀移設(shè)置為10ms。

        3.1.2 說話人識別模型

        目前,基于深度神經(jīng)網(wǎng)絡(luò)的說話人識別模型具有顯著優(yōu)勢,它對訓(xùn)練數(shù)據(jù)的包容性更強,且抗噪效果更好。因此,系統(tǒng)采用基于時延神經(jīng)網(wǎng)絡(luò)(Time-delay Neural Network,TDNN)的x-vector模型來提取說話人語音的 embeddings向量特征。因為多層的TDNN具有較強的抽象能力,而且它能夠?qū)W習(xí)不同時長的特征,從而得到語音信號的時序性結(jié)構(gòu)信息。在進行模型訓(xùn)練時,首先將分幀后的FBank特征輸入TDNN網(wǎng)絡(luò)進行學(xué)習(xí),得到幀級別的語音特征;再通過統(tǒng)計池化層,將各幀特征聚合為段級別的語音特征。在統(tǒng)計池化層之后,再連接兩個全連接層和一個softmax層。從第一個全連接層中提取出能表征說話人特征的embeddings向量,之所以選擇全連接層輸出embeddings,而不使用softmax輸出,是因為減少輸出層可以有效減小模型規(guī)模并縮短運行時間,并且可以更好地概括未知說話人的特征。之后,使用線性判別分析(LDA)方法對embeddings向量進行降維處理[17],將特征數(shù)據(jù)的維數(shù)從512降至128。

        3.1.3 信道補償及識別打分

        在提取出低維特征矢量之后,采用概率線性判別分析(PLDA)[18]進行信道補償和說話人識別打分。PLDA是概率形式的線性判別分析,是目前主流的信道補償算法。它通過減少特征矢量中信道信息對說話人信息的干擾,提高系統(tǒng)在跨信道條件下的識別性能。此外,作為一種分類模型,還可以通過PLDA計算檢材語音和樣本語音的比較得分。PLDA比較得分的計算公式見下式(1),其中,Hs為同一話者假設(shè),代表檢材語音和樣本語音來自同一說話人;Hd為不同話者假設(shè),代表檢材語音和樣本語音來自不同說話人;n1和n2分別為兩段語音的x-vector向量。

        3.1.4 系統(tǒng)校準(zhǔn)和似然比計算

        將兩段語音進行比較,得到二者的比較得分(Score)后,還需要將得分進一步轉(zhuǎn)換為似然比(Likelihood Ratio,LR)。得分轉(zhuǎn)換為似然比的過程,可以視作對系統(tǒng)的校準(zhǔn)(Calibration)過程[19]。系統(tǒng)校準(zhǔn)可以通過邏輯回歸(Logistic Regression)算法和一定規(guī)模的、已知來源的相關(guān)背景人群語音數(shù)據(jù)庫進行。將相關(guān)背景人群語音數(shù)據(jù)庫中的全部語音對進行全交叉兩兩比較,得到來自同一話者的比較得分和來自不同話者的比較得分,之后再通過邏輯回歸算法將得分值轉(zhuǎn)換為似然比LR。

        LR值作為證據(jù)強度的量化指標(biāo),以1為分界值,LR值越大于1,表明證據(jù)越支持同一話者假設(shè);LR值越小于1,表明證據(jù)越支持不同話者假設(shè)。LR值距離1越遠,證據(jù)價值越高。關(guān)于似然比框架和邏輯回歸算法的描述,詳見文獻[20-21]。

        3.2 實驗數(shù)據(jù)和方法

        3.2.1 語音數(shù)據(jù)

        本文使用的語音數(shù)據(jù)來源于專為司法語音研究設(shè)計的“漢語法庭語音數(shù)據(jù)庫”中的女性語音數(shù)據(jù)[22]。該數(shù)據(jù)庫中共包含60名成年女性的漢語普通話語音。發(fā)音人為東北地區(qū)大學(xué)生,年齡范圍在18~23歲之間。該數(shù)據(jù)庫中,每位發(fā)音人有兩次非同期錄音,前后兩次錄音的時間相隔在兩周以上。錄音時,兩位發(fā)音人各自佩戴一領(lǐng)夾式麥克(森海塞爾Sennheiser MKE 2 P-C),分別位于兩個不同的錄音室通過兩個固定電話進行通話交流。兩個麥克分別與外置聲卡(RolandUA-25EX)及計算機相連。使用軟件Cooledit Pro2.1進行錄音采集,采樣率為44.1kHz,采樣精度為16bit,儲存格式為“PCM.wav”。該數(shù)據(jù)庫共包含自由交談、模擬訊問和朗讀三種言語風(fēng)格,本文選擇自由交談和模擬訊問兩種言語風(fēng)格的語料進行實驗。其中,自由交談代表檢材語音條件,模擬訊問代表樣本語音條件。由于該數(shù)據(jù)庫中的語音均是在專業(yè)錄音室條件下、安靜環(huán)境錄制的,且采樣率高、信噪比高,因此屬于高質(zhì)量錄音(下文簡稱高質(zhì)量語音)。關(guān)于該數(shù)據(jù)庫的詳細介紹,參見文獻[22-23]。

        將60人的兩種言語風(fēng)格的語音進行信道模擬處理,通過系統(tǒng)的格式轉(zhuǎn)碼功能對原始的高質(zhì)量語音數(shù)據(jù)分別進行電話語音、呼叫中心語音和微信語音的編解碼處理,最后得到60人、兩種言語風(fēng)格和三種信道的語音數(shù)據(jù)。電話語音和呼叫中心語音的采樣率為8KHz,微信語音的采樣率為44.1KHz,量化精度16bit,保存為單聲道、“PCM.wav”格式。采用目前主流的信道編碼轉(zhuǎn)換方式進行語音信道模擬和信道數(shù)據(jù)擴增,是當(dāng)下聲紋識別領(lǐng)域進行數(shù)據(jù)處理的常規(guī)方法,不僅可以很好地反映信道特點,而且可以減少錄制過程中其他設(shè)備、環(huán)境等外部因素對語音信號的影響。

        3.2.2 測試方法

        對說話人識別系統(tǒng)進行驗證測試時,一般需要使用訓(xùn)練數(shù)據(jù)集、校準(zhǔn)數(shù)據(jù)集和測試數(shù)據(jù)集等三種數(shù)據(jù)集。其中,訓(xùn)練數(shù)據(jù)集用于對PLDA模型進行域自適應(yīng)訓(xùn)練,以解決測試集與內(nèi)置基礎(chǔ)模型在信道條件、言語風(fēng)格、方言口音等方面不匹配的問題。校準(zhǔn)數(shù)據(jù)集為已知來源的數(shù)據(jù),用來對PLDA模型的得分進行校準(zhǔn)。測試數(shù)據(jù)集也是已知來源的數(shù)據(jù),用于測試系統(tǒng)的性能。校準(zhǔn)集和測試集可以相同,也可以不同,取決于數(shù)據(jù)的豐富程度。

        本研究中,測試高質(zhì)量語音和微信語音時使用的是由約13萬條語音數(shù)據(jù)訓(xùn)練的內(nèi)置模型,語言類型大部分是普通話和閩南語,還有少部分的其他方言,采樣率為16KHz,言語風(fēng)格包括朗讀、訊問和自由交談等。測試電話語音和呼叫中心語音使用的內(nèi)置模型是由約13萬人、每人2~3條語音訓(xùn)練得到的,以客服對話形式采集,均為普通話發(fā)音、8KHz采樣率。實驗使用的語音數(shù)據(jù)與內(nèi)置模型基本匹配,所以不需要進行自適應(yīng)訓(xùn)練,只用校準(zhǔn)數(shù)據(jù)集和測試數(shù)據(jù)集進行系統(tǒng)性能測試。

        3.2.3 性能評價指標(biāo)

        法庭說話人識別中常用的性能評價指標(biāo)有對數(shù)似然比代價函數(shù)Cllr(Log likelihood ratio cost)、等誤率EER(Equal Error Rate)和Tippett圖三種。Cllr和EER是數(shù)值指標(biāo),Tippett圖是圖示指標(biāo)。Cllr是基于似然比框架的法庭說話人識別系統(tǒng)性能評價的標(biāo)準(zhǔn)量化指標(biāo)[24]。其表達式如下:

        式(2)中,Ns和Nd分別代表同一說話人和不同說話人測試對的數(shù)量,LRs和LRd分別是由同一說話人和不同說話人測試對計算得出的似然比值。當(dāng)Cllr值小于1時,系統(tǒng)是有效的;Cllr值越小,說明系統(tǒng)的識別性能越好。EER是識別的錯誤接受率和錯誤拒絕率相等時的概率,EER值越低,系統(tǒng)識別的準(zhǔn)確性越高。Tippett圖(見圖1和圖2)表示的是同一說話人語音對和不同說話人語音對的log10LR值的累積分布,向右上延展的曲線代表同一說話人測試,向左上延展的曲線代表不同說話人測試。兩條曲線分開的程度越大,二者的交叉點越低,系統(tǒng)識別的效果越好。交叉點對應(yīng)的縱坐標(biāo)的數(shù)值即為EER。

        圖1 信道匹配條件下說話人識別的Tippett 圖

        圖2 三種檢材語音與高質(zhì)量語音比較條件下說話人識別的Tippett 圖

        4 結(jié)果與討論

        4.1 信道匹配條件下的說話人識別

        對信道匹配條件下的系統(tǒng)識別性能進行測試。測試時,檢材語音和樣本語音的傳輸信道相同,分別對電話語音、呼叫中心語音和微信語音進行測試,并與麥克風(fēng)直錄的高質(zhì)量語音測試結(jié)果進行比較。實踐中,檢材和樣本并非同時錄制,樣本往往滯后與檢材。因此,將每位發(fā)音人自由交談的第一次錄音視為檢材語音,模擬訊問的第二次錄音視為樣本語音,音頻時長均為60s,人數(shù)為60人,校準(zhǔn)集和測試集相同。系統(tǒng)測試的結(jié)果,如表1所示。其中,F(xiàn)A(False Acceptance)代表錯誤接受,F(xiàn)R(False Rejection)代表錯誤拒絕,LRFA代表錯誤接受時的LR值,LRFR代表錯誤拒絕時的LR值。

        表1 信道匹配條件下的說話人識別結(jié)果

        表1中的數(shù)據(jù)表明,與麥克風(fēng)直錄的高質(zhì)量語音相比,經(jīng)過壓縮編碼后的電話語音、呼叫中心語音和微信語音的識別效果都有不同程度的降低。在三種傳輸信道中,微信語音的說話人識別效果最好,Cllr值為0.166,下降幅度最低,僅下降了0.6%,EER值上升了22.0%;電話語音的識別效果最差,Cllr值為0.194,降幅為17.6%,EER值上升了39.0%;呼叫中心語音的識別效果居中,Cllr值提高了9.7%,EER值不升反降,這可能和數(shù)據(jù)量有關(guān),增加音頻數(shù)量系統(tǒng)穩(wěn)定性會更好。電話語音的識別效果最差,Cllr值為0.194,降幅為18%。呼叫中心語音的識別效果居中。該測試結(jié)果符合預(yù)期,電話語音和呼叫中心語音采樣率低,傳輸速率低,而微信語音采樣率相對較高,SILK編碼后的語音質(zhì)量更好,系統(tǒng)識別的準(zhǔn)確性也就更高。但是,整體而言,在信道匹配條件下,高質(zhì)量語音、電話語音、呼叫中心語音和微信語音的Cllr值都在0.2以內(nèi),說明系統(tǒng)識別的效果都非常好。

        此外,從證據(jù)強度方面來看,與事實相反的LR值的數(shù)量級整體較低,錯誤接受的LR最大值均在100以內(nèi)(56.605~83.169),錯誤拒絕的LR最小值均在0.01以內(nèi)(0.047~0.070),即log10LR值在±2以內(nèi),也反映了信道匹配條件下系統(tǒng)的良好識別性能。相對高質(zhì)量語音而言,其它三種信道語音的與事實相反的LR值要高一些,但差別不大。信道匹配條件下說話人識別的Tippett圖,見圖1。

        4.2 信道失配條件下的說話人識別

        4.2.1 三種信道語音與高質(zhì)量語音的說話人識別

        將三種信道語音分別與高質(zhì)量語音之間進行說話人識別。之所以這樣比較,是由于實際案件中,一般只有樣本語音可能是錄音條件非常好的高質(zhì)量語音,檢材語音極少是高質(zhì)量語音。每位發(fā)音人第一次錄制的電話語音、呼叫中心語音和微信語音代表檢材條件,言語風(fēng)格為自由交談;第二次錄制的高質(zhì)量語音代表樣本條件,言語風(fēng)格為模擬訊問。音頻時長均為60s,人數(shù)為60人,校準(zhǔn)集和測試集完全相同。最后,得到電話語音與高質(zhì)量語音、呼叫中心語音與高質(zhì)量語音、微信語音與高質(zhì)量語音三種信道失配條件下的測試結(jié)果,見表2。

        表2 三種檢材語音與高質(zhì)量語音比較的說話人識別結(jié)果

        從表2數(shù)據(jù)可以看出,檢材語音與樣本語音信道不匹配對說話人識別效果有顯著影響,三種信道語音與高質(zhì)量語音條件下的說話人識別效果明顯不如信道匹配條件下。但三種信道條件受到影響的程度不同,其中微信語音與高質(zhì)量語音情況下識別性能降幅最小,Cllr值上升了2.4%,EER值保持不變;電話語音與高質(zhì)量語音情況下識別性能降幅最大,Cllr值上升了21.1%,EER值有少許降低,但基本與信道匹配時保持在同一水平;呼叫中心語音與高質(zhì)量語音條件下降幅居中,Cllr值上升了12.2%,EER值上升了40.5%。這一結(jié)果也說明了同一樣本條件下,受信道失配影響程度的大小與檢材語音質(zhì)量的高低有關(guān)。微信語音質(zhì)量最好,其識別結(jié)果受影響程度最?。浑娫捳Z音質(zhì)量最差,其識別結(jié)果受到的影響也最大。但是整體上Cllr值仍然都較小,這說明系統(tǒng)識別的效果還是很好。

        從證據(jù)強度方面來看,在與高質(zhì)量語音比較的信道失配條件下,影響最大的是電話語音,其錯誤接受的LR最大值為596.702,明顯高出信道匹配條件(68.281)和其它兩種信道失配條件(60.663和54.927)一個數(shù)量級;其錯誤拒絕的LR最小值為0.012,明顯小于信道匹配條件下(0.047)和其它兩種信道失配條件(0.068和0.048),但是還未達到一個數(shù)量級程度。事實上,這三種測試條件不僅體現(xiàn)了三種信道語音之間的差別,還包含了檢材語音與樣本語音之間的非同期性和言語風(fēng)格的差異性,但這也恰恰反映了實踐中案件語音的條件,因此該實驗結(jié)果反映了案件現(xiàn)實條件下系統(tǒng)識別的真實性能。三種檢材語音與高質(zhì)量語音比較條件下說話人識別的Tippett圖,見圖2。

        4.2.2 三種信道語音間的說話人識別

        將三種信道語音之間進行說話人識別的相互比較。之所以這樣比較,是由于司法實踐中往往需要進行檢材語音之間的互比,以滿足串并案件的需要。將電話語音、呼叫中心語音和微信語音中任意兩種信道語音的前后兩次非同期錄音進行說話人識別測試,言語風(fēng)格均為自由交談。音頻時長60s,人數(shù)為60人,測試集和校準(zhǔn)集相同。最后得到電話語音與呼叫中心語音、電話語音與微信語音、呼叫中心語音與微信語音三種信道失配條件下的測試結(jié)果,見表3。

        表3 三種信道語音間比較的說話人識別結(jié)果

        測試結(jié)果表明,三種信道檢材語音之間測試的識別效果非常好,甚至超過了三種信道檢材語音與高質(zhì)量語音條件下的識別結(jié)果。相對而言,呼叫中心語音與微信語音條件下的識別效果最好(Cllr值為0.036),電話語音與呼叫中心語音條件下稍次之,相較于呼叫中心語音與微信語音Cllr值上升了2.8%;電話語音與微信語音條件下的識別效果相對最差,Cllr值上升幅度達到了66.7%。究其原因,一方面是因為三種檢材語音的言語風(fēng)格都為自由交談,不存在言語風(fēng)格上的差異,即消除了言語風(fēng)格不匹配對系統(tǒng)識別性能的負面影響。由此,也充分說明了言語風(fēng)格不匹配對法庭說話人識別的影響還是很大的。另一方面是因為電話語音、呼叫中心語音和微信語音都是基于線性預(yù)測分析實現(xiàn)對語音信號的壓縮編碼,而高質(zhì)量語音則是只對語音信號進行了模/數(shù)轉(zhuǎn)換。因此,比較而言,三種檢材語音數(shù)據(jù)之間的相似度更高。

        從證據(jù)強度方面來看,電話語音與微信語音比較時錯誤接受的LR最大值明顯增大,達到713668.692,比電話語音與呼叫中心語音比較時(4429.188)高出兩個數(shù)量級,比呼叫中心語音與微信電話語音比較時(945.684)高出三個數(shù)量級。而三種信道之間互比的錯誤拒絕情況來看,電話語音與微信語音比較時未出現(xiàn)錯誤拒絕情況,電話語音與呼叫中心語音比較時只出現(xiàn)一例錯誤拒絕(LR=0.867)。三種信道語音間說話人識別的Tippett圖,見圖3。

        圖3 三種信道語音間說話人識別的Tippett 圖

        5 結(jié)論

        本文使用基于深度神經(jīng)網(wǎng)絡(luò)的法庭自動說話人識別系統(tǒng),對三種典型信道語音在信道匹配和失配條件下的識別性能進行了測試,并基于似然比框架進行了系統(tǒng)性能的量化評價。研究結(jié)果表明,整體上,系統(tǒng)對三種信道語音都有較好的識別性能,但是當(dāng)三種信道語音與高質(zhì)量語音之間比較時,系統(tǒng)識別的效果呈現(xiàn)大幅度下降,而涉及移動電話錄音的情況下對系統(tǒng)識別效果的影響最大。司法實踐中,信道差異是普遍存在的。一方面,對于檢材語音與樣本語音信道不匹配對說話人識別的影響,我們要給予充分重視并進行客觀評估;另一方面,還要探索有效的技術(shù)方法降低信道失配帶來的影響。開展現(xiàn)實案件語音條件下的系統(tǒng)性能驗證,不僅可以為司法實踐工作提供量化依據(jù),還可以為系統(tǒng)改進提供參考,提高系統(tǒng)在各種案件場景下的識別性能。

        猜你喜歡
        檢材信道語音
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        疑難生物檢材DNA的檢驗探究
        基于導(dǎo)頻的OFDM信道估計技術(shù)
        微量接觸類生物檢材的游離DNA問題分析
        一種改進的基于DFT-MMSE的信道估計方法
        直接擴增法提取脫落細胞DNA
        基于MED信道選擇和虛擬嵌入塊的YASS改進算法
        亚洲av高清在线观看一区二区| 成人免费视频自偷自拍| 粉色蜜桃视频完整版免费观看在线| A亚洲VA欧美VA国产综合| 视频一区二区三区国产| 国产精品午夜福利视频234区| 黑人巨大av在线播放无码| 亚洲精品乱码久久久久久麻豆不卡| 精品国产一区二区三广区| 久久亚洲精品一区二区三区| 欲求不満の人妻松下纱荣子| 亚洲人成网站色www| 在线精品一区二区三区| 久久久久亚洲AV无码专区喷| 中文字幕精品亚洲二区| 免费在线av一区二区| 不卡的高清av一区二区三区| 爽爽精品dvd蜜桃成熟时电影院| 青青在线精品2022国产| 日韩精品高清不卡一区二区三区| 少妇被黑人整得嗷嗷叫视频| 99精品欧美一区二区三区| 国产福利片无码区在线观看| 日韩日本国产一区二区| 午夜熟女插插xx免费视频| 嫖妓丰满肥熟妇在线精品| 欧美手机在线视频| 男男啪啪激烈高潮无遮挡网站网址 | 日本入室强伦姧bd在线观看| 国产精品不卡无毒在线观看| 热门精品一区二区三区| 蜜芽亚洲av无码精品色午夜| 国产精品久久毛片av大全日韩| 国产成人亚洲欧美三区综合| 一个人的视频免费播放在线观看| 国产精品黑丝高跟在线粉嫩 | 黄又色又污又爽又高潮动态图| 日韩av在线不卡一区二区三区| 国产桃色一区二区三区| 日本一区二区三区爆乳| 久久99精品久久久久久hb无码|