亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        應用似然比框架的法庭說話人識別

        2013-11-17 07:13:16王華朋
        數據采集與處理 2013年2期
        關鍵詞:特征方法

        王華朋 楊 軍 許 勇

        (1.中國科學院噪聲與振動重點實驗室(聲學研究所),北京,100190;2.中國刑警學院聲像資料檢驗技術系,沈陽,110854)

        引 言

        法庭說話人識別,其最主要的任務就是比對犯罪現場或犯罪過程中獲得的罪犯的語音樣本和嫌疑人的語音樣本,提取足夠的穩(wěn)定語言特征或者說話人個體相關的語音特征,利用這些語音特征加以識別或確認。目前,在國內,絕大多數的法庭說話人識別案件中,都希望語音鑒定專家給出“是同一人”或“不是同一人”這樣明確的結論,法官也都習慣于使用類似的證據。但是,由于受各種主客觀條件的限制,如:錄音的環(huán)境及條件,語音證據提取、保存條件與方法,檢驗鑒定的時間間隔以及檢驗設備、檢驗方法的局限等等,罪犯樣本和嫌疑人樣本之間或多或少都會存在一定程度的差異,這就決定了鑒定人認定同一或否定排除要達到100%的確認幾乎是不可能的。在DNA、指紋、聲紋、筆跡、足跡等法庭證據的同一認定上都出現過錯誤。出現這些問題的原因主要是對樣本之間的辨證關系認識不足,對證據力度的評估缺乏科學有效的方法。隨著語音證據在法庭上使用的次數越來越多,國際上對法庭語音證據評估方法有了新的發(fā)展,對證據也有了全新的認識。DNA就率先采取了新的證據評估方法,即基于似然比的證據評估方法,將其引入其他的法庭證據領域,可以評估證據對鑒定結論支持力度的大小,該方法在國內外獲得了廣泛的認同[1-2]?;谒迫槐鹊淖C據評估方法是邏輯上和法律上都正確的法庭證據評估方法,也是向法庭提供證據強度評估的科學方法[3-4]。但是,利用似然比的方法來研究語音證據,目前還處于初始階段,本文就嘗試提取語音的美爾倒譜系數(Melfrequency cepstral coefficients,MFCC)作為特征參數,利用似然比進行說話人識別。

        1 似然比計算

        目前,在國際法庭說話人識別研究中,似然比是最重要的組成部分,因為它可以量化證據對鑒定結論支持的力度。似然比可以表示成在一個給定的假設條件下觀測到犯罪證據(罪犯和嫌疑人樣本間的聲學差異)的概率和在完全相反的假設條件下觀測到犯罪證據概率的比值,例如,似然比可以表示成,在罪犯和嫌疑人樣本為同一人語音的假設條件下和非同一人語音的假設條件下,觀測到罪犯和嫌疑人語音樣本之間聲學差異(證據)的概率的比值[5]。似然比的分子,用來估計在罪犯樣本和嫌疑人樣本來自同一人的假設條件下,獲得當前樣本間匹配程度的概率;似然比的分母,用來估計在罪犯樣本和嫌疑人樣本來自不同人的假設條件下,獲得當前樣本間匹配程度的概率。因此,它們的比率就是當前語音證據支持同一人的假設和支持不是同一人假設的相對強度,強度的大小反映在似然比的幅度上。似然比的值和1之間的相對距離,反映了證據強度的大小。似然比的值和1之間的差值越大,說明證據對結論的支持力度越大;似然比的值越是逼近1,說明當前的證據有效性越低,因為它既不能為是同一人的假設提供強力的支持,也不能為不是同一人的假設提供強力的支持[6],因此當前語音作為證據來講,作用是很小的,其較小的證據強度不能幫助法官做出判斷。如果似然比的值等于1,那說明該證據對兩個相反的假設支持的力度是一樣的,故不具有證據意義。似然比和1的大小關系表明,當前的語音證據支持是同一人的假設還是非同一人的假設,似然比的值并不是真相的二值表示。也就是說,對于嫌疑人樣本和罪犯樣本是不是由同一人產生的這一問題,似然比并沒有給出“是”或“否”的回答,它只是量化了當前語音證據對鑒定結論支持的強度。如果用P來表示概率,E表示證據,H代表假設,那么似然比可寫成下面的形式

        在法庭說話人識別中,似然比的分子量化了罪犯樣本和嫌疑人樣本之間相似的程度,其分母量化了罪犯樣本和嫌疑人樣本在參考人群里的典型性。如果罪犯樣本和嫌疑人樣本越相似,它們來自同一人的可能性就越大,似然比的值也就會越大。然而,這個結果還需要樣本的典型性來平衡。這兩個樣本越是典型,它們就越可能是從人群中隨機抽取的,似然比的值就會越低。因此,似然比的值是樣本的相似性和典型性相互作用的結果,貝葉斯理論明確指明,相似性和典型性對證據評估來說都是必不可少的。事實上,在實際工作中,經常會忽視樣本特征的典型性,認為僅僅相似性對證據同一認定就足夠了,這是不正確的做法。比如,在比較兩個語音樣本時,顯然對它們之間的相似性很感興趣,但是,僅僅靠相似性來評價證據是不夠的,樣本特征的典型性也應該被考慮在內[7]。

        在非自動的法庭說話人識別中,因為語音特征經常是多維的,在理論上,可以先計算出每一個語音特征的似然比,然后把這些似然比組合成一個全局的似然比。似然比可以進行非常簡單的組合,這也是貝葉斯方法的顯著優(yōu)點之一。如果特征之間是相互獨立的,全局似然比就是單個特征似然比的乘積。這個忽略了變量間相關性的方法被稱為樸素貝葉斯方法。

        如果提取的特征為單個特征,即使用單變量計算似然比,則可采用Lindley提出的公式,見文獻[8]。如果特征為多變量,則可采用Aitken和Lucy[9]提出的多變量核密度的似然比計算方法。本文因使用的特征變量為線性預測系數,為多變量特征,故采用多變量核密度的方法來計算似然比。

        2 美爾倒譜特征

        數字化的語音信號是聲道頻率特性和激勵信號源兩者的共同結果,后者對于某幀信號而言常帶有一定的隨機性[10]。說話人的個性特征很大程度上體現在說話人的發(fā)音聲道變化上,即聲道頻率特性。

        有必要采用一定的方法將這兩者有效地分開,這種方法就是同態(tài)濾波。濾波的過程是先將卷積處理化為乘積,然后作對數處理,使之成為可分離的相加成分,結果就形成了倒譜c(n)=h(n)+i(n)。因為h(n)描述了說話人的聲道分量,所以是非常有效的說話人個性特征參數。

        將一幀中的語音信號s(n)=h(n)*i(n)(*表示卷積)處理為其倒譜c(n)的過程,如圖1所示??梢韵扔秒x散傅里葉變換(Discrete Fourier transform,DFT)計算s(n)的短時傅里葉變換,變換的結果使在B點得到了聲道沖激響應和音源激勵的傅里葉變換的乘積。再取這一乘積的幅度的對數,在C點就得到了聲道沖激響應和音源激勵的傅里葉變換的對數之和。最后對其進行逆傅里葉變換,得到的信號稱為s(n)的倒譜c(n),也稱為倒譜系數,它是聲道分量的倒譜h(n)和音源激勵分量的倒譜i(n)之和。

        圖1 倒譜的計算流程圖

        如果不是直接對語音信號的對數譜作逆DFT,而是先經過一定頻率坐標的尺度彎折Tω(·),頻率坐標在1 000Hz以下的采用線性的頻率彎折,頻率坐標在1 000Hz以上的采用對數的頻率彎折;然后再進行逆DFT,這樣得到的特征稱為美爾倒譜系數。

        3 實驗結果分析

        為了驗證本文結果的穩(wěn)定性,本文采用兩個45人電話數據庫,是由相同的45人在不同時間段錄制的電話對話錄音,該錄音從磁帶采集進入電腦之后,以16位的PCM格式聲音文件保存,采樣頻率為11 025Hz。對話中采用的是漢語普通話,參與者年齡都在19~23歲之間。由一位引導人詢問他們相關的個人信息,他們依次作答。因電話的日益普及,越來越多的案件中會出現電話號碼或者銀行卡號碼,因此,錄音語料中多次提及了電話號碼,本文選取了中國人都喜歡用的幸運數字“8”作為分析的對象,提取其中的元音/a/進行分析。選取“8”作為分析對象還有另外一個好處,因為人們經常對該數字進行重讀,因此其中的元音/a/發(fā)音比較飽滿,能較好地反映個體的聲道特征。劍橋大學Jong[11]的研究結果也表明,/i:,ɑ:,?:/和其他的單元音相比,具有更好的穩(wěn)定性。

        本文對數據庫中的元音/a/進行手工標注,標注出該元音穩(wěn)定段,然后用Hamming窗進行加窗,窗的數據長度為256個采樣點。對同一個人的語音,前一半元音/a/的 MFCC特征和后一半元音/a/的MFCC特征進行比較;對于不同的說話人,所有該對話中標注的元音特征都用來和其他每一個人的所有標注元音特征進行比較,是屬于交叉比較驗證,可充分驗證該方法的性能。因此,每一個數據庫共有45次同一說話人比較,45×(45-1)/2=990次不同說話人比較。

        在似然比的討論中,似然比經常用以10為底的對數值表示,因為在對數域,越大的正數能為是同一人的假設提供越大的支持力度,越大的負數對不同人的假設提供越大的支持力度。例如,對數似然比+1表示在當前的語音證據條件下,它們來自同一人的概率是來自不同人概率的10倍;對數似然比-1表示,在當前的語音證據條件下,它們來自不同人的概率是來自同一人概率的10倍,以此類推。圖2是14階MFCC作為識別特征時的Tippett圖[12],左上較粗的曲線表示不同說話人的對數10似然比大于等于x軸刻度的樣本所占的比率;右上較細的曲線表示同一說話人對數10似然比小于等于x軸刻度的樣本所占的比率。圖中的豎線為識別閾值,似然比的識別閾值為1,取對數后為0,最理想的情況是,左上方的粗線和右上方的細線與表示閾值的豎線都沒有交點,同一說話人和不同說話人都達到100%的識別率。表1為基于MFCC特征的不同說話人似然比分布表,表2為基于MFCC特征的相同說話人似然比分布表。表中的第一行為MFCC的階次,本文計算了從20階到10階取不同階次的部分識別結果情況。綜合以上同源識別和非同源識別的結果,MFCC取12~16階時,識別效果達到最優(yōu),考慮系數穩(wěn)定性,可取14階為最優(yōu)階。表左側部分是似然比取值大小的分布區(qū)間,越往下對相應的假設支持力度越大,表中的內容為所有似然比的值在相應區(qū)間內分布的個數,最后一行為錯誤否定或者錯誤認定的錯誤率。從表1可以看出,絕大多數的不同說話人數據對是不同說話人這一假設的支持力度都在1/10-5=100 000以上,即當前的罪犯樣本和嫌疑人樣本之間的聲學差異,對不同說話人假設的支持力度是對相同說話人假設支持力度的100 000倍,這無疑是非常強的證據力度。在990個不同說話人數據比對中,錯誤率僅有0.007 1。表2是相同說話人數據似然比結果分布情況,MFCC取14階時,錯誤率僅有0.111 1,也具有很高的識別性能。從似然比的分布情況也可以看出,同一說話人的似然比值和表1的分布不同,主要分布在力度較大的區(qū)域,且分布相對比較均勻,這說明同一說話人說相同語料時也存在著差異,但這種差異要比不同說話人之間的差異小。因此,該方法能對不同說話人提供強力的證據,對相同說話人認定的證據力度相對較小,這在一定程度上可避免冤假錯案,保護公民權益。

        圖2 基于14階MFCC的Tippett圖

        表1 基于MFCC的不同說話人似然比分布表

        表2 基于MFCC的相同說話人似然比分布表

        4 結束語

        通過對兩個45人不同時間段錄制的數據庫中元音/a/的測試,在基于似然比的證據強度評估框架下,使用MFCC特征作為識別參數,取得了很高的正確識別率,比起傳統(tǒng)人工提取共振峰特征的方法,大大提高了工作效率,減少了人工的參與。經過對不同階次MFCC向量的識別性能的計算,綜合識別性能和參數穩(wěn)定性,本文推薦采用14階的MFCC作為識別特征向量。結果表明,似然比方法是法庭說話人識別的一個科學有效的方法,能大大提高識別的準確率,并且量化了證據的強度。本文僅使用了每個說話人元音/a/的數據,還可以使用更多的元音和更多的特征進行特征融合,獲得一個全局證據力度,進一步提高識別結果的可靠度,這也是下一步工作的研究方向。

        [1]Morrison G S,Thiruvaran T.Estimating the precision of the likelihood-ratio output of a forensic-voicecomparison system [C]//Proceedings of Odyssey 2010:The Language and Speaker Recognition Workshop.Brno,Czech Republic:[s.n.],2010.

        [2]Morrison G S.Forensic voice comparison.Expert evidence[M].Sydney,Australia:Thomson Reuters,2010:99.

        [3]Bonastre J F.Mistral:Open source platform for biometrics authentification,version 1.3[EB/OL].http://mistral.univ-avignon.fr/.[2013-03-07].

        [4]Morrison G S.Forensic voice comparison and the paradigm shift[J].Science &Justice,2009,49(4):298-308.

        [5]Morrison G S.Measuring the validity and reliability of forensic likelihood-ratio systems[J].Science &Justice,2011,51(3):91-98.

        [6]Kinoshita Y,Osanai T.Within speaker variation in diphthongal dynamics:What can we compare?[C]//Proceedings of the 11th Australasian International Conference on Speech Science & Technology.New Zealand,Australia:Australasian Speech Science &Technology Association,2006:112-117.

        [7]Rose P. Technical forensic speaker recognition:Evaluation,types and testing of evidence[J].Computer Speech & Language,2006,20(2):159-191.

        [8]Rose P.Forensic Speaker Identification[M].UK:Taylor &Francis,2002.

        [9]Aitken C G G,Lucy D.Evaluation of trace evidence in the form of multivariate data[J].Journal of the Royal Statistical Society:Series C (Applied Statistics),2004,53(1):109-122.

        [10]何繼愛,達正花,唐艷娟.基于AR模型的盲源分離方法[J].數據采集與處理,2011,26(2):162-166.He Jiai,Da Zhenghua,Tang Yanjuan.Blind separation based on AR model[J].Journal of Data Acquisi-tion & Processing,2011,26(2):162-166.

        [11]Jong De G,McDougall K,Hudson T,et al.The speaker discriminating power of sounds undergoing historical change:A formant-based study[C]//Proceedings of ICPhS Saarbrücken.Germany:[s.n.],2007:1813-1816.

        [12]Rose P.Accounting for correlation in linguistic-acoustic likelihood ratio-based forensic speaker discrimination[C]//IEEE Odyssey-The Speaker and Language Recognition Workshop.San Juan:IEEE,2006.

        猜你喜歡
        特征方法
        抓住特征巧觀察
        新型冠狀病毒及其流行病學特征認識
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        學習方法
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        日韩在线精品视频免费| 国产人妻精品一区二区三区不卡 | 亚洲av午夜福利精品一区二区| 风流少妇又紧又爽又丰满| 99日本亚洲黄色三级高清网站| 国产91在线播放九色快色| 色哟哟最新在线观看入口| 综合无码一区二区三区| 日本少妇按摩高潮玩弄| 国产成人高清视频在线观看免费 | 久久久亚洲精品无码| 欧美一级欧美一级在线播放| 中日韩精品视频在线观看| 国产精品亚洲一区二区杨幂| 国产一区二区一级黄色片| 国产自拍视频在线观看网站| 国产av综合影院| 欧美精品AⅤ在线视频| 亚洲av成人无网码天堂| 久久黄色视频| 国产成人一区二区三区在线观看 | 久久成人国产精品免费软件| 亚洲中文字幕乱码| 97人妻蜜臀中文字幕| 久久久免费精品国产色夜| 欧美性色欧美a在线播放| 99久久超碰中文字幕伊人| AV无码最在线播放| 久久亚洲国产成人精品v| 91精品国产乱码久久久| 黑丝美腿国产在线观看| 一二三四五区av蜜桃| 蜜臀av999无码精品国产专区| 亚洲视频毛片| 国产精品一区二区三区黄片视频| 成人免费自拍视频在线观看| 亚洲处破女av日韩精品| 四虎国产精品免费久久麻豆| 午夜视频一区二区三区播放| 精品免费久久久久久久| 无码成人片一区二区三区|