張翠玲 丁 盼
(1 西南政法大學(xué)刑事偵查學(xué)院 重慶 401120;2 重慶高校刑事科學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室 重慶 401120)
近年來(lái),隨著科學(xué)技術(shù)的不斷發(fā)展,法庭對(duì)科學(xué)證據(jù)的準(zhǔn)確性、可靠性的要求不斷提高,法庭證據(jù)評(píng)估方法體系也在不斷發(fā)展完善,基于似然比框架的參數(shù)性能測(cè)試和證據(jù)價(jià)值評(píng)估逐漸得到認(rèn)可和重視[1-3]。在司法語(yǔ)音領(lǐng)域,基于似然比方法的法庭說(shuō)話(huà)人識(shí)別不僅更符合法庭邏輯推理,而且可以量化評(píng)估證據(jù)價(jià)值、量化評(píng)估方法系統(tǒng)的準(zhǔn)確性和可靠性,加之程序更加客觀(guān)、透明,因此已經(jīng)成為當(dāng)前研究的熱點(diǎn)和未來(lái)的發(fā)展方向。
在法庭說(shuō)話(huà)人識(shí)別實(shí)踐中,不管是基于聽(tīng)覺(jué)——聲學(xué)語(yǔ)音學(xué)方法,還是基于半自動(dòng)和全自動(dòng)方法,都需要對(duì)提取的語(yǔ)音特征進(jìn)行量化分析和比較鑒別。特征的選取和特征價(jià)值的高低直接影響說(shuō)話(huà)人識(shí)別的效果,因此尋找個(gè)體區(qū)分效果較好的語(yǔ)音特征參數(shù),比較評(píng)估參數(shù)特征的價(jià)值一直是法庭說(shuō)話(huà)人識(shí)別領(lǐng)域關(guān)注的重點(diǎn)問(wèn)題。基于聽(tīng)覺(jué)——聲學(xué)語(yǔ)音學(xué)方法的研究側(cè)重的參數(shù)特征往往是元音和濁輔音的共振峰頻率,基于半自動(dòng)和全自動(dòng)方法的研究側(cè)重參數(shù)特征一般是梅爾頻率倒譜系數(shù)(MFCC)[4-5]。對(duì)于線(xiàn)性預(yù)測(cè)倒譜特征(LPCC)則較少在法庭語(yǔ)音比對(duì)中應(yīng)用。
國(guó)內(nèi)外學(xué)者基于似然比方法對(duì)語(yǔ)音的LPC倒譜特征進(jìn)行了初步研究。Rose基于297名男性的日語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)對(duì)5個(gè)元音的LPC倒譜特征進(jìn)行了研究,特征融合后取得了較好的效果[6];王華朋基于45名男性漢語(yǔ)普通話(huà)語(yǔ)音數(shù)據(jù)庫(kù),對(duì)單元音/a/的LPC倒譜特征進(jìn)行了測(cè)試,發(fā)現(xiàn)自動(dòng)提取特征比人工提取的共振峰特征更具優(yōu)勢(shì)[7]。對(duì)于濁輔音的研究,主要集中在鼻音上,因?yàn)楸且糇鳛橐环N聲源特征具有較好的個(gè)體特異性[8]。而Alex等對(duì)日語(yǔ)和粵語(yǔ)的研究表明,利用鼻音LPC特征進(jìn)行說(shuō)話(huà)人識(shí)別時(shí),兩種語(yǔ)言間差異不大,而且鼻音并不比其他種類(lèi)音段具有明顯的優(yōu)勢(shì)[9]。相對(duì)而言,對(duì)于清輔音的LPC倒譜特征研究相對(duì)較少。Rose對(duì)舌面清擦音的研究表明,清輔音的LPC倒譜具有潛在的話(huà)者區(qū)分價(jià)值[10]。
相較于元音和濁輔音,清輔音的時(shí)長(zhǎng)較短,聲學(xué)特征也略為復(fù)雜,不易提取。為了探究漢語(yǔ)清輔音的個(gè)體特性及其應(yīng)用價(jià)值,本文以時(shí)長(zhǎng)相對(duì)較長(zhǎng)的擦音/s/為代表,分析提取其LPC倒譜特征,并采用似然比框架量化評(píng)價(jià)其在法庭說(shuō)話(huà)人識(shí)別中的作用和表現(xiàn)。
似然比框架是一種基于貝葉斯統(tǒng)計(jì)推理的量化評(píng)估證據(jù)強(qiáng)度的邏輯體系[11]。似然比是兩種競(jìng)爭(zhēng)假設(shè)條件下觀(guān)察到的證據(jù)特征的概率之比。在法庭說(shuō)話(huà)人識(shí)別領(lǐng)域,似然比方法通常用于推測(cè)未知語(yǔ)音檢材與已知語(yǔ)音樣本的同源性,通過(guò)計(jì)算檢材語(yǔ)音與樣本語(yǔ)音同源假設(shè)條件下觀(guān)察到的檢材語(yǔ)音聲學(xué)特征,與檢材語(yǔ)音和樣本語(yǔ)音同源假設(shè)條件下觀(guān)察到的檢材語(yǔ)音聲學(xué)特征的概率比值,來(lái)量化評(píng)估證據(jù)對(duì)兩種假設(shè)的支持力度。似然比LR的表達(dá)式為:
式中,HSS代表同源假設(shè),即假設(shè)檢材與樣本同源;HDS代表不同源假設(shè),即檢材與樣本不同源;P代表概率,E代表證據(jù),即檢材的聲學(xué)特征。LR值大于1,表明證據(jù)支持同源假設(shè);LR值小于1,表明證據(jù)支持非同源假設(shè);LR的值與1的相對(duì)距離越遠(yuǎn),證據(jù)的強(qiáng)度就越大,證據(jù)所包含的信息就越有效[12]。
本文使用的是來(lái)自90位成年男性電話(huà)語(yǔ)音數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包含兩次非同期錄音,第一次與第二次的錄音時(shí)間相隔在兩周以上。錄音時(shí),兩位發(fā)音人分別位于不同的錄音室,各自佩戴一領(lǐng)夾式麥克(森海塞爾Sennheiser MKE 2 P-C),然后通過(guò)固定電話(huà)進(jìn)行通話(huà)。兩個(gè)麥克分別與外置聲卡(Roland UA-25EX)和計(jì)算機(jī)相連,通過(guò)軟件Cooledit Pro 2.1錄音。錄音被儲(chǔ)存為16位的PCM格式,采樣頻率為44.1kHz。發(fā)音人為東北地區(qū)大學(xué)生,年齡在18~23歲之間,普通話(huà)較好。兩次錄音均為漢語(yǔ)普通話(huà),交流內(nèi)容是核對(duì)產(chǎn)品報(bào)價(jià)單的信息。兩份傳真件內(nèi)容相同,只是部分內(nèi)容模糊,兩位發(fā)音人的任務(wù)就是通過(guò)電話(huà)交流對(duì)產(chǎn)品報(bào)價(jià)單的模糊部分進(jìn)行信息核對(duì)。關(guān)于數(shù)據(jù)庫(kù)采集的細(xì)節(jié),參見(jiàn)文獻(xiàn)[13]。
數(shù)據(jù)庫(kù)共包含90人的180段錄音,第一次和錄音中每個(gè)人的純語(yǔ)音長(zhǎng)度平均約為230s,第二次錄音中每個(gè)人的純語(yǔ)音長(zhǎng)度平均約為150s。使用軟件Praat語(yǔ)音軟件(version 6.0.18)對(duì)每段錄音中的擦音/s/進(jìn)行人工手動(dòng)標(biāo)注。圖1為0~8kHz頻帶范圍內(nèi)擦音/s/的寬帶語(yǔ)音圖譜。
圖1 普通話(huà)發(fā)音/si/的寬帶語(yǔ)音圖譜
標(biāo)注的/s/大多來(lái)自“si”“san”“se”“su”等音節(jié)。作為舌尖前音,/s/在發(fā)音時(shí)極易受到后面音節(jié)的影響,因此我們僅選擇其穩(wěn)定段進(jìn)行標(biāo)注。180段語(yǔ)音中共標(biāo)注出3975個(gè)/s/音段,其中第一次發(fā)音標(biāo)注語(yǔ)音段2160個(gè),每人平均24個(gè);第二次發(fā)音標(biāo)注語(yǔ)音段1815個(gè),每人平均20個(gè)。
將標(biāo)注的全部擦音/s/進(jìn)行切分后,提取其LPC倒譜特征。線(xiàn)性預(yù)測(cè)的思想是語(yǔ)音中的每個(gè)采樣值可以通過(guò)幾個(gè)過(guò)去時(shí)間采樣值的線(xiàn)性組合來(lái)逼近。因此,通過(guò)利用語(yǔ)音信號(hào)中相鄰的采樣值之間存在相關(guān)性的特點(diǎn),使實(shí)際語(yǔ)音抽樣與線(xiàn)性預(yù)測(cè)抽樣值之間的誤差在某個(gè)準(zhǔn)則下達(dá)到最小值,可以得到反映語(yǔ)音信號(hào)特征的預(yù)測(cè)系數(shù)[14]。線(xiàn)性預(yù)測(cè)的計(jì)算公式如下:
式中,p是預(yù)測(cè)器的階數(shù),u(n)是激勵(lì)序列,G是u(n)的增益。線(xiàn)性預(yù)測(cè)分析用來(lái)確定預(yù)測(cè)系數(shù){a(k)|k=1,…,p},經(jīng)過(guò)自相關(guān)及LPC分析后,使用Levinson-Durbin遞推算法解出LPC系數(shù)。一般來(lái)講,使用8~12階的LPC預(yù)測(cè)器就能較好地捕捉語(yǔ)音特征,參考Rose案件報(bào)告中的參數(shù)選擇[15],本實(shí)驗(yàn)中我們選取的是8階。
LPC倒譜特征是線(xiàn)性預(yù)測(cè)系數(shù)在倒譜域的表示,在線(xiàn)性預(yù)測(cè)系數(shù)基礎(chǔ)上求倒譜,就得到LPC倒譜系數(shù)。它能較徹底地去除語(yǔ)音信號(hào)產(chǎn)生過(guò)程的激勵(lì)信息,并反映聲道的模型特征,只需十幾個(gè)倒譜系數(shù)就可以較好地描述語(yǔ)音的共振峰特性[16]。此外,LPC倒譜特征的模型參數(shù)相對(duì)簡(jiǎn)單,計(jì)算量小,具有較好優(yōu)勢(shì)。
首先將同一人前后兩次錄音中擦音/s/的LPC倒譜特征參數(shù)進(jìn)行比較,這樣就產(chǎn)生了90個(gè)同一話(huà)者自身的比較對(duì)。其次,就不同說(shuō)話(huà)人之間,將每一位說(shuō)話(huà)人的擦音/s/的LPC倒譜特征參數(shù)與其他所有人依次進(jìn)行兩兩比較,即全交叉驗(yàn)證比較,這樣就產(chǎn)生了90*(90-1)/2=4005個(gè)不同話(huà)者之間的比較對(duì)。
似然比計(jì)算采用的是多變量核密度似然比(MVLR)計(jì)算公式[17-18]。得到每次比較的LR值及其概率累計(jì)分布后,識(shí)別測(cè)試的結(jié)果通過(guò)Tippett圖(見(jiàn)圖2)、等誤率(EER)、對(duì)數(shù)似然比代價(jià)函數(shù)(Cllr)進(jìn)行評(píng)價(jià)。在Tippett圖中,橫軸是以10為底的對(duì)數(shù)似然比(log10LR),縱軸是同一話(huà)者和不同話(huà)者比較所占的比例,即概率累計(jì)分布。向右的曲線(xiàn)代表同一話(huà)者的比較,向左的曲線(xiàn)代表不同話(huà)者的比較。兩線(xiàn)交叉點(diǎn)對(duì)應(yīng)的概率代表等誤率。兩條曲線(xiàn)分得越開(kāi),交叉點(diǎn)越低,識(shí)別的效果越好。
對(duì)數(shù)似然比代價(jià)函數(shù)Cllr(Log likelihood ratio cost)[19]作為準(zhǔn)確性評(píng)估參數(shù),是進(jìn)行似然比框架下法庭說(shuō)話(huà)人識(shí)別的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo)。其表達(dá)式見(jiàn)公式(3):
式中,Ns和Nd分別是同一話(huà)者和不同話(huà)者測(cè)試對(duì)的數(shù)量,LRs和LRd分別是同一話(huà)者和不同話(huà)者測(cè)試對(duì)比較的似然比。左側(cè)的值代表同一話(huà)者自身比較的識(shí)別性能,可用SS Cllr表示;右側(cè)的值代表不同話(huà)者之間的識(shí)別性能,可用DS Cllr表示。Cllr值是系統(tǒng)的整體表現(xiàn)。Cllr值小于1,說(shuō)明系統(tǒng)是有效的。Cllr值越小,系統(tǒng)的準(zhǔn)確性越好。
為了研究不同語(yǔ)音信號(hào)頻率范圍對(duì)系統(tǒng)識(shí)別性能的影響,我們首先將全部90人的語(yǔ)音樣本的采樣率從44.1kHz分別降為8kHz和16kHz,分別提取0~4kHz、0~8kHz和2k~7kHz頻帶范圍內(nèi)的LPC倒譜特征進(jìn)行說(shuō)話(huà)人識(shí)別測(cè)試,結(jié)果見(jiàn)表1。
表1 3種頻帶范圍內(nèi)LPC倒譜特征的說(shuō)話(huà)人識(shí)別結(jié)果(校準(zhǔn)后)
表1中,Cllr值反映的是系統(tǒng)識(shí)別的整體性能,SS Cllr值反映的是同一說(shuō)話(huà)人自身比較的識(shí)別性能,DS Cllr值反映的是不同說(shuō)話(huà)人之間的識(shí)別性能。該統(tǒng)計(jì)結(jié)果表明,總體上擦音/s/的LPC倒譜特征具有一定的話(huà)者區(qū)分價(jià)值,但是性能并不很高,整體的Cllr值在0.6~0.7之間,差異不大。這說(shuō)明,作為單一識(shí)別參數(shù),利用擦音/s/的LPC倒譜特征進(jìn)行說(shuō)話(huà)人識(shí)別的效果有限。但是,不同頻帶對(duì)于系統(tǒng)識(shí)別的影響還是存在的,這與預(yù)期一致。比較而言,2k~7kHz頻率范圍時(shí)的識(shí)別效果較好,與0~4kHz的頻帶情況相比,系統(tǒng)的Cllr值從0.734下降到0.63,系統(tǒng)性能提升了14.2%。這說(shuō)明2k~7kHz的頻率范圍能夠更好反映擦音/s/的個(gè)體信息,2kHz以下的低頻部分可能存在冗余信息,因此邊界限制[20]有助于識(shí)別性能提升。該結(jié)果與文獻(xiàn)[15]的測(cè)試結(jié)果一致。
兩種條件下識(shí)別的具體情況,詳見(jiàn)圖2~4。圖中,向右上開(kāi)的曲線(xiàn)表示同一話(huà)者比較,向右下降的曲線(xiàn)表示不同話(huà)者比較。虛線(xiàn)和實(shí)線(xiàn)分別代表同一系統(tǒng)校準(zhǔn)前和校準(zhǔn)后的結(jié)果。在法庭說(shuō)話(huà)人識(shí)別中,校準(zhǔn)是一個(gè)標(biāo)準(zhǔn)步驟,特別是對(duì)于檢材語(yǔ)音與樣本語(yǔ)音條件失配情況下,系統(tǒng)經(jīng)校準(zhǔn)后性能會(huì)更佳。
圖2 0~4kHz頻帶范圍內(nèi)利用LPCC進(jìn)行說(shuō)話(huà)人識(shí)別的Tippett圖
圖3 0~8kHz頻帶范圍內(nèi)利用LPCC進(jìn)行說(shuō)話(huà)人識(shí)別的Tippett圖
圖4 2k~7kHz頻帶范圍內(nèi)利用LPCC進(jìn)行說(shuō)話(huà)人識(shí)別的Tippett圖
選擇多大規(guī)模的參考人群數(shù)據(jù)庫(kù)對(duì)于法庭說(shuō)話(huà)人識(shí)別也很重要。為了探究數(shù)據(jù)庫(kù)大小對(duì)擦音/s/的LPC倒譜特征識(shí)別性能的影響,我們采用同樣方法,分3組對(duì)30人、60人和90人的數(shù)據(jù)庫(kù)規(guī)模進(jìn)行了說(shuō)話(huà)人識(shí)別性測(cè)試,結(jié)果見(jiàn)表2。
表2 不同規(guī)模數(shù)據(jù)庫(kù)在3種信號(hào)頻帶范圍內(nèi)的LPC倒譜特征識(shí)別的Cllr值
測(cè)試的結(jié)果表明,數(shù)據(jù)庫(kù)的大小對(duì)識(shí)別的性能有影響。各個(gè)頻率范圍內(nèi)的趨勢(shì)基本相同,即隨著數(shù)據(jù)庫(kù)人數(shù)的增加,系統(tǒng)識(shí)別的難度增加,因此識(shí)別性能也隨之下降??傮w上,30人的數(shù)據(jù)庫(kù)識(shí)別效果最好,特別是頻帶范圍為0~8kHz時(shí),Cllr值為0.536,是所有測(cè)試中最低的。但是,系統(tǒng)表現(xiàn)并不穩(wěn)定,主要表現(xiàn)在0~4kHz頻帶條件下30人的數(shù)據(jù)庫(kù)識(shí)別效果最差,Cllr值為0.827。理論上,語(yǔ)音數(shù)據(jù)庫(kù)越大,越具代表性,統(tǒng)計(jì)建模越精準(zhǔn)。而司法檢驗(yàn)實(shí)踐中,基于數(shù)據(jù)庫(kù)成本和時(shí)效問(wèn)題的綜合考慮,選擇相對(duì)合理的數(shù)據(jù)庫(kù)規(guī)模是重要的現(xiàn)實(shí)問(wèn)題。
3種頻帶范圍的測(cè)試結(jié)果,詳見(jiàn)圖5~7。
圖5 語(yǔ)音信號(hào)頻率范圍設(shè)置為0~4kHz時(shí)不同大小數(shù)據(jù)庫(kù)的Tippett圖
圖6 語(yǔ)音信號(hào)頻率范圍設(shè)置為0~8kHz時(shí)不同大小數(shù)據(jù)庫(kù)的Tippett圖
圖7 語(yǔ)音信號(hào)頻率范圍設(shè)置為2k~7kHz時(shí)不同大小數(shù)據(jù)庫(kù)的Tippett圖
本文使用基于似然比證據(jù)強(qiáng)度評(píng)估方法和90位男性的非同時(shí)語(yǔ)音樣本數(shù)據(jù)庫(kù),對(duì)漢語(yǔ)普通話(huà)擦音/s/的LPC倒譜特征在不同語(yǔ)音信號(hào)頻率范圍內(nèi)、不同數(shù)據(jù)庫(kù)規(guī)模條件下的說(shuō)話(huà)人識(shí)別特性進(jìn)行測(cè)試比較和效果評(píng)價(jià)。研究結(jié)果表明,擦音/s/的LPC倒譜特征具有一定的話(huà)者區(qū)分價(jià)值,但是性能并不很高,如果僅作為單一參數(shù)進(jìn)行說(shuō)話(huà)人識(shí)別,其性能效果有限,需要與其他參數(shù)特征結(jié)合使用。此外,不同頻帶對(duì)系統(tǒng)識(shí)別效果有一定影響,而邊界限制有助于提升識(shí)別性能。數(shù)據(jù)庫(kù)大小對(duì)識(shí)別性能也有影響,系統(tǒng)識(shí)別難度隨數(shù)據(jù)庫(kù)人數(shù)增加而下降,但是系統(tǒng)表現(xiàn)并不穩(wěn)定。究竟多大數(shù)據(jù)庫(kù)規(guī)模最為合理還需進(jìn)一步研究。