南兆營(yíng)
(中國(guó)刑事警察學(xué)院,遼寧 沈陽(yáng) 110854)
根據(jù)騰訊官方發(fā)布的數(shù)據(jù),到2020 年第二季度,微信的月活躍用戶(hù)數(shù)量已達(dá)到12.06 億,單用戶(hù)每天的語(yǔ)音發(fā)送條數(shù)約為7 條。大量的微信語(yǔ)音消息便利了人們的溝通交流,也成為多網(wǎng)絡(luò)犯罪常用的手段。以微信語(yǔ)音詐騙為例,犯罪分子一般先盜取受害人的微信賬號(hào),使用“克隆軟件”提取受害人的微信語(yǔ)音,然后利用人工智能的方法合成含有虛假內(nèi)容的語(yǔ)音。這種合成語(yǔ)音從聽(tīng)覺(jué)上很難分辨真假,使得犯罪分子利用這種方法進(jìn)行詐騙的成功率很高。因此,對(duì)微信語(yǔ)音的相關(guān)研究越來(lái)越重要。本文從聲紋檢驗(yàn)技術(shù)的角度出發(fā),探究微信語(yǔ)音經(jīng)過(guò)網(wǎng)絡(luò)傳輸后能否進(jìn)行語(yǔ)音同一認(rèn)定問(wèn)題。
目前,聲紋檢驗(yàn)技術(shù)在網(wǎng)絡(luò)犯罪領(lǐng)域越來(lái)越受到重視。隨著5G 時(shí)代的到來(lái),音視頻信息無(wú)處不在,使得聲紋檢驗(yàn)技術(shù)得到了廣泛應(yīng)用。聲紋是指作為訴訟證據(jù)使用的各類(lèi)聲音的特征集合[1],國(guó)際上稱(chēng)為“Voiceprint”,我國(guó)類(lèi)比指紋的叫法稱(chēng)其為“聲紋”。聲紋、指紋及DNA 等生物特征一樣,可以用于人身識(shí)別,客觀、準(zhǔn)確、生動(dòng)形象且更加直觀與全面,具備其他生物特征不具備的優(yōu)勢(shì)[2]。聲紋檢驗(yàn)技術(shù)是指將科技手段與專(zhuān)業(yè)經(jīng)驗(yàn)、知識(shí)相結(jié)合,對(duì)音像資料中的聲音材料進(jìn)行各種分析、檢驗(yàn)及鑒定,以證明語(yǔ)音音源的同一性、音像資料的真實(shí)性和完整性、語(yǔ)音內(nèi)容、噪聲來(lái)源、說(shuō)話人屬性以及錄制器材等內(nèi)容的專(zhuān)門(mén)鑒定技術(shù),可為偵查提供線索、為審判提供證據(jù)[3]。
聲紋檢驗(yàn)技術(shù)主要包括語(yǔ)音同一性檢驗(yàn)、語(yǔ)音真實(shí)性(完整性)檢驗(yàn)、音源同一認(rèn)定以及說(shuō)話人言語(yǔ)習(xí)慣分析等內(nèi)容。其中,語(yǔ)音同一性檢驗(yàn)在證據(jù)檢驗(yàn)領(lǐng)域通常被稱(chēng)為聲紋鑒定、話者鑒別或說(shuō)話人鑒別,是出現(xiàn)最多的語(yǔ)音證據(jù)檢驗(yàn)項(xiàng)目。語(yǔ)音同一性檢驗(yàn)的理論基礎(chǔ)是一個(gè)人的言語(yǔ)習(xí)慣形成以后,語(yǔ)音在一個(gè)較長(zhǎng)時(shí)期內(nèi)本質(zhì)特征不變,具有相對(duì)穩(wěn)定性。每個(gè)人的語(yǔ)音具有不同于他人的個(gè)體特征,雖然同一個(gè)說(shuō)話人不同次的發(fā)音在語(yǔ)音聲學(xué)特征上不完全符合,但是說(shuō)話人自身語(yǔ)音的差異小于不同說(shuō)話人之間的差異。
通話設(shè)備為安卓智能手機(jī),型號(hào)分別為EMLAL00(語(yǔ)音接收)、SEA-AL10(語(yǔ)音發(fā)送)和KNT-UL10(現(xiàn)場(chǎng)錄音),語(yǔ)音分析軟件為PRAAT。
在比較安靜且無(wú)明顯回聲的環(huán)境中,通過(guò)手機(jī)SEA-AL10 上微信軟件的語(yǔ)音發(fā)送功能向手機(jī)EML-AL00 發(fā)送語(yǔ)音消息,同時(shí)第三部手機(jī)KNTUL10 放置在與語(yǔ)音發(fā)送手機(jī)SEA-AL10 距離約0.5 m 的位置,利用內(nèi)置錄音功能進(jìn)行實(shí)時(shí)錄音。
正常語(yǔ)速讀古詩(shī)《春曉》。
將3 部手機(jī)上發(fā)送和接收到的微信語(yǔ)音消息和語(yǔ)音錄音提取出手機(jī),分別導(dǎo)入電腦進(jìn)行比對(duì)分析,找出其中最清晰、最容易比對(duì)的語(yǔ)音進(jìn)行對(duì)照分析。具體地,選擇“春”“眠”“處處”作為鑒定對(duì)比的字詞音節(jié),根據(jù)圖譜特征進(jìn)行基頻、共振峰等參數(shù)的測(cè)量分析,尋找數(shù)據(jù)之間的差異和共同點(diǎn)。
對(duì)選定音節(jié)的微信語(yǔ)音發(fā)出端和接收端,從共振峰頻率值特征、動(dòng)態(tài)特征及音節(jié)內(nèi)過(guò)渡形態(tài)特征3 個(gè)方面進(jìn)行分析。選定音節(jié)的聲譜圖如圖1~圖3 所示,圖譜測(cè)量結(jié)果如表1~表3 所示,其中x峰表示第x共振峰。
表1 音節(jié)“春”圖譜測(cè)量數(shù)據(jù)
表2 音節(jié)“眠”圖譜測(cè)量數(shù)據(jù)
表3 音節(jié)“處處”圖譜測(cè)量數(shù)據(jù)
3.1.1 共振峰頻率值特征
共振峰頻率是反映聲道傳輸特性的重要指標(biāo),與聲道的形狀和長(zhǎng)度密切相關(guān),穩(wěn)定性強(qiáng),在進(jìn)行語(yǔ)音同一認(rèn)定時(shí)使用價(jià)值最高[4]。由于復(fù)合元音韻母形成的共振峰為曲線形態(tài),一般選用共振峰上的特定點(diǎn)或穩(wěn)定段進(jìn)行頻率測(cè)量和比對(duì)。實(shí)驗(yàn)中,所有測(cè)量音節(jié)的共振峰頻率值均在誤差允許范圍內(nèi),說(shuō)明共振峰頻率值特征在實(shí)驗(yàn)中非常穩(wěn)定,因此可用于微信傳輸語(yǔ)音的同一認(rèn)定。
3.1.2 共振峰動(dòng)態(tài)特征
共振峰動(dòng)態(tài)特征是指共振峰中心線在頻率-時(shí)間平面上的曲線形態(tài),反映了語(yǔ)音及其共振峰的動(dòng)態(tài)特性。直線型共振峰的走向可進(jìn)行斜度比對(duì),曲線型共振峰的走向可進(jìn)行斜度、凹向及彎曲程度的對(duì)比。對(duì)實(shí)驗(yàn)中選定音節(jié)的共振峰進(jìn)行細(xì)致的觀察比對(duì),各音節(jié)接收端與發(fā)出端的共振峰走向特征均呈現(xiàn)出較好的一致性,沒(méi)有明顯的差異。從圖譜對(duì)照結(jié)果來(lái)看,共振峰動(dòng)態(tài)特征可以作為微信傳輸語(yǔ)音同一認(rèn)定的依據(jù)。
3.1.3 音節(jié)內(nèi)過(guò)渡音征
音節(jié)內(nèi)過(guò)渡音征是指一個(gè)音節(jié)內(nèi)部圖譜的過(guò)渡形態(tài),包括聲母與韻母相銜接的一段動(dòng)態(tài)性音段(前音渡)的形態(tài)、元音韻母的共振峰走向形態(tài)、韻母與鼻韻尾之間相銜接的一段動(dòng)態(tài)性音段(后音渡)的形態(tài)。
實(shí)驗(yàn)對(duì)選定音節(jié)進(jìn)行全面的比對(duì)檢驗(yàn)。以圖2為例,微信語(yǔ)音接收端“眠”音節(jié)內(nèi)部的過(guò)渡音征走向和過(guò)渡方式表現(xiàn)與發(fā)出端一致,可以作為微信傳輸語(yǔ)音同一認(rèn)定的依據(jù)。
通過(guò)分析和表1~表3 的數(shù)據(jù)可以看出,微信發(fā)出端和接收端語(yǔ)音在基頻、共振峰頻率值特征、動(dòng)態(tài)特征及音節(jié)內(nèi)過(guò)渡音征上呈現(xiàn)相似性,即在手機(jī)上利用微信軟件進(jìn)行語(yǔ)音傳輸并不會(huì)對(duì)語(yǔ)音造成明顯的改變,發(fā)送端和接收端的語(yǔ)音可以進(jìn)行同一認(rèn)定。但是,微信端(發(fā)送端和接收端)語(yǔ)音樣本與現(xiàn)場(chǎng)錄音樣本在聲學(xué)特征上存在較大的差異,在共振峰頻率值特征、動(dòng)態(tài)特征及音節(jié)內(nèi)過(guò)渡音征方面均有較為明顯的差異,且共振峰的數(shù)據(jù)測(cè)量值差異也比較明顯。例如,音節(jié)“眠”在語(yǔ)音發(fā)出端和現(xiàn)場(chǎng)錄音的波形圖有明顯的差異,在現(xiàn)場(chǎng)錄音中聲音的振動(dòng)強(qiáng)度更大,如圖4 所示。
究其原因,出現(xiàn)該現(xiàn)象可能兩方面的原因。一方面,設(shè)備錄音時(shí)的距離不同,說(shuō)話者貼近語(yǔ)音發(fā)送端的手機(jī)話筒,而錄音手機(jī)靜置于旁邊,聲音的傳輸時(shí)間、聲音傳播受干擾時(shí)間以及空氣雜音干擾時(shí)間不相同,導(dǎo)致錄音和微信傳輸語(yǔ)音的品質(zhì)不同。另一方面,微信發(fā)送語(yǔ)音時(shí)錄音機(jī)制與打開(kāi)錄音機(jī)進(jìn)行錄音時(shí)的錄音機(jī)制不同,導(dǎo)致聲音呈現(xiàn)的圖譜形態(tài)存在一定的差異。這兩個(gè)原因代表的影響普遍存在于將語(yǔ)音用于同一認(rèn)定的過(guò)程,因此在實(shí)際應(yīng)用中不應(yīng)將數(shù)據(jù)的簡(jiǎn)單對(duì)比作為判斷話者是否為同一人的唯一證據(jù),還應(yīng)綜合考慮各種因素,以采用科學(xué)的方法進(jìn)行語(yǔ)音的同一認(rèn)定。
語(yǔ)音同一認(rèn)定的常規(guī)方法主要有審聽(tīng)檢驗(yàn)和圖譜檢驗(yàn)(也被稱(chēng)為聽(tīng)辨分析和聲譜分析[5])。審聽(tīng)檢驗(yàn)是指通過(guò)直接用耳朵辨聽(tīng)樣本和檢材中的語(yǔ)音內(nèi)容對(duì)發(fā)音特征進(jìn)行直觀比對(duì)和認(rèn)定的初檢方法。圖譜檢驗(yàn)是指將語(yǔ)音通過(guò)專(zhuān)門(mén)軟件轉(zhuǎn)化為聲譜圖,通過(guò)觀察圖譜中的聲紋特征進(jìn)行比對(duì)分析,從而得出結(jié)論。
審聽(tīng)檢驗(yàn)的主要內(nèi)容包括:
(1)全面審聽(tīng)錄音材料,掌握錄音中的談話人數(shù)、內(nèi)容、口氣、氣氛、心理、人際關(guān)系以及空間環(huán)境特點(diǎn)等相關(guān)信息;
(2)著重提取具有個(gè)體特色的音素,如在發(fā)音中出現(xiàn)的重復(fù)、顛倒、拼讀錯(cuò)誤、語(yǔ)法以及習(xí)慣用詞等具有個(gè)人特征的信息;
(3)分析具有較高比對(duì)價(jià)值的音節(jié),要求音節(jié)發(fā)音清晰,可以生成清晰的圖譜,原則上能夠在圖譜中看到4 級(jí)及以上的共振峰,且該音節(jié)為檢材和樣本所共有;
(4)聽(tīng)辨噪聲,辨別并記錄噪聲的種類(lèi)、來(lái)源、出現(xiàn)的位置以及音量或電平信號(hào)的突然變化等。
通過(guò)以上各類(lèi)信息的聽(tīng)辨分析,做出相似或差異程度的評(píng)價(jià)。
圖譜檢驗(yàn)也叫語(yǔ)音圖譜視覺(jué)檢驗(yàn)。它是指選擇合適的參考音節(jié)或音段,從中選出適合對(duì)照的“語(yǔ)音對(duì)”,利用語(yǔ)音聲學(xué)分析知識(shí)和個(gè)人經(jīng)驗(yàn)生成視覺(jué)顯示最佳化的語(yǔ)音圖譜。
圖譜檢驗(yàn)的方法包括概貌觀察和語(yǔ)圖形態(tài)比較兩種。通過(guò)概貌觀察,分析語(yǔ)圖結(jié)構(gòu)成分的完整性、時(shí)長(zhǎng)、動(dòng)態(tài)范圍、共振峰及能量集中區(qū)分布等信息。語(yǔ)圖形態(tài)比較從所選的最小語(yǔ)音單元圖譜開(kāi)始檢驗(yàn),一般選擇音節(jié)作為最小的分析單元。圖譜檢驗(yàn)的順序是聲母、過(guò)渡區(qū)和韻母。仔細(xì)觀察、分析檢材和樣本中相同和相近的音素、音節(jié)、詞語(yǔ)及短語(yǔ)圖譜的語(yǔ)音聲學(xué)特性和聲學(xué)模式,包括共振峰特性(共振峰級(jí)數(shù)、頻率及強(qiáng)度)、共振峰動(dòng)態(tài)特性(斜率、凹向及彎曲程度)、音節(jié)內(nèi)過(guò)渡特征(前音渡和后音渡)、音節(jié)間過(guò)渡特征、過(guò)零率曲線和輔音濁化現(xiàn)象、協(xié)同發(fā)音現(xiàn)象、音強(qiáng)曲線以及基頻曲線等,最后作出相似或差異程度的評(píng)價(jià)。
語(yǔ)音從生成到記錄的整個(gè)過(guò)程都是動(dòng)態(tài)的,即便是同一個(gè)人,兩次發(fā)相同音的語(yǔ)音及圖譜也不可能完全一致。加上環(huán)境和設(shè)備條件的動(dòng)態(tài)變化,差異不可避免。對(duì)檢材和樣本語(yǔ)音的比對(duì)分析,一般以3 種結(jié)論形式呈現(xiàn):一是全部特征基本一致,沒(méi)有明顯差異點(diǎn),如實(shí)驗(yàn)中微信發(fā)出端與接收端的語(yǔ)音,可以做出同一認(rèn)定的結(jié)論;二是多數(shù)特征有明顯差異,符合點(diǎn)很少,可以做出否定的結(jié)論;三是多數(shù)特征基本符合,但存在少數(shù)差異點(diǎn),如實(shí)驗(yàn)中微信端語(yǔ)音與現(xiàn)場(chǎng)錄音的對(duì)比,此時(shí)必須通過(guò)動(dòng)態(tài)分析確定差異點(diǎn)是同一個(gè)人的非本質(zhì)差異還是不同人的本質(zhì)差異,之后再做出相應(yīng)結(jié)論。
根據(jù)實(shí)驗(yàn)結(jié)果可知,微信發(fā)出端和接收端語(yǔ)音在基頻、共振峰頻率值特征、動(dòng)態(tài)特征及音節(jié)內(nèi)過(guò)渡形態(tài)特征上呈現(xiàn)相似性,因此在手機(jī)上利用微信軟件進(jìn)行語(yǔ)音傳輸并不會(huì)對(duì)語(yǔ)音造成明顯的改變,即發(fā)送端和接收端的語(yǔ)音可以進(jìn)行同一認(rèn)定。但是,微信端語(yǔ)音樣本與現(xiàn)場(chǎng)錄音樣本在聲學(xué)特征上存在較大的差異。因此,實(shí)際應(yīng)用中不應(yīng)將數(shù)據(jù)的簡(jiǎn)單對(duì)比作為判斷話者是否為同一人的唯一證據(jù)。語(yǔ)音同一認(rèn)定必須對(duì)作案環(huán)境、錄音條件與設(shè)備、話者的自然條件和社會(huì)環(huán)境以及話者的生理和心理等多種音素做出細(xì)致充分的分析和考察,并綜合分析聽(tīng)覺(jué)評(píng)價(jià)、圖譜比較、定量比對(duì)及動(dòng)態(tài)分析的結(jié)果,才能得出最后的結(jié)論。