張 曉 孔華鋒 王海燕 劉文超
1(公安部第三研究所信息網(wǎng)絡(luò)安全公安部重點(diǎn)實(shí)驗(yàn)室 上海 201204)2(武漢商學(xué)院 湖北 武漢 430056)3(華東政法大學(xué)刑事司法學(xué)院 上海 201620)
聲紋與指紋、虹膜等作為人的重要生物識(shí)別特征,都具有唯一性和穩(wěn)定性。聲紋鑒定又稱語(yǔ)聲同一性鑒定,是指通過對(duì)未知說話人的語(yǔ)音聲學(xué)特征與已知說話人的語(yǔ)音聲學(xué)特征進(jìn)行綜合分析比對(duì),做出兩者是否同一的結(jié)論的過程。早期聲紋鑒定的語(yǔ)音資料多來自于手機(jī)、錄音筆、MP3等電子設(shè)備,錄制的語(yǔ)音文件失真度較低,能夠清晰地反映聲紋的共振峰特征。
在當(dāng)今信息化時(shí)代,即時(shí)通信軟件是目前互聯(lián)網(wǎng)上使用最廣泛的應(yīng)用之一。當(dāng)前司法鑒定中涉及到QQ、微信、陌陌等即時(shí)通信軟件的語(yǔ)音鑒定案件也日益增多。通話人在使用即時(shí)通信軟件過程中產(chǎn)生的網(wǎng)絡(luò)語(yǔ)音記錄了語(yǔ)音的信息特征,使得違法犯罪行為有跡可循。語(yǔ)音同一性鑒定的主要內(nèi)容是對(duì)檢材和樣本的共振峰特征進(jìn)行比對(duì)。但是,網(wǎng)絡(luò)語(yǔ)音與普通語(yǔ)音的區(qū)別在于,即時(shí)通信軟件中音頻編解碼壓縮標(biāo)準(zhǔn)通常為了保持傳輸時(shí)的低帶寬占用和較高的編解碼效率,而將音頻信號(hào)的采樣頻率、采樣精度和范圍等做了降低,使音頻清晰度和還原性都有所衰減。這樣就在某種程度上使得對(duì)聲音的還原達(dá)不到要求,而通常的語(yǔ)音未經(jīng)過壓縮編碼,語(yǔ)音不會(huì)失真,共振峰的特征反映比較穩(wěn)定。網(wǎng)絡(luò)語(yǔ)音在經(jīng)過存儲(chǔ)和傳輸過程中,是否會(huì)導(dǎo)致語(yǔ)音共振峰的某些特征改變,以及會(huì)對(duì)鑒定結(jié)果產(chǎn)生怎樣的影響,尚且需要實(shí)驗(yàn)來證明。這一不確定性給網(wǎng)絡(luò)語(yǔ)音的同一性司法鑒定帶來困難和挑戰(zhàn)。
本文以當(dāng)前互聯(lián)網(wǎng)上使用頻率較高且在司法鑒定領(lǐng)域常會(huì)涉及的5款即時(shí)通信軟件(微信、QQ、陌陌、易信、YY)為代表進(jìn)行研究。通過實(shí)驗(yàn)分別分析即時(shí)通信軟件產(chǎn)生的網(wǎng)絡(luò)語(yǔ)音與原始語(yǔ)音的共振峰特征,比對(duì)二者之間的差異;總結(jié)即時(shí)通信軟件產(chǎn)生的網(wǎng)絡(luò)語(yǔ)音相對(duì)于原始語(yǔ)音的共振峰特征改變規(guī)律,以提高即時(shí)通信網(wǎng)絡(luò)語(yǔ)音在同一性司法鑒定中的準(zhǔn)確性,更加有效地打擊網(wǎng)絡(luò)犯罪。
根據(jù)中國(guó)人民共和國(guó)公共安全按行業(yè)標(biāo)準(zhǔn)《法庭科學(xué)語(yǔ)音同一認(rèn)定技術(shù)規(guī)范》中的相關(guān)規(guī)定,聲譜定性分析的對(duì)象主要包括元音的聲譜特征等,定量分析的檢測(cè)對(duì)象主要包括共振峰的聲譜特征等。標(biāo)準(zhǔn)中關(guān)于認(rèn)定同一的規(guī)定,“檢材語(yǔ)音和樣本語(yǔ)音中有10個(gè)以上可供比對(duì)的不同音節(jié),且每個(gè)音節(jié)有3條(含)以上有效共振峰;或者有6個(gè)以上可供比對(duì)的不同音節(jié),且每個(gè)音節(jié)有4條以上有效共振峰”。
本實(shí)驗(yàn)設(shè)計(jì)的語(yǔ)音樣本中共有23個(gè)字,包括了韻母表中的大部分韻母。由10個(gè)說話人通過5款即時(shí)通信軟件重復(fù)朗讀此段話3遍,共計(jì)產(chǎn)生3 450個(gè)漢字的語(yǔ)音樣本。
軟件:微信、QQ、陌陌、易信、YY。
硬件:6部手機(jī)、1支錄音筆。
1.3.1 說話人
隨機(jī)抽取10個(gè)說話人(5男5女),年齡20~30歲,普通話發(fā)音較標(biāo)準(zhǔn),基本無(wú)特殊發(fā)音習(xí)慣。讓他們?cè)谑煜ふZ(yǔ)音樣本內(nèi)容的前提下,重復(fù)讀3遍。說話人在錄音時(shí)身體處于健康的狀態(tài),朗讀時(shí)情緒飽滿、發(fā)音正常。
1.3.2 語(yǔ)音樣本
朗讀的語(yǔ)音內(nèi)容為“他和我去無(wú)錫,找文村長(zhǎng)洽談承包經(jīng)營(yíng)農(nóng)田的合作項(xiàng)目”。
此段話中包含了6個(gè)單韻母:[a]、[o]、[e]、[i]、[u]、[ü];4個(gè)復(fù)韻母:[ao]、[ia]、[ian]、[uo];3個(gè)前鼻韻母:[en]、[un]、[an];4個(gè)后鼻韻母:[ang]、[eng]、[ing]、[ong]。語(yǔ)音樣本可以滿足實(shí)驗(yàn)對(duì)語(yǔ)音樣本韻母覆蓋率的要求。
1.4.1 語(yǔ)音采集
準(zhǔn)備6部智能手機(jī),5部手機(jī)用于發(fā)送語(yǔ)音,一部作為用于接收語(yǔ)音。5部手機(jī)分別安裝微信、QQ、陌陌、易信、YY等5款即時(shí)通信軟件之一,另外一部手機(jī)安裝上述全部5款即時(shí)通信軟件。按照以下步驟進(jìn)行操作:
(1) 使6部手機(jī)都處于同一無(wú)線網(wǎng)絡(luò)環(huán)境中。
(2) 在5部發(fā)送語(yǔ)音的手機(jī)上分別登錄微信、QQ、陌陌、易信、YY賬號(hào),在一部接收語(yǔ)音的手機(jī)上也登錄上述5款軟件。接收手機(jī)的即時(shí)通信軟件賬號(hào)分別與5部發(fā)送手機(jī)的即時(shí)通信軟件賬號(hào)互加為好友,使接收手機(jī)能分別接收到5部發(fā)送手機(jī)通過不同的即時(shí)通信軟件發(fā)來的語(yǔ)音。
(3) 說話人對(duì)著錄音筆和5部接收語(yǔ)音手機(jī)的麥克風(fēng)孔朗讀三次語(yǔ)音樣本。在錄音的過程中,5部手機(jī)上的即時(shí)通信軟件均開啟“按住說話”功能,直至錄音結(jié)束。
(4) 6個(gè)說話人依次重復(fù)上述語(yǔ)音錄制過程。
(5) 語(yǔ)音采集流程如圖1所示。
圖1 語(yǔ)音采集流程圖
1.4.2 語(yǔ)音提取
原始語(yǔ)音的提取方式較為簡(jiǎn)易,直接從錄音筆中找到對(duì)應(yīng)的語(yǔ)音文件提取出來,作為語(yǔ)音檢材。
網(wǎng)絡(luò)語(yǔ)音的提取方式較為復(fù)雜,通常分為兩種提取方式:一種是使用手機(jī)取證工具,對(duì)接收網(wǎng)絡(luò)語(yǔ)音的手機(jī)載體進(jìn)行檢驗(yàn),從手機(jī)中提取出相應(yīng)的語(yǔ)音文件;另一種是直接從手機(jī)中提取語(yǔ)音文件,這就涉及到語(yǔ)音文件的存放路徑問題,由于文件夾層級(jí)較多,需要一層一層篩查直至找到目標(biāo)語(yǔ)音文件。
本實(shí)驗(yàn)中5款即時(shí)通信軟件接收的語(yǔ)音文件在手機(jī)的存儲(chǔ)路徑如下:
微信:/tencent/MicroMsg/6a4e8d2ce598d6dc3a13c
3511243e2bf/voice2
QQ:/tencent/MobileQQ/qq號(hào)/ptt
陌陌:/immomo/users/594865788(陌陌號(hào))/audio2
易信:/Yixin/audio
YY:/yymobile/im/voice
從上述路徑中可以提取5款即時(shí)通信軟件接收到的語(yǔ)音文件。
共振峰是指在聲音的頻譜中能量相對(duì)集中的一些區(qū)域,它不但是音質(zhì)的決定因素,而且反映了人的聲道的物理特征。共振峰是反映聲道諧振特性的重要特征,因此對(duì)語(yǔ)音特征的識(shí)別中,對(duì)共振峰的特征分析是研究的關(guān)鍵。
使用科大訊飛智能聲紋鑒定工作站對(duì)語(yǔ)音檢材和語(yǔ)音樣本語(yǔ)音進(jìn)行分析。檢材語(yǔ)音為用錄音筆錄制的原始語(yǔ)音文件。樣本語(yǔ)音為5款即時(shí)通信語(yǔ)音軟件通過“按住說話”方式采集到的5段網(wǎng)絡(luò)語(yǔ)音。選取同一時(shí)刻檢材和樣本中包含6個(gè)單元音字“他[tā]”“和[hé]”“我[wǒ]”“去[qù]”“無(wú)[wú]”“錫[xī]”進(jìn)行分析。在漢語(yǔ)普通話中,[a]、[o]、[e]、[i]、[u]、[ü]6個(gè)元音幾乎代表了所有主要元音,因?yàn)槎显艉腿显舳际怯蛇@幾個(gè)單元音組成,因此單元音的研究結(jié)果也適用于二合和三合元音。
檢材語(yǔ)音和5款樣本語(yǔ)音的寬帶語(yǔ)圖如圖2所示。
圖2 寬帶語(yǔ)圖對(duì)比
單元音音節(jié)的韻母,其共振峰總體上是一條單調(diào)的曲線,因此主要考察其共振峰的斜度、彎曲方向、彎曲程度以及彎曲變化情況等。5款樣本語(yǔ)音與檢材語(yǔ)音的第1、2、3、4共振峰(F1、F2、F3、F4)走向特征大致呈現(xiàn)以下規(guī)律:
(1) 韻母[a]、[e]、[i]的共振峰走向規(guī)律。
5款樣本語(yǔ)音與檢材語(yǔ)音的共振峰的走向幾乎完全相同,每一條共振峰的斜度、彎曲方向、彎曲程度以及彎曲變化情況等均相同,基本無(wú)變化。
(2) 韻母[o]的共振峰走向規(guī)律。
YY軟件語(yǔ)音與檢材語(yǔ)音相比,在F2和F3之間存在一條虛假共振峰。其余基本無(wú)變化。
(3) 韻母[u]的共振峰走向規(guī)律。
陌陌軟件F2能量分布不均勻,末端能量較弱。其余基本無(wú)變化。
(4) 韻母[ü]的共振峰走向規(guī)律。
陌陌軟件F2能量分布不均勻,始端能量較弱。其余基本無(wú)變化。
共振峰參數(shù)包括共振峰頻率、帶寬和峰值。其中共振峰的中心頻率主要體現(xiàn)了語(yǔ)音中共振峰能量的平均強(qiáng)度隨頻率的分布關(guān)系,是語(yǔ)音共振峰的重要表現(xiàn)。比對(duì)檢材語(yǔ)音和5款樣本語(yǔ)音的共振峰數(shù)據(jù)特征,并計(jì)算共振峰中心頻率的偏差比例,將軟件、共振峰與偏差比例三者之間的關(guān)系用三維坐標(biāo)系表示。其中:x軸代表5款軟件;y軸代表F1至F3三個(gè)共振峰;z軸代表中心頻率的偏差比例。分別統(tǒng)計(jì)[a]、[o]、[e]、[i]、[u]、[ü]6個(gè)元音在每款軟件的F1、F2、F3共振峰中心頻率與原始語(yǔ)音檢材F1、F2、F3共振峰中心頻率的偏差比例,統(tǒng)計(jì)結(jié)果如圖3所示。
圖3 中心頻率偏差比例對(duì)比
對(duì)圖3的中心頻率偏差比例的統(tǒng)計(jì)結(jié)果進(jìn)行分析,可以總結(jié)出網(wǎng)絡(luò)語(yǔ)音的共振峰改變大致呈現(xiàn)以下規(guī)律:
1) 第1共振峰F1的特征:
(1) 大多數(shù)軟件在大多數(shù)元音上的中心頻率偏差比例數(shù)集中在5%以下。
(2) 軟件YY在所有元音上偏差比例較小,在3%左右。其中,軟件QQ在元音[e]和[i]上中心頻率偏差比例為10%左右。軟件陌陌、微信分別在元音[u]和[a]上中心頻率偏差比例在9%~17%之間。軟件易信在元音[o]、[e]和[u]上中心頻率偏差比例為11%。
2) 第2共振峰F2的特征:
(1) 5款軟件都有1~3個(gè)元音的中心頻率呈現(xiàn)一定的偏差比例。其中:QQ、陌陌、易信均有一個(gè)元音的中心頻率偏差比例在13%~32%之間;YY在元音[o]和[ü]上偏差比例在11%~16之間;微信在元音[o]、[u]和[ü]上的中心頻率偏差比例在11%~20%之間。
(2) 5款軟件總體在元音[a]、[e]和[i]的中心頻率偏差比例較小,在0%~6%之間;在元音[o]、[u]、[ü]都有二至三款軟件的中心頻率偏差比例較大,在11%~32%之間。
3) 第3共振峰F3的特征:
5款軟件在所有元音上的中心頻率偏差比例均較小,在0%~8%之間。
本文選取了5款即時(shí)通信軟件產(chǎn)生的網(wǎng)絡(luò)語(yǔ)音作為研究對(duì)象,通過實(shí)驗(yàn)從寬帶語(yǔ)圖和共振峰中心頻率特征等方面對(duì)其聲紋特征進(jìn)行研究。從圖2中可以看出,網(wǎng)絡(luò)語(yǔ)音的共振峰走向特征與原始語(yǔ)音基本變化不大,個(gè)別軟件在個(gè)別元音上會(huì)出現(xiàn)能量分布不均、存在虛假共振峰的現(xiàn)象。圖3中的數(shù)據(jù)反映出5款軟件在不同的元音、不同的共振峰上,共振峰的中心頻率偏差比例也表現(xiàn)出不同程度的變化,但是整體上偏差比例較小,十分接近原始語(yǔ)音的中心頻率值。
綜合分析實(shí)驗(yàn)結(jié)論,總結(jié)出網(wǎng)絡(luò)語(yǔ)音的聲紋共振峰特征相對(duì)于原始語(yǔ)音存在著相對(duì)的穩(wěn)定性,不同軟件之間存在著一定的差異,對(duì)不同的元音和不同共振峰也產(chǎn)生相應(yīng)的影響,鑒定過程中需要排除虛假共振峰,共振峰頻率的偏差比例改變大部分不超過15%??傮w來說,這些影響因素導(dǎo)致的差異不會(huì)對(duì)聲紋鑒定的識(shí)別造成實(shí)質(zhì)性的干擾,即時(shí)通信軟件產(chǎn)生的網(wǎng)絡(luò)語(yǔ)音的共振峰特征較原始語(yǔ)音具有相對(duì)的穩(wěn)定性。即時(shí)通信軟件產(chǎn)生的網(wǎng)絡(luò)語(yǔ)音的聲紋共振峰差異分析為語(yǔ)音同一性鑒定提供了基礎(chǔ)和依據(jù),有利于提高司法語(yǔ)音鑒定效率和準(zhǔn)確率,能夠有效打擊網(wǎng)絡(luò)犯罪活動(dòng),在語(yǔ)音鑒定中具有重要的應(yīng)用價(jià)值。
在互聯(lián)網(wǎng)飛速發(fā)展的今天,使用即時(shí)通信軟件進(jìn)行日常交流已經(jīng)成為人們生活中不可缺少的一部分。根據(jù)2018年5月QQ大數(shù)據(jù)發(fā)布的《2018全國(guó)城市年輕指數(shù)》報(bào)告中顯示騰訊QQ有7.83億月活躍用戶。2018年3月6日,據(jù)運(yùn)營(yíng)商公布的數(shù)字,在中國(guó)微信的全球用戶帳號(hào)數(shù)量已經(jīng)突破十億。國(guó)內(nèi)的陌生人社交軟件中,陌陌擁有最大的用戶量。即時(shí)通信軟件產(chǎn)生的網(wǎng)絡(luò)語(yǔ)音作為證據(jù)的情況越來越多,而語(yǔ)音同一性鑒定中涉及到網(wǎng)絡(luò)語(yǔ)音鑒定的案件數(shù)量也隨著網(wǎng)絡(luò)的迅猛發(fā)展而不斷增長(zhǎng),呈直線上升的趨勢(shì)。
本文研究的即時(shí)通信軟件產(chǎn)生的網(wǎng)絡(luò)語(yǔ)音的共振峰特征比對(duì)分析結(jié)論,適用于英文、普通話、山東話、天津話、東北話和四川話等。但是對(duì)于閩南語(yǔ)、客家話、吳語(yǔ)和贛語(yǔ)等方言,由于發(fā)音方式復(fù)雜且具有很多的不確定性,能否適用還有待進(jìn)一步研究。希望在今后的研究中,能夠增加對(duì)方言的實(shí)驗(yàn),深入研究每一種語(yǔ)音的各個(gè)音節(jié)共振峰的改變特征,使即時(shí)通信網(wǎng)絡(luò)語(yǔ)音的同一性鑒定更具有普適性,提高鑒定結(jié)果的準(zhǔn)確率。