劉貽杰,李江春,陳維娜*,黃頎涵
(1.中國人民公安大學 偵查學院,北京 100038;2.法庭科學湖北省重點實驗室(湖北警官學院),武漢 430034)
當前,我國電信網絡詐騙案件呈高發(fā)態(tài)勢,嫌疑人往往“只聞其聲,不見其人”,需要通過聲紋自動識別、語音同一認定提供關鍵信息以及證據。其中,語音同一認定技術經過長足發(fā)展,已成功服務于司法實踐[1-2]。然而隨著通信工具和手段的不斷增多,錄音信道也更加多樣化。信道搭建在發(fā)送端與接收端之間,是承擔信息傳遞的物理媒質[3]。廣義上來說,只要有關的錄音裝置發(fā)生改變,如發(fā)送語音設備、接收語音設備等的不同,就可以歸為不同的信道[4]。由于每種信道間的編碼和傳輸原理存在差異,加之多種即時通信軟件的廣泛應用,導致經信道傳輸后語音特征可能會發(fā)生變化,進而給檢驗鑒定帶來挑戰(zhàn)。
楊俊杰等[5]、鄧宗權等[6]、張紅兵[7]、王丹等[8]分別對不同的錄音設備之間的錄音效果差異進行了研究;張曉等[9]對不同即時通信軟件語音的元音共振峰差異進行了研究;Kaiser 等[10]、Barinov 等[11]就第二代移動通信(Global System for Mobile communications,GSM)信道對共振峰的影響進行了研究;美國國家標準與技術研究院(National Institute of Standards and Technology,NIST)也針對跨信道語音自動識別開展了研究[12-13]。上述研究均表明跨信道錄音的語音特征會發(fā)生不同程度的變化,但涉及的信道種類較少,相關實驗結果無法滿足目前的檢驗鑒定需要。本文針對目前高發(fā)的電信網絡詐騙案件中涉案錄音的實際情況,以4G VoLTE 語音通話、“微信”語音消息和“微信”語音通話等13 種信道為代表,力爭覆蓋案件中出現(xiàn)的信道種類;并創(chuàng)新地使用人工嘴為音源錄制實驗語音,比較不同信道錄音與標準錄音之間元音共振峰的特征,總結異同點,以期為跨信道語音同一認定提供參考。
實驗邀請5 名男性、3 名女性,共8 名志愿者進行錄音,分別編號為1~8,相關信息見表1。8 名志愿者年齡相近,均能流利地講標準普通話,在錄音時健康狀況良好,發(fā)音正常,無明顯嗓音沙啞、囊鼻等狀況。實驗選擇的語料參考《現(xiàn)代漢語詞典》編寫而成,共計122 個漢字,基本包含了漢語普通話所有聲韻類型。
表1 八名志愿者的簡要信息Tab.1 Brief information of 8 volunteers
1.2.1 放音設備及軟件
實驗使用的放音設備及軟件如下:瑞森AM3000 人工嘴、瑞森PA4000 功率放大器、瑞森RS1244 數(shù)據采集卡。根據國際電聯(lián)在其頒布的標準中給出的定義,人工嘴是一種安裝在腔體里的、具有和人類平均人嘴相似的指向性和輻射模式的揚聲器裝置,簡單來說,就是一種能夠精確模擬人嘴所產生的聲場的放音裝置[14]。在本實驗中,使用人工嘴播放語音為不同信道錄音的音源,能夠保證音源的穩(wěn)定輸出,從而控制變量。
1.2.2 錄音、語音學分析設備及軟件
實驗使用的錄音、語音學分析設備及軟件如下:訊飛聲紋采集儀(麥克風陣列)、國音聲紋采集儀(麥克風陣列)、華為Mate30 Pro(5G)智能手機、榮耀honor 20i 智能手機、諾基亞105 直板手機、蘋果iPad Pro 2018(11 寸)、戴爾G3 3590 計算機,Adobe Audition 13.0、格式工廠 5.5、Praat v6.1.36、IBM SPSS 26。
1.3.1 標準錄音獲取
8 名志愿者前往專業(yè)錄音棚按照既定語料進行錄音,錄制時使用48 kHz 采樣率且直接保存為WAV 格式,獲取標準錄音共計8 段。
1.3.2 選擇信道種類
根據檢驗實踐需要,實驗選擇的信道種類有:麥克風陣列2 個,分別編號為a、b;2G GSM 移動通話、4G VoLTE 移動通話、5G VoNR 移動通話分別編號為c、d、e;“微信”語音消息、“QQ”語音消息、“陌陌”語音消息、“世紀佳緣”語音消息、“Skype”語音消息、“WhatsApp”語音消息分別編號為f、h、j、k、l、m;“微信”語音通話、“QQ”語音通話分別編號為g、i。詳細信息見表2。
表2 實驗信道的詳細信息Tab.2 Detailed information of experimental channels
1.3.3 獲取信道錄音
實驗在安靜、無混響的室內進行。錄音時保持人工嘴的音源口與錄音設備的麥克風口等高,距離約為10 cm。使用人工嘴播放標準錄音,開啟麥克風陣列、移動電話、即時通信軟件等工具,通過各信道接收端進行錄音、獲取語音文件;共得到信道錄音104 段。由于各信道傳輸原理和語音格式等均存在差異,故在獲取信道錄音時,采用如下方式:
1)麥克風陣列錄音。信道a、b 分別通過聲紋采集儀及配備的專業(yè)軟件進行錄制,在PC 端可直接獲取WAV 格式的語音文件。
2)移動通話錄音。信道c、d、e 在保持通話狀態(tài)時點擊被叫方(接收端)手機上的“錄音”鍵進行錄制;錄制完成后,需將錄音轉換為WAV 格式。
3)即時通信軟件語音消息文件獲取。信道f、h、k 可通過提取PC 端自動保存的語音文件來獲?。恍诺纋、m 可通過語音消息附帶的音頻下載功能在PC 端獲?。恍诺纊 則需要先發(fā)送語音消息,然后在接收端再次播放語音消息,使用Adobe Audition 軟件進行內錄。由于即時通信軟件語音消息功能有時長限制,故在獲取同一信道的語音文件后,需將錄音轉換為WAV 格式并按順序進行拼接。
4)即時通信軟件語音通話錄音。信道g、i 在撥通語音通話后,即時打開接收端Adobe Audition 軟件進行錄音,直接將語音通話錄制為WAV 格式。
將8 段標準錄音和104 段信道錄音使用Praat 語音分析軟件依次打開,設置頻譜顯示范圍為0~8 000 Hz,窗口長度男聲0.003 5 s,女聲0.002 5 s,動態(tài)范圍45 dB。在標準錄音和信道錄音中對應選取6 個音段(包括3 個單音節(jié)和3 個多音節(jié))進行比較檢驗,將624 個信道錄音特征音段對標48 個標準錄音特征音段,對元音共振峰的總體形態(tài)及相對強度等頻譜特征進行定性分析[2,15]。
1.4.1 共振峰總體形態(tài)分析
共振峰總體形態(tài)包括元音共振峰走向、中心線位置及上下沿形態(tài)等。在實驗錄音中,觀察分析每個待檢特征音段元音的F1~F5 這5 條共振峰,并對每條共振峰總體形態(tài)是否發(fā)生變化進行二值評分:其中“1”代表該信道待檢音段被觀察的共振峰在走向、位置、形態(tài)等各個方面均無明顯變化(見圖1);“0”代表待檢音段的共振峰至少在一個方面出現(xiàn)了明顯變化或該共振峰缺失(見圖2)。完成評分后,對結果進行匯總并進行卡方檢驗,分析待檢音段各階共振峰的總體形態(tài)是否會受到信道的影響而發(fā)生變化,評價該頻譜特征受信道影響的顯著性。
圖1 待檢音段共振峰總體形態(tài)比較分析實例1Fig.1 Comparative analysis example 1 of overall forms of formants of voice segments to be checked
圖2 待檢音段共振峰總體形態(tài)比較分析實例2Fig.2 Comparative analysis example 2 of overall forms of formants of voice segments to be checked
1.4.2 共振峰相對強度分析
共振峰相對強度是指元音各階共振峰之間的強度變化,在寬帶頻譜圖上的灰度值對比情況。觀察比較待檢音段的共振峰相對強度并進行二值評分:其中“1”代表音段的共振峰峰間相對強度無變化(見圖3);“0”代表音段的共振峰峰間相對強度有變化,包括出現(xiàn)共振峰缺失(見圖4)。完成評分后,對各信道共振峰的相對強度變化匯總結果進行卡方檢驗,分析判斷共振峰相對強度特征受特定信道影響的顯著性。
圖3 待檢音段共振峰相對強度比較分析實例1Fig.3 Comparative analysis example 1 of relative intensity of formants of voice segments to be checked
圖4 待檢音段共振峰相對強度比較分析實例2Fig.4 Comparative analysis example 2 of relative intensity of formants of voice segments to be checked
選取1 號、4 號、7 號共3 名志愿者的標準錄音和信道錄音進行無動程單元音共振峰中心頻率[2,15]測量及統(tǒng)計分析。
首先,使用Praat 語音分析軟件分別測量標準錄音的[a]、[i]、[u]這3 個單元音的F1~F5 的中心頻率值,共測得45 條共振峰的數(shù)值;然后,依次測量出各信道錄音中對應音段的[a]、[i]、[u]這3 個單元音F1~F5 的中心頻率值,如有缺失,則標記為“N/A”,共測得585 條共振峰的數(shù)值。
使用SPSS 統(tǒng)計軟件,以標準錄音的共振峰頻率為檢驗值,對所有信道錄音中同一個單元音的同階共振峰頻率進行單樣本t 檢驗。根據分析結果,判斷共振峰頻率值是否會受到信道的影響。
2.1.1 共振峰總體形態(tài)分析結果
通過信道錄音與標準錄音的比較檢驗,將各信道錄音中待檢音段的元音共振峰F1~F5 總體形態(tài)變化情況進行評分匯總,其中:形態(tài)未發(fā)生變化的評分為“1”,發(fā)生變化的評分為“0”,結果見表3。
由表3 可知,總體來看與標準錄音相比,信道錄音對應待檢音段的元音共振峰總體形態(tài)均發(fā)生了不同程度的變化,其中:低階共振峰F1、F2 受到的影響較小,變化率不足5.0%;高階共振峰的變化情況較低階共振峰要更加明顯,F(xiàn)3、F4 的變化率均超過20.0%,而F5 的變化率已超過40.0%。
表3 元音共振峰總體形態(tài)變化評分Tab.3 Overall form change scores of formants of vowel
通過卡方檢驗來評價不同信道對F1~F5 各階共振峰總體形態(tài)特征影響的顯著性,結果見表4。由表4 可知,當顯著性大于0.050 時,表明該信道與標準錄音相比特征變化不存在統(tǒng)計學意義上的差異;當顯著性小于0.050 而大于0.010時,表明二者存在統(tǒng)計學意義上的差異;若顯著性小于0.010,則表明差異非常顯著。
由表4 可知,不同信道對F1~F5 各階共振峰總體形態(tài)特征的影響不盡相同:對于F1,僅信道c 錄音與標準錄音之間存在差異;對于F2,信道j 錄音與標準錄音之間存在差異,信道f 錄音與標準錄音之間存在顯著差異;對于F3,信道d 錄音與標準錄音之間存在差異,信道c、f、h、i、j、k、l、m 錄音均與標準錄音之間存在顯著差異;對于F4,信道d、e 錄音與標準錄音之間存在差異,信道c、h、i、j、k、l、m 錄音均與標準錄音之間存在顯著差異;對于F5,信道l 錄音與標準錄音之間存在差異,信道c、d、f、g、h、i、j、k、m 錄音與標準錄音之間均存在顯著差異。表5 對上述結果進行匯總。
表4 各信道錄音的元音共振峰總體形態(tài)卡方檢驗結果Tab.4 Chi-square test results of overall forms of formants of vowel in recordings of different channels
表5 元音共振峰總體形態(tài)特征受信道影響的顯著性統(tǒng)計Tab.5 Significance statistics of overall forms of formants of vowel affected by channels
由表5 可知,信道a、b 對元音共振峰總體形態(tài)特征并無影響;信道e、g 對低階共振峰總體形態(tài)不會造成影響,信道e對F4 有影響,信道g 則對F5 影響顯著;信道c、d、f、h、i、j、k、l、m 均會對元音共振峰的總體形態(tài)特征產生不同程度的影響,特別是對高階共振峰的影響較為顯著。
2.1.2 共振峰相對強度分析結果
通過信道錄音與標準錄音的比較檢驗,將各信道錄音中待檢音段的共振峰相對強度變化情況進行評分匯總,其中,未發(fā)生變化的評分為“1”,發(fā)生變化的評分為“0”,結果見表6。
由表6 可知,與標準錄音相比,大多數(shù)信道錄音對應待檢音段的元音共振峰強度變化較大,除信道a、b 錄音對應待檢音段的相對強度變化率不超過15.0%以外,其他信道錄音的特征變化率均超過80.0%,信道c、j、k 的變化率甚至為100.0%。
表6 元音共振峰相對強度變化評分Tab.6 Scores of relative intensity changes of formants of vowel
對除c、j、k 之外的10 個信道共振峰相對強度變化評分數(shù)據進行卡方檢驗,結果見表7。由卡方檢驗結果結合特征變化率分析可知:信道a 錄音與標準錄音在元音共振峰峰間相對強度特征上不存在差異(顯著性>0.050);信道b 錄音與標準錄音在元音共振峰峰間相對強度特征上存在差異且具有統(tǒng)計學意義(0.010<顯著性<0.050);其余信道錄音(包括信道c、j、k)與標準錄音在元音共振峰峰間相對強度上均存在非常顯著的差異(顯著性<0.010)。
表7 各信道錄音被選音段元音共振峰峰間相對強度卡方檢驗結果Tab.7 Chi-square test results of the relative intensity of selected voice segments in each channel recording
選擇1 號、4 號和7 號志愿者的標準錄音與對應的13 條信道錄音進行聲學參數(shù)量化分析,提取無動程單元音[a]、[i]、[u]的F1~F5 共振峰中心頻率值,其中:在3 段標準錄音中實際采集到45 條共振峰數(shù)值;39 段信道錄音中應采集585條共振峰數(shù)值,但實際采集到530 條共振峰數(shù)值,未測得數(shù)值的共振峰大部分為缺失狀態(tài),且主要集中在F3 及以上的高階共振峰。
將3 位志愿者各信道錄音的[a]、[i]、[u]共振峰頻率值與標準錄音對應的共振峰頻率值進行單樣本t 檢驗,結果見表8~10。
從表8~10 中可以看出:t 值既有正值又有負值,說明信道錄音的元音共振峰峰值與標準錄音中對應的元音共振峰峰值之間存在一定波動;但各t 值對應的顯著性Sig.值均大于0.050,表明信道錄音中元音[a]、[i]、[u]的F1~F5 各階共振峰峰值與標準錄音中對應的各元音共振峰峰值之間并不存在統(tǒng)計學上的顯著性差異。
表8 志愿者1號元音共振峰的單樣本t檢驗結果Tab.8 One-sample t-test results of formants of vowel of volunteer No.1
表9 志愿者4號元音共振峰單樣本t檢驗結果Tab.9 One-sample t-test results of formants of vowel of volunteer No.4
表10 志愿者7號元音共振峰單樣本t檢驗結果Tab.10 One-sample t-test results of formants of vowel of volunteer No.7
通過上述實驗發(fā)現(xiàn),信道錄音與標準錄音相比,在共振峰總體形態(tài)和相對強度等頻譜特征上存在一定程度的差異,但在可測得的元音共振峰中心頻率上并不存在統(tǒng)計學意義上的顯著差異。結合頻譜分析發(fā)現(xiàn),與標準錄音相比,大部分信道錄音會出現(xiàn)男聲的F4 以及女聲的F3、F4,即頻率集中在3 000~4 000 Hz 的譜圖相對強度有所增加,而其他頻率范圍的能量相對減弱,部分F5 甚至缺失,從而改變共振峰相對強度特征;在共振峰中心線位置保持不變的情況下,高階共振峰F3、F4 的上下邊界會略有擴張,范圍約在50 Hz 左右,使高階共振峰的總體形態(tài)特征發(fā)生變化。
嘗試對上述現(xiàn)象產生的原因進行分析,等響度曲線(Equiloudness Curve)表明:人耳正常的聽閾范圍是從20 Hz~20 kHz,其中對3 000~4 000 Hz 的聲音最為敏感[2];因此信道在對語音進行編碼和壓縮時,會著重對3 000~4 000 Hz附近的能量進行較為完整的記錄,從而選擇丟失其他信息,其中就可能包括這個頻率段以外的能量。這就可能導致男聲的F4及女聲的F3、F4共振峰邊界發(fā)生擴張、相對強度變強,進而使高階共振峰的總體形態(tài)和相對強度發(fā)生變化;但信道的傳輸并未改變各階共振峰的中心線位置,故元音共振峰的中心頻率并未受到影響;又因F5的能量本身較弱,若信道選擇丟失3 000~4 000 Hz頻率段以外的能量,則會造成F5共振峰缺失。
結合實際案例,討論本實驗結果的應用。
20××年5 月14 日,××司法鑒定中心受××市公安局委托,要求鑒定檢材中男性通話人是否為樣本中的李某某。由于涉案語音來自2G 通話錄音,而嫌疑人語音來自麥克風陣列錄音,對差異點的解釋存在一定的困難,因此難以給出鑒定意見。但是,結合本文的實驗結果后再進行研究可以發(fā)現(xiàn),在“區(qū)”“把”“休”等10 個音節(jié)上,盡管元音共振峰的總體形態(tài)和相對強度存在一定的差異,但共振峰頻率均基本一致(見圖5~7)。
圖5 涉案語音和嫌疑人語音的音節(jié)“區(qū)”的圖譜和共振峰數(shù)據Fig.5 Spectrum and formant data of syllable [t???y?1] of voice involved in a case and voice of a suspect
圖6 涉案語音和嫌疑人語音的音節(jié)“把”的圖譜和共振峰數(shù)據Fig.6 Spectrum and formant data of syllable [pa?2] of voice involved in a case and voice of a suspect
圖7 涉案語音和嫌疑人語音的音節(jié)“休”的圖譜和共振峰數(shù)據Fig.7 Spectrum and formant data of syllable [?jo?1] of voice involved in a case and voice of a suspect
這說明差異點主要是由各自信道的特性所造成的,屬于非本質差異;而共振峰頻率等特征的吻合屬于同一人在發(fā)音習慣和生理特性上的吻合,即本質上的吻合。最終,鑒定人員給出了認定同一的鑒定意見。
實驗發(fā)現(xiàn),信道對元音共振峰的影響主要集中在共振峰總體形態(tài)和相對強度等頻譜特征上,具體表現(xiàn)為高階共振峰的總體形態(tài)特征發(fā)生變化、各次共振峰間的相對強度改變等;這說明在進行語音同一認定時,如果檢材語音和樣本語音的信道不同,那么在使用共振峰總體形態(tài)和相對強度等頻譜特征時應當慎重,在出現(xiàn)差異時不能單獨作為否定同一的依據。
實驗還發(fā)現(xiàn),與標準錄音相比,除個別信道錄音的F5 缺失無法測量外,共振峰頻率特征雖有所變化;但并不具有統(tǒng)計學意義上的差異,即共振峰頻率特征幾乎不受信道的影響,因此推薦在檢驗鑒定中優(yōu)先使用該特征。
綜上所述,在跨信道語音同一認定實踐中,應重點分析檢材語音和樣本語音的共振峰頻率,謹慎分析共振峰總體形態(tài)和相對強度等頻譜特征上的差異。接下來將進一步對各信道之間的語音特征變化情況進行交叉比較,以期更好服務檢驗實踐。