亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語音同一認定中音段長度對基頻分析的影響

2022-07-20 02:51:14劉貽杰李江春陳維娜黃頎涵

中國人民公安大學學報(自然科學版) 2022年1期

劉貽杰，李江春，陳維娜，黃頎涵

(1.中國人民公安大學偵查學院，北京 100038； 2.法庭科學湖北省重點實驗室(湖北警官學院)，湖北武漢 430034)

0 引言

從1962年Kersta[1]首次提出“聲紋鑒定”這一概念之后，語音同一認定技術已成功服務于法庭科學[2]。基頻是語音同一認定中的一個重要的聲學參數(shù)[3-5]。說話人通過控制其聲帶的振動速率，產生不同的音高，振動速率通過聲學參數(shù)“基頻”(通常標記為F0)來表征[6]?；l的生理基礎是聲帶的解剖學特征，而每個人的聲帶長短、薄厚等均存在一定的差異；同時，后天的發(fā)音習慣也存在差異，故可利用基頻來對說話人進行鑒別。

LaRiviere[7]對8名志愿者所發(fā)元音的基頻值和共振峰頻率進行測量，并對數(shù)據(jù)進行分析，認為基頻和共振峰頻率均能應用于語音同一認定，且兩者的價值相當。Jessen[8]等人進行了一項針對說話人在正常朗讀、正常對話、大聲朗讀和大聲對話4個條件下基頻值變化的研究，發(fā)現(xiàn)平均基頻會隨著音量的提高而升高，另外在朗讀模式下，大聲朗讀的基頻個體穩(wěn)定性明顯弱于正常朗讀，但在對話模式下未發(fā)現(xiàn)明顯差異。Nolan[9]通過實驗發(fā)現(xiàn)了選擇音段的長短對個體識別有一定的影響。Labutin[10]等人嘗試將基頻應用于說話人自動識別系統(tǒng)的訓練當中，使用了包括平均值、最大值、最小值、最大值-3%、F0平均下降速度等十幾項參數(shù)，并對參數(shù)的權重作調整，結果發(fā)現(xiàn)，隨著測量音段的時長增加，相等錯誤率(EER)下降。上述研究主要針對的是英語、德語等非聲調語言，而漢語屬于聲調語言[11]，國內外尚缺乏對漢語普通話基頻用于語音同一認定的相關研究。

當前，我國電信網(wǎng)絡詐騙案件呈高發(fā)態(tài)勢，嫌疑人往往“只聞其聲、不見其人”，需要通過聲紋自動識別、語音同一認定來提供關鍵信息以及證據(jù)。研究能夠用于語音同一認定的漢語普通話語音聲學參數(shù)、豐富語音特征指標的評價體系是亟待解決的問題。因此，將漢語普通話基頻作為研究對象，在結合國外學者對非聲調類語言基頻的研究成果基礎上，針對漢語普通話的聲調語言特性，分別對單音節(jié)字、多音節(jié)詞、句子及語段的基頻進行測量及統(tǒng)計分析，研究音段選取長度對漢語普通話基頻分析的影響，進而確定基頻特征在同一人發(fā)音中的穩(wěn)定性和不同人間的差異性，以期為語音同一認定的檢案實踐提供參考。

1 實驗設計

1.1 錄音對象及語料

本實驗邀請20名男性志愿者進行錄音，分別編號為1～20，相關信息見表1。20名志愿者均能流利地講出標準的普通話，在錄音時健康狀況良好，發(fā)音正常，無明顯沙啞、囊鼻等狀況。實驗選擇的語料是《他和我們四個人一起去無錫市旅游》，該語料基本包含了漢語普通話所有韻母類型。

表1 20名志愿者簡要信息

1.2 實驗設備及軟件

1.2.1 錄音設備及軟件

冠牌iD- 330MU型USB接口麥克風、聯(lián)想ThinkPad S230u Twist計算機、Adobe Audition 2.0。

1.2.2 分析設備及軟件

戴爾G3 3590計算機、Praat v.6.1.09、IBM SPSS Statistics R26.0.0.0 32位版。

1.3 語音樣本采集過程

錄音環(huán)境為專業(yè)的語音實驗室，門窗關閉，未開空調；錄音距離控制在約10 cm。在錄音前志愿者先熟悉語料內容，然后正式開始錄音。錄音參數(shù)設置16 000 Hz的采樣率和16 bit的采樣精度，單聲道，wav格式。志愿者按照自己平時的言語習慣進行自然狀態(tài)下的發(fā)聲，每人就同一語料錄制3遍。錄音文件以志愿者的編號來命名。

1.4 基頻測量及統(tǒng)計分析

1.4.1 基頻值測量

單音節(jié)字基頻。分別測量20位志愿者在3次錄制中的“今”“他”“家”“三”“八”5個單音節(jié)字的基頻值，記錄每次測量的基頻數(shù)值及發(fā)音時長。

多音節(jié)詞基頻。分別測量20位志愿者在3次錄制中的“旅游”“畢業(yè)于”“四川大學”3個多音節(jié)詞語的基頻值，記錄每次測量的基頻數(shù)值及其發(fā)音時長。

句子基頻。分別測量20位志愿者在3次錄制中的“今天……旅游”“他的……九零”共兩個句子的基頻均值、最小值和最大值，分別標記為“句一mean”“句一min”“句一max”“句二mean”“句二min”“句二max”，同時記錄每次所截取句子的發(fā)音時長。

語段基頻。分別測量20位志愿者3次錄制的完整語料的基頻均值、最小值、最大值，分別標記為“語段mean”“語段min”“語段max”，同時記錄每次所截取的語段時長。

1.4.2 統(tǒng)計分析

使用方差均值比統(tǒng)計分析個體相對穩(wěn)定性。計算出同一人3次發(fā)音中各單音節(jié)字、多音節(jié)詞的平均時長、基頻均值、方差、標準差和方差均值比；以及句子、語段的平均時長、基頻均值、最小值、最大值的方差、標準差和方差均值比等。當方差均值比大于10%時表示數(shù)據(jù)并不穩(wěn)定、波動性較強，而當方差均值比小于10%時則表明數(shù)據(jù)較穩(wěn)定。

使用皮爾遜相關性檢驗初步統(tǒng)計分析發(fā)音個體間差異性[12]。皮爾遜相關性檢驗用于體現(xiàn)兩變量之間的相關性，而檢驗的顯著性(即“Sig值”)用于體現(xiàn)個體間差異；顯著性小于0.05時，拒絕原假設，個體間存在差異，反之則不存在差異或差異不明顯。

使用歐氏距離綜合統(tǒng)計分析句子、語段基頻的發(fā)音個體間差異性[13]。歐氏距離用于直觀體現(xiàn)多維向量間的差異，評價相似度時則用距離加1取倒數(shù)，得到一個數(shù)值，若大于0.8則相似度非常高，大于0.5小于0.8則中等相似，大于0.5小于0.3則相似度較低，小于0.3則基本不相似。

2 實驗結果

2.1 截取音段時長統(tǒng)計

經統(tǒng)計，20位志愿者發(fā)單音節(jié)字的平均時長在0.100～0.126 s之間，發(fā)多音節(jié)詞的平均時長在0.316～0.636 s之間，句子發(fā)音的平均時長在3.184～3.492 s之間，念讀語段的平均時長為13.010 s，具體發(fā)音時長情況如圖1所示。由圖1可知，同類音段的語料單元發(fā)音時長較為接近，而不同類音段的語料單元發(fā)音時長有明顯差異，這有助于分析發(fā)音時長變化對基頻值測量的影響。此外，截取音段時長統(tǒng)計表明：單音節(jié)字和多音節(jié)詞發(fā)音時長均較短，故此類音段的基頻特征僅能考察到均值這一單一指標；而句子和語段的發(fā)音時長較長，語音基頻信息豐富，可考察基頻均值、最大值和最小值等多項指標。

圖1 20位志愿者不同音段長度的發(fā)音時長

2.2 個體穩(wěn)定性分析

2.2.1 單音節(jié)字基頻個體穩(wěn)定性的統(tǒng)計結果

對于音節(jié)“今”，有13個人的基頻值方差均值比大于10%，占65%；對于音節(jié)“他”，有10個人的基頻值方差均值比大于10%，占50%；對于音節(jié)“家”，有13個人的基頻值方差均值比大于10%，占65%；對于音節(jié)“三”，有5個人的基頻值方差均值比大于10%，占25%；對于音節(jié)“八”，有5個人的基頻值方差均值比大于10%，占25%。統(tǒng)計結果如圖2所示。

圖2 20名志愿者單音節(jié)字基頻值方差均值比

2.2.2 多音節(jié)詞基頻個體穩(wěn)定性的統(tǒng)計結果

對于詞語“旅游”，有8位志愿者的基頻值方差均值比大于10%，占40%；對于詞語“畢業(yè)于”，有4位志愿者的基頻值方差均值比大于10%，占20%；對于詞語“四川大學”，有6位志愿者的基頻值方差均值比大于10%，占30%。統(tǒng)計結果如圖3所示。

圖3 20名志愿者多音節(jié)詞基頻值方差均值比

2.2.3 句子基頻個體穩(wěn)定性的統(tǒng)計結果

對于句一mean，僅有3人基頻值的方差均值比大于10%，占15%，而對于句二mean，僅有2人基頻值的方差均值比大于10%，占10%。而對于句一min，有10個人的基頻值的方差均值比大于10%，占50%，且對于句一max，有16個人的基頻值的方差均值比大于10%，占80%；同樣，對于句二min，有9個人的基頻值的方差均值比大于10%，占45%，且對于句二max，有12個人的基頻值的方差均值比大于10%，占60%。統(tǒng)計結果如圖4所示。

圖4 20名志愿者句子基頻值方差均值比

2.2.4 語段基頻個體穩(wěn)定性的統(tǒng)計結果

對于語段基頻mean，沒有志愿者的基頻值方差均值比大于10%；對于語段基頻min，有7個人的基頻值的方差均值比大于10%，占35%；對于語段基頻max，有10個人的基頻值的方差均值比大于10%，占50%。統(tǒng)計結果如圖5所示。

圖5 20名志愿者語段基頻值方差均值比

通過對不同時長音段的基頻個體穩(wěn)定性進行統(tǒng)計分析發(fā)現(xiàn)：單音節(jié)字的基頻值表現(xiàn)并不穩(wěn)定，即不具備個體穩(wěn)定性；多音節(jié)詞的基頻個體穩(wěn)定性同樣較差；而在句子的各項基頻參數(shù)指標中，僅均值具有較好的個體穩(wěn)定性，而基頻最大值、最小值穩(wěn)定性均較弱；語段基頻均值具有良好的個體穩(wěn)定性，而語段基頻的最大值和最小值穩(wěn)定性較弱。同時，從圖2～圖5中可發(fā)現(xiàn)隨著音段時長的增加，基頻均值的穩(wěn)定性也隨之增強，表現(xiàn)為：語段>句子>多音節(jié)詞>單音節(jié)字。

2.3 人間差異性分析

2.3.1 單一基頻指標人間差異性統(tǒng)計結果

分別對20位志愿者單音節(jié)字、多音節(jié)詞、句子、語段的單一基頻值指標(僅均值、最大值或最小值)進行皮爾遜相關性檢驗結果如表2～表5所示。

表2 20名志愿者在單音節(jié)字基頻值間的皮爾遜相關性檢驗結果

表3 20名志愿者在多音節(jié)詞基頻值間的皮爾遜相關性檢驗結果

表4 20名志愿者在句子基頻值間的皮爾遜相關性檢驗結果

表5 20名志愿者在語段基頻值間的皮爾遜相關性檢驗結果

由表2的統(tǒng)計分析結果可知：20位志愿者在發(fā)音節(jié)“今”“他”“家”“三”“八”時的顯著性分別為0.233、0.311、0.161、0.255、0.279，均大于0.05，不能拒絕原假設，即單音節(jié)字的基頻值在發(fā)音個體間沒有差異性或差異性不大。

由表3的結果可知：20位志愿者在發(fā)多音節(jié)詞“旅游”“畢業(yè)于”“四川大學”時的顯著性為0.623、0.342、0.418，均大于0.05，不能拒絕原假設，即多音節(jié)詞基頻的個體間沒有差異性或差異性不大。

由表4的結果可知：對于句一，志愿者在句一mean、句一min、句一max的顯著性分別為0.522、0.228、0.488，均大于0.05；對于句二，志愿者在句二mean、句二min、句二max的顯著性分別為0.459、0.894、0.360，均大于0.05，即句子的基頻均值、最小值、最大值在單一使用時均不存在個體間差異或存在的差異不明顯。

由表5的結果可知：20位志愿者語段mean、語段min、語段max的顯著性分別為0.471、0.172、0.507，均大于0.05，不能拒絕原假設，即語段的基頻均值、最小值、最大值在單一使用時不存在個體間差異或存在的差異不明顯。

上述結果表明，無論選取的音段長或短，僅通過單一基頻值指標(包括均值、最小值和最大值)無法區(qū)分不同的發(fā)音人。

2.3.2 復合基頻指標人間差異性統(tǒng)計結果

20位志愿者句子和語段的基頻具備均值、最大值和最小值等多項指標，通過計算歐氏距離分別對句子、語段的基頻均值、最大值和最小值進行綜合分析，統(tǒng)計結果如圖6～圖8所示。

圖6 20名志愿者句一基頻歐氏距離統(tǒng)計結果

圖7 20名志愿者句二基頻歐氏距離統(tǒng)計結果

圖8 20名志愿者語段基頻歐氏距離統(tǒng)計結果

根據(jù)圖6呈現(xiàn)的統(tǒng)計結果，20名志愿者句一基頻的歐氏距離最小為7號志愿者與14號志愿者，其距離值為2.830，相似度換算得0.261，基本無相關性，即20名志愿者兩兩間均存在較大差異。

根據(jù)圖7呈現(xiàn)的統(tǒng)計結果，20名志愿者句二基頻的歐氏距離最小為1號志愿者與13號志愿者，其距離值為3.111，相似度換算得0.243，基本無相關性，即20名志愿者兩兩間均存在較大差異。

根據(jù)圖8呈現(xiàn)的統(tǒng)計結果，20名志愿者語段基頻的歐氏距離最小為1號志愿者與11號志愿者，其距離值為2.465，相似度換算得0.289，基本無相關性，即20名志愿者兩兩間均存在較大差異。

復合基頻指標人間差異性統(tǒng)計結果表明，對于句子和語段，綜合使用基頻的均值、最小值和最大值進行分析，能更好地體現(xiàn)人間差異，實現(xiàn)發(fā)音人的個體識別。

3 結論

從20名志愿者的單音節(jié)字基頻方差均值比結果和皮爾遜相關性檢驗結果中可以看出：單音節(jié)字的基頻既不具備個體相對穩(wěn)定性，也不具備明顯的人間差異性，即單音節(jié)字的基頻不適合應用于語音同一認定中。

從20名志愿者的多音節(jié)詞基頻方差均值比結果和皮爾遜相關性檢驗結果中可以看出：與單音節(jié)字基頻相比，多音節(jié)詞基頻的個體穩(wěn)定性相對有所提高，但人間差異性仍然不明顯。因此，多音節(jié)詞基頻同樣不適合應用于語音同一認定中。

從20名志愿者的句子、語段基頻值方差均值比統(tǒng)計結果和皮爾遜相關性檢驗結果中可以看出：句子、語段的基頻均值個體相對穩(wěn)定性均較好，可用于語音同一認定中；但僅使用基頻均值、最小值或最大值的單一指標，無法區(qū)分發(fā)音個體，需將基頻均值、最小值和最大值結合起來進行綜合分析應用于語音同一認定。

綜上所述，在語音同一認定實踐中，可嘗試截取句子、語段或更長的音段來進行基頻分析，綜合運用基頻均值、最大值和最小值能夠為檢驗鑒定提供更為可靠的參數(shù)。