周籮魚, 蔡昌新, 孫祥娥
(長(zhǎng)江大學(xué)a.電子信息學(xué)院;b.電工電子國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心,湖北 荊州 434023)
當(dāng)前正處于信息化和智能化的時(shí)代,無(wú)論是信息化還是智能化,其基礎(chǔ)都是“數(shù)字化”。數(shù)字語(yǔ)音處理課程是數(shù)字化系列中的一門重要課程。該課程是在多門學(xué)科基礎(chǔ)上發(fā)展起來(lái)的綜合性的學(xué)科高度交叉融合的課程,其目的是讓學(xué)生在掌握語(yǔ)音處理的基礎(chǔ)、原理、方法和應(yīng)用的同時(shí),了解該學(xué)科領(lǐng)域近年來(lái)取得的一些新成果、新進(jìn)展、新技術(shù),并訓(xùn)練學(xué)生針對(duì)語(yǔ)音技術(shù)的工程問(wèn)題,提出相應(yīng)的解決方案[1-2]。
然而,數(shù)字語(yǔ)音處理課程的實(shí)驗(yàn)多以驗(yàn)證性實(shí)驗(yàn)內(nèi)容為主,無(wú)法體現(xiàn)工程中實(shí)際問(wèn)題的解決[3-5]。這樣一方面造成學(xué)生對(duì)實(shí)驗(yàn)項(xiàng)目的興趣不高;另一方面學(xué)生的實(shí)踐能力得不到真正鍛煉,其解決工程問(wèn)題的能力沒(méi)有得到提高。
研究性實(shí)驗(yàn)教學(xué)能夠激發(fā)學(xué)生的自主學(xué)習(xí)意愿、培養(yǎng)學(xué)生的創(chuàng)新思維能力[6]。在此過(guò)程中,可以鞏固學(xué)生對(duì)基礎(chǔ)知識(shí)的掌握程度,而且可以提高其實(shí)踐能力[7]。此外,研究性實(shí)驗(yàn)教學(xué),它能夠?yàn)榻虒W(xué)與科研架起橋梁,方便科研內(nèi)容轉(zhuǎn)化為教學(xué)案例。
基于此,我校課程組以提高學(xué)生解決實(shí)際工程問(wèn)題為目標(biāo),針對(duì)數(shù)字語(yǔ)音處理課程,設(shè)計(jì)了基于項(xiàng)目式的研究性實(shí)驗(yàn)教學(xué),以數(shù)字語(yǔ)音處理中的一個(gè)重要知識(shí)點(diǎn)——聲紋識(shí)別來(lái)展開研究性的實(shí)驗(yàn)案例設(shè)計(jì),并給出了詳細(xì)方案。該案例已在我校電信學(xué)院相關(guān)專業(yè)中實(shí)施,取得了較好的效果。
研究性實(shí)驗(yàn)可以取自在研的科研項(xiàng)目,也可以取自前沿的技術(shù)。本文所設(shè)計(jì)的研究性實(shí)驗(yàn)案例取自于企業(yè)項(xiàng)目。項(xiàng)目中需要利用數(shù)字語(yǔ)音中的理論知識(shí)探索聲紋的特性,并開發(fā)聲紋識(shí)別系統(tǒng),以此達(dá)到聽音識(shí)人的目的。因此,以該項(xiàng)目提煉相關(guān)元素,精簡(jiǎn)項(xiàng)目?jī)?nèi)容,簡(jiǎn)化開發(fā)過(guò)程,由此實(shí)現(xiàn)完整的實(shí)驗(yàn)案例。而與項(xiàng)目相關(guān)的課程內(nèi)容主要有兩個(gè)方面:聲紋特征分析和聲紋特征識(shí)別。
人類的語(yǔ)音是由人體發(fā)音器官在大腦控制下的生理運(yùn)動(dòng)產(chǎn)生的。發(fā)音器官包括肺、氣管、喉(包括聲帶)、咽、鼻和口,其中聲帶是對(duì)發(fā)音影響很大。聲帶振動(dòng)的頻率即基音頻率決定了聲音頻率的高低,頻率快則音調(diào)高,頻率慢則音調(diào)低。其基音頻率主要與聲帶(發(fā)聲體)的長(zhǎng)短、松緊、厚薄有關(guān),而聲帶因人而異,不同人聲帶的具有不同的特點(diǎn),因此基音頻率經(jīng)常作為說(shuō)話人識(shí)別的特征之一[8]。
數(shù)字語(yǔ)音處理領(lǐng)域中,梅爾頻率倒譜是基于聲音頻率的非線性梅爾刻度對(duì)數(shù)能量頻譜的線性變換。因此,梅爾頻率倒譜系數(shù)就是組成梅爾頻率倒譜的系數(shù)。它衍生自語(yǔ)音片段的倒譜。倒譜和梅爾頻率倒譜的主要區(qū)別在于,梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,它比用于正常的對(duì)數(shù)倒頻譜中的線性間隔的頻帶更近似人類的聽覺(jué)系統(tǒng)[9]。因此,使用梅爾倒譜系數(shù)來(lái)作為說(shuō)話人識(shí)別的特征,更有利于提高識(shí)別效果。
基于以上分析,案例將從基音頻率和梅爾頻率倒譜兩個(gè)特征進(jìn)行設(shè)計(jì)。
聲紋識(shí)別是一種通過(guò)聲音判別說(shuō)話人身份的技術(shù)。從直覺(jué)上來(lái)說(shuō),聲紋雖然不像人臉、指紋的個(gè)體差異那樣直觀可見,但由于每個(gè)人的聲道、口腔和鼻腔也具有個(gè)體的差異性,因此反映到聲音上也具有差異性。如果將口腔看作聲音的發(fā)射器,那作為接收器的人耳生來(lái)也具備辨別聲音的能力[10-11]。
最直觀的是打電話給家里的時(shí)候,通過(guò)一聲“喂”就能準(zhǔn)確地分辨出接電話的是爸媽或是兄弟姐妹,這種語(yǔ)音中承載的說(shuō)話人身份信息的唯一性使得聲紋也可以像人臉、指紋那樣作為生物信息識(shí)別技術(shù)的生力軍,輔助甚至替代傳統(tǒng)的數(shù)字符號(hào)密碼,在安防和個(gè)人信息加密的領(lǐng)域發(fā)揮重要的作用。因此通過(guò)聲紋識(shí)別系統(tǒng)的開發(fā),能大大地激發(fā)學(xué)生的興趣,提升學(xué)習(xí)的效果。
為提高學(xué)生解決實(shí)際工程問(wèn)題的能力,研究性實(shí)驗(yàn)案例的設(shè)計(jì)既要具備基礎(chǔ)性和層次性,又要具備高階性和創(chuàng)新性。為了達(dá)到基礎(chǔ)性和層次性的要求,實(shí)驗(yàn)內(nèi)容將從數(shù)字語(yǔ)音課程的基本知識(shí)點(diǎn)出發(fā),從基音頻率到梅爾頻率倒譜的提取,從特征匹配模型到深度學(xué)習(xí)模型,既注重基礎(chǔ),又逐步加大實(shí)驗(yàn)的難度。同時(shí),為了達(dá)到高階性和創(chuàng)新性的要求,將從基音頻率和梅爾頻率倒譜的統(tǒng)計(jì)分析,模板搜索算法的優(yōu)化,特征提取網(wǎng)絡(luò)的選擇等方面對(duì)學(xué)生進(jìn)行引導(dǎo)。學(xué)生將以小組的形式(2 或3 人為1 組)搜集資料,提出問(wèn)題,探討方案,解決問(wèn)題,從而對(duì)聲紋識(shí)別系統(tǒng)進(jìn)行改進(jìn)。
總之,所設(shè)計(jì)的研究性實(shí)驗(yàn)案例的主要目的是讓學(xué)生更好地理解數(shù)字語(yǔ)音信號(hào)特征表達(dá)及識(shí)別的基本方法,同時(shí)結(jié)合工程實(shí)際問(wèn)題,將數(shù)字語(yǔ)音課程的知識(shí)點(diǎn)串聯(lián)起來(lái),培養(yǎng)學(xué)生理論聯(lián)系實(shí)際的素質(zhì),提高學(xué)生的工程實(shí)踐能力和創(chuàng)新能力。
(1)基礎(chǔ)實(shí)驗(yàn)內(nèi)容。通過(guò)掌握基音頻率和梅爾頻率倒譜提取的方法,熟練掌握數(shù)字語(yǔ)音的時(shí)域分析、倒譜分析等特征分析方法。
要求每個(gè)學(xué)生錄制自己的聲音,獲取各自的音頻文件。選擇合適的特征分析方法獲取自己的基音頻率和梅爾頻率倒譜。如圖1 所示,通過(guò)提取音頻信號(hào)中的濁音信號(hào),由自相關(guān)分析、倒譜分析等方法可以獲取基音頻率。如圖2 所示,通過(guò)短時(shí)傅里葉變換,可以獲得音頻信號(hào)的語(yǔ)譜信息,再通過(guò)梅爾濾波,倒譜分析等步驟,獲得梅爾頻率倒譜。最后要求學(xué)生分析所提取的基音頻率和梅爾頻率倒譜,描述個(gè)人的聲音特性[12-13]。
圖1 音頻信號(hào)及對(duì)應(yīng)的濁音信號(hào)(濁音信號(hào)中可提取基音頻率)
圖2 梅爾倒譜系數(shù)提取過(guò)程
(2)高階實(shí)驗(yàn)內(nèi)容。綜合所有學(xué)生的音頻文件,構(gòu)建音頻數(shù)據(jù)集,引導(dǎo)學(xué)生通過(guò)機(jī)器學(xué)習(xí)等方法,分析男女各自基音頻率和梅爾頻率倒譜的特征,據(jù)此構(gòu)建基于語(yǔ)音特征的性別判別模型。
(1)基礎(chǔ)實(shí)驗(yàn)內(nèi)容。以基音頻率和梅爾頻率倒譜作為特征,按照教材內(nèi)容,構(gòu)建基于模板匹配的聲紋識(shí)別系統(tǒng)。如圖3 所示,其過(guò)程首先將待識(shí)別的語(yǔ)音進(jìn)行預(yù)處理,提取基音頻率和梅爾頻率倒譜,然后和模板庫(kù)中的模板進(jìn)行比較匹配,作出判決[12-13]。
(2)高階實(shí)驗(yàn)內(nèi)容。引導(dǎo)學(xué)生查閱深度學(xué)習(xí)相關(guān)資料,構(gòu)建基于深度學(xué)習(xí)的聲紋識(shí)別系統(tǒng)。如圖4 所示,其過(guò)程首先將待識(shí)別的語(yǔ)音進(jìn)行預(yù)處理,獲取梅爾頻率倒譜圖,然后將其輸入已訓(xùn)練好的深度學(xué)習(xí)網(wǎng)絡(luò),進(jìn)行識(shí)別決策。
圖3 基于模板匹配的聲紋識(shí)別系統(tǒng)
該部分重在提高學(xué)生自主學(xué)習(xí)的能力,引導(dǎo)其創(chuàng)新性。如對(duì)于特征提取網(wǎng)絡(luò)的選擇,深度學(xué)習(xí)特征提取網(wǎng)絡(luò)主要有AlexNet、VGGNet、ResNet 等網(wǎng)絡(luò)[14-16],
這些網(wǎng)絡(luò)具有不同的性能,并且每種網(wǎng)絡(luò)又包含不同的網(wǎng)絡(luò)結(jié)構(gòu),比如VGGNet 中比較經(jīng)典的網(wǎng)絡(luò)就有VGG16 和VGG19。引導(dǎo)學(xué)生分析不同網(wǎng)絡(luò)的性能并通過(guò)數(shù)據(jù)集驗(yàn)證其效果,以此使學(xué)生理解特征提取網(wǎng)絡(luò)對(duì)于聲紋識(shí)別的影響。此外,還可以引導(dǎo)學(xué)生對(duì)神經(jīng)元結(jié)構(gòu),激活函數(shù),損失函數(shù)等進(jìn)行修改,嘗試模型的優(yōu)化,提高識(shí)別效果。
圖4 基于深度學(xué)習(xí)的聲紋識(shí)別系統(tǒng)
實(shí)驗(yàn)過(guò)程分為以5 個(gè)部分:
(1)任務(wù)發(fā)布。由教師發(fā)布實(shí)驗(yàn)任務(wù)并講解任務(wù)的具體要求。
(2)小組協(xié)作。學(xué)生自由分組,通過(guò)搜集資料,提出問(wèn)題,探討方案,解決問(wèn)題等方式,實(shí)現(xiàn)系統(tǒng)的開發(fā)。
(3)現(xiàn)場(chǎng)引導(dǎo)。幫助學(xué)生解決實(shí)驗(yàn)中的難題,同時(shí)引導(dǎo)學(xué)生進(jìn)行創(chuàng)新。
(4)系統(tǒng)驗(yàn)收。每一小組現(xiàn)場(chǎng)演示所開發(fā)的系統(tǒng)的識(shí)別效果,老師對(duì)各項(xiàng)指標(biāo)進(jìn)行打分。
(5)PPT答辯。每一小組進(jìn)行答辯,主要闡述系統(tǒng)的原理,解決方案和創(chuàng)新點(diǎn),并且小組成員將逐一回答老師提出的問(wèn)題。
整個(gè)評(píng)價(jià)將分為3 部分,如表1 所示。
表1 評(píng)價(jià)內(nèi)容
本文以聲紋系統(tǒng)的開發(fā)為例,探索了數(shù)字語(yǔ)音處理課程中的研究性實(shí)驗(yàn)教學(xué)案例設(shè)計(jì),實(shí)驗(yàn)內(nèi)容重在保證實(shí)驗(yàn)教學(xué)的基礎(chǔ)性和層次性,又能具備一定的高階性和創(chuàng)新性。案例的實(shí)施有助于提高學(xué)生的學(xué)習(xí)興趣,培養(yǎng)其探索精神,引導(dǎo)其創(chuàng)新意識(shí),提升其解決實(shí)際工程問(wèn)題的能力。