李延華,曹 輝,張若雨,陳文韜,曹 娜,范 翔
(陜西師范大學(xué)物理學(xué)與信息技術(shù)學(xué)院,陜西西安 710119)
藝術(shù)嗓音是指經(jīng)過長期系統(tǒng)、專業(yè)的聲樂訓(xùn)練且具有一定音樂和嗓音天賦的特定人群,在特定場合中用特殊方式表現(xiàn)出來的嗓音[1]。藝術(shù)嗓音可以用來衡量歌手唱歌水平的高低,在歌手的選拔和培養(yǎng)過程中,如何客觀準(zhǔn)確地評(píng)價(jià)藝術(shù)嗓音是我們面臨最直接的問題,解決此問題對(duì)藝術(shù)院校的招生、教學(xué)和考核環(huán)節(jié)也有重大意義。
目前,國內(nèi)外藝術(shù)嗓音的評(píng)價(jià)方法主要為主觀聽感知評(píng)價(jià),該方法存在主觀性強(qiáng)、耗時(shí)、費(fèi)力且準(zhǔn)確率低等缺陷。因此科研人員對(duì)藝術(shù)嗓音的研究逐漸轉(zhuǎn)向客觀評(píng)價(jià),王修信[2]、羅蘭娥[3]等人使用平均能量、平均音域誤差、共振峰、共振峰微擾等多種聲學(xué)參數(shù)以及BP 網(wǎng)絡(luò)進(jìn)行評(píng)價(jià)。吳媛[4]提取第一共振峰、第三共振峰、基頻三個(gè)聲學(xué)參數(shù),用機(jī)器學(xué)習(xí)的方法對(duì)樣本做出評(píng)價(jià),與評(píng)委老師評(píng)價(jià)相比一致性達(dá)90%。上述方法均存在以下兩點(diǎn)不足:①供評(píng)測的樣本只有一首歌曲,較單一,不具有普遍性;②準(zhǔn)確率較低。
聲譜圖是一種二維圖像,可以直接體現(xiàn)語音頻譜隨時(shí)間的變化[5]。橫軸對(duì)應(yīng)時(shí)間,縱軸對(duì)應(yīng)頻率,每個(gè)坐標(biāo)點(diǎn)的值對(duì)應(yīng)某一頻率分量在某一時(shí)刻的能量。因此,語音由于時(shí)間變化而產(chǎn)生的不同諧振頻譜可以在聲譜圖中呈現(xiàn)出不同的視覺圖像紋理[6]。近幾年,聲譜圖在眾多科研項(xiàng)目中都有應(yīng)用,如文獻(xiàn)[7]提出利用聲譜圖來進(jìn)行江西方言的分區(qū)研究,文獻(xiàn)[8]采用聲譜圖進(jìn)行聲樂分類研究等。相比于傳統(tǒng)機(jī)器學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜,隱藏層更多,因此學(xué)習(xí)特征和表達(dá)特征的能力更強(qiáng),被較好地運(yùn)用于處理大規(guī)模分類識(shí)別任務(wù)。
鑒于卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征的能力和適用二維圖像數(shù)據(jù)的特點(diǎn),該文將嗓音樣本轉(zhuǎn)化為梅爾聲譜圖,將梅爾聲譜圖與深度學(xué)習(xí)相結(jié)合用于藝術(shù)嗓音評(píng)價(jià),使嗓音評(píng)價(jià)問題轉(zhuǎn)化為圖像分類問題,為藝術(shù)嗓音客觀評(píng)價(jià)提供了一種新思路和新方法,經(jīng)實(shí)驗(yàn)證明該方法的準(zhǔn)確率優(yōu)于傳統(tǒng)方法。
可采用時(shí)域和頻域兩種不同方法對(duì)一段語音進(jìn)行分析,但若單獨(dú)分析的話,這兩種方法均有局限性。大量的理論與實(shí)驗(yàn)研究表明,語音信號(hào)的發(fā)出過程是復(fù)雜的非線性過程,可認(rèn)為由具有固有非線性動(dòng)力學(xué)特性的系統(tǒng)產(chǎn)生。語音信號(hào)是時(shí)變信號(hào),因此其頻譜會(huì)隨時(shí)間發(fā)生變化,而聲譜圖將語音信號(hào)隨時(shí)間變化的關(guān)系很好地表現(xiàn)出來,同時(shí)也獲得了語音信號(hào)的頻率變化。根據(jù)語音信號(hào)的短時(shí)平穩(wěn)性,對(duì)其做短時(shí)傅里葉變換,展開得到的二維信號(hào)就是聲譜圖。
聲譜圖將語音信號(hào)的時(shí)、頻域信息在一張圖上綜合表現(xiàn)出來,對(duì)其進(jìn)行研究,提取的圖像特征克服了傳統(tǒng)聲學(xué)單一的缺陷。通過對(duì)時(shí)、頻域的聯(lián)合分析,可以得到更多傳統(tǒng)聲學(xué)特征難以表征的語音信息,在語音識(shí)別領(lǐng)域也取得了很多有意義的成果[9-12]。
鑒于聲譜圖的廣泛應(yīng)用和卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別上的良好表現(xiàn)[13],該文擬將深度學(xué)習(xí)的方法用于嗓音評(píng)價(jià),提高了分類準(zhǔn)確率。
藝術(shù)嗓音客觀評(píng)價(jià)的傳統(tǒng)方法與該文所提方法如圖1 所示。
圖1 藝術(shù)嗓音客觀評(píng)價(jià)傳統(tǒng)方法與該文所提方法比較
聲波是一維的,無法直接看出頻率變化的規(guī)律,而聲譜圖解決了這個(gè)問題。再通過梅爾標(biāo)度濾波器組將其轉(zhuǎn)換為梅爾聲譜圖,從而更好地將音頻信號(hào)的時(shí)域信息、頻域信息與能量信息表現(xiàn)出來。
在獲取藝術(shù)嗓音的音頻樣本之后,對(duì)樣本進(jìn)行預(yù)處理,主要包括預(yù)加重、加窗、分幀等步驟[14]。一般通過傳遞函數(shù)為一階的FIR 高通數(shù)字濾波器來實(shí)現(xiàn)預(yù)加重,其傳遞函數(shù)如式(1)所示:
式中,μ為預(yù)加重系數(shù),通常取0.98[15]。
分幀可以獲得音頻文件的短時(shí)平穩(wěn)信號(hào)。相比于矩形窗和海寧窗,漢明窗的頻譜泄露最小[16],加窗處理就是讓每一幀信號(hào)都乘以漢明窗函數(shù)。加窗處理過程如式(2)所示:
式中,S(n)表示原始信號(hào),ω(n)表示所用的加窗函數(shù)。
漢明窗表達(dá)式如式(3)所示:
式中,wlen為幀長。
圖2 和圖3 隨機(jī)選取了樣本庫中評(píng)價(jià)較差和評(píng)價(jià)較好的嗓音樣本的波形圖和梅爾聲譜圖。
圖2 評(píng)價(jià)結(jié)果較差的嗓音波形圖和梅爾聲譜圖
圖3 評(píng)價(jià)結(jié)果較好的嗓音波形圖和梅爾聲譜圖
通過觀察梅爾聲譜圖可以發(fā)現(xiàn),不同評(píng)價(jià)結(jié)果的嗓音樣本所對(duì)應(yīng)的聲譜圖圖像風(fēng)格迥異。借助于機(jī)器視覺領(lǐng)域的研究發(fā)現(xiàn),對(duì)梅爾聲譜圖進(jìn)行識(shí)別,從而將嗓音評(píng)價(jià)問題轉(zhuǎn)換為對(duì)圖像的分類。
CNN 是一種帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)[17]。卷積結(jié)構(gòu)在有效減少網(wǎng)絡(luò)參數(shù)的同時(shí),又緩解了模型的過擬合問題[18]。
考慮到梅爾聲譜圖含有時(shí)域、頻域、能量等多種信息的特性,在經(jīng)過多次實(shí)驗(yàn)與訓(xùn)練后,對(duì)構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了參數(shù)優(yōu)化,并加入了數(shù)據(jù)增強(qiáng)模塊和Dropout 層,使得該網(wǎng)絡(luò)的損失值更小,訓(xùn)練時(shí)間更短,在保證感受野的同時(shí)可有效提取細(xì)粒度特征。該文所構(gòu)造的CNN 模型如圖4 所示。
圖4 CNN網(wǎng)絡(luò)模型參數(shù)
1)卷積層
卷積層用來識(shí)別圖像里的空間模式,如線條和物體局部。卷積運(yùn)算可以提取并增強(qiáng)圖像特征的同時(shí)降低噪聲。該文構(gòu)造的CNN 網(wǎng)絡(luò)含三個(gè)卷積層,分別包含32、32、64 個(gè)內(nèi)核,卷積核大小均為3×3。為了解決梯度消失問題,在輸入層和隱藏層使用Relu 激活函數(shù)。
2)池化層
池化層進(jìn)行降采樣,減少參數(shù)量的同時(shí)可以獲得平移和形變的魯棒性。相比于平均池化[19],最大值池化可以減少卷積層參數(shù)誤差造成估計(jì)均值的偏移,更多地保留紋理信息,故這里采用最大值池化。為將特征圖下采樣兩倍,該架構(gòu)選擇了大小均為2×2的池化層,設(shè)置步幅為2。
3)全連接層
為減少特征信息的丟失,使用全連接層進(jìn)一步加強(qiáng)特征。該實(shí)驗(yàn)中含有兩個(gè)全連接層,它們的輸出個(gè)數(shù)分別為64 和1,其中,1 為輸出的類別個(gè)數(shù)。
相比于一般卷積神經(jīng)網(wǎng)絡(luò),該文添加了數(shù)據(jù)增強(qiáng)模塊,以此來增加數(shù)據(jù)特征的多樣性。采用幾何變換、顏色變換等隨機(jī)變換生成可信圖像,進(jìn)行樣本擴(kuò)增,這樣可在訓(xùn)練模型的過程中獲取更深層次的特征,從而具有更強(qiáng)的泛化能力[20]。在Keras 中,通過對(duì)ImageDataGenerator 讀取的圖像執(zhí)行多次隨機(jī)變換來實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。
同時(shí)為了進(jìn)一步降低過擬合,在分類器之前添加一個(gè)Dropout 層,主要用于權(quán)重衰減,解決了分類器帶來的參數(shù)冗余的數(shù)值問題。
目前,國內(nèi)外并沒有開源的標(biāo)準(zhǔn)嗓音樣本庫用于研究,故在陜西師范大學(xué)音樂學(xué)院進(jìn)行了建庫工作。該實(shí)驗(yàn)所用嗓音樣本由陜西師范大學(xué)音樂學(xué)院聲樂專業(yè)研究生和本科生41 名同學(xué)錄制,其中男生15 名,女生26 名,近3 個(gè)月均無喉病及上呼吸道感染。嗓音樣本在陜西師范大學(xué)音樂學(xué)院錄音室錄制,錄音環(huán)境噪聲小于45 dB。錄制前對(duì)歌唱者進(jìn)行培訓(xùn),演唱時(shí)口距麥克風(fēng)10 cm,錄音前先進(jìn)行發(fā)聲練習(xí),同時(shí)有專業(yè)鋼琴演奏者進(jìn)行伴奏,歌唱者重復(fù)多次演唱/a/、/i/、/o/音,直至達(dá)到穩(wěn)定的演唱狀態(tài),之后依次演唱《花非花》、《康定情歌》。計(jì)算機(jī)采樣頻率為48 kHz,16 bit量化,單聲道方式,數(shù)據(jù)存儲(chǔ)為wav格式。在歌曲錄制完畢之后,用Audacity 軟件逐一進(jìn)行剪切,最終每個(gè)音頻時(shí)長為25 s。為驗(yàn)證該文所提客觀評(píng)價(jià)方法的實(shí)用性,由五名音樂學(xué)院資深聲樂教師及聲樂專業(yè)研究生憑借豐富的聲樂知識(shí)和經(jīng)驗(yàn),對(duì)樣本歌聲做出評(píng)價(jià),嗓音樣本最終分為較好和較差兩類。
利用librosa 工具包,對(duì)語音樣本經(jīng)過分幀、加窗和短時(shí)離散傅里葉變換處理得到聲譜圖,再通過梅爾標(biāo)度濾波器組變換為梅爾聲譜圖。將得到的梅爾聲譜圖按照評(píng)價(jià)結(jié)果分為較好和較差兩類,同時(shí)按照8∶2劃分為訓(xùn)練集和測試集。最后輸入搭建的CNN神經(jīng)網(wǎng)絡(luò)中,設(shè)置迭代次數(shù)為500,在訓(xùn)練集上訓(xùn)練模型,調(diào)節(jié)參數(shù),然后在測試集上評(píng)價(jià)模型結(jié)果。
損失函數(shù)曲線如圖5 所示,從圖5 可以看出,損失函數(shù)的值隨迭代次數(shù)的增加逐漸減小,識(shí)別準(zhǔn)確率如圖6 所示,從圖6 可以看出,準(zhǔn)確率隨迭代次數(shù)的增加逐漸提高,經(jīng)過多次實(shí)驗(yàn)驗(yàn)證,最終準(zhǔn)確率平均可達(dá)95.5%。
圖5 測試集損失函數(shù)曲線
圖6 測試集識(shí)別準(zhǔn)確率曲線
該文也利用傳統(tǒng)的評(píng)價(jià)方法,對(duì)該數(shù)據(jù)庫的音頻樣本提取基頻、第一、第三共振峰,分別輸入BP 神經(jīng)網(wǎng)絡(luò)和SVM 支持向量機(jī)[21],得到分類結(jié)果,與利用卷積神經(jīng)網(wǎng)絡(luò)建立的藝術(shù)嗓音客觀評(píng)價(jià)模型評(píng)價(jià)結(jié)果對(duì)比。單一歌曲《花非花》、《康定情歌》和兩首歌全體評(píng)價(jià)準(zhǔn)確率如表1 所示。
表1 客觀評(píng)價(jià)分類準(zhǔn)確率
從表1 可以看出,該文所提出的藝術(shù)嗓音客觀評(píng)價(jià)方法在單一歌曲和混合歌曲的評(píng)價(jià)中均具有良好的表現(xiàn),優(yōu)于傳統(tǒng)方法,為客觀高效地評(píng)估藝術(shù)嗓音提供了新視角。
該文針對(duì)藝術(shù)嗓音客觀評(píng)價(jià)研究,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)方法。該方法將音頻信號(hào)轉(zhuǎn)化為梅爾聲譜圖,構(gòu)建了多層CNN 神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型并進(jìn)行了參數(shù)優(yōu)化,在此基礎(chǔ)上進(jìn)行了嗓音分類研究,對(duì)藝術(shù)嗓音分類的準(zhǔn)確率達(dá)到了95.5%,相比于BP 神經(jīng)網(wǎng)絡(luò)和SVM 評(píng)價(jià)方法,分別提高了8.9%和16.9%。結(jié)果表明,以梅爾聲譜圖的圖像特征作為輸入的深度學(xué)習(xí)模型在藝術(shù)嗓音客觀評(píng)價(jià)任務(wù)上具有良好的表現(xiàn),為客觀地評(píng)價(jià)藝術(shù)嗓音質(zhì)量提供了一個(gè)新的思路,有助于科學(xué)準(zhǔn)確地選拔和培養(yǎng)藝術(shù)嗓音人才。受實(shí)驗(yàn)條件的限制,訓(xùn)練數(shù)據(jù)不夠充分,未來將繼續(xù)擴(kuò)充藝術(shù)嗓音樣本的數(shù)量,探索更加客觀、準(zhǔn)確的評(píng)價(jià)方法。