[中圖分類號]G424.74[文獻(xiàn)標(biāo)識碼]A [文章編號] 1673—1654(2025)04—022—008
歌唱是人類表達(dá)情感、傳遞文化信息的重要方式之一,也是音樂藝術(shù)的重要組成部分。在音樂教育中,培養(yǎng)學(xué)生的歌唱能力是重要的教學(xué)目標(biāo)之一。長久以來,學(xué)生歌唱能力的測評主要依賴于專家主觀評價。這種方法雖然能夠綜合考量歌唱者的音準(zhǔn)、節(jié)奏、音色、完整度、表現(xiàn)力等多個方面,但其主觀性較強(qiáng),不同評委對于評價標(biāo)準(zhǔn)的理解可能存在差異,導(dǎo)致評價結(jié)果的客觀性和一致性受到影響。此外,專家評價通常需要耗費(fèi)大量的時間和人力,難以進(jìn)行大規(guī)模的測評和精細(xì)化的量化分析。針對以上問題,提出基于人工智能的歌唱測評模型。該模型通過提取學(xué)生歌唱音頻的聲學(xué)特征,并結(jié)合機(jī)器學(xué)習(xí)隨機(jī)森林算法進(jìn)行訓(xùn)練,實現(xiàn)了對學(xué)生歌唱能力客觀高效的自動化評估。
一、研究背景
(一)專家主觀評價
2021年研發(fā)了利用手機(jī)小程序進(jìn)行歌唱測評的平臺,學(xué)生在小程序中進(jìn)行錄音,教師通過隨機(jī)閱卷的方式對每一個學(xué)生的音頻從音準(zhǔn)、節(jié)奏、音色、完整度、表現(xiàn)力等五個維度進(jìn)行評分。缺點如前文所述十分明顯。圖1顯示了區(qū)內(nèi)某次測評的評分統(tǒng)計,全區(qū)70多位教師的閱卷平均分差異較大,且難以進(jìn)行大規(guī)模測評。
(二)KTV唱歌打分技術(shù)
KTV打分系統(tǒng)主要依賴于對原唱旋律的精確匹配,對于歌唱者的音色、情感表達(dá)等方面考慮較少。此外,這些系統(tǒng)通常需要人工預(yù)先標(biāo)注歌曲的旋律信息,工作量較大。主要依賴3種技術(shù):一是域波形比較。系統(tǒng)會采集歌唱者和原唱的音頻信號,在時域上逐點比較兩個波形的相似度。如果兩個波形在幅度、相位等方面比較接近,則認(rèn)為歌唱的音準(zhǔn)和節(jié)奏較好,得分較高。這種方法的缺點是容易受到噪聲和音量變化的影響。二是基于能量比較。分別計算歌唱者音頻信號和伴奏音樂的能量,然后比較兩者能量的差異。如果歌唱者的能量與伴奏音樂的能量匹配度較高,則得分較高。這種方法主要關(guān)注音量和節(jié)奏的穩(wěn)定性,但忽略了音高的準(zhǔn)確性。三是旋律特征比較。系統(tǒng)會提取原唱歌曲的旋律特征,如音高曲線、節(jié)奏信息等,并將其存儲為模板。當(dāng)用戶歌唱時,系統(tǒng)會實時提取用戶歌唱的旋律特征,并與模板進(jìn)行比較,計算相似度。相似度越高,得分越高。這種方法能夠較好地評估音準(zhǔn)和節(jié)奏,是目前主流KTV打分系統(tǒng)的核心技術(shù)。
(三)基于人工智能的歌唱測評技術(shù)
隨著計算機(jī)技術(shù)和人工智能的快速發(fā)展,基于計算機(jī)的音頻分析技術(shù)逐漸成熟,為歌唱測評的客觀化和智能化提供了新的可能性。通過提取歌唱音頻的聲學(xué)特征,并結(jié)合機(jī)器學(xué)習(xí)算法進(jìn)行建模,可以實現(xiàn)對學(xué)生歌唱能力的自動化評估。這種方法不僅能夠提高測評的效率和客觀性,還可以提供更為精細(xì)化的量化分析結(jié)果,為教師和學(xué)生提供更有針對性的反饋。
一些研究利用信號處理技術(shù)提取歌唱音頻的音高、音強(qiáng)、音色、節(jié)奏等特征,然后根據(jù)預(yù)設(shè)的規(guī)則或模型對學(xué)生的歌唱進(jìn)行評價。例如,使用自動音高檢測算法來評估音準(zhǔn),使用動態(tài)時間規(guī)整(DTW)算法來評估節(jié)奏。這些方法能夠?qū)崿F(xiàn)客觀量化分析,但通常只能針對歌唱的某一個方面進(jìn)行評估,難以綜合考慮歌唱的各個方面。
另一些研究則利用機(jī)器學(xué)習(xí)算法對提取的音頻特征進(jìn)行建模,從而實現(xiàn)對歌唱的綜合評估。例如,一些研究使用支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)等算法對音準(zhǔn)、節(jié)奏、音色等進(jìn)行分類或回歸,評估其歌唱水平2。這些方法能夠綜合考慮歌唱的多個方面,并能夠通過訓(xùn)練數(shù)據(jù)不斷提高模型的性能。
(四)隨機(jī)森林算法
隨機(jī)森林算法作為一種優(yōu)秀的機(jī)器學(xué)習(xí)算法,在歌唱測評中具有獨特的優(yōu)勢,可以有效地提高評估的準(zhǔn)確性和效率。歌唱測評涉及對音高、音強(qiáng)、節(jié)奏等連續(xù)值的預(yù)測,最終是回歸問題。對比線性回歸、支持向量回歸、決策樹回歸等,隨機(jī)森林算法在各種分類和回歸問題中表現(xiàn)出色,具備以下幾個特點:一是處理高維數(shù)據(jù)的能力。歌唱音頻的特征提取過程涉及多種時域、頻域及音色等特征,特征空間的維度較高。隨機(jī)森林通過集成多棵決策樹,有效減少了高維數(shù)據(jù)可能帶來的維度災(zāi)難,同時避免了特征間冗余信息對模型訓(xùn)練的負(fù)面影響。二是魯棒性與防過擬合能力。與單一決策樹相比,隨機(jī)森林通過構(gòu)建多個決策樹并對其結(jié)果進(jìn)行集成,能夠有效避免單棵樹的過擬合問題,從而提高模型的泛化能力。在本研究中,目標(biāo)是確保模型能夠在大規(guī)模學(xué)生歌唱數(shù)據(jù)集上穩(wěn)定運(yùn)行,隨機(jī)森林的集成特性恰好滿足了這一需求。三是處理非線性關(guān)系能力。
歌唱測評任務(wù)涉及音高、節(jié)奏、音色等多個方面的復(fù)雜特征,這些特征之間可能存在非線性關(guān)系(通過相關(guān)性分析發(fā)現(xiàn)確實如此)。隨機(jī)森林能夠有效捕捉這些復(fù)雜的非線性關(guān)系,而不像線性回歸等方法那樣依賴于特征間的線性假設(shè)。四是無需特征選擇的優(yōu)勢。在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中,特征選擇是一個必要的步驟,尤其在特征較多的情況下。隨機(jī)森林算法通過自身的特征重要性評估機(jī)制,自動篩選出對預(yù)測有貢獻(xiàn)的特征,避免了人工特征選擇的煩瑣過程。五是可處理大樣本訓(xùn)練數(shù)據(jù)。基于香洲區(qū)的學(xué)生歌唱數(shù)據(jù)集,樣本量龐大(包含34280名學(xué)生的音頻數(shù)據(jù)和76360次評分?jǐn)?shù)據(jù))。隨機(jī)森林通過并行訓(xùn)練多棵決策樹,有效提高了訓(xùn)練和預(yù)測的效率,適合處理此類大規(guī)模數(shù)據(jù)集。
隨機(jī)森林方法也存在一些局限性。首先,由于其依賴于構(gòu)建大量決策樹,計算和內(nèi)存消耗較高,尤其在數(shù)據(jù)量大或特征維度高時,訓(xùn)練和預(yù)測過程可能非常耗時。實際訓(xùn)練中確實如此,因為算力不足,每完成一次訓(xùn)練需要近兩天,耗費(fèi)大量時間。其次,盡管隨機(jī)森林可以有效減少過擬合,但它對噪聲數(shù)據(jù)的敏感性仍然存在,特別是當(dāng)噪聲占比較大時,模型的準(zhǔn)確性可能會受到影響。前期通過相關(guān)性分析和特征重要性分析對部分特征進(jìn)行了篩選,同時在目前歌唱歌詞識別率不穩(wěn)定且不高的情況下,并未直接將歌詞文本相似度作為模型特征納入訓(xùn)練,而是另外建模處理歌詞文本相似度進(jìn)行評分優(yōu)化。
二、研究方法
(一)數(shù)據(jù)集描述與預(yù)處理
數(shù)據(jù)集來源于香洲區(qū)教研部門自主開發(fā)的音樂歌唱測評小程序,該程序在過去幾年中收集了34280名學(xué)生的歌唱音頻和70多位老師的76360次評分?jǐn)?shù)據(jù)。這些數(shù)據(jù)提供了豐富的資源,可用于訓(xùn)練和測試音樂歌唱測評模型。
(二)音頻特征提取
音頻特征提取是音樂信息處理中的一個關(guān)鍵步驟,它能夠?qū)⒁纛l信號轉(zhuǎn)換為可以被機(jī)器學(xué)習(xí)算法處理的數(shù)值特征。表1顯示了提取的音頻特征。
這些特征的提取依賴于Python中的librosa庫,該庫提供了豐富的音頻處理功能。同時根據(jù)音頻信號長度,設(shè)置了動態(tài)n_fft值,讓特征提取更加準(zhǔn)確。同時,使用網(wǎng)格搜索和隨機(jī)搜索等參數(shù)調(diào)優(yōu)方法,結(jié)合交叉驗證來選擇最優(yōu)的參數(shù)組合。
為了有效地捕捉音頻信號中的關(guān)鍵信息,提取了一系列音頻特征。最初,考慮了多種時域和頻域特征,包括色度圖(chroma_stft)均方根能量(rmse)頻譜質(zhì)心(spectral_centroid)頻譜帶寬(spectral_bandwidth)、頻譜滾降點(rolloff)、過零率(zero_crossing_rate)、梅爾頻率倒譜系數(shù)(MFCCs)、音頻時長(duration)、音高(pitch)、節(jié)拍(tempo)等32種特征。然而,更多的特征可能導(dǎo)致“特征災(zāi)難”,不僅增加計算復(fù)雜度,還可能降低模型性能。為了避免這一問題,并提高訓(xùn)練效率,進(jìn)行了音頻特征優(yōu)化。具體來說,先提取所有音頻的所有能想到的可以提取的特征數(shù)據(jù),然后采用以下方法進(jìn)行分析。
第一,相關(guān)性分析。計算各特征之間的相關(guān)系數(shù),以識別高度相關(guān)的特征。如表2所示,提取某次學(xué)生歌唱考試音頻的各項特征及教師評分信息進(jìn)行相關(guān)性分析。雖然隨機(jī)森林算法能處理大量特征數(shù)據(jù),但是為了降低算力需求,通過相關(guān)性數(shù)據(jù)去除了部分相關(guān)性低、未通過顯著性檢驗的特征,同時也減少訓(xùn)練時的噪聲數(shù)據(jù)。
從相關(guān)性檢測結(jié)果可知,特征與得分的相關(guān)性較弱,但是通過了顯著性檢驗,結(jié)論如下:一是樣本量大(12435個數(shù)據(jù)點),即使每個特征的相關(guān)性較低,也能通過統(tǒng)計檢驗得到顯著性。采用隨機(jī)森林算法建模,通過大樣本量,模型能夠捕捉到這些微小的關(guān)系。二是這些低相關(guān)性可能反映了某些特征與得分之間的非線性關(guān)系。傳統(tǒng)的相關(guān)性分析無法完全捕捉這些非線性關(guān)系,而隨機(jī)森林能夠處理這種復(fù)雜的非線性關(guān)系,因此,即使相關(guān)性較低,仍然有可能在模型中找到有用的特征。三是雖然單個特征的相關(guān)性較低,但可能在多個特征的綜合作用下,模型能有效預(yù)測得分。以上三個相關(guān)性的特點恰恰是隨機(jī)森林算法在處理歌唱測評時獨特的優(yōu)勢所在。
第二,特征重要性分析。如圖2所示,在訓(xùn)練隨機(jī)森林模型后,分析每個特征對模型預(yù)測的重要性,重要性較低的特征可能會被移除,以簡化模型并提高泛化能力。最終選擇chroma_stft、rmse、spectral_centroid、spectral_bandwidth、rolloff、zero_crossing_rate、mfcc1-mfcc20、pitch、tempo作為音頻提取特征。這些特征涵蓋了音頻信號的時域、頻域、音色、節(jié)奏、音高等多個維度,能夠較為全面地描述音頻的特征。
(三)訓(xùn)練與驗證方法
模型的訓(xùn)練和驗證采用k折交叉驗證方法,以確保模型的泛化能力。在k折交叉驗證中,數(shù)據(jù)集被隨機(jī)分成k個相等的部分,每次留出一部分作為測試集,其余作為訓(xùn)練集,循環(huán)k次,每次選擇不同的部分作為測試集。這種方法可以充分利用數(shù)據(jù),減少過擬合的風(fēng)險。k折交叉驗證被廣泛認(rèn)為是一個可靠的模型驗證方法,尤其適用于評估模型在實際應(yīng)用中的表現(xiàn)。
(四)評價指標(biāo)
構(gòu)建預(yù)測學(xué)生歌唱得分的回歸模型。主要使用均方誤差(MeanSquared Error,MSE)來評估模型的性能。均方誤差MSE是預(yù)測值與真實值之差的平方的平均值,衡量了預(yù)測值偏離真實值的平均程度,數(shù)值越小,表示模型的預(yù)測精度越高。
(五)歌詞相似度分析
為進(jìn)一步提升模型的評估能力,給學(xué)生提供更具針對性的反饋,引入歌詞文本相似度對比。通過比對學(xué)生歌唱音頻識別出的歌詞與原唱歌詞,可以量化學(xué)生歌唱的完整度和準(zhǔn)確性。雖然歌唱音頻文字識別領(lǐng)域仍然面臨諸多挑戰(zhàn),尚無完美的解決方案,但本研究探索并比較了幾種常用的語音識別方法和工具。
1.基于Librosa與預(yù)訓(xùn)練模型的方案。該方案結(jié)合了Librosa提取的音頻特征與微調(diào)后的預(yù)訓(xùn)練模型(如Wav2Vec2.0或HuBERT)[3]。
2.基于PaddleSpeech的方案。PaddleSpeech提供了針對中文優(yōu)化的預(yù)訓(xùn)練語音識別模型[4]。
以上兩個方案在語音識別任務(wù)中表現(xiàn)出色,但經(jīng)測試歌詞識別效果一般,可能需要通過現(xiàn)有的歌唱數(shù)據(jù)進(jìn)行微調(diào),需要的特征工程和算力工程大,因此未深入嘗試,未來可作為進(jìn)一步研究的重點。
3.基于Librosa與傳統(tǒng)語音識別引擎的方案。該方案結(jié)合了Librosa的音頻處理能力與SpeechRecognition庫封裝的傳統(tǒng)語音識別引擎(如CMUSphinx),方案實現(xiàn)較為簡單,但受限于傳統(tǒng)引擎的性能,在歌唱音頻識別任務(wù)中表現(xiàn)不佳5
4.基于Librosa、Spleeter與Whisper的方案。該方案結(jié)合了Librosa的音頻加載和預(yù)處理功能、Spleeter的人聲提取功能及OpenAI的Whisper語音識別系統(tǒng)。Whisper模型基于海量多語言、多任務(wù)的監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練,展現(xiàn)出強(qiáng)大的泛化能力。
經(jīng)過對比分析(主要是對比不同方案的歌詞文本識別相似率的比率和技術(shù)實現(xiàn)難度),最終選擇了基于Librosa、Spleeter和Whisper的方案。原音樂歌唱音頻與歌詞的識別文本相似度平均達(dá)到 72.8% ,雖然不高,但卻是一個非常重要的特征,因為其他特征都幾乎無法判斷學(xué)生音頻和原唱的一致性,歌詞完整度是目前最有效的特征。具體流程如下:首先,使用Librosa加載音頻文件;然后,使用Spleeter提取人聲部分,并使用Librosa進(jìn)行降噪和音頻增強(qiáng)等預(yù)處理;最后,使用Whisper模型進(jìn)行歌詞文本提取。通過計算提取出的歌詞文本與原唱歌詞的文本相似度,量化學(xué)生歌唱的完整度。
三、實驗結(jié)果與數(shù)據(jù)分析
經(jīng)過上述方法的實施,利用原音樂歌唱測評小程序積累的大量數(shù)據(jù)基于隨機(jī)森林算法學(xué)生歌唱測評模型完成了第一階段訓(xùn)練。經(jīng)過評估,模型得到了令人滿意的結(jié)果。以下表格展示了模型在測試集上的性能表現(xiàn)。
從表3可以看出,模型在各個評分維度和總分上都取得了較好的預(yù)測效果。MSE均在30左右,表明模型的平均預(yù)測誤差較小。R方值均在0.77以上,表明模型能夠較好地擬合數(shù)據(jù)。相關(guān)系數(shù)均在0.88以上,表明模型預(yù)測值與教師評分之間存在較強(qiáng)的線性相關(guān)性。項目的部署實施因考慮到算力和結(jié)果反饋的時效性,最終使用了總分模型,未進(jìn)行維度測評打分,總分模型的MSE為38,預(yù)測誤差在可接受范圍內(nèi)。
為了更直觀地展示模型的預(yù)測效果,對原有一次大規(guī)模歌唱測試的成績進(jìn)行了模型重新評分,繪制了模型預(yù)測值與教師評分的散點圖,見圖3。
散點圖顯示,大部分?jǐn)?shù)據(jù)點都集中在對角線附近,表明模型的預(yù)測值與教師評分較為一致。
從實驗結(jié)果可以看出,本研究提出的基于隨機(jī)森林算法的歌唱測評模型能夠有效地預(yù)測學(xué)生的歌唱水平,其預(yù)測精度甚至優(yōu)于原來的人工測評數(shù)據(jù)。這主要歸功于以下幾個方面:大規(guī)模數(shù)據(jù)集為模型的訓(xùn)練提供了充足的數(shù)據(jù),提高了模型的泛化能力;提取的音頻特征和歌詞相似度特征涵蓋了歌唱的音高、音強(qiáng)、音色、節(jié)奏、完整度等多維度特征,能夠較全面地反映歌唱的特點;采用多目標(biāo)回歸策略能夠更精細(xì)地評估歌唱的各個方面,提高了模型的預(yù)測精度;隨機(jī)森林算法具有較好的準(zhǔn)確性和泛化能力,能夠有效地處理高維數(shù)據(jù)和非線性關(guān)系。
基于機(jī)器學(xué)習(xí)的評分模型則具有以下優(yōu)勢。第一,無需人工標(biāo)注:模型通過學(xué)習(xí)大量的音頻數(shù)據(jù)和對應(yīng)的評分,自動提取音頻特征并建立評分模型,無需人工標(biāo)注旋律信息。第二,考慮更多音頻特征:模型不僅考慮了音高、節(jié)奏等旋律特征,還考慮了音色、能量等其他音頻特征,能夠更全面地評估歌唱表現(xiàn)。第三,更好的泛化能力:模型通過學(xué)習(xí)大量的訓(xùn)練數(shù)據(jù),具有更好的泛化能力,能夠適應(yīng)不同歌唱者和不同歌曲的評分。此外,該模型展現(xiàn)了人工智能在評估過程中的客觀性、一致性和可解釋性。依據(jù)客觀的音頻特征和歌詞相似度進(jìn)行評價,避免了人為評估的主觀偏差。通過快速處理大量音頻數(shù)據(jù),模型顯著提升了評估的效率。對所有音頻應(yīng)用統(tǒng)一的評估標(biāo)準(zhǔn),確保了評估結(jié)果的一致性。同時隨機(jī)森林模型進(jìn)一步提供了特征重要性的排序,能夠識別出對歌唱能力評估最為關(guān)鍵的特征。
本研究也存在一些局限性。第一,數(shù)據(jù)集的局限性:數(shù)據(jù)集全部來自某區(qū),可能存在一定的地域性偏差,未來可以考慮收集更大范圍、更多樣化的數(shù)據(jù)。第二,特征的局限性:提取的特征可能還不夠全面,未來可以探索更多、更有效的特征。第三,歌詞提取準(zhǔn)確性不高:歌唱音頻的歌詞識別本身就是一個難題,學(xué)生歌唱音頻由于歌唱環(huán)境復(fù)雜更提高了識別難度,目前正在訓(xùn)練新的歌詞識別模型,但也增加了工程難度,還需進(jìn)一步評估效果;雖然基于Librosa、Spleeter和Whisper的方案在當(dāng)前階段提供了有效的歌詞相似度評估方法,基于深度學(xué)習(xí)的端到端歌詞識別方案具有更大的潛力,能夠更有效地處理歌唱音頻中固有的復(fù)雜性;現(xiàn)初步探索了此類方案的可能性,并計劃利用已有的學(xué)生歌唱音頻數(shù)據(jù)及后續(xù)不斷積累的練習(xí)音頻數(shù)據(jù),構(gòu)建并訓(xùn)練端到端歌唱歌詞識別模型。
基于隨機(jī)森林算法的學(xué)生歌唱測評模型取得了令人滿意的結(jié)果,驗證了該方法在歌唱測評中的有效性和優(yōu)越性,為音樂教育提供了一種客觀、高效的評價工具(可在微信小程序搜索“音樂微測評”進(jìn)行測試)。
參考文獻(xiàn):
[1]DingY,Tetsuya M.Audio Feature Extraction forDTW-basedAudio-to-Score Alignment[C]//Proceedings ofthe 1Oth InternationalConference on Computer and Communications Management,2O22:214-220.
[2] Tsai WH,Lee HC.Automatic Evaluation of Karaoke SingingBasedon Pitch,Volume,and RhythmFeatures[J].IEEETransactionsonAudio,Speech,andLanguage Processing,2011,20(4):1233-1243.
[3]BaevskiA,Hsu WN,XuQ,et al.Data2vec:A GeneralFramework for Self-Supervised Learning in Speech,VisionandLanguage [C]// International Conference on Machine Learning.PMLR,2022:1298-1312.
[4] ZhangH,Yuan T,Chen J,etal.Paddlespeech:AnEasy-ToUseAll-In-One Speech Toolkit[J].arXivpreprint arXiv:2205.12007,2022.
[5]Amos D.The Ultimate Guide to Speech Recognition WithPython[J].Real Python,2016:2-23.
[6]RadfordA,KimJW,XuT,etal.RobustSpeechRecognitionviaLarge-Scale Weak Supervision [C] // International Conference onMachineLearning.PMLR,2023:28492-28518.
Research of Singing Evaluation Model Based on the Random Forest Algorithm
Yang Huang Li Yinghui Zhuhai District Teacher Development Center,Zhuhai,Guangdong,519000
Abstract:The assessment of students'singing ability is acrucial aspect of music education,directly impacting teaching quality evaluation and students’vocal skill development.Traditional singing assessment methods,often relying on subjective expert judgment,suffer from inconsistenciesand inefficiencies.Utilizing a self-developed music assessment mini-program over three years,and collcting singing audio data from 34,280 students,accompanied by76,36O evaluationsbyover7O teachers,a student singingabilityevaluationmodel is trained by applying machine learning techniquesand using theRandom Forest algorithm.This model aims to provide objective,efficient,and intelligent singing ability assessment.The model first preprocesses theaudio,then extracts various acoustic features,including pitch,ntensity,timbre,and rhythm,along with featuresrepresenting lyrical accuracy/completeness,constructing a high-dimensional feature vector space.Finaly,the extracted features andteacherscoresareused for training andregressonanalysisviatheRandomForest algorithm toachieve objective student performance evaluation.Experimental results demonstrate the model's high accuracy in singing assessment,offering an effective approach for objective student ability evaluation.
Key words:Singing Assessment,Random Forest,Machine Learning,Artificial Intelligence
(責(zé)任編輯:陳暢、李梅)