江育光,盧盛榮,黃理明
(1.閩西職業(yè)技術(shù)學(xué)院;2.龍巖學(xué)院 福建龍巖 364000)
根據(jù)中共中央辦公廳和國務(wù)院辦公廳印發(fā)的《關(guān)于深化新時代教育督導(dǎo)體制機(jī)制改革的意見》以及福建省教育廳發(fā)布的《新時代福建省義務(wù)教育質(zhì)量監(jiān)測實施方案》,要求進(jìn)一步深化教育督導(dǎo)管理體制改革,加強(qiáng)對學(xué)校的督導(dǎo),引導(dǎo)學(xué)校辦出特色、辦出水平,促進(jìn)學(xué)生德智體美勞全面發(fā)展。充分利用互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等開展督導(dǎo)評估監(jiān)測工作[1-2],從監(jiān)測內(nèi)容、監(jiān)測頻度等方面加大對學(xué)校音體美教育的督導(dǎo)力度,其中一點就是對中小學(xué)生的聲樂演唱水平進(jìn)行客觀量化評價。然而音樂測評不同于傳統(tǒng)的語數(shù)英考試,歌唱是一個主觀性較強(qiáng)的活動,如何通過客觀量化評價方法實現(xiàn)主觀性活動測評,是當(dāng)前研究的重點和難點。
移動數(shù)字技術(shù)的蓬勃發(fā)展和國內(nèi)版權(quán)保護(hù)意識的提高,使得音樂流媒體產(chǎn)業(yè)有了長足的增長。國內(nèi)外誕生了一系列音樂流媒體巨頭如騰訊音樂、網(wǎng)易音樂,國外的如Spotify和Apple Music等。2020年世界唱片行業(yè)協(xié)會公布的數(shù)據(jù)顯示,全球音樂相關(guān)的商業(yè)收入同比增長9.7%,其中流媒體音樂營收超過89億美元,占比達(dá)到47%[3]。海量的音樂曲目庫使得用戶在音樂信息檢索上面臨巨大挑戰(zhàn)。音樂可以視作一種語音信號,但更為多樣和復(fù)雜化,由不同的節(jié)拍、和聲和旋律按照一定規(guī)則組合而成[4]。深度學(xué)習(xí)的出現(xiàn),使得音樂分類技術(shù)進(jìn)入了新的發(fā)展階段。深度學(xué)習(xí)在語音識別和圖像處理上的成功,使得其利用在音樂評價領(lǐng)域上成為未來的發(fā)展目標(biāo)。目前該領(lǐng)域的子研究方向包括音樂流派識別、音樂情感識別和音樂作品推薦等[5]。其中,流媒體(音樂)推薦已成為當(dāng)下電商系統(tǒng)中不可或缺的重要組成部分,抖音、豆瓣、網(wǎng)易云音樂的成功都離不開流媒體推薦算法的優(yōu)化應(yīng)用。
基層考場情況復(fù)雜,具備豐富實踐經(jīng)驗的IT技術(shù)人員不足,在考試組織上存在不小風(fēng)險。通過使用SaaS服務(wù),可以大幅度減輕客戶IT基礎(chǔ)設(shè)施構(gòu)建和運營成本風(fēng)險壓力。義務(wù)教育藝術(shù)質(zhì)量監(jiān)測系統(tǒng)采用B/S架構(gòu),部署在云端,以SaaS(Software as a Service,軟件即服務(wù))的方式向客戶(考試組織者)提供服務(wù)。使用的主要開發(fā)語言包括Java和Python,利用的相關(guān)技術(shù)和框架有Spring Boot、VUE3以及LIBROSA和MUSIC21??忌诳紙鐾ㄟ^指定考試機(jī)按曲目要求進(jìn)行歌曲演唱(聲音由聲卡讀入),數(shù)據(jù)加密后,通過互聯(lián)網(wǎng)傳入義務(wù)教育藝術(shù)質(zhì)量監(jiān)測系統(tǒng)服務(wù)器中,在后臺對目標(biāo)音頻文件(學(xué)生成績)進(jìn)行算法評價,并給出量化分?jǐn)?shù)?;鶎涌紙銮闆r復(fù)雜,具備豐富實踐經(jīng)驗的IT技術(shù)人員不足,在考試組織上存在不小風(fēng)險。通過使用SaaS服務(wù),可以大幅度減輕客戶IT基礎(chǔ)設(shè)施構(gòu)建和運營成本風(fēng)險壓力。該系統(tǒng)的成功上線運行,對人工智能技術(shù)的落地實踐、產(chǎn)學(xué)結(jié)合、電子商務(wù)音樂流媒體技術(shù)的應(yīng)用以及對其余中小學(xué)學(xué)科,如美術(shù)和體育等的量化評價研究,都具有很大的啟發(fā)意義和廣闊的市場發(fā)展空間。
圖1是義務(wù)教育藝術(shù)質(zhì)量監(jiān)測系統(tǒng)的整體流程圖。教師/管理人員可以登錄教師系統(tǒng)管理端,上傳考試曲目(原音、曲譜、伴奏帶),設(shè)置評分權(quán)重(不同級別學(xué)生要求不同),維護(hù)學(xué)校、學(xué)生信息(以學(xué)校為單位進(jìn)行考試)、創(chuàng)建考試等功能。學(xué)生可以在考場教師指導(dǎo)下,登錄考試機(jī),按考試題目要求進(jìn)行聲樂演唱。系統(tǒng)會自動回收試卷(音頻文件)并提交考試內(nèi)容,通過互聯(lián)網(wǎng)遠(yuǎn)程傳回服務(wù)器,由義務(wù)教育藝術(shù)質(zhì)量監(jiān)測系統(tǒng)服務(wù)器端對考試內(nèi)容進(jìn)行量化評分。教師可以導(dǎo)出考試成績并進(jìn)行教學(xué)反思研究。從考生角度而言,基本操作流程可分為以下五個步驟:
圖1 系統(tǒng)流程圖
(1)考生登錄考試端,進(jìn)行設(shè)備調(diào)試,確認(rèn)錄音設(shè)備沒問題。
(2)考生查看必唱曲目和選唱曲目。
(3)考生進(jìn)行試唱準(zhǔn)備。
(4)考生進(jìn)行正式演唱,可根據(jù)節(jié)拍提示(MIDI文件)進(jìn)行調(diào)整。
(5)數(shù)據(jù)提交后臺服務(wù)器。
圖2是設(shè)備調(diào)試環(huán)節(jié)圖??忌斎胭~號密碼進(jìn)行登陸。系統(tǒng)展示考試流程,提示考生進(jìn)行規(guī)定的頁面操作流程,而后進(jìn)行錄音功能調(diào)試,確保設(shè)備無任何障礙(耳機(jī)、聲卡)。系統(tǒng)播放考生錄音結(jié)果,根據(jù)調(diào)試結(jié)果轉(zhuǎn)向相應(yīng)環(huán)節(jié)。
圖2 設(shè)備調(diào)試環(huán)節(jié)圖
圖3是正式演唱環(huán)節(jié)圖。在這部分,考生可先進(jìn)行試唱而后進(jìn)行正式演唱。系統(tǒng)會播放音樂伴奏帶(配有節(jié)拍),考生在熱身試唱后,試聽自己的演唱效果,而后進(jìn)行正式考試。在考試結(jié)束后,成績(音頻文件)自動上傳后臺服務(wù)器進(jìn)行評分。
圖3 正式演唱環(huán)節(jié)
人的耳朵構(gòu)造(耳蝸)可以視為一種信號濾波器,即使在環(huán)境音復(fù)雜的情況下(噪音)也能識別出目標(biāo)聲音。耳蝸中的基底膜會根據(jù)傳入聲音的不同頻率,對人腦進(jìn)行不同神經(jīng)電路刺激。聲波在被接收轉(zhuǎn)換后,可近似用數(shù)字信號理論進(jìn)行等同處理,這也是數(shù)字音樂處理的基本生理物理原理[6]。音樂處理的基本特征有音高、響度、音色等。音高(音調(diào))是人們能夠最直觀感受的參數(shù),由聲樂信號的頻率決定,單位是赫茲(Hz)。音高越大,聲音感受越尖銳,這就是日常生活中女生聲音尖銳程度普遍高于男生的原因。響度(音量)直觀上體現(xiàn)聲音的大小,單位為分貝(dB)。聲波的振幅決定了響度的大小,振幅越大,發(fā)出的聲音也就越大。各種音樂元素的有機(jī)組合,如男女生合唱、多樂器演奏等,組成了不同的音色以及音樂流派。另外,義務(wù)教育藝術(shù)質(zhì)量監(jiān)測系統(tǒng)也采集了其他音樂特征,如短時過零率和色度向量等。
從考生成績音頻文件中可以讀出波形信號,波形圖涵蓋了音樂信號隨著時間遞進(jìn)的響度值(振幅)變化,如圖4(a)。其中橫軸表示音樂時間,縱軸為對應(yīng)該時刻的振幅值。但這往往不夠,法國學(xué)者傅里葉提出的傅里葉變換(FAST Fourier Transform, FFT)是一種線性轉(zhuǎn)換積分器,可以進(jìn)行聲音信號在時域和頻域的轉(zhuǎn)換,通過音樂頻譜來進(jìn)一步分析音樂文件質(zhì)量,具體如圖4(b)。其中橫軸表示音樂演唱的各頻率值,縱軸表示對應(yīng)頻率下的振幅值。頻譜圖參考全生命期的音樂頻譜來計算各頻譜成分的占比,然而該子頻譜單元的有效依存時間往往并不一定等同于完整音樂信號生命期,所以基于全局的傅里葉變換無法準(zhǔn)確描述各時間段的頻率分布情況。短時傅里葉變換(Short-Time Fourier Transform, STFT)通過對音樂信號進(jìn)行分割加窗和離散傅里葉(Discrete Fourier Transform, DTT)操作(把長時音樂信號轉(zhuǎn)換為短時等長音樂信號片段,而后對每個片段進(jìn)行傅里葉變換),可以更精確描述實際情況,具體如圖4(c)短時傅里葉頻譜圖[7]。其中,橫軸表示時間,縱軸表示頻率,顏色深度表示振幅值的大小,顏色越深暗表示分貝值越高。
STEVENS等在1937年發(fā)現(xiàn),人類的聽覺是一個復(fù)雜的非線性系統(tǒng),對音高的感受并不是簡單的聲音頻率線性關(guān)系[8]。人耳的構(gòu)造更像一個低通濾波器,對低頻的敏感度遠(yuǎn)高于對高頻段的敏感度。但是可以通過一個對數(shù)轉(zhuǎn)換,生成一個與人類音調(diào)感知強(qiáng)度變化相符合的參數(shù),即梅爾刻度(Mel Scale)。梅爾刻度同音樂信號頻率的轉(zhuǎn)換可以通過式(1)實現(xiàn)。其中fmusic表示音樂信號頻率,fMel表示梅爾刻度值。圖4(d)是對應(yīng)的梅爾頻譜圖。
(1)
t/s(a)波形圖
頻率/Hz(b)頻譜圖
t/s(c)短時傅里葉頻譜圖
t/s(d)梅爾頻譜圖圖4 梅爾頻譜變換序列圖
在2020年的中小學(xué)音樂測試中,按照音樂考試組織者的意見,對不同級別的學(xué)生應(yīng)該在測試難度上有所區(qū)分。考慮到小學(xué)組的童音、中學(xué)組男女生在生理發(fā)育期,嗓音喉道處于變聲期的關(guān)鍵時刻,聲樂演唱效果及其評判標(biāo)準(zhǔn)應(yīng)有不同對待。對學(xué)生的演唱音速、音強(qiáng)以及音調(diào)做了閾值調(diào)整區(qū)間,在具體應(yīng)用中可以根據(jù)不同級別的考試性質(zhì),提供不同尺度評判標(biāo)準(zhǔn)。
(1)音速調(diào)節(jié)控制
對學(xué)生演唱歌曲節(jié)奏速度進(jìn)行輕微加速或變慢至原來的a倍,a的值在(0.7, 1.3) 內(nèi)進(jìn)行選取,對多出或縮短的演唱時長進(jìn)行等效剪切或填補(bǔ)。這種處理方式的動機(jī)是: 學(xué)生的演唱速度往往不一致,可以針對較低年級的學(xué)生放寬標(biāo)準(zhǔn)。
(2)音強(qiáng)調(diào)節(jié)控制
音強(qiáng)調(diào)節(jié)是指對錄音音樂的響度做輕微的改變,可以將原始音樂演唱的響度增加或減少bdB。
(3)音調(diào)調(diào)節(jié)控制
考慮到男女生的聲帶結(jié)構(gòu)不同,輕微的改變音調(diào)不會對原來的曲風(fēng)帶來顯著的改變,故可以對音樂的音調(diào)進(jìn)行調(diào)節(jié)。本文采取的方法是對音頻增加或減少c個半音。
在以往,傳統(tǒng)的機(jī)器學(xué)習(xí)往往采用手工提取的目標(biāo)特征進(jìn)行模型訓(xùn)練,在音樂領(lǐng)域中主要是響度、頻率、節(jié)拍等基本數(shù)據(jù)。但不同流派的音樂往往差別巨大,樂器、節(jié)奏和和聲等聲學(xué)抽象特征很難用手工進(jìn)行設(shè)計提取。商業(yè)音樂流媒體爆發(fā)式增長,使得通過人工標(biāo)注進(jìn)行音樂推薦在商業(yè)成本上變得不具可行性。深度學(xué)習(xí)通過多層隱藏層連接產(chǎn)生的非線性關(guān)系,能夠自動捕捉目標(biāo)的高級抽象特征[9]。隨著CPU、GPU運算資源的大幅度提高,該理論變得具備實踐可行性。2014年,SIMONYAN K等人提出了牛津大學(xué)組VGG-16(Visual Geometry Group)卷積神經(jīng)網(wǎng)絡(luò)模型組,通過提高卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的深度,可以大幅度提高圖像分類的準(zhǔn)確度。本文嘗試通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)讀取梅爾頻譜圖,進(jìn)行音樂風(fēng)格判斷。
圖5是VGG-16的結(jié)構(gòu)圖。該網(wǎng)絡(luò)基本結(jié)構(gòu)由輸入層(Input Layer)、卷積層(Convolutional Layer)、池化層(Pooling Layer)和全連接層(Fully-connected Layer)組成。輸入層負(fù)責(zé)接收數(shù)據(jù),尤其是高維數(shù)據(jù)。卷積層通過不同尺寸的卷積核(Convolutional Kernel)進(jìn)行特征提取,實現(xiàn)一種局部權(quán)值共享的效果。面對參數(shù)爆炸帶來的巨額運算量問題,池化層負(fù)責(zé)對卷積層運算結(jié)果進(jìn)行降維操作和防止過擬合操作,主要的方法包括均值池化和最大池化。全連接層也叫Dense層,負(fù)責(zé)將高維數(shù)據(jù)映射成一維數(shù)據(jù)。輸出層負(fù)責(zé)最后的結(jié)果判斷,本文在這里是多分類設(shè)計。
圖5 VGG-16結(jié)構(gòu)圖
本文使用GTZAN數(shù)據(jù)庫進(jìn)行音樂分類訓(xùn)練,GTZAN音樂數(shù)據(jù)庫是按照曲風(fēng)劃分的公開數(shù)據(jù)庫,由1000首音樂片段組成,10種曲風(fēng)類型主要涵蓋雷鬼、金屬樂、嘻哈、迪斯科、流行樂、藍(lán)調(diào)、古典樂、搖滾、鄉(xiāng)村樂、爵士樂等[10]。每種曲風(fēng)由100個片段組成,時常為30 s,采樣頻率為22050 Hz,單聲道。圖片分辨率采用224×224,激活函數(shù)選擇ReLU,輸出層函數(shù)選擇softmax進(jìn)行曲風(fēng)最后分類判斷。 訓(xùn)練周期Epochs設(shè)置為100,批次BatchSize設(shè)定為64,使用Adam作為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練收斂過程中的梯度優(yōu)化下降方法。采用2.2節(jié)方法得到的梅爾頻譜圖共1000張,按照時間為10 s每張圖割成3張子圖,共3000張梅爾頻譜子圖。而后按照訓(xùn)練集和驗證集7∶3進(jìn)行劃分。作為小規(guī)模數(shù)據(jù)量訓(xùn)練,把VGG16的卷積層作了適當(dāng)裁剪,選取13個中的前5個。訓(xùn)練集和驗證集的準(zhǔn)確率變化如圖6所示。大概在40輪次時候達(dá)到基本收斂,驗證集的準(zhǔn)確率接近于90%。
訓(xùn)練輪次圖6 訓(xùn)練集和驗證集的準(zhǔn)確率變化圖
本文依據(jù)《新時代福建省義務(wù)教育質(zhì)量監(jiān)測實施方案》要求開展新時代義務(wù)教育藝術(shù)(音樂)的量化評價機(jī)制的指導(dǎo)意見,設(shè)計了一款基于SaaS的義務(wù)教育藝術(shù)質(zhì)量監(jiān)測系統(tǒng)。使用的主要開發(fā)語言包括Java和Python,利用的相關(guān)技術(shù)和框架有Spring Boot、VUE3以及LIBROSA和MUSIC21。音樂測評不同于傳統(tǒng)的語數(shù)英考試,歌唱是一個主觀性較強(qiáng)的活動。系統(tǒng)通過讀入基本音樂信號特征如音強(qiáng)、音高、節(jié)拍等進(jìn)行量化分析,并利用CNN分析音樂圖譜,進(jìn)行初步的藝術(shù)感分析。該系統(tǒng)的成功上線運行,對人工智能技術(shù)的落地實踐、產(chǎn)學(xué)結(jié)合、電子商務(wù)、音樂流媒體推薦、提升用戶體驗度以及響應(yīng)政府“企業(yè)上云”都具有參考意義。電子商務(wù)的營銷方式愈來愈離不開基于人工智能的推薦算法支持,后續(xù)將在音樂藝術(shù)感分析作進(jìn)一步探索,如聲樂演唱的情感分析以及自動譜曲等。