何 麗 劉 浩
(北方工業(yè)大學(xué)信息學(xué)院 北京 100144)
音樂(lè)信息檢索技術(shù)(Music Information Research,MIR)是用計(jì)算機(jī)技術(shù)對(duì)數(shù)字音樂(lè)進(jìn)行處理的一系列技術(shù)方法,其中的研究方向之一是對(duì)音樂(lè)旋律提取。音樂(lè)旋律提取技術(shù)可以應(yīng)用在音樂(lè)分析[1]、音準(zhǔn)分析[2]和模式分析[3]等場(chǎng)景中。
隨著技術(shù)的發(fā)展,深度學(xué)習(xí)技術(shù)在自然語(yǔ)言處理、視頻及圖像處理領(lǐng)域都取得了十分顯著的成果。Lu等[4]結(jié)合了文獻(xiàn)[5-6]的方法,將圖像語(yǔ)義分割模型引入到音樂(lè)旋律提取問(wèn)題中。結(jié)果表明此方法可有效降低虛警率,在一些數(shù)據(jù)集上接近最佳性能。
目前,很多研究將傳統(tǒng)的聲學(xué)特征與深度學(xué)習(xí)結(jié)合使用。色度特征是一種表示音級(jí)的特征,在音樂(lè)的和弦檢測(cè)中有十分重要的作用。梅爾倒譜系數(shù)是一種表示人聲的特征,廣泛應(yīng)用在自動(dòng)語(yǔ)音識(shí)別中。以上兩種特征可以有效地表示音樂(lè)主旋律的音級(jí)和流行歌曲中的人聲旋律。
本文以文獻(xiàn)[4]為基線,使用Segmentation模型,將梅爾倒譜系數(shù)和色度特征以多通道的方式融入原始數(shù)據(jù)中,使輸入數(shù)據(jù)包含音級(jí)和人聲信息。實(shí)驗(yàn)表明,加入特征后模型訓(xùn)練的收斂速度加快。此外,本文使用元數(shù)據(jù)集70%的數(shù)據(jù)就可以接近基線的效果。為了學(xué)習(xí)不同特征的權(quán)重,本文將壓縮激勵(lì)模型加入到Segmentation模型中。實(shí)驗(yàn)表明,加入SEBlock的多特征融合模型相比基線有1.1%的整體準(zhǔn)確率提升。同時(shí)相比無(wú)SEBlock的多特征融合帶來(lái)1.5%的虛警率下降。
目前,深度學(xué)習(xí)的方法在音樂(lè)信息檢索研究中的比重逐漸增加,很多研究采用了傳統(tǒng)聲學(xué)特征和深度學(xué)習(xí)技術(shù)結(jié)合的研究方法。
傳統(tǒng)旋律提取的算法通常是基于信號(hào)對(duì)音頻信號(hào)進(jìn)行分析,通過(guò)挖掘不同的特征以提升音樂(lè)旋律提取的效果,例如音高顯著度計(jì)算[1]是通過(guò)音高顯著度函數(shù)追蹤并定位主旋律。一些研究從數(shù)據(jù)處理入手[8-9],包括加強(qiáng)旋律的分量[8]、減少伴奏分量[9]等。另外,文獻(xiàn)[10-13]提出計(jì)算旋律泛音振幅的加權(quán)和,文獻(xiàn)[14]通過(guò)檢測(cè)泛音的顯著度計(jì)算主基頻。
用于該領(lǐng)域的深度學(xué)習(xí)技術(shù)主要為深度神經(jīng)網(wǎng)絡(luò)(DNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。Choi等[2]利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到半音級(jí)別的特征,在此基礎(chǔ)上對(duì)頻譜圖進(jìn)行針對(duì)音高的波峰識(shí)別。該文獻(xiàn)中搜集了大量易于獲取的MIDI文件進(jìn)行數(shù)據(jù)轉(zhuǎn)換作為訓(xùn)練數(shù)據(jù)的擴(kuò)充,希望解決訓(xùn)練數(shù)據(jù)不足的問(wèn)題。文獻(xiàn)[6]中,利用了目標(biāo)跟蹤檢測(cè)的方法,搭建了patch-based CNN結(jié)構(gòu),解決了CNN模型中細(xì)粒度較大的問(wèn)題。Lu等[4]用大量MIDI文件訓(xùn)練漸進(jìn)神經(jīng)網(wǎng)絡(luò)(PNN),再對(duì)segmentation模型做遷移學(xué)習(xí)。該方法可有效降低虛警率、提升召回率(VR),但準(zhǔn)確率提升較小,并且需要額外的數(shù)據(jù)處理及模型融合操作,效率略低。本文以Segmentation模型為基線,提出了融合了Chroma Feature和MFCC的主旋律提取算法,并在模型中加入SEBlock提升訓(xùn)練效果。
2.1.1原始數(shù)據(jù)表示
原始數(shù)據(jù)使用GC特征,GC是一種基于時(shí)間序列的音高檢測(cè)數(shù)據(jù)特征[14-18],GCOS特征改變了頻率在GC中的比重[19]。GC和GCOS是兩種互補(bǔ)的特征:GC關(guān)注基礎(chǔ)頻率和復(fù)調(diào)頻率;GCOS表示的是基礎(chǔ)頻率和自頻率。GC和GCOS可通過(guò)傅里葉變換和非線性激活函數(shù)計(jì)算得到。計(jì)算過(guò)程如下:
(1)
(2)
(3)
(4)
式中:n代表時(shí)間;k、q代表時(shí)刻n的音頻頻率;X表示經(jīng)過(guò)STFT計(jì)算的音頻信號(hào);F表示DFT矩陣;Wf和Wt表示兩個(gè)高通濾波器;ReLU()是一個(gè)線性修正單元,本文設(shè)置參數(shù)(γ0,γ1,γ2)=(0.24,0.6,1)。
GC與GCOS相乘作為本文的原始數(shù)據(jù),過(guò)程如式(5)所示。
(5)
(6)
ftri=4(flog-21)
(7)
為了便于計(jì)算,本文將頻率轉(zhuǎn)化為對(duì)數(shù)頻率(式(7)),再通過(guò)352維的三角濾波器(Triangular Filters)(式(6))將頻率控制在27.5 Hz到4 487 Hz之間。
2.1.2色度特征
文獻(xiàn)[21-22]中詳細(xì)地闡述了音頻的色度特征的計(jì)算過(guò)程。Chroma Feature主要表示為色度向量(Chroma Vector)和色度圖(Chroma Gram)。色度向量表示的是在一個(gè)時(shí)刻對(duì)應(yīng)的音級(jí);而色度圖是將色度向量按時(shí)間排列,組成的二維圖像。
Chroma Feature的求解過(guò)程如圖1所示,首先將原始數(shù)據(jù)轉(zhuǎn)化至頻域,再進(jìn)行數(shù)據(jù)預(yù)處理,之后進(jìn)行曲調(diào)計(jì)算和音高顯著度計(jì)算,再對(duì)數(shù)據(jù)進(jìn)行歸一化,最后對(duì)數(shù)據(jù)進(jìn)行平滑處理得到色度圖。本文使用librosa工具生成色度圖。通常色度向量的維度設(shè)置為12,本文為將色度特征數(shù)據(jù)與GC和GCOS進(jìn)行數(shù)據(jù)對(duì)齊,將Chroma Vector的維度定為352維,即提升了色度圖對(duì)音級(jí)表示的密度。
圖1 Chroma Feature的求解流程
2.1.3梅爾倒譜系數(shù)
梅爾倒譜系數(shù)是一種廣泛應(yīng)用在自動(dòng)語(yǔ)音識(shí)別和說(shuō)話人識(shí)別中的特征。文獻(xiàn)[23]詳細(xì)描述了MFCC的計(jì)算過(guò)程。加入MFCC可以更好地提取包含人聲的旋律,對(duì)于流行音樂(lè)的音樂(lè)特征提取有積極作用。本文針對(duì)訓(xùn)練需要,進(jìn)行了數(shù)據(jù)對(duì)齊操作,將MFCC調(diào)整至352維。MFCC將按照如下過(guò)程計(jì)算。
1) 預(yù)加重。預(yù)加重的作用是補(bǔ)償高頻分量、提高音頻的高頻分辨率,本質(zhì)是用高通濾波器對(duì)信號(hào)進(jìn)行濾波。函數(shù)如下:
(8)
x′=x(n)-?x(n-1)
(9)
式中:Z{x(n)}表示原始音頻信號(hào)變換到Z域的信號(hào);Z{x′(n)}為預(yù)加重后音頻信號(hào)x′(n)變換到Z域的信號(hào);n代表時(shí)間點(diǎn);?表示預(yù)加重因數(shù)。
2) 分幀。將信號(hào)按固定長(zhǎng)度劃分,每段信號(hào)長(zhǎng)度約為20 ms至30 ms。
3) 加窗。為提高每幀音頻信號(hào)左右連續(xù)性,對(duì)分幀后的信號(hào)進(jìn)行加窗操作,本文使用的是漢明窗(Hamming Window)。
(10)
4) 快速傅里葉變換。對(duì)時(shí)間窗內(nèi)的信號(hào)做快速傅里葉變換(FFT)將時(shí)域信息轉(zhuǎn)換為頻域信息,得到的信號(hào)如下:
對(duì)于高校的籃球運(yùn)動(dòng)的體育教師來(lái)說(shuō),他們本身是教師,因此常規(guī)上課內(nèi)容是不能被忽視的,在這樣的情況下如何協(xié)調(diào)好運(yùn)動(dòng)訓(xùn)練和文化教育的關(guān)系尤為關(guān)鍵,既不能一直教學(xué)籃球,也不能過(guò)于拖泥帶水。高校應(yīng)該從實(shí)際的角度出發(fā),探討運(yùn)動(dòng)訓(xùn)練和文化教育融合的良好途徑,切實(shí)根據(jù)不同學(xué)生的情況來(lái)進(jìn)行針對(duì)性的文化教育。
(11)
式中:m=0,1,…,N-1。
之后計(jì)算能量譜e(m):
(12)
5) 計(jì)算對(duì)數(shù)能量。經(jīng)過(guò)以上步驟,梅爾濾波器組會(huì)計(jì)算各通道能量。
(13)
式中:M是Mel窗口數(shù)量;Wi(j)為第i個(gè)通道的三角帶通濾波器。
(14)
6) 對(duì)數(shù)和余弦變換(DCT):
(15)
式中:k=1,2…,D,D是特征向量的維度。
上述Chroma Feature和MFCC的提取過(guò)程均需要進(jìn)行短時(shí)傅里葉變換以及音頻采樣,本文的詳細(xì)參數(shù)如表1所示。
表1 采樣參數(shù)
2.2.1DeepLabV3
Segmentation模型[4]是基于DeepLabV3[24-25]實(shí)現(xiàn)的,該模型目前在語(yǔ)義分割任務(wù)中取得了顯著的效果。模型采用了基于卷積神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu),如圖2所示。圖2中Encoder部分使用了殘差模塊(ResNet)。DeepLabV3的特點(diǎn)是使用了空洞卷積(Dilated Convolution,Dilated Conv)和金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)??斩淳矸e如式(16)所示,相比最大池化(Max Pooling)可以擴(kuò)大感受野,并且不會(huì)損失信息。
(16)
圖2 DeepLabV3
圖3 金字塔池化層
金字塔池化結(jié)構(gòu)如圖3所示,該結(jié)構(gòu)可以解決空洞卷積在高采樣率下有效權(quán)重變小的問(wèn)題。殘差模塊如圖4所示。
圖4 殘差模塊
2.2.2壓縮-激勵(lì)模型
壓縮-激勵(lì)網(wǎng)絡(luò)(Squeeze-Excitation Network,SENet)[26]是將注意力機(jī)制作用在圖像的通道(Channel)上,即學(xué)習(xí)到不同特征的權(quán)重。整體結(jié)構(gòu)如圖5所示,SENet核心是壓縮-激勵(lì)模塊(Squeeze-and-Excitation Block,SEBlock),過(guò)程分為壓縮(Squeeze)和激勵(lì)(Excitation)兩步。輸入如式(17)、式(18)所示。
Ftri:X→U,X∈RWt×Ht×Ct,U∈RWt×Ht×Ct
(17)
式中:Ftri代表原網(wǎng)絡(luò),在本文中對(duì)應(yīng)殘差模塊。
(18)
圖5 壓縮-激勵(lì)機(jī)制
(1) 壓縮模塊。在經(jīng)過(guò)SEBlock轉(zhuǎn)換之后,各個(gè)數(shù)據(jù)單元不能利用單元以外的紋理信息。壓縮全局空間信息,得到一個(gè)通道描述器可有效避免該類問(wèn)題。在本文中此步驟對(duì)應(yīng)全局池化操作。
(19)
(2) 激勵(lì)模塊。本文的Excitation對(duì)應(yīng)兩個(gè)全連接層。式(19)代表全連接操作,W1維度是C/r×C,r為特征縮放參數(shù),該步驟的目的是減少通道數(shù)量降低計(jì)算量,本文將r設(shè)為16。式(20)代表對(duì)W1使用ReLU函數(shù)。式(21)代表全連接層,W2的維度是C×C/r,將特征圖還原成原始維度。
經(jīng)以上計(jì)算得到權(quán)重張量。輸出數(shù)據(jù)經(jīng)過(guò)Sigmoid函數(shù)進(jìn)行歸一化。最終將權(quán)重作用在原數(shù)據(jù)上需要矩陣相乘。
zc=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
(20)
式中:g表示W(wǎng)2δ(W1z)計(jì)算過(guò)的中間函數(shù),δ表示ReLU函數(shù)。
Xc=Fscale(uc,sc)=scuc
(21)
本文在模型encoder部分的殘差模塊中都加入了SEBlock,結(jié)構(gòu)如圖6所示。實(shí)驗(yàn)表明該機(jī)制可以提升模型準(zhǔn)確率,并降低虛警率(VFA)。
圖6 SEBlock
本文選擇MIR1K作為訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集包含了1 000個(gè)中文流行歌曲的片段。在特征提取時(shí),本文對(duì)音頻進(jìn)行了采樣操作,因此標(biāo)簽也需要與采樣后的音頻對(duì)齊。本文將訓(xùn)練數(shù)據(jù)的70%作為訓(xùn)練集,剩余的30%作為測(cè)試集。
測(cè)試數(shù)據(jù)方面,本文選擇了ADC2004和MIREX05數(shù)據(jù)集。MIREX05數(shù)據(jù)集包含了13個(gè)音樂(lè)片段,風(fēng)格包括流行音樂(lè)和純音樂(lè)。ADC2004包含了15個(gè)音樂(lè)片段,風(fēng)格包括純音樂(lè)、歌劇等。
旋律提取的任務(wù)主要有兩個(gè):
1) 估計(jì)旋律的音高。當(dāng)預(yù)測(cè)值和參考值的差值在0.5個(gè)半音之內(nèi),則認(rèn)為旋律音高估計(jì)正確,反之則認(rèn)為旋律音高估計(jì)錯(cuò)誤。
2) 旋律活動(dòng)檢測(cè),判斷當(dāng)前幀是否為旋律幀。
旋律檢測(cè)任務(wù)的評(píng)價(jià)指標(biāo)如表2所示,其中:GU表示參考結(jié)果的非旋律幀;GV表示參考結(jié)果的旋律幀;DU表示檢測(cè)結(jié)果中的無(wú)旋律幀;DV表示檢測(cè)結(jié)果中的旋律幀;TF表示非旋律幀被正確檢測(cè)的數(shù)量;FN表示有旋律幀錯(cuò)誤檢測(cè)的數(shù)量;TP表示旋律幀正確檢測(cè)的數(shù)量;FP表示無(wú)旋律幀錯(cuò)誤檢測(cè)的數(shù)量;TPC表示旋律幀音高正確檢測(cè)的數(shù)量;FPC表示無(wú)旋律幀音高錯(cuò)誤檢測(cè)的數(shù)量;TPCch表示旋律幀音級(jí)正確檢測(cè)的數(shù)量;FPCch表示無(wú)旋律幀音級(jí)錯(cuò)誤檢測(cè)的數(shù)量。
表2 評(píng)價(jià)指標(biāo)
為驗(yàn)證本文方法對(duì)音樂(lè)旋律提取的效果有積極作用,并且可以減少訓(xùn)練數(shù)據(jù)、縮短訓(xùn)練時(shí)間,實(shí)驗(yàn)設(shè)計(jì)如下:
1) 使用Segmentation模型,在特征提取的步驟中分別加入Chroma Feature、MFCC,再將二者同時(shí)加入,使用Segmentation模型分別進(jìn)行訓(xùn)練。
2) 在Segmentation模型中的每個(gè)殘差模塊加入SEBlock。之后在特征提取的步驟中分別加入Chroma特征、MFCC再將二者同時(shí)加入,使用加入SEBlock的Segmentation模型分別進(jìn)行訓(xùn)練。
3) 使用70%的數(shù)據(jù)訓(xùn)練,對(duì)比多特征融合模型、Segmentation模型的性能。
本文采用的對(duì)比算法為:MCDNN算法[27]、Patch-CNN[19]、DSM[28]、MD&MR[29]算法。其中,Segmentation算法[3]為本文的基線研究,將作為本文添加Chroma和MFCC特征以及引入SEBlock的有效性的基準(zhǔn)對(duì)比。本文使用的平臺(tái)是1080Ti,32 GB的RAM,Centos7操作系統(tǒng),Python 3.6,MATLAB 2019。深度學(xué)習(xí)框架為Keras,以TensorFlow 1.6作為后臺(tái)。音頻數(shù)據(jù)處理使用librosa工具,實(shí)驗(yàn)結(jié)果評(píng)估使用mir_eval工具。
1) 特征融合對(duì)訓(xùn)練數(shù)據(jù)量及訓(xùn)練速度的影響。本文在加入MFCC和Chroma Feature后,用原訓(xùn)練集的70%進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果如表3所示,在MIREX05數(shù)據(jù)集上,各項(xiàng)指標(biāo)接近使用全部訓(xùn)練集訓(xùn)練的Segmentation模型。OA和RPA下降在1百分點(diǎn)以內(nèi),而VR下降了1.4百分點(diǎn),VFA上升了3.8百分點(diǎn),RCA相比基線模型反而上升了0.2百分點(diǎn)。在ADC2004數(shù)據(jù)集上,RCA下降了0.8百分點(diǎn),其他指標(biāo)降幅均在1.5百分點(diǎn)以內(nèi),OA降幅達(dá)到2.2百分點(diǎn),VFA上升4.2百分點(diǎn)。由此可見(jiàn),加入MFCC和Chroma Feature后,在準(zhǔn)確率方面可以用較少的數(shù)據(jù)達(dá)到接近基線準(zhǔn)確率的效果。
表3 加入多特征后用70%的訓(xùn)練數(shù)據(jù)與基線模型
特征融合還有利于提升訓(xùn)練速度。如圖7、圖8所示,加入MFCC和Chroma Feature后收斂速度明顯提升。
圖7 準(zhǔn)確率收斂曲線
圖8 損失函數(shù)收斂曲線
2) 特征對(duì)各評(píng)價(jià)指標(biāo)的影響。根據(jù)表4、表5中的結(jié)果,本文方法對(duì)MIREX05數(shù)據(jù)集提升較大。加入MFCC對(duì)OA和RCA提升效果較弱,與Segmentation的結(jié)果基本一致,RPA提升了0.9百分點(diǎn)。RPA用于判定音高準(zhǔn)確度,而MFCC作為一種人工設(shè)計(jì)的聲學(xué)特征,主要用于人聲的語(yǔ)音識(shí)別,所以對(duì)于帶有人聲的音頻更為敏感,對(duì)流行音樂(lè)的音高識(shí)別也會(huì)更準(zhǔn)確。
表4 ADC2004
表5 MIREX05
加入Chroma Feature對(duì)RPA和RCA有一定的提升。其中RCA相比基線提升了1.1百分點(diǎn)。因?yàn)镃hroma Feature本身就是關(guān)于音度的特征,RCA同樣是用于評(píng)判音度準(zhǔn)確率的標(biāo)準(zhǔn)。此外,Chroma Feature常用于和弦檢測(cè),對(duì)音高的識(shí)別也有一定幫助。Chroma Feature有一個(gè)潛在的風(fēng)險(xiǎn),該特征可能對(duì)伴奏旋律同樣敏感,從而影響對(duì)主旋律的提取。
同時(shí)加入MFCC和Chroma對(duì)OA僅有0.3百分點(diǎn)的提升,RCA增幅達(dá)到1百分點(diǎn)。
3) 與其他方法的對(duì)比。本文使用了實(shí)驗(yàn)效果較好方案:同時(shí)加入MFCC、Chroma和SEBlock的方案與其他方法進(jìn)行對(duì)比。
本文對(duì)比的幾種方法為:MCDNN算法[27]、Patch-CNN[19]、DSM[28]、MD&MR[29]算法。上述四種方法皆為近五年較為先進(jìn)的方法。從表6中可以看出,本文方法在VFA、OA上有一定的競(jìng)爭(zhēng)力,其中OA和結(jié)果最優(yōu)的方法相差2百分點(diǎn)以內(nèi)。相對(duì)于發(fā)表時(shí)間相對(duì)較早的Patch-CNN、DSM、MCDNN在ADC2004數(shù)據(jù)集獲得了0.6百分點(diǎn)至2.9百分點(diǎn)的優(yōu)勢(shì)。而VFA的效果較好,除MD&MR以外,在和其他方法的比對(duì)中展現(xiàn)出了較為明顯的優(yōu)勢(shì)。然而這種優(yōu)勢(shì)得益于本文繼承了基線研究Segmentation算法的部分思路,該算法的一大優(yōu)勢(shì)就是大幅度降低VFA。
表6 方法對(duì)比ADC2004
其余的指標(biāo)中,RCA、RPA、VR指標(biāo)與其他方法的差距在于Chroma特征和MFCC特征結(jié)合的方式。本文將處理好的Chroma和MFCC特征直接與網(wǎng)絡(luò)得到的特征圖進(jìn)行疊加并輸入到SEBlock模塊中,三者在特征描述方面并未做到對(duì)齊,從而影響了實(shí)際效果。
MD&MR(Multi-Dilation and Multi-Resolution)為最新的一種音樂(lè)主旋律提取算法,模擬了人耳識(shí)別主旋律的過(guò)程,將提取過(guò)程最終轉(zhuǎn)換為低層特征與高層特征提取并結(jié)合的方式。如表7所示,在MIREX05數(shù)據(jù)集上OA、RPA、RCA、VFA均取得最高分。其中特征融合的方式也是值得本文學(xué)習(xí)的一點(diǎn)。
表7 方法對(duì)比MIREX05
以上實(shí)驗(yàn)證明多特征融合對(duì)提升模型效果有積極作用,在某些指標(biāo)上可以接近一些先進(jìn)方法,但相比于目前最新的方法仍然存在明顯差距。
4) SEBlock的影響。如表4、表5所示,最終本文在多特征融合后的模型中加入SEBlock,效果有所下降,這是因?yàn)榧尤隨EBlock的模型需要更長(zhǎng)的訓(xùn)練時(shí)間。因此本文將訓(xùn)練時(shí)間延長(zhǎng)至5個(gè)周期。效果優(yōu)于無(wú)SEBlock的多特征融合模型。在MIREX05上的測(cè)試結(jié)果比基線的OA提升1.1百分點(diǎn)。此外,在同時(shí)擁有MFCC、Chroma的情況下加入SEBlock后比無(wú)SEBlock的VFA下降1.8百分點(diǎn)左右。
綜上所述,在MIREX05數(shù)據(jù)集上,加入MFCC和Chroma Feature可以提升Segmentation模型的OA、RPA、RCA。加入SEBlock后可以進(jìn)一步提升上述三個(gè)指標(biāo),并且可以降低VFA,但VFA仍略高于基線。在ADC2004數(shù)據(jù)集上本文方法可以達(dá)到與基線接近的效果,因?yàn)樵摂?shù)據(jù)集中有大量的歌劇類的音頻,而本文的訓(xùn)練集全部為流行音樂(lè)。
本文主要研究多特征融合與SEBlock在音樂(lè)旋律提取任務(wù)中的作用。為提升音樂(lè)旋律提取效果,本文使用Segmentation模型,在原始數(shù)據(jù)中加入了MFCC和Chroma Feature,又在此基礎(chǔ)上加入了SEBlock進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,在MIREX05數(shù)據(jù)集的測(cè)試中,加入MFCC和Chroma Feature對(duì)結(jié)果都有一定的提升,并且可以只用70%的數(shù)據(jù)達(dá)到接近基線準(zhǔn)確率。此外,加入SEBlock可以更好地進(jìn)行多特征數(shù)據(jù)的模型訓(xùn)練,對(duì)OA、RPA、RCA有所提升,并且可以緩解特征融合后VFA升高的問(wèn)題。然而,本文研究針對(duì)各項(xiàng)指標(biāo)的提升幅度較小,并且本文的研究在ADC2004數(shù)據(jù)集上表現(xiàn)欠佳,與最高水平仍存在一定差距,說(shuō)明本文研究對(duì)不同風(fēng)格的音樂(lè)普適性不強(qiáng)。在未來(lái)的工作中,計(jì)劃豐富訓(xùn)練數(shù)據(jù)的類型,設(shè)計(jì)一些其他的聲學(xué)特征加入輸入數(shù)據(jù)中。