亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于頻譜空間域特征注意的音樂流派分類算法

2022-07-29 07:39:42劉萬軍王佳銘曲海成董利兵曹欣宇

計(jì)算機(jī)應(yīng)用 2022年7期

關(guān)鍵詞：分類特征音樂

劉萬軍，王佳銘，曲海成，董利兵，曹欣宇

劉萬軍，王佳銘*，曲海成，董利兵，曹欣宇

（遼寧工程技術(shù)大學(xué) 軟件學(xué)院，遼寧葫蘆島 125105）（ ? 通信作者電子郵箱wjm0703@126.com）

為了提升深度卷積神經(jīng)網(wǎng)絡(luò)對音樂頻譜流派特征的提取效果，提出一種基于頻譜空間域特征注意的音樂流派分類算法模型DCNN-SSA。DCNN-SSA模型通過對不同音樂梅爾譜圖的流派特征在空間域上進(jìn)行有效標(biāo)注，并且改變網(wǎng)絡(luò)結(jié)構(gòu)，從而在提升特征提取效果的同時(shí)確保模型的有效性，進(jìn)而提升音樂流派分類的準(zhǔn)確率。首先，將原始音頻信號(hào)進(jìn)行梅爾濾波，以模擬人耳的濾波操作對音樂的音強(qiáng)及節(jié)奏變化進(jìn)行有效過濾，所生成的梅爾譜圖進(jìn)行切割后輸入網(wǎng)絡(luò)；然后，通過深化網(wǎng)絡(luò)層數(shù)、改變卷積結(jié)構(gòu)及增加空間注意力機(jī)制對模型在流派特征提取上進(jìn)行增強(qiáng)；最后，通過在數(shù)據(jù)集上進(jìn)行多批次的訓(xùn)練與驗(yàn)證來有效提取并學(xué)習(xí)音樂流派特征，從而得到可以對音樂流派進(jìn)行有效分類的模型。在GTZAN數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，基于空間注意的音樂流派分類算法與其他深度學(xué)習(xí)模型相比，在音樂流派分類準(zhǔn)確率和模型收斂效果上有所提高，準(zhǔn)確率提升了5.36個(gè)百分點(diǎn)～10.44個(gè)百分點(diǎn)。

音樂流派分類；深度卷積神經(jīng)網(wǎng)絡(luò)；深度學(xué)習(xí)；空間注意力機(jī)制；梅爾頻譜

0 引言

音樂是以聲音為媒介的一種藝術(shù)表現(xiàn)形式，是由不同的旋律、節(jié)奏、和聲等元素依照一定規(guī)律組合而成［1］。隨著互聯(lián)網(wǎng)與多媒體技術(shù)的飛速發(fā)展，參與音樂等藝術(shù)作品創(chuàng)作的人數(shù)及音樂作品的數(shù)量也與日俱增。傳統(tǒng)音樂作品的分類方法，通常是由專業(yè)人員對作品的音樂流派［2］進(jìn)行分析后分類，但由于人工分類的局限性已無法適應(yīng)當(dāng)下需求。音樂信息檢索（Music Information Retrieval， MIR）作為一門橫跨音樂學(xué)、機(jī)器學(xué)習(xí)等多個(gè)專業(yè)的跨學(xué)科科學(xué)，通過計(jì)算機(jī)對音樂進(jìn)行自動(dòng)分類，在克服人工分類局限性的同時(shí)大幅度提升了分類效率［3］，其中流派分類應(yīng)用廣泛。

音樂流派自動(dòng)分類步驟：1）對原始音頻信號(hào)進(jìn)行預(yù)處理，提取具有流派屬性的特征；2）通過對不同流派特征進(jìn)行進(jìn)一步的提取并訓(xùn)練，使得分類器具有良好的流派分類效果；3）將待分類音樂進(jìn)行上述操作，通過訓(xùn)練得到的分類器進(jìn)行屬性判定。傳統(tǒng)機(jī)器學(xué)習(xí)應(yīng)用于音樂流派分類領(lǐng)域時(shí)，影響流派分類效果的主要因素為流派特征的提取和分類器的選取。Wold等［4］通過對原始音頻信號(hào)進(jìn)行均值、自相關(guān)系數(shù)等處理提取音頻特征，然后通過NN（-Nearest Neighbors）算法［5］進(jìn)行流派屬性判別。Tzanetakis等［3］將音樂的音高、音色和節(jié)奏等屬性組合為特征集合，通過高斯混合模型［6］等算法進(jìn)行特征集選取后分類。徐星［7］引入頻譜方差等音頻特征，結(jié)合主成分分析及稀疏編碼理論進(jìn)行降維，分析并研究了稀疏表示的模型分類。傳統(tǒng)機(jī)器學(xué)習(xí)在音樂流派分類領(lǐng)域已經(jīng)證明了流派自動(dòng)分類的效果，但存在容易過擬合和難以處理大規(guī)模樣本等問題［8］。隨著深度學(xué)習(xí)的發(fā)展，基于神經(jīng)網(wǎng)絡(luò)的流派分類方法可以有效地解決上述問題。

神經(jīng)網(wǎng)絡(luò)憑借其多層非線性變換的屬性，對高維數(shù)據(jù)復(fù)雜表示的學(xué)習(xí)具有優(yōu)勢［8］。隨著深度學(xué)習(xí)在人工智能各領(lǐng)域的廣泛應(yīng)用［9-12］，其在音樂流派分類領(lǐng)域的優(yōu)勢也隨之凸顯。Li等［13］通過三個(gè)一維卷積層構(gòu)成的卷積神經(jīng)網(wǎng)絡(luò)對音頻信號(hào)的梅爾倒譜系數(shù)進(jìn)行學(xué)習(xí)并分類。Dieleman等［14］以一維卷積和一維最大池化為主設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)，并驗(yàn)證了在特征預(yù)處理階段梅爾頻譜在特征表達(dá)上的有效性。Yang等［15］對卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)，通過重復(fù)的卷積層和與其對應(yīng)的池化層，增大網(wǎng)絡(luò)深度，提升網(wǎng)絡(luò)模型的特征提取效果。上述深度學(xué)習(xí)模型在音樂流派分類領(lǐng)域的應(yīng)用，顯著提升了流派分類效果，但仍存在問題：1）特征預(yù)處理方法對音樂流派特征提取缺乏適用性；2）單純堆疊卷積層深化網(wǎng)絡(luò)，難以在確保模型有效性的同時(shí)對特征進(jìn)行高維抽象提??；3）普通卷積容易忽略音頻譜圖中對音樂節(jié)奏特性的表達(dá)。

本文在對比了多種特征預(yù)處理方法與模型結(jié)構(gòu)后，對音頻譜圖流派特征提取的算法模型進(jìn)行增強(qiáng)，提出了一種基于頻譜空間域特征注意的音樂流派分類算法模型——DCNN-SSA（Deep Convolutional Neural Network Spectral Spatial Attention），旨在增強(qiáng)算法模型對音樂音頻譜圖中流派特征的提取性能，進(jìn)而提升算法模型音樂流派分類的準(zhǔn)確率。

1 特征提取預(yù)處理

不同流派音樂在音強(qiáng)、節(jié)奏等音樂特性表達(dá)上具有一定差異，模型通過對這些差異進(jìn)行有效學(xué)習(xí)實(shí)現(xiàn)對不同流派音樂的良好判定。通過對原始音頻信號(hào)進(jìn)行梅爾頻譜和梅爾頻譜倒譜系數(shù)兩種特征的提取，對比兩種方法對音樂流派特性表達(dá)的優(yōu)異程度。梅爾頻譜的處理過程與人耳聽覺系統(tǒng)濾波類似，而梅爾頻譜倒譜系數(shù)是在梅爾頻譜的基礎(chǔ)上進(jìn)行對數(shù)能量譜變換，但在音樂流派特征提取中離散余弦變換容易丟失部分音頻信號(hào)的信息，降低音頻信號(hào)間的相關(guān)性［16］，因此選擇梅爾頻譜對原始音頻信號(hào)進(jìn)行特征提取。

1.1　梅爾頻譜提取

在時(shí)域范圍內(nèi)，音頻信號(hào)的狀態(tài)是非穩(wěn)定的，所以要先對音樂原始音頻信號(hào)進(jìn)行分幀、加窗操作，在短時(shí)間內(nèi)假定音頻信號(hào)的穩(wěn)定性［17］；其次對得到的音頻信號(hào)進(jìn)行快速傅里葉變換；然后將變換后的音頻信號(hào)通過梅爾濾波器組，提取音頻信號(hào)的梅爾頻譜；最后將得到的所有頻譜進(jìn)行拼接，得到原始音頻信號(hào)的梅爾頻譜。梅爾頻譜計(jì)算過程如圖1所示。

圖1　梅爾頻譜計(jì)算過程

1.2　數(shù)據(jù)維度還原

由于梅爾濾波會(huì)對音頻信號(hào)進(jìn)行數(shù)據(jù)降維，并且將分窗操作的數(shù)據(jù)進(jìn)行單純拼接生成梅爾頻譜，對音頻信號(hào)間的相關(guān)性及音樂的節(jié)奏性表達(dá)容易產(chǎn)生損失。針對上述問題，對梅爾濾波后的數(shù)據(jù)進(jìn)行數(shù)據(jù)維度上的還原，細(xì)化局部特征。通過對比多種還原方法，本文采用線性插值運(yùn)算代替原有的拼接操作，在還原數(shù)據(jù)維度的同時(shí)，對數(shù)據(jù)間的相關(guān)變化進(jìn)行擬合，增強(qiáng)音頻信號(hào)間的相關(guān)性。

維度還原前后的梅爾譜圖如圖2所示。

圖2　維度還原前后的梅爾譜圖

1.3　音頻分割

在音樂流派分類領(lǐng)域，流派判別過程中不需要對整體音樂信息進(jìn)行分析，在訓(xùn)練階段以音樂的整體梅爾譜圖為單元輸入網(wǎng)絡(luò)將造成大量的冗余計(jì)算。本文以227×227×1大小為譜圖單元，將提取到的梅爾譜圖進(jìn)行切割后輸入網(wǎng)絡(luò)。

以切割后的譜圖集合作為模型輸入的優(yōu)點(diǎn)：

在訓(xùn)練階段，可以降低模型輸入大小，提升模型計(jì)算速度的同時(shí)，也提高了模型對局部細(xì)節(jié)特征的提取效果，并且擴(kuò)大訓(xùn)練規(guī)模，有利于模型訓(xùn)練。

在測試階段，對音樂譜圖集合的流派判別結(jié)果進(jìn)行統(tǒng)計(jì)，輸出判別概率最大的流派作為最終結(jié)果，有助于提升流派分類性能。

2 DCNN-SSA模型

為增強(qiáng)DCNN對音頻譜圖處理的適應(yīng)性，提升模型對譜圖流派性特征的提取效果，對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化。通過多次實(shí)驗(yàn)，對比不同模型結(jié)構(gòu)，最終構(gòu)建本文DCNN-SSA模型的網(wǎng)絡(luò)結(jié)構(gòu)，如圖3所示。

圖3　DCNN-SSA網(wǎng)絡(luò)模型結(jié)構(gòu)

2.1　網(wǎng)絡(luò)結(jié)構(gòu)

DCNN-SSA模型對原始音頻信號(hào)的梅爾頻譜進(jìn)行提取后，進(jìn)行數(shù)據(jù)維度上的還原，以細(xì)化音頻信號(hào)的局部特征。將處理后的譜圖切割后輸入網(wǎng)絡(luò)，首先通過兩次小核卷積、池化操作，減少冗余參數(shù)，加快模型收斂；其次經(jīng)過4個(gè)疊加的卷積層增強(qiáng)輸入網(wǎng)絡(luò)的音頻信號(hào)間的相關(guān)性依賴，對即將進(jìn)行的空間域標(biāo)注進(jìn)行預(yù)處理；然后將特征增強(qiáng)后的音頻信號(hào)輸入空間注意模塊，在空間域上對音頻信號(hào)間的流派特性進(jìn)行表達(dá)；最后將標(biāo)注后的音頻信號(hào)輸入殘差模塊，以殘差特性對多層次音頻特征進(jìn)行融合，對空間域標(biāo)注后的音頻信號(hào)進(jìn)行細(xì)節(jié)描述，對音頻信號(hào)的流派特性進(jìn)行有效的提取。

模型訓(xùn)練時(shí)，將模型對訓(xùn)練集中全部音樂文件進(jìn)行一次訓(xùn)練，對驗(yàn)證集中全部音樂文件進(jìn)行一次驗(yàn)證作為一個(gè)批次，多次迭代訓(xùn)練模型和驗(yàn)證模型，在到達(dá)指定批次時(shí)輸出音樂流派分類模型。

2.2　網(wǎng)絡(luò)改進(jìn)

改進(jìn)1 堆疊4個(gè)卷積層，增加感受野，增強(qiáng)音頻譜圖中特征的全局化表達(dá)，通過進(jìn)行多次非線性映射，增加網(wǎng)絡(luò)模型的非線性擬合能力。

改進(jìn)2 引入空間注意力機(jī)制，通過對特征的空間域注意，增強(qiáng)音頻譜圖中空間維度上的相關(guān)性依賴，進(jìn)一步增強(qiáng)網(wǎng)絡(luò)模型對音頻譜圖中節(jié)奏性特征的提取效果。

改進(jìn)3 在音頻譜圖的空間域注意后引入殘差思想，通過殘差特性對空間標(biāo)注后音頻譜圖進(jìn)行細(xì)節(jié)描述，進(jìn)一步增強(qiáng)音頻譜圖中流派性特征的表達(dá)。

2.3　空間注意力機(jī)制

空間注意力機(jī)制可以通過其空間域敏感屬性對音頻譜圖的全局與局部細(xì)節(jié)特征進(jìn)行多層次空間域標(biāo)注。在空間注意模塊前預(yù)先疊加多個(gè)卷積層，增強(qiáng)譜圖中信息的相關(guān)性依賴，為空間注意模塊的特征提取提供預(yù)處理。通過多次實(shí)驗(yàn)驗(yàn)證，疊加4個(gè)卷積層時(shí)效果最佳，過多疊加卷積層易造成大量計(jì)算冗余，且對實(shí)驗(yàn)結(jié)果影響甚微?？臻g注意模塊結(jié)構(gòu)如圖4所示。

圖4　空間注意模塊結(jié)構(gòu)

從圖4可以看出，該模塊對輸入的音頻譜圖同時(shí)進(jìn)行全局平均池化與全局最大池化，將得到的特征圖進(jìn)行拼接。得到的拼接特征圖再經(jīng)過一層卷積，通過Sigmoid函數(shù)對特征空間域的相關(guān)性進(jìn)行顯示。將得到的相關(guān)性參數(shù)作為權(quán)重，通過乘法對音頻譜圖原信號(hào)進(jìn)行運(yùn)算，完成在空間域上對音頻譜圖特征的重新標(biāo)定。最后，將重新標(biāo)定的音頻譜圖特征輸入下一層，完成空間注意模塊對音頻譜圖特征的有效標(biāo)注，提高音頻譜圖節(jié)奏性特征提取的空間指向性，進(jìn)一步提升音樂流派分類效果。

2.4　殘差模塊

在空間注意模塊后，引入以殘差思想設(shè)計(jì)的殘差模塊。殘差思想的設(shè)計(jì)，主要是為解決網(wǎng)絡(luò)深度增加伴隨的梯度消失等問題。殘差思想通過殘差映射的方法，使網(wǎng)絡(luò)提升深度的同時(shí)確保訓(xùn)練效率。

本文通過殘差直連通道的思想，對空間域特征提取后的音頻譜圖進(jìn)行卷積操作，對空間注意模塊得到的譜圖進(jìn)行更為抽象的高層次特征提取。通過對不同層次的特征提取，提升特征的多樣性與有效性；并在殘差模塊后添加一層卷積一層池化層，對融合得到的特征譜圖進(jìn)行一次過濾，從而增強(qiáng)對音頻譜圖中流派特性的細(xì)節(jié)描述，進(jìn)一步增強(qiáng)網(wǎng)絡(luò)對流派性特征的提取性能。殘差模塊結(jié)構(gòu)如圖5所示。

圖5　殘差模塊結(jié)構(gòu)

3 實(shí)驗(yàn)結(jié)果與分析

3.1　實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)服務(wù)器配置為Intel Core i9-10900K 3.70 GHz CPU+NVIDIA TITAN RTX GPU，對比實(shí)驗(yàn)采用基于Python語言的Tensorflow深度學(xué)習(xí)框架構(gòu)建深度學(xué)習(xí)模型。

3.2　實(shí)驗(yàn)數(shù)據(jù)集

GTZAN數(shù)據(jù)集為音樂流派分類領(lǐng)域常用的公開數(shù)據(jù)集［3］。該數(shù)據(jù)集共有1 000條音樂數(shù)據(jù)，且這1 000條音樂數(shù)據(jù)平均分布在10個(gè)音樂流派中，每一條音樂數(shù)據(jù)的時(shí)長約為30 s。本文實(shí)驗(yàn)將數(shù)據(jù)集中的音樂文件轉(zhuǎn)換為頻譜圖后對音頻特征進(jìn)行提取，以800條音樂數(shù)據(jù)作為訓(xùn)練集，100條音樂數(shù)據(jù)作為驗(yàn)證集進(jìn)行監(jiān)督學(xué)習(xí)，100條音樂數(shù)據(jù)作為測試集進(jìn)行音樂流派分類準(zhǔn)確率測試。

3.3　實(shí)驗(yàn)結(jié)果分析

以學(xué)習(xí)率0.001、迭代次數(shù)37 000對模型驗(yàn)證集進(jìn)行實(shí)驗(yàn)，迭代37 000次實(shí)驗(yàn)結(jié)果如圖6所示。

圖6　迭代37 000次的實(shí)驗(yàn)結(jié)果

根據(jù)圖6實(shí)驗(yàn)結(jié)果分布可以看出，流派分類準(zhǔn)確率隨迭代次數(shù)增加先提升，后趨向穩(wěn)定。由圖可得，可認(rèn)為模型相關(guān)參數(shù)在迭代31 000次后趨向穩(wěn)定。

為了說明梅爾頻譜對流派分類結(jié)果的影響，以學(xué)習(xí)率0.001、迭代次數(shù)31 000，對驗(yàn)證集進(jìn)行特征預(yù)處理消融實(shí)驗(yàn)。特征預(yù)處理消融實(shí)驗(yàn)結(jié)果如圖7所示。特征預(yù)處理消融實(shí)驗(yàn)流派分類準(zhǔn)確率見表1。

圖7　特征預(yù)處理消融實(shí)驗(yàn)結(jié)果

表1特征預(yù)處理消融實(shí)驗(yàn)的流派分類準(zhǔn)確率單位：%

Tab.1　Genre classification accuracy of ablation experiment of feature preprocessing unit：%

通過分析圖7及表1中實(shí)驗(yàn)結(jié)果可得，梅爾頻譜對音樂流派特征的提取較傳統(tǒng)傅里葉變換，可在驗(yàn)證集上對音樂流派分類準(zhǔn)確率提升1.92個(gè)百分點(diǎn)。

為了驗(yàn)證DCNN-SSA模型主要模塊的有效性，以學(xué)習(xí)率0.001、迭代次數(shù)31 000，分別對驗(yàn)證集進(jìn)行消融實(shí)驗(yàn)。驗(yàn)證集模型主要模塊消融實(shí)驗(yàn)結(jié)果如圖8所示。模型主要模塊消融實(shí)驗(yàn)流派分類準(zhǔn)確率見表2。

表2中，實(shí)驗(yàn)a為原始模型，實(shí)驗(yàn)b為增強(qiáng)空間域注意模型，實(shí)驗(yàn)c、d為在空間注意模塊前后分別輔助增強(qiáng)的模型，實(shí)驗(yàn)d為增強(qiáng)后模型。通過分析圖8及表2中實(shí)驗(yàn)結(jié)果，對比實(shí)驗(yàn)a、b可知特征的空間域注意對音樂流派分類效果上獲得了1.27%的增益。分別對比實(shí)驗(yàn)b、c與實(shí)驗(yàn)b、d可知，在空間注意模塊前通過四重卷積對特征進(jìn)行預(yù)處理可以在音樂流派分類效果上提升0.63個(gè)百分點(diǎn)，在空間注意模塊后通過殘差模塊細(xì)化標(biāo)注后的特征可以在音樂流派分類效果上提升1.72個(gè)百分點(diǎn)。分別對比實(shí)驗(yàn)e、c與實(shí)驗(yàn)e、d可知，在空間注意模塊前后均添加輔助增強(qiáng)模塊在音樂流派分類效果上提升1.52個(gè)百分點(diǎn)～2.61個(gè)百分點(diǎn)。由此可得，空間注意模塊對音樂流派分類準(zhǔn)確率有所提升，且殘差模塊與四重卷積均對空間注意模塊具有輔助增強(qiáng)效果，同時(shí)對空間注意模塊進(jìn)行增強(qiáng)可以達(dá)到較優(yōu)效果。

圖8　模型主要模塊的消融實(shí)驗(yàn)結(jié)果

表2模型主要模塊消融實(shí)驗(yàn)流派分類準(zhǔn)確率

Tab.2　Genre classification accuracies in ablation experiment for main modules of model

將DCNN-SSA模型同其他常用深度學(xué)習(xí)模型以相同數(shù)據(jù)預(yù)處理進(jìn)行訓(xùn)練，當(dāng)學(xué)習(xí)率0.001、迭代次數(shù)為31 000時(shí)，各網(wǎng)絡(luò)均趨于穩(wěn)定。所以選取學(xué)習(xí)率0.001、迭代次數(shù)31 000進(jìn)行網(wǎng)絡(luò)模型對比實(shí)驗(yàn)，多次實(shí)驗(yàn)后采用最優(yōu)值作為對比實(shí)驗(yàn)結(jié)果。不同網(wǎng)絡(luò)在驗(yàn)證集上的流派分類準(zhǔn)確率對比見表3。

表3不同網(wǎng)絡(luò)在驗(yàn)證集上的流派分類準(zhǔn)確率對比單位：%

Tab.3　Genre classification accuracy comparison of different networks on verification set unit：%

表3中實(shí)驗(yàn)結(jié)果表明，DCNN-SSA模型較其他常用深度學(xué)習(xí)模型在驗(yàn)證集上流派分類準(zhǔn)確率提升了5.36個(gè)百分點(diǎn)～10.44個(gè)百分點(diǎn)。由此可得，DCNN-SSA模型在音頻譜圖中具有更好的流派特征提取性能。將本文模型與其他常用深度學(xué)習(xí)模型對GTZAN數(shù)據(jù)集的測試集音樂進(jìn)行流派分類。網(wǎng)絡(luò)測試集上的流派分類準(zhǔn)確率對比見表4。

實(shí)驗(yàn)結(jié)果表明，使用維度還原后的梅爾頻譜對音樂文件進(jìn)行特征表達(dá)后，通過空間注意力機(jī)制增強(qiáng)模型對音頻譜圖空間域特征的提取，并通過四重卷積和殘差模塊對空間注意模塊進(jìn)行輔助增強(qiáng)，構(gòu)建增強(qiáng)頻譜空間域注意的DCNN-SSA模型對GTZAN數(shù)據(jù)集中測試集進(jìn)行流派分類，音樂流派分類準(zhǔn)確率達(dá)到82.00%，比其他深度學(xué)習(xí)模型高出6個(gè)百分點(diǎn)～12個(gè)百分點(diǎn)。由此可得，較其他常用深度學(xué)習(xí)模型， DCNN-SSA模型具有更好的音樂流派分類效果。

表4不同網(wǎng)絡(luò)在測試集上的流派分類準(zhǔn)確率對比單位：%

Tab.4　Genre classification accuracy comparison of different networks on test set unit：%

4 結(jié)語

為增強(qiáng)深度學(xué)習(xí)模型在音樂流派分類領(lǐng)域的流派特征提取效果，本文分析并設(shè)計(jì)了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的DCNN-SSA模型。在音樂流派特征表達(dá)方面，將維度還原的梅爾頻譜進(jìn)行分割后作為訓(xùn)練集輸入網(wǎng)絡(luò)，使訓(xùn)練樣本在提升自身特征表達(dá)的同時(shí)，提升計(jì)算速度；在音樂流派特征提取方面，通過四重卷積與殘差結(jié)構(gòu)輔助空間注意力機(jī)制對DCNN進(jìn)行增強(qiáng)。四重卷積可以預(yù)先提升音頻譜圖內(nèi)部特征的相關(guān)性依賴，使得在空間域標(biāo)注時(shí)得到更強(qiáng)的節(jié)奏特性；殘差結(jié)構(gòu)可以在空間注意模塊后提升空間標(biāo)注后音頻譜圖的細(xì)節(jié)表達(dá)。空間注意力機(jī)制可以對音樂頻譜特征相關(guān)性進(jìn)行有效增強(qiáng)，增強(qiáng)對音頻譜圖中節(jié)奏特征的提取，使網(wǎng)絡(luò)對音頻譜圖特征提取的指向性增強(qiáng)，從而提升流派分類效果。

[1] 伊恩?本特，戴明瑜. 音樂分析學(xué)導(dǎo)論［J］. 中國音樂， 1995（4）： 50-51.（BENT I B， DAI M Y. Introduction to music analysis［J］. Chinese Music， 1995（4）： 50-51.）

[2] SAMSON J. Genre［J/OL］. Grove music online.［2021-02-20］. https：//www.oxfordmusiconline.com/grovemusic/view/10.1093/gmo/9781561592630.001.0001/omo-9781561592630-e-0000040599？rskey=lxSqC9.

[3] TZANETAKIS G， COOK P. Musical genre classification of audio signals［J］. IEEE Transactions on Speech and Audio Processing， 2002， 10（5）：293-302.

[4] WOLD E， BLUM T， KEISLAR D， et al. Content-based classification， search， and retrieval of audio［J］. IEEE Multimedia， 1996， 3（3）： 27-36.

[5] COVER T， HART P. Nearest neighbor pattern classification［J］. IEEE Transactions on Information Theory， 1967， 13（1）： 21-27.

[6] DUDA R O， HART P E， STORK D G. Pattern Classification［M］. 2nd ed. New York： John Wiley & Sons， Inc.， 2000： 5-6.

[7] 徐星. 基于最小一范數(shù)的稀疏表示音樂流派與樂器分類算法研究［D］. 天津：天津大學(xué)， 2012： 154-171.（XU X. Research on the musical genre and instruments classification based on sparse representation-based classification via L1-minimization［D］. Tianjin： Tianjin University， 2012： 154-171.）

[8] 焦李成，楊淑媛，劉芳，等. 神經(jīng)網(wǎng)絡(luò)七十年：回顧與展望［J］. 計(jì)算機(jī)學(xué)報(bào)， 2016， 39（8）： 1697-1716.（JIAO L C， YANG S Y， LIU F， et al. Seventy years beyond neural networks： retrospect and prospect［J］. Chinese Journal of Computers， 2016， 39（8）： 1697-1716.）

[9] 曹玉紅，徐海，劉蓀傲，等. 基于深度學(xué)習(xí)的醫(yī)學(xué)影像分割研究綜述［J］. 計(jì)算機(jī)應(yīng)用， 2021， 41（8）：2273-2287.（CAO Y H， XU H， LIU S A， et al. Review of deep learning-based medical image segmentation［J］. Journal of Computer Applications， 2021， 41（8）：2273-2287.）

[10] 孔伶旭，吳海鋒，曾玉，等. 使用深度學(xué)習(xí)和不同頻率維度的腦功能性連接對輕微認(rèn)知障礙的診斷［J］. 計(jì)算機(jī)應(yīng)用， 2021， 41（2）：590-597.（KONG L X， WU H F， ZENG Y， et al. Diagnosis of mild cognitive impairment using deep learning and brain functional connectivities with different frequency dimensions［J］. Journal of Computer Applications， 2021， 41（2）：590-597.）

[11] 史文旭，鮑佳慧，姚宇. 基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測與識(shí)別［J］. 計(jì)算機(jī)應(yīng)用， 2020， 40（12）：3558-3562.（SHI W X， BAO J H， YAO Y. Remote sensing image target detection and identification based on deep learning［J］. Journal of Computer Applications， 2020， 40（12）：3558-3562.）

[12] 彭育輝，鄭瑋鴻，張劍鋒. 基于深度學(xué)習(xí)的道路障礙物檢測方法［J］. 計(jì)算機(jī)應(yīng)用， 2020， 40（8）：2428-2433.（PENG Y H， ZHENG W H， ZHANG J F. Deep learning-based on-road obstacle detection method［J］. Journal of Computer Applications， 2020， 40（8）：2428-2433.）

[13] LI T L H， CHAN A B， CHUN A H W. Automatic musical pattern feature extraction using convolutional neural network［C］// Proceedings of the 2010 International MultiConference of Engineering and Computer Scientists. ［S.l.］： International Association of Engineers， 2010：546-550.

[14] DIELEMAN S， SCHRAUWEN B. End-to-end learning for music audio［C］// Proceedings of the 2014 IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway： IEEE， 2014：6964-6968.

[15] YANG H S， ZHANG W Q. Music genre classification using duplicated convolutional layers in neural networks［C］// Interspeech 2019： Proceedings of the 20th Annual Conference of the International Speech Communication Association. ［S.l.］： International Speech Communication Association， 2019： 3382-3386.

[16] 杜佑宸. 基于卷積神經(jīng)網(wǎng)絡(luò)的音樂流派分類研究［D］. 大連：大連理工大學(xué)， 2019： 26-27.（DU Y C. Research of music genre classification based on convolutional neural network［D］. Dalian： Dalian University of Technology， 2019：26-27.）

[17] MANNEPALLI K， SASTRY P N， SUMAN M. MFCC-GMM based accent recognition system for Telugu speech signals［J］. International Journal of Speech Technology， 2016， 19（1）： 87-93.

LIU Wanjun， born in 1959， M. S.， professor. His research interests include digital image processing， moving target detection and tracking.

WANG Jiaming， born in 1996， M. S. His research interests include deep learning， pattern recognition.

QU Haicheng， born in 1981， Ph. D.， associate professor. His research interests include rapid remote sensing image processing， intelligent big data processing.

DONG Libing， born in 1996， M. S. Her research interests include deep learning， pedestrian detection.

CAO Xinyu， born in 2002. Her research interests include deep learning.

Music genre classification algorithm based on attention spectral-spatial feature

LIU Wanjun， WANG Jiaming*， QU Haicheng， DONG Libing， CAO Xinyu

（，，125105，）

In order to improve the extraction effect of the deep convolutional neural network on music spectrum genre features， a music genre classification algorithm model based on attention spectral-spatial feature， namely DCNN-SSA （Deep Convolutional Neural Network Spectral Spatial Attention）， was proposed. In DCNN-SSA model， the genre features of different music Mel spectrograms were effectively annotated in the spatial domain， and the network structure was changed to improve the feature extraction effect while ensuring the effectiveness of the model， thereby improving the accuracy of music genre classification. Firstly， the original audio signals were Mel-filtered to effectively filter the sound intensity and rhythm change of the music by simulating the filtering operation of the human ear， and the generated Mel spectrograms were cut and input into the network. Then， the model was enhanced in genre feature extraction by deepening the number of network layers， changing the convolution structure and adding spatial attention mechanism. Finally， through multiple batches of training and verification on the dataset， the features of music genres were extracted and learned effectively， and a model that can effectively classify music genres was obtained. Experimental results on GTZAN dataset show that compared with other deep learning models， the music genre classification algorithm based on spatial attention increases the music genre classification accuracy by 5.36 percentage points to 10.44 percentage points and improves model convergence effect.

music genre classification; deep convolutional neural network; deep learning; spatial attention mechanism; Mel spectrogram

This work is partially supported by National Natural Science Foundation of China （41701479）， General Project of Educational Department of Liaoning Province （LJ2019JL010）.

TP181

1001-9081（2022）07-2072-06

10.11772/j.issn.1001-9081.2021050740

2021?05?10；

2021?11?05；

2021?11?24。

國家自然科學(xué)基金資助項(xiàng)目（41701479）；遼寧省教育廳一般項(xiàng)目（LJ2019JL010）。

劉萬軍（1959—），男，遼寧錦州人，教授，碩士，CCF高級(jí)會(huì)員，主要研究方向：數(shù)字圖像處理、運(yùn)動(dòng)目標(biāo)檢測與跟蹤；王佳銘（1996—），男，河北秦皇島人，碩士，主要研究方向：深度學(xué)習(xí)、模式識(shí)別；曲海成（1981—），男，山東煙臺(tái)人，副教授，博士，CCF會(huì)員，主要研究方向：遙感影像快速處理、智能大數(shù)據(jù)處理；董利兵（1996—），女，遼寧葫蘆島人，碩士，主要研究方向：深度學(xué)習(xí)、行人檢測；曹欣宇（2002—），女，遼寧錦州人，主要研究方向：深度學(xué)習(xí)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于頻譜空間域特征注意的音樂流派分類算法

0 引言

1 特征提取預(yù)處理

1.1 梅爾頻譜提取

1.2 數(shù)據(jù)維度還原

1.3 音頻分割

2 DCNN-SSA模型

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

2.2 網(wǎng)絡(luò)改進(jìn)

2.3 空間注意力機(jī)制

2.4 殘差模塊

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境

3.2 實(shí)驗(yàn)數(shù)據(jù)集

3.3 實(shí)驗(yàn)結(jié)果分析

4 結(jié)語

1.1　梅爾頻譜提取

1.2　數(shù)據(jù)維度還原

1.3　音頻分割

2.1　網(wǎng)絡(luò)結(jié)構(gòu)

2.2　網(wǎng)絡(luò)改進(jìn)

2.3　空間注意力機(jī)制

2.4　殘差模塊

3.1　實(shí)驗(yàn)環(huán)境

3.2　實(shí)驗(yàn)數(shù)據(jù)集

3.3　實(shí)驗(yàn)結(jié)果分析