羅紅霞 羅娜
摘要:音樂(lè)風(fēng)格分類(lèi)是音樂(lè)信息檢索和音樂(lè)推薦當(dāng)中的重要一環(huán),它對(duì)音樂(lè)風(fēng)格分類(lèi)效率的要求越來(lái)越高。然而,音樂(lè)風(fēng)格的識(shí)別對(duì)于非專(zhuān)業(yè)人士而言是比較困難的,因此我們建立了一種基于機(jī)器學(xué)習(xí)的音樂(lè)風(fēng)格識(shí)別系統(tǒng),該文研究對(duì)象為最具代表性的4類(lèi)音樂(lè)風(fēng)格,并選取47首爵士風(fēng)格音樂(lè)、47首搖滾風(fēng)格音樂(lè)、42首古典風(fēng)格音樂(lè)以及40首現(xiàn)代風(fēng)格音樂(lè)作為樣本,應(yīng)用快速傅里葉變換、圖像特征提取,結(jié)合機(jī)器學(xué)習(xí)模型,建立了基于支持向量機(jī)算法的音樂(lè)風(fēng)格識(shí)別系統(tǒng),最終實(shí)現(xiàn)了四種音樂(lè)風(fēng)格的同時(shí)識(shí)別。該模型用于盲測(cè)的AUC(受試者工作特征曲線下面積)平均值為0.871,分類(lèi)的準(zhǔn)確率為71.7%。
關(guān)鍵詞:支持向量機(jī)算法;音樂(lè)風(fēng)格;快速傅里葉變換
中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)志碼:A文章編號(hào):1001-2443(2024)02-0123-06
引言
互聯(lián)網(wǎng)時(shí)代背景下,音樂(lè)信息檢索MIR(Music Information Retrieval)技術(shù)是一個(gè)結(jié)合音樂(lè)和計(jì)算機(jī)領(lǐng)域的新興交叉學(xué)科,它在音樂(lè)理論與創(chuàng)作、音樂(lè)教學(xué)與表演中具有重要應(yīng)用。近三十年來(lái),有眾多非音樂(lè)領(lǐng)域工作者運(yùn)用機(jī)器學(xué)習(xí)與音樂(lè)進(jìn)行學(xué)科交叉,在新媒體平臺(tái)發(fā)布各類(lèi)音樂(lè)的識(shí)別模型操作流程和學(xué)術(shù)論文。人聲演唱是大眾所接觸到最常見(jiàn)的音樂(lè),它的旋律線條單一、音域較窄,且識(shí)別度高。近年來(lái),在音樂(lè)平臺(tái)榜單中可以看到各類(lèi)樂(lè)器的音樂(lè)作品也列入榜單之中,器樂(lè)作品的結(jié)構(gòu)特征是隨著音樂(lè)風(fēng)格的不同而不同,國(guó)內(nèi)外眾多學(xué)者運(yùn)用模型支持向量機(jī)(SVM)、隱馬爾可夫模型( HMM )、K近鄰(KNN)、隨機(jī)森林(RF)、邏輯回歸(LR)、自適應(yīng)增強(qiáng)(Adaboost)、神經(jīng)網(wǎng)絡(luò)(NN)等算法通過(guò)模擬人類(lèi)學(xué)習(xí)方式進(jìn)行機(jī)器學(xué)習(xí),有效地實(shí)現(xiàn)器樂(lè)作品音樂(lè)風(fēng)格的識(shí)別[1]。在上述模型使用中,由于同一個(gè)人在不同音域演唱(演奏)不同音樂(lè)風(fēng)格的作品時(shí),多方面的因素會(huì)導(dǎo)致研究者在提取音樂(lè)信號(hào)特征時(shí)出現(xiàn)偏差,進(jìn)而導(dǎo)致音樂(lè)風(fēng)格的識(shí)別精度較低。隨著技術(shù)的發(fā)展,網(wǎng)絡(luò)層級(jí)的增加,我們需要找到可以提取人手工定義的特征,且很難觸及的高級(jí)別特征,以進(jìn)一步提高音樂(lè)風(fēng)格的識(shí)別精度及效率。
搖滾音樂(lè)、爵士音樂(lè)、古典音樂(lè)、現(xiàn)代音樂(lè)在作品形式和內(nèi)容上均有著鮮明的藝術(shù)特色,受作品的時(shí)代、題材、社會(huì)文化等影響,具備著獨(dú)特的表現(xiàn)方式和相對(duì)穩(wěn)定的時(shí)代風(fēng)格。這些音樂(lè)風(fēng)格的作品如今也受到了聽(tīng)眾們的青睞,在音樂(lè)播放器的排行榜中,搖滾音樂(lè)、爵士音樂(lè)、古典音樂(lè)都穩(wěn)居前列。在音樂(lè)風(fēng)格分類(lèi)中,選用特定的一段音樂(lè),從旋律的音量、音調(diào)、音色、速度、強(qiáng)度變化等,找到音樂(lè)風(fēng)格的分類(lèi)精度,從而縮短分類(lèi)運(yùn)算時(shí)間,以期達(dá)到算法的實(shí)用性[2,3]。使用頻譜可以將音樂(lè)史上存在的任何音樂(lè)流派的音響成品當(dāng)作分析對(duì)象,具體地,先過(guò)濾掉一切聲音客體以外的形式內(nèi)容,并以作品音響作為客體對(duì)象,以實(shí)證、科學(xué)、客觀的揭示分析對(duì)象的自然物理屬性,而后再去與上述聲音客體以外的形式內(nèi)容比對(duì)、斟酌、遴選并提煉和總結(jié)出音樂(lè)識(shí)別系統(tǒng)所需的內(nèi)容和結(jié)論[4]。目前,特征提取是音樂(lè)風(fēng)格分類(lèi)研究中的重要參照依據(jù),為了提高分類(lèi)的性能,有必要對(duì)特征進(jìn)行篩選。選擇重要特征并剔除不顯著的特征,應(yīng)用快速傅里葉變換、圖像特征提取,結(jié)合機(jī)器學(xué)習(xí)模型,建立基于支持向量機(jī)算法的音樂(lè)風(fēng)格識(shí)別系統(tǒng),可以有效解決模型算法空間和時(shí)間的復(fù)雜度。
1 研究背景
音樂(lè)特征提取在分類(lèi)任務(wù)中起著關(guān)鍵作用,它是判斷音樂(lè)風(fēng)格的重要組成部分。當(dāng)前MIR 技術(shù)對(duì)信號(hào)級(jí)的音樂(lè)識(shí)別已經(jīng)達(dá)到了較高精度,但由于數(shù)據(jù)程序繁瑣,且耗時(shí)過(guò)長(zhǎng),無(wú)法便捷、高效的識(shí)別各類(lèi)音樂(lè),因此,近年來(lái)音樂(lè)識(shí)別 CSI ( Cover Song Identification) 已成為學(xué)術(shù)界的研究熱點(diǎn)。19世紀(jì)末和20 世紀(jì)初,由于數(shù)字信號(hào)處理技術(shù)、頻率測(cè)量技術(shù)以及電子技術(shù)的革新,音樂(lè)也得到了空前的發(fā)展,各類(lèi)音樂(lè)作品出現(xiàn)了樂(lè)隊(duì)編制、單旋律無(wú)伴奏以及電子音樂(lè)等多個(gè)版本,這為聽(tīng)眾提供了更多的新體驗(yàn),也為音樂(lè)風(fēng)格的有效區(qū)分個(gè)信號(hào)分類(lèi)增加了難度。Juan P B(2007)[5]使用隱馬爾可夫模型( HMM )對(duì)非原版作品的測(cè)試移位、間隙、交換和節(jié)拍進(jìn)行檢索,運(yùn)用Viterbi 算法提取出最為準(zhǔn)確的旋律和弦序列,同時(shí)使用 NWS ( Needleman-Wunsch-Sellers) 近似字符串匹配算法計(jì)算出兩首旋律和弦序列的相似度,以音樂(lè)節(jié)拍和音樂(lè)調(diào)式實(shí)現(xiàn)對(duì)音樂(lè)作品版本的識(shí)別。雷文康(2017)[6]通過(guò)音樂(lè)信號(hào)特征(音高、音色、節(jié)奏)與音樂(lè)風(fēng)格流派的語(yǔ)義信息和聲譜圖特征(短時(shí)傅里葉變換得到的時(shí)頻圖、Mel頻譜圖等)的呈現(xiàn),構(gòu)建出循環(huán)神經(jīng)網(wǎng)絡(luò)的音樂(lè)流派分類(lèi)算法,進(jìn)一步提高分類(lèi)準(zhǔn)確率。Trabelsi等(2012)[7]佐證Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)是分類(lèi)研究中的重要特征參數(shù)并將其用于音樂(lè)風(fēng)格的分類(lèi)。宋揚(yáng)等(2022)[8]提出用一種融合核主成分分析(Kernel Principal Component Analysis, KPCA)和改進(jìn)K 近鄰的分類(lèi)方法,篩選出不顯著的特征,以期提升特征子集的分類(lèi)效果。在計(jì)算機(jī)自動(dòng)分析中,音樂(lè)信號(hào)的特征表達(dá)主要有:能量特征、過(guò)零率、幅度特征(時(shí)域表達(dá));線性預(yù)測(cè)編碼、梅爾聲譜圖、頻譜重心等(頻域表達(dá));音高、音調(diào)、和弦(音色表達(dá));風(fēng)格、樂(lè)器、情緒(高級(jí)表達(dá))。關(guān)于音樂(lè)識(shí)別常用的分類(lèi)方法是音樂(lè)特征的提取和識(shí)別分類(lèi),一是提取音樂(lè)的特征量進(jìn)行訓(xùn)練建模;二是利用建好的模型對(duì)不同音樂(lè)的測(cè)試樣本進(jìn)行識(shí)別分類(lèi)得出預(yù)處理結(jié)果,音樂(lè)樣本的預(yù)處理決定了音樂(lè)樣本中的具體特征,從而達(dá)到最終音樂(lè)風(fēng)格的識(shí)別任務(wù)。
為找到音樂(lè)風(fēng)格中高級(jí)別的特征,我們將對(duì)爵士音樂(lè)風(fēng)格、搖滾音樂(lè)風(fēng)格、古典音樂(lè)風(fēng)格和現(xiàn)代音樂(lè)風(fēng)格展開(kāi)研究。從音樂(lè)發(fā)展的角度來(lái)看,各時(shí)期的音樂(lè)風(fēng)格是相對(duì)穩(wěn)定的,能反映出該時(shí)期眾音樂(lè)家的個(gè)人思想觀念、審美情趣、精神氣質(zhì)等內(nèi)在特性的外部印記。兩個(gè)樂(lè)音之間的頻率比決定了兩者之間的音程關(guān)系[9]。音樂(lè)風(fēng)格與音程關(guān)系的使用間也存在著一定的關(guān)系。古典主義時(shí)期的音樂(lè)為樸素中見(jiàn)崇高,重視真實(shí)地描寫(xiě)現(xiàn)實(shí)生活,具有深刻的思想性,其音樂(lè)進(jìn)行有條不紊,富于邏輯性[10]。在音程使用上,其旋律以級(jí)進(jìn)2-3度音程居多,也會(huì)出現(xiàn)12-13度的音程,如作品《悲愴奏鳴曲》第二樂(lè)章(路德維?!し病へ惗喾遥?lè)譜的音程分析所示(表1)。爵士音樂(lè)興盛于20世紀(jì),它是一種典型的美國(guó)式的流行音樂(lè)文化,眾多學(xué)者認(rèn)為它是一種即興演奏的舞蹈音樂(lè)和流行音樂(lè)的代名詞[11]。爵士音樂(lè)風(fēng)格作品的音程關(guān)系沒(méi)有古典音樂(lè)風(fēng)格變化多,通常以平穩(wěn)的旋律進(jìn)行,如作品《星塵》(路易斯·阿姆斯特朗)中便鮮見(jiàn)跨度較大的音程關(guān)系。搖滾樂(lè)興起于20世紀(jì)50年代中期,主要受到節(jié)奏布魯斯、鄉(xiāng)村音樂(lè)和叮砰巷音樂(lè)的影響發(fā)展而來(lái)[12-13]。早期搖滾樂(lè)為黑人音樂(lè)節(jié)奏布魯斯的翻唱版,因而節(jié)奏布魯斯是其主要根基,作品的前奏與副歌部分會(huì)形成鮮明的音樂(lè)對(duì)比,它會(huì)出現(xiàn)跨度較大的12-13度音程,同時(shí),它還以0-3度的級(jí)進(jìn)音程見(jiàn)多,作品《Paint It Black》(滾石樂(lè)隊(duì))的音程均分布在該范圍內(nèi),而現(xiàn)代音樂(lè)指19世紀(jì)末、20世紀(jì)中期以非傳統(tǒng)作曲技法,用新的作曲手法、音樂(lè)理論、音樂(lè)語(yǔ)言創(chuàng)作出來(lái)的音樂(lè),該類(lèi)音樂(lè)風(fēng)格特點(diǎn)多為和聲結(jié)構(gòu)復(fù)雜、調(diào)性模糊和無(wú)調(diào)性的音樂(lè)作品,以平行音程和平行和弦居多,旋律連接以小跳和級(jí)進(jìn)為主,以復(fù)雜的節(jié)拍和改編重拍規(guī)律等方式呈現(xiàn),如《阿根廷舞曲》(阿爾維托·希納斯特拉)。
2 音樂(lè)風(fēng)格識(shí)別實(shí)現(xiàn)
在同一類(lèi)風(fēng)格的音樂(lè)作品中,其聲音的頻率、振動(dòng)、幅度、時(shí)間、相位、聲波的譜等參數(shù)具有部分和整體的相似特質(zhì)、構(gòu)造細(xì)致和非整數(shù)性(關(guān)聯(lián)維數(shù))。任何樂(lè)音都是一個(gè)獨(dú)立的生命體,樂(lè)音在“產(chǎn)生-成長(zhǎng)-衰減-消失”的整個(gè)過(guò)程中最易為人所察覺(jué)的就是音高、音色、音強(qiáng)、聲場(chǎng)造型。為了找到客觀識(shí)別音樂(lè)風(fēng)格的描述方法以及四種音樂(lè)風(fēng)格的差異,在本節(jié)中,我們將討論在不同條件和分類(lèi)器下的音樂(lè)風(fēng)格識(shí)別實(shí)現(xiàn)的問(wèn)題。我們對(duì)音樂(lè)風(fēng)格識(shí)別的實(shí)現(xiàn)過(guò)程如圖1所示。
由于一首樂(lè)曲包含的信息量和數(shù)據(jù)量巨大,直接對(duì)全部數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)等操作所需的硬件設(shè)施要求較高。因此,我們經(jīng)過(guò)一系列處理,將大數(shù)據(jù)量轉(zhuǎn)化為可視的圖像后續(xù)進(jìn)行機(jī)器學(xué)習(xí),大大減少了工作量,降低了所需的硬件設(shè)施要求,可以實(shí)現(xiàn)普通用戶(hù)的自行操作。我們隨機(jī)選取了47首爵士風(fēng)格音樂(lè)、47首搖滾風(fēng)格音樂(lè)、42首古典風(fēng)格音樂(lè)以及40首現(xiàn)代風(fēng)格音樂(lè)作為樣本,用于模型的建立。
2.1 音樂(lè)信號(hào)的處理
任何波形都可以利用許多正弦波相加來(lái)代替,任何聲音都可以分解成若干不同相位、不同振幅、不同頻率的正弦波,這是傅里葉定律。為了能夠?qū)?lè)曲進(jìn)行數(shù)據(jù)分析,我們首先使用Python編程語(yǔ)言對(duì)音樂(lè)文件進(jìn)行了數(shù)據(jù)處理及轉(zhuǎn)換。使用readframes返回音樂(lè)文件的二進(jìn)制數(shù)據(jù),根據(jù)聲道數(shù)將讀取的二進(jìn)制數(shù)據(jù)轉(zhuǎn)換為一個(gè)可以計(jì)算的數(shù)組,以便進(jìn)行后續(xù)的繪圖及處理。此外,利用SciPy提供的fftpack模塊將樂(lè)曲的wav文件進(jìn)行快速傅里葉變換(Fast Fourier Transform, FFT),在非正弦周期函數(shù)中展開(kāi)傅里葉級(jí)數(shù),將傅里葉級(jí)數(shù)中每一個(gè)正弦分量的振幅和初相角沿著頻率軸畫(huà)出頻譜圖。利用傅里葉變換后的數(shù)據(jù),可以計(jì)算出樂(lè)曲的頻率、幅值、相位等參數(shù),為后續(xù)的音樂(lè)風(fēng)格區(qū)分提供數(shù)據(jù)支撐。
2.2 數(shù)據(jù)處理與繪圖
由于樂(lè)曲數(shù)據(jù)量大,需要對(duì)數(shù)據(jù)進(jìn)行一定的處理以方便后續(xù)運(yùn)算及應(yīng)用。利用自主編寫(xiě)的Python程序?qū)?shù)據(jù)進(jìn)行處理和繪圖。首先將樂(lè)曲的左右聲道數(shù)據(jù)進(jìn)行分割,獲取兩個(gè)聲道的數(shù)據(jù)。隨后,我們分別對(duì)快速傅里葉變換前后的音樂(lè)數(shù)據(jù)進(jìn)行圖像的繪制??焖俑道锶~變換前,以時(shí)間為x軸參數(shù),x軸為節(jié)奏數(shù)值軸,將全音符作為整數(shù)1,伴隨節(jié)奏值的依次縮小,將得到單位節(jié)奏值遞減圖;以幅值為y軸參數(shù),y軸幅值音數(shù)作為帶寬單位,根據(jù)作品律制及所組成的音階結(jié)構(gòu)的不同,它將用作量化的標(biāo)準(zhǔn),x軸和y軸將繪制成時(shí)間-幅值的折線圖??焖俑道锶~變換后,分別繪制全頻率范圍的頻率-幅值以及頻率-相位的圖像。
此外,為了探究不同頻率的信息是否會(huì)給音樂(lè)風(fēng)格的區(qū)分產(chǎn)生巨大影響,我們截取人耳能聽(tīng)到的20 ~20000 Hz區(qū)段作為原始分析對(duì)象。將20 ~20000 Hz的頻率分為低頻(20 ~160 Hz)、中頻(160 ~1280 Hz)、高頻(1280 ~20000 Hz)三個(gè)區(qū)段分別進(jìn)行處理。將數(shù)據(jù)進(jìn)行可視化,對(duì)低頻、中頻、高頻三個(gè)區(qū)段的參數(shù)分別繪制折線圖。因此,一首樂(lè)曲的單個(gè)聲道包含三張不同頻率范圍的頻率-幅值圖像和三張不同頻率范圍的頻率-相位圖像。最終,一首樂(lè)曲繪制了共計(jì)18張圖像用于后續(xù)圖像特征的提取。
2.3 圖像特征提取
利用圖像嵌入 (image embedding) 對(duì)圖像進(jìn)行降維,將數(shù)據(jù)轉(zhuǎn)換為固定大小的向量,以便于處理和計(jì)算。讀取圖像后使用基于Inception v3的深度神經(jīng)網(wǎng)絡(luò)模型評(píng)估圖像[15],計(jì)算每個(gè)圖像的特征向量,每張圖像可以返回2048個(gè)相應(yīng)的特征向量。首先將每首樂(lè)曲左右聲道的特征進(jìn)行合并。即每首樂(lè)曲至少包含4096個(gè)特征向量用于后續(xù)的機(jī)器學(xué)習(xí)。隨后將每首樂(lè)曲對(duì)應(yīng)低頻、中頻、高頻的特征也進(jìn)行合并,以便于比較分段提取特征值和整體提取特征值的效果。
2.4 機(jī)器學(xué)習(xí)模型
將圖像的特征向量作為每一首樂(lè)曲的特征值,建立機(jī)器學(xué)習(xí)模型,對(duì)其音樂(lè)風(fēng)格進(jìn)行區(qū)分。首先我們利用全部的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),用于評(píng)估所用特征對(duì)于音樂(lè)風(fēng)格分類(lèi)的區(qū)分貢獻(xiàn)度。我們使用了六種分類(lèi)器,分別為支持向量機(jī)(SVM)、K近鄰(kNN)、隨機(jī)森林(RF)、邏輯回歸(LR)、自適應(yīng)增強(qiáng)(Adaboost)、神經(jīng)網(wǎng)絡(luò)(NN)算法。以上模型均采用了5折交叉驗(yàn)證。使用時(shí)間-幅值結(jié)合頻率-幅值的特征時(shí),機(jī)器學(xué)習(xí)模型效果最佳(使用AUC值大小作為評(píng)判標(biāo)準(zhǔn))。因此,后續(xù)使用時(shí)間-幅值結(jié)合頻率-幅值的特征作為訓(xùn)練對(duì)象建立機(jī)器學(xué)習(xí)模型。此外,支持向量機(jī)算法對(duì)于本問(wèn)題的分類(lèi)具有較好的識(shí)別效果[15-16]。
隨后,我們比較了六種機(jī)器學(xué)習(xí)方法的分類(lèi)效果,分別采用分層k折(k=5,10,20)交叉驗(yàn)證[17]進(jìn)行訓(xùn)練。表2展示了六種機(jī)器學(xué)習(xí)模型在不同條件下的AUC值。支持向量機(jī)(SVM)是一種用超平面分離屬性空間的機(jī)器學(xué)習(xí)方法,從而最大化不同類(lèi)或類(lèi)值的實(shí)例之間的邊界。支持向量機(jī)最初是為解決二分類(lèi)問(wèn)題被提出的,但它具有能夠避免過(guò)擬合、保證局部最優(yōu)解為全局最優(yōu)解和較好的泛化性等優(yōu)點(diǎn),因此也被推廣應(yīng)用于多分類(lèi)問(wèn)題中[18]。在測(cè)試的六種分類(lèi)器中,支持向量機(jī)算法綜合表現(xiàn)最佳。根據(jù)結(jié)果,選用了支持向量機(jī)算法(20折交叉驗(yàn)證)用于最終模型的建立。
將數(shù)據(jù)按照7:3隨機(jī)分為訓(xùn)練集(train set)與測(cè)試集(test set),訓(xùn)練集用于訓(xùn)練機(jī)器學(xué)習(xí)模型以得到合適的參數(shù),測(cè)試集用于評(píng)估建立模型的性能。測(cè)試集包含14首爵士風(fēng)格音樂(lè)、14首搖滾風(fēng)格音樂(lè)、13首古典風(fēng)格音樂(lè)以及12首現(xiàn)代風(fēng)格音樂(lè),不包含在訓(xùn)練集中。模型的訓(xùn)練時(shí)間(train time)約為80秒,測(cè)試時(shí)間(test time)約為40秒,可以以很快的速度建立音樂(lè)風(fēng)格識(shí)別模型。
A)該機(jī)器學(xué)習(xí)模型對(duì)四種音樂(lè)風(fēng)格區(qū)分的ROC曲線及對(duì)應(yīng)的AUC值(測(cè)試集) B)該機(jī)器學(xué)習(xí)模型對(duì)四種音樂(lè)風(fēng)格區(qū)分的混淆矩陣(測(cè)試集)C) 該機(jī)器學(xué)習(xí)模型分別以四種音樂(lè)風(fēng)格的AUC值及分類(lèi)準(zhǔn)確率(訓(xùn)練集)
Fig 2 Support vector machine algorithm machine learning model effect evaluation. A) The ROC curves and corresponding AUC values (test set) of the machine learning model for distinguishing four music styles B) The confusion matrix (test set) of the machine learning model for distinguishing four music styles C) The machine learning model is based on the AUC value and classification accuracy (training set) of the four music styles
訓(xùn)練集的AUC(受試者工作特征曲線下面積)平均值為0.831,以不同音樂(lè)類(lèi)型作為target時(shí)的AUC值和預(yù)測(cè)準(zhǔn)確率如圖2C所示。而測(cè)試集的AUC平均值為0.871,分類(lèi)的準(zhǔn)確率為71.7%,其ROC曲線(受試者工作特征曲線)如圖2A所示,測(cè)試集的混淆矩陣如圖2B所示。綜上可以看出,該模型對(duì)Rock風(fēng)格的識(shí)別能力最強(qiáng),這與Rock風(fēng)格相對(duì)于其他風(fēng)格區(qū)別較大的事實(shí)相符合。
2.5 主成分比較
主成分分析方法(PCA, Principal Component Analysis),是一種使用最廣泛的數(shù)據(jù)降維算法。為了進(jìn)一步評(píng)價(jià)該基于支持向量機(jī)算法的機(jī)器學(xué)習(xí)模型效果,我們將其與無(wú)監(jiān)督聚類(lèi)方法——主成分分析進(jìn)行了比較。同樣使用時(shí)間-幅值結(jié)合頻率-幅值作為特征進(jìn)行分析。如圖3A所示,前兩個(gè)主成分僅可達(dá)到26.8%的區(qū)分效果。如圖3B所示,四種音樂(lè)風(fēng)格無(wú)法被有效區(qū)分。而該文提出的基于支持向量機(jī)的機(jī)器學(xué)習(xí)模型可以達(dá)到更好的區(qū)分效果。
3 結(jié)論
視聽(tīng)與人的情感過(guò)程和神經(jīng)活動(dòng)密切相關(guān),不同音樂(lè)風(fēng)格可以誘發(fā)個(gè)體感受的差異性。不同音樂(lè)風(fēng)格的作品在旋律音高與節(jié)奏之間的依賴(lài)方式存在明顯的可量化表示的差異,相同音樂(lè)風(fēng)格的作品在旋律音高與節(jié)奏之間的依賴(lài)方式差異小于不同音樂(lè)風(fēng)格的差異[19]。該文建立了一種基于支持向量機(jī)算法機(jī)器學(xué)習(xí)模型,用于音樂(lè)風(fēng)格的區(qū)分。該方法針對(duì)樂(lè)曲時(shí)間、頻率和幅值之間的關(guān)系,實(shí)現(xiàn)高信息量和大數(shù)據(jù)量樂(lè)曲的數(shù)據(jù)分析,將其轉(zhuǎn)化為可視化的圖像并提取圖像特征進(jìn)行機(jī)器學(xué)習(xí)模型建立。該文建立的支持向量機(jī)算法機(jī)器學(xué)習(xí)模型測(cè)試集的AUC平均值為0.871,分類(lèi)的準(zhǔn)確率為71.7%。實(shí)驗(yàn)結(jié)果表明我們的音樂(lè)風(fēng)格識(shí)別系統(tǒng)是可靠的和有效的[20]。從物理學(xué)角度,客觀識(shí)別音樂(lè)風(fēng)格的描述方法以及四種音樂(lè)風(fēng)格的差異,通過(guò)對(duì)圖像后續(xù)進(jìn)行機(jī)器學(xué)習(xí),將提高音樂(lè)識(shí)別的效率,同時(shí)降低了所需的硬件設(shè)施要求,以期讓音樂(lè)專(zhuān)業(yè)學(xué)生和非音樂(lè)專(zhuān)業(yè)學(xué)生形成一種較穩(wěn)定的聽(tīng)覺(jué)形態(tài)和感官判斷方法。我們會(huì)進(jìn)一步提高模型的性能,并將其應(yīng)用到中國(guó)戲曲劇種以及唱腔流派等音樂(lè)風(fēng)格區(qū)分問(wèn)題中。
參考文獻(xiàn)
[1] 倪朝暉.算法作曲理論與實(shí)踐[M].成都:西南師范大學(xué)出版社,2015: 19.
[2] KOSINA K.Music genre recognition[D].Hagenberg: Technical College of Hagenberg, 2002.
[3] 肖武雄.頻譜音樂(lè)的基本原理[M].北京:文化藝術(shù)出版社,2014: 204; 211.
[4] Miller Puckeyye. 電子音樂(lè)技術(shù)[M].北京:人民郵電出版社,2011: 5.
[5] JUAN P B. Audio-based cover song retrieval using approximate chord sequences: Testing shifts,gaps,swaps,and beats[C]. In Prec: Austrian Computer Society ( OCG) ,2007.
[6] 雷文康.基于深度神經(jīng)網(wǎng)絡(luò)的音樂(lè)流派分類(lèi)研究 [D].廣州:華南理工大學(xué),2017.
[7] TRABELSII,AYEDDB.On the use of different feature extraction methods for linearandnon-linear kernels[C].2012 6th International Conference on Sciences of Electronics,Technologies of Information and Telecommunications.Sousse,Tunisia:IEEE,2012:797-802.
[8] 宋揚(yáng),王海龍,柳林,等.融合KPCA與改進(jìn)KNN的蒙古族音樂(lè)分類(lèi)方法[J].復(fù)旦學(xué)報(bào)(自然科學(xué)版),2022,61(5):573-580+588.
[9] 喻曉雯,張楠,張勇.音樂(lè)作品風(fēng)格流派的神經(jīng)網(wǎng)絡(luò)識(shí)別方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(27): 246-248.
[10] 蘇珊·菲勒,呂常樂(lè).“新古典主義”在音樂(lè)中的不同表現(xiàn)[J].中央音樂(lè)學(xué)院學(xué)報(bào),2007,109(4): 93-97.
[11] 呂東.美國(guó)音樂(lè)發(fā)展史簡(jiǎn)介[J].樂(lè)府新聲(沈陽(yáng)音樂(lè)學(xué)院學(xué)報(bào)),1987(1): 43-46.
[12] 周華生.搖滾音樂(lè)敘事及終結(jié)[J].人民音樂(lè),2009,553(5): 82-85.
[13] 李寧.面向現(xiàn)代音樂(lè)作品的視唱練耳教學(xué)[J].樂(lè)府新聲(沈陽(yáng)音樂(lè)學(xué)院學(xué)報(bào)),2018,36(2): 69-74.
[14] 徐凱,梁志堅(jiān),張鐿議,等.基于GoogLeNet Inception-V3模型的電力設(shè)備圖像識(shí)別[J].高壓電器,2020,56(9):129-135+143.
[15] 李策,李智.粒子群優(yōu)化算法和支持向量機(jī)的電子音樂(lè)信號(hào)分類(lèi)研究[J].現(xiàn)代電子技術(shù),2020,43(21):51-54.
[16] 陳維華.基于支持向量機(jī)(SVM)的音樂(lè)情感分類(lèi)[J].軟件工程,2016,19(12):20-23.
[17] 褚榮燕,王鈺,楊杏麗,等.基于正則化KL距離的交叉驗(yàn)證折數(shù)K的選擇[J].計(jì)算機(jī)技術(shù)與發(fā)展,2021,31(3):52-57.
[18] 王乃芯. 多分類(lèi)支持向量機(jī)的研究[D].上海:華東師范大學(xué),2020.
[19] 譚學(xué)清,何珊.音樂(lè)個(gè)性化推薦系統(tǒng)研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014,250(9):22-32.
[20] 喻曉雯,張楠,張勇.音樂(lè)作品風(fēng)格流派的神經(jīng)網(wǎng)絡(luò)識(shí)別方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(27):246-248.
Music Style Recognition System Based on Support Vector Machine Algorithm
LUO Hong-xia1, LUO Na2
(1. Department of Drama and Theatre,Zhejiang Conservatory of Music,Hangzhou 310024,China; 2. School of Education, Pingxiang University,Pingxiang 337055,China)
Abstract: Music style classification is an important part of music information retrieval and music recommendation. It requires higher and higher efficiency of music style classification. However, the recognition of music style is relatively difficult for non-professionals, so a music style recognition system has been established based on machine learning. Taking the four most representative music styles as its research object, this paper selected 47 jazz style music, 47 rock style music, 42 classical style music and 40 modern style music as samples, applied fast Fourier transform, image embedding, and combined with the machine learning model to establish a music style recognition system based on the support vector machine algorithm, and finally realized the simultaneous recognition of four music styles. The average value of the AUC (area under the working characteristic curve of the subject) used by this model for blind testing was 0.871, and the classification accuracy rate was 71.7%.
Key words: Support vector machine algorithm; music style; fast Fourier transform
(責(zé)任編輯:馬乃玉)