周濤
摘? 要:隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,人們與數(shù)字音樂的關(guān)系更加緊密,人們會(huì)依據(jù)自己的偏好以及場所選擇音樂,因此如何有效管理數(shù)量龐大的音樂并對(duì)其分門別類顯得尤為重要。為提高音樂分類的準(zhǔn)確率,本文從音頻中提取特征向量,運(yùn)用遺傳算法優(yōu)化支持向量機(jī)實(shí)現(xiàn)音樂流派分類;從歌詞中提取特征關(guān)鍵詞,采用LASSO降維實(shí)現(xiàn)文本情感分類,最終構(gòu)建雙模態(tài)音樂分類模型。結(jié)果表明,該分類方法準(zhǔn)確率為73.1%,可靠性與穩(wěn)定性良好,有效地避免了傳統(tǒng)方法產(chǎn)生局部最優(yōu)的問題。
關(guān)鍵詞:音樂分類? 支持向量機(jī)? 遺傳算法? LASSO? 雙模態(tài)融合
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2021)07(a)-0075-04
Bimodal Music Classification and Evaluation Based on Support Vector Machine and LASSO
ZHOU Tao
(Nanjing University of Information Science and Technology, Nanjing, Jiangsu Province, 210044? China)
Abstract: With the rapid development of Internet technology, people have a closer relationship with digital music. People will choose music according to their preferences and places. Therefore, how to effectively manage a large number of music and its classification is particularly important. In order to improve the accuracy of music classification, this paper extracts feature vector from audio, uses genetic algorithm to optimize support vector machine to achieve music faction classification; ex-tracts feature keywords from lyrics, uses lasso dimension reduction to achieve text sentiment classification, and finally constructs a dual-mode music classification model. The results show that the accuracy rate of the classification method is 73.1%, the reliability and stability are good, and the problem of local optimum is avoided effectively.
Key Words: Music classification; Support vector machine; Genetic algorithm; Lasso; Bimodal fusion
隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,數(shù)字音樂不斷衍生,人們與數(shù)字音樂的關(guān)系愈發(fā)緊密。音樂蘊(yùn)藏著豐富的真情實(shí)感,人們會(huì)依據(jù)自己的偏好和場合來選擇音樂,因此如何有效管理數(shù)量繁多的音樂,并對(duì)其進(jìn)行分門別類,從而為用戶推薦相應(yīng)偏好類型音樂顯得尤為重要。
為建立分類性能較好的音樂分類模型,首先對(duì)目前音樂分類模型進(jìn)行調(diào)研,經(jīng)過文獻(xiàn)查閱及調(diào)查可以發(fā)現(xiàn)當(dāng)下最優(yōu)音樂分類模型是基于神經(jīng)網(wǎng)絡(luò)[1]的音樂分類模型,并且大多數(shù)音樂分類模型是從音頻或歌詞單模態(tài)實(shí)現(xiàn)音樂分類。但其存在局部最優(yōu)等無法避免的問題,因此本文建立基于遺傳算法優(yōu)化支持向量機(jī)和LASSO的雙模態(tài)音樂分類模型,以提高音樂分類的準(zhǔn)確率和全面性。
1? 構(gòu)建雙模態(tài)音樂分類模型
1.1 模型基本框架
基于支持向量機(jī)和LASSO雙模態(tài)音樂分類模型構(gòu)建步驟如下。
(1)通過離散傅里葉變換和高通濾波器從原始音樂中提取高頻音樂片段。
(2)對(duì)高頻音樂片段選取音頻特征向量。
(3)將歌詞中常見的連接詞等去除,再對(duì)文本數(shù)據(jù)進(jìn)行轉(zhuǎn)換,其中每個(gè)詞語作為一個(gè)獨(dú)立的變量。
(4)采用遺傳算法優(yōu)化支持向量機(jī),進(jìn)行音樂流派類型分類;采用LASSO降維處理,進(jìn)行音樂文本情感分類。
(5)對(duì)音樂流派分類和音樂文本分類進(jìn)行雙模態(tài)融合。
1.2 音頻數(shù)據(jù)的特征提取
1.2.1 基于離散傅里葉變換的高頻片段提取
為避免數(shù)據(jù)處理過程中出現(xiàn)“內(nèi)存不足”錯(cuò)誤,應(yīng)先對(duì)音樂數(shù)據(jù)進(jìn)行片段提取。由于音頻中有用的信號(hào)往往集中在高頻部分,且人耳對(duì)高頻聲的感受更為靈敏,因此本文提取音樂樣本的高頻部分作為該音樂的特征片段[2]。
鑒于計(jì)算機(jī)處理的是數(shù)字信號(hào),采用離散傅里葉變換,將連續(xù)信號(hào)離散化。假設(shè)連續(xù)的聲音信號(hào)為f(t),確定間隔Vt,再對(duì)f(t)進(jìn)行均勻采樣。即可得到離散化后的聲音信號(hào)序列為,,。
被抽樣的離散傅里葉變換表達(dá)式為:
(1)
(2)
式中,N為采樣點(diǎn)個(gè)數(shù),與的周期相同。
在上述基礎(chǔ)上,將變換后的結(jié)果通過高通濾波器[3],最后利用離散傅里葉反變換將得到的高頻域部分轉(zhuǎn)換成時(shí)域,即可得到特征片段。
1.2.2 音頻特征向量指標(biāo)
音樂是由不同音符有機(jī)組合而成,而每個(gè)音符有自己獨(dú)有的特征,都包含自身的音高、音強(qiáng)等基本要素?;疽厝≈岛徒M合的多樣性致使音樂的多樣性。針對(duì)音樂的多樣性,構(gòu)建音樂分類模型時(shí)需提取特征向量,特征向量[4]具體的指標(biāo)如下。
(1)平均音高。音高是音樂的基本要素之一,也是不同類型的音樂的重要特征之一。本文定義平均音高:
(3)
其中,n表示音樂片段音符的個(gè)數(shù),Pi表示音符的音高。
(2)音高的穩(wěn)定值。音高的穩(wěn)定性反映了音高的變化情況,本文定義音高的穩(wěn)定值:
(4)
式中,表示音高的平均值。
(3)聲壓級(jí)[5]。將一定時(shí)間間隔內(nèi)的瞬時(shí)聲壓對(duì)時(shí)間求方均根得到有效聲壓,得到有效聲壓的表達(dá)式為:
(5)
式中,x表示語音信號(hào)的采樣點(diǎn),N為采樣點(diǎn)數(shù),T為語音長度。
聲壓級(jí)由有效聲壓與基準(zhǔn)聲壓取對(duì)數(shù)計(jì)算得到,與人耳聽覺系統(tǒng)類似:
(6)
式中,表示待測聲壓的有效值,單位為dB。為參考聲壓,空氣中的參考聲壓一般取2×10-5Pa。
(4)頻率。音樂的頻率通過對(duì)音頻進(jìn)行傅里葉變換得到頻譜圖,將所有信號(hào)的頻率值相加求和,并以按從小到大的順序依次相加得到的值為總和的70%時(shí)對(duì)應(yīng)的頻率值為該首歌的頻率。
1.3 雙模態(tài)音樂分類模型
1.3.1 基于支持向量機(jī)的音樂流派分類模型
支持向量機(jī)(SVM)[6]本身是一種二分類模型,尤其對(duì)于中小規(guī)模的音樂數(shù)據(jù),分類效果較好。但本文需要的音樂分類為多分類非線性情況,因此需要對(duì)支持向量機(jī)進(jìn)行改進(jìn),進(jìn)一步引入核函數(shù)和多分類算法。
本文采用徑向基函數(shù)為核函數(shù),就是某種沿徑向?qū)ΨQ的標(biāo)量函數(shù)。定義為空間中任一點(diǎn)到某一中心之間歐氏距離的單調(diào)函數(shù),即樣本點(diǎn)遠(yuǎn)離中心時(shí)函數(shù)取值很小。徑向基函數(shù)表示為,其中k=1,2,...,N,取γ=10,σ2=0.2。
假設(shè)將音樂分為k個(gè)級(jí)別,記S={1,2,...,k},采用基于支持向量機(jī)的M-ary多分類算法進(jìn)行音樂分類。值得注意的是,針對(duì)支持向量機(jī)中參數(shù)選擇的問題,本文使用遺傳算法搜索最佳參數(shù)。相較于傳統(tǒng)的交叉驗(yàn)證,它克服了算法搜索空間過大、計(jì)算過于復(fù)雜的問題。基本原理為:給定空間范圍,設(shè)置初始種群,然后引入雜交算子,集中搜索期望出現(xiàn)最符合適應(yīng)度的那部分參數(shù)。
1.3.2 基于LASSO的文本情感分類模型
不同類別音樂不僅僅在音頻角度存在差異,在歌詞角度也存在差異。但是由于音樂的歌詞文庫大,樣本數(shù)量遠(yuǎn)小于歌詞數(shù)量,因此本文選用LASSO-logistic實(shí)現(xiàn)歌詞降維,從而依據(jù)歌詞提取出不同情感類別音樂的特征關(guān)鍵詞[7]。
LASSO[8]是一種常用的估計(jì)參數(shù)模型和選擇變量的方法,其估計(jì)計(jì)算性能好且得到了廣泛應(yīng)用。本文分別以喜悅、悲傷和輕松、緊張作為兩組結(jié)果指標(biāo),因?yàn)閰f(xié)變量特征詞為離散型數(shù)據(jù),因變量特征詞為是否表現(xiàn)喜悅或輕松情緒,若為否則表現(xiàn)的是悲傷或緊張情緒,也是離散性數(shù)據(jù)。所以使用LASSO-logistic進(jìn)行高位數(shù)據(jù)降維處理。LASSO-logistic回歸模型為:
(7)
1.3.3 雙模態(tài)融合
音樂是通過旋律與歌詞共同來表達(dá)其中蘊(yùn)含的情緒情感,因此僅用其中一種對(duì)音樂進(jìn)行分類評(píng)價(jià)是不全面的,并且依據(jù)單模態(tài)進(jìn)行分類的效果并非最好。因此本文采用雙模態(tài)音樂評(píng)價(jià)體系[9],針對(duì)同一首歌曲基于支持向量機(jī)的音樂流派分類模型中的音頻特征向量結(jié)合音樂情感特征詞進(jìn)行雙模態(tài)融合建立多模態(tài)數(shù)據(jù),得到?jīng)Q策結(jié)果。根據(jù)所得結(jié)果可以基于音頻與歌詞雙重模態(tài)對(duì)音樂進(jìn)行流派和情感分類,從而實(shí)現(xiàn)音樂鑒賞。
2? 實(shí)驗(yàn)及結(jié)果分析
2.1 音樂流派分類結(jié)果
音樂流派分類結(jié)果如圖1所示,圖中每一個(gè)結(jié)點(diǎn)均表示一個(gè)測試集樣本,縱坐標(biāo)的1、2、3、4、5類別分別表示流行、搖滾、民謠、電子和說唱5種流派。可以發(fā)現(xiàn)真實(shí)類別與預(yù)測類別有大部分的結(jié)點(diǎn)是完全重合的,說明該模型得到的音樂流派分類結(jié)果與實(shí)際類別相同,該模型的分類準(zhǔn)確性有71.0769%,說明該模型具有很好的分類結(jié)果。
2.2 文本情感分類結(jié)果
文本情感分類結(jié)果如表1所示,由表可知篩選之后表現(xiàn)壓力、放松、喜悅、悲傷使用頻率較高的特征詞。其中β的估計(jì)值最高的詞分別為“忙”“放松”“期待”“痛”,說明這4個(gè)詞在表現(xiàn)相應(yīng)情緒的歌詞中較常用也能很好地傳達(dá)出情緒。根據(jù)表中的特征詞選取,可對(duì)歌曲進(jìn)行歌詞情感的分類鑒賞,從而來推斷出該首歌是否有強(qiáng)烈的情感傾向,進(jìn)而得到該音樂的歌詞的風(fēng)格。
2.3 雙模態(tài)音樂分類結(jié)果
隨機(jī)選取中國好歌曲第二季音頻50個(gè)作為樣本集,對(duì)其進(jìn)行雙模態(tài)音樂分類。在音樂流派方面,得到如表2的分類結(jié)果,由結(jié)果可知流行音樂的選歌占比很大,選擇說唱的人數(shù)很少。此外,得到的不同音樂類型的音樂特征有差異,因此針對(duì)這5種音樂流派各選取一首代表歌曲,比較它們各種指標(biāo)的差異(見表3)。結(jié)果表明大部分搖滾和說唱流音樂的平均音高和聲壓級(jí)較大,搖滾和流行音樂的音高的穩(wěn)定值較大。在文本情感方面,以民謠中的《南山南》為例,其歌詞中包含3個(gè)悲傷情緒特征詞,多于其他類別特征詞,說明這首歌更多地表達(dá)悲傷情緒。
3? 結(jié)語
綜上所述,為提高音樂分類效率,本文從音頻角度和歌詞角度建立了基于音頻和歌詞的雙模態(tài)音樂分類模型。一方面從音頻角度出發(fā),首先利用傅里葉變換提取高潮片段作為特征片段,然后從特征片段中提取音高、幀能量等6個(gè)特征向量,進(jìn)一步依據(jù)這些特征向量利用支持向量機(jī)實(shí)現(xiàn)音樂流派分類,即流行、搖滾、民謠、電子、說唱五類;另一方面從歌詞角度出發(fā),首先對(duì)歌詞進(jìn)行轉(zhuǎn)換,再利用LASSO進(jìn)行降維,提取表征情感的特征詞,以喜悅、悲傷和輕松、緊張作為兩組結(jié)果指標(biāo),以實(shí)現(xiàn)音樂情感分類。最后將這兩方面實(shí)現(xiàn)融合得到最終音樂分類結(jié)果。
參考文獻(xiàn)
[1] 劉天華.基于多特征融合和神經(jīng)網(wǎng)絡(luò)的電子音樂分類模型[J].現(xiàn)代電子技術(shù),2018,41(19):173-176,182.
[2] 馮平興,魏平.多類型噪聲中的獨(dú)立成分分離算法[J].電子科技大學(xué)學(xué)報(bào),2017,46(2):352-356.
[3] 張曉娜,趙晶晶.基于粒子群算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的電子音樂分類模型[J].現(xiàn)代電子技術(shù),2020,43(9):101-104,108.
[4] 陳曉鷗,楊德順.音樂情感識(shí)別研究進(jìn)展[J].復(fù)旦學(xué)報(bào):自然科學(xué)版,2017,56(2):136-148.
[5] 李策,李智.粒子群優(yōu)化算法和支持向量機(jī)的電子音樂信號(hào)分類研究[J].現(xiàn)代電子技術(shù),2020,43(21):51-54.
[6] 周婧,范凌云.基于最小二乘支持向量機(jī)的電子音樂識(shí)別研究[J].現(xiàn)代電子技術(shù),2018,41(9):109-112,116.
[7] 胡冰潔.基于特征向量的音樂情感分析的研究[D].西安:西安電子科技大學(xué),2014.
[8] Robert Rowe.Mathematics and music: composition perception and performance[J].Journal of Mathematics and the Arts,2014(8):3-4.
[9] 陳穎呈,陳寧.基于音頻內(nèi)容和歌詞文本相似度融合的翻唱歌曲識(shí)別模型[J].華東理工大學(xué)學(xué)報(bào):自然科學(xué)版,2021,47(1):74-80.