周濤
摘? 要:隨著互聯(lián)網(wǎng)技術的高速發(fā)展,人們與數(shù)字音樂的關系更加緊密,人們會依據(jù)自己的偏好以及場所選擇音樂,因此如何有效管理數(shù)量龐大的音樂并對其分門別類顯得尤為重要。為提高音樂分類的準確率,本文從音頻中提取特征向量,運用遺傳算法優(yōu)化支持向量機實現(xiàn)音樂流派分類;從歌詞中提取特征關鍵詞,采用LASSO降維實現(xiàn)文本情感分類,最終構(gòu)建雙模態(tài)音樂分類模型。結(jié)果表明,該分類方法準確率為73.1%,可靠性與穩(wěn)定性良好,有效地避免了傳統(tǒng)方法產(chǎn)生局部最優(yōu)的問題。
關鍵詞:音樂分類? 支持向量機? 遺傳算法? LASSO? 雙模態(tài)融合
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1674-098X(2021)07(a)-0075-04
Bimodal Music Classification and Evaluation Based on Support Vector Machine and LASSO
ZHOU Tao
(Nanjing University of Information Science and Technology, Nanjing, Jiangsu Province, 210044? China)
Abstract: With the rapid development of Internet technology, people have a closer relationship with digital music. People will choose music according to their preferences and places. Therefore, how to effectively manage a large number of music and its classification is particularly important. In order to improve the accuracy of music classification, this paper extracts feature vector from audio, uses genetic algorithm to optimize support vector machine to achieve music faction classification; ex-tracts feature keywords from lyrics, uses lasso dimension reduction to achieve text sentiment classification, and finally constructs a dual-mode music classification model. The results show that the accuracy rate of the classification method is 73.1%, the reliability and stability are good, and the problem of local optimum is avoided effectively.
Key Words: Music classification; Support vector machine; Genetic algorithm; Lasso; Bimodal fusion
隨著互聯(lián)網(wǎng)技術的高速發(fā)展,數(shù)字音樂不斷衍生,人們與數(shù)字音樂的關系愈發(fā)緊密。音樂蘊藏著豐富的真情實感,人們會依據(jù)自己的偏好和場合來選擇音樂,因此如何有效管理數(shù)量繁多的音樂,并對其進行分門別類,從而為用戶推薦相應偏好類型音樂顯得尤為重要。
為建立分類性能較好的音樂分類模型,首先對目前音樂分類模型進行調(diào)研,經(jīng)過文獻查閱及調(diào)查可以發(fā)現(xiàn)當下最優(yōu)音樂分類模型是基于神經(jīng)網(wǎng)絡[1]的音樂分類模型,并且大多數(shù)音樂分類模型是從音頻或歌詞單模態(tài)實現(xiàn)音樂分類。但其存在局部最優(yōu)等無法避免的問題,因此本文建立基于遺傳算法優(yōu)化支持向量機和LASSO的雙模態(tài)音樂分類模型,以提高音樂分類的準確率和全面性。
1? 構(gòu)建雙模態(tài)音樂分類模型
1.1 模型基本框架
基于支持向量機和LASSO雙模態(tài)音樂分類模型構(gòu)建步驟如下。
(1)通過離散傅里葉變換和高通濾波器從原始音樂中提取高頻音樂片段。
(2)對高頻音樂片段選取音頻特征向量。
(3)將歌詞中常見的連接詞等去除,再對文本數(shù)據(jù)進行轉(zhuǎn)換,其中每個詞語作為一個獨立的變量。
(4)采用遺傳算法優(yōu)化支持向量機,進行音樂流派類型分類;采用LASSO降維處理,進行音樂文本情感分類。
(5)對音樂流派分類和音樂文本分類進行雙模態(tài)融合。
1.2 音頻數(shù)據(jù)的特征提取
1.2.1 基于離散傅里葉變換的高頻片段提取
為避免數(shù)據(jù)處理過程中出現(xiàn)“內(nèi)存不足”錯誤,應先對音樂數(shù)據(jù)進行片段提取。由于音頻中有用的信號往往集中在高頻部分,且人耳對高頻聲的感受更為靈敏,因此本文提取音樂樣本的高頻部分作為該音樂的特征片段[2]。
鑒于計算機處理的是數(shù)字信號,采用離散傅里葉變換,將連續(xù)信號離散化。假設連續(xù)的聲音信號為f(t),確定間隔Vt,再對f(t)進行均勻采樣。即可得到離散化后的聲音信號序列為,,。
被抽樣的離散傅里葉變換表達式為:
(1)
(2)
式中,N為采樣點個數(shù),與的周期相同。
在上述基礎上,將變換后的結(jié)果通過高通濾波器[3],最后利用離散傅里葉反變換將得到的高頻域部分轉(zhuǎn)換成時域,即可得到特征片段。
1.2.2 音頻特征向量指標
音樂是由不同音符有機組合而成,而每個音符有自己獨有的特征,都包含自身的音高、音強等基本要素。基本要素取值和組合的多樣性致使音樂的多樣性。針對音樂的多樣性,構(gòu)建音樂分類模型時需提取特征向量,特征向量[4]具體的指標如下。
(1)平均音高。音高是音樂的基本要素之一,也是不同類型的音樂的重要特征之一。本文定義平均音高:
(3)
其中,n表示音樂片段音符的個數(shù),Pi表示音符的音高。
(2)音高的穩(wěn)定值。音高的穩(wěn)定性反映了音高的變化情況,本文定義音高的穩(wěn)定值:
(4)
式中,表示音高的平均值。
(3)聲壓級[5]。將一定時間間隔內(nèi)的瞬時聲壓對時間求方均根得到有效聲壓,得到有效聲壓的表達式為:
(5)
式中,x表示語音信號的采樣點,N為采樣點數(shù),T為語音長度。
聲壓級由有效聲壓與基準聲壓取對數(shù)計算得到,與人耳聽覺系統(tǒng)類似:
(6)
式中,表示待測聲壓的有效值,單位為dB。為參考聲壓,空氣中的參考聲壓一般取2×10-5Pa。
(4)頻率。音樂的頻率通過對音頻進行傅里葉變換得到頻譜圖,將所有信號的頻率值相加求和,并以按從小到大的順序依次相加得到的值為總和的70%時對應的頻率值為該首歌的頻率。
1.3 雙模態(tài)音樂分類模型
1.3.1 基于支持向量機的音樂流派分類模型
支持向量機(SVM)[6]本身是一種二分類模型,尤其對于中小規(guī)模的音樂數(shù)據(jù),分類效果較好。但本文需要的音樂分類為多分類非線性情況,因此需要對支持向量機進行改進,進一步引入核函數(shù)和多分類算法。
本文采用徑向基函數(shù)為核函數(shù),就是某種沿徑向?qū)ΨQ的標量函數(shù)。定義為空間中任一點到某一中心之間歐氏距離的單調(diào)函數(shù),即樣本點遠離中心時函數(shù)取值很小。徑向基函數(shù)表示為,其中k=1,2,...,N,取γ=10,σ2=0.2。
假設將音樂分為k個級別,記S={1,2,...,k},采用基于支持向量機的M-ary多分類算法進行音樂分類。值得注意的是,針對支持向量機中參數(shù)選擇的問題,本文使用遺傳算法搜索最佳參數(shù)。相較于傳統(tǒng)的交叉驗證,它克服了算法搜索空間過大、計算過于復雜的問題?;驹頌椋航o定空間范圍,設置初始種群,然后引入雜交算子,集中搜索期望出現(xiàn)最符合適應度的那部分參數(shù)。
1.3.2 基于LASSO的文本情感分類模型
不同類別音樂不僅僅在音頻角度存在差異,在歌詞角度也存在差異。但是由于音樂的歌詞文庫大,樣本數(shù)量遠小于歌詞數(shù)量,因此本文選用LASSO-logistic實現(xiàn)歌詞降維,從而依據(jù)歌詞提取出不同情感類別音樂的特征關鍵詞[7]。
LASSO[8]是一種常用的估計參數(shù)模型和選擇變量的方法,其估計計算性能好且得到了廣泛應用。本文分別以喜悅、悲傷和輕松、緊張作為兩組結(jié)果指標,因為協(xié)變量特征詞為離散型數(shù)據(jù),因變量特征詞為是否表現(xiàn)喜悅或輕松情緒,若為否則表現(xiàn)的是悲傷或緊張情緒,也是離散性數(shù)據(jù)。所以使用LASSO-logistic進行高位數(shù)據(jù)降維處理。LASSO-logistic回歸模型為:
(7)
1.3.3 雙模態(tài)融合
音樂是通過旋律與歌詞共同來表達其中蘊含的情緒情感,因此僅用其中一種對音樂進行分類評價是不全面的,并且依據(jù)單模態(tài)進行分類的效果并非最好。因此本文采用雙模態(tài)音樂評價體系[9],針對同一首歌曲基于支持向量機的音樂流派分類模型中的音頻特征向量結(jié)合音樂情感特征詞進行雙模態(tài)融合建立多模態(tài)數(shù)據(jù),得到?jīng)Q策結(jié)果。根據(jù)所得結(jié)果可以基于音頻與歌詞雙重模態(tài)對音樂進行流派和情感分類,從而實現(xiàn)音樂鑒賞。
2? 實驗及結(jié)果分析
2.1 音樂流派分類結(jié)果
音樂流派分類結(jié)果如圖1所示,圖中每一個結(jié)點均表示一個測試集樣本,縱坐標的1、2、3、4、5類別分別表示流行、搖滾、民謠、電子和說唱5種流派。可以發(fā)現(xiàn)真實類別與預測類別有大部分的結(jié)點是完全重合的,說明該模型得到的音樂流派分類結(jié)果與實際類別相同,該模型的分類準確性有71.0769%,說明該模型具有很好的分類結(jié)果。
2.2 文本情感分類結(jié)果
文本情感分類結(jié)果如表1所示,由表可知篩選之后表現(xiàn)壓力、放松、喜悅、悲傷使用頻率較高的特征詞。其中β的估計值最高的詞分別為“忙”“放松”“期待”“痛”,說明這4個詞在表現(xiàn)相應情緒的歌詞中較常用也能很好地傳達出情緒。根據(jù)表中的特征詞選取,可對歌曲進行歌詞情感的分類鑒賞,從而來推斷出該首歌是否有強烈的情感傾向,進而得到該音樂的歌詞的風格。
2.3 雙模態(tài)音樂分類結(jié)果
隨機選取中國好歌曲第二季音頻50個作為樣本集,對其進行雙模態(tài)音樂分類。在音樂流派方面,得到如表2的分類結(jié)果,由結(jié)果可知流行音樂的選歌占比很大,選擇說唱的人數(shù)很少。此外,得到的不同音樂類型的音樂特征有差異,因此針對這5種音樂流派各選取一首代表歌曲,比較它們各種指標的差異(見表3)。結(jié)果表明大部分搖滾和說唱流音樂的平均音高和聲壓級較大,搖滾和流行音樂的音高的穩(wěn)定值較大。在文本情感方面,以民謠中的《南山南》為例,其歌詞中包含3個悲傷情緒特征詞,多于其他類別特征詞,說明這首歌更多地表達悲傷情緒。
3? 結(jié)語
綜上所述,為提高音樂分類效率,本文從音頻角度和歌詞角度建立了基于音頻和歌詞的雙模態(tài)音樂分類模型。一方面從音頻角度出發(fā),首先利用傅里葉變換提取高潮片段作為特征片段,然后從特征片段中提取音高、幀能量等6個特征向量,進一步依據(jù)這些特征向量利用支持向量機實現(xiàn)音樂流派分類,即流行、搖滾、民謠、電子、說唱五類;另一方面從歌詞角度出發(fā),首先對歌詞進行轉(zhuǎn)換,再利用LASSO進行降維,提取表征情感的特征詞,以喜悅、悲傷和輕松、緊張作為兩組結(jié)果指標,以實現(xiàn)音樂情感分類。最后將這兩方面實現(xiàn)融合得到最終音樂分類結(jié)果。
參考文獻
[1] 劉天華.基于多特征融合和神經(jīng)網(wǎng)絡的電子音樂分類模型[J].現(xiàn)代電子技術,2018,41(19):173-176,182.
[2] 馮平興,魏平.多類型噪聲中的獨立成分分離算法[J].電子科技大學學報,2017,46(2):352-356.
[3] 張曉娜,趙晶晶.基于粒子群算法優(yōu)化神經(jīng)網(wǎng)絡的電子音樂分類模型[J].現(xiàn)代電子技術,2020,43(9):101-104,108.
[4] 陳曉鷗,楊德順.音樂情感識別研究進展[J].復旦學報:自然科學版,2017,56(2):136-148.
[5] 李策,李智.粒子群優(yōu)化算法和支持向量機的電子音樂信號分類研究[J].現(xiàn)代電子技術,2020,43(21):51-54.
[6] 周婧,范凌云.基于最小二乘支持向量機的電子音樂識別研究[J].現(xiàn)代電子技術,2018,41(9):109-112,116.
[7] 胡冰潔.基于特征向量的音樂情感分析的研究[D].西安:西安電子科技大學,2014.
[8] Robert Rowe.Mathematics and music: composition perception and performance[J].Journal of Mathematics and the Arts,2014(8):3-4.
[9] 陳穎呈,陳寧.基于音頻內(nèi)容和歌詞文本相似度融合的翻唱歌曲識別模型[J].華東理工大學學報:自然科學版,2021,47(1):74-80.