劉紫薇
摘? 要:本文使用音樂音頻數(shù)據(jù),首先對音頻數(shù)據(jù)進(jìn)行預(yù)處理和特征提取,得到42個(gè)特征向量,然后根據(jù)向量之間的距離計(jì)算音頻相似度,使用層次聚類算法和K-means算法對音頻進(jìn)行聚類獲得音樂數(shù)據(jù)聚類結(jié)果。利用178首音樂數(shù)據(jù)的對比實(shí)驗(yàn)表明,與K-means算法相比,層次聚類算法的聚類結(jié)果更容易解釋,容易抽象出各類音樂的含義。
關(guān)鍵詞:音頻;特征提取;聚類分析;層次聚類;K-means
一、研究背景與目的
隨著互聯(lián)網(wǎng)的快速發(fā)展,音樂創(chuàng)作速度也隨之迅速提高,如何將眾多音頻進(jìn)行分類并推薦給用戶成為一個(gè)關(guān)鍵問題。聚類分析是機(jī)器學(xué)習(xí)中常用的一種數(shù)據(jù)挖掘工具,可以自動(dòng)將數(shù)據(jù)進(jìn)行歸類,使相似數(shù)據(jù)歸為同一類型,而不同部分歸為不同類型,并根據(jù)類型不同找出類型間的隱含關(guān)系。如果通過機(jī)器學(xué)習(xí)的方式自動(dòng)將音頻分類并根據(jù)用戶的喜好推薦音樂,必然會(huì)在很大程度上提升音樂推薦軟件的用戶體驗(yàn)。本文的目的是想僅僅使用聲音的統(tǒng)計(jì)特性來計(jì)算歌曲的相似性,以達(dá)到分類的目標(biāo),而不依賴于歌曲文件中任何已有的標(biāo)簽,所以這需要聚類分析。
二、音樂聚類方法研究現(xiàn)狀
美國普林斯頓大學(xué)音樂信息檢索工具使用了兩種方法進(jìn)行分類:(1)高斯混合模型:用一組已經(jīng)標(biāo)注的訓(xùn)練樣本集對分類算法進(jìn)行訓(xùn)練,然后再使用經(jīng)過訓(xùn)練的分類算法對真實(shí)的音頻文件進(jìn)行分類;(2)K極近鄰居算法:該算法是通過計(jì)算特征向量之間的距離來進(jìn)行分類和檢索??蛋赜?jì)算機(jī)公司的劍橋研究實(shí)驗(yàn)室的網(wǎng)絡(luò)音頻分類研究中,對一萬多音頻文件首先人工標(biāo)注為音樂和語音兩個(gè)范疇,然后使用名為Fisher Kernel頻信息進(jìn)行粗略分類,該方法以高斯混合模型為基礎(chǔ)的改進(jìn)方法,優(yōu)點(diǎn)是可以處理不同長度的音頻文件,可以達(dá)到75%左右的準(zhǔn)確率。美國南加州大學(xué)的基于內(nèi)容的音頻分類與檢索研究中,研究人員按照短時(shí)能量函數(shù),平均過零率(ZCR)和基頻(FuF)三種音頻特征將特征粗略的分為語音、音樂、環(huán)境音響和默音四種基本類別。再根據(jù)從音頻文件的時(shí)間(頻率)表示中抽取出來的音色、音高和變化模式等特征對以上基本類別進(jìn)行細(xì)分,分類準(zhǔn)確率達(dá)90%以上。
三、數(shù)據(jù)來源與簡介
(一)數(shù)據(jù)來源
本文的原始數(shù)據(jù)來源于筆者的mp3音樂收藏,共包含178首歌曲,全部為mp3格式的文件。在聚類分析之前,需要將mp3格式的音樂文件轉(zhuǎn)換為wav格式,便于后續(xù)的數(shù)據(jù)讀取與分析。
(二)wav與mp3文件的轉(zhuǎn)換
mp3是現(xiàn)在最流行的聲音文件格式,這種語音格式的壓縮是一種有損壓縮。wav文件格式是一種重要的數(shù)字音頻文件格式,沒有采用壓縮技術(shù),是目前應(yīng)用很廣泛的一種音頻格式。在本文中,我們重點(diǎn)關(guān)注mp3文件如何轉(zhuǎn)換為wav格式??梢酝ㄟ^MP32WAV Professional、Mp3towav等軟件將mp3文件轉(zhuǎn)換為wav格式。本文的音樂mp3文件轉(zhuǎn)換為wav格式后,使用Python進(jìn)行數(shù)據(jù)的讀取與分析。
(三)提取音頻的統(tǒng)計(jì)特征
分別從波形的統(tǒng)計(jì)矩、平滑的波形統(tǒng)計(jì)量、差分的波形統(tǒng)計(jì)量和波形頻率域的特征四個(gè)方面來提取音頻的統(tǒng)計(jì)特征。最后共提取42個(gè)音頻特征,其中32個(gè)波形統(tǒng)計(jì)量和10個(gè)頻率域的特征。
四、實(shí)證研究
(一)最優(yōu)聚類數(shù)的選擇
2001年,Tibshirani等人提出了Gap統(tǒng)計(jì)量的方法對最優(yōu)聚類以及最優(yōu)聚類數(shù)進(jìn)行估計(jì)。Gap統(tǒng)計(jì)量的定義如下:Gapn (k)=En* (log(Wk ) )-log(Wk)。En*表示在某參考分布下的期望,最佳聚類數(shù)k就出現(xiàn)在Gap(k)取最大值的時(shí)候。通過計(jì)算Gap統(tǒng)計(jì)量,當(dāng)k=3時(shí),是滿足不等式Gap(k)≥Gap(k+1)-sk+!的最小值,即本文的音樂音頻數(shù)據(jù)聚為3類比較合適。
(二)層次聚類與k-means聚類
層次聚類是最常用的聚類方法之一。層次聚類就是通過對數(shù)據(jù)集按照某種方法進(jìn)行層次分解,直到滿足某種條件為止。按照分類原理的不同,可以分為凝聚和分裂兩種方法。在本文中,點(diǎn)與點(diǎn)之間的距離采用歐式距離,類與類之間的距離采用ward法。聚為三類時(shí),各個(gè)類別各包含27、79和72首歌曲。
k-means聚類算法是典型的基于距離的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。通過對178首歌曲進(jìn)行k-means聚類分析,對22個(gè)變量通過因子分析進(jìn)行降維,這樣便于將結(jié)果映射到二維空間上,各個(gè)類別各包含39、93和46首歌曲,可以看出聚類效果并不是特別理想,三類歌曲并沒有完全地分開。
(三)抽象出各類的含義
根據(jù)層次聚類和K-means聚類的結(jié)果,通過對每一類中所包含的歌曲進(jìn)行歸納總結(jié),層次聚類的效果更好,更容易抽象出各個(gè)類別的含義,分別為(1)流行、鄉(xiāng)村、民謠;(2)電子、說唱、搖滾;(3)古典音樂、爵士。
五、結(jié)論與不足
本文首先對音頻數(shù)據(jù)進(jìn)行預(yù)處理,然后提取出42個(gè)特征向量,將相關(guān)性高的特征向量剔除后,最終使用22個(gè)變量通過層次聚類法將178首歌曲可以聚為三類,抽象出各類別的含義后,第一類可歸結(jié)為流行、鄉(xiāng)村和民謠,包含27首歌曲;第二類可歸結(jié)為電子、說唱和搖滾,包含79首歌曲;第三類可歸結(jié)為古典音樂和爵士,包含72首歌曲。聚類分析所用的22個(gè)變量多為差分后的波形統(tǒng)計(jì)量和頻率域的統(tǒng)計(jì)量,說明信號(hào)的短時(shí)變化量和在頻率域的能量能夠較好地反映每類歌曲之間的差異。在本文中,層次聚類的結(jié)果比K-means聚類的結(jié)果更容易抽象出各類的含義。
抽取音頻的特征時(shí),還有很多其他的系數(shù)可以考慮進(jìn)來,這樣可以更加全面地反映音樂音頻的特征,使得聚類結(jié)果更為可信;原始數(shù)據(jù)沒有類別標(biāo)簽,所以不知道每一首歌曲應(yīng)該屬于哪一類,對于聚類效果的評(píng)價(jià)有一定影響;本文的樣本歌曲為178首,可以考慮增加樣本量以達(dá)到更好的聚類效果。
參考文獻(xiàn):
[1] E.Wold, T.Blum, and D.Keslar, Content-based classification, search, and retrieval of audio, IEEE Multimedia, Fall, 1996, pp.27-36
[2] J.Foote. Content-based retrieval of music and audio. In: C.C.J.Kuo et al.(eds) Multimedia Storage and Archiving Systems Ⅱ, Proc.of SPIE, volume 3229, pp.138-147, 1997
[3] J.Foote. An overview of audio information retrieval. ACM-Springer Multimedia Systems, 1998
[4] Z Liu, J Huang, Y wang, T Chen. Audio feature extraction and analysis for scene classification. IEEE Signal Processing Society 1997 Workshop on Multimedia Signal Processing.
[5] Feiten, B, Frank, R., Ungvary, T. Oranganization of Sounds with Neural Nets. In: Proceedings of the 1991 International Computer Music Conference, International Computer Music Association. San Francisco, 1991, 441-444.
[6] L. Lu, H. Jiang, H. J. Zhang. Content Analysis for Audio Classification and Segmentation. IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 10, NO.7, OCTOBER 2002
[7] 白亮. 音頻分類與分割技術(shù)研究[D].國防科學(xué)技術(shù)大學(xué),2004.
[8] 羅海濤. wav音頻文件格式分析與數(shù)據(jù)獲取[J]. 電腦知識(shí)與技術(shù),2016,(27):211-213.
[9] 何月順,周良,丁秋林. 基于Python的音頻數(shù)據(jù)處理研究與應(yīng)用[J]. 微機(jī)發(fā)展,2003,(11):51-53.
[10] 黃國明. 各種音頻格式及其處理軟件綜述[A]. 中國語言學(xué)會(huì)語音學(xué)分會(huì)、中國中文信息學(xué)會(huì)語音信息專業(yè)委員會(huì)、中國聲學(xué)學(xué)會(huì)語言聽覺和音樂分會(huì).第六屆全國現(xiàn)代語音學(xué)學(xué)術(shù)會(huì)議論文集(下)[C].中國語言學(xué)會(huì)語音學(xué)分會(huì)、中國中文信息學(xué)會(huì)語音信息專業(yè)委員會(huì)、中國聲學(xué)學(xué)會(huì)語言聽覺和音樂分會(huì):,2003:5.
[11] 徐秀芳,徐森,徐靜,安晶. 基于譜聚類算法的音頻聚類研究[J]. 軟件導(dǎo)刊,2016,(11):36-38.
[12] 廖松博,何震瀛. HDCH:MapReduce平臺(tái)上的音頻數(shù)據(jù)聚類系統(tǒng)[J]. 計(jì)算機(jī)研究與發(fā)展,2011,(S3):472-475.
[13]于琪. 基于音樂旋律的特征聚類算法研究及其應(yīng)用[D].廣東工業(yè)大學(xué),2011.