亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于音樂音頻數(shù)據(jù)的聚類分析

2022-07-04 05:15:52劉紫薇

科學(xué)與財(cái)富 2022年7期

關(guān)鍵詞：特征提取

劉紫薇

摘? 要：本文使用音樂音頻數(shù)據(jù)，首先對音頻數(shù)據(jù)進(jìn)行預(yù)處理和特征提取，得到42個(gè)特征向量，然后根據(jù)向量之間的距離計(jì)算音頻相似度，使用層次聚類算法和K-means算法對音頻進(jìn)行聚類獲得音樂數(shù)據(jù)聚類結(jié)果。利用178首音樂數(shù)據(jù)的對比實(shí)驗(yàn)表明，與K-means算法相比，層次聚類算法的聚類結(jié)果更容易解釋，容易抽象出各類音樂的含義。

關(guān)鍵詞：音頻;特征提取;聚類分析;層次聚類;K-means

一、研究背景與目的

隨著互聯(lián)網(wǎng)的快速發(fā)展，音樂創(chuàng)作速度也隨之迅速提高，如何將眾多音頻進(jìn)行分類并推薦給用戶成為一個(gè)關(guān)鍵問題。聚類分析是機(jī)器學(xué)習(xí)中常用的一種數(shù)據(jù)挖掘工具，可以自動(dòng)將數(shù)據(jù)進(jìn)行歸類，使相似數(shù)據(jù)歸為同一類型，而不同部分歸為不同類型，并根據(jù)類型不同找出類型間的隱含關(guān)系。如果通過機(jī)器學(xué)習(xí)的方式自動(dòng)將音頻分類并根據(jù)用戶的喜好推薦音樂，必然會(huì)在很大程度上提升音樂推薦軟件的用戶體驗(yàn)。本文的目的是想僅僅使用聲音的統(tǒng)計(jì)特性來計(jì)算歌曲的相似性，以達(dá)到分類的目標(biāo)，而不依賴于歌曲文件中任何已有的標(biāo)簽，所以這需要聚類分析。

二、音樂聚類方法研究現(xiàn)狀

美國普林斯頓大學(xué)音樂信息檢索工具使用了兩種方法進(jìn)行分類：（1）高斯混合模型：用一組已經(jīng)標(biāo)注的訓(xùn)練樣本集對分類算法進(jìn)行訓(xùn)練，然后再使用經(jīng)過訓(xùn)練的分類算法對真實(shí)的音頻文件進(jìn)行分類;（2）K極近鄰居算法：該算法是通過計(jì)算特征向量之間的距離來進(jìn)行分類和檢索?？蛋赜?jì)算機(jī)公司的劍橋研究實(shí)驗(yàn)室的網(wǎng)絡(luò)音頻分類研究中，對一萬多音頻文件首先人工標(biāo)注為音樂和語音兩個(gè)范疇，然后使用名為Fisher Kernel頻信息進(jìn)行粗略分類，該方法以高斯混合模型為基礎(chǔ)的改進(jìn)方法，優(yōu)點(diǎn)是可以處理不同長度的音頻文件，可以達(dá)到75%左右的準(zhǔn)確率。美國南加州大學(xué)的基于內(nèi)容的音頻分類與檢索研究中，研究人員按照短時(shí)能量函數(shù)，平均過零率（ZCR）和基頻（FuF）三種音頻特征將特征粗略的分為語音、音樂、環(huán)境音響和默音四種基本類別。再根據(jù)從音頻文件的時(shí)間（頻率）表示中抽取出來的音色、音高和變化模式等特征對以上基本類別進(jìn)行細(xì)分，分類準(zhǔn)確率達(dá)90%以上。

三、數(shù)據(jù)來源與簡介

（一）數(shù)據(jù)來源

本文的原始數(shù)據(jù)來源于筆者的mp3音樂收藏，共包含178首歌曲，全部為mp3格式的文件。在聚類分析之前，需要將mp3格式的音樂文件轉(zhuǎn)換為wav格式，便于后續(xù)的數(shù)據(jù)讀取與分析。

（二）wav與mp3文件的轉(zhuǎn)換

mp3是現(xiàn)在最流行的聲音文件格式，這種語音格式的壓縮是一種有損壓縮。wav文件格式是一種重要的數(shù)字音頻文件格式，沒有采用壓縮技術(shù)，是目前應(yīng)用很廣泛的一種音頻格式。在本文中，我們重點(diǎn)關(guān)注mp3文件如何轉(zhuǎn)換為wav格式?？梢酝ㄟ^MP32WAV Professional、Mp3towav等軟件將mp3文件轉(zhuǎn)換為wav格式。本文的音樂mp3文件轉(zhuǎn)換為wav格式后，使用Python進(jìn)行數(shù)據(jù)的讀取與分析。

（三）提取音頻的統(tǒng)計(jì)特征

分別從波形的統(tǒng)計(jì)矩、平滑的波形統(tǒng)計(jì)量、差分的波形統(tǒng)計(jì)量和波形頻率域的特征四個(gè)方面來提取音頻的統(tǒng)計(jì)特征。最后共提取42個(gè)音頻特征，其中32個(gè)波形統(tǒng)計(jì)量和10個(gè)頻率域的特征。

四、實(shí)證研究

（一）最優(yōu)聚類數(shù)的選擇

2001年，Tibshirani等人提出了Gap統(tǒng)計(jì)量的方法對最優(yōu)聚類以及最優(yōu)聚類數(shù)進(jìn)行估計(jì)。Gap統(tǒng)計(jì)量的定義如下：Gapn （k）=En* （log（Wk ））-log（Wk）。En*表示在某參考分布下的期望，最佳聚類數(shù)k就出現(xiàn)在Gap（k）取最大值的時(shí)候。通過計(jì)算Gap統(tǒng)計(jì)量，當(dāng)k=3時(shí)，是滿足不等式Gap（k）≥Gap（k+1）-sk+！的最小值，即本文的音樂音頻數(shù)據(jù)聚為3類比較合適。

（二）層次聚類與k-means聚類

層次聚類是最常用的聚類方法之一。層次聚類就是通過對數(shù)據(jù)集按照某種方法進(jìn)行層次分解，直到滿足某種條件為止。按照分類原理的不同，可以分為凝聚和分裂兩種方法。在本文中，點(diǎn)與點(diǎn)之間的距離采用歐式距離，類與類之間的距離采用ward法。聚為三類時(shí)，各個(gè)類別各包含27、79和72首歌曲。

k-means聚類算法是典型的基于距離的聚類算法，采用距離作為相似性的評(píng)價(jià)指標(biāo)，即認(rèn)為兩個(gè)對象的距離越近，其相似度就越大。該算法認(rèn)為簇是由距離靠近的對象組成的，因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。通過對178首歌曲進(jìn)行k-means聚類分析，對22個(gè)變量通過因子分析進(jìn)行降維，這樣便于將結(jié)果映射到二維空間上，各個(gè)類別各包含39、93和46首歌曲，可以看出聚類效果并不是特別理想，三類歌曲并沒有完全地分開。

（三）抽象出各類的含義

根據(jù)層次聚類和K-means聚類的結(jié)果，通過對每一類中所包含的歌曲進(jìn)行歸納總結(jié)，層次聚類的效果更好，更容易抽象出各個(gè)類別的含義，分別為（1）流行、鄉(xiāng)村、民謠;（2）電子、說唱、搖滾;（3）古典音樂、爵士。

五、結(jié)論與不足

本文首先對音頻數(shù)據(jù)進(jìn)行預(yù)處理，然后提取出42個(gè)特征向量，將相關(guān)性高的特征向量剔除后，最終使用22個(gè)變量通過層次聚類法將178首歌曲可以聚為三類，抽象出各類別的含義后，第一類可歸結(jié)為流行、鄉(xiāng)村和民謠，包含27首歌曲;第二類可歸結(jié)為電子、說唱和搖滾，包含79首歌曲;第三類可歸結(jié)為古典音樂和爵士，包含72首歌曲。聚類分析所用的22個(gè)變量多為差分后的波形統(tǒng)計(jì)量和頻率域的統(tǒng)計(jì)量，說明信號(hào)的短時(shí)變化量和在頻率域的能量能夠較好地反映每類歌曲之間的差異。在本文中，層次聚類的結(jié)果比K-means聚類的結(jié)果更容易抽象出各類的含義。

抽取音頻的特征時(shí)，還有很多其他的系數(shù)可以考慮進(jìn)來，這樣可以更加全面地反映音樂音頻的特征，使得聚類結(jié)果更為可信;原始數(shù)據(jù)沒有類別標(biāo)簽，所以不知道每一首歌曲應(yīng)該屬于哪一類，對于聚類效果的評(píng)價(jià)有一定影響;本文的樣本歌曲為178首，可以考慮增加樣本量以達(dá)到更好的聚類效果。

參考文獻(xiàn)：

[1] E.Wold， T.Blum， and D.Keslar， Content-based classification， search， and retrieval of audio， IEEE Multimedia， Fall， 1996， pp.27-36

[2] J.Foote. Content-based retrieval of music and audio. In： C.C.J.Kuo et al.（eds） Multimedia Storage and Archiving Systems Ⅱ， Proc.of SPIE， volume 3229， pp.138-147， 1997

[3] J.Foote. An overview of audio information retrieval. ACM-Springer Multimedia Systems， 1998

[4] Z Liu， J Huang， Y wang， T Chen. Audio feature extraction and analysis for scene classification. IEEE Signal Processing Society 1997 Workshop on Multimedia Signal Processing.

[5] Feiten， B， Frank， R.， Ungvary， T. Oranganization of Sounds with Neural Nets. In： Proceedings of the 1991 International Computer Music Conference， International Computer Music Association. San Francisco， 1991， 441-444.

[6] L. Lu， H. Jiang， H. J. Zhang. Content Analysis for Audio Classification and Segmentation. IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING， VOL. 10， NO.7， OCTOBER 2002

[7] 白亮. 音頻分類與分割技術(shù)研究[D].國防科學(xué)技術(shù)大學(xué)，2004.

[8] 羅海濤. wav音頻文件格式分析與數(shù)據(jù)獲取[J]. 電腦知識(shí)與技術(shù)，2016，（27）：211-213.

[9] 何月順，周良，丁秋林. 基于Python的音頻數(shù)據(jù)處理研究與應(yīng)用[J]. 微機(jī)發(fā)展，2003，（11）：51-53.

[10] 黃國明. 各種音頻格式及其處理軟件綜述[A]. 中國語言學(xué)會(huì)語音學(xué)分會(huì)、中國中文信息學(xué)會(huì)語音信息專業(yè)委員會(huì)、中國聲學(xué)學(xué)會(huì)語言聽覺和音樂分會(huì).第六屆全國現(xiàn)代語音學(xué)學(xué)術(shù)會(huì)議論文集（下）[C].中國語言學(xué)會(huì)語音學(xué)分會(huì)、中國中文信息學(xué)會(huì)語音信息專業(yè)委員會(huì)、中國聲學(xué)學(xué)會(huì)語言聽覺和音樂分會(huì)：，2003：5.

[11] 徐秀芳，徐森，徐靜，安晶. 基于譜聚類算法的音頻聚類研究[J]. 軟件導(dǎo)刊，2016，（11）：36-38.

[12] 廖松博，何震瀛. HDCH：MapReduce平臺(tái)上的音頻數(shù)據(jù)聚類系統(tǒng)[J]. 計(jì)算機(jī)研究與發(fā)展，2011，（S3）：472-475.

[13]于琪. 基于音樂旋律的特征聚類算法研究及其應(yīng)用[D].廣東工業(yè)大學(xué)，2011.