王力,王鑫,謝凌云
(中國(guó)傳媒大學(xué),北京 100024)
隨著互聯(lián)網(wǎng)的發(fā)展與普及,網(wǎng)絡(luò)音樂(lè)應(yīng)用逐漸成為人們聆聽(tīng)音樂(lè)的主要渠道。面對(duì)繁多的網(wǎng)絡(luò)音樂(lè),為適應(yīng)用戶(hù)對(duì)于音樂(lè)搜索的需要,對(duì)音樂(lè)內(nèi)容識(shí)別分析并進(jìn)行自動(dòng)分類(lèi)是當(dāng)今迫切的需求,而這些都需依賴(lài)音樂(lè)信息檢索(Music Information Retrieval,MIR)。音樂(lè)信息檢索往往可以分為基于音頻內(nèi)容的分析和基于文本(如歌詞、用戶(hù)評(píng)分、出版年份等等)的分析,前者的音樂(lè)特征由音頻特征構(gòu)成,后者則由語(yǔ)義特征構(gòu)成。
音頻特征提取是音頻內(nèi)容分析的一個(gè)重要階段,也是模式識(shí)別和機(jī)器學(xué)習(xí)中必不可少的處理步驟。它通常使用幾十個(gè)或數(shù)百個(gè)特征來(lái)描述一首完整的歌曲,大幅減少了要處理的數(shù)據(jù)總量,并去除了與音樂(lè)分析任務(wù)不相關(guān)的冗余信息,同時(shí)也將原始數(shù)據(jù)轉(zhuǎn)換為更合適的表示形式[1]。
傳統(tǒng)音頻特征大多具有一定的物理意義,它們分別描述了信號(hào)中不同維度的信息,如時(shí)域、頻域相關(guān)特征。近年來(lái),人們對(duì)于特征提取的研究主要體現(xiàn)在提出更加準(zhǔn)確描述樂(lè)理概念或符合心理聲學(xué)規(guī)律的音樂(lè)類(lèi)特征;此外,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來(lái)越多的音樂(lè)信息檢索任務(wù)傾向于數(shù)據(jù)驅(qū)動(dòng)[63],由機(jī)器自動(dòng)學(xué)習(xí)音頻中的內(nèi)容信息,特征不一定具有具體意義,甚至不一定能被人理解,例如神經(jīng)網(wǎng)絡(luò)直接將信號(hào)波形或時(shí)頻圖作為輸入特征。近年來(lái),這些深度特征被廣泛用于聲學(xué)場(chǎng)景分類(lèi)[64]和音頻視頻分析[65]領(lǐng)域。
本文對(duì)面向傳統(tǒng)機(jī)器學(xué)習(xí)的音樂(lè)信號(hào)特征與面向深度學(xué)習(xí)的音樂(lè)特征進(jìn)行了全面的綜述與梳理,總結(jié)了各類(lèi)主流音頻特征的含義、計(jì)算方法及應(yīng)用現(xiàn)狀,最后介紹了用于特征提取的常用工具。
在計(jì)算音頻特征時(shí),通常需根據(jù)任務(wù)需求對(duì)原始音頻進(jìn)行預(yù)處理,使原始音頻轉(zhuǎn)化為更加合適的形式來(lái)方便特征的提取。常見(jiàn)的預(yù)處理方式有下變換、直流消除、歸一化、信號(hào)分幀和加窗。
對(duì)于多聲道信號(hào),可轉(zhuǎn)化為單聲道以降低數(shù)據(jù)量[2]。在下變換時(shí),通常采用計(jì)算多個(gè)聲道采樣值的算術(shù)平均值來(lái)實(shí)現(xiàn),也可對(duì)某些聲道加以不同的權(quán)重,如5.1聲道中的環(huán)繞聲道便可設(shè)置較小的權(quán)重。
直流偏移量通常不會(huì)提供任何有效信息,并可能對(duì)特征計(jì)算結(jié)果產(chǎn)生不必要的影響,通常從每個(gè)樣本點(diǎn)中減去全部信號(hào)的算術(shù)平均值可達(dá)到消除直流的作用。
為了避免不同輸入信號(hào)的幅度差異對(duì)特征提取的影響(尤其在強(qiáng)度類(lèi)特征中),可將信號(hào)歸一化為具有預(yù)定(最大)振幅或功率的信號(hào)。歸一化音頻信號(hào)的一種簡(jiǎn)單而常用的方法是檢測(cè)其絕對(duì)采樣值的最大值,并縮放信號(hào),使該最大值的絕對(duì)值映射到1。
部分特征提取算法要求對(duì)信號(hào)進(jìn)行分幀處理,在特征提取時(shí)分別對(duì)每幀進(jìn)行處理,需根據(jù)實(shí)際音頻特點(diǎn)以及處理的目標(biāo)來(lái)設(shè)定幀長(zhǎng),幀移和窗函數(shù),即可得到分幀信號(hào)。對(duì)每幀信號(hào)提取特征值,可得到反映沿時(shí)間軸或頻率軸動(dòng)態(tài)變化的信息。
由于DFT算法需對(duì)信號(hào)進(jìn)行周期延拓,為避免信號(hào)在延拓過(guò)程中產(chǎn)生奇點(diǎn)而導(dǎo)致譜泄漏,需事先對(duì)信號(hào)進(jìn)行加窗處理,根據(jù)信號(hào)的不同來(lái)確定合適的窗函數(shù)。在音頻信號(hào)處理中,常用的窗函數(shù)有矩形窗、三角窗、漢寧(Hanning)窗、漢明(Hamming)窗、布萊克曼(Blackman)窗等。
音樂(lè)信號(hào)的傳統(tǒng)聲學(xué)特征主要指從音頻文件中提取出來(lái)的基本物理特征,又稱(chēng)為初級(jí)特征,如強(qiáng)度、頻譜等等,但通常沒(méi)有直接的音樂(lè)含義,可分為時(shí)域特征與頻域特征;除此之外,還能進(jìn)行更細(xì)的類(lèi)別劃分。例如Peeters等人將聲學(xué)特征具體分為時(shí)域特征、頻域特征、能量特征、協(xié)和性特征和感知特征[4];Alias等人將聲學(xué)特征分為物理和感知兩類(lèi),然后再分別按時(shí)間、頻率、小波、圖像、倒頻譜等類(lèi)別進(jìn)行了細(xì)分[5]。本節(jié)將對(duì)常見(jiàn)的傳統(tǒng)音頻特征進(jìn)行梳理與總結(jié)。
時(shí)域特征的顯著特點(diǎn)是它們不需要對(duì)原始音頻信號(hào)進(jìn)行任何形式的變換,而是在信號(hào)本身的采樣值上進(jìn)行處理,這種音頻特征提取方法也是最基本和最經(jīng)典的方法之一[5],其涵蓋基于過(guò)零率的特征、基于幅度的特征、基于能量的特征等。
(1)過(guò)零率
過(guò)零率(Zero-Crossing Rate,ZCR)定義為一秒鐘內(nèi)聲音信號(hào)在時(shí)域上的穿越0 電平的次數(shù),計(jì)算方法如式(1)所示。物理意義上ZCR與信號(hào)頻率一定程度上存在相關(guān)[18]。
其中,N 為采樣點(diǎn)數(shù),x(i)為信號(hào)在第i 個(gè)采樣點(diǎn)的幅度,下同。
(2)能量
信號(hào)的能量(Energy)為采樣點(diǎn)的平方和,如式(2)所示。在音頻分析中,以幀為單位可組成分幀能量序列。
此外,還有均方根能量(Root-Mean-Square,RMS),定義為信號(hào)各采樣數(shù)據(jù)能量和的平方根,如式(3)所示。
(3)低能量幀比值
低能量幀比值(Low Energy Rate)計(jì)算了低于平均能量的數(shù)據(jù)幀所占的比例,其意義在于檢測(cè)瞬變信號(hào)以及脈沖。
其中,N 表示音頻幀數(shù),E(n)表示短時(shí)能量值,表示該片段平均能量,r為閾值系數(shù),可對(duì)平均能量進(jìn)行加權(quán)來(lái)控制能量閾值的高低。
(4)ADSR振幅包絡(luò)
ADSR[25]指代單樂(lè)音包絡(luò)模型,包含起振(Attack),衰減(Decay),延持(Sustain),釋放(Release)四個(gè)階段,如圖1所示。在特征計(jì)算中,通過(guò)ADSR包絡(luò)模型可以提取幾個(gè)特征,分別是:起振時(shí)間(Attack Time),即波形起始最低點(diǎn)到最高點(diǎn)所用時(shí)間;對(duì)數(shù)起振時(shí)間(Log Attack Time,LAT);起振跨度,即起始最低點(diǎn)到最高點(diǎn)的幅值跨度;起振斜率,即起始最低點(diǎn)到最高點(diǎn)的幅值變化斜率等等。其余三個(gè)階段的特征計(jì)算方式同理。ADSR 模型廣泛地應(yīng)用于音樂(lè)合成領(lǐng)域,而LAT還可被用于環(huán)境聲音識(shí)別[26,27]。
圖1 ADSR振幅包絡(luò)模型
(5)時(shí)域質(zhì)心
時(shí)域質(zhì)心(Temporal Centroid)是對(duì)信號(hào)時(shí)域波形采樣值的一種統(tǒng)計(jì)度量,也可稱(chēng)為信號(hào)時(shí)域的一階矩。時(shí)域質(zhì)心表示信號(hào)能量分布上的時(shí)間重心,計(jì)算公式如式(5)所示,可應(yīng)用于環(huán)境聲音識(shí)別領(lǐng)域[28]。
頻域特征通常與音色密切相關(guān),其中既有基于傅里葉變換(FFT)又有基于短時(shí)傅里葉變換(STFT)得到的特征,又可分為譜包絡(luò)相關(guān)特征、譜結(jié)構(gòu)相關(guān)特征、統(tǒng)計(jì)類(lèi)特征和系數(shù)特征。
3.2.1 譜包絡(luò)相關(guān)特征
譜包絡(luò)相關(guān)特征從頻譜全局的輪廓形狀來(lái)描述信號(hào),包含譜斜度(Spectral Slope)、譜熵(Spectral Entropy)、譜平整度(Spectral Flatness)、譜不規(guī)則度(Spectral Irregularity)特征。
(1)譜斜度
譜斜度通過(guò)線性回歸的方法來(lái)擬合頻譜包絡(luò),譜斜度就是其斜率[21],如圖2 所示。它表示了頻譜能量在整個(gè)頻段的分布趨勢(shì),可應(yīng)用于語(yǔ)音分類(lèi)和說(shuō)話人識(shí)別問(wèn)題[28,29]。
圖2 譜斜度示意圖
(2)譜熵
譜熵是頻譜均勻性的度量,頻率分布隨機(jī)性越大,混亂度越高,譜熵越高。也可將信號(hào)劃分L個(gè)頻率子進(jìn)行計(jì)算以達(dá)到更佳的音樂(lè)和語(yǔ)音識(shí)別效果,計(jì)算方法如式(6)所示。其中,Ef代表f0至fL-1子帶的譜能量。譜熵可用于音樂(lè)于語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)和分割。
(3)譜平整度
譜平整度描述了頻譜分布的平滑程度,為幾何平均值與算術(shù)平均值之比[30],如式(7)所示,它可用于區(qū)分噪聲(譜平整度高)與音調(diào)(譜平整度低),以及音樂(lè)起始點(diǎn)檢測(cè)、音樂(lè)分類(lèi)等[31]。
其中,N為單邊譜采樣點(diǎn)數(shù),X(n)為信號(hào)頻譜幅值,下同。
(4)譜不規(guī)則度
譜不規(guī)則度計(jì)算了譜包絡(luò)上相鄰峰值間的差異程度。一般有兩種算法:第一種為相鄰采樣值之差平方和的歸一化,如式(8)所示;第二種是當(dāng)前峰值與連續(xù)3個(gè)譜峰之差的求和,如式(9)所示。
3.2.2 譜結(jié)構(gòu)相關(guān)特征
譜結(jié)構(gòu)相關(guān)特征從頻譜局部的成分來(lái)描述信號(hào),包括譜通量(Spectral Flux)、譜下降值(Spectral Roll-off)、頻帶能量(Spectral Energy Band)、不協(xié)和度(Inharmonicity)、譜對(duì)比度(Spectral Contrast)特征。
(1)譜通量
譜通量描述了STFT 幀間幅度差異,如式(10)所示,它反映了聲音頻率能量分布的變化情況,可用來(lái)檢測(cè)音符起始點(diǎn),測(cè)量信號(hào)功率譜變化的速度,在音樂(lè)識(shí)別、樂(lè)器分類(lèi)等領(lǐng)域有著一定的應(yīng)用[22]。
式中,X表示信號(hào)頻譜幅值,N表示采樣點(diǎn)數(shù),k為STFT的幀數(shù)索引值。
(2)譜下降值
譜下降值定義的是頻譜能量開(kāi)始下降至某百分比的頻率點(diǎn),頻譜能量下降系數(shù)通??扇?5%-95%之間,可用來(lái)區(qū)分清音和濁音,音樂(lè)分類(lèi)、音樂(lè)識(shí)別等領(lǐng)域。
其中,i為譜下降值頻點(diǎn),λ為下降百分比,N表示采樣點(diǎn)數(shù)。圖3 為一段音樂(lè)信號(hào)的譜下降值點(diǎn)示意圖,λ取85%,對(duì)應(yīng)的譜下降值為6267 Hz。
圖3 譜下降值示意圖
(3)頻帶能量
頻帶能量特征計(jì)算了音頻頻帶的能量分布狀況,可按照線性頻率、對(duì)數(shù)頻率、Mel頻率、Bark頻率、ERB尺度來(lái)劃分頻帶,分別計(jì)算每一頻帶的能量,得到譜能量序列,描述信號(hào)的頻譜能量分布。
(4)譜對(duì)比度
譜對(duì)比度是一個(gè)基于倍頻程的音樂(lè)特征,它根據(jù)倍頻程劃分M 個(gè)子帶,分別計(jì)算每一子帶內(nèi)峰值與谷值對(duì)比度數(shù)值,得到一個(gè)M 維特征。每個(gè)頻帶譜對(duì)比度的計(jì)算方法如式(12)所示。對(duì)于大多數(shù)音樂(lè),頻譜波峰大致對(duì)應(yīng)于諧波分量,而波谷代表著大部分非諧波分量或噪聲。因此,譜對(duì)比度特征可反映頻譜中諧波分量與非諧波分量的相對(duì)分布。
其中,k為頻帶索引,取值為1到M的整數(shù),N為頻帶內(nèi)的采樣點(diǎn)數(shù),α 為鄰域因子,通常取0.02 到0.2之間[53]。
3.2.3 統(tǒng)計(jì)類(lèi)特征
和時(shí)域特征類(lèi)似,頻域特征也有若干統(tǒng)計(jì)類(lèi)特征,如一階矩(譜質(zhì)心,Spectral Centroid)、二階矩(譜擴(kuò)展、譜分布方差,Spectral Spread)、三階矩(譜偏態(tài),Spectral Skewness)和四階矩(譜峰度,Spectral Kurtosis)。
譜質(zhì)心是對(duì)信號(hào)頻譜質(zhì)心的描述,可認(rèn)為是頻譜的“重心”,如式(13)所示。譜質(zhì)心與信號(hào)明亮度有關(guān),信號(hào)明亮度越高,譜質(zhì)心的值越高。可用于音樂(lè)分類(lèi)、起始點(diǎn)檢測(cè)。
譜擴(kuò)展(譜分布方差)描述了譜分布相對(duì)質(zhì)心的離散程度。低值的譜擴(kuò)展對(duì)應(yīng)的信號(hào)頻譜集中在頻譜質(zhì)心附近。譜偏態(tài)衡量了譜分布的對(duì)稱(chēng)性,對(duì)稱(chēng)分布的頻譜偏態(tài)為0;而譜峰度是對(duì)頻譜“非高斯性”的度量[2],越偏向正態(tài)分布,峰度越小。
3.2.4 其他特征
音頻分析中其他常用的頻域特征包括Mel倒譜系數(shù)(Mel-Frequency Cepstrum Coefficients,MFCC)、線性預(yù)測(cè)系數(shù)(Linear Prediction Coefficient,LPC)和感知線性預(yù)測(cè)系數(shù)(Perceptual Linear Prediction,PLP)等等。
(1)Mel倒譜系數(shù)
MFCC是信號(hào)的一種倒譜表示,其中頻帶按照Mel尺度劃分,而非線性尺度,可以看作是一種對(duì)音頻信號(hào)頻譜特性的描述方法,在音頻信號(hào)處理領(lǐng)域應(yīng)用廣泛。MFCC的計(jì)算首先對(duì)信號(hào)進(jìn)行DFT,再通過(guò)Mel尺度濾波器組,其通常為一組濾波器個(gè)數(shù)為L(zhǎng)的交疊的三角濾波器組。Mel尺度根據(jù)心理聲學(xué)的實(shí)驗(yàn)觀察結(jié)論,引入了頻率扭曲效應(yīng)[46],實(shí)驗(yàn)表明,人類(lèi)聽(tīng)覺(jué)系統(tǒng)能夠更容易地在低頻區(qū)域區(qū)分相鄰的頻率,Mel頻率可按照如下公式計(jì)算:
最后計(jì)算每個(gè)Mel濾波器輸出的歸一化能量Ek,其中k=1,2,···,L。最后用離散余弦變換(DCT)對(duì)其進(jìn)行去相關(guān)處理,求得一組正交化的MFCC系數(shù),計(jì)算公式如下所示。通常取前12-13個(gè)系數(shù)作為最終結(jié)果。
MFCC在語(yǔ)音信號(hào)處理領(lǐng)域應(yīng)用廣泛[61],在音樂(lè)信號(hào)處理中可被用于音樂(lè)分類(lèi)、歌手識(shí)別[32],但目前沒(méi)有明確的物理意義,無(wú)法用來(lái)解釋結(jié)果。
(2)線性預(yù)測(cè)系數(shù)
線性預(yù)測(cè)系數(shù)的原理是根據(jù)過(guò)去的已有采樣值的線性組合來(lái)預(yù)測(cè)當(dāng)前的采樣值,如式(16)所示,通過(guò)最小化預(yù)測(cè)誤差來(lái)確定最佳濾波器系數(shù),其可用一種全極點(diǎn)濾波器來(lái)表示,如式(17)所示。在發(fā)聲模型中,一種比較主流的模型是激勵(lì)源-濾波器模型。該模型的傳輸函數(shù)與LP的傳輸函數(shù)相同。LP用在該模型上,可以分離聲門(mén)激勵(lì)源和聲道共振腔,在分析信號(hào)的包絡(luò)譜和共振峰上有著重要的應(yīng)用,還可應(yīng)用于樂(lè)器發(fā)聲模型和語(yǔ)音信號(hào)處理,并廣泛應(yīng)用于語(yǔ)音編碼的識(shí)別,也被用于音樂(lè)分類(lèi)[33]。
音樂(lè)相關(guān)特征可通過(guò)對(duì)初級(jí)特征進(jìn)行進(jìn)一步的處理而得到[2,3],往往在一定程度上可以表征各類(lèi)音樂(lè)屬性,如節(jié)奏、速度、調(diào)式、和弦等等。
(1)音高
樂(lè)音的音高由基頻決定,MPEG-7標(biāo)準(zhǔn)將基頻特征定義為局部時(shí)頻分析的自相關(guān)函數(shù)第一個(gè)峰值[36]。此外,基頻的提取還可通過(guò)過(guò)零率、平均幅度差函數(shù)、AMDF加權(quán)自相關(guān)函數(shù)等多種基于自相關(guān)的算法、基于譜分析的算法、基于倒譜的算法以及它們的組合[37]。在實(shí)際提取基頻的過(guò)程中,會(huì)在一定范圍內(nèi)產(chǎn)生波動(dòng),研究表明,人的聽(tīng)感會(huì)趨于波動(dòng)中心值[38]。
(2)Chromagram與音級(jí)分布圖
Chromagram為基于信號(hào)時(shí)頻譜圖的特征,將時(shí)頻圖的頻率坐標(biāo)映射為音樂(lè)中對(duì)應(yīng)的音級(jí),即可得到Chromagram。音級(jí)分布圖(Pitch Class Histogram)的計(jì)算方法是將每幀的DFT信號(hào)根據(jù)十二平均律音級(jí)劃分為12組,計(jì)算某個(gè)音級(jí)對(duì)應(yīng)的DFT所有頻率能量之和,也可采用峰值能量、對(duì)數(shù)幅度均值等其他方法表示,如式(18)所示:
其中,Sk為對(duì)應(yīng)DFT 系數(shù)組的頻率子集,Nk為Sk元素個(gè)數(shù)。在分幀特征提取時(shí),音級(jí)分布向量vk為一幀當(dāng)中的計(jì)算結(jié)果,由此可生成矩陣V,其中元素可表示為Vk,i,k和i分別表示音級(jí)和幀數(shù)??梢钥闯觯琕是音級(jí)分布向量序列vk的矩陣表示,也被稱(chēng)為音高色譜圖[1]。此外,除可計(jì)算12 音級(jí)分布圖以外,還可使用音分,或128個(gè)MIDI notes 等其他標(biāo)準(zhǔn)來(lái)計(jì)算音級(jí)分布圖。
Chromagram 與音級(jí)分布圖表示了一段音樂(lè)信號(hào)中音高的分布特征?;谌硕舾吒兄獧C(jī)理,Chromagram 和音級(jí)分布圖將不同八度內(nèi)的倍數(shù)頻率音高都整合到一個(gè)八度內(nèi)表示,把頻率能量映射到12個(gè)音級(jí)上,即可得到12維的特征向量,由此可計(jì)算出和弦、調(diào)性等特征[62]。
圖4 為F大調(diào)合唱《As Long as I Have Music》音樂(lè)鋼琴伴奏片段的Chromagram分布圖,如圖所示,橫軸為樂(lè)曲節(jié)選時(shí)間(10s-20s),縱軸為十二平均律音級(jí),該圖表示了音級(jí)能量分布隨著時(shí)間變化的情況。圖5為上述片段的音級(jí)分布圖。在音級(jí)分布圖中,橫坐標(biāo)為十二音級(jí),縱坐標(biāo)為音級(jí)能量,可看出F大調(diào)主和弦F、A、C三個(gè)音級(jí)能量相對(duì)較高,而F大調(diào)調(diào)外音級(jí)能量很小。
圖4 Chromagram分布圖
圖5 音級(jí)分布圖(Pitch Class Histogram)
(3)音調(diào)質(zhì)心與和聲變化檢測(cè)函數(shù)
Christopher Harte等人從音程關(guān)系入手來(lái)研究,提出了音調(diào)質(zhì)心(Tonal Centroid)這一概念[80]。將上文所述的音高分布向量映射到如圖6所示的純五度、小三度和大三度三個(gè)平面維度,并將三個(gè)平面的坐標(biāo)匯集為一個(gè)六維向量,將其稱(chēng)為音調(diào)質(zhì)心。
圖6 音調(diào)質(zhì)心的三個(gè)平面維度
如圖,0-11代表從C音開(kāi)始的12音級(jí),圖中展示了A大三和弦的音調(diào)質(zhì)心,其包含的音級(jí)為A(9),C#(1),E(4),音調(diào)質(zhì)心為圖中A點(diǎn)所示位置。
不同音頻幀的音調(diào)質(zhì)心的變化,可以表征音樂(lè)的動(dòng)態(tài)特性。于是通過(guò)計(jì)算音頻幀間音調(diào)質(zhì)心向量的歐式距離,可以得到和聲變化檢測(cè)函數(shù)HCDF(Harmonic Change Detection Function),該特征用來(lái)表示音樂(lè)中諧波內(nèi)容的變化,可以表征連續(xù)幀之間和聲變化的情況,在音頻分割、和弦識(shí)別、音樂(lè)情感識(shí)別和音樂(lè)分類(lèi)中都起著一定作用[54]。
(4)調(diào)諧頻率
調(diào)諧頻率的計(jì)算是調(diào)性檢測(cè)、和聲檢測(cè)的基礎(chǔ)。目前有多種方法可以計(jì)算調(diào)諧頻率,如Scheirer使用了一組窄帶通濾波器,它們的中頻位于特定的頻帶,這些頻帶根據(jù)先前分析的樂(lè)譜精心挑選,以匹配音調(diào)。濾波器掃過(guò)一個(gè)小的頻率范圍,然后估計(jì)的調(diào)諧頻率由所有濾波器組輸出能量總和的最大中頻確定[47]。Dixon提出在頻域使用峰值檢測(cè)算法并計(jì)算檢測(cè)到的峰值的瞬時(shí)頻率,然后對(duì)參考頻率進(jìn)行迭代修改,直到檢測(cè)到的頻率和參考頻率之間的距離最小化[48]。
調(diào)式由若干樂(lè)音按照一定的音程關(guān)系組織在一起,調(diào)性由調(diào)的主音決定。通常來(lái)講,調(diào)式調(diào)性相關(guān)特征是基于上述音高相關(guān)特征得到的,Chromagram是調(diào)式調(diào)性相關(guān)特征計(jì)算的基礎(chǔ)。
(1)調(diào)式調(diào)性與調(diào)值力度(Keystrength)
調(diào)性特征的計(jì)算即主音調(diào)值的計(jì)算。首先進(jìn)行音級(jí)分布圖的提取,估計(jì)音高分布,并基于音級(jí)分布圖對(duì)所有可能的主音候選做互相關(guān)計(jì)算,得到調(diào)值力度(Keystregth)曲線,如圖7所示,可以看出其峰值對(duì)應(yīng)的調(diào)值就是調(diào)的主音F。求其峰值,獲得沿時(shí)間軸排列的主音調(diào)值以及其清晰度。此外,在調(diào)值曲線上計(jì)算大調(diào)峰值和小調(diào)峰值的差,為正則偏向大調(diào),為負(fù)則偏向小調(diào)。文獻(xiàn)[39]以C大調(diào)和C小調(diào)為例得到了這兩種調(diào)式每個(gè)音級(jí)的感知重要性的分布(Profile)。此外,還可根據(jù)模板匹配的方法得出樂(lè)曲的調(diào)式與調(diào)性,通過(guò)將曲目的音級(jí)分布圖與各種調(diào)的特定模型如正交模型、全音階模型、五度圈模型等進(jìn)行比較,計(jì)算二者距離,如歐式距離、曼哈頓距離、余弦距離等,找到使二者距離最小的模型對(duì)應(yīng)的調(diào),就是曲目的調(diào)。
圖7 調(diào)值力度曲線
(2)中國(guó)民族調(diào)式特征
以上調(diào)式特征都是基于西方大小調(diào)體系,對(duì)于中國(guó)民族調(diào)式,周莉等人提出基于模板匹配的中國(guó)民族音樂(lè)調(diào)式判別[40]。中國(guó)民間音樂(lè)的調(diào)式豐富多樣,應(yīng)用最廣泛的是五聲調(diào)式和以五正聲音階為基礎(chǔ)的各種調(diào)式。以五聲調(diào)式為基礎(chǔ),在角-徵、羽-宮兩個(gè)小三度之間加上1個(gè)音,使五聲調(diào)式得以擴(kuò)大成六聲調(diào)式或七聲調(diào)式,這些增加的音稱(chēng)為偏音。通過(guò)提取旋律中所有的音高來(lái)判斷有無(wú)偏音,并確定該旋律所屬的模板來(lái)進(jìn)行匹配:無(wú)偏音的旋律歸屬于中國(guó)民族音樂(lè)五聲調(diào)式模板,有偏音的旋律歸屬于中國(guó)民族音樂(lè)七聲調(diào)式模板。然后再通過(guò)若干調(diào)式特征進(jìn)行核驗(yàn),最終確定中國(guó)民族音樂(lè)的調(diào)式。
節(jié)奏相關(guān)特征是對(duì)音樂(lè)律動(dòng)的描述,包括了速度相關(guān)特征和節(jié)拍相關(guān)特征。
(1)Onsets
Onsets是描述音樂(lè)信號(hào)中音符起始的特征,是計(jì)算音樂(lè)速度的基礎(chǔ)之一,與音符起振時(shí)間不同,它表示音樂(lè)信號(hào)中音符起始的時(shí)間點(diǎn)。Onsets有多種計(jì)算方法,3.2節(jié)所介紹的時(shí)域能量、譜通量、譜質(zhì)心、譜熵、譜基頻改變等特征均可用于Onsets檢測(cè)。
(2)速度
樂(lè)曲速度常用BPM(Beats per Minute)表示。BPM即每分鐘的節(jié)拍數(shù),是描述音樂(lè)速度的特征。對(duì)于恒定速度的音樂(lè)片段,可首先求得Onsets檢測(cè)曲線,用自相關(guān)的方法計(jì)算曲線的周期性,得到拍子的周期Δts,進(jìn)而得到每分鐘的節(jié)拍數(shù)BPM:
對(duì)于變速樂(lè)曲,由上述方法求得的平均速度不能代表聽(tīng)者的感知,因此可以通過(guò)計(jì)算相鄰兩拍之間的時(shí)間tb來(lái)測(cè)得第j拍和第j+1拍間的動(dòng)態(tài)的BPM:
若想求出變速樂(lè)曲的整體速度,那么式(19)中給出的平均速度不一定與聽(tīng)者所感受到的整體節(jié)奏相匹配。Gabrielsson在文獻(xiàn)[49]中提出了一種計(jì)算“主速度”的方法來(lái)取代平均速度,如式(20)所示。其忽略了樂(lè)曲引子部分和尾聲部分可能出現(xiàn)的過(guò)于緩慢或自由的速度。此外,Repp 發(fā)現(xiàn)感知速度與Onsets 間隔(Inter-Onsets Intervals,IOIs)分布的平均值有著較好的相關(guān)性[50]。Goebl等人提出了一種模式速度,通過(guò)掃描拍間間隔(Inter-Beat Intervals,IBIs)直方圖并選擇最大位置作為模式速度[51]。
(3)節(jié)拍直方圖
節(jié)拍直方圖(Beat Histogram)是另一種重要的節(jié)奏特征,是一種可視化信號(hào)律動(dòng)的方法,直方圖的橫坐標(biāo)為BPM,縱坐標(biāo)為節(jié)拍強(qiáng)度。有多種方法可以計(jì)算節(jié)拍直方圖。Scheirer使用了一個(gè)由梳狀諧振濾波器組成的緊密間隔濾波器組,并使用濾波器的輸出能量作為拍頻強(qiáng)度[55]。Tzanetakis和Cook將音頻信號(hào)分成四個(gè)倍頻帶,并通過(guò)取絕對(duì)值進(jìn)行全波整流(FWR)、低通濾波器平滑處理、降采樣、DC消除四個(gè)處理步驟,提取每個(gè)頻帶的包絡(luò),再通過(guò)自相關(guān)函數(shù)確定包絡(luò)規(guī)律,最后通過(guò)在索引范圍內(nèi)取三個(gè)峰值將其計(jì)入節(jié)拍直方圖中[56]。此外還可使用小波變換將信號(hào)分解為倍頻程,對(duì)每個(gè)子帶中最顯著的周期進(jìn)行累加,生成節(jié)拍直方圖。圖8展示了一段音樂(lè)的節(jié)拍直方圖,可以看出圖中有兩個(gè)峰值,分別對(duì)應(yīng)這首樂(lè)曲的四分音符和二分音符的節(jié)拍。通過(guò)節(jié)拍直方圖可計(jì)算得到若干特征,如直方圖總和、最高峰相對(duì)振幅、次高峰相對(duì)振幅、最高峰值與次高峰值之比等等。節(jié)拍直方圖可用于音樂(lè)分類(lèi)[43]。
圖8 節(jié)拍直方圖示意圖
該類(lèi)特征結(jié)合了人耳的感知特性,使特征參數(shù)符合人耳的聽(tīng)覺(jué)特性,描述了相應(yīng)的人耳聽(tīng)覺(jué)感受,如響度、明亮度、粗糙度、尖銳度、以及不協(xié)和度等音質(zhì)評(píng)價(jià)相關(guān)特征。
(1)響度
響度(Loudness)特征是表示人主觀感知聲音大小的特征。響度有多種計(jì)算模型,計(jì)算流程主要如下圖9所示:
圖9 響度的計(jì)算方法
響度的計(jì)算模型主要有Stevens響度模型、Zwicker響度模型和Moore響度模型。其中Stevens充分利用了等響曲線,將聲音視為由一組倍頻程濾波頻帶的幾何平均值為中心的窄帶噪聲構(gòu)成,用查圖表法在等響度曲線圖或者等聲壓級(jí)曲線圖中找到該頻率的位置,進(jìn)而確定每個(gè)頻帶的響度指數(shù),最后計(jì)算總響度級(jí)[57,58]。Zwicker通過(guò)使用1/3倍頻帶濾波器來(lái)近似臨界頻帶進(jìn)行濾波,引入外耳、中耳傳遞函數(shù)和混響場(chǎng)衰減,計(jì)算20個(gè)特征響度,將特征響度加入斜坡響度來(lái)模擬掩蔽效應(yīng),由此計(jì)算總響度[59]。Moore響度模型對(duì)頻帶劃分進(jìn)行了改進(jìn),利用了ERB坐標(biāo)尺度取了372個(gè)中心頻率,對(duì)應(yīng)372個(gè)權(quán)函數(shù)(即濾波器)。對(duì)輸入信號(hào)的頻域能量,利用這些濾波器進(jìn)行加權(quán)求和,得到372個(gè)能量激勵(lì),由激勵(lì)級(jí)得到特征響度,進(jìn)而求出總響度[60]。Moore響度模型2005年成為美國(guó)國(guó)家標(biāo)準(zhǔn)ANSI S3.4-2005。
(2)音質(zhì)相關(guān)特征
其他感知相關(guān)特征還包括與音質(zhì)評(píng)價(jià)相關(guān)的特征,如明亮度、渾厚度、粗糙度、尖銳度、不協(xié)和度等。
明亮度特征描述了某個(gè)截止頻率以上的頻譜能量比例,截止頻率可根據(jù)實(shí)際需要進(jìn)行調(diào)整,典型的明亮度截止頻率通常可取1500 Hz左右。渾厚度可看作明亮度的互補(bǔ)特征,描述了某個(gè)截止頻率以下的頻譜能量比例,典型的渾厚度截止頻率通??扇?00 Hz左右。
粗糙度特征源自于文獻(xiàn)[44]提出的純音對(duì)感知不協(xié)和度曲線,描述了聲音感知的不協(xié)和程度,該特征找出頻譜的所有峰值對(duì),每對(duì)峰值相乘,再通過(guò)不協(xié)和度曲線加權(quán)求和。
尖銳度特征計(jì)算與譜質(zhì)心類(lèi)似,但基于響度特征計(jì)算中的特性響度而不是幅度譜,特征反映了聲音聽(tīng)感的尖銳程度,可看作譜質(zhì)心的感知變體[4][45],可用于樂(lè)音分類(lèi)及演奏風(fēng)格和情感的判斷。
不協(xié)和度表示信號(hào)頻率和標(biāo)準(zhǔn)諧波分量的偏離程度,計(jì)算方法如式(21)所示。不協(xié)和度的取值在0到1之間,標(biāo)準(zhǔn)諧波信號(hào)為0,完全偏離的非諧波信號(hào)為1?,F(xiàn)實(shí)生活中不存在完美和諧的樂(lè)器,普遍地,所有泛音分量都會(huì)比理論值偏高,且更高的泛音,偏離更明顯。不協(xié)和度可用于樂(lè)器分類(lèi),中國(guó)民族樂(lè)器的不協(xié)和度普遍高于西洋樂(lè)器。
(3)感知線性預(yù)測(cè)系數(shù)
感知線性預(yù)測(cè)系數(shù)是在線性預(yù)測(cè)系數(shù)基礎(chǔ)上發(fā)展出來(lái)的新特征[34]。它們的不同之處是PLP技術(shù)將人耳聽(tīng)覺(jué)感知的一些規(guī)律,通過(guò)近似計(jì)算的方法進(jìn)行了工程化處理,應(yīng)用到頻譜分析中,將輸入的語(yǔ)音信號(hào)經(jīng)聽(tīng)覺(jué)模型處理后所得到的信號(hào)替代傳統(tǒng)的LPC分析所用的時(shí)域信號(hào)。經(jīng)過(guò)這樣處理后的語(yǔ)音頻譜考慮到了人耳的聽(tīng)覺(jué)特點(diǎn)。與傳統(tǒng)LPC相比,PLP分析更符合人的聽(tīng)覺(jué)。H?nig等人又對(duì)算法進(jìn)行了改進(jìn),可用于共振峰和譜包絡(luò)估計(jì)[35]。
PLP技術(shù)主要在三個(gè)層次上模仿了人耳的聽(tīng)覺(jué)感知機(jī)理:(1)臨界頻帶分析處理;(2)等響度曲線預(yù)加重;(3)信號(hào)強(qiáng)度-聽(tīng)覺(jué)響度變換。它的特征提取步驟如下圖10所示:
圖10 PLP系數(shù)的提取過(guò)程
前文所述特征在傳統(tǒng)機(jī)器學(xué)習(xí)方法上被廣泛使用,但由于音頻特征與音樂(lè)類(lèi)別之間的關(guān)系通常難以解釋?zhuān)瑱C(jī)器學(xué)習(xí)的效果很大程度依賴(lài)于提取的音樂(lè)特征集。深度學(xué)習(xí)技術(shù)已被證明是一種從低級(jí)信息中提取高級(jí)特征的強(qiáng)大技術(shù)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的音樂(lè)信號(hào)分析方法開(kāi)始涌現(xiàn)。得益于深度學(xué)習(xí)在圖像處理的優(yōu)異表現(xiàn),在音樂(lè)信號(hào)中通常提取聲譜圖特征作為網(wǎng)絡(luò)輸入,避免了人工特征選擇的問(wèn)題。常用的譜圖特征有短時(shí)傅里葉頻譜圖、梅爾頻譜圖和常數(shù)Q變換(Constant Q Transform,CQT)譜圖。
一段音樂(lè)信號(hào)通常有數(shù)以百萬(wàn)計(jì)的采樣點(diǎn),會(huì)大幅增加計(jì)算資源,而傅里葉頻譜圖是一個(gè)相對(duì)緊湊的數(shù)據(jù)表示方法。與前文描述的特征不同,短時(shí)傅里葉頻譜通過(guò)對(duì)時(shí)域和頻域聯(lián)合分析,可以更加全面、立體地幫助我們獲取信號(hào)特征,它通過(guò)對(duì)信號(hào)分幀、加窗,把時(shí)域信號(hào)分解成無(wú)數(shù)小段進(jìn)行傅里葉變換,最后在時(shí)間軸上堆疊變換后的結(jié)果,得到短時(shí)傅里葉頻譜圖。圖11展示了一段中國(guó)民樂(lè)合奏樂(lè)曲片段的短時(shí)傅里葉頻譜圖。
圖11 短時(shí)傅里葉頻譜圖
由于人耳對(duì)頻率感受的非線性特點(diǎn),Stevens 在1937年提出梅爾尺度的概念,讓人耳頻率分辨與梅爾頻率轉(zhuǎn)化為線性相關(guān),計(jì)算方法如3.2 節(jié)式(4)所示。梅爾頻率能夠更加充分地表示信號(hào)低頻特征,壓縮冗余的高頻信號(hào)和噪聲信號(hào),廣受研究者的青睞。梅爾頻譜圖的計(jì)算方法是首先對(duì)信號(hào)分幀、加窗,進(jìn)行短時(shí)傅里葉變換,然后根據(jù)式(4)所示梅爾尺度對(duì)頻率軸進(jìn)行映射,將映射后的信號(hào)通過(guò)梅爾濾波器組,得到每幀都由梅爾頻譜表示的梅爾頻譜圖特征。此外,還可以分幀計(jì)算3.2節(jié)所述MFCC 系數(shù)得到MFCC 時(shí)間分布圖作為深度學(xué)習(xí)網(wǎng)絡(luò)輸入。圖12 展示了同一段音樂(lè)的梅爾頻譜圖。
圖12 梅爾頻譜圖
CQT是為了解決短時(shí)傅里葉變換后頻率分辨率固定,不能很好地描述音樂(lè)信號(hào)的缺陷而提出的時(shí)頻轉(zhuǎn)換算法。由于音樂(lè)中半音和音分的音高值都是按比例確立的,相鄰半音的比例為r=,相鄰音分之間頻率比為c=,因此可以看出在時(shí)頻轉(zhuǎn)換時(shí),低頻需要很高的頻率分辨率(長(zhǎng)時(shí)窗),高頻需要較低的頻率分辨率(短時(shí)窗)。保持頻率與頻率分辨率比值恒定,比值為Q,可由式(22)計(jì)算得出:
其中,fk為第k個(gè)頻帶的中心頻率。設(shè)頻率變化窗口長(zhǎng)度為Nk,采樣頻率為fs,那么兩者關(guān)系滿足:
常數(shù)Q變換的公式為:
其中,WNK(n)為第k個(gè)頻帶的窗函數(shù)。實(shí)際使用中,會(huì)根據(jù)不同的研究對(duì)象確定Q。如在音樂(lè)信號(hào)中,每個(gè)倍頻程劃分的子頻帶數(shù)為12的倍數(shù),此時(shí)ΔF=21/12。取每個(gè)窗內(nèi)的CQT頻譜,可以得到CQT隨時(shí)間變化的譜圖。圖13展示了同一段音樂(lè)的CQT譜圖。
圖13 CQT譜圖
音樂(lè)特征的基礎(chǔ)應(yīng)用是各類(lèi)音樂(lè)分類(lèi)任務(wù),如樂(lè)器分類(lèi)、音樂(lè)風(fēng)格分類(lèi)、音樂(lè)情感識(shí)別等。音樂(lè)分類(lèi)目前主要有兩種研究方向,一是手工提取音頻特征與各種機(jī)器學(xué)習(xí)分類(lèi)器結(jié)合,研究重點(diǎn)主要有音樂(lè)特征的提取與分類(lèi)器的選擇;二是直接將譜圖特征作為網(wǎng)絡(luò)輸入,將音樂(lè)信號(hào)轉(zhuǎn)化為圖像表示,利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行研究。通過(guò)音樂(lè)特征與人工標(biāo)注的音樂(lè)標(biāo)簽的關(guān)聯(lián)分析,得到音樂(lè)分類(lèi)結(jié)果。上個(gè)世紀(jì)九十年代,World等人[81]就通過(guò)提取音頻信號(hào)的均值、方差特征,利用K近鄰算法進(jìn)行音樂(lè)分類(lèi)。二十一世紀(jì)初,Tzanetakis 等人[66]年將節(jié)奏、音色和音高等音頻底層特征作為特征集合,使用K最近鄰算法、高斯混合模型[67]、高斯分類(lèi)器等算法進(jìn)行特征集的選取實(shí)驗(yàn),并構(gòu)建了GTZAN數(shù)據(jù)集,模型最終取得了61%的分類(lèi)正確率。該分類(lèi)標(biāo)準(zhǔn)在搜索領(lǐng)域得到普遍認(rèn)可,為音樂(lè)分類(lèi)領(lǐng)域奠定了大量的基礎(chǔ);而后甄超等人提出了基于特征重要程度的特征選擇算法,選擇貢獻(xiàn)度高的特征進(jìn)行分類(lèi),取得了81%的分類(lèi)正確率。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來(lái)越多的研究者將目光轉(zhuǎn)向用深度學(xué)習(xí)技術(shù)進(jìn)行音樂(lè)分類(lèi),如Choi[70]等人使用梅爾頻譜圖作為輸入特征,使用卷積網(wǎng)絡(luò)進(jìn)行音樂(lè)標(biāo)注;Li[71]等人用MFCC系數(shù)作為網(wǎng)絡(luò)輸入,使用三個(gè)一維卷積層的網(wǎng)絡(luò)進(jìn)行音樂(lè)分類(lèi);Liu[72]等人用音樂(lè)色譜圖作為輸入,使用雙向LSTM網(wǎng)絡(luò)提取音樂(lè)情感特征;Choi等人[88]使用一個(gè)預(yù)訓(xùn)練的convnet特征,即在一個(gè)經(jīng)過(guò)訓(xùn)練的卷積網(wǎng)絡(luò)中激活多個(gè)層的特征映射的一個(gè)連接的特征向量進(jìn)行音樂(lè)分類(lèi)取得了86.7%的正確率,Yang等人[89]提取音頻STFT譜圖特征使用RNN與CNN混合的復(fù)合神經(jīng)網(wǎng)絡(luò)的音樂(lè)分類(lèi)方法,在GTZAN數(shù)據(jù)集取得了90.2%的音樂(lè)分類(lèi)正確率等等。
隨著音樂(lè)制作數(shù)字化、智能化的發(fā)展,音頻內(nèi)容分析逐漸應(yīng)用于音樂(lè)制作中,通過(guò)使用智能化插件輔助音樂(lè)制作,音樂(lè)從業(yè)人員可以大幅提升工作效率。軟件系統(tǒng)通過(guò)提取、分析音頻特征的方法理解音頻內(nèi)容,自動(dòng)進(jìn)行輔助參數(shù)設(shè)置,如通過(guò)自適應(yīng)增益和均衡參數(shù)進(jìn)行自動(dòng)混音[73],以前所未有的方式優(yōu)化音樂(lè)制作。Man 等人[90]為了探究混音師對(duì)各音質(zhì)維度的控制異同點(diǎn),通過(guò)提取音樂(lè)動(dòng)態(tài)、空間、頻譜共計(jì)20維特征分析了8位混音師的多軌音樂(lè)混音,分析其方差、趨勢(shì)或一致性因素,并由此探討了自動(dòng)混音的發(fā)展前景。ALEX 等人[91]分析了專(zhuān)業(yè)混音師制作的共計(jì)1501 首作品,通過(guò)特征提取和主成分分析得出振幅、亮度、低音和寬度特征對(duì)混音質(zhì)量起重要作用,使用正態(tài)分布獲得這些特征的一般趨勢(shì)和誤差范圍,為智能音樂(lè)制作系統(tǒng)的參數(shù)化指導(dǎo)。Peeters 等人[92]利用隨機(jī)森林分類(lèi)器進(jìn)行音頻特征選擇,對(duì)音質(zhì)進(jìn)行功能分類(lèi)以實(shí)現(xiàn)混音自動(dòng)分組。Martinez 等人[93]將音樂(lè)分為Bass、Guitar、Vocal 和Keys 音軌,提取了1812 維音頻特征,使用隨機(jī)森林、支持向量機(jī)和邏輯回歸三種機(jī)器學(xué)習(xí)方法最終選擇出了6維對(duì)音樂(lè)混音起重要作用的特征,可用于訓(xùn)練機(jī)器學(xué)習(xí)回歸系統(tǒng)預(yù)測(cè)音頻特征值,從而協(xié)助音響工程師更好的進(jìn)行混音。
此外,音頻內(nèi)容分析的引入也提升了生產(chǎn)過(guò)程中的創(chuàng)造性,市面已有比較成熟的音頻處理產(chǎn)品,例如iZotope[82]將基于音頻分析的人工智能技術(shù)應(yīng)用于樂(lè)器分離、人聲提取等音效處理插件,Zplane Vielklang[83]和聲效果器通過(guò)分析主唱和和聲軌跡來(lái)創(chuàng)建具有和聲意義的背景和聲等等。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,互動(dòng)式智能音樂(lè)教學(xué)已經(jīng)隨處可見(jiàn),其目標(biāo)是幫助教師發(fā)現(xiàn)學(xué)生表演中存在問(wèn)題的部分,提供簡(jiǎn)明易懂的分析,就如何改進(jìn)給出具體易懂的反饋,并根據(jù)學(xué)生的錯(cuò)誤和總體進(jìn)步使課程個(gè)性化。通常評(píng)估一個(gè)或多個(gè)性能參數(shù),這些參數(shù)通常與音準(zhǔn)、節(jié)奏[75][76]或音色[77][78]方面的性能準(zhǔn)確性有關(guān)。
Seashore早在20世紀(jì)30年代就提出了運(yùn)用技術(shù)輔助音樂(lè)教育的初步想法。Allvin[74]探索了計(jì)算機(jī)輔助技術(shù)在音樂(lè)教室中的潛力,強(qiáng)調(diào)了使用音頻內(nèi)容分析技術(shù)(如音高檢測(cè))可以在音樂(lè)表演中進(jìn)行輔助評(píng)價(jià),向?qū)W習(xí)者提供反饋意見(jiàn)。Nakano等人提出了一個(gè)自動(dòng)系統(tǒng)來(lái)評(píng)估用戶(hù)的歌唱技巧[94],該系統(tǒng)基于提取的基音間隔精度和顫音特征進(jìn)行訓(xùn)練,評(píng)估結(jié)果表明,該系統(tǒng)能夠以較高的精度將性能分為好或差兩類(lèi)。Mion等人[95]提出了一個(gè)基于音頻特征的音樂(lè)評(píng)價(jià)系統(tǒng),通過(guò)譜質(zhì)心、殘余能量和每秒音符數(shù)等特征提取,對(duì)小提琴、長(zhǎng)笛等獨(dú)奏樂(lè)器的音樂(lè)表情進(jìn)行分類(lèi)。Lerch等人[96]提出了一種基于音頻特征的音樂(lè)成績(jī)自動(dòng)評(píng)估系統(tǒng),通過(guò)完善的和定制設(shè)計(jì)的音頻特征來(lái)描述性能,對(duì)專(zhuān)業(yè)人士給出的評(píng)分進(jìn)行建模和預(yù)測(cè)。
已經(jīng)商業(yè)化應(yīng)用的智能音樂(lè)輔導(dǎo)系統(tǒng)包括SmartMusic3[84]、Yousician4[85]、Music Prodigy5[86]和SingStar6[87]等。
音頻信息提取已經(jīng)被廣泛應(yīng)用到音樂(lè)傳媒行業(yè)中,例如使用基于音頻的音樂(lè)推薦和播放列表生成系統(tǒng)的流媒體服務(wù),使用對(duì)音樂(lè)內(nèi)容的深入了解[50]。除了面向消費(fèi)者外,使用音樂(lè)信息提取還可以自動(dòng)識(shí)別音樂(lè)并創(chuàng)建符合公司品牌形象的播放列表[43]。
Shao 等人[97]提出了一種新的動(dòng)態(tài)音樂(lè)相似性度量方案,該方案提取了80 維音頻特征,基于音樂(lè)的聲學(xué)特征和用戶(hù)訪問(wèn)模式之間的相關(guān)性來(lái)進(jìn)行相似性度量來(lái)向用戶(hù)推薦音樂(lè)。Eck等人[98]從音頻中提取了MFCC、自相關(guān)系數(shù)、常數(shù)Q 變換譜圖等特征從直接MP3文件中預(yù)測(cè)用戶(hù)偏好的音樂(lè)標(biāo)簽。此外,音頻指紋也是一個(gè)重要的應(yīng)用,它用一個(gè)小而獨(dú)特指紋來(lái)表示音頻文件,其目標(biāo)是識(shí)別特定錄音以監(jiān)管歌曲版權(quán)或音樂(lè)元數(shù)據(jù)識(shí)別等等?,F(xiàn)代音頻指紋識(shí)別系統(tǒng)的一個(gè)簡(jiǎn)單前身是使用時(shí)域包絡(luò)段作為指紋[99],用于識(shí)別廣播中的商業(yè)廣告。目前,指紋通常是通過(guò)STFT譜圖特征提取,目前兩種主流提取方法,一是以二進(jìn)制形式對(duì)時(shí)間和頻率上的頻帶能量變化進(jìn)行編碼[100],二是識(shí)別譜圖的顯著峰值,并對(duì)其相對(duì)位置進(jìn)行編碼[101]。
大量的開(kāi)源工具包可以用于提取上述音樂(lè)特征,這些工具各具特色,在實(shí)際應(yīng)用中應(yīng)當(dāng)根據(jù)不同工具的特點(diǎn)來(lái)選用,表1列舉了常用的音頻特征提取工具及其特點(diǎn)。
表1:常見(jiàn)的特征提取工具及特點(diǎn)
特征提取是音樂(lè)信號(hào)分析中關(guān)鍵的環(huán)節(jié),特征的選擇和提取方法直接影響到后續(xù)音樂(lè)信息檢索和音樂(lè)情感識(shí)別算法的性能。良好的音頻特征對(duì)后續(xù)分析的順利進(jìn)展奠定了基礎(chǔ),本文對(duì)傳統(tǒng)音頻特征、音樂(lè)相關(guān)特征和面向深度學(xué)習(xí)的音頻特征做了全面的梳理與總結(jié)。音樂(lè)信號(hào)特征的應(yīng)用目前主要有基于人工提取特征,使用傳統(tǒng)機(jī)器學(xué)習(xí)的研究方法與直接基于音頻數(shù)據(jù),使用深度學(xué)習(xí)的研究方法。前者需要研究者有一定的音頻與音樂(lè)基礎(chǔ)背景,在特征選取方面進(jìn)行探索以選取最優(yōu)的特征完成任務(wù),后者免去了特征提取、篩選的繁瑣步驟,由機(jī)器自動(dòng)理解輸入數(shù)據(jù)?;仡櫼纛l信號(hào)特征的發(fā)展以及當(dāng)前迫切的研究問(wèn)題,領(lǐng)域目前主要面臨著以下挑戰(zhàn):首先是由于音樂(lè)版權(quán)或其他限制導(dǎo)致用于訓(xùn)練復(fù)雜機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)集難以獲取;其次是機(jī)器學(xué)習(xí)系統(tǒng)預(yù)測(cè)性能以及預(yù)測(cè)結(jié)果的可解釋性需要提高;此外,音樂(lè)作為一種藝術(shù)形式,它本身的音樂(lè)語(yǔ)言與樂(lè)理概念與人們感知意義和音樂(lè)特征的關(guān)聯(lián)性也可能成為未來(lái)的研究方向。