趙一鳴
(榆林學(xué)院 藝術(shù)學(xué)院, 陜西 榆林 719000)
大數(shù)據(jù)時(shí)代,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,對(duì)海量數(shù)據(jù)進(jìn)行挖掘和提煉并轉(zhuǎn)換為有價(jià)值信息的技術(shù)逐步變得大眾化、成熟化[1]。而音樂(lè)信息檢索和識(shí)別也隨著數(shù)字媒體經(jīng)濟(jì)的發(fā)展壯大而成為眾多學(xué)者研究的熱門(mén)領(lǐng)域,進(jìn)入20世紀(jì)以來(lái),美國(guó)的學(xué)者Krishna A G率先提出了基于改進(jìn)的高斯模型和KNN分類(lèi)相結(jié)合算法用于單樂(lè)器的音樂(lè)配樂(lè)識(shí)別[2]。來(lái)自英國(guó)的研究人員Essid S在2012年提出了將梅爾頻率倒譜與支持向量機(jī)結(jié)合的分類(lèi)算法,用于對(duì)多種組合樂(lè)器的配樂(lè)識(shí)別,實(shí)驗(yàn)后發(fā)現(xiàn)該算法用于K最近鄰分類(lèi)算法,將識(shí)別準(zhǔn)確率提升到了90%[3]。國(guó)內(nèi)研究人員沈駿針對(duì)中國(guó)傳統(tǒng)樂(lè)器的配樂(lè)識(shí)別提出了基于樂(lè)器本身特征增強(qiáng)后的特征識(shí)別分類(lèi)算法,并對(duì)經(jīng)典的KNN算法與卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行了結(jié)合,該算法可以提高中國(guó)傳統(tǒng)樂(lè)器的配樂(lè)識(shí)別,但是準(zhǔn)確率為92%,對(duì)比Essid S提出的算法略有提升,但是算法執(zhí)行過(guò)程中比較耗費(fèi)資源[4]?;谇叭搜芯康幕A(chǔ)上,考慮到深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域強(qiáng)大的特征提取能力,本文創(chuàng)新性地探索了深度學(xué)習(xí)的相關(guān)算法在音樂(lè)配樂(lè)分類(lèi)識(shí)別方面的研究與應(yīng)用,在經(jīng)典神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入特征值向量,首先對(duì)數(shù)據(jù)集樣本進(jìn)行預(yù)處理,結(jié)合特征變化參數(shù),強(qiáng)化特征值,然后,基于改進(jìn)的神經(jīng)網(wǎng)絡(luò)算法,建立深度監(jiān)督學(xué)習(xí)后的音樂(lè)配樂(lè)的分類(lèi)模型,并對(duì)測(cè)試樣本進(jìn)行模型的應(yīng)用比對(duì)測(cè)試,實(shí)驗(yàn)證明,改進(jìn)后算法應(yīng)用于配樂(lè)識(shí)別的識(shí)別率高達(dá)98.4%,明顯優(yōu)于其他經(jīng)典算法。
卷積神經(jīng)網(wǎng)絡(luò)采用人體神經(jīng)組織的結(jié)構(gòu)模式,設(shè)置卷積層以及為其提供關(guān)聯(lián)的下采樣層兩層網(wǎng)絡(luò)關(guān)聯(lián)結(jié)構(gòu)模型[5-6]。其采用一定的規(guī)則連接上下兩層和相鄰的神經(jīng)組織,建立各個(gè)層級(jí)中強(qiáng)制的、局部的關(guān)聯(lián)關(guān)系,具體如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)圖
由圖1可知,每個(gè)相鄰層級(jí)的神經(jīng)元都強(qiáng)制地互相連接,存在關(guān)聯(lián)關(guān)系,該結(jié)構(gòu)在局部空間的輸入濾波功能具有強(qiáng)適應(yīng)性[7]。其主要包括數(shù)據(jù)輸入層和隱含層,每種隱含層細(xì)分為卷積層、采樣層和池化層。算法的核心是卷積和池化,使用監(jiān)督學(xué)習(xí)的模式構(gòu)建訓(xùn)練網(wǎng),主要包括前項(xiàng)訓(xùn)練傳播和反向訓(xùn)練傳播兩部分,前向訓(xùn)練傳播對(duì)輸入的訓(xùn)練樣本矩陣進(jìn)行分層變化,每一層的輸出即為下一層的輸入,最終提取卷積特征矩陣,具體算法如式(1)。
(1)
其中,s(i,j)為特征向量矩陣;輸入數(shù)據(jù)為二維矩陣M×N;wm,n為M×N矩陣的卷積核;wb為偏移向量。在反向訓(xùn)練傳播過(guò)程中,主要通過(guò)采用梯度下降算法,計(jì)算損失函數(shù),迭代求出最小誤差的極限值,從而達(dá)到將訓(xùn)練樣本的數(shù)據(jù)值與計(jì)算后的輸出值無(wú)限接近的目的。其中,常用的損失函數(shù)的計(jì)算方法如式(2)。
(2)
其中,L代表?yè)p失;x代表輸入的數(shù)據(jù)樣本;a代表輸出結(jié)果;y代表標(biāo)簽項(xiàng)值;n代表樣本數(shù)量。
深度置信網(wǎng)絡(luò)包括隱藏層和可見(jiàn)層,層間采用全連接模式[8-11],其結(jié)構(gòu)如圖2所示。
圖2 深度置信網(wǎng)絡(luò)的結(jié)構(gòu)示意圖
圖中,h代表神經(jīng)元的向量值;w代表隱藏層與可見(jiàn)層之間的連接權(quán)值矩陣。DBN樣本模型訓(xùn)練用受限波爾茲曼機(jī)構(gòu)成神經(jīng)網(wǎng)絡(luò)感知,其模型如式(3)。
(3)
式中,vi和ci分別代表了第i個(gè)顯示層和及其對(duì)應(yīng)的顯示神經(jīng)元的偏置;wij代表顯示層與隱藏層之間的神經(jīng)元連接的權(quán)重值;hi代表第j個(gè)隱藏層;對(duì)應(yīng)的di代表了隱藏層神經(jīng)元的偏執(zhí)值。式中的θ={wij,ci,di}。
其中,權(quán)重值wij的計(jì)算方法為式(4)。
wij=η[Edata(vihj)-Emod(vihj)]
(4)
式中,i和j分別代表可見(jiàn)層節(jié)點(diǎn)數(shù)量以及隱藏層節(jié)點(diǎn)數(shù)量;η代表學(xué)習(xí)的效率值;同時(shí)vi和hj代表指二值變量;Edata和Emod代表訓(xùn)練的樣本值以及輸出樣本的期望值。
CNN模型應(yīng)用于特征提取的優(yōu)勢(shì)在于計(jì)算復(fù)雜度低,特征提取速度快。DBN模型的優(yōu)勢(shì)在于克服了神經(jīng)網(wǎng)絡(luò)算法中對(duì)于數(shù)據(jù)的要求較高、收斂速度非常慢且局部解決最優(yōu)全局差的問(wèn)題,結(jié)合兩個(gè)特征學(xué)習(xí)算法的優(yōu)勢(shì),本文提出了基于CNN&DBN的特征學(xué)習(xí)算法提取音樂(lè)配樂(lè)的特征,完成特征配樂(lè)的識(shí)別,并經(jīng)過(guò)反復(fù)的比對(duì)試驗(yàn)、調(diào)優(yōu),最終達(dá)到了識(shí)別準(zhǔn)確率最高。
具體的執(zhí)行模擬過(guò)程如圖3所示。
圖3 CNN&DBN的特征學(xué)習(xí)算法結(jié)構(gòu)示意圖
執(zhí)行的具體步驟如下。
(1) 首先進(jìn)行輸入數(shù)據(jù)集的預(yù)處理,主要是通過(guò)音高特征矩陣和常量變化完成噪音過(guò)濾和音量校準(zhǔn),預(yù)處理后,得到音樂(lè)配樂(lè)的樣本數(shù)據(jù)集合。
(2) 采用基于CNN模型的改進(jìn)音樂(lè)配樂(lè)訓(xùn)練模型,對(duì)樣本進(jìn)行監(jiān)督性學(xué)習(xí)訓(xùn)練,生成訓(xùn)練特征樣本模型。
(3) 引入原始的測(cè)試樣本集合,也需要對(duì)測(cè)試集合進(jìn)行降噪處理。處理后的測(cè)試結(jié)合,輸入CNN提取的特征樣本模型。提取新的特征向量。
(4) 將提取的特征向量與原始樣本集的分類(lèi)集合Y組合生成新的輸入樣本集合,并將樣本集合作為輸入集合,輸入到DBN模型中進(jìn)行訓(xùn)練,并得出最終的分類(lèi)訓(xùn)練結(jié)果。
本文在新的模型算法的研究過(guò)程中,基于音樂(lè)配樂(lè)多音質(zhì)結(jié)合的復(fù)音情況,對(duì)CNN模型算法進(jìn)行了適應(yīng)性的調(diào)整,引入模擬人體的聽(tīng)覺(jué)關(guān)注點(diǎn)搭建了配樂(lè)識(shí)別分類(lèi)基準(zhǔn)模型,該模型的關(guān)鍵在于由于人的大腦結(jié)構(gòu)特點(diǎn)決定其在聽(tīng)到音樂(lè)時(shí)會(huì)自動(dòng)過(guò)濾篩選,注意力會(huì)關(guān)注在音樂(lè)的旋律和主聲音聲部,從而識(shí)別出樂(lè)器配樂(lè)的不同,因此,在本文提出的模型建模的方法中,模擬人腦的操作過(guò)程,結(jié)合音樂(lè)配樂(lè)的樂(lè)器特點(diǎn),引入關(guān)注度模型后,重點(diǎn)對(duì)于不同樂(lè)器成分對(duì)應(yīng)的波段設(shè)置相對(duì)應(yīng)的特征權(quán)重值。具體的模型執(zhí)行結(jié)構(gòu)如圖4所示。
圖4 基于關(guān)注點(diǎn)網(wǎng)絡(luò)的配樂(lè)識(shí)別分類(lèi)基準(zhǔn)BNN模型流程圖
如圖4所示,基于關(guān)注點(diǎn)網(wǎng)絡(luò)的BNN模型分為卷積層、卷積層、批量標(biāo)準(zhǔn)化層、Rule函數(shù)層、最大池化層等。其中,池化層部分引入關(guān)注度網(wǎng)絡(luò)和卷積層,從而生成帶有權(quán)重值的特征向量,并對(duì)特征向量的和使用Sigmoid函數(shù)獲得識(shí)別分類(lèi)結(jié)果。關(guān)注度網(wǎng)絡(luò)包含了卷積層、全連接層和對(duì)應(yīng)的歸一化函數(shù),其中特征矩陣卷積后會(huì)變成適量矩陣rn,每個(gè)適量矩陣輸入全連接層會(huì)得到關(guān)注度適量vn=fall(rn:θall),設(shè)置θall作為全連接層的非參數(shù),對(duì)全部關(guān)注度的矢量的各個(gè)分量上使用歸一化函數(shù)記性標(biāo)準(zhǔn)化,并對(duì)M個(gè)標(biāo)準(zhǔn)化后的適量求和得an,得出關(guān)注度權(quán)重值?n,如式(5)、式(6)。
(5)
(6)
基于關(guān)注點(diǎn)網(wǎng)絡(luò)的BNN模型其流程與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法類(lèi)似,核心在于卷積層的關(guān)注度因子的引入,該算法中單層卷積的運(yùn)算次數(shù)以及空間占用情況如式(7)、式(8)。
(7)
(8)
本文選用的數(shù)據(jù)樣本是以3秒的時(shí)長(zhǎng),包含各種樂(lè)器的音樂(lè)配樂(lè)片段,而樂(lè)器訓(xùn)練樣本上對(duì)每種樂(lè)器音樂(lè)包含3 120個(gè)樣本,共計(jì)21 840個(gè)配樂(lè)樣本。其中樂(lè)器選擇670個(gè)測(cè)試樣本,共計(jì)4 690個(gè)測(cè)試樣本。預(yù)處理過(guò)程中,首選對(duì)樣本降噪后,添加標(biāo)簽,使用訓(xùn)練集的模型,測(cè)試集與訓(xùn)練集進(jìn)行交叉測(cè)試,同時(shí)也驗(yàn)證了對(duì)于測(cè)試樣本配樂(lè)的預(yù)測(cè)能力,最后將預(yù)測(cè)的配樂(lè)標(biāo)簽與實(shí)際配樂(lè)分類(lèi)進(jìn)行比較,最終的準(zhǔn)確率為平均計(jì)算值的結(jié)果。
結(jié)合對(duì)傳統(tǒng)的分類(lèi)算法性能的研究,發(fā)現(xiàn)深度學(xué)習(xí)的樣本訓(xùn)練過(guò)程需要耗費(fèi)巨大的算力且執(zhí)行時(shí)間較長(zhǎng),常規(guī)的實(shí)驗(yàn)環(huán)境極容易造成實(shí)驗(yàn)過(guò)程中斷和系統(tǒng)宕機(jī)的情況,通常需要約為周甚至月為單位進(jìn)行比對(duì)實(shí)驗(yàn),才能到達(dá)模型平穩(wěn)運(yùn)行的基本狀態(tài),同時(shí),還要開(kāi)展其他算法的對(duì)比實(shí)驗(yàn)。為了提高性能,本文采用了有限循環(huán)法進(jìn)行實(shí)驗(yàn),限制了執(zhí)行周期和循環(huán)次數(shù),經(jīng)過(guò)反復(fù)測(cè)算選擇了執(zhí)行9次循環(huán),實(shí)驗(yàn)主要對(duì)測(cè)試本文的CNN&DBN的模型與決策樹(shù)、最近鄰算法KNN、支持向量機(jī)SVM進(jìn)行了準(zhǔn)確率比對(duì)實(shí)驗(yàn),以及隨著循環(huán)次數(shù)的增加對(duì)應(yīng)執(zhí)行準(zhǔn)確率的變化比照實(shí)驗(yàn),結(jié)果發(fā)現(xiàn)在循環(huán)次數(shù)為9時(shí),性能最佳,其結(jié)果如表1和圖5所示。
圖5 不同循環(huán)次數(shù)的各個(gè)算法準(zhǔn)確率對(duì)比圖
表1 不同算法結(jié)果對(duì)比
對(duì)比其他經(jīng)典算法識(shí)別的平均準(zhǔn)確率上,由于本文算法結(jié)合了CNN對(duì)于特征提取的優(yōu)勢(shì)與DBN算法的執(zhí)行效率高的特點(diǎn),并在CNN算法中引入了關(guān)注度權(quán)重,因此,無(wú)論是準(zhǔn)確性還是性能兩方面都有極大的提升,明顯高于其他算法。
同時(shí),對(duì)比加入關(guān)注度權(quán)重的CNN模型,其配樂(lè)識(shí)別精度與其他模型對(duì)比如表2所示。
表2 不同算法對(duì)于各個(gè)配樂(lè)識(shí)別結(jié)果對(duì)比
從表2的數(shù)據(jù)可以得出結(jié)論,本文提出的基于CNN&DBN的配樂(lè)識(shí)別算法,在對(duì)各種識(shí)別的分?jǐn)?shù)和整體的精度上,對(duì)比其他經(jīng)典模型對(duì)于相同數(shù)據(jù)集的應(yīng)用識(shí)別結(jié)果有明顯的提升,尤其是對(duì)小提琴的識(shí)別提升效果更為明顯,并且本文的模型對(duì)比其他模型,配樂(lè)整體識(shí)別更均勻,有效地改善了不同類(lèi)別識(shí)別效果不均衡的問(wèn)題。
深度學(xué)習(xí)與音樂(lè)推薦的深度融合在進(jìn)入智能化、大數(shù)據(jù)時(shí)代逐步成為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點(diǎn),本文改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行音樂(lè)配樂(lè)特征向量的識(shí)別和提取,并引入深度置信網(wǎng)絡(luò)(DBN)的執(zhí)行的高效性,將CNN提取的特征向量集作為DBN的輸入集,建立了基于CNN&DBN的特征學(xué)習(xí)算法提取音樂(lè)配樂(lè)。經(jīng)過(guò)實(shí)驗(yàn)比對(duì)發(fā)現(xiàn),本文提出的模型在對(duì)多種不同類(lèi)型的復(fù)音配樂(lè)的識(shí)別能力上,展示出了更精準(zhǔn)的識(shí)別能力和良好的執(zhí)行性能,改進(jìn)后算法應(yīng)用于配樂(lè)識(shí)別的識(shí)別率高達(dá)98.4%,明顯優(yōu)于其他經(jīng)典算法,實(shí)驗(yàn)數(shù)據(jù)充分說(shuō)明了本文算法在對(duì)音樂(lè)配樂(lè)識(shí)別方面的明顯優(yōu)勢(shì)。