亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于優(yōu)化殘差網(wǎng)絡(luò)的多模態(tài)音樂情感分類

        2020-12-31 03:24:30李曉雙韓立新李景仙周經(jīng)緯
        計(jì)算機(jī)與現(xiàn)代化 2020年12期
        關(guān)鍵詞:模態(tài)分類情感

        李曉雙,韓立新,李景仙,周經(jīng)緯

        (河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100)

        0 引 言

        聽音樂是人們?nèi)粘9芾韷毫驼{(diào)節(jié)情緒的最常見方式之一,認(rèn)知科學(xué)家Changizi[1]認(rèn)為音樂帶有情感是因?yàn)槿藗儗?nèi)容和節(jié)奏聯(lián)系起來從而引起的自身的情緒。換言之,音樂是一種情感介質(zhì),傳遞了人類真實(shí)的感受。因此,音樂存在特定的情感標(biāo)簽,顯式的情感標(biāo)簽有利于聽眾在適當(dāng)?shù)臅r(shí)間、地點(diǎn)快速地選擇想聽的歌曲。通過對國內(nèi)外各大音樂平臺的檢索,發(fā)現(xiàn)多數(shù)音樂曲目缺少情感類別標(biāo)簽,即使已存在的情感標(biāo)簽也往往依賴于人為手動(dòng)的添加標(biāo)注,這種情感分類方法極不標(biāo)準(zhǔn)且缺乏可信度。而隨著數(shù)字存儲技術(shù)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展,數(shù)字音樂也出現(xiàn)了嚴(yán)重的信息過載問題。因此音樂情感的自動(dòng)分類也成為了當(dāng)今研究的熱點(diǎn)之一,在音樂檢索和推薦等方面有著廣闊的應(yīng)用前景。

        目前在音樂信息檢索領(lǐng)域,公認(rèn)的音樂情感模型[2-3]有Hevner情感模型和Thayer情感模型。Hevner情感模型主要包括8類情感,在空間中離散分布,存在特定的環(huán)形關(guān)系;Thayer情感模型則從Stree和Energy這2個(gè)維度將音樂的情感分為4類:生機(jī)勃勃、焦慮、令人滿足和沮喪?;诒疚牡难芯績?nèi)容和使用情景更符合二維的情感模型,因此采用Thayer情感模型并在其基礎(chǔ)上做出適當(dāng)?shù)母倪M(jìn),將音樂情感分為4類:快樂(Happy, H)、平靜(Quiet, Q)、悲傷(Sad, S)和憤怒(Anger, A),進(jìn)行音樂情感分類的研究。

        基于傳統(tǒng)機(jī)器學(xué)習(xí)的音樂情感分類研究中音樂情感的特征提取往往與分類器構(gòu)建分開設(shè)計(jì),想要獲得較高的分類準(zhǔn)確率,不僅要提取出更為全面的特征表示,同時(shí)還要構(gòu)建準(zhǔn)確高效的分類器。國內(nèi)外眾多學(xué)者在這2個(gè)方面做出了不同的嘗試工作并取得了不錯(cuò)的成果。對于特征提取,目前研究人員對音頻數(shù)據(jù)提取的表示特征主要包括:中心距(Central Moments)、過零點(diǎn)(Zero Crossing Rate, ZCR)、節(jié)奏(Tempo)、梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC)、色度特征(Chroma Features)、頻譜中心(Spectral Centroid)等;分類器的設(shè)計(jì)也是多種多樣,常用的有基于支持向量機(jī)(Support Vector Machine, SVM),基于邏輯回歸(Logistic Regression, LR)、基于K近鄰(K-Nearest Neighbour, KNN)等[5-6]。由于音樂音頻具有高維、多維、易變性等特點(diǎn),基于傳統(tǒng)機(jī)器學(xué)習(xí)的音樂情感分類方法的準(zhǔn)確率十分依賴于特征提取的優(yōu)劣,該類方法的自動(dòng)情感分類效果不準(zhǔn)確,可信度較低,有很大的提升空間。

        隨著深度學(xué)習(xí)的發(fā)展,越來越多的研究學(xué)者利用深度神經(jīng)網(wǎng)絡(luò)來有效地提取音頻特征從而實(shí)現(xiàn)音樂的情感分類[6-7]。Han等人[7]初步利用深度神經(jīng)網(wǎng)絡(luò)從原始的音頻數(shù)據(jù)中提取了高級特征表示,并驗(yàn)證了深度神經(jīng)網(wǎng)絡(luò)在語音情感識別中的有效性。Hu等人[9]利用卷積神經(jīng)網(wǎng)絡(luò)提取音頻特征來訓(xùn)練音頻數(shù)據(jù),音頻情感分類的準(zhǔn)確率得到了較大幅度的提升。

        目前國內(nèi)外對音樂情感數(shù)據(jù)集的構(gòu)建還處于起步階段,多數(shù)學(xué)者的研究是在自己構(gòu)建的小型數(shù)據(jù)集上學(xué)習(xí),在這領(lǐng)域缺少可信度較高的公共音樂情感數(shù)據(jù)集。針對這一問題,本文利用Free Music Archive (FMA)數(shù)據(jù)集的構(gòu)建思想[10],收集整理了各大音樂平臺上免費(fèi)、合法的音頻數(shù)據(jù),并結(jié)合FMA的部分?jǐn)?shù)據(jù)最終構(gòu)建EMA(Emotion Music Archive)數(shù)據(jù)集(EMA數(shù)據(jù)已共享到https://pan.baidu.com/s/INAaqJahoKUvaYEAQQwoDuw),并邀請數(shù)位專業(yè)音樂人士對EMA數(shù)據(jù)進(jìn)行人工的情感標(biāo)注。

        本文采用卷積神經(jīng)網(wǎng)絡(luò),從音頻的可視化角度去研究音樂的情感分類。首先利用多模態(tài)翻譯將難以提取特征的音樂音頻模態(tài)轉(zhuǎn)換為易于操作的圖像模態(tài),在較大程度上保留了音頻原始信息,大幅度減少了人工成本;同時(shí)為了解決音樂情感公眾數(shù)據(jù)集缺失的問題,在FMA數(shù)據(jù)集的基礎(chǔ)上構(gòu)建了特定的音樂情感數(shù)據(jù)集EMA;此外,為了盡可能多地保留圖像特征點(diǎn)參與計(jì)算,減少信息流失,本文基于深度殘差網(wǎng)絡(luò)對殘差塊進(jìn)行了優(yōu)化改進(jìn),使其更適應(yīng)本文研究的細(xì)顆粒度情感圖像的分類;最后針對常用的Softmax分類器函數(shù)存在類內(nèi)分離、而類間緊湊這一弊端,引入改進(jìn)的Center loss函數(shù)的變體來緩解這個(gè)問題。實(shí)驗(yàn)結(jié)果表明了本文優(yōu)化改進(jìn)后的模型的有效性和適應(yīng)性。

        1 多模態(tài)翻譯

        多模態(tài)翻譯是多模態(tài)機(jī)器學(xué)習(xí)中的一個(gè)核心技術(shù),將數(shù)據(jù)從一種模態(tài)轉(zhuǎn)換(映射)到另一種模態(tài),用不同的模態(tài)生成相同的實(shí)體[11],可以優(yōu)化更好的目標(biāo)。在語音識別與合成、視覺場景描述、跨模態(tài)檢索等領(lǐng)域都有著十分重要的應(yīng)用。

        本文利用多模態(tài)翻譯學(xué)習(xí),將音樂的音頻模態(tài)轉(zhuǎn)換為語譜圖的圖像模態(tài),使得音樂音頻以圖像的形式進(jìn)行處理。語譜圖[12]是一種時(shí)域頻域分析圖,如圖1所示,橫軸代表時(shí)間,縱軸代表頻率,灰色的濃淡表示聲音能量(頻率分量),利用二維圖像來表達(dá)三維頻譜信息,綜合了音頻時(shí)域分析和頻域分析的特點(diǎn),能夠表示音頻隨時(shí)間變化帶來的頻率和聲音能量的動(dòng)態(tài)變化。目前語譜圖已經(jīng)成為音頻特征分析的重要表達(dá)方式,讓音頻數(shù)據(jù)有了更簡單緊湊的表示形式。

        圖1 音樂片段的語譜圖

        本文構(gòu)建使用的EMA數(shù)據(jù)集選取了每首曲目中間的30 s(FMA數(shù)據(jù)集的轉(zhuǎn)儲方式)作為該曲目的代表。同時(shí)為了簡化其音頻表示,將信息縮減至更容易管理的水平,將這30 s的音頻數(shù)據(jù)分割為一個(gè)個(gè)相同時(shí)間的片段,作為代表該曲目的獨(dú)立樣本。

        對分割后的音頻片段采用短時(shí)傅里葉變換進(jìn)行音頻分析和模態(tài)翻譯。短時(shí)傅里葉變換的原理是通過移動(dòng)代表一個(gè)時(shí)序局部化的窗函數(shù)來計(jì)算不同時(shí)間節(jié)點(diǎn)的功率譜,將每幀數(shù)據(jù)圖堆疊從而得到語譜圖。同時(shí)利用奈奎斯特-香農(nóng)采樣定理將44100 Hz的采樣率重建至22050 Hz,一方面消除了可能包含在此頻率上的噪聲;另一方面采用更低的壓縮率保證使用所需的全部信息。

        2 優(yōu)化的殘差網(wǎng)絡(luò)模型

        2.1 深度殘差網(wǎng)絡(luò)

        深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中會因?yàn)榫W(wǎng)絡(luò)層級的加深出現(xiàn)準(zhǔn)確率飽和甚至是退化的現(xiàn)象,這是由于深層次的網(wǎng)絡(luò)訓(xùn)練會出現(xiàn)梯度消失或梯度彌散。針對這一問題,He等人[13]提出了基于殘差的深學(xué)習(xí)框架——深度殘差網(wǎng)絡(luò)(Deep Residual Network,Deep ResNet),它能夠通過增加網(wǎng)絡(luò)深度提高準(zhǔn)確率,同時(shí)采用殘差塊進(jìn)行跳躍連接構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)來解決性能退化問題,其基本思想是在構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)時(shí)通過加入捷徑連接(shortcut connections)支路構(gòu)成基本殘差學(xué)習(xí)單元,利用堆疊的非線性卷積層來擬合一個(gè)殘差映射(residual mapping)。深度殘差網(wǎng)絡(luò)作為一種極深的卷積神經(jīng)網(wǎng)絡(luò)框架,在精度和收斂等方面都展現(xiàn)了很好的特性。ResNet由很多個(gè)殘差單元組成,每個(gè)殘差塊如圖2所示[14],可以表示為:

        yl=h(xl)+F(xl,Wl)

        (1)

        xl+1=f(yl)

        (2)

        h(xl)=xl代表一個(gè)恒等映射,在訓(xùn)練的前向和反向傳播階段,信號可以直接跳躍傳遞,既沒有引入新的參數(shù),也沒有增加計(jì)算復(fù)雜度,卻使訓(xùn)練變得更加簡單,從而解決深層網(wǎng)絡(luò)難以訓(xùn)練和性能退化的問題。

        圖2 殘差網(wǎng)絡(luò)的殘差塊結(jié)構(gòu)

        圖3所示的2種不同的殘差塊結(jié)構(gòu)[14]分別適用于淺層的ResNet網(wǎng)絡(luò)(左圖),如ResNet18/34,和深層的ResNet網(wǎng)絡(luò)(右圖),如ResNet50/101。一般稱整個(gè)結(jié)構(gòu)為一個(gè)“積木塊(building block)”,特別又將右圖的結(jié)構(gòu)稱為“瓶頸設(shè)計(jì)(bottleneck design)”,這2種設(shè)計(jì)結(jié)構(gòu)具有相同的時(shí)間復(fù)雜度。

        圖3 2種不同形式的殘差塊跳躍結(jié)構(gòu)圖

        考慮到實(shí)驗(yàn)配置和計(jì)算能力,最終選擇了ResNet50網(wǎng)絡(luò)結(jié)構(gòu),瓶頸架構(gòu)使用一個(gè)3層的堆棧,如圖3中右圖所示,第一和第三層的1×1的卷積層用來恢復(fù)維度,中間3×3的卷積層成為維度小的瓶頸,目的是為了降低參數(shù)的數(shù)目,相較于左圖所示結(jié)構(gòu),參數(shù)數(shù)目相差了近16倍。

        2.2 優(yōu)化殘差塊結(jié)構(gòu)

        隨著ResNet網(wǎng)絡(luò)模型的深度使用,許多研究者對其網(wǎng)絡(luò)構(gòu)架進(jìn)行了不同的優(yōu)化調(diào)整,使之適用于不同的實(shí)用場景。比較成功的有ResNetXt和DenseNet架構(gòu)。

        ResNetXt是Xie等人[15]提出的關(guān)于ResNet網(wǎng)絡(luò)模型的一種變體,主要思想是在原始的ResNet模型的基礎(chǔ)上引入了Cardinality(基數(shù)),這一超參數(shù)的引入有效地減少了其他超參數(shù)的調(diào)整工作,在文中作者通過實(shí)驗(yàn)驗(yàn)證了ResNetXt架構(gòu)有更強(qiáng)的適應(yīng)性,訓(xùn)練時(shí)間得到了大幅度的縮減。

        DenseNet是Huang等人[16]提出的一種深度優(yōu)化的新框架,借鑒了ResNet架構(gòu)快捷連接的思想,但DenseNet架構(gòu)將所有層直接相連,后續(xù)的輸入由前序所有的特征映射組成,最終通過深度級聯(lián)融合。使用DenseNet架構(gòu)的準(zhǔn)確率得到了明顯的提升,但實(shí)際應(yīng)用成本較高。

        圖4 原始ResNet50網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        本文參考了文獻(xiàn)[17]中ResNet結(jié)構(gòu)的分解圖,在ResNet50網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行優(yōu)化改進(jìn),使之更適合本文研究的內(nèi)容。首先給出原始的ResNet50網(wǎng)絡(luò)架構(gòu)示意圖,如圖4所示。

        ResNet50模型常用的是一個(gè)7×7的卷積核進(jìn)行網(wǎng)絡(luò)輸入,計(jì)算量較大;同時(shí),當(dāng)ResNet50中殘差塊的輸入維度與輸出維度不相同時(shí),常用的方法是用一個(gè)步長為2的1×1的卷積核增加維度,使輸入和輸出維度相同,如圖4中虛線框中內(nèi)容所示。但對于細(xì)顆粒度圖像的分類問題,選用步長為2的卷積層時(shí)會丟失大部分的冗余信息,3/4的特征點(diǎn)沒有參與計(jì)算,這樣會對最后的計(jì)算結(jié)果產(chǎn)生不良的影響,在一定程度上降低了特征信息的可信度。

        本文從上述2個(gè)問題出發(fā),對該模型進(jìn)行了優(yōu)化改進(jìn),改進(jìn)后的ResNet50網(wǎng)絡(luò)架構(gòu)如圖5所示。

        圖5 優(yōu)化后的ResNet50網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        首先,借鑒Inception v2思想將部分的7×7的輸入卷積核替換為3個(gè)3×3的小尺寸卷積核,在保持卷積核感受野相同的同時(shí),減少參與計(jì)算的參數(shù),從而減輕計(jì)算量。對于一個(gè)7×7的卷積,所用的參數(shù)總數(shù)為49 channels,而使用3個(gè)3×3的卷積所用的參數(shù)總數(shù)為27 channels,可以顯著地減少參數(shù)的數(shù)量,縮短計(jì)算時(shí)間。為了盡可能多地保留參數(shù)點(diǎn)參與計(jì)算,在殘差塊的快捷路徑上將步長為2的1×1的卷積替換為步長為1的1×1的卷積,同時(shí)為了保留梯度,使輸入輸出維度一致,在這個(gè)卷積層前添加一個(gè)步長為2的2×2的均值池化層。這樣的改進(jìn)雖然也會丟失部分信息,但相較于步長為2的1×1的卷積層,該方法先經(jīng)過選擇再丟失冗余信息,每個(gè)特征點(diǎn)都參與了計(jì)算,這樣能保留大部分的特征點(diǎn)信息,在一定程度上彌補(bǔ)原始結(jié)構(gòu)信息流失的問題。

        3 改進(jìn)的Softmax分類器

        3.1 Softmax分類器

        在使用深度學(xué)習(xí)實(shí)現(xiàn)多分類的使用場景中,Softmax函數(shù)常常被許多研究者使用。Softmax函數(shù)可以將提取的特征輸入映射到[0,1],并且通過歸一化操作保證了和為1。Softmax的形式為:

        (3)

        其中Wyi和byi分別是對應(yīng)于類yi的最后一個(gè)完全連接層的權(quán)值和偏差,n是類別數(shù)目。對于多分類問題的目標(biāo)函數(shù)常選取交叉熵函數(shù),即:

        (4)

        直觀上看,標(biāo)準(zhǔn)Softmax函數(shù)用一個(gè)自然底數(shù)e先拉大了輸入值之間的差異,然后使用一個(gè)配分將其歸一化為一個(gè)概率分布。在分類問題中,希望模型識別正確的類別的概率接近1,其他的概率接近0,如果使用線性的歸一化方法,很難達(dá)到這種效果,而Softmax函數(shù)通過先拉開差異再歸一化,在多分類問題中優(yōu)勢顯著。在卷積神經(jīng)網(wǎng)絡(luò)的分類問題中,常常使用one-hot編碼器對預(yù)測的類別進(jìn)行處理,目前通用的Softmax函數(shù)是將每個(gè)輸入x非線性放大到exp(x),形式為:

        (5)

        通過公式(3)~公式(5)可知,Softmax函數(shù)會將不同的類別特征分離開,不同類別之間會存在一定的距離,但接近一定程度后距離就保持不變,所以往往會出現(xiàn)同一類別之間的距離有可能大于不同類之間的距離。這一問題在人臉識別領(lǐng)域普遍存在,同時(shí)對于本文研究的音樂情感4分類來說,訓(xùn)練樣本有限,最終的目的是對任意未知的音樂曲目進(jìn)行情感分類,實(shí)際的測試集會是無窮大的概念,上述問題同樣存在,所以需要對Softmax分類函數(shù)進(jìn)行改進(jìn),在Softmax函數(shù)保證情感類別可以區(qū)分的同時(shí),還要考慮更多的未知數(shù)據(jù)特征,盡量保證訓(xùn)練時(shí)提取的特征向量同類之間更加緊湊,不同類之間更加分散。

        3.2 引入Center loss函數(shù)變體

        為了保證分類模型具有類內(nèi)聚斂,類間分離這一特性,近年來也有一些學(xué)者對Softmax做出了相應(yīng)的改進(jìn)[18-21],比較常用的有Angular-Softmax、Center-Softmax。

        Angular-Softmax的思想是將樣本特征之間的分離特性轉(zhuǎn)換為角度邊界學(xué)習(xí),具體公式為:

        (6)

        其中:

        Lθ=‖Wyi‖‖xi‖cos (θyi)+byi

        (7)

        文獻(xiàn)[19]中提到將其權(quán)值歸一化,令‖W‖=1,并使偏置為0,最后通過人臉識別實(shí)驗(yàn)分析驗(yàn)證了該函數(shù)的有效性。但這些特征仍然不具有很好的辨識性,隨著數(shù)據(jù)量的增大,提升效果有限。

        Center-Softmax的思想是最小化類內(nèi)間距,通過引入Center loss來控制特征中心,具體公式為:

        (8)

        其中,cyi代表類別yi的特征中心,它會隨著特征的變化而變化,m代表mini-batch的大小,來更新特征中心。針對本文研究的情感圖像屬于細(xì)顆粒度的圖像分類,所以希望最終分類模型類內(nèi)聚集、類間分離。而Center-Softmax只考慮了類內(nèi)中心化,還有改進(jìn)的空間。

        本文考慮:1)訓(xùn)練樣本到類別中心點(diǎn)的距離最短(借鑒Center loss思想) ;2)訓(xùn)練樣本與其非對應(yīng)類別中心的距離之和最大。對Center loss函數(shù)做出改進(jìn),引入非對應(yīng)類的距離,在控制同類中心點(diǎn)的基礎(chǔ)上,盡可能保證不同類中心點(diǎn)之間的距離最大。改進(jìn)后的Center loss函數(shù)公式為:

        (9)

        分母加1是為了防止分母出現(xiàn)為0的情況。本文改進(jìn)后的分類函數(shù)L_Center_Softmax的最終表示為:

        (10)

        改進(jìn)的損失函數(shù)將中心損失和類間距離相結(jié)合,可以提高特征的可分辨性,保證了特征類內(nèi)間距縮小的同時(shí)增加不同類間的區(qū)分性,增強(qiáng)細(xì)顆粒度圖像分類的適應(yīng)性。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)環(huán)境

        本文實(shí)驗(yàn)是在服務(wù)器上運(yùn)行完成的,其配置為:CPU為Intel(R) Xeon(R) CPU E5-2660 v4;主頻為2.00 GHz;內(nèi)存32 GB,同時(shí)借助Tesla V100 PCIe 32 GB顯卡進(jìn)行加速處理(V100支持16位浮點(diǎn)型的模型訓(xùn)練),使用開源深度學(xué)習(xí)框架Pytorch和開源視覺庫OpenCV3完成本次實(shí)驗(yàn)。

        4.2 數(shù)據(jù)集和參數(shù)設(shè)計(jì)

        本文構(gòu)建的原始EMA數(shù)據(jù)集包含1200首自己收集整理的合法的英文曲目和篩選的FMA數(shù)據(jù)集的部分曲目共計(jì)2000首音樂,選取每首音樂中間的30 s,并分割為一個(gè)個(gè)相同時(shí)間的片段,通過模態(tài)翻譯轉(zhuǎn)換為語譜圖(PNG圖),每張圖譜圖片段的大小設(shè)置為224×224×3(3通道),充分利用音頻數(shù)據(jù)的短模式特性。EMA數(shù)據(jù)集包含宣泄A、快樂H、安靜Q和悲傷S這4類情感,部分?jǐn)?shù)據(jù)集如圖6所示。

        圖6 部分EMA數(shù)據(jù)示意圖

        本次實(shí)驗(yàn)采用十折交叉驗(yàn)證方法,隨機(jī)將4類情感數(shù)據(jù)等比例分成10份,每次選取一份作為測試集進(jìn)行試驗(yàn),最后通過求取10次實(shí)驗(yàn)的平均學(xué)習(xí)準(zhǔn)確率作為最終的交叉實(shí)驗(yàn)結(jié)果。

        實(shí)驗(yàn)中學(xué)習(xí)率初始化設(shè)置為0.01,同時(shí)采用指數(shù)衰減方式依次迭代遞減;使用SGD作為該實(shí)驗(yàn)的優(yōu)化算法,batch size=128;對于深度網(wǎng)絡(luò)卷積操作之后,使用BatchNormalization操作,并以0.5概率進(jìn)行Dropout。

        4.3 音頻時(shí)間段選擇

        通過查閱相關(guān)文獻(xiàn),不同的研究者對音頻片段的長度選擇有所不同。本文將對不同長短的時(shí)間段進(jìn)行實(shí)驗(yàn)對比,從而選擇最適合本研究的音頻時(shí)間段,并以此為基礎(chǔ)進(jìn)行后續(xù)對比實(shí)驗(yàn)。

        本節(jié)在原始的ResNet50模型和本文改進(jìn)后的ResNet50模型上分別進(jìn)行實(shí)驗(yàn),基于EMA數(shù)據(jù)集分別選擇1.5、3、5、7.5 s的音頻段的數(shù)據(jù)進(jìn)行對比。同時(shí)考慮時(shí)間段長度與數(shù)據(jù)樣本量成反比,而樣本數(shù)量越多、覆蓋越全面,學(xué)習(xí)效果越好。所以綜合考慮時(shí)間段與樣本數(shù)量的關(guān)系,在2000首30 s的音頻數(shù)據(jù)上進(jìn)行測試。時(shí)間段和樣本數(shù)量之間的關(guān)系如表1所示。

        表1 時(shí)間段長度和樣本數(shù)量之間的關(guān)系

        2種分類模型對不同時(shí)間段圖像的分類準(zhǔn)確率如表2所示。

        表2 不同時(shí)間段的分類準(zhǔn)確率

        根據(jù)表2的實(shí)驗(yàn)結(jié)果分析可知,隨著時(shí)間片段長度的增加,模型分類的準(zhǔn)確率呈上升趨勢,采用長時(shí)間段的音頻數(shù)據(jù)可以得到更好的情感分類效果。但由于EMA數(shù)據(jù)集的數(shù)據(jù)量限制,采用較長時(shí)間段的音頻數(shù)據(jù)會大幅度減少訓(xùn)練樣本數(shù)量,如表1所示。通過分析表1和表2的實(shí)驗(yàn)結(jié)果可知,采用5 s的時(shí)間段的學(xué)習(xí)效果最好。

        綜合考慮時(shí)間段長度和數(shù)據(jù)樣本量,選擇5 s的時(shí)間段作為本實(shí)驗(yàn)音頻信號的劃分標(biāo)準(zhǔn),并以此為基礎(chǔ)進(jìn)行后續(xù)對比實(shí)驗(yàn)。

        4.4 對比實(shí)驗(yàn)

        在對比實(shí)驗(yàn)中,本文選擇了幾種具有代表性的算法在EMA數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)比較[22]。

        其中SIFI+BOG+SVM[23]是指利用了SIFT特征檢測和BOW+線性核函數(shù)的SVM進(jìn)行音樂語譜圖的情感分類,直接借用開源接口完成;ResNet50_V是指本文優(yōu)化殘差塊后的ResNet50網(wǎng)絡(luò)模型;L-center-Softmax是指用改進(jìn)后的分類器函數(shù)。取10次測試結(jié)果的平均值作為最終的結(jié)果,最終的對比實(shí)驗(yàn)結(jié)果如表3所示。

        表3 分類模型實(shí)驗(yàn)對比結(jié)果

        根據(jù)表3的實(shí)驗(yàn)結(jié)果可以看出,ResNet50相較于傳統(tǒng)的機(jī)器學(xué)習(xí)方法和淺層的網(wǎng)絡(luò)模型,在圖像分類上有顯著的成果,網(wǎng)絡(luò)層次的加深帶來分類精度的大幅度提升;優(yōu)化后的ResNet網(wǎng)絡(luò)在本文研究的問題上也有小幅度的提升,實(shí)驗(yàn)結(jié)果也比較穩(wěn)定,相較于原始的ResNet50網(wǎng)絡(luò)模型分類準(zhǔn)確率提升了2.92個(gè)百分點(diǎn),表明了優(yōu)化后的殘差結(jié)構(gòu)的有效性;替換為L-center-Softmax分類函數(shù)后,模型的分類準(zhǔn)確率也有小幅度的提升,說明改進(jìn)傳統(tǒng)的Softmax函數(shù)也有著積極的效果;實(shí)驗(yàn)中準(zhǔn)確率最高的是優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu)并替換了分類函數(shù)的ResNet50_V+L-Center-Softmax模型,正確率為77.81%,相較于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,分類準(zhǔn)確率提升了26.68個(gè)百分點(diǎn),相較于原始的ResNet50模型,分類準(zhǔn)確率提升了4.27個(gè)百分點(diǎn)。

        同時(shí)為了進(jìn)一步探究本文改進(jìn)的ResNet網(wǎng)絡(luò)模型對音樂情感狀態(tài)的分類情況,衡量分類模型的性能,實(shí)驗(yàn)計(jì)算得出原始的ResNet50模型與本文改進(jìn)后的ResNet50模型的情感4分類混淆矩陣,如表4所示。

        表4 情感分類混淆矩陣

        從表4的分類混淆矩陣可以看出無論是原始的ResNet50模型還是本文優(yōu)化后的模型,對安靜和悲傷2種情感的識別率最高,改進(jìn)后的ResNet50模型對2類情感的分類準(zhǔn)確率分別達(dá)到了80.06%和88.67%,其余2種情感的識別準(zhǔn)確率也達(dá)到可以接受的程度;同時(shí)實(shí)驗(yàn)發(fā)現(xiàn)憤怒和快樂2種情感最容易被混淆;優(yōu)化后的ResNet50模型相較于原始的ResNet50模型在憤怒和悲傷2種情感的識別率有較大幅度的提升,對悲傷的情感識別準(zhǔn)確率提高了5.33個(gè)百分點(diǎn)。通過分類混淆矩陣分析可知本文優(yōu)化改進(jìn)后的模型的穩(wěn)定性,有效地提高了音樂情感分類的準(zhǔn)確率。

        5 結(jié)束語

        本文提出了一種優(yōu)化的深度殘差網(wǎng)絡(luò)模型,在音樂情感分類方面達(dá)到了較好的分類效果。首先,利用模態(tài)翻譯的思想將音樂的音頻模態(tài)轉(zhuǎn)換為圖像模態(tài),保留了足夠多的信息,使研究方向從音頻識別轉(zhuǎn)變?yōu)閳D像分類,更加方便簡單;其次,本文的研究屬于細(xì)顆粒度圖像的分類,對原始的ResNet50模型進(jìn)行了優(yōu)化,使用更小的卷積核代替原始的輸入卷積核從而減少了計(jì)算量;同時(shí)在殘差塊跳躍連接中先經(jīng)過選擇再丟棄冗余信息,保留了大部分的特征點(diǎn)來參與計(jì)算;最后針對Softmax分類器存在類間不聚集的弊端,在引入Center loss函數(shù)控制類別中心的基礎(chǔ)上,同時(shí)增加類間的區(qū)分性,提出了一種新的分類函數(shù)L-Center-Softmax。通過實(shí)驗(yàn),綜合考慮音頻劃分的時(shí)間段長度與數(shù)據(jù)樣本量的關(guān)系,最終選擇將EMA數(shù)據(jù)集按照5 s的時(shí)長進(jìn)行分割,最終構(gòu)建數(shù)據(jù)樣本。不同算法的對比實(shí)驗(yàn)結(jié)果表明,通過優(yōu)化殘差結(jié)構(gòu)、改進(jìn)分類函數(shù)的深度殘差模型對音樂情感分類的準(zhǔn)確率有積極的提升效果,最后的分類混淆矩陣也表明了本文優(yōu)化后的模型的穩(wěn)定性。

        本文的工作仍存在一些不足之處:1)數(shù)據(jù)集。由于缺少公眾的音樂情感數(shù)據(jù)集,自己構(gòu)建的數(shù)據(jù)集的樣本存在明顯的不足,不能充分利用深層次網(wǎng)絡(luò)模型的學(xué)習(xí)能力。2)僅采用單模態(tài)數(shù)據(jù),容易產(chǎn)生數(shù)據(jù)缺失或存在較大噪聲等問題,在實(shí)際使用過程中很容易受到其影響,所以通過多模態(tài)融合來提高音樂情感分類的準(zhǔn)確率也是后續(xù)的研究重點(diǎn)。

        猜你喜歡
        模態(tài)分類情感
        分類算一算
        如何在情感中自我成長,保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        分類討論求坐標(biāo)
        如何在情感中自我成長,保持獨(dú)立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        国产中出视频| 精品亚洲国产成人蜜臀av| 亚洲精品一区三区三区在线| 男女av一区二区三区| 国产欧美精品一区二区三区四区| 精品久久久久久成人av| 亚洲av永久无码精品国产精品| 一区二区三区日韩亚洲中文视频| 日韩精品一区二区av在线| 午夜视频在线观看日本| 日本一区二区视频在线| 99精品人妻无码专区在线视频区 | 综合色天天久久| av免费不卡一区二区| 激情亚洲一区国产精品久久| 免费国产在线精品一区| 无套内谢的新婚少妇国语播放| 另类亚洲欧美精品久久不卡| 一区二区在线视频大片| 亚洲女同免费在线观看| 欧美日韩一区二区三区在线观看视频| 久热这里只有精品视频6| 国产午夜精品一区二区三区不| 99久久精品国产一区色| 青青草手机在线观看视频在线观看 | 中文亚洲第一av一区二区| 日本一区二区三区光视频| 影音先锋男人av鲁色资源网| 又色又爽又黄又硬的视频免费观看 | 丰满的人妻hd高清日本| 久久97精品久久久久久久不卡| 国产一区二区三区韩国| 亚洲性感毛片在线视频| 老熟妇乱子伦牲交视频| 亚洲熟少妇在线播放999| 国产精品系列亚洲第一| 91久久精品美女高潮喷白浆| 最新国产精品拍自在线观看| 人妻久久久一区二区三区| 五十路熟女一区二区三区| 强d乱码中文字幕熟女1000部|