亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于高斯混合模型的音樂情緒四分類研究

        2015-10-12 02:18:58陸陽郭濱白雪梅
        關鍵詞:分類情緒特征

        陸陽,郭濱,白雪梅

        (長春理工大學 電子信息工程學院,長春 130022)

        基于高斯混合模型的音樂情緒四分類研究

        陸陽,郭濱,白雪梅

        (長春理工大學電子信息工程學院,長春130022)

        針對音樂情感復雜難以歸類的問題,提出了一種在四分類坐標下建立高斯混合模型進行音樂信號歸類的研究方法。在建立模型的基礎上,創(chuàng)新地為表示情緒特性的軸兩端建立模型使其轉(zhuǎn)換成二層分類器進行加權判別。結果表明,為表示情緒特性的軸建立模型且權值分配在0.7和0.3的條件下,音樂的分類工作可以取得最優(yōu)結果,其結果明顯優(yōu)于直接為每類情緒建立模型的結果。

        高斯混合模型;音樂情緒分類;加權判決

        隨著計算機網(wǎng)絡等一系列新興媒體的到來,音樂逐漸滲透到我們?nèi)粘I钪械母鱾€角落。所以在海量信息的環(huán)境下,人們迫切需要對音樂信號進行有效的識別和管理。但是由于音樂信號的旋律多變性,頻率復雜性等特點,使我們無法準確地描述一首音樂到底屬于哪種類別。針對這種情況,結合前人研究的成果,本文對音樂信號進行簡單的四分類研究,并進行了兩種判別方法的比較。

        本文使用的四分類模型圖如圖1所示,根據(jù)Thayer模型[1]轉(zhuǎn)換而來。圖中,縱軸代表音樂情緒能量和強烈的程度的指標(Arousal),橫軸代表音樂情緒的正面或負面的指標(Valence)[1],由此形成了簡單的四分類坐標系。如圖所示,把音樂信號歸為平靜、悲傷、激動、愉快四種典型的音樂情緒風格。在此分類模型下,再進一步使用高斯混合模型實現(xiàn)音樂的歸類。

        圖1 音樂情緒四分類模型圖

        1 高斯混合模型及EM算法

        1.1高斯混合模型簡介

        高斯混合模型(Gaussian mixture model,GMM)是一種經(jīng)常被用來描述混合密度分布的模型,即多個高斯分布的混合分布模型。在處理分類問題時,它能簡單而有效地體現(xiàn)同一類內(nèi)數(shù)據(jù)在特征空間中的分布特點,即同一類內(nèi)的數(shù)據(jù)在特征空間中的分布既具有分散性又具有聚合性[2]。所謂聚類,就是按照一定的標準將事物進行區(qū)分和分類的過程。這一過程可以是無監(jiān)督的,即在此過程中沒有任何關于分類的先驗知識,僅僅靠事物之間的相似性作為劃分類的標準。聚類分析則指的是用數(shù)學的方法研究和處理給定對象的分類問題,它是一個將數(shù)據(jù)集劃分為若干聚合類的過程,它將相似度較高的數(shù)據(jù)對象劃分為一類,而將相似度較低的數(shù)據(jù)對象區(qū)分成其他類。

        高斯混合模型是由單一高斯概率密度函數(shù)引申而來的,由于高斯混合模型能夠平滑地近似模仿任意形狀的密度分布情況[3],因此近年來經(jīng)常被用于語音、圖像識別等方面,并且取得了良好的效果。可以用提取到的音樂特征,通過訓練特征獲取模型參數(shù)的方法獲得不同情緒類別的特征模板,然后進行音樂樣本的分類判斷。

        在高斯混合模型中,待聚類的數(shù)據(jù)可以看成是來自于多個正態(tài)分布的混合概率分布聚合而成,而這些正態(tài)分布代表著不同的類,所以通??梢圆捎酶鱾€正態(tài)分布的相關參數(shù)(均值、權值與協(xié)方差)作為類的參數(shù)。

        混合高斯模型的概率密度函數(shù)可以用式(1)表示:

        N(X;μi;∑i)為每個子分布的P維聯(lián)合高斯概率分布,如式(3)表示:

        由于音樂的特征參數(shù)通常具有平滑的概率密度分布,所以有限數(shù)目的高斯密度函數(shù)足以對音樂的特征參數(shù)形成一種平滑逼近。適當?shù)剡x擇高斯混合模型的均值、協(xié)方差和概率權重,可以完成對一個概率密度分布模型的建模。為了簡化計算,通常可以使協(xié)方差矩陣∑i為對角陣,以減少需要估計的未知變量的數(shù)目,而且不影響最后結果。本文的音樂情緒建模過程依托于高斯混合模型,用各個高斯分布的參數(shù)來表示音樂特征的統(tǒng)計特性[4]。

        1.2Expectation-Maximization算法

        高斯混合模型的模型參數(shù)λ通??梢允褂靡唤M訓練數(shù)據(jù),按照某種準則來求出,使得到的高斯混合模型的模型參數(shù)能夠最好地描述給出的訓練數(shù)據(jù)的概率分布。這就是最大似然估計(Maximum Likelihood)的思想。首先可以假設 X=為給定的用于訓練的特征矢量序列,而GMM的似然度可表示為,訓練的目的是為了尋找能使P(X|λ)最大的一組λ。由于高斯混合模型的計算量較大且參數(shù)λ通常為非線性函數(shù),因此本文采用的求解方法是Expectation-Maximization算法。

        Expectation-Maximization(EM)算法是一種從不完全數(shù)據(jù)或有數(shù)據(jù)丟失的數(shù)據(jù)集中求解出模型分布參數(shù)的一種最大似然估計方法。通常在下列兩種情況下,應該考慮用EM算法去估計參數(shù):一是由于觀測過程本身的限制或錯誤,造成了觀測數(shù)據(jù)的丟失;二是參數(shù)的最大似然函數(shù)直接求解十分困難,通過假設隱含數(shù)據(jù)的存在并且引入隱含數(shù)據(jù),使得函數(shù)的優(yōu)化可以變得容易。在模式識別領域的問題中,后一種情況更為常見。這時就需要引入隱含數(shù)據(jù)和原來的不完全數(shù)據(jù)組成新的完全數(shù)據(jù)。高斯混合模型的參數(shù)估計求解就屬于第二種情況。

        EM算法是一種遞歸最大似然算法,是從一組訓練樣本序列中來估計模型的參數(shù)。求解過程通常分為兩步:第一步是要假設知道各個高斯模型的參數(shù)(可以初始化一個,或者用Kmeans方法設置),去估計每個高斯模型的權值;第二步是基于現(xiàn)有估計出來的權值,再去確定高斯模型的參數(shù)。重復這兩個步驟,直到波動很小,也就是近似地達到極值,以此來估計模型參數(shù)。

        EM算法迭代的過程(第n+1步)如下:

        混合權值重估迭代公式

        均值重估公式

        方差重估公式

        三個公式中的后驗概率p(n)(λi|Xt),表示為:

        以上公式執(zhí)行了求期望(E步)和最大化(M步)。對EM算法中的E步、M步不斷重復迭代,當找到似然函數(shù)的極大值時停止迭代,此極大值通常即為所求結果。

        2 音樂信號的特征提取

        為了能真實有效的反應出音樂信號跟情緒有關的特征,本文提取了共37維特征用于實驗。

        2.1梅爾倒譜系數(shù)(MFCC)

        人耳聽覺是一個復雜的非線性的系統(tǒng),針對不同的頻率人耳展現(xiàn)出不同的靈敏度。其中對音頻中低頻的響應是線性的,對高頻部分的響應則近似于對數(shù)響應[5]。除此之外,MFCC也具有對卷積信道失真進行補償?shù)哪芰Γ?]。

        Mel頻率與實際頻率的數(shù)值計算關系可以表示為:

        MFCC的求解步驟通常如下:

        (1)計算之前要確定好每幀的幀長和幀移,對每幀數(shù)據(jù)進行預加重,然后進行離散傅里葉變換,計算模的平方得出離散功率譜S(n)。

        (2)使用臨界帶通濾波方法,采用個數(shù)為M個的三角濾波器組Hm(n),利用之前的公式,將實際頻率轉(zhuǎn)化到梅爾頻率上。再計算S(n)經(jīng)過了這一濾波步驟之后的功率值,得出N個參數(shù)pm。

        (3)計算pm的自然對數(shù),得到mj。

        (4)對mj計算離散余弦變化,得到梅爾倒譜系數(shù)。

        式中,MFCCi表示第K個MFCC,N代表帶通濾波器的個數(shù),mj是帶通濾波器輸出幅值取平方的對數(shù)。通常的MFCC只表現(xiàn)了語音的靜態(tài)特征,如果想要描述語音的動態(tài)特征則可以計算MFCC的一階差分。研究結果表明,MFCC能夠較好的作為音頻分類的特征并且能夠提高音頻分類的精確度[7]。MFCC的參數(shù)K通常取到12~16,根據(jù)實際需要靈活改變。根據(jù)之前學者研究的經(jīng)驗,本文MFCC的K取值為13。

        2.2短時時域特征

        2.2.1短時能量

        音樂信號的能量隨時間的變化明顯,一般清音的能量要比濁音的能量小很多。音樂的短時能量分析,為這些幅度的變化規(guī)律提供了一個和適當?shù)拿枋龇椒ǎ?]。離散后的音樂信號x(n)的短時能量定義為:

        式中h(n)=w2(n)。所以,短時信號可以看成是一個信號的平方通過一個濾波器的輸出。

        2.2.2短時平均過零率

        短時平均過零率是音樂時域分析中最常用的一種特征參數(shù),它是指平均每幀信號內(nèi)通過零值的次數(shù),其實質(zhì)是音樂信號采樣點符號變化的次數(shù)。其公式為:

        式中sgn[*]是符號函數(shù)。

        2.2.3短時自相關

        短時自相關是音樂采樣信號的第n個樣本點附近用短時窗截取一段信號,其公式定義為:

        式中,n代表窗函數(shù)從n點開始加入。

        2.3子帶特征

        按照倍頻程規(guī)則把每一幀短時頻譜分成7個子帶,所以每個子帶就包含了若干頻譜的分量。把每個子帶上最大的頻譜分量、最小的頻譜分量和平均值組合成特征序列。每一幀有7個子帶,每個子帶有三個特征值,所以每一幀具有21維特征值。它能有效地表達頻譜能量在每一個子帶上的分布情況。

        3 實驗過程及結果

        3.1實驗過程

        本文主要采用了兩種實驗方法進行比較。第一種是直接對四種情緒類型進行建模,即分別對激動、愉快、平靜、悲傷四種情緒建立模型GMME、GMMH、GMMP、GMMS。再分別求出每一個測試樣本在這四個GMM下的后驗概率并進行比較,后驗概率最大的即認為被判決為該種情緒的音樂。

        第二種是分別對表示情緒強烈程度的軸arousal的正負兩端建立模型GMMA+和GMMA-,即用情緒強烈程度高的表示激動和平靜的訓練樣本訓練GMMA+,用情緒強烈程度低的表示愉快和悲傷的訓練樣本訓練GMMA-,使這兩個模型表示情緒強烈的正負。以一個測試樣本來說明,就是求出這個測試樣本在這兩個模型上的后驗概率然后根據(jù)后驗概率判斷其更接近于哪一端。同理,建立為表示情緒正負的軸valence的兩端建立模型GMMV+和GMMV-。在這種方法下,實際上默認組成了一個兩層分類器,即一個測試樣本要先經(jīng)過一個分類器判斷情緒的強烈,再經(jīng)過一個分類器判斷情緒的正負。通常在涉及到多層分類器的問題上都會有權值的分配問題。對于權值的分配本文進行了7次試驗來觀察不同權值下的分類效果,并進行比較。

        在實驗之前需要對音樂進行預處理。為了計算方便,本文對每首音樂只提取了最能代表其特征的30s的音樂片段。提取片段后需要進行預加重、歸一化及加窗分幀處理。本文預加重的系數(shù)為-0.9375,所加窗為漢明窗。在默認采樣頻率為44100的條件下,分幀的幀長選為1024,幀移為512。每種情緒的訓練音樂有10首,共計40首。每種情緒類別的測試音樂有5首,共計20首。

        3.2直接建立情緒GMM的實驗結果

        由于GMM階數(shù)的選定尚無統(tǒng)一標準,為了后續(xù)實驗的進行,需要對階數(shù)M進行比較選取,通常階數(shù)M的選擇為16、32、64,所以本文在前人研究的基礎上對三種階數(shù)下的GMM分類效果分別進行實驗,結果見表1。

        表1 不同階數(shù)對GMM正確率的影響

        由表1可知,M等于32和64時正確個數(shù)相同,但是由于M等于64時增加了計算量,而且結果并沒有明顯的優(yōu)勢,所以接下來的實驗中的M選為32。而且M等于64時可能會出現(xiàn)過擬合現(xiàn)象不利于構造靈活可用的模型。M等于16時正確個數(shù)偏低是因為出現(xiàn)了欠擬合的情況,即16階的高斯混合模型不足以表達實際的訓練樣本的特征。

        3.3建立軸GMM加權后分類的實驗結果

        表2 不同權值對正確率的影響

        從表2結果來看,當A、V權值分配0.6 0.4和0.7 0.3時的正確率一致,所以為了更進一步的區(qū)分,再加入十首測試樣本,即使用30首測試樣本進行測試。結果如表3所示。

        表3 增加測試樣本后兩權值的比較

        結果表明,在30首測試樣本的測試下,權值分配為0.7和0.3取得的效果較好。之所以在20首測試樣本下有結果一樣的情況產(chǎn)生原因主要有兩條:一是所選擇的訓練樣本和測試樣本數(shù)過少,沒有更明晰的分辨出優(yōu)劣性;二是所選擇的訓練歌曲范圍不夠廣或者類型判別不夠準確,導致在判別時會出現(xiàn)模糊的狀況。

        4 結論

        本文結合高斯混合模型對四分類音樂情緒進行了研究,結果表明在加權0.7、0.3的情況下取得的效果最好。與王磊[9]做過的基于Adaboost算法的分類結果相比較來看,并沒有達到97%的準確率,可能是因為本文特征選取的不夠全面,但大體結果一致。本文在情緒分類上僅僅區(qū)分了易于辨認的四類情緒,但是音樂表達的情緒遠遠不止于此,所以在類別的數(shù)量上還有需要增加的空間。

        [1] 徐凱春.音樂情感參數(shù)化系統(tǒng)的研究與實現(xiàn)[D].廣州:華南理工大學,2013.

        [2] 龔勛.高斯混合模型(GMM)參數(shù)優(yōu)化及實現(xiàn)[J].西南交通大學信息學院學報,2010(1):2-3.

        [3] 程遠國,耿伯英.基于高斯混合模型的無線局域網(wǎng)定位算法[J].計算機工程,2009,35(4):25-27.

        [4] 時丹.音樂風格相似性檢測算法研究[D].大連:大連理工大學,2013.

        [5]Mesaros A,Astola J.The Mel-Frequency Cepstral Coefficients in the Context of Singer Identification [C]//ISMIR,2005:610-613.

        [6] 蔣偉.基于高斯混合模型的說話人識別研究[D].成都:電子科技大學,2008.

        [7] 李劍.神經(jīng)網(wǎng)絡在音樂分類中的應用研究[J].計算機仿真,2010(11):168-171.

        [8] 徐桂彬.基于相關主題模型的音樂分類方法研究[D].蘇州:蘇州大學,2012.

        [9] 王磊,杜利民,王勁林.基Adaboost的音樂情緒分類[J].電子與信息學報,2007,29(9):2067-2072.

        Music Emotion Four Classification Research Based on Gaussian Mixture Model

        LU Yang,GUO Bin,BAI Xuemei
        (School of Electronic and Information Technology,Changchun University of Science and Technology,Changchun 130022)

        For the problem of music emotional complexity and difficult to categorize,we proposed a method to establish Gaussian mixture models in four classifications.On the basis of establish models,we innovated established GMM for shaft at both ends of the emotional model and converted it into two-layer weighted classifier discrimination.The results shows that the GMM for shaft models and weight distribution under the condition of 0.7 and 0.3,the musical work can obtain the best classification result,and the result is better than the result of directly establish models for each type of emotion.

        Gaussian mixture model;music emotion classification;weighted judgment

        TP343

        A

        1672-9870(2015)05-0107-05

        2015-07-01

        陸陽(1991-),男,碩士研究生,E-mail:457625762@qq.com

        郭濱(1965-),男,教授,E-mail:guobin@cust.edu.cn

        猜你喜歡
        分類情緒特征
        分類算一算
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        小情緒
        小情緒
        小情緒
        教你一招:數(shù)的分類
        抓住特征巧觀察
        亚洲国产一区二区三区,| 五月综合高清综合网| 亚洲精品自产拍在线观看| 午夜免费视频| 国产农村乱辈无码| 中国丰满熟妇av| 色偷偷88888欧美精品久久久| 狠狠躁夜夜躁人人爽天天| 亚洲AV秘 无码一区二区三| 一本大道久久精品一本大道久久| 日本一区二区啪啪视频| 亚洲成av人片极品少妇| 男女交射视频免费观看网站| 亚洲2022国产成人精品无码区| 久久久久久久久毛片精品 | 久久精品国产av大片| 加勒比久草免费在线观看| 日本av不卡一区二区三区| 国产精品视频自拍在线| 国产69久久精品成人看| 欧美性色黄大片手机版| 精品亚洲成a人在线观看青青| 免费啪啪视频一区| 中文字幕亚洲无线码高清| 国产一级r片内射免费视频| 日本免费一区二区在线| 91三级在线观看免费| 人人妻人人澡人人爽人人精品浪潮 | 国产三级在线观看免费| 亚洲色大成网站www在线观看 | 日本按摩偷拍在线观看| 天天综合网网欲色| 女女互揉吃奶揉到高潮视频| 高中生粉嫩无套第一次| 精品国产一区二区三区AV小说| 欧美片欧美日韩国产综合片| 蜜桃视频在线免费视频| 国产成a人亚洲精品无码樱花 | 亚洲一区丝袜美腿在线观看| 成人久久黑人中出内射青草| 国产精品无码人妻在线|