陳 闖,RYAD Chellali,邢 尹
CHEN Chuang1,RYAD Chellali1,XING Yin2
1.南京工業(yè)大學(xué) 電氣工程與控制科學(xué)學(xué)院,南京 211816
2.桂林理工大學(xué) 測(cè)繪地理信息學(xué)院,廣西 桂林 541004
1.College of Electrical Engineering and Control Science,Nanjing Tech University,Nanjing 211816,China
2.College of Geomatics and Geoinformation,Guilin University of Technology,Guilin,Guangxi 541004,China
語(yǔ)音是人類(lèi)交流的重要方式。語(yǔ)音信號(hào)中不僅傳遞了說(shuō)話(huà)人的語(yǔ)義內(nèi)容,也承載著說(shuō)話(huà)人的情感狀態(tài)。如何有效識(shí)別語(yǔ)音信號(hào)中的情感類(lèi)型是近年來(lái)人工智能領(lǐng)域的一個(gè)研究熱點(diǎn)。語(yǔ)音情感識(shí)別技術(shù)已經(jīng)成功應(yīng)用于輔助測(cè)謊[1]、遠(yuǎn)程教學(xué)[2]、臨床醫(yī)學(xué)[3]等領(lǐng)域。
目前常用的語(yǔ)音情感識(shí)別方法主要有支持向量機(jī)(Support Vector Machine,SVM)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)、隱馬爾可夫模型(Hidden Markov Model,HMM)、混合高斯分布模型(Gaussian Mixture Model,GMM)等[4]。SVM是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)熱點(diǎn)算法,在解決非線(xiàn)性、小樣本以及高維模式識(shí)別中體現(xiàn)出特有的優(yōu)勢(shì),但其分類(lèi)性能受其內(nèi)部參數(shù)影響很大[5]。為此,許多學(xué)者提出將布谷鳥(niǎo)搜索算法[6](Cuckoo Search,CS)、差分進(jìn)化算法[7](Differential Evolution,DE)、粒子群算法[8](Particle Swarm Optimization,PSO)等運(yùn)用于SVM的參數(shù)尋優(yōu)上,但這些優(yōu)化算法對(duì)于提升SVM的性能仍比較有限。2014年,由Mirjalili等人[9]提出的灰狼算法(Grey Wolf Optimizer,GWO)在尋找最優(yōu)解方面具備簡(jiǎn)單、高效的特點(diǎn)而備受關(guān)注。為了進(jìn)一步提升GWO的尋優(yōu)性能,各種改進(jìn)的GWO算法也應(yīng)運(yùn)而生。文獻(xiàn)[10]提出將極值優(yōu)化算法融入GWO,增加了算法獲得全局最優(yōu)解的概率;文獻(xiàn)[11]利用佳點(diǎn)集理論初始化種群,并對(duì)當(dāng)前種群中最優(yōu)個(gè)體使用Powell算法進(jìn)行局部搜索,提升了算法的尋優(yōu)性能,加快了收斂速度;文獻(xiàn)[12]提出采用反向?qū)W習(xí)改進(jìn)GWO,并將算法并行化;文獻(xiàn)[13]提出采用非線(xiàn)性調(diào)整策略對(duì)GWO進(jìn)行改進(jìn),平衡了種群全局搜索能力和局部搜索能力。
在前人研究的基礎(chǔ)上,本文提出在基本GWO算法中嵌入選擇算子和改進(jìn)收斂因子,以此探索改進(jìn)的灰狼算法(Improved Grey Wolf Optimizer,IGWO)的尋優(yōu)性能。通過(guò)對(duì)10個(gè)基準(zhǔn)測(cè)試函數(shù)的仿真實(shí)驗(yàn),驗(yàn)證了IGWO算法尋優(yōu)性能優(yōu)于基本GWO算法。利用IGWO算法來(lái)對(duì)SVM參數(shù)進(jìn)行優(yōu)化,并采用優(yōu)化后的參數(shù)建立了IGWO-SVM的語(yǔ)音情感分類(lèi)模型。實(shí)驗(yàn)結(jié)果表明,IGWO-SVM模型在對(duì)語(yǔ)音情感的識(shí)別上體現(xiàn)出了優(yōu)越性。
灰狼算法是一種模擬灰狼群體狩獵活動(dòng)的智能算法。灰狼群中包含社會(huì)等級(jí)最高的α狼,其次分別為β、δ和ω狼。群體捕食時(shí),由α狼帶領(lǐng),β和δ狼協(xié)助,ω狼追隨,完成對(duì)獵物的包圍、獵捕和攻擊等行為。
灰狼群在狩獵中,首先對(duì)獵物進(jìn)行包圍,該過(guò)程的數(shù)學(xué)描述為:
其中,Xp表示獵物的位置;X(t)表示第t代時(shí)灰狼個(gè)體的位置;A和C為系數(shù)向量;r1和r2為[0,1]的隨機(jī)數(shù);a為收斂因子,a=2-2t/T,T為最大迭代次數(shù)。
其次,灰狼群進(jìn)行獵捕。該過(guò)程由α、β和δ狼來(lái)引導(dǎo),更新灰狼個(gè)體位置,數(shù)學(xué)描述為:
最后,灰狼群進(jìn)行攻擊,完成捕獲獵物這一目標(biāo),即GWO算法獲得的最優(yōu)解。攻擊行為主要依據(jù)式(3)中a值由2遞減到0來(lái)實(shí)現(xiàn)。當(dāng)時(shí),灰狼群對(duì)獵物集中攻擊,對(duì)應(yīng)于局部搜索;當(dāng)時(shí),灰狼散去,進(jìn)行全局搜索。
Haupt等人[14]認(rèn)為,多樣性較好的初始種群對(duì)提高群體智能算法的尋優(yōu)性能具有積極意義。基本灰狼算法以隨機(jī)方式生成初始種群,初始種群雖然具備一定的種群多樣性,但種群水平未必較好,影響算法的收斂速度和精度。在隨機(jī)生成初始種群之后,嵌入選擇算子[15],將有利于提升基本GWO的尋優(yōu)性能,具體操作如下:
(1)隨機(jī)生成初始灰狼種群,并計(jì)算每個(gè)個(gè)體適應(yīng)度值。
(2)根據(jù)適應(yīng)度值,由小到大排列,分為前、中、后三段。
(3)每段按照1.0、0.8和0.6的比例隨機(jī)選擇個(gè)體。
(4)對(duì)于損失的個(gè)體,以前段的個(gè)體進(jìn)行補(bǔ)充,插入步驟(3)所選擇的個(gè)體之后,形成新種群。
上述的選擇算子采取優(yōu)者多選、劣者少選的策略,提升了初始種群整體水平,同時(shí)兼顧了種群多樣性,操作簡(jiǎn)單。
群體智能優(yōu)化算法一般面臨著全局搜索與局部搜索能力平衡的問(wèn)題。為了解決GWO在兩者之間的平衡問(wèn)題,文獻(xiàn)[13]提出了一種改進(jìn)的收斂因子a,具體公式如下:
其中,e為自然對(duì)數(shù)的底數(shù);t為當(dāng)前迭代次數(shù);T為最大迭代次數(shù)。初始階段a衰減程度降低,以便算法全局尋優(yōu);后期提升a的衰減程度,對(duì)應(yīng)于算法精確局部尋優(yōu)。但在實(shí)際使用中發(fā)現(xiàn),a不同的衰減程度對(duì)應(yīng)于不同的GWO搜索性能。為此,本文提出一種改進(jìn)的非線(xiàn)性收斂因子如下:
其中,p為衰減階數(shù),在[0,10]之間取整數(shù),p越大對(duì)應(yīng)收斂因子a衰減越劇烈,如圖1所示。
(1)給定種群規(guī)模N,最大迭代次數(shù)T,初始化a、A和C等參數(shù)。
(2)根據(jù)2.2節(jié)中的選擇算子確定新種群。
(3)根據(jù)式(13)計(jì)算a,更新A和C。
(4)根據(jù)式(5)~(11)更新個(gè)體位置。
圖1 收斂因子對(duì)比圖
(5)如果達(dá)到最大迭代次數(shù),則輸出最優(yōu)個(gè)體位置和最優(yōu)值;否則,返回步驟2。
支持向量機(jī)是一種基于統(tǒng)計(jì)理論的分類(lèi)算法,在模式識(shí)別和數(shù)據(jù)挖掘領(lǐng)域有著廣泛應(yīng)用[16]。對(duì)于非線(xiàn)性可分樣本,它的基本思想是引入核函數(shù)將輸入特征樣本映射到高維空間中,然后尋求此空間中的超平面使得樣本線(xiàn)性可分。對(duì)于非線(xiàn)性可分的SVM優(yōu)化問(wèn)題可描述為:
式中,w為權(quán)系數(shù)向量;b為分類(lèi)閾值;C(C>0)為懲罰因子,用來(lái)平衡分類(lèi)誤差與推廣性能;ξi(ξi≥0)為松弛變量,用來(lái)衡量對(duì)應(yīng)樣本xi相對(duì)于理想條件下的偏差;L為訓(xùn)練樣本個(gè)數(shù);為類(lèi)別標(biāo)號(hào)。假設(shè)低維輸入空間到高維特征空間的映射函數(shù)為Φ,應(yīng)用核函數(shù)變換等式 (xi,xj)→K(xi,xj)=Φ(xi)?Φ(xj),得到最終的分類(lèi)超平面函數(shù)為:
式中,ai為拉格朗日因子;K(xi,x)為核函數(shù)。目前常用的幾種核函數(shù)有多項(xiàng)式核函數(shù)、RBF核函數(shù)、S型核函數(shù)。本文采用RBF核函數(shù),對(duì)應(yīng)公式如下:
(1)初始化灰狼種群,每個(gè)個(gè)體位置由C和g組成。
(2)SVM依照個(gè)體位置中的C和g,對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí),以測(cè)試集SVM分類(lèi)錯(cuò)誤率作為個(gè)體適應(yīng)度函數(shù)。
(3)采用IGWO算法對(duì)灰狼群個(gè)體位置進(jìn)行更新。進(jìn)化過(guò)程結(jié)束時(shí),返回最優(yōu)個(gè)體位置,即C和g值。
(4)采用優(yōu)化后的C和g建立SVM分類(lèi)模型。
為了驗(yàn)證本文提出的兩種改進(jìn)策略的有效性,選取10個(gè)基準(zhǔn)測(cè)試函數(shù),見(jiàn)表1。表1列出了這10個(gè)函數(shù)的基本信息,包括3個(gè)單峰基準(zhǔn)測(cè)試函數(shù)(F1~F3),3個(gè)多峰基準(zhǔn)測(cè)試函數(shù)(F4~F6)和4個(gè)固定維度多峰基準(zhǔn)測(cè)試函數(shù)(F7~F10)。為公平起見(jiàn),所有算法的種群規(guī)模統(tǒng)一設(shè)置為30,最大迭代次數(shù)為500。
為了消除隨機(jī)性對(duì)結(jié)果的影響,取30次運(yùn)行結(jié)果的平均值作為最終結(jié)果??紤]到篇幅限制,選取Sphere、Schwefel’s Problem 2.22和Ackley函數(shù)考察不同衰減階數(shù)對(duì)算法的影響,如圖2所示。
表1 10個(gè)基準(zhǔn)測(cè)試函數(shù)
圖2 Sphere、Schwefel’s Problem 2.22和Ackley函數(shù)的不同衰減階數(shù)尋優(yōu)收斂曲線(xiàn)
表2 對(duì)10個(gè)基準(zhǔn)測(cè)試函數(shù)的測(cè)試結(jié)果
從圖2中可以看出,采用非線(xiàn)性收斂策略提升了GWO的尋優(yōu)精度,且隨著衰減階數(shù)p的增大而增高,當(dāng)p增大到4時(shí),尋優(yōu)精度穩(wěn)定,說(shuō)明p=4是一個(gè)較佳的衰減階數(shù)。
為了說(shuō)明IGWO的優(yōu)越性,GWO、IGWO1、IGWO2和IGWO對(duì)10個(gè)基準(zhǔn)測(cè)試函數(shù)的測(cè)試結(jié)果見(jiàn)表2。其中,IGWO1表示嵌入選擇算子的改進(jìn)GWO,IGWO2表示引入非線(xiàn)性收斂因子(p=4)的改進(jìn)GWO,IGWO表示兩種改進(jìn)策略混合的改進(jìn)GWO。
從表2中可以看出,對(duì)于單峰基準(zhǔn)測(cè)試函數(shù)F1~F3,IGWO1和IGWO2在函數(shù)F1和F3上均表現(xiàn)良好;引入選擇算子和非線(xiàn)性收斂因子的IGWO綜合了IGWO1和IGWO2的優(yōu)點(diǎn),在函數(shù)F1和F3上將性能發(fā)揮至最大,尋優(yōu)結(jié)果更接近目標(biāo)函數(shù)最優(yōu)值,且穩(wěn)定性更好。對(duì)于多峰基準(zhǔn)測(cè)試函數(shù)F4~F6,IGWO和IGWO2在函數(shù)F4上都尋找到了目標(biāo)函數(shù)的最優(yōu)值0,且標(biāo)準(zhǔn)差為0;對(duì)于函數(shù)F5和F6,IGWO都好于另外3種算法。對(duì)于固定維度多峰基準(zhǔn)測(cè)試函數(shù)F7~F10,3種算法對(duì)于函數(shù)F7~F9的尋優(yōu)效果相當(dāng);對(duì)于函數(shù)F10,IGWO2表現(xiàn)最好,更接近目標(biāo)函數(shù)最優(yōu)值。綜上,IGWO在大多數(shù)函數(shù)上不僅提升了搜索精度,且尋優(yōu)結(jié)果更加穩(wěn)定。
為了直觀(guān)地反映各算法的尋優(yōu)性能,圖3示例性地給出了各算法對(duì)于Sphere、Rastrigin和Ackley函數(shù)的尋優(yōu)收斂曲線(xiàn)。
從圖3中可以看出,IGWO1和IGWO2均提升了基本GWO的尋優(yōu)性能,尤其是嵌入選擇算子和引入非線(xiàn)性收斂因子的IGWO具有更高的收斂精度和更快的收斂速度。
圖3 Sphere、Rastrigin和Ackley函數(shù)的尋優(yōu)收斂曲線(xiàn)
本文的實(shí)驗(yàn)樣本來(lái)源于柏林情感語(yǔ)音庫(kù)[17]。該語(yǔ)音庫(kù)在語(yǔ)音情感識(shí)別領(lǐng)域應(yīng)用廣泛,許多語(yǔ)音情感識(shí)別研究成果均在此語(yǔ)音庫(kù)上進(jìn)行驗(yàn)證。本文選取其中生氣、開(kāi)心、平靜、傷心和害怕5種常見(jiàn)情感,經(jīng)過(guò)人耳的辨別試聽(tīng),最終保留了400條語(yǔ)音樣本,具體為生氣126條,開(kāi)心68條,平靜78條,害怕66條,訓(xùn)練樣本和測(cè)試樣本以1∶1比例隨機(jī)分配。實(shí)驗(yàn)中,選取短時(shí)能量、基音頻率、共振峰和梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)這4類(lèi)語(yǔ)音情感特征構(gòu)建實(shí)驗(yàn)數(shù)據(jù),具體為短時(shí)能量、基音頻率、第一二三共振峰、0~12階MFCC及其一階差分的最大值、最小值、均值和方差。具體計(jì)算方法詳見(jiàn)參考文獻(xiàn)[18]。將提取的語(yǔ)音情感特征按照式(17)進(jìn)行歸一化處理:
其中,x表示原始語(yǔ)音情感特征;xmin和xmax分別表示特征的最小值和最大值。
為了驗(yàn)證IGWO-SVM模型對(duì)于語(yǔ)音情感分類(lèi)的優(yōu)越性,分別采用布谷鳥(niǎo)搜索算法(CS)、差分進(jìn)化算法(DE)、粒子群算法(PSO)、灰狼算法(GWO)和改進(jìn)灰狼算法(IGWO)對(duì)SVM參數(shù)進(jìn)行尋優(yōu)。語(yǔ)音情感實(shí)驗(yàn)中,采用十折交叉驗(yàn)證技術(shù),即將原始數(shù)據(jù)集隨機(jī)分成10等份,其中9份用于SVM訓(xùn)練,剩下的1份用于驗(yàn)證。統(tǒng)一設(shè)置所有優(yōu)化算法的種群規(guī)模為30,最大迭代次數(shù)為200,此參數(shù)設(shè)置均保證了各尋優(yōu)算法達(dá)到收斂狀態(tài)。其中CS被宿主發(fā)現(xiàn)概率為0.25;DE交叉概率因子為0.8;PSO加速因子均為1.5。SVM參數(shù)尋優(yōu)范圍設(shè)置為C∈[0.01,100],g∈[0.01,100]。各算法對(duì)SVM參數(shù)的尋優(yōu)結(jié)果見(jiàn)表3。
表3SVM參數(shù)尋優(yōu)結(jié)果
將表3中的C和g分別作為SVM參數(shù),對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí),分別建立CS-SVM、DE-SVM、PSO-SVM、GWO-SVM和IGWO-SVM語(yǔ)音情感分類(lèi)模型。
IGWO-SVM模型的5種情感識(shí)別結(jié)果,如圖4所示。其中橫坐標(biāo)表示測(cè)試集樣本的樣本序號(hào),縱坐標(biāo)類(lèi)別標(biāo)簽1~5依次對(duì)應(yīng)生氣、開(kāi)心、平靜、傷心和害怕情感。統(tǒng)計(jì)5種模型的語(yǔ)音情感識(shí)別結(jié)果,見(jiàn)表4。從表4中可以看出,IGWO-SVM和CS-SVM模型的語(yǔ)音情感平均識(shí)別率最高,均為93.50%(187/200)。由表3可知,IGWO的參數(shù)尋優(yōu)結(jié)果C=8.8650,小于CS的參數(shù)尋優(yōu)結(jié)果C=24.6342,減少了SVM過(guò)學(xué)習(xí)的可能性。因此,采用IGWO對(duì)于SVM的優(yōu)化是有效的,可以提升語(yǔ)音情感的識(shí)別率。
圖4IGWO-SVM模型的語(yǔ)音情感識(shí)別結(jié)果
本文首先介紹了GWO的基本原理,并針對(duì)GWO在尋優(yōu)過(guò)程中易陷入局部最優(yōu)的缺點(diǎn),提出嵌入選擇算子和引入非線(xiàn)性收斂因子來(lái)提升GWO的尋優(yōu)性能。通過(guò)對(duì)10個(gè)基準(zhǔn)測(cè)試函數(shù)的仿真實(shí)驗(yàn),驗(yàn)證了IGWO的優(yōu)越性。采用IGWO對(duì)SVM的懲罰因子和核函數(shù)參數(shù)進(jìn)行優(yōu)化,并構(gòu)建了IGWO-SVM的語(yǔ)音情感分類(lèi)模型。相比于CS、DE、PSO和GWO優(yōu)化的SVM模型,IGWOSVM模型有效提升了語(yǔ)音情感識(shí)別率。針對(duì)實(shí)驗(yàn)結(jié)果中傷心情感識(shí)別率偏低的情況,下一步將從特征提取角度提取短時(shí)能量、基音頻率和共振峰的衍生參數(shù),探討對(duì)傷心情感識(shí)別的影響。
表4 不同模型的語(yǔ)音情感分類(lèi)結(jié)果