邱志斌 盧祖文 王海祥 況燕軍
(1.南昌大學(xué) 能源與電氣工程系,江西 南昌 330031;2.國網(wǎng)江西省電力有限公司 電力科學(xué)研究院,江西 南昌 330096)
鳥類活動(dòng)是引起輸電線路故障的重要因素[1- 2],近年來,防鳥刺、防鳥盒、防鳥擋板等各類裝置得到了廣泛應(yīng)用,但仍存在較大的盲目性,因涉鳥故障引起的線路跳閘時(shí)有發(fā)生。由于缺乏有效的識(shí)鳥工具,電網(wǎng)運(yùn)維人員難以正確識(shí)別活動(dòng)在線路周圍的鳥類及其可能引起的故障,跳閘故障發(fā)生后也無法判斷引發(fā)故障的鳥種類型,因而難以對輸電線路采取針對性和差異化的涉鳥故障防治措施。
鳥類鳴聲信號包含豐富的信息且具有特異性,目前國內(nèi)外針對輸電線路附近鳥種的識(shí)別研究較少,現(xiàn)有方法主要通過鳥鳴信號特征提取與傳統(tǒng)機(jī)器學(xué)習(xí)分類器進(jìn)行識(shí)別[3]。文獻(xiàn)[4]提取了鳥鳴信號的時(shí)-頻紋理特征,選用隨機(jī)森林(Random Forest,RF)分類器對20種鳥類進(jìn)行了識(shí)別;文獻(xiàn)[5]提取鳥鳴功率譜密度特征作為輸入量,采用RF實(shí)現(xiàn)了8種鳥類的識(shí)別;文獻(xiàn)[6]提取梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)作為高斯混合模型(Gaussian Mixture Mo-del,GMM)的輸入量,對16種輸電線路的相關(guān)鳥類進(jìn)行了識(shí)別;文獻(xiàn)[7]提取鳥聲的Mel子帶參數(shù)化特征,利用GMM擬合能量數(shù)據(jù)實(shí)現(xiàn)聲音事件的自動(dòng)分段,采用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行了鳥種分類識(shí)別。傳統(tǒng)的機(jī)器學(xué)習(xí)識(shí)別方法存在特征提取困難、識(shí)別精度不夠的問題,用于少量鳥種分類尚可,無法滿足輸電線路相關(guān)的多類鳥種準(zhǔn)確識(shí)別的要求。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,新興的語音識(shí)別方法開始使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進(jìn)行聲音識(shí)別[8- 9],可自主進(jìn)行特征學(xué)習(xí)而無需人工提取聲音信號特征。文獻(xiàn)[10]以北京松山國家自然保護(hù)區(qū)的18種鳥類為對象,生成其Chirplet語圖并結(jié)合VGG16模型進(jìn)行分類識(shí)別;在此基礎(chǔ)上,文獻(xiàn)[11- 12]采用加權(quán)求和的方式對多種鳥鳴語圖進(jìn)行多特征融合,并運(yùn)用遷移學(xué)習(xí)模型進(jìn)行分類,結(jié)果表明特征融合模型的識(shí)別精度高于單一特征模型;文獻(xiàn)[13]將鳥鳴信號轉(zhuǎn)化為語譜圖,采用改進(jìn)的AlexNet網(wǎng)絡(luò)實(shí)現(xiàn)了鳥種分類識(shí)別。上述結(jié)果證明了CNN用于鳥聲識(shí)別的可行性。輸電線路沿途地理環(huán)境各異,涉及鳥種繁多,可采用CNN模型進(jìn)行多種鳥類的聲音識(shí)別。
文中構(gòu)建了引起輸電線路渉鳥故障的40類鳥種的鳴聲信號樣本集,通過信號處理將其轉(zhuǎn)換為Mel頻譜圖,并作為CNN模型的輸入,經(jīng)迭代訓(xùn)練得到鳥聲識(shí)別模型,并據(jù)此開展渉鳥故障相關(guān)鳥種識(shí)別算例,對算法性能進(jìn)行測試。
文中依據(jù)文獻(xiàn)[14]統(tǒng)計(jì)的輸電線路涉鳥故障主要危害鳥種,從中挑選引起鳥糞類、鳥巢類、鳥體短接類和鳥啄類4種故障類型的40種典型鳥類作為研究對象,從公開的世界鳥類聲音網(wǎng)站Xeno-canto上收集鳴聲信號建立樣本集。
在計(jì)算鳴聲信號的Mel頻譜圖之前,需要對音頻進(jìn)行預(yù)處理,將所有音頻統(tǒng)一剪輯成1 s時(shí)長,采樣頻率設(shè)為16 000 Hz,音頻格式統(tǒng)一為.wav,隨后對數(shù)據(jù)集進(jìn)行分幀、加窗和降噪處理。
語音信號是具有短時(shí)平穩(wěn)性的非穩(wěn)態(tài)信號,在非常短的時(shí)間內(nèi)特征參數(shù)保持相對穩(wěn)定,可看成穩(wěn)態(tài)信號。因此,把一段語音分成Q段較短的幀,每一幀內(nèi)的信號當(dāng)成穩(wěn)態(tài)信號處理。為了使幀與幀之間的特征參數(shù)平滑過渡,分幀時(shí)在相鄰兩幀之間設(shè)置一小段重疊部分。文中所有鳥鳴信號樣本長度均為1 s,幀長取0.025 s,幀移和幀疊分別取0.01 s和0.015 s,一段鳥鳴樣本的分幀示意圖如圖1所示,共被分為98幀。
圖1 分幀示意圖Fig.1 Schematic diagram of framing
分幀后的鳥鳴信號需要進(jìn)行加窗處理,目的是減少頻域中信息的泄露,在削弱邊緣效應(yīng)的同時(shí)增加幀兩端的連續(xù)性。選用Hamming窗進(jìn)行加窗處理,對于鳥鳴信號x(n),加窗相當(dāng)于乘以一個(gè)有限長的窗函數(shù),即
(1)
式中,w(n)為窗函數(shù),h為加窗位置。
鳥鳴信號通常含有噪聲和靜音區(qū)域,這會(huì)影響識(shí)別模型的準(zhǔn)確率。文中采用多窗譜估計(jì)的改進(jìn)譜減法對鳥鳴信號進(jìn)行降噪,此方法約束條件少、物理意義直接且運(yùn)算量少,改善了傳統(tǒng)譜減法存在的降噪后譜峰殘余、譜減系數(shù)不變等不足[15]。
傳統(tǒng)譜減法使用功率譜進(jìn)行計(jì)算,只用單個(gè)數(shù)據(jù)窗,且過度依賴過減因子與增益補(bǔ)償因子的設(shè)置。其先對每一幀信號進(jìn)行快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT),將經(jīng)過分幀、加窗處理后的鳥鳴信號y(n)從時(shí)域轉(zhuǎn)換為頻域信號X(i,k),即
(2)
式中,i表示第i幀,k表示頻域中的第k條譜線,N為鳥種鳴聲信號的采樣點(diǎn)數(shù)。
然后采用式(3)計(jì)算譜減后的幅值|X′(i,k)|,即
|X′(i,k)|2=
(3)
式中:α為過減因子;β為增益補(bǔ)償因子;D(k)為噪聲段的平均功率譜值,其表達(dá)式為
(4)
式中,NIS為對應(yīng)的幀數(shù)。
文中采用多窗譜估計(jì)的改進(jìn)譜減法,利用多個(gè)正交數(shù)據(jù)窗分別對信號求取功率譜,然后取平均值得到譜估計(jì)P(k,i),再計(jì)算噪聲的平均功率譜值Pn(k),由兩者的譜減關(guān)系算得增益因子g(k,i);最后,將增益因子與經(jīng)FFT后的幅度譜相乘,得到譜減后的幅度譜,對其進(jìn)行傅里葉逆變換,得到去噪后的鳥鳴信號。令S(ω)為數(shù)據(jù)窗的譜,其定義如下:
(5)
式中,av(n)為第b個(gè)數(shù)據(jù)窗函數(shù),R為數(shù)據(jù)窗個(gè)數(shù),x(n)為鳥鳴信號的數(shù)據(jù)序列,H為序列長度。
求取增益因子g(k,i)的表達(dá)式為
(6)
以大杜鵑的一段含噪鳴聲信號為例,利用多窗譜估計(jì)的改進(jìn)譜減法對其進(jìn)行降噪,效果如圖2所示,可見原始信號中的噪聲得到了有效濾除,鳴聲信號更加清晰,有利于生成紋理清晰的Mel頻譜圖。
在語音信號處理時(shí),直接在時(shí)域上對聲音進(jìn)行特征提取和區(qū)分較為困難,需將鳥種鳴聲信號轉(zhuǎn)化為頻譜圖。人耳能感受到20~20 000 Hz之間的頻率范圍,且對于頻率的分辨能力不均勻,對頻域劃定的主觀感知是非線性的,就像一個(gè)濾波器組,只選擇性地關(guān)注某些特定的頻率,過濾掉其他頻率。Mel頻率正是受人耳聽覺特性啟發(fā)而產(chǎn)生的非線性頻率,將原本為赫茲頻率的鳥鳴信號進(jìn)行Mel頻率轉(zhuǎn)換,轉(zhuǎn)換關(guān)系為
(7)
式中,f為赫茲頻率,fMel為Mel頻率。
Mel濾波器組模仿人耳對語音信號進(jìn)行過濾,在一段鳥鳴信號的頻率范圍內(nèi)設(shè)置M個(gè)三角濾波器,濾波器的布局由密到疏,隨著赫茲頻率的增長,濾波器的寬度由小變大,但在Mel刻度上,這些濾波器顯示為等寬。三角濾波器的表達(dá)函數(shù)為[16]
(8)
式中:Hm(k)為三角濾波器的頻率響應(yīng);m為濾波器編號,0 (9) 利用式(2)逐幀對信號進(jìn)行FFT變換計(jì)算得到X(i,k),然后取其平方計(jì)算譜線能量E(i,k),之后將求取的98幀譜線能量通過M個(gè)Mel濾波器組,計(jì)算信號在每個(gè)濾波器中的能量S(i,m),并取其對數(shù)得到每一幀語音的Mel頻譜能量信號特征。信號在Mel濾波器中的能量計(jì)算式為 (10) 式中,E(i,k)為信號的譜線能量。 采用上述方法及步驟可得到包含信號能量大小信息的M×NF階矩陣,根據(jù)能量大小與顏色深淺程度一一映射的關(guān)系進(jìn)行著色,即可得到鳥鳴信號的Mel頻譜圖。以大杜鵑、紅角鸮、紅嘴鷗3種鳥類的鳴聲信號為例,其Mel頻譜圖如圖3所示??梢姡琈el頻譜圖與鳥鳴信號在時(shí)域上具有對應(yīng)關(guān)系,不同鳥種之間鳴聲的頻率分布范圍各異,且各個(gè)頻段所含能量大小也有差異,表現(xiàn)在Mel頻譜圖上即為著色深淺不一,顏色越深代表此頻段能量越高。采用具有差異性的鳥鳴信號Mel頻譜圖作為CNN的輸入,可用于開展不同鳥種的分類識(shí)別。 圖3 部分鳥種鳴聲信號及其Mel頻譜圖Fig.3 Song signals and their Mel spectra of some birds CNN作為深度學(xué)習(xí)的分支之一,近年來被廣泛應(yīng)用于圖像和語音識(shí)別領(lǐng)域[9,17]。一個(gè)完整的CNN包含輸入層、輸出層和多個(gè)隱藏層,為了準(zhǔn)確識(shí)別輸電線路涉鳥故障相關(guān)鳥種,文中搭建了一個(gè)包含24層的CNN模型,其結(jié)構(gòu)如圖4所示。 圖4 CNN模型結(jié)構(gòu)Fig.4 Structure of CNN model 卷積(Convolution)是CNN的核心,用于輸入圖像的特征提取。卷積層包含多個(gè)卷積核,通常也被稱為過濾器,每個(gè)卷積核負(fù)責(zé)激活圖像的某部分特征。卷積的過程中涉及Padding操作,包括Valid和Same兩種填充方式,前者卷積時(shí)不對圖像進(jìn)行填充,卷積操作后的圖像會(huì)變小,而使用后者填充后的輸出圖像與輸入圖像大小一致,在經(jīng)過多次卷積后能夠更充分地保留圖像的數(shù)據(jù)信息,故文中選用Same填充以更完整地保留鳥鳴信號特征。 CNN經(jīng)過卷積操作后的特征信息常帶有冗余,而池化層(Pooling)的作用就是去除冗余、減少網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)個(gè)數(shù)。文中使用最大池化(Max Pooling),將池化層與卷積層結(jié)合,共同組成一個(gè)特征提取器,通過反復(fù)執(zhí)行卷積-池化的循環(huán)操作便可完成對Mel頻譜圖的特征提取。 圖4所示CNN網(wǎng)絡(luò)結(jié)構(gòu)總體可分為特征檢測層和分類層兩部分。在特征檢測層完成對Mel頻譜圖的特征提取之后,其輸出結(jié)果作為分類層的輸入。全連接層作為分類層中的第一個(gè)層,連接前一層中的所有神經(jīng)元,將先前層在圖像中學(xué)習(xí)到的所有特征組合到一起,Softmax激活函數(shù)對全連接層的輸出進(jìn)行歸一化,輸出總和為1的多個(gè)分類概率,針對每個(gè)輸入的分類概率計(jì)算其損失值。 CNN的訓(xùn)練是一個(gè)最小化損失函數(shù)的過程,通過不斷地迭代優(yōu)化尋求網(wǎng)絡(luò)預(yù)測輸出值與實(shí)際值之間的最小損失,并且每訓(xùn)練1個(gè)輪次即對驗(yàn)證集進(jìn)行1次測試,模型據(jù)此調(diào)整參數(shù)繼續(xù)迭代,達(dá)到學(xué)習(xí)圖像特征以匹配最佳類別的目的。文中使用的損失函數(shù)是交叉熵函數(shù),表達(dá)式為 (11) 訓(xùn)練時(shí),在卷積運(yùn)算的過程中,過濾器按照設(shè)定的步長移動(dòng),依次掃過數(shù)據(jù)矩陣,同時(shí)進(jìn)行矩陣點(diǎn)乘運(yùn)算并疊加偏置值。CNN通過梯度下降法進(jìn)行多輪次的訓(xùn)練,將網(wǎng)絡(luò)經(jīng)損失函數(shù)計(jì)算得到的預(yù)測值與實(shí)際值之間的誤差進(jìn)行反向傳播,網(wǎng)絡(luò)據(jù)此對參數(shù)進(jìn)行更新調(diào)整。每訓(xùn)練1個(gè)輪次,網(wǎng)絡(luò)中的權(quán)重和偏置參數(shù)就更新1次,更新公式為 (12) 式中,wt、bt分別為第t輪迭代的權(quán)重和偏置值,η為學(xué)習(xí)率。 圖4下半部分所示為CNN網(wǎng)絡(luò)中5個(gè)卷積層對一段大杜鵑鳴聲信號的Mel頻譜圖的特征激活過程,卷積層中相應(yīng)通道對應(yīng)激活圖像中的相應(yīng)特征,所示圖塊為各個(gè)卷積層中的最強(qiáng)激活通道,通道激活區(qū)域中的像素位置對應(yīng)于原始圖像中的相同位置,白色像素和黑色像素分別表示強(qiáng)的正激活區(qū)域和負(fù)激活區(qū)域,而主要為灰色的通道則表示未對圖像進(jìn)行強(qiáng)烈激活??梢姡W(wǎng)絡(luò)在第1個(gè)卷積層Conv_1中學(xué)習(xí)了圖像顏色和邊緣特征,已經(jīng)可以初步識(shí)別圖像邊緣和顏色深淺。 文中構(gòu)建的40類輸電線路涉鳥故障相關(guān)鳥種鳴聲樣本集包含2 296個(gè)樣本,各類鳥種的樣本數(shù)量分布在25-120之間,如表1所示。 表1 鳥種信息與樣本數(shù)量1)Table 1 Bird species information and sample size 學(xué)習(xí)率η是控制CNN模型訓(xùn)練過程中每一輪參數(shù)更新步長的參數(shù),過小的學(xué)習(xí)率會(huì)導(dǎo)致模型收斂慢,過大的學(xué)習(xí)率則會(huì)阻礙收斂甚至導(dǎo)致?lián)p失函數(shù)在最小值附近區(qū)域產(chǎn)生較大波動(dòng)。文中按8∶1∶1劃分訓(xùn)練集、驗(yàn)證集和測試集,探究了不同學(xué)習(xí)率下的CNN模型性能。當(dāng)η=10-3時(shí),模型訓(xùn)練效果最優(yōu),此時(shí)訓(xùn)練集和驗(yàn)證集的誤差和交叉熵?fù)p失均處于最低值。因此,以10-3的初始學(xué)習(xí)率開展鳥種分類識(shí)別。批次大小為128,模型總計(jì)迭代訓(xùn)練100輪次,在90輪之后將學(xué)習(xí)率降低為原來的1/10,以使梯度下降在接近損失函數(shù)最小值區(qū)域附近時(shí)保持平穩(wěn)。利用經(jīng)過訓(xùn)練的CNN模型對40種電網(wǎng)涉鳥故障危害鳥種測試集進(jìn)行識(shí)別,整體的識(shí)別準(zhǔn)確率達(dá)到96.1%,除鳳頭麥雞、普通燕鷗、縱紋腹小鸮、池鷺和灰鶴外,其余鳥種的預(yù)測準(zhǔn)確率均為100%。 為了探究不同模型的性能,將文中構(gòu)建的Mel-CNN模型與其他遷移模型進(jìn)行對比。遷移學(xué)習(xí)是指微調(diào)預(yù)訓(xùn)練的深度學(xué)習(xí)網(wǎng)絡(luò)去學(xué)習(xí)新任務(wù)的過程。作為對比的遷移模型有SqueezeNet、ShuffleNet和ResNet-18,隨著迭代次數(shù)的增加,各網(wǎng)絡(luò)對測試集的識(shí)別準(zhǔn)確率變化如圖5所示。可見,文中建立的Mel-CNN模型對于鳥種識(shí)別的表現(xiàn)最優(yōu),ShuffleNet與ResNet-18前期發(fā)揮遷移的優(yōu)勢,利用較少的迭代次數(shù)基本達(dá)到峰值,但是最終識(shí)別準(zhǔn)確率不如文中模型;SqueezeNet無論是識(shí)別精度還是訓(xùn)練速度都不如Mel-CNN模型。遷移模型在預(yù)訓(xùn)練時(shí)學(xué)習(xí)了大量的圖像特征,對于目標(biāo)任務(wù)的樣本數(shù)量需求較少,但同時(shí)也會(huì)因?yàn)轭A(yù)訓(xùn)練圖片種類繁多,在執(zhí)行新的學(xué)習(xí)任務(wù)時(shí)缺乏針對性,難以發(fā)揮優(yōu)勢,而文中提出的Mel-CNN模型能夠有效識(shí)別出對電網(wǎng)安全造成威脅的相關(guān)鳥種。 圖5 不同模型的識(shí)別準(zhǔn)確率對比Fig.5 Comparison of recognition accuracy of different models 在后續(xù)研究中,可將該模型應(yīng)用于電網(wǎng)識(shí)鳥,運(yùn)維人員根據(jù)鳥種識(shí)別結(jié)果,可針對不同類型的涉鳥故障開展差異化防治,對可能引起鳥糞類、鳥巢類、鳥體短接類和鳥啄類等故障的鳥種,在輸電桿塔上加裝隔離型或驅(qū)鳥型防鳥裝置,對重點(diǎn)保護(hù)鳥種增設(shè)引導(dǎo)型裝置,對高危鳥種活動(dòng)頻繁的輸電區(qū)域采取更積極的防治措施,從而提升防治效果,實(shí)現(xiàn)高效生態(tài)防鳥,降低故障跳閘率。 文中提出了一種基于Mel頻譜圖與CNN的電網(wǎng)渉鳥故障相關(guān)鳥種鳴聲識(shí)別方法。采用多窗譜估計(jì)的改進(jìn)譜減法對鳥鳴信號進(jìn)行降噪,并將其轉(zhuǎn)換為Mel頻譜圖,用以表征不同鳥種鳴聲信號的差異性,利用CNN進(jìn)行特征提取與分類識(shí)別。算例驗(yàn)證表明:文中提出的Mel-CNN模型對40類鳥種測試集的識(shí)別準(zhǔn)確率達(dá)96.1%,識(shí)別效果優(yōu)于SqueezeNet、ShuffleNet和ResNet-18等遷移學(xué)習(xí)模型,可為電網(wǎng)運(yùn)維人員正確識(shí)鳥并開展差異化防鳥工作提供參考依據(jù),對于實(shí)現(xiàn)電網(wǎng)涉鳥故障相關(guān)鳥種的在線實(shí)時(shí)檢測也具有重大的實(shí)際意義。3 CNN鳥聲識(shí)別模型
3.1 CNN模型結(jié)構(gòu)
3.2 模型訓(xùn)練
4 電網(wǎng)渉鳥故障危害鳥種的分類識(shí)別
4.1 危害鳥種樣本集
4.2 鳥聲識(shí)別結(jié)果
5 結(jié)語