亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

CNN邊緣影響分析與改進(jìn)的語音識別

2021-09-23 02:30方園園

現(xiàn)代電子技術(shù) 2021年18期

方園園，朱敏

（南京航空航天大學(xué)，江蘇南京 210016）

0 引言

近年來，隨著人工智能的發(fā)展，自動語音識別技術(shù)（Automatic Speech Recognition，ASR）也被不斷研究與發(fā)展，并被應(yīng)用到各種不同的領(lǐng)域，例如：聲音驅(qū)動指令、人機(jī)界面、相關(guān)文本翻譯以及醫(yī)療超聲[1?8]等，為人類生活帶來了巨大的便利。語音識別技術(shù)在發(fā)展的過程中，其相關(guān)研究幾乎都致力于相關(guān)模型算法的優(yōu)化。被應(yīng)用廣泛的模型有隱馬爾可夫模型（Hidden Markov Model，HMM）、短時記憶（Long Short?Term Memory，LSTM）網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）以及卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）等，多年來被不斷地改進(jìn)來改善語音識別率。例如：文獻(xiàn)[9]關(guān)于LSTM、DNN和CNN的各自優(yōu)劣將它們組合成一個改進(jìn)模型CLDNN；文獻(xiàn)[10]致力于改進(jìn)代價與激勵函數(shù)來生成一個新的CNN改進(jìn)模型，提高語音準(zhǔn)確率。但是，網(wǎng)絡(luò)模型的優(yōu)化會涉及層數(shù)的加深和模型結(jié)構(gòu)的復(fù)雜化，這樣不但會使得實驗中計算和算法相對復(fù)雜，也可能會造成網(wǎng)絡(luò)訓(xùn)練中的過擬合。

作為當(dāng)今語音識別深度學(xué)習(xí)模型的主流，CNN具有局部卷積及池化的顯著特點[10]，通過對一定量的視覺圖像的分析學(xué)習(xí)，來達(dá)到圖像識別、語音處理[11]和推薦系統(tǒng)[12]等的效果。此模型常以二維或三維圖像為輸入數(shù)據(jù)，并且對此類結(jié)構(gòu)的信息非常敏感，也是現(xiàn)如今廣泛用于計算機(jī)視覺領(lǐng)域的網(wǎng)絡(luò)模型。對于基于CNN的語音識別技術(shù)，現(xiàn)有的研究大多將表示為時域和頻域的二維形式的語音特征直接輸入到CNN或是改進(jìn)優(yōu)化的CNN中。在本次實驗中，通過觀察大量經(jīng)過語音活動檢測（Voice Activity Detection，VAD）等預(yù)處理的二維語言特征，發(fā)現(xiàn)大多特征存在非零特征區(qū)域邊緣化的特點，即大多數(shù)非零特征區(qū)域位于整個二維特征的邊緣位置。這樣的特點會造成在CNN的訓(xùn)練階段中，因為CNN中的局部卷積和池化的特點，語音特征中邊緣區(qū)域信息丟失，從而大幅度降低CNN語音識別的準(zhǔn)確率。在本文中，將由于非零特征區(qū)邊緣化造成的影響稱為邊緣影響，并針對該影響展開了研究，認(rèn)為解決該邊緣影響的方法應(yīng)起到將非零特征區(qū)域“移動”到遠(yuǎn)離邊緣位置的效果。本次實驗采取了幾種幾何改進(jìn)方法來緩解邊緣影響，通過相同的CNN結(jié)構(gòu)以及訓(xùn)練時長在自錄制與公共數(shù)據(jù)庫的混合數(shù)據(jù)的識別準(zhǔn)確率，證明了經(jīng)過幾何改進(jìn)的二維特征，在CNN中的識別性能都優(yōu)于存在邊緣影響的原始特征。

1 特征提取

在關(guān)于CNN的語音識別中，語音特征的提取過程通常如圖1所示。語言特征提取過程包括對標(biāo)準(zhǔn)數(shù)據(jù)庫的數(shù)據(jù)獲取及生成數(shù)據(jù)語音幀，再讓每一幀語音經(jīng)過梅爾濾波器生成不同頻率帶寬的能量特征值，最后將得到的二維特征放入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

圖1 二維語音特征提取步驟結(jié)構(gòu)圖

1.1 數(shù)據(jù)獲取

數(shù)據(jù)獲取的主要內(nèi)容是預(yù)處理和數(shù)據(jù)幅值的縮放[13]，例如歸一化和去噪等部分。文獻(xiàn)[14]在獲取數(shù)據(jù)庫時，采用了二次采樣、歸一化去直流以及語音活動檢測（Voice Activity Detection，VAD）的方法，便于之后語音特征提取等操作時，不受周圍噪聲等的干擾，也方便數(shù)據(jù)庫中大量語音的統(tǒng)一操作。從文獻(xiàn)[15]可知，對于經(jīng)過歸一化去直流的語音數(shù)據(jù)，所提取的一維梅爾特征在人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network）的訓(xùn)練效果并不理想，魯棒性較差。經(jīng)過對大量該類語音的觀察，發(fā)現(xiàn)語音之間的開始和終止時間差異較大。此外，在未發(fā)音階段也存在周圍環(huán)境的聲音（噪聲）。這些因素都會影響語音識別的正確率和魯棒性。為了區(qū)分人聲部分和無聲部分，VAD被應(yīng)用來提取每段語音的人聲部分，使得每段語音數(shù)據(jù)的開始和終止時刻更加統(tǒng)一，也可以去除周圍噪聲造成的干擾。如圖2所示，對來自于第一個男性的語音數(shù)據(jù)“eight”（Speech，如圖2實線所示），計算對應(yīng)的短時能量（Short?Time Energy，STE），如圖2虛線所示，并通過設(shè)定的閾值來篩選人聲部分。在圖2中，STE值與原始語音數(shù)據(jù)一一對應(yīng)，所有與高于閾值的STE值時間點相同的語音數(shù)據(jù)，都會被提取出來，作為新的語音數(shù)據(jù)，用于后續(xù)處理。

圖2 歸一化的短時能量與語音數(shù)據(jù)結(jié)構(gòu)圖

1.2 梅爾倒譜系數(shù)

梅爾倒譜系數(shù)（Mel Frequency Cepstral Coefficients，MFCCs）是應(yīng)用最為廣泛的語音特征提取方法之一。采用該系數(shù)計算所需的濾波器組，梅爾濾波器組（Mel Filter Banks，MFBs）是經(jīng)由大量實驗所得的一系列頻譜帶寬，這些濾波器的帶寬大小，反映了人耳對于不同語音頻率帶寬的敏感程度。語音頻率值與梅爾頻率值正、逆變換公式分別為：

式中，f和m分別為頻率值和梅爾刻度值。

將語音頻率的上、下限值先經(jīng)由（1）變換為梅爾頻率的上、下限值，再根據(jù)所需梅爾濾波器個數(shù)進(jìn)行等份，等份而得的梅爾刻度再經(jīng)由式（2）得到梅爾濾波器的邊緣值與中間值。本文根據(jù)所選取的語音數(shù)據(jù)庫，取32個頻率濾波器以及一個最大頻率范圍，即最低頻率300 Hz和最高頻率4 kHz；再根據(jù)這兩個頻率最值經(jīng)由梅爾變換得到梅爾刻度范圍，并將該范圍劃分為32個等份即34個梅爾刻度值，如式（3）所示；最后再應(yīng)用梅爾逆變換由梅爾刻度得到頻率值，最后得到如圖3所示的32個三角形梅爾頻率濾波器。

圖3 32個梅爾頻率濾波器

2 邊緣影響分析

2.1 特征生成

本文在提取生成語音特征時，經(jīng)過多次試驗后決定的一些參數(shù)如下所示。首先是在數(shù)據(jù)獲取階段中的VAD部分，經(jīng)過多次嘗試，本文選擇了0.02的閾值。在實際操作中，將STE值高于0.02的第一個數(shù)據(jù)點所對應(yīng)的相同時間的語音數(shù)據(jù)會被作為新的初始點，而此點之后的所有數(shù)據(jù)將會被保留。以內(nèi)容為“seven”的男性錄音為例，原始語音數(shù)據(jù)與VAD處理之后篩選出來的人聲部分的對比，如圖4所示。經(jīng)過VAD之后，人聲部分在本文中的語音特征被表現(xiàn)為二維的形式：時域坐標(biāo)和頻域坐標(biāo)[11?12]。在經(jīng)過濾波器之前，以50%的重復(fù)率將語音分成多個語音幀，然后將每一幀語音通過32個梅爾濾波器，計算各自不同時域的頻率能量特征。需要注意的是，與一維特征的情況不同，二維特征除了頻率坐標(biāo)系之外，還要表示時域上的坐標(biāo)。通常的梅爾倒譜系數(shù)計算是通過梅爾濾波器的語音能量，再經(jīng)由離散余弦變換（Discrete Cosine Transformation，DCT）和對數(shù)變換而得。但是DCT反映了被映射在另一個基（basis）的音譜信息，而非傳統(tǒng)的時域坐標(biāo)。從而造成能量值的偏移，影響特征在CNN中的局部提取[10]，所以本文將DCT部分去掉。去掉DCT而計算得到的特征，稱為MFSC特征[16]。生成的二維語音特征的表示如圖5所示（“nine”，male，32×32）。

圖4 VAD前后的語音數(shù)據(jù)

圖5 MFSC二維語音特征

2.2 特征邊緣化

在實驗初期，將經(jīng)過歸一化去直流和VAD的語音信號進(jìn)行特征提取，得到的部分二維特征如圖6所示，在CNN中的識別效果并不理想。其CNN模型的改進(jìn)，例如激勵函數(shù)和層結(jié)構(gòu)的加深，也未能改進(jìn)CNN對所得二維特征的識別效果。

圖6 男性與女性二維語音特征（32×32）

經(jīng)過觀察CNN中每一層卷積層或者池化層的輸出，發(fā)現(xiàn)大量的特征在經(jīng)過卷積和池化層之后，所得的輸出圖大部分都看不出明顯的特征效果，如圖7所示。經(jīng)分析，主要原因是大量特征的非零特征區(qū)域處于整個特征圖的邊緣位置。在具有局部卷積及池化等明顯特征[10]的CNN模型中，會使得這些非零特征在卷積層或池化層的響應(yīng)不明顯。這樣，CNN的邊緣化影響會大大降低CNN語音識別的正確率。

3 特征幾何改進(jìn)

為了減小卷積的邊緣化影響，本文采取相應(yīng)的幾何改進(jìn)措施，將非零特征區(qū)域“移動”使之遠(yuǎn)離邊緣區(qū)域，這樣才能讓卷積層以及池化層得到更多特征部分的響應(yīng)。本次實驗采取的措施分別為幾何對折、雙線性插值、零值填充和翻折填充，下面將介紹這幾種幾何改進(jìn)措施。

3.1 幾何對折

以圖6a）左側(cè)的初始特征為例，將該特征在水平、豎直和對角線方向上進(jìn)行對折，得到了如圖8所示（男性，“nine”）最右方的對折特征?？梢钥闯?，通過幾何對折的方式，雖然特征被復(fù)制，但是非零特征區(qū)域還是被完整地“移動”到二維特征值的中心位置。

圖8 幾何對折過程

3.2 雙線性插值

雙線性插值在圖像處理中比較常見，本次實驗采用雙線性插值（Bilinear Interpolation）。通過該方法，可以改變圖像的尺寸，但不會造成圖像很大的變化。如圖9所示（男性，“nine”，左男性，右女性），將圖6a）進(jìn)行雙線性插值，非零特征區(qū)域的“形狀”并沒有太大改變。

圖9 雙線性插值特征

在雙線性插值的具體施行中，因為輸入和輸出圖像尺寸不同，分別為wi，hi（輸入圖像的寬、高）以及wo，ho（輸出圖像的寬、高），所以由寬和高的尺寸系數(shù)，可得到新像素點坐標(biāo)(x,y)，其中，x，y分別為：

式中(m,n)表示輸出圖像對應(yīng)的輸入圖像的位置點。值得注意的是x，y基本上為浮點數(shù)，所以新圖像的像素點坐標(biāo)應(yīng)該是取其整數(shù)的(x′,y′)。

以上是關(guān)于得到新圖像的像素點坐標(biāo)，而得到的對應(yīng)灰度值為：

在本次實驗中，經(jīng)過雙線性插值的二維特征取得的識別正確率要比初始特征改善許多，但仍然沒有達(dá)到理想的標(biāo)準(zhǔn)。

3.3 零值填充

零值填充是將初始特征的周圍填充零值，如圖10所示（“nine”，左男性，右女性）。圖10a）的初始特征，在經(jīng)過零填充后，非零特征值不會在左上角位置，視覺上會感覺往中心方向“移動”了一些。根據(jù)CNN中卷積層的核尺寸，本次實驗嘗試了兩種大小的零值填充特征，分別為64×64和48×48，不難看出，圖10a）的非零特征區(qū)域相較于圖10b）要更遠(yuǎn)離邊緣區(qū)域。

圖10 零值填充特征

3.4 翻折填充

在本次實驗中，“翻折”不同于“對折”，不是將整個初始特征進(jìn)行復(fù)制，而是將特征的一部分（選取含有非零特征的部分），在水平、豎直和對角線方向上進(jìn)行翻折。如圖11所示（“nine”，左男性，右女性），選取非零特征中的8行和16行以及完全翻折的幾何對折的不同。其中，形成的特征尺寸大小同樣也是基于CNN卷積層的核尺寸。從圖11可以看出，翻折特征與幾何對折特征有一個很大的不同，就是特征區(qū)域的不完整。雖然包含了初始特征的部分，但是部分被翻折的特征處于整個特征圖的邊緣。

圖11 翻折填充特征

4 卷積神經(jīng)網(wǎng)絡(luò)

本文基于對CNN相關(guān)知識的學(xué)習(xí)[17]，進(jìn)行了CNN的設(shè)計。此節(jié)將會涉及CNN的學(xué)習(xí)過程以及本次實驗具體設(shè)計CNN的細(xì)節(jié)。

4.1 網(wǎng)絡(luò)結(jié)構(gòu)

圖12展示的是訓(xùn)練數(shù)據(jù)中的一個特征（“eight”，女性）經(jīng)過幾何對折的特征圖經(jīng)過CNN向前傳播的過程。為了清楚表示幾何改進(jìn)方法的效果，本次實驗中對于每一種改進(jìn)特征都采用相同結(jié)構(gòu)的CNN模型，CNN模型結(jié)構(gòu)可以用以下序列表示，[I1,280,C2,10,P3,10,C4,20,P4,20,F5,150,F6,50,F7,10]。其中，I，C，P和F分別表示輸入層、卷積層、池化層和完全連接層，其下標(biāo)中的第一、二個數(shù)字分別表示它們位于CNN的第幾層和尺寸大小，例如：C2,10表示CNN中的第二層為卷積層，卷積核大小為10×10。值得注意的是，與圖7比較，經(jīng)過相同的層結(jié)構(gòu)，幾何對折特征的“信息”比初始特征要明顯。

圖12 CNN向前傳播結(jié)構(gòu)圖

4.2 學(xué)習(xí)過程

在了解CNN學(xué)習(xí)過程之前，首先，要了解CNN常用的幾個主要組成部分，分別為：卷積層、池化層和完全連接層。本次實驗設(shè)計的CNN的向前傳播如下：

式中，若第i層為卷積層，“學(xué)習(xí)”的過程則是將上一次卷積層或者是池化層輸出的特征圖Fi-1（若i=1，則Fi-1表示輸入圖像），與當(dāng)前卷積層里的核Ki(k)進(jìn)行卷積，再加上偏離數(shù)列bi。最后，將此結(jié)果代入當(dāng)前卷積層的激勵函數(shù)fi中，得到第i層的第k個輸出特征圖Fi(k)。而當(dāng)?shù)趇層為池化層時，對上一層特征圖的處理如下：

式中Hi(k)為第i層的第k個池化層核。因為本次實驗采用的池化層為平均池化層，故其核為H=

完全連接層一般都處于整個CNN結(jié)構(gòu)的末尾（一般是不少于一層），不同于卷積層與池化層，它輸出的不是二維的特征圖而是一維的數(shù)列，對于上一層的輸出結(jié)果（二維或者一維都有可能）處理如下：

式中，W和B分別為完全連接層的權(quán)重系數(shù)和偏離數(shù)列，它們都是與第i層節(jié)點數(shù)和上一層的輸出維度相關(guān)的隨機(jī)數(shù)。

5 實驗結(jié)果與分析

5.1 基于標(biāo)準(zhǔn)數(shù)據(jù)庫的實驗結(jié)果

本次實驗的數(shù)據(jù)庫來自于專門用于語音研究的標(biāo)準(zhǔn)數(shù)據(jù)庫，要識別的語音內(nèi)容為從“zero”到“nine”的單詞發(fā)音。選取的數(shù)據(jù)庫是來自4位男性和4位女性的320個錄音（持續(xù)時間都為1 s），每個人的聲音特點，包括口音、聲音大小以及說話開始和結(jié)束時間等，都不一樣。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時，語音數(shù)據(jù)中的訓(xùn)練數(shù)據(jù)（Training Data）分配有280個，每個單詞分配28個語音，每個人的錄音涵蓋有3~4個；測試數(shù)據(jù)（Testing Data）40個，每個單詞分配4個語音，由于隨機(jī)抽取，每個人的錄音涵蓋有0~2個。經(jīng)過采用的幾種特征幾何改進(jìn)方法后，幾種情況的二維特征所取得的語音識別效果如表1所示，每種特征都經(jīng)過CNN獨立訓(xùn)練10次得到平均值和方差，以說明其識別的正確率及其魯棒性。由表1可知，對于未經(jīng)任何幾何改進(jìn)的初始特征，CNN的識別正確率非常低，而且方差很大，穩(wěn)定性不高。雙線性插值特征，相較于初始特征，特征圖尺寸增大，而非零特征區(qū)域仍處于邊緣位置，正確率和方差都有所改善，但仍未到達(dá)理想的標(biāo)準(zhǔn)。在同樣的尺寸下，64×64的零值填充特征卻達(dá)到了比較理想的效果，而48×48的零值填充特征則正確率稍弱，但仍大大優(yōu)于雙線性插值特征，這樣的優(yōu)劣對比也證明了非零特征區(qū)域越遠(yuǎn)離邊緣，訓(xùn)練的效果則越好。

表1 CNN檢測正確率

對于翻折特征和幾何對折特征，可以放在一塊進(jìn)行說明，幾何對折特征取得了所有情況中最好的效果。而不同于零填充的情況，48×48的翻折特征比64×64的翻折特征效果更好，其原因也在于，64×64的不完整特征部分更多，對CNN的識別造成了更多的干擾。

6 結(jié) 論

本文提出的基于CNN邊緣化分析所采取的對二維語音特征的幾何改進(jìn)，在不改進(jìn)CNN結(jié)構(gòu)與不增加數(shù)據(jù)量的前提下，有效地改善了CNN的語音識別正確率。通過由專門用于語音研究的公共數(shù)據(jù)庫[17]上的結(jié)果表明，經(jīng)過不同幾何改進(jìn)的二維特征，相較于存在邊緣影響的初始特征，其在CNN的識別效果都有了不同程度的改進(jìn)。希望在未來，該類改進(jìn)方法可以運(yùn)用到更多種類信號，例如EEG、心電圖等信號在CNN中識別效果的改進(jìn)。