亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于融合特征ADRMFCC的語音識別方法

2024-01-01 00:00:00朵琳馬建韋貴香唐劍

吉林大學學報(理學版) 2024年4期

摘要：針對在復雜噪聲環(huán)境下語音識別準確率低和魯棒性差的問題，提出一種基于增減殘差Mel倒譜融合特征的語音識別方法. 該方法首先利用增減分量法篩選關鍵語音特征，然后將其映射到Mel域-殘差域空間坐標系中生成增減殘差Mel倒譜系數(shù)，最后將這些融合特征用于訓練端到端模型. 實驗結果表明，該方法在不同噪聲類型和信噪比條件下均顯著提高了語音識別準確率及性能，在-5 dB低信噪比條件下，語音識別準確率達73.13%，而在其他噪聲條件下的平均語音識別準確率達88.67%，充分證明了該方法的有效性和魯棒性.

關鍵詞：語音識別；殘差Mel倒譜系數(shù)；特征篩選；增減分量法

中圖分類號： TP391; TN912.3" 文獻標志碼： A" 文章編號： 1671-5489（2024）04-0943-08

Speech Recognition Method Based on Fusion Feature ADRMFCC

DUO Lin， MA Jian， WEI Guixiang， TANG Jian

（Faculty of Information Engineering and Automation，Kunming University of Science and Technology， Kunming 650500， China）

Abstract： Aiming at the problem of low accuracy and poor robustness of speech recognition in complex noise environment， we proposed "a speech recognition method based on Mel cepstrum fusion feature of increasing and decreasing residuals." This method first used the increase and decrease component method to screen the key speech features， and then mapped them to the Mel domain-residual domain spatial coordinate system to generate the increase and decrease residual Mel cepstral coefficients.

Finally， these fusion features were used to train the end-to-end model. The experimental results show that the proposed method significantly improves the" accuracy and performance of speech recognition under different noise types and signal-to-noise ratio conditions. Under the low signal-to-noise ratio condition of -5 dB， the speech recognition accuracy reaches 73.13%， while the average speech recognition accuracy under other noise conditions reaches 88.67%， which fully proves the effectiveness and robustness of the proposed method.

Keywords： speech recognition; residual Mel cepstral coefficient; feature screening; increase and decrease" component method

隨著科技的發(fā)展和人工智能的興起，語音識別技術已成為人們?nèi)粘Ｉ钪胁豢苫蛉钡囊徊糠? 但傳統(tǒng)的語音識別技術在噪聲干擾、說話人變化等方面仍存在一定的局限性，因此如何提高語音識別準確率的研究備受關注. 特征提取是語音信號處理中的關鍵步驟，直接影響后續(xù)任務的效果.

目前，主流的語音特征主要包括基于聲學層特征和音素層特征，例如， Mel頻率倒譜系數(shù)（Mel-scale frequency cepstral coefficients， MFCC）［1］， Gammatone頻率倒譜系數(shù)（Gammatone frequency cepstral coefficients， GFCC）［2］和線性預測倒譜系數(shù)（linear predictive cepstral coefficients， LPCC）［3］等. 在嘈雜環(huán)境下，這些特征很容易受干擾，導致語音識別效果較差. 基于音素層的識別方法將語音信號分割成若干個音素單元，并將每個音素單元映射到對應音素庫中的音素單元，得到一個表示整個語音信號的音素序列. 通過分析該音素序列的特征，例如音素出現(xiàn)的概率和音素之間的轉移概率等，對整個語音信號進行識別. 相對于聲學層特征，基于音素層特征的語音識別方法受噪聲環(huán)境的影響較小，但由于音素的切分提取較困難，因此識別性能可能會下降.

隨著深度學習被引入語音識別領域， Wang等［4］提出了將MFCC中Mel濾波器進行翻轉得到翻轉Mel倒譜系數(shù)（inverted Mel-frequency cepstral coefficients， IMFCC）特征，該特征可獲取語音高頻特征信息，結合MFCC特征以表征更全面的語音信息. Zhao等［5］提出了Fbank特征提取時基于濾波器組對音頻進行濾波，可以捕獲音頻的重要信息，但Fbank特征只考慮了音頻的頻率分布信息，對其他音頻的特征信息如時域和能量信息等未涉及，導致識別效果較差. 為克服MFCC和Fbank特征提取的缺點，本文提出在殘差Mel倒譜系數(shù)（residual Mel|frequency cepstral coefficients， RMFCC）中引入殘差信號［6］的概念，提取語音信號中不能被MFCC描述的殘余信息，可有效提高語音識別的準確率. 此外，各種深度學習框架也被應用于語音識別任務，包括深度神經(jīng)網(wǎng)絡（deep neural network， DNN）［7］、長短期記憶神經(jīng)網(wǎng)絡（long short-term memory， LSTM）［8］、循環(huán)神經(jīng)網(wǎng)絡（recurrent neural network， RNN）［9］和雙向循環(huán)神經(jīng)網(wǎng)絡（bidirectional recurrent neural network， BiRNN）［10］等神經(jīng)網(wǎng)絡模型.

近期，基于注意力機制的Transformer模型在各種語音識別任務中逐漸取代了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡模型. 這是因為Transformer模型具有捕獲長距離語音特征信息和高度并行訓練的能力，而卷積神經(jīng)網(wǎng)絡（CNN）則擅長提取局部細粒度特征. 通過引入注意力機制， Transformer模型能同時處理整個輸入序列，而不像RNN模型那樣需要按順序逐步計算. 這使得Transformer模型能高效地并行計算，從而顯著加快了訓練速度和推理速度. 在此基礎上文獻［11］提出了Conformer模型，該模型既能捕獲長距離信息又能提取局部特征信息，在端到端語音識別任務中展現(xiàn)了優(yōu)異的識別性能.

針對復雜噪聲環(huán)境下的語音識別準確率低和魯棒性差的問題，本文提出一種基于增減殘差Mel倒譜系數(shù)（addition-deletion residual Mel|frequency cepstral coefficients， ADRMFCC）的語音識別方法. 該方法首先利用基于增減分量法的語音貢獻度特征篩選方式對MFCC和RMFCC特征進行篩選，然后將特征映射在由Mel域-殘差域組成的空間坐標系中以得到ADRMFCC，并將處理后的融合特征ADRMFCC送入Conformer-CTC端到端模型中進行識別訓練. 實驗結果表明，在不同的噪聲種類和信噪比條件下，本文方法顯著提高了語音識別性能.

1 特征提取

1.1 MFCC特征

MFCC是一種常用的語音信號處理特征提取方法. 在特征提取過程中，首先，將語音信號分幀，并對每幀進行加窗處理; 其次，對每幀進行快速Fourier變換（FFT），得到該幀語音信號的頻譜; 再次，使用一組Mel濾波器將頻譜轉換為Mel頻率譜，并對Mel頻率譜取對數(shù)運算，得到以dB為單位的對數(shù)譜; 最后，對對數(shù)譜進行離散余弦變換，得到MFCC特征. 一般使用20～40個濾波器，得到20～40維度的特征向量. 在使用MFCC特征時需要對特征進行歸一化處理，以保證不同特征維度的重要性相同. 第i幀第j維的MFCC為MMFCC（i，j）=2M∑Mm=1lg［Si（m）］cosjπ（m-0.5）M，（1）

其中： i=1，2，…，I為語音參數(shù)； j=1，2，…，Jm， Jm為MFCC維度； M為濾波器數(shù)量; m為濾波器. 將F×Jm維的MFCC特征矩陣表示為M.

1.2 RMFCC特征

殘差Mel倒譜系數(shù)（RMFCC）是對Mel頻率倒譜系數(shù)的一種改進. RMFCC的計算方式與MFCC類似，但在計算Mel頻率譜時，使用殘差信號，即原始音頻信號與線性預測編碼（linear predictive coding， LPC）［12］預測信號的差. 計算步驟如下：

1）對語音信號x（n）分幀加窗，使用漢明窗，分幀加窗后的第i幀信號為xi（n）;

2）對xi（n）進行離散Fourier變換，有

Si（k）=∑N-1n=0xi（n）e-j2πkn/N，（2）

其中N為離散Fourier變換的點數(shù);

3） Si（k）的功率譜密度為

Pi（k）=Si（k）2;（3）

4）對每幀的功率譜進行LPC分析，得到LPC系數(shù)，使用LPC系數(shù)對每幀音頻信號進行線性預測編碼，得到LPC預測信號為

（k）=∑Pi=1aix（k-i），（4）

其中： p為LPC的階數(shù)，即LPC系數(shù)的數(shù)量； ai為估計得到的LPC系數(shù)， i=1，2，…，p；

5）將原始音頻信號與LPC預測信號做差，得到殘差信號為r（k）=x（k）-（k）；（5）

6）使用Mel濾波器組將殘差信號轉換為Mel頻率譜Sm（k，m）=∑N-1i=0R（k，i）2Hm（i）；（6）

7）對Mel頻率譜進行倒譜變換，得到RMFCC為RMFCC（i，j）=2M∑Mm=0log（Sm（k，m））cosjπMm-12，（7）

其中M是Mel濾波器數(shù)量， Sm（k，m）是第k幀殘差信號經(jīng)過第m個Mel濾波器的響應， j為RMFCC系數(shù)階數(shù)，將F×Rr維的MFCC特征矩陣表示為R.

1.3 基于增減分量法的融合特征ADRMFCC

傳統(tǒng)的特征融合方式是將單一的底層聲學特征進行維度拼接，例如將MFCC和RMFCC拼接在一起，得到一個維度為F×（Jm+Rr）的融合特征矩陣：X=（（M1，M2，…，MJm），（R1，R2，…，RRr）），（8）

其中M1和R1分別為第一維MFCC和RMFCC. 雖然這種方式能表征兩種聲學特征所包含的不同信息，但無法將它們之間的關聯(lián)關系考慮在內(nèi). 為解決該問題，可將相同維度的MFCC和RMFCC以線性相加的方式進行特征融合，即得到一個維度為F×Jm的融合特征矩陣：

X=M+R.（9）

這種方式可以增強特征之間的關聯(lián)，但融合后的特征矩陣維度較高，會增加模型訓練和計算的復雜度，同時也可能存在冗余信息，并且在噪聲環(huán)境下，隨著信噪比的降低，語音的聲學特征會被破壞，因此仍無法達到理想的語音識別效果. 為解決上述問題，本文提出一種基于增減分量法語音貢獻度的特征篩選方式，去除不必要的維度成分，得到MFCC和RMFCC中含有對語音識別有貢獻度的特征維度. 增減分量法的平均貢獻度函數(shù)如下：

Gi=1K∑ilt;j（p（i，j）-p（i+1，j））+∑igt;j（p（i，j）-p（i-1，j）），（10）

其中Gi表示貢獻度， p（i，j）表示第i維到第j維特征作為語音特征參數(shù)時的識別準確率. 本文實驗首先檢測特征參數(shù)每個維數(shù)i～j組合的識別率，然后由式（10）計算每個維度的貢獻度.

由于簡單的特征域維度疊加和線性相加并不能更好地發(fā)揮兩種特征的抗噪性能，本文提出將Mel域和殘差域分別作為新的語音特征空間的橫軸和縱軸，并在保證MFCC，GFCC特征在幀長、幀移一致的情況下，將兩種特征進行矩陣乘運算得到融合特征ADRMFCC，簡化后的ADRMFCC為xij=∑Ft=1MitRtj=∑Ft=1Mit2M∑Mm=1lg［Si（m）］cosjπ（m-0.5）M，（11）

其中： Mit為第t幀第i維MFCC; Rtj為第t幀第j維RMFCC; xij為兩種特征中某一維度不同語音特征的加權和，數(shù)值越大，二者關系越大.

2 基于Conformer-CTC語音識別模型

為實現(xiàn)更好的語音識別模型，本文采用鏈接時序分類（connectionist temporal classification， CTC）作為解碼器，構建Conformer-CTC編碼解碼模型.

Conformer模型是一種序列建模架構，它融合了多個關鍵組件，并通過殘差連接實現(xiàn)它們之間的連接. 這些組件包括多頭注意力模塊、卷積網(wǎng)絡模塊和前饋網(wǎng)絡模塊.多頭注意力模塊使用類似于Transformer-XL的方法計算序列中的位置編碼信息，可有效捕捉輸入語音特征序列中的重要語音特征信息. 卷積網(wǎng)絡模塊由逐點卷積網(wǎng)絡、 ReLU激活函數(shù)和一維深度卷積網(wǎng)絡組成，它能有效捕捉輸入特征序列中的局部細節(jié)語音特征信息. 前饋網(wǎng)絡模塊在Conformer模型中扮演重要角色，它由兩個線性變換層和Swish激活函數(shù)構成，該模塊引入了非線性變換，可更好地捕捉輸入特征的復雜關系. Conformer模型借鑒了Macaron-Net網(wǎng)絡結構的思想，將前饋網(wǎng)絡模塊分別放置在多頭注意力模塊之前和卷積網(wǎng)絡模塊之后. 這種設計使模型可充分利用多頭注意力模塊對全局上下文的建模能力，以及卷積網(wǎng)絡模塊對局部細節(jié)的建模能力. 同時，通過在各模塊之間添加殘差連接，有助于信息的傳遞并減輕梯度消失問題.

該過程首先對輸入的語音信號進行特征提取，并對其進行降采樣處理，使用多個構象塊（conformer blocks， CB）建立編碼器部分. 每個CB包含自注意力層、前饋神經(jīng)網(wǎng)絡層和卷積層，用于捕捉輸入序列的上下文信息和特征表示. 在編碼器之后添加一個CTC層，將編碼器的輸出映射到字符序列. CTC層使用CTC損失函數(shù)訓練模型，無需對齊標簽，可處理不定長輸入和輸出序列. 在訓練過程中，使用CTC解碼器對CTC層的輸出進行解碼，得到最終的識別結果.

3 實驗及結果分析

3.1 實驗設計

利用PyCharm進行仿真實驗，使用的軟件為TensorFlow1.15版， Window10操作系統(tǒng)， 12 GB內(nèi)存，處理器為Intel-i5-12400F. 本文使用的實驗數(shù)據(jù)來自中文數(shù)據(jù)集THCS30. 數(shù)據(jù)集THCHS30總持續(xù)時間超過30 h，采樣頻率為16 kHz，采樣大小為16 bit. 訓練集包含10 000條語音數(shù)據(jù). 表1列出了中文語音數(shù)據(jù)集THCHS30的信息.

針對復雜噪聲環(huán)境下的語音識別，本文實驗訓練集采用公開噪聲數(shù)據(jù)庫NOISEX-92中的白噪聲作為背景噪聲，每種語音包含的SNR等級為［5 dB，10 dB，15 dB，20 dB，25 dB］的語音各1 000條和500條未加噪語音. 測試集采用NOISEX-92中7種不同的噪聲源： buccaneer1，destroyerops，f16，hfchannel，pink，volvo，white，模擬真實環(huán)境下不同的噪聲環(huán)境. 每種語料庫包含的SNR等級為［-5 dB，0，5 dB，10 dB，15 dB］的音頻，從而構成35個測試數(shù)據(jù)庫. 平均信噪比為

SNR=10lg∑Hn=1s2（n）∑Hn=1w2（n），（12）

其中∑Hn=1s2（n）表示語音信號能量總和， H表示語音的總采樣點數(shù)， ∑Hn=1w2（n）表示噪聲信號能量總和. 語音識別性能評價指標為

WER=S+D+IN×100%，（13）

其中S表示替換， D表示刪除， I表示插入， N表示詞數(shù)目， WER表示錯誤率.

3.2 實驗參數(shù)選取

語音的幀長和幀移是對語音識別性能有重要影響的關鍵參數(shù). 本文選擇39維的MFCC特征和24維的RMFCC特征，并在以10 dB的白噪聲為背景噪聲的數(shù)據(jù)集THCHS30中進行實驗，以驗證不同幀長和幀移對語音識別性能的影響. 表2列出了不同幀長和幀移下的語音識別準確率.

表2由13維的靜態(tài)MFCC特征及其1階、 2階動態(tài)差分參數(shù)組成，語音幀數(shù)為976. 此外，隨著幀長和幀移的增加，特征的識別準確率呈現(xiàn)先增加后降低的趨勢. 當幀長和幀移分別為1 024和512時，兩種特征的識別準確率最高，分別為57.98%和68.48%. 實驗結果表明，在噪聲環(huán)境下， RMFCC能更好地表征語音特征，從而提高語音識別的準確性. RMFCC通過引入殘差信息，可捕捉到語音信號中的細微變化和動態(tài)特征，對在噪聲環(huán)境下更穩(wěn)定地表示語音有益. 而傳統(tǒng)的MFCC只考慮靜態(tài)特征，對噪聲環(huán)境下的語音識別可能會受到干擾.

本文語音識別模型選用CTC損失函數(shù)度量真實標簽與預測標簽的差值， CTC損失函數(shù)能處理輸入序列和輸出序列長度不一致的情況，它通過對齊和計算兩個序列之間的差異訓練模型. 選用Adam優(yōu)化函數(shù)加速模型收斂，并在學習率設為0.001，迭代次數(shù)為200時，模型具有較好的收斂效果.

3.3 基于語音識別貢獻度ADRMFCC選取

本文采用多次實驗取均值的形式，將39維的MFCC特征和24維的RMFCC在以5 dB的白噪聲為背景噪聲的數(shù)據(jù)集THCHS30及不同模型中進行實驗. 圖2為MFCC和RMFCC各維度貢獻度.

由圖2可見， 39維MFCC和24維RMFCC特征在不同維度下的貢獻度呈下降趨勢. 表明增加特征的維度并不一定會提升語音識別性能. 基于此，本文提出兩種特征篩選方式.

方式1：由圖2可見，當MFCC特征在第27維時，貢獻度快速下降，因此選取前26維特征作為待融合MFCC特征（eliminate dimensions-MFCC， ED-MFCC）；同理，當RMFCC特征在第16維時，貢獻度快速下降，因此選取前15維特征作為待融合RMFCC特征（eliminae dimensions-RMFCC， ED-RMFCC）.

方式2：以貢獻度大小依次排序選取特征，將39維MFCC特征貢獻度從大到小排序后選?。?，3，9，16，15，7，10，1，12，8，14，5，11，13，2，17，19，20，22，18，4，21，23，4，24，25）共26維特征作為待融合特征；將24維RMFCC特征貢獻度從大到小排序后選?。?，7，10，4，8，2，5，9，1，11，13，3，12，14，18）共15維作為待融合特征.

表3列出了不同模型下兩種方式的識別準確率. 由表3可見，在使用數(shù)據(jù)集THCHS30進行實驗時，以5 dB的白噪聲作為背景噪聲， Conformer-CTC作為系統(tǒng)模型時，方式1的語音識別準確率為89.56%，方式2的語音識別準確率為91.23%. 實驗結果表明，方式2中按照貢獻度大小排序后的篩選方式能更好地獲取有意義的特征，因此具有更高的語音識別準確率.

3.4 測試不同噪聲下的語音識別性能

為測試7種不同復雜噪聲環(huán)境下本文方法的有效性和魯棒性，并分析其優(yōu)劣原因，設計下列6組實驗，實驗結果列于表4.

由表4可見：在復雜噪聲環(huán)境中，隨著噪聲信噪比的降低，語音信號逐漸被淹沒，導致語音識別準確率逐漸下降；對比ADRMFCC特征在7種不同復雜噪聲環(huán)境下的識別性能表明， VN噪聲環(huán)境下的語音識別準確率均高于其他6種噪聲，且在-5 dB信噪比下仍達到89.78%的識別準確率. 這是因為VN噪聲為車內(nèi)噪聲，其頻率區(qū)間在300 Hz以下，而人聲的主要頻率區(qū)間在300～3 400 Hz，故當VN噪聲疊加到語音信號上時，對語音信號的破壞相對低于其他噪聲.

圖3為不同特征在白噪聲不同信噪比下的語音識別性能. 由圖3可見， ADRMFCC特征在各信噪比條件下的準確率均高于其他特征.

對比實驗1～3，在-5 dB信噪比下， 39維的MFCC特征準確率最低，僅為30.67%，這是由于MFCC特征對人類聽覺系統(tǒng)的感知特征進行了模擬，能很好地表示語音信號的重要頻率成分，因此在較清晰的語音環(huán)境下性能較好；而實驗1中Fbank特征使用的濾波器數(shù)量較多，因此能更好地表示高頻和低頻信息，具有一定的噪聲魯棒性，相比于MFCC特征在5種不同信噪比下分別提了5.72，5.99，12.90，13.97，1.96個百分點；由于實驗3中RMFCC特征使用了LPC預測信號和殘差信號，能更好地抑制噪聲，因此在高噪聲環(huán)境下表現(xiàn)出很好的魯棒性，在5種不同信噪比條件下相比于MFCC和Fbank特征分別提高了18.90，20.50，14.23，21.96，17.89個百分點和13.17，14.51，1.63，8.02，15.93個百分點.

對比實驗2和實驗4可知， 39維的MFCC特征中可能包含一些對語音識別意義較小的特征，因此采用增減分量法篩選具有語音貢獻度的特征，并從大到小排序提取26維的ED-MFCC特征，能較好地對特征進行處理，去除不必要的維度成分，減少參數(shù)冗余. 在5種不同信噪比條件下相比于ED-MFCC和MFCC特征分別提高了10.76，11.50，18.37，19.01，13.42個百分點. 同理，由實驗3和實驗5可知，在5種不同信噪比條件下相比于ED-RMFCC和RMFCC特征分別提高了13.78，6.37，13.65，4.04，6.15個百分點. 實驗6中的ADRMFCC特征在5種信噪比下的識別性能均高于其他5種特征性能，相比于26維的ED-MFCC特征在WN噪聲下識別準確率提高了19.10，24.63，27.00，37.99，30.50個百分點；相比于15維的ED-RMFCC特征識別準確率提高了7.19，19.26，17.49，31.00，15.19個百分點. 實驗結果表明，本文針對復雜噪聲環(huán)境下的語音識別方法具有較好的魯棒性和識別性能.

圖4為7種不同噪聲源下，采用ADRMFCC特征和ED-MFCC，ED-RMFCC特征的平均識別準確率.

由圖4可見，在7種不同噪聲源下，采用ADRMFCC特征相對于ED-MFCC，ED-RMFCC特征在平均識別準確率上均有提升. 除車內(nèi)噪聲源VN外，其他噪聲源下語音識別準確率顯著提高. 這是因為VN屬于低頻噪聲，車內(nèi)噪聲能量主要由其低頻部分決定，因此在VN源下語音識別準確率提升并不明顯. 可見，本文的ADRMFCC特征方法可極大提高在復雜噪聲環(huán)境下的語音識別準確率，并具有很高的魯棒性.

綜上，針對復雜噪聲環(huán)境下語音識別準確率低和魯棒性差的問題，本文提出了一種ADRMFCC的語音識別方法. 該方法先利用基于增減分量法語音貢獻度的特征篩選方式對MFCC和RMFCC特征進行篩選，然后將篩選后的特征映射在由Mel域-殘差域組成的空間坐標系中以得到增減殘差Mel倒譜系數(shù)（ADRMFCC），最后將處理好的融合特征ADRMFCC送入Conformer-CTC端到端模型中進行識別訓練. 實驗結果表明，本文方法在7種不同噪聲源下的語音識別準確率均有提升，且魯棒性也有增強，因此該方法適用于復雜噪聲環(huán)境下的語音識別.

參考文獻

［1］ BISWAS M， RAHAMAN S， AHMADIAN A， et al. Automatic Spoken Language Identification Using MFCC Based Time Series features ［J］. Multimedia Tools and Applications， 2023， 82（7）： 9565-9595.

［2］ CHANDRASEKARAM B. New Feature Vector Based on GFCC for Language Recognition ［J］. Journal of Algebraic Statistics， 2022， 13（2）： 481-486.

［3］ FAU＇NDEZ-ZANUY M. Speaker Recognition by Means of a Combination of Linear and Nonlinear Predictive Models ［EB/OL］. （2022-05-07）［2023-02-01］. https：//arxiv.org/abs/2203.03190.

［4］ WANG Z Q， YAN J H， WANG Y F， et al. Speech Emotion Feature Extraction Method Based on Improved MFCC and IMFCC Fusion Features ［C］//2023 IEEE 2nd International Conference on Electrical Engineering， Big Data and Algorithms （EEBDA）. Piscataway， NJ： IEEE， 2023： 1917-1924.

［5］ ZHAO J K， ZHOU H P， LIU H L， et al. Feature Fusion Method for Speaker Recognition Based on Embedding Mechanism ［C］//International Conference on Signal Processing and Communication Security （ICSPCS 2022）. ［S.l.］： SPIE， 2022： 108-113.

［6］ SIDDHARTHA S， MISHRA J， PRASANNA S R M. Language Specific Information from LP Residual Signal Using Linear Sub-band Filters ［C］//2020 National Conference on Communications （NCC）. Piscataway， NJ： IEEE， 2020： 1-5.

［7］ WANG D， WANG X D， L S H. An Overview of End-to-End Automatic Speech Recognition ［J］. Symmetry， 2019， 11（8）： 1018-1044.

［8］ ZHAO J F， MAO X， CHEN L J. Speech Emotion Recognition Using Deep 1D amp; 2D CNN LSTM Networks ［J］. Biomedical Signal Processing and Control， 2019， 47： 312-323.

［9］ SHEWALKAR A， NYAVANANDI D， LUDWIG S A. Performance Evaluation of Deep Neural Networks Applied to Speech Recognition： RNN， LSTM and GRU ［J］. Journal of Artificial Intelligence and Soft Computing Research， 2019， 9（4）： 235-245.

［10］ HE M H. Application of Bidirectional Recurrent Neural Network in Speech Recognition ［J］. Computer and Modernization， 2019（10）： 1-6.

［11］ ZHANG Y， PUVVADA K C， LAVRUKHIN V， et al. Conformer-Based Target-Speaker Automatic Speech Recognition for Single-Channel Audio ［C］//2023 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）. Piscataway， NJ： IEEE， 2023： 1-5.

［12］ DAVE N. Feature Extraction Methods LPC， PLP and MFCC in Speech Recognition ［J］. International Journal for Advance Research in Engineering and Technology， 2013， 1（6）： 1-4.

［13］ DO C T. End-to-End Speech Recognition with High-Frame-Rate Features Extraction ［EB/OL］. （2019-06-03）［2023-01-15］. https：//arxiv.org/abs/1907.01957.

［14］ GARG U， AGARWAL S， GUPTA S， et al. Prediction of Emotions from the Audio Speech Signals Using MFCC， MEL and Chroma ［C］//2020 12th International Conference on Computational Intelligence and Communication Networks （CICN）. Piscataway， NJ： IEEE， 2020： 87-91.

［15］ TZUDIR M， BAGHEL S， SARMAH P， et al. Analyzing RMFCC Feature for Dialect Identification in Ao， an Under-Resourced Language ［C］//2022 National Conference on Communications （NCC）. Piscataway， NJ： IEEE， 2022： 308-313.

（責任編輯：韓嘯）

吉林大學學報(理學版)2024年4期

吉林大學學報(理學版)的其它文章: 地下水土著微生物菌群吸收維生素強化微生物降解烷烴效率分析; 二苯氨基脲摻雜g|C3N4的制備及其光催化性能; 新型陰離子金屬有機骨架化合物的合成及其對染料的吸附性能; Ag摻雜In2O3薄膜的制備及其光電性能; 基于Fourier變換紅外光譜分析咖啡豆成分; 耦合Rulkov神經(jīng)元的復雜動力學行為