范君怡,楊吉斌,張雄偉,鄭昌艷
1.陸軍工程大學 指揮控制工程學院,南京 210007
2.火箭軍士官學校 測試控制系,山東 濰坊 262500
語音增強技術是指從帶噪語音信號中恢復出盡可能干凈的語音信號,提高噪聲條件下語音的質量和可懂度,在學術界和工業(yè)領域中得到了廣泛的研究和應用[1-3]。和多通道語音增強相比,單通道語音增強具有硬件成本低,能耗小的優(yōu)勢,但由于缺失聲源信息和噪聲的空間信息,研究更具挑戰(zhàn)性。
和傳統(tǒng)的單通道語音增強技術[4-10]相比,基于深度神經網絡的語音增強技術,不需要對數據設置額外假設條件。通過挖掘大規(guī)模數據的內在關聯,能夠準確實現語音和噪聲的估計,在平穩(wěn)噪聲環(huán)境下取得了較大的進展。目前,各種網絡模型都得到了應用,如深度神經網絡(deep neural network,DNN)[11-13]、遞歸神經網絡(recurrent neural network,RNN)[14-15]、卷積神經網絡(convolutional neural network,CNN)[16-18]、U-net神經網絡[19-22]等。Wang等人在文獻[11-12]中率先將深度學習用于語音增強任務的研究。他們使用DNN估計出理想二值掩模(ideal binary mask,IBM)值,將帶噪語音信號直接映射到干凈語音信號,但DNN存在參數量大、無法利用上下信息等問題。Weninger等人在文獻[14]中利用RNN對上下文的特征信息進行建模,在文獻[15]中進一步采用長短期記憶人工神經網絡(long short-term memory,LSTM)對語音信號進行近似估計,但RNN存在訓練時間長、網絡規(guī)模大、難以實現并行化處理等問題。Park等人在文獻[16]中提出了基于CNN的增強模型,通過輸入前幾幀的帶噪語音信號來預測當前干凈語音信號,很好地利用了時間相關性。與RNN相比,這種基于時域的卷積網絡具有更小的網絡規(guī)模、更短的訓練時間,但CNN存在感受野受限,上下文建模能力弱等問題。為了緩解傳統(tǒng)CNN模型的問題,Rethage等人在文獻[17]中采用擴張卷積神經網絡來提高語音增強的性能。張?zhí)祢U等人在文獻[18]中采用門控機制和擴張卷積神經網絡,在增加感受野的基礎上,門控機制可以較好地處理上下文特征信息。
近兩年,Transformer因可并行、能處理長時間依賴的優(yōu)勢,在語音識別、自然語言處理、圖像分割等領域取得了很大成功[23-25],然而由于其采用的解碼器(decoder)結構需要同時使用上下文特征信息,不適用于實時處理,在語音增強方面的工作相對較少[26-29]。為了更好地利用Transformer模型提升單通道語音增強的性能,挖掘其在單通道語音增強方面的應用潛力,本文在歸納基于深度學習的語音增強框架基礎之上,對基于Transformer的語音增強模型進行了系統(tǒng)梳理,根據Transformer集成的結構不同分類介紹了基于Transformer的語音增強模型,并綜合對比了它們的性能。最后,對基于Transformer的語音增強發(fā)展方向進行了展望。
單通道語音增強中,帶噪語音信號可由公式(1)給出:
其中,x(n)表示干凈語音信號,d(n)表示加性噪聲信號,y(n)表示帶噪語音信號。加性噪聲是對語音信號質量影響最為嚴重的噪聲之一[30],混響噪聲等非加性噪聲可以通過某些方式將其轉換為加性噪聲。
語音增強需要從帶噪語音信號y(n)中估計出干凈語音信號x?(n),使得x?(n)和x(n)差異盡可能小,如式(2)所示:
其中,dis(?)度量了x?(n)和x(n)之間的差異,常見的度量方法包括均方誤差(MSE)、平均絕對誤差(MAE)等。
由于語音中疊加的噪聲存在不同類型、不同信噪比的變化,語音增強模型需要對噪聲擁有很好的泛化性能,即需要擁有去除不同類型和不同信噪比噪聲的能力。
傳統(tǒng)的單通道語音增強模型為了建模和求解的方便,在公式(2)的基礎上加入了其他一些約束或者假設條件,然后根據假設的先驗知識來直接估計x?(n)。這些約束和假設不滿足時,語音增強性能難以提升。而基于深度學習的語音增強模型不再直接求解模型(2)中的信號估計問題,而是依據設定的目標函數在數據集上獲得最優(yōu)化解的參數,從而隱式地挖掘出帶噪語音信號和干凈語音信號之間的非線性映射關系f(?),實現由帶噪語音信號y(n)到干凈語音信號x?(n)的映射。
基于深度學習的語音增強模型如圖1所示,其中神經網絡可以采用DNN、RNN、CNN、LSTM、U-net、Transformer等不同的網絡結構。形式化描述可以用如下函數表示:
圖1 基于深度學習的語音增強模型框圖Fig.1 Block diagram of deep learning-based speech enhancement model
其中,y和x?分別表示網絡的輸入和輸出,它們既可以是時域波形,也可以是時頻域變換特征。x?還可以是時頻域掩碼估計值。此時,利用x?對y進行掩模操作得到干凈語音的估計。F(?,θ)表示參數為θ的網絡模型?;谏疃葘W習的語音增強模型將語音增強的問題轉換為求參數θ最優(yōu)解的問題,如公式(4)所示:
其中,J表示目標函數,可以采用MSE等度量形式。
Transformer神經網絡能夠以并行方式處理輸入數據,有效地解決長時依賴問題,顯著減少訓練時間和推理時間,已在許多自然語言處理任務上展現了突出的性能[31]。然而,語音增強對上下文特征信息的使用不同于機器翻譯等自然語言處理任務,因此傳統(tǒng)的Transformer神經網絡在語音增強方面表現并不佳。為此,需要使用經過改進的Transformer神經網絡[26-29],才能在語音增強中有效發(fā)揮Transformer模型的優(yōu)勢。
傳統(tǒng)的Transformer模型如圖2所示,由位置編碼模塊、多頭注意力機制模塊和前饋網絡模塊組成。
圖2 傳統(tǒng)的Transformer模型示意圖Fig.2 Schematic diagram of conventional Transformer
多頭注意力機制模塊的核心是自注意力機制。在自注意力機制的實現中,利用一組鍵K和值V記錄已學習的信息,通過查詢Q來得到注意力輸出,如圖3所示。首先將Q和K進行相似度計算獲得權重,縮放層除以參數dk(k表示維度)起到縮放調節(jié)作用,控制內積不至于太大,然后使用softmax函數對相似度權重進行歸一化,最后將歸一化的權重和相應的V進行加權求和得到注意力輸出。
圖3 自注意力機制示意圖Fig.3 Schematic diagram of self-attention mechanism
計算自注意力機制輸出向量的公式如下:
自注意力機制可以“動態(tài)”地生成不同連接的權重,從而得以處理變長的信息序列,在一定程度上解決長時依賴問題。
多頭注意力機制模塊如圖4所示,本質是h個自注意力機制的集成,其模塊結構并不是很復雜。其中,所有自注意力機制都關注相同的Q、K和V,但每個模塊只對應最終輸出序列中的一個子空間,并且輸出序列互相獨立,這就使得多頭注意力機制模塊能夠對不同位置表征子空間中的不同信息實現同時關注。而在自注意力機制情況下,歸一化會抑制這種信息
圖4 多頭注意力機制模塊示意圖Fig.4 Schematic diagram of multi-head self-attention mechanism
在實現時,首先初始化h組Q、K和V向量,每組Q、K和V的權重參數W都不一樣,如式(6)所示,通過引入不同的權重可以允許多頭注意力機制模塊在表征子空間里學習到更多的信息。然后對每組進行自注意力機制的計算,將得到的自注意力機制輸出結果連接起來,再乘以一個權重向量WO就可以得到最終多頭注意力機制模塊的輸出向量。
多頭注意力機制模塊的計算公式如下所示:
Transformer模型完全避免了循環(huán)結構[31],采用多頭注意力機制實現了輸入輸出的全局依賴估計。由于每個注意頭可以學會執(zhí)行不同的任務,多頭注意力機制可以產生更具解釋性的模型。
前饋網絡模塊如圖5所示,由兩個線性變換和一個ReLU激活組成。雖然不同位置的線性變換是相同的,但它們在層與層之間使用不同的參數。受RNN對序列信息跟蹤有效性的啟發(fā),用于語音增強的前饋網絡模塊通常會把第一個線性變換層替換為GRU層,來學習位置信息[32]。
圖5 前饋網絡模塊示意圖Fig.5 Schematic diagram of feedforward network module
已有研究表明,位置編碼模塊不適合用于聲學建模[33]。為了適應語音處理的應用需求,研究者們已提出多種改進的Transformer模型。
文獻[26]在Transformer模型中引入高斯加權矩陣,提出了帶有高斯加權的自注意力機制,可以實現以高注意力關注較近的上下文幀,以低注意力關注較遠的上下文幀。文獻[27]利用局部LSTM對語音信號的位置結構進行建模,替換了原模型中的位置編碼模塊。文獻[29]通過引入兩個級聯的Transformer模塊實現雙路徑Transformer,用于能同時學習語音信號的局部和全局上下文信息。
為適應流式語音處理的需要,需要對自注意力機制或Transformer模型進行修改,避免其全序列上下文信息進行建模。Transformer-Transducer[34]利用兩個VGGnet實現位置信息編碼,然后將特征送入Transformer進行編碼,在Transformer中利用截斷的自注意力限制上下文窗口,降低了處理延遲。文獻[35]提出了Conv-Transformer Transducer模型,將自注意力限制為只獲取上文信息,實現了流式的處理。文獻[36]提出了Chunk自注意力編碼器,在利用Transformer編碼時只需要使用一個Chunk的上下文信息,不再依賴于整段音頻輸入。Conformer也是一種改進的Transformer模型[37],其包含一維深度卷積,以實現更有效的上下文特征信息建模。文獻[38]提出了DF-Conformer模型,使用線性復雜度的注意力和堆疊的擴張卷積來擴展Conformer,通過減少相鄰時間幀的建模范圍和觀察實時因子(real-time feedback,RTF)可知,該模型可以完成實時任務。
人類在處理復雜聽覺場景時,既能注意到關注的語音內容,又能注意到場景中的背景變化。實際上聽覺存在多個注意的焦點。同時,由于關注的語音發(fā)音通常由同一人發(fā)出,和噪聲內容相比,語音在較長時間尺度上特征分布的相似性較強。Transformer所具有的多頭注意力機制、長時依賴關系估計能力強的優(yōu)勢可以很好地與人類聽覺感知的這些特點相吻合。表1給出了目前已有的多種集成Transformer的語音增強工作,這些模型不同程度地改善了原有系統(tǒng)的增強性能。
表1 集成Transformer的語音增強模型分析Table 1 Analysis of speech enhancement model integrated with Transformer
根據Transformer模塊在網絡中的不同位置,可將已有工作分為嵌入式結構和組合式結構兩類。采用嵌入式結構的模型在網絡的編碼層或者解碼層中加入Transformer,主要用于改善編碼層或者解碼層的學習效果(如圖6所示)。采用組合式結構的模型則在編碼器和解碼器之間加入Transformer,主要用于計算掩碼(Mask)值,以改善解碼器的輸入(如圖7所示)。
圖6 嵌入式結構的Transformer語音增強模型Fig.6 Embedded structure in Transformer speech enhancement framework
圖7 組合式結構的Transformer語音增強模型Fig.7 Combined structure in Transformer-based speech enhancement framework
2.3.1 嵌入式結構的Transformer增強模型
帶有高斯加權自注意力機制的Transformer(Transformer with Gaussian-weighted self-attention,T-GSA)模型和語音增強Transformer(speech enhancement transformer,SETransformer)模型是兩個采用嵌入式結構的Transformer增強模型。
T-GSA模型。和傳統(tǒng)的Transformer不同,T-GSA模型通過部署一個高斯加權矩陣來修改分數矩陣,使注意力權重可以隨著目標幀和上下文幀之間距離的增大而減弱,符合語音信號之間的相關性關系。該模型的自注意力機制輸出向量的計算公式如下:
在語音增強過程中,為了避免實施輸入和輸出序列的對齊操作,T-GSA單獨使用編碼網絡或解碼網絡。圖8是在編碼網絡上進行語音增強的Transformer模型圖。每個編碼網絡層由多頭注意力機制模塊、全連接層模塊和歸一化層模塊組成。網絡的輸出是一個時頻掩碼。將掩碼和帶噪語音信號幅度譜相乘,得到干凈語音信號幅度譜的估計。然后結合原始帶噪語音信號的相位重構干凈語音信號。
圖8 基于Transformer的編碼網絡模型圖Fig.8 Transformer-based coding network model diagram
上述模型只對幅度譜進行處理,缺乏對相位信息的處理,利用復數網絡可以同時保留幅度信息和相位信息。復數網絡上的Transformer模型需要兩個輸入和兩個輸出,分別是帶噪語音信號頻譜的實部和虛部、時頻掩碼的實部和虛部。編碼網絡中只有一個多頭注意力機制模塊,不能混合提取實部和虛部的隱藏特征,所以需要使用具有兩個多頭注意力機制模塊的解碼網絡。圖9是在解碼網絡上進行語音增強的Transformer模型圖。
圖9 基于Transformer的解碼網絡模型圖Fig.9 Transformer-based decoding network model diagram
和編碼網絡中的Transformer模塊不同,圖9右側的第一層多頭注意力機制模塊各自關注上層實部和虛部的輸出。第二層多頭注意力機制模塊關注實部和虛部混合路徑的輸入,利用它們之間的交叉關系來獲取更多的隱藏特征。
SETransformer模型。該模型由局部LSTM、多頭注意力機制模塊和一維卷積網絡模塊組成,如圖10所示。
圖10 SETransformer整體框架圖Fig.10 Framework diagram of SETransformer
SETransformer與T-GSA有兩個不同之處。第一個不同是在多頭注意力機制模塊之前加入了局部LSTM來描述語音信號的位置結構。局部LSTM能夠充分捕捉每個窗口內的順序特征,再通過逐一地滑動操作就能包含全局的順序特征。另外,局部LSTM只關注本地的短期依賴,不考慮任何長期依賴,因此可以以并行方式來獨立處理短序列,降低計算復雜度。第二個不同是把傳統(tǒng)Transformer中的前饋網絡模塊替換成一維卷積網絡模塊。采用具有ReLU激活的兩層一維卷積網絡,能夠使順序特征之間的關系更加密切,對提升語音增強效果十分有利。
2.3.2 組合式結構的Transformer增強模型
基于雙階段Transformer的神經網絡(two-stage transformer based neural network,TST-NN)模型和基于雙路徑Transformer的全頻帶/子頻帶融合網絡(dualpath transformer based full-band and sub-band fusion network,DPT-FSNET)都是組合式結構的Transformer增強模型。
TST-NN模型。該增強模型采用了時域端到端的增強結構,由分割模塊、編碼器模塊、雙階段Transformer模塊(two-stage Transformer module,TSTM)、掩碼模塊、解碼器模塊和重疊添加模塊組成。其中采用的雙路徑Transformer模型位于編碼器和解碼器之間,用于估計帶噪語音的掩碼。圖11給出了TST-NN模型圖,圖中C、N、F分別表示通道、幀的數量幀的大小。
圖11 TST-NN模型圖Fig.11 TST-NN model diagram
TSTM模塊由四個堆疊的雙階段Transformer塊組成。雙階段Transformer塊由一個局部Transformer和一個全局Transformer組成,可以同時提取局部和全局的上下文特征信息。局部Transformer模塊對輸入的局部特征信息進行平行化處理,全局Transformer模塊用來融合局部Transformer模塊的輸出信息,以學習全局特征信息,它們都包含了多頭注意力機制模塊和前饋網絡模塊。
掩碼模塊利用TSTM模塊的輸出來計算用于增強的掩碼。該模塊首先將TSTM模塊的輸出通過PReLU運算和卷積對通道維度進行加倍,然后,通過雙路二維卷積和sigmoid/tanh非線性運算,將兩者的輸出相乘,再一次經過二維卷積和PReLU運算后得到掩碼。
TST-NN模型直接對時域波形進行處理,避免了頻域變換可能帶來的失真。
DPT-FSNET模型 該模型在頻域上進行語音增強,考慮到語音的頻帶分布特性,利用雙路徑Transformer來分別處理全頻帶和子頻帶融合網絡模型。圖12給出了DPT-FSNET模型圖,圖中C、T、F分別表示通道、幀的數量、頻域帶數。
圖12 DPT-FSNET模型圖Fig.12 DPT-FSNET model diagram
DPT-FSNET的編碼器模塊和解碼器模塊結構與TST-NN模型的相同,不同之處僅在于輸入輸出的特征不同。DPT-FSNET模型的編碼器模塊輸入的是高維時頻特征(通道數×幀數×頻域帶數),解碼器模塊輸出頻譜用于恢復增強波形。與TST-NN模型相比,這種處理具有更強的可解釋性和更多的特征信息。
雖然DPT-FSNET模型的雙路徑Transformer(dualpath transformer,DPT)模塊和TST-NN模型的TSTM模塊中的網絡模型都是對局部和全局的上下文特征信息進行建模,但是它們的物理意義不同。DPT中的局部Transformer模塊是對輸入的局部特征信息進行建模,即對語音信號每個子帶的所有時間步長的特征進行建模;全局Transformer模塊用于匯總局部Transformer模塊輸出的每個子帶特征,即對語音信號所有子帶的特征進行建模以學習語音信號的全局特征信息。和TSTM模塊相比,DPT具有更好的解釋性。
2.3.3 一種融合U-net的組合式語音增強模型
和CNN不同,U-net采用了具有跳躍連接的U型網絡結構,可以實現多尺度特征融合處理[39-40]。文獻[19]提出了一種端到端的Wave-U-net語音增強模型,不再需要預處理或后處理,為語音增強任務提供了新的解決方案。文獻[21]提出了一個融合LSTM的U-net網絡,可以實現基于時域的端到端語音增強。該網絡目前能夠在用戶級別CPU上實現實時語音增強。
基于U-net的特征分析能力,在U-net的框架中引入Transformer,設計了一種新的組合式結構語音增強模型(TU-NET),該模型實現了基于時域的端到端單通道語音增強。如圖13給出了TU-NET模型圖,圖中C、N、F分別表示通道、幀的數量、幀的大小。
圖13 TU-NET模型圖Fig.13 TU-NET model diagram
TU-NET模型與TST-NN模型、DPT-FSNET模型僅在編碼器模塊和解碼器模塊上有不同。TU-NET編解碼器模塊采用U-net網絡的編解碼層結構,能夠實現不同尺度下的特征融合。
TU-NET的編碼器模塊如圖14所示,該模塊包括一個上采樣層和多個卷積編碼層。該模塊直接輸入語音時域波形。編碼模塊首先對語音信號進行上采樣,然后通過多層編碼層分別進行卷積編碼。每個編碼層都由一維卷積、ReLU函數激活層、一維卷積層和GLU函數激活層級聯而成。
圖14 TU-NET編碼器模塊示意圖Fig.14 Schematic diagram of TU-NET encoder module
TU-NET的解碼器模塊如圖15所示,該模塊包括多個解碼層和一個下采樣層。每個解碼層由一維卷積層、GLU函數激活層、一維轉置卷積層級聯而成。同時,每個解碼層的輸入都由上一個解碼層的輸出和同級編碼層的輸出拼接而成。在最后一層,通過下采樣將語音信號的采樣頻率還原為原始輸入頻率。
圖15 TU-NET解碼器模塊示意圖Fig.15 Schematic diagram of TU-NET decoder module
為分析不同Transformer模塊對提升單通道語音增強模型的效果,本章選擇幾種典型Transformer語音增強模型,在不同測試集上進行對比分析。
對比實驗共采用了兩個語音增強中常用的測試數據集。一個數據集是VoiceBank-DEMAND數據集[41],其包含干凈語音信號和對應預混合的帶噪語音信號。干凈語音信號選自Voice Bank corpus數據集[42],噪聲信號選自DEMAND數據集[43]和2種人工合成的噪聲數據集。帶噪語音信號使用ITU-T P.56方法將干凈語音信號和噪聲信號按不同信噪比加性合成。
另一個數據集包含有由TIMIT干凈語音數據集和Musan噪聲信號數據集[44]生成的帶噪語音數據。TIMIT數據集一共有6 300條語音信號,包括了630個說話人,每人10條語句的發(fā)音。帶噪語音信號是將Musan數據集中不同類型的噪聲信號按照不同信噪比添加到TIMIT干凈語音信號上形成的。
語音增強的性能評價指標主要有兩大類,一類是客觀質量指標,一類是主觀測試指標。客觀指標主要包括PESQ(perceptual evaluation of speech quality)[45]和STOI(short-time objective intelligibility)[46],主觀指標[47]主要包括MOS(mean opinion score)評估方法中的CSIG(MOS predictor of speech distortion)、CBAK(MOS predictor of intrusiveness of background noise)和COVL(MOS predictor of overall processed speech quality)。
PESQ方法側重于評估處理語音的總體質量。其分值范圍為-0.5~4.5,分值越高,語音的總體質量越好。STOI方法是短時客觀可懂度得分方法,側重于評估處理語音的可懂度。其得分范圍為0~1,得分越高,語音的可懂度越高。
MOS分由一組測試者試聽原始語音和測試語音,并按照評分標準進行主觀打分得到。由于MOS評估成本較高,多用CSIG、CBAK和COVL等客觀計算方法來擬合。CSIG是用于計算語音失真度的MOS值,CBAK是用于計算背景噪聲干擾的MOS值,COVL是用于計算整體語音質量的MOS值。它們的評分范圍都為[1,2,3,4,5],共5個等級,1表示語音質量很差,5表示語音質量非常好,且評分越高,語音質量越好。本文對測試模型分別計算PESQ、STOI、CSIG、CBAK和COVL的評估值(用于計算評估值的代碼:HTTPS://GITHUB.COM/IMLHF/SPEECHENHANCEMENTMEASURES),來綜合評估增強語音的客觀質量和主觀質量。
3.3.1 Voice Bank corpus數據集上增強效果對比
為綜合對比基于Transformer的語音增強模型性能,引入SEGAN模型[48]、Wave U-net模型[19]、DCUNet-16模型[20]、PHASE模型[49]、DEMUCS模型[21]作為對照。表2給出了不同增強模型在Voice Bank corpus數據集上五種評價指標的結果,前八種增強模型的實驗結果源自原始論文。
表2 在Voice Bank corpus上的語音評價得分Table 2 Speech evaluation scoreson Voice Bank corpus
從表2中可以分析得出:
第一,與表1的前五種增強模型相比,后四種使用Transformer的增強模型可以顯著提升PESQ、CSIG、CBAK和COVL指標得分,這說明使用Transformer模型可以對語音內在關聯信息的學習更為充分,因此增強后的語音音質有了較大改善。
第二,綜合比較后四種基于Transformer增強模型的各項指標得分,T-GSA和DPT-FSNET的效果要優(yōu)于TST-NN和TU-NET。T-GSA和DPT-FSNET都是基于頻域處理的增強模型,這說明通過Transformer提取時頻域特征所包含的注意力信息比原始的時域特征更加有效。由于自注意力機制采用了并行計算,無需將輸入語音的特征拉平,避免了因使用全連接網絡而產生對語音信號時頻結構的破壞。因此,對時頻域特征采用自注意力機制,可以更好地區(qū)分帶噪語音信號中的干凈語音和噪聲。
3.3.2 TIMIT數據集上增強效果對比
在TIMIT數據集上,對SETransformer和TU-NET的增強效果進行對比,給出了不同信噪比條件下PESQ、STOI的指標得分,并繪制了不同信號的波形圖和語譜圖。SETransformer所有實驗結果源自原始文獻[27]。
由表3可知TU-NET的PESQ、STOI指標得分都優(yōu)于SETransformer,且在不同信噪比條件下語音的增強效果都有了一定的改善。這說明,同時利用U-net不同尺度特征融合的優(yōu)勢和Transformer多頭注意力的優(yōu)勢,能夠有效提升不同信噪比條件下語音的增強性能。
表3 在TIMIT上的語音評價得分Table 3 Speech evaluation scores on TIMIT
為了進一步對比SETransformer和TU-NET的增強效果,圖16展示了帶噪語音信號、干凈語音信號、SETransformer增強語音信號、TU-NET增強語音信號的波形圖和語譜圖。圖中的帶噪信號被信噪比為0 dB的手機來電噪聲所干擾。紅色方框表示語音波形的變化,黑色圓框表示語音信號的諧波結構。對比紅色方框中的語音波形可以發(fā)現,經過SETransformer增強后的語音波形圖存在嚴重的失真問題且后半段語音信號的波形包絡不太完整,而經過TU-NET增強后的語音波形包絡依然可以完整的保存。對比黑色橢圓框中的頻譜分量可以發(fā)現,SETransformer增強模型能夠抑制更多的噪聲,但會導致語音諧波結構的不清晰,語音信號已明顯失真,在聽覺感知上該增強后的語音信號音量較小且存在明顯的機械聲音,而TU-NET增強模型能夠保存相對完整的諧波結構;通過觀察語譜圖可以發(fā)現圖16(h)中的背景色調偏暖,這是因為舒適噪聲的存在,在聽覺感知上并不影響人耳的感受,該增強后的語音信號音量正常且較為清晰。
圖16 語音質量的對比圖Fig.16 Comparison chart of voice quality
由于Transformer模型具有可并行、長時預測的性能,在語音增強的研究中逐漸受到越來越多的關注。在現有模型的基礎上,還將在以下幾個方面有所發(fā)展。
(1)結合優(yōu)化的網絡結構和損失函數。深度網絡結構和使用的損失函數對網絡性能有著重要的影響。TU-net采用了U-net結構,性能在SETransfomer基礎上有所提高。SETransformer增強模型采用均方誤差(MSE)作為損失函數。而TST-NN同時結合了時域和時頻域的損失函數,時域中采用MSE損失函數,時頻域中采用平均絕對誤差(MAE)損失函數。這些結果表明,采用表征學習能力更強的網絡框架,以及更準確反映語音音質和噪音抑制效果的損失函數,將進一步提升語音增強質量。
(2)結合人類聽覺感知。在低信噪比、混響等條件下,即使采用了深度神經網絡仍難以較好地提升語音增強的質量[47]。若從人類聽覺感知機理出發(fā),研究基于聽覺感知的語音增強模型或者基于聽覺感知的損失函數,將對語音增強模型有很好的推動作用。
(3)引入噪聲自適應機制。利用自適應字典學習算法為深度模型構造噪聲字典,或者利用強化學習算法自適應學習不同噪聲環(huán)境下的獎勵,可以對網絡模型的增強結果作進一步優(yōu)化,有利于提升增強模型在不同噪聲條件下的適應能力。
(4)設計因果Transformer模型?,F有基于Transformer的語音增強模型,需要同時使用上下文特征信息,這種對下文信息的依賴使得Transformer模型并不具有因果性,實現的語音增強模型也無法適應即時通信場合。由于Transformer具有參數量少的優(yōu)勢,TST-NN[28]和DPTFSNET[29]的參數規(guī)模已低于4 MB,通過因果Transformer模型的優(yōu)化設計,結合現有硬件發(fā)展成果,提高實時比,有望實現嵌入式的實時語音增強系統(tǒng)。
(5)設計多通道增強模型。本文所研究的內容都是基于單通道的語音增強模型?,F在很多終端設備都具有多個麥克風,如果能夠合理利用不同的通道信息,實現通道注意力機制或者空間注意力機制,從理論上來說有助于恢復干凈語音信號。
本文系統(tǒng)介紹了基于Transformer的單通道語音增強模型,通過對網絡結構的研究與分類,詳細地闡述了T-GSA、SETransformer、DPT-FSNET、TST-NN和TU-NET等網絡模型結構,對比分析了這些模型的各自優(yōu)缺點。文中介紹的五種語音增強模型的原始網絡都是基于編碼-解碼網絡模型的,無論采用了何種集成方式,Transformer模塊均可以發(fā)揮模型自身的優(yōu)勢,很好地提高語音的質量和可懂度。下一步,可根據發(fā)展趨勢進一步探索Transformer模塊在語音增強的深度應用,以更少的網絡參數,更快的處理速度為最終的目標,從而更好地實現高質量的單通道語音增強。