鞏瑾琪,葉萍△,吳逸凡,常兆華,樊偉,許長建
(1.上海理工大學 健康科學與工程學院,上海 200093;2.上海微創(chuàng)天籟醫(yī)療科技有限公司,上海 200120)
聽力損失是一種嚴重的感覺障礙,對人類健康構成重大威脅。在臨床上,聽力損失被分為傳導性、感音神經(jīng)性和混合性三類,其程度又被進一步劃分為0級、輕度、中度、重度和極重度[1-2]。根據(jù)世界衛(wèi)生組織的統(tǒng)計數(shù)據(jù),中國是全球聽力障礙人口最多的國家,殘疾性聽力障礙患者高達2 780萬,聽障兒童超過460萬。近年來,由于環(huán)境污染等因素的影響,患者人數(shù)每年大約增加30萬人[3-4]。
人工耳蝸(cochlear implant)被譽為目前世界上最成功的神經(jīng)假體,能幫助患有傳導性聽力損失[5]和重度感音神經(jīng)性聽力損失[6]的患者獲得或恢復聽覺。人工耳蝸在安靜環(huán)境中,其語音感知效果與正常人群相當,但在噪聲環(huán)境中的語音感知效果較差[7-8]。通過將同一語音在噪聲環(huán)境和安靜環(huán)境下輸入人工耳蝸,獲得人工耳蝸的電信號,然后通過逆信號處理,可獲取人工耳蝸的語音波形圖[9]。由圖1可知,噪聲環(huán)境下的語音波形更加雜亂,可影響患者的語音感知效果。因此,通過語音增強和降噪,將噪聲環(huán)境變?yōu)榘察o環(huán)境,可提高人工耳蝸佩戴者的語音感知效果。
圖1 逆處理后的語音波形
近年來,人工智能(artificial intelligence ,AI)[10]和硬件設備的性能得到了迅速發(fā)展,基于AI算法提高人工耳蝸在噪聲環(huán)境中的語音感知效果成為研究熱點。AI算法在人工耳蝸語音處理模塊的應用主要分為兩類。第一類是AI環(huán)境分類結合降噪算法應用于人工耳蝸,Cochlear、Advanced Bionics和MED-EL等公司已經(jīng)實現(xiàn)了這類方法的商業(yè)化[11]。降噪算法主要包括log-MMSE[12]、Wienerfiltering[13]和KLT[14]等傳統(tǒng)降噪方法。這些算法在一致的環(huán)境下可在一定程度上提高語音感知效果,但算法的魯棒性較差[15]。因此,目前人工耳蝸通過降噪算法結合AI環(huán)境分類,僅針對分類結果一致的環(huán)境進行降噪。然而,自然界中的環(huán)境復雜多變,基于語音進行環(huán)境分類的準確率難以保證,而且將復雜的自然環(huán)境簡單分類,也會影響信號處理效果。
第二類是利用AI算法強大的非線性擬合能力,直接對語音信號進行降噪處理,實現(xiàn)語音增強。這類算法已經(jīng)非常成熟,但受限于人工耳蝸的硬件,目前市面上仍無相應產品,人工耳蝸產品的AI降噪仍僅限于AI環(huán)境分類結合降噪算法。Lai等[16]提出了一種將深度降噪自動編碼器(deep denoising auto-encoder,DDAE)應用于人工耳蝸的語音處理模塊,進行語音增強,實驗結果表明,DDAE算法在STOI[17]和NCM[18]上均顯著優(yōu)于傳統(tǒng)算法。Wang等[19]在Lai的研究基礎上加入分類模塊,進一步驗證了DDAE在人工耳蝸中的降噪效果。在兩個女性爭吵說話的情況下,對人工耳蝸植入者的言語識別研究表明,DDAE相比傳統(tǒng)算法的言語識別率高出約20%。為進一步優(yōu)化人工耳蝸的語音增強網(wǎng)絡,Fu等[20]將一種端到端全卷積網(wǎng)絡(fully convolutional neural networks,FCN)用于人工耳蝸的語音處理模塊,結果顯示,FCN的STOI指標優(yōu)于log-MMSE和DDAE。
針對現(xiàn)有人工耳蝸的語音處理模塊在噪聲環(huán)境下的語音感知能力較弱,傳統(tǒng)降噪算法的魯棒性不足,以及AI環(huán)境分類結果不理想的問題,本研究提出了一種改進的Wave-U-Net算法。該算法代替了AI環(huán)境分類算法和傳統(tǒng)降噪算法的結合,實現(xiàn)了純AI化處理。通過編碼器-解碼器結構,模型能夠挖掘不同尺度的信息,以更全面地理解語音信號[21]。本研究采用了輕量化卷積來降低模型復雜度,并引入了Transformer部分,通過分析語音和噪聲信息的相關性,區(qū)分語音和噪聲,實現(xiàn)降噪,并通過優(yōu)化數(shù)據(jù)集增強模型的魯棒性。
對使用人工耳蝸的患者,本研究的首要目標是建立一個有效的言語感知系統(tǒng),使他們能夠像聽力健康者一樣進行交流。本研究的目的是人工耳蝸在安靜環(huán)境下的言語感知效果優(yōu)良。因此,采用改進的Wave-U-Net模型,將嘈雜的環(huán)境轉化為安靜的環(huán)境,以提高人工耳蝸患者在噪聲環(huán)境下的言語感知能力。本研究流程見圖2:第一部分是語音預處理階段;第二部分是使用改進的Wave-U-Net模型進行語音降噪,尋找最優(yōu)解,以增強人工耳蝸在復雜噪聲環(huán)境下的語音感知效果;第三部分是使用評估指標對處理后的語音信號進行評估,以驗證模型性能。
圖2 研究流程圖
Wave-U-Net網(wǎng)絡結構具有整合并學習語音中低層次和高層次信息的能力,能對語音信號進行多尺度處理,即使在小數(shù)據(jù)集上也能取得良好效果[22]。低層次信息主要包括語音信號的原始波形數(shù)據(jù),如音頻信號中的基本特征和頻率等局部特征。相反,高層次信息則是對聲音更高級別的理解,例如語音中的語調、語速、音調等整體特征。Wave-U-Net網(wǎng)絡結構通過層次化結構可實現(xiàn)低層次和高層次信息的分離和整合。網(wǎng)絡底層主要負責捕捉低層次細節(jié),隨著網(wǎng)絡層次的提高,逐漸學習到更抽象和高層次的語音表示。通過跨層連接和注意力機制,結合低層次和高層次特征,以綜合全局和局部信息,提高對語音信號的整體理解。然而,Wave-U-Net的卷積模塊對噪聲與語音的差異敏感度不高,無法很好地區(qū)分語音和噪聲[23]。因此,本研究將Wave-U-Net作為基本框架,引入Transformer模塊,以增強模型在分離語音和噪聲方面的能力。然而,直接使用改進模型會導致參數(shù)量大、計算成本高,增加處理模塊的運算成本。因此,本研究選擇使用輕量型卷積模塊替代原模型的標準卷積塊。
本研究采用輕量化卷積替代標準卷積,以降低模型的復雜性,輕量化卷積的核心是深度可分離卷積(depthwise separable convolution,DWConv)[24]。Li等[25]提出了一種新型的輕量化卷積技術,名為GSConv,在精度和計算成本之間取得了良好的平衡。盡管GSConv主要應用于二維圖像領域,但本研究對其進行了調整,將其轉化為Wave-GSConv,使其適用于一維語音數(shù)據(jù),該卷積模型由標準卷積和DWConv兩部分組成,將標準卷積和DWConv的輸出特征圖在通道維度上進行拼接(Concat)操作,最后進行通道混洗(Shuffle)然后輸出,見圖3。
圖3 Wave-GSConv結構圖
帶噪聲的語音由噪聲信號和清晰的語音信號組成。由于一維卷積受感受野的限制,對語音和噪聲區(qū)分不敏感[26]。因此,本研究引入了Transformer模塊進行加權計算,通過放大兩者的特征信息,提高模型的收斂速度[27]。
圖4 Transformer模塊
(1)
(2)
本研究提出的改進的Wave-U-Net結構,見圖5。該結構由編碼器和解碼器組成,無需進行預處理和后處理(如特征提取和語音恢復),減少了冗余步驟,實現(xiàn)了語音增強。首先,語音數(shù)據(jù)輸入到編碼器中,通過Wave-GSConv和下采樣進行特征提取。每一層的跳躍連接可整合不同層次的信息。然后,編碼器的特征輸入到解碼器中,通過Transformer模塊和上采樣,對噪聲數(shù)據(jù)進行抑制。最后,通過一個1*1的卷積層和tanh激活層,輸出增強后的語音信號。此外,本研究將改進的算法應用于人工耳蝸的語音處理模塊,并與策略編碼相連;設置算法的通道數(shù)與電刺激的通道數(shù)相匹配,以提高語音算法在人工耳蝸中的適應性,使得后續(xù)的策略編碼通道篩選更加清晰[28]。
圖5 改進Wave-U-Net 結構
在語音增強研究中,模型的損失函數(shù)是一個關鍵因素,可有效指導模型快速且高效地收斂。本研究最初采用均方誤差(mean-square error, MSE)[29]作為損失函數(shù)來驅動模型的收斂過程。MSE的定義見式(3):
(3)
本研究采用了STOI[30]作為評估語音感知效果的指標。STOI是基于人類聽覺感知原理設計的指標,其目標是盡可能地模擬人類對語音可懂度的主觀感知。STOI的計算見式(4)。STOI的取值范圍在0~1之間,值越接近1,表示處理后的語音的可懂度越高。
(4)
然而,在模型收斂過程中,尤其是當損失函數(shù)趨于穩(wěn)定時,雖然每輪測試集的平均MSE在減小,但平均STOI卻出現(xiàn)了降低。處理后數(shù)據(jù)的語譜圖見圖6。圖中的上行和下行分別表示兩條語音訓練過程中的MSE、STOI和語譜圖的變化。圖6(a)代表干凈的語音語譜圖;圖6(b)是經(jīng)過n輪訓練后的MSE、 STOI和語譜圖;圖6(c)表示經(jīng)過2n輪訓練后的MSE、 STOI和語譜圖。由圖6可知,隨著訓練輪次的增加,語音信號的均方誤差(MSE)呈現(xiàn)下降趨勢,表明處理后的語音信號在數(shù)值上更接近于原始語音。理論上,STOI值應隨之增大,然而,實際觀察到的情況卻是STOI值減小。盡管經(jīng)過更多輪次訓練,語音信號的可懂度出現(xiàn)了降低現(xiàn)象。該發(fā)現(xiàn)顯示,在數(shù)值上接近原始語音,并不一定意味著語音的可懂度提高。因此,在主觀聽覺系統(tǒng)中,STOI和MSE兩種評估方法對語音清晰度的感知效果并不等效。換言之,采用MSE作為損失函數(shù)并不能確保模型向最優(yōu)的語音感知效果方向收斂。然而,如果將損失函數(shù)替換為STOI,模型的收斂速度會變慢,且容易陷入局部最優(yōu)值。
圖6 處理后數(shù)據(jù)的語譜圖
為此,本研究提出了一種結合STOI和MSE的方法,見式(5)。在訓練開始時,通過調節(jié)權重α和β控制模型收斂速度。首先,增加MSE的權重α,以使模型快速收斂。隨后,逐步增加STOI的權重,同時降低MSE的權重,以使模型趨向于最優(yōu)解。值得注意的是,α的增長和β的減少都是指數(shù)級的。兩個參數(shù)每5輪變化一次,且每次變化的指數(shù)相同。
loss=α(1-STOI)+βMSE
(5)
本研究的語音數(shù)據(jù)來自清華中文語音數(shù)據(jù)集(THCHS-30)[30]。鑒于U-Net網(wǎng)絡在小數(shù)據(jù)集上的優(yōu)秀表現(xiàn)[31],本研究改進的Wave-U-Net模型從數(shù)據(jù)集中隨機挑選了6 975條清晰的語音樣本進行實驗。
本研究的噪聲數(shù)據(jù)來自文獻[32-33]和上海某公司的室內噪聲數(shù)據(jù)。這些噪聲數(shù)據(jù)包括Babble、語譜噪聲(speech-shaped noise,SSN)、white、粉紅噪聲、交通噪聲、公司噪聲和風噪。在-5、0、5、10 dB四種信噪比下,本研究將干凈的語音與隨機選擇的三種噪聲混合,生成包含噪聲的數(shù)據(jù)集。同時,采用了動態(tài)掩模,隨機掩蔽帶噪語音中15%的噪聲信號。由于實際生活中的噪聲復雜多變,本研究并未對單一噪聲進行測試,而是選擇了隨機混合,并進行動態(tài)掩模噪聲,以增強模型的魯棒性。最后,將數(shù)據(jù)集分為訓練集(5 580條)和測試集(1 395條)。
本研究使用Windows 10操作系統(tǒng);處理器是Intel(R) Core(TM) i7-10870H CPU;運行速度為2.20 GHz,內存為16 GB;使用的GPU是NVIDIA GeForce RTX 2060;編程語言為Python 3.9;深度學習平臺為Torch。
在模型對比評估過程中,本研究對所有模型的超參數(shù)進行統(tǒng)一配置(初始學習率設定為1×10-4,每個批次的訓練樣本數(shù)為4,設置300個訓練周期,每5個訓練周期后,學習率將降為原來的90%),旨在確保公平的比較基準,并優(yōu)化模型性能。
由于人工耳蝸對模型的復雜度有特定要求,因此,本研究選擇計算量(GFLOPs)和參數(shù)量(Params)綜合評估模型復雜度。GFLOPs常用于衡量模型的計算復雜度,而Params則用于評估模型的空間復雜度,即模型占用顯存的大小。
此外,本研究基于噪聲環(huán)境和安靜環(huán)境下的語音感知效果,將降噪效果視為語音感知的評估。語音感知質量評價(PESQ)是由國際電信聯(lián)盟推薦并制定為一種客觀質量評估標準(P.862.2標準)[34]。一般來說,PESQ的取值范圍為1.0(語音質量差)至4.5(語音質量最佳)。為提高模型評估的準確性和可信度,本研究采用了STOI和PESQ兩個指標對不同模型處理后的語音數(shù)據(jù)進行評估。
為提升模型在區(qū)分語音和噪聲方面的能力,本研究引入了Transformer模塊,并進行了對比實驗。記錄了初始的STOI值,并每隔5輪記錄一次STOI的變化值,以此對比分析是否包含Transformer模塊的STOI值變化情況,見表1。結果表明,引入Transformer模塊后,包含Transformer模塊組別的STOI值變化更快。因此,改進后使得模型在區(qū)分噪聲方面的能力更強,收斂速度更快,更適用于人工耳蝸的語音增強。
表1 Transformer模塊的效果對比表
由圖7可知,所有評估指標中,傳統(tǒng)降噪算法的離散程度最大,表明算法的測試結果較為分散、個體差異大,算法的魯棒性較低。通過對圖表的綜合分析,可發(fā)現(xiàn)本研究改進Wave-U-Net網(wǎng)絡的效果最優(yōu)。
圖7 測試集箱型圖
為評估模型性能并確保結果的可靠性,本研究使用訓練集對所有模型進行了重新訓練,并在測試集上評估。將人工耳蝸常用的傳統(tǒng)降噪算法(如維納濾波和譜減法),以及文獻中已在人工耳蝸中應用的DNN[16]、CNN[20]和降噪效果優(yōu)異的Sudo rm-rf[35]算法與本研究算法進行了對比。由表2可知,本研究算法在測試集上的STOI均值為0.81,PESQ均值為2.75,明顯優(yōu)于傳統(tǒng)算法。與已應用在人工耳蝸中的DNN、CNN算法相比,性能也有明顯提高。然而與Sudo rm-rf算法相比,仍存在一定差距。但當本研究增加了改進Wave-U-Net的編碼器和解碼器的層數(shù)后,發(fā)現(xiàn)改進算法可達到與Sudo rm-rf相近的效果。
表2 7種降噪算法在測試集中對應STOI和PESQ值
人工耳蝸對模型的大小和運行時間有特定要求,因此,模型復雜度是一個重要的參考標準。在輸入相同數(shù)據(jù)的情況下,本研究計算了模型的GFLOPs和Params,見表3。與Wave-U-Net相比,本研究改進的Wave-U-Net模型顯著降低了計算復雜度。此外,與Sudo rm-rf的復雜度相比,也有很大的降低,且遠低于CNN和DNN模型的復雜度。因此,改進的Wave-U-Net模型在降低模型復雜度方面取得了顯著效果。
表3 模型復雜度對比
總之,改進后的Wave-U-Net在模型復雜度上滿足了人工耳蝸的需求。盡管在降噪效果評分上,不如Sudo rm-rf模型表現(xiàn)出色,這主要是由于模型規(guī)模較小所致。隨著模型層數(shù)的增加,其效果逐漸接近Sudo rm-rf模型,且效果接近時,算法復雜度遠低于Sudo rm-rf。此外,與傳統(tǒng)算法相比,本模型具有更好的魯棒性,其降噪效果的離散程度也較低。
本研究針對人工耳蝸在噪聲環(huán)境下言語感知能力差的問題,提出了一種改進的Wave-U-Net模型。通過采取輕量化卷積,引入注意力機制,改進損失函數(shù),優(yōu)化數(shù)據(jù)集結構,面對復雜的噪聲環(huán)境,實現(xiàn)了STOI為0.81、PESQ為2.75的降噪效果。該結果表明,人工耳蝸在噪聲環(huán)境下的言語感知效果得到了顯著的提升。
然而,本研究仍存在一些局限性。首先,本研究基于噪聲環(huán)境和安靜環(huán)境的言語感知效果,將降噪效果作為人工耳蝸言語感知的評估指標。但是,本研究缺少患者真實的言語感知效果,因此,后續(xù)需要進行臨床實驗研究。其次,本研究算法受人工耳蝸硬件系統(tǒng)的限制,并未采取優(yōu)異的語音增強算法,因此,在算法方面仍有進步空間。盡管如此,本研究成果仍具有重要的參考價值。研究結果可為后續(xù)人工耳蝸的語音處理模塊提供一定的參考價值。此外,隨著研究的深入,未來希望可以融合電極端,真正實現(xiàn)人工耳蝸的端到端AI算法,進一步推動人工耳蝸技術的發(fā)展,為聽力損傷患者帶來更大的福音。