亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于字典尺度自適應(yīng)學(xué)習(xí)的欠定盲語音重構(gòu)算法*

        2023-09-26 11:22:38李嘉新俞守庚
        電訊技術(shù) 2023年9期
        關(guān)鍵詞:字典原子語音

        李嘉新,魏 爽,2,俞守庚,劉 睿

        (1.上海師范大學(xué) 信息與機電工程學(xué)院,上海 201418;2.上海交通大學(xué) 感知與導(dǎo)航研究所,上海 200030)

        0 引 言

        欠定盲源分離(Underdetermined Blind Source Separation,UBSS)廣泛應(yīng)用于語音分離[1]、干擾減緩[2]、圖像處理[3]和通信信號處理[4]等領(lǐng)域。由于缺乏足夠的先驗信息,UBSS是一類不適定問題[1]?,F(xiàn)有的“兩步法”利用稀疏表示技術(shù)解決語音UBSS中的上述問題[5-6],但是“兩步法”利用頻域的稀疏性來恢復(fù)語音源信號,容易出現(xiàn)相位解耦和時延等問題[7]??紤]到字典學(xué)習(xí)算法可以直接在時域捕獲語音信號的稀疏性[8-10],研究人員在“兩步法”框架中應(yīng)用字典學(xué)習(xí)技術(shù),將UBSS問題轉(zhuǎn)化為稀疏信號恢復(fù)問題[1],提高算法的通用性。

        主流的字典學(xué)習(xí)算法包括在線字典學(xué)習(xí)(Online Dictionary Learning,ODL)[11]、K-SVD(K-means Singular Value Decomposition)[12]、同步碼字優(yōu)化(Simultaneous Codeword Optimization,SimCO)[13]等,采用優(yōu)化算法訓(xùn)練字典,以獲取語音信號的稀疏特征。但對于復(fù)雜多變的語音信號,上述算法始終使用固定的字典尺寸,導(dǎo)致字典對信號的稀疏表示效果不佳。此外,它們利用先驗知識來預(yù)設(shè)字典尺寸,當(dāng)訓(xùn)練數(shù)據(jù)或約束條件發(fā)生變化時,需要重新進行實驗來確定字典尺寸。如果字典太大,訓(xùn)練字典的成本會增加,也會導(dǎo)致過擬合問題;字典太小,會導(dǎo)致信號的稀疏表示效果變差。以上問題限制了算法的性能,因此確定合適的字典尺寸是當(dāng)前研究的重點和難點[14]。

        目前,調(diào)整字典尺寸的算法有尺度自適應(yīng)字典學(xué)習(xí)(Scale Adaptive Dictionary Learning,SADL)[15]、Stagewise K-SVD[16]、尺寸優(yōu)化字典學(xué)習(xí)(Size-Optimizing Dictionary Learning,SODL)[14]、自適應(yīng)字典學(xué)習(xí)(Adaptive Dictionary Learning,ADL)[17]、自適應(yīng)尺寸字典學(xué)習(xí)(Adaptive-Size Dictionary Learning,AS-DL)[18-19]等。SADL將多元莫羅近端指標(Multivariate Moreau Proximal Indictor,MMPI)作為字典學(xué)習(xí)目標函數(shù)中的懲罰項,在圖像重建中優(yōu)化字典尺寸。SODL首先根據(jù)先驗知識預(yù)設(shè)一組字典尺寸,訓(xùn)練字典時在預(yù)設(shè)的字典尺寸范圍內(nèi)篩選出一個符合訓(xùn)練數(shù)據(jù)的字典尺寸。雖然該方法簡單易懂,但是它在確定最佳字典尺寸方面存在限制,具有不靈活性。Stagewise K-SVD與ADL在迭代訓(xùn)練字典的過程中,通過擴大字典尺寸來降低稀疏表示誤差,然而它們面對不同訓(xùn)練數(shù)據(jù)時的適應(yīng)性較差,應(yīng)用于語音UBSS中的效果不理想。AS-DL應(yīng)用信息論準則(Information-Theoretic Criteria,ITC)來優(yōu)化字典尺寸,并且在磁共振成像(Magnetic Resonance Imaging,MRI)中取得了不錯的效果。但是該算法過渡依賴ITC,導(dǎo)致訓(xùn)練的字典不能很好地擬合語音數(shù)據(jù),造成語音源信號的恢復(fù)效果不佳。

        針對上述算法存在的問題,本文提出一種尺度自適應(yīng)同步碼字優(yōu)化(Scale Adaptive Simultaneous Codeword Optimization,SASimCO)算法來解決語音UBSS中優(yōu)化字典尺寸的問題。本文算法既不會在預(yù)設(shè)的字典尺寸中進行機械地篩選,也不會簡單地增加字典尺寸,而是在訓(xùn)練字典的過程中同時調(diào)節(jié)尺寸與更新原子,降低稀疏表示誤差,得到一個具有良好稀疏性的過完備字典。這使得字典對語音信號的稀疏表示更加靈活和穩(wěn)定,有效提高語音源信號的恢復(fù)效果,具有實際應(yīng)用價值。

        1 系統(tǒng)模型

        1.1 欠定盲源分離模型

        不考慮噪聲的情況下,UBSS的模型為

        X=AS。

        (1)

        式中:X∈m×T表示m個真實已知的觀測信號,T表示樣本點;S∈n×T表示n個未知的源信號,需要通過重構(gòu)算法恢復(fù);A∈m×n表示混合矩陣,需要從X中估計。該模型的目的是求解在m

        1.2 稀疏信號恢復(fù)模型

        (2)

        現(xiàn)把式(2)簡寫成

        b=Hf。

        (3)

        式中:f,b和H表示變換后的元素,f表示源信號,b表示觀測信號,H表示混合矩陣。假設(shè)f在字典域是稀疏的,那么f可以寫成

        f=Dy。

        (4)

        式中:D∈M×K表示字典,K表示字典原子數(shù)量;y表示稀疏系數(shù)。根據(jù)式(3)和式(4),可以得到

        b=HDy。

        (5)

        式中:H本質(zhì)上由混合矩陣估計算法估計得到,字典D由字典學(xué)習(xí)算法訓(xùn)練得到,b由已知的觀測信號X變換而來。至此,源信號f可由稀疏信號恢復(fù)算法得到。

        2 SASimCO算法

        SASimCO算法具有優(yōu)化字典尺寸的策略,它根據(jù)訓(xùn)練數(shù)據(jù)自適應(yīng)地優(yōu)化字典尺寸。該策略的關(guān)鍵在于設(shè)計候選矩陣,以及根據(jù)候選原子分數(shù)和字典原子“能量”在字典中添加或刪除原子。首先,為了避免不恰當(dāng)?shù)某跏甲值涑叽缬绊懹?xùn)練字典的效果,SASimCO算法將字典尺寸設(shè)置為可選值范圍的中間值,并使用離散余弦變換(Discrete Cosine Transform,DCT)來初始化字典原子。然后,SASimCO算法利用SimCO算法[13]來更新字典原子,利用正交匹配追求(Orthogonal Matching Pursuit,OMP)算法[21]進行稀疏編碼。但是不同于傳統(tǒng)的字典學(xué)習(xí)算法,SASimCO算法在預(yù)設(shè)初始字典尺寸后,執(zhí)行優(yōu)化字典尺寸的策略,刪除無用的原子并且增加有用的原子,最會得到一個最優(yōu)的字典尺寸,使得該字典對信號的稀疏表示誤差最小。因此,SASimCO算法訓(xùn)練得到的字典尺寸與初始字典尺寸有本質(zhì)的區(qū)別。SASimCO算法既可以提高訓(xùn)練字典的效率,又可以降低字典對信號的稀疏表示誤差,是同時兼具效率與性能的算法。

        SASimCO算法的偽代碼如下:

        輸入:Y∈M×N,K0,Kmin,Kmax,L,SP,Imax,errmin

        輸出:D∈M×K

        初始化DCT字典D0∈M×K0

        fori=1 toImax

        Gi-1=OMP(Di-1,Y,SP)

        (Di,Gi)=SimCO(Y,Di-1,Gi-1)

        訓(xùn)練候選矩陣Ui∈M×L

        刪除Di中很少使用的原子

        將Ui中原子添加到Di

        (Di,Gi)=SimCO(Y,Di,Gi)

        迭代停止

        2.1 訓(xùn)練候選矩陣

        設(shè)計候選矩陣是為了存儲能夠提高字典對信號稀疏表示性能的原子,通過對殘差矩陣r∈M×N進行奇異值分解(Singular Value Decomposition,SVD)來訓(xùn)練候選矩陣中的原子。殘差矩陣r的計算方法如下:

        r=Y-DG。

        (6)

        式中:Y∈M×N表示訓(xùn)練數(shù)據(jù);D表示當(dāng)前字典;G∈K×N表示稀疏矩陣。對殘差矩陣r執(zhí)行SVD,只取前L個最大奇異值對應(yīng)的的左奇異向量構(gòu)成候選矩陣U∈M×L,在這些最大奇異值所對應(yīng)的左奇異向量的方向上儲存有殘差矩陣r的重要信息。因此,候選矩陣U能最大限度地保留殘差矩陣r的本質(zhì)特征,并且減少了殘差矩陣r的冗余信息。候選矩陣U中L個原子的候選分數(shù)Cscores可以根據(jù)式(7)來計算:

        (7)

        式中:i0=1:L表示候選矩陣U中每列原子的索引;⊙表示哈德瑪積;δ表示風(fēng)險閾值;|·|表示絕對值;V∈1×N與p∈1×N分別表示矩陣|UTr|∈L×N中每列的最大值和對應(yīng)的行索引;J={p≡i0}表示p中等于i0的索引集合?,F(xiàn)在用E表示(V⊙V)∈1×N,Υ(E≥δ)∈1×N,el與Υl分別表示E與Υ的第l個元素,表示計算指定集合J中Υ(E≥δ)的非零元素個數(shù)。候選分數(shù)較高的原子在對信號的稀疏表示中發(fā)揮著重要作用,首先考慮將它們添加到字典中。在訓(xùn)練字典的過程中,這些重要的原子將從候選矩陣添加到字典中來減少稀疏表示誤差,從而提高字典對語音信號的恢復(fù)效果。因此,候選矩陣的性能直接影響到字典對語音信號的稀疏表示效果,進而又影響到語音源信號的重構(gòu)效果。

        2.2 添加原子

        為了降低字典對信號的稀疏表示誤差,需要將候選矩陣中的部分原子添加到字典中來促進語音信號的恢復(fù)效果。當(dāng)候選矩陣中原子的候選分數(shù)Cscores大于候選閾值τ時(Cscores為正實數(shù),不失一般性,τ設(shè)為1),就將該原子添加到字典中,從而減小字典對信號的稀疏表示誤差,字典和語音信號之間的擬合程度可以得到提高,語音UBSS的效果就可以在很大程度上得到改善。

        2.3 刪除原子

        在字典域?qū)φZ音信號進行稀疏表示時,字典中有部分原子沒有被使用或很少被使用。為了優(yōu)化字典尺寸,提高語音信號的恢復(fù)效果,應(yīng)該從字典中刪除這部分原子。受到字典學(xué)習(xí)問題即式(8)

        (8)

        啟發(fā),有

        (9)

        式中:dj表示字典的第j列;gj表示稀疏矩陣的第j行。由于每一列字典原子dj都對應(yīng)著特定的稀疏系數(shù)gj,因此原子的重要性,即原子“能量”,可以通過其稀疏系數(shù)來表達。原子“能量”O(jiān)energy根據(jù)以下公式計算:

        (10)

        式中:ζj={l|gjl≠0}表示gj中第j行非零元素的位置,j=1:K,l=1:N?!澳芰俊痹礁?原子的重要性就越大。具有較低“能量”的原子首先考慮從字典中刪除,這樣可以保證字典中沒有無用或很少使用的原子,在保證不增大誤差的同時又縮小了字典尺寸。

        3 基于SASimCO算法的欠定盲語音分離框架

        在訓(xùn)練字典之前,考慮到語音信號的短時平穩(wěn)性[22-23],并且每一幀語音成分都存在差異性,首先將語音訓(xùn)練數(shù)據(jù)分幀處理,然后逐幀去訓(xùn)練字典原子,從而應(yīng)用SASimCO算法來優(yōu)化語音UBSS的字典尺寸。訓(xùn)練好的過完備字典在字典域中對混合語音進行稀疏表示,然后經(jīng)過分離系統(tǒng),在時域重建分離后的語音源信號。

        圖1 基于SASimCO算法的欠定盲語音分離框架

        4 仿真與分析

        4.1 實驗仿真

        實驗在Matlab R2020a中進行仿真,實驗數(shù)據(jù)來自SiSEC “Underdetermined speech and music mixtures development 2”數(shù)據(jù)庫的4個男聲和女聲。每段語音信號持續(xù)時間為10 s,采樣頻率為16 kHz,這意味著每段語音信號有T=160 000個樣本點。該實驗中預(yù)定義的混合矩陣A為

        (11)

        (12)

        圖2 語音源信號混合與恢復(fù)

        4.2 源信號分離效果分析

        語音源信號的分離性能可以通過信噪比(Signal-to-Noise Ratio,SNR)來衡量[28]:

        (13)

        4.2.1 候選原子數(shù)對源信號分離效果分析

        本節(jié)評估不同候選原子數(shù)L對所提算法性能的影響。候選原子是候選矩陣U的基礎(chǔ),字典訓(xùn)練過程中會選擇U中的候選原子添加到字典。L越多,U中存在重要候選原子的機會就越大,從U向字典添加重要的候選原子數(shù)量也會變多。通過L,可以間接地控制添加候選原子到字典的數(shù)量,從而影響所提算法的性能。圖3展示了實驗數(shù)據(jù)為4個女聲時,本文算法在不同L下語音源信號分離的平均SNR結(jié)果。根據(jù)實驗結(jié)果可以看出,隨著L的增加,語音源信號的分離性能逐漸增加。本文綜合考慮了算法性能與計算成本,將L設(shè)置為20,并將用于后續(xù)實驗。

        圖3 不同L下語音源信號分離的平均信噪比

        4.2.2 字典學(xué)習(xí)算法對源信號分離效果分析

        本節(jié)將SASimCO與上述幾種主流的字典學(xué)習(xí)算法在語音UBSS中的效果進行比較,算法的測試參數(shù)完全相同,實驗結(jié)果如表1和表2所示。通過對比發(fā)現(xiàn),在每路源信號恢復(fù)結(jié)果或者平均恢復(fù)結(jié)果上,本文提出的SASimCO算法比其他字典學(xué)習(xí)算法的源分離性高1~3 dB,性能優(yōu)勢較為明顯。

        表1 恢復(fù)4個女聲的SNR結(jié)果 單位:dB

        表2 恢復(fù)4個男聲的SNR結(jié)果 單位:dB

        4.3 優(yōu)化字典性能分析

        為了探究SASimCO算法在訓(xùn)練字典過程中對字典尺寸的優(yōu)化性能,使用4個女聲為實驗數(shù)據(jù),圖4展示了ADL、SODL和SASimCO在迭代過程中字典原子數(shù)的變化情況??梢钥闯?SODL在迭代過程中首先達到規(guī)定預(yù)設(shè)的最大尺寸,并保持字典原子數(shù)2 048不變。ADL在迭代過程中逐漸增加字典尺寸,最終字典原子數(shù)為1 705。SASimCO在前期迭代中,從候選矩陣添加了大量重要的原子到字典;在迭代后期,刪除了字典中較多“能量”低的原子,最終SASimCO訓(xùn)練的字典原子數(shù)為1 453。ADL和SASimCO在不同數(shù)據(jù)的多個稀疏水平下對字典尺寸優(yōu)化的結(jié)果如表3和表4所示。當(dāng)面對不同的語音數(shù)據(jù)時,ADL獲得的字典尺寸沒有太大差別,但SASimCO獲得的字典尺寸卻有明顯不同。相比于SODL與ADL,SASimCO優(yōu)化字典尺寸的策略最成功,并且經(jīng)過SASimCO訓(xùn)練得到的字典尺寸最小,降低了訓(xùn)練字典的成本。

        圖4 字典原子數(shù)在迭代中的變化情況

        表4 男混合語音的字典尺寸優(yōu)化結(jié)果

        4.4 稀疏表示誤差分析

        信號在字典域中的稀疏表示誤差定義為

        err=‖Y-DG‖F(xiàn)。

        (14)

        誤差越小,字典對信號的稀疏表示性能就越好。SimCO和SASimCO在訓(xùn)練字典的過程中誤差變化情況如圖5(a)所示,實驗數(shù)據(jù)為4個女聲。SimCO在100次迭代訓(xùn)練的過程中,字典原子數(shù)保持512不變;SASimCO在優(yōu)化字典尺寸的過程中,字典原子數(shù)由初始的512變?yōu)? 453。由圖5(a)可知,SimCO訓(xùn)練的字典稀疏表示誤差約為12.6,SASimCO的誤差約為12.2。SASimCO誤差下降的幅度與速度都優(yōu)于SimCO,具有明顯優(yōu)勢。

        (a)迭代100次

        (b)迭代1 000次圖5 稀疏表示誤差在迭代中的變化情況

        由于圖5(a)中誤差沒有達到穩(wěn)定狀態(tài),為了進一步驗證SASimCO對字典的優(yōu)化性能,在前100次迭代訓(xùn)練的基礎(chǔ)上增加了900次的迭代訓(xùn)練。在900次的迭代訓(xùn)練中,SASimCO字典原子數(shù)保持1 453不變,只更新字典原子不再優(yōu)化字典尺寸。SimCO在字典原子數(shù)分別為512與1 453時,迭代1 000次的誤差變化情況如圖5(b)所示。當(dāng)原子數(shù)為512時,SimCO的誤差約為10.5,SASimCO訓(xùn)練的字典誤差約為9.5;SimCO在字典原子數(shù)為1 453時的誤差與SASimCO相近,但是SimCO獲取與SASimCO相同的字典尺寸有一定滯后性。只有當(dāng)SASimCO訓(xùn)練得到最優(yōu)的字典原子數(shù)1 453時,SimCO才能設(shè)置與SASimCO相同的字典尺寸;在SASimCO訓(xùn)練字典結(jié)束之前,SimCO的字典原子數(shù)并不知道該設(shè)置為1 453。因此,SASimCO在優(yōu)化字典尺寸的策略上是成功的。

        SimCO與SASimCO訓(xùn)練1 000次后的字典用于語音UBSS的SNR結(jié)果如表5所示。即使當(dāng)SimCO設(shè)置與SASimCO相同的字典尺寸,其訓(xùn)練的字典用于語音UBSS的效果依然不如SASimCO。主要原因是SASimCO訓(xùn)練字典的策略包括更新原子與優(yōu)化尺寸,它不僅可以將候選矩陣中候選分數(shù)較高的原子增加到字典,還可以刪除字典中“能量”低的原子,而SimCO只單純地更新字典。

        表5 訓(xùn)練1 000次的字典恢復(fù)4個女聲的SNR結(jié)果 單位:dB

        綜上所述,經(jīng)過SASimCO訓(xùn)練得到字典的稀疏表示性能比SimCO更好,用于語音UBSS具有明顯的優(yōu)勢。

        4.5 運行時間分析

        為了衡量算法的復(fù)雜度,表6展示了不同字典學(xué)習(xí)算法訓(xùn)練一次字典所需CPU運行時間的對比結(jié)果,可以看到SimCO算法運行時間最短;由于SODL需要對一組字典尺寸進行遍歷,所以花費時間最多;由于本文算法需要進行字典尺寸更新的策略,故其運行時間高于SimCO算法;但是SASimCO運行時間比同類需要優(yōu)化字典尺寸的ADL算法降低了約17.2%,比SDOL算法降低了約66.3%,具有明顯的實用價值。

        表6 不同算法的CPU運行時間

        5 結(jié)束語

        本文提出SASimCO算法來解決傳統(tǒng)字典學(xué)習(xí)算法不能優(yōu)化字典尺寸的問題,根據(jù)不同的訓(xùn)練數(shù)據(jù)自適應(yīng)地獲得不同大小的字典,在很大程度上增強了字典域中語音信號的稀疏表示性能。從多個角度的驗證表明,SASimCO算法比基于先驗知識預(yù)先定義字典尺寸的方法更靈活,并且比其他優(yōu)化字典尺寸算法訓(xùn)練的字典更緊湊,用于語音UBSS具有明顯的優(yōu)勢。然而,本文算法可能對噪聲缺乏魯棒性,在接下來的研究工作中將重點考慮噪聲環(huán)境下的欠定盲語音分離問題。

        猜你喜歡
        字典原子語音
        開心字典
        家教世界(2023年28期)2023-11-14 10:13:50
        開心字典
        家教世界(2023年25期)2023-10-09 02:11:56
        少兒科學(xué)周刊·兒童版(2021年22期)2021-12-11 21:27:59
        原子可以結(jié)合嗎?
        帶你認識原子
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        我是小字典
        午夜视频在线瓜伦| 国产成人香蕉久久久久| 人妻中文字幕av有码在线| 欧美俄罗斯乱妇| 欧美激情国产一区在线不卡| 亚洲色图少妇熟女偷拍自拍| 日本久久精品福利视频| 免费大片黄国产在线观看| 亚洲成a v人片在线观看| 亚洲av乱码中文一区二区三区| 91免费国产高清在线| 日本韩国一区二区高清| 亚洲国产精品美女久久| 亚洲成熟女人毛毛耸耸多| 亚洲成在人线在线播放无码| 国产精品国产三级国av| 亚洲熟妇中文字幕日产无码| 国产91久久精品成人看网站| 色婷婷av一区二区三区久久 | 午夜亚洲精品一区二区| 中文字幕有码人妻在线| 日本熟日本熟妇中文在线观看| 少妇人妻真实偷人精品视频| 亚洲加勒比无码一区二区在线播放| 日韩精品一区二区三区av| 午夜视频在线观看一区二区小| 亚洲综合激情五月丁香六月| 国产一区二区三区美女| 蜜臀av人妻一区二区三区| 成人大片免费视频播放一级| 日本一区二区三区免费精品| 午夜毛片不卡免费观看视频| 一级呦女专区毛片| 日本道免费一区日韩精品| 午夜福利视频一区二区二区| 在线看片免费人成视频电影 | 国产成年女人毛片80s网站| 国产山东熟女48嗷嗷叫| 日韩一区二区三区中文字幕| 手机免费高清在线观看av| av无码电影一区二区三区|